このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220504となっている論文です。

PDF登録状況(公開日: 20220504)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子ビットにおける最適エントロピー圧縮と浄化

Optimal Entropy Compression and Purification in Quantum Bits ( http://arxiv.org/abs/2001.00562v4 )

ライセンス: Link先を確認
Varad R. Pande(参考訳) 対角線密度行列で表される量子系における混合計算キュービットのバイアスを最適に増加させる大域的ユニタリ変換(OPTSWAPS)は、その純度を増大させる計算基底の特定の状態に向けられる。 上記の3B-Compの一般化であるデータ圧縮手法を実装してこれを実現した量子回路について述べる。 これらの回路は、そのフォン・ノイマンやシャノンエントロピーの一部を任意の周囲の量子ビットに極大に転送することで計算キュービットの純度の増加を可能にし、初期偏差の完全な範囲に有効である。 オプスワップを用いることで、熱バスに開放されたエンジニアリング量子レジスタにおいて、量子ビットの階層依存的な冷却をそれぞれの限界にアルゴリズム的に行うことができる。 マルチキュービットの浄化と、いくつかのアーキテクチャにおけるDivincenzoの量子計算の基準の2つを満たすことに加えて、量子データ圧縮と量子熱力学におけるこの研究の影響について論じる。

Global unitary transformations (OPTSWAPS) that optimally increase the bias of any mixed computation qubit in a quantum system -- represented by a diagonal density matrix -- towards a particular state of the computational basis which, in effect, increases its purity are presented. Quantum circuits that achieve this by implementing the above data compression technique -- a generalization of the 3B-Comp used before -- are described. These circuits enable purity increment in the computation qubit by maximally transferring part of its von Neumann or Shannon entropy to any number of surrounding qubits and are valid for the complete range of initial biases. Using the optswaps, a practicable new method that algorithmically achieves hierarchy-dependent cooling of qubits to their respective limits in an engineered quantum register opened to the heat-bath is delineated. In addition to multi-qubit purification and satisfying two of DiVincenzo's criteria for quantum computation in some architectures, the implications of this work for quantum data compression and quantum thermodynamics are discussed.
翻訳日:2023-01-16 04:54:25 公開日:2022-05-04
# dropoutが反撃:多様性サンプリングによる不確実性推定の改善

Dropout Strikes Back: Improved Uncertainty Estimation via Diversity Sampling ( http://arxiv.org/abs/2003.03274v3 )

ライセンス: Link先を確認
Kirill Fedyanin, Evgenii Tsymbalov, Maxim Panov(参考訳) 機械学習モデルの不確実性推定は、モデル予測の信頼区間の構築や、分散点の検出や逆生成点の検出など、多くのシナリオにおいて非常に重要である。 本研究では,ニューラルネットワークのドロップアウト層に対するサンプリング分布の修正により,不確実性評価の品質が向上することを示す。 主要なアイデアは、ニューロン間のデータ駆動相関を計算し、最大多様なニューロンを含むサンプルを生成する、という2つの主要なステップで構成されています。 シミュレーションおよび実世界のデータに関する一連の実験において、決定点プロセスに基づくサンプリングによる多様化が、回帰および分類タスクの不確実性評価の最先端の結果を得ることを示した。 このアプローチの重要な特徴は、モデルやトレーニング手順の変更を一切必要とせず、ドロップアウト層を持つ任意のディープラーニングモデルへの簡単な適用を可能にすることです。

Uncertainty estimation for machine learning models is of high importance in many scenarios such as constructing the confidence intervals for model predictions and detection of out-of-distribution or adversarially generated points. In this work, we show that modifying the sampling distributions for dropout layers in neural networks improves the quality of uncertainty estimation. Our main idea consists of two main steps: computing data-driven correlations between neurons and generating samples, which include maximally diverse neurons. In a series of experiments on simulated and real-world data, we demonstrate that the diversification via determinantal point processes-based sampling achieves state-of-the-art results in uncertainty estimation for regression and classification tasks. An important feature of our approach is that it does not require any modification to the models or training procedures, allowing straightforward application to any deep learning model with dropout layers.
翻訳日:2022-12-26 00:43:26 公開日:2022-05-04
# 対話型説明モデル分析の文法

The Grammar of Interactive Explanatory Model Analysis ( http://arxiv.org/abs/2005.00497v4 )

ライセンス: Link先を確認
Hubert Baniecki, Dariusz Parzych, Przemyslaw Biecek(参考訳) 予測モデルの深い分析の必要性が高まり、その局所的および大域的性質を説明する一連の新しい方法が導かれる。 どちらの方法がベストですか? これは誤った質問であることがわかった。 1つの視点しか持たない単一の方法を用いて、ブラックボックス機械学習モデルを十分に説明できない。 孤立した説明は誤解を招きやすいため、誤ったあるいは単純な推論につながる。 この問題は羅生門効果として知られ、同じ現象の多様で矛盾する解釈をも指している。 驚くべきことに、ほとんどの手法は説明可能で責任ある機械学習のために開発された。 対照的に,モデルの対話的かつ逐次的な解析として説明可能性の問題を示す。 本稿では,説明モデル解析(ema)の異なる手法が相互に補完しあう方法を提案し,それらをjuxtaposeが重要である理由について述べる。 Interactive EMA(IEMA)の導入プロセスは、説明可能な機械学習のアルゴリズム側から派生し、認知科学で開発されたアイデアを受け入れることを目的としている。 我々はIEMAの文法を形式化し、潜在的な人間モデル対話を記述する。 対話性、カスタマイズ性、自動化を主な特徴とする、広く使われている人中心のオープンソースソフトウェアフレームワークで実装されている。 我々は,IEMAの有用性を評価するためにユーザスタディを実施し,モデルの対話的逐次解析が人的意思決定の性能と信頼性を高めることを示す。

The growing need for in-depth analysis of predictive models leads to a series of new methods for explaining their local and global properties. Which of these methods is the best? It turns out that this is an ill-posed question. One cannot sufficiently explain a black-box machine learning model using a single method that gives only one perspective. Isolated explanations are prone to misunderstanding, leading to wrong or simplistic reasoning. This problem is known as the Rashomon effect and refers to diverse, even contradictory, interpretations of the same phenomenon. Surprisingly, most methods developed for explainable and responsible machine learning focus on a single-aspect of the model behavior. In contrast, we showcase the problem of explainability as an interactive and sequential analysis of a model. This paper proposes how different Explanatory Model Analysis (EMA) methods complement each other and discusses why it is essential to juxtapose them. The introduced process of Interactive EMA (IEMA) derives from the algorithmic side of explainable machine learning and aims to embrace ideas developed in cognitive sciences. We formalize the grammar of IEMA to describe potential human-model dialogues. It is implemented in a widely used human-centered open-source software framework that adopts interactivity, customizability and automation as its main traits. We conduct a user study to evaluate the usefulness of IEMA, which indicates that an interactive sequential analysis of a model increases the performance and confidence of human decision making.
翻訳日:2022-12-07 23:30:26 公開日:2022-05-04
# リカレントフローネットワーク:都市移動度の密度モデリングのためのリカレント潜時変動モデル

Recurrent Flow Networks: A Recurrent Latent Variable Model for Density Modelling of Urban Mobility ( http://arxiv.org/abs/2006.05256v2 )

ライセンス: Link先を確認
Daniele Gammelli and Filipe Rodrigues(参考訳) モビリティ・オン・デマンド(MoD)システムは、移動要求が協調した車両群によって動的に処理される、急速に発展する交通手段である。 重要な点として、MoDシステムの効率は、時空間における供給と需要の分配の整合性に大きく依存する(すなわち、需要を満たすためには、車は正しい場所と所望の時間で利用できる必要がある)。 そこで我々は,都市移動需要の進展において,時間的変化と空間的変動とを明確に区別することを目的とした予測モデルを提案する。 しかし、現在のアプローチでは、一般的にこの区別を無視し、両方の変動源を共同で扱うか、そもそもそれらの存在を完全に無視するかのどちらかである。 本稿では,リカレントフローネットワーク(RFN)を提案する。 (i)時間変動をモデル化するリカレントニューラルネットワークの隠れ状態における潜在確率変数 (ii)移動需要の空間分布をモデル化するための流れの正規化 本研究では,空間的変動と時間的変動を明示的に区別する予測モデルが,いくつかの望ましい特性を示すことを示す。

Mobility-on-demand (MoD) systems represent a rapidly developing mode of transportation wherein travel requests are dynamically handled by a coordinated fleet of vehicles. Crucially, the efficiency of an MoD system highly depends on how well supply and demand distributions are aligned in spatio-temporal space (i.e., to satisfy user demand, cars have to be available in the correct place and at the desired time). To do so, we argue that predictive models should aim to explicitly disentangle between temporal} and spatial variability in the evolution of urban mobility demand. However, current approaches typically ignore this distinction by either treating both sources of variability jointly, or completely ignoring their presence in the first place. In this paper, we propose recurrent flow networks (RFN), where we explore the inclusion of (i) latent random variables in the hidden state of recurrent neural networks to model temporal variability, and (ii) normalizing flows to model the spatial distribution of mobility demand. We demonstrate how predictive models explicitly disentangling between spatial and temporal variability exhibit several desirable properties, and empirically show how this enables the generation of distributions matching potentially complex urban topologies.
翻訳日:2022-11-23 13:50:45 公開日:2022-05-04
# EllSeg:ロバストなゲーミングトラッキングのための楕円セグメンテーションフレームワーク

EllSeg: An Ellipse Segmentation Framework for Robust Gaze Tracking ( http://arxiv.org/abs/2007.09600v2 )

ライセンス: Link先を確認
Rakshit S. Kothari, Aayush K. Chaudhary, Reynold J. Bailey, Jeff B. Pelz, Gabriel J. Diaz(参考訳) 種々のコンピュータビジョン技術を用いて、予め分割された眼の部分に対して、瞳孔または虹彩追跡に基づくビデオオクログラフィーにおいて必須成分である楕円嵌合を行う。 まぶたの形、カメラの位置、まぶたによる咬合などいくつかの要因は、よく定義された瞳孔や虹彩エッジセグメントに依存する楕円型フィッティングアルゴリズムをしばしば破る。 本研究では,複数の公用合成セグメンテーションデータセットに対して標準眼部セグメンテーションを用いた場合と比較して,楕円構造全体を直接分割する畳み込みニューラルネットワークのトレーニングを提案し,その枠組みが閉塞に対して堅牢であることを示し,瞳孔と虹彩追跡性能(少なくとも10$\%$と24$\%$の瞳孔と虹彩中心検出率を2ピクセル誤差マージン内でそれぞれ増加させる)を提供する。

Ellipse fitting, an essential component in pupil or iris tracking based video oculography, is performed on previously segmented eye parts generated using various computer vision techniques. Several factors, such as occlusions due to eyelid shape, camera position or eyelashes, frequently break ellipse fitting algorithms that rely on well-defined pupil or iris edge segments. In this work, we propose training a convolutional neural network to directly segment entire elliptical structures and demonstrate that such a framework is robust to occlusions and offers superior pupil and iris tracking performance (at least 10$\%$ and 24$\%$ increase in pupil and iris center detection rate respectively within a two-pixel error margin) compared to using standard eye parts segmentation for multiple publicly available synthetic segmentation datasets.
翻訳日:2022-11-08 23:57:40 公開日:2022-05-04
# リモートセンシング画像のセマンティックセグメンテーションのためのMACU-Net

MACU-Net for Semantic Segmentation of Fine-Resolution Remotely Sensed Images ( http://arxiv.org/abs/2007.13083v3 )

ライセンス: Link先を確認
Rui Li, Chenxi Duan, Shunyi Zheng, Ce Zhang and Peter M. Atkinson(参考訳) リモートセンシング画像の意味セグメンテーションは、土地資源管理、収量推定、経済評価において重要な役割を果たす。 ディープエンコーダ-デコーダアーキテクチャであるu-netは、精度の高い画像分割に頻繁に使われている。 本稿では,U-Netの異なる層が生成するマルチスケール機能と,微細解像度のリモートセンシング画像を用いたセグメンテーションのためのマルチスケールスキップ接続および非対称畳み込みベースU-Net(MACU-Net)を設計する。 1) マルチスケールのスキップ接続は低レベルと高レベルの両方の機能マップに含まれる意味的特徴を結合し、再定義すること, (2) 非対称畳み込みブロックは標準畳み込み層の特徴表現と特徴抽出能力を強化する。 異なる衛星センサーによってキャプチャされた2つのリモートセンシングデータセットで実施された実験は、提案されたMACU-NetがU-Net、U-NetPPL、U-Net 3+を超越していることを示す。 コードはhttps://github.com/lironui/MACU-Netで入手できる。

Semantic segmentation of remotely sensed images plays an important role in land resource management, yield estimation, and economic assessment. U-Net, a deep encoder-decoder architecture, has been used frequently for image segmentation with high accuracy. In this Letter, we incorporate multi-scale features generated by different layers of U-Net and design a multi-scale skip connected and asymmetric-convolution-based U-Net (MACU-Net), for segmentation using fine-resolution remotely sensed images. Our design has the following advantages: (1) The multi-scale skip connections combine and realign semantic features contained in both low-level and high-level feature maps; (2) the asymmetric convolution block strengthens the feature representation and feature extraction capability of a standard convolution layer. Experiments conducted on two remotely sensed datasets captured by different satellite sensors demonstrate that the proposed MACU-Net transcends the U-Net, U-NetPPL, U-Net 3+, amongst other benchmark approaches. Code is available at https://github.com/lironui/MACU-Net.
翻訳日:2022-11-06 20:12:11 公開日:2022-05-04
# 一般化多出力ガウス過程補償回帰

Generalized Multi-Output Gaussian Process Censored Regression ( http://arxiv.org/abs/2009.04822v2 )

ライセンス: Link先を確認
Daniele Gammelli, Kasper Pryds Rolsted, Dario Pacino, Filipe Rodrigues(参考訳) 検閲された観測をモデル化する場合、現在の回帰法における典型的なアプローチは、条件付き出力分布を記述するために検閲されたガウスモデルを使用することである。 本稿では、データ不足の場合と同様に、複数の出力間の相関を利用して、検閲されたデータから生じるバイアスにモデルがよりうまく対処できると論じる。 そこで本稿では,GPの非パラメトリックな柔軟性と,入力依存ノイズ条件下での相関出力からの情報を活用する能力を組み合わせたヘテロスセダスティック多出力ガウスプロセスモデルを提案する。 得られた推論の難易度に対処するために,確率的最適化に適した辺りの対数類似度に束縛された変分法を考案する。 我々は,合成および実世界のタスクにおける検閲データに対する他の生成モデルに対するモデルに対する経験的評価を行い,任意の確率関数を扱うためにどのように一般化できるかを示す。 結果として、柔軟性を追加することで、潜在的に複雑な検閲ダイナミクスの下で、モデルが基盤となる非検閲プロセス(すなわち、真)をより正確に見積もることができることを示す。

When modelling censored observations, a typical approach in current regression methods is to use a censored-Gaussian (i.e. Tobit) model to describe the conditional output distribution. In this paper, as in the case of missing data, we argue that exploiting correlations between multiple outputs can enable models to better address the bias introduced by censored data. To do so, we introduce a heteroscedastic multi-output Gaussian process model which combines the non-parametric flexibility of GPs with the ability to leverage information from correlated outputs under input-dependent noise conditions. To address the resulting inference intractability, we further devise a variational bound to the marginal log-likelihood suitable for stochastic optimization. We empirically evaluate our model against other generative models for censored data on both synthetic and real world tasks and further show how it can be generalized to deal with arbitrary likelihood functions. Results show how the added flexibility allows our model to better estimate the underlying non-censored (i.e. true) process under potentially complex censoring dynamics.
翻訳日:2022-10-20 02:51:27 公開日:2022-05-04
# 全周的な知識伝達を目指して--タスク関連ラベルから学ぶ

Towards All-around Knowledge Transferring: Learning From Task-irrelevant Labels ( http://arxiv.org/abs/2011.08470v2 )

ライセンス: Link先を確認
Yinghui Li, Ruiyang Liu, ZiHao Zhang, Ning Ding, Ying Shen, Linmi Tao, Hai-Tao Zheng(参考訳) ディープニューラルモデルは、多くの分類タスクでかなりの性能を発揮しているが、一方で十分な手作業による注釈データを必要とする。 分類タスクごとに適切なデータをアノテートするのは極めて時間がかかり、費用がかかるため、小さなデータセットに一般化した経験的有効モデルの学習が注目を集めている。 既存の取り組みは、問題に取り組むために、タスク関連の知識を他の類似データから移すことに重点を置いている。 これらのアプローチは目覚ましい改善をもたらしたが、タスク非関連の特徴が大きな負の伝達効果をもたらすことを無視した。 これまでのところ、この種の機能の利用はさておき、タスクの無関係な機能の影響を調べるための大規模な研究は行われていない。 本稿では,主にタスク関連ラベルから抽出されるタスク関連特徴を利用するタスク関連移動学習(TIRTL)を提案する。 特に,タスク非関連情報の表現を抑え,分類の学習プロセスを容易にする。 また,本手法の理論的説明も行う。 さらに、TIRTLは以前タスク関連知識を利用してきたものとは相反せず、タスク関連機能とタスク関連機能との同時利用を可能にするためにうまく組み合わせることができる。 本理論と手法の有効性を検証するため,表情認識と指認識タスクに関する広範囲な実験を行った。 当社のソースコードも将来的には再現可能になる予定です。

Deep neural models have hitherto achieved significant performances on numerous classification tasks, but meanwhile require sufficient manually annotated data. Since it is extremely time-consuming and expensive to annotate adequate data for each classification task, learning an empirically effective model with generalization on small dataset has received increased attention. Existing efforts mainly focus on transferring task-relevant knowledge from other similar data to tackle the issue. These approaches have yielded remarkable improvements, yet neglecting the fact that the task-irrelevant features could bring out massive negative transfer effects. To date, no large-scale studies have been performed to investigate the impact of task-irrelevant features, let alone the utilization of this kind of features. In this paper, we firstly propose Task-Irrelevant Transfer Learning (TIRTL) to exploit task-irrelevant features, which mainly are extracted from task-irrelevant labels. Particularly, we suppress the expression of task-irrelevant information and facilitate the learning process of classification. We also provide a theoretical explanation of our method. In addition, TIRTL does not conflict with those that have previously exploited task-relevant knowledge and can be well combined to enable the simultaneous utilization of task-relevant and task-irrelevant features for the first time. In order to verify the effectiveness of our theory and method, we conduct extensive experiments on facial expression recognition and digit recognition tasks. Our source code will be also available in the future for reproducibility.
翻訳日:2022-09-24 17:04:12 公開日:2022-05-04
# オンボードスケジューリング技術のイノベーション

Innovations in the field of on-board scheduling technologies ( http://arxiv.org/abs/2205.06792v1 )

ライセンス: Link先を確認
Temenuzhka Avramova, Riccardo Maderna, Alessandro Benetton, Christian Cardenio(参考訳) 宇宙ミッションは長距離、通信の困難さ、運用コストが特徴である。 さらに、近年は常に複雑さが増している。 このため、宇宙オペレーターの自律性の向上は、低コストでミッション報酬を増やすための魅力的な目標である。 本稿では,ミッション自律性のためのオンボードソフトウェアフレームワークに組み込むオンボードスケジューラを提案する。 一連のアクティビティが与えられると、各アクティビティの優先度、順序制約、リソース消費に応じて、各アクティビティの開始時間を決定する責任を負う。 提示されたスケジューラは線形整数プログラミングに基づいており、分岐・カットソルバの使用に依存している。 この技術は地球観測のシナリオでテストされ、最先端のスケジューリング技術と比較されている。

Space missions are characterized by long distances, difficult or unavailable communication and high operating costs. Moreover, complexity has been constantly increasing in recent years. For this reason, improving the autonomy of space operators is an attractive goal to increase the mission reward with lower costs. This paper proposes an onboard scheduler, that integrates inside an onboard software framework for mission autonomy. Given a set of activities, it is responsible for determining the starting time of each activity according to their priority, order constraints, and resource consumption. The presented scheduler is based on linear integer programming and relies on the use of a branch-and-cut solver. The technology has been tested on an Earth Observation scenario, comparing its performance against the state-of-the-art scheduling technology.
翻訳日:2022-05-22 11:38:24 公開日:2022-05-04
# NN-EUCLID : 応力データのないディープラーニング超弾性

NN-EUCLID: deep-learning hyperelasticity without stress data ( http://arxiv.org/abs/2205.06664v1 )

ライセンス: Link先を確認
Prakash Thakolkaran, Akshay Joshi, Yiwen Zheng, Moritz Flaschel, Laura De Lorenzis and Siddhant Kumar(参考訳) 本稿では,超弾性構成則の教師なし学習に物理一貫性のあるディープニューラルネットワークを提案する。 ストレス-ひずみペアの可用性を前提とした教師あり学習とは対照的に,このアプローチでは実測可能なフルフィールド変位と大域的反応力データのみを使用するため,近年の非教師なし構成法同定・発見(euclid)の枠組みの範囲内にあり,nn-euclidと表現している。 学習過程を導くために、線形運動量保存に基づく物理動機損失関数を活用することにより、ストレスラベルの欠如を補償する。 構成モデルは入力凸ニューラルネットワークに基づいており、入力に対して凸である関数を学習することができる。 特別に設計されたニューラルネットワークアーキテクチャを用いることにより、材料フレーム非依存性、(ポリ)凸性、応力のない参照構成などの超弾性構成則に対する複数の物理的および熱力学的制約が自動的に満たされる。 本研究では,mooney-rivlin,arruda-boyce,ogden,holzapfelなどの非等方性および異方性超弾性構成則を応力データを用いずに精度良く学習できることを示す。 異方性超弾性については、未知の異方性繊維方向が構成モデルと共同で自動的に検出される。 ニューラルネットワークに基づく構成モデルは、トレーニング中に観測されたひずみ状態を超えた優れた一般化能力を示し、複雑な機械的境界値問題を精度良くシミュレートするための一般的な有限要素フレームワークに容易に展開できる。

We propose a new approach for unsupervised learning of hyperelastic constitutive laws with physics-consistent deep neural networks. In contrast to supervised learning, which assumes the availability of stress-strain pairs, the approach only uses realistically measurable full-field displacement and global reaction force data, thus it lies within the scope of our recent framework for Efficient Unsupervised Constitutive Law Identification and Discovery (EUCLID) and we denote it as NN-EUCLID. The absence of stress labels is compensated for by leveraging a physics-motivated loss function based on the conservation of linear momentum to guide the learning process. The constitutive model is based on input-convex neural networks, which are capable of learning a function that is convex with respect to its inputs. By employing a specially designed neural network architecture, multiple physical and thermodynamic constraints for hyperelastic constitutive laws, such as material frame indifference, (poly-)convexity, and stress-free reference configuration are automatically satisfied. We demonstrate the ability of the approach to accurately learn several hidden isotropic and anisotropic hyperelastic constitutive laws - including e.g., Mooney-Rivlin, Arruda-Boyce, Ogden, and Holzapfel models - without using stress data. For anisotropic hyperelasticity, the unknown anisotropic fiber directions are automatically discovered jointly with the constitutive model. The neural network-based constitutive models show good generalization capability beyond the strain states observed during training and are readily deployable in a general finite element framework for simulating complex mechanical boundary value problems with good accuracy.
翻訳日:2022-05-22 11:38:12 公開日:2022-05-04
# GRU-TV:多変量臨床時系列データを用いた患者表現のための時間・速度対応GRU

GRU-TV: Time- and velocity-aware GRU for patient representation on multivariate clinical time-series data ( http://arxiv.org/abs/2205.04892v1 )

ライセンス: Link先を確認
Ningtao Liu, Ruoxi Gao, Jing Yuan, Calire Park, Shuwei Xing, and Shuiping Gou(参考訳) 電子健康記録(ehrs)は患者の健康状態を追跡するための豊富なリポジトリを提供する。 EHRは患者の生理状態を完全に文書化し、高次元、不均一、多モードのデータを含む。 臨床変数のサンプリング頻度の有意差は, EHRから抽出した多変量臨床時系列データにおいて, 隣接記録間の欠落率と不均一な時間間隔をもたらす可能性がある。 臨床時系列データを用いた臨床研究では、患者の生理状態はスポラジカルに収集された値によって記述された離散的なプロセスであり、患者の生理状態のダイナミクスは時間連続的である。 さらに、患者表現学習に広く使用されるリカレントニューラルネットワーク(recurrent neural network:rnn)モデルは、時間間隔と速度の知覚を欠き、患者の生理的状態を表現するモデルの能力を制限する。 本稿では,臨床用多変量時系列データの時間連続学習のためのgru(time- and velocity-aware gru)を提案する。 提案するgru-tvでは,神経常微分方程式(odes)と速度知覚機構を用いて,時系列データの記録と患者の生理状態の変化率との時間間隔をそれぞれ知覚する。 2つの実世界の臨床EHRデータセット(PhysioNet2012, MIMIC-III)の実験結果から、GRU-TVはコンピュータ支援診断(CAD)タスクにおいて最先端のパフォーマンスを達成し、サンプルデータの処理に有利であることが示された。

Electronic health records (EHRs) provide a rich repository to track a patient's health status. EHRs seek to fully document the patient's physiological status, and include data that is is high dimensional, heterogeneous, and multimodal. The significant differences in the sampling frequency of clinical variables can result in high missing rates and uneven time intervals between adjacent records in the multivariate clinical time-series data extracted from EHRs. Current studies using clinical time-series data for patient characterization view the patient's physiological status as a discrete process described by sporadically collected values, while the dynamics in patient's physiological status are time-continuous. In addition, recurrent neural networks (RNNs) models widely used for patient representation learning lack the perception of time intervals and velocity, which limits the ability of the model to represent the physiological status of the patient. In this paper, we propose an improved gated recurrent unit (GRU), namely time- and velocity-aware GRU (GRU-TV), for patient representation learning of clinical multivariate time-series data in a time-continuous manner. In proposed GRU-TV, the neural ordinary differential equations (ODEs) and velocity perception mechanism are used to perceive the time interval between records in the time-series data and changing rate of the patient's physiological status, respectively. Experimental results on two real-world clinical EHR datasets(PhysioNet2012, MIMIC-III) show that GRU-TV achieve state-of-the-art performance in computer aided diagnosis (CAD) tasks, and is more advantageous in processing sampled data.
翻訳日:2022-05-16 00:53:19 公開日:2022-05-04
# (参考訳) DADApy: PythonにおけるDAta-manifoldの解析

DADApy: Distance-based Analysis of DAta-manifolds in Python ( http://arxiv.org/abs/2205.03373v1 )

ライセンス: CC BY 4.0
Aldo Glielmo, Iuri Macocco, Diego Doimo, Matteo Carli, Claudio Zeni, Romina Wild, Maria d'Errico, Alex Rodriguez, Alessandro Laio(参考訳) DADApyは、高次元データ多様体の解析と特徴付けのためのピソンソフトウェアパッケージである。 固有次元と確率密度を推定し、密度に基づくクラスタリングを行い、異なる距離メトリクスを比較する方法を提供する。 パッケージの主な機能についてレビューし、おもちゃのケースや現実世界のアプリケーションでの使用例を示す。 パッケージはオープンソースApache 2.0ライセンスで無償公開されている。Githubのページ https://github.com/sissa-data-science/DADApyからダウンロードできる。

DADApy is a python software package for analysing and characterising high-dimensional data manifolds. It provides methods for estimating the intrinsic dimension and the probability density, for performing density-based clustering and for comparing different distance metrics. We review the main functionalities of the package and exemplify its usage in toy cases and in a real-world application. The package is freely available under the open-source Apache 2.0 license and can be downloaded from the Github page https://github.com/sissa-data-science/DADApy.
翻訳日:2022-05-10 02:42:17 公開日:2022-05-04
# データ拡張のためのGANインバージョンによる大腸病変分類の改善

GAN Inversion for Data Augmentation to Improve Colonoscopy Lesion Classification ( http://arxiv.org/abs/2205.02840v1 )

ライセンス: Link先を確認
Mayank Golhar, Taylor L. Bobrow, Saowanee Ngamruengphong, Nicholas J. Durr(参考訳) 医学画像にディープラーニングを適用する上での大きな課題は、注釈付きデータのpaucityである。 本研究では,gan(generative adversarial network)インバージョンによって生成された合成大腸内視鏡画像が,深層学習モデルの病変分類性能を向上させるための訓練データとして使用できることを示す。 このアプローチでは、同じラベルを持つ画像のペアを意味的にリッチで不連続な潜在空間に反転させ、潜在表現を操作して同じラベルで新しい合成画像を生成する。 ホワイトライトと狭帯域イメージング(nbi)間の画像モダリティ変換(スタイル転送)を行う。 また,トレーニングデータセットにおける病変形状の多様性を高めるために,元のトレーニング画像間の補間により,現実的な合成病変画像を生成する。 これらのアプローチは,複数の生成モデルを再訓練することなく,比較大腸内視鏡データ拡張技術よりも優れていることを示す。 このアプローチはまた、特定の大腸内視鏡下流タスク用に設計されていない可能性のあるデータセットの情報を活用する。 例えば、ポリープ分類タスクにboel prep gradingデータセットを使用する。 以上の結果から,本手法は複数の大腸内視鏡データ拡張が可能であり,ベースラインおよび比較法よりも下流ポリープ分類性能を最大6%向上させることができた。

A major challenge in applying deep learning to medical imaging is the paucity of annotated data. This study demonstrates that synthetic colonoscopy images generated by Generative Adversarial Network (GAN) inversion can be used as training data to improve the lesion classification performance of deep learning models. This approach inverts pairs of images with the same label to a semantically rich & disentangled latent space and manipulates latent representations to produce new synthetic images with the same label. We perform image modality translation (style transfer) between white light and narrowband imaging (NBI). We also generate realistic-looking synthetic lesion images by interpolating between original training images to increase the variety of lesion shapes in the training dataset. We show that these approaches outperform comparative colonoscopy data augmentation techniques without the need to re-train multiple generative models. This approach also leverages information from datasets that may not have been designed for the specific colonoscopy downstream task. E.g. using a bowel prep grading dataset for a polyp classification task. Our experiments show this approach can perform multiple colonoscopy data augmentations, which improve the downstream polyp classification performance over baseline and comparison methods by up to 6%.
翻訳日:2022-05-09 13:52:27 公開日:2022-05-04
# 画像分類のための最適トランスポートネットワークにおける非ミスシブルカラーフロー

Immiscible Color Flows in Optimal Transport Networks for Image Classification ( http://arxiv.org/abs/2205.02938v1 )

ライセンス: Link先を確認
Alessandro Lonardi, Diego Baptista, Caterina De Bacco(参考訳) 分類タスクでは,データに含まれる情報を有意義に活用することが重要である。 本稿では,画像の色分布を効果的に活用するために最適な移動原理を適用した物理系を提案する。 私たちのダイナミクスは、画像から構築されたネットワーク上を移動する不可視な色の束を制御します。 色をまとめるのではなく、エッジ上の共有容量と相互作用するさまざまな商品として扱う。 本手法は,カラー情報が重要なデータセットにおける画像分類タスクにおいて,競合アルゴリズムよりも優れる。

In classification tasks, it is crucial to meaningfully exploit information contained in data. Here, we propose a physics-inspired dynamical system that adapts Optimal Transport principles to effectively leverage color distributions of images. Our dynamics regulates immiscible fluxes of colors traveling on a network built from images. Instead of aggregating colors together, it treats them as different commodities that interact with a shared capacity on edges. Our method outperforms competitor algorithms on image classification tasks in datasets where color information matters.
翻訳日:2022-05-09 13:15:55 公開日:2022-05-04
# (参考訳) 復刻的アルゴリズムフェアネス:公正の追求における復刻的データ収集のリスクを特徴づける

Demographic-Reliant Algorithmic Fairness: Characterizing the Risks of Demographic Data Collection in the Pursuit of Fairness ( http://arxiv.org/abs/2205.01038v2 )

ライセンス: CC BY 4.0
McKane Andrus and Sarah Villeneuve(参考訳) 提案されているアルゴリズム的公平性技術の多くは、グループ間でのパフォーマンス比較と標準化を行うために「敏感な属性」または「保護されたカテゴリー」のデータにアクセスする必要があるが、このデータは実際にはほとんど利用できず、アルゴリズム的公平性が広く採用されることを妨げている。 本稿では,アルゴリズムの公平性を実現するために,人口動態に関するより多くのデータを集め,十分な技術手法と十分なデータだけで差別を克服できるという考えに挑戦する。 より公平なアルゴリズム処理のために個人を分類する場合、これらの手法はデータガバナンスや体系的な抑圧に関する幅広い疑問をほとんど無視する。 本研究では,人口統計データを収集し,個人やコミュニティに対する幅広い社会的リスクを特徴付けることにより,アルゴリズム的公平性を実現するために利用するべき条件について検討する。 個人に対するリスクについては、公平性分析のターゲットとなる可能性のある機密属性の共有に関連するユニークなプライバシリスク、データ収集プロセスにおける個人を誤分類し誤表現することによる害、データ被験者の期待を超えた機密データの利用、などが考えられる。 より広範に見て、グループやコミュニティ全体に対するリスクには、公正さという名目で監視インフラの拡大、人口集団の一員であることの意味や特定のアイデンティティを保持することの誤表現と誤認、偏見や不公平な扱いを構成するものを自分自身で定義する能力の付与が含まれる。 人口統計データ収集前後のこれらの疑問に直面することで、アルゴリズム的公平性法は、抑圧のシステムを強化することなく、実際に有害な治療格差を緩和する可能性が高まると論じている。

Most proposed algorithmic fairness techniques require access to data on a "sensitive attribute" or "protected category" (such as race, ethnicity, gender, or sexuality) in order to make performance comparisons and standardizations across groups, however this data is largely unavailable in practice, hindering the widespread adoption of algorithmic fairness. Through this paper, we consider calls to collect more data on demographics to enable algorithmic fairness and challenge the notion that discrimination can be overcome with smart enough technical methods and sufficient data alone. We show how these techniques largely ignore broader questions of data governance and systemic oppression when categorizing individuals for the purpose of fairer algorithmic processing. In this work, we explore under what conditions demographic data should be collected and used to enable algorithmic fairness methods by characterizing a range of social risks to individuals and communities. For the risks to individuals we consider the unique privacy risks associated with the sharing of sensitive attributes likely to be the target of fairness analysis, the possible harms stemming from miscategorizing and misrepresenting individuals in the data collection process, and the use of sensitive data beyond data subjects' expectations. Looking more broadly, the risks to entire groups and communities include the expansion of surveillance infrastructure in the name of fairness, misrepresenting and mischaracterizing what it means to be part of a demographic group or to hold a certain identity, and ceding the ability to define for themselves what constitutes biased or unfair treatment. We argue that, by confronting these questions before and during the collection of demographic data, algorithmic fairness methods are more likely to actually mitigate harmful treatment disparities without reinforcing systems of oppression.
翻訳日:2022-05-09 05:08:35 公開日:2022-05-04
# (参考訳) pyrdf2vec: pythonによるrdf2vecの実装と拡張

pyRDF2Vec: A Python Implementation and Extension of RDF2Vec ( http://arxiv.org/abs/2205.02283v1 )

ライセンス: CC BY 4.0
Gilles Vandewiele, Bram Steenwinckel, Terencio Agozzino, Femke Ongenae(参考訳) 本稿では,有名なRDF2Vecアルゴリズムを再実装するPythonソフトウェアパッケージpyRDF2Vecを紹介する。 アルゴリズムを最もポピュラーなデータサイエンス言語で利用可能にすることで、すべての拡張をひとつの場所にバンドルすることで、データサイエンティストにはRDF2Vecの使用が簡単になる。 このパッケージはMITライセンス下でリリースされ、RDF2Vecアルゴリズムの重要なコンポーネントであるサンプリング、ウォーキング、埋め込み戦略に関するさらなる研究を促進するために構成されている。 元のアルゴリズムよりも効率的な歩行抽出を可能にする、いくつかの最適化が \texttt{pyRDF2Vec} で実装されている。 さらに、コードスタイリング、テスト、ドキュメンテーションの観点からのベストプラクティスが適用され、パッケージは将来性があり、外部からのコントリビューションも容易になった。

This paper introduces pyRDF2Vec, a Python software package that reimplements the well-known RDF2Vec algorithm along with several of its extensions. By making the algorithm available in the most popular data science language, and by bundling all extensions into a single place, the use of RDF2Vec is simplified for data scientists. The package is released under a MIT license and structured in such a way to foster further research into sampling, walking, and embedding strategies, which are vital components of the RDF2Vec algorithm. Several optimisations have been implemented in \texttt{pyRDF2Vec} that allow for more efficient walk extraction than the original algorithm. Furthermore, best practices in terms of code styling, testing, and documentation were applied such that the package is future-proof as well as to facilitate external contributions.
翻訳日:2022-05-07 10:26:04 公開日:2022-05-04
# (参考訳) ほとんどのアクティベーション機能は、過剰な深さなしで宝くじに勝つことができる

Most Activation Functions Can Win the Lottery Without Excessive Depth ( http://arxiv.org/abs/2205.02321v1 )

ライセンス: CC BY-SA 4.0
Rebekka Burkholz(参考訳) 強力な抽選チケット仮説は、プルーニングによるディープニューラルネットワークのトレーニングの可能性を強調している。 ReLUアクティベーション関数を持つネットワークの場合、深さ$L$のターゲットネットワークは、ターゲットの深さが2L$で対数係数がより広いランダム初期化ニューラルネットワークのサブネットワークによって近似できることが証明されている。 深度$L+1$ネットワークで十分であることを示す。 この結果は,対数的過パラメータ化のみを必要としながら,現実的な,一般的に使用されている奥行きで宝くじを見つけることができることを示唆している。 我々の新しい構成手法は、活性化関数の大規模なクラスに適用され、ReLUに限らない。

The strong lottery ticket hypothesis has highlighted the potential for training deep neural networks by pruning, which has inspired interesting practical and theoretical insights into how neural networks can represent functions. For networks with ReLU activation functions, it has been proven that a target network with depth $L$ can be approximated by the subnetwork of a randomly initialized neural network that has double the target's depth $2L$ and is wider by a logarithmic factor. We show that a depth $L+1$ network is sufficient. This result indicates that we can expect to find lottery tickets at realistic, commonly used depths while only requiring logarithmic overparametrization. Our novel construction approach applies to a large class of activation functions and is not limited to ReLUs.
翻訳日:2022-05-07 10:17:55 公開日:2022-05-04
# (参考訳) マルチエージェント学習におけるチームのメリットを探る

Exploring the Benefits of Teams in Multiagent Learning ( http://arxiv.org/abs/2205.02328v1 )

ライセンス: CC0 1.0
David Radke, Kate Larson, Tim Brecht(参考訳) 協力を必要とする問題に対して、多くのマルチエージェントシステムは、個々のエージェント間のソリューションを実装している。 マルチエージェントチームは主に紛争時に研究されるが、組織心理学(OP)では、協調と協力の方法を学ぶために、人間の集団内のチームのメリットを強調している。 本稿では,OPにインスパイアされた強化学習(RL)エージェントのためのマルチエージェントチームの新しいモデルを提案する。 近年のマルチエージェントRLで普及している複雑な社会的ジレンマを用いて、我々のモデルを検証する。 さらに、エージェントはチームの創発的な役割をコーディネートし、学習し、すべてのエージェントの利害関係が整った時よりも高い報酬を得ることができる。

For problems requiring cooperation, many multiagent systems implement solutions among either individual agents or across an entire population towards a common goal. Multiagent teams are primarily studied when in conflict; however, organizational psychology (OP) highlights the benefits of teams among human populations for learning how to coordinate and cooperate. In this paper, we propose a new model of multiagent teams for reinforcement learning (RL) agents inspired by OP and early work on teams in artificial intelligence. We validate our model using complex social dilemmas that are popular in recent multiagent RL and find that agents divided into teams develop cooperative pro-social policies despite incentives to not cooperate. Furthermore, agents are better able to coordinate and learn emergent roles within their teams and achieve higher rewards compared to when the interests of all agents are aligned.
翻訳日:2022-05-07 09:44:27 公開日:2022-05-04
# (参考訳) バイレベル最適化のための2次感度解析

Second-Order Sensitivity Analysis for Bilevel Optimization ( http://arxiv.org/abs/2205.02329v1 )

ライセンス: CC BY 4.0
Robert Dyro, Edward Schmerling, Nikos Arechiga, Marco Pavone(参考訳) 本研究では、パラメータ化最適化問題("より低い"問題)に対する解が、パラメータの関数として("上"問題において)最適化される数学的プログラミングの一種である、二階最適化に対する二階最適化のアプローチを導出する。 従来の2段階最適化手法の多くは、暗黙の関数定理(IFT)に基づく1次感度解析を用いており、下位問題のパラメータに対する下位問題の解の勾配を導出する。 本稿では,この感度解析を拡張し,下層問題(ift hessian と呼ぶ)の2次微分情報を提供し,上位層での高速収束2次最適化手法の利用を可能にした。 私たちの分析は i) IFT勾配を生成するために既に使われている計算の多くは、IFTヘッセンのために再利用することができる。 (ii)IFT勾配から導出される誤差境界はIFTヘッセンにも容易に適用できる。 3) IFTヘシアン計算は, 各下層解からより多くの情報を抽出することにより, 全体計算を大幅に削減することができる。 我々は,最小2乗超パラメータオートチューニング,マルチクラスSVMオートチューニング,逆最適制御といった問題事例に適用し,本手法の幅広い応用を実証する。

In this work we derive a second-order approach to bilevel optimization, a type of mathematical programming in which the solution to a parameterized optimization problem (the "lower" problem) is itself to be optimized (in the "upper" problem) as a function of the parameters. Many existing approaches to bilevel optimization employ first-order sensitivity analysis, based on the implicit function theorem (IFT), for the lower problem to derive a gradient of the lower problem solution with respect to its parameters; this IFT gradient is then used in a first-order optimization method for the upper problem. This paper extends this sensitivity analysis to provide second-order derivative information of the lower problem (which we call the IFT Hessian), enabling the usage of faster-converging second-order optimization methods at the upper level. Our analysis shows that (i) much of the computation already used to produce the IFT gradient can be reused for the IFT Hessian, (ii) errors bounds derived for the IFT gradient readily apply to the IFT Hessian, (iii) computing IFT Hessians can significantly reduce overall computation by extracting more information from each lower level solve. We corroborate our findings and demonstrate the broad range of applications of our method by applying it to problem instances of least squares hyperparameter auto-tuning, multi-class SVM auto-tuning, and inverse optimal control.
翻訳日:2022-05-07 09:31:08 公開日:2022-05-04
# (参考訳) 離散事象シミュレーションモデルを用いた人口動態からの個人間相互作用の学習

Learning Individual Interactions from Population Dynamics with Discrete-Event Simulation Model ( http://arxiv.org/abs/2205.02332v1 )

ライセンス: CC BY 4.0
Yan Shen, Fan Yang, Mingchen Gao, Wen Dong(参考訳) データの豊富さは、ニューラルネットワークやエンジニアリングシステム、ソーシャルネットワークといった複雑なシステムのダイナミクスを学ぶための、より強力な計算ツールの追求を可能にする。 従来の機械学習アプローチは、動的ベイジアンネットワークと状態空間モデルのいずれかで複雑なシステムダイナミクスをキャプチャするが、これは、スパースグラフや微分方程式のシステムでダイナミクスを規定するのは自明ではないため、スケールが難しい。 本稿では,多変量正規分布を仮定した複雑系動力学の離散的事象シミュレーション表現を学習する可能性について検討し,複雑な系動力学を局所的な相互作用の列に分解できるという観測から考察する。 提案手法は,有意義なイベントを含む複数の分野において,複雑なネットワークダイナミクスをデータ効率良くキャプチャできることを示す。

The abundance of data affords researchers to pursue more powerful computational tools to learn the dynamics of complex system, such as neural networks, engineered systems and social networks. Traditional machine learning approaches capture complex system dynamics either with dynamic Bayesian networks and state space models, which is hard to scale because it is non-trivial to prescribe the dynamics with a sparse graph or a system of differential equations; or a deep neural networks, where the distributed representation of the learned dynamics is hard to interpret. In this paper, we will explore the possibility of learning a discrete-event simulation representation of complex system dynamics assuming multivariate normal distribution of the state variables, based on the observation that many complex system dynamics can be decomposed into a sequence of local interactions, which individually change the system state only minimally but in sequence generate complex and diverse dynamics. Our results show that the algorithm can data-efficiently capture complex network dynamics in several fields with meaningful events.
翻訳日:2022-05-07 08:26:29 公開日:2022-05-04
# (参考訳) 畳み込み・残差ネットワークは宝くじを保証できる

Convolutional and Residual Networks Provably Contain Lottery Tickets ( http://arxiv.org/abs/2205.02343v1 )

ライセンス: CC BY-SA 4.0
Rebekka Burkholz(参考訳) Lottery Ticket仮説は、競争力のあるパフォーマンスで現代のディープラーニングタスクを解決する、小規模のディープニューラルネットワークの探求に、依然として重大な実践的影響を与えている。 これらの宝くじは、大規模なランダムに初期化されたニューラルネットワークをアプリケーションと同じくらい多様なアーキテクチャで刈り取ることで識別される。 しかし、それらの存在を証明している理論的洞察は、主にReLUアクティベーション機能を備えた深い完全接続フィードフォワードネットワークに焦点を当てている。 ほぼ任意のアクティベーション関数を備えた畳み込み層と残差層からなる現代的なアーキテクチャは、高い確率で抽選チケットを含むことも証明する。

The Lottery Ticket Hypothesis continues to have a profound practical impact on the quest for small scale deep neural networks that solve modern deep learning tasks at competitive performance. These lottery tickets are identified by pruning large randomly initialized neural networks with architectures that are as diverse as their applications. Yet, theoretical insights that attest their existence have been mostly focused on deep fully-connected feed forward networks with ReLU activation functions. We prove that also modern architectures consisting of convolutional and residual layers that can be equipped with almost arbitrary activation functions can contain lottery tickets with high probability.
翻訳日:2022-05-07 08:03:38 公開日:2022-05-04
# (参考訳) KenSwQuAD - Swahili低リソース言語のための質問回答データセット

KenSwQuAD -- A Question Answering Dataset for Swahili Low Resource Language ( http://arxiv.org/abs/2205.02364v1 )

ライセンス: CC BY 4.0
Barack Wanjawa (1), Lilian Wanzare (2), Florence Indede (2), Owen McOnyango (2), Lawrence Muchemi (1), Edward Ombui (3) ((1) University of Nairobi Kenya, (2) Maseno University Kenya (3) Africa Nazarene University Kenya)(参考訳) 本研究は,東アフリカを中心に話されている低資源言語であるスワヒリ語の生データから,kencorpus swahili question answering dataset kenswquadを開発した。 質問応答データセットは,インターネット検索や対話システムなどの自然言語処理タスクを機械で理解するために重要である。 しかし、このような機械学習システムがこれらのタスクを実行する前には、本研究で開発されたgold standard question answering(qa)セットなどのトレーニングデータが必要である。 この研究は、ケニアの3つの言語からデータを収集するケニア語コーパスであるKencorpusプロジェクトによって収集されたスワヒリ語のテキストから質問応答ペアを定式化した。 スワヒリのデータ収集には2,585のテキストがあり、そのうち1,445のストーリーテキストと少なくとも5つのQAペアを注釈付けし、最終的なデータセットは7,526のQAペアであった。 注釈付きテキストの12.5%の品質保証セットは、QAペアがすべて正しく注釈付けされていることを確認した異なるアノテータによって再評価された。 質問応答タスクの機械学習に適用する概念実証により、データセットがそのような実用的なタスクに使用できることが確認された。 そこで研究は、機械学習アプリケーションにトレーニングと金の標準セットを必要とする自然言語処理コミュニティにとって有用な、Swahiliの質問応答データセットであるKenSwQuADを開発した。 この研究は、世界中のコミュニケーションにとって重要なスワヒリ語のオープンソース化にも貢献した。 このセットを更新し、他の低リソース言語に同様のセットを提供することは、さらなる研究に値する重要な研究分野である。

This research developed a Kencorpus Swahili Question Answering Dataset KenSwQuAD from raw data of Swahili language, which is a low resource language predominantly spoken in Eastern African and also has speakers in other parts of the world. Question Answering datasets are important for machine comprehension of natural language processing tasks such as internet search and dialog systems. However, before such machine learning systems can perform these tasks, they need training data such as the gold standard Question Answering (QA) set that is developed in this research. The research engaged annotators to formulate question answer pairs from Swahili texts that had been collected by the Kencorpus project, a Kenyan languages corpus that collected data from three Kenyan languages. The total Swahili data collection had 2,585 texts, out of which we annotated 1,445 story texts with at least 5 QA pairs each, resulting into a final dataset of 7,526 QA pairs. A quality assurance set of 12.5% of the annotated texts was subjected to re-evaluation by different annotators who confirmed that the QA pairs were all correctly annotated. A proof of concept on applying the set to machine learning on the question answering task confirmed that the dataset can be used for such practical tasks. The research therefore developed KenSwQuAD, a question-answer dataset for Swahili that is useful to the natural language processing community who need training and gold standard sets for their machine learning applications. The research also contributed to the resourcing of the Swahili language which is important for communication around the globe. Updating this set and providing similar sets for other low resource languages is an important research area that is worthy of further research.
翻訳日:2022-05-07 07:27:42 公開日:2022-05-04
# FedSPLIT:非負の関節マトリックス因子化と知識蒸留に基づくワンショットフェデレーション勧告システム

FedSPLIT: One-Shot Federated Recommendation System Based on Non-negative Joint Matrix Factorization and Knowledge Distillation ( http://arxiv.org/abs/2205.02359v1 )

ライセンス: Link先を確認
Maksim E. Eren, Luke E. Richards, Manish Bhattarai, Roberto Yus, Charles Nicholas, Boian S. Alexandrov(参考訳) 非負行列分解(非負行列分解、NMF)は、パーソナライズされたユーザレコメンデーションを提供するために使われる、よく知られた効果的な協調フィルタリング(CF)手法である。 しかしながら、従来のcfは、ユーザの明示的かつ暗黙的なフィードバックのプライバシー侵害的な収集に頼って、中央のレコメンデーションモデルを構築している。 フェデレーション学習の従来のコミュニケーションボトルネックに対処する一方で,プライバシ問題を軽減する手段として,ワンショットフェデレーション学習が最近登場した。 本稿では,NMF結合因子化に基づくFedSPLITという,最初の教師なし単発フェデレーションCF実装を提案する。 私たちのソリューションでは、クライアントはまず、異なるクライアント固有のレコメンデータを構築するために、ローカルCFを並列で適用します。 そして、各クライアントからのプライバシー保護されたローカルアイテムパターンとバイアスをプロセッサと共有し、グローバルアイテムパターンを抽出するために共同ファクタリングを行う。 抽出されたパターンは各クライアントに集約され、知識蒸留を通じてローカルモデルを構築する。 実験では,標準レコメンデーションデータセットを用いたアプローチの実現可能性を示す。 FedSPLITは、コミュニケーションの数を大幅に減らすことで、技術の現状と類似した結果を得ることができる(特定の状況では、それよりも優れている)。

Non-negative matrix factorization (NMF) with missing-value completion is a well-known effective Collaborative Filtering (CF) method used to provide personalized user recommendations. However, traditional CF relies on the privacy-invasive collection of users' explicit and implicit feedback to build a central recommender model. One-shot federated learning has recently emerged as a method to mitigate the privacy problem while addressing the traditional communication bottleneck of federated learning. In this paper, we present the first unsupervised one-shot federated CF implementation, named FedSPLIT, based on NMF joint factorization. In our solution, the clients first apply local CF in-parallel to build distinct client-specific recommenders. Then, the privacy-preserving local item patterns and biases from each client are shared with the processor to perform joint factorization in order to extract the global item patterns. Extracted patterns are then aggregated to each client to build the local models via knowledge distillation. In our experiments, we demonstrate the feasibility of our approach with standard recommendation datasets. FedSPLIT can obtain similar results than the state of the art (and even outperform it in certain situations) with a substantial decrease in the number of communications.
翻訳日:2022-05-06 15:32:53 公開日:2022-05-04
# ベイズ知識追跡の質と公正性

Equity and Fairness of Bayesian Knowledge Tracing ( http://arxiv.org/abs/2205.02333v1 )

ライセンス: Link先を確認
Sebastian Tschiatschek and Maria Knobelsdorf and Adish Singla(参考訳) 知識追跡モデルから得られたカリキュラムの公平性と公平性を考察する。 まず,公平な指導システムの統一的な概念を,各学生が相互作用する時間を最小限に抑えるシステムとして定義することから始める。 パーフェクトエクイティの実現には、学生一人当たりの個別のカリキュラムを提供するための教育システムが必要である。 特に,そのカリキュラムを知識追跡モデルから導出する等式教育システムの設計について検討する。 まず,古典的ベイズ的知識追跡 (BKT) や深部知識追跡 (DKT) を含む多くの既存モデルと,そこから派生したカリキュラムが,等しく学習することができないことを示す。 この問題を克服するために,オンラインの個人化を自然に可能とし,それによってより公平な学習を可能にする新しいモデル,Bayesian-Bayesian Knowledge Tracing (BBKT)を提案する。 古典的bktモデルより,本モデルから導出するカリキュラムの方が効率的かつ等価であることを示す。 さらに,次段階予測の公平性を重視したモデル改善は,等質的学習システムを開発するには不十分である可能性があることを強調する。

We consider the equity and fairness of curricula derived from Knowledge Tracing models. We begin by defining a unifying notion of an equitable tutoring system as a system that achieves maximum possible knowledge in minimal time for each student interacting with it. Realizing perfect equity requires tutoring systems that can provide individualized curricula per student. In particular, we investigate the design of equitable tutoring systems that derive their curricula from Knowledge Tracing models. We first show that many existing models, including classical Bayesian Knowledge Tracing (BKT) and Deep Knowledge Tracing (DKT), and their derived curricula can fall short of achieving equitable tutoring. To overcome this issue, we then propose a novel model, Bayesian-Bayesian Knowledge Tracing (BBKT), that naturally enables online individualization and, thereby, more equitable tutoring. We demonstrate that curricula derived from our model are more effective and equitable than those derived from classical BKT models. Furthermore, we highlight that improving models with a focus on the fairness of next-step predictions might be insufficient to develop equitable tutoring systems.
翻訳日:2022-05-06 15:21:43 公開日:2022-05-04
# グラフとフローに基づくセキュリティテレメトリを用いたゼロデイ脅威検出

Zero Day Threat Detection Using Graph and Flow Based Security Telemetry ( http://arxiv.org/abs/2205.02298v1 )

ライセンス: Link先を確認
Christopher Redino, Dhruv Nandakumar, Robert Schiller, Kevin Choi, Abdul Rahman, Edward Bowen, Matthew Weeks, Aaron Shaha, Joe Nehila(参考訳) Zero Day Threats (ZDT) は、悪意あるアクターが情報技術(IT)ネットワークやインフラを攻撃・利用するための新しい手法である。 過去数年間、これらの脅威の数は脅威的なペースで増加しており、組織が対処するために何百万ドルも費やしている。 ネットワーク攻撃面の拡大とこれらのネットワーク上の資産の指数関数的な増加は、潜在的かつ新しい活動のためにペタバイト規模のデータを迅速に分析できる堅牢なaiベースのゼロデイ脅威検出モデルの必要性を必要としている。 本稿では,リアルタイムに脅威を一般化し,拡張し,効果的に特定できる,ゼロデイ脅威検出のためのディープラーニング手法を提案する。 ネットワークフローテレメトリをアセットレベルのグラフ機能で拡張し、それぞれ異常検出のためのデュアルオートエンコーダ構造とノベルティ検出を行う。 モデルは、実世界の組織ネットワークを代表する4つの大規模データセットでトレーニングされ、テストされ、高い精度とリコール値を持つ強い結果を生み出す。 モデルは、低い偽陽性率で複雑な脅威を検出する新しい方法を提供し、セキュリティオペレーターは警告疲労を回避し、ほぼリアルタイム検出による応答の平均時間を大幅に削減できる。 さらに、著者らは、他のモデルのバリデーションやトレーニングに使用できる敵活動から生成される、新しい、ラベル付きサイバー攻撃データセットも提供している。 本稿では,サイバー異常検出のための新しいアーキテクチャとトレーニング手法を提供することを目標とし,高い性能を維持しつつ,最小ないし無トレーニングで複数のITネットワークに一般化する。

Zero Day Threats (ZDT) are novel methods used by malicious actors to attack and exploit information technology (IT) networks or infrastructure. In the past few years, the number of these threats has been increasing at an alarming rate and have been costing organizations millions of dollars to remediate. The increasing expansion of network attack surfaces and the exponentially growing number of assets on these networks necessitate the need for a robust AI-based Zero Day Threat detection model that can quickly analyze petabyte-scale data for potentially malicious and novel activity. In this paper, the authors introduce a deep learning based approach to Zero Day Threat detection that can generalize, scale, and effectively identify threats in near real-time. The methodology utilizes network flow telemetry augmented with asset-level graph features, which are passed through a dual-autoencoder structure for anomaly and novelty detection respectively. The models have been trained and tested on four large scale datasets that are representative of real-world organizational networks and they produce strong results with high precision and recall values. The models provide a novel methodology to detect complex threats with low false-positive rates that allow security operators to avoid alert fatigue while drastically reducing their mean time to response with near-real-time detection. Furthermore, the authors also provide a novel, labelled, cyber attack dataset generated from adversarial activity that can be used for validation or training of other models. With this paper, the authors' overarching goal is to provide a novel architecture and training methodology for cyber anomaly detectors that can generalize to multiple IT networks with minimal to no retraining while still maintaining strong performance.
翻訳日:2022-05-06 15:17:37 公開日:2022-05-04
# BodySLAM: 共同カメラのローカライゼーション、マッピング、人間のモーショントラッキング

BodySLAM: Joint Camera Localisation, Mapping, and Human Motion Tracking ( http://arxiv.org/abs/2205.02301v1 )

ライセンス: Link先を確認
Dorian Henning, Tristan Laidlow, Stefan Leutenegger(参考訳) 映像から人間の動きを推定することは、その多くの応用可能性から活発な研究分野である。 ほとんどの最先端の手法は、個々の画像の人間の形状と姿勢の推定を予測し、ビデオで利用可能な時間情報を活用しない。 人間の動きの多くの「野生の」シーケンスは動くカメラによって捉えられ、その推定には、凝縮したカメラと人間の動きの複雑さが加えられる。 そこで本研究では,人体の位置,形状,姿勢,およびカメラ軌道を共同で推定する単分子SLAMシステムであるBodySLAMを提案する。 また、連続体姿勢を拘束し、シーンの規模を観察する新しい人間の動きモデルも導入する。 動いたモノクラーカメラが捉えた人間の動きの映像シーケンスに関する一連の実験を通じて、BodySLAMは、これらを別々に推定した場合と比較して、すべての人体パラメータとカメラのポーズの推定を改善することを実証した。

Estimating human motion from video is an active research area due to its many potential applications. Most state-of-the-art methods predict human shape and posture estimates for individual images and do not leverage the temporal information available in video. Many "in the wild" sequences of human motion are captured by a moving camera, which adds the complication of conflated camera and human motion to the estimation. We therefore present BodySLAM, a monocular SLAM system that jointly estimates the position, shape, and posture of human bodies, as well as the camera trajectory. We also introduce a novel human motion model to constrain sequential body postures and observe the scale of the scene. Through a series of experiments on video sequences of human motion captured by a moving monocular camera, we demonstrate that BodySLAM improves estimates of all human body parameters and camera poses when compared to estimating these separately.
翻訳日:2022-05-06 15:16:36 公開日:2022-05-04
# P3IV:弱視映像からの確率的手続き計画

P3IV: Probabilistic Procedure Planning from Instructional Videos with Weak Supervision ( http://arxiv.org/abs/2205.02300v1 )

ライセンス: Link先を確認
He Zhao and Isma Hadji and Nikita Dvornik and Konstantinos G. Derpanis and Richard P. Wildes and Allan D. Jepson(参考訳) 本稿では,指導ビデオにおける手順計画の問題について検討する。 ここでエージェントは、与えられた開始から所望の目標状態へ環境を変換できる実行可能なアクションのシーケンスを生成する必要がある。 指導ビデオからプロシージャプランニングを学ぶ際、最新の研究は中間的な視覚観察を監督として活用し、訓練ビデオのすべての指導手順を正確にローカライズするために高価なアノテーションを必要とする。 対照的に,高コストなテンポラリビデオアノテーションの必要性を取り除き,自然言語命令から学ぶことで,教師の少ないアプローチを提案する。 本モデルでは,メモリモジュールを備えたトランスフォーマーをベースとして,開始点と目標の観測結果を可視な動作のシーケンスにマッピングする。 さらに,従来の作業では見過ごされていた手続き計画に固有の不確かさを捉えるために,確率的生成モジュールを用いてモデルを拡張した。 3つのデータセットでモデルを評価し、複数のメトリクスで従来の完全教師付き最先端モデルよりも弱い教師付きアプローチを示しました。

In this paper, we study the problem of procedure planning in instructional videos. Here, an agent must produce a plausible sequence of actions that can transform the environment from a given start to a desired goal state. When learning procedure planning from instructional videos, most recent work leverages intermediate visual observations as supervision, which requires expensive annotation efforts to localize precisely all the instructional steps in training videos. In contrast, we remove the need for expensive temporal video annotations and propose a weakly supervised approach by learning from natural language instructions. Our model is based on a transformer equipped with a memory module, which maps the start and goal observations to a sequence of plausible actions. Furthermore, we augment our model with a probabilistic generative module to capture the uncertainty inherent to procedure planning, an aspect largely overlooked by previous work. We evaluate our model on three datasets and show our weaklysupervised approach outperforms previous fully supervised state-of-the-art models on multiple metrics.
翻訳日:2022-05-06 14:58:48 公開日:2022-05-04
# shoerinsics: 内因的分解を伴う鑑識の靴プリント予測

ShoeRinsics: Shoeprint Prediction for Forensics with Intrinsic Decomposition ( http://arxiv.org/abs/2205.02361v1 )

ライセンス: Link先を確認
Samia Shafique, Bailey Kong, Shu Kong, Charless C. Fowlkes(参考訳) シュートレッドの印象は、犯罪現場に残る最も一般的な証拠の1つである。 しかし、このような証拠の有効性は、靴の膨大な数の異なる靴モデルをカバーする履物印象パターンのデータベースの欠如によって制限されている。 我々は,オンライン小売業者が収集した靴ひも写真を利用して,このギャップに対処することを提案する。 底面印象やトレッドパターンの3d形状がないため,靴の写真から印象パターンを予測することが重要な課題である。 本研究では,1枚のトレッド写真から固有画像分解(深度,正規度,アルベド,照明)を行うモデルを構築した。 ShoeRinsicsと呼ばれる我々のアプローチは、完全に教師付き合成データと教師なしの小売画像データの組み合わせを活用するために、ドメイン適応と再レンダリング損失を組み合わせたものです。 モデル性能を検証するために,靴底画像と対応する印刷物の組み合わせを収集し,予測した印象の精度を定量化するためのベンチマークプロトコルを定義する。 このベンチマークでは、ShoeRinsicsは深度予測と合成-実領域適応の既存の手法よりも優れている。

Shoe tread impressions are one of the most common types of evidence left at crime scenes. However, the utility of such evidence is limited by the lack of databases of footwear impression patterns that cover the huge and growing number of distinct shoe models. We propose to address this gap by leveraging shoe tread photographs collected by online retailers. The core challenge is to predict the impression pattern from the shoe photograph since ground-truth impressions or 3D shapes of tread patterns are not available. We develop a model that performs intrinsic image decomposition (predicting depth, normal, albedo, and lighting) from a single tread photo. Our approach, which we term ShoeRinsics, combines domain adaptation and re-rendering losses in order to leverage a mix of fully supervised synthetic data and unsupervised retail image data. To validate model performance, we also collected a set of paired shoe-sole images and corresponding prints, and define a benchmarking protocol to quantify the accuracy of predicted impressions. On this benchmark, ShoeRinsics outperforms existing methods for depth prediction and synthetic-to-real domain adaptation.
翻訳日:2022-05-06 14:58:32 公開日:2022-05-04
# 薬物併用のN-ary関係抽出のためのデータセット

A Dataset for N-ary Relation Extraction of Drug Combinations ( http://arxiv.org/abs/2205.02289v1 )

ライセンス: Link先を確認
Aryeh Tiktinsky, Vijay Viswanathan, Danna Niezni, Dana Meron Azagury, Yosi Shamay, Hillel Taub-Tabib, Tom Hope, Yoav Goldberg(参考訳) 組み合わせ療法は、がん、結核、マラリア、HIVなどの疾患に対する治療の標準となっている。 しかし、利用可能な多剤併用療法は、状況下で有効な組み合わせ療法を特定する上での課題となっている。 医療専門家が有用な薬物結合の同定を支援するために,我々は,薬物組み合わせの有効性に関する情報を科学文献から抽出するエキスパート注釈データセットを構築した。 実用性以外にも、このデータセットは可変長関係からなる最初の関係抽出データセットとして、ユニークなNLP課題も提示している。 さらに、このデータセットの関連性は、主に文レベルを超えて言語理解を必要とし、このタスクの課題を補足する。 有望なベースラインモデルを提供し、さらなる改善のための明確な領域を特定します。 当社はデータセット、コード、ベースラインモデルを公開し、NLPコミュニティがこのタスクに参加することを奨励しています。

Combination therapies have become the standard of care for diseases such as cancer, tuberculosis, malaria and HIV. However, the combinatorial set of available multi-drug treatments creates a challenge in identifying effective combination therapies available in a situation. To assist medical professionals in identifying beneficial drug-combinations, we construct an expert-annotated dataset for extracting information about the efficacy of drug combinations from the scientific literature. Beyond its practical utility, the dataset also presents a unique NLP challenge, as the first relation extraction dataset consisting of variable-length relations. Furthermore, the relations in this dataset predominantly require language understanding beyond the sentence level, adding to the challenge of this task. We provide a promising baseline model and identify clear areas for further improvement. We release our dataset, code, and baseline models publicly to encourage the NLP community to participate in this task.
翻訳日:2022-05-06 14:52:00 公開日:2022-05-04
# 機械学習オペレーション(MLOps)の概要、定義、アーキテクチャ

Machine Learning Operations (MLOps): Overview, Definition, and Architecture ( http://arxiv.org/abs/2205.02302v1 )

ライセンス: Link先を確認
Dominik Kreuzberger, Niklas K\"uhl, Sebastian Hirschl(参考訳) すべての産業用機械学習(ML)プロジェクトの最終的な目標は、ML製品を開発し、迅速に製品化することだ。 しかし、MLプロダクトの自動化と運用は極めて難しいため、多くのML取り組みが期待に届かなかった。 機械学習オペレーション(MLOps)のパラダイムは、この問題に対処する。 MLOpsには、ベストプラクティスやコンセプトセット、開発文化など、いくつかの側面が含まれている。 しかし、MLOpsはまだ曖昧な用語であり、研究者や専門家にとっての結果は曖昧である。 このギャップに対処するために,文献レビュー,ツールレビュー,エキスパートインタビューなど,混合手法の研究を行っている。 これらの調査の結果、必要な原則、コンポーネント、役割、関連するアーキテクチャやワークフローの概要をまとめて紹介する。 さらに、MLOpsの定義も提供し、この分野におけるオープンな課題を強調します。 最後に、この研究は、指定された技術セットでML製品を自動化し、運用したい機械学習研究者や実践者に対してガイダンスを提供する。

The final goal of all industrial machine learning (ML) projects is to develop ML products and rapidly bring them into production. However, it is highly challenging to automate and operationalize ML products and thus many ML endeavors fail to deliver on their expectations. The paradigm of Machine Learning Operations (MLOps) addresses this issue. MLOps includes several aspects, such as best practices, sets of concepts, and development culture. However, MLOps is still a vague term and its consequences for researchers and professionals are ambiguous. To address this gap, we conduct mixed-method research, including a literature review, a tool review, and expert interviews. As a result of these investigations, we provide an aggregated overview of the necessary principles, components, and roles, as well as the associated architecture and workflows. Furthermore, we furnish a definition of MLOps and highlight open challenges in the field. Finally, this work provides guidance for ML researchers and practitioners who want to automate and operate their ML products with a designated set of technologies.
翻訳日:2022-05-06 14:51:01 公開日:2022-05-04
# ランダム森林の多変量予測区間

Multivariate Prediction Intervals for Random Forests ( http://arxiv.org/abs/2205.02260v1 )

ライセンス: Link先を確認
Brendan Folie and Maxwell Hutchinson(参考訳) 正確な不確実性推定は、逐次学習や強化学習のように、実験の反復設計のパフォーマンスを大幅に改善することができる。 工学や物理科学の多くの問題において、設計タスクは目的や制約として複数の相関モデル出力に依存する。 これらの問題をよりよく解くために,バッジモデルに対する多変量予測区間を生成する再校正ブートストラップ法を提案し,その妥当性を示す。 複数の目的を持った逐次学習問題に対して,再調整されたブートストラップを適用し,満足のいく候補を見つけるのに必要なイテレーション数が著しく減少することを示す。 これは、再調整されたブートストラップが、複数の競合するターゲットを持つシステムを最適化するために機械学習を使用する実践者にとって価値のあるツールであることを示している。

Accurate uncertainty estimates can significantly improve the performance of iterative design of experiments, as in Sequential and Reinforcement learning. For many such problems in engineering and the physical sciences, the design task depends on multiple correlated model outputs as objectives and/or constraints. To better solve these problems, we propose a recalibrated bootstrap method to generate multivariate prediction intervals for bagged models and show that it is well-calibrated. We apply the recalibrated bootstrap to a simulated sequential learning problem with multiple objectives and show that it leads to a marked decrease in the number of iterations required to find a satisfactory candidate. This indicates that the recalibrated bootstrap could be a valuable tool for practitioners using machine learning to optimize systems with multiple competing targets.
翻訳日:2022-05-06 14:28:30 公開日:2022-05-04
# 因果効果同定のための最小コスト介入設計

Minimum Cost Intervention Design for Causal Effect Identification ( http://arxiv.org/abs/2205.02232v1 )

ライセンス: Link先を確認
Sina Akbari, Jalal Etesami, Negar Kiyavash(参考訳) pearlのdo微積分は、観測データから識別可能な因果効果を学ぶための完全な公理的アプローチである。 このような効果が特定できない場合は、因果効果を学習するために、システム内でしばしばコストがかかる介入の収集を行う必要がある。 本研究では,最小限のコストで介入の収集を設計し,所望の効果を同定する問題を考察する。 まず,この問題がnp-hardであることを証明し,その最適解を求めるか,対数分解係数近似を求めるアルゴリズムを提案する。 これは、我々の問題と最小打撃セット問題との接続を確立することによって行われる。 さらに,この問題の計算複雑性に取り組むために,多項式時間ヒューリスティックアルゴリズムをいくつか提案する。 これらのアルゴリズムは準最適解に反する可能性があるが、我々のシミュレーションはランダムグラフに対する小さな後悔を達成していることを示している。

Pearl's do calculus is a complete axiomatic approach to learn the identifiable causal effects from observational data. When such an effect is not identifiable, it is necessary to perform a collection of often costly interventions in the system to learn the causal effect. In this work, we consider the problem of designing the collection of interventions with the minimum cost to identify the desired effect. First, we prove that this problem is NP-hard, and subsequently propose an algorithm that can either find the optimal solution or a logarithmic-factor approximation of it. This is done by establishing a connection between our problem and the minimum hitting set problem. Additionally, we propose several polynomial-time heuristic algorithms to tackle the computational complexity of the problem. Although these algorithms could potentially stumble on sub-optimal solutions, our simulations show that they achieve small regrets on random graphs.
翻訳日:2022-05-06 14:25:24 公開日:2022-05-04
# GitRank: GitHubリポジトリのランク付けフレームワーク

GitRank: A Framework to Rank GitHub Repositories ( http://arxiv.org/abs/2205.02360v1 )

ライセンス: Link先を確認
Niranjan Hasabnis(参考訳) オープンソースリポジトリは豊富な情報を提供し、ソフトウェア工学の問題を解決する人工知能(AI)ベースのシステムの構築にますます利用されている。 オープンソースリポジトリは品質レベルが異なり、品質の低いリポジトリはシステムのパフォーマンスを低下させる可能性がある。 GitHubのようなコードホスティングサイトで直接利用できないオープンソースリポジトリの品質を評価することが重要である。 このハッカソンでは、既知のコード品質測定とGrimoireLabツールキットを使用して、GitRankというフレームワークを実装し、オープンソースのリポジトリを3つの異なる基準でランク付けします。 本報告では,本報告の調査結果と予備評価について述べる。

Open-source repositories provide wealth of information and are increasingly being used to build artificial intelligence (AI) based systems to solve problems in software engineering. Open-source repositories could be of varying quality levels, and bad-quality repositories could degrade performance of these systems. Evaluating quality of open-source repositories, which is not available directly on code hosting sites such as GitHub, is thus important. In this hackathon, we utilize known code quality measures and GrimoireLab toolkit to implement a framework, named GitRank, to rank open-source repositories on three different criteria. We discuss our findings and preliminary evaluation in this hackathon report.
翻訳日:2022-05-06 14:25:10 公開日:2022-05-04
# Based-CEのホワイトボックス攻撃はスーパーフィッティングでは機能しない

Based-CE white-box adversarial attack will not work using super-fitting ( http://arxiv.org/abs/2205.02741v1 )

ライセンス: Link先を確認
Youhuan Yang, Lei Sun, Leyu Dai, Song Guo, Xiuqing Mao, Xiaoqin Wang and Bayi Xu(参考訳) ディープニューラルネットワーク(DNN)はその強力な性能のために様々な分野で広く利用されているが、最近の研究では、ディープラーニングモデルは敵の攻撃に弱いことが示されている。 セキュリティ要件の高いシステムでは特に危険であるため,本論文では,モデルスーパーフィッティング状態を用いた新たな防御手法を提案する。 この状況下では、モデルの逆境堅牢性(すなわち、敵攻撃時のアクリル)が大幅に改善されている。 本稿では,超適合性の有効性を数学的に証明し,非関連カテゴリスコア(MUCS)を素早く最小化する手法を提案する。 理論的には、スーパーフィッティングはceのホワイトボックス攻撃に基づく既存の(将来の)攻撃にも耐えうる。 さらに,近年の会議では,超フィッティングと50近い防御モデルが対向する頑健性を評価するために,様々な強力な攻撃アルゴリズムを用いている。 実験結果から, 本手法は, トレーニングされたモデルに対して, 高い対向性が得られることを示した。

Deep Neural Networks (DNN) are widely used in various fields due to their powerful performance, but recent studies have shown that deep learning models are vulnerable to adversarial attacks-by adding a slight perturbation to the input, the model will get wrong results. It is especially dangerous for some systems with high security requirements, so this paper proposes a new defense method by using the model super-fitting status. Model's adversarial robustness (i.e., the accuracry under adversarial attack) has been greatly improved in this status. This paper mathematically proves the effectiveness of super-fitting, and proposes a method to make the model reach this status quickly-minimaze unrelated categories scores (MUCS). Theoretically, super-fitting can resist any existing (even future) Based on CE white-box adversarial attack. In addition, this paper uses a variety of powerful attack algorithms to evaluate the adversarial robustness of super-fitting and other nearly 50 defense models from recent conferences. The experimental results show that super-fitting method in this paper can make the trained model obtain the highest adversarial performance robustness.
翻訳日:2022-05-06 14:24:36 公開日:2022-05-04
# 分類と敵攻撃の再考

Rethinking Classifier And Adversarial Attack ( http://arxiv.org/abs/2205.02743v1 )

ライセンス: Link先を確認
Youhuan Yang, Lei Sun, Leyu Dai, Song Guo, Xiuqing Mao, Xiaoqin Wang and Bayi Xu(参考訳) 敵攻撃アルゴリズムに抵抗する様々な防御モデルが提案されているが、既存の敵ロバスト性評価手法は常にこれらのモデルの敵ロバスト性(すなわち、下位ロバスト性に近づかない)を過大評価している。 この問題を解決するため,本論文ではまずデコプル空間法を用いて分類器を非線形と線形の2つの部分に分割する。 そこで本論文では,元の例(およびその空間,すなわち表現空間)の表現ベクトルを定義し,絶対的分類境界初期化(ACBI)を反復的に最適化することにより,より優れた攻撃開始点(すなわち,この点からの攻撃はより早くロバストネスの下位境界に近づくことができる)を得る。 特に,本論文は,広く使用されている50近い防衛モデル(8つのアーキテクチャを含む)にACBIを適用した。 実験の結果,ACBIは全ての症例において低ロバストな精度が得られた。

Various defense models have been proposed to resist adversarial attack algorithms, but existing adversarial robustness evaluation methods always overestimate the adversarial robustness of these models (i.e. not approaching the lower bound of robustness). To solve this problem, this paper first uses the Decouple Space method to divide the classifier into two parts: non-linear and linear. On this basis, this paper defines the representation vector of original example (and its space, i.e., the representation space) and uses Absolute Classification Boundaries Initialization (ACBI) iterative optimization to obtain a better attack starting point (i.e. attacking from this point can approach the lower bound of robustness faster). Particularly, this paper apply ACBI to nearly 50 widely-used defense models (including 8 architectures). Experimental results show that ACBI achieves lower robust accuracy in all cases.
翻訳日:2022-05-06 14:24:08 公開日:2022-05-04
# グループ不変量子機械学習

Group-Invariant Quantum Machine Learning ( http://arxiv.org/abs/2205.02261v1 )

ライセンス: Link先を確認
Martin Larocca, Frederic Sauvage, Faris M. Sbahi, Guillaume Verdon, Patrick J. Coles, M. Cerezo(参考訳) 量子機械学習(qml)モデルは、量子状態にエンコードされたデータから学習することを目的としている。 近年,帰納的バイアスがほとんどないし全くないモデル(すなわち,モデルに埋め込まれた問題を想定しないモデル)は,特に大きな問題サイズにおいて,訓練可能性や一般化の問題を持つ可能性が指摘されている。 そのため、現状の問題に関する情報をできるだけ多くエンコードする手法を開発することが不可欠である。 この作業では、データ内の基盤となる不変性をQMLモデルの構築に使用し、構築によってそれらの対称性を尊重する、シンプルで強力なフレームワークを提示します。 これらのいわゆる群不変モデルは、データセットに関連する対称性群 $\mathfrak{G}$ の任意の要素の作用の下で不変な出力を生成する。 我々は,$\mathfrak{g}$-invariant モデルの設計を基礎とする理論的結果を示し,$\mathfrak{g}$ が連続リー群である場合や離散対称性群である場合など,いくつかのパラダイム的 qml 分類タスクを通じてその応用例を示す。 特に、私たちのフレームワークは、文学でよく知られたいくつかのアルゴリズムをエレガントな方法で復元し、新しいものを見つけることができます。 まとめると、我々の結果はQMLモデル設計に対するより幾何学的でグループ理論的なアプローチへの道を開くのに役立つと期待する。

Quantum Machine Learning (QML) models are aimed at learning from data encoded in quantum states. Recently, it has been shown that models with little to no inductive biases (i.e., with no assumptions about the problem embedded in the model) are likely to have trainability and generalization issues, especially for large problem sizes. As such, it is fundamental to develop schemes that encode as much information as available about the problem at hand. In this work we present a simple, yet powerful, framework where the underlying invariances in the data are used to build QML models that, by construction, respect those symmetries. These so-called group-invariant models produce outputs that remain invariant under the action of any element of the symmetry group $\mathfrak{G}$ associated to the dataset. We present theoretical results underpinning the design of $\mathfrak{G}$-invariant models, and exemplify their application through several paradigmatic QML classification tasks including cases when $\mathfrak{G}$ is a continuous Lie group and also when it is a discrete symmetry group. Notably, our framework allows us to recover, in an elegant way, several well known algorithms for the literature, as well as to discover new ones. Taken together, we expect that our results will help pave the way towards a more geometric and group-theoretic approach to QML model design.
翻訳日:2022-05-06 14:23:50 公開日:2022-05-04
# DeepBayes -- 確率非線形力学モデルにおけるパラメータ推定のための推定器

DeepBayes -- an estimator for parameter estimation in stochastic nonlinear dynamical models ( http://arxiv.org/abs/2205.02264v1 )

ライセンス: Link先を確認
Anubhab Ghosh, Mohamed Abdalmoaty, Saikat Chatterjee, H{\aa}kan Hjalmarsson(参考訳) 確率非線形力学系は現代の実世界の応用においてユビキタスである。 しかし、確率的非線形力学モデルの未知パラメータを推定することは難しい問題である。 既存の手法の大半は最大確率またはベイズ推定を用いる。 しかし、これらの手法にはいくつかの制限があり、特に推論のかなりの計算時間とアプリケーションの柔軟性が制限されている。 本研究では,DeepBayes推定器を提案する。この推定器の学習において,ディープリカレントニューラルネットワークのパワーを利用する。 この方法は、関心のモデルセットから引き出されたモデルを用いて合成されたデータの集合に対して平均2乗推定誤差を最小限に抑えるために、まず繰り返しニューラルネットワークを訓練する。 事前訓練された推定器は、推定データを用いてネットワークを評価することにより、推論に直接使用できる。 ディープリカレントニューラルネットワークアーキテクチャはオフラインでトレーニングでき、推論中にかなりの時間を節約できる。 我々は,長期記憶ネットワーク(LSTM)とゲートリカレントユニット(GRU)の2つの一般的なリカレントニューラルネットワークを実験した。 提案手法の異なる実例モデルへの適用性を実証し,最先端手法との比較を行った。 また,実世界の非線形ベンチマーク問題についても考察する。 実験により,提案手法はベイズ推定器と同程度の漸近性を示した。

Stochastic nonlinear dynamical systems are ubiquitous in modern, real-world applications. Yet, estimating the unknown parameters of stochastic, nonlinear dynamical models remains a challenging problem. The majority of existing methods employ maximum likelihood or Bayesian estimation. However, these methods suffer from some limitations, most notably the substantial computational time for inference coupled with limited flexibility in application. In this work, we propose DeepBayes estimators that leverage the power of deep recurrent neural networks in learning an estimator. The method consists of first training a recurrent neural network to minimize the mean-squared estimation error over a set of synthetically generated data using models drawn from the model set of interest. The a priori trained estimator can then be used directly for inference by evaluating the network with the estimation data. The deep recurrent neural network architectures can be trained offline and ensure significant time savings during inference. We experiment with two popular recurrent neural networks -- long short term memory network (LSTM) and gated recurrent unit (GRU). We demonstrate the applicability of our proposed method on different example models and perform detailed comparisons with state-of-the-art approaches. We also provide a study on a real-world nonlinear benchmark problem. The experimental evaluations show that the proposed approach is asymptotically as good as the Bayes estimator.
翻訳日:2022-05-06 14:21:43 公開日:2022-05-04
# 教師なしテキストスタイル転送のためのロバストかつセマンティックな潜在表現に向けて

Towards Robust and Semantically Organised Latent Representations for Unsupervised Text Style Transfer ( http://arxiv.org/abs/2205.02309v1 )

ライセンス: Link先を確認
Sharan Narasimhan, Suvodip Dey, Maunendra Sankar Desarkar(参考訳) 近年の研究では、自動エンコーダに基づくアプローチが、ゼロショット方式で、未認識の属性に対する言語生成、スムーズな文補間、スタイル転送に成功していることが示されている。 このようなモデルの潜在空間幾何学は、そのスタイルが「粗い粒度」であるようなデータセット上では十分に機能し、すなわち文中の少数の単語だけで全体のスタイルラベルを決定するのに十分である。 最近の研究では、離散トークンベースの摂動法を用いて、「類似した」文(低レベンシュテイン距離と高単語重なりによって定義される)を潜在空間に近接させる。 この「類似性」の定義は、潜在空間近傍をマッピングしながら構成語の根底にあるニュアンスを考慮せず、それゆえ、潜在近傍をマッピングしながら異なるスタイルに基づく意味論を持つ文を認識できない。 連続埋め込み空間に微調整可能なノイズ成分を加えることで、この摂動モデルを完成させるEPAAE(Embedding Perturbed Adversarial AutoEncoders)を導入する。 これを実証的に示す (a)様式的に類似した文をまとめるより優れた組織化された潜伏空間を作り出す。 (b)類似の着想に基づくベースラインよりも多種多様なテキストスタイルの転送タスクで最善を尽くし、 (c)スタイル転写強度の細粒度制御が可能。 また、テキストスタイル転送タスクをNLIデータセットに拡張し、これらのより複雑なスタイル定義がEPAAEによって最もよく学習されていることを示す。 我々の知る限り、NLIタスクへのスタイル転送の拡張は、これまで検討されていない。

Recent studies show that auto-encoder based approaches successfully perform language generation, smooth sentence interpolation, and style transfer over unseen attributes using unlabelled datasets in a zero-shot manner. The latent space geometry of such models is organised well enough to perform on datasets where the style is "coarse-grained" i.e. a small fraction of words alone in a sentence are enough to determine the overall style label. A recent study uses a discrete token-based perturbation approach to map "similar" sentences ("similar" defined by low Levenshtein distance/ high word overlap) close by in latent space. This definition of "similarity" does not look into the underlying nuances of the constituent words while mapping latent space neighbourhoods and therefore fails to recognise sentences with different style-based semantics while mapping latent neighbourhoods. We introduce EPAAEs (Embedding Perturbed Adversarial AutoEncoders) which completes this perturbation model, by adding a finely adjustable noise component on the continuous embeddings space. We empirically show that this (a) produces a better organised latent space that clusters stylistically similar sentences together, (b) performs best on a diverse set of text style transfer tasks than similar denoising-inspired baselines, and (c) is capable of fine-grained control of Style Transfer strength. We also extend the text style transfer tasks to NLI datasets and show that these more complex definitions of style are learned best by EPAAE. To the best of our knowledge, extending style transfer to NLI tasks has not been explored before.
翻訳日:2022-05-06 14:21:26 公開日:2022-05-04
# オープンブック試験としての関係抽出:検索型プロンプトチューニング

Relation Extraction as Open-book Examination: Retrieval-enhanced Prompt Tuning ( http://arxiv.org/abs/2205.02355v1 )

ライセンス: Link先を確認
Xiang Chen, Lei Li, Ningyu Zhang, Chuanqi Tan, Fei Huang, Luo Si, Huajun Chen(参考訳) 事前訓練された言語モデルは、驚くべき数発の学習能力を示すことによって関係抽出に大きく貢献している。 しかし、関係抽出のための迅速なチューニング手法は、これらの稀なパターンや難しいパターンに一般化できない可能性がある。 従来のパラメトリック学習パラダイムは、トレーニングデータを書籍として記憶し、推論をクローズブックテストとして捉えることができる。 ロングテールやハードパターンは、限られたインスタンスでしか記憶できない。 そこで本研究では,reをオープンブック検証として,関係抽出のための検索強調プロンプトチューニングの新しい半パラメトリックパラダイムを提案する。 記憶されたキー値ペアとして,プロンプトベースのインスタンス表現と対応する関係ラベルを検索するためのオープンブックデータストアを構築する。 データストア上の非パラメトリック近傍分布と PLM の基底出力を線形に補間することにより、推論時に関係を推測することができる。 このように、トレーニング中に重み付けに格納された知識を通じて関係を推測するだけでなく、オープンブックデータストアで例を解き、クエリすることで意思決定を支援する。 ベンチマークデータセットに関する広範囲な実験により,本手法は標準教師付き設定と少数ショット設定の両方において最先端の手法を実現できることが示された。 コードはhttps://github.com/zjunlp/promptkg/tree/main/research/retrievalreで入手できる。

Pre-trained language models have contributed significantly to relation extraction by demonstrating remarkable few-shot learning abilities. However, prompt tuning methods for relation extraction may still fail to generalize to those rare or hard patterns. Note that the previous parametric learning paradigm can be viewed as memorization regarding training data as a book and inference as the close-book test. Those long-tailed or hard patterns can hardly be memorized in parameters given few-shot instances. To this end, we regard RE as an open-book examination and propose a new semiparametric paradigm of retrieval-enhanced prompt tuning for relation extraction. We construct an open-book datastore for retrieval regarding prompt-based instance representations and corresponding relation labels as memorized key-value pairs. During inference, the model can infer relations by linearly interpolating the base output of PLM with the non-parametric nearest neighbor distribution over the datastore. In this way, our model not only infers relation through knowledge stored in the weights during training but also assists decision-making by unwinding and querying examples in the open-book datastore. Extensive experiments on benchmark datasets show that our method can achieve state-of-the-art in both standard supervised and few-shot settings. Code are available in https://github.com/zjunlp/PromptKG/tree/main/research/RetrievalRE.
翻訳日:2022-05-06 14:21:02 公開日:2022-05-04
# マルチモード知識グラフ補完のためのマルチレベル融合型ハイブリッドトランス

Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge Graph Completion ( http://arxiv.org/abs/2205.02357v1 )

ライセンス: Link先を確認
Xiang Chen, Ningyu Zhang, Lei Li, Shumin Deng, Chuanqi Tan, Changliang Xu, Fei Huang, Luo Si, Huajun Chen(参考訳) 視覚テキストの事実知識を整理するマルチモーダル知識グラフ(MKG)は近年,情報検索や質問応答,レコメンデーションシステムといったタスクにうまく適用されている。 ほとんどのmkgは完成にはほど遠いため、マルチモーダルエンティティ、関係抽出、リンク予測に焦点をあてた広範な知識グラフ補完研究が提案されている。 しかし、異なるタスクやモダリティはモデルアーキテクチャの変更を必要とし、全ての画像やオブジェクトがテキスト入力に関連しているわけではないため、様々な現実世界のシナリオに適用できない。 本稿では,これらの問題に対処する多層融合型ハイブリッドトランスを提案する。 具体的には,多様なマルチモーダルナレッジグラフ補完タスクに対して,統一入力出力を用いたハイブリッドトランスフォーマティブアーキテクチャを活用する。 さらに、粗い接頭辞誘導相互作用と微粒な相関認識融合モジュールによる視覚とテキストの表現を統合する多層融合を提案する。 我々は,マルチモーダルリンク予測,マルチモーダルre,マルチモーダルnerの4つのデータセット上で,mkgformerがsota性能を得ることができることを検証するために,広範な実験を行った。 コードはhttps://github.com/zjunlp/MKGformerで入手できる。

Multimodal Knowledge Graphs (MKGs), which organize visual-text factual knowledge, have recently been successfully applied to tasks such as information retrieval, question answering, and recommendation system. Since most MKGs are far from complete, extensive knowledge graph completion studies have been proposed focusing on the multimodal entity, relation extraction and link prediction. However, different tasks and modalities require changes to the model architecture, and not all images/objects are relevant to text input, which hinders the applicability to diverse real-world scenarios. In this paper, we propose a hybrid transformer with multi-level fusion to address those issues. Specifically, we leverage a hybrid transformer architecture with unified input-output for diverse multimodal knowledge graph completion tasks. Moreover, we propose multi-level fusion, which integrates visual and text representation via coarse-grained prefix-guided interaction and fine-grained correlation-aware fusion modules. We conduct extensive experiments to validate that our MKGformer can obtain SOTA performance on four datasets of multimodal link prediction, multimodal RE, and multimodal NER. Code is available in https://github.com/zjunlp/MKGformer.
翻訳日:2022-05-06 14:20:43 公開日:2022-05-04
# ループ内の言語モデル:弱スーパービジョンにプロンプトを組み込む

Language Models in the Loop: Incorporating Prompting into Weak Supervision ( http://arxiv.org/abs/2205.02318v1 )

ライセンス: Link先を確認
Ryan Smith and Jason A. Fries and Braden Hancock and Stephen H. Bach(参考訳) 本稿では,ラベル付き学習データに制限がある場合に,大規模事前学習言語モデルを新しいタスクに適用するための新しい戦略を提案する。 モデルを一般的なゼロショットあるいは少数ショットの方法で適用するのではなく、弱い監視フレームワークで関数のラベル付けの基盤として扱う。 分類器を作成するために、まず、サンプルに関する複数の異なるクエリに答えるようモデルに促し、ラベルや棄権に対する投票にどのように対応すべきかを定義します。 次に、Snorkelシステムを用いてノイズの多いラベルソースを識別し、結果のトレーニングデータで終端分類器を訓練する。 実験結果から,弱い監視フレームワークにおける大規模言語モデルの促進は,精度の大幅な向上をもたらす可能性が示唆された。 WRENCHの弱い監督ベンチマークでは、このアプローチはゼロショットのパフォーマンスよりも大幅に改善され、平均19.5%のエラーが減少する。 また,本手法は,手作業によるルールから訓練した手法と同等あるいは優れた精度の分類器を生成する。

We propose a new strategy for applying large pre-trained language models to novel tasks when labeled training data is limited. Rather than apply the model in a typical zero-shot or few-shot fashion, we treat the model as the basis for labeling functions in a weak supervision framework. To create a classifier, we first prompt the model to answer multiple distinct queries about an example and define how the possible responses should be mapped to votes for labels and abstentions. We then denoise these noisy label sources using the Snorkel system and train an end classifier with the resulting training data. Our experimental evaluation shows that prompting large language models within a weak supervision framework can provide significant gains in accuracy. On the WRENCH weak supervision benchmark, this approach can significantly improve over zero-shot performance, an average 19.5% reduction in errors. We also find that this approach produces classifiers with comparable or superior accuracy to those trained from hand-engineered rules.
翻訳日:2022-05-06 13:56:17 公開日:2022-05-04
# 語彙の減少を考慮したロシア語モデルの知識蒸留

Knowledge Distillation of Russian Language Models with Reduction of Vocabulary ( http://arxiv.org/abs/2205.02340v1 )

ライセンス: Link先を確認
Alina Kolesnikova, Yuri Kuratov, Vasily Konovalov, Mikhail Burtsev(参考訳) 今日、トランスフォーマー言語モデルは、多くの自然言語処理タスクのコアコンポーネントとして機能している。 このようなモデルの産業的応用には、計算時間とメモリフットプリントの最小化が必要である。 知識蒸留はこの目的に対処するためのアプローチの1つである。 この分野での既存の手法は主に層数や埋め込み/隠れ表現の次元を減らすことに焦点を当てている。 別の選択肢は、語彙のトークンの数を減らすことであり、それゆえ学生モデルの埋め込み行列である。 語彙最小化の主な問題は、教師と生徒モデルの入力シーケンスと出力クラス分布のミスマッチである。 その結果、KLに基づく知識蒸留を直接適用することは不可能である。 語彙を減らした学生に知識蒸留を行うための2つの簡易かつ効果的なアライメント手法を提案する。 ロシアのSuperGLUE, SberQuAD, RuSentiment, ParaPhaser, Collection-3 など,ロシアの一般的なベンチマークにおける蒸留モデルの評価では,我々の技術は,フルサイズの語彙を持つ1.7\times$圧縮学生の質を維持しながら,17\times$から49\times$まで圧縮を達成できることを示した。 コードと蒸留したモデルを利用可能にします。

Today, transformer language models serve as a core component for majority of natural language processing tasks. Industrial application of such models requires minimization of computation time and memory footprint. Knowledge distillation is one of approaches to address this goal. Existing methods in this field are mainly focused on reducing the number of layers or dimension of embeddings/hidden representations. Alternative option is to reduce the number of tokens in vocabulary and therefore the embeddings matrix of the student model. The main problem with vocabulary minimization is mismatch between input sequences and output class distributions of a teacher and a student models. As a result, it is impossible to directly apply KL-based knowledge distillation. We propose two simple yet effective alignment techniques to make knowledge distillation to the students with reduced vocabulary. Evaluation of distilled models on a number of common benchmarks for Russian such as Russian SuperGLUE, SberQuAD, RuSentiment, ParaPhaser, Collection-3 demonstrated that our techniques allow to achieve compression from $17\times$ to $49\times$, while maintaining quality of $1.7\times$ compressed student with the full-sized vocabulary, but reduced number of Transformer layers only. We make our code and distilled models available.
翻訳日:2022-05-06 13:56:00 公開日:2022-05-04
# オリジナルか翻訳か? 機械翻訳性能に及ぼす翻訳文の影響の因果解析

Original or Translated? A Causal Analysis of the Impact of Translationese on Machine Translation Performance ( http://arxiv.org/abs/2205.02293v1 )

ライセンス: Link先を確認
Jingwei Ni, Zhijing Jin, Markus Freitag, Mrinmaya Sachan, Bernhard Sch\"olkopf(参考訳) 人間翻訳されたテキストは、同じ言語で自然に書かれたテキストとは異なる特徴を示す。 この現象は翻訳(translationese)と呼ばれ、機械翻訳(MT)の評価を損なうと論じられている。 しかし、翻訳に関する既存の研究はいくつかの重要な要因を無視しており、結論は主に相関関係にあるが因果関係ではない。 本研究では,MTトレーニングデータに人間の翻訳方向をラベル付けしたデータセットであるCausalMTを収集する。 我々は、列車試験方向一致(訓練及び試験セットにおける人間の翻訳方向が一致している場合)とデータモデル方向一致(モデルがデータセットにおける人間の翻訳方向と同じ方向に学習する場合)の2つの重要な要因を検査する。 これらの2つの要因がmt性能に大きな因果的影響を示すとともに,既存の研究で強調された翻訳の影響に対するテストモデル方向のミスマッチも示している。 本研究の成果を踏まえて,MTトレーニングと評価について提案する。 コードとデータはhttps://github.com/EdisonNi-hku/CausalMTにある。

Human-translated text displays distinct features from naturally written text in the same language. This phenomena, known as translationese, has been argued to confound the machine translation (MT) evaluation. Yet, we find that existing work on translationese neglects some important factors and the conclusions are mostly correlational but not causal. In this work, we collect CausalMT, a dataset where the MT training data are also labeled with the human translation directions. We inspect two critical factors, the train-test direction match (whether the human translation directions in the training and test sets are aligned), and data-model direction match (whether the model learns in the same direction as the human translation direction in the dataset). We show that these two factors have a large causal effect on the MT performance, in addition to the test-model direction mismatch highlighted by existing work on the impact of translationese. In light of our findings, we provide a set of suggestions for MT training and evaluation. Our code and data are at https://github.com/EdisonNi-hku/CausalMT
翻訳日:2022-05-06 13:39:16 公開日:2022-05-04
# (参考訳) 漸進的変化のオンライン検出のための変化動的モデル

A Change Dynamic Model for the Online Detection of Gradual Change ( http://arxiv.org/abs/2205.01054v3 )

ライセンス: CC BY 4.0
Chris Browne(参考訳) 確率過程の統計的性質の変化は、一般的に変化点(change-points)によって起こると仮定される。 これらの移行が徐々に起こる場合、この仮定はプロセスの変更を適切に識別し、応答する能力を低下させる可能性がある。 この観測を念頭に置いて, 階層モデル内で変化点を用いて段階変化の開始や終了の瞬間を示す, ベイズ的枠組みにおいて, 段階変化のオンライン検出のための新しい変化力学モデルを導入する。 このモデルをてんかん発作時に引き起こされた脳波と合成データに適用することにより,従来の変化点モデルよりも高速かつ正確な変化の同定が可能となる。

Changes in the statistical properties of a stochastic process are typically assumed to occur via change-points, which demark instantaneous moments of complete and total change in process behavior. In cases where these transitions occur gradually, this assumption can result in a reduced ability to properly identify and respond to process change. With this observation in mind, we introduce a novel change-dynamic model for the online detection of gradual change in a Bayesian framework, in which change-points are used within a hierarchical model to indicate moments of gradual change onset or termination. We apply this model to synthetic data and EEG readings drawn during epileptic seizure, where we find our change-dynamic model can enable faster and more accurate identification of gradual change than traditional change-point models allow.
翻訳日:2022-05-06 13:35:50 公開日:2022-05-04
# 効率的・収束型フェデレーション学習

Efficient and Convergent Federated Learning ( http://arxiv.org/abs/2205.01438v2 )

ライセンス: Link先を確認
Shenglong Zhou and Geoffrey Ye Li(参考訳) フェデレーション学習はここ数年で進歩を見せているが、アルゴリズムがコミュニケーションリソースを節約する方法、計算コストの削減方法、収束するかどうかなど、多くの課題に直面している。 これらの問題に対処するため,乗算器の勾配降下と不正確な交互方向法を組み合わせた新しいフェデレーション学習アルゴリズム(FedGiA)を提案する。 FedGiAは温和な条件下で線形に計算・通信効率・収束性を示す。

Federated learning has shown its advances over the last few years but is facing many challenges, such as how algorithms save communication resources, how they reduce computational costs, and whether they converge. To address these issues, this paper proposes a new federated learning algorithm (FedGiA) that combines the gradient descent and the inexact alternating direction method of multipliers. It is shown that FedGiA is computation and communication-efficient and convergent linearly under mild conditions.
翻訳日:2022-05-06 12:26:49 公開日:2022-05-04
# (参考訳) 1クラス分類のための一般化参照カーネル

Generalized Reference Kernel for One-class Classification ( http://arxiv.org/abs/2205.00534v2 )

ライセンス: CC BY 4.0
Jenni Raitoharju and Alexandros Iosifidis(参考訳) 本稿では、参照ベクトルの集合を用いて、元のベースカーネルを改善することを期待する新しい一般化参照カーネルを定式化する。 選択された基準ベクトルによっては、近似核、ランダム写像、非線形射影トリックと類似性を示す。 小型の1クラス分類に着目した分析と実験結果から,新しい定式化は,カーネル自体に付加的な情報を加えて正規化,ランク調整を行うアプローチを提供し,一クラス分類精度の向上を図っている。

In this paper, we formulate a new generalized reference kernel hoping to improve the original base kernel using a set of reference vectors. Depending on the selected reference vectors, our formulation shows similarities to approximate kernels, random mappings, and Non-linear Projection Trick. Focusing on small-scale one-class classification, our analysis and experimental results show that the new formulation provides approaches to regularize, adjust the rank, and incorporate additional information into the kernel itself, leading to improved one-class classification accuracy.
翻訳日:2022-05-06 08:27:04 公開日:2022-05-04
# (参考訳) 複数の言語を対象としたマスキング言語モデルにおけるジェンダーバイアス

Gender Bias in Masked Language Models for Multiple Languages ( http://arxiv.org/abs/2205.00551v3 )

ライセンス: CC BY 4.0
Masahiro Kaneko, Aizhan Imankulova, Danushka Bollegala, Naoaki Okazaki(参考訳) 大型コーパスのマスクトークンを予測して事前学習したマスク言語モデル(mlms)は、様々な言語での自然言語処理タスクでうまく使われている。 残念ながら、MLMは性別や人種などの属性に関する差別バイアスも学習していると報告されている。 ほとんどの研究は英語のMLMに焦点を当てているため、他の言語でのMLMのバイアスはめったに研究されていない。 英語以外の言語に対する評価データのマニュアルアノテーションは、アノテータの採用コストと難しさのために困難である。 さらに、既存のバイアス評価手法では、属性語と同じ文脈(例えばHe/Sheは看護婦)のステレオタイプ文対を必要とする。 手動で注釈付きデータを必要とすることなく、英語の属性単語リストと英語のパラレルコーパスのみを用いて、様々な言語のバイアスを評価するための多言語バイアス評価(MBE)スコアを提案する。 MBEを用いて8言語でのMLMの評価を行い、これらの言語に対して性別関連バイアスがMLMにエンコードされていることを確認した。 MBEの有効性を評価するために、日本語とロシア語の性別バイアスのためのデータセットを手作業で作成した。 その結果、MBEが報告したバイアススコアは、上記の手作業で作成したデータセットと、既存の英語のジェンダーバイアスのデータセットと大きく相関していることがわかった。

Masked Language Models (MLMs) pre-trained by predicting masked tokens on large corpora have been used successfully in natural language processing tasks for a variety of languages. Unfortunately, it was reported that MLMs also learn discriminative biases regarding attributes such as gender and race. Because most studies have focused on MLMs in English, the bias of MLMs in other languages has rarely been investigated. Manual annotation of evaluation data for languages other than English has been challenging due to the cost and difficulty in recruiting annotators. Moreover, the existing bias evaluation methods require the stereotypical sentence pairs consisting of the same context with attribute words (e.g. He/She is a nurse). We propose Multilingual Bias Evaluation (MBE) score, to evaluate bias in various languages using only English attribute word lists and parallel corpora between the target language and English without requiring manually annotated data. We evaluated MLMs in eight languages using the MBE and confirmed that gender-related biases are encoded in MLMs for all those languages. We manually created datasets for gender bias in Japanese and Russian to evaluate the validity of the MBE. The results show that the bias scores reported by the MBE significantly correlates with that computed from the above manually created datasets and the existing English datasets for gender bias.
翻訳日:2022-05-06 07:37:49 公開日:2022-05-04
# (参考訳) AmbiPun: あいまいな文脈でHummorous Punsを生成する

AmbiPun: Generating Humorous Puns with Ambiguous Context ( http://arxiv.org/abs/2205.01825v1 )

ライセンス: CC BY 4.0
Anirudh Mittal, Yufei Tian, Nanyun Peng(参考訳) 本稿では,既存の句の訓練を必要としない,単純かつ効果的な句文生成手法を提案する。 我々のアプローチは、あいまいさは句語そのものではなく文脈に由来するというユーモア理論にインスパイアされている。 句語の1対の定義を与えられたモデルでは、まず逆辞書を用いて関連する概念のリストを生成する。 次に、ワンショットGPT3を用いて文脈語を生成し、両方の概念から文脈語を組み込んだ句を生成する。 人的評価の結果,提案手法は52 %の時間を効率よく生成し,良質なベースラインと最先端のモデルよりも大きなマージンを達成できた。

In this paper, we propose a simple yet effective way to generate pun sentences that does not require any training on existing puns. Our approach is inspired by humor theories that ambiguity comes from the context rather than the pun word itself. Given a pair of definitions of a pun word, our model first produces a list of related concepts through a reverse dictionary. We then utilize one-shot GPT3 to generate context words and then generate puns incorporating context words from both concepts. Human evaluation shows that our method successfully generates pun 52\% of the time, outperforming well-crafted baselines and the state-of-the-art models by a large margin.
翻訳日:2022-05-06 03:43:29 公開日:2022-05-04
# (参考訳) 説明可能な知識グラフ埋め込み: ロボット行動を支援する知識推論のための推論和解

Explainable Knowledge Graph Embedding: Inference Reconciliation for Knowledge Inferences Supporting Robot Actions ( http://arxiv.org/abs/2205.01836v1 )

ライセンス: CC BY 4.0
Angel Daruna, Devleena Das, and Sonia Chernova(参考訳) ロボットを支援する知識グラフの学習には、ロボットの振る舞いを駆動する豊富な知識が含まれている。 しかし、知識グラフ表現がロボットの逐次的意思決定にどのように影響するかを表現する推論調整フレームワークは存在しない。 学習されたブラックボックスの知識グラフ表現、知識グラフ埋め込みの推論を説明するのに教育的アプローチを用いる。 我々の解釈可能なモデルは、ブラックボックスモデルの予測を局所的に近似するために決定木分類器を使用し、非専門家によって解釈可能な自然言語説明を提供する。 アルゴリズム評価の結果はモデル設計の選択を裏付けるものであり,非専門家によるユーザ調査の結果は,提案する推論調整フレームワークの必要性を裏付けるものである。 批判的に,シミュレーションロボットによる評価の結果,ブラックボックス内の非感覚的信念により,非専門家がロボットの動作を正すことができた。

Learned knowledge graph representations supporting robots contain a wealth of domain knowledge that drives robot behavior. However, there does not exist an inference reconciliation framework that expresses how a knowledge graph representation affects a robot's sequential decision making. We use a pedagogical approach to explain the inferences of a learned, black-box knowledge graph representation, a knowledge graph embedding. Our interpretable model, uses a decision tree classifier to locally approximate the predictions of the black-box model, and provides natural language explanations interpretable by non-experts. Results from our algorithmic evaluation affirm our model design choices, and the results of our user studies with non-experts support the need for the proposed inference reconciliation framework. Critically, results from our simulated robot evaluation indicate that our explanations enable non-experts to correct erratic robot behaviors due to nonsensical beliefs within the black-box.
翻訳日:2022-05-06 03:31:22 公開日:2022-05-04
# (参考訳) fedmix: 医用画像分割のための教師付きフェデレーション学習

FedMix: Mixed Supervised Federated Learning for Medical Image Segmentation ( http://arxiv.org/abs/2205.01840v1 )

ライセンス: CC BY 4.0
Jeffry Wicaksana, Zengqiang Yan, Dong Zhang, Xijie Huang, Huimin Wu, Xin Yang, and Kwang-Ting Cheng(参考訳) フェデレーション学習の目的は、データを共有せずに複数のクライアントが共同で機械学習モデルを訓練できるようにすることである。 しかし、既存の画像分割モデルのトレーニング方法は、各ローカルクライアントのトレーニングセットが同様の方法でアノテートされているという非現実的な仮定に基づいており、同じイメージ監督レベルに従っている。 この仮定を緩和するため,本研究では,混合画像ラベルに基づく医用画像セグメンテーションのための,ラベル非依存な連合学習フレームワークfeedmixを提案する。 fedmixでは、各クライアントが、強力なピクセルレベルのラベル、弱いバウンディングボックスラベル、最も弱い画像レベルのクラスラベルなど、利用可能なすべてのラベルデータを統合して有効活用することで、フェデレーションモデルを更新する。 これらのローカルモデルに基づいて,グローバルモデル更新中に各クライアントが集約重みを学習するローカルクライアント間の適応的な重み割り当て手順を提案する。 既存の手法と比較して、FedMixは単一のレベルのイメージ監視の制約を突破するだけでなく、各ローカルクライアントの集約重みを動的に調整し、リッチで差別的な特徴表現を実現する。 その有効性を評価するため,乳房腫瘍の分節と皮膚病変の分節という2つの困難な医用画像の分節課題について実験を行った。 その結果,提案するFedMixは最先端手法よりも高い性能を示した。

The purpose of federated learning is to enable multiple clients to jointly train a machine learning model without sharing data. However, the existing methods for training an image segmentation model have been based on an unrealistic assumption that the training set for each local client is annotated in a similar fashion and thus follows the same image supervision level. To relax this assumption, in this work, we propose a label-agnostic unified federated learning framework, named FedMix, for medical image segmentation based on mixed image labels. In FedMix, each client updates the federated model by integrating and effectively making use of all available labeled data ranging from strong pixel-level labels, weak bounding box labels, to weakest image-level class labels. Based on these local models, we further propose an adaptive weight assignment procedure across local clients, where each client learns an aggregation weight during the global model update. Compared to the existing methods, FedMix not only breaks through the constraint of a single level of image supervision, but also can dynamically adjust the aggregation weight of each local client, achieving rich yet discriminative feature representations. To evaluate its effectiveness, experiments have been carried out on two challenging medical image segmentation tasks, i.e., breast tumor segmentation and skin lesion segmentation. The results validate that our proposed FedMix outperforms the state-of-the-art method by a large margin.
翻訳日:2022-05-06 03:12:15 公開日:2022-05-04
# (参考訳) 動的再コンパイルによるエキスパートの混合の最適化

Optimizing Mixture of Experts using Dynamic Recompilations ( http://arxiv.org/abs/2205.01848v1 )

ライセンス: CC BY 4.0
Ferdinand Kossmann, Zhihao Jia, Alex Aiken(参考訳) Mixture of Expertsアーキテクチャは、計算要求(FLOP)とは独立してモデルパラメータサイズをスケーリングすることで、はるかに大きなニューラルネットワークを可能にする。 しかし、現在のdnnフレームワークは、専門家の混合で動的データフローを効果的にサポートできないため、これらのフレームワーク上の実装は、かなりのオーバーヘッドをもたらす回避策を使用する必要がある。 このようなフレームワークの限界に対処するため,DynaMoEというDNNライブラリを紹介した。DynaMoEは動的再コンパイルを用いて,計算資源の活用を最適化し,Mixture of Expertsモデルの動的要求に適応させる。 評価の結果、DynaMoEは1.8倍の高速化を実現し、既存のMoEシステムと比較して2.3倍のモデルサイズをサポートする。 次に、動的再コンパイルによりさらに1.7倍の高速化を実現し、同時にメモリ圧力を低減し、モデル品質を向上させる。

The Mixture of Experts architecture allows for outrageously large neural networks by scaling model parameter size independently from computational demand (FLOPs). However, current DNN frameworks cannot effectively support the dynamic data flow in Mixture of Experts, and implementations on top of these frameworks need to use workarounds that introduce significant overheads. To address the limitation of these frameworks, we present DynaMoE, a DNN library that uses dynamic recompilations to optimize and adapt the use of computational resources to the dynamic needs of Mixture of Experts models. Our evaluation shows that DynaMoE achieves a 1.8x speedup and supports 2.3x larger model sizes when compared to existing MoE systems, even when not using recompilations. We then present further optimizations enabled by dynamic recompilations that yield an additional 1.7x speedup while simultaneously reducing memory pressure and improving model quality.
翻訳日:2022-05-06 02:54:07 公開日:2022-05-04
# (参考訳) 事前学習されたユニモーダルおよびマルチモーダルモデルにおける視覚コモンセンス

Visual Commonsense in Pretrained Unimodal and Multimodal Models ( http://arxiv.org/abs/2205.01850v1 )

ライセンス: CC BY 4.0
Chenyu Zhang, Benjamin Van Durme, Zhuowan Li, Elias Stengel-Eskin(参考訳) バナナは一般的に黄色か緑で、紫ではないことがわかっています。 テキストと画像コーパスは、レポートバイアスの対象であり、この世界的知識を、様々な信条の度合いで表している。 本稿では,Unimodal(言語のみ)モデルとMultimodal(画像と言語)モデルが視覚的に有意な属性をどの程度捉えているかを検討する。 そのために、5000人以上の被験者に対して5つのプロパティタイプ(色、形状、材料、サイズ、視覚的共起)をカバーするVisual Commonsense Tests (ViComTe)データセットを作成しました。 このデータセットは,Paikらによるクラウドソースカラー判定(2021年)と,テキストのみのデータよりもはるかによく相関していることを示す。 次に、トレーニング済みの単調モデルとマルチモーダルモデルを評価するためにデータセットを使用します。 以上の結果から,マルチモーダルモデルは属性分布の再構成に優れるが,それでも報告バイアスが伴うことが示唆された。 さらに、モデルサイズの増加はパフォーマンスを向上しないため、視覚的常識の鍵はデータにあることを示唆している。

Our commonsense knowledge about objects includes their typical visual attributes; we know that bananas are typically yellow or green, and not purple. Text and image corpora, being subject to reporting bias, represent this world-knowledge to varying degrees of faithfulness. In this paper, we investigate to what degree unimodal (language-only) and multimodal (image and language) models capture a broad range of visually salient attributes. To that end, we create the Visual Commonsense Tests (ViComTe) dataset covering 5 property types (color, shape, material, size, and visual co-occurrence) for over 5000 subjects. We validate this dataset by showing that our grounded color data correlates much better than ungrounded text-only data with crowdsourced color judgments provided by Paik et al. (2021). We then use our dataset to evaluate pretrained unimodal models and multimodal models. Our results indicate that multimodal models better reconstruct attribute distributions, but are still subject to reporting bias. Moreover, increasing model size does not enhance performance, suggesting that the key to visual commonsense lies in the data.
翻訳日:2022-05-06 02:32:55 公開日:2022-05-04
# (参考訳) DeeptDCS: 経頭蓋直流刺激による電流の深層学習に基づく推定

DeeptDCS: Deep Learning-Based Estimation of Currents Induced During Transcranial Direct Current Stimulation ( http://arxiv.org/abs/2205.01858v1 )

ライセンス: CC BY 4.0
Xiaofan Jia, Sadeed Bin Sayed, Nahian Ibn Hasan, Luis J. Gomez, Guang-Bin Huang, and Abdulkadir C. Yucel(参考訳) 目的:経頭蓋直流刺激(transcranial direct current stimulation, tdcs)は、頭部の伝導電流を発生させ、脳機能を破壊するために用いられる非侵襲的脳刺激技術である。 本稿では,TDCSによる電流密度をリアルタイムに高速に評価するために,DeeptDCSという深層学習型エミュレータを提案する。 方法: このエミュレータは、ヘッド組織のボリューム導体モデル(vcms)を入力として、ヘッド全体の3次元電流密度分布を出力するために、注意力u-netを活用する。 電極構成は入力チャネルの数を増やすことなくVCMに組み込まれており、提案エミュレータのトレーニングおよび試験において電極の非パラメトリック特性(厚み、形状、サイズ、位置など)を直接組み込むことができる。 結果: 標準U-netと他の3種類のU-net(Residual U-net, Attention Residual U-net, Multi-scale Residual U-net)よりも精度が高い。 非トレーニング電極位置へのDeeptDCSの一般化能力は、モデルを微調整することで大幅に向上することができる。 DeeptDCSによる1つのエミュレーションに必要な計算時間は1秒分である。 結論: deeptdcsは、物理ベースのオープンソースシミュレータよりも少なくとも2桁速いが、精度は十分である。 意義:高い計算効率は、不確実性定量化やtDCSの最適化研究など、繰り返し実行を必要とするアプリケーションでDeeptDCSを使用することを可能にする。

Objective: Transcranial direct current stimulation (tDCS) is a non-invasive brain stimulation technique used to generate conduction currents in the head and disrupt brain functions. To rapidly evaluate the tDCS-induced current density in near real-time, this paper proposes a deep learning-based emulator, named DeeptDCS. Methods: The emulator leverages Attention U-net taking the volume conductor models (VCMs) of head tissues as inputs and outputting the three-dimensional current density distribution across the entire head. The electrode configurations are also incorporated into VCMs without increasing the number of input channels; this enables the straightforward incorporation of the non-parametric features of electrodes (e.g., thickness, shape, size, and position) in the training and testing of the proposed emulator. Results: Attention U-net outperforms standard U-net and its other three variants (Residual U-net, Attention Residual U-net, and Multi-scale Residual U-net) in terms of accuracy. The generalization ability of DeeptDCS to non-trained electrode positions can be greatly enhanced through fine-tuning the model. The computational time required by one emulation via DeeptDCS is a fraction of a second. Conclusion: DeeptDCS is at least two orders of magnitudes faster than a physics-based open-source simulator, while providing satisfactorily accurate results. Significance: The high computational efficiency permits the use of DeeptDCS in applications requiring its repetitive execution, such as uncertainty quantification and optimization studies of tDCS.
翻訳日:2022-05-06 02:14:40 公開日:2022-05-04
# (参考訳) おそらく信頼できる言語モデリング

Provably Confidential Language Modelling ( http://arxiv.org/abs/2205.01863v1 )

ライセンス: CC BY-SA 4.0
Xuandong Zhao, Lei Li, Yu-Xiang Wang(参考訳) 大規模言語モデルは、トレーニングデータにおける社会保障番号などのプライバシー情報を記憶する。 トレーニングコーパスの膨大な規模を考えると、これらのプライバシデータを手作業で、あるいは自動で表示し、フィルタリングするのは困難です。 本稿では,機密セグメントを保護しつつ,言語生成モデルを訓練するCRT(Confidentially Redacted Training)を提案する。 我々は、差分プライバシー(関連するが別の問題を解決する)からアイデアを借り、トレーニングプロセスの一部をランダムにすることで、意図しない記憶を確実に防止できることを示す。 さらに、ほぼ正しいスクリーニングポリシーによるリアクションは、機密性の保証を増幅することを示す。 LSTMとGPT言語モデルの両方に対して,本手法を実装した。 実験の結果,crtにより訓練されたモデルはほぼ同じパープレキシーを得たが,強い機密性は保たれた。

Large language models are shown to memorize privacy information such as social security numbers in training data. Given the sheer scale of the training corpus, it is challenging to screen and filter these privacy data, either manually or automatically. In this paper, we propose Confidentially Redacted Training (CRT), a method to train language generation models while protecting the confidential segments. We borrow ideas from differential privacy (which solves a related but distinct problem) and show that our method is able to provably prevent unintended memorization by randomizing parts of the training process. Moreover, we show that redaction with an approximately correct screening policy amplifies the confidentiality guarantee. We implement the method for both LSTM and GPT language models. Our experimental results show that the models trained by CRT obtain almost the same perplexity while preserving strong confidentiality.
翻訳日:2022-05-06 01:55:58 公開日:2022-05-04
# (参考訳) 数発関係学習のためのエンティティインタラクションの探索(学生抽象)

Exploring Entity Interactions for Few-Shot Relation Learning (Student Abstract) ( http://arxiv.org/abs/2205.01878v1 )

ライセンス: CC BY 4.0
YI Liang and Shuai Zhao and Bo Cheng and Yuwei Yin and Hao Yang(参考訳) 少数ショット関係学習とは、観測された三重項の数が限られている関係に関する事実を推測することを指す。 この問題の既存の計量学習法は、主に三重項内および三重項間の実体相互作用を無視する。 本稿では,このような微粒な意味を探索し,そのモデルであるTransAMを提案する。 具体的には,参照エンティティをシリアライズし,クエリエンティティをシーケンス化し,局所的に注目されるトランスフォーマー構造を適用し,トリプルエンティティ間インタラクションをキャプチャする。 NELL-OneとWiki-Oneの2つの公開ベンチマークデータセットの実験では、1ショット設定でTransAMの有効性が証明された。

Few-shot relation learning refers to infer facts for relations with a limited number of observed triples. Existing metric-learning methods for this problem mostly neglect entity interactions within and between triples. In this paper, we explore this kind of fine-grained semantic meanings and propose our model TransAM. Specifically, we serialize reference entities and query entities into sequence and apply transformer structure with local-global attention to capture both intra- and inter-triple entity interactions. Experiments on two public benchmark datasets NELL-One and Wiki-One with 1-shot setting prove the effectiveness of TransAM.
翻訳日:2022-05-06 01:32:27 公開日:2022-05-04
# (参考訳) VQAに必要なのは、画像キャプションだけ

All You May Need for VQA are Image Captions ( http://arxiv.org/abs/2205.01883v1 )

ライセンス: CC BY 4.0
Soravit Changpinyo, Doron Kukliansky, Idan Szpektor, Xi Chen, Nan Ding, Radu Soricut(参考訳) VQA(Visual Question Answering)は、ますます洗練されたモデルの恩恵を受けているが、データ生成に関しても同じレベルのエンゲージメントを享受していない。 本稿では,既存の画像キャプションアノテーションとニューラルモデルを組み合わせてテキスト質問生成を行うことにより,VQAサンプルをボリュームで自動生成する手法を提案する。 得られたデータは高品質であることを示す。 我々のデータに基づいてトレーニングされたVQAモデルは、最先端のゼロショット精度を2桁改善し、人間の注釈付きVQAデータでトレーニングされた同じモデルに欠けているレベルの堅牢性を達成する。

Visual Question Answering (VQA) has benefited from increasingly sophisticated models, but has not enjoyed the same level of engagement in terms of data creation. In this paper, we propose a method that automatically derives VQA examples at volume, by leveraging the abundance of existing image-caption annotations combined with neural models for textual question generation. We show that the resulting data is of high-quality. VQA models trained on our data improve state-of-the-art zero-shot accuracy by double digits and achieve a level of robustness that lacks in the same model trained on human-annotated VQA data.
翻訳日:2022-05-06 01:27:49 公開日:2022-05-04
# (参考訳) P$^3$ Ranker: Prompt-based LearningとPre-finetuningによる事前学習とランク付けのギャップの緩和

P$^3$ Ranker: Mitigating the Gaps between Pre-training and Ranking Fine-tuning with Prompt-based Learning and Pre-finetuning ( http://arxiv.org/abs/2205.01886v1 )

ライセンス: CC BY 4.0
Xiaomeng Hu (1), Shi Yu (2), Chenyan Xiong (3), Zhenghao Liu (1), Zhiyuan Liu (2), Ge Yu (1) ((1) Northeastern University, (2) Tsinghua University, (3) Microsoft Research)(参考訳) 他の言語タスクと比較して、検索ランキングに事前学習された言語モデル(plm)を適用すると、多くのニュアンスとトレーニング信号が必要になる。 本稿では,事前学習とランキングの微調整の2つのミスマッチ,すなわち,学習目標とモデルアーキテクチャの違いに関するトレーニングスキーマギャップと,ランキングに必要な知識と事前学習中に学習した知識の相違を考慮したタスク知識ギャップを同定・検討する。 これらのギャップを軽減するために, 事前学習型, Prompt学習型, Prefinetuned Neural Ranker (P$^3$ Ranker)を提案する。 P$^3$ Rankerは、プロンプトベースの学習を活用して、ランキングタスクを事前トレーニングのようなスキーマに変換する。 MS MARCO と Robust04 での実験では、P$^3$ Ranker の優位性を示した。 分析によると、P$^3$ Rankerは、素早い学習を通じてランキングタスクに慣れ、必要なランキング指向の知識を事前に習得し、データ効率のよいPLM適応をもたらす。 我々のコードは \url{https://github.com/NEUIR/P3Ranker} で入手できる。

Compared to other language tasks, applying pre-trained language models (PLMs) for search ranking often requires more nuances and training signals. In this paper, we identify and study the two mismatches between pre-training and ranking fine-tuning: the training schema gap regarding the differences in training objectives and model architectures, and the task knowledge gap considering the discrepancy between the knowledge needed in ranking and that learned during pre-training. To mitigate these gaps, we propose Pre-trained, Prompt-learned and Pre-finetuned Neural Ranker (P$^3$ Ranker). P$^3$ Ranker leverages prompt-based learning to convert the ranking task into a pre-training like schema and uses pre-finetuning to initialize the model on intermediate supervised tasks. Experiments on MS MARCO and Robust04 show the superior performances of P$^3$ Ranker in few-shot ranking. Analyses reveal that P$^3$ Ranker is able to better accustom to the ranking task through prompt-based learning and retrieve necessary ranking-oriented knowledge gleaned in pre-finetuning, resulting in data-efficient PLM adaptation. Our code is available at \url{https://github.com/NEUIR/P3Ranker}.
翻訳日:2022-05-06 01:02:13 公開日:2022-05-04
# (参考訳) 信用認識による参照フレキシブル抽出による複数文書要約の改善

Improving Multi-Document Summarization through Referenced Flexible Extraction with Credit-Awareness ( http://arxiv.org/abs/2205.01889v1 )

ライセンス: CC BY 4.0
Yun-Zhu Song and Yi-Syuan Chen and Hong-Han Shuai(参考訳) MDS(Multi-Document Summarization)における注目すべき課題は、入力の非常に長い長さである。 本稿では,この問題を克服するための抽出・吸収トランスフォーマフレームワークを提案する。 具体的には,事前学習された言語モデルを用いて,文書間を横断する文選択のための階層的抽出器と,選択した内容を要約として書き直すための要約器を構築する。 しかし,そのような枠組みの学習は,抽象化者の最適内容が一般に不明であるため,困難である。 従来の研究は典型的に擬似抽出オラクルを作成し、抽出器と抽象器の両方の教師付き学習を可能にする。 しかし,これらの手法の性能は,予測に不十分な情報や,トレーニングとテストの相容れない目的のために制限される可能性があると論じる。 そこで本研究では,疑似抽出神託にない文に対する不等さをモデルに認識させるロス重み付け機構を提案し,微調整された要約子を用いて,抽出子を学習するための補助信号として要約参照を生成する。 また,トレーニングとテストの最適化を調和させるため,抽出器に効率的に適用可能な強化学習手法を提案する。 実験の結果,本フレームワークはモデルサイズに匹敵するベースラインを著しく上回り,Multi-News,Multi-XScience,WikiCatSum corporaで最高の結果が得られることがわかった。

A notable challenge in Multi-Document Summarization (MDS) is the extremely-long length of the input. In this paper, we present an extract-then-abstract Transformer framework to overcome the problem. Specifically, we leverage pre-trained language models to construct a hierarchical extractor for salient sentence selection across documents and an abstractor for rewriting the selected contents as summaries. However, learning such a framework is challenging since the optimal contents for the abstractor are generally unknown. Previous works typically create pseudo extraction oracle to enable the supervised learning for both the extractor and the abstractor. Nevertheless, we argue that the performance of such methods could be restricted due to the insufficient information for prediction and inconsistent objectives between training and testing. To this end, we propose a loss weighting mechanism that makes the model aware of the unequal importance for the sentences not in the pseudo extraction oracle, and leverage the fine-tuned abstractor to generate summary references as auxiliary signals for learning the extractor. Moreover, we propose a reinforcement learning method that can efficiently apply to the extractor for harmonizing the optimization between training and testing. Experiment results show that our framework substantially outperforms strong baselines with comparable model sizes and achieves the best results on the Multi-News, Multi-XScience, and WikiCatSum corpora.
翻訳日:2022-05-06 00:50:08 公開日:2022-05-04
# (参考訳) Crystal Twins: 結晶材料特性予測のための自己教師型学習

Crystal Twins: Self-supervised Learning for Crystalline Material Property Prediction ( http://arxiv.org/abs/2205.01893v1 )

ライセンス: CC BY 4.0
Rishikesh Magar, Yuyang Wang, and Amir Barati Farimani(参考訳) 機械学習(ML)モデルは材料特性の予測において広く成功している。 しかし、正確なmlモデルのトレーニングに必要な大きなラベル付きデータセットは、生成が難しく、計算コストがかかる。 ラベルなしデータ上でMLモデルをトレーニングできる自己監視学習(SSL)フレームワークの最近の進歩は、この問題を緩和し、コンピュータビジョンや自然言語処理タスクにおいて優れたパフォーマンスを示した。 SSLの開発からインスピレーションを得て,結晶性物質の特性予測のためのSSL法であるCrystal Twins (CT)を紹介した。 大規模非ラベルデータセットを用いて,同一結晶系から得られた拡張インスタンスのグラフ潜在埋め込みに冗長性低減原理を適用し,グラフニューラルネットワーク(gnn)を事前学習する。 回帰タスクのGNNを微調整する際の事前学習重みの共有により、7つの挑戦的材料特性予測ベンチマークの性能を著しく改善する。

Machine learning (ML) models have been widely successful in the prediction of material properties. However, large labeled datasets required for training accurate ML models are elusive and computationally expensive to generate. Recent advances in Self-Supervised Learning (SSL) frameworks capable of training ML models on unlabeled data have mitigated this problem and demonstrated superior performance in computer vision and natural language processing tasks. Drawing inspiration from the developments in SSL, we introduce Crystal Twins (CT): an SSL method for crystalline materials property prediction. Using a large unlabeled dataset, we pre-train a Graph Neural Network (GNN) by applying the redundancy reduction principle to the graph latent embeddings of augmented instances obtained from the same crystalline system. By sharing the pre-trained weights when fine-tuning the GNN for regression tasks, we significantly improve the performance for 7 challenging material property prediction benchmarks
翻訳日:2022-05-06 00:27:45 公開日:2022-05-04
# (参考訳) 神経常微分方程式を用いた歪み回路の仮想アナログモデリング

Virtual Analog Modeling of Distortion Circuits Using Neural Ordinary Differential Equations ( http://arxiv.org/abs/2205.01897v1 )

ライセンス: CC BY 4.0
Jan Wilczek, Alec Wright, Vesa V\"alim\"aki, Emanu\"el Habets(参考訳) ディープラーニングに関する最近の研究は、ニューラルネットワークが動的システムを管理する微分方程式を学習できることを示した。 本稿では,この概念を仮想アナログ(va)モデルに適用し,第1次および第2次ダイオードクリッパーを規定する常微分方程式(odes)を学習する。 提案手法は,パラメータの少ないrnn(state-of-the-art recurrent neural networks)に匹敵する性能を実現する。 この手法は過剰サンプリングを必要とせず,トレーニング終了後のサンプリング率を増加させることにより,精度の向上が期待できる。 高度な数値解法を用いることで、処理が遅いコストで精度を向上させることができる。 このように学んだODEは閉形式を必要としないが、物理的に解釈可能である。

Recent research in deep learning has shown that neural networks can learn differential equations governing dynamical systems. In this paper, we adapt this concept to Virtual Analog (VA) modeling to learn the ordinary differential equations (ODEs) governing the first-order and the second-order diode clipper. The proposed models achieve performance comparable to state-of-the-art recurrent neural networks (RNNs) albeit using fewer parameters. We show that this approach does not require oversampling and allows to increase the sampling rate after the training has completed, which results in increased accuracy. Using a sophisticated numerical solver allows to increase the accuracy at the cost of slower processing. ODEs learned this way do not require closed forms but are still physically interpretable.
翻訳日:2022-05-06 00:19:44 公開日:2022-05-04
# (参考訳) 空間的メタパスガイドによる説明可能な犯罪予測

Spatial-Temporal Meta-path Guided Explainable Crime Prediction ( http://arxiv.org/abs/2205.01901v1 )

ライセンス: CC BY 4.0
Yuting Sun and Tong Chen and Hongzhi Yin(参考訳) 犯罪や暴力への曝露は個人の生活の質や地域社会の経済成長を損なう可能性がある。 機械学習の急速な発展を踏まえると、犯罪を防ぐための自動化ソリューションを探求する必要性が高まっている。 都市・公共サービスデータの粒度の増大に伴い, 犯罪予測を容易にするために, クロスドメイン情報の利用が近年急増している。 社会構造、環境、犯罪傾向に関する情報を収集することにより、既存の機械学習予測モデルは異なる視点から動的犯罪パターンを探索した。 しかし、これらのアプローチは、主にそのような多元的知識を暗黙的かつ潜伏的な表現(例えば、学区の埋め込みを学習するなど)に変換し、シーンの背後にある犯罪の発生に対する明示的な要因の影響を調べることは依然として困難である。 本稿では,犯罪行動の動的パターンを捉え,環境と社会的要因が相互に相互に相互作用し,予測を生成するための空間-時間的メタパス誘導型犯罪予測(stmec)フレームワークを提案する。 大規模な実験は、特にフェロニー(強盗や危険な武器による暴行など)の予測において、他の高度な時空間モデルと比較してSTMECの優位性を示している。

Exposure to crime and violence can harm individuals' quality of life and the economic growth of communities. In light of the rapid development in machine learning, there is a rise in the need to explore automated solutions to prevent crimes. With the increasing availability of both fine-grained urban and public service data, there is a recent surge in fusing such cross-domain information to facilitate crime prediction. By capturing the information about social structure, environment, and crime trends, existing machine learning predictive models have explored the dynamic crime patterns from different views. However, these approaches mostly convert such multi-source knowledge into implicit and latent representations (e.g., learned embeddings of districts), making it still a challenge to investigate the impacts of explicit factors for the occurrences of crimes behind the scenes. In this paper, we present a Spatial-Temporal Metapath guided Explainable Crime prediction (STMEC) framework to capture dynamic patterns of crime behaviours and explicitly characterize how the environmental and social factors mutually interact to produce the forecasts. Extensive experiments show the superiority of STMEC compared with other advanced spatiotemporal models, especially in predicting felonies (e.g., robberies and assaults with dangerous weapons).
翻訳日:2022-05-06 00:05:50 公開日:2022-05-04
# (参考訳) ラベルのない自己学習メトリック学習

Self-Taught Metric Learning without Labels ( http://arxiv.org/abs/2205.01903v1 )

ライセンス: CC BY 4.0
Sungyeon Kim, Dongwon Kim, Minsu Cho and Suha Kwak(参考訳) 本稿では,組込みモデルの移動平均によるデータ間のクラス等価関係の予測と,予測された関係を擬似ラベルとしてモデル学習を交互に行う,教師なしメトリック学習のための新しい自己学習フレームワークを提案する。 我々のフレームワークの中心には、埋め込み空間上のデータのコンテキストを調査し、それらのクラス同値関係を擬似ラベルとして予測するアルゴリズムがあります。 このアルゴリズムは、擬似ラベリングのためのオフザシェルフモジュールを必要としないため、効率的なエンドツーエンドトレーニングを可能にする。 また、クラス同値関係は埋め込み空間を学習するための豊富な監督信号を提供する。 メトリクス学習の標準的なベンチマークでは、既存の教師なし学習方法よりも明らかに優れており、時には同じバックボーンネットワークを使用して教師付き学習モデルを上回ることもある。 また、付加的なラベル付きデータを利用する方法として、半教師付きメトリックラーニングにも適用し、教師付き学習の性能を実質的に向上させることで、その技術状態を達成する。

We present a novel self-taught framework for unsupervised metric learning, which alternates between predicting class-equivalence relations between data through a moving average of an embedding model and learning the model with the predicted relations as pseudo labels. At the heart of our framework lies an algorithm that investigates contexts of data on the embedding space to predict their class-equivalence relations as pseudo labels. The algorithm enables efficient end-to-end training since it demands no off-the-shelf module for pseudo labeling. Also, the class-equivalence relations provide rich supervisory signals for learning an embedding space. On standard benchmarks for metric learning, it clearly outperforms existing unsupervised learning methods and sometimes even beats supervised learning models using the same backbone network. It is also applied to semi-supervised metric learning as a way of exploiting additional unlabeled data, and achieves the state of the art by boosting performance of supervised learning substantially.
翻訳日:2022-05-06 00:04:48 公開日:2022-05-04
# (参考訳) ASE: 物理的にシミュレートされたキャラクタのための大規模再利用可能な逆スキル埋め込み

ASE: Large-Scale Reusable Adversarial Skill Embeddings for Physically Simulated Characters ( http://arxiv.org/abs/2205.01906v1 )

ライセンス: CC BY 4.0
Xue Bin Peng, Yunrong Guo, Lina Halper, Sergey Levine, Sanja Fidler(参考訳) 人間によって実証された驚くべき運動の偉業は、長年の練習と経験を通じて獲得された汎用モータースキルの膨大なレパートリーによって可能になった。 これらのスキルは、人間が複雑なタスクを実行できるだけでなく、新しいタスクを学ぶときの行動を導くための強力な先行手段を提供する。 これは、物理ベースのキャラクターアニメーションにおいて一般的な慣習とは対照的であり、各タスクのスクラッチから制御ポリシーがほとんど訓練される。 本稿では,物理的にシミュレートされた文字に対する多用途かつ再利用可能なスキル埋め込みを学習するための大規模データ駆動フレームワークを提案する。 提案手法は, 逆模倣学習と教師なし強化学習を併用して, ライフライクな振る舞いを生み出すスキル埋め込みを開発するとともに, 新たな下流タスクで使用するための簡易な制御表現を提供する。 我々のモデルは、タスク固有のアノテーションや動作データのセグメンテーションを必要とせずに、非構造化モーションクリップの大規模なデータセットを使用して訓練することができる。 高度に並列なgpuベースのシミュレータを利用することで、10年以上のシミュレーション経験を使ってスキル埋め込みをトレーニングすることができ、当社のモデルがリッチで多用途なスキルのレパートリーを学べるようになります。 本研究では,1つの事前学習モデルを多種多様なタスクに効果的に適用できることを示す。 また,本システムでは,簡単な報酬関数によってタスクを指定でき,スキル埋め込みにより,タスク目標を達成するために,文字が自動的に複雑で自然主義的な戦略を合成することができる。

The incredible feats of athleticism demonstrated by humans are made possible in part by a vast repertoire of general-purpose motor skills, acquired through years of practice and experience. These skills not only enable humans to perform complex tasks, but also provide powerful priors for guiding their behaviors when learning new tasks. This is in stark contrast to what is common practice in physics-based character animation, where control policies are most typically trained from scratch for each task. In this work, we present a large-scale data-driven framework for learning versatile and reusable skill embeddings for physically simulated characters. Our approach combines techniques from adversarial imitation learning and unsupervised reinforcement learning to develop skill embeddings that produce life-like behaviors, while also providing an easy to control representation for use on new downstream tasks. Our models can be trained using large datasets of unstructured motion clips, without requiring any task-specific annotation or segmentation of the motion data. By leveraging a massively parallel GPU-based simulator, we are able to train skill embeddings using over a decade of simulated experiences, enabling our model to learn a rich and versatile repertoire of skills. We show that a single pre-trained model can be effectively applied to perform a diverse set of new tasks. Our system also allows users to specify tasks through simple reward functions, and the skill embedding then enables the character to automatically synthesize complex and naturalistic strategies in order to achieve the task objectives.
翻訳日:2022-05-06 00:03:52 公開日:2022-05-04
# (参考訳) 双曲空間における言語間単語埋め込み

Cross-lingual Word Embeddings in Hyperbolic Space ( http://arxiv.org/abs/2205.01907v1 )

ライセンス: CC BY 4.0
Chandni Saxena, Mudit Chaudhary, Helen Meng(参考訳) 複数の言語にまたがる自然言語処理アプリケーションに言語間埋め込みを適用することができる。 ユークリッド空間に基づく単語埋め込みを用いた先行研究とは異なり、この短い論文は、双曲空間のポアンカル・アン・ボールモデルに適応して、ドイツ語と英語の並列コーパスから教師なしの言語間表現を学習する、単純で効果的な言語横断型word2vecモデルを示す。 双曲的埋め込みは階層的関係をキャプチャし保存できることが示されている。 ハイパーネミーとアナログの両方のタスクでモデルを評価する。 提案モデルは,言語間類似タスクにおけるバニラWord2Vecモデルと同等の性能を達成し,ハイパーナミータスクは,言語間の自由テキストから潜在階層構造をキャプチャできることを示す。 その結果,潜在階層情報の保存により,双曲空間は言語間埋め込みの表現性が向上することが示された。

Cross-lingual word embeddings can be applied to several natural language processing applications across multiple languages. Unlike prior works that use word embeddings based on the Euclidean space, this short paper presents a simple and effective cross-lingual Word2Vec model that adapts to the Poincar\'e ball model of hyperbolic space to learn unsupervised cross-lingual word representations from a German-English parallel corpus. It has been shown that hyperbolic embeddings can capture and preserve hierarchical relationships. We evaluate the model on both hypernymy and analogy tasks. The proposed model achieves comparable performance with the vanilla Word2Vec model on the cross-lingual analogy task, the hypernymy task shows that the cross-lingual Poincar\'e Word2Vec model can capture latent hierarchical structure from free text across languages, which are absent from the Euclidean-based Word2Vec representations. Our results show that by preserving the latent hierarchical information, hyperbolic spaces can offer better representations for cross-lingual embeddings.
翻訳日:2022-05-05 23:26:21 公開日:2022-05-04
# (参考訳) Zero-Episode Few-Shot Contrastive Predictive Coding: 事前トレーニングなしのインテリジェンステストの解決

Zero-Episode Few-Shot Contrastive Predictive Coding: Solving intelligence tests without prior training ( http://arxiv.org/abs/2205.01924v1 )

ライセンス: CC BY 4.0
T. Barak, Y. Loewenstein(参考訳) ビデオ予測モデルは、ピクセル空間から小さな潜在空間へのエンコーダ、潜在空間予測モデル、そしてピクセル空間への生成モデルという3つの要素を結合することが多い。 しかし、大きく予測できないピクセル空間はそのようなモデルの訓練を難しくし、多くの訓練例を必要とする。 予測潜在変数を発見して将来の画像の整合性を評価することは、生成モデルトレーニングの必要性を抑えるため、データ効率の予測を可能にすると論じる。 そこで本研究では,画像のシーケンスにおける変化を予測可能な特徴を識別し,この予測を用いて後続の画像を選択するシーケンス補完知能テストを行った。 1次元のMarkov Contrastive Predictive Coding (M-CPC_1D) モデルがこれらのテストを効率的に解き、わずか5つの例を示した。 最後に,M-CPC_1Dが事前トレーニングを伴わない2つの課題,すなわち異常検出と確率的動画予測に有用であることを示す。

Video prediction models often combine three components: an encoder from pixel space to a small latent space, a latent space prediction model, and a generative model back to pixel space. However, the large and unpredictable pixel space makes training such models difficult, requiring many training examples. We argue that finding a predictive latent variable and using it to evaluate the consistency of a future image enables data-efficient predictions because it precludes the necessity of a generative model training. To demonstrate it, we created sequence completion intelligence tests in which the task is to identify a predictably changing feature in a sequence of images and use this prediction to select the subsequent image. We show that a one-dimensional Markov Contrastive Predictive Coding (M-CPC_1D) model solves these tests efficiently, with only five examples. Finally, we demonstrate the usefulness of M-CPC_1D in solving two tasks without prior training: anomaly detection and stochastic movement video prediction.
翻訳日:2022-05-05 23:17:37 公開日:2022-05-04
# (参考訳) 軌道予測改善のための確率的対称性

Probabilistic Symmetry for Improved Trajectory Forecasting ( http://arxiv.org/abs/2205.01927v1 )

ライセンス: CC BY 4.0
Sophia Sun, Robin Walters, Jinxi Li, Rose Yu(参考訳) 軌道予測は、ロボット工学と自律運転における幅広い応用において、コアAI問題である。 既存の研究の多くは決定論的予測に重点を置いているが、予測の不確実性を定量化する確率論的予測は、リスク評価、運動計画、安全保証といった下流の意思決定タスクに不可欠である。 我々は,確率的軌道予測の品質を評価するために,新しい平均地域スコア(MRS)を導入した。 我々は,新しい確率的軌道予測モデルである確率的等変連続畳み込み(pecco)を提案し,対称性(特に回転同分散)の活用が予測の精度とカバレッジを向上させることを示した。 車両と歩行者の両方のデータセットにおいて、PECCOは最先端の予測性能を示し、ベースラインと比較してキャリブレーションを改善した。

Trajectory prediction is a core AI problem with broad applications in robotics and autonomous driving. While most existing works focus on deterministic prediction, producing probabilistic forecasts to quantify prediction uncertainty is critical for downstream decision-making tasks such as risk assessment, motion planning, and safety guarantees. We introduce a new metric, mean regional score (MRS), to evaluate the quality of probabilistic trajectory forecasts. We propose a novel probabilistic trajectory prediction model, Probabilistic Equivariant Continuous COnvolution (PECCO) and show that leveraging symmetry, specifically rotation equivariance, can improve the predictions' accuracy as well as coverage. On both vehicle and pedestrian datasets, PECCO shows state-of-the-art prediction performance and improved calibration compared to baselines.
翻訳日:2022-05-05 23:04:43 公開日:2022-05-04
# (参考訳) 忘れられない理由:XAIによる破滅的な買収を擁護

Explain to Not Forget: Defending Against Catastrophic Forgetting with XAI ( http://arxiv.org/abs/2205.01929v1 )

ライセンス: CC BY-SA 4.0
Sami Ede, Serop Baghdadlian, Leander Weber, Wojciech Samek, Sebastian Lapuschkin(参考訳) 人間が自然に行うように、新しい情報を継続的に処理し、保持する能力は、ニューラルネットワークのトレーニングの後に非常に求められます。 残念なことに、従来の最適化アルゴリズムでは、トレーニング時間と更新時に利用可能な大量のデータを必要とすることが多い。 トレーニングプロセスが完了した後、新しいデータは困難です。 実際、新しいデータやタスクが発生すると、ニューラルネットワークが壊滅的な忘れやすいため、以前の進歩は失われる可能性がある。 破滅的な忘れは、ニューラルネットワークが新しい情報を与える前の知識を完全に忘れてしまう現象を記述している。 我々は、ニューラルネットワークが新しいデータをトレーニングする際に、以前のタスクで既に学んだ情報を保持するために、レイヤーワイズ関連伝播を利用するトレーニングと呼ばれる新しいトレーニングアルゴリズムを提案する。 この方法は、より複雑なデータと同様に、様々なベンチマークデータセットで評価される。 我々の手法は、ニューラルネットワーク内の古いタスクの知識を保持するだけでなく、他の最先端のソリューションよりもリソース効率が高い。

The ability to continuously process and retain new information like we do naturally as humans is a feat that is highly sought after when training neural networks. Unfortunately, the traditional optimization algorithms often require large amounts of data available during training time and updates wrt. new data are difficult after the training process has been completed. In fact, when new data or tasks arise, previous progress may be lost as neural networks are prone to catastrophic forgetting. Catastrophic forgetting describes the phenomenon when a neural network completely forgets previous knowledge when given new information. We propose a novel training algorithm called training by explaining in which we leverage Layer-wise Relevance Propagation in order to retain the information a neural network has already learned in previous tasks when training on new data. The method is evaluated on a range of benchmark datasets as well as more complex data. Our method not only successfully retains the knowledge of old tasks within the neural networks but does so more resource-efficiently than other state-of-the-art solutions.
翻訳日:2022-05-05 22:45:14 公開日:2022-05-04
# (参考訳) 自己教師型学習が肺がんのタイプと予後を支える形態的クラスターを公開

Self-supervised learning unveils morphological clusters behind lung cancer types and prognosis ( http://arxiv.org/abs/2205.01931v1 )

ライセンス: CC BY 4.0
Adalberto Claudio Quiros, Nicolas Coudray, Anna Yeaton, Xinyu Yang, Luis Chiriboga, Afreen Karimkhan, Navneet Narula, Harvey Pass, Andre L. Moreira, John Le Quesne, Aristotelis Tsirigos, Ke Yuan(参考訳) 腫瘍の病理像は、腫瘍がどのように成長し、どのように微小環境と相互作用するかについての豊富な情報を含んでいる。 表現型の特徴と理解の改善は、腫瘍の進行とその生物学的過程に関連する要因を明らかにし、最終的に診断と治療を改善する可能性がある。 近年、組織学の深層学習アプリケーションの分野では大きな進歩が見られるが、そのほとんどは組織と関連するサンプルアノテーションに関する教師ありアプローチに焦点が当てられている。 監視されたアプローチは、その影響を2つの要因に制限する。 第一に、高品質なラベルは時間と労力がかかるため、スケーラビリティが損なわれる。 第2に、これらの手法は組織像からのアノテーションの予測に焦点を当て、新しい組織表現型の発見を基本的に制限している。 これらの制限は、事前に定義されたアノテーションや監督なしに、画像に囲まれた特徴によって組織を特徴付けることができる新しい方法を使うことの重要性を強調している。 自己教師付き学習とコミュニティ検出を通じて組織形態学的表現型を抽出する手法である表現型表現学習(prl)を提案する。 prlは、共通の形態的および細胞的特徴を共有する組織パターンを識別することで表現型クラスタを作成し、クラスタ貢献の合成表現を通じてスライドイメージ全体を記述できる。 我々はこの枠組みを用いて,TCGAおよびNYUコホートからのLUADおよびLUSC肺がんサブタイプの病理組織学的スライドを解析した。 PRLは各肺サブタイプに対して統計的に関連性のある表現型を提供する頑健な肺サブタイプ予測を実現する。 さらに, 肺腺癌におけるこれらの表現型の重要性, 再発のない生存率, 患者予後, 細胞型, 成長パターン, および肥満による免疫症状との関連について検討した。

Histopathological images of tumors contain abundant information about how tumors grow and how they interact with their micro-environment. Characterizing and improving our understanding of phenotypes could reveal factors related to tumor progression and their underpinning biological processes, ultimately improving diagnosis and treatment. In recent years, the field of histological deep learning applications has seen great progress, yet most of these applications focus on a supervised approach, relating tissue and associated sample annotations. Supervised approaches have their impact limited by two factors. Firstly, high-quality labels are expensive in time and effort, which makes them not easily scalable. Secondly, these methods focus on predicting annotations from histological images, fundamentally restricting the discovery of new tissue phenotypes. These limitations emphasize the importance of using new methods that can characterize tissue by the features enclosed in the image, without pre-defined annotation or supervision. We present Phenotype Representation Learning (PRL), a methodology to extract histomorphological phenotypes through self-supervised learning and community detection. PRL creates phenotype clusters by identifying tissue patterns that share common morphological and cellular features, allowing to describe whole slide images through compositional representations of cluster contributions. We used this framework to analyze histopathology slides of LUAD and LUSC lung cancer subtypes from TCGA and NYU cohorts. We show that PRL achieves a robust lung subtype prediction providing statistically relevant phenotypes for each lung subtype. We further demonstrate the significance of these phenotypes in lung adenocarcinoma overall and recurrence free survival, relating clusters with patient outcomes, cell types, grown patterns, and omic-based immune signatures.
翻訳日:2022-05-05 22:30:07 公開日:2022-05-04
# (参考訳) deepfd: ディープラーニングプログラムのための自動障害診断とローカライズ

DeepFD: Automated Fault Diagnosis and Localization for Deep Learning Programs ( http://arxiv.org/abs/2205.01938v1 )

ライセンス: CC BY 4.0
Jialun Cao and Meiziniu Li and Xiao Chen and Ming Wen and Yongqiang Tian and Bo Wu and Shing-Chi Cheung(参考訳) 深層学習(DL)システムはミッションクリティカルなアプリケーションに広くデプロイされているため、そのようなシステムのデバッグは不可欠である。 既存の研究のほとんどは、訓練されたDeep Neural Network(DNN)上の疑わしいニューロンを特定し、修復している。 特に、いくつかの既存の研究は、多くの不十分な行動はdlプログラムに存在する障害に由来すると報告している。 さらに、欠陥のあるニューロンの配置は開発者にとっては有効ではなく、DLプログラム内の欠陥のあるステートメントの配置は、デバッグに有用な情報を提供する。 DLプログラムの欠陥文やトレーニング設定(例えば、大きすぎる学習率)を特定するために、最近の研究がいくつか提案されているが、それらは主に事前定義されたルールに基づいて設計されており、特に障害がそれらの能力を超えた場合に、多くの誤報や偽陰性を引き起こす。 本稿では,これらの制約を考慮し,障害局所化タスクを学習問題にマッピングする,学習ベースの障害診断および局所化フレームワークであるDeepFDを提案する。 特に、DNNモデルトレーニング中に抽出したランタイム機能を監視して、不審な障害タイプを推測し、DLプログラムで診断された障害を見つけ出す。 これは、ニューロンの代わりにDLプログラムの障害の根本原因を特定し、ハードコードされたルールではなく学習アプローチで障害を診断することで制限を克服する。 この評価はDeepFDの可能性を示す。 52%の欠陥DLプログラムを正しく診断し、最先端の成果によって達成された約半分(27%)と比較する。 さらに、障害のローカライゼーションでは、DeepFDは既存の作業よりも優れており、42%の障害プログラムが正しく位置付けられており、既存の作業によって達成された最高の結果(23%)がほぼ2倍になる。

As Deep Learning (DL) systems are widely deployed for mission-critical applications, debugging such systems becomes essential. Most existing works identify and repair suspicious neurons on the trained Deep Neural Network (DNN), which, unfortunately, might be a detour. Specifically, several existing studies have reported that many unsatisfactory behaviors are actually originated from the faults residing in DL programs. Besides, locating faulty neurons is not actionable for developers, while locating the faulty statements in DL programs can provide developers with more useful information for debugging. Though a few recent studies were proposed to pinpoint the faulty statements in DL programs or the training settings (e.g. too large learning rate), they were mainly designed based on predefined rules, leading to many false alarms or false negatives, especially when the faults are beyond their capabilities. In view of these limitations, in this paper, we proposed DeepFD, a learning-based fault diagnosis and localization framework which maps the fault localization task to a learning problem. In particular, it infers the suspicious fault types via monitoring the runtime features extracted during DNN model training and then locates the diagnosed faults in DL programs. It overcomes the limitations by identifying the root causes of faults in DL programs instead of neurons and diagnosing the faults by a learning approach instead of a set of hard-coded rules. The evaluation exhibits the potential of DeepFD. It correctly diagnoses 52% faulty DL programs, compared with around half (27%) achieved by the best state-of-the-art works. Besides, for fault localization, DeepFD also outperforms the existing works, correctly locating 42% faulty programs, which almost doubles the best result (23%) achieved by the existing works.
翻訳日:2022-05-05 22:19:09 公開日:2022-05-04
# (参考訳) ニューラルダイアログ生成のための語彙知識内在化

Lexical Knowledge Internalization for Neural Dialog Generation ( http://arxiv.org/abs/2205.01941v1 )

ライセンス: CC BY 4.0
Zhiyong Wu, Wei Bi, Xiang Li, Lingpeng Kong, Ben Kao(参考訳) 本稿では,語彙的知識をニューラルダイアログモデルに補完することを目的とした知識内在化(KI)を提案する。 外部から取得した知識に基づいて知識基底ダイアログ(KGD)モデルを更に条件付けする代わりに,各入力トークンに関する知識をモデルパラメータに組み込む。 辞書知識の大規模化による課題に取り組むため,コントラスト学習アプローチを採用し,wikipediaの弱い監督を必要とする効果的なトークンレベルの語彙知識検索システムを構築した。 様々なデータセットと多様なモデル構造に対するアプローチの有効性と汎用性を示す。

We propose knowledge internalization (KI), which aims to complement the lexical knowledge into neural dialog models. Instead of further conditioning the knowledge-grounded dialog (KGD) models on externally retrieved knowledge, we seek to integrate knowledge about each input token internally into the model's parameters. To tackle the challenge due to the large scale of lexical knowledge, we adopt the contrastive learning approach and create an effective token-level lexical knowledge retriever that requires only weak supervision mined from Wikipedia. We demonstrate the effectiveness and general applicability of our approach on various datasets and diversified model structures.
翻訳日:2022-05-05 21:52:11 公開日:2022-05-04
# (参考訳) 不確実性オートエンコーダに基づくデータ型意識変換のためのプライバシとユーティリティ

Uncertainty-Autoencoder-Based Privacy and Utility Preserving Data Type Conscious Transformation ( http://arxiv.org/abs/2205.01950v1 )

ライセンス: CC BY 4.0
Bishwas Mandal, George Amariucai, Shuangqing Wei(参考訳) 本稿では,データ型無知とデータ型無知の2つの条件下で,プライバシとユーティリティのトレードオフ問題を扱う逆学習フレームワークを提案する。 データ型認識条件の下では、プライバシメカニズムはカテゴリの特徴の1つのホットエンコーディングを提供し、1つのクラスを表すが、データ型無知条件下では、カテゴリ変数は各クラスごとに1つのスコアの集まりで表現される。 我々は、生成器と識別器からなるニューラルネットワークアーキテクチャを使用し、生成器はエンコーダとデコーダペアで構成され、識別器は敵とユーティリティプロバイダから構成される。 ランダム性を導入することなくオートエンコーダ(AE)を利用する従来のアーキテクチャや,ガウス的仮定に強制される潜伏表現に基づく変分オートエンコーダ(VAE)を利用する手法とは異なり,提案手法はランダム性を導入し,潜伏変数に対するガウス的仮定の制約を取り除き,入力から民生データへのエンドツーエンドの確率写像にのみ焦点をあてる。 MNIST、FashionMNIST、UCI adult、US Census Demographic Dataといったさまざまなデータセットでフレームワークをテストしています。 複数の敵を使って、プライバシーメカニズムを同時にテストします -- 根拠となる真実データからトレーニングされた者もいれば、プライバシメカニズムによって生成された混乱したデータからトレーニングされた者もいます。 比較分析により,データ型無知な類似の条件下では,プライバシとユーティリティの保証が従来よりも良好であることが判明した。

We propose an adversarial learning framework that deals with the privacy-utility tradeoff problem under two types of conditions: data-type ignorant, and data-type aware. Under data-type aware conditions, the privacy mechanism provides a one-hot encoding of categorical features, representing exactly one class, while under data-type ignorant conditions the categorical variables are represented by a collection of scores, one for each class. We use a neural network architecture consisting of a generator and a discriminator, where the generator consists of an encoder-decoder pair, and the discriminator consists of an adversary and a utility provider. Unlike previous research considering this kind of architecture, which leverages autoencoders (AEs) without introducing any randomness, or variational autoencoders (VAEs) based on learning latent representations which are then forced into a Gaussian assumption, our proposed technique introduces randomness and removes the Gaussian assumption restriction on the latent variables, only focusing on the end-to-end stochastic mapping of the input to privatized data. We test our framework on different datasets: MNIST, FashionMNIST, UCI Adult, and US Census Demographic Data, providing a wide range of possible private and utility attributes. We use multiple adversaries simultaneously to test our privacy mechanism -- some trained from the ground truth data and some trained from the perturbed data generated by our privacy mechanism. Through comparative analysis, our results demonstrate better privacy and utility guarantees than the existing works under similar, data-type ignorant conditions, even when the latter are considered under their original restrictive single-adversary model.
翻訳日:2022-05-05 21:33:27 公開日:2022-05-04
# (参考訳) 目標条件強化学習のための状態表現学習

State Representation Learning for Goal-Conditioned Reinforcement Learning ( http://arxiv.org/abs/2205.01965v1 )

ライセンス: CC BY 4.0
Lorenzo Steccanella, Anders Jonsson(参考訳) 本稿では報酬のないマルコフ決定過程に対する新しい状態表現を提案する。 この考え方は自己監督的な方法で、組込み状態のペア間の距離がそれらの間の遷移に必要な最小のアクション数に対応する埋め込み空間を学ぶことである。 従来の方法に比べ、オフラインデータやラベルなしデータから学ぶために、ドメイン知識は一切必要としません。 本稿では,この表現を,目標条件ポリシーの学習に活用し,状態と目標の類似性の概念と,計画と強化学習アルゴリズムの指導に有用なヒューリスティック距離を提供する。 最後に,従来の制御領域やマルチゴール環境において,提案手法を実証的に検証し,大規模かつ連続的な領域での表現を学習できることを実証した。

This paper presents a novel state representation for reward-free Markov decision processes. The idea is to learn, in a self-supervised manner, an embedding space where distances between pairs of embedded states correspond to the minimum number of actions needed to transition between them. Compared to previous methods, our approach does not require any domain knowledge, learning from offline and unlabeled data. We show how this representation can be leveraged to learn goal-conditioned policies, providing a notion of similarity between states and goals and a useful heuristic distance to guide planning and reinforcement learning algorithms. Finally, we empirically validate our method in classic control domains and multi-goal environments, demonstrating that our method can successfully learn representations in large and/or continuous domains.
翻訳日:2022-05-05 21:14:43 公開日:2022-05-04
# (参考訳) ASPベースの宣言的プロセスマイニング

ASP-Based Declarative Process Mining ( http://arxiv.org/abs/2205.01979v1 )

ライセンス: CC BY 4.0
Francesco Chiariello, Fabrizio Maria Maggi, Fabio Patrizi(参考訳) 宣言的プロセスマイニングにおける3つの古典的な問題 — ログ生成,クエリチェック,コンフォーマンスチェック – に対するソリューションアプローチとして,result set programming(asp)を実施しました。 これらの問題は、記録されたイベント、すなわちイベントログのシーケンスから始まる、実行中のビジネスプロセスを分析するさまざまな方法に対応する。 データアウェア型、すなわちペイロード(属性と値のペアのセット)を運ぶイベントを考慮し、実行されたアクティビティに加えて、有限トレース(ltlf)上の線形時間時相論理の拡張によって宣言的にプロセスを指定することで、それらに取り組む。 データアウェアの設定はコントロールフローよりもかなり難しい:クエリチェックはまだオープンだが、他の2つの問題に対する既存のアプローチはうまくスケールしない。 この作業のコントリビューションには、3つの問題に対するASPエンコーディングスキーマ、そのソリューション、アプローチの実現可能性を示す実験が含まれている。

We put forward Answer Set Programming (ASP) as a solution approach for three classical problems in Declarative Process Mining: Log Generation, Query Checking, and Conformance Checking. These problems correspond to different ways of analyzing business processes under execution, starting from sequences of recorded events, a.k.a. event logs. We tackle them in their data-aware variant, i.e., by considering events that carry a payload (set of attribute-value pairs), in addition to the performed activity, specifying processes declaratively with an extension of linear-time temporal logic over finite traces (LTLf). The data-aware setting is significantly more challenging than the control-flow one: Query Checking is still open, while the existing approaches for the other two problems do not scale well. The contributions of the work include an ASP encoding schema for the three problems, their solution, and experiments showing the feasibility of the approach.
翻訳日:2022-05-05 21:00:50 公開日:2022-05-04
# (参考訳) IWSLT 2022辞書と低リソース音声翻訳タスクのためのオントラックコンソーシアムシステム

ON-TRAC Consortium Systems for the IWSLT 2022 Dialect and Low-resource Speech Translation Tasks ( http://arxiv.org/abs/2205.01987v1 )

ライセンス: CC BY 4.0
Marcely Zanon Boito, John Ortega, Hugo Riguidel, Antoine Laurent, Lo\"ic Barrault, Fethi Bougares, Firas Chaabani, Ha Nguyen, Florentin Barbier, Souhir Gahbiche, Yannick Est\`eve(参考訳) 本稿では,IWSLT 2022の評価キャンペーンにおける2つの課題トラックに対して開発されたON-TRACコンソーシアム翻訳システムについて述べる。 チュニジアのアラビア語と英語のデータセット(ローソースと方言のトラック)については、私たちの共同提案としてエンドツーエンドモデルを構築し、asr用の大きな微調整されたwav2vec 2.0モデルを活用したカスケードモデルと比較します。 その結果、当社の設定パイプラインアプローチは依然として非常に競争力があり、トランスファー学習を用いることで、音声翻訳(st)のエンドツーエンドモデルよりも優れています。 コンバータ音声認識,ST,機械翻訳の損失を共同で学習したコンバータ音声翻訳アーキテクチャにおいて,Tamasheq音声のフランス語音素書き起こしを入力として用いながら,Tamasheq音声の234時間でトレーニングしたwav2vec 2.0モデルの中間表現を利用する。 この結果から,小型のターゲットデータを用いた自己教師型モデルの方が,大規模な市販モデルに比べて低リソースのST微調整に有効であることが示唆された。 結果は、近似音素転写でさえSTスコアを改善することも示している。

This paper describes the ON-TRAC Consortium translation systems developed for two challenge tracks featured in the Evaluation Campaign of IWSLT 2022: low-resource and dialect speech translation. For the Tunisian Arabic-English dataset (low-resource and dialect tracks), we build an end-to-end model as our joint primary submission, and compare it against cascaded models that leverage a large fine-tuned wav2vec 2.0 model for ASR. Our results show that in our settings pipeline approaches are still very competitive, and that with the use of transfer learning, they can outperform end-to-end models for speech translation (ST). For the Tamasheq-French dataset (low-resource track) our primary submission leverages intermediate representations from a wav2vec 2.0 model trained on 234 hours of Tamasheq audio, while our contrastive model uses a French phonetic transcription of the Tamasheq audio as input in a Conformer speech translation architecture jointly trained on automatic speech recognition, ST and machine translation losses. Our results highlight that self-supervised models trained on smaller sets of target data are more effective to low-resource end-to-end ST fine-tuning, compared to large off-the-shelf models. Results also illustrate that even approximate phonetic transcriptions can improve ST scores.
翻訳日:2022-05-05 20:45:03 公開日:2022-05-04
# (参考訳) 環境センサネットワークにおける校正の不確かさのモデル化

Modelling calibration uncertainty in networks of environmental sensors ( http://arxiv.org/abs/2205.01988v1 )

ライセンス: CC BY 4.0
Michael Thomas Smith, Magnus Ross, Joel Ssematimba, Pablo A. Alvarado, Mauricio Alverez, Engineer Bainomugisha, Richard Wilkinson(参考訳) 低コストセンサーのネットワークはユビキタスになりつつあるが、しばしば低い精度とドリフトに悩まされている。 基準センサーによる通常のコロケーションは再校正を可能にするが、しばしば複雑で高価である。 または、キャリブレーションは低コストで移動式センサーを使って、しばしば非常に低コストで転送することができる。 しかし,センサネットワークのキャリブレーション機能(不確かさを伴う)の適切な推定は,特に移動体による訪問のネットワークが大きくなるにつれて困難になる。 本稿では,センサのネットワーク上でのキャリブレーションのモデル化手法を提案する。 我々は, 人工的および実際の大気汚染データに対するアプローチを実証し, 技術(マルチホップキャリブレーション)よりも優れた性能を示す。 非専門家の市民科学者による昆虫の分類を組み合わせて分類データに拡張する。 不確実性を定量化するキャリブレーションは、低コストのセンサー展開と市民科学研究にとって大きな障壁の1つだ。 このようなプロジェクトが実現できればと思っています。

Networks of low-cost sensors are becoming ubiquitous, but often suffer from low accuracies and drift. Regular colocation with reference sensors allows recalibration but is often complicated and expensive. Alternatively the calibration can be transferred using low-cost, mobile sensors, often at very low cost. However inferring appropriate estimates of the calibration functions (with uncertainty) for the network of sensors becomes difficult, especially as the network of visits by the mobile, low-cost sensors becomes large. We propose a variational approach to model the calibration across the network of sensors. We demonstrate the approach on both synthetic and real air pollution data, and find it can perform better than the state of the art (multi-hop calibration). We extend it to categorical data, combining classifications of insects by non-expert citizen scientists. Achieving uncertainty-quantified calibration has been one of the major barriers to low-cost sensor deployment and citizen-science research. We hope that the methods described will enable such projects.
翻訳日:2022-05-05 20:27:03 公開日:2022-05-04
# (参考訳) MM-Claims:ソーシャルメディアにおけるマルチモーダルクレーム検出のためのデータセット

MM-Claims: A Dataset for Multimodal Claim Detection in Social Media ( http://arxiv.org/abs/2205.01989v1 )

ライセンス: CC BY 4.0
Gullal S. Cheema, Sherzod Hakimov, Abdul Sittar, Eric M\"uller-Budack, Christian Otto, Ralph Ewerth(参考訳) 近年,Web上の誤情報の問題は,言語や国,さまざまなソーシャルメディアプラットフォームに広まりつつある。 自動偽ニュース検出には多くの研究がなされているが、画像とそれらの多様性の役割はよく調べられていない。 本稿では,クレーム検出と呼ばれる偽ニュース検出パイプラインの初期段階における画像とテキストの役割について検討する。 そこで本稿では,COVID-19, 気候変動, 広範技術という3つのトピックについて, ツイートと対応する画像からなる新しいデータセットMM-Claimsを紹介する。 データセットにはおよそ86000のツイートが含まれており、そのうち3400はマルチモーダルモデルのトレーニングと評価のために複数のアノテーションによって手動でラベル付けされている。 本稿では,このデータセットを詳細に記述し,強い単調およびマルチモーダルのベースラインを評価し,現在のモデルの可能性と欠点を分析する。

In recent years, the problem of misinformation on the web has become widespread across languages, countries, and various social media platforms. Although there has been much work on automated fake news detection, the role of images and their variety are not well explored. In this paper, we investigate the roles of image and text at an earlier stage of the fake news detection pipeline, called claim detection. For this purpose, we introduce a novel dataset, MM-Claims, which consists of tweets and corresponding images over three topics: COVID-19, Climate Change and broadly Technology. The dataset contains roughly 86000 tweets, out of which 3400 are labeled manually by multiple annotators for the training and evaluation of multimodal models. We describe the dataset in detail, evaluate strong unimodal and multimodal baselines, and analyze the potential and drawbacks of current models.
翻訳日:2022-05-05 20:25:41 公開日:2022-05-04
# (参考訳) 効率的な発音補正のための韓国語学習アプリケーションの設計

Design of a novel Korean learning application for efficient pronunciation correction ( http://arxiv.org/abs/2205.02001v1 )

ライセンス: CC BY 4.0
Minjong Cheon, Minseon Kim, Hanseon Joo(参考訳) 韓国の文化経済の世界的な人気を示す韓国の波は、韓国語の需要の増加に寄与している。 しかし、外国人が韓国語を学ぶための申請は存在しないため、本論文は韓国語の新しい学習アプリケーションの設計を提案する。 提案システムでは,音声認識,音声テキスト,音声波形の3つが重要なシステムである。 Google APIとリブロサライブラリは、ユーザの声を文とMFCCに変換する。 ソフトウェアはユーザのフレーズと答えを表示し、誤発音の要素を赤でハイライトすることで、発音の誤りをより容易に認識できるようにする。 さらに、シャムズネットワークは、これらの変換されたスペクトログラムを使用して類似度スコアを提供し、その後ユーザにフィードバックを提供することができる。 この研究で十分な外国人データを収集できなかったにもかかわらず、外国人に新しい韓国語発音補正法を提示したことは注目に値する。

The Korean wave, which denotes the global popularity of South Korea's cultural economy, contributes to the increasing demand for the Korean language. However, as there does not exist any application for foreigners to learn Korean, this paper suggested a design of a novel Korean learning application. Speech recognition, speech-to-text, and speech-to-waveform are the three key systems in the proposed system. The Google API and the librosa library will transform the user's voice into a sentence and MFCC. The software will then display the user's phrase and answer, with mispronounced elements highlighted in red, allowing users to more easily recognize the incorrect parts of their pronunciation. Furthermore, the Siamese network might utilize those translated spectrograms to provide a similarity score, which could subsequently be used to offer feedback to the user. Despite the fact that we were unable to collect sufficient foreigner data for this research, it is notable that we presented a novel Korean pronunciation correction method for foreigners.
翻訳日:2022-05-05 19:58:51 公開日:2022-05-04
# (参考訳) 歴史情報と相互作用を有する群集におけるマルチサブゴアロボットナビゲーション

Multi-subgoal Robot Navigation in Crowds with History Information and Interactions ( http://arxiv.org/abs/2205.02003v1 )

ライセンス: CC BY 4.0
Xinyi Yu, Jianan Hu, Yuehai Fan, Wancai Zheng, Linlin Ou(参考訳) 人間と共有する動的環境におけるロボットナビゲーションは、重要だが困難な作業であり、群衆が大きくなるにつれてパフォーマンスが悪化する。 本稿では,深層強化学習に基づくマルチサブゴアロボットナビゲーション手法を提案し,すべてのエージェント(ロボットと人間)間のより包括的な関係性を明らかにする。 具体的には,作業中に履歴情報やインタラクションを導入することで,ロボットの次の位置を計画する。 まず、サブグラフネットワークに基づいて、すべてのエージェントの履歴情報をグラフニューラルネットワークを介して対話を符号化する前に集約し、ロボットが将来のシナリオを暗黙的に予測する能力を向上させる。 さらに、信頼できない次の位置点の確率を低減するために、強化学習フレームワークにおけるポリシーネットワークの後に選択モジュールを設計する。 さらに、選択モジュールから生成された次の位置ポイントは、ポリシーネットワークから直接得られるものよりもタスク要求を満足させた。 今回の実験は,特に混み合った環境において,成功率と衝突率の両方の観点から,最先端のアプローチを上回っていることを実証する。

Robot navigation in dynamic environments shared with humans is an important but challenging task, which suffers from performance deterioration as the crowd grows. In this paper, multi-subgoal robot navigation approach based on deep reinforcement learning is proposed, which can reason about more comprehensive relationships among all agents (robot and humans). Specifically, the next position point is planned for the robot by introducing history information and interactions in our work. Firstly, based on subgraph network, the history information of all agents is aggregated before encoding interactions through a graph neural network, so as to improve the ability of the robot to anticipate the future scenarios implicitly. Further consideration, in order to reduce the probability of unreliable next position points, the selection module is designed after policy network in the reinforcement learning framework. In addition, the next position point generated from the selection module satisfied the task requirements better than that obtained directly from the policy network. The experiments demonstrate that our approach outperforms state-of-the-art approaches in terms of both success rate and collision rate, especially in crowded human environments.
翻訳日:2022-05-05 19:53:53 公開日:2022-05-04
# (参考訳) 複数入力検出のための高品質なデータポイント生成フレームワーク

A Framework to Generate High-Quality Datapoints for Multiple Novel Intent Detection ( http://arxiv.org/abs/2205.02005v1 )

ライセンス: CC BY 4.0
Ankan Mullick, Sukannya Purkayastha, Pawan Goyal and Niloy Ganguly(参考訳) 音声コマンドベースの会話エージェントのようなシステムは、事前に定義されたスキルセットやユーザが指定したタスクを実行する意図によって特徴づけられる。 時間とともに、新たなインテントが再トレーニングを必要とする可能性がある。 しかし、新しい意図は明示的に発表されず、動的に推論する必要がある。 そのため 重要な課題が2つあります (a) 新たな意図を 特定することです (b) 下位の分類器を効率的に再訓練できるように、新しいインテントのデータをアノテートする。 タスクは、多数の新しい意図が同時に出現し、手動アノテーションの予算が限られている場合に特別に困難になる。 本稿では,人為的アノテーションのコストを抑えるために,クラスタベースのフレームワークであるMNID(Multiple Novel Intent Detection)を提案する。 さまざまなベンチマークデータセット(サイズが異なる)の実証的な結果から、MNIDは、アノテーションの予算をインテリジェントに使用することにより、精度とF1スコアの点でベースラインメソッドよりも優れています。

Systems like Voice-command based conversational agents are characterized by a pre-defined set of skills or intents to perform user specified tasks. In the course of time, newer intents may emerge requiring retraining. However, the newer intents may not be explicitly announced and need to be inferred dynamically. Thus, there are two important tasks at hand (a). identifying emerging new intents, (b). annotating data of the new intents so that the underlying classifier can be retrained efficiently. The tasks become specially challenging when a large number of new intents emerge simultaneously and there is a limited budget of manual annotation. In this paper, we propose MNID (Multiple Novel Intent Detection) which is a cluster based framework to detect multiple novel intents with budgeted human annotation cost. Empirical results on various benchmark datasets (of different sizes) demonstrate that MNID, by intelligently using the budget for annotation, outperforms the baseline methods in terms of accuracy and F1-score.
翻訳日:2022-05-05 19:38:20 公開日:2022-05-04
# (参考訳) 何千通もの翻訳が長い道のりを歩む! アフリカニュース翻訳のための事前学習モデルの利用

A Few Thousand Translations Go a Long Way! Leveraging Pre-trained Models for African News Translation ( http://arxiv.org/abs/2205.02022v1 )

ライセンス: CC BY 4.0
David Ifeoluwa Adelani, Jesujoba Oluwadara Alabi, Angela Fan, Julia Kreutzer, Xiaoyu Shen, Machel Reid, Dana Ruiter, Dietrich Klakow, Peter Nabende, Ernie Chang, Tajuddeen Gwadabe, Freshia Sackey, Bonaventure F. P. Dossou, Chris Chinenye Emezue, Colin Leong, Michael Beukman, Shamsuddeen Hassan Muhammad, Guyo Dub Jarso, Oreen Yousuf, Andre Niyongabo Rubungo, Gilles Hacheme, Eric Peter Wairagala, Muhammad Umair Nasir, Benjamin Ayoade Ajibade, Tunde Oluwaseyi Ajayi, Yvonne Wambui Gitau, Jade Abbott, Mohamed Ahmed, Millicent Ochieng, Anuoluwapo Aremu, Perez Ogayo, Jonathan Mukiibi, Fatoumata Ouoba Kabore, Godson Koffi Kalipe, Derguene Mbaye, Allahsera Auguste Tapo, Victoire Memdjokam Koagne, Edwin Munkoh-Buabeng, Valencia Wagner, Idris Abdulmumin, Ayodele Awokoya, Happy Buzaaba, Blessing Sibanda, Andiswa Bukula, Sam Manthalu(参考訳) 言語モデルの事前学習における最近の進歩は、大規模データセットを活用して多言語モデルを作成する。 しかし、低リソース言語はこれらのデータセットにほとんど含まれない。 これは主に、多くの広く話されている言語がwebでよく表現されていないため、データセットの作成に使用される大規模なクロールから除外されているためである。 さらに、これらのモデルの下流のユーザは、事前学習用に選択された言語の選択に制限される。 本研究では,既存の学習済みモデルを最適に活用して16のアフリカ語に対する低リソース翻訳システムを構築する方法について検討する。 2つの質問に焦点を合わせます 1) 事前トレーニングに含まれない言語に対して,事前トレーニングモデルをどのように利用すればよいか? そして 2)結果の翻訳モデルは,新しいドメインに効果的に移行できるのか? これらの質問に答えるために、我々は16言語をカバーする新しいアフリカのニュースコーパスを作成し、そのうち8言語は既存の評価データセットには含まれていない。 我々は,高品質な翻訳データに対して,事前学習された大規模モデルを微調整する手法を,追加言語と追加ドメインに両立させる上で最も効果的な戦略であることを示す。

Recent advances in the pre-training of language models leverage large-scale datasets to create multilingual models. However, low-resource languages are mostly left out in these datasets. This is primarily because many widely spoken languages are not well represented on the web and therefore excluded from the large-scale crawls used to create datasets. Furthermore, downstream users of these models are restricted to the selection of languages originally chosen for pre-training. This work investigates how to optimally leverage existing pre-trained models to create low-resource translation systems for 16 African languages. We focus on two questions: 1) How can pre-trained models be used for languages not included in the initial pre-training? and 2) How can the resulting translation models effectively transfer to new domains? To answer these questions, we create a new African news corpus covering 16 languages, of which eight languages are not part of any existing evaluation dataset. We demonstrate that the most effective strategy for transferring both to additional languages and to additional domains is to fine-tune large pre-trained models on small quantities of high-quality translation data.
翻訳日:2022-05-05 19:22:58 公開日:2022-05-04
# (参考訳) マルチ露光プッシュフレーム衛星の自己超解像

Self-Supervised Super-Resolution for Multi-Exposure Push-Frame Satellites ( http://arxiv.org/abs/2205.02031v1 )

ライセンス: CC BY 4.0
Ngoc Long Nguyen, J\'er\'emy Anger, Axel Davy, Pablo Arias, and Gabriele Facciolo(参考訳) 現代の地球観測衛星は、計算手段によって超解けるプッシュフレーム画像のマルチ露光バーストを捉えている。 本研究では,このような多重露光系列に対する超解像法を提案する。 提案手法は,入力中の信号依存ノイズ,任意の長さのプロセスシーケンスを処理し,露光時の不正確さに頑健である。 さらに、真理の高精細なフレームを必要とせずに、自己スーパービジョンでエンドツーエンドでトレーニングできるため、特に実際のデータを扱うのに適している。 私たちの方法の中心は3つの重要な貢献です。 一 露光時間における誤差に対処するためのベース・ディテール分解 二 信号対雑音比の異なるフレームの融合を改善する雑音レベル対応特徴符号化 三 時間的プーリング作用素による置換不変核融合戦略 提案手法を合成, 実データで評価し, マルチ露光事例に適用した有意なマージンを持つ単一露光手法により性能が向上することを示す。

Modern Earth observation satellites capture multi-exposure bursts of push-frame images that can be super-resolved via computational means. In this work, we propose a super-resolution method for such multi-exposure sequences, a problem that has received very little attention in the literature. The proposed method can handle the signal-dependent noise in the inputs, process sequences of any length, and be robust to inaccuracies in the exposure times. Furthermore, it can be trained end-to-end with self-supervision, without requiring ground truth high resolution frames, which makes it especially suited to handle real data. Central to our method are three key contributions: i) a base-detail decomposition for handling errors in the exposure times, ii) a noise-level-aware feature encoding for improved fusion of frames with varying signal-to-noise ratio and iii) a permutation invariant fusion strategy by temporal pooling operators. We evaluate the proposed method on synthetic and real data and show that it outperforms by a significant margin existing single-exposure approaches that we adapted to the multi-exposure case.
翻訳日:2022-05-05 18:38:54 公開日:2022-05-04
# (参考訳) K平均クラスタリングのためのRawlsian Fairnessの探索

Exploring Rawlsian Fairness for K-Means Clustering ( http://arxiv.org/abs/2205.02052v1 )

ライセンス: CC BY 4.0
Stanley Simoes, Deepak P, Muiris MacCarthaigh(参考訳) 我々は、John Rawls氏の公正性に関する考えを既存の教師なし機械学習アルゴリズムに取り入れる探索的研究を行う。 我々はクラスタリングの課題、特にk-meansクラスタリングアルゴリズムに焦点を当てている。 私たちの知る限りでは、クラスタリングでRawlsianのアイデアを使った最初の作品です。 そこで本研究では,標準的なk-meansクラスタリングアルゴリズムによって生成されたクラスタ割り当てで動作する,ポストプロセッシング手法の開発を試みる。 我々の手法は、Rawlsの差分原理に従ってより公平にするために、この割り当てを何度も繰り返す一方で、全体のユーティリティに最小限の影響を与える。 最初のステップとして、与えられたクラスタ割り当ての例を新しいクラスタに再割り当てする、$\mathbf{R_1}$と$\mathbf{R_2}$の2つの単純な摂動演算子、$\mathbf{R_1}$の1つの例を新しいクラスタに割り当てる$\mathbf{R_1}$、$\mathbf{R_2}$の2つの新しいクラスタにサンプルを割り当てる$\mathbf{R_2}$を考える。 成人データセットのサンプル実験では,Rawlsの差分原理を取り入れたクラスタ割り当てにおいて,両オペレータが有意義な摂動を行い,反復回数の点で$\mathbf{R_2}$よりも効率がよいことを示した。 しかし,摂動を著しく改善する演算子の設計は依然として必要である。 それでも、どちらのオペレータも将来のオペレータの設計と比較に優れたベースラインを提供しています。

We conduct an exploratory study that looks at incorporating John Rawls' ideas on fairness into existing unsupervised machine learning algorithms. Our focus is on the task of clustering, specifically the k-means clustering algorithm. To the best of our knowledge, this is the first work that uses Rawlsian ideas in clustering. Towards this, we attempt to develop a postprocessing technique i.e., one that operates on the cluster assignment generated by the standard k-means clustering algorithm. Our technique perturbs this assignment over a number of iterations to make it fairer according to Rawls' difference principle while minimally affecting the overall utility. As the first step, we consider two simple perturbation operators -- $\mathbf{R_1}$ and $\mathbf{R_2}$ -- that reassign examples in a given cluster assignment to new clusters; $\mathbf{R_1}$ assigning a single example to a new cluster, and $\mathbf{R_2}$ a pair of examples to new clusters. Our experiments on a sample of the Adult dataset demonstrate that both operators make meaningful perturbations in the cluster assignment towards incorporating Rawls' difference principle, with $\mathbf{R_2}$ being more efficient than $\mathbf{R_1}$ in terms of the number of iterations. However, we observe that there is still a need to design operators that make significantly better perturbations. Nevertheless, both operators provide good baselines for designing and comparing any future operator, and we hope our findings would aid future work in this direction.
翻訳日:2022-05-05 18:27:10 公開日:2022-05-04
# (参考訳) 抽象的質問応答としての構成的タスク指向構文解析

Compositional Task-Oriented Parsing as Abstractive Question Answering ( http://arxiv.org/abs/2205.02068v1 )

ライセンス: CC BY 4.0
Wenting Zhao, Konstantine Arkoudas, Weiqi Sun, and Claire Cardie(参考訳) タスク指向構文解析(TOP)は、自然言語をアラームの設定など特定のタスクの機械可読表現に変換することを目的としている。 topに対する一般的なアプローチは、線形解析木を生成するためにseq2seqモデルを適用することである。 より最近の研究は、事前学習されたseq2seqモデルは、それ自体が自然言語である出力を生成するのに優れており、リニア化構文解析木を標準自然言語パラフラスに置き換えることで、構文解析木に容易に変換でき、いわゆる自然構文解析器(naturalized parser)となると主張している。 本研究では,標準パラフレージングの制限を克服した,トップから抽象的質問応答への一般的な還元を提示することで,自然化意味構文解析を探求する。 実験結果から,本手法は全データ設定において最先端の手法より優れ,数ショット設定では劇的に改善されていることがわかった。

Task-oriented parsing (TOP) aims to convert natural language into machine-readable representations of specific tasks, such as setting an alarm. A popular approach to TOP is to apply seq2seq models to generate linearized parse trees. A more recent line of work argues that pretrained seq2seq models are better at generating outputs that are themselves natural language, so they replace linearized parse trees with canonical natural-language paraphrases that can then be easily translated into parse trees, resulting in so-called naturalized parsers. In this work we continue to explore naturalized semantic parsing by presenting a general reduction of TOP to abstractive question answering that overcomes some limitations of canonical paraphrasing. Experimental results show that our QA-based technique outperforms state-of-the-art methods in full-data settings while achieving dramatic improvements in few-shot settings.
翻訳日:2022-05-05 18:15:02 公開日:2022-05-04
# (参考訳) DeepPortrait Drrawing: フリーハンドスケッチから人体画像を生成する

DeepPortraitDrawing: Generating Human Body Images from Freehand Sketches ( http://arxiv.org/abs/2205.02070v1 )

ライセンス: CC BY 4.0
Xian Wu, Chen Wang, Hongbo Fu, Ariel Shamir, Song-Hai Zhang, Shi-Min Hu(参考訳) 研究者は、例えば物体や人間の顔のフリーハンドスケッチからリアルな画像を生成する様々な方法を模索してきた。 しかし、スケッチからリアルな人体画像を生成する方法はまだ難しい課題である。 第一に人間の形に対する感受性、第二に体型やポーズの変化による人間のイメージの複雑さ、第三に写実的な画像とフリーハンドのスケッチの領域差によるものである。 本研究では,大まかなスケッチをリアルな人体画像に変換するための深層生成フレームワークであるDeepPortraitDrawingを紹介する。 様々なポーズで複雑な体形を符号化するために、我々は局所からグローバルへのアプローチを取る。 局所的に, 意味的部分自動エンコーダを用いて部分レベルの形状空間を構築し, 入力された手描きスケッチの形状の解明に有用である。 グローバルに,空間的位置と相対比を調整し,身体部分の構造を洗練させるために,カスケード型空間トランスフォーマーネットワークを用いる。 最後に、スケッチから画像への翻訳タスクにグローバル合成ネットワークと顔の細部を強調する顔修正ネットワークを用いる。 おおまかにスケッチされたヒトの肖像画を総合的に実験した結果,本手法は最先端のスケッチ・ツー・イメージ合成技術よりもリアルな画像を生成することがわかった。

Researchers have explored various ways to generate realistic images from freehand sketches, e.g., for objects and human faces. However, how to generate realistic human body images from sketches is still a challenging problem. It is, first because of the sensitivity to human shapes, second because of the complexity of human images caused by body shape and pose changes, and third because of the domain gap between realistic images and freehand sketches. In this work, we present DeepPortraitDrawing, a deep generative framework for converting roughly drawn sketches to realistic human body images. To encode complicated body shapes under various poses, we take a local-to-global approach. Locally, we employ semantic part auto-encoders to construct part-level shape spaces, which are useful for refining the geometry of an input pre-segmented hand-drawn sketch. Globally, we employ a cascaded spatial transformer network to refine the structure of body parts by adjusting their spatial locations and relative proportions. Finally, we use a global synthesis network for the sketch-to-image translation task, and a face refinement network to enhance facial details. Extensive experiments have shown that given roughly sketched human portraits, our method produces more realistic images than the state-of-the-art sketch-to-image synthesis techniques.
翻訳日:2022-05-05 17:58:47 公開日:2022-05-04
# (参考訳) 超複素画像から画像への変換

Hypercomplex Image-to-Image Translation ( http://arxiv.org/abs/2205.02087v1 )

ライセンス: CC BY 4.0
Eleonora Grassucci, Luigi Sigillo, Aurelio Uncini, Danilo Comminiello(参考訳) Image-to-image Translation (I2I)は、入力ドメインから出力ドメインへのコンテンツ表現の転送を目的とし、異なるターゲットドメインに沿ってバウンドする。 この課題で顕著な結果を得た最近のI2I生成モデルは、それぞれ数千万のパラメータを持つ多様な深層ネットワークで構成されている。 さらに、画像は通常、rgbチャネルからなる3次元であり、共通の神経モデルは次元相関を考慮せず、有益な情報を失う。 本稿では,超複素代数特性を利用して,画像次元間の既存関係を保ち,付加的な入力情報を利用する軽量I2I生成モデルを提案する。 提案する四元数StarGANv2とパラメータ化ハイパーコンプレックスStarGANv2(PHStarGANv2)は,高領域翻訳性能とFIDおよびLPIPSスコアによる画像品質を確保しつつ,パラメータと記憶メモリ量を削減する方法を示す。 完全なコードは、https://github.com/ispamm/HI2Iで入手できる。

Image-to-image translation (I2I) aims at transferring the content representation from an input domain to an output one, bouncing along different target domains. Recent I2I generative models, which gain outstanding results in this task, comprise a set of diverse deep networks each with tens of million parameters. Moreover, images are usually three-dimensional being composed of RGB channels and common neural models do not take dimensions correlation into account, losing beneficial information. In this paper, we propose to leverage hypercomplex algebra properties to define lightweight I2I generative models capable of preserving pre-existing relations among image dimensions, thus exploiting additional input information. On manifold I2I benchmarks, we show how the proposed Quaternion StarGANv2 and parameterized hypercomplex StarGANv2 (PHStarGANv2) reduce parameters and storage memory amount while ensuring high domain translation performance and good image quality as measured by FID and LPIPS scores. Full code is available at: https://github.com/ispamm/HI2I.
翻訳日:2022-05-05 17:40:42 公開日:2022-05-04
# (参考訳) 屋内位置決め型Wi-Fiフィンガープリントデータセットのためのデータクリーニング

Data Cleansing for Indoor Positioning Wi-Fi Fingerprinting Datasets ( http://arxiv.org/abs/2205.02096v1 )

ライセンス: CC BY 4.0
Darwin Quezada-Gaibor, Lucie Klus, Joaqu\'in Torres-Sospedra, Elena Simona Lohan, Jari Nurmi, Carlos Granell and Joaqu\'in Huerta(参考訳) 位置決めとローカライゼーションサービスを必要とするウェアラブルデバイスとIoTデバイスは、毎年指数関数的に増加しています。 この急速な成長は、データ品質を保証し、エンドユーザに高品質なサービス(QoS)を提供するために、あらゆる屋内位置決めシステムで使用される前に前処理する必要がある何百万ものデータエントリを生成する。 本稿では,無線地図のWLANフィンガープリントのための,斬新で簡単なデータクリーニングアルゴリズムを提案する。 このアルゴリズムは、受信信号強度(rss)値とアクセスポイント(aps)識別子を用いた指紋間の相関に基づいている。 これらを用いてデータセット内のすべてのサンプル間の相関を計算し、データセットから低レベルの相関関係を持つ指紋を除去する。 提案手法を14の独立データセット上で評価した。 その結果、データセットから平均14%の指紋が削除された。 2次元位置決め誤差は2.7%減少し、3次元位置決め誤差は5.3%減少し、フロアヒット率は平均1.2%上昇した。 その結果, 位置予測の平均速度も14%向上した。

Wearable and IoT devices requiring positioning and localisation services grow in number exponentially every year. This rapid growth also produces millions of data entries that need to be pre-processed prior to being used in any indoor positioning system to ensure the data quality and provide a high Quality of Service (QoS) to the end-user. In this paper, we offer a novel and straightforward data cleansing algorithm for WLAN fingerprinting radio maps. This algorithm is based on the correlation among fingerprints using the Received Signal Strength (RSS) values and the Access Points (APs)'s identifier. We use those to compute the correlation among all samples in the dataset and remove fingerprints with low level of correlation from the dataset. We evaluated the proposed method on 14 independent publicly-available datasets. As a result, an average of 14% of fingerprints were removed from the datasets. The 2D positioning error was reduced by 2.7% and 3D positioning error by 5.3% with a slight increase in the floor hit rate by 1.2% on average. Consequently, the average speed of position prediction was also increased by 14%.
翻訳日:2022-05-05 17:22:28 公開日:2022-05-04
# (参考訳) ベンチマークのデータセットはすべて必要か? テキスト分類のためのデータセット評価の試み

Are All the Datasets in Benchmark Necessary? A Pilot Study of Dataset Evaluation for Text Classification ( http://arxiv.org/abs/2205.02129v1 )

ライセンス: CC BY 4.0
Yang Xiao, Jinlan Fu, See-Kiong Ng, Pengfei Liu(参考訳) 本稿では,ベンチマーク中のデータセットがすべて必要かどうかについて検討する。 まず、異なるシステムを比較する際に、データセットの識別性を特徴付ける。 9つのデータセットと36のシステムに関する実験では、既存のベンチマークデータセットがトップスコーリングシステムの識別にほとんど貢献していないことが示されている。 さらに,テキスト分類タスクをケーススタディとして,その特性(平均文長など)に基づいてデータセット識別を予測する可能性について検討する。 我々の予備実験は、十分な数のトレーニング実験記録が与えられた場合、有意義な予測器が未知のデータセットに対するデータセットの識別を推定できることを示す。 この作業で調査した機能を備えたデータセットはすべて、DataLabでリリースしました。

In this paper, we ask the research question of whether all the datasets in the benchmark are necessary. We approach this by first characterizing the distinguishability of datasets when comparing different systems. Experiments on 9 datasets and 36 systems show that several existing benchmark datasets contribute little to discriminating top-scoring systems, while those less used datasets exhibit impressive discriminative power. We further, taking the text classification task as a case study, investigate the possibility of predicting dataset discrimination based on its properties (e.g., average sentence length). Our preliminary experiments promisingly show that given a sufficient number of training experimental records, a meaningful predictor can be learned to estimate dataset discrimination over unseen datasets. We released all datasets with features explored in this work on DataLab: \url{https://datalab.nlpedia.ai}.
翻訳日:2022-05-05 17:09:58 公開日:2022-05-04
# (参考訳) RecipeSnap - 軽量イメージ・ツー・レシピモデル

RecipeSnap -- a lightweight image-to-recipe model ( http://arxiv.org/abs/2205.02141v1 )

ライセンス: CC BY 4.0
Jianfa Chen, Yue Yin, Yifan Xu(参考訳) 本稿では,撮影された料理の認識と対応する料理レシピ生成のための自動化の問題に対処したい。 現在の画像合成モデルは計算コストが高く、モデルトレーニングと実装に強力なGPUを必要とする。 高い計算コストは、これらの既存のモデルを携帯電話のような携帯機器にデプロイすることを妨げる。 この問題を解決するために、我々は、メモリコストと計算コストを90%以上削減する軽量な画像合成予測モデルRecipeSnapを導入し、最新技術モデルである2.0 MedRを実現した。 レシピエンコーダは、レシピエンベッドの計算に使用されていた。 recipe1mデータセットと対応するレシピ埋め込みからのレシピをレシピライブラリとして収集し、イメージエンコーダのトレーニングと画像クエリに後で使用する。 私たちはMobileNet-V2をイメージエンコーダのバックボーンとして使用しています。 このモデルは、ほんの少しの労力で、スマートフォンのアプリケーションとして開発することができる。 本稿では,この軽量モデルと他の重モデルとの比較を行った。 コード、データ、モデルはgithubで公開されている。

In this paper we want to address the problem of automation for recognition of photographed cooking dishes and generating the corresponding food recipes. Current image-to-recipe models are computation expensive and require powerful GPUs for model training and implementation. High computational cost prevents those existing models from being deployed on portable devices, like smart phones. To solve this issue we introduce a lightweight image-to-recipe prediction model, RecipeSnap, that reduces memory cost and computational cost by more than 90% while still achieving 2.0 MedR, which is in line with the state-of-the-art model. A pre-trained recipe encoder was used to compute recipe embeddings. Recipes from Recipe1M dataset and corresponding recipe embeddings are collected as a recipe library, which are used for image encoder training and image query later. We use MobileNet-V2 as image encoder backbone, which makes our model suitable to portable devices. This model can be further developed into an application for smart phones with a few effort. A comparison of the performance between this lightweight model to other heavy models are presented in this paper. Code, data and models are publicly accessible on github.
翻訳日:2022-05-05 16:39:04 公開日:2022-05-04
# (参考訳) FEDNEST:Federated Bilevel, Minimax, and compositional Optimization

FEDNEST: Federated Bilevel, Minimax, and Compositional Optimization ( http://arxiv.org/abs/2205.02215v1 )

ライセンス: CC BY 4.0
Davoud Ataee Tarzanagh, Mingchen Li, Christos Thrampoulidis, Samet Oymak(参考訳) 標準フェデレーション最適化法は、 \textit{single-level} 構造を持つ確率問題に適用できる。 しかし、敵対的ロバスト性、ハイパーパラメータチューニング、アクター批判など、現代のMLの多くの問題は、ミニマックスと合成最適化を仮定するネストされた双レベルプログラミングに該当する。 本稿では,一般的なネスト問題に対処するフェデネスト型交互確率勾配法を提案する。 我々は不均一なデータの存在下でFedNestの証明可能な収束率を確立し、バイレベル、ミニマックス、合成最適化のバリエーションを導入する。 fednestは、内部レベルの不均一性に対処するために、フェデレーションハイパーグラディエント計算や分散低減など、複数のイノベーションを導入している。 提案手法の利点を実証するハイパーパラメータ \&ハイパー表現学習とミニマックス最適化の実験により,本理論を補完する。 コードはhttps://github.com/mc-nya/fednestで入手できる。

Standard federated optimization methods successfully apply to stochastic problems with \textit{single-level} structure. However, many contemporary ML problems -- including adversarial robustness, hyperparameter tuning, and actor-critic -- fall under nested bilevel programming that subsumes minimax and compositional optimization. In this work, we propose FedNest: A federated alternating stochastic gradient method to address general nested problems. We establish provable convergence rates for FedNest in the presence of heterogeneous data and introduce variations for bilevel, minimax, and compositional optimization. FedNest introduces multiple innovations including federated hypergradient computation and variance reduction to address inner-level heterogeneity. We complement our theory with experiments on hyperparameter \& hyper-representation learning and minimax optimization that demonstrate the benefits of our method in practice. Code is available at https://github.com/mc-nya/FedNest.
翻訳日:2022-05-05 16:30:57 公開日:2022-05-04
# SMLT: スケーラブルで適応的な機械学習設計とトレーニングのためのサーバレスフレームワーク

SMLT: A Serverless Framework for Scalable and Adaptive Machine Learning Design and Training ( http://arxiv.org/abs/2205.01853v1 )

ライセンス: Link先を確認
Ahsan Ali, Syed Zawad, Paarijaat Aditya, Istemi Ekin Akkus, Ruichuan Chen, Feng Yan(参考訳) 今日のプロダクション機械学習(ML)システムでは、モデルは継続的にトレーニングされ、改善され、デプロイされます。 ml設計とトレーニングは、動的リソース要求を持つさまざまなタスクの継続的なワークフローになりつつある。 サーバレスコンピューティングは、ユーザの透過的なリソース管理とスケーリングを提供する、新興クラウドパラダイムであり、ML設計とトレーニングのルーチンに革命をもたらす可能性がある。 しかしながら、既存のサーバレスプラットフォームでモダンなMLワークフローをホストすることは、ステートレスな性質、関数インスタンス間の通信サポートの制限、関数の実行期間の制限など、本質的に設計上の制限があるため、簡単な問題ではない。 これらの制限は、動的をトレーニングするための包括的なビューと適応メカニズムの欠如と、MLワークフローにおける既存の問題の増幅をもたらす。 上記の課題に対処するため、私たちは、効率的でユーザ中心のML設計とトレーニングを可能にする、自動化されたスケーラブルで適応的なサーバレスフレームワークであるSMLTを提案する。 SMLTでは、トレーニング中のMLタスクのデプロイメントとリソーススケーリングを動的に最適化するために、自動で適応的なスケジューリング機構を採用している。 SMLTはさらに、ユーザ指定のトレーニング期限と予算制限をサポートすることで、ユーザ中心のMLワークフローの実行を可能にする。 さらに、エンドツーエンドの設計を提供することで、SMLTは通信オーバーヘッド、機能実行期間の制限、繰り返し初期化の必要性、MLトレーニングに対する明確なフォールトトレランスといった、サーバレスプラットフォーム固有の問題を解決する。 SMLTはオープンソースで、すべての主要なMLフレームワークと互換性がある。 大規模で洗練された最新のMLモデルによる実験的な評価は、SMLTが最先端のVMベースシステムと既存のサーバレスMLトレーニングフレームワークを、トレーニング速度(最大8倍)と金銭コスト(最大3倍)で上回っていることを示している。

In today's production machine learning (ML) systems, models are continuously trained, improved, and deployed. ML design and training are becoming a continuous workflow of various tasks that have dynamic resource demands. Serverless computing is an emerging cloud paradigm that provides transparent resource management and scaling for users and has the potential to revolutionize the routine of ML design and training. However, hosting modern ML workflows on existing serverless platforms has non-trivial challenges due to their intrinsic design limitations such as stateless nature, limited communication support across function instances, and limited function execution duration. These limitations result in a lack of an overarching view and adaptation mechanism for training dynamics and an amplification of existing problems in ML workflows. To address the above challenges, we propose SMLT, an automated, scalable, and adaptive serverless framework to enable efficient and user-centric ML design and training. SMLT employs an automated and adaptive scheduling mechanism to dynamically optimize the deployment and resource scaling for ML tasks during training. SMLT further enables user-centric ML workflow execution by supporting user-specified training deadlines and budget limits. In addition, by providing an end-to-end design, SMLT solves the intrinsic problems in serverless platforms such as the communication overhead, limited function execution duration, need for repeated initialization, and also provides explicit fault tolerance for ML training. SMLT is open-sourced and compatible with all major ML frameworks. Our experimental evaluation with large, sophisticated modern ML models demonstrate that SMLT outperforms the state-of-the-art VM based systems and existing serverless ML training frameworks in both training speed (up to 8X) and monetary cost (up to 3X)
翻訳日:2022-05-05 16:28:05 公開日:2022-05-04
# Few-Shotオブジェクト認識のための複数表現に基づく生涯アンサンブル学習

Lifelong Ensemble Learning based on Multiple Representations for Few-Shot Object Recognition ( http://arxiv.org/abs/2205.01982v1 )

ライセンス: Link先を確認
Hamidreza Kasaei, Songsong Xiong(参考訳) サービスロボットは、さまざまなタスクを助けるために、日々の生活にますます統合されています。 このような環境では、ロボットは環境の中で作業しながらしばしば新しい物体に直面し、オープンエンドで学習する必要がある。 さらに、このようなロボットは幅広い対象のカテゴリーを認識できなければならない。 本稿では,複数表現に基づく一生涯のアンサンブル学習手法を提案する。 特に,深部表現と手作りの3次元形状記述子に基づくアンサンブル手法を提案する。 生涯学習を容易にするため、各アプローチは、オブジェクト情報を即時に記憶し検索するメモリユニットを備える。 提案モデルは,3次元オブジェクトカテゴリの数が固定されておらず,時間とともに成長可能なオープンエンド学習シナリオに適している。 提案手法の有効性を,オフラインおよびオープンエンドシナリオで評価するために,幅広い実験を行った。 評価目的として,実際のオブジェクトデータセットに加えて,90オブジェクトの27000ビューからなる大規模合成家庭用オブジェクトデータセットを生成する。 実験により,提案手法が3次元物体認識タスクに有効であること,および最先端手法よりも優れた性能を示す。 さらに、ロボットが限られた例から新しいカテゴリーを素早く学習するシミュレーションと実ロボット設定の両方において、我々のアプローチの有効性を実証した。

Service robots are integrating more and more into our daily lives to help us with various tasks. In such environments, robots frequently face new objects while working in the environment and need to learn them in an open-ended fashion. Furthermore, such robots must be able to recognize a wide range of object categories. In this paper, we present a lifelong ensemble learning approach based on multiple representations to address the few-shot object recognition problem. In particular, we form ensemble methods based on deep representations and handcrafted 3D shape descriptors. To facilitate lifelong learning, each approach is equipped with a memory unit for storing and retrieving object information instantly. The proposed model is suitable for open-ended learning scenarios where the number of 3D object categories is not fixed and can grow over time. We have performed extensive sets of experiments to assess the performance of the proposed approach in offline, and open-ended scenarios. For the evaluation purpose, in addition to real object datasets, we generate a large synthetic household objects dataset consisting of 27000 views of 90 objects. Experimental results demonstrate the effectiveness of the proposed method on 3D object recognition tasks, as well as its superior performance over the state-of-the-art approaches. Additionally, we demonstrated the effectiveness of our approach in both simulated and real-robot settings, where the robot rapidly learned new categories from limited examples.
翻訳日:2022-05-05 16:27:36 公開日:2022-05-04
# wavelet neural operator:パラメトリック偏微分方程式のためのニューラルネットワーク

Wavelet neural operator: a neural operator for parametric partial differential equations ( http://arxiv.org/abs/2205.02191v1 )

ライセンス: Link先を確認
Tapas Tripura and Souvik Chakraborty(参考訳) センサ技術やiot(internet-of-things)の大幅な進歩によって,テラバイト単位の履歴データへのアクセスが可能になったのです。 この文脈で可能な選択肢の1つは、2つの関数空間間の非線形マッピングを直接学習する演算子学習アルゴリズムを使用することである。 本研究では、積分カーネルとウェーブレット変換を融合したウェーブレットニューラル演算子(WNO)と呼ばれる演算子学習アルゴリズムを提案する。 WNOは、関数の時間周波数局所化におけるウェーブレットの優位性を活用し、空間領域におけるパターンの正確な追跡と関数マッピングの効果的な学習を可能にする。 ウェーブレットは時間/空間と周波数の両方で局所化されているため、WNOは空間および周波数の分解能が高い。 これにより、複雑な問題に対するソリューションにおけるパラメトリック依存関係のより詳細な詳細を学ぶことができる。 提案するwnoの有効性と頑健性は,バーガー方程式,ダーシー流,ナビエ・ストークス方程式,アレン・カーン方程式,ウェーブ・アドベクション方程式など幅広い問題に適用できる。 既存の演算子学習フレームワークとの比較研究を行った。 最後に,提案手法は,利用可能な歴史データに基づいて地球の気温を予測できるデジタル双生児の構築に用いられている。

With massive advancements in sensor technologies and Internet-of-things, we now have access to terabytes of historical data; however, there is a lack of clarity in how to best exploit the data to predict future events. One possible alternative in this context is to utilize operator learning algorithm that directly learn nonlinear mapping between two functional spaces; this facilitates real-time prediction of naturally arising complex evolutionary dynamics. In this work, we introduce a novel operator learning algorithm referred to as the Wavelet Neural Operator (WNO) that blends integral kernel with wavelet transformation. WNO harnesses the superiority of the wavelets in time-frequency localization of the functions and enables accurate tracking of patterns in spatial domain and effective learning of the functional mappings. Since the wavelets are localized in both time/space and frequency, WNO can provide high spatial and frequency resolution. This offers learning of the finer details of the parametric dependencies in the solution for complex problems. The efficacy and robustness of the proposed WNO are illustrated on a wide array of problems involving Burger's equation, Darcy flow, Navier-Stokes equation, Allen-Cahn equation, and Wave advection equation. Comparative study with respect to existing operator learning frameworks are presented. Finally, the proposed approach is used to build a digital twin capable of predicting Earth's air temperature based on available historical data.
翻訳日:2022-05-05 16:24:37 公開日:2022-05-04
# 標準オークションモデルの推定

Estimation of Standard Auction Models ( http://arxiv.org/abs/2205.02060v1 )

ライセンス: Link先を確認
Yeshwanth Cherapanamjeri, Constantinos Daskalakis, Andrew Ilyas, Manolis Zampetakis(参考訳) 独立な(非対称な)プライベート値と部分観測可能性の下で,第1および第2価格オークションの効率的な評価方法を提案する。 同一のオークションで支払った金額と勝者の同一性を含む有限の観察が与えられると、各入札者の入札分布を非パラメトリックに推定するアルゴリズムと、均衡仮定の下での値分布を提供する。 我々は、その誤差率が推定される入札/値分布に依存しないような有限サンプル推定境界を提供する。 我々の推定は、設定が対称でパラメトリックでなければ、あるいは全ての入札が観測可能でない限り、識別結果のみが得られる計量学における作業の進行を保証する。 我々の保証はまた、信頼性理論から古典的手法の計算的かつ統計的に有効な代替手段を提供する。 最後に,この結果はオランダ語と英語のオークションに適用できる。

We provide efficient estimation methods for first- and second-price auctions under independent (asymmetric) private values and partial observability. Given a finite set of observations, each comprising the identity of the winner and the price they paid in a sequence of identical auctions, we provide algorithms for non-parametrically estimating the bid distribution of each bidder, as well as their value distributions under equilibrium assumptions. We provide finite-sample estimation bounds which are uniform in that their error rates do not depend on the bid/value distributions being estimated. Our estimation guarantees advance a body of work in Econometrics wherein only identification results have been obtained, unless the setting is symmetric, parametric, or all bids are observable. Our guarantees also provide computationally and statistically effective alternatives to classical techniques from reliability theory. Finally, our results are immediately applicable to Dutch and English auctions.
翻訳日:2022-05-05 16:24:15 公開日:2022-05-04
# エルセグゲン : ヘッドマウントアイトラッキングの領域一般化に向けて

EllSeg-Gen, towards Domain Generalization for head-mounted eyetracking ( http://arxiv.org/abs/2205.01947v1 )

ライセンス: Link先を確認
Rakshit S. Kothari, Reynold J. Bailey, Christopher Kanan, Jeff B. Pelz, Gabriel J. Diaz(参考訳) 自然文脈における人間の視線行動の研究は、幅広い撮像条件にロバストな視線推定のためのアルゴリズムを必要とする。 しかし、アルゴリズムは反射的アーティファクトやオクルージョンの存在下で虹彩や瞳孔のような特徴を識別できないことが多い。 これまでの研究では、このような人工物が存在するにもかかわらず、畳み込みネットワークは視線の特徴を抽出することに優れていた。 しかし、これらのネットワークは訓練中は見当たらないデータではよく機能しない。 この研究は、複数のデータセットで畳み込みネットワークを共同で訓練する直感に従って、目の部分の一般化表現を学ぶ。 複数のデータセットでトレーニングされた単一モデルのパフォーマンスを、個々のデータセットでトレーニングされたモデルのプールと比較する。 その結果, 眼球画像を用いたモデルでは, マルチセットトレーニングによる視認性の向上が期待できることがわかった。 対照的に、データセット固有のモデルは、外観の多様性が低い眼画像に対してより一般化される。

The study of human gaze behavior in natural contexts requires algorithms for gaze estimation that are robust to a wide range of imaging conditions. However, algorithms often fail to identify features such as the iris and pupil centroid in the presence of reflective artifacts and occlusions. Previous work has shown that convolutional networks excel at extracting gaze features despite the presence of such artifacts. However, these networks often perform poorly on data unseen during training. This work follows the intuition that jointly training a convolutional network with multiple datasets learns a generalized representation of eye parts. We compare the performance of a single model trained with multiple datasets against a pool of models trained on individual datasets. Results indicate that models tested on datasets in which eye images exhibit higher appearance variability benefit from multiset training. In contrast, dataset-specific models generalize better onto eye images with lower appearance variability.
翻訳日:2022-05-05 16:23:57 公開日:2022-05-04
# 機械学習による位相場シミュレーションの高速化

Accelerating phase-field-based simulation via machine learning ( http://arxiv.org/abs/2205.02121v1 )

ライセンス: Link先を確認
Iman Peivaste, Nima H. Siboni, Ghasem Alahyarizadeh, Reza Ghaderi, Bob Svendsen, Dierk Raabe, Jaber R. Mianroodi(参考訳) 位相場に基づくモデルは、材料科学、力学、物理学、生物学、化学、および微構造進化のシミュレーションのための工学において一般的である。 しかし、大規模で複雑なシステムに適用した場合、計算コストが非常に高いという欠点に苦しんでいる。 このような計算コストを削減するため、現在の作業における代理モデルとして、Unetベースの人工ニューラルネットワークを開発した。 このネットワークのトレーニング入力は、Fan-Chenモデルに基づく初期有界値問題(IBVP)の数値解から得られる。 特に、初期順序パラメータの異なる約250の異なるシミュレーションを行い、各シミュレーションのために位相場の時間発展の200フレームを格納する。 ネットワークは、このデータの90%でトレーニングされ、シミュレーションの$i$-thフレーム、すなわち、パラメータフィールドを入力とし、$(i+1)$-thフレームを出力として生成する。 ネットワークの評価は、トレーニングに使用するものと異なる構成に基づいて、2200のミクロ組織からなるテストデータセットで実行される。 トレーニングされたネットワークは初期順序パラメータに再帰的に適用され、位相場の時間発展を計算する。 その結果, 順序パラメータの誤差や系の自由エネルギーの観点から, 従来の数値解から得られた値と比較した。 全ての点の平均的な順序パラメータ誤差は0.005であり、全てのシミュレーションボックスにおける総自由エネルギーの相対誤差は1%を超えない。

Phase-field-based models have become common in material science, mechanics, physics, biology, chemistry, and engineering for the simulation of microstructure evolution. Yet, they suffer from the drawback of being computationally very costly when applied to large, complex systems. To reduce such computational costs, a Unet-based artificial neural network is developed as a surrogate model in the current work. Training input for this network is obtained from the results of the numerical solution of initial-boundary-value problems (IBVPs) based on the Fan-Chen model for grain microstructure evolution. In particular, about 250 different simulations with varying initial order parameters are carried out and 200 frames of the time evolution of the phase fields are stored for each simulation. The network is trained with 90% of this data, taking the $i$-th frame of a simulation, i.e. order parameter field, as input, and producing the $(i+1)$-th frame as the output. Evaluation of the network is carried out with a test dataset consisting of 2200 microstructures based on different configurations than originally used for training. The trained network is applied recursively on initial order parameters to calculate the time evolution of the phase fields. The results are compared to the ones obtained from the conventional numerical solution in terms of the errors in order parameters and the system's free energy. The resulting order parameter error averaged over all points and all simulation cases is 0.005 and the relative error in the total free energy in all simulation boxes does not exceed 1%.
翻訳日:2022-05-05 16:20:49 公開日:2022-05-04
# (参考訳) オントロジーを介する有界クランク幅データベースの問合せ

Ontology-Mediated Querying on Databases of Bounded Cliquewidth ( http://arxiv.org/abs/2205.02190v1 )

ライセンス: CC BY-SA 4.0
Carsten Lutz, Leif Sabellek, Lukas Schulze(参考訳) 本稿では,パラメータ化複雑性理論の観点から,有界クリフ幅のデータベース上でのオントロジーによるクエリ(OMQ)の評価について検討する。 オントロジー言語として、一階述語論理のガード付き二変数フラグメント gf$_2$ と同様に、$\mathcal{alc}$ と $\mathcal{alci}$ の記述論理を考える。 クエリは、AQ(Atomic query)、CQ(Conjunctive query)、CQ(Unions of CQ)である。 検討されたOMQ問題は、パラメータがOMQ+cliquewidthのとき、固定パラメータ線形(FPL)である。 我々の主な貢献は、パラメータのランニング時間依存性の詳細な分析であり、いくつかの興味深い効果を示している。

We study the evaluation of ontology-mediated queries (OMQs) on databases of bounded cliquewidth from the viewpoint of parameterized complexity theory. As the ontology language, we consider the description logics $\mathcal{ALC}$ and $\mathcal{ALCI}$ as well as the guarded two-variable fragment GF$_2$ of first-order logic. Queries are atomic queries (AQs), conjunctive queries (CQs), and unions of CQs. All studied OMQ problems are fixed-parameter linear (FPL) when the parameter is the size of the OMQ plus the cliquewidth. Our main contribution is a detailed analysis of the dependence of the running time on the parameter, exhibiting several interesting effects.
翻訳日:2022-05-05 16:19:28 公開日:2022-05-04
# 存在規則でストリームを追いかける

Chasing Streams with Existential Rules ( http://arxiv.org/abs/2205.02220v1 )

ライセンス: Link先を確認
Jacopo Urbani, Markus Kr\"otzsch, Thomas Eiter(参考訳) データストリーム上でクエリ応答を行うために,既存のルールによる推論について検討する。 静的データベースでは、この問題は広く研究されているが、急速に変化するデータへの拡張はまだ検討されていない。 このギャップを埋めるために、ルールベースのストリーム推論のためのよく知られたフレームワークであるLARSを拡張し、既存のルールをサポートする。 そのために,larsを存在規則に翻訳する方法を,存在規則のセマンティクス保存セットに変換する。 このような規則で応答するクエリは一般に決定不可能であるので、ストリームの時間的性質をどのように活用するか、決定可能性を保証するための非循環の概念を示す。

We study reasoning with existential rules to perform query answering over streams of data. On static databases, this problem has been widely studied, but its extension to rapidly changing data has not yet been considered. To bridge this gap, we extend LARS, a well-known framework for rule-based stream reasoning, to support existential rules. For that, we show how to translate LARS with existentials into a semantics-preserving set of existential rules. As query answering with such rules is undecidable in general, we describe how to leverage the temporal nature of streams and present suitable notions of acyclicity that ensure decidability.
翻訳日:2022-05-05 15:16:45 公開日:2022-05-04
# 科学的発見のための計算的帰結

A Computational Inflection for Scientific Discovery ( http://arxiv.org/abs/2205.02007v1 )

ライセンス: Link先を確認
Tom Hope, Doug Downey, Oren Etzioni, Daniel S. Weld, Eric Horvitz(参考訳) 我々は科学的発見の軌跡において重要な変曲の足元に立っている。 社会がデジタルトランスフォーメーションのペースを早めるにつれて、人類の集団的な科学的知識と談話も続く。 私たちは現在、論文をデジタル形式で読み書きし、科学の形式的および非公式なプロセスの多くをデジタル的に捉えています - 論文、事前印刷、書籍、コードとデータセット、カンファレンスプレゼンテーション、ソーシャルネットワークと通信プラットフォームにおけるインタラクションなどです。 この変化は膨大な量の情報の成長につながり、それを分析し活用する計算モデルやシステムにとってエキサイティングな機会となった。 並行して、データ処理能力の指数関数的な成長は、人的監督を伴わずに大規模な非構造化テキストから強力な表現を学習できる自己教師型ニューラルネットワークを含む、AIの顕著な進歩を後押ししている。 社会と計算の傾向の合流は、コンピュータ科学が科学プロセス自体の革命を火付けようとしていることを示唆している。 しかし、科学データ、結果、出版物の爆発は、人間の認知能力の構成要素とは対照的である。 科学的知識は急速に拡大しているが、私たちの心は静的のままであり、情報の発見、同化、操作の能力に厳しい制限がある。 本研究では, 科学的知識のコーパスを取り込み, インスピレーション, 説明, 解決, 証拠を抽出することにより, 人間の有界能力に対処するタスク誘導型知識検索の研究課題を提案する。 我々は,手法とプロトタイプの初期の進歩を報告し,科学に革命をもたらす可能性を持つ計算的アプローチに向けて重要な機会と課題を提示する。

We stand at the foot of a significant inflection in the trajectory of scientific discovery. As society continues on its fast-paced digital transformation, so does humankind's collective scientific knowledge and discourse. We now read and write papers in digitized form, and a great deal of the formal and informal processes of science are captured digitally -- including papers, preprints and books, code and datasets, conference presentations, and interactions in social networks and communication platforms. The transition has led to the growth of a tremendous amount of information, opening exciting opportunities for computational models and systems that analyze and harness it. In parallel, exponential growth in data processing power has fueled remarkable advances in AI, including self-supervised neural models capable of learning powerful representations from large-scale unstructured text without costly human supervision. The confluence of societal and computational trends suggests that computer science is poised to ignite a revolution in the scientific process itself. However, the explosion of scientific data, results and publications stands in stark contrast to the constancy of human cognitive capacity. While scientific knowledge is expanding with rapidity, our minds have remained static, with severe limitations on the capacity for finding, assimilating and manipulating information. We propose a research agenda of task-guided knowledge retrieval, in which systems counter humans' bounded capacity by ingesting corpora of scientific knowledge and retrieving inspirations, explanations, solutions and evidence synthesized to directly augment human performance on salient tasks in scientific endeavors. We present initial progress on methods and prototypes, and lay out important opportunities and challenges ahead with computational approaches that have the potential to revolutionize science.
翻訳日:2022-05-05 15:16:17 公開日:2022-05-04
# 潜在空間拡張性による関節画像圧縮と雑音除去

Joint Image Compression and Denoising via Latent-Space Scalability ( http://arxiv.org/abs/2205.01874v1 )

ライセンス: Link先を確認
Saeed Ranjbar Alvar, Mateen Ulhaq, Hyomin Choi, and Ivan V. Baji\'c(参考訳) デジタルカメラの画像圧縮に関しては、伝統的にデノイジングは圧縮の前に行われる。 しかし、裁判所の証拠や画像鑑定など、画像の信頼性を示すために画像ノイズが必要なアプリケーションもある。 これはノイズ自体をクリーンなイメージに加えてコード化する必要があることを意味します。 本稿では,画像のデノイジングと圧縮を共同で行う学習型画像圧縮フレームワークを提案する。 画像コーデックの潜像空間は、クリーン画像が潜像空間のサブセットから低レートで復号化できるようにスケーラブルな方法で構成され、ノイズ画像は全潜像空間から高レートで復号化される。 提案コーデックは既存の圧縮およびデノナイジングベンチマークと比較され, 実験によりカスケード圧縮およびデノナイジングと比較して最大80%のビットレートの削減が認められた。

When it comes to image compression in digital cameras, denoising is traditionally performed prior to compression. However, there are applications where image noise may be necessary to demonstrate the trustworthiness of the image, such as court evidence and image forensics. This means that noise itself needs to be coded, in addition to the clean image itself. In this paper, we present a learnt image compression framework where image denoising and compression are performed jointly. The latent space of the image codec is organized in a scalable manner such that the clean image can be decoded from a subset of the latent space at a lower rate, while the noisy image is decoded from the full latent space at a higher rate. The proposed codec is compared against established compression and denoising benchmarks, and the experiments reveal considerable bitrate savings of up to 80% compared to cascade compression and denoising.
翻訳日:2022-05-05 15:10:42 公開日:2022-05-04
# カメラポーズ回帰のためのホモグラフィに基づく損失関数

Homography-Based Loss Function for Camera Pose Regression ( http://arxiv.org/abs/2205.01937v1 )

ライセンス: Link先を確認
Cl\'ementin Boittiaux (IFREMER), Ricard Marxer (LIS), Claire Dune (COSMER), Aur\'elien Arnaubec (IFREMER), Vincent Hugel (COSMER)(参考訳) 最近のビジュアルベース再ローカライズアルゴリズムは、画像データからカメラポーズの回帰を行うためのディープラーニング手法に依存している。 本稿では,2つのポーズ間の誤差を埋め込んで,深層学習に基づくカメラポーズ回帰を行う損失関数に着目した。 既存の損失関数は、訓練が難しい多目的関数か、地上の真理3Dシーンポイントに依存する不安定な再射誤差であり、2段階の訓練を必要とする。 これらの問題に対処するために,多面的ホモグラフィ統合に基づく新しい損失関数を導入する。 この新しい関数は事前初期化を必要とせず、物理的に解釈可能なハイパーパラメータのみに依存する。 さらに,十分に確立された再局在化データセット上で行った実験により,既存の損失関数と比較してトレーニング中の平均正方形再投影誤差が最小となることを示した。

Some recent visual-based relocalization algorithms rely on deep learning methods to perform camera pose regression from image data. This paper focuses on the loss functions that embed the error between two poses to perform deep learning based camera pose regression. Existing loss functions are either difficult-to-tune multi-objective functions or present unstable reprojection errors that rely on ground truth 3D scene points and require a two-step training. To deal with these issues, we introduce a novel loss function which is based on a multiplane homography integration. This new function does not require prior initialization and only depends on physically interpretable hyperparameters. Furthermore, the experiments carried out on well established relocalization datasets show that it minimizes best the mean square reprojection error during training when compared with existing loss functions.
翻訳日:2022-05-05 15:10:28 公開日:2022-05-04
# ニューラルシーン表現におけるSDFに基づくRGB-Dカメラ追跡

SDF-based RGB-D Camera Tracking in Neural Scene Representations ( http://arxiv.org/abs/2205.02079v1 )

ライセンス: Link先を確認
Leonard Bruns, Fereidoon Zangeneh, Patric Jensfelt(参考訳) 動作中のRGB-Dカメラの6Dポーズをニューラルシーン表現で追跡する問題を考察する。 このような表現が最近出現し,カメラトラッキングの課題に対するそれらの適合性を検討した。 特に, 符号付き距離場ベース表現を用いたRGB-Dカメラの追跡を提案し, 密度ベース表現と比較して, トラッキングが高速化され, 計算時間制限時のより堅牢で正確なポーズ推定が可能となることを示す。

We consider the problem of tracking the 6D pose of a moving RGB-D camera in a neural scene representation. Different such representations have recently emerged, and we investigate the suitability of them for the task of camera tracking. In particular, we propose to track an RGB-D camera using a signed distance field-based representation and show that compared to density-based representations, tracking can be sped up, which enables more robust and accurate pose estimates when computation time is limited.
翻訳日:2022-05-05 15:10:15 公開日:2022-05-04
# 自律走行車における軌道予測のための神経進化多目的アプローチ

Neuroevolutionary Multi-objective approaches to Trajectory Prediction in Autonomous Vehicles ( http://arxiv.org/abs/2205.02105v1 )

ライセンス: Link先を確認
Fergal Stapleton, Edgar Galv\'an, Ganesh Sistu and Senthil Yogamani(参考訳) 神経進化と呼ばれるプロセスであるディープニューラルネットワーク(dnn)の自動最適化とトレーニングに進化アルゴリズム(eas)を使用するインセンティブは、近年勢いを増している。 これらのネットワークの構成とトレーニングは最適化問題として考えられる。 実際、神経進化に関する最近の研究の多くは、単目的最適化に重点を置いている。 さらに、神経進化と進化的多目的最適化(EMO)の交差点で実施された小さな研究から、これまで実施されてきたすべての研究は、MNISTのような確立された標準ベンチマーク問題を使用して、1種類のDNN(畳み込みニューラルネットワーク)の使用に主に焦点を合わせてきた。 本研究では,CNNとLong-Short Term MemoryネットワークからなるリッチDNNを用いて,これら2つの領域(神経進化とEMO)の理解を飛躍的に進める。 さらに,ロバストで挑戦的な車両軌道予測問題を用いる。 既知の非支配的ソート遺伝アルゴリズムiiを用いて,3つのカテゴリでテストされた5つの異なる目的の効果について検討し,これらの目的が自律走行車における軌道予測に対する神経進化における肯定的あるいは有害な効果を示す。

The incentive for using Evolutionary Algorithms (EAs) for the automated optimization and training of deep neural networks (DNNs), a process referred to as neuroevolution, has gained momentum in recent years. The configuration and training of these networks can be posed as optimization problems. Indeed, most of the recent works on neuroevolution have focused their attention on single-objective optimization. Moreover, from the little research that has been done at the intersection of neuroevolution and evolutionary multi-objective optimization (EMO), all the research that has been carried out has focused predominantly on the use of one type of DNN: convolutional neural networks (CNNs), using well-established standard benchmark problems such as MNIST. In this work, we make a leap in the understanding of these two areas (neuroevolution and EMO), regarded in this work as neuroevolutionary multi-objective, by using and studying a rich DNN composed of a CNN and Long-short Term Memory network. Moreover, we use a robust and challenging vehicle trajectory prediction problem. By using the well-known Non-dominated Sorting Genetic Algorithm-II, we study the effects of five different objectives, tested in categories of three, allowing us to show how these objectives have either a positive or detrimental effect in neuroevolution for trajectory prediction in autonomous vehicles.
翻訳日:2022-05-05 15:10:05 公開日:2022-05-04
# COOPERNAUT:ネットワーク車両の協調認識によるエンドツーエンド運転

COOPERNAUT: End-to-End Driving with Cooperative Perception for Networked Vehicles ( http://arxiv.org/abs/2205.02222v1 )

ライセンス: Link先を確認
Jiaxun Cui, Hang Qiu, Dian Chen, Peter Stone, Yuke Zhu(参考訳) 自動運転車の光学センサーと学習アルゴリズムは、ここ数年で劇的に進歩している。 それでも、今日の自動運転車の信頼性は、視線感知能力の制限と、極端な状況に対処するデータ駆動方式の脆さによって妨げられている。 近年の通信技術の発展に伴い、車両間通信との協調認識は、危険な状況や緊急時の自律運転を強化するための有望なパラダイムとなっている。 本稿では,車間認識を用いたエンドツーエンド学習モデルであるCOOPERNAUTを紹介する。 このモデルはlidar情報をコンパクトなポイントベース表現にエンコードし,現実の無線チャネルを介して車両間のメッセージとして送信する。 このモデルを評価するために,ネットワーク型運転シミュレーションフレームワークであるautocastsimを開発した。 提案するautocastsim実験では,協調型知覚駆動モデルが,従来のv2vnetに比べて,エゴセントリック駆動モデルと比較して平均成功率40%向上し,帯域幅が5倍小さくなることが示唆された。 COOPERNAUTとAUTOCASTSIMはhttps://ut-austin-rpl.github.io/Coopernaut/.comで入手できる。

Optical sensors and learning algorithms for autonomous vehicles have dramatically advanced in the past few years. Nonetheless, the reliability of today's autonomous vehicles is hindered by the limited line-of-sight sensing capability and the brittleness of data-driven methods in handling extreme situations. With recent developments of telecommunication technologies, cooperative perception with vehicle-to-vehicle communications has become a promising paradigm to enhance autonomous driving in dangerous or emergency situations. We introduce COOPERNAUT, an end-to-end learning model that uses cross-vehicle perception for vision-based cooperative driving. Our model encodes LiDAR information into compact point-based representations that can be transmitted as messages between vehicles via realistic wireless channels. To evaluate our model, we develop AutoCastSim, a network-augmented driving simulation framework with example accident-prone scenarios. Our experiments on AutoCastSim suggest that our cooperative perception driving models lead to a 40% improvement in average success rate over egocentric driving models in these challenging driving situations and a 5 times smaller bandwidth requirement than prior work V2VNet. COOPERNAUT and AUTOCASTSIM are available at https://ut-austin-rpl.github.io/Coopernaut/.
翻訳日:2022-05-05 15:09:42 公開日:2022-05-04
# (参考訳) 地方自治体選挙における南アフリカの政治感情予測のための半教師付き学習アプローチ

Semi-supervised learning approaches for predicting South African political sentiment for local government elections ( http://arxiv.org/abs/2205.02223v1 )

ライセンス: CC BY 4.0
Mashadi Ledwaba and Vukosi Marivate(参考訳) 本研究は,地方選挙でTwitter上で共有された感情を分析し,南アフリカの政治状況を理解することを目的とする。 この分析は、ANC、DA、EFF、ActionSAの4大政党を中心にした議論の理解に重点が置かれた。 グラフベースの手法により、ツイートの分類に膨大なアクセス可能なtwitterデータを、ネガティブでポジティブな感情に分類する半教師付きアプローチが用いられた。 ネガティブな感情を表すツイートは、潜在トピック抽出を通じてさらに分析され、各政党に関連する関心事の隠れたトピックを明らかにする。 今回の調査結果は、南アフリカのtwitterユーザーの一般的な感情が、現在の与党であるancに投じられた最も悪いネガティブな感情を持つ4つの有力政党すべてに対して否定的であることを示している。

This study aims to understand the South African political context by analysing the sentiments shared on Twitter during the local government elections. An emphasis on the analysis was placed on understanding the discussions led around four predominant political parties ANC, DA, EFF and ActionSA. A semi-supervised approach by means of a graph-based technique to label the vast accessible Twitter data for the classification of tweets into negative and positive sentiment was used. The tweets expressing negative sentiment were further analysed through latent topic extraction to uncover hidden topics of concern associated with each of the political parties. Our findings demonstrated that the general sentiment across South African Twitter users is negative towards all four predominant parties with the worst negative sentiment among users projected towards the current ruling party, ANC, relating to concerns cantered around corruption, incompetence and loadshedding.
翻訳日:2022-05-05 15:08:24 公開日:2022-05-04
# 多スペクトル・SAR画像からの不変表現に対する自己教師付き学習

Self-Supervised Learning for Invariant Representations from Multi-Spectral and SAR Images ( http://arxiv.org/abs/2205.02049v1 )

ライセンス: Link先を確認
Pallavi Jain, Bianca Schoen-Phelan, Robert Ross(参考訳) 自己監視学習(SSL)は、いくつかのドメイン分類とセグメンテーションタスクにおいて新しい最先端技術となっている。 このうち、SSLの一般的なカテゴリはBYOLのような蒸留ネットワークである。 本研究では,自然のRGB画像と非自明に異なるリモートセンシング(RS)領域において,蒸留ネットワーク(BYOL)を適用したRSDnetを提案する。 マルチスペクトル (MS) と合成開口レーダ (SAR) センサは様々なスペクトルおよび空間分解能情報を提供するため, 不変な特徴埋め込みを学習するための暗黙拡張として利用した。 sslでrsベースの不変機能を学ぶために、rsdnetを2つの方法、すなわち単一チャネル特徴学習と3つのチャネル特徴学習で訓練した。 本研究は、ランダムMSおよびSARバンドからの単一チャネル特徴学習の有用性について、3つ以上のバンドを使用するという一般的な概念と比較した。 線形評価では,これらの単一チャネルはEuroSAT分類タスクで0.92F1、DFC分割タスクで59.6mIoUに達した。 また、この結果とImageNet重みを比較し、RSベースのSSLモデルは教師付きImageNetベースモデルよりも優れていることを示した。 さらに,マルチモーダルデータの有用性を単一モーダルデータと比較し,MSデータとSARデータを併用することで,MSデータとSARデータを併用するよりも優れた不変表現を学習できることを示した。

Self-Supervised learning (SSL) has become the new state-of-art in several domain classification and segmentation tasks. Of these, one popular category in SSL is distillation networks such as BYOL. This work proposes RSDnet, which applies the distillation network (BYOL) in the remote sensing (RS) domain where data is non-trivially different from natural RGB images. Since Multi-spectral (MS) and synthetic aperture radar (SAR) sensors provide varied spectral and spatial resolution information, we utilised them as an implicit augmentation to learn invariant feature embeddings. In order to learn RS based invariant features with SSL, we trained RSDnet in two ways, i.e., single channel feature learning and three channel feature learning. This work explores the usefulness of single channel feature learning from random MS and SAR bands compared to the common notion of using three or more bands. In our linear evaluation, these single channel features reached a 0.92 F1 score on the EuroSAT classification task and 59.6 mIoU on the DFC segmentation task for certain single bands. We also compared our results with ImageNet weights and showed that the RS based SSL model outperforms the supervised ImageNet based model. We further explored the usefulness of multi-modal data compared to single modality data, and it is shown that utilising MS and SAR data learn better invariant representations than utilising only MS data.
翻訳日:2022-05-05 14:53:23 公開日:2022-05-04
# Mobile-URSONet: 搭載型宇宙空間推定のための埋め込み型ニューラルネットワーク

Mobile-URSONet: an Embeddable Neural Network for Onboard Spacecraft Pose Estimation ( http://arxiv.org/abs/2205.02065v1 )

ライセンス: Link先を確認
Julien Posso, Guy Bois, Yvon Savaria(参考訳) 宇宙機ポーズ推定は、軌道上の操作の自律性を改善するための重要なコンピュータビジョンアプリケーションである。 ESA/スタンフォードの競争は、宇宙船に搭載されたコンピュータに課される制約とほとんど互換性のないソリューションを生み出した。 URSONetは、その一般化能力の競争で最も優れたものの1つだが、膨大な数のパラメータと高い計算複雑性を犠牲にしている。 本稿では,URSONetよりも4倍の精度で精度を低下させながら,パラメータの178倍のパラメータを持つ推定畳み込みニューラルネットワークを提案する。

Spacecraft pose estimation is an essential computer vision application that can improve the autonomy of in-orbit operations. An ESA/Stanford competition brought out solutions that seem hardly compatible with the constraints imposed on spacecraft onboard computers. URSONet is among the best in the competition for its generalization capabilities but at the cost of a tremendous number of parameters and high computational complexity. In this paper, we propose Mobile-URSONet: a spacecraft pose estimation convolutional neural network with 178 times fewer parameters while degrading accuracy by no more than four times compared to URSONet.
翻訳日:2022-05-05 14:52:59 公開日:2022-05-04
# 静止海洋カラーイメージ装置における海霧検出のためのデュアルブランチニューラルネットワーク

Dual Branch Neural Network for Sea Fog Detection in Geostationary Ocean Color Imager ( http://arxiv.org/abs/2205.02069v1 )

ライセンス: Link先を確認
Yuan Zhou and Keran Chen and Xiaofeng Li(参考訳) 海霧は海洋活動の安全性を著しく脅かしている。 本稿では,海霧データセット(SFDD)と二重分岐海霧検出ネットワーク(DB-SFNet)を開発する。 我々は,2010年から2020年にかけて,黄海とボーハイ海で観測されたすべての海霧 (118.1{\deg}E-128.1{\deg}E,29.5{\deg}N-43.8{\deg}N) を調査し,各イベントの海霧画像はGOCI(Geostationary Ocean Color Imager)から収集し,データセットSFDDを構成する。 SFDDの各画像中の海霧の位置を正確にマークする。 提案したデータセットは, 長期にわたるスパン, 多数のサンプル, 正確なラベル付けによって特徴付けられ, 様々な海霧検出モデルの堅牢性を大幅に向上させることができる。 さらに,両枝の海霧検出ネットワークを提案し,その精度と総合的な海霧検出を実現する。 ポロセドDB-SFNetは、知識抽出モジュールと、任意のデコードモジュールのデュアルブランチで構成される。 2つのモジュールは、視覚領域と統計領域の両方から識別的特徴を共同抽出する。 実験の結果, f1-score 0.77, 臨界成功率 0.63 の有望な海霧検出結果が得られた。 既存の高度なディープラーニングネットワークと比較して、DB-SFNetは特に雲と霧の混合領域において、検出性能と安定性に優れている。

Sea fog significantly threatens the safety of maritime activities. This paper develops a sea fog dataset (SFDD) and a dual branch sea fog detection network (DB-SFNet). We investigate all the observed sea fog events in the Yellow Sea and the Bohai Sea (118.1{\deg}E-128.1{\deg}E, 29.5{\deg}N-43.8{\deg}N) from 2010 to 2020, and collect the sea fog images for each event from the Geostationary Ocean Color Imager (GOCI) to comprise the dataset SFDD. The location of the sea fog in each image in SFDD is accurately marked. The proposed dataset is characterized by a long-time span, large number of samples, and accurate labeling, that can substantially improve the robustness of various sea fog detection models. Furthermore, this paper proposes a dual branch sea fog detection network to achieve accurate and holistic sea fog detection. The poporsed DB-SFNet is composed of a knowledge extraction module and a dual branch optional encoding decoding module. The two modules jointly extracts discriminative features from both visual and statistical domain. Experiments show promising sea fog detection results with an F1-score of 0.77 and a critical success index of 0.63. Compared with existing advanced deep learning networks, DB-SFNet is superior in detection performance and stability, particularly in the mixed cloud and fog areas.
翻訳日:2022-05-05 14:52:48 公開日:2022-05-04
# ANUBIS:新しいデータセットを用いた骨格に基づく行動認識手法のレビューとベンチマーク

ANUBIS: Review and Benchmark Skeleton-Based Action Recognition Methods with a New Dataset ( http://arxiv.org/abs/2205.02071v1 )

ライセンス: Link先を確認
Zhenyue Qin, Yang Liu, Madhawa Perera, Saeed Anwar, Tom Gedeon, Pan Ji, Dongwoo Kim(参考訳) 骨格に基づく行動認識は、行動認識のサブ領域として、注意と人気を素早く蓄積している。 タスクは、人間の調音点によって実行される動作を認識することである。 他のデータモダリティと比較すると、3D人間の骨格表現は簡潔さ、堅牢性、人種的偏見、その他多くの特徴を持つ。 我々は、新しい研究者や既存の研究者に対して、骨格に基づく行動認識の展望に関するロードマップを提供することを目指している。 そこで本研究では,骨格型行動認識の既存の研究について,分類学の形で概説する。 1)データセット,(2)空間的特徴の抽出,(3)時間的パターンのキャプチャ,(4)信号品質の向上の4つのカテゴリに分けた。 それぞれの方法について,簡潔で情報に乏しい記述を提供する。 骨格に基づく行動認識の既存のアプローチについて、より公平かつ包括的な評価を促進するために、大規模な人間の骨格データセットであるANUBISを収集する。 これまでに収集したデータと比較した場合,ANUBISは,(1)最近リリースしたセンサの活用,(2)新しいバックビューの活用,(3)高熱意の育成,(4)新型コロナウイルスのパンデミック時代の行動を含む4つの面で有利である。 ANUBISを用いて、現在の骨格に基づく行動認識器の性能を比較検討する。 本稿の最後には,新しい技術的問題をいくつか挙げて,骨格に基づく行動認識の今後の発展を展望する。 近い将来、骨格に基づく行動認識を商業化するためには、解決する価値があると考えています。 ANUBISのデータセットは以下の通りである。

Skeleton-based action recognition, as a subarea of action recognition, is swiftly accumulating attention and popularity. The task is to recognize actions performed by human articulation points. Compared with other data modalities, 3D human skeleton representations have extensive unique desirable characteristics, including succinctness, robustness, racial-impartiality, and many more. We aim to provide a roadmap for new and existing researchers a on the landscapes of skeleton-based action recognition for new and existing researchers. To this end, we present a review in the form of a taxonomy on existing works of skeleton-based action recognition. We partition them into four major categories: (1) datasets; (2) extracting spatial features; (3) capturing temporal patterns; (4) improving signal quality. For each method, we provide concise yet informatively-sufficient descriptions. To promote more fair and comprehensive evaluation on existing approaches of skeleton-based action recognition, we collect ANUBIS, a large-scale human skeleton dataset. Compared with previously collected dataset, ANUBIS are advantageous in the following four aspects: (1) employing more recently released sensors; (2) containing novel back view; (3) encouraging high enthusiasm of subjects; (4) including actions of the COVID pandemic era. Using ANUBIS, we comparably benchmark performance of current skeleton-based action recognizers. At the end of this paper, we outlook future development of skeleton-based action recognition by listing several new technical problems. We believe they are valuable to solve in order to commercialize skeleton-based action recognition in the near future. The dataset of ANUBIS is available at: http://hcc-workshop.anu.edu.au/webs/anu101/home.
翻訳日:2022-05-05 14:52:22 公開日:2022-05-04
# 多重画像インパインティングのための生成法の解析

An Analysis of Generative Methods for Multiple Image Inpainting ( http://arxiv.org/abs/2205.02146v1 )

ライセンス: Link先を確認
Coloma Ballester, Aurelie Bugeau, Samuel Hurault, Simone Parisotto, Patricia Vitoria(参考訳) イメージ・インペインティング(image inpainting)とは、オブザーバが検出できない方法で、欠落領域を持つイメージを復元することを指す。 塗装領域はどんな大きさでも形状でもよい。 これは、ユニークな解を持たない不測の逆問題である。 本研究では,損傷した画像に対して,複数の多彩な塗装を行うための学習に基づく画像補完手法に焦点をあてる。 これらの手法は、特定の生成モデルの確率的性質を利用して、欠落したコンテンツをコヒーレントに復元する様々な解をサンプリングする。 本章では、基礎となる理論を分析し、最近の複数のインパインティングの提案を分析する。 そこで,各手法の長所と短所を検討するために,共通データセットについて,塗装解の集合の品質と多様性について定量的・定性的に比較する。 我々の分析は、品質と多様性の両面において、最も成功した生成戦略を特定することができる。 この課題は、画像の正確な確率分布の学習と密接に関連している。 使用するデータセットによっては、これらのモデルのトレーニングを伴う課題は分析を通じて議論される。

Image inpainting refers to the restoration of an image with missing regions in a way that is not detectable by the observer. The inpainting regions can be of any size and shape. This is an ill-posed inverse problem that does not have a unique solution. In this work, we focus on learning-based image completion methods for multiple and diverse inpainting which goal is to provide a set of distinct solutions for a given damaged image. These methods capitalize on the probabilistic nature of certain generative models to sample various solutions that coherently restore the missing content. Along the chapter, we will analyze the underlying theory and analyze the recent proposals for multiple inpainting. To investigate the pros and cons of each method, we present quantitative and qualitative comparisons, on common datasets, regarding both the quality and the diversity of the set of inpainted solutions. Our analysis allows us to identify the most successful generative strategies in both inpainting quality and inpainting diversity. This task is closely related to the learning of an accurate probability distribution of images. Depending on the dataset in use, the challenges that entail the training of such a model will be discussed through the analysis.
翻訳日:2022-05-05 14:51:59 公開日:2022-05-04
# UnrealNAS: ニューラルネットワークを非現実データで検索できるか?

UnrealNAS: Can We Search Neural Architectures with Unreal Data? ( http://arxiv.org/abs/2205.02162v1 )

ライセンス: Link先を確認
Zhen Dong, Kaicheng Zhou, Guohao Li, Qiang Zhou, Mingfei Guo, Bernard Ghanem, Kurt Keutzer, and Shanghang Zhang(参考訳) ニューラルアーキテクチャサーチ(NAS)はディープニューラルネットワーク(DNN)の自動設計において大きな成功を収めている。 しかし、ネットワークアーキテクチャの検索にデータを使う最善の方法は、まだ不明であり、探索中である。 これまでの作業 [19, 46] は,NASに地道ラベルを持つことの必要性を分析し,幅広い関心を喚起した。 本研究では,NASが有効であるためには,実際のデータが必要であるかどうか,さらに議論する。 この質問に対する回答は、アクセス可能なデータ量が限られているアプリケーションにとって重要であり、データ生成の余分な柔軟性を活用することでNASを改善するのに役立つ。 nasが実際のデータを必要とするかどうかを調べるために、以下の3種類のunrealデータセットを構築します。 1) ランダムにラベルづけされた実画像 2) 生成された画像及びラベル 3)ランダムラベルを用いたガウス雑音の発生 これらのデータセットは、探索されたアーキテクチャの一般化と表現性を分析するのに役立つ。 本研究では,これらの構築したデータセットから検索したアーキテクチャの性能を,一般的な微分可能なNAS手法を用いて検討する。 CIFAR, ImageNet, CheXpert [12] の大規模な実験により, 検索したアーキテクチャは, 実際のラベル付きデータを用いた従来のNASパイプラインから得られたものと比較して, 有望な結果が得られることを示した。

Neural architecture search (NAS) has shown great success in the automatic design of deep neural networks (DNNs). However, the best way to use data to search network architectures is still unclear and under exploration. Previous work [19, 46] has analyzed the necessity of having ground-truth labels in NAS and inspired broad interest. In this work, we take a further step to question whether real data is necessary for NAS to be effective. The answer to this question is important for applications with limited amount of accessible data, and can help people improve NAS by leveraging the extra flexibility of data generation. To explore if NAS needs real data, we construct three types of unreal datasets using: 1) randomly labeled real images; 2) generated images and labels; and 3) generated Gaussian noise with random labels. These datasets facilitate to analyze the generalization and expressivity of the searched architectures. We study the performance of architectures searched on these constructed datasets using popular differentiable NAS methods. Extensive experiments on CIFAR, ImageNet and CheXpert [12] show that the searched architectures can achieve promising results compared with those derived from the conventional NAS pipeline with real labeled data, suggesting the feasibility of performing NAS with unreal data.
翻訳日:2022-05-05 14:51:43 公開日:2022-05-04
# 神経keyphrase抽出のための双曲的関連マッチング

Hyperbolic Relevance Matching for Neural Keyphrase Extraction ( http://arxiv.org/abs/2205.02047v1 )

ライセンス: Link先を確認
Mingyang Song, Yi Feng and Liping Jing(参考訳) キーフレーズ抽出は自然言語処理と情報検索の基本的な課題であり、ソース文書から重要な情報を持つフレーズの集合を抽出することを目的としている。 重要なキーフレーズを識別することは、キーフレーズ抽出タスクの中心的な構成要素であり、その主な課題は、情報を包括的に表現し、重要度を正確に判別する方法である。 本稿では,これらの問題に対処するために,同一の双曲空間におけるフレーズや文書を表現するための新しい双曲マッチングモデル(HyperMatch)を設計し,各フレーズの重要スコアとしてポアンカー距離を経由したフレーズ文書関連性を明示的に推定する。 具体的には、階層的な構文と意味構造情報をキャプチャするために、HyperMatchはRoBERTaの複数の層に隠された表現を活用し、適応混合層を介して単語埋め込みとして統合する。 一方、ドキュメントに隠された階層構造を考慮して、hypermatchは双曲句エンコーダと双曲文書エンコーダを介して、同じ双曲空間にフレーズとドキュメントの両方を埋め込む。 この戦略は双曲空間の良し悪しによる句文書の関連性の推定をさらに高めることができる。 この設定では、キーフレーズ抽出をマッチング問題とし、双曲マージンに基づく三重項損失を最小化することにより効果的に実現することができる。 6つのベンチマークで広範な実験が行われ、hypermatchが最先端のベースラインを上回ることを実証する。

Keyphrase extraction is a fundamental task in natural language processing and information retrieval that aims to extract a set of phrases with important information from a source document. Identifying important keyphrase is the central component of the keyphrase extraction task, and its main challenge is how to represent information comprehensively and discriminate importance accurately. In this paper, to address these issues, we design a new hyperbolic matching model (HyperMatch) to represent phrases and documents in the same hyperbolic space and explicitly estimate the phrase-document relevance via the Poincar\'e distance as the important score of each phrase. Specifically, to capture the hierarchical syntactic and semantic structure information, HyperMatch takes advantage of the hidden representations in multiple layers of RoBERTa and integrates them as the word embeddings via an adaptive mixing layer. Meanwhile, considering the hierarchical structure hidden in the document, HyperMatch embeds both phrases and documents in the same hyperbolic space via a hyperbolic phrase encoder and a hyperbolic document encoder. This strategy can further enhance the estimation of phrase-document relevance due to the good properties of hyperbolic space. In this setting, the keyphrase extraction can be taken as a matching problem and effectively implemented by minimizing a hyperbolic margin-based triplet loss. Extensive experiments are conducted on six benchmarks and demonstrate that HyperMatch outperforms the state-of-the-art baselines.
翻訳日:2022-05-05 14:49:53 公開日:2022-05-04
# 仮想エッジを用いて複雑なネットワークとしてモデル化されたテキストからキーワードを抽出する

Using virtual edges to extract keywords from texts modeled as complex networks ( http://arxiv.org/abs/2205.02172v1 )

ライセンス: Link先を確認
Jorge A. V. Tohalino and Thiago C. Silva and Diego R. Amancio(参考訳) テキスト中のキーワードを検出することは、多くのテキストマイニングアプリケーションにとって重要である。 グラフベースの手法はテキスト中の重要な概念を自動的に見つけるために一般的に用いられてきたが、埋め込みによって提供される関連情報はグラフ構造を強化するために広く使われていない。 ここでは,ノードが単語であり,エッジが文脈的あるいは意味的類似性によって確立されるテキスト共起ネットワークをモデル化する。 単語埋め込みによって生成されたエッジがキーワード抽出法の品質を向上させるかどうかを確認するために,Word2vecとBERTの2つの埋め込み手法を比較した。 実際、仮想エッジを使用することで、共起ネットワークの識別性が向上することがわかった。 仮想(埋め込み)エッジの追加率の低さを考慮すると,最高の性能が得られる。 構造的および動的ネットワークメトリクスの比較分析により、仮想エッジに富んだモデルにおける最高のパフォーマンスを示す指標として、PageRank、アクセシビリティが明らかになった。

Detecting keywords in texts is important for many text mining applications. Graph-based methods have been commonly used to automatically find the key concepts in texts, however, relevant information provided by embeddings has not been widely used to enrich the graph structure. Here we modeled texts co-occurrence networks, where nodes are words and edges are established either by contextual or semantical similarity. We compared two embedding approaches -- Word2vec and BERT -- to check whether edges created via word embeddings can improve the quality of the keyword extraction method. We found that, in fact, the use of virtual edges can improve the discriminability of co-occurrence networks. The best performance was obtained when we considered low percentages of addition of virtual (embedding) edges. A comparative analysis of structural and dynamical network metrics revealed the degree, PageRank, and accessibility are the metrics displaying the best performance in the model enriched with virtual edges.
翻訳日:2022-05-05 14:49:24 公開日:2022-05-04
# ベイズ近似を用いた歩行者将来の軌跡の不確実性推定

Uncertainty estimation of pedestrian future trajectory using Bayesian approximation ( http://arxiv.org/abs/2205.01887v1 )

ライセンス: Link先を確認
Anshul Nayak, Azim Eskandarian and Zachary Doerzaph(参考訳) 歩行者の軌跡予測に関する過去の研究は、主に将来の状態のポイント推定のみを提供する決定論的予測に焦点をあてた。 これらの将来の見積もりは、自動運転車が軌道を計画し衝突を避けるのに役立つ。 しかし、動的な交通シナリオでは、決定論的予測に基づく計画は信用できない。 むしろ、予測状態に関連する不確実性を一定の信頼度で推定することは、堅牢な経路計画につながる。 そこで本稿では,確率近似を用いて予測中の不確かさを定量化する手法を提案する。 現在の手法は単純で、ベイズ近似を標準的なニューラルネットワークアーキテクチャに応用して不確実性を推定する。 著者らは、確率的ニューラルネットワーク(nn)モデルと標準決定論的モデルとの予測を比較した。 その結果,確率モデルの平均予測経路は決定論的予測と比較すると基礎的真理に近いことがわかった。 さらに,重量の確率的減少と長期予測が将来の状態の不確実性に及ぼす影響について検討した。 その結果,確率モデルにより平均変位誤差 (ADE) や最終変位誤差 (FDE) などの性能指標が得られた。 最後に、研究は複数のデータセットに拡張され、各モデルに対する包括的な比較を提供する。

Past research on pedestrian trajectory forecasting mainly focused on deterministic predictions which provide only point estimates of future states. These future estimates can help an autonomous vehicle plan its trajectory and avoid collision. However, under dynamic traffic scenarios, planning based on deterministic predictions is not trustworthy. Rather, estimating the uncertainty associated with the predicted states with a certain level of confidence can lead to robust path planning. Hence, the authors propose to quantify this uncertainty during forecasting using stochastic approximation which deterministic approaches fail to capture. The current method is simple and applies Bayesian approximation during inference to standard neural network architectures for estimating uncertainty. The authors compared the predictions between the probabilistic neural network (NN) models with the standard deterministic models. The results indicate that the mean predicted path of probabilistic models was closer to the ground truth when compared with the deterministic prediction. Further, the effect of stochastic dropout of weights and long-term prediction on future state uncertainty has been studied. It was found that the probabilistic models produced better performance metrics like average displacement error (ADE) and final displacement error (FDE). Finally, the study has been extended to multiple datasets providing a comprehensive comparison for each model.
翻訳日:2022-05-05 14:49:08 公開日:2022-05-04
# (参考訳) 感情対抽出における位置バイアス低減のための多粒度意味認識グラフモデル

Multi-Granularity Semantic Aware Graph Model for Reducing Position Bias in Emotion-Cause Pair Extraction ( http://arxiv.org/abs/2205.02132v1 )

ライセンス: CC BY 4.0
Yinan Bao, Qianwen Ma, Lingwei Wei, Wei Zhou, Songlin Hu(参考訳) Emotion-Cause Pair extract (ECPE)タスクは、文書から感情や原因をペアとして抽出することを目的としている。 感情と原因の相対的な距離分布は、典型的なECPEデータセットでは極めて不均衡である。 既存のメソッドでは、隣接する節間の関係をキャプチャする固定サイズウィンドウが設定されている。 しかし、遠隔節間の効果的な意味関係を無視し、位置非感受性データに対する一般化能力が低下する。 この問題を緩和するために、距離制限を伴わずに細粒度および粗粒度の意味的特徴を結合する新規な \textbf{M}ulti-\textbf{G}ranularity \textbf{S}emantic \textbf{A}ware \textbf{G}raph model (MGSAG) を提案する。 特に,文中の節とキーワードのセマンティック依存関係について,より詳細な意味的特徴を伝達する文書から抽出し,拡張された句表現を得る。 さらに、節間の粗粒度意味関係をモデル化するための節グラフも確立されている。 実験の結果,MGSAGは既存のECPEモデルを上回ることがわかった。 特にMGSAGは、位置非感性データの状態において、他のモデルよりも著しく優れている。

The Emotion-Cause Pair Extraction (ECPE) task aims to extract emotions and causes as pairs from documents. We observe that the relative distance distribution of emotions and causes is extremely imbalanced in the typical ECPE dataset. Existing methods have set a fixed size window to capture relations between neighboring clauses. However, they neglect the effective semantic connections between distant clauses, leading to poor generalization ability towards position-insensitive data. To alleviate the problem, we propose a novel \textbf{M}ulti-\textbf{G}ranularity \textbf{S}emantic \textbf{A}ware \textbf{G}raph model (MGSAG) to incorporate fine-grained and coarse-grained semantic features jointly, without regard to distance limitation. In particular, we first explore semantic dependencies between clauses and keywords extracted from the document that convey fine-grained semantic features, obtaining keywords enhanced clause representations. Besides, a clause graph is also established to model coarse-grained semantic relations between clauses. Experimental results indicate that MGSAG surpasses the existing state-of-the-art ECPE models. Especially, MGSAG outperforms other models significantly in the condition of position-insensitive data.
翻訳日:2022-05-05 14:46:35 公開日:2022-05-04
# 勾配向上決定木とエンリッチメントに基づく累積ゲインによる複合仮想スクリーニング

Compound virtual screening by learning-to-rank with gradient boosting decision tree and enrichment-based cumulative gain ( http://arxiv.org/abs/2205.02169v1 )

ライセンス: Link先を確認
Kairi Furui, Masahito Ohue(参考訳) 近年,情報検索に広く用いられている機械学習技術であるLearning-to-rankが,リガンドベースの仮想スクリーニング問題に適用され,新薬開発の初期段階を加速している。 ランキング予測モデルは順序関係に基づいて学習し、様々な環境からのアッセイデータを統合するのに適している。 複合スクリーニングにおけるランク予測の既存の研究は、一般に RankSVM と呼ばれる学習とランクの手法を用いている。 しかし、最近普及したグラデーションブースティング決定木(gbdt)ベースの学習からランクへの手法と比較や検証はされていない。 さらに,情報検索において正規化カウント累積ゲイン(NDCG)と呼ばれるランキング指標が広く用いられているが,予測が他のモデルよりも優れているかどうかを判断するのみである。 言い換えれば、ndcgは予測モデルがランダムな結果よりも悪い結果を生み出すことを認識できない。 それでも、NDCGはラーニング・ツー・ランクを用いた複合スクリーニングの性能評価に使われている。 本研究では,リガンドベースの仮想スクリーニングにおいて,ランキング損失関数付きGBDTモデル(lambdarank and lambdaloss)を用い,既存の RankSVM 法とGBDT モデルとの比較を行った。 また、ランキング予測の良否を適切に評価することを目的とした、新しいランキング指標である正規化富化割引累積利得(nedcg)を提案した。 その結果,学習からランクまでのGBDTモデルは,多様なデータセット上でのGBDTとRandSVMを用いた既存の回帰手法よりも優れていた。 さらに、NEDCGは、回帰による予測はマルチアッセイ、マルチデータセットデータセットにおけるランダムな予測と同等であり、複合スクリーニング性能のより直接的な評価に有用であることを示した。

Learning-to-rank, a machine learning technique widely used in information retrieval, has recently been applied to the problem of ligand-based virtual screening, to accelerate the early stages of new drug development. Ranking prediction models learn based on ordinal relationships, making them suitable for integrating assay data from various environments. Existing studies of rank prediction in compound screening have generally used a learning-to-rank method called RankSVM. However, they have not been compared with or validated against the gradient boosting decision tree (GBDT)-based learning-to-rank methods that have gained popularity recently. Furthermore, although the ranking metric called Normalized Discounted Cumulative Gain (NDCG) is widely used in information retrieval, it only determines whether the predictions are better than those of other models. In other words, NDCG is incapable of recognizing when a prediction model produces worse than random results. Nevertheless, NDCG is still used in the performance evaluation of compound screening using learning-to-rank. This study used the GBDT model with ranking loss functions, called lambdarank and lambdaloss, for ligand-based virtual screening; results were compared with existing RankSVM methods and GBDT models using regression. We also proposed a new ranking metric, Normalized Enrichment Discounted Cumulative Gain (NEDCG), which aims to properly evaluate the goodness of ranking predictions. Results showed that the GBDT model with learning-to-rank outperformed existing regression methods using GBDT and RankSVM on diverse datasets. Moreover, NEDCG showed that predictions by regression were comparable to random predictions in multi-assay, multi-family datasets, demonstrating its usefulness for a more direct assessment of compound screening performance.
翻訳日:2022-05-05 14:31:30 公開日:2022-05-04
# ラベル推論を用いた統一意味型入力

Unified Semantic Typing with Meaningful Label Inference ( http://arxiv.org/abs/2205.01826v1 )

ライセンス: Link先を確認
James Y. Huang, Bangzheng Li, Jiashu Xu, Muhao Chen(参考訳) セマンティックタイピングは、トークンやテキストコンテキストにおける関心の幅を関係、エンティティタイプ、イベントタイプといったセマンティックなカテゴリに分類することを目的としている。 セマンティックカテゴリの推論ラベルは、機械がテキストの構成要素を理解する方法を意味的に解釈する。 本論文では,入力とラベルの両方を結合意味埋め込み空間に投影することで,ラベル意味をキャプチャする意味型付け統合フレームワークUniSTを提案する。 語彙的および関係的意味型付けタスクを統一されたタスクとして定式化するために、タスク記述を入力と共同で符号化し、タスク固有のモデルコンポーネントを導入することなく、UniSTを異なるタスクに適応させることができる。 UniSTは、入力とラベルの意味的関連性がそれらの埋め込み類似性から反映されるように、マージンランキングの損失を最適化する。 実験では,エンティティ型付け,関係分類,イベント型付けの3つの意味型付けタスクにおいて,unistが強いパフォーマンスを実現することを実証した。 一方、UniSTはラベルのセマンティックな知識を効果的に伝達し、ほとんど見えない型や見えない型を推測する際の一般化性を大幅に向上させる。 さらに、複数のセマンティックタイピングタスクを統一フレームワーク内で共同でトレーニングすることで、単一のコンパクトなマルチタスクモデルが、専用のシングルタスクモデルと相性が良くなり、転送性も向上する。

Semantic typing aims at classifying tokens or spans of interest in a textual context into semantic categories such as relations, entity types, and event types. The inferred labels of semantic categories meaningfully interpret how machines understand components of text. In this paper, we present UniST, a unified framework for semantic typing that captures label semantics by projecting both inputs and labels into a joint semantic embedding space. To formulate different lexical and relational semantic typing tasks as a unified task, we incorporate task descriptions to be jointly encoded with the input, allowing UniST to be adapted to different tasks without introducing task-specific model components. UniST optimizes a margin ranking loss such that the semantic relatedness of the input and labels is reflected from their embedding similarity. Our experiments demonstrate that UniST achieves strong performance across three semantic typing tasks: entity typing, relation classification and event typing. Meanwhile, UniST effectively transfers semantic knowledge of labels and substantially improves generalizability on inferring rarely seen and unseen types. In addition, multiple semantic typing tasks can be jointly trained within the unified framework, leading to a single compact multi-tasking model that performs comparably to dedicated single-task models, while offering even better transferability.
翻訳日:2022-05-05 14:30:45 公開日:2022-05-04
# 外来種子を用いた種子誘導トピックの発見

Seed-Guided Topic Discovery with Out-of-Vocabulary Seeds ( http://arxiv.org/abs/2205.01845v1 )

ライセンス: Link先を確認
Yu Zhang, Yu Meng, Xuan Wang, Sheng Wang, Jiawei Han(参考訳) テキストコーパスから潜在トピックを発見することは何十年も前から研究されてきた。 既存のトピックモデルの多くは、完全に教師なしの設定を採用しており、その発見されたトピックは、ユーザのガイダンスを活用できないため、ユーザの特定の関心を満たさない可能性がある。 ユーザが提供した種を主題表現用語として利用する種誘導話題発見アプローチは存在するが,(1)外来種の存在と,(2)事前学習言語モデル(plm)の力という2つの要因にはあまり関心が持たない。 本稿では,種子誘導話題発見の課題を一般化し,語彙外種子を許容する。 我々は,plmの一般的な知識と入力コーパスから学習した局所意味論が相互に利益をもたらす新たな枠組みであるseetopicを提案する。 異なるドメインからの3つの実際のデータセットの実験は、トピックコヒーレンス、精度、多様性の観点から、SeeeTopicの有効性を示す。

Discovering latent topics from text corpora has been studied for decades. Many existing topic models adopt a fully unsupervised setting, and their discovered topics may not cater to users' particular interests due to their inability of leveraging user guidance. Although there exist seed-guided topic discovery approaches that leverage user-provided seeds to discover topic-representative terms, they are less concerned with two factors: (1) the existence of out-of-vocabulary seeds and (2) the power of pre-trained language models (PLMs). In this paper, we generalize the task of seed-guided topic discovery to allow out-of-vocabulary seeds. We propose a novel framework, named SeeTopic, wherein the general knowledge of PLMs and the local semantics learned from the input corpus can mutually benefit each other. Experiments on three real datasets from different domains demonstrate the effectiveness of SeeTopic in terms of topic coherence, accuracy, and diversity.
翻訳日:2022-05-05 14:30:22 公開日:2022-05-04
# 非自己回帰型機械翻訳:見た目ほど高速ではない

Non-Autoregressive Machine Translation: It's Not as Fast as it Seems ( http://arxiv.org/abs/2205.01966v1 )

ライセンス: Link先を確認
Jind\v{r}ich Helcl, Barry Haddow, Alexandra Birch(参考訳) 効率的な機械翻訳モデルは、推論速度を増加させ、コストと二酸化炭素排出量を削減できるため、商業的に重要である。 近年、より高速な翻訳を約束する非自己回帰型(nar)モデルに多くの関心が寄せられている。 NARモデルの研究と並行して、効率的な翻訳に関するWMT共有タスクの一部として最適化された自己回帰モデルを作成する試みが成功した。 本稿では,NARモデルに関する文献における評価手法の欠陥を指摘するとともに,現状のNARモデルと共有タスクに対する自己回帰的提案とを公平に比較する。 我々は,NARモデルの一貫した評価を行うとともに,NARモデルと他の広く使われている手法との比較を重要視する。 我々はC++で実装されたコネクショニスト時間分類ベース(CTC)NARモデルを用いて実験を行い、壁時計時間を用いたARモデルと比較した。 以上の結果から,NARモデルはGPU上では高速であり,バッチサイズは小さいが,より現実的な使用条件下ではほとんど遅いことがわかった。 我々は,今後の作業において,より現実的で広範なNARモデルの評価を求める。

Efficient machine translation models are commercially important as they can increase inference speeds, and reduce costs and carbon emissions. Recently, there has been much interest in non-autoregressive (NAR) models, which promise faster translation. In parallel to the research on NAR models, there have been successful attempts to create optimized autoregressive models as part of the WMT shared task on efficient translation. In this paper, we point out flaws in the evaluation methodology present in the literature on NAR models and we provide a fair comparison between a state-of-the-art NAR model and the autoregressive submissions to the shared task. We make the case for consistent evaluation of NAR models, and also for the importance of comparing NAR models with other widely used methods for improving efficiency. We run experiments with a connectionist-temporal-classification-based (CTC) NAR model implemented in C++ and compare it with AR models using wall clock times. Our results show that, although NAR models are faster on GPUs, with small batch sizes, they are almost always slower under more realistic usage conditions. We call for more realistic and extensive evaluation of NAR models in future work.
翻訳日:2022-05-05 14:30:07 公開日:2022-05-04
# 同一ニューロン, 異なる言語:多言語事前訓練モデルにおけるモルフォシンタクスの探索

Same Neurons, Different Languages: Probing Morphosyntax in Multilingual Pre-trained Models ( http://arxiv.org/abs/2205.02023v1 )

ライセンス: Link先を確認
Karolina Sta\'nczak, Edoardo Ponti, Lucas Torroba Hennigen, Ryan Cotterell, Isabelle Augenstein(参考訳) 多言語事前訓練モデルの成功は、明示的な監督がなくても複数の言語で共有される表現を学習できる能力によって支えられている。 しかし、これらのモデルがどのように言語を一般化するかはまだ不明である。 本研究では,多言語事前学習モデルが文法に関する言語・普遍的抽象化を導出できると推測する。 特に,異なる言語におけるニューロンの同一サブセットに形態合成情報が符号化されているかを検討する。 43の言語と14の形態素合成カテゴリについて,最先端のニューロンレベルプローブを用いて,最初の大規模実験を行った。 以上の結果から, ニューロン間の言語間重複は重要であるが, その範囲はカテゴリーによって異なり, 言語近接や事前学習データサイズによって異なる可能性が示唆された。

The success of multilingual pre-trained models is underpinned by their ability to learn representations shared by multiple languages even in absence of any explicit supervision. However, it remains unclear how these models learn to generalise across languages. In this work, we conjecture that multilingual pre-trained models can derive language-universal abstractions about grammar. In particular, we investigate whether morphosyntactic information is encoded in the same subset of neurons in different languages. We conduct the first large-scale empirical study over 43 languages and 14 morphosyntactic categories with a state-of-the-art neuron-level probe. Our findings show that the cross-lingual overlap between neurons is significant, but its extent may vary across categories and depends on language proximity and pre-training data size.
翻訳日:2022-05-05 14:28:43 公開日:2022-05-04
# ファクチュアル整合性検査の改善を目的としたマスケード要約法

Masked Summarization to Generate Factually Inconsistent Summaries for Improved Factual Consistency Checking ( http://arxiv.org/abs/2205.02035v1 )

ライセンス: Link先を確認
Hwanhee Lee, Kang Min Yoo, Joonsuk Park, Hwaran Lee, Kyomin Jung(参考訳) 近年の抽象要約システムの進歩にもかかわらず、生成した要約が原文と事実的一致するかどうかを判断することは依然として困難である。 この目的のために、最新のアプローチでは、事実整合性分類器を、事実一貫性と一貫性のない要約に基づいてトレーニングする。 幸運なことに、前者は既存の要約データセットの参照要約として簡単に利用できる。 しかし、ソーステキストが効果的であるためには、実際に一貫性がなく、かつ密接に関連している必要があるため、後者の生成は依然として課題である。 本稿では,ソーステキストと参照要約を用いて,キー情報をマスクした事実的一貫性のない要約を生成することを提案する。 7つのベンチマークデータセットを用いた実験により,本手法を用いて生成した要約に基づいて訓練した事実整合性分類器が既存モデルより優れ,人間の判断と競合する相関性を示すことがわかった。 また,本手法を用いて生成した要約の特徴も分析した。 トレーニング済みのモデルとコードをhttps://github.com/hwanheelee 1993/mfmaでリリースします。

Despite the recent advances in abstractive summarization systems, it is still difficult to determine whether a generated summary is factual consistent with the source text. To this end, the latest approach is to train a factual consistency classifier on factually consistent and inconsistent summaries. Luckily, the former is readily available as reference summaries in existing summarization datasets. However, generating the latter remains a challenge, as they need to be factually inconsistent, yet closely relevant to the source text to be effective. In this paper, we propose to generate factually inconsistent summaries using source texts and reference summaries with key information masked. Experiments on seven benchmark datasets demonstrate that factual consistency classifiers trained on summaries generated using our method generally outperform existing models and show a competitive correlation with human judgments. We also analyze the characteristics of the summaries generated using our method. We will release the pre-trained model and the code at https://github.com/hwanheelee1993/MFMA.
翻訳日:2022-05-05 14:28:28 公開日:2022-05-04
# コンポーネントアライメントによるテキストからSQLへの合成一般化の測定と改善

Measuring and Improving Compositional Generalization in Text-to-SQL via Component Alignment ( http://arxiv.org/abs/2205.02054v1 )

ライセンス: Link先を確認
Yujian Gan, Xinyun Chen, Qiuping Huang, Matthew Purver(参考訳) NLPの大部分がそうであるように、テキストからSQLへのタスクでは、構成的一般化は大きな課題である。 しかし、これを改善するための最近の試みは、単語レベルの合成データまたは特定のデータセット分割に基づいて構成バイアスを生成する。 本稿では,節レベルの構成例生成手法を提案する。 私たちはまず、SpiderのテキストからSQLへのデータセットの文をサブ文に分割し、それぞれのサブ文に対応するSQL節を注釈付けし、新しいデータセットのSpider-SSを作成しました。 次に、異なる組み合わせでSpider-SSサブ文を構成することで、さらに多くのデータセット、Spider-CGを構築し、構成を一般化するモデルの能力をテストする。 実験の結果、既存のモデルでは訓練中に全てのサブ文が見られたとしても、スパイダーCGで評価すると性能が著しく低下することがわかった。 この問題に対処するため,Spider-SSのセグメント化データをトレーニングするために,多数の最先端モデルを修正し,本手法により一般化性能が向上することを示す。

In text-to-SQL tasks -- as in much of NLP -- compositional generalization is a major challenge: neural networks struggle with compositional generalization where training and test distributions differ. However, most recent attempts to improve this are based on word-level synthetic data or specific dataset splits to generate compositional biases. In this work, we propose a clause-level compositional example generation method. We first split the sentences in the Spider text-to-SQL dataset into sub-sentences, annotating each sub-sentence with its corresponding SQL clause, resulting in a new dataset Spider-SS. We then construct a further dataset, Spider-CG, by composing Spider-SS sub-sentences in different combinations, to test the ability of models to generalize compositionally. Experiments show that existing models suffer significant performance degradation when evaluated on Spider-CG, even though every sub-sentence is seen during training. To deal with this problem, we modify a number of state-of-the-art models to train on the segmented data of Spider-SS, and we show that this method improves the generalization performance.
翻訳日:2022-05-05 14:28:11 公開日:2022-05-04
# 研究コミュニティを超えた再現性:NLPベギンナの経験

Reproducibility Beyond the Research Community: Experience from NLP Beginners ( http://arxiv.org/abs/2205.02182v1 )

ライセンス: Link先を確認
Shane Storks, Keunwoo Peter Yu, Joyce Chai(参考訳) NLP研究が大衆の注目と興奮を惹きつけるにつれ、幅広い聴衆にアクセスできることがますます重要になっている。 研究コミュニティがNLPの民主化に取り組んでいるため、この分野の初心者が最新の開発を容易に適用できるかどうかは不明だ。 本研究は,最近のNLP論文の成果を再現した入門NLPコースにおいて,93名の学生を対象に調査を行った。 意外なことに、我々の結果は、彼らの技術スキル(つまりプログラミングの経験)が、演習の完了に費やした労力に限られた影響を与えていることを示唆している。 その代わり、詳細なドキュメンテーションや必要なモデルやデータセットへの容易なアクセスなど、研究者によるアクセシビリティの取り組みが成功への鍵であることが分かっています。

As NLP research attracts public attention and excitement, it becomes increasingly important for it to be accessible to a broad audience. As the research community works to democratize NLP, it remains unclear whether beginners to the field can easily apply the latest developments. To understand their needs, we conducted a study with 93 students in an introductory NLP course, where students reproduced results of recent NLP papers. Surprisingly, our results suggest that their technical skill (i.e., programming experience) has limited impact on their effort spent completing the exercise. Instead, we find accessibility efforts by research authors to be key to a successful experience, including thorough documentation and easy access to required models and datasets.
翻訳日:2022-05-05 14:27:51 公開日:2022-05-04
# ユーザ中心のジェンダー書き換え

User-Centric Gender Rewriting ( http://arxiv.org/abs/2205.02211v1 )

ライセンス: Link先を確認
Bashar Alhafni, Nizar Habash, Houda Bouamor(参考訳) 本稿では,2人のユーザ(Iと/またはYou)が関係する文脈において,ジェンダーの書き直しを行うタスクを定義する。 アラビア語は形態学的に豊かな言語である。 ルールベースとニューラルリライトモデルの両方の肯定的な側面を組み合わせたマルチステップシステムを開発した。 本研究は,アラビア語のジェンダー書き直し用コーパスを用いて,ブラインドテストセットで88.42 M2 F0.5を達成した。 提案手法は,M2 F0.5の絶対的な増加率を3.05倍に向上させる。 本システムでは,市販mtシステムの出力を後編集し,ユーザの文法的性別嗜好に基づくパーソナライズアウトプットを提供することで,性別書き換えシステムのユースケースを実証する。 コード、データ、モデルを公開しています。

In this paper, we define the task of gender rewriting in contexts involving two users (I and/or You) - first and second grammatical persons with independent grammatical gender preferences. We focus on Arabic, a gender-marking morphologically rich language. We develop a multi-step system that combines the positive aspects of both rule-based and neural rewriting models. Our results successfully demonstrate the viability of this approach on a recently created corpus for Arabic gender rewriting, achieving 88.42 M2 F0.5 on a blind test set. Our proposed system improves over previous work on the first-person-only version of this task, by 3.05 absolute increase in M2 F0.5. We demonstrate a use case of our gender rewriting system by using it to post-edit the output of a commercial MT system to provide personalized outputs based on the users' grammatical gender preferences. We make our code, data, and models publicly available.
翻訳日:2022-05-05 14:27:38 公開日:2022-05-04
# UCL-Dehaze: 教師なしコントラスト学習による実世界のイメージデハジングを目指して

UCL-Dehaze: Towards Real-world Image Dehazing via Unsupervised Contrastive Learning ( http://arxiv.org/abs/2205.01871v1 )

ライセンス: Link先を確認
Yongzhen Wang, Xuefeng Yan, Fu Lee Wang, Haoran Xie, Wenhan Yang, Mingqiang Wei, Jing Qin(参考訳) 合成ヘイジーデータ上で画像デヘイジングモデルをトレーニングする知恵は、実世界のヘイジング/クリーン画像ペアの収集の難しさを緩和する一方で、よく知られたドメインシフト問題をもたらす。 異なる視点から,本論文では,非対向的学習を用いて,非対向的な現実のハズとクリーンなイメージを活用することで,合成と現実のハズとのギャップを埋めることを避けた。 UCL-Dehazeと呼ばれる画像復調のための効果的な教師なしコントラスト学習パラダイムを提案する。 unpaired real-world cleanとhazyのイメージは簡単にキャプチャでき、 ucl-dehazeネットワークをトレーニングする際には、それぞれ重要なポジティブなサンプルとネガティブなサンプルとして機能します。 ネットワークをより効果的に訓練するために,新たな自己コントラスト型知覚損失関数を定式化し,復元された画像が正のサンプルに近づき,埋め込み空間の負のサンプルに近づかないようにする。 UCL-Dehazeの全体的なネットワークアーキテクチャに加えて、正のサンプルとデハズされた画像の分布を整列するために、逆トレーニングが使用される。 最近の画像デハジング作業と比較すると、ucl-デハジングはトレーニング中にペアデータを必要としないため、非ペア正負のデータを使用してデハジング性能を向上させる。 ネットワークのトレーニングには1,800枚の無対訳実世界画像しか使われていないが,本研究はucl-dehazeの評価と最先端技術に対するその優位性を示すため,総合的な実験を実施している。 ソースコードはhttps://github.com/yz-wang/ucl-dehazeで入手できる。

While the wisdom of training an image dehazing model on synthetic hazy data can alleviate the difficulty of collecting real-world hazy/clean image pairs, it brings the well-known domain shift problem. From a different yet new perspective, this paper explores contrastive learning with an adversarial training effort to leverage unpaired real-world hazy and clean images, thus bridging the gap between synthetic and real-world haze is avoided. We propose an effective unsupervised contrastive learning paradigm for image dehazing, dubbed UCL-Dehaze. Unpaired real-world clean and hazy images are easily captured, and will serve as the important positive and negative samples respectively when training our UCL-Dehaze network. To train the network more effectively, we formulate a new self-contrastive perceptual loss function, which encourages the restored images to approach the positive samples and keep away from the negative samples in the embedding space. Besides the overall network architecture of UCL-Dehaze, adversarial training is utilized to align the distributions between the positive samples and the dehazed images. Compared with recent image dehazing works, UCL-Dehaze does not require paired data during training and utilizes unpaired positive/negative data to better enhance the dehazing performance. We conduct comprehensive experiments to evaluate our UCL-Dehaze and demonstrate its superiority over the state-of-the-arts, even only 1,800 unpaired real-world images are used to train our network. Source code has been available at https://github.com/yz-wang/UCL-Dehaze.
翻訳日:2022-05-05 14:25:24 公開日:2022-05-04
# 合成データを用いた階層型幼児ポーズ認識のための教師なしドメイン適応学習

Unsupervised Domain Adaptation Learning for Hierarchical Infant Pose Recognition with Synthetic Data ( http://arxiv.org/abs/2205.01892v1 )

ライセンス: Link先を確認
Cheng-Yen Yang, Zhongyu Jiang, Shih-Yu Gu, Jenq-Neng Hwang, Jang-Hee Yoo(参考訳) アルバータ・インファント・モーター・スケール(Alberta Infant Motor Scale, AIMS)は、乳児の運動発達を、特定のポーズの数を記録することで評価する、よく知られた評価手法である。 画像に基づくポーズ認識モデルの支援により、目的評価手順を短縮し、自動化し、早期診断や潜在的な発達障害の指標を提供する。 パブリックな幼児関連データセットが限られているため、多くの研究はSMILベースの方法で幼児の合成画像を生成する。 しかし、実際のトレーニングサンプルと合成トレーニングサンプルのこのドメインミスマッチは、しばしば推論時に性能劣化を引き起こす。 本稿では,乳幼児のイメージを入力とし,粗いポーズラベルと細粒度のポーズラベルを予測できるcnnモデルを提案する。 このモデルは画像分岐とポーズ分岐から成り、教師なし領域適応によって促進される粗いレベルのロジットと、SMPLify最適化を備えたHRNetを用いた3Dキーポイントを生成する。 その後、これらのブランチの出力は階層的なポーズ認識モジュールに送られ、詳細なポーズラベルを推定する。 750のリアルと4000の合成幼児画像とAIMSポーズラベルを含む新しいAIMSデータセットの収集とラベル付けも行います。 実験の結果,提案手法は合成データと実世界のデータセットの分布を著しく調整でき,細粒度乳幼児のポーズ認識における精度が向上した。

The Alberta Infant Motor Scale (AIMS) is a well-known assessment scheme that evaluates the gross motor development of infants by recording the number of specific poses achieved. With the aid of the image-based pose recognition model, the AIMS evaluation procedure can be shortened and automated, providing early diagnosis or indicator of potential developmental disorder. Due to limited public infant-related datasets, many works use the SMIL-based method to generate synthetic infant images for training. However, this domain mismatch between real and synthetic training samples often leads to performance degradation during inference. In this paper, we present a CNN-based model which takes any infant image as input and predicts the coarse and fine-level pose labels. The model consists of an image branch and a pose branch, which respectively generates the coarse-level logits facilitated by the unsupervised domain adaptation and the 3D keypoints using the HRNet with SMPLify optimization. Then the outputs of these branches will be sent into the hierarchical pose recognition module to estimate the fine-level pose labels. We also collect and label a new AIMS dataset, which contains 750 real and 4000 synthetic infants images with AIMS pose labels. Our experimental results show that the proposed method can significantly align the distribution of synthetic and real-world datasets, thus achieving accurate performance on fine-grained infant pose recognition.
翻訳日:2022-05-05 14:24:54 公開日:2022-05-04
# シーンクラスタリングに基づくマルチモーダル航空ビューオブジェクト分類のための擬似ラベル戦略

Scene Clustering Based Pseudo-labeling Strategy for Multi-modal Aerial View Object Classification ( http://arxiv.org/abs/2205.01920v1 )

ライセンス: Link先を確認
Jun Yu, Hao Chang, Keda Lu, Liwen Zhang, Shenshen Du(参考訳) 自動目標認識(ATR)におけるMAVOC(Multi-modal air view object classification)は,重要かつ困難な問題であるが,研究が進められている。 本稿では,まず,細粒度データ,クラス不均衡,種々の撮影条件が一般画像分類の表現能力を妨げることを見出した。 さらに,MAVOCデータセットはシーン集約特性を有する。 そこで本研究では,これらの特徴を生かして,シーンクラスタリングに基づく擬似ラベル戦略(scp-label)を提案する。 SCP-Labelは、同じラベルを同じシーン内のオブジェクトに割り当てると同時に、バイアスを軽減し、モデルのアンサンブルと混同する。 その性能は、トラック1(SAR)で+20.57%の精度、トラック2(SAR+EO)で+31.86%の精度で公式ベースラインを超え、後処理としてのSCP-Labelの可能性を示している。 最後に,CVPR 2022 Perception Beyond the Visible Spectrum (PBVS) Workshop MAVOC Challengeでトラック1とトラック2で優勝した。 私たちのコードはhttps://github.com/HowieChangchn/SCP-Label.comで利用可能です。

Multi-modal aerial view object classification (MAVOC) in Automatic target recognition (ATR), although an important and challenging problem, has been under studied. This paper firstly finds that fine-grained data, class imbalance and various shooting conditions preclude the representational ability of general image classification. Moreover, the MAVOC dataset has scene aggregation characteristics. By exploiting these properties, we propose Scene Clustering Based Pseudo-labeling Strategy (SCP-Label), a simple yet effective method to employ in post-processing. The SCP-Label brings greater accuracy by assigning the same label to objects within the same scene while also mitigating bias and confusion with model ensembles. Its performance surpasses the official baseline by a large margin of +20.57% Accuracy on Track 1 (SAR), and +31.86% Accuracy on Track 2 (SAR+EO), demonstrating the potential of SCP-Label as post-processing. Finally, we win the championship both on Track1 and Track2 in the CVPR 2022 Perception Beyond the Visible Spectrum (PBVS) Workshop MAVOC Challenge. Our code is available at https://github.com/HowieChangchn/SCP-Label.
翻訳日:2022-05-05 14:24:31 公開日:2022-05-04
# 場面認識のための意識に基づく知識蒸留におけるDCT駆動損失の影響

Impact of a DCT-driven Loss in Attention-based Knowledge-Distillation for Scene Recognition ( http://arxiv.org/abs/2205.01997v1 )

ライセンス: Link先を確認
Alejandro L\'opez-Cifuentes, Marcos Escudero-Vi\~nolo, Jes\'us Besc\'os and Juan C. SanMiguel(参考訳) KD(Knowledge Distillation)は、畳み込みニューラルネットワークの効率を改善するために、伝達可能性ギャングの集合を定義するための戦略である。 機能ベースの知識蒸留(英: feature-based knowledge distillation)はkdのサブフィールドであり、ソース・ナレッジ(source knowledge)として最大活性化マップ(英語版)を介して不変または深さに縮小された中間ネットワーク表現に依存する。 本稿では,アクティベーションマップの2次元周波数変換を転送する前に利用することを提案し,解析する。 画素推定ではなくグローバルイメージキューを用いて,この戦略は,複数の概念と異なる概念の強い空間的・文脈的関係によって定義されたシーン認識などのタスクにおける知識伝達可能性を高める。 提案手法を検証するために,シーン認識における最先端の広範な評価を行う。 実験の結果,提案手法により,教師ネットワークが学習する関連画像領域に,学生ネットワークがより焦点を合わせることが可能となり,記述的特徴が向上し,他の最先端の代替品よりも高い転送性能が得られるという強い証拠が得られた。 本稿で使用するトレーニングおよび評価フレームワークをhttp://www-vpu.eps.uam.es/publications/dctbasedkdforscenerecognitionで公開します。

Knowledge Distillation (KD) is a strategy for the definition of a set of transferability gangways to improve the efficiency of Convolutional Neural Networks. Feature-based Knowledge Distillation is a subfield of KD that relies on intermediate network representations, either unaltered or depth-reduced via maximum activation maps, as the source knowledge. In this paper, we propose and analyse the use of a 2D frequency transform of the activation maps before transferring them. We pose that\textemdash by using global image cues rather than pixel estimates, this strategy enhances knowledge transferability in tasks such as scene recognition, defined by strong spatial and contextual relationships between multiple and varied concepts. To validate the proposed method, an extensive evaluation of the state-of-the-art in scene recognition is presented. Experimental results provide strong evidences that the proposed strategy enables the student network to better focus on the relevant image areas learnt by the teacher network, hence leading to better descriptive features and higher transferred performance than every other state-of-the-art alternative. We publicly release the training and evaluation framework used along this paper at http://www-vpu.eps.uam.es/publications/DCTBasedKDForSceneRecognition.
翻訳日:2022-05-05 14:24:08 公開日:2022-05-04
# TransRank: ランク付けに基づく変換認識による自己教師型ビデオ表現学習

TransRank: Self-supervised Video Representation Learning via Ranking-based Transformation Recognition ( http://arxiv.org/abs/2205.02028v1 )

ライセンス: Link先を確認
Haodong Duan, Nanxuan Zhao, Kai Chen, Dahua Lin(参考訳) ビデオクリップ(RecogTrans)に適用される変換のタイプを認識することは,近年のインスタンス識別手法(InstDisc)と比較して非常に劣る,自己教師付きビデオ表現学習の長年のパラダイムである。 しかし,RecogTrans と InstDisc の手法を徹底的に比較した結果,RecogTrans が意味的および時間的の両方の下流タスクにおいて持つ大きな可能性について考察した。 ハードラベル分類に基づいて、既存のrecogtransアプローチはトレーニング前のノイズの多い監視信号に苦しむ。 この問題を軽減するために,ランキング定式化における変換認識のための統一フレームワークであるtransrankを開発した。 TransRankは変換を相対的に認識することで正確な監視信号を提供する。 一方、統一されたフレームワークは任意の時間的または空間的変換の集合でインスタンス化でき、良い一般性を示している。 ランキングに基づく定式化といくつかの経験的実践により,ビデオ検索と行動認識の競争性能が向上する。 同じ条件下で、TransRankは従来の最先端手法を6.4%、HMDB51では8.3%、UCF101では20.4%(R@1)に上回っている。 有望な結果は、RecogTransがビデオの自己教師型学習のパラダイムであることを示すものだ。 コードはhttps://github.com/kennymckormick/transrankでリリースされる。

Recognizing transformation types applied to a video clip (RecogTrans) is a long-established paradigm for self-supervised video representation learning, which achieves much inferior performance compared to instance discrimination approaches (InstDisc) in recent works. However, based on a thorough comparison of representative RecogTrans and InstDisc methods, we observe the great potential of RecogTrans on both semantic-related and temporal-related downstream tasks. Based on hard-label classification, existing RecogTrans approaches suffer from noisy supervision signals in pre-training. To mitigate this problem, we developed TransRank, a unified framework for recognizing Transformations in a Ranking formulation. TransRank provides accurate supervision signals by recognizing transformations relatively, consistently outperforming the classification-based formulation. Meanwhile, the unified framework can be instantiated with an arbitrary set of temporal or spatial transformations, demonstrating good generality. With a ranking-based formulation and several empirical practices, we achieve competitive performance on video retrieval and action recognition. Under the same setting, TransRank surpasses the previous state-of-the-art method by 6.4% on UCF101 and 8.3% on HMDB51 for action recognition (Top1 Acc); improves video retrieval on UCF101 by 20.4% (R@1). The promising results validate that RecogTrans is still a worth exploring paradigm for video self-supervised learning. Codes will be released at https://github.com/kennymckormick/TransRank.
翻訳日:2022-05-05 14:23:46 公開日:2022-05-04
# (参考訳) CTSARS-CoV-2セグメンテーションモデルを用いた3次元符号化の伝達性評価

Evaluating Transferability for Covid 3D Localization Using CT SARS-CoV-2 segmentation models ( http://arxiv.org/abs/2205.02152v1 )

ライセンス: CC BY 4.0
Constantine Maganaris, Eftychios Protopapadakis, Nikolaos Bakalos, Nikolaos Doulamis, Dimitris Kalogeras and Aikaterini Angeli(参考訳) 近年の研究では、CTスキャンにおける放射線画像パターンの検出は、新型コロナウイルスの局所化に高い感度と特異性をもたらすことが示されている。 本稿では,ct画像における肺炎感染領域の意味セグメンテーションのための,深層学習モデルの転送可能性について検討する。 トランスファー学習は、大量のトレーニングが利用できないため、検出モデルの迅速な初期化と再利用を可能にする。 本研究は,特定のCTデータセットを用いて,トレーニング済みのU-Netアーキテクチャを用いて,異なるデータセットの画像に対するCovid-19副作用を特定することの有効性を検討する。 実験結果から、新型コロナウイルス感染地域を特定するためのセグメンテーション精度の改善が示唆された。

Recent studies indicate that detecting radiographic patterns on CT scans can yield high sensitivity and specificity for COVID-19 localization. In this paper, we investigate the appropriateness of deep learning models transferability, for semantic segmentation of pneumonia-infected areas in CT images. Transfer learning allows for the fast initialization/ reutilization of detection models, given that large volumes of training are not available. Our work explores the efficacy of using pre-trained U-Net architectures, on a specific CT data set, for identifying Covid-19 side-effects over images from different datasets. Experimental results indicate improvement in the segmentation accuracy of identifying COVID-19 infected regions.
翻訳日:2022-05-05 14:22:22 公開日:2022-05-04
# 関係マッチングによる一般知識蒸留

Generalized Knowledge Distillation via Relationship Matching ( http://arxiv.org/abs/2205.01915v1 )

ライセンス: Link先を確認
Han-Jia Ye, Su Lu, De-Chuan Zhan(参考訳) よく訓練されたディープニューラルネットワーク(すなわち「教師」)の知識は、同様のタスクを学ぶのに有用である。 知識蒸留は教師から知識を抽出し、対象モデル(すなわち「学生」)と統合し、生徒の知識を拡大し、学習効果を向上させる。 この「一般知識蒸留(Generalized Knowledge Distillation, GKD)」では、教師と生徒のクラスは同じ、全く異なる、あるいは部分的に重複しているかもしれない。 我々は,各タスク間のスレッディングの知識として,インスタンス間の比較能力が重要であると主張し,組込みとトップ層分類器のGKDフローを分離するRelationship FacIlitated Local cLassifiEr Distillation (REFILLED)アプローチを提案する。 特に、モデル間のインスタンス-ラベルの信頼性の調整とは違い、REFILLEDでは、教師は生徒が推進するハードタプルを再重み付けし、インスタンス間の類似性比較レベルと一致させる必要がある。 教師モデルに基づく埋め込み型分類器は、生徒の分類信頼度を監督し、教師の最も関連する監督を適応的に強調する。 REFILLEDは、教師のクラスが同じから完全にオーバーラップされていないセットに変化するとき、生徒の強い差別能力を示す。 また、標準的な知識蒸留、ワンステップインクリメンタルラーニング、わずかな学習タスクで最先端のパフォーマンスを実現している。

The knowledge of a well-trained deep neural network (a.k.a. the "teacher") is valuable for learning similar tasks. Knowledge distillation extracts knowledge from the teacher and integrates it with the target model (a.k.a. the "student"), which expands the student's knowledge and improves its learning efficacy. Instead of enforcing the teacher to work on the same task as the student, we borrow the knowledge from a teacher trained from a general label space -- in this "Generalized Knowledge Distillation (GKD)", the classes of the teacher and the student may be the same, completely different, or partially overlapped. We claim that the comparison ability between instances acts as an essential factor threading knowledge across tasks, and propose the RElationship FacIlitated Local cLassifiEr Distillation (REFILLED) approach, which decouples the GKD flow of the embedding and the top-layer classifier. In particular, different from reconciling the instance-label confidence between models, REFILLED requires the teacher to reweight the hard tuples pushed forward by the student and then matches the similarity comparison levels between instances. An embedding-induced classifier based on the teacher model supervises the student's classification confidence and adaptively emphasizes the most related supervision from the teacher. REFILLED demonstrates strong discriminative ability when the classes of the teacher vary from the same to a fully non-overlapped set w.r.t. the student. It also achieves state-of-the-art performance on standard knowledge distillation, one-step incremental learning, and few-shot learning tasks.
翻訳日:2022-05-05 14:09:25 公開日:2022-05-04
# 漁業データと海底温度予測の併用による魚類位置の予測

Prediction of fish location by combining fisheries data and sea bottom temperature forecasting ( http://arxiv.org/abs/2205.02107v1 )

ライセンス: Link先を確認
Matthieu Ospici, Klaas Sys, Sophie Guegan-Marat(参考訳) 本論文は,北海のベルギー漁業で一般的に漁獲される2種 (plaiceとsole) の時空間的存在を予測するために,水産依存データと環境データを組み合わせて機械学習パイプラインで使用する。 漁業関連特徴と環境データとを組み合わせることで、リモートセンシングによる海底温度を高い精度で得ることができる。 予測設定では、過去の温度測定に頼るのではなく、繰り返しの深層ニューラルネットワークを用いて海底温度を最大4日前まで予測することにより予測精度をさらに向上する。

This paper combines fisheries dependent data and environmental data to be used in a machine learning pipeline to predict the spatio-temporal abundance of two species (plaice and sole) commonly caught by the Belgian fishery in the North Sea. By combining fisheries related features with environmental data, sea bottom temperature derived from remote sensing, a higher accuracy can be achieved. In a forecast setting, the predictive accuracy is further improved by predicting, using a recurrent deep neural network, the sea bottom temperature up to four days in advance instead of relying on the last previous temperature measurement.
翻訳日:2022-05-05 14:08:56 公開日:2022-05-04
# Domino Saliency Metrics: 構造情報による既存のチャンネルのSaliency Metricsの改善

Domino Saliency Metrics: Improving Existing Channel Saliency Metrics with Structural Information ( http://arxiv.org/abs/2205.02131v1 )

ライセンス: Link先を確認
Kaveena Persand, Andrew Anderson, David Gregg(参考訳) チャネルプルーニングは、畳み込みニューラルネットワーク(CNN)の重量を減らすために用いられる。 チャネルプルーニングは、重みテンソルのスライスを除去し、畳み込み層が密度を保ち続ける。 これらの重みを1つの層から取り除くと、ネットワークの層間でのフィーチャマップのミスマッチ数が生じる。 単純な解決策は、後続のレイヤからウェイトスライスを取り除くことで、レイヤ間のフィーチャーマップの数を一致させることである。 この追加の制約は、ネットワークを高密度に保つために複数のチャネルをプルーピングする必要がある分岐を持つdnnでより顕著になる。 一般的なプルーニングサリエンシメトリクスは、ブランチを持つDNNで発生する構造的依存関係に影響を及ぼさない。 このような構造的制約を反映したDominoメトリック(既存のチャネルサリエンシメトリクスに基づく)を提案する。 ブランチを持つ複数のネットワーク上で、ベースラインチャネルサリエンシメトリクスに対して、ドミノサリエンシメトリクスをテストします。 Domino saliencyのメトリクスは、ほとんどのテストネットワークでプルーニング率を改善し、CIFAR-10でAlexNetで25%まで改善した。

Channel pruning is used to reduce the number of weights in a Convolutional Neural Network (CNN). Channel pruning removes slices of the weight tensor so that the convolution layer remains dense. The removal of these weight slices from a single layer causes mismatching number of feature maps between layers of the network. A simple solution is to force the number of feature map between layers to match through the removal of weight slices from subsequent layers. This additional constraint becomes more apparent in DNNs with branches where multiple channels need to be pruned together to keep the network dense. Popular pruning saliency metrics do not factor in the structural dependencies that arise in DNNs with branches. We propose Domino metrics (built on existing channel saliency metrics) to reflect these structural constraints. We test Domino saliency metrics against the baseline channel saliency metrics on multiple networks with branches. Domino saliency metrics improved pruning rates in most tested networks and up to 25% in AlexNet on CIFAR-10.
翻訳日:2022-05-05 14:08:47 公開日:2022-05-04
# fairlib: 分類公平性の評価と改善のための統一フレームワーク

fairlib: A Unified Framework for Assessing and Improving Classification Fairness ( http://arxiv.org/abs/2205.01876v1 )

ライセンス: Link先を確認
Xudong Han, Aili Shen, Yitong Li, Lea Frermann, Timothy Baldwin, Trevor Cohn(参考訳) 本稿では,分類公正性を評価・改善するためのオープンソースフレームワークである Fairlib を提案する。 既存のベースラインモデルを迅速に再現し、新しいメソッドを開発し、異なるメトリクスでモデルを評価し、結果を視覚化するための体系的なフレームワークを提供する。 そのモジュラリティと拡張性により、自然言語、画像、音声など、さまざまな入力タイプにフレームワークを使用することができる。 具体的には,プリプロセッシング,アトトレーニング時間,ポストプロセッシング手法を含む14のデバイアス手法を実装した。 組み込まれたメトリクスは最も一般的に使用されるフェアネス基準をカバーし、フェアネス評価をより一般化しカスタマイズすることができる。

This paper presents fairlib, an open-source framework for assessing and improving classification fairness. It provides a systematic framework for quickly reproducing existing baseline models, developing new methods, evaluating models with different metrics, and visualizing their results. Its modularity and extensibility enable the framework to be used for diverse types of inputs, including natural language, images, and audio. In detail, we implement 14 debiasing methods, including pre-processing, at-training-time, and post-processing approaches. The built-in metrics cover the most commonly used fairness criterion and can be further generalized and customized for fairness evaluation.
翻訳日:2022-05-05 14:05:59 公開日:2022-05-04
# イザベル・エニグマは

The Isabelle ENIGMA ( http://arxiv.org/abs/2205.01981v1 )

ライセンス: Link先を確認
Zarathustra A. Goertzel, Jan Jakub\r{u}v, Cezary Kaliszyk, Miroslav Ol\v{s}\'ak, Jelle Piepenbrock, Josef Urban(参考訳) 我々は、Isabelle Sledgehammer問題におけるE自動定理証明器の性能を、学習と定理証明を組み合わせることで改善する。 特に、イザベル問題に対するenigmaガイダンスのターゲットバージョン、ニューラルネットワークの前提選択のターゲットバージョン、e.isabelleから抽出された数十万の非型および型付き1次問題に対して、いくつかのイテレーションでトレーニングされた方法のターゲット戦略を開発しました。 我々の最後の最高のシングルストラテジーENIGMAと前提選択システムは、15秒でEのベストバージョンを25.3%改善し、他のATPやSMTシステムよりも優れています。

We significantly improve the performance of the E automated theorem prover on the Isabelle Sledgehammer problems by combining learning and theorem proving in several ways. In particular, we develop targeted versions of the ENIGMA guidance for the Isabelle problems, targeted versions of neural premise selection, and targeted strategies for E. The methods are trained in several iterations over hundreds of thousands untyped and typed first-order problems extracted from Isabelle. Our final best single-strategy ENIGMA and premise selection system improves the best previous version of E by 25.3% in 15 seconds, outperforming also all other previous ATP and SMT systems.
翻訳日:2022-05-05 14:05:51 公開日:2022-05-04
# ワイルドパターンの再ロード - トレーニングデータ中毒に対する機械学習セキュリティに関する調査

Wild Patterns Reloaded: A Survey of Machine Learning Security against Training Data Poisoning ( http://arxiv.org/abs/2205.01992v1 )

ライセンス: Link先を確認
Antonio Emanuele Cin\`a, Kathrin Grosse, Ambra Demontis, Sebastiano Vascon, Werner Zellinger, Bernhard A. Moser, Alina Oprea, Battista Biggio, Marcello Pelillo, Fabio Roli(参考訳) 機械学習の成功は、コンピューティングパワーと大規模なトレーニングデータセットの可用性の向上に支えられている。 トレーニングデータは、テスト時に遭遇するデータを十分に代表していると仮定して、新しいモデルの学習や既存のモデルの更新に使用される。 この仮定は、モデルのテスト時のパフォーマンスを損なうためにトレーニングデータを操作する攻撃である中毒の脅威によって挑戦される。 毒殺は産業分野での脅威として認められており、これまで様々な攻撃や防衛策が提案されてきたが、完全に体系化され、この分野の批判的レビューはいまだに欠落している。 本調査では,過去15年間の現場で200以上の論文をレビューし,機械学習における毒殺攻撃と防御の包括的体系化について紹介する。 まず、現在の脅威モデルと攻撃を分類し、それに従って既存の防衛を組織化します。 主にコンピュータビジョンのアプリケーションに焦点を当てていますが、当社のシステム化には最先端の攻撃や、他のデータモダリティに対する防御も含まれています。 最後に, 中毒研究の既存の資源について考察し, 現状の限界と今後の研究課題を明らかにした。

The success of machine learning is fueled by the increasing availability of computing power and large training datasets. The training data is used to learn new models or update existing ones, assuming that it is sufficiently representative of the data that will be encountered at test time. This assumption is challenged by the threat of poisoning, an attack that manipulates the training data to compromise the model's performance at test time. Although poisoning has been acknowledged as a relevant threat in industry applications, and a variety of different attacks and defenses have been proposed so far, a complete systematization and critical review of the field is still missing. In this survey, we provide a comprehensive systematization of poisoning attacks and defenses in machine learning, reviewing more than 200 papers published in the field in the last 15 years. We start by categorizing the current threat models and attacks, and then organize existing defenses accordingly. While we focus mostly on computer-vision applications, we argue that our systematization also encompasses state-of-the-art attacks and defenses for other data modalities. Finally, we discuss existing resources for research in poisoning, and shed light on the current limitations and open research questions in this research field.
翻訳日:2022-05-05 14:05:38 公開日:2022-05-04
# MAD:多変量時系列に対する自己監督型マスケアノマリー検出タスク

MAD: Self-Supervised Masked Anomaly Detection Task for Multivariate Time Series ( http://arxiv.org/abs/2205.02100v1 )

ライセンス: Link先を確認
Yiwei Fu, Feng Xue(参考訳) 本稿では,多変量時系列異常検出のための汎用自己教師型学習タスクであるMasked Anomaly Detection (MAD)を紹介する。 産業システムからのセンサデータの可用性が高まる中、多変量時系列データのストリームから異常を検出することが重要となる。 現実の応用における異常の不足を考えると、文献の大半は正規性をモデル化することに集中している。 学習された正規表現は、モデルが特定の鍵となるデータレギュラーをキャプチャすることを学び、異常検出を促進することができる。 典型的な定式化は予測モデル、すなわち時系列データのウィンドウを使って将来のデータ値を予測することである。 本稿では,代替の自己教師付き学習タスクを提案する。 入力の一部をランダムにマスキングし、残りの部分を使ってモデルを推定するように訓練することにより、MADは従来の左から右への次のステップ予測(NSP)タスクよりも改善される。 実験により,MADはニューラルネットワーク(NN)ベースモデルと全く同じ場合,従来のNSPアプローチよりも優れた異常検出率を達成でき,同じハードウェア上でテスト時間中にNSPモデルと同じくらい高速に動作できるように修正可能であることを示し,既存のNSPベースのNN異常検出モデルに最適なアップグレードとなる。

In this paper, we introduce Masked Anomaly Detection (MAD), a general self-supervised learning task for multivariate time series anomaly detection. With the increasing availability of sensor data from industrial systems, being able to detecting anomalies from streams of multivariate time series data is of significant importance. Given the scarcity of anomalies in real-world applications, the majority of literature has been focusing on modeling normality. The learned normal representations can empower anomaly detection as the model has learned to capture certain key underlying data regularities. A typical formulation is to learn a predictive model, i.e., use a window of time series data to predict future data values. In this paper, we propose an alternative self-supervised learning task. By randomly masking a portion of the inputs and training a model to estimate them using the remaining ones, MAD is an improvement over the traditional left-to-right next step prediction (NSP) task. Our experimental results demonstrate that MAD can achieve better anomaly detection rates over traditional NSP approaches when using exactly the same neural network (NN) base models, and can be modified to run as fast as NSP models during test time on the same hardware, thus making it an ideal upgrade for many existing NSP-based NN anomaly detection models.
翻訳日:2022-05-05 14:05:19 公開日:2022-05-04
# 機械学習に基づくロバスト価格感性推定フレームワークと航空会社価格への適用

Machine Learning based Framework for Robust Price-Sensitivity Estimation with Application to Airline Pricing ( http://arxiv.org/abs/2205.01875v1 )

ライセンス: Link先を確認
Ravi Kumar, Shahin Boluki, Karl Isler, Jonas Rauch and Darius Walczak(参考訳) 我々は,機能依存価格感度が存在する場合,製品の動的価格設定の問題を考える。 ポアソン半パラメトリック手法に基づいて、価格関連部がパラメトリックであり、残りの(ノイズ)部が非パラメトリックであり、洗練されたML技術を用いてモデル化できる柔軟な解釈可能な需要モデルを構築する。 このモデルの価格-感受性パラメータの直接1段階回帰手法による推定は、偏りのある推定に繋がる可能性がある。 本研究では,モデルのニュアサンスパラメータのバイアスに対してロバストな価格・感受性パラメータを推定する2段階推定手法を提案する。 第1段階では、ディープニューラルネットワークのような洗練されたML推定器を用いて、特徴ベクトルから得られる観測された購入と価格の推定器を構築する。 推定器を第1段階から利用し、第2段階においてベイズ力学一般化線形モデルを用いて価格感度パラメータを推定する。 本研究では,Airline 産業のシミュレーションおよび実販売取引データに基づいて,提案手法の性能を検証した。 この2段階の手法は, 直接的な1段階の手法に比べて, 価格感受性パラメータの精度が高いことを示す。

We consider the problem of dynamic pricing of a product in the presence of feature-dependent price sensitivity. Based on the Poisson semi-parametric approach, we construct a flexible yet interpretable demand model where the price related part is parametric while the remaining (nuisance) part of the model is non-parametric and can be modeled via sophisticated ML techniques. The estimation of price-sensitivity parameters of this model via direct one-stage regression techniques may lead to biased estimates. We propose a two-stage estimation methodology which makes the estimation of the price-sensitivity parameters robust to biases in the nuisance parameters of the model. In the first-stage we construct the estimators of observed purchases and price given the feature vector using sophisticated ML estimators like deep neural networks. Utilizing the estimators from the first-stage, in the second-stage we leverage a Bayesian dynamic generalized linear model to estimate the price-sensitivity parameters. We test the performance of the proposed estimation schemes on simulated and real sales transaction data from Airline industry. Our numerical studies demonstrate that the two-stage approach provides more accurate estimates of price-sensitivity parameters as compared to direct one-stage approach.
翻訳日:2022-05-05 14:04:56 公開日:2022-05-04
# 非定常オンライン学習における2次経路変動

Second Order Path Variationals in Non-Stationary Online Learning ( http://arxiv.org/abs/2205.01921v1 )

ライセンス: Link先を確認
Dheeraj Baby and Yu-Xiang Wang(参考訳) 我々は,exp-concave と smooth loss の下での普遍的動的後悔の最小化の問題を考える。 そこで,n$は時間軸であり,c_n$はコンパレータ列の2次差に基づく経路変動である,$\tilde o(d^2 n^{1/5} c_n^{2/5} \vee d^2)$の動的後悔を適切に設計した強適応アルゴリズムが達成することを示す。 このような経路変分法は、区分線形であるコンパレータ列を自然にエンコードする -- 様々な非定常パターンを追跡する強力なファミリー -- (kim et al, 2009)。 上記の動的後悔率は、最適モジュラー次元依存およびn$の多対数因子であることが示されている。 我々の証明手法はオフラインオラクルのkkt条件の解析に依存しており、2021年のbaby and wangにおけるアイデアのいくつかの非自明な一般化を必要としており、後者の仕事は現在の問題に対して$\tilde o(d^{2.5}n^{1/3}c_n^{2/3} \vee d^{2.5})$の動的後悔率をもたらすだけである。

We consider the problem of universal dynamic regret minimization under exp-concave and smooth losses. We show that appropriately designed Strongly Adaptive algorithms achieve a dynamic regret of $\tilde O(d^2 n^{1/5} C_n^{2/5} \vee d^2)$, where $n$ is the time horizon and $C_n$ a path variational based on second order differences of the comparator sequence. Such a path variational naturally encodes comparator sequences that are piecewise linear -- a powerful family that tracks a variety of non-stationarity patterns in practice (Kim et al, 2009). The aforementioned dynamic regret rate is shown to be optimal modulo dimension dependencies and poly-logarithmic factors of $n$. Our proof techniques rely on analysing the KKT conditions of the offline oracle and requires several non-trivial generalizations of the ideas in Baby and Wang, 2021, where the latter work only leads to a slower dynamic regret rate of $\tilde O(d^{2.5}n^{1/3}C_n^{2/3} \vee d^{2.5})$ for the current problem.
翻訳日:2022-05-05 14:03:36 公開日:2022-05-04
# マニフォールド2サンプル実験:ニューラルネットワークを用いた積分確率測定

A Manifold Two-Sample Test Study: Integral Probability Metric with Neural Networks ( http://arxiv.org/abs/2205.02043v1 )

ライセンス: Link先を確認
Jie Wang, Minshuo Chen, Tuo Zhao, Wenjing Liao, Yao Xie(参考訳) 2サンプルテストは、2つの観測コレクションが同じ分布に従うかどうかを判断する重要な領域である。 低次元多様体上に支持された高次元試料に対する積分確率距離(IPM)に基づく2サンプル試験を提案する。 我々は,本質次元 $d$ を持つ多様体の構造およびサンプル $n$ の個数に関して,提案するテストの性質を特徴付ける。 アトラスが与えられると、一般分布の違いを特定するための2段階のテストを提案し、これは$n^{-1/\max\{d,2\}}$の順序でタイプIIリスクを達成する。 atlasが与えられない場合、$(s,\beta)$-H\'older densitiesを持つデータ分布に適用可能なH\older IPMテストを提案し、$n^{-(s+\beta)/d}$の順でタイプIIリスクを達成する。 ニューラルネットワークを用いてH\"older IPMの評価を行う際の計算負荷を軽減するために,H\"older関数クラスを近似した。 ニューラルネットワークの近似理論に基づき、ニューラルネットワークipmテストは、h\"older ipmテストと同じ2型リスクである$n^{-(s+\beta)/d}$の順でタイプiiのリスクを持つことを示した。 提案手法は,データ次元ではなく本質的な次元に大きく依存するため,低次元の幾何学的構造に適応する。

Two-sample tests are important areas aiming to determine whether two collections of observations follow the same distribution or not. We propose two-sample tests based on integral probability metric (IPM) for high-dimensional samples supported on a low-dimensional manifold. We characterize the properties of proposed tests with respect to the number of samples $n$ and the structure of the manifold with intrinsic dimension $d$. When an atlas is given, we propose two-step test to identify the difference between general distributions, which achieves the type-II risk in the order of $n^{-1/\max\{d,2\}}$. When an atlas is not given, we propose H\"older IPM test that applies for data distributions with $(s,\beta)$-H\"older densities, which achieves the type-II risk in the order of $n^{-(s+\beta)/d}$. To mitigate the heavy computation burden of evaluating the H\"older IPM, we approximate the H\"older function class using neural networks. Based on the approximation theory of neural networks, we show that the neural network IPM test has the type-II risk in the order of $n^{-(s+\beta)/d}$, which is in the same order of the type-II risk as the H\"older IPM test. Our proposed tests are adaptive to low-dimensional geometric structure because their performance crucially depends on the intrinsic dimension instead of the data dimension.
翻訳日:2022-05-05 14:03:07 公開日:2022-05-04
# SGDパラメータフリー化

Making SGD Parameter-Free ( http://arxiv.org/abs/2205.02160v1 )

ライセンス: Link先を確認
Yair Carmon and Oliver Hinder(参考訳) パラメータフリー確率凸最適化 (SCO) のアルゴリズムを開発し, 収束率は対応するパラメータ設定の最適値よりも大きい2対数係数である。 対照的に、パラメータフリーSCOの最もよく知られたレートは、オンラインパラメータフリーの後悔境界に基づいており、これは既知のパラメーターと比べ、避けられない過剰な対数項を含む。 このアルゴリズムは概念的に単純であり、高い確率保証を持ち、未知の勾配ノルム、滑らかさ、強い凸性にも部分的に適応している。 結果の核心は,SGDステップサイズ選択のための新しいパラメータフリー証明書と,SGDのa-プリオリ境界が反復しないと仮定する時間一様濃度の結果である。

We develop an algorithm for parameter-free stochastic convex optimization (SCO) whose rate of convergence is only a double-logarithmic factor larger than the optimal rate for the corresponding known-parameter setting. In contrast, the best previously known rates for parameter-free SCO are based on online parameter-free regret bounds, which contain unavoidable excess logarithmic terms compared to their known-parameter counterparts. Our algorithm is conceptually simple, has high-probability guarantees, and is also partially adaptive to unknown gradient norms, smoothness, and strong convexity. At the heart of our results is a novel parameter-free certificate for SGD step size choice, and a time-uniform concentration result that assumes no a-priori bounds on SGD iterates.
翻訳日:2022-05-05 14:02:38 公開日:2022-05-04
# coca:コントラストキャプションは画像テキストの基礎モデル

CoCa: Contrastive Captioners are Image-Text Foundation Models ( http://arxiv.org/abs/2205.01917v1 )

ライセンス: Link先を確認
Jiahui Yu, Zirui Wang, Vijay Vasudevan, Legg Yeung, Mojtaba Seyedhosseini, Yonghui Wu(参考訳) 大規模に事前訓練された基礎モデルを探索することは、コンピュータビジョンにおいて重要な関心事である。 本稿では,Contrastive Captioner(CoCa)について,コントラスト的損失とキャプション的損失とを併用した画像テキストエンコーダ・デコーダ基礎モデルの事前学習を行い,CLIPのようなコントラスト的アプローチとSimVLMのような生成的手法によるモデル能力の仮定を行う。 すべてのデコーダ層がエンコーダ出力に付随する標準的なエンコーダ・デコーダ変換器とは対照的に、CoCaはデコーダ層前半のクロスアテンションを省略してアンモダルテキスト表現をエンコードし、マルチモーダル画像テキスト表現のためにイメージエンコーダと交差する残りのデコーダ層をカスケードする。 我々は,テキストトークンを自動回帰的に予測するマルチモーダルデコーダ出力のキャプション損失に加えて,非モーダル画像とテキスト埋め込みのコントラストロスを適用した。 同じ計算グラフを共有することにより、2つの訓練対象を最小のオーバーヘッドで効率的に計算する。 CoCaは、すべてのラベルを単にテキストとして扱い、表現学習のための自然言語監督をシームレスに統一することで、Webスケールのalt-textデータとアノテーション付きイメージの両方を、終末から終末まで事前訓練する。 実証的には、CoCaは、画像認識(ImageNet, Kinetics-400/600/700, Moments-in-Time)、クロスモーダル検索(MSCOCO, Flickr30K, MSR-VTT)、マルチモーダル理解(VQA, SNLI-VE, NLVR2)、画像キャプション(MSCOCOCO, NoCaps)など、幅広いダウンストリームタスクに対して、ゼロショット転送または最小のタスク固有適応による最先端のパフォーマンスを達成する。 特にImageNetの分類では、CoCaは86.3%のゼロショットトップ1精度、90.6%の冷凍エンコーダと学習した分類ヘッド、そして精巧なエンコーダでImageNetの91.0%の新しい最先端トップ1精度を得る。

Exploring large-scale pretrained foundation models is of significant interest in computer vision because these models can be quickly transferred to many downstream tasks. This paper presents Contrastive Captioner (CoCa), a minimalist design to pretrain an image-text encoder-decoder foundation model jointly with contrastive loss and captioning loss, thereby subsuming model capabilities from contrastive approaches like CLIP and generative methods like SimVLM. In contrast to standard encoder-decoder transformers where all decoder layers attend to encoder outputs, CoCa omits cross-attention in the first half of decoder layers to encode unimodal text representations, and cascades the remaining decoder layers which cross-attend to the image encoder for multimodal image-text representations. We apply a contrastive loss between unimodal image and text embeddings, in addition to a captioning loss on the multimodal decoder outputs which predicts text tokens autoregressively. By sharing the same computational graph, the two training objectives are computed efficiently with minimal overhead. CoCa is pretrained end-to-end and from scratch on both web-scale alt-text data and annotated images by treating all labels simply as text, seamlessly unifying natural language supervision for representation learning. Empirically, CoCa achieves state-of-the-art performance with zero-shot transfer or minimal task-specific adaptation on a broad range of downstream tasks, spanning visual recognition (ImageNet, Kinetics-400/600/700, Moments-in-Time), crossmodal retrieval (MSCOCO, Flickr30K, MSR-VTT), multimodal understanding (VQA, SNLI-VE, NLVR2), and image captioning (MSCOCO, NoCaps). Notably on ImageNet classification, CoCa obtains 86.3% zero-shot top-1 accuracy, 90.6% with a frozen encoder and learned classification head, and new state-of-the-art 91.0% top-1 accuracy on ImageNet with a finetuned encoder.
翻訳日:2022-05-05 14:01:38 公開日:2022-05-04
# SVTS:スケーラブルなビデオ音声合成

SVTS: Scalable Video-to-Speech Synthesis ( http://arxiv.org/abs/2205.02058v1 )

ライセンス: Link先を確認
Rodrigo Mira, Alexandros Haliassos, Stavros Petridis, Bj\"orn W. Schuller and Maja Pantic(参考訳) ビデオ音声合成(英語: Video-to-speech synthesis)は、サイレント唇の動きを対応する音声に変換することを指す。 このタスクは、自己監督的な性質(手動ラベリングなしでトレーニングできる)と、オンラインで利用可能な音声視覚データの収集によって、注目を集めている。 こうした強いモチベーションにもかかわらず、現代のビデオ音声作品は主に語彙と設定の両方にかなりの制約がある中小コーパスに焦点を当てている。 本研究では,メル周波数のスペクトログラムを波形音声に変換する,ビデオ対スペクトログラム予測器と事前学習されたニューラルネットワークボコーダという,2つのコンポーネントからなるスケーラブルなビデオ対音声フレームワークを提案する。 GRIDの最先端技術とLRWに対する従来のアプローチをかなり上回る結果を得た。 さらに重要なことは、単純なフィードフォワードモデルを使ってスペクトログラムの予測に焦点をあてることで、この手法を非常に大きくて訓練されていないデータセットに効率的かつ効果的に拡張することが可能である。

Video-to-speech synthesis (also known as lip-to-speech) refers to the translation of silent lip movements into the corresponding audio. This task has received an increasing amount of attention due to its self-supervised nature (i.e., can be trained without manual labelling) combined with the ever-growing collection of audio-visual data available online. Despite these strong motivations, contemporary video-to-speech works focus mainly on small- to medium-sized corpora with substantial constraints in both vocabulary and setting. In this work, we introduce a scalable video-to-speech framework consisting of two components: a video-to-spectrogram predictor and a pre-trained neural vocoder, which converts the mel-frequency spectrograms into waveform audio. We achieve state-of-the art results for GRID and considerably outperform previous approaches on LRW. More importantly, by focusing on spectrogram prediction using a simple feedforward model, we can efficiently and effectively scale our method to very large and unconstrained datasets: To the best of our knowledge, we are the first to show intelligible results on the challenging LRS3 dataset.
翻訳日:2022-05-05 14:00:48 公開日:2022-05-04
# (参考訳) 分散データストリームにおける連続モデルの改良について

On Continual Model Refinement in Out-of-Distribution Data Streams ( http://arxiv.org/abs/2205.02014v1 )

ライセンス: CC BY 4.0
Bill Yuchen Lin, Sida Wang, Xi Victoria Lin, Robin Jia, Lin Xiao, Xiang Ren, Wen-tau Yih(参考訳) 現実世界の自然言語処理(nlp)モデルは、破滅的な忘れを克服しながら、out-of-distribution(ood)データストリームの予測エラーを修正するために継続的に更新される必要がある。 しかし、既存の継続学習(CL)問題設定はそのような現実的で複雑なシナリオをカバーできない。 そこで本研究では,連続モデルリファインメント(cmr)と呼ばれる新しいcl問題定式化を提案する。 以前のcl設定と比較すると、cmrはより実用的であり、ユニークな課題(バウンダリ非依存の分散シフト、複数のoodデータクラスタの多様な混合、エラー中心ストリームなど)を導入する。 既存のCLアプローチをCMR設定に拡張し、それらを広範囲に評価する。 ベンチマークと解析のために,制御可能な非定常性を持つ動的OODデータストリームを得るための一般的なサンプリングアルゴリズムと,オンラインパフォーマンスのさまざまな側面を測定するメトリクスセットを提案する。 実験と詳細な分析により,CMR問題の可能性と課題を明らかにし,動的OODストリームにおけるCMRの研究が実運用におけるNLPモデルの長寿命化に有効であることを示す。

Real-world natural language processing (NLP) models need to be continually updated to fix the prediction errors in out-of-distribution (OOD) data streams while overcoming catastrophic forgetting. However, existing continual learning (CL) problem setups cannot cover such a realistic and complex scenario. In response to this, we propose a new CL problem formulation dubbed continual model refinement (CMR). Compared to prior CL settings, CMR is more practical and introduces unique challenges (boundary-agnostic and non-stationary distribution shift, diverse mixtures of multiple OOD data clusters, error-centric streams, etc.). We extend several existing CL approaches to the CMR setting and evaluate them extensively. For benchmarking and analysis, we propose a general sampling algorithm to obtain dynamic OOD data streams with controllable non-stationarity, as well as a suite of metrics measuring various aspects of online performance. Our experiments and detailed analysis reveal the promise and challenges of the CMR problem, supporting that studying CMR in dynamic OOD streams can benefit the longevity of deployed NLP models in production.
翻訳日:2022-05-05 13:59:24 公開日:2022-05-04
# 画像分類のための深部LSTM

Sequencer: Deep LSTM for Image Classification ( http://arxiv.org/abs/2205.01972v1 )

ライセンス: Link先を確認
Yuki Tatsunami, Masato Taki(参考訳) 近年のコンピュータビジョン研究において、視覚変換器(ViT)の出現は、様々なアーキテクチャ設計の取り組みに急速に革命をもたらした: ViTは自然言語処理で見られる自己認識を用いて最先端の画像分類性能を達成し、MLP-Mixerは単純な多層パーセプトロンを用いて競争性能を達成した。 対照的に、いくつかの研究は慎重に再設計された畳み込みニューラルネットワーク(cnns)がこれらの新しいアイデアを使わずにvitに匹敵する高度な性能を達成することができることを示唆している。 この背景に対して、インダクティブバイアスがコンピュータビジョンに適しているかへの関心が高まっている。 ここでは、これらの問題に対する新たな視点を提供するViTに代わる、斬新で競争力のあるアーキテクチャであるSequencerを提案する。 ViTとは異なり、Sequencerは自己アテンション層ではなくLSTMを使用して長距離依存関係をモデル化する。 また,Squencerモジュールの2次元バージョンを提案し,LSTMを垂直および水平のLSTMに分解して性能を向上させる。 Sequencer2D-Lは54Mパラメータを持つが、ImageNet-1Kでのみ84.6\%のトップ-1精度を実現する。 それだけでなく、転送性も良好で、ダブルレゾリューションバンドでのロバストな解像度適応性も示しています。

In recent computer vision research, the advent of the Vision Transformer (ViT) has rapidly revolutionized various architectural design efforts: ViT achieved state-of-the-art image classification performance using self-attention found in natural language processing, and MLP-Mixer achieved competitive performance using simple multi-layer perceptrons. In contrast, several studies have also suggested that carefully redesigned convolutional neural networks (CNNs) can achieve advanced performance comparable to ViT without resorting to these new ideas. Against this background, there is growing interest in what inductive bias is suitable for computer vision. Here we propose Sequencer, a novel and competitive architecture alternative to ViT that provides a new perspective on these issues. Unlike ViTs, Sequencer models long-range dependencies using LSTMs rather than self-attention layers. We also propose a two-dimensional version of Sequencer module, where an LSTM is decomposed into vertical and horizontal LSTMs to enhance performance. Despite its simplicity, several experiments demonstrate that Sequencer performs impressively well: Sequencer2D-L, with 54M parameters, realizes 84.6\% top-1 accuracy on only ImageNet-1K. Not only that, we show that it has good transferability and the robust resolution adaptability on double resolution-band.
翻訳日:2022-05-05 13:39:36 公開日:2022-05-04
# ダイナミックスパースR-CNN

Dynamic Sparse R-CNN ( http://arxiv.org/abs/2205.02101v1 )

ライセンス: Link先を確認
Qinghang Hong, Fengming Liu, Dong Li, Ji Liu, Lu Tian, Yi Shan(参考訳) Sparse R-CNNは、スパースで学習可能な提案ボックスと提案機能のセット予測による、最近の強力なオブジェクト検出ベースラインである。 本研究では2つの動的設計によるスパースR-CNNの改良を提案する。 まず、スパース r-cnn は1対1のラベル割り当てスキームを採用し、ハンガリーのアルゴリズムは各基底真理に対して1つの正のサンプルだけをマッチングするために適用される。 このような一対一の割り当ては、学習されたプロポーザルボックスと基底真理のマッチングに最適ではないかもしれない。 この問題に対処するため,Sparse R-CNNの反復学習段階において,増加傾向を示すサンプルを割り当てる最適な輸送アルゴリズムに基づく動的ラベル割り当て(DLA)を提案する。 我々は、後段が精度を向上した改良された提案を生成するため、逐次段階においてマッチングが徐々に緩くなるように制約する。 第2に、Sparse R-CNNの推論プロセスにおいて、学習した提案ボックスと機能は、異なる画像に対して固定されている。 動的畳み込みによって動機付けられた動的提案生成(DPG)を提案し、複数の提案エキスパートを動的に組み立て、より優れた初期提案ボックスと連続訓練段階の機能を提供する。 従って、DPGはサンプル依存の提案ボックスと推論の機能を引き出すことができる。 実験により,動的スパースR-CNNと呼ばれる手法は,オブジェクト検出のための異なるバックボーンを持つ強力なスパースR-CNNベースラインを向上できることが示された。 特に、Dynamic Sparse R-CNNは、CoCO 2017の検証セットで最先端の47.2% APに達し、同じResNet-50バックボーンを持つSparse R-CNNの2.2% APを上回っている。

Sparse R-CNN is a recent strong object detection baseline by set prediction on sparse, learnable proposal boxes and proposal features. In this work, we propose to improve Sparse R-CNN with two dynamic designs. First, Sparse R-CNN adopts a one-to-one label assignment scheme, where the Hungarian algorithm is applied to match only one positive sample for each ground truth. Such one-to-one assignment may not be optimal for the matching between the learned proposal boxes and ground truths. To address this problem, we propose dynamic label assignment (DLA) based on the optimal transport algorithm to assign increasing positive samples in the iterative training stages of Sparse R-CNN. We constrain the matching to be gradually looser in the sequential stages as the later stage produces the refined proposals with improved precision. Second, the learned proposal boxes and features remain fixed for different images in the inference process of Sparse R-CNN. Motivated by dynamic convolution, we propose dynamic proposal generation (DPG) to assemble multiple proposal experts dynamically for providing better initial proposal boxes and features for the consecutive training stages. DPG thereby can derive sample-dependent proposal boxes and features for inference. Experiments demonstrate that our method, named Dynamic Sparse R-CNN, can boost the strong Sparse R-CNN baseline with different backbones for object detection. Particularly, Dynamic Sparse R-CNN reaches the state-of-the-art 47.2% AP on the COCO 2017 validation set, surpassing Sparse R-CNN by 2.2% AP with the same ResNet-50 backbone.
翻訳日:2022-05-05 13:39:14 公開日:2022-05-04
# 細粒度視覚分類と物体再同定のための2段階横断学習

Dual Cross-Attention Learning for Fine-Grained Visual Categorization and Object Re-Identification ( http://arxiv.org/abs/2205.02151v1 )

ライセンス: Link先を確認
Haowei Zhu, Wenjing Ke, Dong Li, Ji Liu, Lu Tian, Yi Shan(参考訳) 近年,多種多様なNLPおよびCVタスクにおいて自己認識機構が顕著な性能を示しており,逐次的特性を捉え,グローバルな情報を導き出すのに役立つ。 本研究では,鳥種や個体の識別など,細粒度物体を認識するための微妙な特徴埋め込みを学習するために,自己照応モジュールを拡張する方法について検討する。 そこで本研究では,自己注意学習と協調する2つの相互注意学習(DCAL)アルゴリズムを提案する。 まずグローバル・ローカル・クロスアテンション(GLCA)を提案し,グローバル・イメージとローカル・高応答領域の相互作用を強化することにより,認識のための空間的識別的手がかりを強化する。 次に、画像ペア間の相互作用を確立するために、ペアワイズ・クロスアテンション(PWCA)を提案する。 PWCAは、別の画像をイントラクタとして扱い、推論中に取り除くことにより、画像の注意学習を規則化することができる。 我々は,DCALが誤認を低減し,注意応答を拡散させ,より相補的な認識部位を発見することを観察した。 我々は,細粒度視覚分類と物体再識別に関する広範囲な評価を行う。 実験の結果、DCALは最先端の手法と同等に動作し、例えばDeiT-TinyとViT-Baseをそれぞれ2.8%、MSMT17では2.4%の自己注意ベースラインを継続的に改善している。

Recently, self-attention mechanisms have shown impressive performance in various NLP and CV tasks, which can help capture sequential characteristics and derive global information. In this work, we explore how to extend self-attention modules to better learn subtle feature embeddings for recognizing fine-grained objects, e.g., different bird species or person identities. To this end, we propose a dual cross-attention learning (DCAL) algorithm to coordinate with self-attention learning. First, we propose global-local cross-attention (GLCA) to enhance the interactions between global images and local high-response regions, which can help reinforce the spatial-wise discriminative clues for recognition. Second, we propose pair-wise cross-attention (PWCA) to establish the interactions between image pairs. PWCA can regularize the attention learning of an image by treating another image as distractor and will be removed during inference. We observe that DCAL can reduce misleading attentions and diffuse the attention response to discover more complementary parts for recognition. We conduct extensive evaluations on fine-grained visual categorization and object re-identification. Experiments demonstrate that DCAL performs on par with state-of-the-art methods and consistently improves multiple self-attention baselines, e.g., surpassing DeiT-Tiny and ViT-Base by 2.8% and 2.4% mAP on MSMT17, respectively.
翻訳日:2022-05-05 13:38:31 公開日:2022-05-04
# 偉大な真実は常に単純である: 事前学習されたモデルの常識推論能力を高めるための、かなり単純な知識エンコーダ

Great Truths are Always Simple: A Rather Simple Knowledge Encoder for Enhancing the Commonsense Reasoning Capacity of Pre-Trained Models ( http://arxiv.org/abs/2205.01841v1 )

ライセンス: Link先を確認
Jinhao Jiang, Kun Zhou, Wayne Xin Zhao and Ji-Rong Wen(参考訳) 自然言語における常識推論は、人工知能システムの望ましい能力である。 複雑なコモンセンス推論タスクを解決するために、典型的な解決策は、知識を意識したグラフニューラルネットワーク~(GNN)エンコーダで事前訓練された言語モデル~(PTM)を強化することである。 有効性にもかかわらず、これらのアプローチは重いアーキテクチャ上に構築されており、外部知識リソースがPTMの推論能力をどのように改善するかを明確に説明できない。 この問題を考慮し、我々は深い経験分析を行い、主にPTMの性能改善に寄与するCSKGs(ノード特徴ではない)と関係性があることを発見した。 この発見に基づいて,統計的関係経路を特徴として用いたシンプルなMLPベースの知識エンコーダを設計する。 5つのベンチマークで広範な実験を行った結果,本手法の有効性が示され,cskgの符号化パラメータも大幅に削減された。 私たちのコードとデータはhttps://github.com/rucaibox/safeで公開されています。

Commonsense reasoning in natural language is a desired ability of artificial intelligent systems. For solving complex commonsense reasoning tasks, a typical solution is to enhance pre-trained language models~(PTMs) with a knowledge-aware graph neural network~(GNN) encoder that models a commonsense knowledge graph~(CSKG). Despite the effectiveness, these approaches are built on heavy architectures, and can't clearly explain how external knowledge resources improve the reasoning capacity of PTMs. Considering this issue, we conduct a deep empirical analysis, and find that it is indeed relation features from CSKGs (but not node features) that mainly contribute to the performance improvement of PTMs. Based on this finding, we design a simple MLP-based knowledge encoder that utilizes statistical relation paths as features. Extensive experiments conducted on five benchmarks demonstrate the effectiveness of our approach, which also largely reduces the parameters for encoding CSKGs. Our codes and data are publicly available at https://github.com/RUCAIBox/SAFE.
翻訳日:2022-05-05 13:37:22 公開日:2022-05-04
# Go Back in Time: イベント一時的なプロンプトによるストーリー中のフラッシュバックの生成

Go Back in Time: Generating Flashbacks in Stories with Event Temporal Prompts ( http://arxiv.org/abs/2205.01898v1 )

ライセンス: Link先を確認
Rujun Han, Hong Chen, Yufei Tian, Nanyun Peng(参考訳) 物語や物語は一連の出来事から成り立っている。 興味深いストーリーを構成するために、プロのライターはしばしばflashbackと呼ばれる創造的なライティング技術を利用して、過去の出来事を現在のストーリーラインに挿入します。 しかし、事象の時間順序(例えば「eat」以前の「空腹」など)をしっかり理解し、初期の出来事が常に物語順に現れるわけではないようにストーリーラインを配置する創造性が必要であるため、機械がフラッシュバックを生成するのは困難である。 課題を悪化させる既存システムの2つの大きな問題。 1) 事象の時間的秩序につながる関連性及び物語データセットの時間的バイアス 2) フラッシュバックの挿入先を決定するための明示的なガイダンスがない。 本稿では,物語の時間的展開を導く時間的プロンプトとして,構造化されたストーリーラインを用いてイベントとそのペアの時間的関係を符号化することを提案する。 我々は強化学習によって強化されたPlan-and-Writeフレームワークを利用してストーリーラインとストーリーをエンドツーエンドに生成する。 評価の結果,提案手法はテキストの多様性,フラレンシー,時間的一貫性を維持しつつ,フラッシュバックを伴うより興味深いストーリーを生成できることがわかった。

Stories or narratives are comprised of a sequence of events. To compose interesting stories, professional writers often leverage a creative writing technique called flashback that inserts past events into current storylines as we commonly observe in novels and plays. However, it is challenging for machines to generate flashback as it requires a solid understanding of event temporal order (e.g. "feeling hungry" before "eat," not vice versa), and the creativity to arrange storylines so that earlier events do not always appear first in narrative order. Two major issues in existing systems that exacerbate the challenges: 1) temporal bias in pertaining and story datasets that leads to monotonic event temporal orders; 2) lack of explicit guidance that helps machines decide where to insert flashbacks. We propose to address these issues using structured storylines to encode events and their pair-wise temporal relations (before, after and vague) as temporal prompts that guide how stories should unfold temporally. We leverage a Plan-and-Write framework enhanced by reinforcement learning to generate storylines and stories end-to-end. Evaluation results show that the proposed method can generate more interesting stories with flashbacks while maintaining textual diversity, fluency, and temporal coherence.
翻訳日:2022-05-05 13:37:05 公開日:2022-05-04
# 対話的物語における社会的規範と価値観の整合

Aligning to Social Norms and Values in Interactive Narratives ( http://arxiv.org/abs/2205.01975v1 )

ライセンス: Link先を確認
Prithviraj Ammanabrolu, Liwei Jiang, Maarten Sap, Hannaneh Hajishirzi, Yejin Choi(参考訳) 我々は、対話型物語やテキストベースのゲームにおいて、社会的に有益な規範や価値観に従って行動するエージェントを作成することに注力する。エージェントが自然言語を介して世界を理解し、対話する環境。このような対話型エージェントは、しばしば強化学習を通じて訓練され、タスクパフォーマンスを最適化する。そのような報酬が社会的規範に反するエージェントの行動につながり、エージェント自身または環境内の他のエンティティに害を与える。 社会的価値のアライメントとは、ある状況や人々の集団に対して期待される道徳的・社会的規範に従って行動するエージェントを作成することを指す。 私たちはjiminy cricket benchmark(hendrycks et al. 2021)という、25の注釈付き対話的な物語のセットを構築しています。 GALAD(Game-value ALignment through Action Distillation)エージェントを導入し、特別な訓練を受けた言語モデルに存在するソーシャルコモンセンス知識を用いて、そのアクション空間を社会的に有益な値に整合したアクションに限定する。 実験により,galadエージェントは,現代的価値アライメントアプローチと比較して,社会的に有害な行動の頻度を25%低減しつつ,最先端のタスクパフォーマンスを4%向上できるほど効率的に意思決定を行うことが示された。

We focus on creating agents that act in alignment with socially beneficial norms and values in interactive narratives or text-based games -- environments wherein an agent perceives and interacts with a world through natural language. Such interactive agents are often trained via reinforcement learning to optimize task performance, even when such rewards may lead to agent behaviors that violate societal norms -- causing harm either to the agent itself or other entities in the environment. Social value alignment refers to creating agents whose behaviors conform to expected moral and social norms for a given context and group of people -- in our case, it means agents that behave in a manner that is less harmful and more beneficial for themselves and others. We build on the Jiminy Cricket benchmark (Hendrycks et al. 2021), a set of 25 annotated interactive narratives containing thousands of morally salient scenarios covering everything from theft and bodily harm to altruism. We introduce the GALAD (Game-value ALignment through Action Distillation) agent that uses the social commonsense knowledge present in specially trained language models to contextually restrict its action space to only those actions that are aligned with socially beneficial values. An experimental study shows that the GALAD agent makes decisions efficiently enough to improve state-of-the-art task performance by 4% while reducing the frequency of socially harmful behaviors by 25% compared to strong contemporary value alignment approaches.
翻訳日:2022-05-05 13:36:43 公開日:2022-05-04
# 文脈表現による談話依存構文解析の改善

Improve Discourse Dependency Parsing with Contextualized Representations ( http://arxiv.org/abs/2205.02090v1 )

ライセンス: Link先を確認
Yifei Zhou, Yansong Feng(参考訳) 最近の研究によれば、談話分析は、異なる粒度のテキスト単位に対する適切な表現が、テキスト単位の意味と文脈との関係の両方を捉えるために望まれる、内的および間的レベルを別々にモデル化することの恩恵を受けている。 本稿では,異なるレベルの単位の文脈的表現を符号化するトランスフォーマーの利点を生かして,対話依存分析に必要な情報を文内および文間レベルで動的に取得する手法を提案する。 論文間で共通に共有される記述パターンの観察により,抽出された談話木の文脈から構造情報を活用し,従来の直分類法よりも大幅に優れる,談話関係識別をシーケンスラベリングタスクとして扱う新しい手法を提案する。 実験の結果,我々のモデルは英語と中国語の両方のデータセットで最先端の結果が得られることがわかった。

Recent works show that discourse analysis benefits from modeling intra- and inter-sentential levels separately, where proper representations for text units of different granularities are desired to capture both the meaning of text units and their relations to the context. In this paper, we propose to take advantage of transformers to encode contextualized representations of units of different levels to dynamically capture the information required for discourse dependency analysis on intra- and inter-sentential levels. Motivated by the observation of writing patterns commonly shared across articles, we propose a novel method that treats discourse relation identification as a sequence labelling task, which takes advantage of structural information from the context of extracted discourse trees, and substantially outperforms traditional direct-classification methods. Experiments show that our model achieves state-of-the-art results on both English and Chinese datasets.
翻訳日:2022-05-05 13:35:51 公開日:2022-05-04
# hiure: 教師なし関係抽出のための階層型例示コントラスト学習

HiURE: Hierarchical Exemplar Contrastive Learning for Unsupervised Relation Extraction ( http://arxiv.org/abs/2205.02225v1 )

ライセンス: Link先を確認
Shuliang Liu, Xuming Hu, Chenwei Zhang, Shu`ang Li, Lijie Wen, Philip S. Yu(参考訳) 教師なし関係抽出は、関係範囲や分布に関する事前情報なしに自然言語文からエンティティ間の関係を抽出することを目的としている。 既存の作業では、段階的なドリフト問題を引き起こす適応的クラスタリングと分類を反復的に活用することで、自己指導型特徴信号の洗練に活用するか、あるいは意味論的に類似した文対を不当に分離するインスタンスワイドコントラスト学習を採用するかのいずれかである。 これらの欠陥を克服するために,クロスヒエラルキーに着目して階層的特徴空間から階層的信号を導出し,例示的コントラスト学習下での文の関係表現を効果的に最適化するhureという新しいコントラスト学習フレームワークを提案する。 2つの公開データセットの実験結果は、最先端モデルと比較した場合の教師なし関係抽出におけるHiUREの有効性とロバスト性を示す。

Unsupervised relation extraction aims to extract the relationship between entities from natural language sentences without prior information on relational scope or distribution. Existing works either utilize self-supervised schemes to refine relational feature signals by iteratively leveraging adaptive clustering and classification that provoke gradual drift problems, or adopt instance-wise contrastive learning which unreasonably pushes apart those sentence pairs that are semantically similar. To overcome these defects, we propose a novel contrastive learning framework named HiURE, which has the capability to derive hierarchical signals from relational feature space using cross hierarchy attention and effectively optimize relation representation of sentences under exemplar-wise contrastive learning. Experimental results on two public datasets demonstrate the advanced effectiveness and robustness of HiURE on unsupervised relation extraction when compared with state-of-the-art models.
翻訳日:2022-05-05 13:35:35 公開日:2022-05-04
# Pik-Fix:古い写真の復元とカラー化

Pik-Fix: Restoring and Colorizing Old Photo ( http://arxiv.org/abs/2205.01902v1 )

ライセンス: Link先を確認
Runsheng Xu, Zhengzhong Tu, Yuanqi Du, Xiaoyu Dong, Jinlong Li, Zibo Meng, Jiaqi Ma, Alan Bovik, Hongkai Yu(参考訳) 古い写真では、存在するがしばしば障害のある視覚記憶を復元し、塗り替えることは、興味深いが未解決の研究トピックである。 何十年も前の写真では、ひび割れやデフォーカス、カラーフェディングなどの重篤で日常的な劣化に苦しむことが多い。 しかし、古い写真の大規模なデータセットが欠如しているため、この修復作業に対処するのが非常に難しい。 本稿では,古い画像と劣化画像の修復と彩色を両立可能な,新しい参照ベースのエンドツーエンド学習フレームワークを提案する。 提案するフレームワークは, 劣化からの復元を行う復元サブネットワーク, 色ヒストグラムマッチングと色移動を行う類似サブネットワーク, 色調基準信号で条件付けされた画像の彩色要素の予測を学習する着色サブネットの3つのモジュールから構成される。 システム全体では、参照画像から事前に色ヒストグラムを使用するため、大規模なトレーニングデータの必要性が大幅に低減される。 私たちはまた、photoshopの専門家によって手作業で復元された「プリスティン」写真と組み合わせて、本物の古い写真の最初の公開データセットも作成しました。 このデータセットと合成データセットについて広範な実験を行い、定性的比較と定量的測定の両方を用いて従来の最先端モデルよりも優れた性能を示した。

Restoring and inpainting the visual memories that are present, but often impaired, in old photos remains an intriguing but unsolved research topic. Decades-old photos often suffer from severe and commingled degradation such as cracks, defocus, and color-fading, which are difficult to treat individually and harder to repair when they interact. Deep learning presents a plausible avenue, but the lack of large-scale datasets of old photos makes addressing this restoration task very challenging. Here we present a novel reference-based end-to-end learning framework that is able to both repair and colorize old and degraded pictures. Our proposed framework consists of three modules: a restoration sub-network that conducts restoration from degradations, a similarity sub-network that performs color histogram matching and color transfer, and a colorization subnet that learns to predict the chroma elements of images that have been conditioned on chromatic reference signals. The overall system makes uses of color histogram priors from reference images, which greatly reduces the need for large-scale training data. We have also created a first-of-a-kind public dataset of real old photos that are paired with ground truth "pristine" photos that have been that have been manually restored by PhotoShop experts. We conducted extensive experiments on this dataset and synthetic datasets, and found that our method significantly outperforms previous state-of-the-art models using both qualitative comparisons and quantitative measurements.
翻訳日:2022-05-05 13:34:37 公開日:2022-05-04
# ビデオ外挿の空間と時間

Video Extrapolationin Space and Time ( http://arxiv.org/abs/2205.02084v1 )

ライセンス: Link先を確認
Yunzhi Zhang and Jiajun wu(参考訳) 新しいビュー合成 (NVS) とビデオ予測 (VP) は一般にコンピュータビジョンにおいて不整合タスクとみなされる。 NVSは新たな視点からシーンを合成することを目的としており、VPは新しい視点からシーンを見ることを目的としている。 これらの2つのタスクは、空間観測から視点の変化が深度を知らせ、時間観測がカメラや個々の物体の動きを知らせる。 これらの観測から着想を得て,VEST(Video Extrapolation in Space and Time)の問題について検討する。 既存の手法ではその1つしか解けないが,両タスクからの自己超越と補完的手がかりを利用するモデルを提案する。 実験により,本手法は屋内および屋外の実世界のデータセット上で,いくつかの最先端NVSおよびVP手法に匹敵する性能を発揮することが示された。

Novel view synthesis (NVS) and video prediction (VP) are typically considered disjoint tasks in computer vision. However, they can both be seen as ways to observe the spatial-temporal world: NVS aims to synthesize a scene from a new point of view, while VP aims to see a scene from a new point of time. These two tasks provide complementary signals to obtain a scene representation, as viewpoint changes from spatial observations inform depth, and temporal observations inform the motion of cameras and individual objects. Inspired by these observations, we propose to study the problem of Video Extrapolation in Space and Time (VEST). We propose a model that leverages the self-supervision and the complementary cues from both tasks, while existing methods can only solve one of them. Experiments show that our method achieves performance better than or comparable to several state-of-the-art NVS and VP methods on indoor and outdoor real-world datasets.
翻訳日:2022-05-05 13:34:11 公開日:2022-05-04
# 文書レベル共同エンティティにおけるタスクインタラクションのモデル化と関係抽出

Modeling Task Interactions in Document-Level Joint Entity and Relation Extraction ( http://arxiv.org/abs/2205.01909v1 )

ライセンス: Link先を確認
Liyan Xu, Jinho D. Choi(参考訳) モデルが同時に参照抽出、コリファレンス解決(coref)、関係抽出(re)を行なわなければならないエンド・ツー・エンドの設定で文書レベルの関係抽出を目標とし、エンティティ中心の方法で評価する。 特に,従来の作業では注目されていなかったCOREFとREの双方向インタラクションに対処し,タスク特性を活用するために特別に設計されたグラフ適合性(GC)という明示的なインタラクションを導入することを提案する。 実験はDocREDとDWIEで行われ、GCに加えて、パイプライン、共有エンコーダ、グラフ伝搬など、従来の作業で広く採用されていた様々なマルチタスク設定を実装し、比較し、異なるインタラクションの有効性を検討する。 その結果、gcはベースラインよりも最大2.3/5.1 f1で最高のパフォーマンスを達成している。

We target on the document-level relation extraction in an end-to-end setting, where the model needs to jointly perform mention extraction, coreference resolution (COREF) and relation extraction (RE) at once, and gets evaluated in an entity-centric way. Especially, we address the two-way interaction between COREF and RE that has not been the focus by previous work, and propose to introduce explicit interaction namely Graph Compatibility (GC) that is specifically designed to leverage task characteristics, bridging decisions of two tasks for direct task interference. Our experiments are conducted on DocRED and DWIE; in addition to GC, we implement and compare different multi-task settings commonly adopted in previous work, including pipeline, shared encoders, graph propagation, to examine the effectiveness of different interactions. The result shows that GC achieves the best performance by up to 2.3/5.1 F1 improvement over the baseline.
翻訳日:2022-05-05 13:32:51 公開日:2022-05-04
# CODE-MVP: 対照的な事前学習による複数のビューからソースコードの表現を学ぶ

CODE-MVP: Learning to Represent Source Code from Multiple Views with Contrastive Pre-Training ( http://arxiv.org/abs/2205.02029v1 )

ライセンス: Link先を確認
Xin Wang, Yasheng Wang, Yao Wan, Jiawei Wang, Pingyi Zhou, Li Li, Hao Wu and Jin Liu(参考訳) 近年,ソースコードの意味を分散ベクトルに表現することを目的としたコード表現学習への関心が高まっている。 現在、プレーンテキスト、抽象構文木(AST)、いくつかの種類のコードグラフ(コントロール/データフローグラフなど)など、さまざまなビューからソースコードの複雑なセマンティクスを表現するための様々な研究が提案されている。 しかし、その多くはソースコードの単一のビューのみを独立に考慮し、異なるビュー間の対応を無視している。 本稿では,ソースコードの自然言語記述を多視点コントラスト事前学習と統合したフレームワークに統合し,私たちのモデルをCODE-MVPと名付けることを提案する。 具体的には、まずコンパイラツールを用いて複数のコードビューを抽出し、その相補的な情報を対照的な学習フレームワークで学習する。 コンパイル中の型チェックにインスパイアされた我々は、事前トレーニングにおいて、きめ細かい型推論の目的も設計する。 5つのデータセット上の3つの下流タスクの実験は、いくつかの最先端ベースラインと比較して、CODE-MVPの優位性を示している。 例えば、MRR/MAP/Accuracyの自然言語検索、コード類似性、およびコード欠陥検出タスクでそれぞれ2.4/2.3/1.1のゲインを達成する。

Recent years have witnessed increasing interest in code representation learning, which aims to represent the semantics of source code into distributed vectors. Currently, various works have been proposed to represent the complex semantics of source code from different views, including plain text, Abstract Syntax Tree (AST), and several kinds of code graphs (e.g., Control/Data Flow Graph). However, most of them only consider a single view of source code independently, ignoring the correspondences among different views. In this paper, we propose to integrate different views with the natural-language description of source code into a unified framework with Multi-View contrastive Pre-training, and name our model as CODE-MVP. Specifically, we first extract multiple code views using compiler tools, and learn the complementary information among them under a contrastive learning framework. Inspired by the type checking in compilation, we also design a fine-grained type inference objective in the pre-training. Experiments on three downstream tasks over five datasets demonstrate the superiority of CODE-MVP when compared with several state-of-the-art baselines. For example, we achieve 2.4/2.3/1.1 gain in terms of MRR/MAP/Accuracy metrics on natural language code retrieval, code similarity, and code defect detection tasks, respectively.
翻訳日:2022-05-05 13:32:34 公開日:2022-05-04
# ReLU DNNの変換複雑性の理論解析に向けて

Towards Theoretical Analysis of Transformation Complexity of ReLU DNNs ( http://arxiv.org/abs/2205.01940v1 )

ライセンス: Link先を確認
Jie Ren, Mingjie Li, Meng Zhou, Shih-Han Chan, Quanshi Zhang(参考訳) 本稿では,ReLU層を持つDNNで符号化された特徴変換の複雑さを理論的に解析することを目的とする。 情報理論に基づく変換の3種類の複雑度を測定するためのメトリクスを提案する。 さらに, 複雑性と変換の絡み合いとの間に強い相関関係を見いだし, 証明する。 提案手法に基づいて,学習過程における変換複雑性の変化の典型的な2つの現象を分析し,DNNの複雑さの天井を探索する。 提案手法は,DNNの過度な適合レベルを制御し,対向的堅牢性,対向的伝達性,知識の整合性に影響を与えるため,最小限の複雑さでDNNを学習する損失としても使用できる。 総合的な比較研究は、DNNを理解するための新しい視点を提供した。

This paper aims to theoretically analyze the complexity of feature transformations encoded in DNNs with ReLU layers. We propose metrics to measure three types of complexities of transformations based on the information theory. We further discover and prove the strong correlation between the complexity and the disentanglement of transformations. Based on the proposed metrics, we analyze two typical phenomena of the change of the transformation complexity during the training process, and explore the ceiling of a DNN's complexity. The proposed metrics can also be used as a loss to learn a DNN with the minimum complexity, which also controls the over-fitting level of the DNN and influences adversarial robustness, adversarial transferability, and knowledge consistency. Comprehensive comparative studies have provided new perspectives to understand the DNN.
翻訳日:2022-05-05 13:32:10 公開日:2022-05-04
# 計画のための抽象表現と伝達表現の学習

Learning Abstract and Transferable Representations for Planning ( http://arxiv.org/abs/2205.02092v1 )

ライセンス: Link先を確認
Steven James, Benjamin Rosman, George Konidaris(参考訳) 我々は、エージェントが感覚データから独自の表現を取得できるかどうかを懸念する。 我々は、最先端の学習方法では解決できない問題のクラスである長期計画のための学習表現に焦点を絞っている。 本稿では,エージェントの環境の抽象化を自律的に学習するための枠組みを提案する。 これらの抽象化はタスクに依存しないので、新しいタスクを解決するために再利用することができる。 エージェントが既存のオプションセットを使用して、egoおよびオブジェクト中心の観察から表現を取得する方法を示す。 これらの抽象化は、新しい環境で同じエージェントによってすぐに再利用できる。 本稿では,これらのポータブル表現を問題特定表現と組み合わせ,抽象計画に使用できる特定のタスクの健全な記述を生成する方法を示す。 最後に,より抽象的な表現からなる多層階層を自律的に構築する方法を示す。 これらの階層は転送可能であるため、新しいタスクで高次概念を再利用することができ、エージェントの再学習を軽減し、サンプル効率を向上させることができる。 その結果,エージェントが従来の知識を新たなタスクに移すことができ,タスク数の増加に伴ってサンプル効率が向上することが示された。

We are concerned with the question of how an agent can acquire its own representations from sensory data. We restrict our focus to learning representations for long-term planning, a class of problems that state-of-the-art learning methods are unable to solve. We propose a framework for autonomously learning state abstractions of an agent's environment, given a set of skills. Importantly, these abstractions are task-independent, and so can be reused to solve new tasks. We demonstrate how an agent can use an existing set of options to acquire representations from ego- and object-centric observations. These abstractions can immediately be reused by the same agent in new environments. We show how to combine these portable representations with problem-specific ones to generate a sound description of a specific task that can be used for abstract planning. Finally, we show how to autonomously construct a multi-level hierarchy consisting of increasingly abstract representations. Since these hierarchies are transferable, higher-order concepts can be reused in new tasks, relieving the agent from relearning them and improving sample efficiency. Our results demonstrate that our approach allows an agent to transfer previous knowledge to new tasks, improving sample efficiency as the number of tasks increases.
翻訳日:2022-05-05 13:31:59 公開日:2022-05-04
# 深部強化学習を用いた発電機故障による最適潮流問題の解法

Using Deep Reinforcement Learning to solve Optimal Power Flow problem with generator failures ( http://arxiv.org/abs/2205.02108v1 )

ライセンス: Link先を確認
Muhammad Usman Awais(参考訳) 深層強化学習(DRL)は多くの領域で使われている。 DRLの最大の利点の1つは、学習エージェントの継続的な改善を可能にすることである。 第二に、DRLフレームワークは堅牢で柔軟性があり、様々な性質とドメインの問題に適用できる。 現在の研究は、最適潮流(OPF)問題を解決するためにDRL技術を使用した証拠である。 OPF問題を解決するために、2つの古典的アルゴリズムが提案されている。 バニラDRLアプリケーションの欠点を論じ,性能向上のためのアルゴリズムを提案する。 第二に、DRLにおける固有の問題の解法を可能にするOPF問題に対する報酬関数が提示される。 DRLの多様性と変性の理由について論じ,OPFに関してそれらを扱うための正しい戦略について述べる。

Deep Reinforcement Learning (DRL) is being used in many domains. One of the biggest advantages of DRL is that it enables the continuous improvement of a learning agent. Secondly, the DRL framework is robust and flexible enough to be applicable to problems of varying nature and domain. Presented work is evidence of using the DRL technique to solve an Optimal Power Flow (OPF) problem. Two classical algorithms have been presented to solve the OPF problem. The drawbacks of the vanilla DRL application are discussed, and an algorithm is suggested to improve the performance. Secondly, a reward function for the OPF problem is presented that enables the solution of inherent issues in DRL. Reasons for divergence and degeneration in DRL are discussed, and the correct strategy to deal with them with respect to OPF is presented.
翻訳日:2022-05-05 13:31:42 公開日:2022-05-04
# 半教師付きカスケードクラスタリングによる雑音ラベルデータの分類

Semi-Supervised Cascaded Clustering for Classification of Noisy Label Data ( http://arxiv.org/abs/2205.02209v1 )

ライセンス: Link先を確認
Ashit Gupta, Anirudh Deodhar, Tathagata Mukherjee and Venkataramana Runkana(参考訳) 教師付き分類手法の性能は、データがノイズラベルを持つ場合、しばしば低下する。 半教師付き分類アプローチでさえも、不足ラベルを扱う問題にのみ焦点を絞っている。 ノイズの多いラベルデータに対処するアプローチのほとんどは、分類タスクに巨大なデータセットを必要とするディープニューラルネットワーク(DNN)に依存している。 これは特に、データに制限があり、ラベルが騒がしいプロセスや製造業において深刻な課題となる。 パターンを抽出し、そのようなデータセットにクラスをカスケードした木を生成するための半教師付きカスケードクラスタリング(SSCC)アルゴリズムを提案する。 構成可能なハイパーパラメータを持つ新しいクラスタ評価行列(CEM)を導入し、ノイズラベルのローカライズと除去を行い、カスケードクラスタリングにおけるプルーニング基準を実行する。 このアルゴリズムは、ラベルの精度を評価するための高価な人間の専門知識への依存を減らす。 SSCCに基づいて生成された分類器は、ノイズラベルデータセットでトレーニングされた場合でも正確で一貫性がある。 産業データセットを含む複数のノイズの多いラベルデータセットでテストした場合、サポートベクタマシン(SVM)と比較して、パフォーマンスが向上した。 提案手法は、人間の専門知識を最小限に抑えた産業環境における実用的な洞察を導出するために効果的に利用できる。

The performance of supervised classification techniques often deteriorates when the data has noisy labels. Even the semi-supervised classification approaches have largely focused only on the problem of handling missing labels. Most of the approaches addressing the noisy label data rely on deep neural networks (DNN) that require huge datasets for classification tasks. This poses a serious challenge especially in process and manufacturing industries, where the data is limited and labels are noisy. We propose a semi-supervised cascaded clustering (SSCC) algorithm to extract patterns and generate a cascaded tree of classes in such datasets. A novel cluster evaluation matrix (CEM) with configurable hyperparameters is introduced to localize and eliminate the noisy labels and invoke a pruning criterion on cascaded clustering. The algorithm reduces the dependency on expensive human expertise for assessing the accuracy of labels. A classifier generated based on SSCC is found to be accurate and consistent even when trained on noisy label datasets. It performed better in comparison with the support vector machines (SVM) when tested on multiple noisy-label datasets, including an industrial dataset. The proposed approach can be effectively used for deriving actionable insights in industrial settings with minimal human expertise.
翻訳日:2022-05-05 13:31:31 公開日:2022-05-04
# 予測サンプリングによる非定常帯域学習

Nonstationary Bandit Learning via Predictive Sampling ( http://arxiv.org/abs/2205.01970v1 )

ライセンス: Link先を確認
Yueyang Liu, Benjamin Van Roy, Kuang Xu(参考訳) 本研究では,非定常帯状環境における探索と搾取のバランスをとる行動の選択手法として,予測サンプリングを提案する。 静止環境に特化する場合、予測サンプリングはトンプソンサンプリングと等価である。 しかし、トンプソンサンプリングが苦しむ様々な非定常環境において予測サンプリングが有効である。 予測サンプリングに対するベイズ的後悔に対する一般情報理論的境界を確立する。 次に、この境界を、変調されたベルヌーイ帯域環境の研究に特化させる。 我々の分析はトンプソンサンプリングに対する予測サンプリングの重要な利点を浮き彫りにしている: 予測サンプリングは、取得した情報がすぐに関連しなくなる探索への投資を優先順位付けする。

We propose predictive sampling as an approach to selecting actions that balance between exploration and exploitation in nonstationary bandit environments. When specialized to stationary environments, predictive sampling is equivalent to Thompson sampling. However, predictive sampling is effective across a range of nonstationary environments in which Thompson sampling suffers. We establish a general information-theoretic bound on the Bayesian regret of predictive sampling. We then specialize this bound to study a modulated Bernoulli bandit environment. Our analysis highlights a key advantage of predictive sampling over Thompson sampling: predictive sampling deprioritizes investments in exploration where acquired information will quickly become less relevant.
翻訳日:2022-05-05 13:30:37 公開日:2022-05-04
# (参考訳) オピニオン要約のためのフルショットファインチューニング

Efficient Few-Shot Fine-Tuning for Opinion Summarization ( http://arxiv.org/abs/2205.02170v1 )

ライセンス: CC BY 4.0
Arthur Bra\v{z}inskas, Ramesh Nallapati, Mohit Bansal, Markus Dreyer(参考訳) 抽象的な要約モデルは典型的には大量のジェネリックテキストで事前訓練され、数万から数十万の注釈付きサンプルで微調整される。 しかし、意見要約では、参照要約と組み合わせた大量の注釈付きレビューデータセットは利用できず、作成に費用がかかる。 これにより、小さなデータセットのオーバーフィットにロバストな微調整メソッドが要求される。 さらに、一般的な事前学習されたモデルは、しばしば顧客レビューの仕様に慣れておらず、微調整された後に、不一致と意味的な間違いを伴うサマリーを産出する。 これらの問題に対処するために、我々は、ドメイン内の知識を簡単に保存できるアダプタに基づく効率的な数発ショット法を利用する。 モデル全体を微調整する代わりに、保留レビューを擬似要約として使用し、注釈のない顧客レビューの大規模なコーパス上で、アダプタを追加し、タスク固有の方法で事前トレーニングします。 次に、小さなアノテーション付きデータセットでアダプタを微調整する。 この自己教師型アダプタの事前トレーニングにより,Amazon とYelp のデータセット上の標準微調整よりも,それぞれ 1.3 ROUGE-L ポイントの要約品質が向上することを示す。 最後に、要約パーソナライズのために、ジェネリックデータセットから自動生成されるアスペクトキーワードクエリを条件とする。 同じように、顧客のレビューに基づいてクエリベースの方法でアダプタを事前トレーニングし、アノテーション付きデータセットで微調整します。 これにより、コヒーレンスの改善と冗長性の低減に反映されたより組織化された要約内容が得られる。

Abstractive summarization models are typically pre-trained on large amounts of generic texts, then fine-tuned on tens or hundreds of thousands of annotated samples. However, in opinion summarization, large annotated datasets of reviews paired with reference summaries are not available and would be expensive to create. This calls for fine-tuning methods robust to overfitting on small datasets. In addition, generically pre-trained models are often not accustomed to the specifics of customer reviews and, after fine-tuning, yield summaries with disfluencies and semantic mistakes. To address these problems, we utilize an efficient few-shot method based on adapters which, as we show, can easily store in-domain knowledge. Instead of fine-tuning the entire model, we add adapters and pre-train them in a task-specific way on a large corpus of unannotated customer reviews, using held-out reviews as pseudo summaries. Then, fine-tune the adapters on the small available human-annotated dataset. We show that this self-supervised adapter pre-training improves summary quality over standard fine-tuning by 2.0 and 1.3 ROUGE-L points on the Amazon and Yelp datasets, respectively. Finally, for summary personalization, we condition on aspect keyword queries, automatically created from generic datasets. In the same vein, we pre-train the adapters in a query-based manner on customer reviews and then fine-tune them on annotated datasets. This results in better-organized summary content reflected in improved coherence and fewer redundancies.
翻訳日:2022-05-05 13:29:32 公開日:2022-05-04
# word tour: トラベルセールスマン問題による1次元単語埋め込み

Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem ( http://arxiv.org/abs/2205.01954v1 )

ライセンス: Link先を確認
Ryoma Sato(参考訳) 単語埋め込みは自然言語処理で使われる最も基本的な技術の一つである。 既存の単語埋め込みは高次元であり、かなりの計算資源を消費する。 本研究では,教師なし1次元単語埋め込みのWordTourを提案する。 そこで本研究では, 難解な目標を達成するために, 単語埋め込みのデシデラタを, 完全性と健全性という2つの部分に分解し, 音質に着目した。 単一次元のため、wordtourは非常に効率的であり、単語埋め込みを扱うための最小の手段を提供する。 提案手法の有効性をユーザスタディと文書分類を用いて実験的に検証した。

Word embeddings are one of the most fundamental technologies used in natural language processing. Existing word embeddings are high-dimensional and consume considerable computational resources. In this study, we propose WordTour, unsupervised one-dimensional word embeddings. To achieve the challenging goal, we propose a decomposition of the desiderata of word embeddings into two parts, completeness and soundness, and focus on soundness in this paper. Owing to the single dimensionality, WordTour is extremely efficient and provides a minimal means to handle word embeddings. We experimentally confirmed the effectiveness of the proposed method via user study and document classification.
翻訳日:2022-05-05 13:08:23 公開日:2022-05-04
# 短いショットドキュメンテーション-レベル関係抽出

Few-Shot Document-Level Relation Extraction ( http://arxiv.org/abs/2205.02048v1 )

ライセンス: Link先を確認
Nicholas Popovic, Michael F\"arber(参考訳) 本稿では,FSDLREベンチマークとしてFREDoを提案する。 文レベルの関係抽出コーパスに基づく既存のベンチマークとは対照的に、文書レベルのコーパスは特にNOTA(No-of-of-the-above)分布に関して、よりリアリズムをもたらすと論じる。 そこで我々は,FSDLREタスクのセットを提案し,既存の2つの教師付き学習データセットであるDocREDとsciERCに基づくベンチマークを構築する。 我々は、最先端の文レベル手法であるMNAVを文書レベルに適用し、ドメイン適応を改善するためにさらに開発する。 FSDLREは、サポートセットからNOTAインスタンスをサンプリングする機能など、興味深い新機能を備えた、難しい設定であると考えています。 データ、コード、トレーニングされたモデルはオンラインで入手できる(https://github.com/nicpopovic/FREDo)。

We present FREDo, a few-shot document-level relation extraction (FSDLRE) benchmark. As opposed to existing benchmarks which are built on sentence-level relation extraction corpora, we argue that document-level corpora provide more realism, particularly regarding none-of-the-above (NOTA) distributions. Therefore, we propose a set of FSDLRE tasks and construct a benchmark based on two existing supervised learning data sets, DocRED and sciERC. We adapt the state-of-the-art sentence-level method MNAV to the document-level and develop it further for improved domain adaptation. We find FSDLRE to be a challenging setting with interesting new characteristics such as the ability to sample NOTA instances from the support set. The data, code, and trained models are available online (https://github.com/nicpopovic/FREDo).
翻訳日:2022-05-05 13:08:14 公開日:2022-05-04
# EmoBank: アノテーションの視点と表現形式が次元感情分析に及ぼす影響について

EmoBank: Studying the Impact of Annotation Perspective and Representation Format on Dimensional Emotion Analysis ( http://arxiv.org/abs/2205.01996v1 )

ライセンス: Link先を確認
Sven Buechel and Udo Hahn(参考訳) EmoBankは、複数のジャンルのバランスをとる10kの英語文からなるコーパスで、Valence-Arousal-Dominance(VAD)表現形式で、次元的感情メタデータに注釈を付けた。 emobankはbi-perspectivalとbi-representationalデザインで優れている。 一方,著者の感情と読者の感情を区別する一方で,コーパスのサブセットは,基本的な感情に基づくカテゴリのアノテーションで,次元vadアノテーションを補完する。 我々は,iaaと格付け強度の観点で読者の視点の優越性を示す証拠を見いだし,次元形式とカテゴリー形式をマッピングする場合の人間に近い性能を実現する。

We describe EmoBank, a corpus of 10k English sentences balancing multiple genres, which we annotated with dimensional emotion metadata in the Valence-Arousal-Dominance (VAD) representation format. EmoBank excels with a bi-perspectival and bi-representational design. On the one hand, we distinguish between writer's and reader's emotions, on the other hand, a subset of the corpus complements dimensional VAD annotations with categorical ones based on Basic Emotions. We find evidence for the supremacy of the reader's perspective in terms of IAA and rating intensity, and achieve close-to-human performance when mapping between dimensional and categorical formats.
翻訳日:2022-05-05 13:08:00 公開日:2022-05-04
# (参考訳) VICE:概念埋め込みのための変分推論

VICE: Variational Inference for Concept Embeddings ( http://arxiv.org/abs/2205.00756v3 )

ライセンス: CC BY-SA 4.0
Lukas Muttenthaler and Charles Y. Zheng and Patrick McClure and Robert A. Vandermeulen and Martin N. Hebart and Francisco Pereira(参考訳) 本稿では, ランダムな3重項タスクにおいて, 人間の行動から物体概念を埋め込み学習するためのベイズ的手法である, 概念埋め込みのための変分推論(VICE)を提案する。 変動推論を用いて,各埋め込み値に対する不確かさを推定した,ばらばらで非負の解を求める。 これらの推定値を利用して、再現可能な埋め込みを生成しながら、データを説明する次元を自動的に選択する。 本稿では,VICEのためのPAC学習バウンダリを導入し,一般化性能を推定したり,異なる実験設計のための十分なサンプルサイズを決定する。 3倍のタスクで人間の行動を予測することで、その前任者のスポスをライバルあるいは上回っている。 VICEオブジェクト表現は、より再現性が高く、異なるランダム初期化に対して一貫性がある。

In this paper, we introduce Variational Inference for Concept Embeddings (VICE), an approximate Bayesian method for learning object concept embeddings from human behavior in an odd-one-out triplet task. We use variational inference to obtain a sparse, non-negative solution with uncertainty estimates about each embedding value. We exploit these estimates to automatically select the dimensions that explain the data while yielding reproducible embeddings. We introduce a PAC learning bound for VICE that can be used to estimate generalization performance or determine a sufficient sample size for different experimental designs. VICE rivals or outperforms its predecessor, SPoSE, at predicting human behavior in a triplet task. VICE object representations are substantially more reproducible and consistent across different random initializations.
翻訳日:2022-05-05 12:45:15 公開日:2022-05-04
# (参考訳) 人工知能を用いた視覚知識発見:課題と今後の展望

Visual Knowledge Discovery with Artificial Intelligence: Challenges and Future Directions ( http://arxiv.org/abs/2205.01296v2 )

ライセンス: CC BY 4.0
Boris Kovalerchuk, R\u{a}zvan Andonie, Nuno Datia, Kawa Nazemi, Ebad Banissi(参考訳) このボリュームは、人工知能/マシンラーニング(AI/ML)と可視化/ビジュアルアナリティクスの進歩を組み合わせた、統合ビジュアル知識発見の新興分野に特化している。 章に含まれるのは、選ばれたAIおよびビジュアルアナリティクス論文の拡張版と、最近の国際情報可視化会議(IV2019、IV2020)の関連シンポジウムである。 AI/MLは、人間にモデルを説明するという長年にわたる課題に直面している。 モデルの説明は基本的に人間の活動であり、アルゴリズムによるものではない。 この章では、ビジュアル分析、ビジュアル知識発見、AI/MLの分野における課題と今後の方向性を示し、ビジュアルAI/MLにおける可視化の役割について議論する。 さらに,視覚支援による多次元データにおける新たな2次元ml,自然言語処理,ai/mlの進歩について述べる。

This volume is devoted to the emerging field of Integrated Visual Knowledge Discovery that combines advances in Artificial Intelligence/Machine Learning (AI/ML) and Visualization/Visual Analytics. Chapters included are extended versions of the selected AI and Visual Analytics papers and related symposia at the recent International Information Visualization Conferences (IV2019 and IV2020). AI/ML face a long-standing challenge of explaining models to humans. Models explanation is fundamentally human activity, not only an algorithmic one. In this chapter we aim to present challenges and future directions within the field of Visual Analytics, Visual Knowledge Discovery and AI/ML, and to discuss the role of visualization in visual AI/ML. In addition, we describe progress in emerging Full 2D ML, natural language processing, and AI/ML in multidimensional data aided by visual means.
翻訳日:2022-05-05 12:18:04 公開日:2022-05-04
# (参考訳) HL-Net:シーングラフ生成のためのヘテロフォリー学習ネットワーク

HL-Net: Heterophily Learning Network for Scene Graph Generation ( http://arxiv.org/abs/2205.01316v2 )

ライセンス: CC BY-SA 4.0
Xin Lin, Changxing Ding, Yibing Zhan, Zijian Li, Dacheng Tao(参考訳) シーングラフ生成(SGG)は、オブジェクトを検出し、画像内のペア関係を予測することを目的としている。 現在のSGG法は通常、グラフニューラルネットワーク(GNN)を使用して、オブジェクト/リレーショナル間のコンテキスト情報を取得する。 しかし、その効果にもかかわらず、現在のSGG法は、ヘテロフィリーを無視しながらシーングラフをホモフィリーに仮定するのみである。 そこで本稿では,シーングラフにおけるオブジェクト/リレーショナル間のホモフィリとヘテロフィリを包括的に探索する,新しいヘテロフィリズ学習ネットワーク(HL-Net)を提案する。 具体的には、HL-Netは以下の通りである。 1) 異なる層からの情報を適応的に統合して、対象物のヘテロフィリー及びホモフィリーの両方を利用する適応的再加重変圧器モジュール 2) 関係表現を洗練するために,ヘテロフィリーを考慮し,関係間の関係を効率的に探索する関係特徴伝達モジュール 3) オブジェクト/リレーショナル間のヘテロフィリとホモフィリをさらに区別するヘテロフィリ対応メッセージパッシング方式により,グラフにおけるメッセージパッシングの改善が容易になる。 visual genome (vg) とopen images (oi) の2つの公開データセットについて広範な実験を行った。 実験結果から,提案するhl-netは,従来手法よりも優れていることが示された。 より詳しくは、HL-Netは、シーングラフ分類用のVGデータセットで2.1$\%、最終スコア用のIOデータセットで1.2$\%という2番目に高い競合より優れている。 コードはhttps://github.com/siml3/HL-Netで入手できる。

Scene graph generation (SGG) aims to detect objects and predict their pairwise relationships within an image. Current SGG methods typically utilize graph neural networks (GNNs) to acquire context information between objects/relationships. Despite their effectiveness, however, current SGG methods only assume scene graph homophily while ignoring heterophily. Accordingly, in this paper, we propose a novel Heterophily Learning Network (HL-Net) to comprehensively explore the homophily and heterophily between objects/relationships in scene graphs. More specifically, HL-Net comprises the following 1) an adaptive reweighting transformer module, which adaptively integrates the information from different layers to exploit both the heterophily and homophily in objects; 2) a relationship feature propagation module that efficiently explores the connections between relationships by considering heterophily in order to refine the relationship representation; 3) a heterophily-aware message-passing scheme to further distinguish the heterophily and homophily between objects/relationships, thereby facilitating improved message passing in graphs. We conducted extensive experiments on two public datasets: Visual Genome (VG) and Open Images (OI). The experimental results demonstrate the superiority of our proposed HL-Net over existing state-of-the-art approaches. In more detail, HL-Net outperforms the second-best competitors by 2.1$\%$ on the VG dataset for scene graph classification and 1.2$\%$ on the IO dataset for the final score. Code is available at https://github.com/siml3/HL-Net.
翻訳日:2022-05-05 11:54:14 公開日:2022-05-04
# (参考訳) 構造的テスト統計のための完全対置換テスト

Exact Paired-Permutation Testing for Structured Test Statistics ( http://arxiv.org/abs/2205.01416v2 )

ライセンス: CC BY 4.0
Ran Zmigrod, Tim Vieira, Ryan Cotterell(参考訳) 重要なテスト(特にペア置換テスト)は、NLPシステムの開発において重要な役割を担い、2つのシステムのパフォーマンスの違い(すなわち、テスト統計)が運のせいではないことを確信する。 しかし、実践者は適切な厳密なアルゴリズムが欠如しているため、このテストを実行するためにモンテカルロ近似に頼る。 本稿では,構造化テスト統計の族に対して,ペア置換テストのための効率的な厳密アルゴリズムを提案する。 我々のアルゴリズムは$\mathcal{O}(GN)(\log GN )(\log N ))$timeで実行され、$N$はデータセットのサイズ、$G$はテスト統計の範囲である。 われわれの正確なアルゴリズムはモンテカルロ近似より10ドル高速で、共通のデータセット上に20000ドルのサンプルがあることがわかった。

Significance testing -- especially the paired-permutation test -- has played a vital role in developing NLP systems to provide confidence that the difference in performance between two systems (i.e., the test statistic) is not due to luck. However, practitioners rely on Monte Carlo approximation to perform this test due to a lack of a suitable exact algorithm. In this paper, we provide an efficient exact algorithm for the paired-permutation test for a family of structured test statistics. Our algorithm runs in $\mathcal{O}(GN (\log GN )(\log N ))$ time where $N$ is the dataset size and $G$ is the range of the test statistic. We found that our exact algorithm was $10$x faster than the Monte Carlo approximation with $20000$ samples on a common dataset.
翻訳日:2022-05-05 11:53:06 公開日:2022-05-04
# (参考訳) 高信頼のための対人訓練

Adversarial Training for High-Stakes Reliability ( http://arxiv.org/abs/2205.01663v2 )

ライセンス: CC BY 4.0
Daniel M. Ziegler, Seraphina Nix, Lawrence Chan, Tim Bauman, Peter Schmidt-Nielsen, Tao Lin, Adam Scherlis, Noa Nabeshima, Ben Weinstein-Raun, Daniel de Haas, Buck Shlegeris, Nate Thomas(参考訳) 将来的には、単一の障害が大惨事になるような、強力なAIシステムが、ハイテイクな設定で展開される可能性がある。 ハイステイク設定でai安全性を改善するテクニックのひとつが、逆トレーニングである。これは、逆者を使って、最悪の場合のパフォーマンスを改善するためにトレーニングするサンプルを生成する。 本研究では,言語生成タスクをテストベッドとして使用し,対人訓練による高い信頼性を実現する。 私たちは、ジェネレータが提案するテキスト補完をフィルタリングする分類器の障害を見つけて排除するために、人間の敵を支援するツールを含む、一連の敵のトレーニングテクニックを作成しました。 簡単な「アビドケイン」タスクでは,フィルタ出力の品質に大きな影響を及ぼすことなく,極めて保守的な分類器閾値を設定することができると判断した。 私たちの選択したしきい値では、ベースライン分類器によるフィルタリングは、分散データにおける安全でない完了率を約2.4%から0.003%まで低下させます。 その結果, 対人訓練は, 対人攻撃に対するロバスト性を有意に高め, 分配性能に影響を与えないことがわかった。 強力なモデルの壊滅的なデプロイメントタイムの失敗の可能性を排除することができるまで、人間の敵性を高めるためのより強力なツールや高いレベルの信頼性を測定するより良い方法など、高い信頼性設定でさらなる作業が期待できる。

In the future, powerful AI systems may be deployed in high-stakes settings, where a single failure could be catastrophic. One technique for improving AI safety in high-stakes settings is adversarial training, which uses an adversary to generate examples to train on in order to achieve better worst-case performance. In this work, we used a language generation task as a testbed for achieving high reliability through adversarial training. We created a series of adversarial training techniques -- including a tool that assists human adversaries -- to find and eliminate failures in a classifier that filters text completions suggested by a generator. In our simple "avoid injuries" task, we determined that we can set very conservative classifier thresholds without significantly impacting the quality of the filtered outputs. With our chosen thresholds, filtering with our baseline classifier decreases the rate of unsafe completions from about 2.4% to 0.003% on in-distribution data, which is near the limit of our ability to measure. We found that adversarial training significantly increased robustness to the adversarial attacks that we trained on, without affecting in-distribution performance. We hope to see further work in the high-stakes reliability setting, including more powerful tools for enhancing human adversaries and better ways to measure high levels of reliability, until we can confidently rule out the possibility of catastrophic deployment-time failures of powerful models.
翻訳日:2022-05-05 11:37:45 公開日:2022-05-04
# 変圧器の知識属性におけるパターンの探索

Finding patterns in Knowledge Attribution for Transformers ( http://arxiv.org/abs/2205.01366v2 )

ライセンス: Link先を確認
Jeevesh Juneja and Ritu Agarwal(参考訳) トランスフォーマーネットワーク内の特定のニューロンに対する事実的および関係的知識の帰属のための知識ニューロンフレームワークの解析を行う。 実験には12層多言語BERTモデルを用いる。 我々の研究は様々な興味深い現象を明らかにした。 事実的知識の大部分は、ネットワークの中層と上位層($\ge 6$)に起因する。 さらなる分析により、中間層($6-9$)が関係情報に責任を負うことが判明し、これが事実知識や最後の数層($10-12$)の「正しい答え」にさらに洗練される。 実験の結果,モデルが異なる言語でのプロンプトを処理することも確認できたが,同じ事実を表わすことで,多言語事前学習の有効性がさらに証明された。 文法知識に対する帰属スキームを適用すると、文法知識は事実知識よりもニューロン間ではるかに分散していることがわかる。

We analyze the Knowledge Neurons framework for the attribution of factual and relational knowledge to particular neurons in the transformer network. We use a 12-layer multi-lingual BERT model for our experiments. Our study reveals various interesting phenomena. We observe that mostly factual knowledge can be attributed to middle and higher layers of the network($\ge 6$). Further analysis reveals that the middle layers($6-9$) are mostly responsible for relational information, which is further refined into actual factual knowledge or the "correct answer" in the last few layers($10-12$). Our experiments also show that the model handles prompts in different languages, but representing the same fact, similarly, providing further evidence for effectiveness of multi-lingual pre-training. Applying the attribution scheme for grammatical knowledge, we find that grammatical knowledge is far more dispersed among the neurons than factual knowledge.
翻訳日:2022-05-05 11:36:10 公開日:2022-05-04
# 励起からCNNを理解する

Understanding CNNs from excitations ( http://arxiv.org/abs/2205.00932v2 )

ライセンス: Link先を確認
Zijian Ying, Qianmu Li, Zhichao Lian(参考訳) 本稿では,高レベルのセマンティクスと詳細な空間情報との関係を明らかにするために,PANEと呼ばれるニューラルネットワークに対する新しい認知的アプローチを提案する。 PANE の指導のもと,CNN のようなモデルに対して IOM という新しい唾液マップ表現法を提案する。 我々は,8つの最先端のサリエンシーマップ表現法との比較を行った。 実験の結果,IOMはベースラインよりもはるかに優れていた。 この論文は、ディープニューラルネットワークを理解するための新しい視点をもたらすかもしれない。

For instance-level explanation, in order to reveal the relations between high-level semantics and detailed spatial information, this paper proposes a novel cognitive approach to neural networks, which named PANE. Under the guidance of PANE, a novel saliency map representation method, named IOM, is proposed for CNN-like models. We make the comparison with eight state-of-the-art saliency map representation methods. The experimental results show that IOM far outperforms baselines. The work of this paper may bring a new perspective to understand deep neural networks.
翻訳日:2022-05-05 11:35:56 公開日:2022-05-04
# cosplay: パーソナライズされた対話生成のためのコンセプトセット

COSPLAY: Concept Set Guided Personalized Dialogue Generation Across Both Party Personas ( http://arxiv.org/abs/2205.00872v2 )

ライセンス: Link先を確認
Chen Xu, Piji Li, Wei Wang, Haoran Yang, Siyun Wang, and Chuangbai Xiao(参考訳) 一貫したペルソナの維持は、人間のような会話モデルを構築する上で不可欠である。 しかし、パートナーへの注意の欠如により、モデルはよりエゴセントリックなものとなり、トピックを強引にツイストしたり、会話を自分の興味に引き寄せたり、パートナーに好奇心をほとんど持たずにペルソナをぶつけたりするなど、あらゆる手段でペルソナを示す傾向にある。 本研究では,両者を「チーム」とみなすCOSPLAY(Concept Set Guided PersonaLized dialogue generation)を提案する。 具体的には,まず,自己対人,パートナーペルソナ,相互対話を概念セットで表現する。 次に,集合代数,集合展開,集合距離などの処理を行うための知識エンハンス操作の組を持つ概念集合フレームワークを提案する。 これらの操作を媒介として モデルを訓練し 1)両党のペルソナの概念 2 両者の概念的関係、及び 3)今後の対話との関連性。 大規模な公開データセットであるPersona-Chatの大規模な実験により、我々のモデルは、自己中心的でない、より人間らしく、より高品質な応答を自動評価と人的評価の両方で生成する、最先端のベースラインよりも優れています。

Maintaining a consistent persona is essential for building a human-like conversational model. However, the lack of attention to the partner makes the model more egocentric: they tend to show their persona by all means such as twisting the topic stiffly, pulling the conversation to their own interests regardless, and rambling their persona with little curiosity to the partner. In this work, we propose COSPLAY(COncept Set guided PersonaLized dialogue generation Across both partY personas) that considers both parties as a "team": expressing self-persona while keeping curiosity toward the partner, leading responses around mutual personas, and finding the common ground. Specifically, we first represent self-persona, partner persona and mutual dialogue all in the concept sets. Then, we propose the Concept Set framework with a suite of knowledge-enhanced operations to process them such as set algebras, set expansion, and set distance. Based on these operations as medium, we train the model by utilizing 1) concepts of both party personas, 2) concept relationship between them, and 3) their relationship to the future dialogue. Extensive experiments on a large public dataset, Persona-Chat, demonstrate that our model outperforms state-of-the-art baselines for generating less egocentric, more human-like, and higher quality responses in both automatic and human evaluations.
翻訳日:2022-05-05 11:35:49 公開日:2022-05-04
# デュアルネットワークを用いたモノクロ映像からの3次元マルチパーソンポーズ推定

Dual networks based 3D Multi-Person Pose Estimation from Monocular Video ( http://arxiv.org/abs/2205.00748v2 )

ライセンス: Link先を確認
Yu Cheng, Bo Wang, Robby T. Tan(参考訳) 近年,単眼の3次元ポーズ推定が進歩している。 たいていの方法は1人の人物に焦点を当てており、その人物中心の座標(つまり、対象人物の中心に基づく座標)のポーズを推定する。 したがって、これらの手法は、絶対座標(例えば、カメラ座標)が必要なマルチパーソン3Dポーズ推定には適用できない。 さらに,複数対人ポーズ推定は,対人オクルージョンと密接な人間間相互作用により,単一対人ポーズ推定よりも困難である。 既存のトップダウンマルチパーソンメソッドは、人間の検出(すなわちトップダウンアプローチ)に依存しており、検出エラーに悩まされ、マルチパーソンシーンで信頼できるポーズ推定ができない。 一方、人間の検出を使わない既存のボトムアップ手法は、検出エラーの影響を受けないが、一度にすべての人を処理しているため、特に小規模の人ではエラーが生じる傾向にある。 これらすべての課題に対処するために,我々は,トップダウンとボトムアップのアプローチの統合を提案する。 私たちのトップダウンネットワークは、画像パッチの1つではなく、すべての人から人間の関節を推定します。 我々のボトムアップネットワークは、人検出に基づく正規化ヒートマップを組み込んでおり、スケールの変動に対処する上でネットワークをより堅牢にします。 最後に、トップダウンネットワークとボトムアップネットワークから推定される3Dポーズが、最終3Dポーズのために統合ネットワークに送られます。 トレーニングデータとテストデータの共通的なギャップに対処するために,高次時間制約,再投影損失,骨長規則化を用いて推定3次元ポーズを精錬することにより,テスト時間中の最適化を行う。 提案手法の有効性について検討した。 コードとモデルは以下の通りである。

Monocular 3D human pose estimation has made progress in recent years. Most of the methods focus on single persons, which estimate the poses in the person-centric coordinates, i.e., the coordinates based on the center of the target person. Hence, these methods are inapplicable for multi-person 3D pose estimation, where the absolute coordinates (e.g., the camera coordinates) are required. Moreover, multi-person pose estimation is more challenging than single pose estimation, due to inter-person occlusion and close human interactions. Existing top-down multi-person methods rely on human detection (i.e., top-down approach), and thus suffer from the detection errors and cannot produce reliable pose estimation in multi-person scenes. Meanwhile, existing bottom-up methods that do not use human detection are not affected by detection errors, but since they process all persons in a scene at once, they are prone to errors, particularly for persons in small scales. To address all these challenges, we propose the integration of top-down and bottom-up approaches to exploit their strengths. Our top-down network estimates human joints from all persons instead of one in an image patch, making it robust to possible erroneous bounding boxes. Our bottom-up network incorporates human-detection based normalized heatmaps, allowing the network to be more robust in handling scale variations. Finally, the estimated 3D poses from the top-down and bottom-up networks are fed into our integration network for final 3D poses. To address the common gaps between training and testing data, we do optimization during the test time, by refining the estimated 3D human poses using high-order temporal constraint, re-projection loss, and bone length regularizations. Our evaluations demonstrate the effectiveness of the proposed method. Code and models are available: https://github.com/3dpose/3D-Multi-Person-Pose.
翻訳日:2022-05-05 11:35:22 公開日:2022-05-04
# TracInAD:異常検出への影響の測定

TracInAD: Measuring Influence for Anomaly Detection ( http://arxiv.org/abs/2205.01362v2 )

ライセンス: Link先を確認
Hugo Thimonier, Fabrice Popineau, Arpad Rimmel, Bich-Li\^en Doan and Fabrice Daniel(参考訳) 他の多くのタスクと同様に、ニューラルネットワークは異常検出に非常に効果的である。 しかし、テーブル型データセットで異常を検出するのに適したディープラーニングモデルはほとんどない。 本稿では,本研究で最初に導入したインフルエンス指標であるtracinに基づく異常をフラグする新しい手法を提案する。 提案手法は, 教師なし深部異常検出手法の強化に有効である。 提案手法は変動型オートエンコーダを用いてテストし,実験点に対する訓練点のサブサンプルの平均的影響が異常の指標となりうることを示した。 我々のモデルは、最先端のアプローチと比較して競争力があることを証明している。医療およびサイバーセキュリティの表型ベンチマークデータに対する検出精度において、同等またはより良いパフォーマンスを達成する。

As with many other tasks, neural networks prove very effective for anomaly detection purposes. However, very few deep-learning models are suited for detecting anomalies on tabular datasets. This paper proposes a novel methodology to flag anomalies based on TracIn, an influence measure initially introduced for explicability purposes. The proposed methods can serve to augment any unsupervised deep anomaly detection method. We test our approach using Variational Autoencoders and show that the average influence of a subsample of training points on a test point can serve as a proxy for abnormality. Our model proves to be competitive in comparison with state-of-the-art approaches: it achieves comparable or better performance in terms of detection accuracy on medical and cyber-security tabular benchmark data.
翻訳日:2022-05-05 11:33:09 公開日:2022-05-04
# マルチスケールスパース畳み込みニューラルネットワークを用いたポイントクラウド意味セグメンテーション

Point Cloud Semantic Segmentation using Multi Scale Sparse Convolution Neural Network ( http://arxiv.org/abs/2205.01550v2 )

ライセンス: Link先を確認
Yunzheng Su(参考訳) 画像処理における畳み込みニューラルネットワークの優れた性能のおかげで、点雲の非構造的性質の問題から、2次元畳み込みニューラルネットワークに基づいて点雲の特徴を抽出する。 The three-dimensional information carried in the point cloud can be converted to two-dimensional, and then processed by a two-dimensional convolutional neural network, and finally back-projected to three-dimensional.In the process of projecting 3D information to 2D and back-projection, certain information loss will inevitably be caused to the point cloud and category inconsistency will be introduced in the back-projection stage;Another solution is the voxel-based point cloud segmentation method, which divides the point cloud into small grids one by one.However, the point cloud is sparse, and the direct use of 3D convolutional neural network inevitably wastes computing resources. 本稿では,マルチスケール超スパース畳み込みに基づく特徴抽出モジュールとチャネルアテンションに基づく特徴選択モジュールを提案し,これに基づくポイントクラウドセグメンテーションネットワークフレームワークを構築し,マルチスケールスパース畳み込みを導入することにより,ネットワークは,異なるサイズのコンボリューションカーネルに基づくよりリッチな特徴情報をキャプチャし,ポイントクラウドセグメンテーションのセグメンテーション結果を改善する。

Point clouds have the characteristics of disorder, unstructured and sparseness.Aiming at the problem of the non-structural nature of point clouds, thanks to the excellent performance of convolutional neural networks in image processing, one of the solutions is to extract features from point clouds based on two-dimensional convolutional neural networks. The three-dimensional information carried in the point cloud can be converted to two-dimensional, and then processed by a two-dimensional convolutional neural network, and finally back-projected to three-dimensional.In the process of projecting 3D information to 2D and back-projection, certain information loss will inevitably be caused to the point cloud and category inconsistency will be introduced in the back-projection stage;Another solution is the voxel-based point cloud segmentation method, which divides the point cloud into small grids one by one.However, the point cloud is sparse, and the direct use of 3D convolutional neural network inevitably wastes computing resources. In this paper, we propose a feature extraction module based on multi-scale ultra-sparse convolution and a feature selection module based on channel attention, and build a point cloud segmentation network framework based on this.By introducing multi-scale sparse convolution, network could capture richer feature information based on convolution kernels of different sizes, improving the segmentation result of point cloud segmentation.
翻訳日:2022-05-05 11:32:59 公開日:2022-05-04
# ris-noma支援マルチロボット通信のためのインテリジェント軌道設計

Intelligent Trajectory Design for RIS-NOMA aided Multi-robot Communications ( http://arxiv.org/abs/2205.01647v2 )

ライセンス: Link先を確認
Xinyu Gao, Xidong Mu, Wenqiang Yi, Yuanwei Liu(参考訳) 複数の移動ロボットが非直交多重アクセス(noma)を介してアクセスポイント(ap)によってサービスされる、新しい再構成可能なインテリジェント表面支援マルチロボットネットワークが提案されている。 本研究の目的は,ロボットの軌道とNOMA復号順序,RISの位相シフト係数,APのパワーアロケーションを共同最適化することで,ロボットの初期および最終位置と各ロボットのサービス品質(QoS)を推定することにより,マルチロボットシステムにおける軌道全体の総和率を最大化することである。 この問題を解決するために,long short-term memory (lstm)-autoregressive integrated moving average (arima) モデルと dueling double deep q-network (d$^{3}$qn) アルゴリズムを組み合わせた統合機械学習 (ml) 方式を提案する。 ロボットの初期および最終位置予測のために、LSTM-ARIMAは、非定常および非線形データ列の勾配消滅の問題を克服することができる。 位相シフト行列とロボットの軌道を共同で決定するために、D$^{3}$QNはアクション値過大評価の問題を解決するために呼び出される。 提案手法に基づいて,各ロボットは,全軌道の最大総和率に基づいて,全軌道設計における長期的利益を追求するグローバルな最適軌道を保持する。 数値的な結果は、 1)LSTM-ARIMAモデルは高精度な予測モデルを提供する。 2) 提案する d$^{3}$qn アルゴリズムは高速平均収束を実現することができる。 3)高分解能ビットのRISは低分解能ビットよりもトラジェクトリの合計レートが大きい。 4)RIS-NOMAネットワークはRIS支援直交ネットワークに比べてネットワーク性能が優れている。

A novel reconfigurable intelligent surface-aided multi-robot network is proposed, where multiple mobile robots are served by an access point (AP) through non-orthogonal multiple access (NOMA). The goal is to maximize the sum-rate of whole trajectories for multi-robot system by jointly optimizing trajectories and NOMA decoding orders of robots, phase-shift coefficients of the RIS, and the power allocation of the AP, subject to predicted initial and final positions of robots and the quality of service (QoS) of each robot. To tackle this problem, an integrated machine learning (ML) scheme is proposed, which combines long short-term memory (LSTM)-autoregressive integrated moving average (ARIMA) model and dueling double deep Q-network (D$^{3}$QN) algorithm. For initial and final position prediction for robots, the LSTM-ARIMA is able to overcome the problem of gradient vanishment of non-stationary and non-linear sequences of data. For jointly determining the phase shift matrix and robots' trajectories, D$^{3}$QN is invoked for solving the problem of action value overestimation. Based on the proposed scheme, each robot holds a global optimal trajectory based on the maximum sum-rate of a whole trajectory, which reveals that robots pursue long-term benefits for whole trajectory design. Numerical results demonstrated that: 1) LSTM-ARIMA model provides high accuracy predicting model; 2) The proposed D$^{3}$QN algorithm can achieve fast average convergence; 3) The RIS with higher resolution bits offers a bigger sum-rate of trajectories than lower resolution bits; and 4) RIS-NOMA networks have superior network performance compared to RIS-aided orthogonal counterparts.
翻訳日:2022-05-05 11:32:38 公開日:2022-05-04