このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210910となっている論文です。

PDF登録状況(公開日: 20210910)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 深部回帰における不確実性ベンチマークのためのフレームワーク [全文訳有]

A framework for benchmarking uncertainty in deep regression ( http://arxiv.org/abs/2109.09048v1 )

ライセンス: CC BY 4.0
Franko Schm\"ahling, J\"org Martin, Clemens Elster(参考訳) 深部回帰における不確実性定量化の評価のための枠組みを提案する。 このフレームワークは回帰関数が非線形関数の線形結合である回帰問題に基づいている。 基本的に、任意の複雑性レベルは、非線形関数の選択とそれらの領域の次元によって実現できる。 深い回帰に対する不確実性定量化の結果を統計的基準法で求めた結果と比較する。 基準法は、基礎となる非線形関数の知識を利用し、基準先行を用いたベイズ線形回帰に基づく。 不確実性定量化の信頼性は、計算された不確実性の大きさによるカバレッジ確率と精度で評価される。 深回帰における不確実性定量化の現在の手法に適用し,提案手法について述べる。 この柔軟性は、参照ソリューションの可用性とともに、不確実性定量化のためのベンチマークセットを定義するのにフレームワークを適させる。

We propose a framework for the assessment of uncertainty quantification in deep regression. The framework is based on regression problems where the regression function is a linear combination of nonlinear functions. Basically, any level of complexity can be realized through the choice of the nonlinear functions and the dimensionality of their domain. Results of an uncertainty quantification for deep regression are compared against those obtained by a statistical reference method. The reference method utilizes knowledge of the underlying nonlinear functions and is based on a Bayesian linear regression using a reference prior. Reliability of uncertainty quantification is assessed in terms of coverage probabilities, and accuracy through the size of calculated uncertainties. We illustrate the proposed framework by applying it to current approaches for uncertainty quantification in deep regression. The flexibility, together with the availability of a reference solution, makes the framework suitable for defining benchmark sets for uncertainty quantification.
翻訳日:2021-09-26 23:05:30 公開日:2021-09-10
# (参考訳) GEDIとSentinel-2を併用した高作・短作の壁面マッピング [全文訳有]

Combining GEDI and Sentinel-2 for wall-to-wall mapping of tall and short crops ( http://arxiv.org/abs/2109.06972v1 )

ライセンス: CC BY 4.0
Stefania Di Tommaso (1), Sherrie Wang (1,2 and 3), David B. Lobell (1) ((1) Department of Earth System Science and Center on Food Security and the Environment, Stanford University, (2) Institute for Computational and Mathematical Engineering, Stanford University, (3) Goldman School of Public Policy, University of California, Berkeley)(参考訳) 高分解能作物型地図は食品の安全性を向上させるための重要なツールであり、モデルトレーニングのために基礎的真理ラベルを持つ地域でそのような地図を作成するためにリモートセンシングがますます使われている。 しかし、これらのラベルは多くの地域で欠落しており、光学センサーのような典型的な衛星の特徴で訓練された他の地域では、転送時に低い性能を示すことが多い。 ここでは、NASAのGEDI(Global Ecosystem Dynamics Investigation)宇宙搭載ライダー機器とSentinel-2光データを組み合わせて、作物型のマッピングを行う。 まず,中国,フランス,米国の3地域から得られたデータを用いて,gediのエネルギープロファイルが,米や大豆などより短い作物から高度2m以上の作物であるトウモロコシを確実に区別できることを実証した。 さらに、これらのGEDIプロファイルは、受動光学センサによって検出されるスペクトルおよび現象特性と比較して、地理的により不変な特徴を提供することを示す。 gediは84%以上のアキュラシーを持つ各地域の他の作物とメイズを区別することができ、光学的特徴の転送では64%に対して82%以上のアキュラシーを持つ地域をまたいで移動することができる。 最後に,sentinel-2からの光学画像に基づくモデルのトレーニングラベルを生成するためにgediプロファイルが使用できることを示す。 トウモロコシは世界で2番目に広く栽培されている作物であり、しばしば風景の中で栽培される唯一の背の高い作物である。

High resolution crop type maps are an important tool for improving food security, and remote sensing is increasingly used to create such maps in regions that possess ground truth labels for model training. However, these labels are absent in many regions, and models trained in other regions on typical satellite features, such as those from optical sensors, often exhibit low performance when transferred. Here we explore the use of NASA's Global Ecosystem Dynamics Investigation (GEDI) spaceborne lidar instrument, combined with Sentinel-2 optical data, for crop type mapping. Using data from three major cropped regions (in China, France, and the United States) we first demonstrate that GEDI energy profiles are capable of reliably distinguishing maize, a crop typically above 2m in height, from crops like rice and soybean that are shorter. We further show that these GEDI profiles provide much more invariant features across geographies compared to spectral and phenological features detected by passive optical sensors. GEDI is able to distinguish maize from other crops within each region with accuracies higher than 84%, and able to transfer across regions with accuracies higher than 82% compared to 64% for transfer of optical features. Finally, we show that GEDI profiles can be used to generate training labels for models based on optical imagery from Sentinel-2, thereby enabling the creation of 10m wall-to-wall maps of tall versus short crops in label-scarce regions. As maize is the second most widely grown crop in the world and often the only tall crop grown within a landscape, we conclude that GEDI offers great promise for improving global crop type maps.
翻訳日:2021-09-19 14:30:10 公開日:2021-09-10
# (参考訳) R3LIVE:ロバストでリアルタイム、RGB色、LiDAR-Inertial-Visua l 密結合状態推定とマッピングパッケージ [全文訳有]

R3LIVE: A Robust, Real-time, RGB-colored, LiDAR-Inertial-Visua l tightly-coupled state Estimation and mapping package ( http://arxiv.org/abs/2109.07982v1 )

ライセンス: CC BY 4.0
Jiarong Lin and Fu Zhang(参考訳) 本稿では,lidar,慣性,視覚センサの測定を活用し,ロバストで正確な状態推定を実現する新しいlidar-inertial-visua l sensor fusionフレームワークr3liveを提案する。 R3LIVEは、LIO(LiDAR-inertial odometry)とVIO(visual-inertial odometry)の2つのサブシステムから構成される。 LIOサブシステム(FAST-LIO)は、LiDARと慣性センサーからの測定を活用し、(つまり3Dポイントの位置)グローバルマップの幾何学構造を構築する。 VIOサブシステムは視覚慣性センサーのデータを使用し、地図のテクスチャ(つまり3Dポイントの色)をレンダリングする。 より具体的には、vioサブシステムは、フレーム対マップフォトメトリックエラーを最小化し、視覚的データを直接かつ効果的に融合する。 開発システムであるR3LIVEは、アーキテクチャ設計と実装を慎重に行い、これまでのR2LIVEに基づいて開発されている。 実験結果から,本システムは現状のシステムに比べて,より堅牢で高精度な状態推定が可能であることが示唆された(添付ビデオ参照)。 R3LIVEは様々な応用に向けて多用途でよく設計されたシステムであり、リアルタイムなロボットアプリケーションのためのSLAMシステムとして機能するだけでなく、測量やマッピングのようなアプリケーションのための密集した正確なRGB色の3Dマップを再構築することもできる。 さらに,r3liveの拡張性を高めるために,メッシュの再構築とテキスト化のための一連のオフラインユーティリティを開発し,r3liveとシミュレータやビデオゲームなど,さまざまな3dアプリケーションとのギャップをさらに最小化する(デモビデオ参照)。 私たちの発見を共有し、コミュニティに貢献するために、私たちはGithubでR3LIVEをオープンソース化しました。

In this letter, we propose a novel LiDAR-Inertial-Visua l sensor fusion framework termed R3LIVE, which takes advantage of measurement of LiDAR, inertial, and visual sensors to achieve robust and accurate state estimation. R3LIVE is contained of two subsystems, the LiDAR-inertial odometry (LIO) and visual-inertial odometry (VIO). The LIO subsystem (FAST-LIO) takes advantage of the measurement from LiDAR and inertial sensors and builds the geometry structure of (i.e. the position of 3D points) global maps. The VIO subsystem utilizes the data of visual-inertial sensors and renders the map's texture (i.e. the color of 3D points). More specifically, the VIO subsystem fuses the visual data directly and effectively by minimizing the frame-to-map photometric error. The developed system R3LIVE is developed based on our previous work R2LIVE, with careful architecture design and implementation. Experiment results show that the resultant system achieves more robustness and higher accuracy in state estimation than current counterparts (see our attached video). R3LIVE is a versatile and well-engineered system toward various possible applications, which can not only serve as a SLAM system for real-time robotic applications, but can also reconstruct the dense, precise, RGB-colored 3D maps for applications like surveying and mapping. Moreover, to make R3LIVE more extensible, we develop a series of offline utilities for reconstructing and texturing meshes, which further minimizes the gap between R3LIVE and various of 3D applications such as simulators, video games and etc (see our demos video). To share our findings and make contributions to the community, we open source R3LIVE on our Github, including all of our codes, software utilities, and the mechanical design of our device.
翻訳日:2021-09-19 14:07:51 公開日:2021-09-10
# (参考訳) アノテーションの量の違いによる学習:ゼロから多くのラベルへ [全文訳有]

Learning with Different Amounts of Annotation: From Zero to Many Labels ( http://arxiv.org/abs/2109.04408v2 )

ライセンス: CC BY 4.0
Shujian Zhang, Chengyue Gong, Eunsol Choi(参考訳) NLPシステムのトレーニングは通常、例ごとに単一の人間ラベルを持つ注釈付きデータへのアクセスを前提としている。 アノテータからの不完全なラベル付けと言語固有のあいまいさを考えると、単一ラベルは言語解釈のスペクトルを学ぶのに十分ではないと仮定する。 トレーニング例の小さなサブセットに対して,サンプル毎に複数のラベルを割り当てて,アノテーションの分散スキームを新たに検討する。 このような複数ラベルのサンプルを、より少ない例に注釈付けするコストで導入すると、自然言語推論タスクやエンティティタイピングタスクにおいて明らかな利益が得られます。 mixupデータ拡張フレームワークを拡張して、異なる量のアノテーション(ゼロ、ワン、複数ラベル)を使ったトレーニング例から学習可能な学習アルゴリズムを提案する。 このアルゴリズムは、不均一なトレーニングデータからの信号を効率よく組み合わせ、低アノテーション予算とクロスドメイン設定でさらなる利得をもたらす。 提案手法は2つのタスクにおいて一貫したゲインを達成し,トレーニング例に不均一にラベルを配布することは,多くのNLPタスクにとって有益であることを示す。

Training NLP systems typically assumes access to annotated data that has a single human label per example. Given imperfect labeling from annotators and inherent ambiguity of language, we hypothesize that single label is not sufficient to learn the spectrum of language interpretation. We explore new annotation distribution schemes, assigning multiple labels per example for a small subset of training examples. Introducing such multi label examples at the cost of annotating fewer examples brings clear gains on natural language inference task and entity typing task, even when we simply first train with a single label data and then fine tune with multi label examples. Extending a MixUp data augmentation framework, we propose a learning algorithm that can learn from training examples with different amount of annotation (with zero, one, or multiple labels). This algorithm efficiently combines signals from uneven training data and brings additional gains in low annotation budget and cross domain settings. Together, our method achieves consistent gains in two tasks, suggesting distributing labels unevenly among training examples can be beneficial for many NLP tasks.
翻訳日:2021-09-19 02:22:36 公開日:2021-09-10
# (参考訳) 網膜基底像を用いた深層学習に基づく赤色病変検出フレームワーク [全文訳有]

A Deep Learning-Based Unified Framework for Red Lesions Detection on Retinal Fundus Images ( http://arxiv.org/abs/2109.05021v1 )

ライセンス: CC0 1.0
Norah Asiri, Muhammad Hussain, Fadwa Al Adel, Hatim Aboalsamh(参考訳) 微小動脈瘤(MA)と出血(HMs)は糖尿病網膜症(DR)の早期徴候である。 網膜基底画像におけるMAとHMの自動検出は難しい課題である。 既存の手法のほとんどは、テクスチャ、サイズ、形態の違いから、MAのみまたはHMのみを検出する。 いくつかの方法はMAとHMの両方を検知するが、形状と色の特徴の次元性の呪いに悩まされ、炎型HMのようなHMのすべての形状変化を検知できない。 深層学習の進歩を活かし,小病変と大病変を同時に扱う2流赤色病変検出システムを提案した。 本システムでは,血管の分節と形態的操作に基づく大規模赤色病変眼底画像のrois候補生成法を導入し,計算の複雑さを低減し,少数の候補を生成することで検出精度を向上させる。 検出には、Faster RCNNフレームワークを2つのストリームで適用しました。 骨モデルとして事前訓練されたvggnetを用い, 血管の分節化と候補発生を調整し, 最終的に適切なマッピングを学習し, 最先端の方法と比較し, 良好な赤色病変の検出を可能にした。 本手法は,ダイアレットdb1-maおよびdiaretdb1-hmデータセットの4fpi以下の感度,e-ophthaおよびrochデータセットの1fpiにおいて,種々の評価指標を用いて,各病変検出において高い精度が得られることを示す。 DRスクリーニングでは、DiaretDB1-MA、DiaretDB1-HM、e-ophthaデータセットの他の手法よりも優れている。

Red-lesions, i.e., microaneurysms (MAs) and hemorrhages (HMs), are the early signs of diabetic retinopathy (DR). The automatic detection of MAs and HMs on retinal fundus images is a challenging task. Most of the existing methods detect either only MAs or only HMs because of the difference in their texture, sizes, and morphology. Though some methods detect both MAs and HMs, they suffer from the curse of dimensionality of shape and colors features and fail to detect all shape variations of HMs such as flame-shaped HM. Leveraging the progress in deep learning, we proposed a two-stream red lesions detection system dealing simultaneously with small and large red lesions. For this system, we introduced a new ROIs candidates generation method for large red lesions fundus images; it is based on blood vessel segmentation and morphological operations, and reduces the computational complexity, and enhances the detection accuracy by generating a small number of potential candidates. For detection, we adapted the Faster RCNN framework with two streams. We used pre-trained VGGNet as a bone model and carried out several extensive experiments to tune it for vessels segmentation and candidates generation, and finally learning the appropriate mapping, which yields better detection of the red lesions comparing with the state-of-the-art methods. The experimental results validated the effectiveness of the system in the detection of both MAs and HMs; the method yields higher performance for per lesion detection according to sensitivity under 4 FPIs on DiaretDB1-MA and DiaretDB1-HM datasets, and 1 FPI on e-ophtha and ROCh datasets than the state of the art methods w.r.t. various evaluation metrics. For DR screening, the system outperforms other methods on DiaretDB1-MA, DiaretDB1-HM, and e-ophtha datasets.
翻訳日:2021-09-19 01:44:12 公開日:2021-09-10
# (参考訳) ソコバンにおけるポテンシャルベースリワード形成 [全文訳有]

Potential-based Reward Shaping in Sokoban ( http://arxiv.org/abs/2109.05022v1 )

ライセンス: CC BY 4.0
Zhao Yang, Mike Preuss, Aske Plaat(参考訳) 目標へのガイダンスが不足しているため,スパース・リワード強化学習の問題解決は困難である。 しかし、いくつかの問題では、事前知識は学習プロセスを強化するのに使うことができる。 リワード・シェーピング(Reward shaping)は、学習をスピードアップするために、事前知識を元の報酬関数に組み込む方法である。 従来の研究は,潜在的な機能を生成するための専門家知識の利用について検討してきたが,本研究では探索アルゴリズム(A*)を用いて,よく知られた計画課題であるソコバンの報酬形成機能を自動的に生成できるかどうかを検討した。 その結果,字型報酬関数による学習は,スクラッチから学習するよりも速いことがわかった。 その結果,距離関数はソコバンに適した関数であることが示唆された。 この研究は、報酬形成の助けを借りて複数のインスタンスを解決する可能性を示している。 結果は単一のポリシーに圧縮され、目に見えないインスタンスを解決できる一般的なポリシーをトレーニングするための最初のフレーズと見なすことができる。

Learning to solve sparse-reward reinforcement learning problems is difficult, due to the lack of guidance towards the goal. But in some problems, prior knowledge can be used to augment the learning process. Reward shaping is a way to incorporate prior knowledge into the original reward function in order to speed up the learning. While previous work has investigated the use of expert knowledge to generate potential functions, in this work, we study whether we can use a search algorithm(A*) to automatically generate a potential function for reward shaping in Sokoban, a well-known planning task. The results showed that learning with shaped reward function is faster than learning from scratch. Our results indicate that distance functions could be a suitable function for Sokoban. This work demonstrates the possibility of solving multiple instances with the help of reward shaping. The result can be compressed into a single policy, which can be seen as the first phrase towards training a general policy that is able to solve unseen instances.
翻訳日:2021-09-19 01:03:12 公開日:2021-09-10
# (参考訳) 部分的術中点集合データを用いたリアルタイムマルチモーダル画像登録 [全文訳有]

Real-time multimodal image registration with partial intraoperative point-set data ( http://arxiv.org/abs/2109.05023v1 )

ライセンス: CC BY 4.0
Zachary M C Baum, Yipeng Hu, Dean C Barratt(参考訳) 非厳密な点集合登録のためのディープニューラルネットワークアーキテクチャであるFree Point Transformer (FPT)を提案する。 グローバルな特徴抽出モジュールと点変換モジュールの2つのモジュールから構成されており、FPTは点近傍に基づく明示的な制約を前提とせず、従来の学習ベースの点集合登録手法の共通要件を克服する。 FPTは、可変数の点を持つ無順序および非構造化の点集合を受け入れるように設計されており、ヒューリスティックな制約を伴わずに「モデルフリー」アプローチを使用する。 トレーニングFPTは柔軟で、直感的に教師なしの損失関数を最小化するが、教師付き、半教師付き、一部または弱い教師付きトレーニングもサポートされている。 この柔軟性により、FPTは、地軸変形が困難または測定不可能なマルチモーダル画像登録問題に対処できる。 本稿では,前立腺磁気共鳴(MR)画像の非剛性登録と,スパルスサンプリング経直腸超音波(TRUS)画像へのFPTの適用を実証する。 登録誤差はそれぞれ4.71mmと4.81mmで、完全なTRUS画像と疎サンプリングTRUS画像が得られた。 実験結果から,非剛性および非剛性登録アルゴリズムの精度が向上し,計算時間が大幅に短縮された。 FPTで可能な迅速な推論は、リアルタイム登録が有用であるアプリケーションに特に適している。

We present Free Point Transformer (FPT) - a deep neural network architecture for non-rigid point-set registration. Consisting of two modules, a global feature extraction module and a point transformation module, FPT does not assume explicit constraints based on point vicinity, thereby overcoming a common requirement of previous learning-based point-set registration methods. FPT is designed to accept unordered and unstructured point-sets with a variable number of points and uses a "model-free" approach without heuristic constraints. Training FPT is flexible and involves minimizing an intuitive unsupervised loss function, but supervised, semi-supervised, and partially- or weakly-supervised training are also supported. This flexibility makes FPT amenable to multimodal image registration problems where the ground-truth deformations are difficult or impossible to measure. In this paper, we demonstrate the application of FPT to non-rigid registration of prostate magnetic resonance (MR) imaging and sparsely-sampled transrectal ultrasound (TRUS) images. The registration errors were 4.71 mm and 4.81 mm for complete TRUS imaging and sparsely-sampled TRUS imaging, respectively. The results indicate superior accuracy to the alternative rigid and non-rigid registration algorithms tested and substantially lower computation time. The rapid inference possible with FPT makes it particularly suitable for applications where real-time registration is beneficial.
翻訳日:2021-09-19 00:54:28 公開日:2021-09-10
# (参考訳) 深部強化学習による家庭用電池・太陽光発電システムの最適化 [全文訳有]

Optimizing a domestic battery and solar photovoltaic system with deep reinforcement learning ( http://arxiv.org/abs/2109.05024v1 )

ライセンス: CC BY 4.0
Alexander J. M. Kell, A. Stephen McGough, Matthew Forshaw(参考訳) バッテリーのコストと太陽光発電システムのコストの低下は、ソーラーバッテリーのホームシステムの増加につながった。 本研究では,システム内の電池の充電・放電挙動を最適化するために,深い決定論的ポリシー勾配アルゴリズムを用いる。 提案手法は, 電池の充電および放電時に連続的な動作空間を出力し, 確率的環境下でよく機能する。 このアルゴリズムは、1年以内に1世帯あたりの電力消費を1週間に1,100ドル程度に抑えることで、優れた性能を示している。

A lowering in the cost of batteries and solar PV systems has led to a high uptake of solar battery home systems. In this work, we use the deep deterministic policy gradient algorithm to optimise the charging and discharging behaviour of a battery within such a system. Our approach outputs a continuous action space when it charges and discharges the battery, and can function well in a stochastic environment. We show good performance of this algorithm by lowering the expenditure of a single household on electricity to almost \$1AUD for large batteries across selected weeks within a year.
翻訳日:2021-09-19 00:10:06 公開日:2021-09-10
# (参考訳) フロリダ州サーフサイドにおけるマンションビル崩壊調査:ビデオ特徴追跡手法 [全文訳有]

Investigation of condominium building collapse in Surfside, Florida: a video feature tracking approach ( http://arxiv.org/abs/2109.06629v1 )

ライセンス: CC BY 4.0
Xiangxiong Kong(参考訳) 2021年6月24日、フロリダ州サーフサイドにある12階建てのマンション(シャンプレーン・タワーズ・サウス)が部分的に崩壊し、98人が死亡した。 ソーシャルメディアから公開されているビデオクリップを用いて,この崩壊イベントを分析した。 コンピュータビジョンアルゴリズムを応用して,人間の目では容易に解釈できないビデオクリップから新たな情報を取り出す。 異なる映像フレームに対する差動特性を比較することで,動きの方向や大きさを直感的に示すことにより,落下する構造成分を定量化することができる。 我々は,この映像処理手法が破壊的構造破壊の調査に有用であることを実証し,この現象と他の構造崩壊のさらなる調査の基盤となることを期待する。

On June 24, 2021, a 12-story condominium building (Champlain Towers South) in Surfside, Florida partially collapsed, resulting in one of the deadliest building collapses in United States history with 98 people are confirmed dead. We analyze this collapse event using a video clip that is publicly available from social media. We apply computer vision algorithms to corroborate new information from the video clip that may not be readily interpreted by human eyes. By comparing the differential features against different video frames, our method can quantify the falling structural components by intuitively showing the directions and magnitudes of their movements. We demonstrate the potential of this video processing methodology in investigations of catastrophic structural failures and hope our results would serve as the basis for further investigations of this and other structure collapse events.
翻訳日:2021-09-18 23:59:20 公開日:2021-09-10
# (参考訳) PPR Martingale Confidence Sequences を用いたPACモード推定 [全文訳有]

PAC Mode Estimation using PPR Martingale Confidence Sequences ( http://arxiv.org/abs/2109.05047v1 )

ライセンス: CC BY 4.0
Shubham Anand Jain, Sanit Gupta, Denil Mehta, Inderjeet Jayakumar Nair, Rohan Shah, Jian Vora, Sushil Khyalia, Sourav Das, Vinay J. Ribeiro, Shivaram Kalyanakrishnan(参考訳) 離散分布 $\mathcal{p}$ のモードを十分に高い確率で正しく同定する問題は、$\mathcal{p}$ に従って描かれた i.i.d. サンプルの列を観察することによって解決される。 この問題は、$\mathcal{p}$ が $k = 2$ の大きさのサポートセットを持つとき、単一のパラメータの推定に還元される。 この特別なケースを扱うために、ppr の martingale 信頼シーケンスの効率性に注目し、$\mathcal{p}$ が $k \geq 2$ の値を取るモード推定の一般化を提案する。 我々は、"one-versus-one"原則が"one-versus-rest" ;代替よりもより効率的な一般化をもたらすことを観察する。 結果,PPR-MEと表される停止規則は,対数係数までのサンプル複雑性において最適である。 さらに、PPR-MEは、モード推定のための他の競合するアプローチよりも経験的に優れている。 1) 間接選挙システムにおける勝者のサンプルベース予測と, (2) 許可なしブロックチェーンにおけるスマートコントラクトの効率的な検証である。

We consider the problem of correctly identifying the mode of a discrete distribution $\mathcal{P}$ with sufficiently high probability by observing a sequence of i.i.d. samples drawn according to $\mathcal{P}$. This problem reduces to the estimation of a single parameter when $\mathcal{P}$ has a support set of size $K = 2$. Noting the efficiency of prior-posterior-rati o (PPR) martingale confidence sequences for handling this special case, we propose a generalisation to mode estimation, in which $\mathcal{P}$ may take $K \geq 2$ values. We observe that the "one-versus-one" principle yields a more efficient generalisation than the "one-versus-rest" ; alternative. Our resulting stopping rule, denoted PPR-ME, is optimal in its sample complexity up to a logarithmic factor. Moreover, PPR-ME empirically outperforms several other competing approaches for mode estimation. We demonstrate the gains offered by PPR-ME in two practical applications: (1) sample-based forecasting of the winner in indirect election systems, and (2) efficient verification of smart contracts in permissionless blockchains.
翻訳日:2021-09-18 23:53:13 公開日:2021-09-10
# (参考訳) 質問応答におけるエンティティベースの知識紛争 [全文訳有]

Entity-Based Knowledge Conflicts in Question Answering ( http://arxiv.org/abs/2109.05052v1 )

ライセンス: CC BY 4.0
Shayne Longpre, Kartik Perisetla, Anthony Chen, Nikhil Ramesh, Chris DuBois, Sameer Singh(参考訳) 知識依存タスクは通常、パラメトリック(parametric)、トレーニング時に学習(learning)、コンテクスト(context)の2つの知識源を使用する。 モデルがこれらの情報源をどのように利用するかを理解するために、文脈情報が学習情報と矛盾する知識矛盾の問題を定式化する。 人気モデルの振る舞いを分析し、記憶された情報(幻覚の原因)の過度信頼度を測定し、この行動を悪化させる重要な要因を明らかにする。 最後に,幻覚を最小限に抑えるパラメトリック知識への過剰依存を緩和し,分布の一般化を4%~7%改善する方法を提案する。 本研究は,実践者が読解よりも幻覚の傾向を評価することの重要性を示し,その緩和戦略が進化する情報(時間依存クエリ)の一般化を促進することを示す。 これらのプラクティスを促進するため、私たちは知識の衝突を引き起こすためのフレームワークをリリースしました。

Knowledge-dependent tasks typically use two sources of knowledge: parametric, learned at training time, and contextual, given as a passage at inference time. To understand how models use these sources together, we formalize the problem of knowledge conflicts, where the contextual information contradicts the learned information. Analyzing the behaviour of popular models, we measure their over-reliance on memorized information (the cause of hallucinations), and uncover important factors that exacerbate this behaviour. Lastly, we propose a simple method to mitigate over-reliance on parametric knowledge, which minimizes hallucination, and improves out-of-distribution generalization by 4%-7%. Our findings demonstrate the importance for practitioners to evaluate model tendency to hallucinate rather than read, and show that our mitigation strategy encourages generalization to evolving information (i.e., time-dependent queries). To encourage these practices, we have released our framework for generating knowledge conflicts.
翻訳日:2021-09-18 23:18:54 公開日:2021-09-10
# (参考訳) 対話行為分類のための話者ターンモデリング [全文訳有]

Speaker Turn Modeling for Dialogue Act Classification ( http://arxiv.org/abs/2109.05056v1 )

ライセンス: CC BY 4.0
Zihao He, Leili Tavabi, Kristina Lerman, Mohammad Soleymani(参考訳) ダイアログ法(英: Dialogue Act, DA)は、ダイアログにおける機能に関する発話を分類するタスクである。 既存のDA分類モデル発話へのアプローチは、対話を通して話者間の旋回変化を含まないため、非対話的テキストと変わらない。 本稿では,DAをモデル化する際の話者間の会話の変化を統合することを提案する。 具体的には、会話中の話者の順番を表す会話不変話者の順番埋め込みを学習し、学習された話者の順番埋め込みを、da分類の下流タスクのための発話埋め込みとマージする。 このシンプルで効果的なメカニズムにより、対話内容から意味を捉えることができ、会話の中で異なる話者のターンを考慮に入れられる。 3つのベンチマークデータセットの検証は、我々のモデルの優れたパフォーマンスを示しています。

Dialogue Act (DA) classification is the task of classifying utterances with respect to the function they serve in a dialogue. Existing approaches to DA classification model utterances without incorporating the turn changes among speakers throughout the dialogue, therefore treating it no different than non-interactive written text. In this paper, we propose to integrate the turn changes in conversations among speakers when modeling DAs. Specifically, we learn conversation-invaria nt speaker turn embeddings to represent the speaker turns in a conversation; the learned speaker turn embeddings are then merged with the utterance embeddings for the downstream task of DA classification. With this simple yet effective mechanism, our model is able to capture the semantics from the dialogue content while accounting for different speaker turns in a conversation. Validation on three benchmark public datasets demonstrates superior performance of our model.
翻訳日:2021-09-18 23:00:38 公開日:2021-09-10
# (参考訳) 自動運転車のためのスタックアンサンブルによるオープンワールドアクティブラーニング [全文訳有]

Open-World Active Learning with Stacking Ensemble for Self-Driving Cars ( http://arxiv.org/abs/2109.06628v1 )

ライセンス: CC BY 4.0
Paulo R. Vieira, Pedro D. F\'elix, Luis Macedo(参考訳) 自動運転車の動作する環境は、高度でダイナミックで不確実性に満ちており、感覚情報や知識ベースを継続的に更新する必要がある。 未知の物体に直面する頻度は高すぎるため、通常、近世界の仮定に依存する人工知能(AI)古典的な分類モデルの使用は困難である。 この領域でオブジェクトを分類するこの問題は、オープンワールドのAIアプローチに向いている。 自動車の前に現れる可能性のある既知のすべてのエンティティを識別するだけでなく、高速道路(トラックから失ったボックスなど)に立つことが稀な、未知のオブジェクトのクラスを検知し、学習するアルゴリズムを提案する。 我々のアプローチはLei ShuらのDOCアルゴリズムに依存している。 Query-by-Committeeアルゴリズムも同様です。

The environments, in which autonomous cars act, are high-risky, dynamic, and full of uncertainty, demanding a continuous update of their sensory information and knowledge bases. The frequency of facing an unknown object is too high making hard the usage of Artificial Intelligence (AI) classical classification models that usually rely on the close-world assumption. This problem of classifying objects in this domain is better faced with and open-world AI approach. We propose an algorithm to identify not only all the known entities that may appear in front of the car, but also to detect and learn the classes of those unknown objects that may be rare to stand on an highway (e.g., a lost box from a truck). Our approach relies on the DOC algorithm from Lei Shu et. al. as well as on the Query-by-Committee algorithm.
翻訳日:2021-09-18 22:49:48 公開日:2021-09-10
# (参考訳) 不変有限信念集合による同時知覚行動設計 [全文訳有]

Simultaneous Perception-Action Design via Invariant Finite Belief Sets ( http://arxiv.org/abs/2109.05073v1 )

ライセンス: CC BY 4.0
Michael Hibbard, Takashi Tanaka, Ufuk Topcu(参考訳) 認知は、自律システム全体の計算コストの中でますます支配的になっているが、認識される情報のほんの一部が現在のタスクに関係している可能性が高い。 これらの知覚コストを軽減するために,エージェントがタスク関連情報のみを検知する新しい同時認識行動設計フレームワークを開発する。 この定式化は、部分的に観測可能なマルコフ決定過程とは異なる、なぜならエージェントは行動選択のポリシーだけでなく、信念に依存した観察関数も自由に合成できるからである。 この方法により、エージェントは、その環境下での操作によって生じるものと知覚コストのバランスをとることができる。 計算的に抽出可能な解を得るために、不変有限信念集合の新しい方法を用いて値関数を近似し、エージェントは連続信念空間の有限部分集合にのみ作用する。 本稿では,各反復において,集合の各信念状態に対して線形プログラムを個別に解いた値反復による近似問題を解く。 最後に,その構造を仮定した値関数が,試料密度が増加するにつれて連続的な状態空間値に収束することを示す。

Although perception is an increasingly dominant portion of the overall computational cost for autonomous systems, only a fraction of the information perceived is likely to be relevant to the current task. To alleviate these perception costs, we develop a novel simultaneous perception-action design framework wherein an agent senses only the task-relevant information. This formulation differs from that of a partially observable Markov decision process, since the agent is free to synthesize not only its policy for action selection but also its belief-dependent observation function. The method enables the agent to balance its perception costs with those incurred by operating in its environment. To obtain a computationally tractable solution, we approximate the value function using a novel method of invariant finite belief sets, wherein the agent acts exclusively on a finite subset of the continuous belief space. We solve the approximate problem through value iteration in which a linear program is solved individually for each belief state in the set, in each iteration. Finally, we prove that the value functions, under an assumption on their structure, converge to their continuous state-space values as the sample density increases.
翻訳日:2021-09-18 22:42:22 公開日:2021-09-10
# (参考訳) fbert: 攻撃的コンテンツを識別するニューラルネットワークトランスフォーマー [全文訳有]

FBERT: A Neural Transformer for Identifying Offensive Content ( http://arxiv.org/abs/2109.05074v1 )

ライセンス: CC BY 4.0
Diptanu Sarkar, Marcos Zampieri, Tharindu Ranasinghe, Alexander Ororbia(参考訳) BERT、XLNET、XLM-Rといったトランスフォーマーベースのモデルは、攻撃的言語やヘイトスピーチの識別など、さまざまなNLPタスクにおける最先端のパフォーマンスを実現している。 本稿では,イギリス最大の攻撃言語識別コーパスである solid 上で再トレーニングされた bert モデル fbert について述べる。 複数の英文データセット上での攻撃的内容の同定におけるfBERTの性能を評価し、SOLIDからインスタンスを選択するためのしきい値をテストする。 fBERTモデルは、コミュニティで自由に利用できるようになる。

Transformer-based models such as BERT, XLNET, and XLM-R have achieved state-of-the-art performance across various NLP tasks including the identification of offensive language and hate speech, an important problem in social media. In this paper, we present fBERT, a BERT model retrained on SOLID, the largest English offensive language identification corpus available with over $1.4$ million offensive instances. We evaluate fBERT's performance on identifying offensive content on multiple English datasets and we test several thresholds for selecting instances from SOLID. The fBERT model will be made freely available to the community.
翻訳日:2021-09-18 22:09:08 公開日:2021-09-10
# (参考訳) 検査映像からの多層橋梁要素の分断支援のための半教師付き自己学習法 [全文訳有]

A semi-supervised self-training method to develop assistive intelligence for segmenting multiclass bridge elements from inspection videos ( http://arxiv.org/abs/2109.05078v1 )

ライセンス: CC BY 4.0
Muhammad Monjurul Karim, Ruwen Qin, Zhaozheng Yin, enda Chen(参考訳) 橋梁検査は, 交通インフラの維持と整備において, サービス寿命を延ばすための重要なステップである。 移動ロボット技術の進歩により、大量の検査ビデオデータの迅速な収集が可能となった。 しかし、データは主に複雑なシーンのイメージであり、様々な構造要素の橋梁が散らばった背景と混ざり合っている。 複雑な映像データから橋梁の構造要素を抽出し、クラス別にソートするブリッジインスペクタを支援することで、橋梁の状態を決定するための要素インスペクタを作成する。 本稿では,空中検査プラットフォームで撮影した検査ビデオから,多層橋梁要素の分断を支援する支援インテリジェンスモデルを開発することを目的としている。 インスペクタによってラベル付けされた小さな初期トレーニングデータセットにより、大きなパブリックデータセットで事前トレーニングされたマスク領域ベースの畳み込みニューラルネットワーク(mask r-cnn)が、マルチクラスブリッジ要素セグメンテーションの新しいタスクに転送された。 さらに、時間的コヒーレンス分析は、偽陰性を回復し、ニューラルネットワークが改善するために学べる弱点を特定しようとする。 さらに,ネットワークを反復的に精査する経験者を対象に,半教師付き自己訓練法(S$^3$T)を開発した。 開発した深層ニューラルネットワークの評価から得られた定量的・定性的な結果は、経験豊富な検査官(66画像のラベル付けに3.58時間)による少量の時間とガイダンスを用いて、優れた性能(91.8%の精度、93.6%のリコール、92.7%のf1-score)のネットワークを構築することができることを示している。 重要なことに、本論文は、橋梁専門家のドメイン知識と経験を計算知モデルに活用し、橋梁インベントリのさまざまな橋に効率的に適用するためのアプローチを示す。

Bridge inspection is an important step in preserving and rehabilitating transportation infrastructure for extending their service lives. The advancement of mobile robotic technology allows the rapid collection of a large amount of inspection video data. However, the data are mainly images of complex scenes, wherein a bridge of various structural elements mix with a cluttered background. Assisting bridge inspectors in extracting structural elements of bridges from the big complex video data, and sorting them out by classes, will prepare inspectors for the element-wise inspection to determine the condition of bridges. This paper is motivated to develop an assistive intelligence model for segmenting multiclass bridge elements from inspection videos captured by an aerial inspection platform. With a small initial training dataset labeled by inspectors, a Mask Region-based Convolutional Neural Network (Mask R-CNN) pre-trained on a large public dataset was transferred to the new task of multiclass bridge element segmentation. Besides, the temporal coherence analysis attempts to recover false negatives and identify the weakness that the neural network can learn to improve. Furthermore, a semi-supervised self-training (S$^3$T) method was developed to engage experienced inspectors in refining the network iteratively. Quantitative and qualitative results from evaluating the developed deep neural network demonstrate that the proposed method can utilize a small amount of time and guidance from experienced inspectors (3.58 hours for labeling 66 images) to build the network of excellent performance (91.8% precision, 93.6% recall, and 92.7% f1-score). Importantly, the paper illustrates an approach to leveraging the domain knowledge and experiences of bridge professionals into computational intelligence models to efficiently adapt the models to varied bridges in the National Bridge Inventory.
翻訳日:2021-09-18 21:35:08 公開日:2021-09-10
# (参考訳) 最新のPTZ(Pan, Tilt, Zoom)カメラ技術と畳み込みニューラルネットワークを用いた予備的山火事検出 [全文訳有]

Preliminary Wildfire Detection Using State-of-the-art PTZ (Pan, Tilt, Zoom) Camera Technology and Convolutional Neural Networks ( http://arxiv.org/abs/2109.05083v1 )

ライセンス: CC BY 4.0
Samarth Shah(参考訳) 野生の火は、人間や自然によって引き起こされる可能性のある環境における制御不能な火である。 2020年だけで、カリフォルニア州の山火事は4200万エーカーの土地を燃やし、10,500の建物や建物を破壊し、31人以上の死者を出した。 これはまた、これらの裏切り的な野火を消火するコストが増加したことを意味する。 研究の目的は、初期の段階で森林火災を検出して拡散を防ぎ、様々な物に損傷を与えないようにすること、そして最も重要なことは、人が山火事で死ぬ可能性を減らすか、排除することである。 火災検知システムは、早期に野火を消火し、その影響とともにその拡散を防止するため、効率的かつ正確でなければならない。 コンピュータビジョンは、私たちが必要とするより信頼性が高く、高速で、幅広い方法です。 予備的火災検出の分野での最近の研究には、モデルのトレーニングに使用される非表現データと、それらのデータセットのクラスにおける既存の様々なラベルの不均衡に関するいくつかの問題がある。 我々は,データセット全体の設定,照明,雰囲気,クラス分布の改善を通じて,より代表的で均等に分散したデータを提案する。 この研究の結果を徹底的に調べた結果、未知のデータで実世界でテストした場合、データセットの強度が有効なリソースであることが推測できる。 モデルがデータセットをトレーニングするので、それを一般化することができるため、実用的な影響を持つマシンラーニング環境として実行可能なものであることは明らかです。

Wildfires are uncontrolled fires in the environment that can be caused by humans or nature. In 2020 alone, wildfires in California have burned 4.2 million acres, damaged 10,500 buildings or structures, and killed more than 31 people, exacerbated by climate change and a rise in average global temperatures. This also means there has been an increase in the costs of extinguishing these treacherous wildfires. The objective of the research is to detect forest fires in their earlier stages to prevent them from spreading, prevent them from causing damage to a variety of things, and most importantly, reduce or eliminate the chances of someone dying from a wildfire. A fire detection system should be efficient and accurate with respect to extinguishing wildfires in their earlier stages to prevent the spread of them along with their consequences. Computer Vision is potentially a more reliable, fast, and widespread method we need. The current research in the field of preliminary fire detection has several problems related to unrepresentative data being used to train models and their existing varied amounts of label imbalance in the classes of their dataset. We propose a more representative and evenly distributed data through better settings, lighting, atmospheres, etc., and class distribution in the entire dataset. After thoroughly examining the results of this research, it can be inferred that they supported the datasets strengths by being a viable resource when tested in the real world on unfamiliar data. This is evident since as the model trains on the dataset, it is able to generalize on it, hence confirming this is a viable Machine Learning setting that has practical impact.
翻訳日:2021-09-18 21:11:20 公開日:2021-09-10
# (参考訳) 早期COVID-19データから予後因子を決定するブラックボックス機械学習モデルのグローバル・ローカル解釈 [全文訳有]

Global and Local Interpretation of black-box Machine Learning models to determine prognostic factors from early COVID-19 data ( http://arxiv.org/abs/2109.05087v1 )

ライセンス: CC BY 4.0
Ananya Jana, Carlos D. Minacapelli, Vinod Rustgi, Dimitris Metaxas(参考訳) コロナウイルスは2021年7月24日現在、4100万人が死亡している。 関連するデータにはさまざまな機械学習モデルが適用され、疾患の重症度、感染率、重要な予後因子の発見などの重要な要因を予測する。 これらの手法を用いた結果の有用性は, 解法の欠如により低下することが多い。 機械学習モデルの解釈可能性に関する最近の進歩は、従来の機械学習モデルを使用してより多くの洞察を得る可能性がある。 本研究では、一般的な機械学習モデルを用いて、新型コロナウイルスの血液検査データを解析し、最先端の局所的解釈可能性技術(例えば、SHAP、LIME)とグローバルな解釈可能性技術(例えば、象徴的メタモデリング)をトレーニングされたブラックボックスモデルに適用し、解釈可能な結論を導き出す。 機械学習アルゴリズムでは、回帰は明確な数学的定式化を持つ最も単純で説明可能なモデルの1つである。 我々は、新型コロナウイルスの機械学習モデルの数学的表現を見つけるために、象徴的メタモデリングと呼ばれる最新の手法の1つを探求する。 急性腎不全(AKI)、初期アルブミン(ALBI)、アスパラギン酸アミノトランスフェラーゼ(ASTI)、TBILI(Ttal Bilirubin initial)、D-Dimer initial(DIMER)を重症度の主要な予後因子として同定した。 私たちの貢献は (i)covid-19重症度予測タスクにおけるブラックボックスモデルの数学的表現を明らかにする (二)この課題に記号的メタモデリングを最初に適用し、 (iii)重要な特徴や特徴の相互作用を発見します。

The COVID-19 corona virus has claimed 4.1 million lives, as of July 24, 2021. A variety of machine learning models have been applied to related data to predict important factors such as the severity of the disease, infection rate and discover important prognostic factors. Often the usefulness of the findings from the use of these techniques is reduced due to lack of method interpretability. Some recent progress made on the interpretability of machine learning models has the potential to unravel more insights while using conventional machine learning models. In this work, we analyze COVID-19 blood work data with some of the popular machine learning models; then we employ state-of-the-art post-hoc local interpretability techniques(e.g.- SHAP, LIME), and global interpretability techniques(e.g. - symbolic metamodeling) to the trained black-box models to draw interpretable conclusions. In the gamut of machine learning algorithms, regressions remain one of the simplest and most explainable models with clear mathematical formulation. We explore one of the most recent techniques called symbolic metamodeling to find the mathematical expression of the machine learning models for COVID-19. We identify Acute Kidney Injury (AKI), initial Albumin level (ALBI), Aspartate aminotransferase (ASTI), Total Bilirubin initial(TBILI) and D-Dimer initial (DIMER) as major prognostic factors of the disease severity. Our contributions are- (i) uncover the underlying mathematical expression for the black-box models on COVID-19 severity prediction task (ii) we are the first to apply symbolic metamodeling to this task, and (iii) discover important features and feature interactions.
翻訳日:2021-09-18 21:02:41 公開日:2021-09-10
# (参考訳) 候補再ランキングによるニューラルダイアログモデルの自己開示性の向上 [全文訳有]

Enhancing Self-Disclosure In Neural Dialog Models By Candidate Re-ranking ( http://arxiv.org/abs/2109.05090v1 )

ライセンス: CC BY 4.0
Mayank Soni, Benjamin Cowan, Vincent Wade(参考訳) ニューラルネットワークモデリングは、さまざまな下流自然言語処理(NLP)タスクにおいて最先端の進歩を遂げている。 このような領域の1つは、オープンドメインダイアログモデリングであり、DialoGPTのようなGPT-2に基づくニューラルダイアログモデルは、シングルターン会話において有望な性能を示している。 しかし、そのような(神経的な)ダイアログモデルは、以前の人間の反応と関係があるとしても、すぐに人間の関心を散逸させ、簡単な会話に陥る傾向があると批判されている。 このようなパフォーマンスの理由の1つは、人間と機械の会話に明示的な会話戦略が採用されていないことである。 人間は会話をしながら様々な会話戦略を採用するが、そのような社会戦略の1つは自己開示(SD)である。 他人に自分の情報を明らかにする現象。 社会的浸透理論 (spt) は、2人間のコミュニケーションが浅いレベルから深いレベルへと移動し、関係は主に自己開示を通じて進行することを提案する。 開示は、会話に参加している参加者の間でラプポートを作成するのに役立つ。 本稿では,ニューラルダイアログモデルの推論段階における自己開示トピックモデル(SDTM)を用いて,自己開示促進アーキテクチャ(SDEA)を導入し,単一ターン応答における自己開示をモデルから強化する。

Neural language modelling has progressed the state-of-the-art in different downstream Natural Language Processing (NLP) tasks. One such area is of open-domain dialog modelling, neural dialog models based on GPT-2 such as DialoGPT have shown promising performance in single-turn conversation. However, such (neural) dialog models have been criticized for generating responses which although may have relevance to the previous human response, tend to quickly dissipate human interest and descend into trivial conversation. One reason for such performance is the lack of explicit conversation strategy being employed in human-machine conversation. Humans employ a range of conversation strategies while engaging in a conversation, one such key social strategies is Self-disclosure(SD). A phenomenon of revealing information about one-self to others. Social penetration theory (SPT) proposes that communication between two people moves from shallow to deeper levels as the relationship progresses primarily through self-disclosure. Disclosure helps in creating rapport among the participants engaged in a conversation. In this paper, Self-disclosure enhancement architecture (SDEA) is introduced utilizing Self-disclosure Topic Model (SDTM) during inference stage of a neural dialog model to re-rank response candidates to enhance self-disclosure in single-turn responses from from the model.
翻訳日:2021-09-18 20:47:21 公開日:2021-09-10
# (参考訳) 力学系に対する確率的逆コープマンモデル [全文訳有]

Stochastic Adversarial Koopman Model for Dynamical Systems ( http://arxiv.org/abs/2109.05095v1 )

ライセンス: CC0 1.0
Kaushik Balakrishnan and Devesh Upadhyay(参考訳) 力学系はユビキタスであり、しばしば制御方程式の非線形系を用いてモデル化される。 多くの力学系の数値解法は数十年前から存在するが、力学系の高次元状態空間のために遅くなることがある。 したがって、深層学習に基づく還元順序モデル(ROM)は興味を持ち、これらの線に沿ったそのようなアルゴリズムの族はクープマン理論に基づいている。 本稿では、最近開発された逆koopmanモデル(balakrishnan \&upadhyay, arxiv:2006.05547)を確率空間に拡張し、koopman演算子がエンコーダの潜在符号化の確率分布に適用する。 具体的には、システムの潜在エンコーディングはガウスとしてモデル化され、2つのクープマン行列を$K_{\mu}$と$K_{\sigma}$で出力する補助ニューラルネットワークを用いて時間的に進化する。 逆や勾配の損失が使われ、予測誤差を下げることが分かる。 また、コップマン行列が三対角構造を持つと仮定した還元コップマン定式化も行われ、コップマン行列を満たしたベースラインモデルに匹敵する予測が得られる。 カオス, 流体力学, 燃焼, 反応拡散モデルにおける様々な試験問題に対して, 確率的クープマンモデルの有効性を実証した。 提案モデルはまた,Koopman行列を他の入力パラメータに条件付けして一般化し,これをリチウムイオン電池の時間内状態のシミュレートに応用する。 この研究で論じられたクープマンモデルは、検討された幅広い問題に対して非常に有望である。

Dynamical systems are ubiquitous and are often modeled using a non-linear system of governing equations. Numerical solution procedures for many dynamical systems have existed for several decades, but can be slow due to high-dimensional state space of the dynamical system. Thus, deep learning-based reduced order models (ROMs) are of interest and one such family of algorithms along these lines are based on the Koopman theory. This paper extends a recently developed adversarial Koopman model (Balakrishnan \& Upadhyay, arXiv:2006.05547) to stochastic space, where the Koopman operator applies on the probability distribution of the latent encoding of an encoder. Specifically, the latent encoding of the system is modeled as a Gaussian, and is advanced in time by using an auxiliary neural network that outputs two Koopman matrices $K_{\mu}$ and $K_{\sigma}$. Adversarial and gradient losses are used and this is found to lower the prediction errors. A reduced Koopman formulation is also undertaken where the Koopman matrices are assumed to have a tridiagonal structure, and this yields predictions comparable to the baseline model with full Koopman matrices. The efficacy of the stochastic Koopman model is demonstrated on different test problems in chaos, fluid dynamics, combustion, and reaction-diffusion models. The proposed model is also applied in a setting where the Koopman matrices are conditioned on other input parameters for generalization and this is applied to simulate the state of a Lithium-ion battery in time. The Koopman models discussed in this study are very promising for the wide range of problems considered.
翻訳日:2021-09-18 20:39:45 公開日:2021-09-10
# (参考訳) hypoGen: 常識と対実的知識を備えたハイパボラ生成 [全文訳有]

HypoGen: Hyperbole Generation with Commonsense and Counterfactual Knowledge ( http://arxiv.org/abs/2109.05097v1 )

ライセンス: CC BY 4.0
Yufei Tian, Arvind krishna Sridhar, and Nanyun Peng(参考訳) ハイパーボイル(hyperbole)とは、意図的で創造的な誇張である。 日常生活におけるユビキタスにもかかわらず、双曲の計算的な探索は少ない。 本稿では,文レベルのハイパーボラ生成という,未探索かつ困難な課題に取り組む。 まず,各コンポーネント間の意味的関係(常識的かつ反事実的)を,そのような双曲線の中で体系的に研究するための,代表的な構文パターンから始める。 次に、COMeTモデルと逆COMeTモデルを利用して、コモンセンスと反ファクト推論を行う。 次に,このパターンから複数のハイパボラ候補を生成し,ニューラルネットワーク分類器のランク付けと高品質なハイパボラの選択を訓練する。 自動評価と人間評価は, 高い成功率と強度スコアで創造的に双曲線を生成できることを示す。

A hyperbole is an intentional and creative exaggeration not to be taken literally. Despite its ubiquity in daily life, the computational explorations of hyperboles are scarce. In this paper, we tackle the under-explored and challenging task: sentence-level hyperbole generation. We start with a representative syntactic pattern for intensification and systematically study the semantic (commonsense and counterfactual) relationships between each component in such hyperboles. Next, we leverage the COMeT and reverse COMeT models to do commonsense and counterfactual inference. We then generate multiple hyperbole candidates based on our findings from the pattern, and train neural classifiers to rank and select high-quality hyperboles. Automatic and human evaluations show that our generation method is able to generate hyperboles creatively with high success rate and intensity scores.
翻訳日:2021-09-18 20:19:12 公開日:2021-09-10
# (参考訳) 機械学習は、パーソナライズされた気候コミュニケーションが成功とバックファイアを両立させる [全文訳有]

Machine learning reveals how personalized climate communication can both succeed and backfire ( http://arxiv.org/abs/2109.05104v1 )

ライセンス: CC BY 4.0
Totte Harinen, Alexandre Filipowicz, Shabnam Hakimi, Rumen Iliev, Matthew Klenk, Emily Sumner(参考訳) 異なる広告メッセージは、異なる人々のために機能します。 機械学習は、気候コミュニケーションをパーソナライズする効果的な方法である。 本稿では,機械学習を用いて最近の研究から得られた知見を再分析し,オンライン広告が気候変動に対する人々の信念を高めつつ,他人に対する信念を低下させることを示す。 特に,年齢や民族によって広告の効果が変化する可能性が示唆された。

Different advertising messages work for different people. Machine learning can be an effective way to personalise climate communications. In this paper we use machine learning to reanalyse findings from a recent study, showing that online advertisements increased some people's belief in climate change while resulting in decreased belief in others. In particular, we show that the effect of the advertisements could change depending on people's age and ethnicity.
翻訳日:2021-09-18 20:05:42 公開日:2021-09-10
# (参考訳) 通信効率のよい適応勾配法を目指して [全文訳有]

Toward Communication Efficient Adaptive Gradient Method ( http://arxiv.org/abs/2109.05109v1 )

ライセンス: CC BY 4.0
Xiangyi Chen, Xiaoyun Li, Ping Li(参考訳) 近年、分散最適化は、ディープニューラルネットワークのような大規模機械学習モデルのトレーニングを加速するための効果的なアプローチであることが証明されている。 GPUの計算能力の増大に伴い、分散トレーニングにおけるトレーニング速度のボトルネックは、徐々に計算から通信へとシフトしている。 一方,モバイルデバイス上で機械学習モデルをトレーニングする上で,‘フェデレーション学習’と呼ばれる新たな分散トレーニングパラダイムが普及している。 連合学習における通信時間は,モバイルデバイスの帯域幅の低さから特に重要である。 フェデレート学習のためのコミュニケーション効率向上のための様々な手法が提案されているが、そのほとんどはSGDを原型学習アルゴリズムとして設計されている。 適応勾配法はニューラルネットワークの訓練に有効であることが証明されているが、連合学習における適応勾配法の研究は少ない。 本稿では,フェデレート学習における収束性と通信効率の両立を保証できる適応的勾配法を提案する。

In recent years, distributed optimization is proven to be an effective approach to accelerate training of large scale machine learning models such as deep neural networks. With the increasing computation power of GPUs, the bottleneck of training speed in distributed training is gradually shifting from computation to communication. Meanwhile, in the hope of training machine learning models on mobile devices, a new distributed training paradigm called ``federated learning'' has become popular. The communication time in federated learning is especially important due to the low bandwidth of mobile devices. While various approaches to improve the communication efficiency have been proposed for federated learning, most of them are designed with SGD as the prototype training algorithm. While adaptive gradient methods have been proven effective for training neural nets, the study of adaptive gradient methods in federated learning is scarce. In this paper, we propose an adaptive gradient method that can guarantee both the convergence and the communication efficiency for federated learning.
翻訳日:2021-09-18 19:59:14 公開日:2021-09-10
# (参考訳) D-REX:説明付き対話関係抽出 [全文訳有]

D-REX: Dialogue Relation Extraction with Explanations ( http://arxiv.org/abs/2109.05126v1 )

ライセンス: CC BY 4.0
Alon Albalak, Varun Embar, Yi-Lin Tuan, Lise Getoor, William Yang Wang(参考訳) 長期多人数会話における相互関係抽出に関する最近の研究は、そのような方法の説明可能性を考慮していない関係抽出を改善することを目的としている。 この研究は、部分的にラベル付けされたデータのみを使用しながら関係が存在することを示す説明を抽出することに集中することで、このギャップに対処する。 本稿では,関係を説明・ランク付けするポリシガイド付き半教師付きアルゴリズムであるd-rexを提案する。 我々は,関係抽出を再ランキングタスクとして,推論プロセスの中間ステップとして関係とエンティティ固有の説明を含める。 約90%の人は、強いBERTに基づく関節関係抽出と説明モデルよりもD-REXの説明を好んでいる。 最後に,対話関係抽出データセットの評価結果から,提案手法は単純だが有効であり,既存の手法を13.5%改善した。

Existing research studies on cross-sentence relation extraction in long-form multi-party conversations aim to improve relation extraction without considering the explainability of such methods. This work addresses that gap by focusing on extracting explanations that indicate that a relation exists while using only partially labeled data. We propose our model-agnostic framework, D-REX, a policy-guided semi-supervised algorithm that explains and ranks relations. We frame relation extraction as a re-ranking task and include relation- and entity-specific explanations as an intermediate step of the inference process. We find that about 90% of the time, human annotators prefer D-REX's explanations over a strong BERT-based joint relation extraction and explanation model. Finally, our evaluations on a dialogue relation extraction dataset show that our method is simple yet effective and achieves a state-of-the-art F1 score on relation extraction, improving upon existing methods by 13.5%.
翻訳日:2021-09-18 19:17:43 公開日:2021-09-10
# (参考訳) 関連性再考:NLGにおけるパーソナライズ [全文訳有]

Refocusing on Relevance: Personalization in NLG ( http://arxiv.org/abs/2109.05140v1 )

ライセンス: CC BY 4.0
Shiran Dudy, Steven Bedrick, and Bonnie Webber(参考訳) 要約、対話応答、オープンドメイン質問応答などの多くのNLGタスクは、ターゲット応答を生成するために主にソーステキストに焦点を当てている。 しかし、この標準的なアプローチは、ユーザの意図や作業のコンテキストが、そのソーステキストのみに基づいて簡単に回復できない場合、短くなります。 本研究は,NLGシステム全般において,追加コンテキストの利用に重点を置くべきであり,ユーザ指向のテキスト生成タスクを設計するための重要なツールとして,関連性(Information Retrievalで使用される)が考えられることを示唆している。 我々はさらに,このようなパーソナライゼーションに関する害や危険について論じ,価値に敏感なデザインは,これらの課題を乗り越える上で重要な道筋であると主張する。

Many NLG tasks such as summarization, dialogue response, or open domain question answering focus primarily on a source text in order to generate a target response. This standard approach falls short, however, when a user's intent or context of work is not easily recoverable based solely on that source text -- a scenario that we argue is more of the rule than the exception. In this work, we argue that NLG systems in general should place a much higher level of emphasis on making use of additional context, and suggest that relevance (as used in Information Retrieval) be thought of as a crucial tool for designing user-oriented text-generating tasks. We further discuss possible harms and hazards around such personalization, and argue that value-sensitive design represents a crucial path forward through these challenges.
翻訳日:2021-09-18 19:04:37 公開日:2021-09-10
# Dual Latent Manifold を用いたスケーラブルフォント再構成

Scalable Font Reconstruction with Dual Latent Manifolds ( http://arxiv.org/abs/2109.06627v1 )

ライセンス: Link先を確認
Nikita Srivatsan, Si Wu, Jonathan T. Barron, Taylor Berg-Kirkpatrick(参考訳) フォントスタイルと文字形状の両方の非交叉多様体を学習し,タイポグラフィ解析とフォント再構成を行う深層生成モデルを提案する。 このアプローチにより,従来手法と比較して効果的にモデル化できるキャラクタタイプ数を大規模にスケールアップできる。 具体的には、文字タイプを共有するグリフの入力セットとして、または同じフォントに属する2つの推論ネットワークを介して、文字とフォントを表す別の潜在変数を推測する。 この設計により、トレーニング期間中に観察されなかった文字にモデルを一般化することが可能となり、ほとんどのフォントの相対的な疎さを考慮して重要なタスクとなる。 また、従来の作業から、投影空間における適応分布の可能性を測り、判別器を必要とせず、より自然な画像が得られるように、新たな損失を提起した。 我々は,多くの言語の文字タイプを表す各種データセットに対するフォント再構成の課題について評価し,自動および手動評価の指標に応じて,現代のスタイル転送システムと比較した。

We propose a deep generative model that performs typography analysis and font reconstruction by learning disentangled manifolds of both font style and character shape. Our approach enables us to massively scale up the number of character types we can effectively model compared to previous methods. Specifically, we infer separate latent variables representing character and font via a pair of inference networks which take as input sets of glyphs that either all share a character type, or belong to the same font. This design allows our model to generalize to characters that were not observed during training time, an important task in light of the relative sparsity of most fonts. We also put forward a new loss, adapted from prior work that measures likelihood using an adaptive distribution in a projected space, resulting in more natural images without requiring a discriminator. We evaluate on the task of font reconstruction over various datasets representing character types of many languages, and compare favorably to modern style transfer systems according to both automatic and manually-evaluated metrics.
翻訳日:2021-09-15 15:58:27 公開日:2021-09-10
# muraL: 言語横断のマルチモーダル、マルチタスク検索

MURAL: Multimodal, Multitask Retrieval Across Languages ( http://arxiv.org/abs/2109.05125v1 )

ライセンス: Link先を確認
Aashi Jain, Mandy Guo, Krishna Srinivasan, Ting Chen, Sneha Kudugunta, Chao Jia, Yinfei Yang, Jason Baldridge(参考訳) イメージキャプションペアと翻訳ペアの両方が、言語間の深い表現と接続を学ぶ手段を提供する。 我々は2つのタスクを解決するデュアルエンコーダであるプロジェクション(言語間のマルチモーダル、マルチタスク表現)において、両方のペアを使用する。 1)画像テキストマッチング 2) 翻訳ペアマッチング。 数十億の翻訳ペアを組み込むことで、壁画は18億のノイズの多い画像テキストペアから学んだ最先端のデュアルエンコーダであるアライメント(jia et al. pmlr'21)を拡張する。 同じエンコーダを使用する場合、MALLのパフォーマンスは、複数のデータセットにまたがるよくリソースされた言語上でのALIGNのクロスモーダル検索性能と一致またはオーバーする。 さらに重要なのは、アンダーリソース言語のパフォーマンスが大幅に向上し、テキストテキスト学習がこれらの言語に対する画像キャプチャの多用性を克服できることである。 例えばwikipediaのイメージテキストデータセットでは、ゼロショット平均リコールを8つの非ソース言語で平均8.1%、微調整時に平均6.8%改善している。 さらに, 村Lのテキスト表現が系譜関係だけでなく, バルカン・スプラチバンドのようなアラル言語にも基づいていることを示す。

Both image-caption pairs and translation pairs provide the means to learn deep representations of and connections between languages. We use both types of pairs in MURAL (MUltimodal, MUltitask Representations Across Languages), a dual encoder that solves two tasks: 1) image-text matching and 2) translation pair matching. By incorporating billions of translation pairs, MURAL extends ALIGN (Jia et al. PMLR'21)--a state-of-the-art dual encoder learned from 1.8 billion noisy image-text pairs. When using the same encoders, MURAL's performance matches or exceeds ALIGN's cross-modal retrieval performance on well-resourced languages across several datasets. More importantly, it considerably improves performance on under-resourced languages, showing that text-text learning can overcome a paucity of image-caption examples for these languages. On the Wikipedia Image-Text dataset, for example, MURAL-base improves zero-shot mean recall by 8.1% on average for eight under-resourced languages and by 6.8% on average when fine-tuning. We additionally show that MURAL's text representations cluster not only with respect to genealogical connections but also based on areal linguistics, such as the Balkan Sprachbund.
翻訳日:2021-09-14 16:16:18 公開日:2021-09-10
# ペアデータからの文脈を利用した部分教師付き新規オブジェクトキャプション

Partially-supervised novel object captioning leveraging context from paired data ( http://arxiv.org/abs/2109.05115v1 )

ライセンス: Link先を確認
Shashank Bujimalla, Mahesh Subedar, Omesh Tickoo(参考訳) 本稿では,学習データセットにキャプションラベルを持たない新規なオブジェクトを用いた画像のキャプションソリューションを改善する手法を提案する。 我々のアプローチはモデルアーキテクチャに非依存であり、主に、既存の完全対画像キャプチャデータと、新しいオブジェクト検出ラベル(一部対画像)のみを用いた画像のトレーニング技術に焦点を当てている。 既存の画像キャプションペアからコンテキストを活用することで,これらの新しいオブジェクトに対する合成ペアキャプションデータを作成する。 さらに,これらの部分的対の画像を新たなオブジェクトと再使用し,字幕モデルを微調整する擬似ラベルキャプションを作成する。 一般的なキャプションモデル (Up-Down) をベースラインとして, 保持状態のMS COCOアウト・オブ・ドメインテスト分割における最先端結果を実現し, 新たなオブジェクト画像に対するF1メトリックスとCIDErを, トレーニング中に一部ペア画像を使用しないベースラインモデルと比較してそれぞれ75.8ポイント, 26.6ポイント改善する。

In this paper, we propose an approach to improve image captioning solutions for images with novel objects that do not have caption labels in the training dataset. Our approach is agnostic to model architecture, and primarily focuses on training technique that uses existing fully paired image-caption data and the images with only the novel object detection labels (partially paired data). We create synthetic paired captioning data for these novel objects by leveraging context from existing image-caption pairs. We further re-use these partially paired images with novel objects to create pseudo-label captions that are used to fine-tune the captioning model. Using a popular captioning model (Up-Down) as baseline, our approach achieves state-of-the-art results on held-out MS COCO out-of-domain test split, and improves F1 metric and CIDEr for novel object images by 75.8 and 26.6 points respectively, compared to baseline model that does not use partially paired images during training.
翻訳日:2021-09-14 16:07:30 公開日:2021-09-10
# 新しいデータ拡張とカリキュラム学習による効率的なコントラスト学習

Efficient Contrastive Learning via Novel Data Augmentation and Curriculum Learning ( http://arxiv.org/abs/2109.05941v1 )

ライセンス: Link先を確認
Seonghyeon Ye, Jiseon Kim, Alice Oh(参考訳) 本稿では,新しいデータ拡張とカリキュラム学習によるコントラスト学習を適用した,メモリ効率のよい継続事前学習手法であるEfficientCLを紹介する。 データ拡張には、カットオフとPCAジッタリングという2種類の操作を順次積み重ねる。 事前学習段階が進む中,難易度ごとに増進度を増やすことでカリキュラム学習を行う。 データ拡張が完了すると、オリジナルおよび拡張例の投影埋め込みにコントラスト学習が適用される。 GLUEベンチマークを微調整すると、特に文レベルのタスクにおいて、ベースラインモデルよりも優れている。 さらに、この改善は、ベースラインモデルと比較して計算メモリの70%しか持たない。

We introduce EfficientCL, a memory-efficient continual pretraining method that applies contrastive learning with novel data augmentation and curriculum learning. For data augmentation, we stack two types of operation sequentially: cutoff and PCA jittering. While pretraining steps proceed, we apply curriculum learning by incrementing the augmentation degree for each difficulty step. After data augmentation is finished, contrastive learning is applied on projected embeddings of original and augmented examples. When finetuned on GLUE benchmark, our model outperforms baseline models, especially for sentence-level tasks. Additionally, this improvement is capable with only 70% of computational memory compared to the baseline model.
翻訳日:2021-09-14 16:04:37 公開日:2021-09-10
# 4室環境におけるオフポリシー予測学習アルゴリズムの実証的比較

An Empirical Comparison of Off-policy Prediction Learning Algorithms in the Four Rooms Environment ( http://arxiv.org/abs/2109.05110v1 )

ライセンス: Link先を確認
Sina Ghiassian and Richard S. Sutton(参考訳) 過去10年間、多くのオフポリシー予測学習アルゴリズムが提案されてきたが、どのアルゴリズムが他のアルゴリズムよりも速く学習するかは不明だ。 本研究では,11の非政治予測学習アルゴリズムと2つの小さなタスクであるRoomsタスクとHigh Variance Roomsタスクの線形関数近似を比較した。 タスクは、速く学習するように設計されています。 ルームタスクでは、重要サンプリング比率の積は2^{14}$で、2つになることもある。 重要サンプリング率の積による高いばらつきを制御するためには、ステップサイズを小さくして学習を遅くする必要がある。 高分散室の仕事は、比の積が 2^{14}\times 25$ となるという点において、より極端である。 本稿では,ghiassian and sutton (2021) によるオフポリシー予測学習アルゴリズムの実証的研究を基礎とする。 我々は,同じアルゴリズム群をそれらのものとみなし,同じ実験手法を用いる。 考慮されているアルゴリズムは、オフポリシーTD($\lambda$)、5つのグラディエントTDアルゴリズム、2つの強調TDアルゴリズム、ツリーバックアップ($\lambda$)、Vtrace($\lambda$)、ABTD($\zeta$)である。 その結果,アルゴリズムの性能は,重要サンプリング比による分散の影響が大きいことがわかった。 データは、Tree Backup($\lambda$)、Vtrace($\lambda$)、ABTD($\zeta$)が他のアルゴリズムほど高い分散の影響を受けていないことを示しているが、高い分散が存在しないタスクでは制限されない方法で効果的なブートストラップパラメータを制限する。 強調的td($\lambda$)は他のアルゴリズムよりも漸近的誤差が低い傾向があるが、場合によってはよりゆっくりと学習する可能性がある。 興味のある問題に基づいた実践者のためのアルゴリズムを提案し,アルゴリズムが大幅に改善される可能性のある特定のアルゴリズムに適用可能なアプローチを提案する。

Many off-policy prediction learning algorithms have been proposed in the past decade, but it remains unclear which algorithms learn faster than others. We empirically compare 11 off-policy prediction learning algorithms with linear function approximation on two small tasks: the Rooms task, and the High Variance Rooms task. The tasks are designed such that learning fast in them is challenging. In the Rooms task, the product of importance sampling ratios can be as large as $2^{14}$ and can sometimes be two. To control the high variance caused by the product of the importance sampling ratios, step size should be set small, which in turn slows down learning. The High Variance Rooms task is more extreme in that the product of the ratios can become as large as $2^{14}\times 25$. This paper builds upon the empirical study of off-policy prediction learning algorithms by Ghiassian and Sutton (2021). We consider the same set of algorithms as theirs and employ the same experimental methodology. The algorithms considered are: Off-policy TD($\lambda$), five Gradient-TD algorithms, two Emphatic-TD algorithms, Tree Backup($\lambda$), Vtrace($\lambda$), and ABTD($\zeta$). We found that the algorithms' performance is highly affected by the variance induced by the importance sampling ratios. The data shows that Tree Backup($\lambda$), Vtrace($\lambda$), and ABTD($\zeta$) are not affected by the high variance as much as other algorithms but they restrict the effective bootstrapping parameter in a way that is too limiting for tasks where high variance is not present. We observed that Emphatic TD($\lambda$) tends to have lower asymptotic error than other algorithms, but might learn more slowly in some cases. We suggest algorithms for practitioners based on their problem of interest, and suggest approaches that can be applied to specific algorithms that might result in substantially improved algorithms.
翻訳日:2021-09-14 16:04:18 公開日:2021-09-10
# 純探査線形バンディットのニアインスタンス最適モデル選択

Near Instance Optimal Model Selection for Pure Exploration Linear Bandits ( http://arxiv.org/abs/2109.05131v1 )

ライセンス: Link先を確認
Yinglun Zhu, Julian Katz-Samuels, Robert Nowak(参考訳) 純探査線形バンディット設定におけるモデル選択問題を導入し、固定信頼設定と固定予算設定の両方で検討する。 モデル選択問題は、増大する複雑性の仮説クラスのネスト列を考える。 我々の目標は、最大の仮説クラスに関連する複雑性測度に苦しむのではなく、真のモデルを含む最小の仮説クラスのインスタンス依存複雑性測度に自動的に適応することである。 標準的な2倍の次元上のトリックが最適なインスタンス依存サンプル複雑性を達成するのに失敗することを示す証拠を提供する。 提案アルゴリズムは,動作集合の幾何を利用して近似仮説クラスを効率的に同定する実験設計に基づく新しい最適化問題を定義する。 固定予算アルゴリズムは,バンディットにおける選択バリデーション手法の新たな適用法を用いる。 これは(モデル選択という追加の課題を伴わずとも)線形帯域における未検討の固定予算設定のための新しい方法を提供する。 さらに,モデル選択問題を不特定体制に一般化し,信頼度と予算の固定設定の両方にアルゴリズムを適用する。

The model selection problem in the pure exploration linear bandit setting is introduced and studied in both the fixed confidence and fixed budget settings. The model selection problem considers a nested sequence of hypothesis classes of increasing complexities. Our goal is to automatically adapt to the instance-dependent complexity measure of the smallest hypothesis class containing the true model, rather than suffering from the complexity measure related to the largest hypothesis class. We provide evidence showing that a standard doubling trick over dimension fails to achieve the optimal instance-dependent sample complexity. Our algorithms define a new optimization problem based on experimental design that leverages the geometry of the action set to efficiently identify a near-optimal hypothesis class. Our fixed budget algorithm uses a novel application of a selection-validation trick in bandits. This provides a new method for the understudied fixed budget setting in linear bandits (even without the added challenge of model selection). We further generalize the model selection problem to the misspecified regime, adapting our algorithms in both fixed confidence and fixed budget settings.
翻訳日:2021-09-14 16:02:47 公開日:2021-09-10
# インスタンス型GAN

Instance-Conditioned GAN ( http://arxiv.org/abs/2109.05070v1 )

ライセンス: Link先を確認
Arantxa Casanova, Marl\`ene Careil, Jakob Verbeek, Michal Drozdzal, Adriana Romero-Soriano(参考訳) GAN(Generative Adversarial Networks)は、人間の顔のような狭い領域で、ほぼリアルな画像を生成する。 しかし、ImageNetやCOCO-Stuffのようなデータセットの複雑な分散をモデル化することは、未条件設定では難しい。 本稿では,カーネル密度推定手法から着想を得て,複雑なデータセットの分布をモデル化する非パラメトリック手法を提案する。 我々はデータ多様体をデータポイントとその近傍で記述された重なり合う近傍の混合物に分割し、各データポイントの周辺分布を学習するインスタンス条件付きGANモデルを導入する。 ImageNetとCOCO-Stuffの実験結果によると、IC-GANは無条件モデルや教師なしデータ分割ベースラインよりも大幅に改善されている。 さらに、IC-GANは、条件付インスタンスを変更するだけで、トレーニング中に見えないデータセットに強制的に転送でき、リアルな画像を生成することができることを示す。 最後に、IC-GANをクラス条件に拡張し、ImageNet上で意味制御可能な生成と競合的な定量的結果を示す。 コードとトレーニングしたモデルをオープンソースにして、報告結果を再現します。

Generative Adversarial Networks (GANs) can generate near photo realistic images in narrow domains such as human faces. Yet, modeling complex distributions of datasets such as ImageNet and COCO-Stuff remains challenging in unconditional settings. In this paper, we take inspiration from kernel density estimation techniques and introduce a non-parametric approach to modeling distributions of complex datasets. We partition the data manifold into a mixture of overlapping neighborhoods described by a datapoint and its nearest neighbors, and introduce a model, called instance-conditioned GAN (IC-GAN), which learns the distribution around each datapoint. Experimental results on ImageNet and COCO-Stuff show that IC-GAN significantly improves over unconditional models and unsupervised data partitioning baselines. Moreover, we show that IC-GAN can effortlessly transfer to datasets not seen during training by simply changing the conditioning instances, and still generate realistic images. Finally, we extend IC-GAN to the class-conditional case and show semantically controllable generation and competitive quantitative results on ImageNet; while improving over BigGAN on ImageNet-LT. We will opensource our code and trained models to reproduce the reported results.
翻訳日:2021-09-14 16:00:57 公開日:2021-09-10
# $\ell_0$-norm正規化と重み打ちによるニューラルネットワークの圧縮について

On the Compression of Neural Networks Using $\ell_0$-Norm Regularization and Weight Pruning ( http://arxiv.org/abs/2109.05075v1 )

ライセンス: Link先を確認
Felipe Dennis de Resende Oliveira, Eduardo Luiz Ortiz Batista, Rui Seara(参考訳) 高容量の計算プラットフォームが利用可能になったにもかかわらず、実装の複雑さは、ニューラルネットワークの現実的な展開にとって、依然として大きな関心事となっている。 この懸念は、最先端のネットワークアーキテクチャの膨大なコストによるものではなく、エッジインテリジェンスへの最近の取り組みや、組み込みアプリケーションにおけるニューラルネットワークの利用によるものだ。 この文脈において、ネットワーク圧縮技術は、十分なレベルの推論精度を維持しながら、デプロイメントコストを削減できることから、関心を集めている。 本稿では,ニューラルネットワークのための新しい圧縮スキームの開発に焦点をあてる。 この目的のために、トレーニング中にネットワークに強いスパース性を誘導できる新しい$\ell_0$-normベースの正規化手法が最初に開発された。 そして、訓練されたネットワークのより小さな重みをプルーニング技術で狙うことにより、より小さいが高効率なネットワークが得られる。 提案手法では、オーバーフィッティングを回避するために$\ell_2$-norm正規化と、プルーンドネットワークの性能向上のための微調整も行う。 提案手法の有効性と競合する手法との比較を目的とした実験結果を示す。

Despite the growing availability of high-capacity computational platforms, implementation complexity still has been a great concern for the real-world deployment of neural networks. This concern is not exclusively due to the huge costs of state-of-the-art network architectures, but also due to the recent push towards edge intelligence and the use of neural networks in embedded applications. In this context, network compression techniques have been gaining interest due to their ability for reducing deployment costs while keeping inference accuracy at satisfactory levels. The present paper is dedicated to the development of a novel compression scheme for neural networks. To this end, a new $\ell_0$-norm-based regularization approach is firstly developed, which is capable of inducing strong sparseness in the network during training. Then, targeting the smaller weights of the trained network with pruning techniques, smaller yet highly effective networks can be obtained. The proposed compression scheme also involves the use of $\ell_2$-norm regularization to avoid overfitting as well as fine tuning to improve the performance of the pruned network. Experimental results are presented aiming to show the effectiveness of the proposed scheme as well as to make comparisons with competing approaches.
翻訳日:2021-09-14 15:58:50 公開日:2021-09-10
# 接地協調対話のための参照中心モデル

Reference-Centric Models for Grounded Collaborative Dialogue ( http://arxiv.org/abs/2109.05042v1 )

ライセンス: Link先を確認
Daniel Fried and Justin T. Chiu and Dan Klein(参考訳) 本稿では, 部分的に観察可能な参照ゲームにおいて, 人とのコラボレーションを成功させる, 接地型ニューラル対話モデルを提案する。 2人のエージェントがそれぞれ、世界のコンテキストの重なり合う部分を観察し、共有するオブジェクトを識別し、同意する必要がある設定に集中する。 したがって、エージェントはその情報をプールし、そのタスクを解決するために実践的にコミュニケーションすべきである。 対話エージェントは、構造化された参照レゾルバを用いて相手の発話から、リカレントメモリを用いた参照の条件を正確に把握し、パートナーが生成した参照を確実に解決するための実用的な生成手順を使用する。 本研究は,OneCommon空間接地対話タスク(宇田川,愛沢2019)において,連続的な位置,大きさ,色合いの異なる板上に配置された多数の点について評価する。 我々のエージェントは、タスクの以前の状態よりも大幅に優れており、セルフプレイ評価におけるタスク完了における20%の相対的な改善と、人間の評価における成功に対する50%の相対的な改善が得られる。

We present a grounded neural dialogue model that successfully collaborates with people in a partially-observable reference game. We focus on a setting where two agents each observe an overlapping part of a world context and need to identify and agree on some object they share. Therefore, the agents should pool their information and communicate pragmatically to solve the task. Our dialogue agent accurately grounds referents from the partner's utterances using a structured reference resolver, conditions on these referents using a recurrent memory, and uses a pragmatic generation procedure to ensure the partner can resolve the references the agent produces. We evaluate on the OneCommon spatial grounding dialogue task (Udagawa and Aizawa 2019), involving a number of dots arranged on a board with continuously varying positions, sizes, and shades. Our agent substantially outperforms the previous state of the art for the task, obtaining a 20% relative improvement in successful task completion in self-play evaluations and a 50% relative improvement in success in human evaluations.
翻訳日:2021-09-14 15:52:50 公開日:2021-09-10
# 言語モデルの自己教師付きリファインメントによるゼロショットコモンセンス推論

Towards Zero-shot Commonsense Reasoning with Self-supervised Refinement of Language Models ( http://arxiv.org/abs/2109.05105v1 )

ライセンス: Link先を確認
Tassilo Klein and Moin Nabi(参考訳) 既存の言語モデルを取得して、ゼロショットの常識推論のために洗練できるか? 本稿では,事前学習型言語モデルの自己教師型改良としてタスクを定式化することにより,Winograd Schema Challengeにおけるゼロショットコモンセンス推論の実現可能性について検討する。 微調整アノテートデータセットに依存する従来の研究とは対照的に,ロスランドスケープの改良による概念化の促進を目指す。 そこで本研究では,類似概念関係の言語摂動の集合を用いて言語モデルを洗練する,自己教師型学習手法を提案する。 概念的に単純なフレームワークの実証分析は、複数のベンチマークにおけるゼロショットコモンセンス推論の実行可能性を示している。

Can we get existing language models and refine them for zero-shot commonsense reasoning? This paper presents an initial study exploring the feasibility of zero-shot commonsense reasoning for the Winograd Schema Challenge by formulating the task as self-supervised refinement of a pre-trained language model. In contrast to previous studies that rely on fine-tuning annotated datasets, we seek to boost conceptualization via loss landscape refinement. To this end, we propose a novel self-supervised learning approach that refines the language model utilizing a set of linguistic perturbations of similar concept relationships. Empirical analysis of our conceptually simple framework demonstrates the viability of zero-shot commonsense reasoning on multiple benchmarks.
翻訳日:2021-09-14 15:52:31 公開日:2021-09-10
# 注意に基づくウィノグラードスキーマのコントラスト学習

Attention-based Contrastive Learning for Winograd Schemas ( http://arxiv.org/abs/2109.05108v1 )

ライセンス: Link先を確認
Tassilo Klein and Moin Nabi(参考訳) 自己教師付き学習は近年,nlpコミュニティにおいて,対照目的を用いて識別的特徴を学習する能力に注目が集まっている。 本稿では,ウィノグラード・スキーマ・チャレンジに取り組むために,コントラスト学習をトランスフォマー的注意に拡張できるかどうかについて検討する。 そこで本稿では, 自己意識のレベルにおいて, コントラスト的損失を直接活用する, 新たな自己監督フレームワークを提案する。 複数のデータセットに対する注意ベースモデルの実験的解析により,より優れたコモンセンス推論能力を示す。 提案手法は、ほぼ同等の教師なしアプローチを上回り、時には教師なしアプローチを上回ります。

Self-supervised learning has recently attracted considerable attention in the NLP community for its ability to learn discriminative features using a contrastive objective. This paper investigates whether contrastive learning can be extended to Transfomer attention to tackling the Winograd Schema Challenge. To this end, we propose a novel self-supervised framework, leveraging a contrastive loss directly at the level of self-attention. Experimental analysis of our attention-based models on multiple datasets demonstrates superior commonsense reasoning capabilities. The proposed approach outperforms all comparable unsupervised approaches while occasionally surpassing supervised ones.
翻訳日:2021-09-14 15:52:20 公開日:2021-09-10
# スパン制約による遠隔監視による潜木誘導の改善

Improved Latent Tree Induction with Distant Supervision via Span Constraints ( http://arxiv.org/abs/2109.05112v1 )

ライセンス: Link先を確認
Zhiyang Xu, Andrew Drozdov, Jay Yoon Lee, Tim O'Gorman, Subendhu Rongali, Dylan Finkbeiner, Shilpa Suresh, Mohit Iyyer, Andrew McCallum(参考訳) 30年以上にわたり、研究者は教師なし構文解析のアプローチとして潜在木誘導法を開発し分析してきた。 しかしながら、現代のシステムでは、テキストの構造的アノテーションとして実用的に利用できるような教師付きシステムに比べて、まだ十分に機能していない。 本研究では,非教師付き選挙区構文解析の性能向上のために,スパン制約(言い換え括弧法)の形で遠隔監視を用いる手法を提案する。 比較的少数のスパン制約を用いることで、すでに競合する教師なし構文解析システムであるDIORAの出力を大幅に改善することができる。 完全なパースツリーアノテーションと比較して、スパン制約はウィキペディアから派生した語彙など最小限の労力で取得でき、正確なテキストマッチングを見つけることができる。 本実験は, 英語のWSJ Penn Treebank において, 5 F1 以上による選挙区解析を改善したエンティティに基づく制約の範囲を示す。 さらに本手法は,スパン制約が容易に達成できる任意の領域にまで拡張され,本手法の事例研究として,craftデータセットから生物医学的テキストを解析することでその効果を示す。

For over thirty years, researchers have developed and analyzed methods for latent tree induction as an approach for unsupervised syntactic parsing. Nonetheless, modern systems still do not perform well enough compared to their supervised counterparts to have any practical use as structural annotation of text. In this work, we present a technique that uses distant supervision in the form of span constraints (i.e. phrase bracketing) to improve performance in unsupervised constituency parsing. Using a relatively small number of span constraints we can substantially improve the output from DIORA, an already competitive unsupervised parsing system. Compared with full parse tree annotation, span constraints can be acquired with minimal effort, such as with a lexicon derived from Wikipedia, to find exact text matches. Our experiments show span constraints based on entities improves constituency parsing on English WSJ Penn Treebank by more than 5 F1. Furthermore, our method extends to any domain where span constraints are easily attainable, and as a case study we demonstrate its effectiveness by parsing biomedical text from the CRAFT dataset.
翻訳日:2021-09-14 15:52:11 公開日:2021-09-10
# PICARD: 言語モデルからの制約付き自己回帰デコードのための構文解析

PICARD: Parsing Incrementally for Constrained Auto-Regressive Decoding from Language Models ( http://arxiv.org/abs/2109.05093v1 )

ライセンス: Link先を確認
Torsten Scholak and Nathan Schucher and Dzmitry Bahdanau(参考訳) テキストデータのための大規模な事前訓練された言語モデルは、制約のない出力空間を持ち、各デコードステップで1万のサブワードトークンを生成できる。 SQLのような制約のある形式言語をターゲットに微調整された場合、これらのモデルはしばしば無効なコードを生成します。 PICARD(https://githu b.com/ElementAI/pica rdで利用可能なコードおよびトレーニング済みモデル)は、インクリメンタル解析によって言語モデルの自動回帰デコーダを制約する手法である。 PICARDは、デコードの各ステップで許容できないトークンを拒否することで、有効な出力シーケンスを見つけるのに役立つ。 課題であるSpiderとCoSQLのテキストからSQLへの変換タスクにおいて、PICARDは、パス可能なパフォーマンスを備えた微調整されたT5モデルを最先端のソリューションに変換する。

Large pre-trained language models for textual data have an unconstrained output space; at each decoding step, they can produce any of 10,000s of sub-word tokens. When fine-tuned to target constrained formal languages like SQL, these models often generate invalid code, rendering it unusable. We propose PICARD (code and trained models available at https://github.com/E lementAI/picard), a method for constraining auto-regressive decoders of language models through incremental parsing. PICARD helps to find valid output sequences by rejecting inadmissible tokens at each decoding step. On the challenging Spider and CoSQL text-to-SQL translation tasks, we show that PICARD transforms fine-tuned T5 models with passable performance into state-of-the-art solutions.
翻訳日:2021-09-14 15:31:51 公開日:2021-09-10
# マルチスケール・エネルギネットを用いた深層移行学習による髄芽細胞腫の分類

Medulloblastoma Tumor Classification using Deep Transfer Learning with Multi-Scale EfficientNets ( http://arxiv.org/abs/2109.05025v1 )

ライセンス: Link先を確認
Marcel Bengs, Michael Bockmayr, Ulrich Sch\"uller, Alexander Schlaefer(参考訳) 小児で最も多い悪性脳腫瘍は髄芽腫(MB)である。 診断は一般に病理組織スライドの顕微鏡的評価に基づいている。 しかし、病理組織学的パターンの視覚のみの評価は退屈で時間を要する課題であり、観察者の変動にも影響される。 したがって、自動MB腫瘍分類は、一貫性と堅牢な定量化を促進することによって病理学者を支援することができる。 近年、畳み込みニューラルネットワーク(cnns)が提案されているが、転送学習は有望な結果を示している。 本稿では,エンド・ツー・エンドのmb腫瘍分類を提案し,様々な入力サイズとマッチングネットワーク次元の転送学習について検討する。 組織学的サブタイプであるclassicとdesmoplastic/nodular の区別に注目した。 そこで本研究では,CNNの全次元を均一にスケールするEfficientNetsを,最近提案した。 161ケースのデータセットを用いて、入力解像度が大きい事前学習されたEfficientNetは、一般的に使用されるCNNアーキテクチャと比較して、大幅な性能向上をもたらすことを示した。 また,このような大規模アーキテクチャを使用する場合,トランスファー学習の重要性も強調する。 その結果,F1スコアは80.1%となった。

Medulloblastoma (MB) is the most common malignant brain tumor in childhood. The diagnosis is generally based on the microscopic evaluation of histopathological tissue slides. However, visual-only assessment of histopathological patterns is a tedious and time-consuming task and is also affected by observer variability. Hence, automated MB tumor classification could assist pathologists by promoting consistency and robust quantification. Recently, convolutional neural networks (CNNs) have been proposed for this task, while transfer learning has shown promising results. In this work, we propose an end-to-end MB tumor classification and explore transfer learning with various input sizes and matching network dimensions. We focus on differentiating between the histological subtypes classic and desmoplastic/nodular . For this purpose, we systematically evaluate recently proposed EfficientNets, which uniformly scale all dimensions of a CNN. Using a data set with 161 cases, we demonstrate that pre-trained EfficientNets with larger input resolutions lead to significant performance improvements compared to commonly used pre-trained CNN architectures. Also, we highlight the importance of transfer learning, when using such large architectures. Overall, our best performing method achieves an F1-Score of 80.1%.
翻訳日:2021-09-14 15:26:07 公開日:2021-09-10
# No Size Fits All:LPWANの無線設定自動化

No Size Fits All: Automated Radio Configuration for LPWANs ( http://arxiv.org/abs/2109.05103v1 )

ライセンス: Link先を確認
Zerina Kapetanovic, Deepak Vasisht, Tusher Chakraborty, Joshua R. Smith, Ranveer Chandra(参考訳) LoRaのような低消費電力の長距離ネットワークは、IoTデプロイメントの主流になりつつある。 これらのプロトコルによって実現されるアプリケーションの汎用性を考えると、多くのデータレートと帯域幅をサポートする。 しかし、複数のマイルにわたって何百ものデバイスをサポートする特定のネットワークの場合、ネットワークオペレータは、ゲートウェイと通信するすべてのクライアントデバイスに対して、同じ構成や小さな構成のサブセットを指定する必要がある。 このワンサイズのアプローチは、大規模ネットワークでは極めて非効率である。 我々は、ネットワークデバイスが選択したデータレートで送信できるように、別のアプローチを提案する。 ゲートウェイはプリアンブルの最初の数個のシンボルを使用して、正しいデータレートを分類し、設定を切り替え、データをデコードする。 私たちの設計では、クライアントがパワー不足でリソース制約の強いアウトドアiotデプロイメントに固有の非対称性を活用していますが、ゲートウェイはそうではありません。 私たちのゲートウェイ設計であるproteusは、ニューラルネットワークアーキテクチャを実行し、既存のloraプロトコルと後方互換性があります。 実験の結果,proteusは屋内および屋外の配置において97%以上の精度で正確な構成を同定できることが判明した。 私たちのネットワークアーキテクチャは、LoRaテストベッドのスループットを3.8から11倍に向上させています。

Low power long-range networks like LoRa have become increasingly mainstream for Internet of Things deployments. Given the versatility of applications that these protocols enable, they support many data rates and bandwidths. Yet, for a given network that supports hundreds of devices over multiple miles, the network operator typically needs to specify the same configuration or among a small subset of configurations for all the client devices to communicate with the gateway. This one-size-fits-all approach is highly inefficient in large networks. We propose an alternative approach -- we allow network devices to transmit at any data rate they choose. The gateway uses the first few symbols in the preamble to classify the correct data rate, switches its configuration, and then decodes the data. Our design leverages the inherent asymmetry in outdoor IoT deployments where the clients are power-starved and resource-constrained , but the gateway is not. Our gateway design, Proteus, runs a neural network architecture and is backward compatible with existing LoRa protocols. Our experiments reveal that Proteus can identify the correct configuration with over 97% accuracy in both indoor and outdoor deployments. Our network architecture leads to a 3.8 to 11 times increase in throughput for our LoRa testbed.
翻訳日:2021-09-14 15:16:08 公開日:2021-09-10
# 確率IP3依存性カルシウムダイナミクスモデリングのための物理ベース機械学習

Physics-based machine learning for modeling stochastic IP3-dependent calcium dynamics ( http://arxiv.org/abs/2109.05053v1 )

ライセンス: Link先を確認
Oliver K. Ernst, Tom Bartol, Terrence Sejnowski, Eric Mjolsness(参考訳) 本稿では,候補関数によるドメイン固有物理を組み込んだモデル縮小のための機械学習手法を提案する。 本手法は,反応ネットワークの確率シミュレーションから有効確率分布と微分方程式モデルを推定する。 縮小記述と細スケール記述の密接な関係は、マスター方程式から導かれる近似を学習問題に導入することを可能にする。 この表現は一般化を改善できることが示されており、イノシトール三リン酸(ip3)依存性カルシウム振動の古典的なモデルではネットワークサイズが大幅に削減される。

We present a machine learning method for model reduction which incorporates domain-specific physics through candidate functions. Our method estimates an effective probability distribution and differential equation model from stochastic simulations of a reaction network. The close connection between reduced and fine scale descriptions allows approximations derived from the master equation to be introduced into the learning problem. This representation is shown to improve generalization and allows a large reduction in network size for a classic model of inositol trisphosphate (IP3) dependent calcium oscillations in non-excitable cells.
翻訳日:2021-09-14 15:11:04 公開日:2021-09-10
# 安全強化学習における低次元セーフ領域学習のためのデータ生成法

Data Generation Method for Learning a Low-dimensional Safe Region in Safe Reinforcement Learning ( http://arxiv.org/abs/2109.05077v1 )

ライセンス: Link先を確認
Zhehua Zhou, Ozgur S. Oguz, Yi Ren, Marion Leibold and Martin Buss(参考訳) 安全な強化学習は、学習プロセス中にシステムや環境が損なわれないようにしながら、制御ポリシーを学ぶことを目的としている。 高非線形・高次元力学系に安全な強化学習を実装するためには,データ駆動型特徴抽出法を用いて低次元安全な領域を探索し,学習アルゴリズムの安全性を推定する。 学習した安全推定の信頼性はデータに依存しており,本研究では,異なるトレーニングデータが安全強化学習にどのように影響するかについて検討する。 学習性能と安全でないリスクのバランスをとることで、2つのサンプリング法を組み合わせたデータ生成法を提案し、代表訓練データを生成する。 本手法の性能は,3リンク倒立振子を例に示す。

Safe reinforcement learning aims to learn a control policy while ensuring that neither the system nor the environment gets damaged during the learning process. For implementing safe reinforcement learning on highly nonlinear and high-dimensional dynamical systems, one possible approach is to find a low-dimensional safe region via data-driven feature extraction methods, which provides safety estimates to the learning algorithm. As the reliability of the learned safety estimates is data-dependent, we investigate in this work how different training data will affect the safe reinforcement learning approach. By balancing between the learning performance and the risk of being unsafe, a data generation method that combines two sampling methods is proposed to generate representative training data. The performance of the method is demonstrated with a three-link inverted pendulum example.
翻訳日:2021-09-14 15:10:56 公開日:2021-09-10
# (参考訳) 非構造化情報の知識マイニング:サイバードメインへの応用 [全文訳有]

Knowledge mining of unstructured information: application to cyber-domain ( http://arxiv.org/abs/2109.03848v2 )

ライセンス: CC BY 4.0
Tuomas Takko, Kunal Bhattacharya, Martti Lehto, Pertti Jalasvirta, Aapo Cederberg, Kimmo Kaski(参考訳) サイバーインテリジェンスは、脆弱性やインシデントに関する報告を含む多くのオープンソースソースで広く、豊富に利用可能である。 このノイズの多い情報の流れは、さまざまな組織におけるアナリストや調査員の利益のために使われるためには、新しいツールやテクニックを必要とします。 本稿では,サイバードメインにおけるインシデントに関するフリーフォームテキストから関連する情報を抽出するための知識グラフと知識マイニングフレームワークを提案する。 当社のフレームワークには、マシンラーニングベースのパイプラインと、エンティティ、攻撃者、および関連情報を非技術サイバーオントロジーで生成するクローリングメソッドが含まれています。 我々は,我々の知識マイニング手法の正確性とサイバーアナリストの利用におけるフレームワークの有用性を評価するために,公開可能なサイバーインシデントデータセット上でフレームワークをテストした。 本研究は,新たなフレームワークを用いて構築された知識グラフを解析し,様々なエンティティへのリスクや,産業と国家間のリスク伝播の観点から,現在のサイバー環境から追加情報を推測できることを示す。 技術的および運用レベルの情報に対応するフレームワークを拡張することで、ナレッジグラフにおけるトレンドとリスクの正確性と説明可能性を高めることができる。

Cyber intelligence is widely and abundantly available in numerous open online sources with reports on vulnerabilities and incidents. This constant stream of noisy information requires new tools and techniques if it is to be used for the benefit of analysts and investigators in various organizations. In this paper we present and implement a novel knowledge graph and knowledge mining framework for extracting relevant information from free-form text about incidents in the cyber domain. Our framework includes a machine learning based pipeline as well as crawling methods for generating graphs of entities, attackers and the related information with our non-technical cyber ontology. We test our framework on publicly available cyber incident datasets to evaluate the accuracy of our knowledge mining methods as well as the usefulness of the framework in the use of cyber analysts. Our results show analyzing the knowledge graph constructed using the novel framework, an analyst can infer additional information from the current cyber landscape in terms of risk to various entities and the propagation of risk between industries and countries. Expanding the framework to accommodate more technical and operational level information can increase the accuracy and explainability of trends and risk in the knowledge graph.
翻訳日:2021-09-14 05:30:21 公開日:2021-09-10
# (参考訳) C-MinHash: 2つの命令を1つに事実上削減する [全文訳有]

C-MinHash: Practically Reducing Two Permutations to Just One ( http://arxiv.org/abs/2109.04595v1 )

ライセンス: CC BY 4.0
Xiaoyun Li and Ping Li(参考訳) 従来のミンワイズハッシュ (MinHash) では、アプリケーションによっては1024ドル以上の大容量バイナリ (0/1) のデータで Jaccard の類似性を推定するために、$K$ の独立置換を適用する必要がある。 C-MinHash (Li and Li, 2021) に関する最近の研究は、厳密な証明により、2つの置換しか必要ないことを示した。 最初の置換は、データに存在する可能性のある構造を壊すために適用され、第2の置換は、循環シフト方式で$K$ハッシュを生成するために$K$倍に再使用される。 (Li, Li, 2021)は、おそらく驚くべきことに、K$ハッシュが相関しているにもかかわらず、推定分散が従来のMinHashの分散よりも厳密に小さいことを証明している。 Li と Li, 2021) では、C-MinHash における初期置換が本当に必要であることが示されている。 理論解析の容易さのために、2つの独立した置換を用いた。 本稿では,一つの置換のみを実際に使用できることを示す。 つまり、データの構造を壊す最初の前処理ステップと、$k$ハッシュを生成する循環ハッシュステップの両方に、1つの置換が使用される。 理論的解析は非常に複雑になるが、推定子の期待値の表現を明示的に書き留めることができる。 新しい推定器はもはや偏りがないが、バイアスは極端に小さく、推定精度(正方形誤差)には本質的に影響しない。 1つの置換だけを使用するという我々の主張を検証するために、広範な実験セットが提供される。

Traditional minwise hashing (MinHash) requires applying $K$ independent permutations to estimate the Jaccard similarity in massive binary (0/1) data, where $K$ can be (e.g.,) 1024 or even larger, depending on applications. The recent work on C-MinHash (Li and Li, 2021) has shown, with rigorous proofs, that only two permutations are needed. An initial permutation is applied to break whatever structures which might exist in the data, and a second permutation is re-used $K$ times to produce $K$ hashes, via a circulant shifting fashion. (Li and Li, 2021) has proved that, perhaps surprisingly, even though the $K$ hashes are correlated, the estimation variance is strictly smaller than the variance of the traditional MinHash. It has been demonstrated in (Li and Li, 2021) that the initial permutation in C-MinHash is indeed necessary. For the ease of theoretical analysis, they have used two independent permutations. In this paper, we show that one can actually simply use one permutation. That is, one single permutation is used for both the initial pre-processing step to break the structures in the data and the circulant hashing step to generate $K$ hashes. Although the theoretical analysis becomes very complicated, we are able to explicitly write down the expression for the expectation of the estimator. The new estimator is no longer unbiased but the bias is extremely small and has essentially no impact on the estimation accuracy (mean square errors). An extensive set of experiments are provided to verify our claim for using just one permutation.
翻訳日:2021-09-14 01:10:15 公開日:2021-09-10
# (参考訳) コンテキストモーションネットワークによる画像の自動マッチング [全文訳有]

Automatic Portrait Video Matting via Context Motion Network ( http://arxiv.org/abs/2109.04598v1 )

ライセンス: CC BY 4.0
Qiqi Hou, Charlie Wang(参考訳) 我々の自動ポートレートビデオマッチングは追加入力を必要としない。 ほとんどの最先端のマッティング手法は、自動的にトリマップを生成するセマンティックセグメンテーション法に依存している。 彼らのパフォーマンスは、時間的情報の欠如によって損なわれている。 本手法は,光フローからの時間情報だけでなく意味情報も活用し,高品質な結果が得られる。

Our automatic portrait video matting method does not require extra inputs. Most state-of-the-art matting methods rely on semantic segmentation methods to automatically generate the trimap. Their performance is compromised due to the lack of temporal information. Our method exploits semantic information as well as temporal information from optical flow and produces high-quality results.
翻訳日:2021-09-14 00:49:45 公開日:2021-09-10
# (参考訳) IndoBERTweet: 効果的なドメイン特化語彙初期化を備えたインドネシアのTwitterのための事前訓練言語モデル [全文訳有]

IndoBERTweet: A Pretrained Language Model for Indonesian Twitter with Effective Domain-Specific Vocabulary Initialization ( http://arxiv.org/abs/2109.04607v1 )

ライセンス: CC BY 4.0
Fajri Koto and Jey Han Lau and Timothy Baldwin(参考訳) IndoBERTweetはインドネシア初の大規模事前訓練モデルであり、単言語で訓練されたインドネシアのBERTモデルを付加的なドメイン固有語彙で拡張することで訓練する。 特に、語彙ミスマッチに基づく効率的なモデル適応に着目し、新しい単語タイプに対するBERT埋め込み層を初期化する方法をベンチマークする。 平均BERTサブワード埋め込みの初期化は事前学習を5倍速くし、7つのTwitterベースのデータセットに対する外在的評価の観点から語彙適応法よりも効果的であることがわかった。

We present IndoBERTweet, the first large-scale pretrained model for Indonesian Twitter that is trained by extending a monolingually-traine d Indonesian BERT model with additive domain-specific vocabulary. We focus in particular on efficient model adaptation under vocabulary mismatch, and benchmark different ways of initializing the BERT embedding layer for new word types. We find that initializing with the average BERT subword embedding makes pretraining five times faster, and is more effective than proposed methods for vocabulary adaptation in terms of extrinsic evaluation over seven Twitter-based datasets.
翻訳日:2021-09-14 00:38:35 公開日:2021-09-10
# (参考訳) 長い対話要約に関する探索的研究--何が機能し、次に何が起こるのか [全文訳有]

An Exploratory Study on Long Dialogue Summarization: What Works and What's Next ( http://arxiv.org/abs/2109.04609v1 )

ライセンス: CC BY 4.0
Yusen Zhang, Ansong Ni, Tao Yu, Rui Zhang, Chenguang Zhu, Budhaditya Deb, Asli Celikyilmaz, Ahmed Hassan Awadallah and Dragomir Radev(参考訳) 対話要約は、会議、インタビュー、テレビシリーズにおける長い会話から、読者が有能な情報を捉えるのに役立つ。 しかし、現実の対話は現在の要約モデルにとって大きな課題であり、対話長は最近のトランスフォーマーベースの事前訓練モデルによって課される入力制限を超え、対話の対話性は関連情報をニュース記事よりも文脈に依存し、疎らに分散させる。 本研究では,(1)Longformerのような拡張型トランスフォーマーモデル,(2)複数の対話音声検索手法を用いた検索・要約パイプラインモデル,(3)HMNetのような階層型対話符号化モデル,の3つの戦略を検証して,長文対話要約に関する包括的な研究を行う。 QMSum, MediaSum, SummScreenの3つの長文対話データセットによる実験結果から, 検索・推定パイプラインモデルが最も高い性能を示した。 また,より強固な検索モデルと適切な外部要約データセットを事前学習することで,要約品質をさらに向上できることを示す。

Dialogue summarization helps readers capture salient information from long conversations in meetings, interviews, and TV series. However, real-world dialogues pose a great challenge to current summarization models, as the dialogue length typically exceeds the input limits imposed by recent transformer-based pre-trained models, and the interactive nature of dialogues makes relevant information more context-dependent and sparsely distributed than news articles. In this work, we perform a comprehensive study on long dialogue summarization by investigating three strategies to deal with the lengthy input problem and locate relevant information: (1) extended transformer models such as Longformer, (2) retrieve-then-summar ize pipeline models with several dialogue utterance retrieval methods, and (3) hierarchical dialogue encoding models such as HMNet. Our experimental results on three long dialogue datasets (QMSum, MediaSum, SummScreen) show that the retrieve-then-summar ize pipeline models yield the best performance. We also demonstrate that the summary quality can be further improved with a stronger retrieval model and pretraining on proper external summarization datasets.
翻訳日:2021-09-14 00:26:09 公開日:2021-09-10
# (参考訳) 長い文書のランク付けのためのクエリ駆動セグメンテーション選択 [全文訳有]

Query-driven Segment Selection for Ranking Long Documents ( http://arxiv.org/abs/2109.04611v1 )

ライセンス: CC BY 4.0
Youngwoo Kim, Razieh Rahimi, Hamed Bonab and James Allan(参考訳) トランスフォーマーベースのローダは最先端のパフォーマンスを示している。 しかし、それらの自己拘束操作はほとんどが長いシーケンスを処理できない。 これらのランク付けをトレーニングする一般的なアプローチの1つは、トレーニングデータとして、第1セグメントのような各ドキュメントのセグメントをヒューリスティックに選択することである。 しかし、これらのセグメントはドキュメントのクエリ関連部分を含まないかもしれない。 この問題に対処するために,長い文書からクエリによるセグメント選択を提案し,トレーニングデータを構築する。 セグメントセレクタは、より正確なラベルと予測が難しい非関連サンプルを関連するサンプルに提供する。 実験の結果,提案したセグメントセレクタでトレーニングしたBERTベースのランカは,ヒューリスティックに選択したセグメントでトレーニングしたセグメントよりも有意に優れており,より長い入力シーケンスを処理できる局所的な自己認識を持つ最先端モデルと同等に動作することがわかった。 提案手法は, トランスフォーマーを用いたロータを設計するための新しい方向を開く。

Transformer-based rankers have shown state-of-the-art performance. However, their self-attention operation is mostly unable to process long sequences. One of the common approaches to train these rankers is to heuristically select some segments of each document, such as the first segment, as training data. However, these segments may not contain the query-related parts of documents. To address this problem, we propose query-driven segment selection from long documents to build training data. The segment selector provides relevant samples with more accurate labels and non-relevant samples which are harder to be predicted. The experimental results show that the basic BERT-based ranker trained with the proposed segment selector significantly outperforms that trained by the heuristically selected segments, and performs equally to the state-of-the-art model with localized self-attention that can process longer input sequences. Our findings open up new direction to design efficient transformer-based rankers.
翻訳日:2021-09-14 00:15:15 公開日:2021-09-10
# (参考訳) 非パラメトリック需要モデルを用いたパーソナライズ価格の差分プライバシー

Differential Privacy in Personalized Pricing with Nonparametric Demand Models ( http://arxiv.org/abs/2109.04615v1 )

ライセンス: CC BY 4.0
Xi Chen, Sentao Miao, Yining Wang(参考訳) 近年、情報技術の進歩と豊富な個人データにより、アルゴリズムによるパーソナライズ価格の適用が容易になっている。 しかし、これは敵の攻撃によるプライバシー侵害の懸念が高まっている。 本稿では,データプライバシ保護下での非パラメトリック需要モデルを用いて,動的にパーソナライズされた価格設定問題について検討する。 データプライバシの2つの概念は、実践において広く適用されている: \textit{central differential privacy (cdp) と \textit{local differential privacy (ldp) であり、多くのケースでcdpよりも強いことが証明されている。 我々は,cdp と ldp gurantee をそれぞれ満たしながら,価格決定と未知の需要の学習を行う2つのアルゴリズムを開発した。 特に、CDP保証付きアルゴリズムの場合、後悔は最大$\tilde O(T^{(d+2)/(d+4)}+\varepsilon^{-1}T^{d/(d+4)})$であることが証明される。 パラメータ $T$ は時間軸の長さを表し、$d$ はパーソナライズされた情報ベクトルの次元を表し、キーパラメータ $\varepsilon>0$ はプライバシーの強さを測定する(より小さい$\varepsilon$ はより強力なプライバシー保護を示す)。 一方、ldp保証のあるアルゴリズムでは、その後悔は最大で$\tilde o(\varepsilon^{-2/(d+2)}t^{(d+1)/(d+2)})$であることが証明され、ldp保証のあるアルゴリズムに対して$\omega(\varepsilon^{-2/(d+2)}t^{(d+1)/(d+2)})$という下限が証明されるので、ほぼ最適である。

In the recent decades, the advance of information technology and abundant personal data facilitate the application of algorithmic personalized pricing. However, this leads to the growing concern of potential violation of privacy due to adversarial attack. To address the privacy issue, this paper studies a dynamic personalized pricing problem with \textit{unknown} nonparametric demand models under data privacy protection. Two concepts of data privacy, which have been widely applied in practices, are introduced: \textit{central differential privacy (CDP)} and \textit{local differential privacy (LDP)}, which is proved to be stronger than CDP in many cases. We develop two algorithms which make pricing decisions and learn the unknown demand on the fly, while satisfying the CDP and LDP gurantees respectively. In particular, for the algorithm with CDP guarantee, the regret is proved to be at most $\tilde O(T^{(d+2)/(d+4)}+\varepsilon^{-1}T^{d/(d+4)})$. Here, the parameter $T$ denotes the length of the time horizon, $d$ is the dimension of the personalized information vector, and the key parameter $\varepsilon>0$ measures the strength of privacy (smaller $\varepsilon$ indicates a stronger privacy protection). On the other hand, for the algorithm with LDP guarantee, its regret is proved to be at most $\tilde O(\varepsilon^{-2/(d+2)}T^{(d+1)/(d+2)})$, which is near-optimal as we prove a lower bound of $\Omega(\varepsilon^{-2/(d+2)}T^{(d+1)/(d+2)})$ for any algorithm with LDP guarantee.
翻訳日:2021-09-14 00:06:20 公開日:2021-09-10
# (参考訳) style pooling: 分類の公平性を改善するための自動テキストスタイル難読化 [全文訳有]

Style Pooling: Automatic Text Style Obfuscation for Improved Classification Fairness ( http://arxiv.org/abs/2109.04624v1 )

ライセンス: CC BY 4.0
Fatemehsadat Mireshghallah, Taylor Berg-Kirkpatrick(参考訳) テキストスタイルは、著者の繊細な属性(例えば人種や年齢)を読者に示すことができ、それによって、テキストに基づく人間とアルゴリズムによる決定において、プライバシ侵害とバイアスにつながる。 例えば、ジョブアプリケーションで書くスタイルは、雇用決定がアルゴリズムでなされるか、あるいは人間によって行われるかに関わらず、雇用決定のバイアスにつながる可能性のある、候補者の保護された属性を明らかにする可能性がある。 テキスト自体を自動書き直し, スタイル変換を通じて, 人間の生成したテキストの様式的特徴を強調するvaeベースのフレームワークを提案する。 本フレームワークは,(1)学習中に見られる様々なスタイルを効果的に交差する最小限の概念,(2)テキストにすべての繊細な属性のスタイル的特徴を付加することにより難読化しようとする極大概念という,難読化スタイルの2つの異なる概念を可能にする柔軟な方法で難読化スタイルの概念を運用する。 当社のスタイル難読化フレームワークは,複数の目的に使用できるが,下流分類器の公平性向上に有効性を示す。 また,スタイルプーリングがテキストの流束性,意味的一貫性,属性除去に与えた影響を,ドメインスタイルの難読化として包括的に研究している。

Text style can reveal sensitive attributes of the author (e.g. race or age) to the reader, which can, in turn, lead to privacy violations and bias in both human and algorithmic decisions based on text. For example, the style of writing in job applications might reveal protected attributes of the candidate which could lead to bias in hiring decisions, regardless of whether hiring decisions are made algorithmically or by humans. We propose a VAE-based framework that obfuscates stylistic features of human-generated text through style transfer by automatically re-writing the text itself. Our framework operationalizes the notion of obfuscated style in a flexible way that enables two distinct notions of obfuscated style: (1) a minimal notion that effectively intersects the various styles seen in training, and (2) a maximal notion that seeks to obfuscate by adding stylistic features of all sensitive attributes to text, in effect, computing a union of styles. Our style-obfuscation framework can be used for multiple purposes, however, we demonstrate its effectiveness in improving the fairness of downstream classifiers. We also conduct a comprehensive study on style pooling's effect on fluency, semantic consistency, and attribute removal from text, in two and three domain style obfuscation.
翻訳日:2021-09-14 00:04:54 公開日:2021-09-10
# (参考訳) 逆次プルーニングと並列化戦略を用いた高速pcアルゴリズム

A Fast PC Algorithm with Reversed-order Pruning and A Parallelization Strategy ( http://arxiv.org/abs/2109.04626v1 )

ライセンス: CC BY 4.0
Kai Zhang, Chao Tian, Kun Zhang, Todd Johnson, Xiaoqian Jiang(参考訳) pcアルゴリズムは観測データ上の因果構造発見のための最先端アルゴリズムである。 条件付き独立試験が徹底的に行われるため、最悪の場合、計算コストがかかる可能性がある。 これにより、タスクが数百から数千のノードを含む場合、特に真の因果グラフが密集している場合、アルゴリズムは計算的に難解になる。 本研究では,2つのノードを独立にレンダリングする条件セットは不自然であり,冗長ノードを含む条件セットは結果精度を犠牲にしないという批判的観測を提案する。 この発見に基づいて、私たちの仕事の革新は2つある。 まず,アルゴリズムの効率を大幅に向上させるリザーブ・オーダー・リンケージ・プルーニングPCアルゴリズムを革新する。 第2に,テンソル計算を活用し,統計独立性テストのための並列計算戦略を提案する。 また,提案アルゴリズムは,軽度グラフとデータ次元の仮定の下で,統計的損失を生じさせないことを示す。 実験結果から,提案アルゴリズムのシングルスレッドバージョンは,高密度95ノードグラフ上のPCアルゴリズムと比較して6倍の高速化を実現し,並列バージョンは825倍の高速化を実現することができた。 また,提案アルゴリズムは従来のPCアルゴリズムと同一条件下で一致していることを示す。

The PC algorithm is the state-of-the-art algorithm for causal structure discovery on observational data. It can be computationally expensive in the worst case due to the conditional independence tests are performed in an exhaustive-searching manner. This makes the algorithm computationally intractable when the task contains several hundred or thousand nodes, particularly when the true underlying causal graph is dense. We propose a critical observation that the conditional set rendering two nodes independent is non-unique, and including certain redundant nodes do not sacrifice result accuracy. Based on this finding, the innovations of our work are two-folds. First, we innovate on a reserve order linkage pruning PC algorithm which significantly increases the algorithm's efficiency. Second, we propose a parallel computing strategy for statistical independence tests by leveraging tensor computation, which brings further speedup. We also prove the proposed algorithm does not induce statistical power loss under mild graph and data dimensionality assumptions. Experimental results show that the single-threaded version of the proposed algorithm can achieve a 6-fold speedup compared to the PC algorithm on a dense 95-node graph, and the parallel version can make a 825-fold speed-up. We also provide proof that the proposed algorithm is consistent under the same set of conditions with conventional PC algorithm.
翻訳日:2021-09-13 23:46:42 公開日:2021-09-10
# (参考訳) イベント計算と目標指向解集合プログラミングを用いたモデル提示システム要件の知識支援推論 [全文訳有]

Knowledge-Assisted Reasoning of Model-Augmented System Requirements with Event Calculus and Goal-Directed Answer Set Programming ( http://arxiv.org/abs/2109.04634v1 )

ライセンス: CC BY 4.0
Brendan Hall (Honeywell Advanced Technology, Plymouth, USA), Sarat Chandra Varanasi (The University of Texas at Dallas, Richardson, USA), Jan Fiedor (Honeywell Internation s.r.o & Brno University of Technology, Brno, Czech Republic), Joaqu\'in Arias (Universidad Rey Juan Carlos, Madrid, Spain), Kinjal Basu (The University of Texas at Dallas, Richardson, USA), Fang Li (The University of Texas at Dallas, Richardson, USA), Devesh Bhatt (Honeywell Advanced Technology, Plymouth, USA), Kevin Driscoll (Honeywell Advanced Technology, Plymouth, USA), Elmer Salazar (The University of Texas at Dallas, Richardson, USA), Gopal Gupta (The University of Texas at Dallas, Richardson, USA)(参考訳) 我々は,制約付き自然言語で表現されるサイバー物理システムの要件を検討する。 我々は,これらの要件が一貫性を持ち,認識される障害に耐えられるような,新たな自動化手法を提案する。 サイバーフィジカルシステムの要求は、アクションや変化を表現するためにaiで使われるフォーマリズムであるevent calculus(ec)を使ってモデル化できる。 また、要求の事象計算モデルを直接実現するために、応答セットプログラミング(ASP)とそのクエリ駆動実装 s(CASP) をどのように利用できるかを示す。 このイベント計算モデルは、要件の自動検証に使用できる。 aspは表現力に富んだ知識表現言語であるため、サイバーフィジカルシステムに関する文脈知識を表現するのにも使うことができる。 アビオニクス領域からの高度警報システムによるアプローチについて説明する。

We consider requirements for cyber-physical systems represented in constrained natural language. We present novel automated techniques for aiding in the development of these requirements so that they are consistent and can withstand perceived failures. We show how cyber-physical systems' requirements can be modeled using the event calculus (EC), a formalism used in AI for representing actions and change. We also show how answer set programming (ASP) and its query-driven implementation s(CASP) can be used to directly realize the event calculus model of the requirements. This event calculus model can be used to automatically validate the requirements. Since ASP is an expressive knowledge representation language, it can also be used to represent contextual knowledge about cyber-physical systems, which, in turn, can be used to find gaps in their requirements specifications. We illustrate our approach through an altitude alerting system from the avionics domain.
翻訳日:2021-09-13 23:45:41 公開日:2021-09-10
# (参考訳) AIエージェントの緊急対応への応用 [全文訳有]

AI Agents in Emergency Response Applications ( http://arxiv.org/abs/2109.04646v1 )

ライセンス: CC BY 4.0
Aryan Naim, Ryan Alimo, and Jay Braun(参考訳) 救急隊員は、火災、医療、有害物質、産業事故、自然災害など様々な状況に対応している。 自然災害やテロ行為のような状況では、消防士、救急隊員、ハマトチーム、その他の機関の多面的な対応が必要である。 救急隊員を支援するエンジニアリングAIシステムは、システムエンジニアリングの難しさを証明している。 ミッションクリティカルな"エッジAI"の状況では、低レイテンシで信頼性の高い分析が必要になります。 複雑さをさらに増すには、命がかかっているときに高い精度のモデルが必要であり、リソースに制約のあるデバイスに計算集約的なモデルを配置する必要が生じる。 これらの問題に対処するため、5Gサービスベースのアーキテクチャを介してAIエージェントをデプロイするためのエージェントベースのアーキテクチャを提案する。

Emergency personnel respond to various situations ranging from fire, medical, hazardous materials, industrial accidents, to natural disasters. Situations such as natural disasters or terrorist acts require a multifaceted response of firefighters, paramedics, hazmat teams, and other agencies. Engineering AI systems that aid emergency personnel proves to be a difficult system engineering problem. Mission-critical "edge AI" situations require low-latency, reliable analytics. To further add complexity, a high degree of model accuracy is required when lives are at stake, creating a need for the deployment of highly accurate, however computationally intensive models to resource-constrained devices. To address all these issues, we propose an agent-based architecture for deployment of AI agents via 5G service-based architecture.
翻訳日:2021-09-13 23:32:06 公開日:2021-09-10
# (参考訳) 大規模言語モデルはどのような変化をもたらすのか? HyperCLOVA:数十億ドル規模の韓国生成事前学習トランスに関する研究 [全文訳有]

What Changes Can Large-scale Language Models Bring? Intensive Study on HyperCLOVA: Billions-scale Korean Generative Pretrained Transformers ( http://arxiv.org/abs/2109.04650v1 )

ライセンス: CC BY 4.0
Boseop Kim, HyoungSeok Kim, Sang-Woo Lee, Gichang Lee, Donghyun Kwak, Dong Hyeon Jeon, Sunghyun Park, Sungju Kim, Seonhoon Kim, Dongpil Seo, Heungsub Lee, Minyoung Jeong, Sungjae Lee, Minsub Kim, Suk Hyun Ko, Seokhun Kim, Taeyong Park, Jinuk Kim, Soyoung Kang, Na-Hyeon Ryu, Kang Min Yoo, Minsuk Chang, Soobin Suh, Sookyo In, Jinseong Park, Kyungduk Kim, Hiun Kim, Jisu Jeong, Yong Goo Yeo, Donghoon Ham, Dongju Park, Min Young Lee, Jaewook Kang, Inho Kang, Jung-Woo Ha, Woomyoung Park, Nako Sung(参考訳) GPT-3は、数十億の大規模データに基づいて訓練された大規模言語モデル(LM)のテキスト内学習能力を示す。 ここでは、非英語のLM、異なるサイズのモデルの性能、最近導入された即時最適化が文脈内学習に与える影響など、GPT-3論文で報告されていないいくつかの問題に対処する。 これを実現するために,韓国中心の560Bトークンコーパスでトレーニングされた82B GPT-3の韓国版HyperCLOVAを紹介する。 韓国固有のトークン化によって強化されたHyperCLOVAは、韓国のさまざまな下流タスクにおいて、最先端のコンテキスト内ゼロショットと数ショットの学習パフォーマンスを示す。 また,プロンプトベース学習のパフォーマンスの利点を示し,それをどのようにプロンプトエンジニアリングパイプラインに統合できるかを示す。 次に、インタラクティブなプロンプトエンジニアリングインターフェースであるHyperCLOVAスタジオを導入することにより、AIプロトタイピング機能をMLの非専門家に提供することで、No Code AIパラダイムを実現する可能性について議論する。 最後に,3つの社内アプリケーションによる手法の可能性を示す。

GPT-3 shows remarkable in-context learning ability of large-scale language models (LMs) trained on hundreds of billion scale data. Here we address some remaining issues less reported by the GPT-3 paper, such as a non-English LM, the performances of different sized models, and the effect of recently introduced prompt optimization on in-context learning. To achieve this, we introduce HyperCLOVA, a Korean variant of 82B GPT-3 trained on a Korean-centric corpus of 560B tokens. Enhanced by our Korean-specific tokenization, HyperCLOVA with our training configuration shows state-of-the-art in-context zero-shot and few-shot learning performances on various downstream tasks in Korean. Also, we show the performance benefits of prompt-based learning and demonstrate how it can be integrated into the prompt engineering pipeline. Then we discuss the possibility of materializing the No Code AI paradigm by providing AI prototyping capabilities to non-experts of ML by introducing HyperCLOVA studio, an interactive prompt engineering interface. Lastly, we demonstrate the potential of our methods with three successful in-house applications.
翻訳日:2021-09-13 23:24:23 公開日:2021-09-10
# (参考訳) 時間による創発的言語構成の予測--マルチモーダル連鎖による構文フレーム拡張 [全文訳有]

Predicting emergent linguistic compositions through time: Syntactic frame extension via multimodal chaining ( http://arxiv.org/abs/2109.04652v1 )

ライセンス: CC BY 4.0
Lei Yu, Yang Xu(参考訳) 自然言語は、未有界なアイデアの集合を表現するために有限語彙に依存する。 この緊張の結果の1つは、既存の言語単位と新興の項目を組み合わせて新しい表現にすることができるように、新しい構成を形成することである。 連鎖とマルチモーダル知識の認知機構を活用し,創発的構成表現を時間を通じて予測する枠組みを開発した。 構文フレーム拡張モデル(sfem, syntactic frame extension model,sfem)について述べる。これは「知覚」,「概念」,「言語」から連鎖と知識の理論を引き合いに出し、動詞がどのようにフレームを拡張して既存の名詞や新しい名詞で新しい構成を形成するかを推測するものである。 SFEMを厳格に評価する 1)知識のモダリティ、及び 2)過去150年間に構文解析された英語コーパスにおける連鎖の分類モデル。 マルチモーダルSFEMは、純粋言語的・非言語的知識を用いた競合モデルよりも、新たに出現した動詞構文と引数を予測できることを示す。 プロトタイプの視点とは対照的に,連鎖の卓越した見方を支持し,マルチモーダル連鎖の連立アプローチがメタファーやメトニミーを含むリテラルおよび図形言語の使用の創出に不可欠であることを明らかにする。

Natural language relies on a finite lexicon to express an unbounded set of emerging ideas. One result of this tension is the formation of new compositions, such that existing linguistic units can be combined with emerging items into novel expressions. We develop a framework that exploits the cognitive mechanisms of chaining and multimodal knowledge to predict emergent compositional expressions through time. We present the syntactic frame extension model (SFEM) that draws on the theory of chaining and knowledge from "percept", "concept", and "language" to infer how verbs extend their frames to form new compositions with existing and novel nouns. We evaluate SFEM rigorously on the 1) modalities of knowledge and 2) categorization models of chaining, in a syntactically parsed English corpus over the past 150 years. We show that multimodal SFEM predicts newly emerged verb syntax and arguments substantially better than competing models using purely linguistic or unimodal knowledge. We find support for an exemplar view of chaining as opposed to a prototype view and reveal how the joint approach of multimodal chaining may be fundamental to the creation of literal and figurative language uses including metaphor and metonymy.
翻訳日:2021-09-13 22:56:42 公開日:2021-09-10
# (参考訳) テキスト・テキスト・トランスファーモデルにおける数理学習能力の検討 [全文訳有]

Investigating Numeracy Learning Ability of a Text-to-Text Transfer Model ( http://arxiv.org/abs/2109.04672v1 )

ライセンス: CC BY 4.0
Kuntal Kumar Pal and Chitta Baral(参考訳) トランスフォーマーをベースとした事前学習言語モデルは、従来のNLPタスクの多くで非常に成功した。 しかし、数値理解が必要なタスクでは、しばしば苦労する。 いくつか考えられる理由は、数字の学習と保存を特別に意図していないトークン化と事前学習の目的である。 本稿では,従来のnlpタスクに先行するテキストからテキストへの転送学習モデル(t5)の学習能力について検討する。 我々は,数量化,マグニチュードオーダー予測,シリーズ内の最小値と最大値の探索,ソートという4つの数値化タスクを検討する。 T5モデルは補間環境では合理的に良好に機能するが、4つのタスクすべてにわたる補間環境ではかなり苦労している。

The transformer-based pre-trained language models have been tremendously successful in most of the conventional NLP tasks. But they often struggle in those tasks where numerical understanding is required. Some possible reasons can be the tokenizers and pre-training objectives which are not specifically designed to learn and preserve numeracy. Here we investigate the ability of text-to-text transfer learning model (T5), which has outperformed its predecessors in the conventional NLP tasks, to learn numeracy. We consider four numeracy tasks: numeration, magnitude order prediction, finding minimum and maximum in a series, and sorting. We find that, although T5 models perform reasonably well in the interpolation setting, they struggle considerably in the extrapolation setting across all four tasks.
翻訳日:2021-09-13 22:41:09 公開日:2021-09-10
# (参考訳) スコアガイドネットワークによる教師なし異常検出の強化 [全文訳有]

Enhancing Unsupervised Anomaly Detection with Score-Guided Network ( http://arxiv.org/abs/2109.04684v1 )

ライセンス: CC BY 4.0
Zongyuan Huang, Baohua Zhang, Guoqiang Hu, Longyuan Li, Yanyan Xu, Yaohui Jin(参考訳) 異常検出は、医療や金融システムを含む様々な現実世界のアプリケーションにおいて重要な役割を果たす。 複雑なシステムにおける異常ラベルの数が限られているため,近年,教師なし異常検出法が注目されている。 既存の教師なしメソッドが直面する2つの大きな課題は次のとおりである。 (i)正常データと異常データを高度に混合した遷移場における異常データとを区別すること。 二 表現学習者が構築した仮説空間における正規データと異常データのギャップを最大化するために有効な計量を定義すること。 そこで本研究では,正規データと異常データとの異常スコア差を学習・拡大するために,スコア誘導正規化による新しいスコアリングネットワークを提案する。 このようなスコア誘導戦略により、表現学習者は、モデルトレーニング段階、特に遷移分野のサンプルにおいて、より情報的な表現を徐々に学習することができる。 次に、スコア誘導型オートエンコーダ(SG-AE)を提案し、スコアリングネットワークをアノマ検出のためのオートエンコーダフレームワークと他の3つの最先端モデルに組み込むことにより、設計の有効性と転送性をさらに実証する。 合成および実世界の両方のデータセットに対する大規模な実験は、これらのスコア誘導モデル(SGM)の最先端性能を示す。

Anomaly detection plays a crucial role in various real-world applications, including healthcare and finance systems. Owing to the limited number of anomaly labels in these complex systems, unsupervised anomaly detection methods have attracted great attention in recent years. Two major challenges faced by the existing unsupervised methods are: (i) distinguishing between normal and abnormal data in the transition field, where normal and abnormal data are highly mixed together; (ii) defining an effective metric to maximize the gap between normal and abnormal data in a hypothesis space, which is built by a representation learner. To that end, this work proposes a novel scoring network with a score-guided regularization to learn and enlarge the anomaly score disparities between normal and abnormal data. With such score-guided strategy, the representation learner can gradually learn more informative representation during the model training stage, especially for the samples in the transition field. We next propose a score-guided autoencoder (SG-AE), incorporating the scoring network into an autoencoder framework for anomaly detection, as well as other three state-of-the-art models, to further demonstrate the effectiveness and transferability of the design. Extensive experiments on both synthetic and real-world datasets demonstrate the state-of-the-art performance of these score-guided models (SGMs).
翻訳日:2021-09-13 22:33:17 公開日:2021-09-10
# (参考訳) 差別化可能な報酬模倣学習による自己完結型質問応答ペアの生成

Generating Self-Contained and Summary-Centric Question Answer Pairs via Differentiable Reward Imitation Learning ( http://arxiv.org/abs/2109.04689v1 )

ライセンス: CC BY 4.0
Li Zhou, Kevin Small, Yong Zhang, Sandeep Atluri(参考訳) 対話型ニュースレコメンデーションシステムにおける質問生成を動機として,自己完結型要約型質問と記事要約型回答を用いた質問応答ペア(QAペア)の生成モデルを提案する。 まず、質問をタイトルとするニュース記事の新しいデータセットを収集し、さまざまな長さの要約と組み合わせます。 このデータセットは、回答として要約を生成するQAペア生成モデルを学ぶために使用される。 次に、自然言語生成における一般的な問題である露光バイアスを軽減するために、異なる報酬関数でQAペア生成プロセスを補強する。 自動測定と人的評価の両方が、これらのQAペアが記事の中心的なジストを捕捉し、高い回答精度を達成することを実証している。

Motivated by suggested question generation in conversational news recommendation systems, we propose a model for generating question-answer pairs (QA pairs) with self-contained, summary-centric questions and length-constrained, article-summarizing answers. We begin by collecting a new dataset of news articles with questions as titles and pairing them with summaries of varying length. This dataset is used to learn a QA pair generation model producing summaries as answers that balance brevity with sufficiency jointly with their corresponding questions. We then reinforce the QA pair generation process with a differentiable reward function to mitigate exposure bias, a common problem in natural language generation. Both automatic metrics and human evaluation demonstrate these QA pairs successfully capture the central gists of the articles and achieve high answer accuracy.
翻訳日:2021-09-13 21:54:38 公開日:2021-09-10
# (参考訳) 新型コロナウイルスおよび他の新興ドメインに対する動的ターミノロジー統合 [全文訳有]

Dynamic Terminology Integration for COVID-19 and other Emerging Domains ( http://arxiv.org/abs/2109.04708v1 )

ライセンス: CC BY-SA 4.0
Toms Bergmanis and M\=arcis Pinnis(参考訳) 言語領域の大多数は、伝達される情報の明確さと正確性を保証するために、用語の慎重な使用を必要とする。 いくつかの言語やドメインの用語の正しい使用は、大量のドメイン内並列データに汎用mtシステムを適用することで達成できるが、そのようなドメイン固有のデータは、少ないリソース言語やニッチなドメインではほとんど利用できない。 さらに、近年のcovid-19の例のように、新興ドメインではドメイン固有の並列データが容易に利用できない。 しかし、この最近の災害の重大さは、パンデミックや感染予防に関する重要な情報の信頼できる翻訳への高い需要を生み出した。 この研究は、WMT2021の共有タスク:ターミノロジーを用いた機械翻訳の一部であり、翻訳時に動的用語統合が可能なTilde MTシステムを記述する。 我々のシステムは、システムトレーニング中にドメイン内情報にアクセスすることなく、en-fr言語ペアのテストセットで最大94%のcovid-19期間使用精度を達成しています。 我々は、mtにおけるタスクの共有と用語の翻訳について、より広い議論で締めくくった。

The majority of language domains require prudent use of terminology to ensure clarity and adequacy of information conveyed. While the correct use of terminology for some languages and domains can be achieved by adapting general-purpose MT systems on large volumes of in-domain parallel data, such quantities of domain-specific data are seldom available for less-resourced languages and niche domains. Furthermore, as exemplified by COVID-19 recently, no domain-specific parallel data is readily available for emerging domains. However, the gravity of this recent calamity created a high demand for reliable translation of critical information regarding pandemic and infection prevention. This work is part of WMT2021 Shared Task: Machine Translation using Terminologies, where we describe Tilde MT systems that are capable of dynamic terminology integration at the time of translation. Our systems achieve up to 94% COVID-19 term use accuracy on the test set of the EN-FR language pair without having access to any form of in-domain information during system training. We conclude our work with a broader discussion considering the Shared Task itself and terminology translation in MT.
翻訳日:2021-09-13 21:53:40 公開日:2021-09-10
# (参考訳) AfroMT:8つのアフリカの言語翻訳のための事前学習戦略と再現可能なベンチマーク [全文訳有]

AfroMT: Pretraining Strategies and Reproducible Benchmarks for Translation of 8 African Languages ( http://arxiv.org/abs/2109.04715v1 )

ライセンス: CC BY 4.0
Machel Reid, Junjie Hu, Graham Neubig, Yutaka Matsuo(参考訳) 再現可能なベンチマークは機械翻訳研究の推進に不可欠である。 しかし、既存の機械翻訳のベンチマークは、主に高解像度言語や表現のよい言語に限られている。 低リソース機械翻訳への関心が高まりつつあるにもかかわらず、多くのアフリカ言語に対して標準化された再現可能なベンチマークは存在しない。 これらの課題に取り組むため,我々は,アフリカで広く話されている8つの言語を対象とした,標準化された,クリーンで再現可能な機械翻訳ベンチマークであるafromtを提案する。 また,これらの言語の特徴を考慮したシステム診断のための分析ツールも開発している。 さらに,低リソースに着目した事前学習を新たに検討し,単語レベルのアライメント情報と擬似モノリンガルデータを活用する2つの新しいデータ拡張戦略を開発した。 11の言語で事前トレーニングすると、強力なベースラインよりも最大2 bleuポイントの値が向上した。 また,データ制約されたシナリオにおいて,言語間転送ベースラインよりも最大12 bleuポイントの獲得率を示す。 すべてのコードと事前訓練されたモデルは、アフリカ言語のより大きな再現可能なベンチマークに向けたさらなるステップとしてリリースされる。

Reproducible benchmarks are crucial in driving progress of machine translation research. However, existing machine translation benchmarks have been mostly limited to high-resource or well-represented languages. Despite an increasing interest in low-resource machine translation, there are no standardized reproducible benchmarks for many African languages, many of which are used by millions of speakers but have less digitized textual data. To tackle these challenges, we propose AfroMT, a standardized, clean, and reproducible machine translation benchmark for eight widely spoken African languages. We also develop a suite of analysis tools for system diagnosis taking into account the unique properties of these languages. Furthermore, we explore the newly considered case of low-resource focused pretraining and develop two novel data augmentation-based strategies, leveraging word-level alignment information and pseudo-monolingual data for pretraining multilingual sequence-to-sequence models. We demonstrate significant improvements when pretraining on 11 languages, with gains of up to 2 BLEU points over strong baselines. We also show gains of up to 12 BLEU points over cross-lingual transfer baselines in data-constrained scenarios. All code and pretrained models will be released as further steps towards larger reproducible benchmarks for African languages.
翻訳日:2021-09-13 21:39:33 公開日:2021-09-10
# (参考訳) 多言語表現における自己言語バイアスの簡易かつ効果的な除去法 [全文訳有]

A Simple and Effective Method To Eliminate the Self Language Bias in Multilingual Representations ( http://arxiv.org/abs/2109.04727v1 )

ライセンス: CC BY 4.0
Ziyi Yang, Yinfei Yang, Daniel Cer and Eric Darve(参考訳) 言語非依存かつ意味論的情報分離は、多言語表現モデルの新たな研究方向である。 我々はこの問題を幾何学代数と意味空間の新しい角度から探求する。 多言語データに事前学習された多言語表現における意味関連成分から言語識別情報を取り出す簡易かつ高効率な「言語情報除去(lir)」手法 ポストトレーニングおよびモデル非依存の手法であるLIRは、行列分解や直交射影といった単純な線形演算のみを使用する。 LIRは、弱アライメント多言語システムでは、意味空間の主成分が言語アイデンティティ情報をエンコードしていることを明らかにする。 我々はまず,多言語埋め込み空間の強いアライメントを必要とする言語間質問応答検索タスク(LAReQA)について,LIRを評価する。 実験により、LIRがこの課題に対して極めて効果的であり、弱配向モデルに対するMAPの相対的な改善がほぼ100%であることが示された。 次に、Amazon ReviewsおよびXEVALデータセット上のLIRを評価し、言語情報を削除することにより、言語間転送性能が向上することを示す。

Language agnostic and semantic-language information isolation is an emerging research direction for multilingual representations models. We explore this problem from a novel angle of geometric algebra and semantic space. A simple but highly effective method "Language Information Removal (LIR)" factors out language identity information from semantic related components in multilingual representations pre-trained on multi-monolingual data. A post-training and model-agnostic method, LIR only uses simple linear operations, e.g. matrix factorization and orthogonal projection. LIR reveals that for weak-alignment multilingual systems, the principal components of semantic spaces primarily encodes language identity information. We first evaluate the LIR on a cross-lingual question answer retrieval task (LAReQA), which requires the strong alignment for the multilingual embedding space. Experiment shows that LIR is highly effectively on this task, yielding almost 100% relative improvement in MAP for weak-alignment models. We then evaluate the LIR on Amazon Reviews and XEVAL dataset, with the observation that removing language information is able to improve the cross-lingual transfer performance.
翻訳日:2021-09-13 21:19:10 公開日:2021-09-10
# (参考訳) 汎用性問題解決のための注意ネットワークによるグラフ検索の強化 [全文訳有]

Boosting Graph Search with Attention Network for Solving the General Orienteering Problem ( http://arxiv.org/abs/2109.04730v1 )

ライセンス: CC BY 4.0
Zongtao Liu, Jing Xu, Jintao Su, Tao Xiao and Yang Yang(参考訳) 近年,ニューラルネットワークを用いて異なる経路問題を解く研究がいくつか行われている。 これらの研究は通常、ノードのエンコーダ埋め込みと問題固有のコンテキストを用いてノードシーケンス(path)を生成し、さらにビームサーチによって生成された結果を最適化するエンコーダデコーダベースのフレームワークを設計する。 しかし、既存のモデルはノード座標を入力としてのみサポートし、研究されたルーティング問題の自己参照性を無視し、ノード選択の初期段階における信頼性の低い考慮を欠いているため、実世界では適用が困難である。 本稿では,これらの制約に対処する例として,オリエンテーリング問題を挙げる。 汎用指向性問題の解法として,可変ビーム探索アルゴリズムと学習ヒューリスティックを組み合わせた新しい手法を提案する。 我々は,ノード間の距離を入力とする注意ネットワークを用いてヒューリスティックを取得し,強化学習フレームワークを用いて学習する。 実験により,本手法は広い範囲のベースラインを越え,最適あるいは高度に専門化されたアプローチに近い結果が得られることを示した。 また,提案するフレームワークは他のルーティング問題にも容易に適用できる。 私たちのコードは公開されています。

Recently, several studies have explored the use of neural network to solve different routing problems, which is an auspicious direction. These studies usually design an encoder-decoder based framework that uses encoder embeddings of nodes and the problem-specific context to produce node sequence(path), and further optimize the produced result on top by beam search. However, existing models can only support node coordinates as input, ignore the self-referential property of the studied routing problems, and lack the consideration about the low reliability in the initial stage of node selection, thus are hard to be applied in real-world. In this paper, we take the orienteering problem as an example to tackle these limitations. We propose a novel combination of a variant beam search algorithm and a learned heuristic for solving the general orienteering problem. We acquire the heuristic with an attention network that takes the distances among nodes as input, and learn it via a reinforcement learning framework. The empirical studies show that our method can surpass a wide range of baselines and achieve results close to the optimal or highly specialized approach. Also, our proposed framework can be easily applied to other routing problems. Our code is publicly available.
翻訳日:2021-09-13 21:09:43 公開日:2021-09-10
# (参考訳) ジェンダーバイアス対策における単語埋め込みの信頼性の評価 [全文訳有]

Assessing the Reliability of Word Embedding Gender Bias Measures ( http://arxiv.org/abs/2109.04732v1 )

ライセンス: CC BY 4.0
Yupei Du, Qixiang Fang, Dong Nguyen(参考訳) 単語埋め込みにおける人間のような社会的バイアスを定量化する様々な方法が提案されている。 しかし、これらの尺度に基づくバイアススコアは測定誤差に苦しむことがある。 測定品質の指標の1つは信頼性であり、測定値が一貫した結果を生み出す程度に関するものである。 本稿では,単語埋め込み性バイアス尺度の3種類の信頼性,すなわちテスト-テストの信頼性,層間一貫性,内部整合性を評価する。 具体的には,無作為種子の異なる選択,得点規則,単語間のバイアススコアの一貫性について検討する。 さらに,これらの尺度の信頼性スコアに対する各種因子の影響を分析した。 以上の結果から,単語埋め込み性バイアス尺度の設計精度が向上した。 さらに,そのような対策の適用について,研究者により批判的であるように促す。

Various measures have been proposed to quantify human-like social biases in word embeddings. However, bias scores based on these measures can suffer from measurement error. One indication of measurement quality is reliability, concerning the extent to which a measure produces consistent results. In this paper, we assess three types of reliability of word embedding gender bias measures, namely test-retest reliability, inter-rater consistency and internal consistency. Specifically, we investigate the consistency of bias scores across different choices of random seeds, scoring rules and words. Furthermore, we analyse the effects of various factors on these measures' reliability scores. Our findings inform better design of word embedding gender bias measures. Moreover, we urge researchers to be more critical about the application of such measures.
翻訳日:2021-09-13 20:57:43 公開日:2021-09-10
# (参考訳) 視覚的文としての行:視覚的ローカライゼーションのためのコンテキスト対応行記述子 [全文訳有]

Line as a Visual Sentence: Context-aware Line Descriptor for Visual Localization ( http://arxiv.org/abs/2109.04753v1 )

ライセンス: CC BY 4.0
Sungho Yoon, Ayoung Kim(参考訳) 画像マッチングのための特徴点に加えて、ライン機能はロボット工学とコンピュータビジョン(CV)における視覚幾何学的問題を解決するための追加の制約を提供する。 最近の畳み込みニューラルネットワーク(CNN)ベースの線形記述子は、視点変化や動的環境に対して有望であるが、CNNアーキテクチャは、固定次元記述子への抽象的な可変線長に固有の欠点があると主張する。 本稿では,可変線を扱う線形変換器を効果的に導入する。 自然言語処理(NLP)タスクにインスパイアされた文は、ニューラルネットワークでよく理解され、抽象化されるので、行セグメントをポイント(単語)を含む文とみなす。 動的に線上の well-decribable point に順応することで, 可変線長を良好に記述する。 また,回線の幾何学的属性を近傍に共有するラインシグネチャネットワークを提案する。 グループディスクリプタとして実行され、ネットワークはラインの相対的ジオメトリを理解することによってラインディスクリプタを強化する。 最後に、提案した行記述子とマッチングを、PL-Loc(Point and Line Localization)に提示する。 特徴点を用いた視覚的ローカライゼーションは,ライン機能を用いて改善できることを示す。 提案するホモグラフィ推定法と視覚定位法を検証した。

Along with feature points for image matching, line features provide additional constraints to solve visual geometric problems in robotics and computer vision (CV). Although recent convolutional neural network (CNN)-based line descriptors are promising for viewpoint changes or dynamic environments, we claim that the CNN architecture has innate disadvantages to abstract variable line length into the fixed-dimensional descriptor. In this paper, we effectively introduce Line-Transformers dealing with variable lines. Inspired by natural language processing (NLP) tasks where sentences can be understood and abstracted well in neural nets, we view a line segment as a sentence that contains points (words). By attending to well-describable points on aline dynamically, our descriptor performs excellently on variable line length. We also propose line signature networks sharing the line's geometric attributes to neighborhoods. Performing as group descriptors, the networks enhance line descriptors by understanding lines' relative geometries. Finally, we present the proposed line descriptor and matching in a Point and Line Localization (PL-Loc). We show that the visual localization with feature points can be improved using our line features. We validate the proposed method for homography estimation and visual localization.
翻訳日:2021-09-13 20:35:40 公開日:2021-09-10
# (参考訳) テキスト分類のためのデュアルステートカプセルネットワーク [全文訳有]

Dual-State Capsule Networks for Text Classification ( http://arxiv.org/abs/2109.04762v1 )

ライセンス: CC BY 4.0
Piyumal Demotte, Surangika Ranathunga(参考訳) コンテキスト埋め込みに基づくテキスト分類システムは、多くの低リソース言語にとって有効な選択肢ではない。 一方,最近導入されたカプセルネットワークは,これらのテキスト分類モデルに匹敵する性能を示した。 したがって、事前訓練された文脈埋め込みモデルを持たない言語に対するテキスト分類の有効な代替として考えられる。 しかし、現在のカプセルネットワークは、テキストの逐次的特徴を考慮せずに、空間的パターンに依存する。 それらはまた、より長いシーケンスでコンテキストレベルの情報を取得するのに最適である。 本稿では,これらの問題を緩和するために最適化されたテキスト分類のための新しいDual-State Capsule (DS-Caps) ネットワーク技術を提案する。 文レベルと単語レベルという2種類の状態がカプセル層に統合され、言語モデリングのためのより深い文脈レベル情報を取得する。 カプセル間の動的ルーティングプロセスも,文レベル状態から得られる文脈レベル情報を用いて最適化された。 ds-capsネットワークは、複数のデータセット、特にテキストのシーケンスが長いタスクにおいて、既存のカプセルネットワークアーキテクチャよりも優れている。 また,低リソース言語におけるテキスト分類におけるDS-Capsの優位性を示す。

Text classification systems based on contextual embeddings are not viable options for many of the low resource languages. On the other hand, recently introduced capsule networks have shown performance in par with these text classification models. Thus, they could be considered as a viable alternative for text classification for languages that do not have pre-trained contextual embedding models. However, current capsule networks depend upon spatial patterns without considering the sequential features of the text. They are also sub-optimal in capturing the context-level information in longer sequences. This paper presents a novel Dual-State Capsule (DS-Caps) network-based technique for text classification, which is optimized to mitigate these issues. Two varieties of states, namely sentence-level and word-level, are integrated with capsule layers to capture deeper context-level information for language modeling. The dynamic routing process among capsules was also optimized using the context-level information obtained through sentence-level states. The DS-Caps networks outperform the existing capsule network architectures for multiple datasets, particularly for tasks with longer sequences of text. We also demonstrate the superiority of DS-Caps in text classification for a low resource language.
翻訳日:2021-09-13 20:18:24 公開日:2021-09-10
# (参考訳) RoR: 長いドキュメントマシンを読むための読み書き [全文訳有]

RoR: Read-over-Read for Long Document Machine Reading Comprehension ( http://arxiv.org/abs/2109.04780v1 )

ライセンス: CC BY-SA 4.0
Jing Zhao, Junwei Bao, Yifan Wang, Yongwei Zhou, Youzheng Wu, Xiaodong He, and Bowen Zhou(参考訳) BERTのようなトランスフォーマーベースの事前学習モデルは、機械読解において顕著な成果を上げている。 しかし、エンコーディングの長さ(例えば512ワードピーストークン)の制約のため、長い文書は通常、独立に読み取られる複数のチャンクに分割される。 その結果、長い文書機械読解のための情報協調なしに、読み出し領域は個々のチャンクに限られる。 そこで本研究では,読み出しフィールドをチャンクからドキュメントに拡張する読み出し読み出し手法であるRoRを提案する。 特に、RoRはチャンクリーダーとドキュメントリーダーを含む。 前者はまず各チャンクの局所的な回答のセットを予測し、それを圧縮して元のドキュメントの高密度バージョンにし、一度エンコードすることを保証します。 後者は、この凝縮文書のグローバルな回答をさらに予測する。 最終的に、最終予測のために地域と世界的な回答を集計し、再集計するために投票戦略が使用される。 QuACとTriviaQAの2つのベンチマークによる大規模な実験は、長い文書読解におけるRoRの有効性を示した。 特にRoRは、提出された時点でQuACのリーダーボード(https://quac.ai/)で1位(2021年5月17日)。

Transformer-based pre-trained models, such as BERT, have achieved remarkable results on machine reading comprehension. However, due to the constraint of encoding length (e.g., 512 WordPiece tokens), a long document is usually split into multiple chunks that are independently read. It results in the reading field being limited to individual chunks without information collaboration for long document machine reading comprehension. To address this problem, we propose RoR, a read-over-read method, which expands the reading field from chunk to document. Specifically, RoR includes a chunk reader and a document reader. The former first predicts a set of regional answers for each chunk, which are then compacted into a highly-condensed version of the original document, guaranteeing to be encoded once. The latter further predicts the global answers from this condensed document. Eventually, a voting strategy is utilized to aggregate and rerank the regional and global answers for final prediction. Extensive experiments on two benchmarks QuAC and TriviaQA demonstrate the effectiveness of RoR for long document reading. Notably, RoR ranks 1st place on the QuAC leaderboard (https://quac.ai/) at the time of submission (May 17th, 2021).
翻訳日:2021-09-13 20:04:20 公開日:2021-09-10
# (参考訳) エンド・ツー・エンドのマルチチャンネル遠方音声認識のためのセルフアテンションチャネルコンビネータフロントエンド [全文訳有]

Self-Attention Channel Combinator Frontend for End-to-End Multichannel Far-field Speech Recognition ( http://arxiv.org/abs/2109.04783v1 )

ライセンス: CC BY 4.0
Rong Gong, Carl Quillen, Dushyant Sharma, Andrew Goderre, Jos\'e La\'inez, Ljubomir Milanovi\'c(参考訳) 十分に大きな遠距離訓練データが提示されると、多チャンネルフロントエンドとエンドツーエンド(E2E)バックエンドを共同で最適化し、有望な結果を示す。 近年の文献では、MVDR (Minimum Variance Distortionless Response) や固定ビームフォーマといった従来のビームフォーマの設計が、学習可能なパラメータを持つE2E ASRシステムにフロントエンドとしてうまく統合できることが示されている。 本研究では,マルチチャネル音声信号を大域スペクトル領域に結合する自己アテンション機構を利用する,自己アテンションチャネルコンビネータ(sacc)asrフロントエンドを提案する。 マルチチャネル再生テストデータを用いて行った実験によると、SACCは最先端の固定ビームフォーマーベースのフロントエンドと比較して9.3%のWERRを達成した。 また、SACCと従来のビームフォーマとの接続を実証し、SACCの中間出力を解析する。

When a sufficiently large far-field training data is presented, jointly optimizing a multichannel frontend and an end-to-end (E2E) Automatic Speech Recognition (ASR) backend shows promising results. Recent literature has shown traditional beamformer designs, such as MVDR (Minimum Variance Distortionless Response) or fixed beamformers can be successfully integrated as the frontend into an E2E ASR system with learnable parameters. In this work, we propose the self-attention channel combinator (SACC) ASR frontend, which leverages the self-attention mechanism to combine multichannel audio signals in the magnitude spectral domain. Experiments conducted on a multichannel playback test data shows that the SACC achieved a 9.3% WERR compared to a state-of-the-art fixed beamformer-based frontend, both jointly optimized with a ContextNet-based ASR backend. We also demonstrate the connection between the SACC and the traditional beamformers, and analyze the intermediate outputs of the SACC.
翻訳日:2021-09-13 19:49:39 公開日:2021-09-10
# (参考訳) 3次元動脈モデルにおける壁せん断応力推定のためのメッシュ畳み込みニューラルネットワーク [全文訳有]

Mesh convolutional neural networks for wall shear stress estimation in 3D artery models ( http://arxiv.org/abs/2109.04797v1 )

ライセンス: CC BY 4.0
Julian Suk, Pim de Haan, Phillip Lippe, Christoph Brune, Jelmer M. Wolterink(参考訳) 計算流体力学(cfd)は動脈の血行動態を個人化し、非侵襲的に評価するための貴重なツールであるが、その複雑さと時間を要する性質は、実際の大規模使用を禁止している。 近年,壁せん断応力 (WSS) などのCFDパラメータを表面メッシュ上で高速に推定するためのディープラーニングの利用が検討されている。 しかし、既存のアプローチは一般に、畳み込みニューラルネットワークアーキテクチャにマッチする表面メッシュの再パラメータに依存する。 そこで本研究では,cfdで使用されるのと同じ有限要素サーフェスメッシュ上で直接動作するメッシュ畳み込みニューラルネットワークを用いることを提案する。 CFDシミュレーションから得られた基礎的真理を用いて,2分岐および無分岐の合成冠状動脈モデルを用いて本手法の訓練と評価を行った。 当社のフレキシブルなディープラーニングモデルは、このサーフェスメッシュ上の3d wssベクトルを正確に予測できることを示します。 提案手法では,新しいメッシュを5 [s]未満で処理し,正規化平均絶対誤差$\leq$ 1.6 [%] を一貫して達成し,ホールドアウトテストセットに対して90.5[%]の中央近似精度をピークとし,先行した作業と比較した。 これは動脈モデルにおける血行動態パラメータ推定のためのメッシュ畳み込みニューラルネットワークを用いたcfdサロゲートモデルの実現可能性を示している。

Computational fluid dynamics (CFD) is a valuable tool for personalised, non-invasive evaluation of hemodynamics in arteries, but its complexity and time-consuming nature prohibit large-scale use in practice. Recently, the use of deep learning for rapid estimation of CFD parameters like wall shear stress (WSS) on surface meshes has been investigated. However, existing approaches typically depend on a hand-crafted re-parametrisation of the surface mesh to match convolutional neural network architectures. In this work, we propose to instead use mesh convolutional neural networks that directly operate on the same finite-element surface mesh as used in CFD. We train and evaluate our method on two datasets of synthetic coronary artery models with and without bifurcation, using a ground truth obtained from CFD simulation. We show that our flexible deep learning model can accurately predict 3D WSS vectors on this surface mesh. Our method processes new meshes in less than 5 [s], consistently achieves a normalised mean absolute error of $\leq$ 1.6 [%], and peaks at 90.5 [%] median approximation accuracy over the held-out test set, comparing favorably to previously published work. This shows the feasibility of CFD surrogate modelling using mesh convolutional neural networks for hemodynamic parameter estimation in artery models.
翻訳日:2021-09-13 19:40:05 公開日:2021-09-10
# (参考訳) 説明可能なAIによる二次制御活性化の解析と予測 [全文訳有]

Secondary control activation analysed and predicted with explainable AI ( http://arxiv.org/abs/2109.04802v1 )

ライセンス: CC BY 4.0
Johannes Kruse, Benjamin Sch\"afer, Dirk Witthaut(参考訳) 再生可能エネルギーシステムへの移行は電力グリッドの運用と安定性に課題をもたらす。 二次制御は、障害後の電力系統を基準に復元する鍵となる。 必要な制御能力の過小評価には、負荷層などの緊急措置が必要である。 したがって、新たなリスクとコントロールの推進要因を明確に理解する必要がある。 本研究では,ドイツにおける二次制御能力の活性化に関する説明可能な機械学習モデルを構築した。 勾配強化木を訓練し,制御活性化の正確な記述を得た。 シェープリー加法説明(shap)値を用いて,制御活性化と生成混合,予測誤差,電力市場データなどの外部特性との依存性について検討した。 これにより、ドイツの電力システムに高い予備的要件をもたらすドライバーが明らかになる。 オープンデータを利用して機械学習モデルを解釈するわれわれの透明なアプローチは、新たな科学的発見の道を開く。

The transition to a renewable energy system poses challenges for power grid operation and stability. Secondary control is key in restoring the power system to its reference following a disturbance. Underestimating the necessary control capacity may require emergency measures, such as load shedding. Hence, a solid understanding of the emerging risks and the driving factors of control is needed. In this contribution, we establish an explainable machine learning model for the activation of secondary control power in Germany. Training gradient boosted trees, we obtain an accurate description of control activation. Using SHapely Additive exPlanation (SHAP) values, we investigate the dependency between control activation and external features such as the generation mix, forecasting errors, and electricity market data. Thereby, our analysis reveals drivers that lead to high reserve requirements in the German power system. Our transparent approach, utilizing open data and making machine learning models interpretable, opens new scientific discovery avenues.
翻訳日:2021-09-13 19:29:18 公開日:2021-09-10
# (参考訳) STELは捕獲されるか? モジュール型類似性に基づく言語スタイル評価フレームワーク [全文訳有]

Does It Capture STEL? A Modular, Similarity-based Linguistic Style Evaluation Framework ( http://arxiv.org/abs/2109.04817v1 )

ライセンス: CC BY 4.0
Anna Wegmann and Dong Nguyen(参考訳) スタイルは自然言語の不可欠な部分である。 しかしながら,スタイル尺度の評価手法は稀であり,タスク固有のものが多く,通常はコンテンツの制御は行わない。 本稿では,2つの文をスタイルで比較可能な任意のモデルの性能をテストするために,モジュール構造,微粒化,およびコンテント制御の類似性に基づくSTEL(Style EvaLuation framework)を提案する。 2種類のスタイル(形式・非形式・単純・複合)と2つの特定のスタイル特性(contracation と numb3r 置換)を持つスケルを説明する。 BERT ベースの手法は,3 グラム,句読点周波数,LIWC ベースのアプローチなど,一般的なスタイル尺度の単純なバージョンよりも優れていることがわかった。 我々はSTELにさらなるタスクとタスクインスタンスを追加し、スタイルに敏感な対策の改善を期待する。

Style is an integral part of natural language. However, evaluation methods for style measures are rare, often task-specific and usually do not control for content. We propose the modular, fine-grained and content-controlled similarity-based STyle EvaLuation framework (STEL) to test the performance of any model that can compare two sentences on style. We illustrate STEL with two general dimensions of style (formal/informal and simple/complex) as well as two specific characteristics of style (contrac'tion and numb3r substitution). We find that BERT-based methods outperform simple versions of commonly used style measures like 3-grams, punctuation frequency and LIWC-based approaches. We invite the addition of further tasks and task instances to STEL and hope to facilitate the improvement of style-sensitive measures.
翻訳日:2021-09-13 19:15:21 公開日:2021-09-10
# (参考訳) knode-mpc : 航空ロボットのための知識ベースデータ駆動予測制御フレームワーク [全文訳有]

KNODE-MPC: A Knowledge-based Data-driven Predictive Control Framework for Aerial Robots ( http://arxiv.org/abs/2109.04821v1 )

ライセンス: CC BY 4.0
Kong Yao Chee, Tom Z. Jiahao and M. Ani Hsieh(参考訳) 本研究では,モデル予測制御 (MPC) のための正確な動的モデルを導出し,導入することの問題点について考察する。 MPCは所望のクローズドループ性能を達成するために正確なダイナミックモデルに依存している。 しかし、複雑なシステムにおける不確実性やそれらが運用する環境の存在は、システムのダイナミクスの十分な正確な表現を得る上での課題となる。 本研究では,ディープラーニングツールである知識ベースニューラル常微分方程式(knode)を用いて,第一原理から得られたモデルの拡張を行う。 得られたハイブリッドモデルは、シミュレーションまたは実世界の実験データから学習した名目第一原理モデルとニューラルネットワークの両方を包含する。 クワッドローターを用いて,最先端のガウス過程(gp)モデルに対してハイブリッドモデルをベンチマークし,ハイブリッドモデルがクワドローターダイナミクスのより正確な予測を提供し,トレーニングデータを超えて一般化できることを示す。 閉ループ性能を改善するため、ハイブリッドモデルはKNODE-MPCとして知られる新しいMPCフレームワークに統合される。 その結果, 軌道追跡性能の面では, シミュレーションでは73%, 物理実験では14%以上向上していることがわかった。

In this work, we consider the problem of deriving and incorporating accurate dynamic models for model predictive control (MPC) with an application to quadrotor control. MPC relies on precise dynamic models to achieve the desired closed-loop performance. However, the presence of uncertainties in complex systems and the environments they operate in poses a challenge in obtaining sufficiently accurate representations of the system dynamics. In this work, we make use of a deep learning tool, knowledge-based neural ordinary differential equations (KNODE), to augment a model obtained from first principles. The resulting hybrid model encompasses both a nominal first-principle model and a neural network learnt from simulated or real-world experimental data. Using a quadrotor, we benchmark our hybrid model against a state-of-the-art Gaussian Process (GP) model and show that the hybrid model provides more accurate predictions of the quadrotor dynamics and is able to generalize beyond the training data. To improve closed-loop performance, the hybrid model is integrated into a novel MPC framework, known as KNODE-MPC. Results show that the integrated framework achieves 73% improvement in simulations and more than 14% in physical experiments, in terms of trajectory tracking performance.
翻訳日:2021-09-13 18:44:39 公開日:2021-09-10
# (参考訳) 注意図のトポロジーによる人工テキスト検出 [全文訳有]

Artificial Text Detection via Examining the Topology of Attention Maps ( http://arxiv.org/abs/2109.04825v1 )

ライセンス: CC BY 4.0
Laida Kushnareva, Daniil Cherniavskii, Vladislav Mikhailov, Ekaterina Artemova, Serguei Barannikov, Alexander Bernstein, Irina Piontkovskaya, Dmitri Piontkovski, Evgeny Burnaev(参考訳) 最近の生成モデルの印象的な能力は、人間が書いたものと区別するのが難しいテキストを作成することで、偽ニュース、製品レビュー、さらには悪質なコンテンツを生成するために誤用される可能性がある。 既存の人工テキスト検出手法の顕著な性能にもかかわらず、未確認モデルに対する解釈性と堅牢性は依然として欠如している。 そこで本研究では,現在NLPの分野で検討中のトポロジカルデータ解析(TDA)に基づく3つの新しい解釈可能なトポロジ的特徴を提案する。 BERTモデルから派生した特徴は,3つの共通データセットにおいて最大10\%まで,カウントベースとニューラルベースベースラインを上回り,既存の手法とは対照的にGPTスタイルの生成モデルに対して最も堅牢であることを示す。 特徴の探索解析は表面に対する感度と構文的性質を明らかにしている。 その結果,TDAはNLPタスク,特に表面情報や構造情報を取り入れたタスクに対して,有望なラインであることがわかった。

The impressive capabilities of recent generative models to create texts that are challenging to distinguish from the human-written ones can be misused for generating fake news, product reviews, and even abusive content. Despite the prominent performance of existing methods for artificial text detection, they still lack interpretability and robustness towards unseen models. To this end, we propose three novel types of interpretable topological features for this task based on Topological Data Analysis (TDA) which is currently understudied in the field of NLP. We empirically show that the features derived from the BERT model outperform count- and neural-based baselines up to 10\% on three common datasets, and tend to be the most robust towards unseen GPT-style generation models as opposed to existing methods. The probing analysis of the features reveals their sensitivity to the surface and syntactic properties. The results demonstrate that TDA is a promising line with respect to NLP tasks, specifically the ones that incorporate surface and structural information.
翻訳日:2021-09-13 18:31:49 公開日:2021-09-10
# (参考訳) ロバストマルチターン応答選択モデル構築のための評価データセットと戦略 [全文訳有]

An Evaluation Dataset and Strategy for Building Robust Multi-turn Response Selection Model ( http://arxiv.org/abs/2109.04834v1 )

ライセンス: CC BY 4.0
Kijong Han, Seojin Lee, Wooin Lee, Joosung Lee, Dong-hun Lee(参考訳) マルチターン応答選択モデルは最近、いくつかのベンチマークデータセットで人間に匹敵するパフォーマンスを示している。 しかし、現実の環境では、これらのモデルは、文脈を包括的に理解することなく、表面的パターンに大きく依存した誤った予測を行うなど、しばしば弱点がある。 例えば、これらのモデルは、コンテキストに関連するいくつかのキーワードを含む間違った応答候補に高いスコアを与えるが、矛盾しない時制を使用する。 本研究では,open-domain korea multi-turn response selection modelの弱点を分析し,これらの弱点を評価するための逆データセットを公開する。 また,この対向環境において頑健なモデルを構築するための戦略を提案する。

Multi-turn response selection models have recently shown comparable performance to humans in several benchmark datasets. However, in the real environment, these models often have weaknesses, such as making incorrect predictions based heavily on superficial patterns without a comprehensive understanding of the context. For example, these models often give a high score to the wrong response candidate containing several keywords related to the context but using the inconsistent tense. In this study, we analyze the weaknesses of the open-domain Korean Multi-turn response selection models and publish an adversarial dataset to evaluate these weaknesses. We also suggest a strategy to build a robust model in this adversarial environment.
翻訳日:2021-09-13 18:12:11 公開日:2021-09-10
# (参考訳) FR-Detect:パブリッシャ機能を用いたソーシャルメディア上の早期フェイクニュース検出のためのマルチモーダルフレームワーク [全文訳有]

FR-Detect: A Multi-Modal Framework for Early Fake News Detection on Social Media Using Publishers Features ( http://arxiv.org/abs/2109.04835v1 )

ライセンス: CC BY 4.0
Ali Jarrahi and Leila Safari(参考訳) 近年、インターネットの拡大と魅力的なソーシャルメディアインフラにより、人々はこれらのメディアを通じてニュースをフォローすることを好む。 ニュース分野におけるこれらのメディアの多くの利点にもかかわらず、制御と検証機構の欠如は、民主主義、経済、ジャーナリズム、表現の自由に対する最も重要な脅威の1つとして偽ニュースの拡散につながっている。 ソーシャルメディア上の偽ニュースを自動的に検出する手法の設計と利用は、大きな課題となっている。 本稿では,ソーシャルメディア上での偽ニュースの検出における出版社の役割について検討する。 また,早期検出機能を持つユーザ関連およびコンテンツ関連機能を用いて,高精度なマルチモーダルフレームワークfr-detectを提案する。 この目的のために、2つの新しいユーザー関連機能、すなわち活動の信頼性と影響がパブリッシャーに導入されている。 さらに、これらの特徴と潜在テキストコンテンツ特徴を適切に組み合わせるために、文レベルの畳み込みニューラルネットワークを提供する。 実験結果から,出版社はコンテンツベースモデルの性能を最大13%,F1スコアを最大29%向上させることができることがわかった。

In recent years, with the expansion of the Internet and attractive social media infrastructures, people prefer to follow the news through these media. Despite the many advantages of these media in the news field, the lack of any control and verification mechanism has led to the spread of fake news, as one of the most important threats to democracy, economy, journalism and freedom of expression. Designing and using automatic methods to detect fake news on social media has become a significant challenge. In this paper, we examine the publishers' role in detecting fake news on social media. We also suggest a high accurate multi-modal framework, namely FR-Detect, using user-related and content-related features with early detection capability. For this purpose, two new user-related features, namely Activity Credibility and Influence, have been introduced for publishers. Furthermore, a sentence-level convolutional neural network is provided to combine these features with latent textual content features properly. Experimental results have shown that the publishers' features can improve the performance of content-based models by up to 13% and 29% in accuracy and F1-score, respectively.
翻訳日:2021-09-13 18:03:38 公開日:2021-09-10
# (参考訳) CoPHE:大規模マルチラベルテキスト分類における数保存階層的評価基準 [全文訳有]

CoPHE: A Count-Preserving Hierarchical Evaluation Metric in Large-Scale Multi-Label Text Classification ( http://arxiv.org/abs/2109.04853v1 )

ライセンス: CC BY 4.0
Mat\'u\v{s} Falis, Hang Dong, Alexandra Birch, Beatrice Alex(参考訳) 大規模なMulti-Label Text Classification (LMTC) には階層的なラベル空間を持つタスクが含まれている。 先行技術におけるモデルの性能を,豊富な階層構造を考慮せずに,標準精度,リコール,F1測定値で評価する。 本研究では,ニューラルLMTCモデルの予測の階層的評価について論じる。 ICD-9オントロジーの例では、先行技術における構造化ラベル空間の表現における構造的問題を説明し、オントロジーの深さに基づく代替表現を提案する。 深度に基づく表現を用いた階層的評価のための指標セットを提案する。 MIMIC-III における ICD-9 符号化のための先行技術 LMTC モデルを用いた評価結果と比較した。 また,提案するオントロジ表現に関するさらなる研究方法を提案する。

Large-Scale Multi-Label Text Classification (LMTC) includes tasks with hierarchical label spaces, such as automatic assignment of ICD-9 codes to discharge summaries. Performance of models in prior art is evaluated with standard precision, recall, and F1 measures without regard for the rich hierarchical structure. In this work we argue for hierarchical evaluation of the predictions of neural LMTC models. With the example of the ICD-9 ontology we describe a structural issue in the representation of the structured label space in prior art, and propose an alternative representation based on the depth of the ontology. We propose a set of metrics for hierarchical evaluation using the depth-based representation. We compare the evaluation scores from the proposed metrics with previously used metrics on prior art LMTC models for ICD-9 coding in MIMIC-III. We also propose further avenues of research involving the proposed ontological representation.
翻訳日:2021-09-13 17:51:22 公開日:2021-09-10
# (参考訳) 反復シャッフルによる単語順の研究 [全文訳有]

Studying word order through iterative shuffling ( http://arxiv.org/abs/2109.04867v1 )

ライセンス: CC BY 4.0
Nikolay Malkin, Sameera Lanka, Pranav Goel, Nebojsa Jojic(参考訳) ニューラルネットワークモデルがNLPベンチマークタスク上での人間のパフォーマンスに近づくにつれ、その進歩は構文の複雑な理解の証拠として広く見られている。 この考え方は、まだ実証的にテストされていない仮説に基づいている: 語順はこれらのタスクを実行する上で不可欠な意味を符号化する。 グルー・スイートや英文の様々なジャンルでは、文や句の中の単語が置換されることは滅多になく、実質的に異なる情報を持つフレーズを形成することができる。 我々の驚くべき結果は、固定言語モデルの下で最も高い確率の単語の袋を注文する新しい効率的な手順である反復シャッフル(IBIS)による推論に依存する。 IBISはいかなるブラックボックスモデルも追加トレーニングなしで使用でき、既存の単語順序付けアルゴリズムよりも優れている。 IBISのようなシャッフル推論手法が言語モデリングや制約付き生成にどう役立つのかを考察する。

As neural language models approach human performance on NLP benchmark tasks, their advances are widely seen as evidence of an increasingly complex understanding of syntax. This view rests upon a hypothesis that has not yet been empirically tested: that word order encodes meaning essential to performing these tasks. We refute this hypothesis in many cases: in the GLUE suite and in various genres of English text, the words in a sentence or phrase can rarely be permuted to form a phrase carrying substantially different information. Our surprising result relies on inference by iterative shuffling (IBIS), a novel, efficient procedure that finds the ordering of a bag of words having the highest likelihood under a fixed language model. IBIS can use any black-box model without additional training and is superior to existing word ordering algorithms. Coalescing our findings, we discuss how shuffling inference procedures such as IBIS can benefit language modeling and constrained generation.
翻訳日:2021-09-13 17:43:06 公開日:2021-09-10
# (参考訳) 単語表現へのアプローチの統合 [全文訳有]

Integrating Approaches to Word Representation ( http://arxiv.org/abs/2109.04876v1 )

ライセンス: CC BY-SA 4.0
Yuval Pinter(参考訳) 現代のニューラルネットワークシステムにおける言語の原子要素を表現する問題は、自然言語処理の分野における中心的な課題の1つである。 本稿では, この課題に対処するための分布的, 構成的, 関係的アプローチについて調査し, 単語レベルと語彙外現象に着目し, それらをシステムに組み込む様々な方法について議論する。

The problem of representing the atomic elements of language in modern neural learning systems is one of the central challenges of the field of natural language processing. I present a survey of the distributional, compositional, and relational approaches to addressing this task, and discuss various means of integrating them into systems, with special emphasis on the word level and the out-of-vocabulary phenomenon.
翻訳日:2021-09-13 17:22:28 公開日:2021-09-10
# (参考訳) 低リソース言語品種のための効率的なテスト時間アダプタ [全文訳有]

Efficient Test Time Adapter Ensembling for Low-resource Language Varieties ( http://arxiv.org/abs/2109.04877v1 )

ライセンス: CC BY 4.0
Xinyi Wang and Yulia Tsvetkov and Sebastian Ruder and Graham Neubig(参考訳) アダプタは、事前訓練されたモデルのパラメータ効率の良い微調整を可能にする軽量モジュールである。 近年,多言語事前学習モデル(Pfeiffer et al., 2020b)の言語間移動を容易にするために,特殊言語とタスクアダプタが提案されている。 しかしこのアプローチでは,サポートしたいすべての言語に対して,独立した言語アダプタをトレーニングする必要がある。 直感的な解決策は、新しい言語の種類に関連言語アダプタを使用することであるが、このソリューションが準最適性能をもたらすことを観察する。 本稿では,新たなアダプタをトレーニングすることなく,発見言語に対する言語アダプタの堅牢性を向上させることを目的とする。 複数の既存言語アダプタをアンサンブルすることで、これらのアダプタに含まれない他の言語品種に対して、微調整されたモデルが大幅に堅牢になることがわかった。 そこで本研究では,各文に対して事前学習した言語アダプタのアンサンブル重みを最適化する手法であるemea(entropy minimumd ensemble of adapters)を提案する。 言語変種を多種に分けた3つの実験により,提案手法はすべての言語において,名前付きエンティティ認識とパート・オブ・音声タギングの両方に大きな改善をもたらすことが示された。

Adapters are light-weight modules that allow parameter-efficient fine-tuning of pretrained models. Specialized language and task adapters have recently been proposed to facilitate cross-lingual transfer of multilingual pretrained models (Pfeiffer et al., 2020b). However, this approach requires training a separate language adapter for every language one wishes to support, which can be impractical for languages with limited data. An intuitive solution is to use a related language adapter for the new language variety, but we observe that this solution can lead to sub-optimal performance. In this paper, we aim to improve the robustness of language adapters to uncovered languages without training new adapters. We find that ensembling multiple existing language adapters makes the fine-tuned model significantly more robust to other language varieties not included in these adapters. Building upon this observation, we propose Entropy Minimized Ensemble of Adapters (EMEA), a method that optimizes the ensemble weights of the pretrained language adapters for each test sentence by minimizing the entropy of its predictions. Experiments on three diverse groups of language varieties show that our method leads to significant improvements on both named entity recognition and part-of-speech tagging across all languages.
翻訳日:2021-09-13 16:59:53 公開日:2021-09-10
# (参考訳) テンプレート生成としての文書レベルのエンティティベース抽出 [全文訳有]

Document-level Entity-based Extraction as Template Generation ( http://arxiv.org/abs/2109.04901v1 )

ライセンス: CC BY 4.0
Kung-Hsiang Huang, Sam Tang and Nanyun Peng(参考訳) エンティティの役割やエンティティの関係といったエンティティ中心の情報を抽出することを目的としたドキュメントレベルのエンティティベース抽出(ee)は、さまざまなドメインのテキストコーパスからの自動知識獲得の鍵となる。 ほとんどのドキュメントレベルのEEシステムは、ドキュメントレベルのエンティティ間の長期的な依存関係をモデル化するのに苦労する抽出モデルを構築します。 この問題に対処するため、我々は、役割充足者エンティティ抽出(REE)と関係抽出(RE)という2つの文書レベルのEEタスクのための生成フレームワークを提案する。 まず,モデルをテンプレート生成問題として定式化し,クロスエンティティな依存関係を効率的に捉え,ラベルセマンティクスを活用し,n-項関係を識別する指数計算の複雑さを回避する。 新たなクロスアテンション誘導コピー機構であるTopK Copyは、予め訓練されたシーケンス・ツー・シーケンスモデルに組み込まれ、入力文書内のキー情報を特定する能力を高める。 MUC-4とSciREXデータセットで行った実験では、REE(+3.26%)、バイナリRE(+4.8%)、F1スコアの4-ary RE(+2.7%)に関する新しい最先端の結果が示されている。

Document-level entity-based extraction (EE), aiming at extracting entity-centric information such as entity roles and entity relations, is key to automatic knowledge acquisition from text corpora for various domains. Most document-level EE systems build extractive models, which struggle to model long-term dependencies among entities at the document level. To address this issue, we propose a generative framework for two document-level EE tasks: role-filler entity extraction (REE) and relation extraction (RE). We first formulate them as a template generation problem, allowing models to efficiently capture cross-entity dependencies, exploit label semantics, and avoid the exponential computation complexity of identifying N-ary relations. A novel cross-attention guided copy mechanism, TopK Copy, is incorporated into a pre-trained sequence-to-sequence model to enhance the capabilities of identifying key information in the input document. Experiments done on the MUC-4 and SciREX dataset show new state-of-the-art results on REE (+3.26%), binary RE (+4.8%), and 4-ary RE (+2.7%) in F1 score.
翻訳日:2021-09-13 16:49:54 公開日:2021-09-10
# (参考訳) 模擬磁気圏領域の教師なし分類

Unsupervised classification of simulated magnetospheric regions ( http://arxiv.org/abs/2109.04916v1 )

ライセンス: CC BY 4.0
Maria Elena Innocenti, Jorge Amaya, Joachim Raeder, Romain Dupuis, Banafsheh Ferdousi, and Giovanni Lapenta(参考訳) 磁気圏のミッションでは、バーストモードのデータサンプリングは科学的または運用上の関心のあるプロセスが存在する場合にトリガーされる。 本研究では、関心の磁気圏過程の自動識別のための多段階法の第一段階を構成することができる磁圏領域の教師なし分類法を提案する。 本手法は自己組織化マップ(SOM)に基づいており,OpenGCM-CTIM-RCM符号を用いて得られた大域磁気圏シミュレーションのデータ点を予備的に検証する。 分類前に主成分分析によりデータの寸法を減少させる。 この分類は、選択されたデータポイントにおける局所プラズマ特性にのみ依存し、その近傍や時間的進化に関する情報を含まない。 我々はSOMノードを自動選択されたクラスに分類し、適切に定義された磁気圏領域にマップするクラスタを得る。 シミュレーション空間に分類データをプロットし,k-means分類との比較により,分類結果の検証を行った。 結果の解釈性のために,SOM特徴写像(磁気圏変数は分類の文脈で特徴と呼ばれる)を検証し,それらを用いてクラスタの情報をアンロックする。 異なる特徴を用いた分類実験を繰り返し、異なる分類結果を定量的に比較し、非教師なし分類において磁気圏変数がより効果的な特徴を与える洞察を得る。

In magnetospheric missions, burst mode data sampling should be triggered in the presence of processes of scientific or operational interest. We present an unsupervised classification method for magnetospheric regions, that could constitute the first-step of a multi-step method for the automatic identification of magnetospheric processes of interest. Our method is based on Self Organizing Maps (SOMs), and we test it preliminarily on data points from global magnetospheric simulations obtained with the OpenGGCM-CTIM-RCM code. The dimensionality of the data is reduced with Principal Component Analysis before classification. The classification relies exclusively on local plasma properties at the selected data points, without information on their neighborhood or on their temporal evolution. We classify the SOM nodes into an automatically selected number of classes, and we obtain clusters that map to well defined magnetospheric regions. We validate our classification results by plotting the classified data in the simulated space and by comparing with K-means classification. For the sake of result interpretability, we examine the SOM feature maps (magnetospheric variables are called features in the context of classification), and we use them to unlock information on the clusters. We repeat the classification experiments using different sets of features, we quantitatively compare different classification results, and we obtain insights on which magnetospheric variables make more effective features for unsupervised classification.
翻訳日:2021-09-13 16:33:35 公開日:2021-09-10
# (参考訳) 直交構造プローブを用いた言語間コンテキスト埋め込みの検討 [全文訳有]

Examining Cross-lingual Contextual Embeddings with Orthogonal Structural Probes ( http://arxiv.org/abs/2109.04921v1 )

ライセンス: CC BY 4.0
Tomasz Limisiewicz and David Mare\v{c}ek(参考訳) 最先端のコンテキスト埋め込みは、少数の言語でしか利用できない大きな言語モデルから得られる。 他の人にとっては、多言語モデルを使って表現を学ぶ必要がある。 多言語組込みが多くの言語で共有される空間に整列できるかどうかについては議論が続いている。 新しい直交構造プローブ(limisiewicz and mare\v{c}ek, 2021)は、特定の言語的特徴についてこの質問に答え、単言語アノテートデータセットのみに基づいて投影を学ぶことができる。 InmBERTの文脈表現を符号化した構文(UD)と語彙(WordNet)構造情報を9つの多言語で評価した。 英語と密接に関連する言語では、変換は不要である。 評価された情報を共有言語間埋め込み空間に符号化する。 他の言語では、各言語で個別に学習される直交変換を適用することが有益である。 ゼロショットと少数ショットの言語交叉解析にこの知見を応用できた。

State-of-the-art contextual embeddings are obtained from large language models available only for a few languages. For others, we need to learn representations using a multilingual model. There is an ongoing debate on whether multilingual embeddings can be aligned in a space shared across many languages. The novel Orthogonal Structural Probe (Limisiewicz and Mare\v{c}ek, 2021) allows us to answer this question for specific linguistic features and learn a projection based only on mono-lingual annotated datasets. We evaluate syntactic (UD) and lexical (WordNet) structural information encoded inmBERT's contextual representations for nine diverse languages. We observe that for languages closely related to English, no transformation is needed. The evaluated information is encoded in a shared cross-lingual embedding space. For other languages, it is beneficial to apply orthogonal transformation learned separately for each language. We successfully apply our findings to zero-shot and few-shot cross-lingual parsing.
翻訳日:2021-09-13 16:32:16 公開日:2021-09-10
# (参考訳) メタラーニングのための高速モデルアーキテクチャ適応 [全文訳有]

Rapid Model Architecture Adaption for Meta-Learning ( http://arxiv.org/abs/2109.04925v1 )

ライセンス: CC BY 4.0
Yiren Zhao, Xitong Gao, Ilia Shumailov, Nicolo Fusi, Robert Mullins(参考訳) ネットワークアーキテクチャ検索(NAS)メソッドが最近注目を集めている。 より優れたパフォーマンスでネットワークを設計し、従来の手動チューニングよりもはるかに短い検索時間を使用する。 モデル展開の効率にもかかわらず、ほとんどのNASアルゴリズムは固定ハードウェアシステム上の単一のタスクをターゲットにしている。 しかし、実際の数発の学習環境は、多くのタスク(T)とさまざまなハードウェアプラットフォーム(H)へのデプロイをカバーしていることが多い。 組合せ探索複雑性T times Hは、これらのシナリオに既存のNASメソッドを鼻で適用すれば、基本的な探索効率の課題を生み出す。 この問題を克服するために,モデルに依存しないメタラーニング(MAML)をNASフローに統合することにより,多数のタスクにモデルアーキテクチャを新しいタスクに迅速に適応させる方法について,初めて示す。 提案手法(H-Meta-NAS)はハードウェア対応であり,MAMLフレームワークで最適化を行う。 h-meta-nasは、さまざまなハードウェアプラットフォームと制約を備えた人気のあるマイナショット学習ベンチマークにおいて、さまざまなnasおよびマニュアルベースラインと比較してパレート優位を示している。 特に, 5-way 1-shot Mini-ImageNet分類タスクでは, 提案手法は, 60%少ない計算量を用いて, 最大手動ベースライン(5.21%の精度)で性能を向上する。

Network Architecture Search (NAS) methods have recently gathered much attention. They design networks with better performance and use a much shorter search time compared to traditional manual tuning. Despite their efficiency in model deployments, most NAS algorithms target a single task on a fixed hardware system. However, real-life few-shot learning environments often cover a great number of tasks (T ) and deployments on a wide variety of hardware platforms (H ). The combinatorial search complexity T times H creates a fundamental search efficiency challenge if one naively applies existing NAS methods to these scenarios. To overcome this issue, we show, for the first time, how to rapidly adapt model architectures to new tasks in a many-task many-hardware few-shot learning setup by integrating Model Agnostic Meta Learning (MAML) into the NAS flow. The proposed NAS method (H-Meta-NAS) is hardware-aware and performs optimisation in the MAML framework. H-Meta-NAS shows a Pareto dominance compared to a variety of NAS and manual baselines in popular few-shot learning benchmarks with various hardware platforms and constraints. In particular, on the 5-way 1-shot Mini-ImageNet classification task, the proposed method outperforms the best manual baseline by a large margin (5.21% in accuracy) using 60% less computation.
翻訳日:2021-09-13 16:21:11 公開日:2021-09-10
# (参考訳) ニュース記事のニューラル文レベルのリフレーミング制御 [全文訳有]

Controlled Neural Sentence-Level Reframing of News Articles ( http://arxiv.org/abs/2109.04957v1 )

ライセンス: CC BY 4.0
Wei-Fan Chen, Khalid Al-Khatib, Benno Stein, Henning Wachsmuth(参考訳) ニュース記事のフレーミングとは、例えば経済や健康の観点から、特定の観点から報告された出来事を描写することを意味する。 フレーミングは、この視点を変えることを意味する。 読者やサブメッセージによっては、読者に望ましい効果を達成するためには、リフレーミングが必要である。 リフレーミングはスタイルや感情の適応に関係しており、ニューラルテキスト生成技術に対処することができる。 しかし、フレームの変更は単一のフレーズではなく文章全体を書き換える必要があるため、より困難である。 本稿では,文脈に整合性を保ちながら,ニュース記事中の文を計算的に再構成する方法を検討する。 我々はリフレーミングを,既存のメディアフレームコーパス上でニューラルモデルを訓練するための文レベルの補充タスクとして扱う。 トレーニングの指導には,フレーム付き言語事前学習,名義保存,対人学習の3つの戦略を提案する。 トピック一貫性,コヒーレンス,リフレーミング成功のために,各モデルを自動かつ手動で評価する。 その結果、適切にフレーム化されたテキストの生成は、トレードオフとともにうまく機能することが示された。

Framing a news article means to portray the reported event from a specific perspective, e.g., from an economic or a health perspective. Reframing means to change this perspective. Depending on the audience or the submessage, reframing can become necessary to achieve the desired effect on the readers. Reframing is related to adapting style and sentiment, which can be tackled with neural text generation techniques. However, it is more challenging since changing a frame requires rewriting entire sentences rather than single phrases. In this paper, we study how to computationally reframe sentences in news articles while maintaining their coherence to the context. We treat reframing as a sentence-level fill-in-the-blank task for which we train neural models on an existing media frame corpus. To guide the training, we propose three strategies: framed-language pretraining, named-entity preservation, and adversarial learning. We evaluate respective models automatically and manually for topic consistency, coherence, and successful reframing. Our results indicate that generating properly-framed text works well but with tradeoffs.
翻訳日:2021-09-13 16:03:45 公開日:2021-09-10
# (参考訳) 深層学習法を用いた実験室における自動変位・振動計測 [全文訳有]

Automatic Displacement and Vibration Measurement in Laboratory Experiments with A Deep Learning Method ( http://arxiv.org/abs/2109.04960v1 )

ライセンス: CC BY 4.0
Yongsheng Bai, Ramzi M. Abduallah, Halil Sezen, Alper Yilmaz(参考訳) 本稿では,実験中の構造標本の変位・振動を自動的に追跡・測定するパイプラインを提案する。 最新のMask Regional Convolutional Neural Network (Mask R-CNN)は、静止カメラが撮影したビデオからターゲットを見つけ、その動きを監視する。 精度の向上とノイズ除去のために、SIFT(Scale-invariant Feature Transform)や各種信号処理用フィルタなどの技術が含まれている。 3つの小型鉄筋コンクリート梁の実験と揺動台試験を用いて提案手法の検証を行った。 その結果, 実験中の構造部材の運動を自動的, 正確に計測することを目標とする深層学習法が得られた。

This paper proposes a pipeline to automatically track and measure displacement and vibration of structural specimens during laboratory experiments. The latest Mask Regional Convolutional Neural Network (Mask R-CNN) can locate the targets and monitor their movement from videos recorded by a stationary camera. To improve precision and remove the noise, techniques such as Scale-invariant Feature Transform (SIFT) and various filters for signal processing are included. Experiments on three small-scale reinforced concrete beams and a shaking table test are utilized to verify the proposed method. Results show that the proposed deep learning method can achieve the goal to automatically and precisely measure the motion of tested structural members during laboratory experiments.
翻訳日:2021-09-13 15:49:04 公開日:2021-09-10
# (参考訳) ジョイントグラフ推論と予測に関する研究 [全文訳有]

A Study of Joint Graph Inference and Forecasting ( http://arxiv.org/abs/2109.04979v1 )

ライセンス: CC BY 4.0
Daniel Z\"ugner, Fran\c{c}ois-Xavier Aubet, Victor Garcia Satorras, Tim Januschowski, Stephan G\"unnemann, Jan Gasthaus(参考訳) 多変量時系列の予測を改善するためにグラフニューラルネットワーク(GNN)を用いた最近のモデルのクラスについて検討する。 これらのモデルの中核となる仮定は、多変量時系列の進化を支配する時系列(ノード)の間に潜在グラフが存在することである。 グラフを微分可能な方法でパラメータ化することで、モデルは予測品質を改善することを目指している。 我々はこのクラスの最近の4つのモデルと予測タスクを比較した。 さらに,グラフ学習モジュールの無効化や,その代わりに基盤・真実関係を提供する場合など,変化条件下での行動の解明も行う。 そこで本研究では,既存のアーキテクチャを組み合わせる新しい手法を提案する。

We study a recent class of models which uses graph neural networks (GNNs) to improve forecasting in multivariate time series. The core assumption behind these models is that there is a latent graph between the time series (nodes) that governs the evolution of the multivariate time series. By parameterizing a graph in a differentiable way, the models aim to improve forecasting quality. We compare four recent models of this class on the forecasting task. Further, we perform ablations to study their behavior under changing conditions, e.g., when disabling the graph-learning modules and providing the ground-truth relations instead. Based on our findings, we propose novel ways of combining the existing architectures.
翻訳日:2021-09-13 15:40:38 公開日:2021-09-10
# (参考訳) feature fusion deep convolutional autoencoderを用いたハイパースペクトル画像の教師なし変化検出 [全文訳有]

Unsupervised Change Detection in Hyperspectral Images using Feature Fusion Deep Convolutional Autoencoders ( http://arxiv.org/abs/2109.04990v1 )

ライセンス: CC BY 4.0
Debasrita Chakraborty and Ashish Ghosh(参考訳) 両時間同時登録ハイパースペクトル画像におけるバイナリ変化検出は、データに多数のスペクトル帯域が存在するため難しい課題である。 したがって、研究者は次元を減らしてそれを扱う。 両時間共登録ハイパースペクトル画像間の変化を検出するための特徴融合深部畳み込みオートエンコーダを用いた特徴抽出システムの構築を目的とする。 特徴融合は、連続したレベルと複数の受容領域にまたがる特徴を考慮し、従って既存の特徴抽出法に対する競争力を高める。 記述された変更検出技術は完全に教師なしであり、ラベル情報を必要とする他の教師付きまたは半教師付きメソッドよりもはるかにエレガントである。 抽出された特徴に異なる手法を適用して2つの画像から変化を見いだし,提案手法がすべてのデータセットに対する教師なし変化検出において,アートメソッドの状態を明らかに上回っていることがわかった。

Binary change detection in bi-temporal co-registered hyperspectral images is a challenging task due to a large number of spectral bands present in the data. Researchers, therefore, try to handle it by reducing dimensions. The proposed work aims to build a novel feature extraction system using a feature fusion deep convolutional autoencoder for detecting changes between a pair of such bi-temporal co-registered hyperspectral images. The feature fusion considers features across successive levels and multiple receptive fields and therefore adds a competitive edge over the existing feature extraction methods. The change detection technique described is completely unsupervised and is much more elegant than other supervised or semi-supervised methods which require some amount of label information. Different methods have been applied to the extracted features to find the changes in the two images and it is found that the proposed method clearly outperformed the state of the art methods in unsupervised change detection for all the datasets.
翻訳日:2021-09-13 15:25:44 公開日:2021-09-10
# (参考訳) 誤ラベル標本の同定によるデータセットの品質評価 [全文訳有]

Assessing the Quality of the Datasets by Identifying Mislabeled Samples ( http://arxiv.org/abs/2109.05000v1 )

ライセンス: CC BY 4.0
Vaibhav Pulastya, Gaurav Nuti, Yash Kumar Atri, Tanmoy Chakraborty(参考訳) データ量の過度な強調のため、データ品質はしばしば見過ごされてきた。 しかし、すべてのトレーニングデータポイントが学習に等しく貢献するわけではない。 特に、誤ったラベルを付けると、モデルがデータセットに存在するスプリアスアーティファクトを学習してしまう可能性があるため、モデルのパフォーマンスと分散を一般化する能力が積極的に損なわれる可能性がある。 この問題は、高度にパラメータ化され複雑なディープニューラルネットワークの普及によって複雑化され、その高い容量でデータセットに存在するノイズを記憶することになる。 本稿では,各データポイントの品質を指標として,潜在空間表現のばらつきに基づいて,これらの誤ラベル標本を識別する新しい統計値-ノイズスコアを提案する。 本研究では,データ品質管理型変分オートエンコーダ(AQUAVS)の推論ネットワークから導出される表現を用いる。 本手法は同一クラスに属するサンプルが類似の潜在表現を持つという事実を利用する。 したがって、潜在空間の外れ値を特定することで、誤ったラベルのサンプルを見つけることができる。 我々は,MNIST,FashionMNIST, CIFAR10/100データセットを異なるノイズ設定で不正なサンプルを識別するための実験により,提案した統計データを検証した。 さらに,各データセットの分類タスクの精度を大幅に向上させる。

Due to the over-emphasize of the quantity of data, the data quality has often been overlooked. However, not all training data points contribute equally to learning. In particular, if mislabeled, it might actively damage the performance of the model and the ability to generalize out of distribution, as the model might end up learning spurious artifacts present in the dataset. This problem gets compounded by the prevalence of heavily parameterized and complex deep neural networks, which can, with their high capacity, end up memorizing the noise present in the dataset. This paper proposes a novel statistic -- noise score, as a measure for the quality of each data point to identify such mislabeled samples based on the variations in the latent space representation. In our work, we use the representations derived by the inference network of data quality supervised variational autoencoder (AQUAVS). Our method leverages the fact that samples belonging to the same class will have similar latent representations. Therefore, by identifying the outliers in the latent space, we can find the mislabeled samples. We validate our proposed statistic through experimentation by corrupting MNIST, FashionMNIST, and CIFAR10/100 datasets in different noise settings for the task of identifying mislabelled samples. We further show significant improvements in accuracy for the classification task for each dataset.
翻訳日:2021-09-13 15:13:38 公開日:2021-09-10
# (参考訳) BiSECT: テキストで文を分割し、言い換えることを学ぶ [全文訳有]

BiSECT: Learning to Split and Rephrase Sentences with Bitexts ( http://arxiv.org/abs/2109.05006v1 )

ライセンス: CC BY 4.0
Joongwon Kim, Mounica Maddela, Reno Kriz, Wei Xu, Chris Callison-Burch(参考訳) 文の単純化のようなNLPアプリケーションにおける重要なタスクは、長い複雑な文を短い文に分割し、必要に応じて言い換えることである。 我々は,この'split and rephrase'タスクのための新しいデータセットと新しいモデルを紹介する。 私たちのBiSECTトレーニングデータは、100万の長文と、より短く、意味等価な英語文からなる。 バイリンガルパラレルコーパスにおける1-2文のアライメントを抽出し、機械翻訳を用いてコーパスの両側を同じ言語に変換する。 BiSECT には以前の Split と Rephrase コーパスよりも高品質なトレーニング例が含まれており、文分割はより重要な修正を必要とする。 コーパスの例を分類し、これらのカテゴリを新しいモデルで使用することにより、入力文の特定の領域を分割して編集できるようにします。 さらに、BiSECTでトレーニングされたモデルにより、より広範な分割操作が可能であり、自動および人的評価における従来の最先端アプローチを改善することができることを示す。

An important task in NLP applications such as sentence simplification is the ability to take a long, complex sentence and split it into shorter sentences, rephrasing as necessary. We introduce a novel dataset and a new model for this `split and rephrase' task. Our BiSECT training data consists of 1 million long English sentences paired with shorter, meaning-equivalent English sentences. We obtain these by extracting 1-2 sentence alignments in bilingual parallel corpora and then using machine translation to convert both sides of the corpus into the same language. BiSECT contains higher quality training examples than previous Split and Rephrase corpora, with sentence splits that require more significant modifications. We categorize examples in our corpus, and use these categories in a novel model that allows us to target specific regions of the input sentence to be split and edited. Moreover, we show that models trained on BiSECT can perform a wider variety of split operations and improve upon previous state-of-the-art approaches in automatic and human evaluations.
翻訳日:2021-09-13 15:00:33 公開日:2021-09-10
# (参考訳) ニューラルマシン翻訳の品質とポスト編集性能 [全文訳有]

Neural Machine Translation Quality and Post-Editing Performance ( http://arxiv.org/abs/2109.05016v1 )

ライセンス: CC BY 4.0
Vil\'em Zouhar, Ale\v{s} Tamchyna, Martin Popel, Ond\v{r}ej Bojar(参考訳) MTをプロフェッショナル翻訳に使用すると、人間の処理時間を節約できるという自然な期待を試す。 最後の研究はサンチェス・トルロンとケーン(2016年)がフレーズベースのmtで行ったもので、人工的に翻訳品質を低下させた。 対照的に、我々は高品質なニューラルMT(NMT)に注目し、それ以来最先端のアプローチとなり、ほとんどの翻訳会社にも採用されている。 チェコ語訳の30以上の専門翻訳者を対象とした実験を通じて,NMTのパフォーマンスと編集後時間と品質の関係について検討した。 すべてのモデルにおいて、優れたMTシステムによって、この業界環境での文の変化が少ないことが分かりました。 システム品質と後編集時間の関係は単純ではなく、フレーズベースのmtの結果とは対照的に、bleuは間違いなく時間や最終的な出力品質の安定した予測者ではない。

We test the natural expectation that using MT in professional translation saves human processing time. The last such study was carried out by Sanchez-Torron and Koehn (2016) with phrase-based MT, artificially reducing the translation quality. In contrast, we focus on neural MT (NMT) of high quality, which has become the state-of-the-art approach since then and also got adopted by most translation companies. Through an experimental study involving over 30 professional translators for English -> Czech translation, we examine the relationship between NMT performance and post-editing time and quality. Across all models, we found that better MT systems indeed lead to fewer changes in the sentences in this industry setting. The relation between system quality and post-editing time is however not straightforward and, contrary to the results on phrase-based MT, BLEU is definitely not a stable predictor of the time or final output quality.
翻訳日:2021-09-13 14:18:25 公開日:2021-09-10
# 辞書に基づくヘテロジニアスグラフを用いたテキスト分類のための言語間変換

Cross-lingual Transfer for Text Classification with Dictionary-based Heterogeneous Graph ( http://arxiv.org/abs/2109.04400v2 )

ライセンス: Link先を確認
Nuttapong Chairatanakul, Noppayut Sriwatanasakdi, Nontawat Charoenphakdee, Xin Liu, Tsuyoshi Murata(参考訳) クロスリンガルテキスト分類では、高リソースのソース言語におけるタスク固有のトレーニングデータが利用可能であり、タスクは低リソースのターゲット言語と同じである。 しかし、ラベル付けコスト、タスク特性、プライバシー上の懸念から、そのようなトレーニングデータの収集は不可能である。 本稿では,高リソース言語とバイリンガル辞書のタスクに依存しない単語埋め込みのみを用いた代替ソリューションを提案する。 まず、二言語辞書から辞書に基づくヘテロジニアスグラフ(DHG)を構築する。 これにより、言語間転送にグラフニューラルネットワークを使用する可能性が開ける。 残る課題は、複数の言語が考慮されているため、DHGの不均一性である。 この課題に対処するために、単語レベルと言語レベルの集約である2段階の集約によってDHGの不均一性を効果的に処理する辞書ベースのヘテロジニアスグラフニューラルネットワーク(DHGNet)を提案する。 実験の結果,本手法は大型コーパスにアクセスできなくても,事前学習モデルよりも優れていた。 さらに、辞書には不正確な翻訳が多数含まれていてもうまく機能する。 その堅牢性によって、自動化された辞書やクラウドソースされた辞書など、より広い範囲の辞書の使用が可能になる。

In cross-lingual text classification, it is required that task-specific training data in high-resource source languages are available, where the task is identical to that of a low-resource target language. However, collecting such training data can be infeasible because of the labeling cost, task characteristics, and privacy concerns. This paper proposes an alternative solution that uses only task-independent word embeddings of high-resource languages and bilingual dictionaries. First, we construct a dictionary-based heterogeneous graph (DHG) from bilingual dictionaries. This opens the possibility to use graph neural networks for cross-lingual transfer. The remaining challenge is the heterogeneity of DHG because multiple languages are considered. To address this challenge, we propose dictionary-based heterogeneous graph neural network (DHGNet) that effectively handles the heterogeneity of DHG by two-step aggregations, which are word-level and language-level aggregations. Experimental results demonstrate that our method outperforms pretrained models even though it does not access to large corpora. Furthermore, it can perform well even though dictionaries contain many incorrect translations. Its robustness allows the usage of a wider range of dictionaries such as an automatically constructed dictionary and crowdsourced dictionary, which are convenient for real-world applications.
翻訳日:2021-09-13 13:51:09 公開日:2021-09-10
# Panoptic nuScenes: LiDARのPanoptic Segmentation and Trackingのための大規模ベンチマーク

Panoptic nuScenes: A Large-Scale Benchmark for LiDAR Panoptic Segmentation and Tracking ( http://arxiv.org/abs/2109.03805v2 )

ライセンス: Link先を確認
Whye Kit Fong, Rohit Mohan, Juana Valeria Hurtado, Lubing Zhou, Holger Caesar, Oscar Beijbom, and Abhinav Valada(参考訳) 都市環境におけるロボットや自動走行車にとって、動的エージェントのパノプティクスシーン理解と追跡が不可欠である。 LiDARはシーンの正確な照明に依存しない幾何学的描写を提供するので、LiDARポイントクラウドを使用してこれらのタスクを実行することは、信頼できる予測を提供する。 しかし、既存のデータセットは都市シーンの種類に多様性を欠いているため、これらのタスクの学習を阻害する動的オブジェクトインスタンスの数が限られている。 本稿では,セマンティックセグメンテーション,パンオプティクスセグメンテーション,パンオプティクストラッキングタスクのためのポイントワイズ・グラウンドルートアノテーションを用いて,ポピュラーなnuscenesデータセットを拡張した大規模panoptic nuscenesベンチマークデータセットを提案する。 比較を容易にするために、提案するデータセット上で、これらのタスクごとにいくつかの強力なベースラインを提供します。 さらに,パン光学追跡のための既存の指標の欠点を分析し,その問題に対処する新しいインスタンス中心のPAT指標を提案する。 既存のデータセットと比較してPanoptic nuScenesの有用性を実証し、nuScenes.orgでオンライン評価サーバを利用できるようにする。 我々は,この拡張により,動的都市環境のシーン理解のための新しい手法の研究が促進されると信じている。

Panoptic scene understanding and tracking of dynamic agents are essential for robots and automated vehicles to navigate in urban environments. As LiDARs provide accurate illumination-indepen dent geometric depictions of the scene, performing these tasks using LiDAR point clouds provides reliable predictions. However, existing datasets lack diversity in the type of urban scenes and have a limited number of dynamic object instances which hinders both learning of these tasks as well as credible benchmarking of the developed methods. In this paper, we introduce the large-scale Panoptic nuScenes benchmark dataset that extends our popular nuScenes dataset with point-wise groundtruth annotations for semantic segmentation, panoptic segmentation, and panoptic tracking tasks. To facilitate comparison, we provide several strong baselines for each of these tasks on our proposed dataset. Moreover, we analyze the drawbacks of the existing metrics for panoptic tracking and propose the novel instance-centric PAT metric that addresses the concerns. We present exhaustive experiments that demonstrate the utility of Panoptic nuScenes compared to existing datasets and make the online evaluation server available at nuScenes.org. We believe that this extension will accelerate the research of novel methods for scene understanding of dynamic urban environments.
翻訳日:2021-09-13 13:50:49 公開日:2021-09-10
# グラフニューラルネットワークと構造因果モデルの関係

Relating Graph Neural Networks to Structural Causal Models ( http://arxiv.org/abs/2109.04173v2 )

ライセンス: Link先を確認
Matej Ze\v{c}evi\'c, Devendra Singh Dhami, Petar Veli\v{c}kovi\'c, Kristian Kersting(参考訳) 因果関係は、興味のある変数とその力学関係に関する情報を伝達する構造因果モデル(SCM)によって記述することができる。 ほとんどのプロセスにおいて、基礎となるSCMは部分的にしか観測できないため、因果推論は露見した情報を活用しようとする。 構造化入力に対する普遍的近似器としてのグラフニューラルネットワーク(GNN)は因果学習の候補となり、SCMとの緊密な統合が示唆される。 そこで本研究では,gnn と scm の新たな接続を確立させる第一原理からの理論解析を行い,一般のニューラルコーサルモデルに対する拡張ビューを提供する。 次に, 因果効果同定に必要かつ十分なgnnに基づく因果推論のための新しいモデルクラスを構築した。 シミュレーションと標準ベンチマークに関する実証図は、我々の理論的証明を検証する。

Causality can be described in terms of a structural causal model (SCM) that carries information on the variables of interest and their mechanistic relations. For most processes of interest the underlying SCM will only be partially observable, thus causal inference tries to leverage any exposed information. Graph neural networks (GNN) as universal approximators on structured input pose a viable candidate for causal learning, suggesting a tighter integration with SCM. To this effect we present a theoretical analysis from first principles that establishes a novel connection between GNN and SCM while providing an extended view on general neural-causal models. We then establish a new model class for GNN-based causal inference that is necessary and sufficient for causal effect identification. Our empirical illustration on simulations and standard benchmarks validate our theoretical proofs.
翻訳日:2021-09-13 13:50:24 公開日:2021-09-10
# コリファレンス解決と機械翻訳のための大規模ジェンダーバイアスデータセットの収集

Collecting a Large-Scale Gender Bias Dataset for Coreference Resolution and Machine Translation ( http://arxiv.org/abs/2109.03858v2 )

ライセンス: Link先を確認
Shahar Levy, Koren Lazar, Gabriel Stanovsky(参考訳) 近年の研究では、主に合成診断データセットを用いた機械翻訳と共参照分解のモデルにおけるジェンダーバイアスの証拠が見つかっている。 これらは、制御された実験でバイアスを定量化するが、小規模で、主に人工的な分散文からなることが多い。 本研究では,3つのドメインのコーパスにおけるステレオタイプおよび非ステレオタイプなジェンダーロール(例えば,女性看護師と男性ダンサー)の割り当てを示す文法的パターンを見出した。 我々は、コーパスの品質を手動で検証し、様々なコア参照解像度と機械翻訳モデルにおける性別バイアスを評価する。 テストされたモデルはすべて、自然入力が提示された場合に性ステレオタイプに過度に依存する傾向にあり、商用システムでは特に有害である可能性がある。 最後に、データセットが共参照解決モデルの微調整に役立ち、保持されたセットのバイアスを軽減できることを示します。 我々のデータセットとモデルはwww.github.com/SLAB- NLP/BUGで公開されています。 現実的な環境でのジェンダーバイアス評価の緩和技術の研究を加速させることを願っている。

Recent works have found evidence of gender bias in models of machine translation and coreference resolution using mostly synthetic diagnostic datasets. While these quantify bias in a controlled experiment, they often do so on a small scale and consist mostly of artificial, out-of-distribution sentences. In this work, we find grammatical patterns indicating stereotypical and non-stereotypical gender-role assignments (e.g., female nurses versus male dancers) in corpora from three domains, resulting in a first large-scale gender bias dataset of 108K diverse real-world English sentences. We manually verify the quality of our corpus and use it to evaluate gender bias in various coreference resolution and machine translation models. We find that all tested models tend to over-rely on gender stereotypes when presented with natural inputs, which may be especially harmful when deployed in commercial systems. Finally, we show that our dataset lends itself to finetuning a coreference resolution model, finding it mitigates bias on a held out set. Our dataset and models are publicly available at www.github.com/SLAB- NLP/BUG. We hope they will spur future research into gender bias evaluation mitigation techniques in realistic settings.
翻訳日:2021-09-13 13:50:11 公開日:2021-09-10
# 閉形速度初期化のための連続イベントライン制約

Continuous Event-Line Constraint for Closed-Form Velocity Initialization ( http://arxiv.org/abs/2109.04313v2 )

ライセンス: Link先を確認
Peng Xin, Xu Wanting, Yang Jiaqi, Kneip Laurent(参考訳) イベントカメラは、対数輝度の十分な変化に応じて、非同期かつ独立にイベントをトリガーする。 ニューロモルフィックセンサーは、低遅延、動きのぼかしの欠如、高ダイナミックレンジなどの標準カメラに対していくつかの利点がある。 イベントカメラは特にアジャイルのシナリオで動きのダイナミクスを感知するのに適しています。 本稿では,イベントクラスタが与える直線観測と一階カメラのダイナミクスの関係を表現するために,定速度運動仮定と三焦点テンソル幾何に依存する連続的なイベントライン制約を提案する。 中心となる結果は, 角速度の既知の線形カメラ速度のためのクローズドフォームソルバである。 非線形最適化はアルゴリズムの性能を向上させるために用いられる。 本手法の有効性はシミュレーションデータと実データの両方について注意深く分析することで実証された。

Event cameras trigger events asynchronously and independently upon a sufficient change of the logarithmic brightness level. The neuromorphic sensor has several advantages over standard cameras including low latency, absence of motion blur, and high dynamic range. Event cameras are particularly well suited to sense motion dynamics in agile scenarios. We propose the continuous event-line constraint, which relies on a constant-velocity motion assumption as well as trifocal tensor geometry in order to express a relationship between line observations given by event clusters as well as first-order camera dynamics. Our core result is a closed-form solver for up-to-scale linear camera velocity {with known angular velocity}. Nonlinear optimization is adopted to improve the performance of the algorithm. The feasibility of the approach is demonstrated through a careful analysis on both simulated and real data.
翻訳日:2021-09-13 13:49:51 公開日:2021-09-10
# IFBiD:推論不要バイアス検出

IFBiD: Inference-Free Bias Detection ( http://arxiv.org/abs/2109.04374v2 )

ライセンス: Link先を確認
Ignacio Serna and Aythami Morales and Julian Fierrez and Javier Ortega-Garcia(参考訳) 本論文は、重みを単純に見れば、深層畳み込みニューラルネットワークのバイアスを自動的に検出する方法を初めて探求するものである。 さらに、ニューラルネットワークとその動作方法を理解するためのステップでもある。 モデルが単に重みを見るだけで偏りがあるかどうかを、特定の入力に対するモデル推論なしで知ることは実際に可能であることを示す。 我々は、Colored MNISTデータベースを用いて、ディープネットワークの重みに偏りがどのように符号化されているかを分析し、また、最先端の手法と実験資源を用いて、顔画像からの性別検出における現実的なケーススタディを提供する。 そのために、36Kと48Kのバイアスモデルを持つ2つのデータベースを生成しました。 mnistモデルでは,99%以上の精度で強いバイアスあるいは低いバイアスを示したかの検出が可能で,70%以上の精度で4段階のバイアスを分類することができた。 顔モデルでは、アジア、黒人、コーカサス民族に偏ったモデルの区別において90%の精度を達成した。

This paper is the first to explore an automatic way to detect bias in deep convolutional neural networks by simply looking at their weights. Furthermore, it is also a step towards understanding neural networks and how they work. We show that it is indeed possible to know if a model is biased or not simply by looking at its weights, without the model inference for an specific input. We analyze how bias is encoded in the weights of deep networks through a toy example using the Colored MNIST database and we also provide a realistic case study in gender detection from face images using state-of-the-art methods and experimental resources. To do so, we generated two databases with 36K and 48K biased models each. In the MNIST models we were able to detect whether they presented a strong or low bias with more than 99% accuracy, and we were also able to classify between four levels of bias with more than 70% accuracy. For the face models, we achieved 90% accuracy in distinguishing between models biased towards Asian, Black, or Caucasian ethnicity.
翻訳日:2021-09-13 13:49:40 公開日:2021-09-10
# ナレーション映像の3次元再構成とグラウンド化

Reconstructing and grounding narrated instructional videos in 3D ( http://arxiv.org/abs/2109.04409v2 )

ライセンス: Link先を確認
Dimitri Zhukov, Ignacio Rocco, Ivan Laptev, Josef Sivic, Johannes L. Sch\"onberger, Bugra Tekin, Marc Pollefeys(参考訳) ナレーション付き指導ビデオは、車やラップトップの特定のモデルを修理するなど、類似したオブジェクトの操作をしばしば表示し記述する。 本研究では,そのようなオブジェクトを再構築し,関連するナレーションを3Dでローカライズすることを目的とする。 すべてのビューに同一のオブジェクトやシーンが存在するインスタンスレベルの3D再構成の標準的なシナリオとは対照的に、異なるインストラクショナルビデオ内のオブジェクトは、同じ製品のさまざまな条件とバージョンに応じて大きな外観変化を持つ可能性がある。 ナレーションは自然言語の表現にも大きなバリエーションがある。 我々はこれらの課題を3つの貢献で解決する。 まず,学習した局所的特徴と高密度流れを組み合わせた対応推定手法を提案する。 第2に、個々のビデオの初期3次元再構成を3次元アライメントグラフに組み合わせた2段階分割・復号化手法を設計する。 最後に,得られた3次元再構成における基盤自然言語に対する教師なしアプローチを提案する。 自動車メンテナンス分野におけるアプローチの有効性を実証する。 本手法は, 生の指導ビデオと手動による監督を伴わず, 異なる車両モデルのエンジンを再構築し, テキスト記述を3次元のオブジェクトに関連付ける。

Narrated instructional videos often show and describe manipulations of similar objects, e.g., repairing a particular model of a car or laptop. In this work we aim to reconstruct such objects and to localize associated narrations in 3D. Contrary to the standard scenario of instance-level 3D reconstruction, where identical objects or scenes are present in all views, objects in different instructional videos may have large appearance variations given varying conditions and versions of the same product. Narrations may also have large variation in natural language expressions. We address these challenges by three contributions. First, we propose an approach for correspondence estimation combining learnt local features and dense flow. Second, we design a two-step divide and conquer reconstruction approach where the initial 3D reconstructions of individual videos are combined into a 3D alignment graph. Finally, we propose an unsupervised approach to ground natural language in obtained 3D reconstructions. We demonstrate the effectiveness of our approach for the domain of car maintenance. Given raw instructional videos and no manual supervision, our method successfully reconstructs engines of different car models and associates textual descriptions with corresponding objects in 3D.
翻訳日:2021-09-13 13:49:22 公開日:2021-09-10
# 動きの定数:最適化とゲームダイナミクスにおけるカオスに対するアンチドテ

Constants of Motion: The Antidote to Chaos in Optimization and Game Dynamics ( http://arxiv.org/abs/2109.03974v2 )

ライセンス: Link先を確認
Georgios Piliouras and Xiao Wang(参考訳) オンライン最適化とゲームダイナミクスに関する最近のいくつかの研究は、不安定性とカオスの形式的な出現を含む強い負の複雑さの成果を確立している。 どの方法論ツールがそのようなダイナミクスの規則性を保証することができるのか、そしてそれらを離散時間一階最適化ダイナミクスのような関心の標準的な設定にどのように適用できるのか? 本稿では,不変関数の存在,すなわち運動定数の存在の証明が,この方向における基本的な貢献であることを示すとともに,最適化とゲーム設定の両方において,このような正の結果(例えば,勾配降下,乗法重み更新,交代勾配降下,多様体勾配降下)の多さを確立する。 技術的なレベルでは、いくつかの保存法則は明示的で簡潔な閉形式を提供するが、他の法則では動的システムからのツールを用いた非構成的証明を示す。

Several recent works in online optimization and game dynamics have established strong negative complexity results including the formal emergence of instability and chaos even in small such settings, e.g., $2\times 2$ games. These results motivate the following question: Which methodological tools can guarantee the regularity of such dynamics and how can we apply them in standard settings of interest such as discrete-time first-order optimization dynamics? We show how proving the existence of invariant functions, i.e., constant of motions, is a fundamental contribution in this direction and establish a plethora of such positive results (e.g. gradient descent, multiplicative weights update, alternating gradient descent and manifold gradient descent) both in optimization as well as in game settings. At a technical level, for some conservation laws we provide an explicit and concise closed form, whereas for other ones we present non-constructive proofs using tools from dynamical systems.
翻訳日:2021-09-13 13:49:03 公開日:2021-09-10
# Neural Latents Benchmark '21: Evaluating Latent variable model of Neural population activity

Neural Latents Benchmark '21: Evaluating latent variable models of neural population activity ( http://arxiv.org/abs/2109.04463v2 )

ライセンス: Link先を確認
Felix Pei, Joel Ye, David Zoltowski, Anqi Wu, Raeed H. Chowdhury, Hansem Sohn, Joseph E. O'Doherty, Krishna V. Shenoy, Matthew T. Kaufman, Mark Churchland, Mehrdad Jazayeri, Lee E. Miller, Jonathan Pillow, Il Memming Park, Eva L. Dyer, Chethan Pandarinath(参考訳) 神経記録の進歩は、前例のない詳細で神経活動を研究する機会を増やしている。 潜在変数モデル(LVM)は、アクティビティと外部実験変数の間の既知の関係に依存しないため、さまざまなニューラルネットワークや振る舞いにわたってこのリッチなアクティビティを分析するための有望なツールである。 しかし、潜在変数モデリングの進歩は、現在標準化の欠如によって妨げられ、結果としてメソッドはアドホックな方法で開発され比較される。 これらのモデリングの取り組みを調整するために,ニューラル集団活動の潜在変数モデリングのためのベンチマークスイートを導入する。 認知、感覚、運動領域から神経スパイキング活動の4つのデータセットを収集し、これらの領域で見られる様々な活動に適用可能なモデルを促進した。 我々は、教師なし評価をデータセット間のモデル評価の共通フレームワークとして特定し、ベンチマークの多様性を示すいくつかのベースラインを適用した。 EvalAIを通じてこのベンチマークをリリースします。 http://neurallatents .github.io

Advances in neural recording present increasing opportunities to study neural activity in unprecedented detail. Latent variable models (LVMs) are promising tools for analyzing this rich activity across diverse neural systems and behaviors, as LVMs do not depend on known relationships between the activity and external experimental variables. However, progress in latent variable modeling is currently impeded by a lack of standardization, resulting in methods being developed and compared in an ad hoc manner. To coordinate these modeling efforts, we introduce a benchmark suite for latent variable modeling of neural population activity. We curate four datasets of neural spiking activity from cognitive, sensory, and motor areas to promote models that apply to the wide variety of activity seen across these areas. We identify unsupervised evaluation as a common framework for evaluating models across datasets, and apply several baselines that demonstrate benchmark diversity. We release this benchmark through EvalAI. http://neurallatents .github.io
翻訳日:2021-09-13 13:48:46 公開日:2021-09-10
# 経験ベイズと複合決定問題に対する鋭い後悔の限界

Sharp regret bounds for empirical Bayes and compound decision problems ( http://arxiv.org/abs/2109.03943v2 )

ライセンス: Link先を確認
Yury Polyanskiy and Yihong Wu(参考訳) 我々は、二乗損失の下で(同一共分散行列を伴う)正常に n$-次元の平均やポアソン分布ベクトルを推定する古典的な問題を考える。 ベイズ設定では、最適推定器は事前の条件付き平均によって与えられる。 頻繁な設定では、前世紀に様々な収縮法が開発された。 Robbins (1956) が提唱した経験的ベイズ(英語版)の枠組みは、パラメータは独立であるが未知の事前と仮定することでベイズ的および頻繁な考え方を結合し、真の事前を知っているベイズ的オラクルと競合するために完全なデータ駆動推定器を使用することを目的としている。 利益の主な数字は後悔であり、すなわち、最悪の場合(過去の場合)のベイズリスクに対する総過大なリスクである。 このパラダイムは60年以上前に導入されたが、非パラメトリックな設定における最適後悔の漸近スケーリングについてはほとんど知られていない。 コンパクトにサポートされたポアソンモデルと半指数前値を持つポアソンモデルの場合、最適の後悔スケールは $\Theta((\frac{\log n}{\log\log n})^2)$ と $\Theta(\log^3 n)$ である。 通常の平均モデルでは、後悔は少なくとも$\Omega((\frac{\log n}{\log\log n})^2)$ と $\Omega(\log^2 n)$ のそれぞれコンパクトなサポート付きおよび部分ガウス的事前に対して示される。 経験ベイズ設定に加えて、これらの結果はパラメータが決定論的である複合設定に保持される。 副応用として, ガウス型およびポアソン型混合物の密度推定において, 改良あるいは新しい下限を導出する。

We consider the classical problems of estimating the mean of an $n$-dimensional normally (with identity covariance matrix) or Poisson distributed vector under the squared loss. In a Bayesian setting the optimal estimator is given by the prior-dependent conditional mean. In a frequentist setting various shrinkage methods were developed over the last century. The framework of empirical Bayes, put forth by Robbins (1956), combines Bayesian and frequentist mindsets by postulating that the parameters are independent but with an unknown prior and aims to use a fully data-driven estimator to compete with the Bayesian oracle that knows the true prior. The central figure of merit is the regret, namely, the total excess risk over the Bayes risk in the worst case (over the priors). Although this paradigm was introduced more than 60 years ago, little is known about the asymptotic scaling of the optimal regret in the nonparametric setting. We show that for the Poisson model with compactly supported and subexponential priors, the optimal regret scales as $\Theta((\frac{\log n}{\log\log n})^2)$ and $\Theta(\log^3 n)$, respectively, both attained by the original estimator of Robbins. For the normal mean model, the regret is shown to be at least $\Omega((\frac{\log n}{\log\log n})^2)$ and $\Omega(\log^2 n)$ for compactly supported and subgaussian priors, respectively, the former of which resolves the conjecture of Singh (1979) on the impossibility of achieving bounded regret; before this work, the best regret lower bound was $\Omega(1)$. In addition to the empirical Bayes setting, these results are shown to hold in the compound setting where the parameters are deterministic. As a side application, the construction in this paper also leads to improved or new lower bounds for density estimation of Gaussian and Poisson mixtures.
翻訳日:2021-09-13 13:48:29 公開日:2021-09-10
# evoquer: video-pivoted backquery生成による時間的接地強化

EVOQUER: Enhancing Temporal Grounding with Video-Pivoted BackQuery Generation ( http://arxiv.org/abs/2109.04600v1 )

ライセンス: Link先を確認
Yanjun Gao, Lulu Liu, Jason Wang, Xin Chen, Huayan Wang, Rui Zhang(参考訳) 時間的接地は、自然言語クエリ入力に対応するビデオクリップの時間間隔を予測することを目的としている。 本稿では,既存のテキスト対ビデオ接地モデルとビデオ支援クエリ生成ネットワークを組み合わせた時間的接地フレームワークであるevoquerを提案する。 クエリと未トリミング映像が与えられた場合、時間的グラウンドモデルは目標間隔を予測し、予測されたビデオクリップを、入力クエリの簡易バージョンを生成してビデオ翻訳タスクに投入する。 EVOQUERは、時間的グラウンドとクエリ生成の両方から損失関数を組み込んで、クローズループ学習を形成する。 広く使われている2つのデータセットであるCharades-STAとActivityNetの実験は、EVOQUERが1.05と1.31をR@0.7で達成していることを示している。 また,時間的接地モデルの振る舞いを説明することにより,クエリ生成タスクがエラー解析を容易にする方法について述べる。

Temporal grounding aims to predict a time interval of a video clip corresponding to a natural language query input. In this work, we present EVOQUER, a temporal grounding framework incorporating an existing text-to-video grounding model and a video-assisted query generation network. Given a query and an untrimmed video, the temporal grounding model predicts the target interval, and the predicted video clip is fed into a video translation task by generating a simplified version of the input query. EVOQUER forms closed-loop learning by incorporating loss functions from both temporal grounding and query generation serving as feedback. Our experiments on two widely used datasets, Charades-STA and ActivityNet, show that EVOQUER achieves promising improvements by 1.05 and 1.31 at R@0.7. We also discuss how the query generation task could facilitate error analysis by explaining temporal grounding model behavior.
翻訳日:2021-09-13 13:47:49 公開日:2021-09-10
# 抽象対話要約のためのトピック対応コントラスト学習

Topic-Aware Contrastive Learning for Abstractive Dialogue Summarization ( http://arxiv.org/abs/2109.04994v1 )

ライセンス: Link先を確認
Junpeng Liu, Yanyan Zou, Hainan Zhang, Hongshen Chen, Zhuoye Ding, Caixia Yuan and Xiaojie Wang(参考訳) ニュース記事や百科事典記事のようなよく構造化されたテキストとは異なり、対話コンテンツは2つ以上のインターロケータからなり、情報を交換する。 このようなシナリオでは、会話の話題は進行によって変化し、ある話題の重要な情報は複数の話者の発話に散らばり、対話を抽象的に要約する課題が生じる。 そこで本研究では,会話のさまざまな話題情報を捉え,対象とするトピック認識の目標であるコヒーレンス検出とサブサマリー生成の2つを提案し,トピック変化を暗黙的にモデル化し,対話要約タスクにおける情報分散課題に対処する。 提案手法は,主対話要約タスクの補助的タスクとして,代替パラメータ更新戦略を介して統合される。 ベンチマークデータセットの大規模な実験により、提案手法は強いベースラインを著しく上回り、新しい最先端性能を実現することが示された。 コードとトレーニングされたモデルは、 \href{https://github.com/J unpliu/ConDigSum}{https://github.com/J unpliu/ConDigSum} を通じて公開されている。

Unlike well-structured text, such as news reports and encyclopedia articles, dialogue content often comes from two or more interlocutors, exchanging information with each other. In such a scenario, the topic of a conversation can vary upon progression and the key information for a certain topic is often scattered across multiple utterances of different speakers, which poses challenges to abstractly summarize dialogues. To capture the various topic information of a conversation and outline salient facts for the captured topics, this work proposes two topic-aware contrastive learning objectives, namely coherence detection and sub-summary generation objectives, which are expected to implicitly model the topic change and handle information scattering challenges for the dialogue summarization task. The proposed contrastive objectives are framed as auxiliary tasks for the primary dialogue summarization task, united via an alternative parameter updating strategy. Extensive experiments on benchmark datasets demonstrate that the proposed simple method significantly outperforms strong baselines and achieves new state-of-the-art performance. The code and trained models are publicly available via \href{https://github.com/J unpliu/ConDigSum}{https://github.com/J unpliu/ConDigSum}.
翻訳日:2021-09-13 13:47:18 公開日:2021-09-10
# ReasonBERT: ReasonとDistant Supervisionで事前トレーニング

ReasonBERT: Pre-trained to Reason with Distant Supervision ( http://arxiv.org/abs/2109.04912v1 )

ライセンス: Link先を確認
Xiang Deng, Yu Su, Alyssa Lees, You Wu, Cong Yu, Huan Sun(参考訳) ReasonBertは、言語モデルを拡張し、長距離関係や複数の、おそらくはハイブリッドなコンテキストを推論する能力を持つ事前学習手法である。 自然発生テキストの局所的文脈からのみ学習信号を抽出する既存の事前学習方法とは違って,複数のテキストやテーブルを自動的に接続し,長距離推論を必要とする事前学習例を作成するための遠隔監視の概念を提案する。 様々な種類の推論がシミュレートされ、複数の証拠を交わし、ある証拠から別の証拠に橋渡しし、解決不可能な事例を検出する。 我々は,単一ホップからマルチホップ,テキストのみからテーブルのみ,ハイブリッドまで,さまざまな推論能力を必要とする様々な質問応答データセットを総合的に評価し,ReasonBertが強力なベースラインの配列に対して顕著な改善を達成していることを示す。 さらに, プレトレーニング法が試料効率を大幅に向上することを示す実験は少ない。

We present ReasonBert, a pre-training method that augments language models with the ability to reason over long-range relations and multiple, possibly hybrid contexts. Unlike existing pre-training methods that only harvest learning signals from local contexts of naturally occurring texts, we propose a generalized notion of distant supervision to automatically connect multiple pieces of text and tables to create pre-training examples that require long-range reasoning. Different types of reasoning are simulated, including intersecting multiple pieces of evidence, bridging from one piece of evidence to another, and detecting unanswerable cases. We conduct a comprehensive evaluation on a variety of extractive question answering datasets ranging from single-hop to multi-hop and from text-only to table-only to hybrid that require various reasoning capabilities and show that ReasonBert achieves remarkable improvement over an array of strong baselines. Few-shot experiments further demonstrate that our pre-training method substantially improves sample efficiency.
翻訳日:2021-09-13 13:46:56 公開日:2021-09-10
# EfficientCLIP: 信頼学習と言語モデリングを融合した効率的なクロスモーダル事前学習

EfficientCLIP: Efficient Cross-Modal Pre-training by Ensemble Confident Learning and Language Modeling ( http://arxiv.org/abs/2109.04699v1 )

ライセンス: Link先を確認
Jue Wang, Haofan Wang, Jincan Deng, Weijia Wu and Debing Zhang(参考訳) 大規模事前学習はビジョンと言語の間のギャップを埋める上で大きな成果を上げてきたが、それでもいくつかの課題に直面している。 第一に、事前訓練のコストは高価である。 第二に、モデル性能を劣化させるデータノイズを効率的に処理する方法はない。 第3に、従来の手法では、よりリッチな単一モーダルデータを無視しながら、限られた画像テキストペアデータしか利用できなかった。 本研究では,よりノイズの少ないデータサブセットを得るために,Ensemble Confident Learningを用いた効率的なCLIP手法を提案する。 テキストブランチの一般化を促進するために、余分なリッチな非ペアのシングルモーダルテキストデータを使用する。 CLIP や WenLan と比較して1/10 のトレーニングリソースしか持たない中国のクロスモーダル検索タスクの最先端性能を実現し,テキスト検索やテキスト分類などの単一モーダルタスクへの優れた一般化を示した。

While large scale pre-training has achieved great achievements in bridging the gap between vision and language, it still faces several challenges. First, the cost for pre-training is expensive. Second, there is no efficient way to handle the data noise which degrades model performance. Third, previous methods only leverage limited image-text paired data, while ignoring richer single-modal data, which may result in poor generalization to single-modal downstream tasks. In this work, we propose an EfficientCLIP method via Ensemble Confident Learning to obtain a less noisy data subset. Extra rich non-paired single-modal text data is used for boosting the generalization of text branch. We achieve the state-of-the-art performance on Chinese cross-modal retrieval tasks with only 1/10 training resources compared to CLIP and WenLan, while showing excellent generalization to single-modal tasks, including text retrieval and text classification.
翻訳日:2021-09-13 13:46:37 公開日:2021-09-10
# 因果変分オートエンコーダによる感度特性のない公正性

Fairness without the sensitive attribute via Causal Variational Autoencoder ( http://arxiv.org/abs/2109.04999v1 )

ライセンス: Link先を確認
Vincent Grari, Sylvain Lamprier, Marcin Detyniecki(参考訳) 近年、機械学習モデルにおけるフェアネス戦略のほとんどは、センシティブな情報が観測されることを前提として、望ましくないバイアスを緩和することに焦点を当てている。 しかし、実際にはこれは不可能である。 EUにおけるプライバシーの目的とRGPDのような多彩な規制のため、多くの個人機密属性は収集されない。 このような困難な環境下でバイアスを緩和するためのアプローチが欠如していることに気付き、特にデモグラフィックパリティや等化オッドのような古典的公正目標を達成するために注目する。 近年の開発を近似推論に活用し,このギャップを埋める手法を提案する。 因果グラフに基づいて、我々はSRCVAEと呼ばれる新しい変分自動エンコーディングベースのフレームワークを使用して、敵の公正性アプローチにおけるバイアス軽減に役立つセンシティブな情報プロキシを推論する。 この分野における既存の作業に対する大幅な改善を実証的に示す。 我々は,生成したプロキシの潜伏空間が機密情報を回復し,提案手法が2つの実データに対して同等の公平度を確保しつつ高い精度を達成することを観察した。

In recent years, most fairness strategies in machine learning models focus on mitigating unwanted biases by assuming that the sensitive information is observed. However this is not always possible in practice. Due to privacy purposes and var-ious regulations such as RGPD in EU, many personal sensitive attributes are frequently not collected. We notice a lack of approaches for mitigating bias in such difficult settings, in particular for achieving classical fairness objectives such as Demographic Parity and Equalized Odds. By leveraging recent developments for approximate inference, we propose an approach to fill this gap. Based on a causal graph, we rely on a new variational auto-encoding based framework named SRCVAE to infer a sensitive information proxy, that serve for bias mitigation in an adversarial fairness approach. We empirically demonstrate significant improvements over existing works in the field. We observe that the generated proxy's latent space recovers sensitive information and that our approach achieves a higher accuracy while obtaining the same level of fairness on two real datasets, as measured using com-mon fairness definitions.
翻訳日:2021-09-13 13:46:20 公開日:2021-09-10
# マルチタスク学習におけるタスク群の自動同定

Efficiently Identifying Task Groupings for Multi-Task Learning ( http://arxiv.org/abs/2109.04617v1 )

ライセンス: Link先を確認
Christopher Fifty, Ehsan Amid, Zhe Zhao, Tianhe Yu, Rohan Anil, Chelsea Finn(参考訳) マルチタスク学習は、あるタスクが学習した情報を活用し、他のタスクのトレーニングの恩恵を受けることができる。 この能力にもかかわらず、1つのモデルで全てのタスクを鼻で訓練することはパフォーマンスを低下させることが多く、タスクグループ化の組み合わせを徹底的に探すことは違法にコストがかかる。 結果として、コトレーニングの恩恵を受けるタスクを効率的に識別することは、明確な解決策なしでは難しい設計問題である。 本稿では,マルチタスク学習モデルにおいて,どのタスクを一緒に訓練すべきかを選択する手法を提案する。 提案手法は,すべてのタスクをコトレーニングし,ひとつのタスクの勾配が他のタスクの損失に与える影響を定量化することにより,単一のトレーニングでタスクのグループ化を決定する。 大規模タスクマイノミーコンピュータビジョンデータセットでは,従来のタスクグループ化手法よりも11.6倍高速に動作しながら,すべてのタスクを同時にトレーニングするのに比べ,テスト損失を10.0\%削減できることがわかった。

Multi-task learning can leverage information learned by one task to benefit the training of other tasks. Despite this capacity, naively training all tasks together in one model often degrades performance, and exhaustively searching through combinations of task groupings can be prohibitively expensive. As a result, efficiently identifying the tasks that would benefit from co-training remains a challenging design question without a clear solution. In this paper, we suggest an approach to select which tasks should train together in multi-task learning models. Our method determines task groupings in a single training run by co-training all tasks together and quantifying the effect to which one task's gradient would affect another task's loss. On the large-scale Taskonomy computer vision dataset, we find this method can decrease test loss by 10.0\% compared to simply training all tasks together while operating 11.6 times faster than a state-of-the-art task grouping method.
翻訳日:2021-09-13 13:46:02 公開日:2021-09-10
# キーフレーズ生成のためのヘテロジニアスグラフニューラルネットワーク

Heterogeneous Graph Neural Networks for Keyphrase Generation ( http://arxiv.org/abs/2109.04703v1 )

ライセンス: Link先を確認
Jiacheng Ye, Ruijian Cai, Tao Gui and Qi Zhang(参考訳) encoder-decoderフレームワークは、ソース文書に現れる現在のキーフレーズと、そうでないキーフレーズの両方を予測することで、キーフレーズ生成(KG)タスクの最先端結果を達成する。 しかし、ソースドキュメントのみに依存すると、制御不能で不正確なキーフレーズが生成される。 そこで本研究では,関連する参照から明示的な知識を抽出できるグラフベース手法を提案する。 我々のモデルはまず、あらかじめ定義されたインデックスから、ソースドキュメントに似た文書-キーワードペアを参照として検索する。 その後、異種グラフを構築し、ソース文書とその参照間の異なる粒度の関係をキャプチャする。 復号処理の導出には、その関連性と重要性に基づいて、ソース文書とその参照の両方から適切な単語を直接コピーする階層的注意・複写機構を導入する。 複数のKGベンチマークによる実験結果から,提案モデルが他のベースラインモデルに対して有意な改善を達成できることが示唆された。

The encoder-decoder framework achieves state-of-the-art results in keyphrase generation (KG) tasks by predicting both present keyphrases that appear in the source document and absent keyphrases that do not. However, relying solely on the source document can result in generating uncontrollable and inaccurate absent keyphrases. To address these problems, we propose a novel graph-based method that can capture explicit knowledge from related references. Our model first retrieves some document-keyphrases pairs similar to the source document from a pre-defined index as references. Then a heterogeneous graph is constructed to capture relationships of different granularities between the source document and its references. To guide the decoding process, a hierarchical attention and copy mechanism is introduced, which directly copies appropriate words from both the source document and its references based on their relevance and significance. The experimental results on multiple KG benchmarks show that the proposed model achieves significant improvements against other baseline models, especially with regard to the absent keyphrase prediction.
翻訳日:2021-09-13 13:45:46 公開日:2021-09-10
# 表現と勾配規則化による多言語翻訳の改善

Improving Multilingual Translation by Representation and Gradient Regularization ( http://arxiv.org/abs/2109.04778v1 )

ライセンス: Link先を確認
Yilin Yang, Akiko Eriguchi, Alexandre Muzio, Prasad Tadepalli, Stefan Lee and Hany Hassan(参考訳) NMT(Multilingual Neural Machine Translation)は、訓練中に見えないもの、すなわちゼロショット翻訳を含む全ての翻訳方向を1つのモデルで処理できるようにする。 理論的には魅力的であるにもかかわらず、現在のモデルは低品質の翻訳を生成することが多い。 本研究では,大規模多言語コーパスで訓練された強固な多言語システムにおいても,目標外翻訳が支配的であることを観察する。 本稿では,nmtモデルを表現レベルと勾配レベルの両方で正則化する手法を提案する。 表現レベルでは、補助目標言語予測タスクを利用してデコーダ出力を正規化し、対象言語に関する情報を保持する。 勾配レベルでは、少量の直接データ(数千の文ペア)を利用して、モデルの勾配を規則化する。 提案手法は,WMTデータセットとOPUSデータセットの0ショット翻訳性能を+5.59と+10.38BLEUで向上させるのに有効であることを示す。 また,本手法は少量の直接データを利用できない場合にも有効であることを示す実験を行った。

Multilingual Neural Machine Translation (NMT) enables one model to serve all translation directions, including ones that are unseen during training, i.e. zero-shot translation. Despite being theoretically attractive, current models often produce low quality translations -- commonly failing to even produce outputs in the right target language. In this work, we observe that off-target translation is dominant even in strong multilingual systems, trained on massive multilingual corpora. To address this issue, we propose a joint approach to regularize NMT models at both representation-level and gradient-level. At the representation level, we leverage an auxiliary target language prediction task to regularize decoder outputs to retain information about the target language. At the gradient level, we leverage a small amount of direct data (in thousands of sentence pairs) to regularize model gradients. Our results demonstrate that our approach is highly effective in both reducing off-target translation occurrences and improving zero-shot translation performance by +5.59 and +10.38 BLEU on WMT and OPUS datasets respectively. Moreover, experiments show that our method also works well when the small amount of direct data is not available.
翻訳日:2021-09-13 13:45:29 公開日:2021-09-10
# MultiAzterTest: 可読性評価のための多言語言語レベルの多言語アナライザ

MultiAzterTest: a Multilingual Analyzer on Multiple Levels of Language for Readability Assessment ( http://arxiv.org/abs/2109.04870v1 )

ライセンス: Link先を確認
Kepa Bengoetxea and Itziar Gonzalez-Dios(参考訳) 可読性評価(Readability Assessment)とは、テキストの難易度や難易度を決定するタスクである。 伝統的に言語依存の可読性公式が用いられてきたが、これらの公式はテキストの特徴を考慮に入れていない。 しかし、テキストの複雑さを評価する自然言語処理(NLP)ツールは、より異なる特徴を測定することができ、異なる言語に適応することができる。 本稿では,MultiAzterTestツールについて述べる。 i) 英語,スペイン語及びバスク語に対する125以上の凝集度,言語及び可読性に関するテキストを分析するオープンソースのNLPツールであって,そのアーキテクチャは,他言語を容易に適応するように設計されている。 (二 英語のCoh-Metrix、スペイン語のCoh-Metrix-Esp、バスク語ErreXailの性能を向上させる可読性評価分類器 iii) web ツール。 multiaztertestは、英語で3つの読みレベル(要素、中間、上級)、バスク語で95.50%、スペイン語で90%に分類すると、smo分類器を用いて2つの読みレベル(単純かつ複雑)に分類される。 MultiAzterTestは、言語横断機能を使用して、より複雑なものと単純なものとの競争結果も得る。

Readability assessment is the task of determining how difficult or easy a text is or which level/grade it has. Traditionally, language dependent readability formula have been used, but these formulae take few text characteristics into account. However, Natural Language Processing (NLP) tools that assess the complexity of texts are able to measure more different features and can be adapted to different languages. In this paper, we present the MultiAzterTest tool: (i) an open source NLP tool which analyzes texts on over 125 measures of cohesion,language, and readability for English, Spanish and Basque, but whose architecture is designed to easily adapt other languages; (ii) readability assessment classifiers that improve the performance of Coh-Metrix in English, Coh-Metrix-Esp in Spanish and ErreXail in Basque; iii) a web tool. MultiAzterTest obtains 90.09 % in accuracy when classifying into three reading levels (elementary, intermediate, and advanced) in English and 95.50 % in Basque and 90 % in Spanish when classifying into two reading levels (simple and complex) using a SMO classifier. Using cross-lingual features, MultiAzterTest also obtains competitive results above all in a complex vs simple distinction.
翻訳日:2021-09-13 13:45:07 公開日:2021-09-10
# PIP:スパン選択を伴う心的イメージによる身体的相互作用予測

PIP: Physical Interaction Prediction via Mental Imagery with Span Selection ( http://arxiv.org/abs/2109.04683v1 )

ライセンス: Link先を確認
Jiafei Duan, Samson Yu, Soujanya Poria, Bihan Wen, Cheston Tan(参考訳) 高度な人工知能(AI)を人間の価値観と整合させ、安全なAIを促進するためには、AIが物理的相互作用の結果を予測することが重要である。 現実世界のオブジェクト間の物理的相互作用の結果を人間がどのように予測するかという議論が続いているが、認知に触発されたAIアプローチを通じて、この課題に対処しようとする研究がある。 しかし、人間が現実世界で物理的相互作用を予測するために使用する精神的なイメージを模倣するAIアプローチがまだ存在しない。 本研究では,Span Selection を用いたメンタルイメージによる身体的相互作用予測手法を提案する。 PIPは、深層生成モデルを用いて、オブジェクト間の物理的な相互作用の将来のフレームを出力し、スパンセレクションを用いた健全なフレームに着目して物理的相互作用を予測する重要な情報を抽出する。 本研究では,3次元環境における3つの物理的相互作用イベントを含む合成ビデオフレームの大規模空間+データセットを提案する。 実験の結果,PIPは目視対象と目視対象の両方の物理的相互作用予測において,ベースラインや人体性能よりも優れていた。 さらに、PIPのスパン選択スキームは、生成されたフレーム内でオブジェクト間の物理的相互作用が発生するフレームを効果的に識別し、追加の解釈可能性を実現する。

To align advanced artificial intelligence (AI) with human values and promote safe AI, it is important for AI to predict the outcome of physical interactions. Even with the ongoing debates on how humans predict the outcomes of physical interactions among objects in the real world, there are works attempting to tackle this task via cognitive-inspired AI approaches. However, there is still a lack of AI approaches that mimic the mental imagery humans use to predict physical interactions in the real world. In this work, we propose a novel PIP scheme: Physical Interaction Prediction via Mental Imagery with Span Selection. PIP utilizes a deep generative model to output future frames of physical interactions among objects before extracting crucial information for predicting physical interactions by focusing on salient frames using span selection. To evaluate our model, we propose a large-scale SPACE+ dataset of synthetic video frames, including three physical interaction events in a 3D environment. Our experiments show that PIP outperforms baselines and human performance in physical interaction prediction for both seen and unseen objects. Furthermore, PIP's span selection scheme can effectively identify the frames where physical interactions among objects occur within the generated frames, allowing for added interpretability.
翻訳日:2021-09-13 13:44:42 公開日:2021-09-10
# GAN合成ストリートビデオの検出

Detection of GAN-synthesized street videos ( http://arxiv.org/abs/2109.04991v1 )

ライセンス: Link先を確認
Omran Alamayreh and Mauro Barni(参考訳) AI生成ビデオの検出に関する研究は、主にディープフェイクと呼ばれるフェイスビデオに焦点を当てている。 顔の交換、顔の再現、表情の操作といった操作は、人工ビデオと本物の動画を区別する効率的なツールの開発とともに、激しい研究の対象となっている。 人工非顔ビデオの検出には、はるかに注意が払われていない。 しかし、このようなビデオを生成するための新しいツールが、急速に開発され、間もなく、ディープフェイクビデオの品質レベルに達するだろう。 本研究の目的は、顔のディープフェイクに使用されるのと同じツールで分析できない、新しいタイプのAI生成ビデオがストリートシーケンスを駆動する(以下、DeepStreetsビデオと呼ぶ)ことの検出可能性を調べることである。 具体的には、Vid2vidアーキテクチャによって生成された最先端のDeepStreetsビデオにおいて、非常に優れた性能を発揮する。 特に、この検出器は、トレーニング中に使用する圧縮レベルがテストビデオと一致しない場合でも、圧縮ビデオの性能が非常に高い。

Research on the detection of AI-generated videos has focused almost exclusively on face videos, usually referred to as deepfakes. Manipulations like face swapping, face reenactment and expression manipulation have been the subject of an intense research with the development of a number of efficient tools to distinguish artificial videos from genuine ones. Much less attention has been paid to the detection of artificial non-facial videos. Yet, new tools for the generation of such kind of videos are being developed at a fast pace and will soon reach the quality level of deepfake videos. The goal of this paper is to investigate the detectability of a new kind of AI-generated videos framing driving street sequences (here referred to as DeepStreets videos), which, by their nature, can not be analysed with the same tools used for facial deepfakes. Specifically, we present a simple frame-based detector, achieving very good performance on state-of-the-art DeepStreets videos generated by the Vid2vid architecture. Noticeably, the detector retains very good performance on compressed videos, even when the compression level used during training does not match that used for the test videos.
翻訳日:2021-09-13 13:44:22 公開日:2021-09-10
# CINS:タスク指向DialogシステムにおけるFew-shot学習の総合的指導

CINS: Comprehensive Instruction for Few-shot Learning in Task-orientedDialog Systems ( http://arxiv.org/abs/2109.04645v1 )

ライセンス: Link先を確認
Fei Mi, Yitong Li, Yasheng Wang, Xin Jiang and Qun Liu(参考訳) タスク指向ダイアログ(ToD)システムにおける異なるモジュールのラベル付けコストが高いため、実際は最小限のラベル付きデータで異なるタスクを学習することが課題である。 近年, プレトレーニング言語モデル (PLM) に対するプロンプト手法は, ToD における数発の学習に有望な結果を示している。 本稿では, PLMの能力をより有効活用するために, タスク固有の命令を多用した包括的インストラクション(CINS)を提案する。 インテント分類,ダイアログ状態追跡,自然言語生成の3つの重要な下流タスクに対して,命令のスキーマ(定義,制約,プロンプト)とそのカスタマイズ実現を設計する。 これら3つのタスクを統一フレームワークで解決するためにシーケンシャル・ツー・シーケンス・モデル(t5)が採用されている。 これらのtodタスクについて,小さな検証データを用いて,リアルな少数ショット学習シナリオで広範な実験を行った。 実験の結果,提案手法は生のインプットやショートプロンプトでPLMを微調整する手法を一貫して改良することが示された。

As labeling cost for different modules in task-oriented dialog (ToD) systems is high, a major challenge in practice is to learn different tasks with the least amount of labeled data. Recently, prompting methods over pre-trained language models (PLMs) have shown promising results for few-shot learning in ToD. To better utilize the power of PLMs, this paper proposes Comprehensive Instruction (CINS) that exploits PLMs with extra task-specific instructions. We design a schema(definition, constraint, prompt) of instructions and their customized realizations for three important downstream tasks in ToD, i.e. intent classification, dialog state tracking, and natural language generation. A sequence-to-sequence model (T5)is adopted to solve these three tasks in a unified framework. Extensive experiments are conducted on these ToD tasks in realistic few-shot learning scenarios with small validation data. Empirical results demonstrate that the proposed CINS approach consistently improves techniques that finetune PLMs with raw input or short prompts.
翻訳日:2021-09-13 13:43:24 公開日:2021-09-10
# 低リソーステキスト分類のための知識認識メタラーニング

Knowledge-Aware Meta-learning for Low-Resource Text Classification ( http://arxiv.org/abs/2109.04707v1 )

ライセンス: Link先を確認
Huaxiu Yao, Yingxin Wu, Maruan Al-Shedivat, Eric P. Xing(参考訳) メタラーニングは、新しいタスクの学習プロセスを促進するために歴史的な学習知識を活用することに成功しました。 しかし、現在のメタ学習アルゴリズムが採用している歴史的タスクから知識を学習するだけでは、トレーニングタスクが十分にサポートされていない場合に、テストタスクにうまく適用できない可能性がある。 本稿では,低リソーステキスト分類問題を調査し,外部知識ベースを活用することで,メタトレーニングとメタテストのギャップを埋める。 具体的には,抽出した文固有知識グラフから学習した各文に対する追加表現を提案する。 3つのデータセットに関する広範な実験は、教師なし適応と教師なし適応設定の両方において、KGMLの有効性を示す。

Meta-learning has achieved great success in leveraging the historical learned knowledge to facilitate the learning process of the new task. However, merely learning the knowledge from the historical tasks, adopted by current meta-learning algorithms, may not generalize well to testing tasks when they are not well-supported by training tasks. This paper studies a low-resource text classification problem and bridges the gap between meta-training and meta-testing tasks by leveraging the external knowledge bases. Specifically, we propose KGML to introduce additional representation for each sentence learned from the extracted sentence-specific knowledge graph. The extensive experiments on three datasets demonstrate the effectiveness of KGML under both supervised adaptation and unsupervised adaptation settings.
翻訳日:2021-09-13 13:43:05 公開日:2021-09-10
# 高速変圧器のブロックプルーニング

Block Pruning For Faster Transformers ( http://arxiv.org/abs/2109.04838v1 )

ライセンス: Link先を確認
Fran\c{c}ois Lagunas, Ella Charlaix, Victor Sanh, Alexander M. Rush(参考訳) 事前学習は、より大きく遅いモデルを導入するコストで、分類タスクと生成タスクの両方のモデル精度を改善した。 プルーニング法はモデルサイズの削減に有効な方法であることが証明されているが, 蒸留法は推論の高速化に有効である。 小型モデルと高速モデルの両方を対象としたブロック刈り込み手法を提案する。 提案手法は,任意のサイズのブロックを考慮して構造化手法を拡張し,この構造を微調整のための移動プルーニングパラダイムに統合する。 このアプローチは、アテンションヘッドのような基盤となるモデルの完全なコンポーネントを抽出することを学ぶ。 実験では、分類と生成タスクを考慮し、その他の結果の中で、SQuAD v1上で2.4倍高速で74%小さいBERTで、F1では1%低下し、蒸留されたモデルの速度とプルーンドモデルの両方と競合するプルーンドモデルが得られる。

Pre-training has improved model accuracy for both classification and generation tasks at the cost of introducing much larger and slower models. Pruning methods have proven to be an effective way of reducing model size, whereas distillation methods are proven for speeding up inference. We introduce a block pruning approach targeting both small and fast models. Our approach extends structured methods by considering blocks of any size and integrates this structure into the movement pruning paradigm for fine-tuning. We find that this approach learns to prune out full components of the underlying model, such as attention heads. Experiments consider classification and generation tasks, yielding among other results a pruned model that is a 2.4x faster, 74% smaller BERT on SQuAD v1, with a 1% drop on F1, competitive both with distilled models in speed and pruned models in size.
翻訳日:2021-09-13 13:42:55 公開日:2021-09-10
# テキスト分類タスクにおけるラベリング労力削減のためのアクティブラーニング

Active learning for reducing labeling effort in text classification tasks ( http://arxiv.org/abs/2109.04847v1 )

ライセンス: Link先を確認
Pieter Floris Jacobs, Gideon Maillette de Buy Wenniger, Marco Wiering, Lambert Schomaker(参考訳) データのラベル付けは通常、ドメインの専門家が手作業で行うため、高価なタスクになる可能性がある。 これは、大きなラベル付きデータセットに依存するため、ディープラーニングには厄介である。 アクティブラーニング(英: Active Learning, AL)は、使用済みモデルが最も有用なデータのみを使用することでラベル付けの労力を削減することを目的としたパラダイムである。 ALのテキスト分類に関する研究はほとんど行われておらず、最近になって最先端のNLPモデルに関する研究は行われていない。 本稿では,異なる不確実性に基づくアルゴリズムを,使用する分類器としてbert$_{base}$と比較した経験的研究を行う。 我々は,2つのNLP分類データセット(Stanford Sentiment TreebankとKvK-Frontpages)でアルゴリズムを評価する。 さらに,不確実性に基づくalの既定問題を解決することを目的としたヒューリスティックスについて検討する。 さらに,クエリプールサイズがALの性能に与える影響についても検討する。 提案したALのヒューリスティックスではALの性能は向上しなかったが,BERT$_{base}$による不確実性に基づくALはデータのランダムサンプリングに優れていた。 このパフォーマンスの違いは、クエリプールのサイズが大きくなるにつれて減少する可能性がある。

Labeling data can be an expensive task as it is usually performed manually by domain experts. This is cumbersome for deep learning, as it is dependent on large labeled datasets. Active learning (AL) is a paradigm that aims to reduce labeling effort by only using the data which the used model deems most informative. Little research has been done on AL in a text classification setting and next to none has involved the more recent, state-of-the-art NLP models. Here, we present an empirical study that compares different uncertainty-based algorithms with BERT$_{base}$ as the used classifier. We evaluate the algorithms on two NLP classification datasets: Stanford Sentiment Treebank and KvK-Frontpages. Additionally, we explore heuristics that aim to solve presupposed problems of uncertainty-based AL; namely, that it is unscalable and that it is prone to selecting outliers. Furthermore, we explore the influence of the query-pool size on the performance of AL. Whereas it was found that the proposed heuristics for AL did not improve performance of AL; our results show that using uncertainty-based AL with BERT$_{base}$ outperforms random sampling of data. This difference in performance can decrease as the query-pool size gets larger.
翻訳日:2021-09-13 13:42:40 公開日:2021-09-10
# 要約のための事前学習は知識伝達を必要とするか?

Does Pretraining for Summarization Require Knowledge Transfer? ( http://arxiv.org/abs/2109.04953v1 )

ライセンス: Link先を確認
Kundan Krishna, Jeffrey Bigham and Zachary C. Lipton(参考訳) 膨大なデータセットを活用する事前学習技術は、テキスト要約の最近の進歩を駆動している。 民間の説明では、知識の伝達は事前訓練の利点を説明できるが、なぜそれが機能するのか、それとも事前訓練のタスクやデータセットを適当にするかは、ほとんど分かっていない。 本稿では,ランダムに選択された文字n-gramからなる文書を事前学習することで,実コーパスで事前学習したモデルの性能にほぼ匹敵することを示す。 この研究は上流コーパスの排除を約束しており、攻撃的言語、偏見、著作権問題に対する懸念を緩和する可能性がある。 実データを用いた残余利益が事前学習タスクの構造によって説明できるかどうかを確認するために,要約コーパスの質的研究によって動機づけられたタスクをいくつか設計する。 しかし、これらのタスクは有益な利益を与えず、知識伝達の小さな役割の可能性を秘めている。

Pretraining techniques leveraging enormous datasets have driven recent advances in text summarization. While folk explanations suggest that knowledge transfer accounts for pretraining's benefits, little is known about why it works or what makes a pretraining task or dataset suitable. In this paper, we challenge the knowledge transfer story, showing that pretraining on documents consisting of character n-grams selected at random, we can nearly match the performance of models pretrained on real corpora. This work holds the promise of eliminating upstream corpora, which may alleviate some concerns over offensive language, bias, and copyright issues. To see whether the small residual benefit of using real data could be accounted for by the structure of the pretraining task, we design several tasks motivated by a qualitative study of summarization corpora. However, these tasks confer no appreciable benefit, leaving open the possibility of a small role for knowledge transfer.
翻訳日:2021-09-13 13:42:19 公開日:2021-09-10
# box embeddeds:幾何構造を用いた表現学習のためのオープンソースライブラリ

Box Embeddings: An open-source library for representation learning using geometric structures ( http://arxiv.org/abs/2109.04997v1 )

ライセンス: Link先を確認
Tejas Chheda, Purujit Goyal, Trang Tran, Dhruvesh Patel, Michael Boratko, Shib Sankar Dasgupta, and Andrew McCallum(参考訳) 現代表現学習の成功に寄与する主要な要因は、様々なベクトル演算の実行の容易さである。 近年、幾何学的構造(分布、複素あるいは双曲ベクトル、円錐、円盤、箱などの領域)を持つ物体は、その代替帰納バイアスと追加の表現能力のために探索されている。 そこで本研究では,PythonライブラリであるBox Embeddingsを紹介した。

A major factor contributing to the success of modern representation learning is the ease of performing various vector operations. Recently, objects with geometric structures (eg. distributions, complex or hyperbolic vectors, or regions such as cones, disks, or boxes) have been explored for their alternative inductive biases and additional representational capacities. In this work, we introduce Box Embeddings, a Python library that enables researchers to easily apply and extend probabilistic box embeddings.
翻訳日:2021-09-13 13:42:03 公開日:2021-09-10
# ノイズロバスト学習と言語モデル強化による遠隔教師付きエンティティ認識

Distantly-Supervised Named Entity Recognition with Noise-Robust Learning and Language Model Augmented Self-Training ( http://arxiv.org/abs/2109.05003v1 )

ライセンス: Link先を確認
Yu Meng, Yunyi Zhang, Jiaxin Huang, Xuan Wang, Yu Zhang, Heng Ji, Jiawei Han(参考訳) 本研究では,テキスト中のエンティティの言及と知識ベースにおけるエンティティの型をマッチングすることで,遠隔ラベル付きデータのみを用いて名前付きエンティティ認識(NER)モデルを訓練する問題について検討する。 遠方監督NERの最大の課題は、遠方監督が不完全でノイズの多いラベルを誘導し、教師付き学習の直接的な適用が効果的でないことである。 本稿では,NERモデルを遠隔ラベル付きデータで学習するための,新たな損失関数とノイズラベル除去ステップからなるノイズローバスト学習手法を提案し,また,NERモデルの一般化能力を向上させるために,事前学習された言語モデルによって生成された文脈拡張を用いた自己学習手法を提案する。 3つのベンチマークデータセットにおいて,提案手法は,既存の遠隔教師付きNERモデルよりも優れた性能を示す。

We study the problem of training named entity recognition (NER) models using only distantly-labeled data, which can be automatically obtained by matching entity mentions in the raw text with entity types in a knowledge base. The biggest challenge of distantly-supervised NER is that the distant supervision may induce incomplete and noisy labels, rendering the straightforward application of supervised learning ineffective. In this paper, we propose (1) a noise-robust learning scheme comprised of a new loss function and a noisy label removal step, for training NER models on distantly-labeled data, and (2) a self-training method that uses contextualized augmentations created by pre-trained language models to improve the generalization ability of the NER model. On three benchmark datasets, our method achieves superior performance, outperforming existing distantly-supervised NER models by significant margins.
翻訳日:2021-09-13 13:41:54 公開日:2021-09-10
# 動的集団知能学習:刈り込み重みに対する精製勾配による効率的なスパースモデル探索

Dynamic Collective Intelligence Learning: Finding Efficient Sparse Model via Refined Gradients for Pruned Weights ( http://arxiv.org/abs/2109.04660v1 )

ライセンス: Link先を確認
Jangho Kim, Jayeon Yoo, Yeji Song, KiYoon Yoo, Nojun Kwak(参考訳) ディープニューラルネットワーク(DNN)の成長に伴い、DNNパラメータの数が大幅に増加した。 これにより、DNNモデルはリソース制限された組み込みシステムにデプロイするのが困難になる。 この問題を軽減するために,ストレート・スルー・エスティメータ(ste)を駆除重みの近似勾配に利用し,トレーニング中に多様なスパースパターンを求める動的プルーニング法が出現した。 STEは、ダイナミックなスパーシティパターンを見つける過程において、刈り取られた重量を回復させるのに役立つ。 しかし、これらの粗い勾配を用いることで、STE近似の信頼性の低い勾配信号によるトレーニング不安定性と性能劣化が生じる。 そこで本研究では,2組の重みから2組のフォワーディングパスを形成することにより,重みの更新に洗練された勾配を導入する。 本稿では,両重み集合の集合的知性間の学習相乗効果を利用した新しい動的集団知能学習(DCIL)を提案する。 CIFARおよびImageNetデータセット上でのトレーニング安定性とモデル性能の向上を示すことにより、改良された勾配の有用性を検証する。 DCILは、トレーニング中に安定性を向上した他の動的プルーニング手法を含む、以前に提案されたプルーニング方式よりも優れている。

With the growth of deep neural networks (DNN), the number of DNN parameters has drastically increased. This makes DNN models hard to be deployed on resource-limited embedded systems. To alleviate this problem, dynamic pruning methods have emerged, which try to find diverse sparsity patterns during training by utilizing Straight-Through-Est imator (STE) to approximate gradients of pruned weights. STE can help the pruned weights revive in the process of finding dynamic sparsity patterns. However, using these coarse gradients causes training instability and performance degradation owing to the unreliable gradient signal of the STE approximation. In this work, to tackle this issue, we introduce refined gradients to update the pruned weights by forming dual forwarding paths from two sets (pruned and unpruned) of weights. We propose a novel Dynamic Collective Intelligence Learning (DCIL) which makes use of the learning synergy between the collective intelligence of both weight sets. We verify the usefulness of the refined gradients by showing enhancements in the training stability and the model performance on the CIFAR and ImageNet datasets. DCIL outperforms various previously proposed pruning schemes including other dynamic pruning methods with enhanced stability during training.
翻訳日:2021-09-13 13:41:39 公開日:2021-09-10
# 6MapNet: トリオットネットワークによるデータ追跡からサッカー選手を表現

6MapNet: Representing soccer players from tracking data by a triplet network ( http://arxiv.org/abs/2109.04720v1 )

ライセンス: Link先を確認
Hyunsung Kim, Jihun Kim, Dongwook Chung, Jonghyun Lee, Jinsung Yoon, Sang-Ki Ko(参考訳) 個々のサッカー選手の価値観は天文学的になったが、主観的判断は依然として選手分析において大きな役割を果たしている。 近年,ビデオベースのイベントストリームデータを用いてプレイヤーのスタイルを定量的に把握する試みが試みられている。 しかし、アノテーションのコストとイベントストリームデータの分散性のためにスケーラビリティにいくつかの制限がある。 本稿では,ゲーム内gpsデータを用いてプレイヤーの動作スタイルを効果的に把握できるトリプルトネットワーク6mapnetを構築した。 サッカー特有のアクションのアノテーションがなければ、プレイヤーの位置と速度を使って2種類のヒートマップを生成する。 私たちのサブネットワークは、これらのヒートマップペアを、演奏スタイルの実際の類似性に対応する特徴ベクトルにマッピングします。 実験の結果,プレイヤーは少数のマッチのみで正確に識別できることがわかった。

Although the values of individual soccer players have become astronomical, subjective judgments still play a big part in the player analysis. Recently, there have been new attempts to quantitatively grasp players' styles using video-based event stream data. However, they have some limitations in scalability due to high annotation costs and sparsity of event stream data. In this paper, we build a triplet network named 6MapNet that can effectively capture the movement styles of players using in-game GPS data. Without any annotation of soccer-specific actions, we use players' locations and velocities to generate two types of heatmaps. Our subnetworks then map these heatmap pairs into feature vectors whose similarity corresponds to the actual similarity of playing styles. The experimental results show that players can be accurately identified with only a small number of matches by our method.
翻訳日:2021-09-13 13:41:18 公開日:2021-09-10
# 自動機械学習、有界合理性、および有理距離化

Automated Machine Learning, Bounded Rationality, and Rational Metareasoning ( http://arxiv.org/abs/2109.04744v1 )

ライセンス: Link先を確認
Eyke H\"ullermeier and Felix Mohr and Alexander Tornede and Marcel Wever(参考訳) 有界合理性の概念は、完全な合理性行動は、限られた認知的または計算的資源を持つエージェントによって実現できないという洞察から生まれた。 主にハーバート・サイモンによって始められた有界合理性の研究は、経済学と社会科学における長年の伝統を持つが、現代のAIや知的エージェントデザインでも重要な役割を果たしている。 境界づけられたリソースの下でアクションを取るには、エージェントがこれらのリソースを最適な方法でどのように使うかを振り返る必要がある。 本稿では,自動機械学習(AutoML)と関連する問題を有界合理性の観点から考察し,基本的にはAutoMLツールを,与えられたデータ集合上でモデルをトレーニングしなければならないエージェントとして捉え,メタレベルでの議論として,それを行うための適切な方法("MLパイプライン")を探索する。

The notion of bounded rationality originated from the insight that perfectly rational behavior cannot be realized by agents with limited cognitive or computational resources. Research on bounded rationality, mainly initiated by Herbert Simon, has a longstanding tradition in economics and the social sciences, but also plays a major role in modern AI and intelligent agent design. Taking actions under bounded resources requires an agent to reflect on how to use these resources in an optimal way - hence, to reason and make decisions on a meta-level. In this paper, we will look at automated machine learning (AutoML) and related problems from the perspective of bounded rationality, essentially viewing an AutoML tool as an agent that has to train a model on a given set of data, and the search for a good way of doing so (a suitable "ML pipeline") as deliberation on a meta-level.
翻訳日:2021-09-13 13:41:04 公開日:2021-09-10
# 相関多関節バンドにおけるベストアーム同定

Best-Arm Identification in Correlated Multi-Armed Bandits ( http://arxiv.org/abs/2109.04941v1 )

ライセンス: Link先を確認
Samarth Gupta, Gauri Joshi, Osman Ya\u{g}an(参考訳) 本稿では,固定信頼設定における複数腕のバンディットにおける最善のアーム識別の問題について考察する。そこでは,少なくとも$\delta>0$ に対して 1-\delta$ の確率で,最小のアームセット $\mathcal{k}$ のサンプルで最大値のアームを識別することを目的としている。 既存の最善のアーム識別アルゴリズムと分析の多くは、異なるアームに対応する報酬が互いに独立しているという仮定の下で動作する。 本稿では,腕の条件付き報酬に対する上界の形で,腕間の相関に関するドメイン知識を把握し,他の腕から報酬を得られるような新しい相関型バンディットフレームワークを提案する。 LUCBアルゴリズムを一般化したアルゴリズムC-LUCBは、この相関関係の部分的知識を利用して、ベストアーム識別のサンプルの複雑さを著しく低減する。 より興味深いことに、C-LUCB によって得られた全サンプルは、通常の $\mathcal{O}\left(\sum_{k \in \mathcal{C}} \log\left(\frac{1}{\delta}\right)\right)$ 独立報酬設定で必要とされる $\mathcal{O}\left(\sum_{k \in \mathcal{K}} \log\left(\frac{1}{\delta}\right)\right)$ の形で示される。 この改善は、$\mathcal{o}(\log(1/\delta))$項が、元のアームセット$\mathcal{k}$のサブセットである$\mathcal{c}$の競合アームの集合に対してのみ要約されるためである。 問題の設定によっては、セット$\mathcal{c}$のサイズは$$$という小さくなり、相関したバンディット設定でc-lucbを使用すると、パフォーマンスが大幅に向上する可能性がある。 理論的知見はMovielensおよびGoodreadsレコメンデーションデータセットの実験によって裏付けられている。

In this paper we consider the problem of best-arm identification in multi-armed bandits in the fixed confidence setting, where the goal is to identify, with probability $1-\delta$ for some $\delta>0$, the arm with the highest mean reward in minimum possible samples from the set of arms $\mathcal{K}$. Most existing best-arm identification algorithms and analyses operate under the assumption that the rewards corresponding to different arms are independent of each other. We propose a novel correlated bandit framework that captures domain knowledge about correlation between arms in the form of upper bounds on expected conditional reward of an arm, given a reward realization from another arm. Our proposed algorithm C-LUCB, which generalizes the LUCB algorithm utilizes this partial knowledge of correlations to sharply reduce the sample complexity of best-arm identification. More interestingly, we show that the total samples obtained by C-LUCB are of the form $\mathcal{O}\left(\sum_{k \in \mathcal{C}} \log\left(\frac{1}{\delta}\right)\right)$ as opposed to the typical $\mathcal{O}\left(\sum_{k \in \mathcal{K}} \log\left(\frac{1}{\delta}\right)\right)$ samples required in the independent reward setting. The improvement comes, as the $\mathcal{O}(\log(1/\delta))$ term is summed only for the set of competitive arms $\mathcal{C}$, which is a subset of the original set of arms $\mathcal{K}$. The size of the set $\mathcal{C}$, depending on the problem setting, can be as small as $2$, and hence using C-LUCB in the correlated bandits setting can lead to significant performance improvements. Our theoretical findings are supported by experiments on the Movielens and Goodreads recommendation datasets.
翻訳日:2021-09-13 13:40:22 公開日:2021-09-10
# 無限木集合のニューラル・タンジェント・カーネル・パースペクティブ

A Neural Tangent Kernel Perspective of Infinite Tree Ensembles ( http://arxiv.org/abs/2109.04983v1 )

ライセンス: Link先を確認
Ryuichi Kanoh, Mahito Sugiyama(参考訳) 実際の状況では、アンサンブルツリーモデルはニューラルネットワークと共に最も人気のあるモデルの1つである。 ソフトツリーは決定木の変種の一つである。 分割ルールを探索するためにグリーディ法を用いる代わりに、分割操作全体を微分可能な形式で定式化する勾配法を用いてソフトツリーを訓練する。 このような柔らかい木のアンサンブルは近年ますます使われてきたが、彼らの行動を理解するための理論的な研究はほとんど行われていない。 本稿では,ソフトツリーの無限アンサンブルを考慮し,ソフトツリーの無限アンサンブルの挙動に関する新たな知見を提供するTNTK(Tree Neural Tangent Kernel)を紹介し,研究する。 TNTKを用いて, 樹木の深部化によって引き起こされる斜め木構造の影響やTNTKの退化など, いくつかの非自明な性質を理論的に発見することに成功した。 さらに,TNTKを用いた無限軟木のアンサンブルの性能を実験的に検討した。

In practical situations, the ensemble tree model is one of the most popular models along with neural networks. A soft tree is one of the variants of a decision tree. Instead of using a greedy method for searching splitting rules, the soft tree is trained using a gradient method in which the whole splitting operation is formulated in a differentiable form. Although ensembles of such soft trees have been increasingly used in recent years, little theoretical work has been done for understanding their behavior. In this paper, by considering an ensemble of infinite soft trees, we introduce and study the Tree Neural Tangent Kernel (TNTK), which provides new insights into the behavior of the infinite ensemble of soft trees. Using the TNTK, we succeed in theoretically finding several non-trivial properties, such as the effect of the oblivious tree structure and the degeneracy of the TNTK induced by the deepening of the trees. Moreover, we empirically examine the performance of an ensemble of infinite soft trees using the TNTK.
翻訳日:2021-09-13 13:39:44 公開日:2021-09-10
# 継続的学習におけるリプレイのためのsariency guided experience packing

Saliency Guided Experience Packing for Replay in Continual Learning ( http://arxiv.org/abs/2109.04954v1 )

ライセンス: Link先を確認
Gobinda Saha and Kaushik Roy(参考訳) 人工知能システムは、過去の知識を忘れずに、タスクの流れから継続的に学習することで、人間の知性を模倣することを目指している。 このような学習を可能にする1つの方法は、過去の経験をエピソディックメモリに入力例形式で保存し、新しいタスクを学習する際にそれを再生することである。 しかし,メモリサイズが小さくなるにつれて,そのような手法の性能が低下する。 本稿では,経験再現のための新しいアプローチを提案し,モデル決定の視覚的説明を提供するサリエンシマップを用いて過去の体験を選択する。 これらのサリエンシマップでガイドされたメモリは、モデルの予測に重要な入力画像の部分やパッチのみをパッケージ化する。 新しいタスクを学習しながら、これらのメモリパッチを適切なゼロパディングで再生し、過去の決定をモデルに思い出させる。 我々は,多様な画像分類データセットを用いたアルゴリズムの評価を行い,現状のアプローチよりも優れた性能を報告した。 定性的,定量的な分析により,記憶量の増加を伴わずに過去の経験をよりリッチに要約し,より少ないエピソードメモリで良好な性能を示すことを示す。

Artificial learning systems aspire to mimic human intelligence by continually learning from a stream of tasks without forgetting past knowledge. One way to enable such learning is to store past experiences in the form of input examples in episodic memory and replay them when learning new tasks. However, performance of such method suffers as the size of the memory becomes smaller. In this paper, we propose a new approach for experience replay, where we select the past experiences by looking at the saliency maps which provide visual explanations for the model's decision. Guided by these saliency maps, we pack the memory with only the parts or patches of the input images important for the model's prediction. While learning a new task, we replay these memory patches with appropriate zero-padding to remind the model about its past decisions. We evaluate our algorithm on diverse image classification datasets and report better performance than the state-of-the-art approaches. With qualitative and quantitative analyses we show that our method captures richer summary of past experiences without any memory increase, and hence performs well with small episodic memory.
翻訳日:2021-09-13 13:39:29 公開日:2021-09-10
# 自動運転車のAIセキュリティの新たな脅威 - ケーススタディ

Emerging AI Security Threats for Autonomous Cars -- Case Studies ( http://arxiv.org/abs/2109.04865v1 )

ライセンス: Link先を確認
Shanthi Lekkala, Tanya Motwani, Manojkumar Parmar, Amit Phadke(参考訳) 人工知能は、物体検出から経路計画まで、自動運転車に多大な貢献をした。 しかし、aiモデルは大量のセンシティブなトレーニングデータを必要とし、通常は計算集約的に構築される。 このようなモデルの商業的価値は、攻撃者に様々な攻撃を仕掛ける動機を与える。 広告主は、収益化の目的でモデル抽出攻撃を起動したり、モデル回避のような他の攻撃に対して一歩踏み出すことができる。 特定のケースでは、ブランドの評判、差別化、価値提案を破壊することさえある。 さらに、IP法やAI関連の法律はまだ進化しており、各国で統一されていない。 モデル抽出攻撃を,2つのユースケースと,自律走行車に侵入可能な汎用型キルチェーンで詳細に論じる。 モデル盗難のリスクを管理し軽減するための戦略を検討することが不可欠である。

Artificial Intelligence has made a significant contribution to autonomous vehicles, from object detection to path planning. However, AI models require a large amount of sensitive training data and are usually computationally intensive to build. The commercial value of such models motivates attackers to mount various attacks. Adversaries can launch model extraction attacks for monetization purposes or step-ping-stone towards other attacks like model evasion. In specific cases, it even results in destroying brand reputation, differentiation, and value proposition. In addition, IP laws and AI-related legalities are still evolving and are not uniform across countries. We discuss model extraction attacks in detail with two use-cases and a generic kill-chain that can compromise autonomous cars. It is essential to investigate strategies to manage and mitigate the risk of model theft.
翻訳日:2021-09-13 13:39:11 公開日:2021-09-10
# PWPAE: IoTデータストリームにおけるコンセプトドリフト適応のためのアンサンブルフレームワーク

PWPAE: An Ensemble Framework for Concept Drift Adaptation in IoT Data Streams ( http://arxiv.org/abs/2109.05013v1 )

ライセンス: Link先を確認
Li Yang, Dimitrios Michael Manias, Abdallah Shami(参考訳) IoT(Internet of Things)デバイスやシステムが急増するにつれて、悪意のあるサイバー攻撃やセキュアなIoTシステムを検出するために、IoTデータ分析技術が開発されている。 これは、従来のデータ分析モデルは、データ分散変更に適応できない静的モデルであるからである。 本稿では,IoTデータストリーム分析を用いた適応型IoT異常検出のためのPWPAE(Performance Weighted Probability Averaging Ensemble)フレームワークを提案する。 2つの公開データセットにおける実験により,提案手法の有効性が実証された。

As the number of Internet of Things (IoT) devices and systems have surged, IoT data analytics techniques have been developed to detect malicious cyber-attacks and secure IoT systems; however, concept drift issues often occur in IoT data analytics, as IoT data is often dynamic data streams that change over time, causing model degradation and attack detection failure. This is because traditional data analytics models are static models that cannot adapt to data distribution changes. In this paper, we propose a Performance Weighted Probability Averaging Ensemble (PWPAE) framework for drift adaptive IoT anomaly detection through IoT data stream analytics. Experiments on two public datasets show the effectiveness of our proposed PWPAE method compared against state-of-the-art methods.
翻訳日:2021-09-13 13:38:42 公開日:2021-09-10
# マスアートノイズによるReLU回帰

ReLU Regression with Massart Noise ( http://arxiv.org/abs/2109.04623v1 )

ライセンス: Link先を確認
Ilias Diakonikolas, Jongho Park, Christos Tzamos(参考訳) 本稿では、ReLU回帰の基本的問題として、Rectified Linear Units(ReLU)をデータに適合させることを目標としている。 この教師付き学習タスクは、実現可能な設定で効率的に解くことができるが、逆ラベルノイズと計算的に難しいことが知られている。 本研究では,自然およびよく研究された半ランダムノイズモデルであるMassartノイズモデルにおけるReLU回帰に着目した。 このモデルでは、すべての点のラベルはクラスの関数に従って生成されるが、逆者は任意の確率でこの値を変更することができ、これは最大で$\eta < 1/2$である。 我々は,このモデルにおける正確なパラメータ回復を実現する効率的なアルゴリズムを開発した。 このような仮定は、正確な回復が情報理論上可能であるために必要である。 このアルゴリズムは合成データと実データの両方において,$\ell_1$および$\ell_2$レグレッションのナイーブな応用を大幅に上回っている。

We study the fundamental problem of ReLU regression, where the goal is to fit Rectified Linear Units (ReLUs) to data. This supervised learning task is efficiently solvable in the realizable setting, but is known to be computationally hard with adversarial label noise. In this work, we focus on ReLU regression in the Massart noise model, a natural and well-studied semi-random noise model. In this model, the label of every point is generated according to a function in the class, but an adversary is allowed to change this value arbitrarily with some probability, which is {\em at most} $\eta < 1/2$. We develop an efficient algorithm that achieves exact parameter recovery in this model under mild anti-concentration assumptions on the underlying distribution. Such assumptions are necessary for exact recovery to be information-theoreti cally possible. We demonstrate that our algorithm significantly outperforms naive applications of $\ell_1$ and $\ell_2$ regression on both synthetic and real data.
翻訳日:2021-09-13 13:38:30 公開日:2021-09-10
# 条件付き生成ニューラルネットワークを用いた3次元分子構造の逆設計

Inverse design of 3d molecular structures with conditional generative neural networks ( http://arxiv.org/abs/2109.04824v1 )

ライセンス: Link先を確認
Niklas W. A. Gebauer, Michael Gastegger, Stefaan S. P. Hessmann, Klaus-Robert M\"uller, Kristof T. Sch\"utt(参考訳) 望ましい性質を持つ分子の合理的設計は、化学における長年の課題である。 生成ニューラルネットワークは、学習された分布から新しい分子をサンプリングする強力なアプローチとして登場した。 本稿では, 特定の構造と化学的性質を有する3次元分子構造のための条件生成ニューラルネットワークを提案する。 このアプローチは化学結合とは無関係であり、参照計算が疎い領域でも条件分布から新しい分子を標的にサンプリングすることができる。 本手法は,特定の組成やモチーフを持つ分子を生成し,特に安定な分子を発見し,訓練領域を超えて複数の電子特性を共同ターゲットとした逆設計手法の有用性を示す。

The rational design of molecules with desired properties is a long-standing challenge in chemistry. Generative neural networks have emerged as a powerful approach to sample novel molecules from a learned distribution. Here, we propose a conditional generative neural network for 3d molecular structures with specified structural and chemical properties. This approach is agnostic to chemical bonding and enables targeted sampling of novel molecules from conditional distributions, even in domains where reference calculations are sparse. We demonstrate the utility of our method for inverse design by generating molecules with specified composition or motifs, discovering particularly stable molecules, and jointly targeting multiple electronic properties beyond the training regime.
翻訳日:2021-09-13 13:38:14 公開日:2021-09-10
# 構成データの潜在予算分析のためのニューラルネットワーク

Neural Networks for Latent Budget Analysis of Compositional Data ( http://arxiv.org/abs/2109.04875v1 )

ライセンス: Link先を確認
Zhenwei Yang, Ayoub Bagheri and P.G.M van der Heijden(参考訳) 構成データは、定列和の長方行列で収集された非負のデータである。 非負性のため、各行に対して1まで増加する条件比に焦点が当てられている。 条件比率の列は観測予算(observed budget)と呼ばれる。 潜在予算分析(lba)は、観察された予算を説明する潜在予算の混合を仮定する。 LBAは通常、列が1つ以上の説明変数のレベルであり、列が応答変数のレベルであるインスタンステーブルに取り付けられる。 将来的な研究では、個人の説明変数についてのみ知識があり、興味は反応変数を予測する。 したがって、予測機能を備えたLBAの形式が必要である。 これまでの研究では、lbaの制約付きニューラルネットワーク(nn)拡張が、不満足な予測能力によって妨げられた。 本稿では,lba-nnモデルを提案する。lbaモデルと同様の解釈を得られるが,lbaの予測能力は向上する。 LBA-NNの安定かつ妥当な解釈は、応答変数に対する全ての説明変数の相対的重要性を示す重要プロットと表を用いて得られる。 重要度表にK平均クラスタリングを適用するLBA-NN-Kmeansアプローチは、LBAのK潜在予算に匹敵するKクラスタを生成するために使用される。 ここでは,LBA-NNを実装し,LBAと比較する実験を行う。 LBA-NNは精度,特異性,リコール,平均二乗誤差の予測において,LBAよりも優れていた。 私たちはGitHubでオープンソースソフトウェアを提供しています。

Compositional data are non-negative data collected in a rectangular matrix with a constant row sum. Due to the non-negativity the focus is on conditional proportions that add up to 1 for each row. A row of conditional proportions is called an observed budget. Latent budget analysis (LBA) assumes a mixture of latent budgets that explains the observed budgets. LBA is usually fitted to a contingency table, where the rows are levels of one or more explanatory variables and the columns the levels of a response variable. In prospective studies, there is only knowledge about the explanatory variables of individuals and interest goes out to predicting the response variable. Thus, a form of LBA is needed that has the functionality of prediction. Previous studies proposed a constrained neural network (NN) extension of LBA that was hampered by an unsatisfying prediction ability. Here we propose LBA-NN, a feed forward NN model that yields a similar interpretation to LBA but equips LBA with a better ability of prediction. A stable and plausible interpretation of LBA-NN is obtained through the use of importance plots and table, that show the relative importance of all explanatory variables on the response variable. An LBA-NN-K- means approach that applies K-means clustering on the importance table is used to produce K clusters that are comparable to K latent budgets in LBA. Here we provide different experiments where LBA-NN is implemented and compared with LBA. In our analysis, LBA-NN outperforms LBA in prediction in terms of accuracy, specificity, recall and mean square error. We provide open-source software at GitHub.
翻訳日:2021-09-13 13:38:05 公開日:2021-09-10
# 談話レベルの表現を改善する予測符号化によるBERT型モデルの拡張

Augmenting BERT-style Models with Predictive Coding to Improve Discourse-level Representations ( http://arxiv.org/abs/2109.04602v1 )

ライセンス: Link先を確認
Vladimir Araujo, Andr\'es Villa, Marcelo Mendoza, Marie-Francine Moens, Alvaro Soto(参考訳) 現在の言語モデルは通常、単語や文のレベルで表現を学ぶことに集中する自己教師型スキームを用いて訓練される。 しかし、有用な談話レベルの表現の生成には限界がある。 本研究では, 予測符号化理論のアイデアを用いて, 適切な談話レベルの表現を学習できるメカニズムを用いて, bert型言語モデルを拡張することを提案する。 その結果,提案手法はネットワークの中間層で動作する明示的なトップダウン接続を用いて,将来の文を予測することができる。 事前学習した文表現を用いて談話関連知識を評価するためのベンチマークを実験することにより、談話関係検出に優れた11タスク中6タスクの性能向上を実証する。

Current language models are usually trained using a self-supervised scheme, where the main focus is learning representations at the word or sentence level. However, there has been limited progress in generating useful discourse-level representations. In this work, we propose to use ideas from predictive coding theory to augment BERT-style language models with a mechanism that allows them to learn suitable discourse-level representations. As a result, our proposed approach is able to predict future sentences using explicit top-down connections that operate at the intermediate layers of the network. By experimenting with benchmarks designed to evaluate discourse-related knowledge using pre-trained sentence representations, we demonstrate that our approach improves performance in 6 out of 11 tasks by excelling in discourse relationship detection.
翻訳日:2021-09-13 13:35:43 公開日:2021-09-10
# どうお手伝いしますか。 ニューラルネットワークによる下流NLPタスクの改善

How May I Help You? Using Neural Text Simplification to Improve Downstream NLP Tasks ( http://arxiv.org/abs/2109.04604v1 )

ライセンス: Link先を確認
Hoang Van, Zheng Tang, Mihai Surdeanu(参考訳) text simplification(ts)の一般的な目標は、人間の消費に対するテキストの複雑さを減らすことである。 本稿では,自然言語処理(nlp)タスクを行う機械を支援するニューラルtsについて検討する。 我々は、予測時の入力テキストの簡素化と、トレーニング中にマシンに追加情報を提供するデータ拡張の2つの方法により、ニューラルTSの使用を評価する。 後者のシナリオが2つの別々のデータセットのマシン性能にプラスの効果をもたらすことを実証する。 特に後者のTSはLSTM(1.82-1.98%)とSpanBERT(0.7-1.3%)のTACREDにおける抽出性能を改善している。 さらに、この設定は、実際の自然言語推論データセットであるMNLI上のBERTテキスト分類器に対して、最大0.65%の一致と0.62%の誤一致の精度の改善をもたらす。

The general goal of text simplification (TS) is to reduce text complexity for human consumption. This paper investigates another potential use of neural TS: assisting machines performing natural language processing (NLP) tasks. We evaluate the use of neural TS in two ways: simplifying input texts at prediction time and augmenting data to provide machines with additional information during training. We demonstrate that the latter scenario provides positive effects on machine performance on two separate datasets. In particular, the latter use of TS improves the performances of LSTM (1.82-1.98%) and SpanBERT (0.7-1.3%) extractors on TACRED, a complex, large-scale, real-world relation extraction task. Further, the same setting yields improvements of up to 0.65% matched and 0.62% mismatched accuracies for a BERT text classifier on MNLI, a practical natural language inference dataset.
翻訳日:2021-09-13 13:35:29 公開日:2021-09-10
# 規則に基づく形態変化は神経ターミノロジー翻訳を改善する

Rule-based Morphological Inflection Improves Neural Terminology Translation ( http://arxiv.org/abs/2109.04620v1 )

ライセンス: Link先を確認
Weijia Xu and Marine Carpuat(参考訳) 機械翻訳(MT)に用語制約を組み込むことへの現在のアプローチは、通常、制約項がそれらの正しい形態素形式で提供されると仮定する。 これにより、制約項が補題として提供される現実世界のシナリオに制限される。 本稿では,言語知識と多種多様なNMTモデルを柔軟に適用可能な,ニューラルMT(NMT)にレムマ制約を組み込むモジュラーフレームワークを提案する。 これは、ソースコンテキストに基づいてターゲットの補題制約を反映する、新しい言語間インフレクションモジュールに基づいている。 言語にモチベーションのあるルールベースとデータ駆動のニューラルベースのインフレクションモジュールを探索し、ドメイン適応と低リソースmt設定でそれらを評価するために、英語とドイツ語の健康と英語とリトアニアのニューステストスイートを設計する。 その結果,NMTモデルがニューラルモジュールよりも正確にレムマ制約を組み込むことで,既存のエンドツーエンドアプローチよりもトレーニングコストが低いことが示唆された。

Current approaches to incorporating terminology constraints in machine translation (MT) typically assume that the constraint terms are provided in their correct morphological forms. This limits their application to real-world scenarios where constraint terms are provided as lemmas. In this paper, we introduce a modular framework for incorporating lemma constraints in neural MT (NMT) in which linguistic knowledge and diverse types of NMT models can be flexibly applied. It is based on a novel cross-lingual inflection module that inflects the target lemma constraints based on the source context. We explore linguistically motivated rule-based and data-driven neural-based inflection modules and design English-German health and English-Lithuanian news test suites to evaluate them in domain adaptation and low-resource MT settings. Results show that our rule-based inflection module helps NMT models incorporate lemma constraints more accurately than a neural module and outperforms the existing end-to-end approach with lower training costs.
翻訳日:2021-09-13 13:35:14 公開日:2021-09-10
# 知識蒸留による多言語・コード混合視覚質問応答システムの開発

Towards Developing a Multilingual and Code-Mixed Visual Question Answering System by Knowledge Distillation ( http://arxiv.org/abs/2109.04653v1 )

ライセンス: Link先を確認
Humair Raj Khan, Deepak Gupta and Asif Ekbal(参考訳) 事前訓練された言語ビジョンモデルは視覚的質問応答(VQA)タスクにおいて顕著な性能を示した。 しかし、ほとんどの事前学習されたモデルは、単言語学習、特に英語のようなリソース豊富な言語のみを考慮して訓練される。 このようなモデルを多言語環境でトレーニングするには、高い計算リソースと多言語言語ビジョンデータセットが必要である。 これらの課題を解決するため,英語ビジョンモデル(教師)を,等しく効果的な多言語・コード混合モデル(学生)に拡張する知識蒸留手法を提案する。 教師ネットワークの最終層からの出力のみを蒸留に使用する既存の知識蒸留法と異なり,生徒モデルは,インクリメンタルな知識抽出のために適切に設計された蒸留目標を用いて,複数の中間層(言語および視覚エンコーダ)から教師を学習・模倣する。 また、インドとヨーロッパの複数の言語を考慮した11の異なる言語設定で、大規模な多言語およびコード混合VQAデータセットを作成します。 実験結果と深部分析により,11種類の言語セットアップ上での事前学習言語ビジョンモデルに対するVQAモデルの有効性が示された。

Pre-trained language-vision models have shown remarkable performance on the visual question answering (VQA) task. However, most pre-trained models are trained by only considering monolingual learning, especially the resource-rich language like English. Training such models for multilingual setups demand high computing resources and multilingual language-vision dataset which hinders their application in practice. To alleviate these challenges, we propose a knowledge distillation approach to extend an English language-vision model (teacher) into an equally effective multilingual and code-mixed model (student). Unlike the existing knowledge distillation methods, which only use the output from the last layer of the teacher network for distillation, our student model learns and imitates the teacher from multiple intermediate layers (language and vision encoders) with appropriately designed distillation objectives for incremental knowledge extraction. We also create the large-scale multilingual and code-mixed VQA dataset in eleven different language setups considering the multiple Indian and European languages. Experimental results and in-depth analysis show the effectiveness of the proposed VQA model over the pre-trained language-vision models on eleven diverse language setups.
翻訳日:2021-09-13 13:34:56 公開日:2021-09-10
# クロスタスク転送によるゼロショット対話状態追跡

Zero-Shot Dialogue State Tracking via Cross-Task Transfer ( http://arxiv.org/abs/2109.04655v1 )

ライセンス: Link先を確認
Zhaojiang Lin, Bing Liu, Andrea Madotto, Seungwhan Moon, Paul Crook, Zhenpeng Zhou, Zhiguang Wang, Zhou Yu, Eunjoon Cho, Rajen Subba, Pascale Fung(参考訳) 対話状態追跡のためのゼロショット転送学習(dst)により、ドメイン内データを収集することなく様々なタスク指向対話ドメインを処理できる。 本研究では、ゼロショットDSTタスクに対して、一般質問応答(QA)コーパスから「textit{cross-task}」知識を転送することを提案する。 具体的には、テキスト・テキスト・トランスフォーマー・フレームワークを介して抽出QAと複数選択QAをシームレスに組み合わせ、DST内のカテゴリスロットと非カテゴリスロットの両方をトラックする転送可能な生成QAモデルであるTransferQAを提案する。 さらに,ゼロショットdst設定において,モデルが"none"値スロットを処理することが可能な,否定的質問サンプリングとコンテキスト切断という2つの効果的な質問生成方法を導入する。 広範な実験により,マルチウォズにおける既存のゼロショットと少数ショットの結果を大幅に改善した。 さらに,Schema-Guided Dialogueデータセットの完全トレーニングベースラインと比較して,未確認領域の一般化能力が向上した。

Zero-shot transfer learning for dialogue state tracking (DST) enables us to handle a variety of task-oriented dialogue domains without the expense of collecting in-domain data. In this work, we propose to transfer the \textit{cross-task} knowledge from general question answering (QA) corpora for the zero-shot DST task. Specifically, we propose TransferQA, a transferable generative QA model that seamlessly combines extractive QA and multi-choice QA via a text-to-text transformer framework, and tracks both categorical slots and non-categorical slots in DST. In addition, we introduce two effective ways to construct unanswerable questions, namely, negative question sampling and context truncation, which enable our model to handle "none" value slots in the zero-shot DST setting. The extensive experiments show that our approaches substantially improve the existing zero-shot and few-shot results on MultiWoz. Moreover, compared to the fully trained baseline on the Schema-Guided Dialogue dataset, our approach shows better generalization ability in unseen domains.
翻訳日:2021-09-13 13:34:38 公開日:2021-09-10
# マスキング言語モデルによる短命句検出

Euphemistic Phrase Detection by Masked Language Model ( http://arxiv.org/abs/2109.04666v1 )

ライセンス: Link先を確認
Wanzheng Zhu, Suma Bhat(参考訳) 秘密の意味を持つ普通の響きと無邪気な言葉を使って、彼らが議論していることを隠そうとする団体や組織にとって、これはよく知られているアプローチである。 例えば、麻薬ディーラーはマリファナに「ポット」、ヘロインに「アボカド」を用いることが多い。 ソーシャルメディアのコンテンツモデレーションの観点からは、近年のNLPの進歩により、このような単一単語のエウヘミズムの自動検出が可能になったが、ブルードリーム(マリファナ)やブラックタール(ヘロイン)など、複数の単語のエウヘミズムを自動的に検出することはできない。 本稿では,人間の努力を伴わずに語句検出の問題に,私たちが知る限り,初めて取り組む。 まず、原文コーパス(例えばソーシャルメディア投稿)上でフレーズマイニングを行い、品質の高いフレーズを抽出する。 次に,単語埋め込み類似性を利用して,語句候補の集合を選択する。 最後に、これらの候補をSpanBERTというマスキング言語モデルでランク付けします。 本アルゴリズムを用いて,強塩基性に対して20~50%高い検出精度を報告した。

It is a well-known approach for fringe groups and organizations to use euphemisms -- ordinary-sounding and innocent-looking words with a secret meaning -- to conceal what they are discussing. For instance, drug dealers often use "pot" for marijuana and "avocado" for heroin. From a social media content moderation perspective, though recent advances in NLP have enabled the automatic detection of such single-word euphemisms, no existing work is capable of automatically detecting multi-word euphemisms, such as "blue dream" (marijuana) and "black tar" (heroin). Our paper tackles the problem of euphemistic phrase detection without human effort for the first time, as far as we are aware. We first perform phrase mining on a raw text corpus (e.g., social media posts) to extract quality phrases. Then, we utilize word embedding similarities to select a set of euphemistic phrase candidates. Finally, we rank those candidates by a masked language model -- SpanBERT. Compared to strong baselines, we report 20-50% higher detection accuracies using our algorithm for detecting euphemistic phrases.
翻訳日:2021-09-13 13:34:21 公開日:2021-09-10
# dialki:対話文書コンテキスト化による会話システムにおける知識識別

DIALKI: Knowledge Identification in Conversational Systems through Dialogue-Document Contextualization ( http://arxiv.org/abs/2109.04673v1 )

ライセンス: Link先を確認
Zeqiu Wu, Bo-Ru Lu, Hannaneh Hajishirzi and Mari Ostendorf(参考訳) 長い文書に根ざした会話システムで使用する関連知識の特定は、効果的な応答生成に不可欠である。 本稿では、文書構造を利用した知識識別モデルを導入し、対話内容の文節エンコーディングを提供し、会話に関連する知識をよりよく特定する。 補助損失は対話文書接続の履歴をキャプチャする。 本モデルの有効性を2つの文書ベース対話型データセット上で実証し,未発見文書と長い対話コンテキストへの一般化を示す分析結果を提供する。

Identifying relevant knowledge to be used in conversational systems that are grounded in long documents is critical to effective response generation. We introduce a knowledge identification model that leverages the document structure to provide dialogue-contextuali zed passage encodings and better locate knowledge relevant to the conversation. An auxiliary loss captures the history of dialogue-document connections. We demonstrate the effectiveness of our model on two document-grounded conversational datasets and provide analyses showing generalization to unseen documents and long dialogue contexts.
翻訳日:2021-09-13 13:33:59 公開日:2021-09-10
# ゼロショットニューラルマシン翻訳の再考:潜在変数の観点から

Rethinking Zero-shot Neural Machine Translation: From a Perspective of Latent Variables ( http://arxiv.org/abs/2109.04705v1 )

ライセンス: Link先を確認
Weizhi Wang, Zhirui Zhang, Yichao Du, Boxing Chen, Jun Xie, Weihua Luo(参考訳) ゼロショット翻訳(Zero-shot translation)は、トレーニングで見えない言語ペア間の直接翻訳であり、多言語ニューラルネットワーク翻訳(NMT)の有望な能力である。 しかし、出力言語と言語不変セマンティクスの間のスプリアスな相関は最大確率トレーニングの目的のために捉えられ、ゼロショット翻訳の転送性能が低下する。 本稿では,ゼロショット方向の翻訳精度を向上させるために,ピボット言語に基づく発声自動エンコーダ目標を従来の訓練目標に導入する。 潜在変数の観点からの理論的解析は,ゼロショット方向の確率分布を暗黙的に最大化することを示した。 2つのベンチマーク機械翻訳データセットにおいて,提案手法はスプリアス相関を効果的に排除でき,その性能は最先端の手法を著しく上回ることを示した。 私たちのコードはhttps://github.com/v ictorwz/zs-nmt-daeで入手できる。

Zero-shot translation, directly translating between language pairs unseen in training, is a promising capability of multilingual neural machine translation (NMT). However, it usually suffers from capturing spurious correlations between the output language and language invariant semantics due to the maximum likelihood training objective, leading to poor transfer performance on zero-shot translation. In this paper, we introduce a denoising autoencoder objective based on pivot language into traditional training objective to improve the translation accuracy on zero-shot directions. The theoretical analysis from the perspective of latent variables shows that our approach actually implicitly maximizes the probability distributions for zero-shot directions. On two benchmark machine translation datasets, we demonstrate that the proposed method is able to effectively eliminate the spurious correlations and significantly outperforms state-of-the-art methods with a remarkable performance. Our code is available at https://github.com/V ictorwz/zs-nmt-dae.
翻訳日:2021-09-13 13:33:49 公開日:2021-09-10
# プリトレインかアノテーションか? 制約付き予算によるドメイン適応

Pre-train or Annotate? Domain Adaptation with a Constrained Budget ( http://arxiv.org/abs/2109.04711v1 )

ライセンス: Link先を確認
Fan Bai, Alan Ritter and Wei Xu(参考訳) 近年の研究では、ドメイン内言語モデルの事前トレーニングによって、新しいドメインへの適応時のパフォーマンス向上が示されている。 しかし、事前トレーニングに関連するコストは重要な疑問を提起する: 固定予算が与えられた場合、NLP実践者はパフォーマンスを最大化するためにどのようなステップをとるべきか? 本稿では,予算制約の下でのドメイン適応について検討し,データアノテーションと事前学習の間の顧客選択問題としてアプローチする。 具体的には、3つの手続きテキストデータセットのアノテーションコストと3つのドメイン内言語モデルの事前学習コストを測定した。 次に,様々な予算制約の下で,事前学習とデータアノテーションの異なる組み合わせの有用性を評価し,どの組み合わせが最善かを評価する。 予算が十分に大きくなると、データアノテーションとドメイン内事前トレーニングの組み合わせがより最適に機能します。 したがって、nlpモデルを新しいドメインに適用する場合、タスク固有のデータアノテーションは経済戦略の一部であるべきである。

Recent work has demonstrated that pre-training in-domain language models can boost performance when adapting to a new domain. However, the costs associated with pre-training raise an important question: given a fixed budget, what steps should an NLP practitioner take to maximize performance? In this paper, we study domain adaptation under budget constraints, and approach it as a customer choice problem between data annotation and pre-training. Specifically, we measure the annotation cost of three procedural text datasets and the pre-training cost of three in-domain language models. Then we evaluate the utility of different combinations of pre-training and data annotation under varying budget constraints to assess which combination strategy works best. We find that, for small budgets, spending all funds on annotation leads to the best performance; once the budget becomes large enough, a combination of data annotation and in-domain pre-training works more optimally. We therefore suggest that task-specific data annotation should be part of an economical strategy when adapting an NLP model to a new domain.
翻訳日:2021-09-13 13:33:31 公開日:2021-09-10
# 複数ラベルテキスト分類のための長編クラス分布を用いたバランシング手法

Balancing Methods for Multi-label Text Classification with Long-Tailed Class Distribution ( http://arxiv.org/abs/2109.04712v1 )

ライセンス: Link先を確認
Yi Huang, Buse Giledereli, Abdullatif K\"oksal, Arzucan \"Ozg\"ur, Elif Ozkirimli(参考訳) ラベル依存をキャプチャする必要があるため、マルチラベルテキスト分類は難しい作業である。 クラス分布が長いとさらに難しくなります。 再サンプリングと再重み付けはクラス不均衡問題に対処する一般的なアプローチであるが、クラス不均衡以外にラベル依存がある場合、共通ラベルのオーバーサンプリングが発生するため有効ではない。 本稿では,多ラベルテキスト分類における分散損失関数の適用について紹介する。 我々は,90ラベルの一般ドメインデータセット(Reuters-21578)と18211ラベルのPubMedのドメイン固有データセットを用いて実験を行った。 クラス不均衡問題とラベル連鎖問題の両方に本質的に対処する分布均衡損失関数は、一般的に使用される損失関数より優れている。 画像認識の分野では分布バランス法が有効である。 ここでは,自然言語処理におけるその効果を示す。 ソースコードはhttps://github.com/b lessu/BalancedLossNL Pで入手できる。

Multi-label text classification is a challenging task because it requires capturing label dependencies. It becomes even more challenging when class distribution is long-tailed. Resampling and re-weighting are common approaches used for addressing the class imbalance problem, however, they are not effective when there is label dependency besides class imbalance because they result in oversampling of common labels. Here, we introduce the application of balancing loss functions for multi-label text classification. We perform experiments on a general domain dataset with 90 labels (Reuters-21578) and a domain-specific dataset from PubMed with 18211 labels. We find that a distribution-balance d loss function, which inherently addresses both the class imbalance and label linkage problems, outperforms commonly used loss functions. Distribution balancing methods have been successfully used in the image recognition field. Here, we show their effectiveness in natural language processing. Source code is available at https://github.com/b lessu/BalancedLossNL P.
翻訳日:2021-09-13 13:33:15 公開日:2021-09-10
# 言語間依存関係解析のための弱みの源

Genre as Weak Supervision for Cross-lingual Dependency Parsing ( http://arxiv.org/abs/2109.04733v1 )

ライセンス: Link先を確認
Max M\"uller-Eberstein, Rob van der Goot and Barbara Plank(参考訳) 近年の研究では、モノリンガルマスキング言語モデルが、ドメイン目標のトレーニングデータ選択に使用できる、言語の変化に関するデータ駆動概念を表現できることが示されている。 データセットのジャンルラベルはすでに頻繁に利用可能であるが、言語横断的な設定では探索されていない。 このジャンルメタデータを,ゼロショット依存解析における対象データ選択のための弱い監督信号として活用する。 具体的には,非教師付き文脈化表現に暗黙的に格納された情報を増幅することを目的として,木銀行レベルのジャンル情報を細かな文レベルに投影する。 複数言語による文脈埋め込みからジャンルが復元可能であることを実証し,言語横断・ゼロショットシナリオにおけるデータ選択のトレーニングに有効な信号を提供する。 12の低リソース言語ツリーバンク(うち6つはテスト専用)では、我々のジャンル固有の手法は、競合するベースラインや最近の埋め込みベースのデータ選択方法よりも大幅に優れています。 さらに、ジャンルベースのデータセレクションは、これら3つのターゲット言語に対して、新たな最先端の結果を提供する。

Recent work has shown that monolingual masked language models learn to represent data-driven notions of language variation which can be used for domain-targeted training data selection. Dataset genre labels are already frequently available, yet remain largely unexplored in cross-lingual setups. We harness this genre metadata as a weak supervision signal for targeted data selection in zero-shot dependency parsing. Specifically, we project treebank-level genre information to the finer-grained sentence level, with the goal to amplify information implicitly stored in unsupervised contextualized representations. We demonstrate that genre is recoverable from multilingual contextual embeddings and that it provides an effective signal for training data selection in cross-lingual, zero-shot scenarios. For 12 low-resource language treebanks, six of which are test-only, our genre-specific methods significantly outperform competitive baselines as well as recent embedding-based methods for data selection. Moreover, genre-based data selection provides new state-of-the-art results for three of these target languages.
翻訳日:2021-09-13 13:33:00 公開日:2021-09-10
# 微調整が埋め込み空間の幾何学に及ぼす影響 : 等方性に関する事例研究

How Does Fine-tuning Affect the Geometry of Embedding Space: A Case Study on Isotropy ( http://arxiv.org/abs/2109.04740v1 )

ライセンス: Link先を確認
Sara Rajaee and Mohammad Taher Pilehvar(参考訳) 微調整された事前学習言語モデルは通常、下流タスクのパフォーマンス改善をもたらすことが広く受け入れられている。 しかし、特に埋め込み空間の構造変化の観点から、この効果の背景にある理由についての研究は限られている。 本稿では, このギャップを埋めるために, 埋め込み空間の等方性が微調整後にどの程度変化するかを解析する。 我々は、等方性は望ましい幾何学的性質であるが、微調整が必ずしも等方性拡張をもたらすとは限らないことを示した。 さらに、トークンタイプや頻度を符号化するCWR(pre-trained contextual word representation)の局所構造は、微調整中に大きく変化する。 実験では,事前学習されたcwrとは対照的に,細調整された埋込み空間において言語知識が必須であり,既存の等方性強化手法が有効ではない組込み空間における長方方向数の劇的な増加を示す。

It is widely accepted that fine-tuning pre-trained language models usually brings about performance improvements in downstream tasks. However, there are limited studies on the reasons behind this effectiveness, particularly from the viewpoint of structural changes in the embedding space. Trying to fill this gap, in this paper, we analyze the extent to which the isotropy of the embedding space changes after fine-tuning. We demonstrate that, even though isotropy is a desirable geometrical property, fine-tuning does not necessarily result in isotropy enhancements. Moreover, local structures in pre-trained contextual word representations (CWRs), such as those encoding token types or frequency, undergo a massive change during fine-tuning. Our experiments show dramatic growth in the number of elongated directions in the embedding space, which, in contrast to pre-trained CWRs, carry the essential linguistic knowledge in the fine-tuned embedding space, making existing isotropy enhancement methods ineffective.
翻訳日:2021-09-13 13:32:44 公開日:2021-09-10
# ブラックボックスにおけるクエリー効率の高い攻撃のための強固なベースライン

A Strong Baseline for Query Efficient Attacks in a Black Box Setting ( http://arxiv.org/abs/2109.04775v1 )

ライセンス: Link先を確認
Rishabh Maheshwary, Saket Maheshwary and Vikram Pudi(参考訳) 既存のブラックボックス検索手法は、NLPモデルに対する敵攻撃を発生させることに成功した。 しかし,このような検索手法は,敵の攻撃を発生させるのに必要なクエリ量を考慮していないため,非効率である。 また、先行攻撃は、異なる検索方法を比較しながら一貫した検索空間を維持しない。 本稿では,テキスト分類と包含タスクにおいて,適切な逆例を生成するためのクエリ効率の高い攻撃戦略を提案する。 この攻撃はアテンション機構と局所性センシティブハッシュ(lsh)を併用してクエリ数を削減する。 3つの異なる検索空間にまたがる4つのベースラインと比較し,本手法の有効性を示す。 さらに、先行攻撃で使用されるのと同じ検索空間において、結果のベンチマークを行う。 提案された攻撃と比較して、平均して、すべてのデータセットとターゲットモデルに対して、クエリ数を75%削減することが可能です。 また,クエリ設定が限定された場合と比較して,攻撃が成功率が高いことを示す。

Existing black box search methods have achieved high success rate in generating adversarial attacks against NLP models. However, such search methods are inefficient as they do not consider the amount of queries required to generate adversarial attacks. Also, prior attacks do not maintain a consistent search space while comparing different search methods. In this paper, we propose a query efficient attack strategy to generate plausible adversarial examples on text classification and entailment tasks. Our attack jointly leverages attention mechanism and locality sensitive hashing (LSH) to reduce the query count. We demonstrate the efficacy of our approach by comparing our attack with four baselines across three different search spaces. Further, we benchmark our results across the same search space used in prior attacks. In comparison to attacks proposed, on an average, we are able to reduce the query count by 75% across all datasets and target models. We also demonstrate that our attack achieves a higher success rate when compared to prior attacks in a limited query setting.
翻訳日:2021-09-13 13:32:26 公開日:2021-09-10
# 話題正規化を伴う対話における外見的韻律分解

Exophoric Pronoun Resolution in Dialogues with Topic Regularization ( http://arxiv.org/abs/2109.04787v1 )

ライセンス: Link先を確認
Xintong Yu, Hongming Zhang, Yangqiu Song, Changshui Zhang, Kun Xu and Dong Yu(参考訳) 代名詞を参照語に分解することは、長い間、基礎的な自然言語理解問題として研究されてきた。 代名詞共参照分解(pcr)に関する以前の研究は、主にテキスト中の言及に対する代名詞の解決に重点を置いているが、外法的なシナリオは無視されている。 外見代名詞は日常的なコミュニケーションにおいて一般的であり、話し手は直接代名詞を使用して、最初にオブジェクトを導入することなく、環境に存在するいくつかのオブジェクトを参照することができる。 このような対象は対話文には言及されていないが、対話の一般的な話題によって曖昧にされることが多い。 そこで本研究では,対話の局所的文脈とグローバルトピックを共同で活用し,テキスト外のpcr問題を解決することを提案する。 広範囲な実験は、異性代名詞の解消にトピック正則化を加える効果を実証している。

Resolving pronouns to their referents has long been studied as a fundamental natural language understanding problem. Previous works on pronoun coreference resolution (PCR) mostly focus on resolving pronouns to mentions in text while ignoring the exophoric scenario. Exophoric pronouns are common in daily communications, where speakers may directly use pronouns to refer to some objects present in the environment without introducing the objects first. Although such objects are not mentioned in the dialogue text, they can often be disambiguated by the general topics of the dialogue. Motivated by this, we propose to jointly leverage the local context and global topics of dialogues to solve the out-of-text PCR problem. Extensive experiments demonstrate the effectiveness of adding topic regularization for resolving exophoric pronouns.
翻訳日:2021-09-13 13:32:10 公開日:2021-09-10
# mix-of-partitions: 大きな生体医学的知識グラフをbertに導入する

Mixture-of-Partition s: Infusing Large Biomedical Knowledge Graphs into BERT ( http://arxiv.org/abs/2109.04810v1 )

ライセンス: Link先を確認
Zaiqiao Meng, Fangyu Liu, Thomas Hikaru Clark, Ehsan Shareghi, Nigel Collier(参考訳) 事前訓練されたモデルに事実知識を注入することは、多くの知識集約的なタスクに不可欠である。 本稿では,より小さなサブグラフに分割し,その特定の知識を軽量なアダプタを用いて様々なBERTモデルに注入することで,非常に大きな知識グラフ(KG)を処理できる混合分割法(Mixture-of-Partitio ns,MoP)を提案する。 対象タスクに対する全体的な事実知識を活用するために、これらのサブグラフアダプタは、混合層を介して、基盤となるBERTと共にさらに微調整される。 提案手法は,6つの下流タスク(NLI,QA,分類)において,3つのバイオメディカルBERT(SciBERT,BioBERT ,PubmedBERT)を用いてMoPを評価し,このMoPがタスク性能の基盤となるBERTを一貫して強化し,5つの評価データセット上で新たなSOTA性能を実現することを示す。

Infusing factual knowledge into pre-trained models is fundamental for many knowledge-intensive tasks. In this paper, we proposed Mixture-of-Partition s (MoP), an infusion approach that can handle a very large knowledge graph (KG) by partitioning it into smaller sub-graphs and infusing their specific knowledge into various BERT models using lightweight adapters. To leverage the overall factual knowledge for a target task, these sub-graph adapters are further fine-tuned along with the underlying BERT through a mixture layer. We evaluate our MoP with three biomedical BERTs (SciBERT, BioBERT, PubmedBERT) on six downstream tasks (inc. NLI, QA, Classification), and the results show that our MoP consistently enhances the underlying BERTs in task performance, and achieves new SOTA performances on five evaluated datasets.
翻訳日:2021-09-13 13:31:57 公開日:2021-09-10
# すべてを問う - 意味的な役割に対するコンテキスト化された質問の生成

Asking It All: Generating Contextualized Questions for any Semantic Role ( http://arxiv.org/abs/2109.04832v1 )

ライセンス: Link先を確認
Valentina Pyatkin, Paul Roit, Julian Michael, Reut Tsarfaty, Yoav Goldberg, Ido Dagan(参考訳) 状況に関する質問は、それを理解するための本質的なステップです。 この目的のために、述語と節が与えられた場合、述語のすべての意味的役割について質問する一連の質問を生成する必要があるロール質問生成のタスクを導入する。 本研究は,まず,各役割に対する文脈に依存しない質問プロトタイプを作成し,その解釈を文脈的に適切であるように修正する2段階モデルを開発する。 質問生成に対する既存のアプローチとは異なり、我々のアプローチはテキスト内の既存の回答の条件付けを必要としない。 代わりに、その回答がテキストに明示的に現れるか、それから推測されるか、あるいは他の場所で検索されるべきかに関わらず、問い合わせるべき情報の種類を条件とする。 我々の評価は、述語と役割の大規模かつ広範囲なオントロジーに対して、多様でよく形成された質問を生成することを示す。

Asking questions about a situation is an inherent step towards understanding it. To this end, we introduce the task of role question generation, which, given a predicate mention and a passage, requires producing a set of questions asking about all possible semantic roles of the predicate. We develop a two-stage model for this task, which first produces a context-independent question prototype for each role and then revises it to be contextually appropriate for the passage. Unlike most existing approaches to question generation, our approach does not require conditioning on existing answers in the text. Instead, we condition on the type of information to inquire about, regardless of whether the answer appears explicitly in the text, could be inferred from it, or should be sought elsewhere. Our evaluation demonstrates that we generate diverse and well-formed questions for a large, broad-coverage ontology of predicates and roles.
翻訳日:2021-09-13 13:31:35 公開日:2021-09-10
# emowoz:タスク指向対話システムにおける感情の大規模コーパスとラベル付け方式

EmoWOZ: A Large-Scale Corpus and Labelling Scheme for Emotion in Task-Oriented Dialogue Systems ( http://arxiv.org/abs/2109.04919v1 )

ライセンス: Link先を確認
Shutong Feng, Nurul Lubis, Christian Geishauser, Hsien-chin Lin, Michael Heck, Carel van Niekerk and Milica Ga\v{s}i\'c(参考訳) 感情を認識する能力は、対話型人工知能に人間の触覚を与える。 チャット対話における感情は著しく注目されているが、タスク指向対話における感情は、失敗や成功のシグナルなど、同様に重要な役割を持つにもかかわらず、ほとんど見過ごされている。 既存の感情アノテーション付きタスク指向コーパスはサイズ、ラベルのリッチさ、パブリック可用性に制限があり、ダウンストリームタスクのボトルネックとなる。 タスク指向対話における感情研究の基礎を築くために,タスク指向対話の大規模手動感情注釈コーパスであるEmoWOZを紹介する。 EmoWOZはマルチドメインタスク指向対話データセットであるMultiWOZに基づいている。 ユーザ発話の83k以上の感情アノテーションを備えた1k以上の対話を含む。 MultiWOZのWizzard-of-Ozダイアログに加えて、同一ドメイン内の人間と機械の対話を収集し、データ駆動ダイアログシステムの生存中に起こりうる様々な感情の空間を十分にカバーする。 私たちの知る限りでは、この種の大規模なオープンソースコーパスはこれが初めてです。 本稿では,タスク指向対話に適した新しい感情ラベル方式を提案する。 本稿では,タスク指向対話における感情認識と状態追跡のためのコーパスの有用性を示す実験結果について報告する。

The ability to recognise emotions lends a conversational artificial intelligence a human touch. While emotions in chit-chat dialogues have received substantial attention, emotions in task-oriented dialogues have been largely overlooked despite having an equally important role, such as to signal failure or success. Existing emotion-annotated task-oriented corpora are limited in size, label richness, and public availability, creating a bottleneck for downstream tasks. To lay a foundation for studies on emotions in task-oriented dialogues, we introduce EmoWOZ, a large-scale manually emotion-annotated corpus of task-oriented dialogues. EmoWOZ is based on MultiWOZ, a multi-domain task-oriented dialogue dataset. It contains more than 11K dialogues with more than 83K emotion annotations of user utterances. In addition to Wizzard-of-Oz dialogues from MultiWOZ, we collect human-machine dialogues within the same set of domains to sufficiently cover the space of various emotions that can happen during the lifetime of a data-driven dialogue system. To the best of our knowledge, this is the first large-scale open-source corpus of its kind. We propose a novel emotion labelling scheme, which is tailored to task-oriented dialogues. We report a set of experimental results to show the usability of this corpus for emotion recognition and state tracking in task-oriented dialogues.
翻訳日:2021-09-13 13:31:23 公開日:2021-09-10
# 氷山の一角を越えて:テキスト分類器の一貫性の評価

Beyond the Tip of the Iceberg: Assessing Coherence of Text Classifiers ( http://arxiv.org/abs/2109.04922v1 )

ライセンス: Link先を確認
Shane Storks, Joyce Chai(参考訳) 大規模で事前訓練された言語モデルは、既存の言語理解タスクにおいて人間のレベルと超人的精度を達成するため、ベンチマークデータと探索研究の統計バイアスは、最近彼らの真の能力に疑問を投げかけている。 そこで本研究では,テキスト分類タスクの精度よりも情報的な評価を行うために,新しい予測コヒーレンス尺度による評価システムを提案する。 フレームワークを異なる特性を持つ既存の2つの言語理解ベンチマークに適用し、その汎用性を実証する。 実験の結果, この評価フレームワークは, アイデアや実装は単純ではあるが, 機械の予測の一貫性に関する洞察を提供するための迅速かつ効果的で多用途な尺度であることがわかった。

As large-scale, pre-trained language models achieve human-level and superhuman accuracy on existing language understanding tasks, statistical bias in benchmark data and probing studies have recently called into question their true capabilities. For a more informative evaluation than accuracy on text classification tasks can offer, we propose evaluating systems through a novel measure of prediction coherence. We apply our framework to two existing language understanding benchmarks with different properties to demonstrate its versatility. Our experimental results show that this evaluation framework, although simple in ideas and implementation, is a quick, effective, and versatile measure to provide insight into the coherence of machines' predictions.
翻訳日:2021-09-13 13:30:59 公開日:2021-09-10
# 左クリックリカレントニューラルネットワークによる人間の文処理のモデル化

Modeling Human Sentence Processing with Left-Corner Recurrent Neural Network Grammars ( http://arxiv.org/abs/2109.04939v1 )

ライセンス: Link先を確認
Ryo Yoshida, Hiroshi Noji, Yohei Oseki(参考訳) 計算言語学では、階層構造が言語モデル(LM)をより人間らしくすることが示された。 しかし、以前の文献は階層モデルの解析戦略について無知である。 本稿では,階層構造がLMをより人間らしくするかどうかを考察し,その場合,どの解析戦略が最も認知的に妥当かを検討した。 この問題に対処するため,日本語の読解時間に対して,Long Short-Term Memory (LSTM) を逐次モデルとし,Long Short-Term Memory (LSTM) を階層モデル,Recurrent Neural Network Grammars (RNNGs) を階層モデルとして評価した。 計算モデルにより,左コーン型RNNGはトップダウン型RNNGやLSTMよりも優れており,階層型および左コーン型アーキテクチャの方がトップダウン型アーキテクチャやシーケンシャル型アーキテクチャよりも認知的な可能性が示唆された。 また,認知的妥当性と認知的妥当性の関係 (i)パープレキシティ(perplexity) (ii)パース、及び (iii)ビームサイズについても検討する。

In computational linguistics, it has been shown that hierarchical structures make language models (LMs) more human-like. However, the previous literature has been agnostic about a parsing strategy of the hierarchical models. In this paper, we investigated whether hierarchical structures make LMs more human-like, and if so, which parsing strategy is most cognitively plausible. In order to address this question, we evaluated three LMs against human reading times in Japanese with head-final left-branching structures: Long Short-Term Memory (LSTM) as a sequential model and Recurrent Neural Network Grammars (RNNGs) with top-down and left-corner parsing strategies as hierarchical models. Our computational modeling demonstrated that left-corner RNNGs outperformed top-down RNNGs and LSTM, suggesting that hierarchical and left-corner architectures are more cognitively plausible than top-down or sequential architectures. In addition, the relationships between the cognitive plausibility and (i) perplexity, (ii) parsing, and (iii) beam size will also be discussed.
翻訳日:2021-09-13 13:30:45 公開日:2021-09-10
# 直観物理学のための階層型推論:検証可能なコモンセンス言語理解に向けて

Tiered Reasoning for Intuitive Physics: Toward Verifiable Commonsense Language Understanding ( http://arxiv.org/abs/2109.04947v1 )

ライセンス: Link先を確認
Shane Storks, Qiaozi Gao, Yichi Zhang, Joyce Chai(参考訳) 大規模で事前訓練された言語モデル(LM)は、多言語理解タスクにおいて人間レベルの性能を達成した。 しかし、エンドタスクのパフォーマンスに基づく評価は、言語理解と推論における機械の真の能力にほとんど光を当てなかった。 本稿では,エンドパフォーマンスに加えて,基礎となる推論プロセスを評価することの重要性を強調した。 この目的に向けて,機械の推論プロセスの多層評価を可能にする高密度アノテーションを用いた新しいコモンセンス推論データセットであるTiered Reasoning for Intuitive Physics (TRIP)を導入する。 実験結果から,大規模なlmsは高いエンド性能を達成できるが,有効な裏付けによる予測支援に苦慮していることが示された。 TRIPデータセットとベースラインの結果は、コモンセンス推論の検証可能な評価を動機付け、よりよい言語理解と推論モデルの開発に向けた今後の研究を促進する。

Large-scale, pre-trained language models (LMs) have achieved human-level performance on a breadth of language understanding tasks. However, evaluations only based on end task performance shed little light on machines' true ability in language understanding and reasoning. In this paper, we highlight the importance of evaluating the underlying reasoning process in addition to end performance. Toward this goal, we introduce Tiered Reasoning for Intuitive Physics (TRIP), a novel commonsense reasoning dataset with dense annotations that enable multi-tiered evaluation of machines' reasoning process. Our empirical results show that while large LMs can achieve high end performance, they struggle to support their predictions with valid supporting evidence. The TRIP dataset and our baseline results will motivate verifiable evaluation of commonsense reasoning and facilitate future research toward developing better language understanding and reasoning models.
翻訳日:2021-09-13 13:30:26 公開日:2021-09-10
# 私たちは意味を探しに行き、これらのくだらない表現を手に入れた:計算意味論における意味表現の側面

We went to look for meaning and all we got were these lousy representations: aspects of meaning representation for computational semantics ( http://arxiv.org/abs/2109.04949v1 )

ライセンス: Link先を確認
Simon Dobnik, Robin Cooper, Adam Ek, Bill Noble, Staffan Larsson, Nikolai Ilinykh, Vladislav Maraev and Vidya Somashekarappa(参考訳) 本稿では、現在、異なる自然言語アプリケーションで一般的に使われている異なる意味表現について検討し、それらがモデル化されている自然言語の側面と、それらが使用されているアプリケーションの側面の両方の観点から、それらの限界について論じる。

In this paper we examine different meaning representations that are commonly used in different natural language applications today and discuss their limits, both in terms of the aspects of the natural language meaning they are modelling and in terms of the aspects of the application for which they are used.
翻訳日:2021-09-13 13:30:13 公開日:2021-09-10
# AGVによる拡張ジョブショップスケジューリング問題の解決 -- 古典的および量子的アプローチ

Solving the Extended Job Shop Scheduling Problem with AGVs -- Classical and Quantum Approaches ( http://arxiv.org/abs/2109.04830v1 )

ライセンス: Link先を確認
Marc Geitz, Cristian Grozea, Wolfgang Steigerwald, Robin St\"ohr, and Armin Wolf(参考訳) ジョブスケジューリング最適化(JSO)の対象は、組織内のジョブのスケジューリングを扱うため、仮定された目標に関して、単一の作業ステップが最適に組織される。 本稿では、JSOのサブアスペクトであるジョブショップスケジューリング問題(JSSPまたはJSP)を扱うユースケースを提供する。 多くの最適化問題がnp完全であるように、jsspはシステムの各ノードが指数関数的に増加することを意味する。 ユースケースの目標は、フレキシブルな組織された機械で、代わりに制約プログラミング(CP)と量子コンピューティング(QC)を使用して、自律地上車両(AGV)と組み合わせて、特定のワークピースに対して最適化されたデューティルースターを作成する方法を示すことである。 CPと量子アニーリングモデルに基づく古典解の結果を示し,議論した。 全ての結果が研究プロジェクトPlanQKに詳しく記載されている。

The subject of Job Scheduling Optimisation (JSO) deals with the scheduling of jobs in an organization, so that the single working steps are optimally organized regarding the postulated targets. In this paper a use case is provided which deals with a sub-aspect of JSO, the Job Shop Scheduling Problem (JSSP or JSP). As many optimization problems JSSP is NP-complete, which means the complexity increases with every node in the system exponentially. The goal of the use case is to show how to create an optimized duty rooster for certain workpieces in a flexible organized machinery, combined with an Autonomous Ground Vehicle (AGV), using Constraint Programming (CP) and Quantum Computing (QC) alternatively. The results of a classical solution based on CP and on a Quantum Annealing model are presented and discussed. All presented results have been elaborated in the research project PlanQK.
翻訳日:2021-09-13 13:30:06 公開日:2021-09-10
# ACFNet: RGB-D Salient Object Detectionのための適応協調型核融合ネットワーク

ACFNet: Adaptively-Cooperati ve Fusion Network for RGB-D Salient Object Detection ( http://arxiv.org/abs/2109.04627v1 )

ライセンス: Link先を確認
Jinchao Zhu(参考訳) RGBと深度データの合理的な利用は、コンピュータビジョンタスクとロボット環境相互作用の開発を促進する上で非常に重要である。 しかしながら、この2つのタイプのデータの早期および後期の融合には、異なる利点とデメリットがある。 さらに、オブジェクト情報の多様性のため、特定のシナリオで単一のタイプのデータを使用すると、セマンティックな誤解を招く傾向がある。 そこで本研究では, レジンレス構造を有する適応協調型核融合ネットワーク (acfnet) を提案する。 この構造は、初期および後期に特徴融合の利点を柔軟に活用するよう設計されている。 第2に,acg(adaptively-coop erative semantic guidance)スキームは,誘導フェーズにおける不正確な特徴を抑制するように設計されている。 さらに,タイプベースアテンションモジュール(TAM)を提案し,ネットワークを最適化し,異なるオブジェクトのマルチスケール認識を強化する。 異なるオブジェクトに対して、異なるタイプの畳み込みによって生成された特徴は、セグメンテーション最適化のためのゲート機構によって強化または抑制される。 ACGとTAMは、それぞれデータ属性と畳み込み属性に従って、機能ストリームの転送を最適化する。 RGB-D SODデータセット上で行った十分な実験は、提案するネットワークが18の最先端アルゴリズムに対して良好に動作することを示す。

The reasonable employment of RGB and depth data show great significance in promoting the development of computer vision tasks and robot-environment interaction. However, there are different advantages and disadvantages in the early and late fusion of the two types of data. Besides, due to the diversity of object information, using a single type of data in a specific scenario tends to result in semantic misleading. Based on the above considerations, we propose an adaptively-cooperati ve fusion network (ACFNet) with ResinRes structure for salient object detection. This structure is designed to flexibly utilize the advantages of feature fusion in early and late stages. Secondly, an adaptively-cooperati ve semantic guidance (ACG) scheme is designed to suppress inaccurate features in the guidance phase. Further, we proposed a type-based attention module (TAM) to optimize the network and enhance the multi-scale perception of different objects. For different objects, the features generated by different types of convolution are enhanced or suppressed by the gated mechanism for segmentation optimization. ACG and TAM optimize the transfer of feature streams according to their data attributes and convolution attributes, respectively. Sufficient experiments conducted on RGB-D SOD datasets illustrate that the proposed network performs favorably against 18 state-of-the-art algorithms.
翻訳日:2021-09-13 13:29:28 公開日:2021-09-10
# 文脈認識特徴抽出による残留3次元シーンフロー学習

Residual 3D Scene Flow Learning with Context-Aware Feature Extraction ( http://arxiv.org/abs/2109.04685v1 )

ライセンス: Link先を確認
Guangming Wang, Yunzhe Hu, Xinrui Wu, Hesheng Wang(参考訳) シーンフロー推定は,2つの連続する点雲のフレーム間の3次元変位ベクトルを予測するタスクであり,サービスロボットや自律運転などの分野において重要な応用である。 過去の多くの研究は、点雲に基づくシーンフローの推定に大きく取り組んできたが、これまで気付かれなかった2つの問題を指摘した。 1) 繰り返しパターンにおける隣接するフレームのポイントは,その近傍の類似した空間構造によって誤って関連付けられる可能性がある。 2) 遠距離移動を伴う点雲の隣接フレーム間の流れを不正確な推定を行うことができる。 最初の問題を解決するために,ユークリッド空間の文脈構造情報を利用して,局所点特徴に対するソフトアグリゲーション重みを学習する,コンテキスト対応のコンテキスト集合 conv 層を提案する。 我々のデザインは、シーン理解時の文脈構造情報の人間の知覚にインスパイアされている。 シーンフロー推定のための3次元点雲のコンテキスト認識点特徴ピラミッドモジュールにコンテキスト認識集合 Conv 層を組み込む。 第2の課題として, 遠方移動に対処するために, 残留流微細化層における明示的な残留流学習構造を提案する。 flyingthings3dとkitti scene flowデータセットの実験とアブレーションにより,提案する各コンポーネントの有効性が示され,フレーム間のあいまいな関連と長距離移動推定の課題が解決された。 FlyingThings3DとKITTIの両方のシーンフローデータセットの定量的結果は、我々の手法が最先端の性能を達成し、これまでのすべての成果を少なくとも25%上回っていることを示している。

Scene flow estimation is the task to predict the point-wise 3D displacement vector between two consecutive frames of point clouds, which has important application in fields such as service robots and autonomous driving. Although many previous works have explored greatly on scene flow estimation based on point clouds, we point out two problems that have not been noticed or well solved before: 1) Points of adjacent frames in repetitive patterns may be wrongly associated due to similar spatial structure in their neighbourhoods; 2) Scene flow between adjacent frames of point clouds with long-distance movement may be inaccurately estimated. To solve the first problem, we propose a novel context-aware set conv layer to exploit contextual structure information of Euclidean space and learn soft aggregation weights for local point features. Our design is inspired by human perception of contextual structure information during scene understanding. We incorporate the context-aware set conv layer in a context-aware point feature pyramid module of 3D point clouds for scene flow estimation. For the second problem, we propose an explicit residual flow learning structure in the residual flow refinement layer to cope with long-distance movement. The experiments and ablation study on FlyingThings3D and KITTI scene flow datasets demonstrate the effectiveness of each proposed component and that we solve problem of ambiguous inter-frame association and long-distance movement estimation. Quantitative results on both FlyingThings3D and KITTI scene flow datasets show that our method achieves state-of-the-art performance, surpassing all other previous works to the best of our knowledge by at least 25%.
翻訳日:2021-09-13 13:29:10 公開日:2021-09-10
# Face-NMS:効率的な顔認識のためのコアセット選択手法

Face-NMS: A Core-set Selection Approach for Efficient Face Recognition ( http://arxiv.org/abs/2109.04698v1 )

ライセンス: Link先を確認
Yunze Chen, Junjie Huang, Jiagang Zhu, Zheng Zhu, Tian Yang, Guan Huang, and Dalong Du(参考訳) 近年、顔認識は目覚ましい成功を収めており、トレーニングデータのサイズが大きくなることが重要なエンジンとなっている。 例えば、最大の顔データセットであるWebFace42Mには、約200万のIDと4400万の顔が含まれている。 しかし、膨大な数の顔がトレーニング時間、コンピューティングリソース、メモリコストの制約を増大させます。 この問題に対する現在の研究は主に、多数のIDに起因するGPUメモリ消費を減らすために、効率的なフルー接続層(FC)を設計することに焦点を当てている。 本研究では,厳格な収集操作(core-set selection perspective)に起因する最新の顔データセットの冗長性問題を解決することで,これらの制約を緩和する。 顔認識問題に対するこの視点の最初の試みとして,既存の手法は性能と効率の両方に制限があることを見出した。 コスト効率の向上のために,Face-NMSと呼ばれる新しいフィルタリング手法を提案する。 Face-NMSは特徴空間で動作し、コアセットを生成する際の局所的および大域的空間性を同時に検討する。 実際には、Face-NMSはオブジェクト検出コミュニティにおける非最大抑圧(NMS)と類似している。 顔は全体の空間性への潜在的貢献によってランク付けされ、局所的な空間性に対して高い類似性を持つ2つの顔の過剰な顔をフィルタリングする。 効率面では、Face-NMSはプロキシモデルをトレーニングする際に、小さいが十分なプロキシデータセットを適用することで、パイプライン全体を加速する。 その結果、Face-NMSでは、メインベンチマークのパフォーマンスを維持しながら、WebFace42Mデータセットを60%にスケールダウンし、40%のリソース節約と1.64倍の加速を実現しました。 コードはhttps://github.com/H uangJunJie2017/Face- NMSで公開されている。

Recently, face recognition in the wild has achieved remarkable success and one key engine is the increasing size of training data. For example, the largest face dataset, WebFace42M contains about 2 million identities and 42 million faces. However, a massive number of faces raise the constraints in training time, computing resources, and memory cost. The current research on this problem mainly focuses on designing an efficient Fully-connected layer (FC) to reduce GPU memory consumption caused by a large number of identities. In this work, we relax these constraints by resolving the redundancy problem of the up-to-date face datasets caused by the greedily collecting operation (i.e. the core-set selection perspective). As the first attempt in this perspective on the face recognition problem, we find that existing methods are limited in both performance and efficiency. For superior cost-efficiency, we contribute a novel filtering strategy dubbed Face-NMS. Face-NMS works on feature space and simultaneously considers the local and global sparsity in generating core sets. In practice, Face-NMS is analogous to Non-Maximum Suppression (NMS) in the object detection community. It ranks the faces by their potential contribution to the overall sparsity and filters out the superfluous face in the pairs with high similarity for local sparsity. With respect to the efficiency aspect, Face-NMS accelerates the whole pipeline by applying a smaller but sufficient proxy dataset in training the proxy model. As a result, with Face-NMS, we successfully scale down the WebFace42M dataset to 60% while retaining its performance on the main benchmarks, offering a 40% resource-saving and 1.64 times acceleration. The code is publicly available for reference at https://github.com/H uangJunJie2017/Face- NMS.
翻訳日:2021-09-13 13:28:41 公開日:2021-09-10
# ビデオ質問応答のためのマルチモーダルインタラクションを用いた時間ピラミッドトランスフォーマタ

Temporal Pyramid Transformer with Multimodal Interaction for Video Question Answering ( http://arxiv.org/abs/2109.04735v1 )

ライセンス: Link先を確認
Min Peng, Chongyang Wang, Yuan Gao, Yu Shi, Xiang-Dong Zhou(参考訳) ビデオ質問応答(VideoQA)は、視覚的理解と自然言語理解のマルチモーダルな組み合わせを考えると困難である。 既存のアプローチでは複数の時間スケールでの映像の出現・移動情報を活用することはほとんどないが、質問とテキスト意味抽出のための視覚的情報との相互作用は無視されることが多い。 そこで本研究では,ビデオQAのためのマルチモーダルインタラクションを備えた時間ピラミッド変換器(TPT)モデルを提案する。 TPTモデルは、質問特化トランスフォーマー(QT)とビジュアル推論(VI)の2つのモジュールから構成される。 ビデオから構築された時間的ピラミッドを考えると、QTは各単語と視覚内容との間の粗大なマルチモーダル共起から質問意味を構築する。 このような質問固有の意味論の指導のもと、viは質問とビデオの間の局所からグローバルまでのマルチレベルな相互作用からの視覚的な手がかりを推測する。 各モジュール内では,異なるレベルを横断する情報に対して残差接続が採用され,質問ビデオ間のインタラクションの抽出を支援するマルチモーダルアテンション機構が導入された。 3つのビデオQAデータセットの広範な実験を通じて,提案手法の性能を最先端技術と比較した。

Video question answering (VideoQA) is challenging given its multimodal combination of visual understanding and natural language understanding. While existing approaches seldom leverage the appearance-motion information in the video at multiple temporal scales, the interaction between the question and the visual information for textual semantics extraction is frequently ignored. Targeting these issues, this paper proposes a novel Temporal Pyramid Transformer (TPT) model with multimodal interaction for VideoQA. The TPT model comprises two modules, namely Question-specific Transformer (QT) and Visual Inference (VI). Given the temporal pyramid constructed from a video, QT builds the question semantics from the coarse-to-fine multimodal co-occurrence between each word and the visual content. Under the guidance of such question-specific semantics, VI infers the visual clues from the local-to-global multi-level interactions between the question and the video. Within each module, we introduce a multimodal attention mechanism to aid the extraction of question-video interactions, with residual connections adopted for the information passing across different levels. Through extensive experiments on three VideoQA datasets, we demonstrate better performances of the proposed method in comparison with the state-of-the-arts.
翻訳日:2021-09-13 13:28:15 公開日:2021-09-10
# TADA: 分類学適応型ドメイン適応

TADA: Taxonomy Adaptive Domain Adaptation ( http://arxiv.org/abs/2109.04813v1 )

ライセンス: Link先を確認
Rui Gong, Martin Danelljan, Dengxin Dai, Wenguan Wang, Danda Pani Paudel, Ajad Chhatkuli, Fisher Yu, Luc Van Gool(参考訳) 従来のドメイン適応は、限定的または追加の監督なしに、新しいターゲットドメインにモデルを適応させるタスクに対処する。 入力ドメインギャップに対処する際、標準ドメイン適応設定は出力空間におけるドメイン変更を前提としない。 意味予測タスクでは、異なるデータセットは異なる意味分類に基づいてラベル付けされることが多い。 多くの実世界の環境では、対象のドメインタスクはソースドメインが課したタスクとは異なる分類を必要とする。 したがって、より一般的な分類適応ドメイン適応(TADA)問題を導入し、2つのドメイン間の一貫性のない分類を可能とした。 さらに,画像レベルとラベルレベルのドメイン適応を共同で扱う手法を提案する。 ラベルレベルでは,ターゲット領域の強化に二国間混合サンプリング戦略とラベル空間の統一・整列化のためのリラベル法を用いる。 画像レベルの領域ギャップに対処するため、不確かさを補正したコントラスト学習法を提案し、さらにドメイン不変性やクラス識別性をもたらす。 我々は,オープン分類法,粗小分類法,部分重複分類法といった多田設定条件下での枠組みの有効性を広範囲に評価した。 私たちのフレームワークは、新しいターゲットドメインの分類に適応できる一方で、以前の最先端技術よりも大きなマージンで優れています。

Traditional domain adaptation addresses the task of adapting a model to a novel target domain under limited or no additional supervision. While tackling the input domain gap, the standard domain adaptation settings assume no domain change in the output space. In semantic prediction tasks, different datasets are often labeled according to different semantic taxonomies. In many real-world settings, the target domain task requires a different taxonomy than the one imposed by the source domain. We therefore introduce the more general taxonomy adaptive domain adaptation (TADA) problem, allowing for inconsistent taxonomies between the two domains. We further propose an approach that jointly addresses the image-level and label-level domain adaptation. On the label-level, we employ a bilateral mixed sampling strategy to augment the target domain, and a relabelling method to unify and align the label spaces. We address the image-level domain gap by proposing an uncertainty-rectifie d contrastive learning method, leading to more domain-invariant and class discriminative features. We extensively evaluate the effectiveness of our framework under different TADA settings: open taxonomy, coarse-to-fine taxonomy, and partially-overlappin g taxonomy. Our framework outperforms previous state-of-the-art by a large margin, while capable of adapting to new target domain taxonomies.
翻訳日:2021-09-13 13:27:58 公開日:2021-09-10
# Fake-Motion データセットで学習した時間的コヒーレントな人物

Temporally Coherent Person Matting Trained on Fake-Motion Dataset ( http://arxiv.org/abs/2109.04843v1 )

ライセンス: Link先を確認
Ivan Molodetskikh, Mikhail Erofeev, Andrey Moskalenko, Dmitry Vatolin(参考訳) 本稿では,トリマップなどの付加的なユーザ入力を必要としない映像をマッティングするニューラルネットワークに基づく新しい手法を提案する。 U-Netスキップ接続上の畳み込みLSTMモジュールと組み合わせ, 画像分割アルゴリズム出力の運動推定に基づく平滑化を用いて, 得られたアルファ行列の時間的安定性を実現する。 また,アルファマットと背景ビデオを用いた画像の訓練用クリップを生成するフェイクモーションアルゴリズムを提案する。 写真とそのマットにランダムな動きを適用し、実際のビデオで見られる動きをシミュレートし、その結果を背景クリップと合成する。 大規模な注釈付きビデオデータセットがなければ、ビデオで動作するディープニューラルネットワークをトレーニングでき、損失関数に使用するために、地対地トレーニング-クリップフォアグラウンド光フローを提供します。

We propose a novel neural-network-based method to perform matting of videos depicting people that does not require additional user input such as trimaps. Our architecture achieves temporal stability of the resulting alpha mattes by using motion-estimation-ba sed smoothing of image-segmentation algorithm outputs, combined with convolutional-LSTM modules on U-Net skip connections. We also propose a fake-motion algorithm that generates training clips for the video-matting network given photos with ground-truth alpha mattes and background videos. We apply random motion to photos and their mattes to simulate movement one would find in real videos and composite the result with the background clips. It lets us train a deep neural network operating on videos in an absence of a large annotated video dataset and provides ground-truth training-clip foreground optical flow for use in loss functions.
翻訳日:2021-09-13 13:27:38 公開日:2021-09-10
# イベントベース光フロー推定のための時空間リカレントネットワーク

Spatio-Temporal Recurrent Networks for Event-Based Optical Flow Estimation ( http://arxiv.org/abs/2109.04871v1 )

ライセンス: Link先を確認
Ziluo Ding, Rui Zhao, Jiyuan Zhang, Tianxiao Gao, Ruiqin Xiong, Zhaofei Yu, Tiejun Huang(参考訳) イベントカメラは、特に高速でダイナミックレンジのシーンにおいて、視覚的知覚に有望な代替手段を提供する。 近年,多くのディープラーニング手法が,光学的フロー推定などのイベントベース問題に対して,モデルフリーのソリューションを提供することで大きな成功を収めている。 しかし,既存のディープラーニング手法では,アーキテクチャ設計の観点から時間情報の重要さに対処できず,時空間的特徴を効果的に抽出することができない。 スパイクニューラルネットワークを利用する別の研究は、より深いアーキテクチャのためのトレーニングの問題に苦しむ。 これらの点に対処するため、信号強調のための事象時間分布をキャプチャする新しい入力表現を提案する。 さらに、コンボリューショナルGated Recurrent Unitsを用いて一連のイベント画像から特徴マップを抽出するイベントベース光フロー推定のための時空間繰り返し符号化符号化ニューラルネットワークアーキテクチャを提案する。 さらに,我々のアーキテクチャでは,相関層や反復的残留精錬スキームなど,従来のフレームベースのコアモジュールを組み込むことが可能である。 ネットワークは、マルチ車両ステレオイベントカメラデータセット上で自己教師付き学習によってエンドツーエンドでトレーニングされる。 既存の最先端のメソッドを大きなマージンで上回っていることが分かっています。

Event camera has offered promising alternative for visual perception, especially in high speed and high dynamic range scenes. Recently, many deep learning methods have shown great success in providing model-free solutions to many event-based problems, such as optical flow estimation. However, existing deep learning methods did not address the importance of temporal information well from the perspective of architecture design and cannot effectively extract spatio-temporal features. Another line of research that utilizes Spiking Neural Network suffers from training issues for deeper architecture. To address these points, a novel input representation is proposed that captures the events temporal distribution for signal enhancement. Moreover, we introduce a spatio-temporal recurrent encoding-decoding neural network architecture for event-based optical flow estimation, which utilizes Convolutional Gated Recurrent Units to extract feature maps from a series of event images. Besides, our architecture allows some traditional frame-based core modules, such as correlation layer and iterative residual refine scheme, to be incorporated. The network is end-to-end trained with self-supervised learning on the Multi-Vehicle Stereo Event Camera dataset. We have shown that it outperforms all the existing state-of-the-art methods by a large margin.
翻訳日:2021-09-13 13:27:22 公開日:2021-09-10
# LibFewShot: ファウショット学習のための総合ライブラリ

LibFewShot: A Comprehensive Library for Few-shot Learning ( http://arxiv.org/abs/2109.04898v1 )

ライセンス: Link先を確認
Wenbin Li, Chuanqi Dong, Pinzhuo Tian, Tiexin Qin, Xuesong Yang, Ziyi Wang, Jing Huo, Yinghuan Shi, Lei Wang, Yang Gao and Jiebo Luo(参考訳) マイノショット学習,特にマイノショット画像分類は,近年,注目され,著しい進歩を遂げている。 最近の研究では、データ拡張、事前学習、知識蒸留、自己スーパービジョンなど、多くのジェネリックテクニックや`tricks''が、少数の学習方法のパフォーマンスを大きく向上させる可能性があることが暗黙的に示されている。 さらに、異なる作業では、異なるソフトウェアプラットフォーム、異なるトレーニングスケジュール、異なるバックボーンアーキテクチャ、さらには異なる入力画像サイズが採用され、公平な比較が難しくなり、実践者は再現性に苦しむ。 このような状況に対処するために,PyTorchで同じ単一コードベースの統一フレームワークで17の最先端の複数ショット学習手法を再実装し,一括学習ライブラリ(LibFewShot)を提案する。 さらに、LibFewShotに基づいて、複数のベンチマークデータセットに複数のバックボーンアーキテクチャを用いて包括的な評価を行い、共通の落とし穴と異なるトレーニングトリックの効果を評価する。 また, メタ・エピソード・トレーニング機構の必要性に対する近年の疑問から, プレトレーニングと組み合わせることで, このようなメカニズムが依然として必要であることを示す。 私たちの仕事が、初心者が少数ショット学習に取り組むための障壁を低くできるだけでなく、少数ショット学習における本質的な研究を促進するための非自明なトリックの効果を取り除けることを願っています。 ソースコードはhttps://github.com/r l-vig/libfewshotから入手できる。

Few-shot learning, especially few-shot image classification, has received increasing attention and witnessed significant advances in recent years. Some recent studies implicitly show that many generic techniques or ``tricks'', such as data augmentation, pre-training, knowledge distillation, and self-supervision, may greatly boost the performance of a few-shot learning method. Moreover, different works may employ different software platforms, different training schedules, different backbone architectures and even different input image sizes, making fair comparisons difficult and practitioners struggle with reproducibility. To address these situations, we propose a comprehensive library for few-shot learning (LibFewShot) by re-implementing seventeen state-of-the-art few-shot learning methods in a unified framework with the same single codebase in PyTorch. Furthermore, based on LibFewShot, we provide comprehensive evaluations on multiple benchmark datasets with multiple backbone architectures to evaluate common pitfalls and effects of different training tricks. In addition, given the recent doubts on the necessity of meta- or episodic-training mechanism, our evaluation results show that such kind of mechanism is still necessary especially when combined with pre-training. We hope our work can not only lower the barriers for beginners to work on few-shot learning but also remove the effects of the nontrivial tricks to facilitate intrinsic research on few-shot learning. The source code is available from https://github.com/R L-VIG/LibFewShot.
翻訳日:2021-09-13 13:27:02 公開日:2021-09-10
# Panoptic Narrative Grounding

Panoptic Narrative Grounding ( http://arxiv.org/abs/2109.04988v1 )

ライセンス: Link先を確認
C. Gonz\'alez, N. Ayobi, I. Hern\'andez, J. Hern\'andez, J. Pont-Tuset, P. Arbel\'aez(参考訳) 本稿では,自然言語視覚接地問題の空間的詳細と一般的な定式化であるpanoptic narrative groundingを提案する。 我々は,新しい基礎的真理とメトリクスを含む,この新しい課題の研究のための実験的枠組みを確立し,今後の研究の足場となる強力なベースライン手法を提案する。 画像の内在的意味的豊かさを汎視的カテゴリを含めることで活用し,セグメンテーションを用いて視覚的グラウンド化にアプローチする。 そこで本研究では,MS COCOデータセットの汎視的セグメンテーションにおいて,局所的ナラティクスアノテーションを特定の領域に自動的に転送するアルゴリズムを提案する。 アノテーションの品質を保証するため、WordNetに含まれる意味構造を利用して、意味のある関連性のあるパノプティックセグメンテーション領域に基づく名詞句を排他的に組み込む。 提案するベースラインは絶対平均リコールポイント55.4である。 この結果は、パノプティカル・ナラティブ・グラウンディングの手法の開発においてエンベロープをさらに推し進めるための適切な基盤となる。

This paper proposes Panoptic Narrative Grounding, a spatially fine and general formulation of the natural language visual grounding problem. We establish an experimental framework for the study of this new task, including new ground truth and metrics, and we propose a strong baseline method to serve as stepping stone for future work. We exploit the intrinsic semantic richness in an image by including panoptic categories, and we approach visual grounding at a fine-grained level by using segmentations. In terms of ground truth, we propose an algorithm to automatically transfer Localized Narratives annotations to specific regions in the panoptic segmentations of the MS COCO dataset. To guarantee the quality of our annotations, we take advantage of the semantic structure contained in WordNet to exclusively incorporate noun phrases that are grounded to a meaningfully related panoptic segmentation region. The proposed baseline achieves a performance of 55.4 absolute Average Recall points. This result is a suitable foundation to push the envelope further in the development of methods for Panoptic Narrative Grounding.
翻訳日:2021-09-13 13:26:34 公開日:2021-09-10
# ファウショット知識に基づくVQAのためのGPT-3の実証的研究

An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA ( http://arxiv.org/abs/2109.05014v1 )

ライセンス: Link先を確認
Zhengyuan Yang, Zhe Gan, Jianfeng Wang, Xiaowei Hu, Yumao Lu, Zicheng Liu, Lijuan Wang(参考訳) 知識に基づく視覚的質問応答(VQA)は、画像に存在しない外部知識を必要とする質問に答える。 既存の手法は、まず外部資源から知識を抽出し、選択した知識、入力画像、質問に対して回答予測を行う。 しかし、この2段階のアプローチは、VQAのパフォーマンスを制限する可能性のあるミスマッチにつながる可能性がある。 例えば、検索された知識は問題に無関係であり、推論中の再埋め込みされた知識特徴は、知識ベース(KB)の本来の意味から逸脱する可能性がある。 この課題に対処するために、知識に基づくVQAのために、画像キャプションを用いてGPT3をプロンプトするシンプルで効果的なPICaを提案する。 知識検索と質問応答におけるGPT-3の力に触発され、構造化KBの代わりに、GPT-3を暗黙的で非構造化KBとして扱い、関連する知識を共同で獲得し処理する。 具体的には、まずまず、GPT-3で理解できるキャプション(またはタグ)に変換し、次にGPT-3を適用してVQAタスクを数ショットで解決する。 慎重に調査することで パフォーマンスをさらに向上させます (i)どのテキスト形式が最も画像内容を記述するか、 (ii) 文脈内例をよりよく選択し、使用する方法。 PICaはマルチモーダルタスクに初めてGPT-3を使用する。 PICaは16の例しか使用せず、OK-VQAデータセットの絶対+8.6ポイントで芸術の監督状態を超えた。 また、vqav2ではpicaのベンチマークも行っています。

Knowledge-based visual question answering (VQA) involves answering questions that require external knowledge not present in the image. Existing methods first retrieve knowledge from external resources, then reason over the selected knowledge, the input image, and question for answer prediction. However, this two-step approach could lead to mismatches that potentially limit the VQA performance. For example, the retrieved knowledge might be noisy and irrelevant to the question, and the re-embedded knowledge features during reasoning might deviate from their original meanings in the knowledge base (KB). To address this challenge, we propose PICa, a simple yet effective method that Prompts GPT3 via the use of Image Captions, for knowledge-based VQA. Inspired by GPT-3's power in knowledge retrieval and question answering, instead of using structured KBs as in previous work, we treat GPT-3 as an implicit and unstructured KB that can jointly acquire and process relevant knowledge. Specifically, we first convert the image into captions (or tags) that GPT-3 can understand, then adapt GPT-3 to solve the VQA task in a few-shot manner by just providing a few in-context VQA examples. We further boost performance by carefully investigating: (i) what text formats best describe the image content, and (ii) how in-context examples can be better selected and used. PICa unlocks the first use of GPT-3 for multimodal tasks. By using only 16 examples, PICa surpasses the supervised state of the art by an absolute +8.6 points on the OK-VQA dataset. We also benchmark PICa on VQAv2, where PICa also shows a decent few-shot performance.
翻訳日:2021-09-13 13:26:15 公開日:2021-09-10
# AutoTriggER:補助トリガー抽出によるエンティティ認識

AutoTriggER: Named Entity Recognition with Auxiliary Trigger Extraction ( http://arxiv.org/abs/2109.04726v1 )

ライセンス: Link先を確認
Dong-Ho Lee, Ravi Kiran Selvam, Sheikh Muhammad Sarwar, Bill Yuchen Lin, Mahak Agarwal, Fred Morstatter, Jay Pujara, Elizabeth Boschee, James Allan and Xiang Ren(参考訳) 低リソースのエンティティ認識(ner)のためのディープニューラルネットワークモデルは、遠方のスーパービジョンや他のメタレベル情報(例えば説明)を活用することで印象的な結果を示している。 しかし、特に既存のリソース(例えば、遠方の監視に使用するデータベース)が存在しない領域では、このような追加情報を取得するコストは一般的には禁じられている。 本稿では,テキスト中の人読み可能な手掛かりである「エンティティトリガー」を自動的に生成・活用することにより,nerのパフォーマンスを向上させるための新しい2段階フレームワーク(autotrigger)を提案する。 したがって、フレームワークはそれ自体で補助的な監督を作成および活用することができる。 3つのよく研究されたNERデータセットの実験を通して、自動抽出されたトリガが人間のトリガに適合していることを示し、AutoTriggERはRoBERTa-CRFarchitect ure上のパフォーマンスを平均0.5F1ポイント、より低いリソース設定で改善する。

Deep neural models for low-resource named entity recognition (NER) have shown impressive results by leveraging distant super-vision or other meta-level information (e.g. explanation). However, the costs of acquiring such additional information are generally prohibitive, especially in domains where existing resources (e.g. databases to be used for distant supervision) may not exist. In this paper, we present a novel two-stage framework (AutoTriggER) to improve NER performance by automatically generating and leveraging "entity triggers" which are essentially human-readable clues in the text that can help guide the model to make better decisions. Thus, the framework is able to both create and leverage auxiliary supervision by itself. Through experiments on three well-studied NER datasets, we show that our automatically extracted triggers are well-matched to human triggers, and AutoTriggER improves performance over a RoBERTa-CRFarchitect ure by nearly 0.5 F1 points on average and much more in a low resource setting.
翻訳日:2021-09-13 13:25:48 公開日:2021-09-10
# 時空間グラフニューラルネットワークに対する空間集中攻撃

Spatially Focused Attack against Spatiotemporal Graph Neural Networks ( http://arxiv.org/abs/2109.04608v1 )

ライセンス: Link先を確認
Fuqiang Liu, Luis Miranda-Moreno, Lijun Sun(参考訳) 時空間予測は、ルート計画、ナビゲーション、交通制御および管理など、インテリジェント交通システム(ITS)における様々な応用において重要な役割を果たす。 空間パターンと時間パターンの両方をキャプチャする深時空間グラフニューラルネットワーク(GNN)は、トラフィック予測アプリケーションにおいて大きな成功を収めている。 gnnsベースの予測作業とこれらのモデルの脆弱性と堅牢性を理解することは、現実世界のアプリケーションにとって重要である。 例えば、時空間GNNが現実世界の交通予測アプリケーションに脆弱性がある場合、ハッカーは簡単に結果を操作でき、交通渋滞を深刻に発生させ、都市規模を縮小する。 しかし、近年の研究では、ディープニューラルネットワーク(DNN)は、客観的分類やグラフ表現といった複数の領域で慎重に設計された摂動に弱いことが示されているが、現在の敵対的作業は、予測モデルにおける因果性や時空間メカニズムによる時空間予測に直接適用することはできない。 このギャップを埋めるため,本稿では空間集中攻撃 (sfa) を設計,1つの頂点を攻撃することで時空間gnnを破る。 そこで我々はまず,この因果性問題に対処する逆推定法を提案し,その評価関数としてユニバーサルアタック法を用いた遺伝的アルゴリズムを適用し,その逆推定に基づく最適化問題を解くことによって摂動を生成する。 実世界の交通データについて実験を行い,その結果から,SAの設計した頂点の摂動がグラフの大部分に拡散可能であることを示す。

Spatiotemporal forecasting plays an essential role in various applications in intelligent transportation systems (ITS), such as route planning, navigation, and traffic control and management. Deep Spatiotemporal graph neural networks (GNNs), which capture both spatial and temporal patterns, have achieved great success in traffic forecasting applications. Understanding how GNNs-based forecasting work and the vulnerability and robustness of these models becomes critical to real-world applications. For example, if spatiotemporal GNNs are vulnerable in real-world traffic prediction applications, a hacker can easily manipulate the results and cause serious traffic congestion and even a city-scale breakdown. However, despite that recent studies have demonstrated that deep neural networks (DNNs) are vulnerable to carefully designed perturbations in multiple domains like objection classification and graph representation, current adversarial works cannot be directly applied to spatiotemporal forecasting due to the causal nature and spatiotemporal mechanisms in forecasting models. To fill this gap, in this paper we design Spatially Focused Attack (SFA) to break spatiotemporal GNNs by attacking a single vertex. To achieve this, we first propose the inverse estimation to address the causality issue; then, we apply genetic algorithms with a universal attack method as the evaluation function to locate the weakest vertex; finally, perturbations are generated by solving an inverse estimation-based optimization problem. We conduct experiments on real-world traffic data and our results show that perturbations in one vertex designed by SA can be diffused into a large part of the graph.
翻訳日:2021-09-13 13:25:01 公開日:2021-09-10
# 学生のフィードバックで教えることを学ぶ

Learning to Teach with Student Feedback ( http://arxiv.org/abs/2109.04641v1 )

ライセンス: Link先を確認
Yitao Liu, Tianxiang Sun, Xipeng Qiu, Xuanjing Huang(参考訳) 知識蒸留(KD)は、大規模事前学習モデルの圧縮の有効性から注目されている。 典型的なKD手法では、大きな教師モデルによって生成されたソフトターゲットに合わせるために、小学生モデルを訓練する。 しかし、生徒と教師の交流は一方向である。 教師は通常、訓練された後に固定され、静的なソフトターゲットを蒸留する。 この一方的な相互作用は、教師が生徒の特徴と訓練の進捗を知覚できないことにつながる。 この問題に対処するために,教師が生徒のフィードバックから教わることのできる対話的知識蒸留(Interactive Knowledge Distillation, IKD)を提案する。 特に、IKDは教師モデルを訓練し、特定の学生のトレーニングステップごとに特定のソフトターゲットを生成する。 教師と生徒の協調的最適化は,教師のソフトターゲットで生徒を最適化するコースステップと,生徒のフィードバックで教師を最適化する試験ステップという2つの反復ステップによって達成される。 IKDは、既存のほとんどの知識蒸留法と直交する一般的なフレームワークである。 実験結果から、IKDは様々なNLPタスクにおいて従来のKD法よりも優れていた。

Knowledge distillation (KD) has gained much attention due to its effectiveness in compressing large-scale pre-trained models. In typical KD methods, the small student model is trained to match the soft targets generated by the big teacher model. However, the interaction between student and teacher is one-way. The teacher is usually fixed once trained, resulting in static soft targets to be distilled. This one-way interaction leads to the teacher's inability to perceive the characteristics of the student and its training progress. To address this issue, we propose Interactive Knowledge Distillation (IKD), which also allows the teacher to learn to teach from the feedback of the student. In particular, IKD trains the teacher model to generate specific soft target at each training step for a certain student. Joint optimization for both teacher and student is achieved by two iterative steps: a course step to optimize student with the soft target of teacher, and an exam step to optimize teacher with the feedback of student. IKD is a general framework that is orthogonal to most existing knowledge distillation methods. Experimental results show that IKD outperforms traditional KD methods on various NLP tasks.
翻訳日:2021-09-13 13:24:32 公開日:2021-09-10
# GDPA線形化による2値グラフ分類器の展開プロジェクションフリーSDP緩和

Unfolding Projection-free SDP Relaxation of Binary Graph Classifier via GDPA Linearization ( http://arxiv.org/abs/2109.04697v1 )

ライセンス: Link先を確認
Cheng Yang and Gene Cheung and Wai-tian Tan and Guangtao Zhai(参考訳) アルゴリズム展開は、モデルベースのアルゴリズムの各イテレーションをニューラルネットワーク層として実装することにより、解釈可能で控えめなニューラルネットワークアーキテクチャを作成する。 しかしながら、正の半定値(psd)コーン射影演算子を反復毎に展開する近位分割アルゴリズムは、必要となる全行列固有分解のため高価である。 本稿では、Gershgorin disc perfect alignment (GDPA) と呼ばれる最近の線形代数定理を利用して、2進グラフ分類器の半定値プログラミング緩和(SDR)のための射影自由アルゴリズムをアンロールする。 その結果、各イテレーションは線形プログラム(LP)と1つの極端な固有ベクトルしか計算しない。 非ローリングネットワーク内では、グラフエッジ重みを決定する確率勾配勾配勾配(SGD)によってパラメータを最適化する。 一 特徴距離を演算する計量行列であって、 二 局所線形埋め込み(LLE)により計算されるスパース重み行列 実験結果から,我々の未学習ネットワークは純粋モデルベースグラフ分類器よりも優れ,純粋データ駆動ネットワークに匹敵する性能を示した。

Algorithm unfolding creates an interpretable and parsimonious neural network architecture by implementing each iteration of a model-based algorithm as a neural layer. However, unfolding a proximal splitting algorithm with a positive semi-definite (PSD) cone projection operator per iteration is expensive, due to the required full matrix eigen-decomposition. In this paper, leveraging a recent linear algebraic theorem called Gershgorin disc perfect alignment (GDPA), we unroll a projection-free algorithm for semi-definite programming relaxation (SDR) of a binary graph classifier, where the PSD cone constraint is replaced by a set of "tightest possible" linear constraints per iteration. As a result, each iteration only requires computing a linear program (LP) and one extreme eigenvector. Inside the unrolled network, we optimize parameters via stochastic gradient descent (SGD) that determine graph edge weights in two ways: i) a metric matrix that computes feature distances, and ii) a sparse weight matrix computed via local linear embedding (LLE). Experimental results show that our unrolled network outperformed pure model-based graph classifiers, and achieved comparable performance to pure data-driven networks but using far fewer parameters.
翻訳日:2021-09-13 13:24:14 公開日:2021-09-10
# 表現補間による対向的対向学習

Counterfactual Adversarial Learning with Representation Interpolation ( http://arxiv.org/abs/2109.04746v1 )

ライセンス: Link先を確認
Wei Wang, Boxin Wang, Ning Shi, Jinfeng Li, Bingyu Zhu, Xiangyu Liu, Rong Zhang(参考訳) 深層学習モデルは論理的推論よりも統計的適合を好んでいる。 トレーニングデータに統計的バイアスがある場合、特に小さなデータシナリオでモデル性能を著しく制限する、スプリアス相関が記憶される可能性がある。 本研究では,因果的視点から問題に取り組むために,CAT(Counterfactual Adversarial Training framework)を導入する。 特に、特定のサンプルに対して、CATは、まず、逆向きに遅延空間補間を通して反ファクト表現を生成し、次に、各元の対数対に対して反ファクトリスク最小化(CRM)を行い、標本単位の損失重みを動的に調整し、真の因果効果をモデルが探索することを奨励する。 CATは、文分類、自然言語推論、質問応答など、さまざまな下流タスクにおいて、SOTAよりも顕著なパフォーマンス向上を実現している。

Deep learning models exhibit a preference for statistical fitting over logical reasoning. Spurious correlations might be memorized when there exists statistical bias in training data, which severely limits the model performance especially in small data scenarios. In this work, we introduce Counterfactual Adversarial Training framework (CAT) to tackle the problem from a causality perspective. Particularly, for a specific sample, CAT first generates a counterfactual representation through latent space interpolation in an adversarial manner, and then performs Counterfactual Risk Minimization (CRM) on each original-counterfact ual pair to adjust sample-wise loss weight dynamically, which encourages the model to explore the true causal effect. Extensive experiments demonstrate that CAT achieves substantial performance improvement over SOTA across different downstream tasks, including sentence classification, natural language inference and question answering.
翻訳日:2021-09-13 13:23:51 公開日:2021-09-10
# コンフリクト解消のためのニューラルネットワークを用いた航空機進路変化のマルチラベル分類

Multi-label Classification of Aircraft Heading Changes Using Neural Network to Resolve Conflicts ( http://arxiv.org/abs/2109.04767v1 )

ライセンス: Link先を確認
Md Siddiqur Rahman, Laurent Lapasset and Josiane Mothe(参考訳) 航空機の衝突は、2機以上の航空機が一定距離を同時に横切るときに起こる。 このような紛争を解決するために、特定の航空管制官が割り当てられる。 コントローラはコンフリクトを解決するために様々な種類の情報を考慮する必要がある。 最も一般的で予備的な情報は、関連する航空機の座標位置である。 さらに、操縦士は、飛行計画、天候、制限領域など、より多くの情報を考慮する必要がある。 コントローラが直面する最も重要な課題は、関係する問題を考え、短時間で意思決定することです。 航空機の数が増えたため、制御装置の作業量を減らし、迅速な意思決定を支援することが不可欠である。 コンフリクトは様々な方法で解決できるため、この問題をマルチラベル分類問題と考える。 そこで我々は、与えられた紛争に対して複数の指導的助言を提供するマルチラベル分類モデルを提案する。 CRMLnetという名前のこのモデルは、多層ニューラルネットワークの新たな応用に基づいており、コントローラの意思決定を支援する。 他の機械学習モデルと比較すると、CRMLnetは98.72%、ROC0.999の精度で最高の結果を得た。 私たちが実験で開発したシミュレーションデータセットは、研究コミュニティに提供されます。

An aircraft conflict occurs when two or more aircraft cross at a certain distance at the same time. Specific air traffic controllers are assigned to solve such conflicts. A controller needs to consider various types of information in order to solve a conflict. The most common and preliminary information is the coordinate position of the involved aircraft. Additionally, a controller has to take into account more information such as flight planning, weather, restricted territory, etc. The most important challenges a controller has to face are: to think about the issues involved and make a decision in a very short time. Due to the increased number of aircraft, it is crucial to reduce the workload of the controllers and help them make quick decisions. A conflict can be solved in many ways, therefore, we consider this problem as a multi-label classification problem. In doing so, we are proposing a multi-label classification model which provides multiple heading advisories for a given conflict. This model we named CRMLnet is based on a novel application of a multi-layer neural network and helps the controllers in their decisions. When compared to other machine learning models, our CRMLnet has achieved the best results with an accuracy of 98.72% and ROC of 0.999. The simulated data set that we have developed and used in our experiments will be delivered to the research community.
翻訳日:2021-09-13 13:23:35 公開日:2021-09-10
# 環境にやさしい交通選択による大気汚染低減効果のシミュレーション

Simulating the Effects of Eco-Friendly Transportation Selections for Air Pollution Reduction ( http://arxiv.org/abs/2109.04831v1 )

ライセンス: Link先を確認
Keiichi Ochiai, Tsukasa Demizu, Shin Ishiguro, Shohei Maruyama, Akihiro Kawana(参考訳) CO2やPM2.5といった大気汚染の削減は、世界中の多くの国で最も重要な問題の一つである。 環境にやさしい輸送モードを選択することは、個人の日常生活における大気汚染を減らすための効果的なアプローチである。 本研究では,地図検索ログを用いて,エコフレンドリーな輸送モード選択による大気汚染低減効果をシミュレートする手法を提案する。 交通モードの選択を,大気汚染と平均走行時間の例としてco2排出量の総量に関する制約を伴い,組合せ最適化問題として定式化する。 最適化の結果、CO2排出量の総量は9.23%削減できるのに対し、平均走行時間は9.96%削減できることがわかった。 私たちの研究提案は、KDD Cup 2019で、正規機械学習コンペティショントラックタスク2で優勝しました。

Reducing air pollution, such as CO2 and PM2.5 emissions, is one of the most important issues for many countries worldwide. Selecting an environmentally friendly transport mode can be an effective approach of individuals to reduce air pollution in daily life. In this study, we propose a method to simulate the effectiveness of an eco-friendly transport mode selection for reducing air pollution by using map search logs. We formulate the transport mode selection as a combinatorial optimization problem with the constraints regarding the total amount of CO2 emissions as an example of air pollution and the average travel time. The optimization results show that the total amount of CO2 emissions can be reduced by 9.23%, whereas the average travel time can in fact be reduced by 9.96%. Our research proposal won first prize in Regular Machine Learning Competition Track Task 2 at KDD Cup 2019.
翻訳日:2021-09-13 13:23:19 公開日:2021-09-10
# マルチモーダルフェデレーション学習

Multimodal Federated Learning ( http://arxiv.org/abs/2109.04833v1 )

ライセンス: Link先を確認
Yuchen Zhao, Payam Barnaghi, Hamed Haddadi(参考訳) フェデレーション学習は、クライアントサーバ構造が現実世界のアプリケーションにおいてより優れたプライバシー保護と拡張性を提供するため、集中型機械学習の代替として提案されている。 IoTデバイスを備えたスマートホームのような多くのアプリケーションでは、センサー、視覚、オーディオデータなど、さまざまなモダリティからクライアント上のローカルデータが生成される。 既存の連合学習システムは単一のモダリティからのローカルデータのみを扱うため、システムのスケーラビリティは制限される。 本稿では,マルチモーダル・半教師付き学習フレームワークを提案する。このフレームワークは,クライアント上で異なるローカルデータモダリティから共有あるいは相関表現を抽出するよう,オートエンコーダを訓練する。 さらに、異なるデータモーダルで訓練されたローカルオートエンコーダを集約するマルチモーダルFedAvgアルゴリズムを提案する。 学習したグローバルオートエンコーダを,サーバ上の補助ラベル付きデータの助けを借りて下流分類タスクに使用する。 センサデータや深度カメラビデオ,rgbカメラビデオなど,さまざまなモダリティに関するフレームワークを実証的に評価した。 実験結果から,複数のモダリティからのデータをフェデレート学習に導入することで,その精度が向上することが示された。 さらに、サーバ上で教師付き学習を行うための1つのモダリティのみのラベル付きデータを用いて、学習したモデルを他のモダリティからのデータテストに適用して、適切な精度(例えば、最高のパフォーマンスの約70%)を達成することができる。

Federated learning is proposed as an alternative to centralized machine learning since its client-server structure provides better privacy protection and scalability in real-world applications. In many applications, such as smart homes with IoT devices, local data on clients are generated from different modalities such as sensory, visual, and audio data. Existing federated learning systems only work on local data from a single modality, which limits the scalability of the systems. In this paper, we propose a multimodal and semi-supervised federated learning framework that trains autoencoders to extract shared or correlated representations from different local data modalities on clients. In addition, we propose a multimodal FedAvg algorithm to aggregate local autoencoders trained on different data modalities. We use the learned global autoencoder for a downstream classification task with the help of auxiliary labelled data on the server. We empirically evaluate our framework on different modalities including sensory data, depth camera videos, and RGB camera videos. Our experimental results demonstrate that introducing data from multiple modalities into federated learning can improve its accuracy. In addition, we can use labelled data from only one modality for supervised learning on the server and apply the learned model to testing data from other modalities to achieve decent accuracy (e.g., approximately 70% as the best performance), especially when combining contributions from both unimodal clients and multimodal clients.
翻訳日:2021-09-13 13:23:07 公開日:2021-09-10
# SO-SLAM:スケール比および対称テクスチャ制約付き意味オブジェクトSLAM

SO-SLAM: Semantic Object SLAM with Scale Proportional and Symmetrical Texture Constraints ( http://arxiv.org/abs/2109.04884v1 )

ライセンス: Link先を確認
Ziwei Liao, Yutong Hu, Jiadong Zhang, Xianyu Qi, Xiaoyu Zhang, Wei Wang(参考訳) Object SLAMは、オブジェクトの概念をSLAM(Sultaneous Localization and Mapping)に導入し、移動ロボットやオブジェクトレベルのインタラクティブアプリケーションのための屋内シーンの理解を支援する。 最先端のオブジェクトSLAMシステムは、部分的な観察、閉塞、観測不能な問題、マッピング精度の制限、堅牢性といった課題に直面している。 本稿では,オブジェクト空間制約の導入に対応する新しい単項意味オブジェクトslam(so-slam)システムを提案する。 本稿では,3つの空間的制約,例えばスケール比例制約,対称テクスチャ制約,平面支持制約について検討する。 これらの制約に基づき、より堅牢なオブジェクト初期化法とオブジェクト指向最適化法という2つの新しい手法を提案する。 我々は,公開データセットと著者が記録した移動ロボットデータセット上でのアルゴリズムの性能を検証し,マッピング効果を大幅に改善した。 コードは以下でリリースする。 https://github.com/x unshanman/soslam。

Object SLAM introduces the concept of objects into Simultaneous Localization and Mapping (SLAM) and helps understand indoor scenes for mobile robots and object-level interactive applications. The state-of-art object SLAM systems face challenges such as partial observations, occlusions, unobservable problems, limiting the mapping accuracy and robustness. This paper proposes a novel monocular Semantic Object SLAM (SO-SLAM) system that addresses the introduction of object spatial constraints. We explore three representative spatial constraints, including scale proportional constraint, symmetrical texture constraint and plane supporting constraint. Based on these semantic constraints, we propose two new methods - a more robust object initialization method and an orientation fine optimization method. We have verified the performance of the algorithm on the public datasets and an author-recorded mobile robot dataset and achieved a significant improvement on mapping effects. We will release the code here: https://github.com/X unshanMan/SoSLAM.
翻訳日:2021-09-13 13:22:42 公開日:2021-09-10
# サブグループディスカバリはAIOpsにどのように役立つか

How Can Subgroup Discovery Help AIOps? ( http://arxiv.org/abs/2109.04909v1 )

ライセンス: Link先を確認
Youcef Remil(参考訳) 最新のITシステムの真の監視は、ビッグデータストリームの分析と監視を行う際に、スケーラビリティ、信頼性、効率性のより高い標準を必要とするため、新たな課題をもたらします。 規則に基づく推論エンジンは、異常の検出と解決の自動化において、メンテナンスシステムの重要なコンポーネントである。 しかし、それらは依然として単純で一般的なルールに限定されており、大量のデータや、専門的なシステム時代から学んだ、ITシステムによる大量のアラートを処理できない。 AIOps(Artificial Intelligence for Operation Systems)は、ビッグデータ上の高度な分析と機械学習を活用して、監視システムのすべてのステップを改善し自動化し、障害の検出や根本原因の特定、適切な治癒行動の適用においてインシデント管理を支援することを提案する。 それでも、最高のaiops技術は不透明なモデルに依存しており、採用を厳しく制限している。 この博士論文の一環として、サブグループの発見がaiopsにどのように役立つかを研究する。 この有望なデータマイニング技術は、データから興味深い仮説を抽出し、予測モデルの背後にあるプロセスを理解する可能性を提供する。 提案の関連性を確保するため、このプロジェクトには、フランスのソフトウェアエディタであるInfologicalのデータマイニング研究者と実践者の両方が関わっている。

The genuine supervision of modern IT systems brings new challenges as it requires higher standards of scalability, reliability and efficiency when analysing and monitoring big data streams. Rule-based inference engines are a key component of maintenance systems in detecting anomalies and automating their resolution. However, they remain confined to simple and general rules and cannot handle the huge amount of data, nor the large number of alerts raised by IT systems, a lesson learned from expert systems era. Artificial Intelligence for Operation Systems (AIOps) proposes to take advantage of advanced analytics and machine learning on big data to improve and automate every step of supervision systems and aid incident management in detecting outages, identifying root causes and applying appropriate healing actions. Nevertheless, the best AIOps techniques rely on opaque models, strongly limiting their adoption. As a part of this PhD thesis, we study how Subgroup Discovery can help AIOps. This promising data mining technique offers possibilities to extract interesting hypothesis from data and understand the underlying process behind predictive models. To ensure relevancy of our propositions, this project involves both data mining researchers and practitioners from Infologic, a French software editor.
翻訳日:2021-09-13 13:22:25 公開日:2021-09-10
# 実時間仮想試行のためのパーガーメントキャプチャと合成

Per Garment Capture and Synthesis for Real-time Virtual Try-on ( http://arxiv.org/abs/2109.04654v1 )

ライセンス: Link先を確認
Toby Chong, I-Chao Shen, Nobuyuki Umetani, Takeo Igarashi(参考訳) 仮想トライオンはコンピュータグラフィックスと人間のコンピュータインタラクションの有望な応用であり、特にパンデミックの間、現実世界に大きな影響を与える可能性がある。 既存の画像ベースの作品は、対象の衣服の単一の画像からトライオン画像を合成しようとするが、本質的には、可能な相互作用に反応する能力を制限する。 ポーズや体の大きさの変化によるしわの変化を再現することは困難であり、衣服を手で引っ張ったり伸ばしたりすることは困難である。 本稿では,多くのシステマティックな画像でモデルを訓練することにより,このようなリッチなインタラクションを扱うために,衣服ごとのキャプチャと合成ワークフローを提案する。 私たちのワークフローは2つの部分で構成されています。 我々は,運動マネキンを設計し,身体サイズやポーズの異なる対象衣服の詳細な変形を収集する効率的な捕獲プロセスを構築した。 さらに,カスタムデザインの計測服の使用を提案するとともに,測定服と対象服のペア画像も取得した。 次に、深部画像から画像への翻訳を用いて、測定服と対象服のマッピングを学ぶ。 顧客はオンラインショッピング中にターゲットの衣服をインタラクティブに試すことができる。

Virtual try-on is a promising application of computer graphics and human computer interaction that can have a profound real-world impact especially during this pandemic. Existing image-based works try to synthesize a try-on image from a single image of a target garment, but it inherently limits the ability to react to possible interactions. It is difficult to reproduce the change of wrinkles caused by pose and body size change, as well as pulling and stretching of the garment by hand. In this paper, we propose an alternative per garment capture and synthesis workflow to handle such rich interactions by training the model with many systematically captured images. Our workflow is composed of two parts: garment capturing and clothed person image synthesis. We designed an actuated mannequin and an efficient capturing process that collects the detailed deformations of the target garments under diverse body sizes and poses. Furthermore, we proposed to use a custom-designed measurement garment, and we captured paired images of the measurement garment and the target garments. We then learn a mapping between the measurement garment and the target garments using deep image-to-image translation. The customer can then try on the target garments interactively during online shopping.
翻訳日:2021-09-13 13:22:04 公開日:2021-09-10
# ReconfigISP: 再構成可能なカメライメージ処理パイプライン

ReconfigISP: Reconfigurable Camera Image Processing Pipeline ( http://arxiv.org/abs/2109.04760v1 )

ライセンス: Link先を確認
Ke Yu, Zexian Li, Yue Peng, Chen Change Loy, Jinwei Gu(参考訳) Image Signal Processor(ISP)は、センサー信号を画像に変換するデジタルカメラにおいて重要なコンポーネントであり、私たちの知覚と理解に役立ちます。 既存のisp設計は常に固定アーキテクチャを採用しており、例えばいくつかのシーケンシャルモジュールが厳密な順序で接続されている。 このような固定ISPアーキテクチャは、カメラセンサー、シーン、タスクが多様である現実世界のアプリケーションに最適である。 本研究では,アーキテクチャやパラメータを特定のデータやタスクに自動的に調整できる,再構成可能な新しいisp (reconfigisp) を提案する。 特に、複数のISPモジュールを実装し、差別化可能なプロキシをトレーニングすることで各モジュールのバックプロパゲーションを可能にし、人気のある差別化可能なニューラルネットワーク検索を活用し、最適なISPアーキテクチャを効果的に検索することができる。 すべてのケースにおいてプロキシネットワークの精度を維持するためにプロキシチューニング機構が採用されている。 異なるセンサー、光条件、効率の制約を備えた画像復元と物体検出に関する広範な実験により、再構成の有効性が検証された。 タスクごとにチューニングが必要なパラメータは数百です。

Image Signal Processor (ISP) is a crucial component in digital cameras that transforms sensor signals into images for us to perceive and understand. Existing ISP designs always adopt a fixed architecture, e.g., several sequential modules connected in a rigid order. Such a fixed ISP architecture may be suboptimal for real-world applications, where camera sensors, scenes and tasks are diverse. In this study, we propose a novel Reconfigurable ISP (ReconfigISP) whose architecture and parameters can be automatically tailored to specific data and tasks. In particular, we implement several ISP modules, and enable backpropagation for each module by training a differentiable proxy, hence allowing us to leverage the popular differentiable neural architecture search and effectively search for the optimal ISP architecture. A proxy tuning mechanism is adopted to maintain the accuracy of proxy networks in all cases. Extensive experiments conducted on image restoration and object detection, with different sensors, light conditions and efficiency constraints, validate the effectiveness of ReconfigISP. Only hundreds of parameters need tuning for every task.
翻訳日:2021-09-13 13:21:45 公開日:2021-09-10
# 負のサンプル: 時間的接地のための計量学習のルネサンス

Negative Sample Matters: A Renaissance of Metric Learning for Temporal Grounding ( http://arxiv.org/abs/2109.04872v1 )

ライセンス: Link先を確認
Zhenzhi Wang, Limin Wang, Tao Wu, Tianhao Li, Gangshan Wu(参考訳) 時間的接地は、ある自然言語クエリに関連する意味を持つビデオ内のビデオモーメントを時間的にローカライズすることを目的としている。 既存の手法は通常、複雑なヘッドと融合戦略の設計に焦点をあてて、融合表現に検出または回帰パイプラインを適用する。 代わりに,計量学習問題としての時間的接地という観点から,同時埋め込み空間における言語クエリとビデオモーメントの関係を直接モデル化する2重マッチングネットワーク(dmn)を提案する。 この新しいメトリック学習フレームワークでは,2つの新たな側面から負のサンプルを完全に活用することが可能だ。2つのマッチングスキームから負のクロスモーダルペアを構築し,異なるビデオ間で負のペアをマイニングする。 これらの新たな負のサンプルは、相互情報の最大化のために、クロスモーダルペア識別による2つのモードの合同表現学習を強化することができる。 実験により、DMNは4つのビデオグラウンドベンチマークの最先端手法と比較して高い競争力を発揮することが示された。 DMNに基づいて,第3回PICワークショップのSTVGチャレンジの勝者ソリューションを提案する。 このことは, 距離学習が, 結合埋め込み空間における重要な相互関係を捉えることによって, 時間的接地のための有望な手法であることを示唆している。

Temporal grounding aims to temporally localize a video moment in the video whose semantics are related to a given natural language query. Existing methods typically apply a detection or regression pipeline on the fused representation with a focus on designing complicated heads and fusion strategies. Instead, from a perspective on temporal grounding as a metric-learning problem, we present a Dual Matching Network (DMN), to directly model the relations between language queries and video moments in a joint embedding space. This new metric-learning framework enables fully exploiting negative samples from two new aspects: constructing negative cross-modal pairs from a dual matching scheme and mining negative pairs across different videos. These new negative samples could enhance the joint representation learning of two modalities via cross-modal pair discrimination to maximize their mutual information. Experiments show that DMN achieves highly competitive performance compared with state-of-the-art methods on four video grounding benchmarks. Based on DMN, we present a winner solution for STVG challenge of the 3rd PIC workshop. This suggests that metric-learning is still a promising method for temporal grounding via capturing the essential cross-modal correlation in a joint embedding space.
翻訳日:2021-09-13 13:21:27 公開日:2021-09-10
# 絵画としての盲点: マスクをガイドした残差畳み込みによる自己監督型認知

View Blind-spot as Inpainting: Self-Supervised Denoising with Mask Guided Residual Convolution ( http://arxiv.org/abs/2109.04970v1 )

ライセンス: Link先を確認
Yuhongze Zhou, Liguang Zhou, Tin Lun Lam, Yangsheng Xu(参考訳) 近年, 自己監督型遮音法が目覚ましい性能を示し, 監視型遮音法におけるノイズクリーン画像対の集音を回避し, 実世界での遮音性を高めている。 知名度の高い自己監督の教育戦略の1つは盲点訓練法である。 しかし、ネットワークアーキテクチャの面から、盲点ベースの自己否定性を改善する試みがいくつかある。 本稿では,盲点戦略を直観的に捉え,隣接する画素を用いて処理した画素を塗装プロセスとして予測するプロセスについて考察する。 そこで我々は,新しいマスクガイド型残差畳み込み(MGRConv)を共通の畳み込みニューラルネットワーク(例えばU-Net)に導入し,盲点に基づく復調を促進する。 我々のMGRConvはソフトな部分的畳み込みと見なすことができ、部分的畳み込み、学習可能な注意マップ、ゲート的畳み込みのトレードオフを見つけることができる。 適切なマスク制約で動的マスク学習を可能にする。 部分畳み込みやゲート畳み込みとは異なり、ネットワーク学習に適度な自由を与える。 また、学習可能なアテンションマップとは異なり、マスクアクティベーションのために外部学習可能なパラメータを利用するのを避ける。 実験により,提案するプラグイン・アンド・プレイmgrconvは,既存の単一画像ベースとデータセットベースの両方の手法で有望な結果が得られるように,ブラインドスポットに基づくデノイジングネットワークを支援できることを示した。

In recent years, self-supervised denoising methods have shown impressive performance, which circumvent painstaking collection procedure of noisy-clean image pairs in supervised denoising methods and boost denoising applicability in real world. One of well-known self-supervised denoising strategies is the blind-spot training scheme. However, a few works attempt to improve blind-spot based self-denoiser in the aspect of network architecture. In this paper, we take an intuitive view of blind-spot strategy and consider its process of using neighbor pixels to predict manipulated pixels as an inpainting process. Therefore, we propose a novel Mask Guided Residual Convolution (MGRConv) into common convolutional neural networks, e.g. U-Net, to promote blind-spot based denoising. Our MGRConv can be regarded as soft partial convolution and find a trade-off among partial convolution, learnable attention maps, and gated convolution. It enables dynamic mask learning with appropriate mask constrain. Different from partial convolution and gated convolution, it provides moderate freedom for network learning. It also avoids leveraging external learnable parameters for mask activation, unlike learnable attention maps. The experiments show that our proposed plug-and-play MGRConv can assist blind-spot based denoising network to reach promising results on both existing single-image based and dataset-based methods.
翻訳日:2021-09-13 13:20:55 公開日:2021-09-10
# 合成データの相互作用モデルと一般化スコアマッチング

Interaction Models and Generalized Score Matching for Compositional Data ( http://arxiv.org/abs/2109.04671v1 )

ライセンス: Link先を確認
Shiqing Yu, Mathias Drton, Ali Shojaie(参考訳) マイクロバイオームデータの分析のような応用は、組成データ、すなわち相対比率を含む確率ベクトルの形での多変量データに対する統計手法への新たな関心をもたらした。 特に、そのような相対比の相互作用のモデル化にはかなりの関心がある。 そこで本研究では,確率的単純度をベースとして,対相互作用の一般的なパターンを満足する指数関数モデルを提案する。 特別の場合として、ディリクレ分布の族や、アッチソンの加法的ロジスティック正規分布がある。 一般に、我々が考える分布は正規化定数を計算するのが難しい密度を持つ。 この問題を回避するため,スコアマッチングの一般化版に基づく効果的な推定手法を考案する。 提案手法の高次元解析により, 従来研究されていた全次元領域と同様に, シンプル領域を効率的に扱うことを示す。

Applications such as the analysis of microbiome data have led to renewed interest in statistical methods for compositional data, i.e., multivariate data in the form of probability vectors that contain relative proportions. In particular, there is considerable interest in modeling interactions among such relative proportions. To this end we propose a class of exponential family models that accommodate general patterns of pairwise interaction while being supported on the probability simplex. Special cases include the family of Dirichlet distributions as well as Aitchison's additive logistic normal distributions. Generally, the distributions we consider have a density that features a difficult to compute normalizing constant. To circumvent this issue, we design effective estimation methods based on generalized versions of score matching. A high-dimensional analysis of our estimation methods shows that the simplex domain is handled as efficiently as previously studied full-dimensional domains.
翻訳日:2021-09-13 13:20:29 公開日:2021-09-10
# スケーラブルモデル-データ合成のための低位統計有限要素

Low-rank statistical finite elements for scalable model-data synthesis ( http://arxiv.org/abs/2109.04757v1 )

ライセンス: Link先を確認
Connor Duffin, Edward Cripps, Thomas Stemler, Mark Girolami(参考訳) 物理的に派生した数学モデルへの統計的学習の追加が文学で注目を集めている。 近年のアプローチは、データ駆動ベイズ統計手法による支配方程式の基礎物理学を強化することである。 statfemと呼ばれるこの手法は、支配方程式に確率的強制を組み込むことによって、事前のモデル誤特定を認識する。 追加データを受け取ると、離散化有限要素溶液の後方分布を古典的ベイズフィルタ技術を用いて更新する。 その結果、モデル不特定性に関するユビキタスな問題と、真の関心の過程を表すことを意図したデータに関する不確実性を共同で定量化する。 この魅力にも拘わらず、計算のスケーラビリティは、物理的および工業的文脈で通常経験される高次元問題へのstatFEMの応用の課題である。 本論文は,このハードルを,全ランク代替の上位次数モードから得られる濃度共分散行列の低ランク近似を組み込むことで克服する。 実験およびシミュレーションデータを用いて、次元を増加させる一連の反応拡散問題において、後平均と分散の両方において、情報の損失を最小限に抑えながらスパースに観測されたデータ生成プロセスを再構成し、複雑なシステムへの物理的および確率的アプローチのさらなる統合への道を開く。

Statistical learning additions to physically derived mathematical models are gaining traction in the literature. A recent approach has been to augment the underlying physics of the governing equations with data driven Bayesian statistical methodology. Coined statFEM, the method acknowledges a priori model misspecification, by embedding stochastic forcing within the governing equations. Upon receipt of additional data, the posterior distribution of the discretised finite element solution is updated using classical Bayesian filtering techniques. The resultant posterior jointly quantifies uncertainty associated with the ubiquitous problem of model misspecification and the data intended to represent the true process of interest. Despite this appeal, computational scalability is a challenge to statFEM's application to high-dimensional problems typically experienced in physical and industrial contexts. This article overcomes this hurdle by embedding a low-rank approximation of the underlying dense covariance matrix, obtained from the leading order modes of the full-rank alternative. Demonstrated on a series of reaction-diffusion problems of increasing dimension, using experimental and simulated data, the method reconstructs the sparsely observed data-generating processes with minimal loss of information, in both posterior mean and the variance, paving the way for further integration of physical and probabilistic approaches to complex systems.
翻訳日:2021-09-13 13:20:17 公開日:2021-09-10
# オフライン強化学習のための状態行動バランス重み推定

Projected State-action Balancing Weights for Offline Reinforcement Learning ( http://arxiv.org/abs/2109.04640v1 )

ライセンス: Link先を確認
Jiayi Wang, Zhengling Qi and Raymond K.W. Wong(参考訳) オフライン政策評価(OPE)は強化学習(RL)における基本的な課題である。 本稿では, 無限ホライゾンマルコフ決定過程の枠組みの下で, 潜在的に異なる方針から生成された事前収集データに基づく目標政策の価値推定について述べる。 RLにおける最近開発された限界値サンプリング法と因果推論における共変量バランスのアイデアに動機付けられ,政策値推定のためのおよそ状態-作用バランスの重み付き推定器を提案する。 これらの重みの収束率を求め,提案する値推定器が技術的条件下では半パラメトリック効率であることを示す。 漸近論の観点では,各軌道における軌道数と決定点数の両方について結果がスケールする。 したがって、決定点の数にばらつきがある場合、限定的な数の被写体で一貫性を得ることができる。 さらに, 独立興味を持つかもしれない ope 問題の難易度を特徴付ける最初の試みを行った。 数値実験により提案した推定器の性能を実証した。

Offline policy evaluation (OPE) is considered a fundamental and challenging problem in reinforcement learning (RL). This paper focuses on the value estimation of a target policy based on pre-collected data generated from a possibly different policy, under the framework of infinite-horizon Markov decision processes. Motivated by the recently developed marginal importance sampling method in RL and the covariate balancing idea in causal inference, we propose a novel estimator with approximately projected state-action balancing weights for the policy value estimation. We obtain the convergence rate of these weights, and show that the proposed value estimator is semi-parametric efficient under technical conditions. In terms of asymptotics, our results scale with both the number of trajectories and the number of decision points at each trajectory. As such, consistency can still be achieved with a limited number of subjects when the number of decision points diverges. In addition, we make a first attempt towards characterizing the difficulty of OPE problems, which may be of independent interest. Numerical experiments demonstrate the promising performance of our proposed estimator.
翻訳日:2021-09-13 13:19:44 公開日:2021-09-10
# ソフトウェア工学領域における自然言語処理における事前学習トランスの妥当性について

On the validity of pre-trained transformers for natural language processing in the software engineering domain ( http://arxiv.org/abs/2109.04738v1 )

ライセンス: Link先を確認
Julian von der Mosel, Alexander Trautsch, Steffen Herbold(参考訳) トランスフォーマーは、多くの領域における自然言語処理の最先端技術であり、ソフトウェア工学の研究でも牽引力を使用している。 このようなモデルは、通常一般的なドメインから、大量のデータで事前学習される。 しかし、ソフトウェア工学領域におけるトランスフォーマーの妥当性、すなわち、ソフトウェア工学のコンテキストにおける単語や文の理解がいかに優れているか、そしてこれが最先端の技術をどのように改善するかについて、我々は限られた理解しか持たない。 この記事では、この複雑な、しかし重要な問題を取り上げます。 ソフトウェア工学データを用いて訓練されたBERTトランスフォーマーモデルを,複数の次元の一般ドメインデータに基づくトランスフォーマーと比較する。 ソフトウェア工学の文脈を理解する必要のあるタスクに対しては、ソフトウェア工学データによる事前学習が重要であり、汎用ドメインモデルは、ソフトウェア工学領域内においても、一般的な言語理解に十分であることを示す。

Transformers are the current state-of-the-art of natural language processing in many domains and are using traction within software engineering research as well. Such models are pre-trained on large amounts of data, usually from the general domain. However, we only have a limited understanding regarding the validity of transformers within the software engineering domain, i.e., how good such models are at understanding words and sentences within a software engineering context and how this improves the state-of-the-art. Within this article, we shed light on this complex, but crucial issue. We compare BERT transformer models trained with software engineering data with transformers based on general domain data in multiple dimensions: their vocabulary, their ability to understand which words are missing, and their performance in classification tasks. Our results show that for tasks that require understanding of the software engineering context, pre-training with software engineering data is valuable, while general domain models are sufficient for general language understanding, also within the software engineering domain.
翻訳日:2021-09-13 13:19:26 公開日:2021-09-10
# 超広帯域受信信号強度とガウス過程を用いたヘッド推定

Heading Estimation Using Ultra-Wideband Received Signal Strength and Gaussian Processes ( http://arxiv.org/abs/2109.04868v1 )

ライセンス: Link先を確認
Daniil Lisus, Charles Champagne Cossette, Mohammed Shalaby, James Richard Forbes(参考訳) ロボットは、タスクを自律的に実行する位置と方向を決定する能力を持っていることが不可欠である。 磁気歪みが磁力計に基づく方向推定を困難にする屋内環境では、特にヘッド推定は困難である。 ウルトラワイドバンド(UWB)トランシーバーは、屋内のローカライゼーション問題において一般的である。 本文は,UWB範囲と受信信号強度の測定値を用いてロボットの進路を推定する方法を実験的に示す。 UWBアンテナのRSSは方向によって変化する。 ガウス過程(GP)は、UWB範囲とRSS入力から向き出力へのデータ駆動関係を学習するために用いられる。 拡張カルマンフィルタにおけるジャイロスコープと組み合わせることで、UWBとジャイロスコープ測定のみを用いる方向推定法を実現する。

It is essential that a robot has the ability to determine its position and orientation to execute tasks autonomously. Heading estimation is especially challenging in indoor environments where magnetic distortions make magnetometer-based heading estimation difficult. Ultra-wideband (UWB) transceivers are common in indoor localization problems. This letter experimentally demonstrates how to use UWB range and received signal strength (RSS) measurements to estimate robot heading. The RSS of a UWB antenna varies with its orientation. As such, a Gaussian process (GP) is used to learn a data-driven relationship from UWB range and RSS inputs to orientation outputs. Combined with a gyroscope in an invariant extended Kalman filter, this realizes a heading estimation method that uses only UWB and gyroscope measurements.
翻訳日:2021-09-13 13:19:09 公開日:2021-09-10
# NeuralFMUを用いたヒト心血管系のハイブリッドモデリング

Hybrid modeling of the human cardiovascular system using NeuralFMUs ( http://arxiv.org/abs/2109.04880v1 )

ライセンス: Link先を確認
Tobias Thummerer, Johannes Tintenherr, Lars Mikelsons(参考訳) 第一原理と機械学習のモデルを組み合わせたハイブリッドモデリングは、ますます注目を集める新たな研究分野である。 ハイブリッドモデルがアカデミックな例で見事な結果を生み出すとしても、実世界のアプリケーションでハイブリッドモデリングを使うことを妨げる技術的な課題は依然として存在する。 ニューラルフムス, fmu, 数値odeソルバ, および ann の融合を提示することにより, 様々なモデリングツールから得られた様々な第一原理モデルをハイブリッドモデルの一部として用いる方法を模索している。 この貢献は、複雑な実世界の例のハイブリッドモデリングを扱っている: ヒトの心血管系(動脈側)の簡単な1d流体モデルから始め、データから動脈弾性のような無視された物理的効果を学ぶことを目的としている。 我々は、ハイブリッドモデリングプロセスがより快適で、システム知識がより少なく、従って第一原理のみに基づいたモデリングよりもエラーやすいことを示します。 さらに, 計算性能は純第一原理ホワイトボックスモデルと比較して向上したが, 血行力学的量の正確性に関する要件を満たしたままであった。 提案手法の使用は一般に説明され、医学領域内外における他のモデリングやシミュレーションの用途の例として、考えられるユースケースが有用である。

Hybrid modeling, the combination of first principle and machine learning models, is an emerging research field that gathers more and more attention. Even if hybrid models produce formidable results for academic examples, there are still different technical challenges that hinder the use of hybrid modeling in real-world applications. By presenting NeuralFMUs, the fusion of a FMU, a numerical ODE solver and an ANN, we are paving the way for the use of a variety of first principle models from different modeling tools as parts of hybrid models. This contribution handles the hybrid modeling of a complex, real-world example: Starting with a simplified 1D-fluid model of the human cardiovascular system (arterial side), the aim is to learn neglected physical effects like arterial elasticity from data. We will show that the hybrid modeling process is more comfortable, needs less system knowledge and is therefore less error-prone compared to modeling solely based on first principle. Further, the resulting hybrid model has improved in computation performance, compared to a pure first principle white-box model, while still fulfilling the requirements regarding accuracy of the considered hemodynamic quantities. The use of the presented techniques is explained in a general manner and the considered use-case can serve as example for other modeling and simulation applications in and beyond the medical domain.
翻訳日:2021-09-13 13:18:55 公開日:2021-09-10
# 都市部における市民中心の最適な電気自動車充電ステーション:マラガの事例

Citizen centric optimal electric vehicle charging stations locations in a full city: case of Malaga ( http://arxiv.org/abs/2109.04975v1 )

ライセンス: Link先を確認
Christian Cintrano, Jamal Toutouh, and Enrique Alba(参考訳) 本稿では,EV-CSL(EV-CSL)問題を定義し,都市における電気自動車充電ステーションの配置に関する問題点について述べる。 このアイデアは、市民が自動車を充電するために旅行する距離を最小化することにある。 EV-CSLは、設置する充電ステーションの最大数と電力需要を考慮している。 遺伝的アルゴリズム (GA) と可変近傍探索 (VNS) の2つのメタヒューリスティックスを適用した。 スペインのマラガ市における現実的なシナリオに関する実験分析は、メタヒューリスティクスがマラガの駅の設置を劇的に改善する競争的解決策を見つけることができることを示した。 GAは統計学的に最良の結果を与えた。

This article presents the problem of locating electric vehicle (EV) charging stations in a city by defining the Electric Vehicle Charging Stations Locations (EV-CSL) problem. The idea is to minimize the distance the citizens have to travel to charge their vehicles. EV-CSL takes into account the maximum number of charging stations to install and the electric power requirements. Two metaheuristics are applied to address the relying optimization problem: a genetic algorithm (GA) and a variable neighborhood search (VNS). The experimental analysis over a realistic scenario of Malaga city, Spain, shows that the metaheuristics are able to find competitive solutions which dramatically improve the actual installation of the stations in Malaga. GA provided statistically the best results.
翻訳日:2021-09-13 13:18:33 公開日:2021-09-10
# スケジューリング,割り当て,公平選択のための局所最適数集合分割法

Efficient Locally Optimal Number Set Partitioning for Scheduling, Allocation and Fair Selection ( http://arxiv.org/abs/2109.04809v1 )

ライセンス: Link先を確認
Kaan Gokcesu, Hakan Gokcesu(参考訳) 分割和の差が最小となる)集合分割問題の最適化版について検討し、決定論の文献に多くの応用がある。 集合分割問題はNPハードであり、解くのに指数関数的複雑性(すなわち、難解)を必要とするが、このNPハード問題のより弱いバージョンを定式化し、そこでは局所最適解を求める。 提案アルゴリズムは, ほぼ線形時間で局所最適解を求めることができることを示す。 我々のアルゴリズムは入力集合に正の要素も整数の要素も必要とせず、より広く適用できる。

We study the optimization version of the set partition problem (where the difference between the partition sums are minimized), which has numerous applications in decision theory literature. While the set partitioning problem is NP-hard and requires exponential complexity to solve (i.e., intractable); we formulate a weaker version of this NP-hard problem, where the goal is to find a locally optimal solution. We show that our proposed algorithms can find a locally optimal solution in near linear time. Our algorithms require neither positive nor integer elements in the input set, hence, they are more widely applicable.
翻訳日:2021-09-13 13:18:19 公開日:2021-09-10
# ProcK: 知識集約型プロセスのための機械学習

ProcK: Machine Learning for Knowledge-Intensive Processes ( http://arxiv.org/abs/2109.04881v1 )

ライセンス: Link先を確認
Tobias Jacobs, Jingyi Yu, Julia Gastinger, Timo Sztyler(参考訳) プロセスマイニングは、ビジネスプロセス実行ログからの知識の抽出を扱う。 プロセスモデル生成やコンフォーマンスチェックのような従来のプロセスマイニングタスクは、各イベントがケース識別子、アクティビティタイプ、タイムスタンプのみによって特徴づけられる最小限の機能セットに依存しています。 対照的に、現代の機械学習の成功は、トレーニング中に利用可能なデータを直接入力として取り、機能層を自動構築するモデルに基づいている。 本稿では,イベントログ形式の逐次データとグラフ構造知識ベースで表現されるリッチな意味情報の両方を考慮したビジネスプロセス予測モデルを構築するための新しいパイプラインであるprock(process & knowledge)を紹介する。 ハイブリッドアプローチにより、ProcKは組織のデータベースに存在するすべての情報を柔軟に利用できるようになる。 関係データベースから相互リンクされたイベントログと知識ベースを抽出するコンポーネントは、パイプラインの一部である。 OULADのeラーニングデータセットで予測タスクをトレーニングすることで、ProcKのパワーを実証し、学生の退学を予測し、その成功を予測するタスクにおいて最先端のパフォーマンスを達成する。 また,試験結果の予測や,授業初週に記録されたデータのみを考慮に入れた早期予測など,追加の機械学習タスクにも本手法を適用した。

Process mining deals with extraction of knowledge from business process execution logs. Traditional process mining tasks, like process model generation or conformance checking, rely on a minimalistic feature set where each event is characterized only by its case identifier, activity type, and timestamp. In contrast, the success of modern machine learning is based on models that take any available data as direct input and build layers of features automatically during training. In this work, we introduce ProcK (Process & Knowledge), a novel pipeline to build business process prediction models that take into account both sequential data in the form of event logs and rich semantic information represented in a graph-structured knowledge base. The hybrid approach enables ProcK to flexibly make use of all information residing in the databases of organizations. Components to extract inter-linked event logs and knowledge bases from relational databases are part of the pipeline. We demonstrate the power of ProcK by training it for prediction tasks on the OULAD e-learning dataset, where we achieve state-of-the-art performance on the tasks of predicting student dropout from courses and predicting their success. We also apply our method on a number of additional machine learning tasks, including exam score prediction and early predictions that only take into account data recorded during the first weeks of the courses.
翻訳日:2021-09-13 13:18:07 公開日:2021-09-10
# マルチエージェント深部強化学習(MADRL)とマルチユーザMIMOシステム

Multi-agent deep reinforcement learning (MADRL) meets multi-user MIMO systems ( http://arxiv.org/abs/2109.04986v1 )

ライセンス: Link先を確認
Heunchul Lee, Jaeseong Jeong(参考訳) マルチエージェント深部強化学習(MADRL)は、高次元連続行動空間を持つ複数の意思決定者(またはアクター)を含む無線環境における課題に対する有望なアプローチである。 本稿では,MISO(Multiple-input Single-output)干渉チャネル(IFC)に対する達成可能なレート領域の外部バウンダリ(pareto-boundary)を実現するために,MADRLベースのアプローチを提案する。 miso ifc設定における部分可観測性と多次元連続アクション空間を有する複数のアクター(またはエージェント)の2つの主な課題に対処するために、部分可観測性を持つ分散アクターがグローバル情報による共有批判の助けを借りて多次元連続ポリシーを学習できるマルチエージェントのdeep deterministic policy gradient(ma-ddpg)フレームワークを採用する。 また、無線通信で広く使われている信号の複雑なベースバンド表現による位相曖昧性にも対処する。 そこで本研究では, 位相曖昧性がトレーニング性能に与える影響を緩和するために, 相曖昧性除去 (pae) と呼ばれる訓練法を提案し, 無線通信システムにおけるma-ddpgの高速化と性能向上に繋がる。 シミュレーションの結果,MA-DDPGはMISO IFC環境下で準最適プリコーディング戦略を学習できることがわかった。 我々の知る限り、MA-DDPGフレームワークは、マルチセルマルチユーザマルチアンテナシステムにおいて、達成可能なレート領域のパリトバウンダリを実現するために、プリコーダを協調的に最適化できることを示す最初の試みである。

A multi-agent deep reinforcement learning (MADRL) is a promising approach to challenging problems in wireless environments involving multiple decision-makers (or actors) with high-dimensional continuous action space. In this paper, we present a MADRL-based approach that can jointly optimize precoders to achieve the outer-boundary, called pareto-boundary, of the achievable rate region for a multiple-input single-output (MISO) interference channel (IFC). In order to address two main challenges, namely, multiple actors (or agents) with partial observability and multi-dimensional continuous action space in MISO IFC setup, we adopt a multi-agent deep deterministic policy gradient (MA-DDPG) framework in which decentralized actors with partial observability can learn a multi-dimensional continuous policy in a centralized manner with the aid of shared critic with global information. Meanwhile, we will also address a phase ambiguity issue with the conventional complex baseband representation of signals widely used in radio communications. In order to mitigate the impact of phase ambiguity on training performance, we propose a training method, called phase ambiguity elimination (PAE), that leads to faster learning and better performance of MA-DDPG in wireless communication systems. The simulation results exhibit that MA-DDPG is capable of learning a near-optimal precoding strategy in a MISO IFC environment. To the best of our knowledge, this is the first work to demonstrate that the MA-DDPG framework can jointly optimize precoders to achieve the pareto-boundary of achievable rate region in a multi-cell multi-user multi-antenna system.
翻訳日:2021-09-13 13:17:44 公開日:2021-09-10