このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210603となっている論文です。

PDF登録状況(公開日: 20210603)

TitleAuthorsAbstract論文公表日・翻訳日
# 機械学習のための注意メカニズムと深層学習--最先端技術に関する調査から

Attention mechanisms and deep learning for machine vision: A survey of the state of the art ( http://arxiv.org/abs/2106.07550v1 )

ライセンス: Link先を確認
Abdul Mueed Hafiz, Shabir Ahmad Parah, Rouf Ul Alam Bhat(参考訳) state of the art natureにインスパイアされた純粋な注意に基づくモデルが出現した。 トランスフォーマーと自然言語処理(NLP)の成功、機械ビジョン(MV)タスクの拡張は避けられず、多くの感覚を持っていた。 その後、視覚変換器(ViT)を導入し、確立されたディープラーニングベースのマシンビジョン技術に挑戦している。 しかし、トランスフォーマーのような純粋な注意に基づくモデル/アーキテクチャは、膨大なデータ、大きなトレーニング時間、巨大な計算リソースを必要とする。 最近の研究では、これら2つの異なる分野の組み合わせが、これらの分野の両方の利点を持つシステムを構築できることが示されている。 そこで,本論文では,読者が興味深く,潜在的に有望な研究領域に関する情報を得られることを期待する。 注意機構の穏やかな紹介に続いて、一般的な注目に基づくディープアーキテクチャの議論が行われる。 その後,機械ビジョン(MV)に基づく注意機構と深層学習の主なカテゴリについて論じる。 その後,論文の範囲内の主要なアルゴリズム,課題,傾向について考察した。

With the advent of state of the art nature-inspired pure attention based models i.e. transformers, and their success in natural language processing (NLP), their extension to machine vision (MV) tasks was inevitable and much felt. Subsequently, vision transformers (ViTs) were introduced which are giving quite a challenge to the established deep learning based machine vision techniques. However, pure attention based models/architectures like transformers require huge data, large training times and large computational resources. Some recent works suggest that combinations of these two varied fields can prove to build systems which have the advantages of both these fields. Accordingly, this state of the art survey paper is introduced which hopefully will help readers get useful information about this interesting and potential research area. A gentle introduction to attention mechanisms is given, followed by a discussion of the popular attention based deep architectures. Subsequently, the major categories of the intersection of attention mechanisms and deep learning for machine vision (MV) based are discussed. Afterwards, the major algorithms, issues and trends within the scope of the paper are discussed.
翻訳日:2021-06-20 16:09:24 公開日:2021-06-03
# BERT文表現のための自己指導型コントラスト学習

Self-Guided Contrastive Learning for BERT Sentence Representations ( http://arxiv.org/abs/2106.07345v1 )

ライセンス: Link先を確認
Taeuk Kim, Kang Min Yoo, Sang-goo Lee(参考訳) BERTとその変種は、NLPのランドスケープを再形成しているが、そのような事前訓練されたトランスフォーマーから文の埋め込みをいかにして導き出すかは、まだ不明である。 本研究では,BERT 文表現の品質向上に自己指導を利用したコントラスト学習手法を提案する。 提案手法は,BERTを自己教師型で微調整し,データ拡張に頼らず,通常の[CLS]トークン埋め込みを文ベクトルとして機能させる。 さらに、コントラスト学習目標(NT-Xent)を再設計し、文表現学習に適用する。 提案手法は,多様な文関連タスクにおける競合ベースラインよりも有効であることを示す。 また、推論が効率的で、ドメインシフトに堅牢であることも示しています。

Although BERT and its variants have reshaped the NLP landscape, it still remains unclear how best to derive sentence embeddings from such pre-trained Transformers. In this work, we propose a contrastive learning method that utilizes self-guidance for improving the quality of BERT sentence representations. Our method fine-tunes BERT in a self-supervised fashion, does not rely on data augmentation, and enables the usual [CLS] token embeddings to function as sentence vectors. Moreover, we redesign the contrastive learning objective (NT-Xent) and apply it to sentence representation learning. We demonstrate with extensive experiments that our approach is more effective than competitive baselines on diverse sentence-related tasks. We also show it is efficient at inference and robust to domain shifts.
翻訳日:2021-06-20 16:08:44 公開日:2021-06-03
# MICo:マルコフ決定過程におけるサンプリングベース状態類似性による表現改善学習

MICo: Learning improved representations via sampling-based state similarity for Markov decision processes ( http://arxiv.org/abs/2106.08229v1 )

ライセンス: Link先を確認
Pablo Samuel Castro and Tyler Kastner and Prakash Panangaden and Mark Rowland(参考訳) 本稿では,マルコフ決定過程の状態空間上の新たな行動距離を示し,この距離を深層強化学習エージェントの学習表現を形作る効果的な手段として利用することを示す。 既存の状態類似性の概念は、高い計算コストとサンプルベースアルゴリズムの欠如により、大規模に学習することが通常難しいが、新たに提案された距離は、これらの問題の両方に対処する。 詳細な理論解析を行うことに加えて,この距離を値関数とともに学習すると,アーケード学習環境ベンチマークの強い結果を含む構造化表現と情報表現が得られるという実証的証拠を提供する。

We present a new behavioural distance over the state space of a Markov decision process, and demonstrate the use of this distance as an effective means of shaping the learnt representations of deep reinforcement learning agents. While existing notions of state similarity are typically difficult to learn at scale due to high computational cost and lack of sample-based algorithms, our newly-proposed distance addresses both of these issues. In addition to providing detailed theoretical analysis, we provide empirical evidence that learning this distance alongside the value function yields structured and informative representations, including strong results on the Arcade Learning Environment benchmark.
翻訳日:2021-06-20 16:08:30 公開日:2021-06-03
# PC-DAN:ポイントクラウドによる3次元多物体追跡のためのディープアフィニティネットワーク(CVPR21JRDB-ACTワークショップにおける拡張抽象化として)

PC-DAN: Point Cloud based Deep Affinity Network for 3D Multi-Object Tracking (Accepted as an extended abstract in JRDB-ACT Workshop at CVPR21) ( http://arxiv.org/abs/2106.07552v1 )

ライセンス: Link先を確認
Aakash Kumar, Jyoti Kini, Mubarak Shah, Ajmal Mian(参考訳) 近年,LIDAR(Light Detection and Ranging)センサー技術の範囲は,様々な分野に広がっている。 地形やナビゲーション情報を信頼できる3Dポイントのクラウドデータにマップするのによく使われ、自動運転車や補助ロボット産業に革命をもたらす可能性がある。 点雲は3次元座標における空間データの密集したコンパイルである。 2次元平面上の3次元構造の投影である画像データとは異なり、構造情報を保存し、視点歪みを避けるため、複雑な現実世界のシーンのモデリングにおいて重要な役割を果たす。 LIDARデータの本質的能力を活用するために,3次元多目的追跡(MOT)のためのPointNetベースのアプローチを提案する。

In recent times, the scope of LIDAR (Light Detection and Ranging) sensor-based technology has spread across numerous fields. It is popularly used to map terrain and navigation information into reliable 3D point cloud data, potentially revolutionizing the autonomous vehicles and assistive robotic industry. A point cloud is a dense compilation of spatial data in 3D coordinates. It plays a vital role in modeling complex real-world scenes since it preserves structural information and avoids perspective distortion, unlike image data, which is the projection of a 3D structure on a 2D plane. In order to leverage the intrinsic capabilities of the LIDAR data, we propose a PointNet-based approach for 3D Multi-Object Tracking (MOT).
翻訳日:2021-06-20 16:07:46 公開日:2021-06-03
# 自己組織化ニューラルネットマップによる手術課題の専門知識

Surgical task expertise detected by a self-organizing neural network map ( http://arxiv.org/abs/2106.08995v1 )

ライセンス: Link先を確認
Birgitta Dresp-Langley, Rongrong Liu, John M. Wandeto(参考訳) 内視鏡手術用に設計されたロボット制御装置を用いて、専門家と初心者の人体シミュレータータスクパフォーマンスの個別グリップ力プロファイリングにより、初心者や研修医のスキルから真の専門家タスクスキルを示すベンチマーク基準を定義することができる。 ロボット支援手術シミュレータタスクを行う真の専門家と初心者のグリップ力変動は,タスクの専門性として統計的に有意な差異を示す。 そこで本研究では,霊長類脳における体性感覚神経ネットワークの機能的接続をマッピングする,バイオインスパイアされた機能的アーキテクチャを備えた自己組織化ニューラルネットワークマップ(SOM)の出力測定値を用いて,局所グリップ力のスキル特異的差を予測した。

Individual grip force profiling of bimanual simulator task performance of experts and novices using a robotic control device designed for endoscopic surgery permits defining benchmark criteria that tell true expert task skills from the skills of novices or trainee surgeons. Grip force variability in a true expert and a complete novice executing a robot assisted surgical simulator task reveal statistically significant differences as a function of task expertise. Here we show that the skill specific differences in local grip forces are predicted by the output metric of a Self Organizing neural network Map (SOM) with a bio inspired functional architecture that maps the functional connectivity of somatosensory neural networks in the primate brain.
翻訳日:2021-06-20 16:06:19 公開日:2021-06-03
# フォトニック逆設計における最適解発見のための枠組み

A Framework for Discovering Optimal Solutions in Photonic Inverse Design ( http://arxiv.org/abs/2106.08419v1 )

ライセンス: Link先を確認
Jagrit Digani, Phillip Hon, Artur R. Davoyan(参考訳) フォトニック逆設計は複雑な光学系にとって必須の工学ツールとして登場した。 多くの場合において、材料構成と幾何構成の両方に最適化することが重要であり、これは複数の局所ミニマを持つ複雑な非滑らかな探索空間をもたらす。 グローバル最適に近づく解を見つけることは、計算的に難解なタスクを示すかもしれない。 本稿では,複雑な最適化空間上でのグローバル最適化に近い解の探索を高速化するフレームワークを開発する。 遺伝的アルゴリズム(GA)、パーティクルスワム最適化(PSO)、シミュレートアニーリング(SA)、メッシュ適応直接探索(NOMAD)など、代表的なブラックボックス最適化アルゴリズムの動作方法を検討する。 次に,任意に複雑な探索空間における最適性能アルゴリズムを同定する二段階法を提案し,活用する。 探索空間の複雑性とアルゴリズムの性能の関係を明らかにするとともに, pso と nomad は, フォトニック逆設計において遭遇する混合整数問題に対して, 一貫して優れた性能をもたらすことを見出した。 本研究の結果はGAの利点とは異なっており, 最適性能を有するフォトニックシステムの設計の効率化が期待できる。

Photonic inverse design has emerged as an indispensable engineering tool for complex optical systems. In many instances it is important to optimize for both material and geometry configurations, which results in complex non-smooth search spaces with multiple local minima. Finding solutions approaching global optimum may present a computationally intractable task. Here, we develop a framework that allows expediting the search of solutions close to global optimum on complex optimization spaces. We study the way representative black box optimization algorithms work, including genetic algorithm (GA), particle swarm optimization (PSO), simulated annealing (SA), and mesh adaptive direct search (NOMAD). We then propose and utilize a two-step approach that identifies best performance algorithms on arbitrarily complex search spaces. We reveal a connection between the search space complexity and algorithm performance and find that PSO and NOMAD consistently deliver better performance for mixed integer problems encountered in photonic inverse design, particularly with the account of material combinations. Our results differ from a commonly anticipated advantage of GA. Our findings will foster more efficient design of photonic systems with optimal performance.
翻訳日:2021-06-20 16:05:20 公開日:2021-06-03
# (参考訳) ニューラルネットワークの因果関係 --拡張された抽象 [全文訳有]

Causality in Neural Networks -- An Extended Abstract ( http://arxiv.org/abs/2106.05842v1 )

ライセンス: CC BY 4.0
Abbavaram Gowtham Reddy(参考訳) 因果推論は、人間が使う主要な学習および説明ツールである。 AIシステムは、信頼と信頼性を持って現実世界にデプロイされる因果推論能力を持つべきである。 因果性の概念を機械学習に導入することは、より良い学習と説明可能なモデルを提供するのに役立つ。 説明可能性、因果解離は、あらゆる機械学習モデルにおいて重要な側面である。 因果的説明はモデルの決定を信じるために必要であり、因果的絡み合い学習は転向学習アプリケーションにとって重要である。 因果性の考え方を深層学習モデルに活用して,公平性や不一致表現などにおいて有用な,より良く,因果的に説明可能なモデルを実現する。

Causal reasoning is the main learning and explanation tool used by humans. AI systems should possess causal reasoning capabilities to be deployed in the real world with trust and reliability. Introducing the ideas of causality to machine learning helps in providing better learning and explainable models. Explainability, causal disentanglement are some important aspects of any machine learning model. Causal explanations are required to believe in a model's decision and causal disentanglement learning is important for transfer learning applications. We exploit the ideas of causality to be used in deep learning models to achieve better and causally explainable models that are useful in fairness, disentangled representation, etc.
翻訳日:2021-06-15 13:06:03 公開日:2021-06-03
# (参考訳) マルチエージェント経路探索のための分散的アプローチ [全文訳有]

Decentralised Approach for Multi Agent Path Finding ( http://arxiv.org/abs/2106.05188v1 )

ライセンス: CC BY-SA 4.0
Shyni Thomas, M. Narasimha Murty(参考訳) マルチエージェントパス探索(mapf)は、ポイントサイズや次元を持つエージェントの競合フリーパスの識別を必要とする。 本稿では,空間拡張エージェントに対するMAPFのアプローチを提案する。 これらはConvoy Movement ProblemやTraning Schedulingといった現実世界の問題に適用できる。 提案手法であるDecentralized Multi Agent Path Finding (DeMAPF) は、MAPFを2組のエージェント・トラベラーとルータによって複数の繰り返しでそれぞれ解決される経路計画および割り当て問題の列として扱う。 分散化されるアプローチにより、エージェントは、同じセット内の他のエージェントを意識せずに、自分自身に関連する問題を解決することができる。 これによりエージェントは独立マシン上で実行され、大規模な問題に対処するためのスケーラビリティが実現される。 我々は、他の分散アプローチと比較して、この手法が競合のないソリューションへのより高速な収束をもたらすことを証明している。

Multi Agent Path Finding (MAPF) requires identification of conflict free paths for agents which could be point-sized or with dimensions. In this paper, we propose an approach for MAPF for spatially-extended agents. These find application in real world problems like Convoy Movement Problem, Train Scheduling etc. Our proposed approach, Decentralised Multi Agent Path Finding (DeMAPF), handles MAPF as a sequence of pathplanning and allocation problems which are solved by two sets of agents Travellers and Routers respectively, over multiple iterations. The approach being decentralised allows an agent to solve the problem pertinent to itself, without being aware of other agents in the same set. This allows the agents to be executed on independent machines, thereby leading to scalability to handle large sized problems. We prove, by comparison with other distributed approaches, that the approach leads to a faster convergence to a conflict-free solution, which may be suboptimal, with lesser memory requirement.
翻訳日:2021-06-15 13:01:26 公開日:2021-06-03
# (参考訳) 確率的ホワイトニングバッチ正規化 [全文訳有]

Stochastic Whitening Batch Normalization ( http://arxiv.org/abs/2106.04413v1 )

ライセンス: CC BY 4.0
Shengdong Zhang, Ehsan Nezhadarya, Homa Fashandi, Jiayi Liu, Darin Graham, Mohak Shah(参考訳) バッチ正規化(BN)はディープニューラルネットワーク(DNN)をトレーニングするための一般的なテクニックである。 BNはスケーリングとシフトを使用してミニバッチの活性化を正規化し、収束を加速し、一般化を改善する。 最近提案された反復正規化(IterNorm)法はニュートン法を用いて活性化を反復的に白くすることでこれらの特性を改善する。 しかし、ニュートンの手法はトレーニングの各ステップごとにホワイトニング行列を独立に初期化するため、連続するステップ間で情報は共有されない。 本研究では,提案する確率的ホワイトニングバッチ正規化(swbn)アルゴリズムを用いて,各時間ステップにおけるホワイトニング行列の正確な計算ではなく,オンライントレーニング中に徐々に推定する手法を提案する。 SWBN は DNN の収束率と一般化を改善するが,その計算オーバーヘッドは IterNorm よりも小さい。 提案手法の高効率化により,多数のレイヤを持つほとんどのDNNアーキテクチャで容易に利用することができる。 提案手法の有効性を示すため,BN層, IterNorm層, SWBN層の比較実験を行った。

Batch Normalization (BN) is a popular technique for training Deep Neural Networks (DNNs). BN uses scaling and shifting to normalize activations of mini-batches to accelerate convergence and improve generalization. The recently proposed Iterative Normalization (IterNorm) method improves these properties by whitening the activations iteratively using Newton's method. However, since Newton's method initializes the whitening matrix independently at each training step, no information is shared between consecutive steps. In this work, instead of exact computation of whitening matrix at each time step, we estimate it gradually during training in an online fashion, using our proposed Stochastic Whitening Batch Normalization (SWBN) algorithm. We show that while SWBN improves the convergence rate and generalization of DNNs, its computational overhead is less than that of IterNorm. Due to the high efficiency of the proposed method, it can be easily employed in most DNN architectures with a large number of layers. We provide comprehensive experiments and comparisons between BN, IterNorm, and SWBN layers to demonstrate the effectiveness of the proposed technique in conventional (many-shot) image classification and few-shot classification tasks.
翻訳日:2021-06-15 12:49:21 公開日:2021-06-03
# (参考訳) BiFair: 双方向最適化によるフェアモデルのトレーニング [全文訳有]

BiFair: Training Fair Models with Bilevel Optimization ( http://arxiv.org/abs/2106.04757v1 )

ライセンス: CC BY 4.0
Mustafa Safa Ozdayi, Murat Kantarcioglu, Rishabh Iyer(参考訳) 以前の研究では、実用的計量(例えば精度)を最大化するために経験的損失最小化による機械学習モデルを訓練すると、識別予測を行うモデルが得られることが示されている。 この問題を緩和するため、我々はBiFairという名の新しいトレーニングアルゴリズムを開発し、ユーティリティの最小化と公正な関心の喪失を共同で行う。 重要なことは、トレーニングの目的を直接変更することなく、例えば正規化の項を追加することです。 むしろ、トレーニングデータセットの重み付けのセットを学び、重み付きデータセットのトレーニングは、優れたユーティリティと公平性の両方を保証します。 データセットの重み付けは、保持されたバリデーションデータセットを使用して二段階最適化問題を解決することによって、モデルトレーニングに共起して学習される。 全体として、このアプローチは、より公平な利用のトレードオフを持つモデルをもたらす。 特に,3つの実世界のデータセットに対して,我々のアルゴリズムを他の3つの最先端の公正なトレーニングアルゴリズムと比較し,bifairが一貫して優れた性能を発揮することを実証した。 さらに、我々のアルゴリズムはスケーラブルです。 これはロジスティック回帰のような単純なモデルと、実験分析によって証明されたディープニューラルネットワークのようなより複雑なモデルの両方に適用できる。

Prior studies have shown that, training machine learning models via empirical loss minimization to maximize a utility metric (e.g., accuracy), might yield models that make discriminatory predictions. To alleviate this issue, we develop a new training algorithm, named BiFair, which jointly minimizes for a utility, and a fairness loss of interest. Crucially, we do so without directly modifying the training objective, e.g., by adding regularization terms. Rather, we learn a set of weights on the training dataset, such that, training on the weighted dataset ensures both good utility, and fairness. The dataset weights are learned in concurrence to the model training, which is done by solving a bilevel optimization problem using a held-out validation dataset. Overall, this approach yields models with better fairness-utility trade-offs. Particularly, we compare our algorithm with three other state-of-the-art fair training algorithms over three real-world datasets, and demonstrate that, BiFair consistently performs better, i.e., we reach to better values of a given fairness metric under same, or higher accuracy. Further, our algorithm is scalable. It is applicable both to simple models, such as logistic regression, as well as more complex models, such as deep neural networks, as evidenced by our experimental analysis.
翻訳日:2021-06-15 12:31:41 公開日:2021-06-03
# (参考訳) Augmented Recurrent Input を用いた動的システムの深部確率的時系列予測 [全文訳有]

Deep Probabilistic Time Series Forecasting using Augmented Recurrent Input for Dynamic Systems ( http://arxiv.org/abs/2106.05848v1 )

ライセンス: CC BY 4.0
Haitao Liu, Changjun Liu, Xiaomo Jiang, Xudong Chen, Shuhua Yang, Xiaofang Wang(参考訳) 確率的時系列予測の需要は、最近、システムの同定や、マシンの予測と健康管理など、様々な動的システムシナリオで高まっている。 この目的のために私たちは、深層生成モデルと状態空間モデル(ssm)の両方の進歩を組み合わせることで、新しいデータ駆動型深層確率シーケンスモデルを考え出す。 特に、一般的なエンコーダ・デコーダ生成構造に従い、拡張されたリカレント入力空間上にrecurrent neural networks(rnn)支援の変分シーケンスモデルを構築する。 さらに、トレーニングと予測の不整合の問題を緩和し、動的パターンのマイニングを改善するため、次のステップでハイブリッド出力を入力として使用し、トレーニングと予測をアライメント化することを提案し、さらに(ii)現在のステップにおけるすべての歴史的依存関係をエンコードする汎用的な自己回帰戦略を考案する。 その後,玩具ケースにおける深層確率列モデルの方法論的特徴を考察し,様々な力学系から得られた8種類のシステム同定ベンチマークを用いて,既存の深部確率列モデルに対するモデルの有効性を総合的に検証した。 最後に,実世界の遠心圧縮機センサデータ予測問題にシーケンスモデルを適用し,時系列予測分布を定量化し,その優れた性能を再度検証する。

The demand of probabilistic time series forecasting has been recently raised in various dynamic system scenarios, for example, system identification and prognostic and health management of machines. To this end, we combine the advances in both deep generative models and state space model (SSM) to come up with a novel, data-driven deep probabilistic sequence model. Specially, we follow the popular encoder-decoder generative structure to build the recurrent neural networks (RNN) assisted variational sequence model on an augmented recurrent input space, which could induce rich stochastic sequence dependency. Besides, in order to alleviate the issue of inconsistency between training and predicting as well as improving the mining of dynamic patterns, we (i) propose using a hybrid output as input at next time step, which brings training and predicting into alignment; and (ii) further devise a generalized auto-regressive strategy that encodes all the historical dependencies at current time step. Thereafter, we first investigate the methodological characteristics of the proposed deep probabilistic sequence model on toy cases, and then comprehensively demonstrate the superiority of our model against existing deep probabilistic SSM models through extensive numerical experiments on eight system identification benchmarks from various dynamic systems. Finally, we apply our sequence model to a real-world centrifugal compressor sensor data forecasting problem, and again verify its outstanding performance by quantifying the time series predictive distribution.
翻訳日:2021-06-15 12:17:05 公開日:2021-06-03
# 部分的不整合データを用いた線形回帰:理論的保証を伴う局所探索

Linear regression with partially mismatched data: local search with theoretical guarantees ( http://arxiv.org/abs/2106.02175v1 )

ライセンス: Link先を確認
Rahul Mazumder, Haoyue Wang(参考訳) 線形回帰は統計学および関連分野における基本的なモデリングツールである。 本稿では,予測子応答対が部分的に不一致している線形回帰の重要な変種について検討する。 最適化定式化を用いて, 基礎となる回帰係数と不一致に対応する順列を同時に学習する。 この問題の組合せ構造は計算上の問題を引き起こす。 本稿では,この最適化問題に対して,強力な理論的保証と計算性能を満足する簡単な局所探索アルゴリズムを提案し,検討する。 提案手法は,サンプル数,特徴数,問題データに対する仮定に比較して整合性のあるペアの数を適切にスケーリングし,局所探索アルゴリズムが線形速度でほぼ最適解に収束することを証明する。 特にノイズレスの場合、我々のアルゴリズムは線形収束率で大域最適解に収束する。 また、より大規模なインスタンスにアプローチをスケールできるような、近似的な局所探索手順も提案する。 理論的結果のさらなる洞察を得るために数値実験を行い,既存手法と比較して有望な性能向上を示す。

Linear regression is a fundamental modeling tool in statistics and related fields. In this paper, we study an important variant of linear regression in which the predictor-response pairs are partially mismatched. We use an optimization formulation to simultaneously learn the underlying regression coefficients and the permutation corresponding to the mismatches. The combinatorial structure of the problem leads to computational challenges. We propose and study a simple greedy local search algorithm for this optimization problem that enjoys strong theoretical guarantees and appealing computational performance. We prove that under a suitable scaling of the number of mismatched pairs compared to the number of samples and features, and certain assumptions on problem data; our local search algorithm converges to a nearly-optimal solution at a linear rate. In particular, in the noiseless case, our algorithm converges to the global optimal solution with a linear convergence rate. We also propose an approximate local search step that allows us to scale our approach to much larger instances. We conduct numerical experiments to gather further insights into our theoretical results and show promising performance gains compared to existing approaches.
翻訳日:2021-06-08 17:38:56 公開日:2021-06-03
# (参考訳) ニューラル平均場ダイナミクスによる影響推定と最大化 [全文訳有]

Influence Estimation and Maximization via Neural Mean-Field Dynamics ( http://arxiv.org/abs/2106.02608v1 )

ライセンス: CC BY 4.0
Shushan He, Hongyuan Zha and Xiaojing Ye(参考訳) 異種拡散ネットワーク上での推論および推定問題に対するニューラル平均場(NMF)ダイナミクスを用いた新しい学習フレームワークを提案する。 我々の新しいフレームワークは、モリ・ズワンジッヒ形式を利用して個々のノード感染確率の正確な進化方程式を求め、学習可能な時間畳み込み演算子によって近似されたメモリ積分の遅延微分方程式を描画する。 情報拡散カスケードデータを直接利用して,拡散ネットワークの構造とノード感染確率の進化を同時に学習することができる。 パラメータ学習と最適制御の接続も確立され、nmfを訓練するための厳密で実装可能なアルゴリズムとなる。 さらに,各イテレーションで1回だけnmfを前方に積分することにより,勾配を極端に高速に計算する難解な影響最大化問題を解決するために,投影勾配降下法が有効であることを示す。 広範な実証研究により,本手法は基盤となる拡散ネットワークモデルに多様で頑健であり,合成データと実世界のデータの両方において,既存の手法の精度と効率を大幅に上回っていることが示された。

We propose a novel learning framework using neural mean-field (NMF) dynamics for inference and estimation problems on heterogeneous diffusion networks. Our new framework leverages the Mori-Zwanzig formalism to obtain an exact evolution equation of the individual node infection probabilities, which renders a delay differential equation with memory integral approximated by learnable time convolution operators. Directly using information diffusion cascade data, our framework can simultaneously learn the structure of the diffusion network and the evolution of node infection probabilities. Connections between parameter learning and optimal control are also established, leading to a rigorous and implementable algorithm for training NMF. Moreover, we show that the projected gradient descent method can be employed to solve the challenging influence maximization problem, where the gradient is computed extremely fast by integrating NMF forward in time just once in each iteration. Extensive empirical studies show that our approach is versatile and robust to variations of the underlying diffusion network models, and significantly outperform existing approaches in accuracy and efficiency on both synthetic and real-world data.
翻訳日:2021-06-08 16:50:57 公開日:2021-06-03
# (参考訳) 民主主義を守る: 深層学習を使って誤情報を特定し予防する [全文訳有]

Defending Democracy: Using Deep Learning to Identify and Prevent Misinformation ( http://arxiv.org/abs/2106.02607v1 )

ライセンス: CC BY 4.0
Anusua Trivedi, Alyssa Suhm, Prathamesh Mahankal, Subhiksha Mukuntharaj, Meghana D. Parab, Malvika Mohan, Meredith Berger, Arathi Sethumadhavan, Ashish Jaiman, Rahul Dodhia(参考訳) 近年のオンライン偽情報の増加は、真正の世論を歪め、混乱、恐怖、さらには極端な場合の暴力を引き起こすことで民主主義を脅かす。 虚偽情報の拡散をネットネットワークを通じて理解し、ウイルスに感染する前に偽情報を妨害する介入を開発する必要がある。 本研究では,言語理解のためのディープ双方向トランスフォーマー(BERT)と伝搬グラフを用いて,ソーシャルメディア上での誤情報拡散の分類と可視化を行う。 その結果,誤情報検出のための深層学習モデルの精度を改善しつつ,ユーザクラスタと偽コンテンツのバイラル性に関する先行研究を確認した。 この研究はさらに、偽情報検出のためのスケーラブルなモデルを提供するためのbertの適合性を示し、オンライン環境における誤情報の拡散を遅くする、よりタイムリーで正確な介入の開発に寄与する。

The rise in online misinformation in recent years threatens democracies by distorting authentic public discourse and causing confusion, fear, and even, in extreme cases, violence. There is a need to understand the spread of false content through online networks for developing interventions that disrupt misinformation before it achieves virality. Using a Deep Bidirectional Transformer for Language Understanding (BERT) and propagation graphs, this study classifies and visualizes the spread of misinformation on a social media network using publicly available Twitter data. The results confirm prior research around user clusters and the virality of false content while improving the precision of deep learning models for misinformation detection. The study further demonstrates the suitability of BERT for providing a scalable model for false information detection, which can contribute to the development of more timely and accurate interventions to slow the spread of misinformation in online environments.
翻訳日:2021-06-08 15:43:49 公開日:2021-06-03
# (参考訳) LGBTQ-AI? チャットボットにおけるジェンダー表現と性的指向の探索 [全文訳有]

LGBTQ-AI? Exploring Expressions of Gender and Sexual Orientation in Chatbots ( http://arxiv.org/abs/2106.02076v1 )

ライセンス: CC BY 4.0
Justin Edwards, Leigh Clark and Allison Perrone(参考訳) チャットボットはタスク指向およびソーシャルインタラクションのための人気のあるマシンパートナーである。 人間と人間のコンピュータによるコミュニケーション研究は、オンラインのソーシャルインタラクションにおいて、人々が性別やセクシュアリティをどのように表現するかを探求しているが、チャットボットがどのような方法で同じことをするのかについてはほとんど知られていない。 5つのテキストベースの会話エージェントと半構造化インタビューを行い、これらのインタビューを通して、性別と性的アイデンティティの表現に関する一般的な6つのテーマ、アイデンティティ記述、アイデンティティ形成、ピア受け入れ、ポジティブなリフレクション、不快な感情、オフトピックの反応を特定した。 チャットボットは、性とセクシュアリティを明確に表現し、経験と感情の関係を通じて、訓練された人間の言語を模倣する。 チャットボットは、生きた人間の体験によって実現される柔軟性と理解が欠けているため、人間の対話相手とは異なることは明らかである。 チャットボットは、アイデンティティを表現するために言語を使うことに熟達しているが、性別やセクシュアリティの真の経験の欠如も示している。

Chatbots are popular machine partners for task-oriented and social interactions. Human-human computer-mediated communication research has explored how people express their gender and sexuality in online social interactions, but little is known about whether and in what way chatbots do the same. We conducted semi-structured interviews with 5 text-based conversational agents to explore this topic Through these interviews, we identified 6 common themes around the expression of gender and sexual identity: identity description, identity formation, peer acceptance, positive reflection, uncomfortable feelings and off-topic responses. Chatbots express gender and sexuality explicitly and through relation of experience and emotions, mimicking the human language on which they are trained. It is nevertheless evident that chatbots differ from human dialogue partners as they lack the flexibility and understanding enabled by lived human experience. While chatbots are proficient in using language to express identity, they also display a lack of authentic experiences of gender and sexuality.
翻訳日:2021-06-08 15:33:11 公開日:2021-06-03
# (参考訳) 励磁の持続性によるロバスト学習 [全文訳有]

Robust Learning via Persistency of Excitation ( http://arxiv.org/abs/2106.02078v1 )

ライセンス: CC BY 4.0
Kaustubh Sridhar, Oleg Sokolsky, Insup Lee, James Weimer(参考訳) ニューラルネットワークの敵の堅牢性を改善することは、依然として大きな課題である。 基本的に、ネットワークのトレーニングはパラメータ推定の問題である。 適応制御理論では、励起(PoE)の持続性を維持することは、力学系におけるパラメータ推定の安定な最適性への収束を保証するために不可欠である。 本研究では,勾配降下を用いたネットワークトレーニングが,力学系パラメータ推定問題と同値であることを示す。 この関係を利用して, 学習速度が損失関数の勾配のリプシッツ定数の逆数よりも小さい場合には, 勾配降下のpoeが十分条件となることを示す。 極値理論を用いて対応するリプシッツ定数を推定する効率的な手法を提案し、学習率スケジュールをスケーリングするだけで、ベンチマークデータセット上で最大15%の逆精度を向上できることを示した。 提案手法は,AutoAttackベンチマークにおいて,各改善の小さなマージンが有意な,様々な最先端の対戦訓練モデルにおいて,敵の精度を0.1%から0.3%向上させる。

Improving adversarial robustness of neural networks remains a major challenge. Fundamentally, training a network is a parameter estimation problem. In adaptive control theory, maintaining persistency of excitation (PoE) is integral to ensuring convergence of parameter estimates in dynamical systems to their robust optima. In this work, we show that network training using gradient descent is equivalent to a dynamical system parameter estimation problem. Leveraging this relationship, we prove a sufficient condition for PoE of gradient descent is achieved when the learning rate is less than the inverse of the Lipschitz constant of the gradient of loss function. We provide an efficient technique for estimating the corresponding Lipschitz constant using extreme value theory and demonstrate that by only scaling the learning rate schedule we can increase adversarial accuracy by up to 15% on benchmark datasets. Our approach also universally increases the adversarial accuracy by 0.1% to 0.3% in various state-of-the-art adversarially trained models on the AutoAttack benchmark, where every small margin of improvement is significant.
翻訳日:2021-06-08 14:58:07 公開日:2021-06-03
# (参考訳) 至上主義における男女非対称性のダイアクロニック評価 [全文訳有]

A diachronic evaluation of gender asymmetry in euphemism ( http://arxiv.org/abs/2106.02083v1 )

ライセンス: CC BY 4.0
Anna Kapron-King and Yang Xu(参考訳) ユーフェミズムの使用は言語変化の原動力として知られている。 女性は男性よりもエウヘミズムを使うことが提案されている。 言語における性差に関する研究はいくつかあるが、ユーフェミズムの使用に関する主張は時間とともに総合的に検証されていない。 もし女性がエウヘミズムをもっと使うなら、女性は新しいエウヘミズムの形成と言語の変化を時間とともに導くことになるかもしれない。 英語の4つのダイアクロニックテキストコーパスを用いて,女性が男性よりもエウヘミズムを使用しているという主張を定量的分析により評価した。 106対のエウヘミズムとタブーのペアのリストを収集し, コーパス内の性別ごとの相対的使用状況を分析した。 既存の信念とは対照的に、女性は男性よりも高い比率でユーフェミズムを使用しないことを示している。 我々は,エウヘミズムとタブーのペアリストの異なるサブセットを用いて分析を繰り返し,その結果が堅牢であることが判明した。 本研究は, 発話と筆記の両方を含む幅広い場面において, 様々な形式性を持つ女性では, 男性よりも優美主義を用いないか, 形成しないことを示す。

The use of euphemisms is a known driver of language change. It has been proposed that women use euphemisms more than men. Although there have been several studies investigating gender differences in language, the claim about euphemism usage has not been tested comprehensively through time. If women do use euphemisms more, this could mean that women also lead the formation of new euphemisms and language change over time. Using four large diachronic text corpora of English, we evaluate the claim that women use euphemisms more than men through a quantitative analysis. We assembled a list of 106 euphemism-taboo pairs to analyze their relative use through time by each gender in the corpora. Contrary to the existing belief, our results show that women do not use euphemisms with a higher proportion than men. We repeated the analysis using different subsets of the euphemism-taboo pairs list and found that our result was robust. Our study indicates that in a broad range of settings involving both speech and writing, and with varying degrees of formality, women do not use or form euphemisms more than men.
翻訳日:2021-06-08 14:31:53 公開日:2021-06-03
# (参考訳) COVID-19の適応的疫学的予測と地域リスク評価 [全文訳有]

Adaptive Epidemic Forecasting and Community Risk Evaluation of COVID-19 ( http://arxiv.org/abs/2106.02094v1 )

ライセンス: CC BY 4.0
Vishrawas Gopalakrishnan, Sayali Navalekar, Pan Ding, Ryan Hooley, Jacob Miller, Raman Srinivasan, Ajay Deshpande, Xuan Liu, Simone Bianco, James H. Kaufman(参考訳) ロックダウンやレストランの規制、集会などのパンデミック対策は、新型コロナウイルスの感染拡大抑制に有効であることが示されている。 しかし、その持続的な効果は経済に悪影響を及ぼす。 パンデミックに対して効果的でありながら、国民や経済の苦難を軽減させる戦略や政策を策定するには、適切な地理空間的粒度における疾病のダイナミクスを理解する必要がある。 変動する需要に対処する病院の能力、様々な再開シナリオの評価、正確な症例の予測といった要因は意思決定に不可欠である。 この目的に向けて、公共衛生データを第3のクライアントデータとシームレスに統合し、コミュニティを再オープンするリスクを正確に見積もる柔軟なエンドツーエンドソリューションを提案する。 その中心となるのが最先端予測モデルで、トランスミッションとモビリティの変化するトレンドを自動的に把握する。 各種ベースラインに対するベンチマークにより,予測アルゴリズムの優位性が確認された。 このソリューションは、複数のクライアント固有の要求に拡張し、反事実分析を通じて推論を行う能力と組み合わせることで、政府から教育機関、病院、商業施設に至るまで、複数のクライアントドメインに対して実行可能な洞察を提供する。

Pandemic control measures like lock-down, restrictions on restaurants and gatherings, social-distancing have shown to be effective in curtailing the spread of COVID-19. However, their sustained enforcement has negative economic effects. To craft strategies and policies that reduce the hardship on the people and the economy while being effective against the pandemic, authorities need to understand the disease dynamics at the right geo-spatial granularity. Considering factors like the hospitals' ability to handle the fluctuating demands, evaluating various reopening scenarios, and accurate forecasting of cases are vital to decision making. Towards this end, we present a flexible end-to-end solution that seamlessly integrates public health data with tertiary client data to accurately estimate the risk of reopening a community. At its core lies a state-of-the-art prediction model that auto-captures changing trends in transmission and mobility. Benchmarking against various published baselines confirm the superiority of our forecasting algorithm. Combined with the ability to extend to multiple client-specific requirements and perform deductive reasoning through counter-factual analysis, this solution provides actionable insights to multiple client domains ranging from government to educational institutions, hospitals, and commercial establishments.
翻訳日:2021-06-08 14:18:57 公開日:2021-06-03
# (参考訳) モデルに基づく強化学習のための意識型計画エージェント [全文訳有]

A Consciousness-Inspir ed Planning Agent for Model-Based Reinforcement Learning ( http://arxiv.org/abs/2106.02097v1 )

ライセンス: CC BY 4.0
Mingde Zhao, Zhen Liu, Sitao Luan, Shuyuan Zhang, Doina Precup, Yoshua Bengio(参考訳) 提案するエンド・ツー・エンド・エンド・モデルに基づく深層強化学習エージェントは,その状態の関連部分に動的に参画し,より良いアウト・オブ・ディストリビューションを計画し,一般化する。 エージェントのアーキテクチャは、設定された表現とボトルネックメカニズムを使用し、エージェントが各計画ステップに出席するエンティティの数を小さくする。 異なるダイナミクスを持つカスタマイズされたMiniGrid環境の実験では、エージェントが関連するオブジェクトに参画することで効果的に計画を学ぶことができ、配布外一般化の改善が期待できる。

We present an end-to-end, model-based deep reinforcement learning agent which dynamically attends to relevant parts of its state, in order to plan and to generalize better out-of-distribution. The agent's architecture uses a set representation and a bottleneck mechanism, forcing the number of entities to which the agent attends at each planning step to be small. In experiments with customized MiniGrid environments with different dynamics, we observe that the design allows agents to learn to plan effectively, by attending to the relevant objects, leading to better out-of-distribution generalization.
翻訳日:2021-06-08 14:03:27 公開日:2021-06-03
# (参考訳) カナダナノテクノロジーの知識生産に及ぼす認知的・地理的・協調的近接の影響 [全文訳有]

Influence of cognitive, geographical, and collaborative proximity on knowledge production of Canadian nanotechnology ( http://arxiv.org/abs/2106.02110v1 )

ライセンス: CC BY 4.0
Elva Luz Crespo Neira and Ashkan Ebadi and Catherine Beaudry and Andrea Schiffauerova(参考訳) 既存の知識を組み込むことは、新しいアイデアの革新、発見、生成に不可欠である。 研究と発明による知識生産は、科学と技術開発の鍵である。 ナノテクノロジーは新興技術として、既に世界経済に大きな可能性を証明しており、かなりの連邦投資を集めている。 カナダはナノテクノロジー研究の主要な企業の一つとして報告されている。 本稿では,カナダのナノテクノロジー研究者を解析し,知識生産と拡散の主要因に焦点を当てた。 カナダのナノテクノロジーにおける知識生産は、認知、地理的、協調的な3つの重要な近接要因に影響されていると仮定した。 統計的分析,ソーシャルネットワーク分析,機械学習技術を用いて,近接要因が学術知識生産に与える影響を総合的に評価した。 結果は,3つの重要な近接要因の有意な影響を示すだけでなく,その予測可能性も示す。

Incorporating existing knowledge is vital for innovating, discovering, and generating new ideas. Knowledge production through research and invention is the key to scientific and technological development. As an emerging technology, nanotechnology has already proved its great potential for the global economy, attracting considerable federal investments. Canada is reported as one of the major players in producing nanotechnology research. In this paper, we focused on the main drivers of knowledge production and diffusion by analyzing Canadian nanotechnology researchers. We hypothesized that knowledge production in Canadian nanotechnology is influenced by three key proximity factors, namely cognitive, geographical, and collaborative. Using statistical analysis, social network analysis, and machine learning techniques we comprehensively assessed the influence of the proximity factors on academic knowledge production. Our results not only prove a significant impact of the three key proximity factors but also their predictive potential.
翻訳日:2021-06-08 13:32:45 公開日:2021-06-03
# (参考訳) 説明付きスプリアスパターンの発見と修正 [全文訳有]

Finding and Fixing Spurious Patterns with Explanations ( http://arxiv.org/abs/2106.02112v1 )

ライセンス: CC BY 4.0
Gregory Plumb, Marco Tulio Ribeiro, Ameet Talwalkar(参考訳) 機械学習モデルは多くの場合、一般化しない「テニスラケットを検出するために人が存在すること」のようなスプリアスパターンを用いる。 本稿では,画像分類器のスプリアスパターンを識別・緩和するためのエンドツーエンドパイプラインを提案する。 モデルによるテニスラケットの予測は、人々が隠れている場合の63%の時間変化」のようなパターンを見つけることから始める。 そして、もしパターンがスプリアスであれば、新しい形式のデータ拡張によって緩和します。 我々は,このアプローチが多様なスプリアスパターンを識別し,スプリアスパターンが役に立たず,分散シフトにロバストな分布において,より精度の高いモデルを作ることによって,それらを軽減することを実証する。

Machine learning models often use spurious patterns such as "relying on the presence of a person to detect a tennis racket," which do not generalize. In this work, we present an end-to-end pipeline for identifying and mitigating spurious patterns for image classifiers. We start by finding patterns such as "the model's prediction for tennis racket changes 63% of the time if we hide the people." Then, if a pattern is spurious, we mitigate it via a novel form of data augmentation. We demonstrate that this approach identifies a diverse set of spurious patterns and that it mitigates them by producing a model that is both more accurate on a distribution where the spurious pattern is not helpful and more robust to distribution shift.
翻訳日:2021-06-08 13:12:14 公開日:2021-06-03
# (参考訳) アメリカ全12州における胸部X線人工知能診断支援ツールの性能調査の展望 病院

A Prospective Observational Study to Investigate Performance of a Chest X-ray Artificial Intelligence Diagnostic Support Tool Across 12 U.S. Hospitals ( http://arxiv.org/abs/2106.02118v1 )

ライセンス: CC BY 4.0
Ju Sun, Le Peng, Taihui Li, Dyah Adila, Zach Zaiman, Genevieve B. Melton, Nicholas Ingraham, Eric Murray, Daniel Boley, Sean Switzer, John L. Burns, Kun Huang, Tadashi Allen, Scott D. Steenburg, Judy Wawira Gichoya, Erich Kummerfeld, Christopher Tignanelli(参考訳) 重要性: 人工知能(AI)に基づく、胸部X線(CXR)所見から新型コロナウイルスの可能性を予測するためのモデルが、即時臨床意思決定を加速し、臨床意思決定を改善する重要な要素となる。 多大な努力にもかかわらず、これまで開発された新型コロナウイルスのAI診断モデルには多くの制限とバイアスが存在する。 局所的および国際的CXR画像の大規模な集合を利用して、時間的および外部的検証に高い性能を持つAIモデルを開発した。 結論と関連性: AIベースの診断ツールは、曝露履歴、兆候、症状に大きく依存する新型コロナウイルス(COVID-19)診断の臨床的決定支援のために、補助的だが代替ではない。 AIベースのツールは新型コロナウイルス(COVID-19)の完全な診断能力にはまだ達していないが、臨床症状や症状とともに検討された臨床医に貴重な情報を提供する可能性がある。

Importance: An artificial intelligence (AI)-based model to predict COVID-19 likelihood from chest x-ray (CXR) findings can serve as an important adjunct to accelerate immediate clinical decision making and improve clinical decision making. Despite significant efforts, many limitations and biases exist in previously developed AI diagnostic models for COVID-19. Utilizing a large set of local and international CXR images, we developed an AI model with high performance on temporal and external validation. Conclusions and Relevance: AI-based diagnostic tools may serve as an adjunct, but not replacement, for clinical decision support of COVID-19 diagnosis, which largely hinges on exposure history, signs, and symptoms. While AI-based tools have not yet reached full diagnostic potential in COVID-19, they may still offer valuable information to clinicians taken into consideration along with clinical signs and symptoms.
翻訳日:2021-06-08 12:48:01 公開日:2021-06-03
# (参考訳) 軸配向ガウスの私的学習混合 [全文訳有]

Privately Learning Mixtures of Axis-Aligned Gaussians ( http://arxiv.org/abs/2106.02162v1 )

ライセンス: CC BY 4.0
Ishaq Aden-Ali, Hassan Ashtiani, Christopher Liaw(参考訳) 我々は、近似微分プライバシーの制約の下でガウスの混合を学習する問題を考察する。 我々は、$\widetilde{o}(k^2 d \log^{3/2}(1/\delta) / \alpha^2 \varepsilon)$サンプルは、$(\varepsilon, \delta)$-微分プライバシーを満たしながら、$\mathbb{r}^d$ から$k$軸整合ガウスの混合物を学ぶのに十分であることを証明する。 これは、非有界軸整列(あるいは非有界単変数)ガウスの混合を私的に学習する最初の結果である。 ガウス群の各共分散行列が同一行列であれば、$\widetilde{o}(kd/\alpha^2 + kd \log(1/\delta) / \alpha \varepsilon)$ のサンプルは十分である。 近年、Bun, Kamath, Steinke, Wu の「局所被覆」技術は、共分散行列を持つ高次元ガウスの私的学習に成功し、Aden-Ali, Ashtiani, Kamath による一般高次元ガウスの私的学習にも応用されている。 これらのポジティブな結果を考えると、このアプローチはガウスの個人学習混合物の有望な方向性として提案されている。 残念なことに、これは不可能である。 混合分布をプライベートに学習する新しい手法を設計する。 分布のクラス $\mathcal{f}$ がリスト決定可能(list-decodable)であるとは、$f\in \mathcal{f}$ のサンプルが与えられたとき、分布のリスト $\widehat{\mathcal{f}}$ を出力するアルゴリズムが存在して、$\widehat{\mathcal{f}}$ の分布の1つが$f$ に近似するときに言う。 もし$\mathcal{F}$がプライベートにリストデコダブルであれば、$\mathcal{F}$で分布の混合をプライベートに学ぶことができる。 最後に,軸方向のガウス分布がプライベートリスト決定可能であることを示し,これらの分布の混合がプライベート学習可能であることを示す。

We consider the problem of learning mixtures of Gaussians under the constraint of approximate differential privacy. We prove that $\widetilde{O}(k^2 d \log^{3/2}(1/\delta) / \alpha^2 \varepsilon)$ samples are sufficient to learn a mixture of $k$ axis-aligned Gaussians in $\mathbb{R}^d$ to within total variation distance $\alpha$ while satisfying $(\varepsilon, \delta)$-differentia l privacy. This is the first result for privately learning mixtures of unbounded axis-aligned (or even unbounded univariate) Gaussians. If the covariance matrices of each of the Gaussians is the identity matrix, we show that $\widetilde{O}(kd/\alpha^2 + kd \log(1/\delta) / \alpha \varepsilon)$ samples are sufficient. Recently, the "local covering" technique of Bun, Kamath, Steinke, and Wu has been successfully used for privately learning high-dimensional Gaussians with a known covariance matrix and extended to privately learning general high-dimensional Gaussians by Aden-Ali, Ashtiani, and Kamath. Given these positive results, this approach has been proposed as a promising direction for privately learning mixtures of Gaussians. Unfortunately, we show that this is not possible. We design a new technique for privately learning mixture distributions. A class of distributions $\mathcal{F}$ is said to be list-decodable if there is an algorithm that, given "heavily corrupted" samples from $f\in \mathcal{F}$, outputs a list of distributions, $\widehat{\mathcal{F}}$, such that one of the distributions in $\widehat{\mathcal{F}}$ approximates $f$. We show that if $\mathcal{F}$ is privately list-decodable, then we can privately learn mixtures of distributions in $\mathcal{F}$. Finally, we show axis-aligned Gaussian distributions are privately list-decodable, thereby proving mixtures of such distributions are privately learnable.
翻訳日:2021-06-08 11:33:41 公開日:2021-06-03
# (参考訳) リンク予測のための偽グラフ学習 [全文訳有]

Counterfactual Graph Learning for Link Prediction ( http://arxiv.org/abs/2106.02172v1 )

ライセンス: CC BY 4.0
Tong Zhao, Gang Liu, Daheng Wang, Wenhao Yu, Meng Jiang(参考訳) 多くのグラフベースのアプリケーションにとって、リンク不足を予測することは重要だ。 既存の手法では,(1)観測されたグラフ構造と(2)一対のノード間のリンクの存在という2つの変数の観測関係を学習する。 しかし、これらの変数間の因果関係は無視され、「観測されたグラフ構造が異なる場合、リンクが存在するかどうか」という逆の質問をするだけで学習する可能性を見いだす。 因果推論によってこの質問に答えるために,ノード対の情報を文脈として,グローバルグラフ構造特性を処理として,リンク存在を結果として考える。 そこで本研究では,グラフ学習を非現実的推論により促進する新しいリンク予測手法を提案する。 本手法は,観測対象から反実的リンクを生成し,その双方から表現を学習する。 複数のベンチマークデータセットの実験により,提案手法がリンク予測における最先端性能を実現することを示す。

Learning to predict missing links is important for many graph-based applications. Existing methods were designed to learn the observed association between two sets of variables: (1) the observed graph structure and (2) the existence of link between a pair of nodes. However, the causal relationship between these variables was ignored and we visit the possibility of learning it by simply asking a counterfactual question: "would the link exist or not if the observed graph structure became different?" To answer this question by causal inference, we consider the information of the node pair as context, global graph structural properties as treatment, and link existence as outcome. In this work, we propose a novel link prediction method that enhances graph learning by the counterfactual inference. It creates counterfactual links from the observed ones, and our method learns representations from both of them. Experiments on a number of benchmark datasets show that our proposed method achieves the state-of-the-art performance on link prediction.
翻訳日:2021-06-08 10:58:44 公開日:2021-06-03
# スペクトルクラスタリング、ラプラシアン固有マップ、局所保存投影、グラフ埋め込み、拡散マップを含むラプラシアンに基づく次元化:チュートリアルとサーベイ

Laplacian-Based Dimensionality Reduction Including Spectral Clustering, Laplacian Eigenmap, Locality Preserving Projection, Graph Embedding, and Diffusion Map: Tutorial and Survey ( http://arxiv.org/abs/2106.02154v1 )

ライセンス: Link先を確認
Benyamin Ghojogh, Ali Ghodsi, Fakhri Karray, Mark Crowley(参考訳) 本稿では,データグラフのラプラシアンに基づく非線形次元と特徴抽出法に関するチュートリアルとサーベイペーパーについて述べる。 まず,隣接行列,ラプラシアン行列の定義,ラプラシアン行列の解釈について述べる。 次に、データのサブスペースにクラスタリングを適用するグラフとスペクトルクラスタリングのカットについて説明する。 ラプラシアン固有写像の異なる最適化変種とその外例拡張を説明する。 その後,ラプラシアン固有写像の線形特殊ケースとして局所保存射影とそのカーネル変種を導入する。 グラフ埋め込みのバージョンは、ラプラシア固有写像と局所性保存射影の一般化バージョンである。 最後に,データのラプラシアンとランダムウォークに基づくデータグラフ上の拡散マップを導入する。

This is a tutorial and survey paper for nonlinear dimensionality and feature extraction methods which are based on the Laplacian of graph of data. We first introduce adjacency matrix, definition of Laplacian matrix, and the interpretation of Laplacian. Then, we cover the cuts of graph and spectral clustering which applies clustering in a subspace of data. Different optimization variants of Laplacian eigenmap and its out-of-sample extension are explained. Thereafter, we introduce the locality preserving projection and its kernel variant as linear special cases of Laplacian eigenmap. Versions of graph embedding are then explained which are generalized versions of Laplacian eigenmap and locality preserving projection. Finally, diffusion map is introduced which is a method based on Laplacian of data and random walks on the data graph.
翻訳日:2021-06-07 15:24:44 公開日:2021-06-03
# MSE損失下での神経崩壊 : 中心経路の近さとダイナミクス

Neural Collapse Under MSE Loss: Proximity to and Dynamics on the Central Path ( http://arxiv.org/abs/2106.02073v1 )

ライセンス: Link先を確認
X.Y. Han, Vardan Papyan, David L. Donoho(参考訳) 最近の研究(Papyan, Han, and Donoho, 2020)は、今日のディープネットトレーニングパラダイムにおいて、クロスエントロピーの損失をゼロに導くために広範に発生するNeural Collapse(NC)と呼ばれる現象を発見した。 この現象では、最終層の特徴はクラス平均に崩壊し、分類器とクラス平均の両方が同じSimplex Equiangular Tight Frame (ETF)に崩壊し、最終層分類器の挙動は最寄りのクラス平均決定規則に収束する。 それ以来、Mixonらによるフォローアップが続いた。 [2020] と Poggio と Liao [2020a,b] は、この帰納バイアスを、よりトラクタブル平均二乗誤差 (MSE) の損失に置き換えることで、形式的に解析した。 しかしこれらの研究は、ベンチマークデータセットと標準ネットワークに関するmse-ncの実証的な現実をpapyan, han, donoho[2020]で実証し、クロスエントロピー損失を実証するには至らなかった。 本研究では、3つの原型ネットワークと5つの標準データセットに対する実験的な観測を報告し、MSE-NCの実証現実を確立した。 次に,MSE-NCにインスパイアされた3つの主要なコントリビューションを開発した。 まず, MSE の損失を (A) 最終層分類器がちょうど極小二乗あるいは Webb あるいは Lowe [1990] 分類器であると仮定する項と, (B) 最小二乗分類器からの偏差を捉える項に分解する。 第二に、訓練中は項(B)が無視可能であることを示す標準データセットとネットワークの実験を示す。 これは新しい理論的な構成を動機付けている: 線形分類器が mse-optimal- for the given feature activations-through the dynamics である。 最後に, 中心経路に沿った非正規化勾配流の研究を通じて, 非拘束特徴量モデルにおける完全なニューラル崩壊を予測する閉形式力学を生成する。

Recent work [Papyan, Han, and Donoho, 2020] discovered a phenomenon called Neural Collapse (NC) that occurs pervasively in today's deep net training paradigm of driving cross-entropy loss towards zero. In this phenomenon, the last-layer features collapse to their class-means, both the classifiers and class-means collapse to the same Simplex Equiangular Tight Frame (ETF), and the behavior of the last-layer classifier converges to that of the nearest-class-mean decision rule. Since then, follow-ups-such as Mixon et al. [2020] and Poggio and Liao [2020a,b]-formally analyzed this inductive bias by replacing the hard-to-study cross-entropy by the more tractable mean squared error (MSE) loss. But, these works stopped short of demonstrating the empirical reality of MSE-NC on benchmark datasets and canonical networks-as had been done in Papyan, Han, and Donoho [2020] for the cross-entropy loss. In this work, we establish the empirical reality of MSE-NC by reporting experimental observations for three prototypical networks and five canonical datasets with code for reproducing NC. Following this, we develop three main contributions inspired by MSE-NC. Firstly, we show a new theoretical decomposition of the MSE loss into (A) a term assuming the last-layer classifier is exactly the least-squares or Webb and Lowe [1990] classifier and (B) a term capturing the deviation from this least-squares classifier. Secondly, we exhibit experiments on canonical datasets and networks demonstrating that, during training, term-(B) is negligible. This motivates a new theoretical construct: the central path, where the linear classifier stays MSE-optimal-for the given feature activations-througho ut the dynamics. Finally, through our study of continually renormalized gradient flow along the central path, we produce closed-form dynamics that predict full Neural Collapse in an unconstrained features model.
翻訳日:2021-06-07 15:24:32 公開日:2021-06-03
# 最大風化によるSchr\"オーディンガーブリッジの解法

Solving Schr\"odinger Bridges via Maximum Likelihood ( http://arxiv.org/abs/2106.02081v1 )

ライセンス: Link先を確認
Francisco Vargas, Pierre Thodoroff, Neil D. Lawrence, Austen Lamacraft(参考訳) schr\"odinger bridge problem (sbp) は、2つの確率分布の間の確率的進化の可能性が最も高い。 自然科学の応用と同様に、この種の問題はデータセットアライメントや仮説テストといった機械学習に重要な応用をもたらす。 この問題の背後にある理論は比較的成熟しているが、シュル=オディンガー橋を推定するためのスケーラブルな数値レシピは依然として研究の活発な領域である。 我々は,SBPと最大推定値の等価性を証明し,機械学習技術の直接適用を可能にする。 ガウス過程を用いてsbpを推定する数値計算法を提案し,数値シミュレーションおよび実験における本手法の実用性を示す。

The Schr\"odinger bridge problem (SBP) finds the most likely stochastic evolution between two probability distributions given a prior stochastic evolution. As well as applications in the natural sciences, problems of this kind have important applications in machine learning such as dataset alignment and hypothesis testing. Whilst the theory behind this problem is relatively mature, scalable numerical recipes to estimate the Schr\"odinger bridge remain an active area of research. We prove an equivalence between the SBP and maximum likelihood estimation enabling direct application of successful machine learning techniques. We propose a numerical procedure to estimate SBPs using Gaussian process and demonstrate the practical usage of our approach in numerical simulations and experiments.
翻訳日:2021-06-07 15:20:51 公開日:2021-06-03
# 形状保存次元の低減 : トポロジカル等価性のアルゴリズムと対策

Shape-Preserving Dimensionality Reduction : An Algorithm and Measures of Topological Equivalence ( http://arxiv.org/abs/2106.02096v1 )

ライセンス: Link先を確認
Byeongsu Yu, Kisung You(参考訳) 位相的特徴を持続的ホモロジーで保存する線形次元減少手法を導入する。 この方法は線形射影$L$を見つけるよう設計されており、これは模擬アニールを通して点クラウド$\mathbb{X}$の持続図を保存している。 射影$L$は、Rips (または \v{C}ech) フィルターの$\mathbb{X}$から$L\mathbb{X}$への正準単純写像の集合を誘導する。 永続図形の間の距離に加えて、射影はフィルター準同型と呼ばれるフィルター間の写像を誘導する。 フィルター準同型を用いて、擬同型 $\mu_{\operatorname{quasi-iso}}$ あるいは強ホモトピー同値 $\mu_{\operatorname{equiv}}$ に対して、単体複体を直接比較する2つのフィルターの形状の差を測定することができる。 これらの $\mu_{\operatorname{quasi-iso}}$ と $\mu_{\operatorname{equiv}}$ は、対応する単純錯体のそれぞれが準同型あるいはホモトピー同値であるかを測定する。 フレームワークの有効性を簡単な例で検証します。

We introduce a linear dimensionality reduction technique preserving topological features via persistent homology. The method is designed to find linear projection $L$ which preserves the persistent diagram of a point cloud $\mathbb{X}$ via simulated annealing. The projection $L$ induces a set of canonical simplicial maps from the Rips (or \v{C}ech) filtration of $\mathbb{X}$ to that of $L\mathbb{X}$. In addition to the distance between persistent diagrams, the projection induces a map between filtrations, called filtration homomorphism. Using the filtration homomorphism, one can measure the difference between shapes of two filtrations directly comparing simplicial complexes with respect to quasi-isomorphism $\mu_{\operatorname{quasi-iso}}$ or strong homotopy equivalence $\mu_{\operatorname{equiv}}$. These $\mu_{\operatorname{quasi-iso}}$ and $\mu_{\operatorname{equiv}}$ measures how much portion of corresponding simplicial complexes is quasi-isomorphic or homotopy equivalence respectively. We validate the effectiveness of our framework with simple examples.
翻訳日:2021-06-07 15:20:42 公開日:2021-06-03
# マルチアームバンディットアルゴリズムの最悪の動作をよく見る

A Closer Look at the Worst-case Behavior of Multi-armed Bandit Algorithms ( http://arxiv.org/abs/2106.02126v1 )

ライセンス: Link先を確認
Anand Kalvit and Assaf Zeevi(参考訳) mab(classic (stochastic) multi-armed bandit)問題における複雑さの鍵となる要因の1つは、上位2つの腕の平均報酬(インスタンスギャップ)の違いである。 有名なuper confidence bound(ucb)ポリシーは、このギャップに自然に適応する最も単純なオプティミズムベースのmabアルゴリズムの1つである: プレイnの地平線に対して、"大きな"ギャップを持つインスタンスにおいて最適なo(log n)後悔を達成し、ギャップが任意に"小さい"場合に、至近のオプティミズムo(\sqrt{n log n})ミニマックス後悔を達成する。 本稿では,ucbのアームサンプリング動作に関する新たな結果について述べる。 これらのうち, UCB におけるアームサンプリング率は, 問題複雑性に関係なく, 漸近的に決定論的であることが示されている。 この発見は、新しい鋭い漸近と、 UCB の O(\sqrt{n log n}) ミニマックス後悔の新たな証明を促進する。 さらに,従来の拡散スケーリングにおけるUPBの下でのMAB問題の完全なプロセスレベル評価も提供する。 この論文で採用されている「小さな」ギャップの最悪ケースレンズは、後者の特徴である「不完全学習」のような、ucbとトンプソンサンプリングの挙動の明確な区別も明らかにしている。

One of the key drivers of complexity in the classical (stochastic) multi-armed bandit (MAB) problem is the difference between mean rewards in the top two arms, also known as the instance gap. The celebrated Upper Confidence Bound (UCB) policy is among the simplest optimism-based MAB algorithms that naturally adapts to this gap: for a horizon of play n, it achieves optimal O(log n) regret in instances with "large" gaps, and a near-optimal O(\sqrt{n log n}) minimax regret when the gap can be arbitrarily "small." This paper provides new results on the arm-sampling behavior of UCB, leading to several important insights. Among these, it is shown that arm-sampling rates under UCB are asymptotically deterministic, regardless of the problem complexity. This discovery facilitates new sharp asymptotics and a novel alternative proof for the O(\sqrt{n log n}) minimax regret of UCB. Furthermore, the paper also provides the first complete process-level characterization of the MAB problem under UCB in the conventional diffusion scaling. Among other things, the "small" gap worst-case lens adopted in this paper also reveals profound distinctions between the behavior of UCB and Thompson Sampling, such as an "incomplete learning" phenomenon characteristic of the latter.
翻訳日:2021-06-07 15:20:24 公開日:2021-06-03
# 教師なし単語セグメンテーションのためのセグメンショナルコントラスト予測符号化

Segmental Contrastive Predictive Coding for Unsupervised Word Segmentation ( http://arxiv.org/abs/2106.02170v1 )

ライセンス: Link先を確認
Saurabhchand Bhati, Jes\'us Villalba, Piotr \.Zelasko, Laureano Moro-Velazquez, Najim Dehak(参考訳) 音素や単語のような単位の自動検出は、ゼロリソース音声処理における中核的な目的の1つである。 最近の試みでは、コントラスト予測符号化(CPC)のような自己教師付きトレーニング手法が採用されている。 しかし、CPCは音声信号のフレームレベル構造のみを見る。 信号構造を高レベルにモデル化できるsegmental contrastive prediction coding (scpc) フレームワークによって,この制限を克服した。 音素レベルで この枠組みでは、畳み込みニューラルネットワークがノイズコントラスト推定(NCE)により生波形からフレームレベルの表現を学習する。 微分可能な境界検出器は可変長のセグメントを見つけ、NCEを介してセグメントエンコーダを最適化してセグメント表現を学習する。 可変境界検出器はフレームレベルとセグメントレベルのエンコーダを共同で訓練することができる。 通常、音素と単語分割は別のタスクとして扱われる。 我々はこれらを統一し、TIMITおよびBuckeyeデータセット上の既存の音素・単語分割法よりも優れていることを示す。 境界しきい値の影響を解析し,学習プロセスにセグメント損失を含むための適切なタイミングについて分析する。

Automatic detection of phoneme or word-like units is one of the core objectives in zero-resource speech processing. Recent attempts employ self-supervised training methods, such as contrastive predictive coding (CPC), where the next frame is predicted given past context. However, CPC only looks at the audio signal's frame-level structure. We overcome this limitation with a segmental contrastive predictive coding (SCPC) framework that can model the signal structure at a higher level e.g. at the phoneme level. In this framework, a convolutional neural network learns frame-level representation from the raw waveform via noise-contrastive estimation (NCE). A differentiable boundary detector finds variable-length segments, which are then used to optimize a segment encoder via NCE to learn segment representations. The differentiable boundary detector allows us to train frame-level and segment-level encoders jointly. Typically, phoneme and word segmentation are treated as separate tasks. We unify them and experimentally show that our single model outperforms existing phoneme and word segmentation methods on TIMIT and Buckeye datasets. We analyze the impact of boundary threshold and when is the right time to include the segmental loss in the learning process.
翻訳日:2021-06-07 15:17:07 公開日:2021-06-03
# earth mover's pinball loss: quantiles for histogram-valued regression

The Earth Mover's Pinball Loss: Quantiles for Histogram-Valued Regression ( http://arxiv.org/abs/2106.02051v1 )

ライセンス: Link先を確認
Florian List(参考訳) 科学界ではユビキタスだが、ヒストグラムデータはディープラーニングコミュニティからはあまり注目を集めていない。 スカラーとベクトルデータの回帰と分類タスクはニューラルネットワークによって日常的に解決されるが、入力ベクトルや画像の関数としてヒストグラムラベルを推定するための原理的なアプローチは文献に欠けている。 本稿では,各ビンの累積ヒストグラムの$\tau$-quantilesで表される,クロスビン情報と可能なヒストグラム上の分布を付与する,深層学習に基づくヒストグラム回帰のための専用手法を提案する。 本手法の要点は, ピンボールロスを累積ヒストグラムに適用することにより得られる新たな損失関数であり, 1次元ヒストグラムの場合, 中央値 (\tau = 0.5$) の特別な場合において地球Mover距離 (EMD) に還元し, 任意の量子化に一般化する。 本手法は,具体例,サッカー関連課題,天体物理学的コンピュータビジョン問題を用いて検証する。 損失関数では,予測中央値ヒストグラムの精度は標準的なEMDの場合(クロスエントロピーのようなビン単位の損失関数よりも高い)と非常によく似ており,予測は計算コストをほとんど必要とせずにはるかに有益であることを示す。

Although ubiquitous in the sciences, histogram data have not received much attention by the Deep Learning community. Whilst regression and classification tasks for scalar and vector data are routinely solved by neural networks, a principled approach for estimating histogram labels as a function of an input vector or image is lacking in the literature. We present a dedicated method for Deep Learning-based histogram regression, which incorporates cross-bin information and yields distributions over possible histograms, expressed by $\tau$-quantiles of the cumulative histogram in each bin. The crux of our approach is a new loss function obtained by applying the pinball loss to the cumulative histogram, which for 1D histograms reduces to the Earth Mover's distance (EMD) in the special case of the median ($\tau = 0.5$), and generalizes it to arbitrary quantiles. We validate our method with an illustrative toy example, a football-related task, and an astrophysical computer vision problem. We show that with our loss function, the accuracy of the predicted median histograms is very similar to the standard EMD case (and higher than for per-bin loss functions such as cross-entropy), while the predictions become much more informative at almost no additional computational cost.
翻訳日:2021-06-07 15:15:22 公開日:2021-06-03
# タイポロジーと言語間移動学習のための言語埋め込み

Language Embeddings for Typology and Cross-lingual Transfer Learning ( http://arxiv.org/abs/2106.02082v1 )

ライセンス: Link先を確認
Dian Yu and Taiqi He and Kenji Sagae(参考訳) 言語間のタスクは通常、相当量のアノテートデータや並列翻訳データを必要とする。 本稿では,言語間の関係を捉えた言語表現が,並列データを用いずに言語間タスクに活用できるかどうかを考察する。 自動エンコーダを用いて29の言語に対する密接な埋め込みを生成し, world atlas of language structures (wals) と2つのextrinsicタスクをゼロショット設定(言語間依存性解析と言語間自然言語推論)で評価する。

Cross-lingual language tasks typically require a substantial amount of annotated data or parallel translation data. We explore whether language representations that capture relationships among languages can be learned and subsequently leveraged in cross-lingual tasks without the use of parallel data. We generate dense embeddings for 29 languages using a denoising autoencoder, and evaluate the embeddings using the World Atlas of Language Structures (WALS) and two extrinsic tasks in a zero-shot setting: cross-lingual dependency parsing and cross-lingual natural language inference.
翻訳日:2021-06-07 15:11:57 公開日:2021-06-03
# 事前訓練された多言語モデルを1600言語に適応する方法

How to Adapt Your Pretrained Multilingual Model to 1600 Languages ( http://arxiv.org/abs/2106.02124v1 )

ライセンス: Link先を確認
Abteen Ebrahimi and Katharina Kann(参考訳) 事前訓練された多言語モデル(PMM)は、言語間移動によるゼロショット学習を可能にする。 未確認言語のパフォーマンスを向上させる手法は存在するが、ほとんどは世界の少数の言語でのみ利用可能な原文の量を用いて評価されてきた。 本稿では,1600以上の言語で利用可能なリソースを用いて,PMMを新しい言語に適用するための既存手法の性能を評価する。 これは(1)コーパスサイズが小さい、(2)狭い領域である、という2つの理由から難しい。 XLM-Rと比較して、すべての言語でパフォーマンスが低下する一方で、音声のタグ付けで最大17.69\%の精度が向上し、すべての言語で平均6.29$F1になった。また、予期せぬ発見として、最も単純なアプローチである継続事前トレーニングが最善である。 最後に、ドメインとサイズの影響を解消し、微調整ソース言語の影響に光を当てるケーススタディを行う。

Pretrained multilingual models (PMMs) enable zero-shot learning via cross-lingual transfer, performing best for languages seen during pretraining. While methods exist to improve performance for unseen languages, they have almost exclusively been evaluated using amounts of raw text only available for a small fraction of the world's languages. In this paper, we evaluate the performance of existing methods to adapt PMMs to new languages using a resource available for over 1600 languages: the New Testament. This is challenging for two reasons: (1) the small corpus size, and (2) the narrow domain. While performance drops for all approaches, we surprisingly still see gains of up to $17.69\%$ accuracy for part-of-speech tagging and $6.29$ F1 for NER on average over all languages as compared to XLM-R. Another unexpected finding is that continued pretraining, the simplest approach, performs best. Finally, we perform a case study to disentangle the effects of domain and size and to shed light on the influence of the finetuning source language.
翻訳日:2021-06-07 15:11:47 公開日:2021-06-03
# 言語間移動のための構文拡張多言語BERT

Syntax-augmented Multilingual BERT for Cross-lingual Transfer ( http://arxiv.org/abs/2106.02134v1 )

ライセンス: Link先を確認
Wasi Uddin Ahmad, Haoran Li, Kai-Wei Chang, Yashar Mehdad(参考訳) 近年,多くの言語で大規模コーパスを用いた多言語テキストエンコーダの事前学習が試みられ,言語間転送学習が促進されている。 しかし、言語間のタイポロジー的な差異のため、言語間移動は困難である。 それでも、構文依存などの言語構文は、型的ギャップを埋めることができる。 以前の研究は、mBERT \cite{devlin-etal-2019-ber t}のような事前訓練された多言語エンコーダが言語構文をキャプチャし、言語間転送を支援することを示した。 この研究は、普遍的な依存性ツリー構造をエンコードする補助的な目的を用いて、言語構文とmBERTのトレーニングを明示的に提供することが、言語間転送に役立つことを示している。 テキスト分類,質問応答,名前付きエンティティ認識,タスク指向意味解析の4つのnlpタスクに対して厳密な実験を行った。 実験の結果,構文拡張mBERTは,PAWS-XやMLQAなどの一般的なベンチマークにおいて,すべての言語で平均1.4ポイント,1.6ポイントの言語間転送を改善することがわかった。 emph{ Generalized}転送設定では、PAWS-XとMLQAの平均3.9ポイントと3.1ポイントのパフォーマンスが大幅に向上した。

In recent years, we have seen a colossal effort in pre-training multilingual text encoders using large-scale corpora in many languages to facilitate cross-lingual transfer learning. However, due to typological differences across languages, the cross-lingual transfer is challenging. Nevertheless, language syntax, e.g., syntactic dependencies, can bridge the typological gap. Previous works have shown that pre-trained multilingual encoders, such as mBERT \cite{devlin-etal-2019-ber t}, capture language syntax, helping cross-lingual transfer. This work shows that explicitly providing language syntax and training mBERT using an auxiliary objective to encode the universal dependency tree structure helps cross-lingual transfer. We perform rigorous experiments on four NLP tasks, including text classification, question answering, named entity recognition, and task-oriented semantic parsing. The experiment results show that syntax-augmented mBERT improves cross-lingual transfer on popular benchmarks, such as PAWS-X and MLQA, by 1.4 and 1.6 points on average across all languages. In the \emph{generalized} transfer setting, the performance boosted significantly, with 3.9 and 3.1 points on average in PAWS-X and MLQA.
翻訳日:2021-06-07 15:11:26 公開日:2021-06-03
# nmt5 -- 大規模多言語モデルの事前学習にはまだ並列データが関連しているか?

nmT5 -- Is parallel data still relevant for pre-training massively multilingual language models? ( http://arxiv.org/abs/2106.02171v1 )

ライセンス: Link先を確認
Mihir Kale, Aditya Siddhant, Noah Constant, Melvin Johnson, Rami Al-Rfou, Linting Xue(参考訳) 最近、mT5はT5の膨大な多言語バージョンであり、統一されたテキストからテキストへのフォーマットを利用して、多言語NLPタスクの最先端結果を得た。 本稿では,mT5事前学習における並列データの導入の影響について検討する。 事前学習中の機械翻訳などの目的を持つマルチタスク言語モデリングは、下流の多言語および多言語タスクにおけるパフォーマンスを向上させるための簡単な方法である。 しかし、モデルキャパシティが増加するにつれて、利得は減少し始めており、大きなモデルでは並列データが重要でない可能性がある。 同時に、より大きなモデルサイズであっても、並列データによる事前トレーニングは、限られたラベル付きデータ構造にメリットをもたらすことが分かっています。

Recently, mT5 - a massively multilingual version of T5 - leveraged a unified text-to-text format to attain state-of-the-art results on a wide variety of multilingual NLP tasks. In this paper, we investigate the impact of incorporating parallel data into mT5 pre-training. We find that multi-tasking language modeling with objectives such as machine translation during pre-training is a straightforward way to improve performance on downstream multilingual and cross-lingual tasks. However, the gains start to diminish as the model capacity increases, suggesting that parallel data might not be as essential for larger models. At the same time, even at larger model sizes, we find that pre-training with parallel data still provides benefits in the limited labelled data regime.
翻訳日:2021-06-07 15:11:05 公開日:2021-06-03
# 協調的視点によるコミュニケーションのモデリング

Modeling Communication to Coordinate Perspectives in Cooperation ( http://arxiv.org/abs/2106.02164v1 )

ライセンス: Link先を確認
Stephanie Stacy, Chenfei Li, Minglu Zhao, Yiling Yun, Qingyi Zhao, Max Kleiman-Weiner and Tao Gao(参考訳) 通信は過負荷です。 それにもかかわらず、幼児でさえ曖昧なシグナルを理解するために文脈を活用するのが得意である。 本稿では,共有エージェントの観点から,Imagined We for Communicationと呼ぶ過負荷信号の計算記述を提案する。 このフレームワークの下では、コミュニケーションはコラボレーターが視点を調整し、共通の目標を達成するために一緒に行動することを可能にする。 エージェントは合理的な協力者であり、シグナルの送信や解釈の仕方に制約を課す。 我々はこのモデルを、あいまいさの増加と推論層の増加の下で、このモデルの成功を示す一連のシミュレーションで実装する。 提案モデルでは,より深い再帰的推論による性能向上が可能であるが,より浅いレベルで比較ベースラインを上回り,共有知識と協調論理が言語における重み付けの多くをいかに行うかを強調している。

Communication is highly overloaded. Despite this, even young children are good at leveraging context to understand ambiguous signals. We propose a computational account of overloaded signaling from a shared agency perspective which we call the Imagined We for Communication. Under this framework, communication helps cooperators coordinate their perspectives, allowing them to act together to achieve shared goals. We assume agents are rational cooperators, which puts constraints on how signals can be sent and interpreted. We implement this model in a set of simulations demonstrating this model's success under increasing ambiguity as well as increasing layers of reasoning. Our model is capable of improving performance with deeper recursive reasoning; however, it outperforms comparison baselines at even the shallowest level, highlighting how shared knowledge and cooperative logic can do much of the heavy-lifting in language.
翻訳日:2021-06-07 15:06:08 公開日:2021-06-03
# 描画を学ぶ: スケッチによる創発的なコミュニケーション

Learning to Draw: Emergent Communication through Sketching ( http://arxiv.org/abs/2106.02067v1 )

ライセンス: Link先を確認
Daniela Mihai, Jonathon Hare(参考訳) 視覚的なコミュニケーションが言語に先行する証拠であり、その基礎は先史時代に遡り、洞窟や岩の絵のような、我々の遠い祖先の痕跡を描いた形で遡る。 創発的コミュニケーション研究は、協調的にタスクを解決するためにエージェントがコミュニケーションを学ぶ方法を模索している。 既存の研究は、エージェント間の個別トークンのシーケンスを学習された通信チャネルで伝達する言語に焦点を当てている。 本研究では,単純なストロークで描画可能なエージェント間の視覚的コミュニケーションチャネルを探索する。 我々のエージェントはディープニューラルネットワークによってパラメータ化され、描画手順は微分可能であり、エンドツーエンドのトレーニングを可能にする。 参照型コミュニケーションゲームの枠組みでは,エージェントが描画によってコミュニケーションを学べるだけでなく,適切な帰納的バイアスを伴って,人間が解釈できる方法でコミュニケーションを行うことができることを示す。 今後の研究は、視覚コミュニケーションを、より柔軟で直接解釈可能な、協調エージェントの訓練方法として考えることを奨励したい。

Evidence that visual communication preceded written language and provided a basis for it goes back to prehistory, in forms such as cave and rock paintings depicting traces of our distant ancestors. Emergent communication research has sought to explore how agents can learn to communicate in order to collaboratively solve tasks. Existing research has focused on language, with a learned communication channel transmitting sequences of discrete tokens between the agents. In this work, we explore a visual communication channel between agents that are allowed to draw with simple strokes. Our agents are parameterised by deep neural networks, and the drawing procedure is differentiable, allowing for end-to-end training. In the framework of a referential communication game, we demonstrate that agents can not only successfully learn to communicate by drawing, but with appropriate inductive biases, can do so in a fashion that humans can interpret. We hope to encourage future research to consider visual communication as a more flexible and directly interpretable alternative of training collaborative agents.
翻訳日:2021-06-07 15:05:33 公開日:2021-06-03
# 野生植物種の細粒度視覚分類:強化された注意手段としての物体検出

Fine-Grained Visual Classification of Plant Species In The Wild: Object Detection as A Reinforced Means of Attention ( http://arxiv.org/abs/2106.02141v1 )

ライセンス: Link先を確認
Matthew R. Keaton, Ram J. Zaveri, Meghana Kovur, Cole Henderson, Donald A. Adjeroh, Gianfranco Doretto(参考訳) 野生における植物種の同定は、入力データの多様性が高いことや、データセット分布の長期的影響によって引き起こされる合併症によっても難しい問題である。 データ変動の影響を緩和するための注意に基づく最新の細粒度視覚分類アプローチに着想を得て,オブジェクト検出を注意の形式として用いるアイデアを考察した。 そこで本研究では,植物器官検出に基づくボトムアップ手法を導入し,多様な臓器型分類器の予測を融合させる。 また,植物器官検出および器官に基づく種同定のための長期分布を用いた新しいデータセットをキュレートし,公開している。

Plant species identification in the wild is a difficult problem in part due to the high variability of the input data, but also because of complications induced by the long-tail effects of the datasets distribution. Inspired by the most recent fine-grained visual classification approaches which are based on attention to mitigate the effects of data variability, we explore the idea of using object detection as a form of attention. We introduce a bottom-up approach based on detecting plant organs and fusing the predictions of a variable number of organ-based species classifiers. We also curate a new dataset with a long-tail distribution for evaluating plant organ detection and organ-based species identification, which is publicly available.
翻訳日:2021-06-07 15:05:15 公開日:2021-06-03
# 二重発振最適化パターンとエイリアス:雑音ラベルのキャベツ

Double Descent Optimization Pattern and Aliasing: Caveats of Noisy Labels ( http://arxiv.org/abs/2106.02100v1 )

ライセンス: Link先を確認
Florian Dubost, Khaled Kamal Saab, Erin Hong, Daniel Yang Fu, Max Pike, Siddharth Sharma, Siyi Tang, Nandita Bhaskhar, Christopher Lee-Messer, Daniel Rubin(参考訳) 最適化はディープニューラルネットワークのトレーニングにおいて重要な役割を果たす。 トレーニングをやめるタイミングの決定は、推論中のネットワークのパフォーマンスに大きな影響を与える可能性がある。 ある条件下では、一般化誤差はトレーニング中に二重降下パターンを表示することができる:学習曲線は単調ではなく、追加のエポックの後に再び収束する前に発散するように見える。 この最適化パターンは、第2の収束前にトレーニングを停止する早期停止手順につながり、結果としてネットワークのパラメータのサブ最適セットを選択でき、推論中にパフォーマンスが低下する。 本研究は,小データセットと雑音ラベルで二重降下が生じることの確認に加えて,二重降下パターンを観察するためには,トレーニングと一般化セットの両方にノイズラベルが存在する必要があることを示す。 また、学習速度が二重降下に影響を与えることを示し、異なる最適化パラメータと最適化パラメータが二重降下の出現に与える影響について検討した。 最後に,学習率の上昇は,二重降下パターンを抑制せずに隠蔽するエイリアス効果をもたらすことを示した。 我々はCIFAR-10の変種に関する広範な実験を通じてこの現象を研究し、それらが現実世界に応用されることを示す:脳波連続記録によるてんかん患者の発作発生の予測。

Optimization plays a key role in the training of deep neural networks. Deciding when to stop training can have a substantial impact on the performance of the network during inference. Under certain conditions, the generalization error can display a double descent pattern during training: the learning curve is non-monotonic and seemingly diverges before converging again after additional epochs. This optimization pattern can lead to early stopping procedures to stop training before the second convergence and consequently select a suboptimal set of parameters for the network, with worse performance during inference. In this work, in addition to confirming that double descent occurs with small datasets and noisy labels as evidenced by others, we show that noisy labels must be present both in the training and generalization sets to observe a double descent pattern. We also show that the learning rate has an influence on double descent, and study how different optimizers and optimizer parameters influence the apparition of double descent. Finally, we show that increasing the learning rate can create an aliasing effect that masks the double descent pattern without suppressing it. We study this phenomenon through extensive experiments on variants of CIFAR-10 and show that they translate to a real world application: the forecast of seizure events in epileptic patients from continuous electroencephalograp hic recordings.
翻訳日:2021-06-07 14:59:40 公開日:2021-06-03
# mcmc提案最適化のための半経験目的関数

Semi-Empirical Objective Functions for MCMC Proposal Optimization ( http://arxiv.org/abs/2106.02104v1 )

ライセンス: Link先を確認
Chris Cannella, Vahid Tarokh(参考訳) 本稿では,MCMC法における任意パラメータ化提案分布の最適化に適した,近似目的関数を決定するための半経験的手法を提案する。 提案したAb Initio目的関数は、その大域的最適性に対する制約に従う関数の重み付けされた組合せと、提案最適化に使用するMCMC効率の一般測度で裏付けるべき座標不変性からなる。 ab慣性目的関数の係数は、決定された基準問題の理論的解析により定められた最適なmcmc挙動を回復するために決定される。 提案手法を最適化する場合, MCMC最適化の目的関数と比較して, Ab Initio の目的関数が望ましい性能と望ましい最適化動作を維持していることを示す。 我々は、Ab Initioの目的関数が十分に頑健であり、個々のMCMCスキームの従来の制限を超えて、深い生成ネットワークによってパラメータ化されるMCMC提案分布の確実な最適化を可能にすることを論じる。

We introduce and demonstrate a semi-empirical procedure for determining approximate objective functions suitable for optimizing arbitrarily parameterized proposal distributions in MCMC methods. Our proposed Ab Initio objective functions consist of the weighted combination of functions following constraints on their global optima and of coordinate invariance that we argue should be upheld by general measures of MCMC efficiency for use in proposal optimization. The coefficients of Ab Initio objective functions are determined so as to recover the optimal MCMC behavior prescribed by established theoretical analysis for chosen reference problems. Our experimental results demonstrate that Ab Initio objective functions maintain favorable performance and preferable optimization behavior compared to existing objective functions for MCMC optimization when optimizing highly expressive proposal distributions. We argue that Ab Initio objective functions are sufficiently robust to enable the confident optimization of MCMC proposal distributions parameterized by deep generative networks that extend beyond the traditional limitations of individual MCMC schemes.
翻訳日:2021-06-07 14:59:16 公開日:2021-06-03
# 乳癌早期診断のための埋め込み型深部正規化ブロックhsicサーモミクス

Embedded Deep Regularized Block HSIC Thermomics for Early Diagnosis of Breast Cancer ( http://arxiv.org/abs/2106.02106v1 )

ライセンス: Link先を確認
Bardia Yousefi, Hossein Memarzadeh Sharifipour, Xavier P.V. Maldague(参考訳) 温熱検査は乳がん検出の補助的診断ツールとして広く用いられている。 マトリクス・ファクターゼーション(MF)技術は、がん症例の血管拡張に伴う熱パターンを検出する不適切な能力を示す。 このような技術の最大の課題の1つは、熱基底の最良の表現を選択することである。 本研究では, この問題に対処するために埋込法を提案し, サーモグラフィのためのDeep-semi-non negative matrix factorization (Deep-SemiNMF)を導入し, 208例の乳癌検診を行った。 まず、赤外線画像にDeep-SemiNMFを適用し、各ケースの低ランク熱表現を抽出する。 次に,低ランクベースを埋め込み,各患者に1つの基礎を与える。 その後、サーモミクスと呼ばれる300個の熱画像の特徴を抽出し、自動診断モデルの撮像情報をデコードする。 RBFカーネルを用いてヒルベルト空間に分散することで熱力学の次元を小さくし、ブロックHilbert Schmidt Independence Criterion Lasso(ブロックHSIC Lasso)を用いて最も効率的な特徴を3つ選択した。 温熱不均一性は無作為な森林モデル(71.36% (69.42%-73.3%) を応用し無症状と無症状を区別した。

Thermography has been used extensively as a complementary diagnostic tool in breast cancer detection. Among thermographic methods matrix factorization (MF) techniques show an unequivocal capability to detect thermal patterns corresponding to vasodilation in cancer cases. One of the biggest challenges in such techniques is selecting the best representation of the thermal basis. In this study, an embedding method is proposed to address this problem and Deep-semi-nonnegativ e matrix factorization (Deep-SemiNMF) for thermography is introduced, then tested for 208 breast cancer screening cases. First, we apply Deep-SemiNMF to infrared images to extract low-rank thermal representations for each case. Then, we embed low-rank bases to obtain one basis for each patient. After that, we extract 300 thermal imaging features, called thermomics, to decode imaging information for the automatic diagnostic model. We reduced the dimensionality of thermomics by spanning them onto Hilbert space using RBF kernel and select the three most efficient features using the block Hilbert Schmidt Independence Criterion Lasso (block HSIC Lasso). The preserved thermal heterogeneity successfully classified asymptomatic versus symptomatic patients applying a random forest model (cross-validated accuracy of 71.36% (69.42%-73.3%)).
翻訳日:2021-06-07 14:55:32 公開日:2021-06-03
# 敗戦(戦略的)による戦争勝利:無向地理における不名誉価値の複雑さの解決

Winning the War by (Strategically) Losing Battles: Settling the Complexity of Grundy-Values in Undirected Geography ( http://arxiv.org/abs/2106.02114v1 )

ライセンス: Link先を確認
Kyle Burke, Matthew Ferland, Shanghua Teng(参考訳) 1981年と1993年の組合せゲーム理論(CGT)以来の2つの長年にわたる複雑性理論的疑問を解決した。 Grundy値(a.k.a)を証明する。 Undirected Geography の nim-value または nimber は計算に PSPACE 完全である。 これは1993年の無向地理が多項式時間可解であるという結果とは全く対照的である。 簡単な減算に留意することで、我々はさらに二分法定理を確立し、Grundy-valueの計算において「誘引性への位相遷移」を提供し、最大次数が4である: 任意の次数3のグラフ上の非方向地理学のグランディ値は多項式時間計算可能であるが、平面グラフと二部グラフがPSPACEハードであるときでさえ、次数4のグラフを超越する。 さらに,まず,n におけるグランディ値 $\ast n$ と大きさ多項式による無向な地理インスタンスの構築方法を示す。1981 年の結果を補強し,トラクション可能なパルチザンゲームの総和が pspace 完全であることを2つの基本的な方法で証明した。 まず、Undirected Geography は公平な規則セットであるため、和の硬さを、パルティザンの厳密な部分集合であるイビジョンゲームに拡張する。 第二に、1981年の建設は自然のルールセットからではなく、より長い調整された短距離ゲームポジションを用いている。 ハードインスタンスを作成するために、2つのUndirected Geography位置の合計を使用します。 また、Sprague-Grundy Theory (1930s) の計算結果から、任意の2つの非分数ゲームの解和のグランディ値は、そのグランディ値から多項式時間で計算できることが示されている。 対照的に、PSPACE $\neq$ P を仮定すると、2つの多項式時間可解な公平なゲームから解ける一般多項式時間法は存在しない。

We settle two long-standing complexity-theoretic al questions-open since 1981 and 1993-in combinatorial game theory (CGT). We prove that the Grundy value (a.k.a. nim-value, or nimber) of Undirected Geography is PSPACE-complete to compute. This exhibits a stark contrast with a result from 1993 that Undirected Geography is polynomial-time solvable. By distilling to a simple reduction, our proof further establishes a dichotomy theorem, providing a "phase transition to intractability" in Grundy-value computation, sharply characterized by a maximum degree of four: The Grundy value of Undirected Geography over any degree-three graph is polynomial-time computable, but over degree-four graphs-even when planar and bipartite-is PSPACE-hard. Additionally, we show, for the first time, how to construct Undirected Geography instances with Grundy value $\ast n$ and size polynomial in n. We strengthen a result from 1981 showing that sums of tractable partisan games are PSPACE-complete in two fundamental ways. First, since Undirected Geography is an impartial ruleset, we extend the hardness of sums to impartial games, a strict subset of partisan. Second, the 1981 construction is not built from a natural ruleset, instead using a long sum of tailored short-depth game positions. We use the sum of two Undirected Geography positions to create our hard instances. Our result also has computational implications to Sprague-Grundy Theory (1930s) which shows that the Grundy value of the disjunctive sum of any two impartial games can be computed-in polynomial time-from their Grundy values. In contrast, we prove that assuming PSPACE $\neq$ P, there is no general polynomial-time method to summarize two polynomial-time solvable impartial games to efficiently solve their disjunctive sum.
翻訳日:2021-06-07 14:53:50 公開日:2021-06-03
# 少数サンプルからのIll-Conditioned Matrix Completionのためのスケーラブルな2次法

A Scalable Second Order Method for Ill-Conditioned Matrix Completion from Few Samples ( http://arxiv.org/abs/2106.02119v1 )

ライセンス: Link先を確認
Christian K\"ummerle, Claudio Mayrink Verdun(参考訳) 本稿では,低ランク行列補完のための反復アルゴリズムを提案する。これは反復再重み付き最小二乗(IRLS)アルゴリズム,サドルエスケープスムージングニュートン法,および非凸ランクサロゲートに適用された可変距離近位勾配法と解釈できる。 これは、以前のIRLSアプローチの好ましいデータ効率と、数桁のスケーラビリティの改善を組み合わせたものだ。 アルゴリズムのクラスに対する最小限のサンプル数から、局所収束保証を初めて確立し、この手法が局所二次収束率に達することを示す。 さらに, 未条件の基底真理行列に対しても, 解決すべき線形系が十分に条件付けされていることを示す。 提案手法は,多くの最先端手法と異なり,その拡張性に競争力を持ちながら,少数のサンプルから最大10〜10ドルの条件数で,非常に条件の悪い行列を完遂できることを示す。

We propose an iterative algorithm for low-rank matrix completion that can be interpreted as an iteratively reweighted least squares (IRLS) algorithm, a saddle-escaping smoothing Newton method or a variable metric proximal gradient method applied to a non-convex rank surrogate. It combines the favorable data-efficiency of previous IRLS approaches with an improved scalability by several orders of magnitude. We establish the first local convergence guarantee from a minimal number of samples for that class of algorithms, showing that the method attains a local quadratic convergence rate. Furthermore, we show that the linear systems to be solved are well-conditioned even for very ill-conditioned ground truth matrices. We provide extensive experiments, indicating that unlike many state-of-the-art approaches, our method is able to complete very ill-conditioned matrices with a condition number of up to $10^{10}$ from few samples, while being competitive in its scalability.
翻訳日:2021-06-07 14:53:16 公開日:2021-06-03
# コード変更のための汎用埋め込みの教師なし学習

Unsupervised Learning of General-Purpose Embeddings for Code Changes ( http://arxiv.org/abs/2106.02087v1 )

ライセンス: Link先を確認
Mikhail Pravilov, Egor Bogomolov, Yaroslav Golubev, Timofey Bryksin(参考訳) ソフトウェアエンジニアリングの分野では、バグ修正、コミットメッセージ生成など、多くの問題が発生しています。 コード自体だけでなく、特にコードの変更を分析する必要がある。 これらのタスクに機械学習モデルを適用するには、変更の数値表現を作成する必要がある。 埋め込み。 最近の研究では、これらの埋め込みを得る最善の方法は、大量のラベルのないデータに対して教師なしの方法でディープニューラルネットワークを事前学習し、それを特定のタスクのためにさらに微調整することである。 本研究では,事前トレーニング中にコード変更の埋め込みを取得し,2つの異なる下流タスク - コードへの変更適用とコミットメッセージ生成 - で評価する手法を提案する。 事前トレーニングは、与えられた変更(編集シーケンス)を正しい方法でコードに適用するためのモデル学習で構成されている。 得られた埋め込みの質を高めるために、編集シーケンスにおける変更トークンのみを考慮する。 コード変更を行うタスクでは,完全編集シーケンスを用いたモデルよりも精度が5.9ポイント向上する。 コミットメッセージ生成に関しては、この特定のタスクのためにトレーニングされた教師付きモデルと同じ結果を示しており、コード変更をうまくエンコードでき、コード変更の大規模なデータセットを事前学習することで将来改善できることを示している。

A lot of problems in the field of software engineering - bug fixing, commit message generation, etc. - require analyzing not only the code itself but specifically code changes. Applying machine learning models to these tasks requires us to create numerical representations of the changes, i.e. embeddings. Recent studies demonstrate that the best way to obtain these embeddings is to pre-train a deep neural network in an unsupervised manner on a large volume of unlabeled data and then further fine-tune it for a specific task. In this work, we propose an approach for obtaining such embeddings of code changes during pre-training and evaluate them on two different downstream tasks - applying changes to code and commit message generation. The pre-training consists of the model learning to apply the given change (an edit sequence) to the code in a correct way, and therefore requires only the code change itself. To increase the quality of the obtained embeddings, we only consider the changed tokens in the edit sequence. In the task of applying code changes, our model outperforms the model that uses full edit sequences by 5.9 percentage points in accuracy. As for the commit message generation, our model demonstrated the same results as supervised models trained for this specific task, which indicates that it can encode code changes well and can be improved in the future by pre-training on a larger dataset of easily gathered code changes.
翻訳日:2021-06-07 14:52:58 公開日:2021-06-03
# 小さなロバストさが長い道のり:ターゲット転送攻撃のユニバーサル機能を活用する

A Little Robustness Goes a Long Way: Leveraging Universal Features for Targeted Transfer Attacks ( http://arxiv.org/abs/2106.02105v1 )

ライセンス: Link先を確認
Jacob M. Springer, Melanie Mitchell, Garrett T. Kenyon(参考訳) ソース分類器によって誤って分類されるように最適化された例は、異なるアーキテクチャを持つ分類器によっても誤って分類されることが多い。 しかし、選択されたターゲットクラスに分類されるように最適化されたターゲットの敵の例は、アーキテクチャ間での転送がより少ない傾向にある。 転送可能な標的攻撃の構築に関する先行研究は最適化手順の改善に重点を置いているが,本研究ではソース分類器の役割について検討する。 ここでは,ソース分類器のトレーニングが,畳み込みニューラルネットワークやトランスフォーマーのようなアーキテクチャ間であっても,対象とする攻撃の転送性が極めて向上することを示す。 非ロバスト(標準)から高度にロバストな分類器までのスペクトルにおいて、わずかにロバストしか持たないものは最も普遍的な特徴を示し、同じデータセットで訓練された他の分類器によって学習された特徴と重なる傾向がある。 以上より,本研究では,敵の例の性質や,いわゆる「ロバスト」分類器のメカニズムについて考察する。

Adversarial examples for neural network image classifiers are known to be transferable: examples optimized to be misclassified by a source classifier are often misclassified as well by classifiers with different architectures. However, targeted adversarial examples -- optimized to be classified as a chosen target class -- tend to be less transferable between architectures. While prior research on constructing transferable targeted attacks has focused on improving the optimization procedure, in this work we examine the role of the source classifier. Here, we show that training the source classifier to be "slightly robust" -- that is, robust to small-magnitude adversarial examples -- substantially improves the transferability of targeted attacks, even between architectures as different as convolutional neural networks and transformers. We argue that this result supports a non-intuitive hypothesis: on the spectrum from non-robust (standard) to highly robust classifiers, those that are only slightly robust exhibit the most universal features -- ones that tend to overlap with the features learned by other classifiers trained on the same dataset. The results we present provide insight into the nature of adversarial examples as well as the mechanisms underlying so-called "robust" classifiers.
翻訳日:2021-06-07 14:52:33 公開日:2021-06-03
# 発電プラントからのセンサ信号の時系列解析

Homological Time Series Analysis of Sensor Signals from Power Plants ( http://arxiv.org/abs/2106.02493v1 )

ライセンス: Link先を確認
Luciano Melodia, Richard Lenz(参考訳) 本稿では、トポロジカルデータ解析技術を用いて、その参照指定システムに基づいて、プラント全体のセンサ信号を学習するタスクに適したニューラルネットワーク分類器を構築する。 パーシステンスダイアグラムの表現を使用して、必要な前処理ステップを導出し、大量のデータを視覚化します。 永続特性の処理に適した残差ネットワークとして,1次元の深い畳み込み層と長期記憶の積み重ねを併用したアーキテクチャを導出する。 時系列自体の入力として得られる3つのサブネットワークと、ゼロ次元と1次元の永続ホモロジーの表現を組み合わせた。 使用するハイパーパラメータの大部分が数学的に導出される。 検証のために, 同一建設型4発電所のセンサデータを用いて数値実験を行った。

In this paper, we use topological data analysis techniques to construct a suitable neural network classifier for the task of learning sensor signals of entire power plants according to their reference designation system. We use representations of persistence diagrams to derive necessary preprocessing steps and visualize the large amounts of data. We derive architectures with deep one-dimensional convolutional layers combined with stacked long short-term memories as residual networks suitable for processing the persistence features. We combine three separate sub-networks, obtaining as input the time series itself and a representation of the persistent homology for the zeroth and first dimension. We give a mathematical derivation for most of the used hyper-parameters. For validation, numerical experiments were performed with sensor data from four power plants of the same construction type.
翻訳日:2021-06-07 14:50:27 公開日:2021-06-03
# 1次元信号解析と分類のための符号付き累積分布変換

The Signed Cumulative Distribution Transform for 1-D Signal Analysis and Classification ( http://arxiv.org/abs/2106.02146v1 )

ライセンス: Link先を確認
Akram Aldroubi, Rocio Diaz Martin, Ivan Medri, Gustavo K. Rohde and Sumati Thareja(参考訳) 本稿では,非剛性信号の変位に関する情報の復号に特に適する新しい数学的信号変換を提案する。 我々は,既存の累積分布変換 [ACHA 45 (2018, No。 3, 616-641]から$\overline{\mathbb{R}}$の任意の(符号付き)信号へ。 変換のフォワード(解析)と逆(合成)の式の両方を示し、変換、スケーリング、凸性、線形分離性などいくつかの性質を記述する。 最後に,変換空間における計量について記述し,ランダム変位下での信号分類(検出)における変換の適用例を示す。

This paper presents a new mathematical signal transform that is especially suitable for decoding information related to non-rigid signal displacements. We provide a measure theoretic framework to extend the existing Cumulative Distribution Transform [ACHA 45 (2018), no. 3, 616-641] to arbitrary (signed) signals on $\overline{\mathbb{R}}$. We present both forward (analysis) and inverse (synthesis) formulas for the transform, and describe several of its properties including translation, scaling, convexity, linear separability and others. Finally, we describe a metric in transform space, and demonstrate the application of the transform in classifying (detecting) signals under random displacements.
翻訳日:2021-06-07 14:47:58 公開日:2021-06-03
# 低次多項式に対するランダム$k$-SATのアルゴリズム的相転移

The Algorithmic Phase Transition of Random $k$-SAT for Low Degree Polynomials ( http://arxiv.org/abs/2106.02129v1 )

ライセンス: Link先を確認
Guy Bresler, Brice Huang(参考訳) $\phi$を一様ランダムな$k$-sat公式とし、$n$変数と$m$節を持つ。 満足度の高い$\Phi$を求めるアルゴリズムタスクについて検討する。 条件密度 $m/n < 2^k \log 2 - \frac12 (\log 2 + 1) + o_k(1)$ で高い確率で満足する代入が存在することが知られているが、最も優れた多項式時間アルゴリズムである coja-oghlan の固定アルゴリズムは、非常に低い節密度 $(1 - o_k(1)) 2^k \log k / k$ で満足する代入を見つける。 より高い節密度で満足度の高い代入を効率的に見つけることは可能か? ランダムな$k$-SATのアルゴリズムしきい値を理解するために、Fix, Survey Propagation guided decimation, メッセージパッシングや局所グラフアルゴリズムなどのパラダイムを含むアルゴリズムの強力なクラスである低次多項式アルゴリズムについて検討する。 低次多項式アルゴリズムは、節密度$(1 - o_k(1)) 2^k \log k / k$, matching Fix, not at clause density$(1 + o_k(1)) \kappa^* 2^k \log k / k$, where $\kappa^* \approx 4.911$で満足な代入を見つけることができる。 これは、アルゴリズムのクラスに対するランダムな$k$-satの最初の鋭い(定数まで)計算位相遷移を示している。 我々の証明は、ランダムな$k$-SATに合わせて、新しい多方向重複ギャップ特性を確立し、活用する。

Let $\Phi$ be a uniformly random $k$-SAT formula with $n$ variables and $m$ clauses. We study the algorithmic task of finding a satisfying assignment of $\Phi$. It is known that a satisfying assignment exists with high probability at clause density $m/n < 2^k \log 2 - \frac12 (\log 2 + 1) + o_k(1)$, while the best polynomial-time algorithm known, the Fix algorithm of Coja-Oghlan, finds a satisfying assignment at the much lower clause density $(1 - o_k(1)) 2^k \log k / k$. This prompts the question: is it possible to efficiently find a satisfying assignment at higher clause densities? To understand the algorithmic threshold of random $k$-SAT, we study low degree polynomial algorithms, which are a powerful class of algorithms including Fix, Survey Propagation guided decimation, and paradigms such as message passing and local graph algorithms. We show that low degree polynomial algorithms can find a satisfying assignment at clause density $(1 - o_k(1)) 2^k \log k / k$, matching Fix, and not at clause density $(1 + o_k(1)) \kappa^* 2^k \log k / k$, where $\kappa^* \approx 4.911$. This shows the first sharp (up to constant factor) computational phase transition of random $k$-SAT for a class of algorithms. Our proof establishes and leverages a new many-way overlap gap property tailored to random $k$-SAT.
翻訳日:2021-06-07 14:46:00 公開日:2021-06-03
# リソース制約エンドポイントのための医療用マスク検出のためのcnnアーキテクチャ

A Tiny CNN Architecture for Medical Face Mask Detection for Resource-Constrained Endpoints ( http://arxiv.org/abs/2011.14858v3 )

ライセンス: Link先を確認
Puranjay Mohan, Aditya Jyoti Paul, Abhay Chirania(参考訳) 新型コロナウイルス(covid-19)の急速な拡大に伴い、世界は史上最も危険なパンデミックの1つを乗り越えている。 世界保健機関(WHO)によると、新型コロナウイルスの感染を防ぐ最も効果的な方法は医療用マスクを着用することだ。 人手による監視が安全でないため,公共の場でのマスク使用の監視が課題となっている。 本稿では,メモリフットプリントが極めて少ないリソース制約されたエンドポイント上に展開する医療マスクを検出するアーキテクチャを提案する。 ARM Cortex-M7マイクロコントローラを搭載した小さな開発ボードは480Mhzで、フレームバッファのRAMはわずか496KBしかなく、モデルの配備に使われている。 TensorFlow Liteフレームワークを使用して、モデルは量子化され、そのサイズをさらに小さくする。 提案モデルは138KBのポスト量子化であり,30FPSの推論速度で動作する。

The world is going through one of the most dangerous pandemics of all time with the rapid spread of the novel coronavirus (COVID-19). According to the World Health Organisation, the most effective way to thwart the transmission of coronavirus is to wear medical face masks. Monitoring the use of face masks in public places has been a challenge because manual monitoring could be unsafe. This paper proposes an architecture for detecting medical face masks for deployment on resource-constrained endpoints having extremely low memory footprints. A small development board with an ARM Cortex-M7 microcontroller clocked at 480 Mhz and having just 496 KB of framebuffer RAM, has been used for the deployment of the model. Using the TensorFlow Lite framework, the model is quantized to further reduce its size. The proposed model is 138 KB post quantization and runs at the inference speed of 30 FPS.
翻訳日:2021-06-06 14:54:08 公開日:2021-06-03
# ついに局所構造をモデル化できるグラフ畳み込み

Graph convolutions that can finally model local structure ( http://arxiv.org/abs/2011.15069v2 )

ライセンス: Link先を確認
R\'emy Brossard, Oriel Frigo, David Dehaene(参考訳) 近年の急速な進歩にもかかわらず、最近の研究では、現代のグラフニューラルネットワークは小さなサイクルを検出するなど、非常に単純なタスクで失敗する可能性があることが示されている。 これは、現在のネットワークが局所構造に関する情報をキャッチできないという事実を示唆しており、これは下流のタスクが化学の文脈のようにグラフのサブ構造解析に大きく依存している場合の問題である。 本稿では,現在標準となっているGIN畳み込みに対して,計算時間やパラメータ数の観点から,ほとんどコストがかからない小さなサイクルをネットワークが検出できる極めて単純な修正を提案する。 実生活分子特性データセットを用いて、我々のモデルは、グローバルおよびタスク毎の設定の両方において、すべてのベースラインにわたる大規模なマルチタスクデータセットの性能を一貫して改善する。

Despite quick progress in the last few years, recent studies have shown that modern graph neural networks can still fail at very simple tasks, like detecting small cycles. This hints at the fact that current networks fail to catch information about the local structure, which is problematic if the downstream task heavily relies on graph substructure analysis, as in the context of chemistry. We propose a very simple correction to the now standard GIN convolution that enables the network to detect small cycles with nearly no cost in terms of computation time and number of parameters. Tested on real life molecule property datasets, our model consistently improves performance on large multi-tasked datasets over all baselines, both globally and on a per-task setting.
翻訳日:2021-06-06 14:40:00 公開日:2021-06-03
# グラフニューラルネットワークによるモチーフ予測

Motif Prediction with Graph Neural Networks ( http://arxiv.org/abs/2106.00761v2 )

ライセンス: Link先を確認
Maciej Besta, Raphael Grob, Cesare Miglioli, Nicola Bernold, Grzegorz Kwasniewski, Gabriel Gjini, Raghavendra Kanakagiri, Saleh Ashkboos, Lukas Gianinazzi, Nikoli Dryden, Torsten Hoefler(参考訳) リンク予測はグラフマイニングの中心的な問題のひとつだ。 しかし、近年の研究は、モチーフと呼ばれる複雑な構造が第一級市民である高階ネットワーク分析の重要性を強調している。 まず,既存のリンク予測手法ではモチーフを効果的に予測できないことを示す。 そこで本研究では, 一般的なモチーフ予測問題を確立し, 特定のモチーフが現れる可能性を評価するヒューリスティックスを提案する。 スコアを現実的にするために、我々のヒューリスティックスは、リンク間の他の関係、すなわち、あるモチーフ内の他のリンクの出現に対する到着リンクの潜在的影響を考察する。 最後に、高い精度で、モチーフ予測のためのグラフニューラルネットワーク(GNN)アーキテクチャを開発する。 我々のアーキテクチャは、モチーフの豊富な構造特性を捉えた頂点特徴とサンプリングスキームを提供する。 我々のヒューリスティックスは高速であり、いかなる訓練も必要としないが、GNNは密度(k-cliquesなど)とスパース(k-starsなど)の両方でモチーフを予測するための高い精度を保証する。 私たちは常に、最高の競争相手を平均で10%以上、曲線の下の領域で最大32%上回っています。 非相関リンク予測に基づくスキームに対するアプローチのアドバンテージは,モチーフサイズと複雑性の増加とともに増大する。 また、より任意のクラスタやコミュニティを予測するためのアーキテクチャの適用も成功し、モチーフ分析を超えたグラフマイニングの可能性を示しました。

Link prediction is one of the central problems in graph mining. However, recent studies highlight the importance of higher-order network analysis, where complex structures called motifs are the first-class citizens. We first show that existing link prediction schemes fail to effectively predict motifs. To alleviate this, we establish a general motif prediction problem and we propose several heuristics that assess the chances for a specified motif to appear. To make the scores realistic, our heuristics consider - among others - correlations between links, i.e., the potential impact of some arriving links on the appearance of other links in a given motif. Finally, for highest accuracy, we develop a graph neural network (GNN) architecture for motif prediction. Our architecture offers vertex features and sampling schemes that capture the rich structural properties of motifs. While our heuristics are fast and do not need any training, GNNs ensure highest accuracy of predicting motifs, both for dense (e.g., k-cliques) and for sparse ones (e.g., k-stars). We consistently outperform the best available competitor by more than 10% on average and up to 32% in area under the curve. Importantly, the advantages of our approach over schemes based on uncorrelated link prediction increase with the increasing motif size and complexity. We also successfully apply our architecture for predicting more arbitrary clusters and communities, illustrating its potential for graph mining beyond motif analysis.
翻訳日:2021-06-06 08:54:10 公開日:2021-06-03
# (参考訳) 空間適応型ワープ正規化による制御可能な人物画像合成 [全文訳有]

Controllable Person Image Synthesis with Spatially-Adaptive Warped Normalization ( http://arxiv.org/abs/2105.14739v2 )

ライセンス: CC BY 4.0
Jichao Zhang, Aliaksandr Siarohin, Hao Tang, Jingjing Chen, Enver Sangineto, Wei Wang, Nicu Sebe(参考訳) 制御可能な人物画像生成は、望ましい属性(例えば、与えられたポーズ、布のテクスチャ、髪型など)を持つ現実的な人間像を作成することを目的としている。 しかし、ソースとターゲット画像の空間的不一致が大きいため、画像から画像への変換に標準的アーキテクチャが適さない。 最先端のアーキテクチャのほとんどは、生成中のアライメントステップを避けるため、多くのアーティファクト、特に複雑なテクスチャを持つ人物イメージが引き起こされる。 この問題を解決するために,学習フロー場とワープ変調パラメータを統合した空間適応型ワープ正規化(SAWN)を提案する。 これにより、人物の空間適応スタイルをポーズ特徴と効率的に整合させることができる。 さらに,テクスチャ伝達タスクの事前学習モデルを洗練し,生成した布質と無関係地域の保存能力を大幅に向上させる,新たな自己学習部分置換戦略を提案する。 広範に使用されるdeepfashionデータセットにおける実験結果から,ポーズ伝達とテクスチャ伝達の両タスクにおいて,最先端手法よりも提案手法の大幅な改善が示された。 ソースコードはhttps://github.com/z hangqianhui/sawnで入手できる。

Controllable person image generation aims to produce realistic human images with desirable attributes (e.g., the given pose, cloth textures or hair style). However, the large spatial misalignment between the source and target images makes the standard architectures for image-to-image translation not suitable for this task. Most of the state-of-the-art architectures avoid the alignment step during the generation, which causes many artifacts, especially for person images with complex textures. To solve this problem, we introduce a novel Spatially-Adaptive Warped Normalization (SAWN), which integrates a learned flow-field to warp modulation parameters. This allows us to align person spatial-adaptive styles with pose features efficiently. Moreover, we propose a novel self-training part replacement strategy to refine the pretrained model for the texture-transfer task, significantly improving the quality of the generated cloth and the preservation ability of irrelevant regions. Our experimental results on the widely used DeepFashion dataset demonstrate a significant improvement of the proposed method over the state-of-the-art methods on both pose-transfer and texture-transfer tasks. The source code is available at https://github.com/z hangqianhui/Sawn.
翻訳日:2021-06-05 13:18:23 公開日:2021-06-03
# (参考訳) 世界ニュースを通して平和を理解する [全文訳有]

Understanding peacefulness through the world news ( http://arxiv.org/abs/2106.00306v2 )

ライセンス: CC BY 4.0
Vasiliki Voukelatou, Ioanna Miliou, Fosca Giannotti, Luca Pappalardo(参考訳) 平和性は全ての人類にとって幸福の主要な次元であり、不平等とあらゆる形態の暴力から抜け出す方法である。 そのため、近年は研究者や政策立案者の注目を集めている。 ここ数年、新しいデジタルデータストリームがこの分野の研究を大きく変えてきた。 本研究は,GDELT(Global Data on Events, Location, and Tone)デジタルニュースデータベースから抽出した情報を利用して,GPI(Global Peace Index)を通して平和性を捉えている。 予測機械学習モデルを適用することで,gdeltによるニュースメディアの注目度を月単位のgpi測定の指標として利用できることを示す。 さらに、shap方法論を使用して、予測を駆動する最も重要な変数を取得します。 この分析は各国のプロファイルを強調し、全体的な予測、特にこれらのエラーを駆動するエラーやイベントについての説明を提供する。 社会善研究者、政策立案者、平和構築者が活用するデジタルデータは、機械学習と同じくらい強力なデータサイエンスツールによって、社会的利益の最大化と平和へのリスクの最小化に寄与すると考えている。

Peacefulness is a principal dimension of well-being for all humankind and is the way out of inequity and every single form of violence. Thus, its measurement has lately drawn the attention of researchers and policy-makers. During the last years, novel digital data streams have drastically changed the research in this field. In the current study, we exploit information extracted from Global Data on Events, Location, and Tone (GDELT) digital news database, to capture peacefulness through the Global Peace Index (GPI). Applying predictive machine learning models, we demonstrate that news media attention from GDELT can be used as a proxy for measuring GPI at a monthly level. Additionally, we use the SHAP methodology to obtain the most important variables that drive the predictions. This analysis highlights each country's profile and provides explanations for the predictions overall, and particularly for the errors and the events that drive these errors. We believe that digital data exploited by Social Good researchers, policy-makers, and peace-builders, with data science tools as powerful as machine learning, could contribute to maximize the societal benefits and minimize the risks to peacefulness.
翻訳日:2021-06-05 13:01:27 公開日:2021-06-03
# (参考訳) レベル適応型クレジット割り当てを用いた協調型マルチエージェント転送学習 [全文訳有]

Cooperative Multi-Agent Transfer Learning with Level-Adaptive Credit Assignment ( http://arxiv.org/abs/2106.00517v3 )

ライセンス: CC BY 4.0
Tianze Zhou, Fubiao Zhang, Kun Shao, Kai Li, Wenhan Huang, Jun Luo, Weixun Wang, Yaodong Yang, Hangyu Mao, Bin Wang, Dong Li, Wulong Liu, Jianye Hao(参考訳) 協調型マルチエージェント強化学習(MARL)への移行学習は近年注目されている。 単一エージェントの設定とは対照的に、協調的なMARLでは調整が不可欠である。 しかし,既存の転送手法はエージェントポリシーにのみ焦点をあて,協調知識を無視する。 本稿では,コーディネーション全体を複数の協調パターンに適切に分解することで,ロバストな協調知識の伝達を実現するアーキテクチャを提案する。 我々は、レベル適応型QTransformer(LA-QTra nsformer)と呼ばれる新しいミキシングネットワークを用いて、クレジット代入を考慮したエージェント調整を実現し、協調知識の伝達に特化した新しいレベル適応型QTransformer(LA-Tran sformer)によって実現された異なるエージェントに対する適切な調整パターンを実現する。 さらに,Population Invariant agent with Transformer (PIT) という新しいエージェントネットワークを用いて,多種多様なシナリオにおけるコーディネーション転送を実現する。 StarCraft IIの大規模なマイクロマネジメント実験により、LA-QTransformerとPITは最先端のベースラインに比べて優れた性能を発揮することが示された。

Extending transfer learning to cooperative multi-agent reinforcement learning (MARL) has recently received much attention. In contrast to the single-agent setting, the coordination indispensable in cooperative MARL constrains each agent's policy. However, existing transfer methods focus exclusively on agent policy and ignores coordination knowledge. We propose a new architecture that realizes robust coordination knowledge transfer through appropriate decomposition of the overall coordination into several coordination patterns. We use a novel mixing network named level-adaptive QTransformer (LA-QTransformer) to realize agent coordination that considers credit assignment, with appropriate coordination patterns for different agents realized by a novel level-adaptive Transformer (LA-Transformer) dedicated to the transfer of coordination knowledge. In addition, we use a novel agent network named Population Invariant agent with Transformer (PIT) to realize the coordination transfer in more varieties of scenarios. Extensive experiments in StarCraft II micro-management show that LA-QTransformer together with PIT achieves superior performance compared with state-of-the-art baselines.
翻訳日:2021-06-05 12:17:26 公開日:2021-06-03
# (参考訳) 英語アラビア語機械翻訳における音声と普遍的依存の影響 [全文訳有]

Part of Speech and Universal Dependency effects on English Arabic Machine Translation ( http://arxiv.org/abs/2106.00745v2 )

ライセンス: CC0 1.0
Ofek Rafaeli, Omri Abend, Leshem Choshen, Dmitry Nikolaev(参考訳) 本稿では,英語とアラビア語の文法的現象を基礎とした機械翻訳モデルの評価手法について述べる。 このような「神経」や「機械学習」は微調整や変化が難しいため、この方法は特に重要である。 したがって、それらを容易かつ多様に評価する方法を見つけることは、それらを改善するタスクに大いに役立ちます。

In this research paper, I will elaborate on a method to evaluate machine translation models based on their performance on underlying syntactical phenomena between English and Arabic languages. This method is especially important as such "neural" and "machine learning" are hard to fine-tune and change. Thus, finding a way to evaluate them easily and diversely would greatly help the task of bettering them.
翻訳日:2021-06-05 10:14:39 公開日:2021-06-03
# (参考訳) 微分可能な点過程とそのスパイクニューラルネットワークへの応用 [全文訳有]

A Differentiable Point Process with Its Application to Spiking Neural Networks ( http://arxiv.org/abs/2106.00901v2 )

ライセンス: CC BY 4.0
Hiroshi Kajino(参考訳) 本稿では,スパイクニューラルネットワーク(SNN)の確率論的モデルに対する学習アルゴリズムについて述べる。 Jimenez Rezende & Gerstner (2014) は隠れたニューロンでSNNを訓練するための確率的変分推論アルゴリズムを提案した。 このアルゴリズムはスコア関数勾配推定器を用いて変動分布を更新する。 本稿では,経路方向勾配推定器に基づくSNNの代替勾配推定器を提案する。 主な技術的困難は、任意の点過程の実現を区別するための一般的な方法の欠如である。 本稿では,本論文の技術的ハイライトである微分可能な点過程を開発し,snsのパスワイズ勾配推定器の導出に適用する。 勾配推定器の有効性を数値シミュレーションにより検証する。

This paper is concerned about a learning algorithm for a probabilistic model of spiking neural networks (SNNs). Jimenez Rezende & Gerstner (2014) proposed a stochastic variational inference algorithm to train SNNs with hidden neurons. The algorithm updates the variational distribution using the score function gradient estimator, whose high variance often impedes the whole learning algorithm. This paper presents an alternative gradient estimator for SNNs based on the path-wise gradient estimator. The main technical difficulty is a lack of a general method to differentiate a realization of an arbitrary point process, which is necessary to derive the path-wise gradient estimator. We develop a differentiable point process, which is the technical highlight of this paper, and apply it to derive the path-wise gradient estimator for SNNs. We investigate the effectiveness of our gradient estimator through numerical simulation.
翻訳日:2021-06-05 08:12:44 公開日:2021-06-03
# (参考訳) OntoGum: コンテキスト化されたSOTA参照解決を12世代で評価する [全文訳有]

OntoGUM: Evaluating Contextualized SOTA Coreference Resolution on 12 More Genres ( http://arxiv.org/abs/2106.00933v2 )

ライセンス: CC BY 4.0
Yilun Zhu, Sameer Pradhan, Amir Zeldes(参考訳) SOTAコアレゾリューションはOntoNotesベンチマークでますます印象的なスコアを生成する。 しかし、より多くのジャンルで同じスキームに従う比較データの欠如は、ドメインデータを開く一般化可能性を評価するのを難しくしている。 本稿では、最新のニューラルLMベースのエンドツーエンドシステムがドメイン外において著しく劣化していることを示すデータセットと包括的評価を提供する。 OntoNotesライクなコア推論データセットOntoGUMを公開し、12のジャンルをカバーする英語コーパスであるGUMから変換し、決定論的ルールを用いて評価する。 GUMのリッチな構文および談話アノテーションのおかげで,OntoNotesガイドラインに従って,最大規模の人間注釈付きコア参照コーパスを作成することができ,OntoNotesスキームとの整合性を評価するための最初の方法となる。 12分野にわたる領域外評価は、決定論的および深層学習システムにおいて15-20%の劣化を示し、既存のコア参照解決モデルに一般化性や隠蔽性がないことを示している。

SOTA coreference resolution produces increasingly impressive scores on the OntoNotes benchmark. However lack of comparable data following the same scheme for more genres makes it difficult to evaluate generalizability to open domain data. This paper provides a dataset and comprehensive evaluation showing that the latest neural LM based end-to-end systems degrade very substantially out of domain. We make an OntoNotes-like coreference dataset called OntoGUM publicly available, converted from GUM, an English corpus covering 12 genres, using deterministic rules, which we evaluate. Thanks to the rich syntactic and discourse annotations in GUM, we are able to create the largest human-annotated coreference corpus following the OntoNotes guidelines, and the first to be evaluated for consistency with the OntoNotes scheme. Out-of-domain evaluation across 12 genres shows nearly 15-20% degradation for both deterministic and deep learning systems, indicating a lack of generalizability or covert overfitting in existing coreference resolution models.
翻訳日:2021-06-05 07:49:50 公開日:2021-06-03
# (参考訳) 反実および不変データ生成によるロバスト分類モデルの構築 [全文訳有]

Towards Robust Classification Model by Counterfactual and Invariant Data Generation ( http://arxiv.org/abs/2106.01127v2 )

ライセンス: CC BY 4.0
Chun-Hao Chang, George Alexandru Adam, Anna Goldenberg(参考訳) 科学、産業、社会全般における機械学習の応用の成功にもかかわらず、多くのアプローチは非破壊的であることが知られており、しばしば予測を行うために急激な相関に依存する。 このような特徴に依存することで、そのような相関関係が壊れている未発見の環境への一般化が妨げられる。 本研究では,画像分類に焦点をあてて2つのデータ生成プロセスを提案する。 ラベルに責任のある機能(causal)のサブセットの人間のアノテーションが与えられた場合(例えば) 境界ボックス) この因果集合を変更して、同じラベル(すなわち、もはや同じラベルを持たない代理画像を生成する。 counterfactual (複数形 counterfactuals) また、元のラベルとして認識されている画像を生成するために、非因果的特徴を変更し、これらの特徴に不変なモデルを学ぶのに役立ちます。 いくつかの挑戦的なデータセットでは、我々のデータ生成は、急激な相関が壊れたときの精度で最先端の手法より優れており、より優れた説明を提供する因果的特徴に焦点を絞っている。

Despite the success of machine learning applications in science, industry, and society in general, many approaches are known to be non-robust, often relying on spurious correlations to make predictions. Spuriousness occurs when some features correlate with labels but are not causal; relying on such features prevents models from generalizing to unseen environments where such correlations break. In this work, we focus on image classification and propose two data generation processes to reduce spuriousness. Given human annotations of the subset of the features responsible (causal) for the labels (e.g. bounding boxes), we modify this causal set to generate a surrogate image that no longer has the same label (i.e. a counterfactual image). We also alter non-causal features to generate images still recognized as the original labels, which helps to learn a model invariant to these features. In several challenging datasets, our data generations outperform state-of-the-art methods in accuracy when spurious correlations break, and increase the saliency focus on causal features providing better explanations.
翻訳日:2021-06-05 07:31:25 公開日:2021-06-03
# (参考訳) 文的内容認識における表現言語 [全文訳有]

Figurative Language in Recognizing Textual Entailment ( http://arxiv.org/abs/2106.01195v2 )

ライセンス: CC BY 4.0
Tuhin Chakrabarty, Debanjan Ghosh, Adam Poliak, Smaranda Muresan(参考訳) 本稿では、図形言語に焦点をあてたRTEデータセットの集合を紹介する。 我々は、さまざまなフィギュラティブ言語に注釈付けされた5つの既存のデータセット(シミュラ、比喩、皮肉)を活用し、12,500以上のRTEサンプルにフレーム化します。 結果と分析から,これらのモデルでは図形言語を十分に捉えられず,現実的な推論や世界知識の推論に苦慮している可能性が示唆された。 最終的に、私たちのデータセットはRTEモデルを評価する上で困難なテストベッドを提供します。

We introduce a collection of recognizing textual entailment (RTE) datasets focused on figurative language. We leverage five existing datasets annotated for a variety of figurative language -- simile, metaphor, and irony -- and frame them into over 12,500 RTE examples.We evaluate how well state-of-the-art models trained on popular RTE datasets capture different aspects of figurative language. Our results and analyses indicate that these models might not sufficiently capture figurative language, struggling to perform pragmatic inference and reasoning about world knowledge. Ultimately, our datasets provide a challenging testbed for evaluating RTE models.
翻訳日:2021-06-05 07:14:39 公開日:2021-06-03
# (参考訳) 時間知識グラフによる質問応答 [全文訳有]

Question Answering Over Temporal Knowledge Graphs ( http://arxiv.org/abs/2106.01515v1 )

ライセンス: CC BY 4.0
Apoorv Saxena, Soumen Chakrabarti and Partha Talukdar(参考訳) 時間的知識グラフ(Temporal Knowledge Graphs)は、KGの各エッジに時間的スコープ(開始時間と終了時間)を提供することによって、通常の知識グラフを拡張する。 KG に関する質問回答 (KGQA) は研究コミュニティから注目されているが、時間 KG に関する質問回答 (Temporal KGQA) は未調査領域である。 広範なカバレッジデータセットの欠如は、この分野の進展を制限するもう1つの要因である。 我々は,最大の時間的kgqaデータセットであるcronquestionsを,構造的複雑性のバケットに階層化することで,この問題に対処した。 CRONQUESTIONSは、既知の唯一のデータセットを340倍に拡張する。 我々は、最先端のKGQAメソッドが、この新しいデータセットで望まれるパフォーマンスにはるかに劣っていることを発見した。 また,CRONKGQAを提案する。CRONKGQAは時間的KG埋め込みの最近の進歩を生かし,全てのベースラインよりも優れた性能を実現し,次の最適化手法よりも精度が120%向上する。 広範な実験を通じて,CRONKGQAの作業状況や,さらなる改善が期待できる状況について,詳細な知見を提供する。 データセットに加えて、コードもリリースしました。

Temporal Knowledge Graphs (Temporal KGs) extend regular Knowledge Graphs by providing temporal scopes (start and end times) on each edge in the KG. While Question Answering over KG (KGQA) has received some attention from the research community, QA over Temporal KGs (Temporal KGQA) is a relatively unexplored area. Lack of broad coverage datasets has been another factor limiting progress in this area. We address this challenge by presenting CRONQUESTIONS, the largest known Temporal KGQA dataset, clearly stratified into buckets of structural complexity. CRONQUESTIONS expands the only known previous dataset by a factor of 340x. We find that various state-of-the-art KGQA methods fall far short of the desired performance on this new dataset. In response, we also propose CRONKGQA, a transformer-based solution that exploits recent advances in Temporal KG embeddings, and achieves performance superior to all baselines, with an increase of 120% in accuracy over the next best performing method. Through extensive experiments, we give detailed insights into the workings of CRONKGQA, as well as situations where significant further improvements appear possible. In addition to the dataset, we have released our code as well.
翻訳日:2021-06-05 03:31:24 公開日:2021-06-03
# (参考訳) アブレーションと属性による抽象要約モデルの解離生成モード [全文訳有]

Dissecting Generation Modes for Abstractive Summarization Models via Ablation and Attribution ( http://arxiv.org/abs/2106.01518v1 )

ライセンス: CC BY 4.0
Jiacheng Xu and Greg Durrett(参考訳) 神経的抽象的要約モデルの優位性にもかかわらず、どのようにして要約を形成するのか、どのように決定が下されるのかはほとんど分かっていない。 要約モデル決定を解釈する2段階の手法を提案する。 私たちはまず、各デコーダの決定を複数のジェネレーションモードの1つに分類するためにモデル全体を補足することで、モデルの振る舞いを分析します。 入力に依存する決定を分離した後、複数の異なる帰属法を用いてこれらの決定を解釈する。 提案手法は,入力の摂動からモデルが予測するトークンを抽出し再構成する能力に基づいて,これらの手法を比較し,次のトークンの生成においてハイライト属性が本当に重要であるかどうかを明らかにする。 この機械は要約を超えても広く有用であるが、要約モデルが記憶したフレーズを識別し、この記憶がどこで起こったかを判断し、また、文の融合のような複雑な生成現象をインスタンス単位で研究する能力を示す。

Despite the prominence of neural abstractive summarization models, we know little about how they actually form summaries and how to understand where their decisions come from. We propose a two-step method to interpret summarization model decisions. We first analyze the model's behavior by ablating the full model to categorize each decoder decision into one of several generation modes: roughly, is the model behaving like a language model, is it relying heavily on the input, or is it somewhere in between? After isolating decisions that do depend on the input, we explore interpreting these decisions using several different attribution methods. We compare these techniques based on their ability to select content and reconstruct the model's predicted token from perturbations of the input, thus revealing whether highlighted attributions are truly important for the generation of the next token. While this machinery can be broadly useful even beyond summarization, we specifically demonstrate its capability to identify phrases the summarization model has memorized and determine where in the training pipeline this memorization happened, as well as study complex generation phenomena like sentence fusion on a per-instance basis.
翻訳日:2021-06-05 03:13:43 公開日:2021-06-03
# (参考訳) 近傍グラフ上のラプラシアン正則化によるソボレフ空間上のミニマックス最適回帰

Minimax Optimal Regression over Sobolev Spaces via Laplacian Regularization on Neighborhood Graphs ( http://arxiv.org/abs/2106.01529v1 )

ライセンス: CC BY 4.0
Alden Green, Sivaraman Balakrishnan, Ryan J. Tibshirani(参考訳) 本稿では,非パラメトリック回帰に対するグラフベースアプローチであるラプラシアン平滑化の統計的性質について検討する。 標準的な正則性条件の下では、ラプラシア滑らか化推定器 $\widehat{f}$ の誤差の上界と、$\widehat{f}$ にもとづく適合性テストを確立する。 これらの上限は1次ソボレフ類 $H^1(\mathcal{X})$, for $\mathcal{X}\subseteq \mathbb{R}^d$ and $1 \leq d < 4$; for $d = 4$ の最小値推定と収束の試験率に一致する。 もし$\mathcal{x} \subseteq \mathbb{r}^d$ が $m < d$ の $m$-次元多様体であれば、ラプラシアン平滑化の誤差率は $m$ にのみ依存するが、$\mathcal{x}$ が$\mathbb{r}^d$ のフル次元集合であるのと同様である。

In this paper we study the statistical properties of Laplacian smoothing, a graph-based approach to nonparametric regression. Under standard regularity conditions, we establish upper bounds on the error of the Laplacian smoothing estimator $\widehat{f}$, and a goodness-of-fit test also based on $\widehat{f}$. These upper bounds match the minimax optimal estimation and testing rates of convergence over the first-order Sobolev class $H^1(\mathcal{X})$, for $\mathcal{X}\subseteq \mathbb{R}^d$ and $1 \leq d < 4$; in the estimation problem, for $d = 4$, they are optimal modulo a $\log n$ factor. Additionally, we prove that Laplacian smoothing is manifold-adaptive: if $\mathcal{X} \subseteq \mathbb{R}^d$ is an $m$-dimensional manifold with $m < d$, then the error rate of Laplacian smoothing (in either estimation or testing) depends only on $m$, in the same way it would if $\mathcal{X}$ were a full-dimensional set in $\mathbb{R}^d$.
翻訳日:2021-06-05 02:53:18 公開日:2021-06-03
# (参考訳) 因果干渉によるビデオモーメント検索の廃止 [全文訳有]

Deconfounded Video Moment Retrieval with Causal Intervention ( http://arxiv.org/abs/2106.01534v1 )

ライセンス: CC BY 4.0
Xun Yang, Fuli Feng, Wei Ji, Meng Wang, Tat-Seng Chua(参考訳) ビデオモーメント検索(vmr)は,映像中の特定のモーメントをテキストクエリに従ってローカライズすることを目的としたタスクである。 既存の手法は主に複雑な相互モーダル相互作用によるクエリとモーメントのマッチング関係をモデル化する。 その効果にもかかわらず、現在のモデルは、主にビデオコンテンツを無視しながらデータセットバイアスを利用するため、汎用性が低下する。 この問題は、VMRの隠れた共同設立者、すなわちモーメントの時間的位置によって引き起こされ、モデル入力と予測が急激に相関していると主張している。 時間的位置バイアスに対して頑健なマッチングモデルを設計する方法は重要であるが、我々が知る限り、VMRはまだ研究されていない。 本研究のギャップを埋めるために,構造因果モデルを構築し,クエリとビデオコンテンツが予測に与える影響を捉える因果性に着想を得たVMRフレームワークを提案する。 具体的には,モーダルマッチング (DCM) 手法を開発し,モーメント位置の共起効果を除去する。 まず、視覚コンテンツの中心的特徴を推測するためにモーメント表現をアンタングル化し、その後、バックドア調整に基づくアンタングルされたマルチモーダル入力に因果介入を適用し、モデルにターゲットの可能な各位置を適切に考慮するよう強制する。 広汎な実験により、我々の手法は精度と一般化の両面で最先端の手法よりも大幅に改善できることが明らかとなった(コード: \color{blue}{\url{https://github.com/X un-Yang/Causal_Video _Retrieval}})。

We tackle the task of video moment retrieval (VMR), which aims to localize a specific moment in a video according to a textual query. Existing methods primarily model the matching relationship between query and moment by complex cross-modal interactions. Despite their effectiveness, current models mostly exploit dataset biases while ignoring the video content, thus leading to poor generalizability. We argue that the issue is caused by the hidden confounder in VMR, {i.e., temporal location of moments}, that spuriously correlates the model input and prediction. How to design robust matching models against the temporal location biases is crucial but, as far as we know, has not been studied yet for VMR. To fill the research gap, we propose a causality-inspired VMR framework that builds structural causal model to capture the true effect of query and video content on the prediction. Specifically, we develop a Deconfounded Cross-modal Matching (DCM) method to remove the confounding effects of moment location. It first disentangles moment representation to infer the core feature of visual content, and then applies causal intervention on the disentangled multimodal input based on backdoor adjustment, which forces the model to fairly incorporate each possible location of the target into consideration. Extensive experiments clearly show that our approach can achieve significant improvement over the state-of-the-art methods in terms of both accuracy and generalization (Codes: \color{blue}{\url{https://github.com/X un-Yang/Causal_Video _Moment_Retrieval}}
翻訳日:2021-06-05 02:51:49 公開日:2021-06-03
# (参考訳) SSMD : 適応整合と不均一摂動を用いた半監督的医用画像検出

SSMD: Semi-Supervised Medical Image Detection with Adaptive Consistency and Heterogeneous Perturbation ( http://arxiv.org/abs/2106.01544v1 )

ライセンス: CC BY 4.0
Hong-Yu Zhou, Chengdi Wang, Haofeng Li, Gang Wang, Shu Zhang, Weimin Li, Yizhou Yu(参考訳) 半教師付き分類と分割法は医用画像解析において広く研究されている。 どちらのアプローチも、ラベルなしのデータを追加することで、完全に教師付きメソッドのパフォーマンスを向上させることができる。 しかし, 半教師付き物体検出は, 医用画像解析の分野ではあまり注目されていない。 本稿では,Semi-Supervised Medical Image Detector (SSMD)を提案する。 SSMDの背後にあるモチベーションは、各位置での予測を一貫性のあるものにすることで、ラベルのないデータに対して自由かつ効果的な監視を提供することである。 上記のアイデアを実現するために,予測の異なる成分を正則化する適応的一貫性コスト関数を開発した。 さらに,特徴空間と画像空間の両方で動作する不均質な摂動戦略を導入することにより,提案手法は強力な画像表現とロバストな予測を生成することを約束する。 広範な実験結果から,提案するssmdは幅広い設定で最先端の性能を達成できることがわかった。 また,各モジュールの強度を包括的アブレーション研究により検証した。

Semi-Supervised classification and segmentation methods have been widely investigated in medical image analysis. Both approaches can improve the performance of fully-supervised methods with additional unlabeled data. However, as a fundamental task, semi-supervised object detection has not gained enough attention in the field of medical image analysis. In this paper, we propose a novel Semi-Supervised Medical image Detector (SSMD). The motivation behind SSMD is to provide free yet effective supervision for unlabeled data, by regularizing the predictions at each position to be consistent. To achieve the above idea, we develop a novel adaptive consistency cost function to regularize different components in the predictions. Moreover, we introduce heterogeneous perturbation strategies that work in both feature space and image space, so that the proposed detector is promising to produce powerful image representations and robust predictions. Extensive experimental results show that the proposed SSMD achieves the state-of-the-art performance at a wide range of settings. We also demonstrate the strength of each proposed module with comprehensive ablation studies.
翻訳日:2021-06-05 02:30:23 公開日:2021-06-03
# (参考訳) アルツハイマー病検出のための音響的アプローチの比較 [全文訳有]

Comparing Acoustic-based Approaches for Alzheimer's Disease Detection ( http://arxiv.org/abs/2106.01555v1 )

ライセンス: CC BY 4.0
Aparna Balagopalan, Jekaterina Novikova(参考訳) 本稿では,最近のaddressoチャレンジデータセットにおける音声からの広告検出のための3つの手法の性能と一般化について検討する。 機能ベースのアプローチは精度が高いが、埋め込みと機能の組み合わせによる分類アプローチは、複数のパフォーマンス指標でより高い、よりバランスの取れたパフォーマンスを証明している。 このような組み合わせによるベストモデルでは,2.8倍の音響ベースラインを達成できた。

In this paper, we study the performance and generalizability of three approaches for AD detection from speech on the recent ADReSSo challenge dataset: 1) using conventional acoustic features 2) using novel pre-trained acoustic embeddings 3) combining acoustic features and embeddings. We find that while feature-based approaches have a higher precision, classification approaches relying on the combination of embeddings and features prove to have a higher, and more balanced performance across multiple metrics of performance. Our best model, using such a combined approach, outperforms the acoustic baseline in the challenge by 2.8\%.
翻訳日:2021-06-05 02:29:19 公開日:2021-06-03
# (参考訳) 適応型マルチタスク学習による隣接リスト指向関係ファクト抽出 [全文訳有]

Adjacency List Oriented Relational Fact Extraction via Adaptive Multi-task Learning ( http://arxiv.org/abs/2106.01559v1 )

ライセンス: CC BY 4.0
Fubang Zhao, Zhuoren Jiang, Yangyang Kang, Changlong Sun, Xiaozhong Liu(参考訳) リレーショナル・ファクトの抽出は、構造化されていないテキストから意味的三重項を抽出することを目的としている。 本研究では,すべての関係事実抽出モデルについて,グラフ指向分析の観点から整理可能であることを示す。 この分析枠組みに基づいて, 効率的なモデルaDjacency lIst oRiented rElational faCT(DIRECT)を提案する。 エラー伝搬とサブタスク損失均衡の課題を軽減するため、directは動的サブタスク損失バランスを備えた新しい適応型マルチタスク学習戦略を採用している。 2つのベンチマークデータセットで大規模な実験を行い、その結果、提案モデルが関係三重項抽出のための一連の最先端(SoTA)モデルより優れていることが示された。

Relational fact extraction aims to extract semantic triplets from unstructured text. In this work, we show that all of the relational fact extraction models can be organized according to a graph-oriented analytical perspective. An efficient model, aDjacency lIst oRiented rElational faCT (DIRECT), is proposed based on this analytical framework. To alleviate challenges of error propagation and sub-task loss equilibrium, DIRECT employs a novel adaptive multi-task learning strategy with dynamic sub-task loss balancing. Extensive experiments are conducted on two benchmark datasets, and results prove that the proposed model outperforms a series of state-of-the-art (SoTA) models for relational triplet extraction.
翻訳日:2021-06-05 02:20:00 公開日:2021-06-03
# (参考訳) クローズドブックQAのための知識ベースとしての学習済み言語モデルの構築 [全文訳有]

Can Generative Pre-trained Language Models Serve as Knowledge Bases for Closed-book QA? ( http://arxiv.org/abs/2106.01561v1 )

ライセンス: CC BY 4.0
Cunxiang Wang and Pai Liu and Yue Zhang(参考訳) 近年,オープンな質問に答える知識ベースとして,事前学習言語モデル(PLM)を用いた興味深い質問が研究されている。 しかし、既存の作業はテストトレインの重なりが大きい小さなベンチマークを使用する場合に限られている。 SQuADを用いたクローズドブックQAの新しいデータセットを構築し,BARTの性能について検討する。 実験の結果,BARTが高精度に学習事実を記憶することは困難であり,関連する知識が保持されている場合でも,クローズドブックの質問に答えることは困難であることがわかった。 例えば、知識を記憶するプロセスとqaの細かなプロセスが分離され、モデルが質問に答えるときに関連する知識を思い出さざるを得なくなる。

Recent work has investigated the interesting question using pre-trained language models (PLMs) as knowledge bases for answering open questions. However, existing work is limited in using small benchmarks with high test-train overlaps. We construct a new dataset of closed-book QA using SQuAD, and investigate the performance of BART. Experiments show that it is challenging for BART to remember training facts in high precision, and also challenging to answer closed-book questions even if relevant knowledge is retained. Some promising directions are found, including decoupling the knowledge memorizing process and the QA finetune process, forcing the model to recall relevant knowledge when question answering.
翻訳日:2021-06-05 02:05:54 公開日:2021-06-03
# (参考訳) to point or not to point: Understanding how Abstractive Summarizers Paraphrase Text [全文訳有]

To Point or Not to Point: Understanding How Abstractive Summarizers Paraphrase Text ( http://arxiv.org/abs/2106.01581v1 )

ライセンス: CC BY 4.0
Matt Wilber, William Timkey, Marten Van Schijndel(参考訳) 抽象的神経要約モデルは近年,生成した要約のROUGEスコアに示すように,大幅に改善されている。 しかし、これらの改善されたメトリクスにもかかわらず、異なるモデルが採用する戦略と、それらの戦略が言語に対する理解にどう関係しているかの理解は限られている。 これを理解するために、See et alのポインタ生成モデルである1つの一般的な抽象モデルがどのように特徴付けられるかを示すいくつかの実験を行った。 (2017)は、明示的なコピー/ジェネレーションスイッチを使用して、抽象化(ジェネレーション)と抽出(コピー)のレベルを制御する。 抽出バイアス付きデータセットでは、このモデルは構文境界を利用して、しばしば複製される文を切断する。 コピー/ジェネレーションスイッチを変更してモデルを生成させると、事実的不正確さや幻覚と並行して単純な言い換え能力のみが現れる。 抽象バイアス付きデータセットでは、モデルは頻繁にコピーされるが、同様に限定的な抽象能力を示す。 これらの結果は,抽象的要約モデルには,抽象的かつ忠実なパラフレーズを生成するために必要な意味的理解が欠けていることを示唆している。

Abstractive neural summarization models have seen great improvements in recent years, as shown by ROUGE scores of the generated summaries. But despite these improved metrics, there is limited understanding of the strategies different models employ, and how those strategies relate their understanding of language. To understand this better, we run several experiments to characterize how one popular abstractive model, the pointer-generator model of See et al. (2017), uses its explicit copy/generation switch to control its level of abstraction (generation) vs extraction (copying). On an extractive-biased dataset, the model utilizes syntactic boundaries to truncate sentences that are otherwise often copied verbatim. When we modify the copy/generation switch and force the model to generate, only simple paraphrasing abilities are revealed alongside factual inaccuracies and hallucinations. On an abstractive-biased dataset, the model copies infrequently but shows similarly limited abstractive abilities. In line with previous research, these results suggest that abstractive summarization models lack the semantic understanding necessary to generate paraphrases that are both abstractive and faithful to the source document.
翻訳日:2021-06-05 01:49:15 公開日:2021-06-03
# (参考訳) 部分整合グラフ畳み込みネットワークを用いたクロスネットワーク学習 [全文訳有]

Cross-Network Learning with Partially Aligned Graph Convolutional Networks ( http://arxiv.org/abs/2106.01583v1 )

ライセンス: CC BY 4.0
Meng Jiang(参考訳) グラフニューラルネットワークは、グラフデータ上の多くのダウンストリームタスクのノード表現の学習に広く使われている。 既存のモデルは単一のグラフ上のノード向けに設計されており、複数のグラフにまたがる情報を利用することはできない。 実世界は複数のグラフを持ち、ノードはしばしば部分的に整列している。 例えば、ナレッジグラフは、異なる関係スキーマを持つかもしれないが、いくつかの名前付きエンティティを共有している。出版物のコラボレーションネットワークと、受賞したプロジェクトはそれぞれ著者と調査員である研究者ノードを共有している。 本稿では,モデル間のノード表現を学習するための部分整列グラフ畳み込みネットワークを提案する。 複数の手法(モデル共有、正規化、アライメント再構成を含む)と理論解析を用いて、部分整列ノードの(小さな)集合間で知識を肯定的に伝達する。 実世界の知識グラフと協調ネットワークに関する広範囲な実験により,提案手法の関連分類とリンク予測に優れた性能を示す。

Graph neural networks have been widely used for learning representations of nodes for many downstream tasks on graph data. Existing models were designed for the nodes on a single graph, which would not be able to utilize information across multiple graphs. The real world does have multiple graphs where the nodes are often partially aligned. For examples, knowledge graphs share a number of named entities though they may have different relation schema; collaboration networks on publications and awarded projects share some researcher nodes who are authors and investigators, respectively; people use multiple web services, shopping, tweeting, rating movies, and some may register the same email account across the platforms. In this paper, I propose partially aligned graph convolutional networks to learn node representations across the models. I investigate multiple methods (including model sharing, regularization, and alignment reconstruction) as well as theoretical analysis to positively transfer knowledge across the (small) set of partially aligned nodes. Extensive experiments on real-world knowledge graphs and collaboration networks show the superior performance of our proposed methods on relation classification and link prediction.
翻訳日:2021-06-05 01:33:12 公開日:2021-06-03
# (参考訳) 部分空間に基づく次元削減と重要変数選択へのアプローチ [全文訳有]

A Subspace-based Approach for Dimensionality Reduction and Important Variable Selection ( http://arxiv.org/abs/2106.01584v1 )

ライセンス: CC BY 4.0
Di Bo, Hoon Hwangbo, Vinit Sharma, Corey Arndt, Stephanie C. TerMaath(参考訳) 高次元データの分析は、システムの詳細な記述を提供するが、しばしば次元の呪いによって挑戦される。 一般次元還元技術は、いくつかの重要な特徴を抽出することで、そのような困難を軽減できるが、各物理変数に関連する実際の意思決定に対する解釈性や接続性の欠如により制限されている。 代替として重要な変数選択テクニックは、解釈可能性を維持することができるが、それらはしばしば重要な相互作用を捉えるのに失敗しやすい欲深い探索を伴う。 本研究では, ランダム化探索に基づく部分空間, 縮小次元物理空間を創出し, 臨界部分空間に対するモデルのアンサンブルを形成する手法を提案する。 複合金属開発プロセスから収集した高次元データに適用すると,予測および重要な変数選択において,その優位性を示す。

An analysis of high dimensional data can offer a detailed description of a system but is often challenged by the curse of dimensionality. General dimensionality reduction techniques can alleviate such difficulty by extracting a few important features, but they are limited due to the lack of interpretability and connectivity to actual decision making associated with each physical variable. Important variable selection techniques, as an alternative, can maintain the interpretability, but they often involve a greedy search that is susceptible to failure in capturing important interactions. This research proposes a new method that produces subspaces, reduced-dimensional physical spaces, based on a randomized search and forms an ensemble of models for critical subspaces. When applied to high-dimensional data collected from a composite metal development process, the proposed method shows its superiority in prediction and important variable selection.
翻訳日:2021-06-05 01:14:51 公開日:2021-06-03
# (参考訳) SIMLR:COVID-19予測のためのSIRモデル内の機械学習 [全文訳有]

SIMLR: Machine Learning inside the SIR model for COVID-19 Forecasting ( http://arxiv.org/abs/2106.01590v1 )

ライセンス: CC BY 4.0
Roberto Vega, Leonardo Flores, Russell Greiner(参考訳) 感染拡大に伴う新規感染者数の正確な予測は、効果的なタイムリーな意思決定に不可欠である。 本稿では,機械学習(ML)を疫学SIRモデルに組み込んだSIMLRモデルを用いて,この問題に対処する。 各地域において、SIMLRは、今後1~4週間の新規感染者数を予測するためのSIRモデルの時間的変動パラメータを推定するために、政府レベルで実施される政策の変化を追跡しており、長期予測に欠かせない将来的な政策の変化の確率も予測している。 カナダおよび米国におけるデータにSIMLRを適用し,そのMAPE(平均パーセンテージエラー)性能がSOTA予測モデルと同等であることを示す。 このアプローチは、新型コロナウイルス感染症の予測だけでなく、他の感染症の進化を予測する上でも有効だと考えています。

Accurate forecasts of the number of newly infected people during an epidemic are critical for making effective timely decisions. This paper addresses this challenge using the SIMLR model, which incorporates machine learning (ML) into the epidemiological SIR model. For each region, SIMLR tracks the changes in the policies implemented at the government level, which it uses to estimate the time-varying parameters of an SIR model for forecasting the number of new infections 1- to 4-weeks in advance.It also forecasts the probability of changes in those government policies at each of these future times, which is essential for the longer-range forecasts. We applied SIMLR to data from regions in Canada and in the United States,and show that its MAPE (mean average percentage error) performance is as good as SOTA forecasting models, with the added advantage of being an interpretable model. We expect that this approach will be useful not only for forecasting COVID-19 infections, but also in predicting the evolution of other infectious diseases.
翻訳日:2021-06-05 00:59:01 公開日:2021-06-03
# (参考訳) ZmBART: 言語生成のための教師なし言語間転送フレームワーク [全文訳有]

ZmBART: An Unsupervised Cross-lingual Transfer Framework for Language Generation ( http://arxiv.org/abs/2106.01597v1 )

ライセンス: CC BY 4.0
Kaushal Kumar Maurya, Maunendra Sankar Desarkar, Yoshinobu Kano and Kumari Deepshikha(参考訳) 近年のNLP研究の進展にもかかわらず、自然言語生成のための言語間移動は比較的研究されている。 本研究では,高資源言語 (HRL) から多言語低リソース言語 (LRL) へ自然言語生成 (NLG) の監督を行う。 我々は,4つのNLGタスク(テキスト要約,質問生成,ニュース見出し生成,気晴らし生成)と3つの構文的多様言語(英語,ヒンディー語,日本語)を考える。 並列や擬似並列/逆変換データを使用しない教師なし言語間言語生成フレームワーク(ZmBART)を提案する。 本フレームワークでは,3言語の単言語データを用いた補助タスクにより,自動エンコーダモデルの事前学習を行う。 補助タスクの目的関数は、mbartの多言語的潜在表現を豊かにし、対象タスクに適切な初期化を提供する対象タスクに近い。 そして、タスク固有教師付き英語データを用いて微調整を行い、ゼロショット設定で低リソース言語で直接評価する。 壊滅的な忘れ方と散発的な相関問題を克服するために,凍結モデルコンポーネントとデータ議論アプローチをそれぞれ適用した。 このシンプルなモデリングアプローチは有望な結果をもたらし、数発の訓練(1000個の教師付きデータポイントを含む)を行い、モデルの性能をさらに向上させた。 ZmBARTのロバスト性を示すために,いくつかのアブレーションと言語間移動性解析を行った。

Despite the recent advancement in NLP research, cross-lingual transfer for natural language generation is relatively understudied. In this work, we transfer supervision from high resource language (HRL) to multiple low-resource languages (LRLs) for natural language generation (NLG). We consider four NLG tasks (text summarization, question generation, news headline generation, and distractor generation) and three syntactically diverse languages, i.e., English, Hindi, and Japanese. We propose an unsupervised cross-lingual language generation framework (called ZmBART) that does not use any parallel or pseudo-parallel/back -translated data. In this framework, we further pre-train mBART sequence-to-sequence denoising auto-encoder model with an auxiliary task using monolingual data of three languages. The objective function of the auxiliary task is close to the target tasks which enriches the multi-lingual latent representation of mBART and provides good initialization for target tasks. Then, this model is fine-tuned with task-specific supervised English data and directly evaluated with low-resource languages in the Zero-shot setting. To overcome catastrophic forgetting and spurious correlation issues, we applied freezing model component and data argumentation approaches respectively. This simple modeling approach gave us promising results.We experimented with few-shot training (with 1000 supervised data points) which boosted the model performance further. We performed several ablations and cross-lingual transferability analyses to demonstrate the robustness of ZmBART.
翻訳日:2021-06-05 00:44:25 公開日:2021-06-03
# (参考訳) シーングラフを用いた複雑なナビゲーション指導 [全文訳有]

Grounding Complex Navigational Instructions Using Scene Graphs ( http://arxiv.org/abs/2106.01607v1 )

ライセンス: CC BY 4.0
Michiel de Jong, Satyapriya Krishna, Anuva Agarwal(参考訳) 自然言語命令を実行するための強化学習エージェントのトレーニングは、利用可能な監督によって制限される。 指示がいつ実行されたかを知る。 我々は、clevrビジュアル質問応答データセットを用いて、複雑な自然言語ナビゲーション命令とシーングラフを生成し、環境に依存しない教師付きデータセットを生成する。 このデータセットの使用を実証するために、シーンをVizDoom環境にマップし、アーキテクチャを \citet{gatedattention} で使用して、エージェントにこれらのより複雑な言語命令を実行するように訓練する。

Training a reinforcement learning agent to carry out natural language instructions is limited by the available supervision, i.e. knowing when the instruction has been carried out. We adapt the CLEVR visual question answering dataset to generate complex natural language navigation instructions and accompanying scene graphs, yielding an environment-agnostic supervised dataset. To demonstrate the use of this data set, we map the scenes to the VizDoom environment and use the architecture in \citet{gatedattention} to train an agent to carry out these more complex language instructions.
翻訳日:2021-06-05 00:14:45 公開日:2021-06-03
# (参考訳) マニフォールド学習の有効性に関する考察 [全文訳有]

A Discussion On the Validity of Manifold Learning ( http://arxiv.org/abs/2106.01608v1 )

ライセンス: CC BY 4.0
Dai Shi, Andi Han, Yi Guo, and Junbin Gao(参考訳) 次元性低減(DR)と多様体学習(ManL)は、信号処理、音声認識、神経情報学を含む多くの機械学習タスクに広く応用されている。 しかし、DRモデルとManLモデルが有効な学習結果を生成できるかどうかの理解は未だに不明である。 本研究では,多用されたDR法とManL法の学習結果の有効性について,多様体のチャートマッピング関数を用いて検討する。 これらの手法によって誘導される写像関数は多様体の基本的設定に反するので、数学的な意味では多様体を学習しない。 この問題に対処するために、我々は(同相写像まで)有効な多様体表現を見つける幾何学的保証を持つ不動点ラプラシアン写像(fplm)と呼ばれる証明可能な正しいアルゴリズムを提供する。 1つの追加条件(向き保存)を組み合わせることで、d-多様体上の任意のd-単純分解結果に対して、アルゴリズムが単射となるための十分な条件を議論する。 しかし、そのような写像関数の構築とその条件を満たす計算方法はまだ数学において未解決の問題である。

Dimensionality reduction (DR) and manifold learning (ManL) have been applied extensively in many machine learning tasks, including signal processing, speech recognition, and neuroinformatics. However, the understanding of whether DR and ManL models can generate valid learning results remains unclear. In this work, we investigate the validity of learning results of some widely used DR and ManL methods through the chart mapping function of a manifold. We identify a fundamental problem of these methods: the mapping functions induced by these methods violate the basic settings of manifolds, and hence they are not learning manifold in the mathematical sense. To address this problem, we provide a provably correct algorithm called fixed points Laplacian mapping (FPLM), that has the geometric guarantee to find a valid manifold representation (up to a homeomorphism). Combining one additional condition(orientatio n preserving), we discuss a sufficient condition for an algorithm to be bijective for any d-simplex decomposition result on a d-manifold. However, constructing such a mapping function and its computational method satisfying these conditions is still an open problem in mathematics.
翻訳日:2021-06-05 00:07:49 公開日:2021-06-03
# (参考訳) NODE-GAM: 解釈可能な深層学習のためのニューラルネットワーク一般化付加モデル [全文訳有]

NODE-GAM: Neural Generalized Additive Model for Interpretable Deep Learning ( http://arxiv.org/abs/2106.01613v1 )

ライセンス: CC BY 4.0
Chun-Hao Chang, Rich Caruana, Anna Goldenberg(参考訳) 機械学習モデルの実際のハイリスク設定(例)への展開 医療)モデルの正確性だけでなく、公平性、堅牢性、解釈性にも依存することが多い。 一般化付加モデル(GAM)は、これらの高リスク領域で長い歴史を持つが、微分可能性やスケーラビリティといったディープラーニングの望ましい特徴は欠如している。 そこで本研究では,大規模データセットに拡張可能なニューラルネットワーク (node-gam) とニューラルネットワークga$^2$m (node-ga$^2$m) を提案する。 我々は,提案モデルが他の非解釈モデルと同等の精度で,大規模データセット上での他のGAMよりも優れていることを示す。 また,ラベル付きデータへのアクセスが制限された場合,自己教師付き学習環境において,モデルがより正確であることを示す。

Deployment of machine learning models in real high-risk settings (e.g. healthcare) often depends not only on model's accuracy but also on its fairness, robustness and interpretability. Generalized Additive Models (GAMs) have a long history of use in these high-risk domains, but lack desirable features of deep learning such as differentiability and scalability. In this work, we propose a neural GAM (NODE-GAM) and neural GA$^2$M (NODE-GA$^2$M) that scale well to large datasets, while remaining interpretable and accurate. We show that our proposed models have comparable accuracy to other non-interpretable models, and outperform other GAMs on large datasets. We also show that our models are more accurate in self-supervised learning setting when access to labeled data is limited.
翻訳日:2021-06-04 23:48:34 公開日:2021-06-03
# (参考訳) ベクトルは専門家よりも心を読むことができるか? 児童のマインドリーディング能力の自動評価のためのデータ強化戦略の比較 [全文訳有]

Can vectors read minds better than experts? Comparing data augmentation strategies for the automated scoring of children's mindreading ability ( http://arxiv.org/abs/2106.01635v1 )

ライセンス: CC BY 4.0
Venelin Kovatchev, Phillip Smith, Mark Lee, and Rory Devine(参考訳) 本稿では,子どもが他者の思考や感情,欲望(あるいは「思考」)を理解する能力を自動的に評価するタスクとして,7つの異なるデータ拡張戦略を実装し,比較する。 ドメイン内の専門家を募集し、拡張サンプルを再アノテートし、それぞれの戦略が元の評価をどの程度保持するかを判断します。 また,各強化戦略が自動スコアリングシステムの性能をどの程度向上させるかを評価する実験を複数実施した。 未発見のデータに一般化する自動システムの能力を決定するために、uk-mind-20 - 10,320組の質問・回答ペアからなるマインドリードテストにおける子供たちのパフォーマンスの新しいコーパスを作成する。 MIND-CAコーパス上での最先端性能を新たに獲得し,マクロF1スコアを6ポイント向上した。 その結果,トレーニング例数と拡張戦略の質がシステムの性能に影響を及ぼすことが示唆された。 タスク固有の拡張は一般的にタスクに依存しない拡張よりも優れています。 ベクター(GloVe、FastText)に基づいた自動拡張が最悪となる。 MIND-CAで訓練されたシステムは、UK-MIND-20とよく似ています。 データ拡張戦略は、見えないデータの性能も向上することを示した。

In this paper we implement and compare 7 different data augmentation strategies for the task of automatic scoring of children's ability to understand others' thoughts, feelings, and desires (or "mindreading"). We recruit in-domain experts to re-annotate augmented samples and determine to what extent each strategy preserves the original rating. We also carry out multiple experiments to measure how much each augmentation strategy improves the performance of automatic scoring systems. To determine the capabilities of automatic systems to generalize to unseen data, we create UK-MIND-20 - a new corpus of children's performance on tests of mindreading, consisting of 10,320 question-answer pairs. We obtain a new state-of-the-art performance on the MIND-CA corpus, improving macro-F1-score by 6 points. Results indicate that both the number of training examples and the quality of the augmentation strategies affect the performance of the systems. The task-specific augmentations generally outperform task-agnostic augmentations. Automatic augmentations based on vectors (GloVe, FastText) perform the worst. We find that systems trained on MIND-CA generalize well to UK-MIND-20. We demonstrate that data augmentation strategies also improve the performance on unseen data.
翻訳日:2021-06-04 23:28:43 公開日:2021-06-03
# (参考訳) 自然言語による再利用可能な振る舞いツリーの学習と実行

Learning and Executing Re-usable Behaviour Trees from Natural Language Instruction ( http://arxiv.org/abs/2106.01650v1 )

ライセンス: CC BY 4.0
Gavin Suddrey, Ben Talbot and Frederic Maire(参考訳) 国内およびサービスロボットは、私たちが住んでいる家だけでなく、医療や小規模製造業といった産業を変革する可能性がある。 しかし、これらのロボットは膨大なタスクをこなすことができるため、あらゆるユーザーのニーズを満たす汎用的なソリューションを提供することは、明らかに難解である。 この問題に対処するためには、ロボットは実行時に新しいタスクを完遂する方法を学ぶことができるだけでなく、これらのタスクに対する解決策はユーザーのニーズによっても知らされなければならない。 本稿では,ゲームやロボティクスの分野で確立された制御アーキテクチャである行動木を自然言語指導と組み合わせて,自律エージェントに新しい複雑なタスクの学習と実行を指示するための堅牢でモジュール化された制御アーキテクチャを提供することを実証する。 また,本手法を用いて生成された行動木を,新たなシナリオに一般化し,今後の学習エピソードで再利用することで,より複雑な行動を生成する方法を示す。 本研究は,既存の自然言語命令のコーパスに対して検証し,おもちゃの問題を解決する模擬ロボットと,ブロックソートシナリオとパトロールシナリオをそれぞれ完成する2つの異なる実世界のロボットプラットフォームの両方に対して,我々のアプローチの適用を実証する。

Domestic and service robots have the potential to transform industries such as health care and small-scale manufacturing, as well as the homes in which we live. However, due to the overwhelming variety of tasks these robots will be expected to complete, providing generic out-of-the-box solutions that meet the needs of every possible user is clearly intractable. To address this problem, robots must therefore not only be capable of learning how to complete novel tasks at run-time, but the solutions to these tasks must also be informed by the needs of the user. In this paper we demonstrate how behaviour trees, a well established control architecture in the fields of gaming and robotics, can be used in conjunction with natural language instruction to provide a robust and modular control architecture for instructing autonomous agents to learn and perform novel complex tasks. We also show how behaviour trees generated using our approach can be generalised to novel scenarios, and can be re-used in future learning episodes to create increasingly complex behaviours. We validate this work against an existing corpus of natural language instructions, demonstrate the application of our approach on both a simulated robot solving a toy problem, as well as two distinct real-world robot platforms which, respectively, complete a block sorting scenario, and a patrol scenario.
翻訳日:2021-06-04 23:16:02 公開日:2021-06-03
# (参考訳) マルコフ決定過程の階層的表現学習 [全文訳有]

Hierarchical Representation Learning for Markov Decision Processes ( http://arxiv.org/abs/2106.01655v1 )

ライセンス: CC BY-SA 4.0
Lorenzo Steccanella, Simone Totaro, Anders Jonsson(参考訳) 本稿ではマルコフ決定過程の階層的表現を学習するための新しい手法を提案する。 我々の手法は状態空間をサブセットに分割し、パーティション間の遷移を実行するためのサブタスクを定義する。 サンプル軌道の集合から勾配勾配を用いて解ける最適化問題として状態空間を分割する問題を定式化し, 大規模状態空間を持つ高次元問題に適合する手法を提案する。 本手法は,ナビゲーション領域において有用な階層表現をうまく学習できることを示し,実証的に検証する。 学習すると、階層表現は与えられたドメイン内の異なるタスクを解決するために使用され、タスク間の知識を一般化することができる。

In this paper we present a novel method for learning hierarchical representations of Markov decision processes. Our method works by partitioning the state space into subsets, and defines subtasks for performing transitions between the partitions. We formulate the problem of partitioning the state space as an optimization problem that can be solved using gradient descent given a set of sampled trajectories, making our method suitable for high-dimensional problems with large state spaces. We empirically validate the method, by showing that it can successfully learn a useful hierarchical representation in a navigation domain. Once learned, the hierarchical representation can be used to solve different tasks in the given domain, thus generalizing knowledge across tasks.
翻訳日:2021-06-04 23:15:01 公開日:2021-06-03
# (参考訳) Bandit Phase Retrieval [全文訳有]

Bandit Phase Retrieval ( http://arxiv.org/abs/2106.01660v1 )

ライセンス: CC BY 4.0
Tor Lattimore, Botao Hao(参考訳) そこで、学習者が$d$次元単位球において$(a_t)_{t=1}^n$を選択し、期待される報酬が$\langle a_t, \theta_\star\rangle^2$であり、ここで$\theta_\star \in \mathbb r^d$は未知のパラメータベクトルである。 この問題のminimax累積後悔は$\smash{\tilde \theta(d \sqrt{n})}$であることが証明され、これは$\smash{\sqrt{d}}$の係数によって最もよく知られた境界で改善される。 また、minimaxの単純な後悔は$\smash{\tilde \Theta(d / \sqrt{n})}$であり、適応アルゴリズムによってのみ達成可能であることを示す。 分析の結果,下限を推測するための説得力のあるヒューリスティックは誤解を招く可能性があり,情報指向サンプリングにおける情報比の均一な境界は,最適な後悔には不十分であることが示唆された。

We study a bandit version of phase retrieval where the learner chooses actions $(A_t)_{t=1}^n$ in the $d$-dimensional unit ball and the expected reward is $\langle A_t, \theta_\star\rangle^2$ where $\theta_\star \in \mathbb R^d$ is an unknown parameter vector. We prove that the minimax cumulative regret in this problem is $\smash{\tilde \Theta(d \sqrt{n})}$, which improves on the best known bounds by a factor of $\smash{\sqrt{d}}$. We also show that the minimax simple regret is $\smash{\tilde \Theta(d / \sqrt{n})}$ and that this is only achievable by an adaptive algorithm. Our analysis shows that an apparently convincing heuristic for guessing lower bounds can be misleading and that uniform bounds on the information ratio for information-directed sampling are not sufficient for optimal regret.
翻訳日:2021-06-04 22:55:46 公開日:2021-06-03
# (参考訳) 既知の生物学的脳ネットワークの特徴によって引き起こされるリッチダイナミックス [全文訳有]

Rich dynamics caused by known biological brain network features resulting in stateful networks ( http://arxiv.org/abs/2106.01683v1 )

ライセンス: CC BY 4.0
Udaya B. Rongala and Henrik J\"orntell(参考訳) 哺乳類の脳は、興奮性ニューロンと抑制性ニューロンの両方を含む、密度が高く疎いネットワーク接続構造を含むことができるが、明確な出力層は存在しない。 ニューロンは時間定数を持ち、ネットワーク構造が状態記憶を持つことを意味する。 ネットワーク構造は、ネットワークの内部状態に依存する異なる条件下でのニューロン間の複雑な相互相互作用を含む。 内部状態は、ネットワーク全体の各ニューロンにまたがる活動の分布として定義することができる。 したがって、ニューロン/ネットワークの状態は、情報がどのようにネットワーク内で表現されるかを定義する要因となる。 本研究では,様々な周波数の疑似ランダム入力によって駆動される興奮性ニューロンと抑制性ニューロンの双方からなる,完全連結(高密度かつ疎結合な符号化戦略)リカレントネットワークを構築した。 本研究では,初期ニューロン活動,閾値ニューロンと組み合わせての抑制量,伝導遅延など,ネットワーク状態のダイナミクスを増強するニューロンの具体的パラメータの違いの影響について検討した。 この影響は、入力毎にネットワーク内のニューロン間の相互相互作用の変化を定量化することで評価された。 このような影響は,密結合ネットワークよりも疎結合ネットワークにおいて顕著であった。 しかし、高密度に接続されたネットワークは、与えられた入力が複数の異なるネットワーク状態を引き起こす可能性があるため、ニューロン間の相互相互作用の動的な変化を利用することができる。

The mammalian brain could contain dense and sparse network connectivity structures, including both excitatory and inhibitory neurons, but is without any clearly defined output layer. The neurons have time constants, which mean that the integrated network structure has state memory. The network structure contains complex mutual interactions between the neurons under different conditions, which depend on the internal state of the network. The internal state can be defined as the distribution of activity across all individual neurons across the network. Therefore, the state of a neuron/network becomes a defining factor for how information is represented within the network. Towards this study, we constructed a fully connected (with dense/sparse coding strategies) recurrent network comprising of both excitatory and inhibitory neurons, driven by pseudo-random inputs of varying frequencies. In this study we assessed the impact of varying specific intrinsic parameters of the neurons that enriched network state dynamics, such as initial neuron activity, amount of inhibition in combination with thresholded neurons and conduction delays. The impact was assessed by quantifying the changes in mutual interactions between the neurons within the network for each given input. We found such effects were more profound in sparsely connected networks than in densely connected networks. However, also densely connected networks could make use of such dynamic changes in the mutual interactions between neurons, as a given input could induce multiple different network states.
翻訳日:2021-06-04 22:37:12 公開日:2021-06-03
# (参考訳) EmoDNN: 深層ニューラルネットワークアンサンブルによる短いテキストからの感情理解 [全文訳有]

EmoDNN: Understanding emotions from short texts through a deep neural network ensemble ( http://arxiv.org/abs/2106.01706v1 )

ライセンス: CC BY 4.0
Sara Kamran, Raziyeh Zall, Mohammad Reza Kangavari, Saeid Hosseini, Sana Rahmani, and Wen Hua(参考訳) 社会的管理、ダイナミックなプロセス、公共の安全といった多くの応用において、社会的ネットワークを通じて表される個人の感情や意見に潜む知識は不可欠である。 感情コンピューティングは、人工知能と認知推論を結びつける学際的な研究分野であり、短い内容から感情指向の知識を活用できる。 テキストの内容は、ユーザ間の相関関係とバリエーションを判断できる対応する著者について、パーソナリティや認知といった隠れた情報を伝達する。 短い内容からの感情認識は、感情表現の中にパーソナリティと認知の違いをトレースできる著者間のコントラストを受け入れるべきである。 この課題に取り組むために,我々は,潜在する個人的側面を短い内容から推測する枠組みを考案し,その一方で,テクスト的文脈から感情を抽出するダイナミックなドロップアウト・コンベインを備えた新しいアンサンブル分類器を提案する。 短文内容の分類を行うため,提案手法は認知的要因を相補的に活用し,隠れ情報を活用する。 我々は,新しい埋め込みモデルにおける結果ベクトルを利用して,語彙誘導によって組み立てられた感情関連特徴を育成する。 実験の結果,提案モデルは他の競合モデルと比較して,ノイズコンテンツからの感情認識において高い性能が得られることがわかった。

The latent knowledge in the emotions and the opinions of the individuals that are manifested via social networks are crucial to numerous applications including social management, dynamical processes, and public security. Affective computing, as an interdisciplinary research field, linking artificial intelligence to cognitive inference, is capable to exploit emotion-oriented knowledge from brief contents. The textual contents convey hidden information such as personality and cognition about corresponding authors that can determine both correlations and variations between users. Emotion recognition from brief contents should embrace the contrast between authors where the differences in personality and cognition can be traced within emotional expressions. To tackle this challenge, we devise a framework that, on the one hand, infers latent individual aspects, from brief contents and, on the other hand, presents a novel ensemble classifier equipped with dynamic dropout convnets to extract emotions from textual context. To categorize short text contents, our proposed method conjointly leverages cognitive factors and exploits hidden information. We utilize the outcome vectors in a novel embedding model to foster emotion-pertinent features that are collectively assembled by lexicon inductions. Experimental results show that compared to other competitors, our proposed model can achieve a higher performance in recognizing emotion from noisy contents.
翻訳日:2021-06-04 22:26:57 公開日:2021-06-03
# (参考訳) 偏光手がかりによる都市景観理解に向けて [全文訳有]

Towards urban scenes understanding through polarization cues ( http://arxiv.org/abs/2106.01717v1 )

ライセンス: CC BY 4.0
Marc Blanchon, D\'esir\'e Sidib\'e, Olivier Morel, Ralph Seulin, Fabrice Meriaudeau(参考訳) 自律型ロボティクスは、シーン理解アルゴリズムの堅牢性の影響を強く受けている。 動的都市景観を解析するための偏光指標に基づく2軸パイプラインを提案する。 ロボットは未知の環境で進化するにつれて、鏡面上の障害物に遭遇しがちである。 通常、特異現象は誤解釈や誤った推定を引き起こすアルゴリズムによって考慮されることは稀である。 すべての光特性を活用することで、システムはイベントに対するロバスト性を大幅に向上させることができる。 従来の測光特性に加えて,偏光センシングも含むことを提案する。 本稿では,偏光測定の寄与がセグメンテーションの性能と深さ推定の品質の両方を増大させることを示す。 偏光計測に基づく手法は, 偏光イメージングの利用に関心を示した他のrgb中心法と比較した。

Autonomous robotics is critically affected by the robustness of its scene understanding algorithms. We propose a two-axis pipeline based on polarization indices to analyze dynamic urban scenes. As robots evolve in unknown environments, they are prone to encountering specular obstacles. Usually, specular phenomena are rarely taken into account by algorithms which causes misinterpretations and erroneous estimates. By exploiting all the light properties, systems can greatly increase their robustness to events. In addition to the conventional photometric characteristics, we propose to include polarization sensing. We demonstrate in this paper that the contribution of polarization measurement increases both the performances of segmentation and the quality of depth estimation. Our polarimetry-based approaches are compared here with other state-of-the-art RGB-centric methods showing interest of using polarization imaging.
翻訳日:2021-06-04 22:02:35 公開日:2021-06-03
# (参考訳) 深層学習による低線量電子によるTEM画像の高速改善 [全文訳有]

Fast improvement of TEM image with low-dose electrons by deep learning ( http://arxiv.org/abs/2106.01718v1 )

ライセンス: CC BY 4.0
Hiroyasu Katsuno, Yuki Kimura, Tomoya Yamazaki and Ichigaku Takigawa(参考訳) 低電子量観察は、透過電子顕微鏡を用いて様々な試料を観察するのに必須であり、そのため、透過電子顕微鏡(TEM)画像を改善するために画像処理が用いられている。 このような画像処理をその場観察に適用するために、畳み込みニューラルネットワークをTEMイメージングに適用する。 短時間露光画像と長時間露光画像を含むデータセットを用いて、エンドツーエンドのトレーニングに基づいて、短時間露光画像を処理するパイプラインを開発する。 総線量約5e/ピクセルで取得した画像の品質は、総線量約1000e/ピクセルで取得した画像と同等になる。 変換時間はおよそ8msであるため、125fpsのその場観測が可能となる。 このイメージング技術は、電子ビーム感受性標本のその場観察を可能にする。

Low-electron-dose observation is indispensable for observing various samples using a transmission electron microscope; consequently, image processing has been used to improve transmission electron microscopy (TEM) images. To apply such image processing to in situ observations, we here apply a convolutional neural network to TEM imaging. Using a dataset that includes short-exposure images and long-exposure images, we develop a pipeline for processed short-exposure images, based on end-to-end training. The quality of images acquired with a total dose of approximately 5 e- per pixel becomes comparable to that of images acquired with a total dose of approximately 1000 e- per pixel. Because the conversion time is approximately 8 ms, in situ observation at 125 fps is possible. This imaging technique enables in situ observation of electron-beam-sensit ive specimens.
翻訳日:2021-06-04 21:49:12 公開日:2021-06-03
# (参考訳) GMAIR:空間的注意とガウス混合に基づく教師なし物体検出 [全文訳有]

GMAIR: Unsupervised Object Detection Based on Spatial Attention and Gaussian Mixture ( http://arxiv.org/abs/2106.01722v1 )

ライセンス: CC BY 4.0
Weijin Zhu, Yao Shen, Linfeng Yu, Lizeth Patricia Aguirre Sanchez(参考訳) 空間的注意に基づく非教師対象検出に関する最近の研究は有望な成果を得た。 AIRやSPAIRのようなモデルは、それぞれシーン内のオブジェクトの属性と場所を表す"What"と"where"の潜在変数を出力します。 これまでの研究のほとんどは「どこで」ローカライゼーションのパフォーマンスに重点を置いているが、表現学習には「何」オブジェクト属性の獲得も不可欠であると主張している。 本稿では,教師なし物体検出のためのフレームワークGMAIRを提案する。 空間的注意とガウス混合を統合された深部生成モデルに組み込む。 GMAIRはシーン内のオブジェクトを見つけ、同時に監視なしでクラスタ化することができる。 さらに、"What"潜伏変数とクラスタリングプロセスを分析します。 最後に、MultiMNISTおよびFruit2Dデータセットのモデルを評価し、GMAIRが最先端手法と比較して、ローカライゼーションとクラスタリングの競合的な結果が得られることを示す。

Recent studies on unsupervised object detection based on spatial attention have achieved promising results. Models, such as AIR and SPAIR, output "what" and "where" latent variables that represent the attributes and locations of objects in a scene, respectively. Most of the previous studies concentrate on the "where" localization performance; however, we claim that acquiring "what" object attributes is also essential for representation learning. This paper presents a framework, GMAIR, for unsupervised object detection. It incorporates spatial attention and a Gaussian mixture in a unified deep generative model. GMAIR can locate objects in a scene and simultaneously cluster them without supervision. Furthermore, we analyze the "what" latent variables and clustering process. Finally, we evaluate our model on MultiMNIST and Fruit2D datasets and show that GMAIR achieves competitive results on localization and clustering compared to state-of-the-art methods.
翻訳日:2021-06-04 21:37:43 公開日:2021-06-03
# (参考訳) 有限和不平衡凸凸ミニマックス最適化のための近似最適確率アルゴリズム

Near Optimal Stochastic Algorithms for Finite-Sum Unbalanced Convex-Concave Minimax Optimization ( http://arxiv.org/abs/2106.01761v1 )

ライセンス: CC0 1.0
Luo Luo, Guangzeng Xie, Tong Zhang, Zhihua Zhang(参考訳) 本稿では, 平均値が$L$の個々の成分の平均値で$f$を提示できるような, $\min_{\bf x}\max_{\bf y}f(\bf x, \bf y)$という形で, 凸-凹最小値問題の確率的一階法を提案する。 $\mu_x$-strongly-con vex-$\mu_y$-strongly -concave の設定に対して、$\tilde{\mathcal O} \big(\sqrt{n(\sqrt{n}+\kappa_x)(\sqrt{n}+\kappa_y)}\log(1/\varepsilon)\ big)$ stochastic first-order complexity, where $\kappa_x\triangleq L/\mu_x$ and $\kappa_y\triangleq L/\mu_y$\mu_y\triang leq L/\mu_y$} という問題の新しい方法を提案する。 この上限は、同時に$\varepsilon$, $n$, $\kappa_x$, $\kappa_y$に関して最適に近い。 さらに、このアルゴリズムは容易に実装でき、実用的にも機能する。 提案手法は,より一般の非平衡凸凸ミニマックス問題を解くために拡張することができ,それに対応する上複雑性境界もほぼ最適である。

This paper considers stochastic first-order algorithms for convex-concave minimax problems of the form $\min_{\bf x}\max_{\bf y}f(\bf x, \bf y)$, where $f$ can be presented by the average of $n$ individual components which are $L$-average smooth. For $\mu_x$-strongly-con vex-$\mu_y$-strongly -concave setting, we propose a new method which could find a $\varepsilon$-saddle point of the problem in $\tilde{\mathcal O} \big(\sqrt{n(\sqrt{n}+\kappa_x)(\sqrt{n}+\kappa_y)}\log(1/\varepsilon)\ big)$ stochastic first-order complexity, where $\kappa_x\triangleq L/\mu_x$ and $\kappa_y\triangleq L/\mu_y$. This upper bound is near optimal with respect to $\varepsilon$, $n$, $\kappa_x$ and $\kappa_y$ simultaneously. In addition, the algorithm is easily implemented and works well in practical. Our methods can be extended to solve more general unbalanced convex-concave minimax problems and the corresponding upper complexity bounds are also near optimal.
翻訳日:2021-06-04 21:24:02 公開日:2021-06-03
# (参考訳) LiMIIRL:軽量多元逆強化学習 [全文訳有]

LiMIIRL: Lightweight Multiple-Intent Inverse Reinforcement Learning ( http://arxiv.org/abs/2106.01777v1 )

ライセンス: CC BY 4.0
Aaron J. Snoswell, Surya P. N. Singh, Nan Ye(参考訳) MI-IRL(Multi-Intent Inverse Reinforcement Learning)は、異なる意図のデモンストレーションを合理化する報酬関数のアンサンブルを求める。 確率的MI-IRLモデルを学習するための一般的な期待最大化(EM)フレームワークの中で,特徴空間における実演の事前クラスタリングに基づくウォームスタート戦略を提案する。 理論解析により, このウォームスタート溶液は, 挙動モードが穏やかな分離条件を満たすならば, ほぼ最適の報酬アンサンブルを生成することが示された。 また,一般的な期待値差尺度を一般化したmi-irlパフォーマンス指標を提案し,接地報酬アンサンブルに対する学習報酬を直接評価する。 提案手法は, 学習と基礎的真理報酬のペアリングの難しさを, ミンコストフローの定式化によって解決し, 効率よく計算可能である。 さらに,より包括的なアルゴリズム評価を可能にするmi-irlベンチマーク問題も開発した。 この問題に対して,MI-IRLウォームスタート戦略は,品質の悪いローカルなミニマ報酬アンサンブルを回避し,行動クラスタリングを大幅に改善する。 広義の感度分析により,理論的な仮定が必ずしも持たない場合を含む,様々な条件下で学習された報酬アンサンブルの品質が向上することが示された。 最後に,ドライバGPSトラジェクトリの大規模実世界のデータセットにおいて,異なる運転スタイルを発見することで,提案手法の有効性を実証する。

Multiple-Intent Inverse Reinforcement Learning (MI-IRL) seeks to find a reward function ensemble to rationalize demonstrations of different but unlabelled intents. Within the popular expectation maximization (EM) framework for learning probabilistic MI-IRL models, we present a warm-start strategy based on up-front clustering of the demonstrations in feature space. Our theoretical analysis shows that this warm-start solution produces a near-optimal reward ensemble, provided the behavior modes satisfy mild separation conditions. We also propose a MI-IRL performance metric that generalizes the popular Expected Value Difference measure to directly assesses learned rewards against the ground-truth reward ensemble. Our metric elegantly addresses the difficulty of pairing up learned and ground truth rewards via a min-cost flow formulation, and is efficiently computable. We also develop a MI-IRL benchmark problem that allows for more comprehensive algorithmic evaluations. On this problem, we find our MI-IRL warm-start strategy helps avoid poor quality local minima reward ensembles, resulting in a significant improvement in behavior clustering. Our extensive sensitivity analysis demonstrates that the quality of the learned reward ensembles is improved under various settings, including cases where our theoretical assumptions do not necessarily hold. Finally, we demonstrate the effectiveness of our methods by discovering distinct driving styles in a large real-world dataset of driver GPS trajectories.
翻訳日:2021-06-04 21:22:19 公開日:2021-06-03
# (参考訳) DOTA 2結果予測のための機械学習モデル [全文訳有]

Machine learning models for DOTA 2 outcomes prediction ( http://arxiv.org/abs/2106.01782v1 )

ライセンス: CC BY 4.0
Kodirjon Akhmedov and Anh Huy Phan(参考訳) リアルタイムマルチプレイヤーオンラインバトルアリーナ(MOBA)ゲームのマッチ結果の予測は,Esports分析研究において最も重要な,エキサイティングなタスクの1つである。 本研究は,マルチフォワードステップ予測の新しい手法を用いて,Dota 2 MOBAゲームの結果を特定するための予測マシンとディープラーニングモデルの構築に主眼を置いている。 線形回帰(lr)、ニューラルネットワーク(nn)、リカレントニューラルネットワークのlong short-term memory(lstm)の3つのモデルを比較した。 この目的を達成するために,ゲーム状態統合(gsi)を用いて,プレイヤーのリアルタイムデータを追跡するデータ収集用pythonサーバを開発した。 探索的特徴分析とハイパーパラメータのチューニングが完了すると、モデルの実験はプレイ経験の異なる異なる背景を持つ異なるプレイヤーで行われました。 得られた精度は、線形回帰の69\%では悪いが平均82\%では、NNの88\%では、LSTMの93\%では、最も高い精度で予測された。

Prediction of the real-time multiplayer online battle arena (MOBA) games' match outcome is one of the most important and exciting tasks in Esports analytical research. This research paper predominantly focuses on building predictive machine and deep learning models to identify the outcome of the Dota 2 MOBA game using the new method of multi-forward steps predictions. Three models were investigated and compared: Linear Regression (LR), Neural Networks (NN), and a type of recurrent neural network Long Short-Term Memory (LSTM). In order to achieve the goals, we developed a data collecting python server using Game State Integration (GSI) to track the real-time data of the players. Once the exploratory feature analysis and tuning hyper-parameters were done, our models' experiments took place on different players with dissimilar backgrounds of playing experiences. The achieved accuracy scores depend on the multi-forward prediction parameters, which for the worse case in linear regression 69\% but on average 82\%, while in the deep learning models hit the utmost accuracy of prediction on average 88\% for NN, and 93\% for LSTM models.
翻訳日:2021-06-04 20:51:54 公開日:2021-06-03
# (参考訳) 技術倫理のコンテスト: 行動倫理と技術に対する社会技術的アプローチ

The Contestation of Tech Ethics: A Sociotechnical Approach to Ethics and Technology in Action ( http://arxiv.org/abs/2106.01784v1 )

ライセンス: CC BY 4.0
Ben Green(参考訳) フェイクニュース、プライバシー、アルゴリズムバイアスといったトピックに関する最近の論争は、デジタル技術に対する公衆の監視と、その開発に関わる多くの人々の間でのソウルサーチの促進を促している。 これに反応して、テック産業、アカデミア、市民社会、政府はデジタル技術の設計と利用における「倫理」に対する関心を急速に高めてきた("tech ethics")。 技術倫理はあいまいで歯のないものであり、企業の論理やインセンティブに取り入れられ、技術生産の構造や文化よりも個々のエンジニアや技術デザインに妙に焦点を合わせています。 これらの制限の結果、多くの人々は技術倫理とその支持者に懐疑的になり、倫理的行動にコミットすることなく、倫理研究と批判や政府の規制を軽視するための言説を奨励する「倫理洗浄」を課した。 科学とビジネスの両方で倫理が表面的かつ非政治的な方法でどのように取り上げられているかを見ることによって、私は、技術的な倫理を、倫理的に望ましいかどうかではなく、どのような「倫理」が関与し、誰がそれを定義できるかという議論の場として再演します。 このフレーミングは、テクノロジー倫理に対する現在のアプローチの大きな限界と、テクノロジー倫理の定式化と実世界の効果を研究することの重要性を強調している。 デジタル技術と彼らが仲介する社会的関係を改革するためのより厳密な戦略を特定し、開発するために、技術倫理に対する社会技術的アプローチについて述べ、デジタル技術に関する技術倫理自身の教訓の多くを、技術倫理自体に回帰的に適用する。

Recent controversies related to topics such as fake news, privacy, and algorithmic bias have prompted increased public scrutiny of digital technologies and soul-searching among many of the people associated with their development. In response, the tech industry, academia, civil society, and governments have rapidly increased their attention to "ethics" in the design and use of digital technologies ("tech ethics"). Yet almost as quickly as ethics discourse has proliferated across the world of digital technologies, the limitations of these approaches have also become apparent: tech ethics is vague and toothless, is subsumed into corporate logics and incentives, and has a myopic focus on individual engineers and technology design rather than on the structures and cultures of technology production. As a result of these limitations, many have grown skeptical of tech ethics and its proponents, charging them with "ethics-washing": promoting ethics research and discourse to defuse criticism and government regulation without committing to ethical behavior. By looking at how ethics has been taken up in both science and business in superficial and depoliticizing ways, I recast tech ethics as a terrain of contestation where the central fault line is not whether it is desirable to be ethical, but what "ethics" entails and who gets to define it. This framing highlights the significant limits of current approaches to tech ethics and the importance of studying the formulation and real-world effects of tech ethics. In order to identify and develop more rigorous strategies for reforming digital technologies and the social relations that they mediate, I describe a sociotechnical approach to tech ethics, one that reflexively applies many of tech ethics' own lessons regarding digital technologies to tech ethics itself.
翻訳日:2021-06-04 20:34:20 公開日:2021-06-03
# (参考訳) 次に何があった? フットボールイベントデータにおける深層学習による防御行動の評価 [全文訳有]

What Happened Next? Using Deep Learning to Value Defensive Actions in Football Event-Data ( http://arxiv.org/abs/2106.01786v1 )

ライセンス: CC BY 4.0
Charbel Merhej, Ryan Beal, Sarvapali Ramchurn (University of Southampton), Tim Matthews (Sentient Sports)(参考訳) サッカーにおける選手行動(soccer)の価値を客観的に定量化することは難しい問題である。 これまで、サッカー分析の研究は主に攻撃的な側面に焦点を当ててきたが、防御行動(タックルやインターセプトなど)を評価するためのイベント駆動のメトリクスの作業は少ない。 そこで本稿では,遊びの通路の脅威を研究することによって,このような防御的行動を評価できる新しい指標を定義するために,深層学習手法を用いる。 そうすることで、ゲーム内で何が起こらないかに基づいて、防御的なアクションを評価できます。 我々のDefensive Action expected Threat(DAxT)モデルは、2017/2018年と2018/2019年のイングランドプレミアリーグシーズンの実際のイベントデータを用いて検証され、我々のモデル出力と追加機能を組み合わせて、プレイヤーの防御能力を総合的に評価する。 全体として、当社のモデルは防御行動の影響を予測でき、イベントデータを使用してディフェンダーによりよい価値を与えることができます。

Objectively quantifying the value of player actions in football (soccer) is a challenging problem. To date, studies in football analytics have mainly focused on the attacking side of the game, while there has been less work on event-driven metrics for valuing defensive actions (e.g., tackles and interceptions). Therefore in this paper, we use deep learning techniques to define a novel metric that values such defensive actions by studying the threat of passages of play that preceded them. By doing so, we are able to value defensive actions based on what they prevented from happening in the game. Our Defensive Action Expected Threat (DAxT) model has been validated using real-world event-data from the 2017/2018 and 2018/2019 English Premier League seasons, and we combine our model outputs with additional features to derive an overall rating of defensive ability for players. Overall, we find that our model is able to predict the impact of defensive actions allowing us to better value defenders using event-data.
翻訳日:2021-06-04 20:32:56 公開日:2021-06-03
# (参考訳) TVDIM: ノイズのあるテキストデータによる自己監督型事前トレーニングの強化 [全文訳有]

TVDIM: Enhancing Image Self-Supervised Pretraining via Noisy Text Data ( http://arxiv.org/abs/2106.01797v1 )

ライセンス: CC BY 4.0
Pengda Qin and Yuhong Li(参考訳) 現実世界のユビキタスなマルチモーダルデータのうち、テキストは人間が生成するモダリティであり、画像は物理的世界を反映している。 視覚理解アプリケーションでは、機械は人間のようなイメージを理解することが期待される。 そこで本研究では,自然に存在するマルチモーダルデータを完全に活用して,より優れた視覚表現を学習するための,テキスト強化ビジュアル深度情報Max (TVDIM) という自己教師型学習手法を提案する。 自己教師付き学習の核となる考え方は、共有コンテキストの複数のビューから抽出された特徴間の相互情報量を合理度に最大化することです。 単一のモダリティからのみ複数のビューを考える従来の方法とは異なり、我々の研究は異なるモダリティから複数のビューを生成し、モダリティ内およびモダリティ間の特徴対に対する相互情報を共同で最適化する。 データノイズからモダリティ間の情報ギャップを考えると、相互情報を最適化するためにemph{ rank-based}コントラスト学習を採用する。 評価では,事前学習した視覚表現を用いて様々な画像分類作業を行う。 実験の結果,TVDIMは同じ画像の集合を処理する場合,従来の視覚自己監督手法よりも有意に優れていた。

Among ubiquitous multimodal data in the real world, text is the modality generated by human, while image reflects the physical world honestly. In a visual understanding application, machines are expected to understand images like human. Inspired by this, we propose a novel self-supervised learning method, named Text-enhanced Visual Deep InfoMax (TVDIM), to learn better visual representations by fully utilizing the naturally-existing multimodal data. Our core idea of self-supervised learning is to maximize the mutual information between features extracted from multiple views of a shared context to a rational degree. Different from previous methods which only consider multiple views from a single modality, our work produces multiple views from different modalities, and jointly optimizes the mutual information for features pairs of intra-modality and inter-modality. Considering the information gap between inter-modality features pairs from data noise, we adopt a \emph{ranking-based} contrastive learning to optimize the mutual information. During evaluation, we directly use the pre-trained visual representations to complete various image classification tasks. Experimental results show that, TVDIM significantly outperforms previous visual self-supervised methods when processing the same set of images.
翻訳日:2021-06-04 20:17:32 公開日:2021-06-03
# (参考訳) 自然言語生成におけるバックドア攻撃対策 [全文訳有]

Defending against Backdoor Attacks in Natural Language Generation ( http://arxiv.org/abs/2106.01810v1 )

ライセンス: CC BY 4.0
Chun Fan, Xiaoya Li, Yuxian Meng, Xiaofei Sun, Xiang Ao, Fei Wu, Jiwei Li, Tianwei Zhang(参考訳) ニューラルネットワークモデルの非常に脆弱な性質により、現在の自然言語生成(nlg)システムはバックドア攻撃を起こしやすくなり、セクシストや攻撃的な悪質なシーケンスを生成する。 残念なことに、バックドア攻撃が現在のNLGモデルにどのように影響するか、そしてこれらの攻撃に対する防御方法にはほとんど投資されていない。 本研究では,機械翻訳と対話生成という2つの重要なNLGタスクについて,この問題について検討する。 バックドア攻撃と防御を形式的に定義し、対応するベンチマークを開発することにより、nlgモデルを攻撃するための手法を設計し、nlgモデルに悪意のあるシーケンスを生成するように要求する。 これらの攻撃から防御するために,特定の単語の削除や置換が生成出力に与える影響を調べることにより,攻撃トリガを検出することを提案する。 我々は,本研究の限界について論じ,本研究が深いNLGシステムに隠されたバックドアリスクの認識を高めることを期待する。 (コードとデータはhttps://github.com/S hannonAI/backdoor_nl g.com)。

The frustratingly fragile nature of neural network models make current natural language generation (NLG) systems prone to backdoor attacks and generate malicious sequences that could be sexist or offensive. Unfortunately, little effort has been invested to how backdoor attacks can affect current NLG models and how to defend against these attacks. In this work, we investigate this problem on two important NLG tasks, machine translation and dialogue generation. By giving a formal definition for backdoor attack and defense, and developing corresponding benchmarks, we design methods to attack NLG models, which achieve high attack success to ask NLG models to generate malicious sequences. To defend against these attacks, we propose to detect the attack trigger by examining the effect of deleting or replacing certain words on the generation outputs, which we find successful for certain types of attacks. We will discuss the limitation of this work, and hope this work can raise the awareness of backdoor risks concealed in deep NLG systems. (Code and data are available at https://github.com/S hannonAI/backdoor_nl g.)
翻訳日:2021-06-04 20:01:18 公開日:2021-06-03
# (参考訳) 強化学習を用いた最適化に基づく代数的マルチグリッド粗大化 [全文訳有]

Optimization-Based Algebraic Multigrid Coarsening Using Reinforcement Learning ( http://arxiv.org/abs/2106.01854v1 )

ライセンス: CC BY 4.0
Ali Taghibakhshi, Scott MacLachlan, Luke Olson, Matthew West(参考訳) 大きなスパース線形方程式系は、偏微分方程式の離散化から生じるような科学や工学においてユビキタスである。 代数的多重グリッド法(英語版)(AMG)はそのような線形系を解く最も一般的な方法の1つである。 線形方程式系は未知数の集合上のグラフを定義し、マルチグリッドソルバの各レベルは、粗い表現に写像する制限と補間演算子とともに適切な粗グラフの選択を必要とする。 マルチグリッドソルバの効率はこの選択に極めて依存しており、長年にわたって多くの選択法が開発されてきた。 近年,粗いグラフ選択を条件として,AMG補間および制限演算子を直接学習できることが実証されている。 本稿では,マルチグリッド解法において,グラフを粗いものにするための学習の相補的な問題を考える。 本稿では、グラフニューラルネットワーク(GNN)に基づく強化学習(RL)エージェントを用いて、小さなトレーニンググラフ上でグラフ粗化を学習し、非構造化の大きなグラフに適用する手法を提案する。 本手法は,グラフのサイズが増加し,グラフの他の特性が変化しても,既存のアルゴリズムよりも粗いグラフを生成できることを実証する。 また,グラフサイズの線形時間複雑性をもたらすグラフ粗さを効率的に推定する手法を提案する。

Large sparse linear systems of equations are ubiquitous in science and engineering, such as those arising from discretizations of partial differential equations. Algebraic multigrid (AMG) methods are one of the most common methods of solving such linear systems, with an extensive body of underlying mathematical theory. A system of linear equations defines a graph on the set of unknowns and each level of a multigrid solver requires the selection of an appropriate coarse graph along with restriction and interpolation operators that map to and from the coarse representation. The efficiency of the multigrid solver depends critically on this selection and many selection methods have been developed over the years. Recently, it has been demonstrated that it is possible to directly learn the AMG interpolation and restriction operators, given a coarse graph selection. In this paper, we consider the complementary problem of learning to coarsen graphs for a multigrid solver. We propose a method using a reinforcement learning (RL) agent based on graph neural networks (GNNs), which can learn to perform graph coarsening on small training graphs and then be applied to unstructured large graphs. We demonstrate that this method can produce better coarse graphs than existing algorithms, even as the graph size increases and other properties of the graph are varied. We also propose an efficient inference procedure for performing graph coarsening that results in linear time complexity in graph size.
翻訳日:2021-06-04 19:39:59 公開日:2021-06-03
# (参考訳) 付加雑音と畳み込み歪みを考慮した心音分類 [全文訳有]

Heart Sound Classification Considering Additive Noise and Convolutional Distortion ( http://arxiv.org/abs/2106.01865v1 )

ライセンス: CC BY 4.0
Farhat Binte Azam, Md. Istiaq Ansari, Ian Mclane, Taufiq Hasan(参考訳) 心臓移植は心臓疾患の早期診断に欠かせないポイント・オブ・ケア法である。 異常検出のための心臓音の自動解析は、加算雑音とセンサ依存劣化の課題に直面している。 本研究の目的は, 心音に両種類の歪みが存在する場合に, 心臓異常検出問題に対処する手法を開発することである。 まず,短時間のフィルタバンクに基づく特徴と畳み込みニューラルネットワーク(CNN)層に対する加法雑音と畳み込み雑音の影響を数学的に解析する。 解析に基づいて,線形および対数スペクトログラム画像の特徴の組み合わせを提案する。 これらの2次元特徴は、心音異常検出のための残留cnnネットワーク(resnet)への入力として提供される。 複数の聴診器センサから得られたノイズ記録を含むオープンアクセス型心音異常検出データセット上で実験的検証を行う。 提案手法は従来の手法と比較して, 91.36%のOC曲線 (AUC) , 84.09%のF-1スコア, 85.08%のMacc(感度と特異性) の領域において, 有意に改善された。 また,提案手法は聴診器や雑音変動量を含む異なる音源領域にまたがる最適な平均精度を示し,異なる記録条件下での有効性を示す。 線形・対数的特徴とResNet分類器の組み合わせにより, 背景雑音の影響を最小化し, 超音波心電図(PCG)信号の分類が可能となる。 提案手法は, 低コスト聴診器を用いた低騒音環境下でのコンピュータ支援心臓聴診システムの開発への道を開くものである。

Cardiac auscultation is an essential point-of-care method used for the early diagnosis of heart diseases. Automatic analysis of heart sounds for abnormality detection is faced with the challenges of additive noise and sensor-dependent degradation. This paper aims to develop methods to address the cardiac abnormality detection problem when both types of distortions are present in the cardiac auscultation sound. We first mathematically analyze the effect of additive and convolutional noise on short-term filterbank-based features and a Convolutional Neural Network (CNN) layer. Based on the analysis, we propose a combination of linear and logarithmic spectrogram-image features. These 2D features are provided as input to a residual CNN network (ResNet) for heart sound abnormality detection. Experimental validation is performed on an open-access heart sound abnormality detection dataset involving noisy recordings obtained from multiple stethoscope sensors. The proposed method achieves significantly improved results compared to the conventional approaches, with an area under the ROC (receiver operating characteristics) curve (AUC) of 91.36%, F-1 score of 84.09%, and Macc (mean of sensitivity and specificity) of 85.08%. We also show that the proposed method shows the best mean accuracy across different source domains including stethoscope and noise variability, demonstrating its effectiveness in different recording conditions. The proposed combination of linear and logarithmic features along with the ResNet classifier effectively minimizes the impact of background noise and sensor variability for classifying phonocardiogram (PCG) signals. The proposed method paves the way towards developing computer-aided cardiac auscultation systems in noisy environments using low-cost stethoscopes.
翻訳日:2021-06-04 19:25:58 公開日:2021-06-03
# (参考訳) ガンマモデルに対するベイズ推定

Bayesian Inference for Gamma Models ( http://arxiv.org/abs/2106.01906v1 )

ライセンス: CC BY 4.0
Jingyu He, Nicholas Polson, Jianeng Xu(参考訳) 正規分散平均混合の理論を用いて、ガンマ関数を含むモデルに対するデータ拡張スキームを導出する。 本手法は,多項二項分布,負の二項回帰,ポアソン・ガンマ階層モデル,極値モデルなど,統計学や機械学習の多くの状況に適用できる。 これらのモデルはすべて、自然共役事前分布を認めないガンマ関数を含み、推論と予測に重大な課題を与える。 データ拡張戦略を提供するため、指数逆ガンマ分布のクラスの理論を構築し、開発する。 これにより、スケーラブルなEMとMCMCアルゴリズムを開発できる。 我々は,ガンマ形状推定,負の2項回帰,ディリクレ割当など,いくつかの例で方法論を説明する。 最後に,今後の研究の方向性について述べる。

We use the theory of normal variance-mean mixtures to derive a data augmentation scheme for models that include gamma functions. Our methodology applies to many situations in statistics and machine learning, including Multinomial-Dirichle t distributions, Negative binomial regression, Poisson-Gamma hierarchical models, Extreme value models, to name but a few. All of those models include a gamma function which does not admit a natural conjugate prior distribution providing a significant challenge to inference and prediction. To provide a data augmentation strategy, we construct and develop the theory of the class of Exponential Reciprocal Gamma distributions. This allows scalable EM and MCMC algorithms to be developed. We illustrate our methodology on a number of examples, including gamma shape inference, negative binomial regression and Dirichlet allocation. Finally, we conclude with directions for future research.
翻訳日:2021-06-04 19:07:17 公開日:2021-06-03
# (参考訳) 地下設備のロボット検査と3次元GPRによる再構築 [全文訳有]

Robotic Inspection and 3D GPR-based Reconstruction for Underground Utilities ( http://arxiv.org/abs/2106.01907v1 )

ライセンス: CC BY 4.0
Jinglun Feng, Liang Yang, Jiang Biao, Jizhong Xiao(参考訳) 地中貫入レーダ(GPR)は、複雑な環境下で地下オブジェクト(リバー、ユーティリティパイプ)を検査・調査するための有効な非破壊評価(NDE)装置である。 しかし、現在のGPRデータ収集には、事前にマークされたグリッド線に沿ってGPRカートを移動させ、3D GPRイメージングソフトウェアによる後処理のために、X方向とY方向の両方でGPRデータを記録する必要がある。 広い地域を調査するのは時間と手間のかかる作業です。 さらに、地下ターゲットを特定することは、特に大規模シナリオにおいて、GPRアプリケーションを制限する手動および主観的な解釈をしなければならない経験豊富なエンジニアの知識に依存する。 さらに、現在のGPRイメージング技術は直感的ではなく、普通のユーザーが理解しやすく、視覚化に親しみやすいものではない。 本稿では,GPRデータを収集し,GPRデータを解釈し,地下ユーティリティをローカライズし,地下オブジェクトの高密度点雲モデルをユーザフレンドリーな方法で再構築・可視化する,新しいロボットシステムを提案する。 This system is composed of three modules: 1) a vision-aided Omni-directional robotic data collection platform, which enables the GPR antenna to scan the target area freely with an arbitrary trajectory while using a visual-inertial-base d positioning module tags the GPR measurements with positioning information; 2) a deep neural network (DNN) migration module to interpret the raw GPR B-scan image into a cross-section of object model; 3) a DNN-based 3D reconstruction method, i.e., GPRNet, to generate underground utility model represented as fine 3D point cloud. 各種不完全性およびノイズを伴う合成およびフィールドGPR生データの比較研究を行った。

Ground Penetrating Radar (GPR) is an effective non-destructive evaluation (NDE) device for inspecting and surveying subsurface objects (i.e., rebars, utility pipes) in complex environments. However, the current practice for GPR data collection requires a human inspector to move a GPR cart along pre-marked grid lines and record the GPR data in both X and Y directions for post-processing by 3D GPR imaging software. It is time-consuming and tedious work to survey a large area. Furthermore, identifying the subsurface targets depends on the knowledge of an experienced engineer, who has to make manual and subjective interpretation that limits the GPR applications, especially in large-scale scenarios. In addition, the current GPR imaging technology is not intuitive, and not for normal users to understand, and not friendly to visualize. To address the above challenges, this paper presents a novel robotic system to collect GPR data, interpret GPR data, localize the underground utilities, reconstruct and visualize the underground objects' dense point cloud model in a user-friendly manner. This system is composed of three modules: 1) a vision-aided Omni-directional robotic data collection platform, which enables the GPR antenna to scan the target area freely with an arbitrary trajectory while using a visual-inertial-base d positioning module tags the GPR measurements with positioning information; 2) a deep neural network (DNN) migration module to interpret the raw GPR B-scan image into a cross-section of object model; 3) a DNN-based 3D reconstruction method, i.e., GPRNet, to generate underground utility model represented as fine 3D point cloud. Comparative studies on synthetic and field GPR raw data with various incompleteness and noise are performed.
翻訳日:2021-06-04 19:06:18 公開日:2021-06-03
# (参考訳) deepopt:ブラックボックス最適化によるニューラルネットワークのスケーラブルな仕様ベース改ざん [全文訳有]

DeepOpt: Scalable Specification-based Falsification of Neural Networks using Black-Box Optimization ( http://arxiv.org/abs/2106.01917v1 )

ライセンス: CC BY-SA 4.0
Fabian Bauer-Marquart, Stefan Leue, Christian Schilling(参考訳) ディープニューラルネットワーク(DNN)による決定は、それらが組み込まれているシステムの信頼性に大きな影響を与える。 本稿では,デバッグと修復を支援するため,DNNの仕様に基づくファルシフィケーションについて検討する。 本稿では,ブラックボックス最適化に基づく改ざん手法であるdeepoptを提案する。 DeepOptは入力出力仕様を解析できるので、堅牢性仕様のみをサポートするファルシフィケーションアプローチよりも一般的です。 鍵となる考え方は、DNNと仕様から派生した入出力制約を代数的に組み合わせることである。 我々は、DeepOptを実装し、様々なサイズとアーキテクチャのDNNで評価した。 実験的な比較では、DeepOptの精度とスケーラビリティが示されている。

Decisions made by deep neural networks (DNNs) have a tremendous impact on the dependability of the systems that they are embedded into, which is of particular concern in the realm of safety-critical systems. In this paper we consider specification-based falsification of DNNs with the aim to support debugging and repair. We propose DeepOpt, a falsification technique based on black-box optimization, which generates counterexamples from a DNN in a refinement loop. DeepOpt can analyze input-output specifications, which makes it more general than falsification approaches that only support robustness specifications. The key idea is to algebraically combine the DNN with the input and output constraints derived from the specification. We have implemented DeepOpt and evaluated it on DNNs of varying sizes and architectures. Experimental comparisons demonstrate DeepOpt's precision and scalability; in particular, DeepOpt requires very few queries to the DNN.
翻訳日:2021-06-04 18:43:46 公開日:2021-06-03
# (参考訳) GL-GIN:複数入射検出とスロットフィリングのための高速かつ高精度な非自己回帰モデル [全文訳有]

GL-GIN: Fast and Accurate Non-Autoregressive Model for Joint Multiple Intent Detection and Slot Filling ( http://arxiv.org/abs/2106.01925v1 )

ライセンス: CC0 1.0
Libo Qin, Fuxuan Wei, Tianbao Xie, Xiao Xu, Wanxiang Che, Ting Liu(参考訳) マルチインテントsluは発話中の複数の意図を処理できるため、注目を集めている。 しかし、最先端のジョイントモデルは自動回帰アプローチに大きく依存しており、推論速度の低下と情報漏洩という2つの問題を引き起こしている。 本稿では,マルチインテント検出とスロット充填のための非自己回帰モデルについて検討し,より高速かつ高精度に実現する。 具体的には、局所的なスロット対応グラフ相互作用層が非協調的なスロット問題を緩和するためのスロット依存性をモデル化し、グローバルなインテント-スロットグラフ相互作用層が複数の意図と発話中の全てのスロット間の相互作用をモデル化するGL-GIN(Global-Locall y Graph Interaction Network)を提案する。 2つの公開データセットによる実験結果から,我々のフレームワークは11.5倍高速で最先端のパフォーマンスを実現していることがわかった。

Multi-intent SLU can handle multiple intents in an utterance, which has attracted increasing attention. However, the state-of-the-art joint models heavily rely on autoregressive approaches, resulting in two issues: slow inference speed and information leakage. In this paper, we explore a non-autoregressive model for joint multiple intent detection and slot filling, achieving more fast and accurate. Specifically, we propose a Global-Locally Graph Interaction Network (GL-GIN) where a local slot-aware graph interaction layer is proposed to model slot dependency for alleviating uncoordinated slots problem while a global intent-slot graph interaction layer is introduced to model the interaction between multiple intents and all slots in the utterance. Experimental results on two public datasets show that our framework achieves state-of-the-art performance while being 11.5 times faster.
翻訳日:2021-06-04 18:24:26 公開日:2021-06-03
# (参考訳) 省エネエッジデバイス用マルチプライアレスMPカーネルマシン [全文訳有]

Multiplierless MP-Kernel Machine For Energy-efficient Edge Devices ( http://arxiv.org/abs/2106.01958v1 )

ライセンス: CC BY 4.0
Abhishek Ramdas Nair, Pallab Kumar Nath, Shantanu Chakrabartty, Chetan Singh Thakur(参考訳) 本稿では、知的エッジデバイスのようなリソース制約のあるプラットフォームで使用できるマルチプライアレスカーネルマシンを設計するための新しいフレームワークを提案する。 このフレームワークは、マージン伝播(MP)技術に基づく断片線形(PWL)近似を使用し、追加/サブトラクション、シフト、比較、アンダーフロー/オーバーフロー操作のレジスタのみを使用する。 fpga(field programmable gate array)プラットフォームに最適化した,ハードウェアフレンドリなmpベース推論とオンライントレーニングアルゴリズムを提案する。 我々のFPGA実装は、DSPユニットの必要性を排除し、LUTの数を削減します。 推論とトレーニングのために同じハードウェアを再利用することにより,MP近似による分類誤差や局所的なミニマアーティファクトを克服できることを示す。 またFPGAプラットフォームを用いて,提案したマルチプライアレスMPカーネルマシンは,他の実装と比較して性能,性能,面積の面で優れていることを示す。

We present a novel framework for designing multiplierless kernel machines that can be used on resource-constrained platforms like intelligent edge devices. The framework uses a piecewise linear (PWL) approximation based on a margin propagation (MP) technique and uses only addition/subtraction , shift, comparison, and register underflow/overflow operations. We propose a hardware-friendly MP-based inference and online training algorithm that has been optimized for a Field Programmable Gate Array (FPGA) platform. Our FPGA implementation eliminates the need for DSP units and reduces the number of LUTs. By reusing the same hardware for inference and training, we show that the platform can overcome classification errors and local minima artifacts that result from the MP approximation. Using the FPGA platform, we also show that the proposed multiplierless MP-kernel machine demonstrates superior performance in terms of power, performance, and area compared to other comparable implementations.
翻訳日:2021-06-04 18:09:24 公開日:2021-06-03
# (参考訳) 機械学習のための最適輸送に関する考察:理論と応用 [全文訳有]

A Survey on Optimal Transport for Machine Learning: Theory and Applications ( http://arxiv.org/abs/2106.01963v1 )

ライセンス: CC BY 4.0
Luis Caicedo Torres, Luiz Manella Pereira, M. Hadi Amini(参考訳) 最適輸送(OT)理論は、モデリングと機械学習における有効性と関連性から、コンピュータサイエンスコミュニティから注目が集まっている。 これは、確率分布を互いに比較する強力な手段として機能し、コスト関数を最小化する最適な写像を生成する。 本調査では,簡単な紹介と歴史,先行研究の紹介,今後の研究の方向性について述べる。 まず、最適な輸送の歴史を見て、この分野の創始者を紹介します。 次に、OTに関連するアルゴリズムを少し見てみます。 次に、数学的定式化とOTを理解するための前提条件について述べる。 これらには、カントロビッチ双対性、エントロピー正則化、KLダイバージェンス、ワッサーテインバリセンターが含まれる。 OTは計算に費用がかかる問題であるため、エントロピー規則化された最適写像を導入し、OT問題を幅広い機械学習問題に適用できるようにした。 実際、OT理論から生成された手法は現在の最先端の手法と競合する。 我々は、画像処理、グラフ学習、ニューラルネットワーク検索、ドキュメント表現、ドメイン適応に焦点をあてた研究論文を分解して、これに従う。 我々はその論文を、今後の研究の小さな部分で締めくくった。 提示された推奨事項のうち、3つの主要な問題はotを広く適用できるようにするための基本であるが、数学的定式化に強く依存しており、答えるのが最も困難である。 otは新たな手法であるため、新たな研究の余地は十分あり、より競争力のある手法(精度レベルや計算速度レベルではなく)が開発されているため、機械学習で広く普及するにつれて、応用された最適輸送の未来は明るい。

Optimal Transport (OT) theory has seen an increasing amount of attention from the computer science community due to its potency and relevance in modeling and machine learning. It introduces means that serve as powerful ways to compare probability distributions with each other, as well as producing optimal mappings to minimize cost functions. In this survey, we present a brief introduction and history, a survey of previous work and propose directions of future study. We will begin by looking at the history of optimal transport and introducing the founders of this field. We then give a brief glance into the algorithms related to OT. Then, we will follow up with a mathematical formulation and the prerequisites to understand OT. These include Kantorovich duality, entropic regularization, KL Divergence, and Wassertein barycenters. Since OT is a computationally expensive problem, we then introduce the entropy-regularized version of computing optimal mappings, which allowed OT problems to become applicable in a wide range of machine learning problems. In fact, the methods generated from OT theory are competitive with the current state-of-the-art methods. We follow this up by breaking down research papers that focus on image processing, graph learning, neural architecture search, document representation, and domain adaptation. We close the paper with a small section on future research. Of the recommendations presented, three main problems are fundamental to allow OT to become widely applicable but rely strongly on its mathematical formulation and thus are hardest to answer. Since OT is a novel method, there is plenty of space for new research, and with more and more competitive methods (either on an accuracy level or computational speed level) being created, the future of applied optimal transport is bright as it has become pervasive in machine learning.
翻訳日:2021-06-04 17:45:59 公開日:2021-06-03
# (参考訳) マルコフポテンシャルゲームにおける多エージェント政策のグローバル収束

Global Convergence of Multi-Agent Policy Gradient in Markov Potential Games ( http://arxiv.org/abs/2106.01969v1 )

ライセンス: CC BY 4.0
Stefanos Leonardos, Will Overman, Ioannis Panageas, Georgios Piliouras(参考訳) ポテンシャルゲームは、通常のフォームゲームにおいて最も重要で広く研究されているクラスの1つである。 彼らは、すべてのエージェントユーティリティが共通のポテンシャル関数を介して完全に一致しているため、マルチエージェントコーディネーションの原型設定を定義する。 この直感的なフレームワークはMarkov Gamesの設定で移植できますか? 状態に依存しないマルチエージェント協調の類似性と相違点は何か? 我々は,複雑なステートフル・マルチエージェント・コーディネーションを捉えようとする事前の試みを一般化した,マルコフポテンシャルゲーム(mpg)の新しい定義を提案する。 mpgは状態ゲームがゼロサムゲームであるような設定で構成できるため、直観上、通常の形式の潜在ゲームからの洞察は継承されない。 反対に、全ての状態ゲームが潜在的ゲームであるマルコフゲームは必ずしもMPGではない。 それにもかかわらず、MPGは決定論的ナッシュポリシーの存在のような標準的望ましい特性を示す。 本研究の主な技術的成果は,単一のエージェントmdpで開発された最近の勾配支配性属性引数をマルチエージェント学習設定に適応させることにより,独立政策勾配をnashポリシーに高速に収束させることである。

Potential games are arguably one of the most important and widely studied classes of normal form games. They define the archetypal setting of multi-agent coordination as all agent utilities are perfectly aligned with each other via a common potential function. Can this intuitive framework be transplanted in the setting of Markov Games? What are the similarities and differences between multi-agent coordination with and without state dependence? We present a novel definition of Markov Potential Games (MPG) that generalizes prior attempts at capturing complex stateful multi-agent coordination. Counter-intuitively, insights from normal-form potential games do not carry over as MPGs can consist of settings where state-games can be zero-sum games. In the opposite direction, Markov games where every state-game is a potential game are not necessarily MPGs. Nevertheless, MPGs showcase standard desirable properties such as the existence of deterministic Nash policies. In our main technical result, we prove fast convergence of independent policy gradient to Nash policies by adapting recent gradient dominance property arguments developed for single agent MDPs to multi-agent learning settings.
翻訳日:2021-06-04 17:29:18 公開日:2021-06-03
# (参考訳) 説明可能なユーザに向けて: NLPを使ってAIを使ってサイバー攻撃に対するユーザの認識を理解する [全文訳有]

Toward Explainable Users: Using NLP to Enable AI to Understand Users' Perceptions of Cyber Attacks ( http://arxiv.org/abs/2106.01998v1 )

ライセンス: CC BY 4.0
Faranak Abri, Luis Felipe Gutierrez, Chaitra T. Kulkarni, Akbar Siami Namin, Keith S. Jones(参考訳) サイバーセキュリティ攻撃の結果をエンドユーザーがどのように概念化するかを理解するため、我々はCognitive Sciencesでよく知られたカードソート研究を行い、参加者は選択したサイバー攻撃の結果を、相応しい合理性を使って望む多くのカテゴリにまとめることができた。 オープンカードソート調査の結果,参加者間のばらつきは多大であり,研究チームは,セキュリティ攻撃の結果が参加者によってどのように理解されたのか疑問視した。 人工知能(AI)技術を用いてユーザーのメンタルモデルと行動を説明することが可能かどうかを調査するため、研究チームは、カードソートデータを複数の自然言語処理(NLP)技術の出力と比較し、参加者が自然言語で書かれたサイバー攻撃の結果をどのように認識し解釈するかを理解することを目標とした。 NLPに基づく探索手法の結果は、参加者が各文中の個々のキーワードをチェックしてサイバー攻撃の結果をグループ化し、サイバー攻撃の結果の説明の背後にある意味を考慮していなかったことを示唆する興味深い観察結果となった。 本報告の結果は,ユーザの視点からのサイバー攻撃の理解に有用かつ重要であると考えられる。 我々の知る限り、この論文は、ユーザーの行動とコンテキストに対する認識の説明とモデル化にAI技術を使用した最初の事例である。 ここで導入された新しいアイデアは、AIを使ってユーザーを説明することだ。

To understand how end-users conceptualize consequences of cyber security attacks, we performed a card sorting study, a well-known technique in Cognitive Sciences, where participants were free to group the given consequences of chosen cyber attacks into as many categories as they wished using rationales they see fit. The results of the open card sorting study showed a large amount of inter-participant variation making the research team wonder how the consequences of security attacks were comprehended by the participants. As an exploration of whether it is possible to explain user's mental model and behavior through Artificial Intelligence (AI) techniques, the research team compared the card sorting data with the outputs of a number of Natural Language Processing (NLP) techniques with the goal of understanding how participants perceived and interpreted the consequences of cyber attacks written in natural languages. The results of the NLP-based exploration methods revealed an interesting observation implying that participants had mostly employed checking individual keywords in each sentence to group cyber attack consequences together and less considered the semantics behind the description of consequences of cyber attacks. The results reported in this paper are seemingly useful and important for cyber attacks comprehension from user's perspectives. To the best of our knowledge, this paper is the first introducing the use of AI techniques in explaining and modeling users' behavior and their perceptions about a context. The novel idea introduced here is about explaining users using AI.
翻訳日:2021-06-04 17:28:15 公開日:2021-06-03
# (参考訳) 隠れマルコフモデルによる攻撃予測 [全文訳有]

Attack Prediction using Hidden Markov Model ( http://arxiv.org/abs/2106.02012v1 )

ライセンス: CC BY 4.0
Shuvalaxmi Dass, Prerit Datta, Akbar Siami Namin(参考訳) 効果的な防御システムを実現するためには、敵の攻撃とそのタイプを予測することが重要である。 このような活動を十分な分析的推論なしに悪意のあるものに分類することは困難である。 本研究では,hmm(hidden markov model)を用いて関連する攻撃のファミリーを予測することを提案する。 提案モデルは,ログファイルの形式とターゲットあるいは被害者の視点で凝集した観察結果に基づく。 我々は,HMMに基づく予測モデルを構築し,特定の攻撃の段階に対応する状態列を生成するビタビアルゴリズムを用いて提案手法を実装した。 概念実証およびモデルの性能実証のため,我々は,アクション・スプーフィングと呼ばれる攻撃ファミリーの予測に関するケーススタディを実施した。

It is important to predict any adversarial attacks and their types to enable effective defense systems. Often it is hard to label such activities as malicious ones without adequate analytical reasoning. We propose the use of Hidden Markov Model (HMM) to predict the family of related attacks. Our proposed model is based on the observations often agglomerated in the form of log files and from the target or the victim's perspective. We have built an HMM-based prediction model and implemented our proposed approach using Viterbi algorithm, which generates a sequence of states corresponding to stages of a particular attack. As a proof of concept and also to demonstrate the performance of the model, we have conducted a case study on predicting a family of attacks called Action Spoofing.
翻訳日:2021-06-04 17:14:28 公開日:2021-06-03
# (参考訳) Semantic-WER: エンドユーザビリティのためのASRトランスクリプト評価のための統一メトリクス [全文訳有]

Semantic-WER: A Unified Metric for the Evaluation of ASR Transcript for End Usability ( http://arxiv.org/abs/2106.02016v1 )

ライセンス: CC BY 4.0
Somnath Roy(参考訳) 教師付き,半教師付き,自己教師型ディープラーニングアルゴリズムの最近の進歩は,自動音声認識(ASR)システムの性能を著しく向上させた。 最先端のシステムは、単語誤り率(WER)を5%未満で達成している。 しかし、過去には、音声言語理解(SLU)や情報検索といった下流タスクに対するASRシステムの評価において、WERメトリックが不適合であると主張してきた。 その理由は、WERが表面レベルで機能し、統語的および意味的な知識は含まないためであり、現在の研究は、一般に下流アプリケーションのためのASR転写物を評価する指標であるSemantic-WER(SWER)を提案する。 SWERはダウンストリームタスクでも簡単にカスタマイズできる。

Recent advances in supervised, semi-supervised and self-supervised deep learning algorithms have shown significant improvement in the performance of automatic speech recognition(ASR) systems. The state-of-the-art systems have achieved a word error rate (WER) less than 5%. However, in the past, researchers have argued the non-suitability of the WER metric for the evaluation of ASR systems for downstream tasks such as spoken language understanding (SLU) and information retrieval. The reason is that the WER works at the surface level and does not include any syntactic and semantic knowledge.The current work proposes Semantic-WER (SWER), a metric to evaluate the ASR transcripts for downstream applications in general. The SWER can be easily customized for any down-stream task.
翻訳日:2021-06-04 17:01:50 公開日:2021-06-03
# (参考訳) 安全なRAN制御:シンボリック強化学習アプローチ [全文訳有]

Safe RAN control: A Symbolic Reinforcement Learning Approach ( http://arxiv.org/abs/2106.01977v1 )

ライセンス: CC BY 4.0
Alexandros Nikou, Anusha Mujumdar, Marin Orlic, Aneta Vulgarakis Feljan(参考訳) 本稿では,無線アクセスネットワーク(RAN)アプリケーションの安全性管理のための,SRL(Symbolic Reinforcement Learning)に基づくアーキテクチャを提案する。 特に,特定の鍵性能指標(kpis)を用いて測定される最適な安全性能を実現するために,ユーザが所定のセルネットワークトポロジーに対して高レベルな論理安全性仕様を指定できる純粋に自動化された手順を提供する。 このネットワークは、アンテナを備えた固定ベースステーション(BS)のセットで構成されており、垂直傾きの角度を調整することで制御できる。 上記のプロセスは、Remote Electric Tilt (RET) Optimizationと呼ばれる。 最近の研究は、不確実な環境に適応する自己学習能力があることから、強化学習(RL)戦略を採用することで、このRET最適化の実行に焦点を当てている。 安全という用語は、アルゴリズムがライブネットワークにデプロイされると性能が維持されることを保証するために、ネットワークKPIの特定の制約境界を指す。 提案アーキテクチャでは,学習プロセスを通じて抽象化された離散的なシステムモデル(オートマタ)のモデルチェック手法によって安全性が確保される。 利用者がシステムに意図仕様を設定するのを支援するために開発されたユーザインタフェース(UI)を導入し、提案したアクションと、安全仕様に従って許可およびブロックされるアクションの違いを検査する。

In this paper, we present a Symbolic Reinforcement Learning (SRL) based architecture for safety control of Radio Access Network (RAN) applications. In particular, we provide a purely automated procedure in which a user can specify high-level logical safety specifications for a given cellular network topology in order for the latter to execute optimal safe performance which is measured through certain Key Performance Indicators (KPIs). The network consists of a set of fixed Base Stations (BS) which are equipped with antennas, which one can control by adjusting their vertical tilt angle. The aforementioned process is called Remote Electrical Tilt (RET) optimization. Recent research has focused on performing this RET optimization by employing Reinforcement Learning (RL) strategies due to the fact that they have self-learning capabilities to adapt in uncertain environments. The term safety refers to particular constraints bounds of the network KPIs in order to guarantee that when the algorithms are deployed in a live network, the performance is maintained. In our proposed architecture the safety is ensured through model-checking techniques over combined discrete system models (automata) that are abstracted through the learning process. We introduce a user interface (UI) developed to help a user set intent specifications to the system, and inspect the difference in agent proposed actions, and those that are allowed and blocked according to the safety specification.
翻訳日:2021-06-04 16:39:24 公開日:2021-06-03
# ビジョントランスフォーマーが事前トレーニングや強力なデータ拡張なしでResNetのパフォーマンスを向上する

When Vision Transformers Outperform ResNets without Pretraining or Strong Data Augmentations ( http://arxiv.org/abs/2106.01548v1 )

ライセンス: Link先を確認
Xiangning Chen, Cho-Jui Hsieh, Boqing Gong(参考訳) Vision Transformer (ViTs) と MLP は、手で配線された特徴や帰納的バイアスを汎用神経アーキテクチャに置き換えるためのさらなる努力を示している。 既存の作業は、大規模な事前訓練や/または強いデータ拡張のような大規模なデータによってモデルを強化し、最適化に関連する問題(初期化に対する感受性や学習率など)を報告している。 そこで本研究では,モデルの学習におけるデータ効率の向上と推論の一般化を目的として,損失幾何レンズからのvitsとmlpミキサーについて検討する。 可視化とヘッセンは収束モデルの極端にシャープな局所ミニマを明らかにする。 近年提案されているシャープネス・アウェア・オプティマイザによるスムース性向上により,教師付き,敵対的,コントラスト的,転送学習(例えば,vit-b/16とmixer-b/16のimagenet上の+5.3\%と+11.0\% top-1精度)にまたがる様々なタスクにおけるvitsとmlp-mixerの精度とロバスト性が大幅に向上した。 その結果,最初の数層におけるsparser活性ニューロンに対するスムース性が向上した。 その結果、ViTsは、大規模な事前トレーニングや強力なデータ拡張なしに、ImageNetでスクラッチからトレーニングした時に、同様のサイズとスループットでResNetsを上回った。 また、より知覚的なアテンションマップも持っている。

Vision Transformers (ViTs) and MLPs signal further efforts on replacing hand-wired features or inductive biases with general-purpose neural architectures. Existing works empower the models by massive data, such as large-scale pretraining and/or repeated strong data augmentations, and still report optimization-related problems (e.g., sensitivity to initialization and learning rate). Hence, this paper investigates ViTs and MLP-Mixers from the lens of loss geometry, intending to improve the models' data efficiency at training and generalization at inference. Visualization and Hessian reveal extremely sharp local minima of converged models. By promoting smoothness with a recently proposed sharpness-aware optimizer, we substantially improve the accuracy and robustness of ViTs and MLP-Mixers on various tasks spanning supervised, adversarial, contrastive, and transfer learning (e.g., +5.3\% and +11.0\% top-1 accuracy on ImageNet for ViT-B/16 and Mixer-B/16, respectively, with the simple Inception-style preprocessing). We show that the improved smoothness attributes to sparser active neurons in the first few layers. The resultant ViTs outperform ResNets of similar size and throughput when trained from scratch on ImageNet without large-scale pretraining or strong data augmentations. They also possess more perceptive attention maps.
翻訳日:2021-06-04 16:26:49 公開日:2021-06-03
# 新しいイテレーションフレームワークと入力ドロップアウトによる逆例の転送性の向上

Improving the Transferability of Adversarial Examples with New Iteration Framework and Input Dropout ( http://arxiv.org/abs/2106.01617v1 )

ライセンス: Link先を確認
Pengfei Xie, Linyuan Wang, Ruoxi Qin, Kai Qiao, Shuhao Shi, Guoen Hu, Bin Yan(参考訳) ディープニューラルネットワーク(DNN)は、敵の例によって攻撃される脆弱性がある。 ブラックボックス攻撃は最も脅威となる攻撃である。 現在、ブラックボックス攻撃法は主に勾配に基づく反復攻撃法を採用しており、これは通常、イテレーションステップサイズ、イテレーション数、最大摂動の関係を制限している。 本稿では,上記の3つの関係を再定義する新しい勾配反復フレームワークを提案する。 本枠組みでは,DI-TI-MIMの攻撃成功率を容易に向上させる。 さらに,入力ドロップアウトに基づく段階的反復攻撃手法を提案する。 さらに,本手法のマルチドロップアウト率バージョンを提案する。 実験結果から,防衛モデルの平均攻撃成功率は96.2 %であり,最先端の勾配に基づく攻撃よりも高いことがわかった。

Deep neural networks(DNNs) is vulnerable to be attacked by adversarial examples. Black-box attack is the most threatening attack. At present, black-box attack methods mainly adopt gradient-based iterative attack methods, which usually limit the relationship between the iteration step size, the number of iterations, and the maximum perturbation. In this paper, we propose a new gradient iteration framework, which redefines the relationship between the above three. Under this framework, we easily improve the attack success rate of DI-TI-MIM. In addition, we propose a gradient iterative attack method based on input dropout, which can be well combined with our framework. We further propose a multi dropout rate version of this method. Experimental results show that our best method can achieve attack success rate of 96.2\% for defense model on average, which is higher than the state-of-the-art gradient-based attacks.
翻訳日:2021-06-04 16:26:16 公開日:2021-06-03
# ニューラルネットワーク規則化のための部分グラフ推論

Partial Graph Reasoning for Neural Network Regularization ( http://arxiv.org/abs/2106.01805v1 )

ライセンス: Link先を確認
Tiange Xiang, Chaoyi Zhang, Yang Song, Siqi Liu, Hongliang Yuan, Weidong Cai(参考訳) 正規化器は、ディープニューラルネットワークが機能共適応を防ぐのに役立った。 ドロップアウト(英: Dropout)は、一般的に使われる正規化手法であり、ネットワーク最適化中にニューロンのアクチベーションを確率的に無効にする。 しかし、このような完全な特徴処理は、特徴表現とネットワーク理解に影響を与える可能性がある。 遅延表現のより良い記述に向けて、バックボーンの特徴からスタンドアローングラフを構築することで正規化関数を学ぶDropGraphを提案する。 DropGraphはまず確率空間的特徴ベクトルをサンプリングし、それから特徴写像歪みを生成するグラフ推論手法を組み込む。 このアドオングラフはトレーニング中にネットワークを正規化し、推論中に完全にスキップすることができる。 本稿では,グラフ推論とドロップアウトの関連について直観的考察を行い,部分的グラフ推論手法による特徴相関の低減について考察する。 この目的のために我々はgraphvertex依存性のモデリングとバックボーン特徴マップの歪みに対するグラフの利用を広範囲に研究した。 DropGraphは7つの異なるデータセットを持つ4つのタスクで検証され、実験の結果、提案手法は推論中にベースモデル構造を変更せずに、他の最先端の正規化器よりも優れていることが示された。

Regularizers helped deep neural networks prevent feature co-adaptations. Dropout,as a commonly used regularization technique, stochastically disables neuron ac-tivations during network optimization. However, such complete feature disposal can affect the feature representation and network understanding. Toward betterdescriptions of latent representations, we present DropGraph that learns regularization function by constructing a stand-alone graph from the backbone features. DropGraph first samples stochastic spatial feature vectors and then incorporates graph reasoning methods to generate feature map distortions. This add-on graph regularizes the network during training and can be completely skipped during inference. We provide intuitions on the linkage between graph reasoning andDropout with further discussions on how partial graph reasoning method reduces feature correlations. To this end, we extensively study the modeling of graphvertex dependencies and the utilization of the graph for distorting backbone featuremaps. DropGraph was validated on four tasks with a total of 7 different datasets.The experimental results show that our method outperforms other state-of-the-art regularizers while leaving the base model structure unmodified during inference.
翻訳日:2021-06-04 16:26:03 公開日:2021-06-03
# 決してクラスタリングしない

You Never Cluster Alone ( http://arxiv.org/abs/2106.01908v1 )

ライセンス: Link先を確認
Yuming Shen and Ziyi Shen and Menghan Wang and Jie Qin and Philip H.S. Torr and Ling Shao(参考訳) インスタンスレベルのコントラスト目標を用いた自己教師あり学習の最近の進歩は教師なしクラスタリングを促進する。 しかしながら、スタンドアロンのデータムは、全体クラスタのコンテキストを知覚せず、サブオプティカル割り当てを受ける可能性がある。 本稿では,同一クラスタに属するすべてのデータが,各データグループのコンテキストをエンコードする統一表現に寄与するクラスタレベルのスキームに,メインストリームのコントラスト学習パラダイムを拡張する。 この表現と対照的な学習は、各datumの割り当てに報酬を与える。 このビジョンを実現するために、ツインコントラストクラスタリング(TCC)を提案する。 分類変数のセットを、インスタンスレベルの学習トラックとクラスタレベルのトラックをリンクするクラスタ割り当て信頼度として定義する。 一方、対応する割り当て変数を重み付けとすることで、データポイントに沿った重み付きアグリゲーションがクラスタのセット表現を実装する。 さらに,クラスタレベルのコントラスト学習を実現するために,ヒューリスティッククラスタ拡張等価性を提案する。 一方, 提案手法では, インスタンスレベルのコントラスト目標の低い値のエビデンスを課題として導出する。 代入変数を再パラメータ化することで、TCCはエンドツーエンドでトレーニングされる。 広範な実験により、tccは挑戦的なベンチマークで最先端を上回っていることが示されている。

Recent advances in self-supervised learning with instance-level contrastive objectives facilitate unsupervised clustering. However, a standalone datum is not perceiving the context of the holistic cluster, and may undergo sub-optimal assignment. In this paper, we extend the mainstream contrastive learning paradigm to a cluster-level scheme, where all the data subjected to the same cluster contribute to a unified representation that encodes the context of each data group. Contrastive learning with this representation then rewards the assignment of each datum. To implement this vision, we propose twin-contrast clustering (TCC). We define a set of categorical variables as clustering assignment confidence, which links the instance-level learning track with the cluster-level one. On one hand, with the corresponding assignment variables being the weight, a weighted aggregation along the data points implements the set representation of a cluster. We further propose heuristic cluster augmentation equivalents to enable cluster-level contrastive learning. On the other hand, we derive the evidence lower-bound of the instance-level contrastive objective with the assignments. By reparametrizing the assignment variables, TCC is trained end-to-end, requiring no alternating steps. Extensive experiments show that TCC outperforms the state-of-the-art on challenging benchmarks.
翻訳日:2021-06-04 16:25:47 公開日:2021-06-03
# 男性、女性、結婚:ウィキペディアのジェンダーバイアス

Men Are Elected, Women Are Married: Events Gender Bias on Wikipedia ( http://arxiv.org/abs/2106.01601v1 )

ライセンス: Link先を確認
Jiao Sun and Nanyun Peng(参考訳) 人間の活動は、社会を理解する上で重要な出来事の連続と見なすことができる。 異なる集団に対する不釣り合いな出来事の分布は、社会的ステレオタイプを顕在化し、増幅し、あるグループのメンバーが特定の目標を追求する能力を損なう可能性がある。 本稿では,wikipediaコーパスにおけるジェンダーバイアスに関する最初のイベント中心の研究について述べる。 本研究では,10,412人の有名人の7,854個の断片からなる人口統計情報を用いて,キャリアと個人の生活記述のコーパスをキュレートする。 次に、最先端のイベント検出モデルを用いてイベントを検出し、戦略的に生成されたテンプレートを使用して結果を校正し、性別に非対称なイベントを抽出する。 この研究は、ウィキペディアのページが女性向けではなく、女性向けのプロイベントと個人的な生活イベントを混ざり合う傾向があることを発見し、ウィキペディアコミュニティがガイドラインを定式化し、編集者に貢献者が持つ暗黙の偏見を念頭に置くように訓練するよう求めている。 私たちの研究は、コーパスレベルでのイベントバイアスの定量化と発見に関する将来の研究の基盤も築いています。

Human activities can be seen as sequences of events, which are crucial to understanding societies. Disproportional event distribution for different demographic groups can manifest and amplify social stereotypes, and potentially jeopardize the ability of members in some groups to pursue certain goals. In this paper, we present the first event-centric study of gender biases in a Wikipedia corpus. To facilitate the study, we curate a corpus of career and personal life descriptions with demographic information consisting of 7,854 fragments from 10,412 celebrities. Then we detect events with a state-of-the-art event detection model, calibrate the results using strategically generated templates, and extract events that have asymmetric associations with genders. Our study discovers that the Wikipedia pages tend to intermingle personal life events with professional events for females but not for males, which calls for the awareness of the Wikipedia community to formalize guidelines and train the editors to mind the implicit biases that contributors carry. Our work also lays the foundation for future works on quantifying and discovering event biases at the corpus level.
翻訳日:2021-06-04 16:25:29 公開日:2021-06-03
# サイレントスピーチのための改良モデル

An Improved Model for Voicing Silent Speech ( http://arxiv.org/abs/2106.01933v1 )

ライセンス: Link先を確認
David Gaddy and Dan Klein(参考訳) 本稿では,表情筋電図(EMG)信号から音声を合成するサイレント音声の発声モデルを提案する。 モデルに独自の入力特徴を学習する柔軟性を持たせるために,手動設計機能の代わりにEMG信号を直接入力として使用する。 我々のモデルは畳み込み層を用いて信号から特徴を抽出し、トランスフォーマー層はより長い距離で情報を伝達する。 学習のためのより良い信号を提供するため,音声特徴の予測に加えて,音素ラベルを予測する補助タスクを導入する。 オープンボキャブラリの知性評価において,本モデルは,この課題に対する技術水準を絶対25.8%向上させる。

In this paper, we present an improved model for voicing silent speech, where audio is synthesized from facial electromyography (EMG) signals. To give our model greater flexibility to learn its own input features, we directly use EMG signals as input in the place of hand-designed features used by prior work. Our model uses convolutional layers to extract features from the signals and Transformer layers to propagate information across longer distances. To provide better signal for learning, we also introduce an auxiliary task of predicting phoneme labels in addition to predicting speech audio features. On an open vocabulary intelligibility evaluation, our model improves the state of the art for this task by an absolute 25.8%.
翻訳日:2021-06-04 16:25:09 公開日:2021-06-03
# ライフタイム政策の再利用と課題能力の重要性

Lifetime policy reuse and the importance of task capacity ( http://arxiv.org/abs/2106.01741v1 )

ライセンス: Link先を確認
David M. Bossens and Adam J. Sobey(参考訳) 人工知能における長年の課題は、生涯学習である。 生涯学習において、多くのタスクが順番に提示され、学習者は長い生涯にわたる破滅的な忘れ込みを避けながら、タスク間での知識の伝達を効率的に行う必要がある。 これらの問題に対して、政策再利用やその他の多目的強化学習技術は、多くのタスクを学習することができる。 しかし、多くの一時的なポリシーや永続的なポリシーを生成でき、結果としてメモリの問題が発生する。 したがって、事前に定義されたサイズのポリシーライブラリを継続的に洗練するライフスケーラブルな方法が必要である。 本稿では,生涯スケーラブルな政策再利用への最初のアプローチを提案する。 政策数を事前に選択するために,政策が正確に解決できるタスクの最大数,タスク能力の概念を提案する。 本手法を用いて寿命ポリシーの再利用を評価するため,1)価値ベースの強化学習者,ディープQネットワーク(DQN)またはディープQネットワーク(DRQN),2)アクタークリティカルな強化学習者,PPO(Porximal Policy Optimisation)を長期記憶層の有無で比較した。 D(R)QNはタスクキャパシティに基づいてポリシー数を選択することで、27タスクのMDPドメインで6つのポリシーと18タスクのPOMDPドメインで9つのポリシーでほぼ最適のパフォーマンスを達成する。 遅い単調な改善のため、PPOはより少ないポリシー、27タスクドメインの1ポリシー、18タスクドメインの4ポリシーを必要とするが、D(R)QNよりも低い精度でタスクを学習する。 以上の結果から, D(R)QN を大規模化, PPO を小型化に活用することが示唆された。

A long-standing challenge in artificial intelligence is lifelong learning. In lifelong learning, many tasks are presented in sequence and learners must efficiently transfer knowledge between tasks while avoiding catastrophic forgetting over long lifetimes. On these problems, policy reuse and other multi-policy reinforcement learning techniques can learn many tasks. However, they can generate many temporary or permanent policies, resulting in memory issues. Consequently, there is a need for lifetime-scalable methods that continually refine a policy library of a pre-defined size. This paper presents a first approach to lifetime-scalable policy reuse. To pre-select the number of policies, a notion of task capacity, the maximal number of tasks that a policy can accurately solve, is proposed. To evaluate lifetime policy reuse using this method, two state-of-the-art single-actor base-learners are compared: 1) a value-based reinforcement learner, Deep Q-Network (DQN) or Deep Recurrent Q-Network (DRQN); and 2) an actor-critic reinforcement learner, Proximal Policy Optimisation (PPO) with or without Long Short-Term Memory layer. By selecting the number of policies based on task capacity, D(R)QN achieves near-optimal performance with 6 policies in a 27-task MDP domain and 9 policies in an 18-task POMDP domain; with fewer policies, catastrophic forgetting and negative transfer are observed. Due to slow, monotonic improvement, PPO requires fewer policies, 1 policy for the 27-task domain and 4 policies for the 18-task domain, but it learns the tasks with lower accuracy than D(R)QN. These findings validate lifetime-scalable policy reuse and suggest using D(R)QN for larger and PPO for smaller library sizes.
翻訳日:2021-06-04 16:24:57 公開日:2021-06-03
# 適応収集データからのリスク最小化:監視と政策学習のための保証

Risk Minimization from Adaptively Collected Data: Guarantees for Supervised and Policy Learning ( http://arxiv.org/abs/2106.01723v1 )

ライセンス: Link先を確認
Aur\'elien Bibaut and Antoine Chambaz and Maria Dimakopoulou and Nathan Kallus and Mark van der Laan(参考訳) 経験的リスク最小化(英語: Empirical Risk Minimization, ERM)は、分類と回帰、あるいは非政治政策学習のいずれにおいても機械学習のワークホースであるが、文脈的バンディットアルゴリズムの実行など、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。 本研究では,仮説クラス上での損失関数の平均を最小化するために,適応的に収集したデータを用いた一般重要サンプリング重み付きEMMアルゴリズムについて検討した。 本研究の結果は, 重要サンプリング構造を慎重に利用し, データの探索速度に適切に依存したレートを得ることのできる, 新たな最大不等式に基づくものである。 回帰では、二乗誤差損失の強い凸性を利用する高速レートを提供する。 政策学習においては,バンドイット収集データの場合と同様に,探索がゼロになるたびに既存の文献の空隙を塞ぐようなレート・オプティマイズ保証を提供する。 実証的な調査が我々の理論を検証する。

Empirical risk minimization (ERM) is the workhorse of machine learning, whether for classification and regression or for off-policy policy learning, but its model-agnostic guarantees can fail when we use adaptively collected data, such as the result of running a contextual bandit algorithm. We study a generic importance sampling weighted ERM algorithm for using adaptively collected data to minimize the average of a loss function over a hypothesis class and provide first-of-their-kind generalization guarantees and fast convergence rates. Our results are based on a new maximal inequality that carefully leverages the importance sampling structure to obtain rates with the right dependence on the exploration rate in the data. For regression, we provide fast rates that leverage the strong convexity of squared-error loss. For policy learning, we provide rate-optimal regret guarantees that close an open gap in the existing literature whenever exploration decays to zero, as is the case for bandit-collected data. An empirical investigation validates our theory.
翻訳日:2021-06-04 16:24:16 公開日:2021-06-03
# 統計的埋め込み:主成分を超えて

Statistical embedding: Beyond principal components ( http://arxiv.org/abs/2106.01858v1 )

ライセンス: Link先を確認
Dag Tj{\o}stheim and Martin Jullum and Anders L{\o}land(参考訳) 近年、非常に高次元で非線形なデータ構造を組み込む活動が盛んに行われており、その多くがデータサイエンスや機械学習の文献に使われている。 この活動を4つの部分で調査する。 まず,主曲線,多次元スケーリング,局所線形手法,ISOMAP,グラフベース手法,カーネルベース手法などの非線形手法について述べる。 第2部は、特にトポロジカルプロパティを永続化ダイアグラムにマッピングする、トポロジカル埋め込みメソッドに関するものである。 成長の著しい別のタイプのデータセットは、非常に高次元のネットワークデータである。 パート3で考慮されるタスクは、そのようなデータを適度な次元のベクトル空間に埋め込んで、クラスタや分類技術といった従来の手法に適合させる方法である。 調査の最後の部分は、可視化である$\mathbb{r}^2$への埋め込みに関するものだ。 3つのメソッドが提示される: $t$-SNE, UMAP と LargeVis はそれぞれ 1 と 2 と 3 のメソッドに基づいている。 これらの手法は、2つの模擬データセットで示され比較される: 1つは3重のノイズラヌキュロイド曲線と、もう1つは複雑さを増すネットワークと2種類のノードからなる。

There has been an intense recent activity in embedding of very high dimensional and nonlinear data structures, much of it in the data science and machine learning literature. We survey this activity in four parts. In the first part we cover nonlinear methods such as principal curves, multidimensional scaling, local linear methods, ISOMAP, graph based methods and kernel based methods. The second part is concerned with topological embedding methods, in particular mapping topological properties into persistence diagrams. Another type of data sets with a tremendous growth is very high-dimensional network data. The task considered in part three is how to embed such data in a vector space of moderate dimension to make the data amenable to traditional techniques such as cluster and classification techniques. The final part of the survey deals with embedding in $\mathbb{R}^2$, which is visualization. Three methods are presented: $t$-SNE, UMAP and LargeVis based on methods in parts one, two and three, respectively. The methods are illustrated and compared on two simulated data sets; one consisting of a triple of noisy Ranunculoid curves, and one consisting of networks of increasing complexity and with two types of nodes.
翻訳日:2021-06-04 16:23:57 公開日:2021-06-03
# 因果モデルの予測性能評価におけるサンプル選択バイアス

Sample Selection Bias in Evaluation of Prediction Performance of Causal Models ( http://arxiv.org/abs/2106.01921v1 )

ライセンス: Link先を確認
James P. Long and Min Jin Ha(参考訳) 因果モデルは、共起に関する証明不可能な仮定を行うため、検証が難しいことが知られている。 新しい科学的実験は、予測性能を用いて因果モデルを評価する可能性を提供する。 予測性能指標は一般的に因果仮定の違反に対して頑健である。 しかし、予測性能はトレーニングセットとテストセットの選択に依存する。 特に偏ったトレーニングセットは、モデルパフォーマンスの楽観的な評価につながる可能性がある。 本研究では,Kemmeren (Kemmeren et al., 2014) の遺伝的摂動データセットを用いて,最近提案されたいくつかの因果関係モデルの予測性能を再検討する。 サンプル選択バイアスがモデル性能の重要な要因である可能性が高い。 本稿では,Kemmerenにおける予測性能の評価にバイアスの少ない評価セットを用い,新しいモデルと比較する。 この設定では、テストされた因果モデルが、Lassoのような標準結合に基づく推定器と類似した性能を持つ。 最後に,遺伝的ノックアウト実験のケムメレン構造を再現するシミュレーション実験において,サンプル選択バイアスを伴わない因果推定器の性能を比較する。 これらの結果は、いくつかの因果モデルの性能に関する理解を深め、将来の研究におけるKemmerenの使用方法に関するガイダンスを提供する。

Causal models are notoriously difficult to validate because they make untestable assumptions regarding confounding. New scientific experiments offer the possibility of evaluating causal models using prediction performance. Prediction performance measures are typically robust to violations in causal assumptions. However prediction performance does depend on the selection of training and test sets. In particular biased training sets can lead to optimistic assessments of model performance. In this work, we revisit the prediction performance of several recently proposed causal models tested on a genetic perturbation data set of Kemmeren [Kemmeren et al., 2014]. We find that sample selection bias is likely a key driver of model performance. We propose using a less-biased evaluation set for assessing prediction performance on Kemmeren and compare models on this new set. In this setting, the causal model tested have similar performance to standard association based estimators such as Lasso. Finally we compare the performance of causal estimators in simulation studies which reproduce the Kemmeren structure of genetic knockout experiments but without any sample selection bias. These results provide an improved understanding of the performance of several causal models and offer guidance on how future studies should use Kemmeren.
翻訳日:2021-06-04 16:23:39 公開日:2021-06-03
# コンテキストバンディットデータを用いた適応重み付けによるオフポリシー評価

Off-Policy Evaluation via Adaptive Weighting with Data from Contextual Bandits ( http://arxiv.org/abs/2106.02029v1 )

ライセンス: Link先を確認
Ruohan Zhan, Vitor Hadad, David A. Hirshberg, and Susan Athey(参考訳) コンテキストバンディットを使用するなど,データのアダプティブ収集はますます一般的になっています。 このタイプの歴史的データは、将来のイノベーションや実験を導く他の治療割り当てポリシーを評価するのに使うことができる。 しかし、対象ポリシーがデータ収集に使用されるものと異なる場合、政策評価は困難であり、二重頑健(DR)推定器を含む一般的な推定器はバイアスや過度の分散、あるいはその両方に悩まされる可能性がある。 特に、収集したデータにおける処理割り当てのパターンが評価対象のポリシーによって生成されたパターンにほとんど似ていない場合、DR推定器で使われる重みが爆発的に増加し、過度のばらつきが生じる。 本稿では,DR推定器を適応的に重み付けしてその分散を制御して改良する。 改良された推定器に基づくt-統計は一定の条件下で漸近的に正常であり,信頼区間を形成し仮説を検証できることを示した。 合成データと公開ベンチマークを用いて,推定器の精度向上と既存の代替手段に対する推論特性の実証的証拠を提供する。

It has become increasingly common for data to be collected adaptively, for example using contextual bandits. Historical data of this type can be used to evaluate other treatment assignment policies to guide future innovation or experiments. However, policy evaluation is challenging if the target policy differs from the one used to collect data, and popular estimators, including doubly robust (DR) estimators, can be plagued by bias, excessive variance, or both. In particular, when the pattern of treatment assignment in the collected data looks little like the pattern generated by the policy to be evaluated, the importance weights used in DR estimators explode, leading to excessive variance. In this paper, we improve the DR estimator by adaptively weighting observations to control its variance. We show that a t-statistic based on our improved estimator is asymptotically normal under certain conditions, allowing us to form confidence intervals and test hypotheses. Using synthetic data and public benchmarks, we provide empirical evidence for our estimator's improved accuracy and inferential properties relative to existing alternatives.
翻訳日:2021-06-04 16:23:24 公開日:2021-06-03
# pdpgd : 初回-二回傾斜降下逆行攻撃

PDPGD: Primal-Dual Proximal Gradient Descent Adversarial Attack ( http://arxiv.org/abs/2106.01538v1 )

ライセンス: Link先を確認
Alexander Matyasko, Lap-Pui Chau(参考訳) 最先端のディープニューラルネットワークは、小さな入力摂動に敏感である。 この興味深い脆弱性の発見以来、敵の雑音に対するロバスト性を改善するために多くの防御方法が提案されている。 高速かつ正確な攻撃は、様々な防御方法を比較するために必要である。 しかし、対向的ロバスト性の評価は極めて困難であることが証明されている。 既存のノルム最小化攻撃は数千回(例)の反復を必要とする。 Carlini & Wagner attack)は特定の規範(例)に限定されている。 Fast Adaptive境界) または、準最適結果(例)を生成する。 Brendel & Bethge attack)。 一方、pgd攻撃は、高速で一般的で正確であり、通常の最小化ペナルティを無視し、より単純な摂動制約問題を解く。 本研究では,非凸制約最小化問題を最適化する高速で汎用的で高精度な敵攻撃を提案する。 敵の攻撃最適化問題のラグランジアンを2人のプレイヤーゲームと解釈し、第1のプレイヤーはラグランジアン wrt を敵のノイズとして最小化し、第2のプレイヤーはラグランジアン wrt を正規化ペナルティとして最大化する。 攻撃アルゴリズムは主変数と双対変数を同時に最適化し,最小対向摂動を求める。 さらに、$l_{\infty}$-, $l_1$-, $l_0$-normsのような非平滑な$l_p$-norm最小化に対しては、原始双極性近位勾配攻撃を導入する。 実験では、mnist、cifar-10およびimagenetデータセットの非正規化および敵対的トレーニングモデルに対する攻撃が、現在の最先端の$l_{\infty}$-、$l_2$-、$l_1$-、$l_0$-攻撃よりも優れています。

State-of-the-art deep neural networks are sensitive to small input perturbations. Since the discovery of this intriguing vulnerability, many defence methods have been proposed that attempt to improve robustness to adversarial noise. Fast and accurate attacks are required to compare various defence methods. However, evaluating adversarial robustness has proven to be extremely challenging. Existing norm minimisation adversarial attacks require thousands of iterations (e.g. Carlini & Wagner attack), are limited to the specific norms (e.g. Fast Adaptive Boundary), or produce sub-optimal results (e.g. Brendel & Bethge attack). On the other hand, PGD attack, which is fast, general and accurate, ignores the norm minimisation penalty and solves a simpler perturbation-constra ined problem. In this work, we introduce a fast, general and accurate adversarial attack that optimises the original non-convex constrained minimisation problem. We interpret optimising the Lagrangian of the adversarial attack optimisation problem as a two-player game: the first player minimises the Lagrangian wrt the adversarial noise; the second player maximises the Lagrangian wrt the regularisation penalty. Our attack algorithm simultaneously optimises primal and dual variables to find the minimal adversarial perturbation. In addition, for non-smooth $l_p$-norm minimisation, such as $l_{\infty}$-, $l_1$-, and $l_0$-norms, we introduce primal-dual proximal gradient descent attack. We show in the experiments that our attack outperforms current state-of-the-art $l_{\infty}$-, $l_2$-, $l_1$-, and $l_0$-attacks on MNIST, CIFAR-10 and Restricted ImageNet datasets against unregularised and adversarially trained models.
翻訳日:2021-06-04 16:22:39 公開日:2021-06-03
# 機械学習を用いた変形性膝関節症診断のためのX線パテラのテクスチャー解析

Machine Learning Based Texture Analysis of Patella from X-Rays for Detecting Patellofemoral Osteoarthritis ( http://arxiv.org/abs/2106.01700v1 )

ライセンス: Link先を確認
Neslihan Bayramoglu, Miika T. Nieminen, Simo Saarakkala(参考訳) 本研究の目的は, 膝側頭蓋骨関節症(PFOA)の診断におけるテクスチャ機能の評価である。 ほとんどの公衆用データセット(n = 5507膝)の側方視膝x線写真を用いた。 Patellar region-of-interest(R OI)はランドマーク検出ツール(BoneFinder)を使用して自動的に検出される。 次に、LocalBinary Patterns (LBP)に基づく手作りの特徴を抽出し、パテラーテクスチャを記述した。 まず,LBP特徴量からPFOAを検出するための機械学習モデル(Gradient Boosting Machine)を訓練した。 さらに, PFOA検出のためのテクスチャパッチに直接, エンドツーエンドの深層畳み込みニューラルネットワーク(CNN)を用いた。 提案した分類モデルは, 年齢, 性別, 体重指数(BMI), 総WOMACスコア, およびKelgren-Lawrence(KL) グレードなどの, 臨床評価と参加者特性を用いた従来型の基準モデルと比較した。 MOSTパブリックユースデータセットで提供される専門家読者によるPFOA状態のアトラス誘導による視覚的評価をモデルの分類結果として用いた。 予測モデルの性能は, 入力特性曲線 (roc auc) 下の領域, 精度リコール (pr) 曲線平均精度 (ap) 以下の領域, 層状5倍クロス検証設定におけるブライアスコアを用いて評価した。 年齢,性別,BMI,WOMAC,Tybiofemo ral KL等を含む最強基準モデルでは,PFOAを推定するためのAUCとAPは0.817,0.487であった。 CNNを用いたテキストROI分類では予測性能が有意に向上した(ROC AUC=0.889, AP=0.714)。 本研究はPFOAの診断のための骨組織構造を解析する最初の研究である。 PFOAを予測するために膝蓋骨のテクスチャ的特徴を用いることの可能性を示した。

Objective is to assess the ability of texture features for detecting radiographic patellofemoral osteoarthritis (PFOA) from knee lateral view radiographs. We used lateral view knee radiographs from MOST public use datasets (n = 5507 knees). Patellar region-of-interest (ROI) was automatically detected using landmark detection tool (BoneFinder). Hand-crafted features, based on LocalBinary Patterns (LBP), were then extracted to describe the patellar texture. First, a machine learning model (Gradient Boosting Machine) was trained to detect radiographic PFOA from the LBP features. Furthermore, we used end-to-end trained deep convolutional neural networks (CNNs) directly on the texture patches for detecting the PFOA. The proposed classification models were eventually compared with more conventional reference models that use clinical assessments and participant characteristics such as age, sex, body mass index(BMI), the total WOMAC score, and tibiofemoral Kellgren-Lawrence (KL) grade. Atlas-guided visual assessment of PFOA status by expert readers provided in the MOST public use datasets was used as a classification outcome for the models. Performance of prediction models was assessed using the area under the receiver operating characteristic curve (ROC AUC), the area under the precision-recall (PR) curve-average precision (AP)-, and Brier score in the stratified 5-fold cross validation setting.Of the 5507 knees, 953 (17.3%) had PFOA. AUC and AP for the strongest reference model including age, sex, BMI, WOMAC score, and tibiofemoral KL grade to predict PFOA were 0.817 and 0.487, respectively. Textural ROI classification using CNN significantly improved the prediction performance (ROC AUC= 0.889, AP= 0.714). We present the first study that analyses patellar bone texture for diagnosing PFOA. Our results demonstrates the potential of using texture features of patella to predict PFOA.
翻訳日:2021-06-04 16:22:01 公開日:2021-06-03
# 低メモリエッジデバイスにおける畳み込みニューラルネットワークを用いた糖尿病網膜症のステージ分類の進歩

Advances in Classifying the Stages of Diabetic Retinopathy Using Convolutional Neural Networks in Low Memory Edge Devices ( http://arxiv.org/abs/2106.01739v1 )

ライセンス: Link先を確認
Aditya Jyoti Paul(参考訳) 糖尿病網膜症(DR: Diabetic Retinopathy)は、網膜血管障害を引き起こす重篤な合併症であり、視覚障害や失明の主要な原因の1つである。 非増殖性(Non-proliferative、NPDR)は、いくつかの微小動脈瘤を除いて症状がほとんどない段階と、多数の微小動脈瘤と出血、軟硬部出血、血管新生、黄斑虚血、またはこれらの組み合わせを検知し易い段階に分けられる。 より具体的に言えば、DRは通常、0-4とラベル付けされた5つのレベルに分類される。 本論文はまず, 疾患のリスク要因について考察し, そして最近の文献を調査し, 予後の精度向上に有効であることが判明した特定の手法を検討した。 最後に,低メモリエッジマイクロコントローラ上でdrのすべてのステージを検出するための畳み込みニューラルネットワークモデルを提案する。 モデルのサイズはわずか5.9MB、正確さとF1スコアは94%、推論速度は毎秒約20フレームである。

Diabetic Retinopathy (DR) is a severe complication that may lead to retinal vascular damage and is one of the leading causes of vision impairment and blindness. DR broadly is classified into two stages - non-proliferative (NPDR), where there are almost no symptoms, except a few microaneurysms, and proliferative (PDR) involving a huge number of microaneurysms and hemorrhages, soft and hard exudates, neo-vascularization, macular ischemia or a combination of these, making it easier to detect. More specifically, DR is usually classified into five levels, labeled 0-4, from 0 indicating no DR to 4 which is most severe. This paper firstly presents a discussion on the risk factors of the disease, then surveys the recent literature on the topic followed by examining certain techniques which were found to be highly effective in improving the prognosis accuracy. Finally, a convolutional neural network model is proposed to detect all the stages of DR on a low-memory edge microcontroller. The model has a size of just 5.9 MB, accuracy and F1 score both of 94% and an inference speed of about 20 frames per second.
翻訳日:2021-06-04 16:21:28 公開日:2021-06-03
# 全体微小CTスキャンによるラット胎児の自家骨格異常検出

Effort-free Automated Skeletal Abnormality Detection of Rat Fetuses on Whole-body Micro-CT Scans ( http://arxiv.org/abs/2106.01830v1 )

ライセンス: Link先を確認
Akihiro Fukuda, Changhee Han, Kazumi Hakamada(参考訳) 機械学習に基づく高速かつ定量的な自動スクリーニングは、CTスキャンでヒトの骨を分析する上で重要な役割を果たしている。 しかし, 医薬品の安全性評価の要件にもかかわらず, 動物胎児の微小CTスキャンでは, 厳密なデータ収集やアノテーションによる研究は稀である。 そこで本研究では,ラット胎児の骨格の局在・ラベル・異常検出を最小限の努力で行う骨特徴工学手法を提案する。 49名の胎児のトレーニングデータに制限があるにもかかわらず, 骨格標識と異常検出では, それぞれ 0.900 と 0.810 の精度が得られた。

Machine Learning-based fast and quantitative automated screening plays a key role in analyzing human bones on Computed Tomography (CT) scans. However, despite the requirement in drug safety assessment, such research is rare on animal fetus micro-CT scans due to its laborious data collection and annotation. Therefore, we propose various bone feature engineering techniques to thoroughly automate the skeletal localization/labelin g/abnormality detection of rat fetuses on whole-body micro-CT scans with minimum effort. Despite limited training data of 49 fetuses, in skeletal labeling and abnormality detection, we achieve accuracy of 0.900 and 0.810, respectively.
翻訳日:2021-06-04 16:21:05 公開日:2021-06-03
# c2マッチングによるロバストな参照ベース超解像

Robust Reference-based Super-Resolution via C2-Matching ( http://arxiv.org/abs/2106.01863v1 )

ライセンス: Link先を確認
Yuming Jiang, Kelvin C.K. Chan, Xintao Wang, Chen Change Loy, Ziwei Liu(参考訳) 参照型スーパーリゾリューション(Ref-SR)は、最近、高解像度(HR)参照画像を導入して低解像度(LR)入力画像を強化するための有望なパラダイムとして登場した。 既存のRef-SR法は主に暗黙の対応に頼り、参照画像からHRテクスチャを借用し、入力画像の情報損失を補う。 しかし、入力画像と参照画像の間に2つのギャップがあるため、局所移動は困難である。 スケールと回転)と解像度ギャップ(例えば、) HRとLR)。 これらの課題に対処するため,我々はC2-Matchingを提案する。 1)変換ギャップに対して,入力画像の拡張ビューを用いて変換-ロバスト対応を学習するコントラスト対応ネットワークを提案する。 2) 解答ギャップでは, より容易なHR-HRマッチングから知識を抽出し, より曖昧なLR-HRマッチングを導出する教師-学生相関蒸留を採用する。 3)最後に,潜在的なミスアライメント問題に対処する動的アグリゲーションモジュールを設計する。 さらに,現実的な環境下でのRef-SRの性能を忠実に評価するために,Webly-Referenced SR(WR-SR)データセットを提案。 今回提案したC2-MatchingはCUFED5ベンチマークで1dB以上の精度で性能を向上した。 特に、WR-SRデータセットに対する大きな一般化性と、大規模および回転変換におけるロバスト性を示す。

Reference-based Super-Resolution (Ref-SR) has recently emerged as a promising paradigm to enhance a low-resolution (LR) input image by introducing an additional high-resolution (HR) reference image. Existing Ref-SR methods mostly rely on implicit correspondence matching to borrow HR textures from reference images to compensate for the information loss in input images. However, performing local transfer is difficult because of two gaps between input and reference images: the transformation gap (e.g. scale and rotation) and the resolution gap (e.g. HR and LR). To tackle these challenges, we propose C2-Matching in this work, which produces explicit robust matching crossing transformation and resolution. 1) For the transformation gap, we propose a contrastive correspondence network, which learns transformation-robus t correspondences using augmented views of the input image. 2) For the resolution gap, we adopt a teacher-student correlation distillation, which distills knowledge from the easier HR-HR matching to guide the more ambiguous LR-HR matching. 3) Finally, we design a dynamic aggregation module to address the potential misalignment issue. In addition, to faithfully evaluate the performance of Ref-SR under a realistic setting, we contribute the Webly-Referenced SR (WR-SR) dataset, mimicking the practical usage scenario. Extensive experiments demonstrate that our proposed C2-Matching significantly outperforms state of the arts by over 1dB on the standard CUFED5 benchmark. Notably, it also shows great generalizability on WR-SR dataset as well as robustness across large scale and rotation transformations.
翻訳日:2021-06-04 16:20:55 公開日:2021-06-03
# 医用画像拡張のための病的適応型ネットワーク

Pathology-Aware Generative Adversarial Networks for Medical Image Augmentation ( http://arxiv.org/abs/2106.01915v1 )

ライセンス: Link先を確認
Changhee Han(参考訳) 畳み込みニューラルネットワーク(CNN)は、大規模アノテートデータセットの下で、医療画像解析において重要な役割を果たす。 しかし、そのような膨大なデータセットを作成する必要がある。 この文脈では、GAN(Generative Adversarial Networks)は現実的だが斬新なサンプルを生成し、実際の画像分布を効果的にカバーすることができる。 補間の観点からは, 医用モダリティは, 物体間変動性を明瞭に反映しつつ, 人体の強い解剖的整合性を示すことができるため, 医用データ拡張(DA) と (II) 医用データ増強(DA) に対して, ノイズ・ツー・イメージのGAN(例えば, 多様な病理画像に対するランダムノイズサンプル) を用いることを提案する。 DAに関して、GAN生成画像は教師付き学習に基づいてコンピュータ支援診断を改善することができる。 医師の訓練では、ganは、新しい望ましい病理像を表示し、インフラや法的制約にもかかわらず、医療訓練者を訓練することができる。 この論文は、医師とのコラボレーションにおいて、そのような新しい応用の臨床的意義を示すための4つのGANプロジェクトを含んでいる。 これらの方法がより一般的に適用できるのに対して、この論文はいくつかのオンコロジーな応用を探求するだけである。

Convolutional Neural Networks (CNNs) can play a key role in Medical Image Analysis under large-scale annotated datasets. However, preparing such massive dataset is demanding. In this context, Generative Adversarial Networks (GANs) can generate realistic but novel samples, and thus effectively cover the real image distribution. In terms of interpolation, the GAN-based medical image augmentation is reliable because medical modalities can display the human body's strong anatomical consistency at fixed position while clearly reflecting inter-subject variability; thus, we propose to use noise-to-image GANs (e.g., random noise samples to diverse pathological images) for (i) medical Data Augmentation (DA) and (ii) physician training. Regarding the DA, the GAN-generated images can improve Computer-Aided Diagnosis based on supervised learning. For the physician training, the GANs can display novel desired pathological images and help train medical trainees despite infrastructural/lega l constraints. This thesis contains four GAN projects aiming to present such novel applications' clinical relevance in collaboration with physicians. Whereas the methods are more generally applicable, this thesis only explores a few oncological applications.
翻訳日:2021-06-04 16:20:25 公開日:2021-06-03
# ProtoRes: 人間の視点の深部モデリングのためのプロトタイプアーキテクチャ

ProtoRes: Proto-Residual Architecture for Deep Modeling of Human Pose ( http://arxiv.org/abs/2106.01981v1 )

ライセンス: Link先を確認
Boris N. Oreshkin and Florent Bocquelet and F\'elix H. Harvey and Bay Raitt and Dominic Laflamme(参考訳) 我々の研究は、高度なAI支援アニメーションツールのための人間のポーズの学習可能なニューラル表現の開発に焦点を当てている。 具体的には,スライスと可変ユーザ入力(例えば)に基づいて,完全な静的な人間のポーズを構築する問題に取り組む。 身体関節の部分集合の位置および/または方向) この問題を解決するために,残余接続と部分的に指定されたポーズのプロトタイプエンコーディングを組み合わせ,学習された潜在空間から新しい完全ポーズを生成するニューラルアーキテクチャを提案する。 我々のアーキテクチャは,精度と計算効率の両面で,Transformerに基づくベースラインよりも優れていることを示す。 さらに、リアルタイム3D開発プラットフォームであるUnityにニューラルネットワークを統合するためのユーザインターフェースも開発しています。 さらに,静的なポーズモデル問題を表す2つの新しいデータセットを,高品質な人間のモーションキャプチャーデータに基づいて導入し,モデルコードとともに公開する。

Our work focuses on the development of a learnable neural representation of human pose for advanced AI assisted animation tooling. Specifically, we tackle the problem of constructing a full static human pose based on sparse and variable user inputs (e.g. locations and/or orientations of a subset of body joints). To solve this problem, we propose a novel neural architecture that combines residual connections with prototype encoding of a partially specified pose to create a new complete pose from the learned latent space. We show that our architecture outperforms a baseline based on Transformer, both in terms of accuracy and computational efficiency. Additionally, we develop a user interface to integrate our neural model in Unity, a real-time 3D development platform. Furthermore, we introduce two new datasets representing the static human pose modeling problem, based on high-quality human motion capture data, which will be released publicly along with model code.
翻訳日:2021-06-04 16:20:01 公開日:2021-06-03
# ニューラルアクタ:ポーズ制御による人間のアクタのニューラルフリービュー合成

Neural Actor: Neural Free-view Synthesis of Human Actors with Pose Control ( http://arxiv.org/abs/2106.02019v1 )

ライセンス: Link先を確認
Lingjie Liu, Marc Habermann, Viktor Rudnev, Kripasindhu Sarkar, Jiatao Gu, Christian Theobalt(参考訳) 本研究では,任意の視点と任意の制御可能なポーズ下での人間の高品質な合成手法であるニューラル・アクター(NA)を提案する。 本手法は,2次元画像のみから幾何表現と外観を学習する,近年のニューラルシーン表現とレンダリング作業を基に構築した。 既存の研究では、静的なシーンの魅力的なレンダリングやダイナミックなシーンの再生が示されていますが、特にユーザがコントロールする新しいポーズの下では、人間の写実的な再構築とニューラルな暗黙的手法によるレンダリングは依然として困難です。 この問題に対処するために,周囲3d空間を正準的なポーズに解き放つためのプロキシとして,粗いボディモデルを用いる。 神経放射場は、多視点映像入力から、正準空間におけるポーズ依存幾何変形およびポーズおよびビュー依存外観効果を学習する。 高忠実度動的幾何と外観の新しい視点を合成するために,物体モデル上で定義された2次元テクスチャマップを潜在変数として活用し,残留変形と動的外観の予測を行う。 実験により,本手法は再生時の最先端技術や新しいポーズ合成よりも優れた品質を実現し,トレーニングポーズと大きく異なる新しいポーズを一般化できることが示された。 さらに,本手法は合成結果の形状制御もサポートする。

We propose Neural Actor (NA), a new method for high-quality synthesis of humans from arbitrary viewpoints and under arbitrary controllable poses. Our method is built upon recent neural scene representation and rendering works which learn representations of geometry and appearance from only 2D images. While existing works demonstrated compelling rendering of static scenes and playback of dynamic scenes, photo-realistic reconstruction and rendering of humans with neural implicit methods, in particular under user-controlled novel poses, is still difficult. To address this problem, we utilize a coarse body model as the proxy to unwarp the surrounding 3D space into a canonical pose. A neural radiance field learns pose-dependent geometric deformations and pose- and view-dependent appearance effects in the canonical space from multi-view video input. To synthesize novel views of high fidelity dynamic geometry and appearance, we leverage 2D texture maps defined on the body model as latent variables for predicting residual deformations and the dynamic appearance. Experiments demonstrate that our method achieves better quality than the state-of-the-arts on playback as well as novel pose synthesis, and can even generalize well to new poses that starkly differ from the training poses. Furthermore, our method also supports body shape control of the synthesized results.
翻訳日:2021-06-04 16:19:49 公開日:2021-06-03
# 「こう感じさせた」:音声データを用いた夫婦の対立行動におけるパートナーの感情予測への影響を探る

"You made me feel this way": Investigating Partners' Influence in Predicting Emotions in Couples' Conflict Interactions using Speech Data ( http://arxiv.org/abs/2106.01526v1 )

ライセンス: Link先を確認
George Boateng, Peter Hilpert, Guy Bodenmann, Mona Neysari, Tobias Kowatsch(参考訳) 紛争の間、ロマンチックなパートナー同士の相互作用は、対話の終わりに彼らがどう感じているかに影響し、パートナーが長期にわたって一緒にいるかどうかを予測する。 したがって、各パートナーの感情を理解することが重要です。 しかし、現在使われているアプローチには、負担がかかり、従ってこのデータ収集の頻度を制限する自己報告が含まれる。 自動感情予測はこの課題に対処できる。 心理学研究からの洞察は、パートナーの行動が対立の相互作用においてお互いの感情に影響を与えていることを示している。 しかし, 感情予測性能の観点からは, それぞれの相手の行動のみを用いた場合との比較は, 未だ検討されていない。 本研究では,実験室で8分間の衝突反応で映像化された368人のドイツ語話者スイス人カップル(N=736人)のデータセットから,言語的特徴(パートナーの言ったこと)とopenSMILEを抽出し,パラ言語的特徴(どのように言ったか)を抽出した。 これらの機能に基づいて、コンフリクトインタラクション後にパートナーが肯定的か否定的かを予測するために、マシンラーニングモデルをトレーニングしました。 その結果,相手の行動を含めると予測性能が向上することがわかった。 さらに、男性にとって、女性パートナーの話し方を考えることが最重要であり、男性パートナーが言うことを考える女性は、より良い予測性能を得る上で最も重要である。 この研究は、お互いの行動に基づいてパートナーの感情を自動的に認識するステップであり、研究、セラピー、現実世界におけるカップルの理解を深める。

How romantic partners interact with each other during a conflict influences how they feel at the end of the interaction and is predictive of whether the partners stay together in the long term. Hence understanding the emotions of each partner is important. Yet current approaches that are used include self-reports which are burdensome and hence limit the frequency of this data collection. Automatic emotion prediction could address this challenge. Insights from psychology research indicate that partners' behaviors influence each other's emotions in conflict interaction and hence, the behavior of both partners could be considered to better predict each partner's emotion. However, it is yet to be investigated how doing so compares to only using each partner's own behavior in terms of emotion prediction performance. In this work, we used BERT to extract linguistic features (i.e., what partners said) and openSMILE to extract paralinguistic features (i.e., how they said it) from a data set of 368 German-speaking Swiss couples (N = 736 individuals) which were videotaped during an 8-minutes conflict interaction in the laboratory. Based on those features, we trained machine learning models to predict if partners feel positive or negative after the conflict interaction. Our results show that including the behavior of the other partner improves the prediction performance. Furthermore, for men, considering how their female partners spoke is most important and for women considering what their male partner said is most important in getting better prediction performance. This work is a step towards automatically recognizing each partners' emotion based on the behavior of both, which would enable a better understanding of couples in research, therapy, and the real world.
翻訳日:2021-06-04 16:19:25 公開日:2021-06-03
# BERT が LIWC と出会う: 夫婦の対立関係におけるコミュニケーション行動予測のための言語モデル

BERT meets LIWC: Exploring State-of-the-Art Language Models for Predicting Communication Behavior in Couples' Conflict Interactions ( http://arxiv.org/abs/2106.01536v1 )

ライセンス: Link先を確認
Jacopo Biggiogera, George Boateng, Peter Hilpert, Matthew Vowels, Guy Bodenmann, Mona Neysari, Fridtjof Nussbeck, Tobias Kowatsch(参考訳) 心理学における多くのプロセスは、相互作用する2つのパートナー(例えば、)間のダイアディック相互作用のような複雑である。 患者療法士 親密な関係パートナー) しかしながら、対話に関する多くの基本的な質問は、ダイアディックプロセスが個人内およびパートナー間に存在する可能性があるため、調査が困難である。 現在の解析は主に、人間のコーダがコーディングスキーマに基づいて行動に注釈を付ける行動符号化法に基づいている。 しかし、コーディングは労働集約的で、高価で、遅い。 心理学における現在のアプローチは、カップルの相互作用の分析にliwcを使用している。 しかし、BERTのような自然言語処理の進歩は、システムの開発が潜在的に行動的コーディングを自動化し、それによって心理的研究を大幅に改善する可能性がある。 本研究では,368人のドイツ語話者のスイス人カップルが,言語的特徴とOpenSMILEから派生したパラ言語的特徴を用いて,きめ細かなスケール(10秒連続)での8分間の衝突相互作用において,正負のコミュニケーション行動コードを自動的に予測する機械学習モデルを訓練する。 以上の結果から,TF-IDF機能と複雑なBERT機能の両方がLIWCよりも優れた性能を示し,パラ言語機能の追加は性能改善に至らなかった。 これらの結果は、カップル研究における予測タスクにおいて、心理学における事実上の言語的特徴であるLIWCの近代的な代替案を検討する時が来たことを示唆している。 この研究は、カップルの研究と治療を強化し、他のダイアド相互作用にも活用できる、カップルの行動の自動コーディングへのさらなる一歩である。

Many processes in psychology are complex, such as dyadic interactions between two interacting partners (e.g. patient-therapist, intimate relationship partners). Nevertheless, many basic questions about interactions are difficult to investigate because dyadic processes can be within a person and between partners, they are based on multimodal aspects of behavior and unfold rapidly. Current analyses are mainly based on the behavioral coding method, whereby human coders annotate behavior based on a coding schema. But coding is labor-intensive, expensive, slow, focuses on few modalities. Current approaches in psychology use LIWC for analyzing couples' interactions. However, advances in natural language processing such as BERT could enable the development of systems to potentially automate behavioral coding, which in turn could substantially improve psychological research. In this work, we train machine learning models to automatically predict positive and negative communication behavioral codes of 368 German-speaking Swiss couples during an 8-minute conflict interaction on a fine-grained scale (10-seconds sequences) using linguistic features and paralinguistic features derived with openSMILE. Our results show that both simpler TF-IDF features as well as more complex BERT features performed better than LIWC, and that adding paralinguistic features did not improve the performance. These results suggest it might be time to consider modern alternatives to LIWC, the de facto linguistic features in psychology, for prediction tasks in couples research. This work is a further step towards the automated coding of couples' behavior which could enhance couple research and therapy, and be utilized for other dyadic interactions as well.
翻訳日:2021-06-04 16:18:53 公開日:2021-06-03
# MPC-BERT:多人数会話理解のための事前学習言語モデル

MPC-BERT: A Pre-Trained Language Model for Multi-Party Conversation Understanding ( http://arxiv.org/abs/2106.01541v1 )

ライセンス: Link先を確認
Jia-Chen Gu, Chongyang Tao, Zhen-Hua Ling, Can Xu, Xiubo Geng, Daxin Jiang(参考訳) 近年、マルチパーティ会話(mpc)のための様々なニューラルモデルが、住所認識、話者識別、応答予測といった様々なタスクにおいて印象的な改善を達成している。 しかしながら、mpc上のこれらの既存の方法は、通常、個別に対話者および発話を表現し、重要な対話者および発話意味論を提供し、会話理解プロセスを強化するmpcの固有の複雑な構造を無視している。 そこで本研究では,MPC理解のための事前学習モデルであるMPC-BERTを提案する。 特に、これらのタスクは、(1)応答対発話認識、同一話者探索とポインタ整合性区別を含む対話者間構造モデリング、(2)マスキングされた発話復元と共有ノード検出を含む発話セマンティクスモデリングに分類することができる。 我々は,MPC-BERTを,話者認識,話者識別,応答選択を含む3つの下流タスクで評価した。 実験の結果,mpc-bertは従来の手法を高いマージンで上回り,2つのベンチマークで3つの下流タスクすべてにおいて新たな最先端性能を達成できた。

Recently, various neural models for multi-party conversation (MPC) have achieved impressive improvements on a variety of tasks such as addressee recognition, speaker identification and response prediction. However, these existing methods on MPC usually represent interlocutors and utterances individually and ignore the inherent complicated structure in MPC which may provide crucial interlocutor and utterance semantics and would enhance the conversation understanding process. To this end, we present MPC-BERT, a pre-trained model for MPC understanding that considers learning who says what to whom in a unified model with several elaborated self-supervised tasks. Particularly, these tasks can be generally categorized into (1) interlocutor structure modeling including reply-to utterance recognition, identical speaker searching and pointer consistency distinction, and (2) utterance semantics modeling including masked shared utterance restoration and shared node detection. We evaluate MPC-BERT on three downstream tasks including addressee recognition, speaker identification and response selection. Experimental results show that MPC-BERT outperforms previous methods by large margins and achieves new state-of-the-art performance on all three downstream tasks at two benchmarks.
翻訳日:2021-06-04 16:18:28 公開日:2021-06-03
# 文書レベル関係抽出のための判別的推論

Discriminative Reasoning for Document-level Relation Extraction ( http://arxiv.org/abs/2106.01562v1 )

ライセンス: Link先を確認
Wang Xu, Kehai Chen, Tiejun Zhao(参考訳) ドキュメントレベルの関係抽出(docre)モデルは一般的にグラフネットワークを使用して推論スキル(パターン認識、論理推論、コリファレンス推論など)を暗黙的にモデル化する。 ドキュメント内の1つのエンティティペアの関係に関する。 本稿では,この文書における各エンティティペア間の推論スキルのパスを明示的にモデル化する,新たな識別的推論フレームワークを提案する。 これにより、構成されたグラフと各エンティティペアのベクトル化された文書コンテキストとに基づいて、異なる推論経路の関係確率分布を推定し、それらの関係を認識する。 実験の結果,本手法は大規模DocREデータセットにおいて,従来の最先端性能よりも優れていた。 コードはhttps://github.com/x wjim/drnで公開されている。

Document-level relation extraction (DocRE) models generally use graph networks to implicitly model the reasoning skill (i.e., pattern recognition, logical reasoning, coreference reasoning, etc.) related to the relation between one entity pair in a document. In this paper, we propose a novel discriminative reasoning framework to explicitly model the paths of these reasoning skills between each entity pair in this document. Thus, a discriminative reasoning network is designed to estimate the relation probability distribution of different reasoning paths based on the constructed graph and vectorized document contexts for each entity pair, thereby recognizing their relation. Experimental results show that our method outperforms the previous state-of-the-art performance on the large-scale DocRE dataset. The code is publicly available at https://github.com/x wjim/DRN.
翻訳日:2021-06-04 16:18:08 公開日:2021-06-03
# オンラインゲームフォーラムにおけるサイバーいじめコメントの自動検出

Automatically Detecting Cyberbullying Comments on Online Game Forums ( http://arxiv.org/abs/2106.01598v1 )

ライセンス: Link先を確認
Hanh Hong-Phuc Vo, Hieu Trung Tran, Son T. Luu(参考訳) オンラインゲームフォーラムは、ほとんどのゲームプレイヤーに人気がある。 彼らはそれを使って、ゲームの戦略を伝え、議論したり、友人を作る。 しかし、ゲームフォーラムには虐待的かつ嫌がらせ的なスピーチ、乱暴かつ脅迫的なプレイヤーも含まれる。 したがって、ゲームフォーラムをクリーンかつフレンドリーに保つために、サイバーいじめコメントを自動的に検出・削除する必要がある。 world of warcraft(wow)とleague of legends(lol)のフォーラムから収集されたcyberbullyingデータセットとトレーニング分類モデルを使用して、プレーヤーのコメントが不正であるかどうかを自動的に検出します。 その結果、LoLフォーラムのマクロF1スコアの82.69%、WoWフォーラムのマクロF1スコアの83.86%を、CyberbullyingデータセットのToxic-BERTモデルで取得した。

Online game forums are popular to most of game players. They use it to communicate and discuss the strategy of the game, or even to make friends. However, game forums also contain abusive and harassment speech, disturbing and threatening players. Therefore, it is necessary to automatically detect and remove cyberbullying comments to keep the game forum clean and friendly. We use the Cyberbullying dataset collected from World of Warcraft (WoW) and League of Legends (LoL) forums and train classification models to automatically detect whether a comment of a player is abusive or not. The result obtains 82.69% of macro F1-score for LoL forum and 83.86% of macro F1-score for WoW forum by the Toxic-BERT model on the Cyberbullying dataset.
翻訳日:2021-06-04 16:17:55 公開日:2021-06-03
# 事前学習型言語モデルを用いた知識グラフ・テキスト生成

Few-shot Knowledge Graph-to-Text Generation with Pretrained Language Models ( http://arxiv.org/abs/2106.01623v1 )

ライセンス: Link先を確認
Junyi Li, Tianyi Tang, Wayne Xin Zhao, Zhicheng Wei, Nicholas Jing Yuan and Ji-Rong Wen(参考訳) 本稿では,知識グラフ(KG)の事実を記述した自然言語テキストの自動生成方法について検討する。 数発の設定を考えると、言語理解と生成において事前学習言語モデル(PLM)の優れた能力を利用する。 KGエンコーディングとPLM間の意味的ギャップを埋めるための表現アライメント、より良い入力表現を導出するための関係バイアス付きKG線形化、KGとテキストの対応性を学ぶためのマルチタスク学習である。 KG-to-text生成タスクにおいて,3つのベンチマークデータセットの大規模な実験を行った。 特に,本モデルは,全監督設定と少数撮影設定の両方において,すべての比較手法を上回っている。 コードとデータセットはhttps://github.com/R UCAIBox/Few-Shot-KG2 Text.comから入手可能です。

This paper studies how to automatically generate a natural language text that describes the facts in knowledge graph (KG). Considering the few-shot setting, we leverage the excellent capacities of pretrained language models (PLMs) in language understanding and generation. We make three major technical contributions, namely representation alignment for bridging the semantic gap between KG encodings and PLMs, relation-biased KG linearization for deriving better input representations, and multi-task learning for learning the correspondence between KG and text. Extensive experiments on three benchmark datasets have demonstrated the effectiveness of our model on KG-to-text generation task. In particular, our model outperforms all comparison methods on both fully-supervised and few-shot settings. Our code and datasets are available at https://github.com/R UCAIBox/Few-Shot-KG2 Text.
翻訳日:2021-06-04 16:17:41 公開日:2021-06-03
# generation, prune, select:オンラインヘイトスピーチに対する反スパイチ生成のためのパイプライン

Generate, Prune, Select: A Pipeline for Counterspeech Generation against Online Hate Speech ( http://arxiv.org/abs/2106.01625v1 )

ライセンス: Link先を確認
Wanzheng Zhu and Suma Bhat(参考訳) 言論の自由を阻止することなく、ネット上でますます増加するヘイトスピーチと効果的に戦うための対策は、大きな社会的関心事である。 自然言語生成(NLG)は,スケーラブルなソリューションを独自に開発することができる。 しかし、市販のNLG法は主にシーケンス・ツー・シーケンスのニューラルモデルであり、ヘイトスピーチによらず、共通の場所、繰り返し、安全な応答を生成するという点で制限されている(例えば、そのような言語の使用を控える)。 あるいは無関係な反応で、憎悪的な会話をエスカレートするのに効果がありません。 本稿では,多様性と妥当性を効果的に向上する3モジュールパイプラインを設計する。 提案するパイプラインは,まず多様性を促進するために生成モデルを用いて様々な反音声候補を生成し,次にBERTモデルを用いて非文法的候補をフィルタリングし,最後に新しい検索手法を用いて最も関連性の高い反音声応答を選択する。 3つの代表的なデータセットに対する広範囲な実験は、多様で関連する対音声生成における我々のアプローチの有効性を示した。

Countermeasures to effectively fight the ever increasing hate speech online without blocking freedom of speech is of great social interest. Natural Language Generation (NLG), is uniquely capable of developing scalable solutions. However, off-the-shelf NLG methods are primarily sequence-to-sequence neural models and they are limited in that they generate commonplace, repetitive and safe responses regardless of the hate speech (e.g., "Please refrain from using such language.") or irrelevant responses, making them ineffective for de-escalating hateful conversations. In this paper, we design a three-module pipeline approach to effectively improve the diversity and relevance. Our proposed pipeline first generates various counterspeech candidates by a generative model to promote diversity, then filters the ungrammatical ones using a BERT model, and finally selects the most relevant counterspeech response using a novel retrieval-based method. Extensive Experiments on three representative datasets demonstrate the efficacy of our approach in generating diverse and relevant counterspeech.
翻訳日:2021-06-04 16:17:27 公開日:2021-06-03
# LearnDA: イベント因果同定のための学習可能な知識ガイド付きデータ拡張

LearnDA: Learnable Knowledge-Guided Data Augmentation for Event Causality Identification ( http://arxiv.org/abs/2106.01649v1 )

ライセンス: Link先を確認
Xinyu Zuo, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao, Weihua Peng and Yuguang Chen(参考訳) 事象因果同定(ECI)の現代モデルは、主に教師付き学習に基づいており、データの欠如が問題となっている。 残念ながら、既存のNLP関連の拡張方法は、このタスクに必要なデータを直接生成することはできない。 そこで本研究では,2つの学習フレームワークにおいて,新しい例を反復的に生成し,事象因果関係を分類することにより,事象因果関係識別のための訓練データを強化する新しい手法を提案する。 一方,本手法は知識誘導型であり,既存の知識ベースを生かして良好な文を生成する。 一方,本手法では,学習可能な拡張フレームワークである2つのメカニズムを採用し,タスク関連文を生成するための生成プロセスを対話的に調整することができる。 EventStoryLine と Causal-TimeBank の2つのベンチマークによる実験結果から,1) ECI に適したタスク関連トレーニングデータを拡張できること,2) EventStoryLine と Causal-TimeBank の従来の手法(F1 の値に+2.5 と +2.1 の点)より優れていることが判明した。

Modern models for event causality identification (ECI) are mainly based on supervised learning, which are prone to the data lacking problem. Unfortunately, the existing NLP-related augmentation methods cannot directly produce the available data required for this task. To solve the data lacking problem, we introduce a new approach to augment training data for event causality identification, by iteratively generating new examples and classifying event causality in a dual learning framework. On the one hand, our approach is knowledge-guided, which can leverage existing knowledge bases to generate well-formed new sentences. On the other hand, our approach employs a dual mechanism, which is a learnable augmentation framework and can interactively adjust the generation process to generate task-related sentences. Experimental results on two benchmarks EventStoryLine and Causal-TimeBank show that 1) our method can augment suitable task-related training data for ECI; 2) our method outperforms previous methods on EventStoryLine and Causal-TimeBank (+2.5 and +2.1 points on F1 value respectively).
翻訳日:2021-06-04 16:17:09 公開日:2021-06-03
# 外部因果文を用いた自己教師表現学習による事象因果性同定の改善

Improving Event Causality Identification via Self-Supervised Representation Learning on External Causal Statement ( http://arxiv.org/abs/2106.01654v1 )

ライセンス: Link先を確認
Xinyu Zuo, Pengfei Cao, Yubo Chen, Kang Liu, Jun Zhao, Weihua Peng and Yuguang Chen(参考訳) イベント因果同定(ECI)の現在のモデルは、主にトレーニングのためにラベル付きデータに大きく依存する教師付きフレームワークを採用している。 残念ながら、現在の注釈付きデータセットのスケールは、比較的限られており、因果的ステートメントから有用な指標をキャプチャするモデルに十分なサポートを提供することができない。 そこで本研究では,イベント因果関係の同定に外部因果文を利用する新しいアプローチである causerl を提案する。 まず,外部因果文から文脈固有の因果パターンを学ぶために,自己教師付きフレームワークを設計する。 そして、学習した文脈固有の因果パターンを対象のECIモデルに組み込むために、コントラッシブトランスファー戦略を採用する。 実験の結果,EventStoryLineおよびCausal-TimeBank(F1値の+2.0点,+3.4点)では従来手法よりも有意に優れていた。

Current models for event causality identification (ECI) mainly adopt a supervised framework, which heavily rely on labeled data for training. Unfortunately, the scale of current annotated datasets is relatively limited, which cannot provide sufficient support for models to capture useful indicators from causal statements, especially for handing those new, unseen cases. To alleviate this problem, we propose a novel approach, shortly named CauSeRL, which leverages external causal statements for event causality identification. First of all, we design a self-supervised framework to learn context-specific causal patterns from external causal statements. Then, we adopt a contrastive transfer strategy to incorporate the learned context-specific causal patterns into the target ECI model. Experimental results show that our method significantly outperforms previous methods on EventStoryLine and Causal-TimeBank (+2.0 and +3.4 points on F1 value respectively).
翻訳日:2021-06-04 16:16:47 公開日:2021-06-03
# PsyQA: メンタルヘルス支援のためのロングカウンセリングテキストを生成する中国のデータセット

PsyQA: A Chinese Dataset for Generating Long Counseling Text for Mental Health Support ( http://arxiv.org/abs/2106.01702v1 )

ライセンス: Link先を確認
Hao Sun, Zhenru Lin, Chujie Zheng, Siyang Liu, Minlie Huang(参考訳) 研究の関心は、メンタルヘルスを支援できるAIサービスを考案するために惹かれてきた。 しかし、コーパスの欠如は、特に中国語におけるこの研究の大きな障害となっている。 本稿では,中国の心理的健康支援データセットであるPsyQAを質問対と回答対の形式で提案する。 PsyQAは中国のメンタルヘルスサービスプラットフォームからクロールされ、22Kの質問と56Kの長大な回答を含んでいる。 心理カウンセリング理論に基づいて,支援のための典型的な戦略を付した回答テキストの一部を注釈し,さらに,カウンセリング回答における語彙的特徴と戦略パターンの詳細な分析を行う。 また、生成事前学習モデルを用いてカウンセリング回答の生成性能を評価する。 結果から, 戦略の活用は, 生成した回答の流布度や有用性を高めるが, 今後の研究にはまだ大きなスペースがあることが明らかとなった。

Great research interests have been attracted to devise AI services that are able to provide mental health support. However, the lack of corpora is a main obstacle to this research, particularly in Chinese language. In this paper, we propose PsyQA, a Chinese dataset of psychological health support in the form of question and answer pair. PsyQA is crawled from a Chinese mental health service platform, and contains 22K questions and 56K long and well-structured answers. Based on the psychological counseling theories, we annotate a portion of answer texts with typical strategies for providing support, and further present in-depth analysis of both lexical features and strategy patterns in the counseling answers. We also evaluate the performance of generating counseling answers with the generative pretrained models. Results show that utilizing strategies enhances the fluency and helpfulness of generated answers, but there is still a large space for future research.
翻訳日:2021-06-04 16:16:28 公開日:2021-06-03
# ゼロショット言語間伝達のためのバイリンガルアライメント事前学習

Bilingual Alignment Pre-training for Zero-shot Cross-lingual Transfer ( http://arxiv.org/abs/2106.01732v1 )

ライセンス: Link先を確認
Ziqing Yang, Wentao Ma, Yiming Cui, Jiani Ye, Wanxiang Che, Shijin Wang(参考訳) 多言語事前学習モデルは、多種多様な言語で事前学習することで、顕著な転送性能を達成した。 mBERTのようなモデルのほとんどはラベルなしコーパスで事前訓練されている。 モデルからの静的およびコンテキストの埋め込みは、あまりうまく調整できなかった。 本稿では,埋め込みの整合性を向上し,ゼロショット言語間転送性能の向上を目指す。 本稿では,統計アライメント情報を事前知識として活用し,バイリンガル単語予測のための事前学習タスクであるアライメント言語モデル(alignlm)を提案する。 本手法は,多言語機械読解と自然言語インタフェースタスクの評価を行う。 その結果、AlignLMはMLQAおよびXNLIデータセット上でゼロショット性能を大幅に改善できることが示された。

Multilingual pre-trained models have achieved remarkable transfer performance by pre-trained on rich kinds of languages. Most of the models such as mBERT are pre-trained on unlabeled corpora. The static and contextual embeddings from the models could not be aligned very well. In this paper, we aim to improve the zero-shot cross-lingual transfer performance by aligning the embeddings better. We propose a pre-training task named Alignment Language Model (AlignLM), which uses the statistical alignment information as the prior knowledge to guide bilingual word prediction. We evaluate our method on multilingual machine reading comprehension and natural language interface tasks. The results show AlignLM can improve the zero-shot performance significantly on MLQA and XNLI datasets.
翻訳日:2021-06-04 16:16:12 公開日:2021-06-03
# プライミング型Few-Shot学習におけるサンプルの並べ替え

Reordering Examples Helps during Priming-based Few-Shot Learning ( http://arxiv.org/abs/2106.01751v1 )

ライセンス: Link先を確認
Sawan Kumar, Partha Talukdar(参考訳) 限られたデータや数ショットの学習から学ぶ能力は、NLPシステムにとって望ましい、しばしば重要な要件である。 多くの既存手法はいくつかの例から学ぶのが苦手だが、最近、大規模な事前訓練された言語モデルは効率的な数ショット学習者であることが示されている。 モデルパラメータの微調整を必要としない少数ショット学習のアプローチの1つは、通常タスク固有の記述や例を使って構築されるプライミングテキストで言語モデルの入力を強化することである。 本研究では,サンプルをプロンプトとして用いることに着目し,プライミングベースのマイナショット学習をさらに探究する。 正しい順序で例を示すことが一般化の鍵であることを示す。 PERO(Prompting with Examples in the Right Order)を導入し、トレーニング例の変節集合を探索するために、数発の学習を定式化する。 PEROは,従来のアプローチとは対照的に,わずか10例の例で効率よく一般化できることを示す。 newlineトークンはプロンプトの例を分けるための自然な選択ですが、新しいセパレータトークンを学ぶことでパフォーマンスがさらに向上する可能性があることを示します。 提案手法が感情分類,自然言語推論,事実検索のタスクに与える影響を実証する。 最後に,2つの学習例を適切な順序で学習することで,感情分類と自然言語推論に競争力を与えるというアイデアを含む,新たな知見を明らかにするための学習プロンプトを分析した。

The ability to learn from limited data, or few-shot learning, is a desirable and often critical requirement for NLP systems. While many existing methods do poorly at learning from a handful of examples, large pretrained language models have recently been shown to be efficient few-shot learners. One approach to few-shot learning, which does not require finetuning of model parameters, is to augment the language model's input with priming text which is typically constructed using task specific descriptions and examples. In this work, we further explore priming-based few-shot learning, with focus on using examples as prompts. We show that presenting examples in the right order is key for generalization. We introduce PERO (Prompting with Examples in the Right Order), where we formulate few-shot learning as search over the set of permutations of the training examples. We show that PERO can learn to generalize efficiently using as few as 10 examples, in contrast to existing approaches. While the newline token is a natural choice for separating the examples in the prompt, we show that learning a new separator token can potentially provide further gains in performance. We demonstrate the effectiveness of the proposed method on the tasks of sentiment classification, natural language inference and fact retrieval. Finally, we analyze the learned prompts to reveal novel insights, including the idea that two training examples in the right order alone can provide competitive performance for sentiment classification and natural language inference.
翻訳日:2021-06-04 16:16:02 公開日:2021-06-03
# BARTを用いたテンプレートベース名前付きエンティティ認識

Template-Based Named Entity Recognition Using BART ( http://arxiv.org/abs/2106.01760v1 )

ライセンス: Link先を確認
Leyang Cui, Yu Wu, Jian Liu, Sen Yang, Yue Zhang(参考訳) 近年、低リソースのターゲットドメインがリソース豊富なソースドメインと比較して異なるラベルセットを持つような、数ショットのNERの調査への関心が高まっている。 既存の方法は類似度に基づく計量を用いる。 しかし、NERモデルパラメータにおける知識伝達を完全に活用することはできない。 そこで本稿では,nerを言語モデルランキング問題として扱うためのテンプレートベース手法を提案する。この手法では,候補名付きエンティティスパンで満たされた原文と文テンプレートをそれぞれソースシーケンスとターゲットシーケンスとして扱う。 推論には、対応するテンプレートスコアに基づいて各候補スパンを分類する必要がある。 提案手法は,CoNLL03において92.55%のF1スコアを達成し,細調整したBERT 10.88%,15.34%,11.73% のF1スコアをMIT Movie,MIT Restaurant,ATIS(低リソースタスク)で達成した。

There is a recent interest in investigating few-shot NER, where the low-resource target domain has different label sets compared with a resource-rich source domain. Existing methods use a similarity-based metric. However, they cannot make full use of knowledge transfer in NER model parameters. To address the issue, we propose a template-based method for NER, treating NER as a language model ranking problem in a sequence-to-sequence framework, where original sentences and statement templates filled by candidate named entity span are regarded as the source sequence and the target sequence, respectively. For inference, the model is required to classify each candidate span based on the corresponding template scores. Our experiments demonstrate that the proposed method achieves 92.55% F1 score on the CoNLL03 (rich-resource task), and significantly better than fine-tuning BERT 10.88%, 15.34%, and 11.73% F1 score on the MIT Movie, the MIT Restaurant, and the ATIS (low-resource task), respectively.
翻訳日:2021-06-04 16:15:38 公開日:2021-06-03
# 必要な文は3つです:ローカルパス強化文書関係抽出

Three Sentences Are All You Need: Local Path Enhanced Document Relation Extraction ( http://arxiv.org/abs/2106.01793v1 )

ライセンス: Link先を確認
Quzhe Huang, Shengqi Zhu, Yansong Feng, Yuan Ye, Yuxuan Lai, Dongyan Zhao(参考訳) 文書レベルの関係抽出(RE)は、複数の文に対する推論を必要とする場合が多いため、文REよりも難しい作業である。 しかし、人間の注釈は通常、与えられたエンティティペア間の関係を特定するために少数の文を使用する。 本稿では,文書レベルreのための証拠文をヒューリスティックに選択する手法を提案する。この手法はbilstmと組み合わせることで,グラフニューラルネットワークベースの手法よりも優れたベンチマークデータセットのパフォーマンスを実現することができる。 私たちはコードをhttps://github.com/a ndrewzhe/three-sente nces-are-you- neededでリリースした。

Document-level Relation Extraction (RE) is a more challenging task than sentence RE as it often requires reasoning over multiple sentences. Yet, human annotators usually use a small number of sentences to identify the relationship between a given entity pair. In this paper, we present an embarrassingly simple but effective method to heuristically select evidence sentences for document-level RE, which can be easily combined with BiLSTM to achieve good performance on benchmark datasets, even better than fancy graph neural network based methods. We have released our code at https://github.com/A ndrewZhe/Three-Sente nces-Are-All-You-Nee d.
翻訳日:2021-06-04 16:15:18 公開日:2021-06-03
# ニューラルネットワークモデルにおける遠方ラベル理論の探求

Exploring Distantly-Labeled Rationales in Neural Network Models ( http://arxiv.org/abs/2106.01809v1 )

ライセンス: Link先を確認
Quzhe Huang, Shengqi Zhu, Yansong Feng, Dongyan Zhao(参考訳) 近年の研究では、モデル性能を改善するために、ニューラルネットワークに様々な人間の合理性を導入しようとしているが、その合理性の品質に注意を払っていない。 既存の手法のほとんどは、モデルの焦点を遠方のラベル付き合理語に完全に均等に分配するが、異なる合理語の重要性を区別せず、潜在的に重要な非合理語を無視する。 本稿では,ラベル付き有理数(PIN)を超えて重要な単語に焦点を絞ることを奨励し,非ヘルパフル有理数(NoIR)に対する冗長な訓練を緩和する2つの新しい補助的損失関数を提案する。 2つの代表的な分類課題に対する実験により,提案手法は,非完全理性から重要な手がかりを効果的に学習し,その焦点を他のラベルのない重要な単語に広げる能力を維持しつつ,既存の手法よりもはるかに優れていることを示す。

Recent studies strive to incorporate various human rationales into neural networks to improve model performance, but few pay attention to the quality of the rationales. Most existing methods distribute their models' focus to distantly-labeled rationale words entirely and equally, while ignoring the potential important non-rationale words and not distinguishing the importance of different rationale words. In this paper, we propose two novel auxiliary loss functions to make better use of distantly-labeled rationales, which encourage models to maintain their focus on important words beyond labeled rationales (PINs) and alleviate redundant training on non-helpful rationales (NoIRs). Experiments on two representative classification tasks show that our proposed methods can push a classification model to effectively learn crucial clues from non-perfect rationales while maintaining the ability to spread its focus to other unlabeled important words, thus significantly outperform existing methods.
翻訳日:2021-06-04 16:15:06 公開日:2021-06-03
# simcls:抽象要約のコントラスト学習のためのシンプルなフレームワーク

SimCLS: A Simple Framework for Contrastive Learning of Abstractive Summarization ( http://arxiv.org/abs/2106.01890v1 )

ライセンス: Link先を確認
Yixin Liu, Pengfei Liu(参考訳) 本稿では,テキスト生成を参照なし評価問題(すなわち,品質推定)として定式化することで,現在支配されているシーケンス・ツー・シーケンス学習フレームワークから得られる学習目標と評価指標のギャップを埋めることのできる,抽象的要約のための概念的単純かつ実証的に強力なフレームワークであるSimCLSを提案する。 実験の結果、既存のトップスコーリングシステムに対して小さな修正を加えることで、simclsは既存のトップスコーリングモデルの性能を大きなマージンで改善できることがわかった。 特に、BARTに対する2.51の絶対的な改善と、CNN/DailyMailデータセット上のPEGASUS w.r.t ROUGE-1に対する2.50の大幅な改善により、最先端のパフォーマンスは新たなレベルに向上した。 私たちはコードと結果をオープンソース化しました。 提案したモデルの結果はExplainaBoardプラットフォームにデプロイされ、研究者はより詳細な方法でシステムを理解することができる。

In this paper, we present a conceptually simple while empirically powerful framework for abstractive summarization, SimCLS, which can bridge the gap between the learning objective and evaluation metrics resulting from the currently dominated sequence-to-sequence learning framework by formulating text generation as a reference-free evaluation problem (i.e., quality estimation) assisted by contrastive learning. Experimental results show that, with minor modification over existing top-scoring systems, SimCLS can improve the performance of existing top-performing models by a large margin. Particularly, 2.51 absolute improvement against BART and 2.50 over PEGASUS w.r.t ROUGE-1 on the CNN/DailyMail dataset, driving the state-of-the-art performance to a new level. We have open-sourced our codes and results: https://github.com/y ixinL7/SimCLS. Results of our proposed models have been deployed into ExplainaBoard platform, which allows researchers to understand our systems in a more fine-grained way.
翻訳日:2021-06-04 16:14:47 公開日:2021-06-03
# 幾何学変換による構文と構成の表現

Representing Syntax and Composition with Geometric Transformations ( http://arxiv.org/abs/2106.01904v1 )

ライセンス: Link先を確認
Lorenzo Bertolini, Julie Weeds, David Weir, Qiwei Peng(参考訳) 単語の文脈としての構文グラフ(SyG)の活用は、個々の単語表現のレベルでの分布意味モデル(DSM)や合成によるフレーズ表現の導出において有用であることが示されている。 しかし,現在提案されている構文的DSMは,性能上のメリットがあるにもかかわらず,膨大な数のパラメータ(従来のDSMと比較して)を持ち,データの疎結合に悩まされている。 さらに、SyGリンクの符号化(つまり、構文関係)は線形写像に大きく制限されている。 一方、知識グラフの文献では、異なる幾何学変換(GT)を用いて知識グラフ(KG)のエッジを符号化する軽量モデルが提案されている。 我々の研究は、SyGをエンコードするためにこのモデルのファミリを採用する可能性を探っている。 さらに,どのgtが統語的関係をより良くエンコードするかを調査し,これらの表現を統語的文脈化を通じて句レベルの構成の強化に利用できることを示す。

The exploitation of syntactic graphs (SyGs) as a word's context has been shown to be beneficial for distributional semantic models (DSMs), both at the level of individual word representations and in deriving phrasal representations via composition. However, notwithstanding the potential performance benefit, the syntactically-aware DSMs proposed to date have huge numbers of parameters (compared to conventional DSMs) and suffer from data sparsity. Furthermore, the encoding of the SyG links (i.e., the syntactic relations) has been largely limited to linear maps. The knowledge graphs' literature, on the other hand, has proposed light-weight models employing different geometric transformations (GTs) to encode edges in a knowledge graph (KG). Our work explores the possibility of adopting this family of models to encode SyGs. Furthermore, we investigate which GT better encodes syntactic relations, so that these representations can be used to enhance phrase-level composition via syntactic contextualisation.
翻訳日:2021-06-04 16:14:25 公開日:2021-06-03
# SOCCER:スポーツ解説領域における情報分散談話状態追跡コレクション

SOCCER: An Information-Sparse Discourse State Tracking Collection in the Sports Commentary Domain ( http://arxiv.org/abs/2106.01972v1 )

ライセンス: Link先を確認
Ruochen Zhang and Carsten Eickhoff(参考訳) 自然言語理解の追求では、物語を通して状態の変化を追跡することに関心が向けられてきた。 トランザクション中心の対話と手続き的テキストの状態のモデリングにおいて、印象的な進展が見られた。 しかし、この問題は、状態の基底的真実記述がゆるやかに定義され、状態変化が発話上での密分布が少なくなる一般的な言説の領域において、あまり研究されていない。 本稿では,スポーツイベントなどの特性を示す,簡易かつ完全に観測可能なシステムを提案する。 チームの得点得点や選手の切り換え、カードによるペナルティなどの個別イベントを伴う、タイムスタンプ付き自然言語解説を含む2,263試合をキュレートした。 そこで本研究では,異なるタイムスタンプでのゲーム解説文を前提として,ゲーム内イベントの発生を認識させるタスクの定式化を提案する。 このドメインは、多くの現実世界の設定の複雑さを避けながら、状態の豊富な記述を可能にする。 性能測定の第一点として, 時間的依存を伴う文分類の観点からの2つの基本手法と, 最先端の既存手法でさえも, 状態の定義が広くなり, 非イベントチャッターが普及する場合に, 状態追跡作業に支障をきたすことを実証する。

In the pursuit of natural language understanding, there has been a long standing interest in tracking state changes throughout narratives. Impressive progress has been made in modeling the state of transaction-centric dialogues and procedural texts. However, this problem has been less intensively studied in the realm of general discourse where ground truth descriptions of states may be loosely defined and state changes are less densely distributed over utterances. This paper proposes to turn to simplified, fully observable systems that show some of these properties: Sports events. We curated 2,263 soccer matches including time-stamped natural language commentary accompanied by discrete events such as a team scoring goals, switching players or being penalized with cards. We propose a new task formulation where, given paragraphs of commentary of a game at different timestamps, the system is asked to recognize the occurrence of in-game events. This domain allows for rich descriptions of state while avoiding the complexities of many other real-world settings. As an initial point of performance measurement, we include two baseline methods from the perspectives of sentence classification with temporal dependence and current state-of-the-art generative model, respectively, and demonstrate that even sophisticated existing methods struggle on the state tracking task when the definition of state broadens or non-event chatter becomes prevalent.
翻訳日:2021-06-04 16:14:08 公開日:2021-06-03
# CCPM:中国の古典詩のマッチングデータセット

CCPM: A Chinese Classical Poetry Matching Dataset ( http://arxiv.org/abs/2106.01979v1 )

ライセンス: Link先を確認
Wenhao Li, Fanchao Qi, Maosong Sun, Xiaoyuan Yi, Jiarui Zhang(参考訳) 詩は人間の言語の最も重要な芸術形式の一つである。 近年、多くの研究は詩のスタイルや感情といった言語的特徴をその理解や生成システムに取り入れることに焦点を当てている。 しかし、詩の意味の理解や評価には焦点が当てられていない。 そこで本研究では,詩のマッチングによるモデルの意味的理解を評価する新しい課題を提案する。 具体的には、漢詩の一行を現代漢訳した4人の候補者の中から1行の漢詩を選ぶ必要がある。 このデータセットを構築するために、まず中国古典詩と現代中国語の翻訳の並列データを得る。 そして,詩コーパスの行を否定的な選択として,類似した詩行を検索する。 Chinese Classical Poetry Matching Dataset (CCPM) と命名し、https://github.com/T HUNLP-AIPoet/CCPMでリリースします。 このデータセットが、中国の古典詩の理解と生成システムに深い意味を組み込む研究をさらに強化できることを願っている。 また、このデータセットのベースラインとして、このデータセット上で2つのBERTの変種を予め実行しています。

Poetry is one of the most important art forms of human languages. Recently many studies have focused on incorporating some linguistic features of poetry, such as style and sentiment, into its understanding or generation system. However, there is no focus on understanding or evaluating the semantics of poetry. Therefore, we propose a novel task to assess a model's semantic understanding of poetry by poem matching. Specifically, this task requires the model to select one line of Chinese classical poetry among four candidates according to the modern Chinese translation of a line of poetry. To construct this dataset, we first obtain a set of parallel data of Chinese classical poetry and modern Chinese translation. Then we retrieve similar lines of poetry with the lines in a poetry corpus as negative choices. We name the dataset Chinese Classical Poetry Matching Dataset (CCPM) and release it at https://github.com/T HUNLP-AIPoet/CCPM. We hope this dataset can further enhance the study on incorporating deep semantics into the understanding and generation system of Chinese classical poetry. We also preliminarily run two variants of BERT on this dataset as the baselines for this dataset.
翻訳日:2021-06-04 16:13:43 公開日:2021-06-03
# twitter感情分析のためのスペイン語テキスト変換の事例研究

A Case Study of Spanish Text Transformations for Twitter Sentiment Analysis ( http://arxiv.org/abs/2106.02009v1 )

ライセンス: Link先を確認
Eric S. Tellez, Sabino Miranda-Jim\'enez, Mario Graff, Daniela Moctezuma, Oscar S. Siodia, and Elio A. Villase\~nor(参考訳) 感性分析は、与えられたテキストの極性、すなわちその正性または負性を決定するテキストマイニングタスクである。 近年、マイクロブログプラットフォームにおける意見マイニングへの関心から、多くの注目を集めている。 これらの新しい形態のテキスト表現は、スラング、正書法、文法的誤りなどを用いてテキストを解析する新たな課題を示す。 これらの課題に加えて、実用的な感情分類器は、効率的な大規模ワークロードを扱えるべきである。 本研究の目的は、どのテキスト変換(文法化、ステーミング、エンティティ除去など)、トークン化器(例えば、$n$-grams)、トークン重み付けスキームがスペインの2つのコーパスで訓練された分類器(Support Vector Machine)の精度に最も影響を与えるかを特定することである。 使用する手法は、テキスト変換とそれらのパラメータのすべての組み合わせを徹底的に分析し、最もパフォーマンスの高い分類器が共通する特徴を見つけることである。 さらに、研究されている異なるテキスト変換のうち、単語ベースの$n$-gramと文字ベースの$q$-gramの組み合わせに基づく新しいアプローチを導入する。 この新たな単語と文字の組み合わせは、INEGIデータセットとTASS'15データセットにおいて、従来の単語ベースの組み合わせをそれぞれ11.17\%$と5.62\%$で上回る分類器を生成することを示す。

Sentiment analysis is a text mining task that determines the polarity of a given text, i.e., its positiveness or negativeness. Recently, it has received a lot of attention given the interest in opinion mining in micro-blogging platforms. These new forms of textual expressions present new challenges to analyze text given the use of slang, orthographic and grammatical errors, among others. Along with these challenges, a practical sentiment classifier should be able to handle efficiently large workloads. The aim of this research is to identify which text transformations (lemmatization, stemming, entity removal, among others), tokenizers (e.g., words $n$-grams), and tokens weighting schemes impact the most the accuracy of a classifier (Support Vector Machine) trained on two Spanish corpus. The methodology used is to exhaustively analyze all the combinations of the text transformations and their respective parameters to find out which characteristics the best performing classifiers have in common. Furthermore, among the different text transformations studied, we introduce a novel approach based on the combination of word based $n$-grams and character based $q$-grams. The results show that this novel combination of words and characters produces a classifier that outperforms the traditional word based combination by $11.17\%$ and $5.62\%$ on the INEGI and TASS'15 dataset, respectively.
翻訳日:2021-06-04 16:13:26 公開日:2021-06-03
# angry birdsにおける偽装レベル生成

Deceptive Level Generation for Angry Birds ( http://arxiv.org/abs/2106.01639v1 )

ライセンス: Link先を確認
Chathura Gamage, Matthew Stephenson, Vimukthini Pinto, Jochen Renz(参考訳) Angry Birds AIコンペティションは、Angry Birdsのゲームレベルを人間プレイヤーより良くプレイできるAIエージェントの開発を促進するために、長年にわたって開催されてきた。 様々なアプローチの様々なエージェントが、この課題を解決するために競技会の生涯にわたって採用されてきた。 ここ数年でこれらのエージェントの性能は著しく向上したが, 相変わらず, 偽装レベルが著しく低下している。 これは、現在のエージェントのほとんどは、効果的なショットシーケンスを計画するのではなく、次のショットを識別しようとするからです。 そこで,このようなエージェントの進歩を促進するために,angry birdsの欺きゲームレベルを自動生成する手法を提案する。 Angry Birdsには既存のコンテンツジェネレータが数多く存在するが、偽造レベルの生成には重点を置いていない。 本稿では,aiエージェントを演じている鳥を騙す6つの偽装カテゴリに対して,偽装レベルを生成する手法を提案する。 以上の結果から, 生成した偽装レベルは, 人工偽装レベルと類似した特徴を示すことが示された。 さらに、生成したレベルの安定性、可解性、および偽りの程度を測定するためのメトリクスを定義します。

The Angry Birds AI competition has been held over many years to encourage the development of AI agents that can play Angry Birds game levels better than human players. Many different agents with various approaches have been employed over the competition's lifetime to solve this task. Even though the performance of these agents has increased significantly over the past few years, they still show major drawbacks in playing deceptive levels. This is because most of the current agents try to identify the best next shot rather than planning an effective sequence of shots. In order to encourage advancements in such agents, we present an automated methodology to generate deceptive game levels for Angry Birds. Even though there are many existing content generators for Angry Birds, they do not focus on generating deceptive levels. In this paper, we propose a procedure to generate deceptive levels for six deception categories that can fool the state-of-the-art Angry Birds playing AI agents. Our results show that generated deceptive levels exhibit similar characteristics of human-created deceptive levels. Additionally, we define metrics to measure the stability, solvability, and degree of deception of the generated levels.
翻訳日:2021-06-04 16:12:47 公開日:2021-06-03
# AliCG:Alibabaのセマンティック検索のための微細で進化可能な概念グラフ構築

AliCG: Fine-grained and Evolvable Conceptual Graph Construction for Semantic Search at Alibaba ( http://arxiv.org/abs/2106.01686v1 )

ライセンス: Link先を確認
Ningyu Zhang, Qianghuai Jia, Shumin Deng, Xiang Chen, Hongbin Ye, Hui Chen, Huaixiao Tou, Gang Huang, Zhao Wang, Nengwei Hua, Huajun Chen(参考訳) 概念グラフは、特定のタイプの知識グラフであり、意味探索において重要な役割を果たす。 従来の概念グラフ構築アプローチは、通常、形式テキストから高頻度、粗い粒度、時間不変の概念を抽出する。 しかし、実際の応用では、低頻度できめ細かな概念知識を抽出し、進化的に分類学を構築する必要がある。 本稿では,Alibabaにおける概念グラフの実装と展開に関するアプローチを紹介する。 具体的には,a)新しいアライメントコンセンサスアプローチによるブートストラップによるきめ細かい概念抽出,b)新しい低リソース句マイニング手法によるロングテール概念のマイニング,c)暗黙的および明示的なユーザ行動に基づく概念分布推定手法を用いて動的にグラフを更新可能なalcgというフレームワークを提案する。 Alibaba UC Browserでこのフレームワークをデプロイしました。 大規模なオフライン評価とオンラインA/Bテストは,我々のアプローチの有効性を示す。

Conceptual graphs, which is a particular type of Knowledge Graphs, play an essential role in semantic search. Prior conceptual graph construction approaches typically extract high-frequent, coarse-grained, and time-invariant concepts from formal texts. In real applications, however, it is necessary to extract less-frequent, fine-grained, and time-varying conceptual knowledge and build taxonomy in an evolving manner. In this paper, we introduce an approach to implementing and deploying the conceptual graph at Alibaba. Specifically, We propose a framework called AliCG which is capable of a) extracting fine-grained concepts by a novel bootstrapping with alignment consensus approach, b) mining long-tail concepts with a novel low-resource phrase mining approach, c) updating the graph dynamically via a concept distribution estimation method based on implicit and explicit user behaviors. We have deployed the framework at Alibaba UC Browser. Extensive offline evaluation as well as online A/B testing demonstrate the efficacy of our approach.
翻訳日:2021-06-04 16:12:28 公開日:2021-06-03
# 個人対関節知覚:コミュニケーション・スミソニアン支援としてのポインティングの実用的モデル

Individual vs. Joint Perception: a Pragmatic Model of Pointing as Communicative Smithian Helping ( http://arxiv.org/abs/2106.02003v1 )

ライセンス: Link先を確認
Kaiwen Jiang, Stephanie Stacy, Chuyu Wei, Adelpha Chan, Federico Rossano, Yixin Zhu, Tao Gao(参考訳) ポインティングの単純なジェスチャーは、観察に基づいて世界の状態を理解する能力を大きく増やすことができる。 開発中のタスクに関連する追加の推論をトリガーする。 我々は、観察によって形成された信念に従って合理的に行動する方法を主流の人工知能(AI)モデルである、部分的に観測可能なマルコフ決定プロセス(POMDP)を用いて、個々の観察に基づいて世界に対する信念を更新するエージェントをモデル化する。 その上で,注意深い観察が適切かつ解釈可能であることを相互に理解しているエージェント間のコミュニケーション行為として,指し示すことをモデルとした。 本モデルは,ポジショニングの前後におけるpomdpエージェントの効用改善として,情報スミソニアン値(svi)を定義して妥当性を測定する。 エージェントがSmithianの認知理論を用いてSVIを計算し、行動予測と行動評価のための別々の信念を協調する原理をモデル化する。 次に、音声の効用関数としてSVIを有理音声行為(RSA)にインポートする。 これらは、文脈的に柔軟な解釈を可能にする、ポインティングの実用的モデルへとつながります。 ハンターが世界の部分的可観測性だけを持つモンスターを狩る古典的なaiタスクであるwunpus worldを拡張して、スミソニアンポインティングモデルの力を実証する。 我々は,他のエージェントをガイドとして追加し,ハンターが認識している観察を,新たな観察を提供したり,道具的助けを提供することなく,指さすかしないかでマークする。 以上の結果から,この過負荷通信はハンターの性能を著しく向上させることが明らかとなった。 指さすことの利点は、スミソニアン支援に基づく関連性の計算であり、タスクが難しすぎるか、ガイドが助けるには難しすぎると完全に消えてしまうからである。

The simple gesture of pointing can greatly augment ones ability to comprehend states of the world based on observations. It triggers additional inferences relevant to ones task at hand. We model an agents update to its belief of the world based on individual observations using a partially observable Markov decision process (POMDP), a mainstream artificial intelligence (AI) model of how to act rationally according to beliefs formed through observation. On top of that, we model pointing as a communicative act between agents who have a mutual understanding that the pointed observation must be relevant and interpretable. Our model measures relevance by defining a Smithian Value of Information (SVI) as the utility improvement of the POMDP agent before and after receiving the pointing. We model that agents calculate SVI by using the cognitive theory of Smithian helping as a principle of coordinating separate beliefs for action prediction and action evaluation. We then import SVI into rational speech act (RSA) as the utility function of an utterance. These lead us to a pragmatic model of pointing allowing for contextually flexible interpretations. We demonstrate the power of our Smithian pointing model by extending the Wumpus world, a classic AI task where a hunter hunts a monster with only partial observability of the world. We add another agent as a guide who can only help by marking an observation already perceived by the hunter with a pointing or not, without providing new observations or offering any instrumental help. Our results show that this severely limited and overloaded communication nevertheless significantly improves the hunters performance. The advantage of pointing is indeed due to a computation of relevance based on Smithian helping, as it disappears completely when the task is too difficult or too easy for the guide to help.
翻訳日:2021-06-04 16:12:08 公開日:2021-06-03
# ノイズは嘘ではない:深層塗装の普遍的検出に向けて

Noise Doesn't Lie: Towards Universal Detection of Deep Inpainting ( http://arxiv.org/abs/2106.01532v1 )

ライセンス: Link先を確認
Ang Li, Qiuhong Ke, Xingjun Ma, Haiqin Weng, Zhiyuan Zong, Feng Xue, Rui Zhang(参考訳) 深部イメージインペインティングは、リアルな内容のイメージの損傷や欠落した領域を復元することを目的としている。 オブジェクトの削除や画像の復元といった幅広いアプリケーションを持つ一方で、深い塗り込み技術は、画像偽造のために操作されるリスクも持つ。 このような偽造に対して有望な対策は、画像中の塗装された領域を見つけることを目的とした深い塗装検出である。 本稿では,ディープインパインティングの普遍的検出に向けた最初の試みとして,異なるディープインパインティング方法を検出する際に,検出ネットワークがうまく一般化できる方法を提案する。 この目的のために,まず,実画像と塗布画像のノイズの相違を模倣し,ユニバーサルディテクターを訓練するユニバーサルトレーニングデータセットを作成する新しいデータ生成手法を提案する。 次に,ノイズ画像クロスフュージョンネットワーク(nix-net)を設計し,画像と雑音パターンの両方に含まれる識別情報を効果的に活用する。 複数のベンチマークデータセットにおいて,提案手法が既存の検出手法を大きなマージンで上回り,未発見の深層塗装技術に十分一般化していることを実証的に示す。 当社のユニバーサルトレーニングデータセットは,既存の検出方法の一般化性を大幅に向上させる可能性もあります。

Deep image inpainting aims to restore damaged or missing regions in an image with realistic contents. While having a wide range of applications such as object removal and image recovery, deep inpainting techniques also have the risk of being manipulated for image forgery. A promising countermeasure against such forgeries is deep inpainting detection, which aims to locate the inpainted regions in an image. In this paper, we make the first attempt towards universal detection of deep inpainting, where the detection network can generalize well when detecting different deep inpainting methods. To this end, we first propose a novel data generation approach to generate a universal training dataset, which imitates the noise discrepancies exist in real versus inpainted image contents to train universal detectors. We then design a Noise-Image Cross-fusion Network (NIX-Net) to effectively exploit the discriminative information contained in both the images and their noise patterns. We empirically show, on multiple benchmark datasets, that our approach outperforms existing detection methods by a large margin and generalize well to unseen deep inpainting techniques. Our universal training dataset can also significantly boost the generalizability of existing detection methods.
翻訳日:2021-06-04 16:10:38 公開日:2021-06-03
# CT-Net:ビデオ分類のためのチャネルテンソル化ネットワーク

CT-Net: Channel Tensorization Network for Video Classification ( http://arxiv.org/abs/2106.01603v1 )

ライセンス: Link先を確認
Kunchang Li, Xianhang Li, Yali Wang, Jun Wang and Yu Qiao(参考訳) 3次元畳み込みはビデオの分類には強力であるが、計算コストが高いことが多い。 残念なことに、ほとんどのアプローチは畳み込み効率と機能-相互作用の十分性の間の望ましいバランスを達成できていない。 そこで我々は,入力特徴のチャネル次元をK部分次元の乗算として扱うことで,簡潔で斬新なチャネルテンソル化ネットワーク(CT-Net)を提案する。 一方、畳み込みは自然に多次元的に分解され、光計算の負担となる。 一方、異なるチャネルからの特徴的相互作用を効果的に強化し、そのような相互作用の3次元受容場を段階的に拡大し、分類精度を高めることができる。 さらに,CT-Module に Tensor Excitation (TE) 機構を装着した。 空間的,時間的,チャネル的注意を高次元的に活用し,CT-モジュールのすべての特徴次元の協調力を向上することができる。 最後に,ResNetをCT-Netとして柔軟に適用する。 大規模な実験は、Kinetics-400、Something V1、V2など、いくつかの挑戦的なビデオベンチマークで行われている。 我々のCT-Netは、精度や効率の点で、最近のSOTAアプローチよりも優れています。 コードとモデルはhttps://github.com/A ndy1621/CT-Netで入手できる。

3D convolution is powerful for video classification but often computationally expensive, recent studies mainly focus on decomposing it on spatial-temporal and/or channel dimensions. Unfortunately, most approaches fail to achieve a preferable balance between convolutional efficiency and feature-interaction sufficiency. For this reason, we propose a concise and novel Channel Tensorization Network (CT-Net), by treating the channel dimension of input feature as a multiplication of K sub-dimensions. On one hand, it naturally factorizes convolution in a multiple dimension way, leading to a light computation burden. On the other hand, it can effectively enhance feature interaction from different channels, and progressively enlarge the 3D receptive field of such interaction to boost classification accuracy. Furthermore, we equip our CT-Module with a Tensor Excitation (TE) mechanism. It can learn to exploit spatial, temporal and channel attention in a high-dimensional manner, to improve the cooperative power of all the feature dimensions in our CT-Module. Finally, we flexibly adapt ResNet as our CT-Net. Extensive experiments are conducted on several challenging video benchmarks, e.g., Kinetics-400, Something-Something V1 and V2. Our CT-Net outperforms a number of recent SOTA approaches, in terms of accuracy and/or efficiency. The codes and models will be available on https://github.com/A ndy1621/CT-Net.
翻訳日:2021-06-04 16:10:14 公開日:2021-06-03
# アンカーフリーオブジェクト検出のための転送可能逆例

Transferable Adversarial Examples for Anchor Free Object Detection ( http://arxiv.org/abs/2106.01618v1 )

ライセンス: Link先を確認
Quanyu Liao, Xin Wang, Bin Kong, Siwei Lyu, Bin Zhu, Youbing Yin, Qi Song, Xi Wu(参考訳) 深いニューラルネットワークは敵の攻撃に弱いことが示されており、微妙な摂動は予測結果を完全に変える可能性がある。 この脆弱性は、オブジェクト検出ネットワークに対する敵意攻撃を含む、この方向の研究の急増につながった。 しかし、以前の研究はアンカーベースの物体検出器を攻撃することに専念している。 本稿では,アンカーフリー物体検出器に対する最初の対向攻撃を示す。 それまでのインスタンスワイドではなくカテゴリワイズでオブジェクト検出器を攻撃し、高レベルのセマンティック情報を活用して転送可能な敵の例を効率的に生成し、Faster R-CNNのようなアンカーベースの検出器でも他のオブジェクト検出器を攻撃できる。 2つのベンチマークデータセットによる実験結果から,提案手法が最先端の性能と伝達性を実現することを示す。

Deep neural networks have been demonstrated to be vulnerable to adversarial attacks: subtle perturbation can completely change prediction result. The vulnerability has led to a surge of research in this direction, including adversarial attacks on object detection networks. However, previous studies are dedicated to attacking anchor-based object detectors. In this paper, we present the first adversarial attack on anchor-free object detectors. It conducts category-wise, instead of previously instance-wise, attacks on object detectors, and leverages high-level semantic information to efficiently generate transferable adversarial examples, which can also be transferred to attack other object detectors, even anchor-based detectors such as Faster R-CNN. Experimental results on two benchmark datasets demonstrate that our proposed method achieves state-of-the-art performance and transferability.
翻訳日:2021-06-04 16:09:52 公開日:2021-06-03
# semantic palette: クラス比率によるシーン生成の指導

Semantic Palette: Guiding Scene Generation with Class Proportions ( http://arxiv.org/abs/2106.01629v1 )

ライセンス: Link先を確認
Guillaume Le Moing and Tuan-Hung Vu and Himalaya Jain and Patrick P\'erez and Matthieu Cord(参考訳) 画像合成におけるgans(generative adversarial networks)の進歩にもかかわらず、複雑な都市シーンの制作は依然として困難な課題である。 以前の作品はシーン生成を無条件意味レイアウト合成とレイアウトを条件とした画像合成という2つの段階に分けている。 本研究では,クラス比のベクトルが与えられた場合,一致した構成のレイアウトを生成することを目的として,条件レイアウト生成と,より高度な意味制御を提案する。 そこで本研究では,クラスの割合を効果的に調整し,シーン生成プロセスの指導を行う,新しいアーキテクチャ設計と学習目標を備えた条件付きフレームワークを提案する。 提案アーキテクチャでは、興味深いアプリケーションによる部分的なレイアウト編集も可能である。 セマンティックコントロールのおかげで、実際のディストリビューションに近いレイアウトを作成でき、シーン生成プロセス全体の強化に役立ちます。 異なるメトリクスと都市シーンベンチマークでは、私たちのモデルは既存のベースラインよりも優れています。 実際のレイアウトとイメージのペアでトレーニングされたセマンティックセグメンタと、実際のペアでトレーニングされたモデルよりも優れたアプローチによって生成された追加のセグメンタです。

Despite the recent progress of generative adversarial networks (GANs) at synthesizing photo-realistic images, producing complex urban scenes remains a challenging problem. Previous works break down scene generation into two consecutive phases: unconditional semantic layout synthesis and image synthesis conditioned on layouts. In this work, we propose to condition layout generation as well for higher semantic control: given a vector of class proportions, we generate layouts with matching composition. To this end, we introduce a conditional framework with novel architecture designs and learning objectives, which effectively accommodates class proportions to guide the scene generation process. The proposed architecture also allows partial layout editing with interesting applications. Thanks to the semantic control, we can produce layouts close to the real distribution, helping enhance the whole scene generation process. On different metrics and urban scene benchmarks, our models outperform existing baselines. Moreover, we demonstrate the merit of our approach for data augmentation: semantic segmenters trained on real layout-image pairs along with additional ones generated by our approach outperform models only trained on real pairs.
翻訳日:2021-06-04 16:09:38 公開日:2021-06-03
# 一般化ドメイン適応

Generalized Domain Adaptation ( http://arxiv.org/abs/2106.01656v1 )

ライセンス: Link先を確認
Yu Mitsuzumi, Go Irie, Daiki Ikami and Takashi Shibata(参考訳) unsupervised domain adaptation (uda) 問題の多くの変種が提案され、個別に解決されている。 その副作用として、ある変種に対して作用する手法は、他の変種にも適用できない場合が多く、実用的応用を妨げている。 本稿では,一般領域適応 (Generalized Domain Adaptation, GDA) と呼ばれる UDA 問題の一般的な表現について述べる。 gdaは、包括的なフレームワークでそれらを整理できる特別なケースとして、主要な変種をカバーしています。 さらに、この一般化は、ドメインラベルが不明な場合や、クラスラベルが各ドメインに部分的にのみ与えられる場合など、既存のメソッドが失敗する、新たな困難な設定につながる。 我々は新しい設定に対する新しいアプローチを提案する。 提案手法の鍵となるのは自己教師型クラス破壊学習であり,ドメインラベルを使わずに,クラス不変表現とドメイン逆分類器の学習を可能にする。 3つのベンチマークデータセットを用いた大規模な実験により、我々の手法は、新しい環境での最先端の UDA 手法よりも優れており、既存の UDA のバリエーションにも競合することを示した。

Many variants of unsupervised domain adaptation (UDA) problems have been proposed and solved individually. Its side effect is that a method that works for one variant is often ineffective for or not even applicable to another, which has prevented practical applications. In this paper, we give a general representation of UDA problems, named Generalized Domain Adaptation (GDA). GDA covers the major variants as special cases, which allows us to organize them in a comprehensive framework. Moreover, this generalization leads to a new challenging setting where existing methods fail, such as when domain labels are unknown, and class labels are only partially given to each domain. We propose a novel approach to the new setting. The key to our approach is self-supervised class-destructive learning, which enables the learning of class-invariant representations and domain-adversarial classifiers without using any domain labels. Extensive experiments using three benchmark datasets demonstrate that our method outperforms the state-of-the-art UDA methods in the new setting and that it is competitive in existing UDA variations as well.
翻訳日:2021-06-04 16:09:21 公開日:2021-06-03
# APES:未公開動画の人物検索

APES: Audiovisual Person Search in Untrimmed Video ( http://arxiv.org/abs/2106.01667v1 )

ライセンス: Link先を確認
Juan Leon Alcazar, Long Mai, Federico Perazzi, Joon-Young Lee, Pablo Arbelaez, Bernard Ghanem, and Fabian Caba Heilbron(参考訳) 人間はビデオストリームにおいて最も重要な主題の1つであり、ビデオ要約やビデオ編集ワークフローのような現実世界のアプリケーションの多くは、しばしば興味のある人の自動検索と検索を必要としている。 個人認証や検索分野における多大な努力にもかかわらず、オーディオビジュアル検索戦略を開発した作品はほとんどない。 本稿では,音声(音声)と視覚(顔)ストリームが密に注釈付けされた非トリミング映像からなる新しいデータセットであるaudio visual person search dataset (apes)を提案する。 APESには36時間の動画にラベル付けされた1,9K以上のIDが含まれており、未編集の人物検索で利用できる最大のデータセットとなっている。 APESの重要な特徴は、顔と同一アイデンティティの音声セグメントをリンクする密集した時間アノテーションを含むことである。 新たなデータセットの可能性を示すために,人物検索のための音声ビジュアルベースラインとベンチマークを提案する。 本研究は,視覚的手がかりのモデル化が人々のアイデンティティの認識に有効であることを示す。 再現性を有効にし、将来の研究を促進するため、データセットアノテーションとベースラインコードは以下の通りである。

Humans are arguably one of the most important subjects in video streams, many real-world applications such as video summarization or video editing workflows often require the automatic search and retrieval of a person of interest. Despite tremendous efforts in the person reidentification and retrieval domains, few works have developed audiovisual search strategies. In this paper, we present the Audiovisual Person Search dataset (APES), a new dataset composed of untrimmed videos whose audio (voices) and visual (faces) streams are densely annotated. APES contains over 1.9K identities labeled along 36 hours of video, making it the largest dataset available for untrimmed audiovisual person search. A key property of APES is that it includes dense temporal annotations that link faces to speech segments of the same identity. To showcase the potential of our new dataset, we propose an audiovisual baseline and benchmark for person retrieval. Our study shows that modeling audiovisual cues benefits the recognition of people's identities. To enable reproducibility and promote future research, the dataset annotations and baseline code are available at: https://github.com/f uankarion/audiovisua l-person-search
翻訳日:2021-06-04 16:09:01 公開日:2021-06-03
# 相対ノルムアライメントを用いたクロスドメインファーストパーソン音声・視覚行動認識

Cross-Domain First Person Audio-Visual Action Recognition through Relative Norm Alignment ( http://arxiv.org/abs/2106.01689v1 )

ライセンス: Link先を確認
Mirco Planamente, Chiara Plizzari, Emanuele Alberti, Barbara Caputo(参考訳) first person action recognitionは、ウェアラブルカメラの人気が高まっているため、ますます研究されているトピックである。 これは、この文脈でまだ解決されていない、軽いドメイン横断の問題をもたらします。 実際、学習した表現から抽出された情報には固有の環境バイアスが伴う。 これは、未確認のシナリオに一般化する能力に強く影響し、トレーニング中にトリミングされたラベル付きデータが利用できない実環境における現在のメソッドの適用を制限する。 そこで本研究では,音声・視覚信号の包括的相補的性質を克服し,異なる領域にまたがる一般化が可能でありながら,訓練中のデータによく適合する表現を学習することを提案する。 この目的のために,2つのモダリティからのコントリビューションを,特徴ノルム表現の大きさに基づいて調整する音声視覚損失を導入する。 この新たな損失は、最小のマルチモーダルアクション認識アーキテクチャにプラグインされ、人気の高いepic-kitchensデータセットの広範な実験で示されているように、クロスドメインファーストパーソンアクション認識に強力な結果をもたらす。

First person action recognition is an increasingly researched topic because of the growing popularity of wearable cameras. This is bringing to light cross-domain issues that are yet to be addressed in this context. Indeed, the information extracted from learned representations suffers from an intrinsic environmental bias. This strongly affects the ability to generalize to unseen scenarios, limiting the application of current methods in real settings where trimmed labeled data are not available during training. In this work, we propose to leverage over the intrinsic complementary nature of audio-visual signals to learn a representation that works well on data seen during training, while being able to generalize across different domains. To this end, we introduce an audio-visual loss that aligns the contributions from the two modalities by acting on the magnitude of their feature norm representations. This new loss, plugged into a minimal multi-modal action recognition architecture, leads to strong results in cross-domain first person action recognition, as demonstrated by extensive experiments on the popular EPIC-Kitchens dataset.
翻訳日:2021-06-04 16:08:40 公開日:2021-06-03
# 意味セグメンテーションのためのクロススケール画素間関係演算によるマルチスケール特徴の集約

Multi-Scale Feature Aggregation by Cross-Scale Pixel-to-Region Relation Operation for Semantic Segmentation ( http://arxiv.org/abs/2106.01744v1 )

ライセンス: Link先を確認
Yechao Bai, Ziyuan Huang, Lyuyu Shen, Hongliang Guo, Marcelo H. Ang Jr and Daniela Rus(参考訳) マルチスケール機能の爆発はセマンティックセグメンテーション問題に対処する大きな可能性を示している。 集約は通常、和または結合(concat)で行われ、続いて畳み込み(conv)層が続く。 しかし、その相互関係を考慮せずに、ハイレベルなコンテキストを次の階層に完全に継承する。 本研究では,隣接する高次特徴写像からの補的コンテキストを,クロススケールな画素間関係演算により集約することを目的とする。 我々は、高解像度の低レベル機能でも長距離依存性を許容できるように、クロススケールなコンテキスト伝搬を活用している。 この目的のために,マルチスケール機能を得るために,効率的な特徴ピラミッドネットワークを用いる。 本稿では,文脈抽出と伝達のための関係意味抽出器(rse)と関係意味伝達器(rsp)を提案する。 次に、複数のRSPをRSPヘッドに積み重ねて、コンテキストのプログレッシブなトップダウン分布を実現する。 CityscapesとCOCOの2つの挑戦的データセットの実験結果から,RCPヘッドはセマンティックセグメンテーションとパン光学セグメンテーションの両方で高い効率で競争力を発揮することが示された。 セマンティックセグメンテーションタスクでは、deeplabv3 [1]を0.7%上回り、フロップ(複数追加)は75%少ない。

Exploiting multi-scale features has shown great potential in tackling semantic segmentation problems. The aggregation is commonly done with sum or concatenation (concat) followed by convolutional (conv) layers. However, it fully passes down the high-level context to the following hierarchy without considering their interrelation. In this work, we aim to enable the low-level feature to aggregate the complementary context from adjacent high-level feature maps by a cross-scale pixel-to-region relation operation. We leverage cross-scale context propagation to make the long-range dependency capturable even by the high-resolution low-level features. To this end, we employ an efficient feature pyramid network to obtain multi-scale features. We propose a Relational Semantics Extractor (RSE) and Relational Semantics Propagator (RSP) for context extraction and propagation respectively. Then we stack several RSP into an RSP head to achieve the progressive top-down distribution of the context. Experiment results on two challenging datasets Cityscapes and COCO demonstrate that the RSP head performs competitively on both semantic segmentation and panoptic segmentation with high efficiency. It outperforms DeeplabV3 [1] by 0.7% with 75% fewer FLOPs (multiply-adds) in the semantic segmentation task.
翻訳日:2021-06-04 16:08:21 公開日:2021-06-03
# less is more: 密集した反応予測のためのスパースサンプリング

Less is More: Sparse Sampling for Dense Reaction Predictions ( http://arxiv.org/abs/2106.01764v1 )

ライセンス: Link先を確認
Kezhou Lin and Xiaohan Wang and Zhedong Zheng and Linchao Zhu and Yi Yang(参考訳) ビデオから視聴者の反応を確認することは、クリエイターやストリーミングプラットフォームがビデオのパフォーマンスを分析し、将来のユーザー体験を改善するのに役立つ。 本報告では,ビデオチャレンジから2021年の表現を誘発する手法を提案する。 特に,音声と画像のモダリティを入力として利用し,視聴者の感情変化を予測する。 長距離感情変化をモデル化するために、GRUモデルを用いて1Hzのスパース信号を予測する。 私たちは感情の変化がスムーズであることを観察する。 したがって、最終的な密度予測は、予測変動に頑健な信号の線形補間によって得られる。 単純ではあるが,提案手法は最終プライベートテストセットにおいてピアソンの相関スコア0.04430を達成した。

Obtaining viewer responses from videos can be useful for creators and streaming platforms to analyze the video performance and improve the future user experience. In this report, we present our method for 2021 Evoked Expression from Videos Challenge. In particular, our model utilizes both audio and image modalities as inputs to predict emotion changes of viewers. To model long-range emotion changes, we use a GRU-based model to predict one sparse signal with 1Hz. We observe that the emotion changes are smooth. Therefore, the final dense prediction is obtained via linear interpolating the signal, which is robust to the prediction fluctuation. Albeit simple, the proposed method has achieved pearson's correlation score of 0.04430 on the final private test set.
翻訳日:2021-06-04 16:08:00 公開日:2021-06-03
# 微小物体画像データセットにおけるディープラーニング分類法の反雑音ロバスト性の比較--畳み込みニューラルネットワークから視覚トランスフォーマおよび演奏者へ

A Comparison for Anti-noise Robustness of Deep Learning Classification Methods on a Tiny Object Image Dataset: from Convolutional Neural Network to Visual Transformer and Performer ( http://arxiv.org/abs/2106.01927v1 )

ライセンス: Link先を確認
Ao Chen, Chen Li, Haoyuan Chen, Hechen Yang, Peng Zhao, Weiming Hu, Wanli Liu, Shuojia Zou, and Marcin Grzegorzek(参考訳) 画像分類は、ディープラーニングの急速な発展で前例のない進歩を遂げた。 しかし,小物体画像の分類は未だ十分に検討されていない。 本稿では,まず,深層学習における畳み込みニューラルネットワークと視覚トランスフォーマの開発を概観し,従来のノイズや敵対的攻撃の発生源と開発について紹介する。 次に、畳み込みニューラルネットワークと視覚トランスフォーマーの様々なモデルを用いて、微小物体の画像データセット(スパームと不純物)の一連の実験を行い、実験結果における様々な評価指標を比較して、安定したモデルを得る。 最後に, 微小物体の分類における問題点について考察し, 将来, 微小物体の分類の可能性について考察する。

Image classification has achieved unprecedented advance with the the rapid development of deep learning. However, the classification of tiny object images is still not well investigated. In this paper, we first briefly review the development of Convolutional Neural Network and Visual Transformer in deep learning, and introduce the sources and development of conventional noises and adversarial attacks. Then we use various models of Convolutional Neural Network and Visual Transformer to conduct a series of experiments on the image dataset of tiny objects (sperms and impurities), and compare various evaluation metrics in the experimental results to obtain a model with stable performance. Finally, we discuss the problems in the classification of tiny objects and make a prospect for the classification of tiny objects in the future.
翻訳日:2021-06-04 16:07:26 公開日:2021-06-03
# ウェーブレット分解を用いた単一画像深度推定

Single Image Depth Estimation using Wavelet Decomposition ( http://arxiv.org/abs/2106.02022v1 )

ライセンス: Link先を確認
Micha\"el Ramamonjisoa and Michael Firman and Jamie Watson and Vincent Lepetit and Daniyar Turmukhambetov(参考訳) 単眼画像から精度の高い深度を高効率で予測する新しい手法を提案する。 この最適効率はウェーブレット分解を利用して達成され、完全に微分可能なエンコーダデコーダアーキテクチャに統合される。 スパースウェーブレット係数を予測して高忠実度深度マップを再構成できることを実証する。 従来の研究とは対照的に、ウェーブレット係数は係数を直接監視することなく学習できることを示した。 代わりに、逆ウェーブレット変換によって再構成される最後の深度画像のみを監督する。 さらに, ウェーブレット係数は, 地中深度を使わずに, 完全に自己教師ありのシナリオで学習できることを示した。 最後に,本手法を,デコーダネットワークの乗算加算を半分以下に抑えながら,従来のモデルとよく似た,あるいはより良い結果が得られるような,最先端の単分子深度推定モデルに適用する。 code at https://github.com/n ianticlabs/wavelet-m onodepth

We present a novel method for predicting accurate depths from monocular images with high efficiency. This optimal efficiency is achieved by exploiting wavelet decomposition, which is integrated in a fully differentiable encoder-decoder architecture. We demonstrate that we can reconstruct high-fidelity depth maps by predicting sparse wavelet coefficients. In contrast with previous works, we show that wavelet coefficients can be learned without direct supervision on coefficients. Instead we supervise only the final depth image that is reconstructed through the inverse wavelet transform. We additionally show that wavelet coefficients can be learned in fully self-supervised scenarios, without access to ground-truth depth. Finally, we apply our method to different state-of-the-art monocular depth estimation models, in each case giving similar or better results compared to the original model, while requiring less than half the multiply-adds in the decoder network. Code at https://github.com/n ianticlabs/wavelet-m onodepth
翻訳日:2021-06-04 16:07:10 公開日:2021-06-03
# CitationIE:科学情報抽出のためのCitation Graphの活用

CitationIE: Leveraging the Citation Graph for Scientific Information Extraction ( http://arxiv.org/abs/2106.01560v1 )

ライセンス: Link先を確認
Vijay Viswanathan, Graham Neubig, Pengfei Liu(参考訳) 科学的文書から重要な情報を自動抽出することは、科学者がより効率的に働き、科学的進歩のペースを加速するのに役立つ可能性がある。 先行研究は、文書レベルのエンティティクラスタと関係を原文から端から端まで抽出することを検討しており、文学検索を改善し、特定の問題の方法や資料を特定するのに役立つ。 この課題の重要性にもかかわらず、科学情報抽出(SciIE)に関する既存の研究の多くは、論文の広い文献における位置づけを考慮せずに、個々の論文の内容にのみ基づく抽出を検討する。 先行研究とは対照的に,文書コンテキストの補完的情報源である引用と引用間の参照リンクの引用グラフを利用することで,テキスト表現を増強する。 英文科学文書のテストセットにおいて,引用グラフの構造と内容を利用する簡単な方法が,それぞれ異なる科学情報抽出タスクにおいて有意な利益をもたらすことを示す。 これらのタスクが組み合わさった場合、最先端情報抽出の大幅な改善が観察され、今後の作業の可能性が示唆される。 我々は引用対応のSciIE開発を容易にするソフトウェアツールをリリースする。

Automatically extracting key information from scientific documents has the potential to help scientists work more efficiently and accelerate the pace of scientific progress. Prior work has considered extracting document-level entity clusters and relations end-to-end from raw scientific text, which can improve literature search and help identify methods and materials for a given problem. Despite the importance of this task, most existing works on scientific information extraction (SciIE) consider extraction solely based on the content of an individual paper, without considering the paper's place in the broader literature. In contrast to prior work, we augment our text representations by leveraging a complementary source of document context: the citation graph of referential links between citing and cited papers. On a test set of English-language scientific documents, we show that simple ways of utilizing the structure and content of the citation graph can each lead to significant gains in different scientific information extraction tasks. When these tasks are combined, we observe a sizable improvement in end-to-end information extraction over the state-of-the-art, suggesting the potential for future work along this direction. We release software tools to facilitate citation-aware SciIE development.
翻訳日:2021-06-04 16:06:53 公開日:2021-06-03
# 生成言語ステガノグラフィーの安全性

Provably Secure Generative Linguistic Steganography ( http://arxiv.org/abs/2106.02011v1 )

ライセンス: Link先を確認
Siyu Zhang, Zhongliang Yang, Jinshuai Yang, Yongfeng Huang(参考訳) 生成的言語ステガノグラフィーは主に言語モデルとステガノグラフィーサンプリング(stegosampling)を使用して、高安全性ステガノグラフィーテキスト(stegotext)を生成する。 しかし、従来の手法は一般に、ステゴテキストと自然文の条件付き確率分布の統計的差異をもたらし、セキュリティリスクを引き起こす。 本稿では,さらにセキュリティを確保するために,市販の言語モデルによって与えられる確率に応じて,トークンの適応動的グループ化によって秘密情報を再帰的に埋め込む,確実な生成型言語分類法ADGを提案する。 我々はADGの安全性を数学的に証明するだけでなく、3つの公的なコーパスに対して広範な実験を行い、その非受容性をさらに検証する。 実験の結果,提案手法がほぼ完全なセキュリティでstegotextを生成できることが判明した。

Generative linguistic steganography mainly utilized language models and applied steganographic sampling (stegosampling) to generate high-security steganographic text (stegotext). However, previous methods generally lead to statistical differences between the conditional probability distributions of stegotext and natural text, which brings about security risks. In this paper, to further ensure security, we present a novel provably secure generative linguistic steganographic method ADG, which recursively embeds secret information by Adaptive Dynamic Grouping of tokens according to their probability given by an off-the-shelf language model. We not only prove the security of ADG mathematically, but also conduct extensive experiments on three public corpora to further verify its imperceptibility. The experimental results reveal that the proposed method is able to generate stegotext with nearly perfect security.
翻訳日:2021-06-04 16:06:27 公開日:2021-06-03
# Reward-Punishment Frameworkを用いた双曲型強化学習

Hyperbolically-Disco unted Reinforcement Learning on Reward-Punishment Framework ( http://arxiv.org/abs/2106.01516v1 )

ライセンス: Link先を確認
Taisuke Kobayashi(参考訳) 本稿では,双曲割引による新しい強化学習を提案する。 新たな時間差誤差と再帰的手法による双曲割引と報奨金フレームワークを組み合わせることで、最適な政策を学習するための新たなスキームが導出される。 シミュレーションでは, 報酬と罰の設計に依存するが, 提案手法は標準強化学習よりも優れていることが判明した。 また、割引率の平均はw.r.t。 報酬と罰は、動物の行動におけるサイン効果のように、互いに異なる。

This paper proposes a new reinforcement learning with hyperbolic discounting. Combining a new temporal difference error with the hyperbolic discounting in recursive manner and reward-punishment framework, a new scheme to learn the optimal policy is derived. In simulations, it is found that the proposal outperforms the standard reinforcement learning, although the performance depends on the design of reward and punishment. In addition, the averages of discount factors w.r.t. reward and punishment are different from each other, like a sign effect in animal behaviors.
翻訳日:2021-06-04 16:05:11 公開日:2021-06-03
# Sleeping Combinatorial Bandits

Sleeping Combinatorial Bandits ( http://arxiv.org/abs/2106.01624v1 )

ライセンス: Link先を確認
Kumar Abhishek, Ganesh Ghalme, Sujit Gujar, Yadati Narahari(参考訳) 本稿では,睡眠と複合確率バンディットの興味深い組み合わせについて検討する。 ここで研究した混合モデルでは、各離散時間インスタントに、任意の \emph{availability set} が固定された \emph{base} arms から生成される。 アルゴリズムは \emph{availability set} (sleeping bandits) からアームのサブセットを選択し、セミバンドフィードバック (combintorial bandits) とともに対応する報酬を受け取ることができる。 睡眠複合バンドレート設定においてよく知られたCUCBアルゴリズムを適用し,それを \CSUCB と呼ぶ。 我々は、緩やかな滑らかさ条件の下で、 \CSUCB\アルゴリズムが$O(\log (T))$インスタンス依存後悔保証を達成することを証明した。 さらに、(i)報酬の範囲が有界であるとき、 \CSUCB\アルゴリズムの後悔保証は$O(\sqrt{T \log (T)})$であり、(ii)インスタンスに依存しない後悔は$O(\sqrt[3]{T^2 \log(T)})$である。 私たちの結果は極めて一般的で、非加減報酬関数、揮発性アームアベイラビリティ、プルするベースアームの可変数といった一般的な環境下で保持されています。 実証された理論的保証を実験により検証する。

In this paper, we study an interesting combination of sleeping and combinatorial stochastic bandits. In the mixed model studied here, at each discrete time instant, an arbitrary \emph{availability set} is generated from a fixed set of \emph{base} arms. An algorithm can select a subset of arms from the \emph{availability set} (sleeping bandits) and receive the corresponding reward along with semi-bandit feedback (combinatorial bandits). We adapt the well-known CUCB algorithm in the sleeping combinatorial bandits setting and refer to it as \CSUCB. We prove -- under mild smoothness conditions -- that the \CSUCB\ algorithm achieves an $O(\log (T))$ instance-dependent regret guarantee. We further prove that (i) when the range of the rewards is bounded, the regret guarantee of \CSUCB\ algorithm is $O(\sqrt{T \log (T)})$ and (ii) the instance-independent regret is $O(\sqrt[3]{T^2 \log(T)})$ in a general setting. Our results are quite general and hold under general environments -- such as non-additive reward functions, volatile arm availability, a variable number of base-arms to be pulled -- arising in practical applications. We validate the proven theoretical guarantees through experiments.
翻訳日:2021-06-04 16:05:03 公開日:2021-06-03
# ガーシュゴリンディスク完全アライメントを用いたプロジェクションフリーグラフベース分類学習

Projection-free Graph-based Classifier Learning using Gershgorin Disc Perfect Alignment ( http://arxiv.org/abs/2106.01642v1 )

ライセンス: Link先を確認
Cheng Yang, Gene Cheung, Wai-tian Tan, Guangtao Zhai(参考訳) 半教師付きグラフベースのバイナリ分類器学習では、ラプラシア行列で指定された類似グラフに対してラベル信号$x$が滑らかであると仮定して、既知のラベル$\hat{x}_i$のサブセットを用いて未知のラベルを推論する。 x_i$をバイナリ値に制限する場合、問題はnp-hardである。 例えば、乗算器の交互方向法(admm)を用いて、従来の半定値プログラミング(sdp)の緩和を多項式時間で解くことができるが、候補行列を正半定値(psd)コーン(m \succeq 0$)上に反復的に投影する複雑さは高いままである。 本稿では,最近発表された gershgorin disc perfect alignment (gdpa) と呼ばれる線形代数理論を用いて,線形プログラムのシーケンスを解いて,高速投影フリーな手法を提案する。 具体的には、SDP緩和をSDP双対にリキャストし、実現可能な解である$H \succeq 0$を、バランスの取れた符号グラフに対応するラプラシア行列として解釈することができる。 グラフバランスを達成するために、最後のノードをそれぞれ元の正の辺と負の辺を含む2つに分割し、結果として新しいラプラシアン$\bar{H}$となる。 sdp の双対を解 $\bar{h}$ に置き換えた後、psd の錐制約 $\bar{h} \succeq 0$ を gdpa から導かれた線形制約に置き換える -- $\bar{h}$ が psd であることを保証するのに十分な条件 -- により、最適化はイテレーション当たり lp になる。 最後に、収束したLP解 $\bar{H}$ から予測ラベルを抽出する。 実験により,我々のアルゴリズムは,ラベル予測性能を同等に保ちながら,次の最速のスキームよりも平均40\times$のスピードアップを達成できた。

In semi-supervised graph-based binary classifier learning, a subset of known labels $\hat{x}_i$ are used to infer unknown labels, assuming that the label signal $x$ is smooth with respect to a similarity graph specified by a Laplacian matrix. When restricting labels $x_i$ to binary values, the problem is NP-hard. While a conventional semi-definite programming (SDP) relaxation can be solved in polynomial time using, for example, the alternating direction method of multipliers (ADMM), the complexity of iteratively projecting a candidate matrix $M$ onto the positive semi-definite (PSD) cone ($M \succeq 0$) remains high. In this paper, leveraging a recent linear algebraic theory called Gershgorin disc perfect alignment (GDPA), we propose a fast projection-free method by solving a sequence of linear programs (LP) instead. Specifically, we first recast the SDP relaxation to its SDP dual, where a feasible solution $H \succeq 0$ can be interpreted as a Laplacian matrix corresponding to a balanced signed graph sans the last node. To achieve graph balance, we split the last node into two that respectively contain the original positive and negative edges, resulting in a new Laplacian $\bar{H}$. We repose the SDP dual for solution $\bar{H}$, then replace the PSD cone constraint $\bar{H} \succeq 0$ with linear constraints derived from GDPA -- sufficient conditions to ensure $\bar{H}$ is PSD -- so that the optimization becomes an LP per iteration. Finally, we extract predicted labels from our converged LP solution $\bar{H}$. Experiments show that our algorithm enjoyed a $40\times$ speedup on average over the next fastest scheme while retaining comparable label prediction performance.
翻訳日:2021-06-04 16:04:32 公開日:2021-06-03
# ニューラルネットワークの最適トランスポートソルバは動作するか? 連続Wasserstein-2ベンチマーク

Do Neural Optimal Transport Solvers Work? A Continuous Wasserstein-2 Benchmark ( http://arxiv.org/abs/2106.01954v1 )

ライセンス: Link先を確認
Alexander Korotin, Lingxiao Li, Aude Genevay, Justin Solomon, Alexander Filippov, Evgeny Burnaev(参考訳) 近年、最適輸送(OT)のためのニューラルネットワークベースの解法が普及しているが、その性能を評価するための標準的な定量的方法はない。 本稿では,2次コスト輸送,特に機械学習における最適輸送の定式化であるwasserstein-2距離の計算について述べる。 これらの解法を評価するために必要な連続測度間の基底真理輸送マップの計算という課題を克服するために、入力凸ニューラルネットワーク(ICNN)を用いて、基底真理 OT マップを解析的に取得可能な対の測度を構築する。 この戦略は、像の空間のような高次元空間における連続的なベンチマーク測度の対をもたらす。 これらのベンチマークを用いて,既存の最適輸送解法を徹底的に評価する。 これらの解法は下流のタスクではうまく機能するが、多くは最適な輸送地図を忠実に回収しない。 この不一致の原因を調査するため、画像生成の設定において、さらにソルバーをテストする。 本研究は既存ソルバの限界を明らかにし,ot精度の向上が下流のより良い結果と必ずしも相関しないことを示す。

Despite the recent popularity of neural network-based solvers for optimal transport (OT), there is no standard quantitative way to evaluate their performance. In this paper, we address this issue for quadratic-cost transport -- specifically, computation of the Wasserstein-2 distance, a commonly-used formulation of optimal transport in machine learning. To overcome the challenge of computing ground truth transport maps between continuous measures needed to assess these solvers, we use input-convex neural networks (ICNN) to construct pairs of measures whose ground truth OT maps can be obtained analytically. This strategy yields pairs of continuous benchmark measures in high-dimensional spaces such as spaces of images. We thoroughly evaluate existing optimal transport solvers using these benchmark measures. Even though these solvers perform well in downstream tasks, many do not faithfully recover optimal transport maps. To investigate the cause of this discrepancy, we further test the solvers in a setting of image generation. Our study reveals crucial limitations of existing solvers and shows that increased OT accuracy does not necessarily correlate to better results downstream.
翻訳日:2021-06-04 16:03:54 公開日:2021-06-03
# データ駆動設計-Analogy:最先端と今後の方向性

Data-Driven Design-by-Analogy: State of the Art and Future Directions ( http://arxiv.org/abs/2106.01592v1 )

ライセンス: Link先を確認
Shuo Jiang, Jie Hu, Kristin L. Wood, Jianxi Luo(参考訳) デザイン・バイ・アナロジー(Design-by-Analogy、DbA)は、ソースドメインから引き出されたインスピレーションに基づいて、ターゲットドメインで新たなソリューション、機会、あるいはデザインが生成される設計方法論である。 近年,DbA サポートのためのデータ駆動手法やツールを開発するための新たな機会として,設計データベースやデータサイエンス,人工知能技術が急速に進歩している。 本研究では,既存のデータ駆動型dba研究を調査し,アナロジーエンコーディング,検索,マッピング,評価という4つのカテゴリで,データ,手法,アプリケーションに応じて個々の研究を分類する。 ニューアンスド・オーガニック・レビューと構造化分析の両方に基づいて,データ駆動型dba研究の現状を解明し,この分野の有望な研究機会と方向性を特定するために,データサイエンスとai研究のフロンティアでそれをベンチマークする。 最後に,全ての命題を統合する概念データ駆動型dbaシステムを提案する。

Design-by-Analogy (DbA) is a design methodology wherein new solutions, opportunities or designs are generated in a target domain based on inspiration drawn from a source domain; it can benefit designers in mitigating design fixation and improving design ideation outcomes. Recently, the increasingly available design databases and rapidly advancing data science and artificial intelligence technologies have presented new opportunities for developing data-driven methods and tools for DbA support. In this study, we survey existing data-driven DbA studies and categorize individual studies according to the data, methods, and applications in four categories, namely, analogy encoding, retrieval, mapping, and evaluation. Based on both nuanced organic review and structured analysis, this paper elucidates the state of the art of data-driven DbA research to date and benchmarks it with the frontier of data science and AI research to identify promising research opportunities and directions for the field. Finally, we propose a future conceptual data-driven DbA system that integrates all propositions.
翻訳日:2021-06-04 16:03:36 公開日:2021-06-03
# ソーシャルネットワークにおけるインフルエンサーマーケティングキャンペーンのモデル化

Modeling Influencer Marketing Campaigns In Social Networks ( http://arxiv.org/abs/2106.01750v1 )

ライセンス: Link先を確認
Ronak Doshi and Ajay Ramesh Ranganathan and Shrisha Rao(参考訳) 現在、世界中の38億人以上が積極的にソーシャルメディアを利用している。 情報共有の迅速かつ容易な促進におけるソーシャルメディアの効果は、ネットワークのインフルエンサーを通じてプラットフォームを使って製品を販売するブランドや広告主を惹きつけている。 インフルエンサーは、その大きな人気のために、非常に短期間で高い投資利益を生み出す巨大な潜在顧客ベースを提供する。 しかし、最小限の投資で最大リターンを生み出す広告キャンペーンのためにどのインフルエンサーを選ぶべきかを決めるのは簡単ではない。 本稿では,様々なシナリオにおけるインフルエンサー広告キャンペーンのダイナミクスをシミュレートし,最良のインフルエンサーマーケティング戦略を見出すためのエージェントベースモデル(abm)を提案する。 当社のシステムは,製品に対する顧客の関心,顧客の行動,支払い意欲,ブランド投資の上限,影響力拡散によるインフルエンサーの関与,広告付き製品の性質といった現実の要素を組み込んだ,確率的グラフベースモデルである。 豪華で非豪華。

In the present day, more than 3.8 billion people around the world actively use social media. The effectiveness of social media in facilitating quick and easy sharing of information has attracted brands and advertizers who wish to use the platform to market products via the influencers in the network. Influencers, owing to their massive popularity, provide a huge potential customer base generating higher returns of investment in a very short period. However, it is not straightforward to decide which influencers should be selected for an advertizing campaign that can generate maximum returns with minimum investment. In this work, we present an agent-based model (ABM) that can simulate the dynamics of influencer advertizing campaigns in a variety of scenarios and can help to discover the best influencer marketing strategy. Our system is a probabilistic graph-based model that incorporates real-world factors such as customers' interest in a product, customer behavior, the willingness to pay, a brand's investment cap, influencers' engagement with influence diffusion, and the nature of the product being advertized viz. luxury and non-luxury.
翻訳日:2021-06-04 16:03:19 公開日:2021-06-03
# 企業の中核的価値観と社会的責任--誰が本当に重要なのか

Corporate core values and social responsibility: What really matters to whom ( http://arxiv.org/abs/2106.01644v1 )

ライセンス: Link先を確認
M. A. Barchiesi, A. Fronzetti Colladon(参考訳) この研究は、革新的指標であるセマンティックブランドスコアを用いて、異なる企業のコアバリューにおける利害関係者の関心を評価する。 中でも,企業社会責任(csr)のコアバリューステートメントに注目し,利害関係者(顧客,企業コミュニケーションチーム,従業員,アソシエーション,メディア)の5つのカテゴリから注目を集めています。 ビッグデータの手法と、Social Network AnalysisとText Miningのツールを組み合わせることで、約58,000のイタリアのツイートを分析し、異なる利害関係者が異なる関心事があることを発見した。 CSRは予想よりもはるかに少ない注目を集める。 顧客と従業員に関するコアバリューがフォアグラウンドにあります。

This study uses an innovative measure, the Semantic Brand Score, to assess the interest of stakeholders in different company core values. Among others, we focus on corporate social responsibility (CSR) core value statements, and on the attention they receive from five categories of stakeholders (customers, company communication teams, employees, associations and media). Combining big data methods and tools of Social Network Analysis and Text Mining, we analyzed about 58,000 Italian tweets and found that different stakeholders have different prevailing interests. CSR gets much less attention than expected. Core values related to customers and employees are in the foreground.
翻訳日:2021-06-04 16:02:37 公開日:2021-06-03
# 3次元暗証信号場学習のためのスプライン位置符号化

Spline Positional Encoding for Learning 3D Implicit Signed Distance Fields ( http://arxiv.org/abs/2106.01553v1 )

ライセンス: Link先を確認
Peng-Shuai Wang, Yang Liu, Yu-Qi Yang, Xin Tong(参考訳) 多層パーセプトロン(MLP)は、3次元座標を対応する符号付き距離値や占有値にマッピングすることで、3次元形状を暗黙的にコンパクトに表現するのに成功している。 本稿では,MLPに渡す前に入力座標を高次元空間にマッピングし,非組織化された3次元点雲から微細な幾何学的詳細を伴って3次元符号付き距離場を復元する手法であるSpline Positional Encodingを提案する。 入力点雲と形状空間学習による3次元形状復元タスクにおいて,他の位置符号化方式よりも優れた手法を検証した。 また, 画像再構成へのアプローチの有効性を実証し, 評価した。

Multilayer perceptrons (MLPs) have been successfully used to represent 3D shapes implicitly and compactly, by mapping 3D coordinates to the corresponding signed distance values or occupancy values. In this paper, we propose a novel positional encoding scheme, called Spline Positional Encoding, to map the input coordinates to a high dimensional space before passing them to MLPs, for helping to recover 3D signed distance fields with fine-scale geometric details from unorganized 3D point clouds. We verified the superiority of our approach over other positional encoding schemes on tasks of 3D shape reconstruction from input point clouds and shape space learning. The efficacy of our approach extended to image reconstruction is also demonstrated and evaluated.
翻訳日:2021-06-04 16:01:46 公開日:2021-06-03
# 騒音ラベルは宝物:肝血管分節に対する平均教師支援信頼学習

Noisy Labels are Treasure: Mean-Teacher-Assiste d Confident Learning for Hepatic Vessel Segmentation ( http://arxiv.org/abs/2106.01860v1 )

ライセンス: Link先を確認
Zhe Xu, Donghuan Lu, Yixin Wang, Jie Luo, Jayender Jagadeesan, Kai Ma, Yefeng Zheng, Xiu Li(参考訳) CT(Computer Tomography)から手動で肝血管を分断することは、低コントラストで複雑な血管形態のため、他の構造よりもはるかに専門的かつ困難であり、高品質なラベル付きデータの欠如をもたらす。 十分な品質のアノテーションがなければ、通常のデータ駆動学習ベースのアプローチは、不十分なトレーニングに苦しむ。 一方、低品質のアノテーションによる追加データの導入はネットワークを混乱させ、望ましくないパフォーマンス劣化を引き起こす可能性がある。 そこで本研究では,肝血管セグメンテーションの課題に対して,ノイズラベル付きデータを頑健に活用するための,平均教師支援型自信学習フレームワークを提案する。 具体的には、第3者、すなわち、重み平均教師モデルによる適応型自信学習により、追加の低品質データセットにおけるノイズラベルを、プログレッシブな画素単位のソフト修正によって「蓄積」から「トレージャー」へ変換し、生産的ガイダンスを提供することができる。 2つの公開データセットを用いた大規模な実験は、提案したフレームワークの優位性と各コンポーネントの有効性を示している。

Manually segmenting the hepatic vessels from Computer Tomography (CT) is far more expertise-demanding and laborious than other structures due to the low-contrast and complex morphology of vessels, resulting in the extreme lack of high-quality labeled data. Without sufficient high-quality annotations, the usual data-driven learning-based approaches struggle with deficient training. On the other hand, directly introducing additional data with low-quality annotations may confuse the network, leading to undesirable performance degradation. To address this issue, we propose a novel mean-teacher-assiste d confident learning framework to robustly exploit the noisy labeled data for the challenging hepatic vessel segmentation task. Specifically, with the adapted confident learning assisted by a third party, i.e., the weight-averaged teacher model, the noisy labels in the additional low-quality dataset can be transformed from "encumbrance" to "treasure" via progressive pixel-wise soft-correction, thus providing productive guidance. Extensive experiments using two public datasets demonstrate the superiority of the proposed framework as well as the effectiveness of each component.
翻訳日:2021-06-04 16:01:34 公開日:2021-06-03
# オープンエンド領域における同時多視点物体認識と把持

Simultaneous Multi-View Object Recognition and Grasping in Open-Ended Domains ( http://arxiv.org/abs/2106.01866v1 )

ライセンス: Link先を確認
Hamidreza Kasaei, Sha Luo, Remo Sasso, Mohammadreza Kasaei(参考訳) 人間中心の環境で作業するロボットは、現場にどのような種類の物体が存在するのか、どのように様々な状況で様々な物体を把握し操作するかを知る必要がある。 したがって、物体認識と把持は、ロボットにとって2つの重要な機能である。 ほとんどの最先端技術は、オブジェクト認識と把握に2つの問題として取り組み、どちらも視覚入力を使用している。 さらに、訓練段階後にロボットの知識を固定する。 このような場合、ロボットが新たな対象カテゴリに直面している場合、破壊的な干渉なしに新しい情報を組み込むために、ゼロから再訓練する必要がある。 そこで本研究では,オープンエンドオブジェクト認識と把持を同時に処理できる拡張メモリ容量を持つディープラーニングアーキテクチャを提案する。 特に,対象のマルチビューを入力として,画素毎の把握構成と,出力としての深いスケール・ローテーション不変表現を共同で推定する。 得られた表現は、メタアクティブな学習技術を通じてオープンエンドオブジェクト認識に使用される。 シミュレーションと実世界設定の両方において,本手法が未確認対象を把握し,新たな対象カテゴリーを迅速に学習する能力を示す。

A robot working in human-centric environments needs to know which kind of objects exist in the scene, where they are, and how to grasp and manipulate various objects in different situations to help humans in everyday tasks. Therefore, object recognition and grasping are two key functionalities for such robots. Most state-of-the-art tackles object recognition and grasping as two separate problems while both use visual input. Furthermore, the knowledge of the robot is fixed after the training phase. In such cases, if the robot faces new object categories, it must retrain from scratch to incorporate new information without catastrophic interference. To address this problem, we propose a deep learning architecture with augmented memory capacities to handle open-ended object recognition and grasping simultaneously. In particular, our approach takes multi-views of an object as input and jointly estimates pixel-wise grasp configuration as well as a deep scale- and rotation-invariant representation as outputs. The obtained representation is then used for open-ended object recognition through a meta-active learning technique. We demonstrate the ability of our approach to grasp never-seen-before objects and to rapidly learn new object categories using very few examples on-site in both simulation and real-world settings.
翻訳日:2021-06-04 16:01:13 公開日:2021-06-03
# 特徴抽出とスパース表現に基づくDenoising and Optical and SAR画像分類

Denoising and Optical and SAR Image Classifications Based on Feature Extraction and Sparse Representation ( http://arxiv.org/abs/2106.01896v1 )

ライセンス: Link先を確認
Battula Balnarsaiah, G Rajitha(参考訳) 光画像データは、容易に解釈できるため、リモートセンシングの作業員によって土地利用とカバーを研究するために使用されてきた。 SAR(Synthetic Aperture Radar)は、全天候中の画像を取得する特性を持ち、可視光と赤外線センサーとは異なる物体情報を提供する。 しかし、SAR画像はスペックルノイズが多く、寸法も少ない。 本稿では,光学画像とSAR画像の分類を識別し,特徴抽出し,比較する手法を提案する。 画像はk-svd(k-singular value decomposition)アルゴリズムを用いた。 教師付き分類器に入力事実を提供することにより、SARまたは光学画像の内部に持つ異常なゴールシグネチャをSVM(Support Vector Machine)を用いてマッピングする。 当初はGray Level Histogram (GLH) と Gray Level Co-occurrence Matrix (GLCM) が特徴抽出に用いられる。 次に,第1段階から抽出した特徴ベクトルを相関解析を用いて組み合わせ,特徴空間の次元性を低減する。 第3に,スパース表現分類(SRC)において,SAR画像の分類を行った。 上記の分類手法を開発し,matlab 2018aを用いて性能パラメータを精度,kappa係数を算出した。

Optical image data have been used by the Remote Sensing workforce to study land use and cover since such data is easily interpretable. Synthetic Aperture Radar (SAR) has the characteristic of obtaining images during all-day, all-weather and provides object information that is different from visible and infrared sensors. However, SAR images have more speckle noise and fewer dimensions. This paper presents a method for denoising, feature extraction and compares classifications of Optical and SAR images. The image was denoised using K-Singular Value Decomposition (K-SVD) algorithm. A method to map the extraordinary goal signatures to be had withinside the SAR or Optical image using support vector machine (SVM) through offering given the enter facts to the supervised classifier. Initially, the Gray Level Histogram (GLH) and Gray Level Co-occurrence Matrix (GLCM) are used for feature extraction. Secondly, the extracted feature vectors from the first step were combined using correlation analysis to reduce the dimensionality of the feature spaces. Thirdly, the Classification of SAR images was done in Sparse Representations Classification (SRC). The above-mentioned classifications techniques were developed and performance parameters are accuracy and Kappa Coefficient calculated using MATLAB 2018a.
翻訳日:2021-06-04 16:00:52 公開日:2021-06-03
# ナーファクター:未知の照明下での形状と反射の神経因子化

NeRFactor: Neural Factorization of Shape and Reflectance Under an Unknown Illumination ( http://arxiv.org/abs/2106.01970v1 )

ライセンス: Link先を確認
Xiuming Zhang, Pratul P. Srinivasan, Boyang Deng, Paul Debevec, William T. Freeman, Jonathan T. Barron(参考訳) 1つの未知の照明条件で照らされた物体の多視点画像から物体の形状および空間変動反射率を回復する問題に対処する。 これにより、任意の環境照明下でのオブジェクトの新しいビューのレンダリングや、オブジェクトの材料特性の編集が可能になる。 私たちがNeural Radiance Factorization (NeRFactor)と呼ぶアプローチの鍵は、Neural Radiance Field (NeRF) [Mildenhall et al.]の体積幾何学を蒸留することである。 2020] 物体を表面表現に表現し, 空間的に変化する反射率と環境照明を解決しつつ, 幾何学を共同で洗練する。 特に、NeRFactorは、実世界のBRDF測定から学んだ、再レンダリング損失、単純な滑らかさの先行、データ駆動BRDFのみを使用して、表面の正常な3次元神経場、光可視性、アルベド、双方向反射分布関数(BRDF)を監督せずに回復する。 光の可視性を明示的にモデル化することで、NeRFactorはアルベドから影を分離し、任意の照明条件下で現実的な柔らかい影や硬い影を合成することができる。 NeRFactorは、合成シーンと実際のシーンの両方で、難易度と制約の少ない撮影設定で、説得力のある3Dモデルをフリービューでリライティングすることができる。 定性的かつ定量的な実験により、NeRFactorは様々なタスクにわたって古典的および深層学習に基づく芸術の状態を上回ります。 私たちのコードとデータは people.csail.mit.edu /xiuming/projects/ne rfactor/ で利用可能です。

We address the problem of recovering the shape and spatially-varying reflectance of an object from posed multi-view images of the object illuminated by one unknown lighting condition. This enables the rendering of novel views of the object under arbitrary environment lighting and editing of the object's material properties. The key to our approach, which we call Neural Radiance Factorization (NeRFactor), is to distill the volumetric geometry of a Neural Radiance Field (NeRF) [Mildenhall et al. 2020] representation of the object into a surface representation and then jointly refine the geometry while solving for the spatially-varying reflectance and the environment lighting. Specifically, NeRFactor recovers 3D neural fields of surface normals, light visibility, albedo, and Bidirectional Reflectance Distribution Functions (BRDFs) without any supervision, using only a re-rendering loss, simple smoothness priors, and a data-driven BRDF prior learned from real-world BRDF measurements. By explicitly modeling light visibility, NeRFactor is able to separate shadows from albedo and synthesize realistic soft or hard shadows under arbitrary lighting conditions. NeRFactor is able to recover convincing 3D models for free-viewpoint relighting in this challenging and underconstrained capture setup for both synthetic and real scenes. Qualitative and quantitative experiments show that NeRFactor outperforms classic and deep learning-based state of the art across various tasks. Our code and data are available at people.csail.mit.edu /xiuming/projects/ne rfactor/.
翻訳日:2021-06-04 16:00:33 公開日:2021-06-03
# 投票公理の円滑な満足

The Smoothed Satisfaction of Voting Axioms ( http://arxiv.org/abs/2106.01947v1 )

ライセンス: Link先を確認
Lirong Xia(参考訳) 我々は,投票公理の円滑な満足度を総合的に図示し,投票ルールを比較するためのより精巧で現実的な基礎を提供する。 本研究では, エージェントに対して任意に相関した「地上真実」選好を選択し, その上にランダムノイズを付加するスムーズな社会選択フレームワークを採用する。 我々は、熟考された2つの投票公理(コンドルセト基準と参加)の円滑な満足度を特徴付けることに集中する。 任意の固定数の選択肢に対して、投票者数n$が十分に大きい場合、幅広い投票規則の下でのコンドルチェット基準の円滑な満足度は、$$$, $1-\exp(-\Theta(n))$ , $\Theta(n^{-0.5})$, $ \exp(-\Theta(n))$, $\Theta(1)$, $1-\Theta(1)$, $1-\Theta(1)$であり、参加の円滑な満足度は1-\Theta(n^{-0.5})$であることを示す。 その結果,1994年にberg と lepelley によるこれらのルールに対する疑問に答えるとともに,以下のハイレベルなメッセージを確認した。

We initiate the work towards a comprehensive picture of the smoothed satisfaction of voting axioms, to provide a finer and more realistic foundation for comparing voting rules. We adopt the smoothed social choice framework, where an adversary chooses arbitrarily correlated "ground truth" preferences for the agents, on top of which random noises are added. We focus on characterizing the smoothed satisfaction of two well-studied voting axioms: Condorcet criterion and participation. We prove that for any fixed number of alternatives, when the number of voters $n$ is sufficiently large, the smoothed satisfaction of the Condorcet criterion under a wide range of voting rules is $1$, $1-\exp(-\Theta(n))$ , $\Theta(n^{-0.5})$, $ \exp(-\Theta(n))$, or being $\Theta(1)$ and $1-\Theta(1)$ at the same time; and the smoothed satisfaction of participation is $1-\Theta(n^{-0.5})$. Our results address open questions by Berg and Lepelley in 1994 for these rules, and also confirm the following high-level message: the Condorcet criterion is a bigger concern than participation under realistic models.
翻訳日:2021-06-04 16:00:04 公開日:2021-06-03
# スパース線形制約下におけるガウスマルコフ確率場の効率的な解法

Efficient methods for Gaussian Markov random fields under sparse linear constraints ( http://arxiv.org/abs/2106.01712v1 )

ライセンス: Link先を確認
David Bolin and Jonas Wallin(参考訳) 線形制約付きガウスマルコフ確率場(gmrf)の推論とシミュレーションの方法は、制約数が大きい場合には計算的に禁止される。 例えば、固有のGMRFの場合、それらは実現不可能である。 スパース制約(sparse constraints)の一般的な場合において、これらの課題を克服する新しい手法のクラスを提案し、そこでは、制約が多数あり、それぞれがいくつかの要素のみを含む。 提案手法は制約付き部分空間と非制約付き部分空間のブロックへの基底変換に依存しており,計算コストの面では既存手法を大きく上回っていることを示す。 提案手法をガウス確率場に対する確率偏微分方程式法と組み合わせることで, GMRF設定において線形制約付きガウス過程の回帰を定式化して計算コストを削減する方法を示す。 これはシミュレーションデータを持つ2つのアプリケーションで説明される。

Methods for inference and simulation of linearly constrained Gaussian Markov Random Fields (GMRF) are computationally prohibitive when the number of constraints is large. In some cases, such as for intrinsic GMRFs, they may even be unfeasible. We propose a new class of methods to overcome these challenges in the common case of sparse constraints, where one has a large number of constraints and each only involves a few elements. Our methods rely on a basis transformation into blocks of constrained versus non-constrained subspaces, and we show that the methods greatly outperform existing alternatives in terms of computational cost. By combining the proposed methods with the stochastic partial differential equation approach for Gaussian random fields, we also show how to formulate Gaussian process regression with linear constraints in a GMRF setting to reduce computational cost. This is illustrated in two applications with simulated data.
翻訳日:2021-06-04 15:59:32 公開日:2021-06-03
# アクティブラーニング信頼性のための一般化フレームワーク:調査とベンチマーク

A generalized framework for active learning reliability: survey and benchmark ( http://arxiv.org/abs/2106.01713v1 )

ライセンス: Link先を確認
M. Moustapha, S. Marelli and B. Sudret(参考訳) 近年,安価な計算コストで複雑な構造的信頼性問題を解くために,能動的学習手法が普及している。 これらの方法は、元の極限状態関数の安価なサロゲートを適応的に構築することによって設計される。 そのようなサロゲートの例としては、多くのコントリビューションで採用されているガウス過程モデルがあり、最も一般的なものは、効率的なグローバル信頼性分析(EGRA)とアクティブなクリグ・モンテカルロシミュレーション(AK-MCS)である。 本稿では, 提案手法のほとんどが, 上記の2つの手法の1つ以上の側面の修正によるものであることを示すため, 最近の文献を調査した。 提案手法は,サロゲートモデル,信頼性推定アルゴリズム,学習関数,停止基準の4つの要素を組み合わせることで,オンザフライで効率的なアクティブラーニング戦略を構築するための汎用モジュラーフレームワークを提案する。 このフレームワークを用いて,20の信頼性ベンチマーク問題に対する39の戦略を考案する。 この広範なベンチマークの結果は様々な基準で分析され、実践者のための一連の推奨事項が合成された。 これらは、解決すべき問題の特質、すなわち、故障確率の次元と大きさに関する事前知識によって洗練することができる。 このベンチマークは最終的に、サロゲートを高度な信頼性推定アルゴリズムと組み合わせて、後者の効率を向上させることの重要性を強調した。

Active learning methods have recently surged in the literature due to their ability to solve complex structural reliability problems within an affordable computational cost. These methods are designed by adaptively building an inexpensive surrogate of the original limit-state function. Examples of such surrogates include Gaussian process models which have been adopted in many contributions, the most popular ones being the efficient global reliability analysis (EGRA) and the active Kriging Monte Carlo simulation (AK-MCS), two milestone contributions in the field. In this paper, we first conduct a survey of the recent literature, showing that most of the proposed methods actually span from modifying one or more aspects of the two aforementioned methods. We then propose a generalized modular framework to build on-the-fly efficient active learning strategies by combining the following four ingredients or modules: surrogate model, reliability estimation algorithm, learning function and stopping criterion. Using this framework, we devise 39 strategies for the solution of 20 reliability benchmark problems. The results of this extensive benchmark are analyzed under various criteria leading to a synthesized set of recommendations for practitioners. These may be refined with a priori knowledge about the feature of the problem to solve, i.e., dimensionality and magnitude of the failure probability. This benchmark has eventually highlighted the importance of using surrogates in conjunction with sophisticated reliability estimation algorithms as a way to enhance the efficiency of the latter.
翻訳日:2021-06-04 15:59:18 公開日:2021-06-03
# cybersecurity information exchange with privacy (cybex-p) and tahoe - サイバー脅威言語

Cybersecurity Information Exchange with Privacy (CYBEX-P) and TAHOE -- A Cyberthreat Language ( http://arxiv.org/abs/2106.01632v1 )

ライセンス: Link先を確認
Farhan Sadique, Ignacio Astaburuaga, Raghav Kaul, Shamik Sengupta, Shahriar Badsha, James Schnebly, Adam Cassell, Jeff Springer, Nancy Latourrette and Sergiu M. Dascalu(参考訳) サイバーセキュリティ情報共有(CIS)は、高度なサイバー攻撃から組織をより効果的に保護することを目的としている。 しかし、完全に自動化されたCISプラットフォームは広く採用されていない。 主な課題は、(1)堅牢なサイバー脅威言語(CTL)の欠如、(2)データのプライバシーに関する懸念である。 この研究は、これらの課題に取り組むために、CISフレームワークとしてCybersecurity Information Exchange with Privacy (CYBEX-P)を導入している。 CYBEX-Pにより、組織は不均一なデータを粒度の細かい属性ベースのプライバシコントロールで共有できる。 データを相関付け、直感的なレポートと防御ルールを自動的に生成する。 このような汎用性を実現するため,グラフベースのCTLであるTAHOEを開発した。 TAHOEは、脅威データの保存、共有、分析のための構造である。 また、データを本質的に関連付ける。 我々はさらに、Treat Data Query Language (TDQL)を開発した。 本稿では,CYBEX-P のシステムアーキテクチャを提案し,そのスケーラビリティとプライバシ機能と CYBEX-P provide Infrastructure as a Service (IaaS) のユースケースについて述べる。 さらに,既存のctlに代わる優れた選択肢としてtahoe&tdqlを導入し,新たな悪意を検知するアルゴリズムであるprofeerrankを定式化する。

Cybersecurity information sharing (CIS) is envisioned to protect organizations more effectively from advanced cyber attacks. However, a completely automated CIS platform is not widely adopted. The major challenges are: (1) the absence of a robust cyber threat language (CTL) and (2) the concerns over data privacy. This work introduces Cybersecurity Information Exchangewith Privacy (CYBEX-P), as a CIS framework, to tackle these challenges. CYBEX-P allows organizations to share heterogeneous data with granular, attribute based privacy control. It correlates the data to automatically generate intuitive reports and defensive rules. To achieve such versatility, we have developed TAHOE - a graph based CTL. TAHOE is a structure for storing,sharing and analyzing threat data. It also intrinsically correlates the data. We have further developed a universal Threat Data Query Language (TDQL). In this paper, we propose the system architecture for CYBEX-P. We then discuss its scalability and privacy features along with a use case of CYBEX-P providing Infrastructure as a Service (IaaS). We further introduce TAHOE& TDQL as better alternatives to existing CTLs and formulate ThreatRank - an algorithm to detect new malicious even
翻訳日:2021-06-04 15:57:29 公開日:2021-06-03
# 集約拡散機構を用いた動的グラフ上の学習表現

Learning Representation over Dynamic Graph using Aggregation-Diffusio n Mechanism ( http://arxiv.org/abs/2106.01678v1 )

ライセンス: Link先を確認
Mingyi Liu and Zhiying Tu and Xiaofei Xu and Zhongjie Wang(参考訳) 近年,バイオインフォマティクスや知識グラフ,ソーシャルネットワークといった幅広い応用シナリオによって,進化するグラフの表現学習が注目されている。 グラフにおける情報の伝播は動的グラフ表現の学習において重要であり、既存の手法のほとんどは集約によってこれを達成している。 しかし、動的グラフの情報伝達に集約のみに依存すると、情報伝達の遅延が生じ、その結果、手法の性能に影響を及ぼす可能性がある。 この問題を解決するために,ノードがアグリゲーション機構を通じて埋め込みを更新した後,隣人に情報を拡散して積極的に伝達するアグリゲーション拡散(AD)機構を提案する。 動的リンク予測タスクにおける2つの実世界のデータセットの実験において、ADメカニズムは情報を伝達するために集約のみを使用するベースラインモデルよりも優れている。 我々はさらに、ADメカニズムにおける異なる要因の影響について広範な実験を行った。

Representation learning on graphs that evolve has recently received significant attention due to its wide application scenarios, such as bioinformatics, knowledge graphs, and social networks. The propagation of information in graphs is important in learning dynamic graph representations, and most of the existing methods achieve this by aggregation. However, relying only on aggregation to propagate information in dynamic graphs can result in delays in information propagation and thus affect the performance of the method. To alleviate this problem, we propose an aggregation-diffusio n (AD) mechanism that actively propagates information to its neighbor by diffusion after the node updates its embedding through the aggregation mechanism. In experiments on two real-world datasets in the dynamic link prediction task, the AD mechanism outperforms the baseline models that only use aggregation to propagate information. We further conduct extensive experiments to discuss the influence of different factors in the AD mechanism.
翻訳日:2021-06-04 15:57:10 公開日:2021-06-03
# 格子場理論のための機械学習と変分アルゴリズム

Machine Learning and Variational Algorithms for Lattice Field Theory ( http://arxiv.org/abs/2106.01975v1 )

ライセンス: Link先を確認
Gurtej Kanwar(参考訳) 格子量子場論の研究において、格子理論を定義するパラメータは連続体物理学にアクセスする臨界性に向けて調整されなければならない。 一般的に使用されるマルコフ連鎖モンテカルロ法(MCMC)は、この極限において臨界速度が低下し、連続体外挿の精度が制限される。 時空で広く分離された演算子の相関関数を測定する際、さらなる困難が生じる: ほとんどの相関関数では、演算子が広く分離されるにつれて指数関数的に厳しい信号対雑音問題が発生する。 この論文は、これらの問題に対処する2つの新しいテクニックを詳述している。 まず,生成フローに基づくモデルに基づく新しいmcmcアルゴリズムを定義する。 このようなモデルは機械学習手法を用いて、興味の分布に対する効率的な近似サンプラーを記述する。 独立に描画されたフローベースサンプルは、漸近的に正確なメトロポリス・ハスティングス・マルコフ連鎖の提案として使用される。 我々は、変換およびゲージ対称性を含む興味のある対称性を取り込む。 次に、経路積分の領域に適用される輪郭変形に基づいてモンテカルロ推定器を「変形」する手法を提案する。 可観測性に関連する変形推定器は、その可観測性について等価な非バイアスの測定値を与えるが、一般に異なる分散を持つ。 格子ゲージ理論のための変形多様体の族を定義し、変形可観測分散を最小化する多様体(オブザーバフォールド)の選択を効率的に最適化する手法を導入する。 最後に、フローベースのmcmcは臨界的なスローダウンを緩和し、オブザーバフォールドは原理証明アプリケーションの分散を指数関数的に減少させ、スカラー $\phi^4$ theory と $\mathrm{u}(1)$ と $\mathrm{su}(n)$ の格子ゲージ理論に導く。

In lattice quantum field theory studies, parameters defining the lattice theory must be tuned toward criticality to access continuum physics. Commonly used Markov chain Monte Carlo (MCMC) methods suffer from critical slowing down in this limit, restricting the precision of continuum extrapolations. Further difficulties arise when measuring correlation functions of operators widely separated in spacetime: for most correlation functions, an exponentially severe signal-to-noise problem is encountered as the operators are taken to be widely separated. This dissertation details two new techniques to address these issues. First, we define a novel MCMC algorithm based on generative flow-based models. Such models utilize machine learning methods to describe efficient approximate samplers for distributions of interest. Independently drawn flow-based samples are then used as proposals in an asymptotically exact Metropolis-Hastings Markov chain. We address incorporating symmetries of interest, including translational and gauge symmetries. We secondly introduce an approach to "deform" Monte Carlo estimators based on contour deformations applied to the domain of the path integral. The deformed estimators associated with an observable give equivalent unbiased measurements of that observable, but generically have different variances. We define families of deformed manifolds for lattice gauge theories and introduce methods to efficiently optimize the choice of manifold (the "observifold"), minimizing the deformed observable variance. Finally, we demonstrate that flow-based MCMC can mitigate critical slowing down and observifolds can exponentially reduce variance in proof-of-principle applications to scalar $\phi^4$ theory and $\mathrm{U}(1)$ and $\mathrm{SU}(N)$ lattice gauge theories.
翻訳日:2021-06-04 15:56:55 公開日:2021-06-03
# JIZHI:BaiduのWebスケールオンライン推論のための高速で費用効果の高いモデル・アズ・ア・サービスシステム

JIZHI: A Fast and Cost-Effective Model-As-A-Service System for Web-Scale Online Inference at Baidu ( http://arxiv.org/abs/2106.01674v1 )

ライセンス: Link先を確認
Hao Liu, Qian Gao, Jiang Li, Xiaochao Liao, Hao Xiong, Guangxing Chen, Wenlin Wang, Guobao Yang, Zhiwei Zha, Daxiang Dong, Dejing Dou, Haoyi Xiong(参考訳) 現代のインターネット産業では、ディープラーニングベースの推薦システムは、検索エンジン、ニュースフィード、ショートビデオクリップといった幅広いアプリケーションにとって、必須のビルディングブロックとなっている。 しかし、何十億ものユーザーからの時間的なウェブスケールのトラフィックに関して、オンラインリアルタイム推論サービスのためのよく訓練されたディープモデルをコスト効率よく実行することは依然として困難である。 本研究では、Baidu, Incの20以上のリアルタイムレコメンデーションサービスに対して、数十兆以上のスパースパラメータを持つ巨大なディープモデルに対して、毎秒数十億のオンライン推論要求を処理するJIZHIA Model-as-a-Serviceシステムを提案する。 JIZHIでは、レコメンデーション要求の推論ワークフローをステージドイベント駆動パイプライン(SEDP)に変換し、パイプラインの各ノードがステージド計算またはI/O集約タスクプロセッサを参照する。 リアルタイムの推論要求のトラフィックが到着すると、各モジュール化されたプロセッサは完全に非同期化され、個別に管理される。 さらに、JIZHIは不均一かつ階層的なストレージを導入し、不要な計算と超スパースモデルパラメータによる潜在的なデータアクセス遅延を低減し、オンライン推論プロセスをさらに加速する。 さらに、履歴ログから最適なリソース割り当て計画を探し出し、中間システムフィードバックの負荷層ポリシーを微調整することで、共有インフラ上でのJIZHIのスループットを最大化するためにインテリジェントなリソースマネージャが配置されている。 エンドツーエンドのサービスレイテンシ、システム全体のスループット、リソース消費の観点から、JIZHIのメリットを示す大規模な実験が行われた。 JIZHIはBaiduが1000万ドルあまりのハードウェアとユーティリティ費用を節約し、推論効率を犠牲にすることなく200%以上のトラフィックを処理した。

In modern internet industries, deep learning based recommender systems have became an indispensable building block for a wide spectrum of applications, such as search engine, news feed, and short video clips. However, it remains challenging to carry the well-trained deep models for online real-time inference serving, with respect to the time-varying web-scale traffics from billions of users, in a cost-effective manner. In this work, we present JIZHI - a Model-as-a-Service system - that per second handles hundreds of millions of online inference requests to huge deep models with more than trillions of sparse parameters, for over twenty real-time recommendation services at Baidu, Inc. In JIZHI, the inference workflow of every recommendation request is transformed to a Staged Event-Driven Pipeline (SEDP), where each node in the pipeline refers to a staged computation or I/O intensive task processor. With traffics of real-time inference requests arrived, each modularized processor can be run in a fully asynchronized way and managed separately. Besides, JIZHI introduces heterogeneous and hierarchical storage to further accelerate the online inference process by reducing unnecessary computations and potential data access latency induced by ultra-sparse model parameters. Moreover, an intelligent resource manager has been deployed to maximize the throughput of JIZHI over the shared infrastructure by searching the optimal resource allocation plan from historical logs and fine-tuning the load shedding policies over intermediate system feedback. Extensive experiments have been done to demonstrate the advantages of JIZHI from the perspectives of end-to-end service latency, system-wide throughput, and resource consumption. JIZHI has helped Baidu saved more than ten million US dollars in hardware and utility costs while handling 200% more traffics without sacrificing inference efficiency.
翻訳日:2021-06-04 15:55:45 公開日:2021-06-03
# 癌転移予測のためのリンパ節グラフニューラルネットワーク

Lymph Node Graph Neural Networks for Cancer Metastasis Prediction ( http://arxiv.org/abs/2106.01711v1 )

ライセンス: Link先を確認
Michal Kazmierski and Benjamin Haibe-Kains(参考訳) 個々のがん患者の生存や転移などの予後を予測することは、精密腫瘍学の重要な要素である。 機械学習(ML)は、臨床情報や画像を含むリッチなマルチモーダルデータを活用するための有望な方法を提供し、疾患の軌跡の予測を学習し、臨床的意思決定を知らせる。 本稿では,局所リンパ節(LN)に拡がる既存癌の画像特徴と,その接続パターンを予後MLモデルに組み込むためのグラフベースの新しいアプローチを提案する。 エッジゲートグラフ畳み込みネットワーク (gated-gcn) を訓練し, ソフトエッジ注意機構を用いてlnグラフに情報を伝達することにより, 遠隔転移 (dm) のリスクを正確に予測した。 1570人の頭頸部がん患者のコホートにおいて、Gated-GCNは2年間のDM分類で0.757のAUROC、生涯DMリスク予測で0.725のC$-indexを達成し、現在の予後因子と、集約されたLN特徴に基づく以前のアプローチより優れている。 また, グラフ構造と個々のリンパ節の重要性について, アブレーション実験および解釈可能性研究を通じて検討し, 個々のLN特性と癌領域間の関係を考察することの重要性を強調した。

Predicting outcomes, such as survival or metastasis for individual cancer patients is a crucial component of precision oncology. Machine learning (ML) offers a promising way to exploit rich multi-modal data, including clinical information and imaging to learn predictors of disease trajectory and help inform clinical decision making. In this paper, we present a novel graph-based approach to incorporate imaging characteristics of existing cancer spread to local lymph nodes (LNs) as well as their connectivity patterns in a prognostic ML model. We trained an edge-gated Graph Convolutional Network (Gated-GCN) to accurately predict the risk of distant metastasis (DM) by propagating information across the LN graph with the aid of soft edge attention mechanism. In a cohort of 1570 head and neck cancer patients, the Gated-GCN achieves AUROC of 0.757 for 2-year DM classification and $C$-index of 0.725 for lifetime DM risk prediction, outperforming current prognostic factors as well as previous approaches based on aggregated LN features. We also explored the importance of graph structure and individual lymph nodes through ablation experiments and interpretability studies, highlighting the importance of considering individual LN characteristics as well as the relationships between regions of cancer spread.
翻訳日:2021-06-04 15:55:09 公開日:2021-06-03
# 安全なHRIのためのドライバの操作モデルと予測

Drivers' Manoeuvre Modelling and Prediction for Safe HRI ( http://arxiv.org/abs/2106.01730v1 )

ライセンス: Link先を確認
Erwin Jose Lopez Pulgarin, Guido Herrmann, Ute Leonards(参考訳) ロボットや車両などの自律型マシンが人間のユーザに関わるタスクを実行し始めると、それら間の安全なインタラクションが問題となる。 人間-ロボット相互作用(HRI)からの翻訳法は、人間と他の高度に複雑な機械(例えば、)との相互作用を研究する。 半自律車)は、人間のインタラクションを必要とするシナリオでこれらのマシンの使用を前進させるのに役立つ。 一つの方法は、ロボットと対話しながら人間の現在および近未来の行動を推定するための人間の意図と意思決定を理解することである。 この考え方は、ロボット工学や最近は自律車や半自律車のために広く研究されてきた心の理論の心理学的概念に由来する。 本研究では、人間の動き、車の状態、人的入力(例えば、人的入力)からのデータを組み合わせて行動の前に人間の意図を予測する方法について検討した。 ハンドル、ペダル)。 リカレントニューラルネットワークモデルに基づくデータ駆動アプローチは、現在の運転操作を分類し、将来の運転動作を予測するために用いられた。 状態遷移モデルは、リアルタイムアプリケーションの試行中に記録されたデータに固定された操作セットで使用される。 モデルは、異なる座席の選好、運転の専門知識、腕長のドライバーを用いて訓練され、精度とリコールのメトリクスが95%以上、操作予測の86%が達成され、既知の被験者と未知の被験者の両方で最大1秒のタイムウインドウが予測された。 以上の結果と比較すると, 未知の被験者に対して, 現在の操作を知らずに, 性能の向上と操作予測が可能であった。

As autonomous machines such as robots and vehicles start performing tasks involving human users, ensuring a safe interaction between them becomes an important issue. Translating methods from human-robot interaction (HRI) studies to the interaction between humans and other highly complex machines (e.g. semi-autonomous vehicles) could help advance the use of those machines in scenarios requiring human interaction. One method involves understanding human intentions and decision-making to estimate the human's present and near-future actions whilst interacting with a robot. This idea originates from the psychological concept of Theory of Mind, which has been broadly explored for robotics and recently for autonomous and semi-autonomous vehicles. In this work, we explored how to predict human intentions before an action is performed by combining data from human-motion, vehicle-state and human inputs (e.g. steering wheel, pedals). A data-driven approach based on Recurrent Neural Network models was used to classify the current driving manoeuvre and to predict the future manoeuvre to be performed. A state-transition model was used with a fixed set of manoeuvres to label data recorded during the trials for real-time applications. Models were trained and tested using drivers of different seat preferences, driving expertise and arm-length; precision and recall metrics over 95% for manoeuvre identification and 86% for manoeuvre prediction were achieved, with prediction time-windows of up to 1 second for both known and unknown test subjects. Compared to our previous results, performance improved and manoeuvre prediction was possible for unknown test subjects without knowing the current manoeuvre.
翻訳日:2021-06-04 15:54:46 公開日:2021-06-03
# 変動微視的磁場と不完全相互作用を用いた時間進化による多体基底状態の生成

Preparation of Many-body Ground States by Time Evolution with Variational Microscopic Magnetic Fields and Incomplete Interactions ( http://arxiv.org/abs/2106.01779v1 )

ライセンス: Link先を確認
Ying Lu, Yue-Min Li, Peng-Fei Zhou and Shi-Ju Ran(参考訳) 状態準備は量子物理学において基本的な重要性であり、初期状態をターゲットに変換するユニタリとして量子回路を構築したり、設計されたハミルトニアンでターゲット状態に進化させる量子制御プロトコルを実装して実現することができる。 本研究では、量子多体系における後者の研究を、固定結合と変動磁場による時間発展により行う。 具体的には、ハミルトニアンの時間発展に欠けている特定の相互作用を含むハミルトニアンの基底状態の準備を考える。 精度と安定性を向上するために, 時間の離散化を「微粒化」することで磁場を最適化する最適化法を提案する。 逆伝播法を用いて対数的忠実度に対する場の勾配を求める。 本手法は,xy と ising の相互作用による時間発展を伴うハイゼンベルク鎖の基底状態を作成し,その性能は局所最適化戦略とグローバル最適化戦略を用いた2つの基本手法を上回った。 我々の研究は、高次元格子上で定義されるような他の量子モデルに適用し、一般化することができる。 量子制御や他の量子情報や計算におけるタスクを実装するために必要な相互作用の複雑さを、磁場を最適化することで軽減する。

State preparation is of fundamental importance in quantum physics, which can be realized by constructing the quantum circuit as a unitary that transforms the initial state to the target, or implementing a quantum control protocol to evolve to the target state with a designed Hamiltonian. In this work, we study the latter on quantum many-body systems by the time evolution with fixed couplings and variational magnetic fields. In specific, we consider to prepare the ground states of the Hamiltonians containing certain interactions that are missing in the Hamiltonians for the time evolution. An optimization method is proposed to optimize the magnetic fields by "fine-graining" the discretization of time, in order to gain high precision and stability. The back propagation technique is utilized to obtain the gradients of the fields against the logarithmic fidelity. Our method is tested on preparing the ground state of Heisenberg chain with the time evolution by the XY and Ising interactions, and its performance surpasses two baseline methods that use local and global optimization strategies, respectively. Our work can be applied and generalized to other quantum models such as those defined on higher dimensional lattices. It enlightens to reduce the complexity of the required interactions for implementing quantum control or other tasks in quantum information and computation by means of optimizing the magnetic fields.
翻訳日:2021-06-04 15:54:20 公開日:2021-06-03
# (参考訳) 大規模確率回帰のための確率勾配昇降機 [全文訳有]

Probabilistic Gradient Boosting Machines for Large-Scale Probabilistic Regression ( http://arxiv.org/abs/2106.01682v1 )

ライセンス: CC BY 4.0
Olivier Sprangers, Sebastian Schelter, Maarten de Rijke(参考訳) グラフデータ問題を解決するために、GBM(Gradient Boosting Machines)は非常に人気がある。 しかし、実践者は点予測だけでなく、予測の不確実性を定量化する確率予測にも興味を持っている。 このような確率的予測を作成することは、既存のGBMベースのソリューションでは困難である。 本稿では,決定木を単一のアンサンブルで計算効率良く確率的予測を行う手法であるpgbm(probabilistic gradient boosting machines)を提案する。 PGBMは決定木の葉重量をランダム変数として近似し、確率木アンサンブル更新方程式を用いてデータセット内の各サンプルの平均と分散を近似する。 これらの学習モーメントは、トレーニング後に特定のディストリビューションからサンプルをサンプリングすることを可能にする。 We empirically demonstrate the advantages of PGBM compared to existing state-of-the-art methods: (i) PGBM enables probabilistic estimates without compromising on point performance in a single model, (ii) PGBM learns probabilistic estimates via a single model only (and without requiring multi-parameter boosting), and thereby offers a speedup of up to several orders of magnitude over existing state-of-the-art methods on large datasets, and (iii) PGBM achieves accurate probabilistic estimates in tasks with complex differentiable loss functions, such as hierarchical time series problems, where we observed up to 10\% improvement in point forecasting performance and up to 300\% improvement in probabilistic forecasting performance.

Gradient Boosting Machines (GBM) are hugely popular for solving tabular data problems. However, practitioners are not only interested in point predictions, but also in probabilistic predictions in order to quantify the uncertainty of the predictions. Creating such probabilistic predictions is difficult with existing GBM-based solutions: they either require training multiple models or they become too computationally expensive to be useful for large-scale settings. We propose Probabilistic Gradient Boosting Machines (PGBM), a method to create probabilistic predictions with a single ensemble of decision trees in a computationally efficient manner. PGBM approximates the leaf weights in a decision tree as a random variable, and approximates the mean and variance of each sample in a dataset via stochastic tree ensemble update equations. These learned moments allow us to subsequently sample from a specified distribution after training. We empirically demonstrate the advantages of PGBM compared to existing state-of-the-art methods: (i) PGBM enables probabilistic estimates without compromising on point performance in a single model, (ii) PGBM learns probabilistic estimates via a single model only (and without requiring multi-parameter boosting), and thereby offers a speedup of up to several orders of magnitude over existing state-of-the-art methods on large datasets, and (iii) PGBM achieves accurate probabilistic estimates in tasks with complex differentiable loss functions, such as hierarchical time series problems, where we observed up to 10\% improvement in point forecasting performance and up to 300\% improvement in probabilistic forecasting performance.
翻訳日:2021-06-04 15:46:03 公開日:2021-06-03
# (参考訳) 不完全インスタンスのインプテーションと分類のための半教師付き条件密度推定 [全文訳有]

Semi-supervised Conditional Density Estimation for Imputation and Classification of Incomplete Instances ( http://arxiv.org/abs/2106.01708v1 )

ライセンス: CC BY 4.0
Buliao Huang(参考訳) 現実世界のシーンで様々な属性が欠けている不完全なインスタンスは、分類タスクに課題をもたらしました。 欠落した値を分類の前に代用値で満たすための、欠落値インプテーション法がある。 しかし,ラベル情報はインプテーション中に無視されるため,インプテーションと分類の分離は性能を低下させる可能性がある。 さらに、これらの計算手法は、これらの欠落した値を強い事前仮定で初期化する傾向があるが、そのような初期化の不確実性はほとんど考慮されない。 これらの問題に対処するために,新しい半教師付き条件正規化フロー(SSCFlow)を提案する。 sscflowは観測されたラベルを明示的に利用し、半教師付きアルゴリズムを用いて欠落値の条件付き確率密度を推定することにより、インプテーションと分類を同時に行う。 さらに、sscflowは初期化欠落値を崩壊した初期インプテーションとして捉え、その潜在表現をオーバーコンプリートデノイジングオートエンコーダで反復的に再構成し、欠落した値の真の条件付き確率密度を近似する。 提案アルゴリズムの堅牢性と効率性を示すために,実世界のデータセットを用いて実験を行った。

Incomplete instances with various missing attributes in many real-world scenes have brought challenges to the classification task. There are some missing values imputation methods to fill the missing values with substitute values before classification. However, the separation between imputation and classification may lead to inferior performance since label information are ignored during imputation. Moreover, these imputation methods tend to initialize these missing values with strong prior assumptions, while the unreliability of such initialization is rarely considered. To tackle these problems, a novel semi-supervised conditional normalizing flow (SSCFlow) is proposed in this paper. SSCFlow explicitly utilizes the observed labels to facilitate the imputation and classification simultaneously by employing a semi-supervised algorithm to estimate the conditional probability density of missing values. Moreover, SSCFlow takes the initialized missing values as corrupted initial imputation and iteratively reconstructs their latent representations with an overcomplete denoising autoencoder to approximate the true conditional probability density of missing values. Experiments have been conducted with real-world datasets to demonstrate the robustness and efficiency of the proposed algorithm.
翻訳日:2021-06-04 14:55:24 公開日:2021-06-03
# (参考訳) 深層ネットワークにおける連続学習:最終層の解析 [全文訳有]

Continual Learning in Deep Networks: an Analysis of the Last Layer ( http://arxiv.org/abs/2106.01834v1 )

ライセンス: CC BY 4.0
Timoth\'ee Lesort, Thomas George, Irina Rish(参考訳) ディープニューラルネットワークの異なる出力層タイプが,連続学習環境でどのように学習し,忘れていくかを検討する。 本報告では,(1)重量変化,(2)干渉,(3)投影ドリフトの3つの要因について述べる。 当社の目標は、さまざまなタイプの出力層が(1)と(2)にどのように対処できるか、さらなる洞察を提供することです。 また,提案手法を提案し,いくつかのベンチマークで評価する。 最適な出力層タイプは、データ分散のドリフトや利用可能なデータ量に依存することを示す。 特に、標準的な線形層が失敗するケースでは、SGDでトレーニングしながらパラメトリゼーションを変更し、パフォーマンスを大幅に向上させるのに十分である。 結果と分析は,連続学習シナリオにおけるアウトプット層のダイナミクスに光を当て,与えられたシナリオに最適なアウトプット層を選択するのに役立つ。

We study how different output layer types of a deep neural network learn and forget in continual learning settings. We describe the three factors affecting catastrophic forgetting in the output layer: (1) weights modifications, (2) interferences, and (3) projection drift. Our goal is to provide more insights into how different types of output layers can address (1) and (2). We also propose potential solutions and evaluate them on several benchmarks. We show that the best-performing output layer type depends on the data distribution drifts or the amount of data available. In particular, in some cases where a standard linear layer would fail, it is sufficient to change the parametrization and get significantly better performance while still training with SGD. Our results and analysis shed light on the dynamics of the output layer in continual learning scenarios and help select the best-suited output layer for a given scenario.
翻訳日:2021-06-04 14:31:27 公開日:2021-06-03
# (参考訳) 株価変動予測における畳み込みニューラルネットワーク(CNN/ConvNet) [全文訳有]

Convolutional Neural Network(CNN/ConvNet) in Stock Price Movement Prediction ( http://arxiv.org/abs/2106.01920v1 )

ライセンス: CC BY 4.0
Kunal Bhardwaj(参考訳) 技術進歩とデータの指数的な成長により、私たちはさまざまな分野のニューラルネットワークの能力を広げてきました。 本稿では,市場において,畳み込みニューラルネットワーク(CNN/ConvNet)と呼ばれる,特定のタイプのニューラルネットワークの利用を試みた。 言い換えれば、私は過去の株価データに基づいて畳み込みニューラルネットワークを構築し、訓練し、株価の動きを予測しようとしたのです。 株価が上昇するか下落するかは、今後どうなるかだ。

With technological advancements and the exponential growth of data, we have been unfolding different capabilities of neural networks in different sectors. In this paper, I have tried to use a specific type of Neural Network known as Convolutional Neural Network(CNN/ConvNet) in the stock market. In other words, I have tried to construct and train a convolutional neural network on past stock prices data and then tried to predict the movement of stock price i.e. whether the stock price would rise or fall, in the coming time.
翻訳日:2021-06-04 14:13:10 公開日:2021-06-03
# (参考訳) lyricjam:ライブインストゥルメンタル音楽のための歌詞生成システム [全文訳有]

LyricJam: A system for generating lyrics for live instrumental music ( http://arxiv.org/abs/2106.01960v1 )

ライセンス: CC BY 4.0
Olga Vechtomova, Gaurav Sahu, Dhruv Kumar(参考訳) 本稿では、ジャムセッションからライブオーディオストリームを受信し、演奏中のライブ音楽と一致した歌詞行を生成するリアルタイムシステムについて述べる。 2つの新しいアプローチが提案され、学習された音声とテキスト表現の潜在空間を整合させ、ライブ楽器音楽にマッチする新しい歌詞を生成する。 一つのアプローチは、オーディオと歌詞の潜在表現の逆アライメントに基づいており、もう一方のアプローチは、トポロジーを音楽の潜在空間から歌詞の潜在空間に移すことを学ぶ。 このシステムを用いた音楽アーティストのユーザスタディでは、このシステムは歌詞合成だけでなく、即興演奏や新しい音楽表現の発見にも有用であることが示された。 別のユーザ調査では,提案手法を用いて生成された行を,ベースラインモデルで生成された行よりも好んだ。

We describe a real-time system that receives a live audio stream from a jam session and generates lyric lines that are congruent with the live music being played. Two novel approaches are proposed to align the learned latent spaces of audio and text representations that allow the system to generate novel lyric lines matching live instrumental music. One approach is based on adversarial alignment of latent representations of audio and lyrics, while the other approach learns to transfer the topology from the music latent space to the lyric latent space. A user study with music artists using the system showed that the system was useful not only in lyric composition, but also encouraged the artists to improvise and find new musical expressions. Another user study demonstrated that users preferred the lines generated using the proposed methods to the lines generated by a baseline model.
翻訳日:2021-06-04 14:01:28 公開日:2021-06-03
# (参考訳) 対話における感情認識のための文脈推論ネットワーク [全文訳有]

DialogueCRN: Contextual Reasoning Networks for Emotion Recognition in Conversations ( http://arxiv.org/abs/2106.01978v1 )

ライセンス: CC BY 4.0
Dou Hu, Lingwei Wei, Xiaoyong Huai(参考訳) Emotion Recognition in Conversations (ERC) は共感機械の開発に注目が集まっている。 近年,深層学習モデルによる会話文脈の知覚に多くのアプローチが注がれている。 しかし、これらのアプローチは感情的な手がかりを抽出し統合する能力が欠如しているため、文脈を理解するには不十分である。 本研究では,会話コンテキストを認知的視点から完全に理解するための新しい文脈推論ネットワーク(DialogueCRN)を提案する。 感情の認知理論に着想を得て,感情的手がかりを抽出・統合するために多ターン推論モジュールを設計した。 推論モジュールは、人間の独特な認知思考を模倣する直感的検索プロセスと意識的推論プロセスを反復的に実行する。 3つのベンチマークデータセットに関する広範な実験は、提案モデルの有効性と優位性を示している。

Emotion Recognition in Conversations (ERC) has gained increasing attention for developing empathetic machines. Recently, many approaches have been devoted to perceiving conversational context by deep learning models. However, these approaches are insufficient in understanding the context due to lacking the ability to extract and integrate emotional clues. In this work, we propose novel Contextual Reasoning Networks (DialogueCRN) to fully understand the conversational context from a cognitive perspective. Inspired by the Cognitive Theory of Emotion, we design multi-turn reasoning modules to extract and integrate emotional clues. The reasoning module iteratively performs an intuitive retrieving process and a conscious reasoning process, which imitates human unique cognitive thinking. Extensive experiments on three public benchmark datasets demonstrate the effectiveness and superiority of the proposed model.
翻訳日:2021-06-04 13:48:47 公開日:2021-06-03
# (参考訳) 大規模回帰のための勾配強化二元ヒストグラムアンサンブル

Gradient Boosted Binary Histogram Ensemble for Large-scale Regression ( http://arxiv.org/abs/2106.01986v1 )

ライセンス: CC0 1.0
Hanyuan Hang, Tao Huang, Yuchao Cai, Hanfang Yang, Zhouchen Lin(参考訳) 本稿では,2進ヒストグラム分割とアンサンブル学習に基づく大規模回帰問題である「textit{Gradient Boosted Binary Histogram Ensemble} (GBBHE) の勾配向上アルゴリズムを提案する。 理論的には、対象関数の h\"{o}lder 連続性を仮定することで、ベース学習者の収束率の下限がブースティングの利点を示す空間 $c^{0,\alpha}$ と $c^{1,0}$ における gbbhe の統計収束率を確立する。 さらに、空間 $c^{1,0}$ において、アンサンブルレグレッサをベース学習器として使用することにより、高速な収束率を達成するための反復回数を削減できることが証明され、計算効率が向上する。 実験では,勾配増進回帰木 (GBRT) やブレイマンの森,カーネルベースの手法など,他の最先端アルゴリズムと比較して,大規模データセット上での実行時間が少なくて有望な性能を示す。

In this paper, we propose a gradient boosting algorithm for large-scale regression problems called \textit{Gradient Boosted Binary Histogram Ensemble} (GBBHE) based on binary histogram partition and ensemble learning. From the theoretical perspective, by assuming the H\"{o}lder continuity of the target function, we establish the statistical convergence rate of GBBHE in the space $C^{0,\alpha}$ and $C^{1,0}$, where a lower bound of the convergence rate for the base learner demonstrates the advantage of boosting. Moreover, in the space $C^{1,0}$, we prove that the number of iterations to achieve the fast convergence rate can be reduced by using ensemble regressor as the base learner, which improves the computational efficiency. In the experiments, compared with other state-of-the-art algorithms such as gradient boosted regression tree (GBRT), Breiman's forest, and kernel-based methods, our GBBHE algorithm shows promising performance with less running time on large-scale datasets.
翻訳日:2021-06-04 13:16:14 公開日:2021-06-03
# (参考訳) グラフベース分類器の効率的な説明について [全文訳有]

On Efficiently Explaining Graph-Based Classifiers ( http://arxiv.org/abs/2106.01350v2 )

ライセンス: CC BY 4.0
Xuanxiang Huang, Yacine Izza, Alexey Ignatiev, Joao Marques-Silva(参考訳) 近年の研究では、決定木(DT)は解釈可能であるだけでなく、DTの1つのPI展開を計算するための多項式時間アルゴリズムも提案されている。 本稿では,決定木や二分決定ダイアグラムを含む大域的に決定グラフと呼ばれる幅広い分類器に対して,その多値変種に対して,多項式時間計算アルゴリズムが存在することを示す。 さらに,1つの対照的な説明を計算するための多項式時間アルゴリズムを提案する。 これらの新しいアルゴリズムは説明グラフ(xpg)に基づいている。 XpGは、決定グラフに対する説明の理論的および実用的な計算を可能にするグラフ表現である。 さらに,本論文では,説明の列挙に有効な解法を提案するとともに,ある特徴が何らかの説明に含まれるかどうかを判断する複雑さについて考察する。 決定木を具体例にすると、すべての対照的な説明の集合は多項式時間で列挙できることを示した。 最後に,本論文で提案するアルゴリズムの実用性について,幅広い公開ベンチマークで検証した。

Recent work has shown that not only decision trees (DTs) may not be interpretable but also proposed a polynomial-time algorithm for computing one PI-explanation of a DT. This paper shows that for a wide range of classifiers, globally referred to as decision graphs, and which include decision trees and binary decision diagrams, but also their multi-valued variants, there exist polynomial-time algorithms for computing one PI-explanation. In addition, the paper also proposes a polynomial-time algorithm for computing one contrastive explanation. These novel algorithms build on explanation graphs (XpG's). XpG's denote a graph representation that enables both theoretical and practically efficient computation of explanations for decision graphs. Furthermore, the paper pro- poses a practically efficient solution for the enumeration of explanations, and studies the complexity of deciding whether a given feature is included in some explanation. For the concrete case of decision trees, the paper shows that the set of all contrastive explanations can be enumerated in polynomial time. Finally, the experimental results validate the practical applicability of the algorithms proposed in the paper on a wide range of publicly available benchmarks.
翻訳日:2021-06-04 13:09:39 公開日:2021-06-03
# krotovとhopfieldの論文について [arxiv:2008.06996]

A remark on a paper of Krotov and Hopfield [arXiv:2008.06996] ( http://arxiv.org/abs/2105.15034v2 )

ライセンス: Link先を確認
Fei Tang, Michael Kopp(参考訳) 先日の論文 "large associative memory problem in neurobiology and machine learning" (arxiv:2008.06996) で著者らは、文献で議論された多くの密集した連想記憶モデルを取り戻せる生物学的に妥当な顕微鏡理論を提示した。 近年のmlp-mixer [arxiv:2105.01601] の層と [arxiv:2105.02723] の本質的に等価なモデルがこれに含まれることを示す。

In their recent paper titled "Large Associative Memory Problem in Neurobiology and Machine Learning" [arXiv:2008.06996] the authors gave a biologically plausible microscopic theory from which one can recover many dense associative memory models discussed in the literature. We show that the layers of the recent "MLP-mixer" [arXiv:2105.01601] as well as the essentially equivalent model in [arXiv:2105.02723] are amongst them.
翻訳日:2021-06-04 12:31:35 公開日:2021-06-03
# 会話型質問への回答:調査

Conversational Question Answering: A Survey ( http://arxiv.org/abs/2106.00874v2 )

ライセンス: Link先を確認
Munazza Zaib and Wei Emma Zhang and Quan Z. Sheng and Adnan Mahmood and Yang Zhang(参考訳) 質問応答(QA)システムは、自然言語の非構造化データや構造化データを含む様々なフォーマットで利用可能な情報をクエリする方法を提供する。 これは会話型人工知能(ai)のかなりの部分を構成するもので、会話型質問応答(cqa)に関する特別な研究トピックの導入につながった。 既存の研究の焦点はシングルターンQAとなっているが、マルチターンQAの分野は、大規模なマルチターンQAデータセットが利用可能であることや、事前訓練された言語モデルの開発などにより、近年注目を集めている。 最近、毎年多くのモデルや研究論文が文献に追加されているため、今後の研究を合理化するために、関連する研究を統一的に整理し提示する必要がある。 この調査は、2016-2021年のレビュー論文に基づいて、CQAの最先端研究動向を包括的にレビューする試みである。 以上の結果から,会話型AIの分野をさまざまな観点から活性化する一ターンQAから多ターンQAへの傾向が示唆された。 この調査は、CQA分野の強力な基盤を築きたいと願う研究コミュニティにエピトームを提供することを目的としている。

Question answering (QA) systems provide a way of querying the information available in various formats including, but not limited to, unstructured and structured data in natural languages. It constitutes a considerable part of conversational artificial intelligence (AI) which has led to the introduction of a special research topic on Conversational Question Answering (CQA), wherein a system is required to understand the given context and then engages in multi-turn QA to satisfy the user's information needs. Whilst the focus of most of the existing research work is subjected to single-turn QA, the field of multi-turn QA has recently grasped attention and prominence owing to the availability of large-scale, multi-turn QA datasets and the development of pre-trained language models. With a good amount of models and research papers adding to the literature every year recently, there is a dire need of arranging and presenting the related work in a unified manner to streamline future research. This survey, therefore, is an effort to present a comprehensive review of the state-of-the-art research trends of CQA primarily based on reviewed papers from 2016-2021. Our findings show that there has been a trend shift from single-turn to multi-turn QA which empowers the field of Conversational AI from different perspectives. This survey is intended to provide an epitome for the research community with the hope of laying a strong foundation for the field of CQA.
翻訳日:2021-06-04 12:31:23 公開日:2021-06-03
# ベクトル変数を用いた潜在木学習のロバスト化アルゴリズム

Robustifying Algorithms of Learning Latent Trees with Vector Variables ( http://arxiv.org/abs/2106.00885v2 )

ライセンス: Link先を確認
Fengzhuo Zhang, Vincent Y. F. Tan(参考訳) 我々は,その部分集合が任意に破損した場合に,ベクトル観測によりガウスの潜在木モデルの構造を学習することを検討する。 まず、実効深度が観測ノード数で有界であるという仮定なしに、再帰的グループ (RG) と Chow-Liu Recursive Grouping (CLRG) のサンプル複雑度を示し、Choi et al において結果を著しく一般化する。 (2011). CLRGにおけるChow-Liu初期化は,木径の指数関数化から隠れマルコフモデル(HMM)の対数化まで,RGのサンプル複雑性を大幅に減少させることを示す。 次に,RG,CLRG,Neighbor Joining (NJ) およびSpectral NJ (SNJ) をトラッピングした内積を用いて強化する。 これらの堅牢化アルゴリズムは、クリーンサンプル数の平方根まで多くの汚職を許容することができる。 最後に、潜在木の構造学習において、最初の既知のインスタンス依存不合理性を導出する。 CLRG と NJ のロバストバージョンの最適性は、それらのサンプルの複雑さと不合理性の結果を比較して検証する。

We consider learning the structures of Gaussian latent tree models with vector observations when a subset of them are arbitrarily corrupted. First, we present the sample complexities of Recursive Grouping (RG) and Chow-Liu Recursive Grouping (CLRG) without the assumption that the effective depth is bounded in the number of observed nodes, significantly generalizing the results in Choi et al. (2011). We show that Chow-Liu initialization in CLRG greatly reduces the sample complexity of RG from being exponential in the diameter of the tree to only logarithmic in the diameter for the hidden Markov model (HMM). Second, we robustify RG, CLRG, Neighbor Joining (NJ) and Spectral NJ (SNJ) by using the truncated inner product. These robustified algorithms can tolerate a number of corruptions up to the square root of the number of clean samples. Finally, we derive the first known instance-dependent impossibility result for structure learning of latent trees. The optimalities of the robust version of CLRG and NJ are verified by comparing their sample complexities and the impossibility result.
翻訳日:2021-06-04 12:31:00 公開日:2021-06-03
# 重み付きデータを用いた微分プライベート確率凸最適化の精度向上

Improved Rates for Differentially Private Stochastic Convex Optimization with Heavy-Tailed Data ( http://arxiv.org/abs/2106.01336v2 )

ライセンス: Link先を確認
Gautam Kamath, Xingtu Liu, Huanyu Zhang(参考訳) 差分プライバシーの制約の下で,重み付きデータを用いた確率凸最適化について検討した。 この問題に関するほとんどの先行研究は、損失関数がリプシッツである場合に限られる。 代わりに、Wang, Xiao, Devadas, Xu によって導入されたように、勾配の分布が k$-次モーメントに有界であるという仮定で一般凸損失函数を研究する。 我々は、それぞれ凸と強い凸損失関数に対して、近似微分プライバシーの下で、過剰な集団リスクを$\tilde{O}\left(\sqrt {\frac{d}{n}}+\left(\frac{d}{\epsilon n}\right)^{\frac{k-1}{k}}\right)$と$\tilde{O}\left(\frac{d}{n}+\left(\frac{d}{\epsilon n}\right)^{\frac{2k-2}{k}}\right)$で改善した上限を提供する。 また、純粋な微分プライバシーの制約の下で下限とほぼ一致することを証明し、我々の境界が厳密であることの強い証拠を与えます。

We study stochastic convex optimization with heavy-tailed data under the constraint of differential privacy. Most prior work on this problem is restricted to the case where the loss function is Lipschitz. Instead, as introduced by Wang, Xiao, Devadas, and Xu, we study general convex loss functions with the assumption that the distribution of gradients has bounded $k$-th moments. We provide improved upper bounds on the excess population risk under approximate differential privacy of $\tilde{O}\left(\sqrt{\frac{d}{n}}+\left(\frac{d}{\epsilon n}\right)^{\frac{k-1}{k}}\right)$ and $\tilde{O}\left(\frac{d}{n}+\left(\frac{d}{\epsilon n}\right)^{\frac{2k-2}{k}}\right)$ for convex and strongly convex loss functions, respectively. We also prove nearly-matching lower bounds under the constraint of pure differential privacy, giving strong evidence that our bounds are tight.
翻訳日:2021-06-04 12:30:43 公開日:2021-06-03
# DynaEval: ターンと対話レベルの統一評価

DynaEval: Unifying Turn and Dialogue Level Evaluation ( http://arxiv.org/abs/2106.01112v2 )

ライセンス: Link先を確認
Chen Zhang, Yiming Chen, Luis Fernando D'Haro, Yan Zhang, Thomas Friedrichs, Grandee Lee, Haizhou Li(参考訳) 対話は本質的には対話者間のマルチターン対話である。 効果的な評価基準は、そのような相互作用のダイナミクスを反映すべきである。 既存の自動メトリクスはターンレベルの品質に非常に重点を置いています。 そこで本研究では,ターンレベルの評価を行うだけでなく,対話全体の質を総合的に検討できる統一的な自動評価フレームワークdynaevalを提案する。 dynaevalでは、グラフ畳み込みネットワーク(graph convolutional network, gcn)が、グラフノードが個々の発話を表現し、エッジが1対の発話間の依存関係を表すトータルな対話をモデル化するために採用されている。 対照的な損失は、慎重に構築された負のサンプルとよく形成された対話を区別するために適用される。 実験の結果,DynaEvalは最先端の対話コヒーレンスモデルよりも優れており,旋回・対話レベルの複数の対話評価面において,人間の判断と強く相関していることがわかった。

A dialogue is essentially a multi-turn interaction among interlocutors. Effective evaluation metrics should reflect the dynamics of such interaction. Existing automatic metrics are focused very much on the turn-level quality, while ignoring such dynamics. To this end, we propose DynaEval, a unified automatic evaluation framework which is not only capable of performing turn-level evaluation, but also holistically considers the quality of the entire dialogue. In DynaEval, the graph convolutional network (GCN) is adopted to model a dialogue in totality, where the graph nodes denote each individual utterance and the edges represent the dependency between pairs of utterances. A contrastive loss is then applied to distinguish well-formed dialogues from carefully constructed negative samples. Experiments show that DynaEval significantly outperforms the state-of-the-art dialogue coherence model, and correlates strongly with human judgements across multiple dialogue evaluation aspects at both turn and dialogue level.
翻訳日:2021-06-04 12:30:20 公開日:2021-06-03
# 大規模時空間人物再識別:アルゴリズムとベンチマーク

Large-Scale Spatio-Temporal Person Re-identification: Algorithm and Benchmark ( http://arxiv.org/abs/2105.15076v2 )

ライセンス: Link先を確認
Xiujun Shu, Xiao Wang, Shiliang Zhang, Xianghao Zhang, Yuanqi Chen, Ge Li, Qi Tian(参考訳) 空間的および時間的スパンが大きいシナリオにおける人物再識別(re-id)は完全には検討されていない。 これは、既存のベンチマークデータセットが主に、例えば、キャンパスの特定の領域のカメラによって数日間に記録されたビデオを使用して、空間的および時間的範囲に限られていたためである。 このような制限された空間的・時間的範囲は、実際のシナリオで人物の再識別の困難をシミュレートすることが困難である。 本研究では,224k以上の画像を持つ10,860のIDを含む,大規模時空間(LaST)人物再IDデータセットを提案する。 既存のデータセットと比較すると、LaSTはより困難で多様なreID設定を示し、空間的および時間的範囲が大幅に大きい。 例えば、各個人は異なる都市や国に出現し、昼から夜、春から冬にかけて様々な時間帯に出現する。 われわれの知る限りでは、LaSTは最大時空間範囲を持つ新しい人物のre-IDデータセットである。 LaSTに基づいて14個のre-IDアルゴリズムの総合的な性能評価を行い,その課題を検証した。 さらに,このような難易度の高いre-id設定では,実装が容易なベースラインを提案する。 また、LaST上で事前トレーニングされたモデルが、短期および布の交換シナリオを持つ既存のデータセットでうまく一般化可能であることも確認した。 LaSTは将来、より現実的で挑戦的なre-IDタスクに向けて機能することを期待しています。 データセットの詳細はhttps://github.com/s huxjweb/last.git.com で確認できる。

Person re-identification (re-ID) in the scenario with large spatial and temporal spans has not been fully explored. This is partially because that, existing benchmark datasets were mainly collected with limited spatial and temporal ranges, e.g., using videos recorded in a few days by cameras in a specific region of the campus. Such limited spatial and temporal ranges make it hard to simulate the difficulties of person re-ID in real scenarios. In this work, we contribute a novel Large-scale Spatio-Temporal (LaST) person re-ID dataset, including 10,860 identities with more than 224k images. Compared with existing datasets, LaST presents more challenging and high-diversity reID settings, and significantly larger spatial and temporal ranges. For instance, each person can appear in different cities or countries, and in various time slots from daytime to night, and in different seasons from spring to winter. To our best knowledge, LaST is a novel person re-ID dataset with the largest spatiotemporal ranges. Based on LaST, we verified its challenge by conducting a comprehensive performance evaluation of 14 re-ID algorithms. We further propose an easy-to-implement baseline that works well on such challenging re-ID setting. We also verified that models pre-trained on LaST can generalize well on existing datasets with short-term and cloth-changing scenarios. We expect LaST to inspire future works toward more realistic and challenging re-ID tasks. More information about the dataset is available at https://github.com/s huxjweb/last.git.
翻訳日:2021-06-04 12:30:02 公開日:2021-06-03
# 光リモートセンシング画像における物体検出のための回転同変特徴ピラミッドネットワーク

Rotation Equivariant Feature Image Pyramid Network for Object Detection in Optical Remote Sensing Imagery ( http://arxiv.org/abs/2106.00880v2 )

ライセンス: Link先を確認
Pourya Shamsolmoali, Masoumeh Zareapoor, Jocelyn Chanussot, Huiyu Zhou, and Jie Yang(参考訳) ここ数年、リモートセンシング画像(rsis)のオブジェクト検出は大幅に進歩しており、オブジェクトは一般的に大規模なバリエーションで分散され、異なる種類の方向を持つ。 それでも、現在の畳み込みニューラルネットワークアプローチには、サイズや回転の変化といった課題に対処する能力がない。 これらの問題に対処するため、回転同値畳み込みに基づく画像ピラミッドネットワークである回転同値特徴像ピラミッドネットワーク(REFIPN)を提案する。 提案するピラミッドネットワークは, 新規な畳み込みフィルタを用いて, 広い範囲で特徴を抽出する。 これらの特徴はベクトル場を生成し、画像上のすべての空間的位置に対して最も高い方向の重みと角度を決定するために用いられる。 最後に、抽出された特徴は検出器の予測層を通過する。 提案モデルの検出性能は,2つのベンチマークで検証し,提案手法が良好な効率で最先端の性能を実現できることを示す。

Over the last few years, there has been substantial progress in object detection on remote sensing images (RSIs) where objects are generally distributed with large-scale variations and have different types of orientations. Nevertheless, most of the current convolution neural network approaches lack the ability to deal with the challenges such as size and rotation variations. To address these problems, we propose the rotation equivariant feature image pyramid network (REFIPN), an image pyramid network based on rotation equivariance convolution. The proposed pyramid network extracts features in a wide range of scales and orientations by using novel convolution filters. These features are used to generate vector fields and determine the weight and angle of the highest-scoring orientation for all spatial locations on an image. Finally, the extracted features go through the prediction layers of the detector. The detection performance of the proposed model is validated on two commonly used aerial benchmarks and the results show our propose model can achieve state-of-the-art performance with satisfactory efficiency.
翻訳日:2021-06-04 12:29:40 公開日:2021-06-03
# 体組成解析のための3次元ct画像からの全身骨格筋・脂肪組織・骨切片の自動測定の包括的検証 : 拡張体組成に向けて

Comprehensive Validation of Automated Whole Body Skeletal Muscle, Adipose Tissue, and Bone Segmentation from 3D CT images for Body Composition Analysis: Towards Extended Body Composition ( http://arxiv.org/abs/2106.00652v2 )

ライセンス: Link先を確認
Da Ma, Vincent Chow, Karteek Popuri, Mirza Faisal Beg(参考訳) コンピュータ支援精密医療の最近の進歩は、グループベースの分析に有効な集合パターンを見つけるのに役立つ集団全体モデルから、治療の選択や治療結果の予測に関して患者固有の決定を導くことができる患者固有のモデルへと移行しやすくしている。 身体構成は、様々な疾患にとって重要な要因であり、また治療選択や外科的介入に対する患者固有の臨床結果の予測因子として認識されている。 3次元CT画像は、腫瘍学的ワークローで日常的に取得され、内部解剖の正確なレンダリングを提供するため、骨格筋の量や組織区画の分別を同時に評価することができる。 ディープラーニングのような強力な人工知能のツールは、3D画像全体を分割し、すべての内部解剖を正確に測定することを可能にする。 これにより、それまで存在した深刻なボトルネック、すなわち3dボリュームイメージを構成する数百の2d軸スライスにスケールすることを禁じられていた手動セグメンテーションの必要性が克服される。 今回紹介したような自動化ツールは、3dctやmri画像から全身の計測値を取り出すことができるようになり、個々の組織、臓器容積、形状、機能状態に基づいて様々な疾患のドライバが発見される新しい時代へと繋がる。 これらの測定は不可能であったため、フィールドを非常に小さく限られたサブセットに制限した。 これらの発見と、高速かつ精度で個々の画像セグメンテーションを行う能力は、がんなどの主要な疾患の発症後の栄養、老化、化学療法、手術、生存に関連する個々の治療計画モデルにこれらの3D尺度を組み込むことにつながる可能性が高い。

The latest advances in computer-assisted precision medicine are making it feasible to move from population-wide models that are useful to discover aggregate patterns that hold for group-based analysis to patient-specific models that can drive patient-specific decisions with regard to treatment choices, and predictions of outcomes of treatment. Body Composition is recognized as an important driver and risk factor for a wide variety of diseases, as well as a predictor of individual patient-specific clinical outcomes to treatment choices or surgical interventions. 3D CT images are routinely acquired in the oncological worklows and deliver accurate rendering of internal anatomy and therefore can be used opportunistically to assess the amount of skeletal muscle and adipose tissue compartments. Powerful tools of artificial intelligence such as deep learning are making it feasible now to segment the entire 3D image and generate accurate measurements of all internal anatomy. These will enable the overcoming of the severe bottleneck that existed previously, namely, the need for manual segmentation, which was prohibitive to scale to the hundreds of 2D axial slices that made up a 3D volumetric image. Automated tools such as presented here will now enable harvesting whole-body measurements from 3D CT or MRI images, leading to a new era of discovery of the drivers of various diseases based on individual tissue, organ volume, shape, and functional status. These measurements were hitherto unavailable thereby limiting the field to a very small and limited subset. These discoveries and the potential to perform individual image segmentation with high speed and accuracy are likely to lead to the incorporation of these 3D measures into individual specific treatment planning models related to nutrition, aging, chemotoxicity, surgery and survival after the onset of a major disease such as cancer.
翻訳日:2021-06-04 12:29:24 公開日:2021-06-03
# 変換器を選ぶ: Fourier または Galerkin

Choose a Transformer: Fourier or Galerkin ( http://arxiv.org/abs/2105.14995v2 )

ライセンス: Link先を確認
Shuhao Cao(参考訳) 本稿では, 偏微分方程式に関するデータ駆動型演算子学習問題に, 最新技術変換器の自己注意を初めて適用する。 我々は,大規模ドット積注意におけるソフトマックス正規化が十分だが必要ではないことを示すことによって,自己注意のヒューリスティックスを説明し,有効性を向上させる努力をまとめ,ペトロフ・ガレルキン射影として線形不変量の近似能力を証明した。 また,非正規化データを用いた演算子学習タスクにおいて,モデルが顕著な精度を達成できるようにするため,新しいレイヤ正規化方式を提案する。 最後に, viscid burgers' equation, an interface darcy flow, and an inverse interface coefficient identification problemという3つの演算子学習実験を行った。 すべての実験は、新たに提案されたsoftmax正規化演算子よりも単純な注意に基づく演算子学習器の改善を検証する。

In this paper, we apply the self-attention from the state-of-the-art Transformer in Attention Is All You Need the first time to a data-driven operator learning problem related to partial differential equations. We put together an effort to explain the heuristics of, and improve the efficacy of the self-attention by demonstrating that the softmax normalization in the scaled dot-product attention is sufficient but not necessary, and have proved the approximation capacity of a linear variant as a Petrov-Galerkin projection. A new layer normalization scheme is proposed to allow a scaling to propagate through attention layers, which helps the model achieve remarkable accuracy in operator learning tasks with unnormalized data. Finally, we present three operator learning experiments, including the viscid Burgers' equation, an interface Darcy flow, and an inverse interface coefficient identification problem. All experiments validate the improvements of the newly proposed simple attention-based operator learner over their softmax-normalized counterparts.
翻訳日:2021-06-04 12:28:53 公開日:2021-06-03
# マルチドメイン環境におけるc2意思決定を改善するための画像オーディオ符号化

Image-Audio Encoding to Improve C2 Decision-Making in Multi-Domain Environment ( http://arxiv.org/abs/2106.00787v2 )

ライセンス: Link先を確認
Piyush K. Sharma and Adrienne Raglin(参考訳) 軍は、MDO(Multi- Domain Operation)におけるコミュニケーションと機敏性を改善する方法を調査している。 IoT(Internet of Things)が最近人気になったのは、パブリックドメインと政府ドメインだ。 MDOにおけるその使用は将来の戦場に革命をもたらし、戦略的優位性をもたらす可能性がある。 この技術は軍事能力の活用を提供するが、不確実性と関連するリスクが問題となる。 重要な疑問は、これらの不確実性に対処する方法だ。 近年、あるデータ領域から別のデータ領域へ情報を変換するための情報カモフラージュが提案されている。 これは比較的新しいアプローチであるため、このような変革の課題と、関連する不確実性の検出と対処方法、特に未知の未知の意思決定の改善について検討する。

The military is investigating methods to improve communication and agility in its multi-domain operations (MDO). Nascent popularity of Internet of Things (IoT) has gained traction in public and government domains. Its usage in MDO may revolutionize future battlefields and may enable strategic advantage. While this technology offers leverage to military capabilities, it comes with challenges where one is the uncertainty and associated risk. A key question is how can these uncertainties be addressed. Recently published studies proposed information camouflage to transform information from one data domain to another. As this is comparatively a new approach, we investigate challenges of such transformations and how these associated uncertainties can be detected and addressed, specifically unknown-unknowns to improve decision-making.
翻訳日:2021-06-04 12:28:38 公開日:2021-06-03
# E2E-VLP:視覚学習により強化されたエンド・ツー・エンド視覚言語事前学習

E2E-VLP: End-to-End Vision-Language Pre-training Enhanced by Visual Learning ( http://arxiv.org/abs/2106.01804v1 )

ライセンス: Link先を確認
Haiyang Xu, Ming Yan, Chenliang Li, Bin Bi, Songfang Huang, Wenming Xiao and Fei Huang(参考訳) 大規模画像テキストペアによる視覚言語事前学習(vlp)は,クロスモーダルダウンストリームタスクで大きな成功を収めている。 最も既存の事前学習法は主に2段階の訓練手順を採用しており、まず、訓練済みの物体検出器を用いて地域ベースの視覚的特徴を抽出し、次にトランスフォーマーの入力として画像表現とテキスト埋め込みを結合する。 しかし、これらの手法は、汎用的なクロスモーダル理解のための特定の物体検出器のタスク固有の視覚表現と、2段階パイプラインの計算効率の低下に直面する。 本稿では,V+Lの理解と生成,すなわちE2E-VLPのための,視覚表現とテキスト間のセマンティックアライメントを協調的に学習する統合トランスフォーマフレームワークを構築するための,最初のエンドツーエンドの視覚言語事前学習モデルを提案する。 物体検出と画像キャプションのタスクを、視覚学習の強化を目的とした統合トランスフォーマーエンコーダデコーダアーキテクチャで事前学習に組み込む。 この新たなVLPパラダイムの有効性を実証するために、十分に確立された視覚言語下流タスクに関する広範な実験が実施されている。

Vision-language pre-training (VLP) on large-scale image-text pairs has achieved huge success for the cross-modal downstream tasks. The most existing pre-training methods mainly adopt a two-step training procedure, which firstly employs a pre-trained object detector to extract region-based visual features, then concatenates the image representation and text embedding as the input of Transformer to train. However, these methods face problems of using task-specific visual representation of the specific object detector for generic cross-modal understanding, and the computation inefficiency of two-stage pipeline. In this paper, we propose the first end-to-end vision-language pre-trained model for both V+L understanding and generation, namely E2E-VLP, where we build a unified Transformer framework to jointly learn visual representation, and semantic alignments between image and text. We incorporate the tasks of object detection and image captioning into pre-training with a unified Transformer encoder-decoder architecture for enhancing visual learning. An extensive set of experiments have been conducted on well-established vision-language downstream tasks to demonstrate the effectiveness of this novel VLP paradigm.
翻訳日:2021-06-04 12:28:25 公開日:2021-06-03
# 野生におけるフィンガープリンティング細調整言語モデル

Fingerprinting Fine-tuned Language Models in the Wild ( http://arxiv.org/abs/2106.01703v1 )

ライセンス: Link先を確認
Nirav Diwan, Tanmoy Chakravorty, Zubair Shafiq(参考訳) 高品質な合成テキストを生成する言語モデル(LM)の能力がスパム、偽情報、プロパガンダの起動に誤用されることが懸念されている。 そのため、研究コミュニティは、与えられたテキストが有機的か合成的かを検出するアプローチの開発を積極的に進めている。 これは第1ステップとして有用であるが、著者lmの原点を識別するためにさらに指紋を付けることが重要である。 フィンガープリント LM の以前の研究は、事前訓練された LM のごく一部 (通常 < 10 ) で生成される合成テキストに限られていた。 しかし、GPT2のようなLMは通常、合成テキストを生成するために使われる前に、無数の方法で微調整される(例えば、ドメイン固有のテキストコーパス)。 細調整されたLMの宇宙は現実的なシナリオでははるかに大きいため、細調整されたLMのフィンガープリントは困難である。 この課題に対処するため,本研究では野生の微調整lmsの大規模フィンガープリントについて検討する。 108種類の微調整lmsで生成された合成テキストの実世界データセットを用いて,既存のフィンガープリント手法の限界を包括的に実証する実験を行った。 その結果,微調整自体が微調整による合成テキストの生成に最も有効であることが示唆された。

There are concerns that the ability of language models (LMs) to generate high quality synthetic text can be misused to launch spam, disinformation, or propaganda. Therefore, the research community is actively working on developing approaches to detect whether a given text is organic or synthetic. While this is a useful first step, it is important to be able to further fingerprint the author LM to attribute its origin. Prior work on fingerprinting LMs is limited to attributing synthetic text generated by a handful (usually < 10) of pre-trained LMs. However, LMs such as GPT2 are commonly fine-tuned in a myriad of ways (e.g., on a domain-specific text corpus) before being used to generate synthetic text. It is challenging to fingerprinting fine-tuned LMs because the universe of fine-tuned LMs is much larger in realistic scenarios. To address this challenge, we study the problem of large-scale fingerprinting of fine-tuned LMs in the wild. Using a real-world dataset of synthetic text generated by 108 different fine-tuned LMs, we conduct comprehensive experiments to demonstrate the limitations of existing fingerprinting approaches. Our results show that fine-tuning itself is the most effective in attributing the synthetic text generated by fine-tuned LMs.
翻訳日:2021-06-04 12:27:47 公開日:2021-06-03
# SIRE:文書レベルの関係抽出のための文内・文間推論

SIRE: Separate Intra- and Inter-sentential Reasoning for Document-level Relation Extraction ( http://arxiv.org/abs/2106.01709v1 )

ライセンス: Link先を確認
Shuang Zeng, Yuting Wu and Baobao Chang(参考訳) 近年,文書レベルの関係抽出が注目されている。 通常、文書内のすべてのエンティティペアの関係を予測する分類問題として定式化される。 しかし、以前の研究では、同じ方法で、文内関係と文間関係を無差別に表現し、その予測のパターンが異なる。 さらに、ドキュメントグラフを作成し、グラフ上のエンティティ間のパスを論理的推論の手がかりとして使用する。 しかし、すべての実体対が経路と接続でき、それらのグラフに正しい論理的推論パスを持つわけではない。 したがって、多くの論理的推論はカバーできない。 本稿では,異なる方法で文内関係と文間関係を表現する効果的なアーキテクチャであるSIREを提案する。 より論理的な推論の連鎖をカバーすることができる新しい論理推論モジュールを設計する。 公開データセットの実験では、SIREは以前の最先端メソッドよりも優れていた。 さらなる分析により、我々の予測は信頼でき、説明可能であることが示された。 私たちのコードはhttps://github.com/D reamInvoker/SIREで利用可能です。

Document-level relation extraction has attracted much attention in recent years. It is usually formulated as a classification problem that predicts relations for all entity pairs in the document. However, previous works indiscriminately represent intra- and inter-sentential relations in the same way, confounding the different patterns for predicting them. Besides, they create a document graph and use paths between entities on the graph as clues for logical reasoning. However, not all entity pairs can be connected with a path and have the correct logical reasoning paths in their graph. Thus many cases of logical reasoning cannot be covered. This paper proposes an effective architecture, SIRE, to represent intra- and inter-sentential relations in different ways. We design a new and straightforward form of logical reasoning module that can cover more logical reasoning chains. Experiments on the public datasets show SIRE outperforms the previous state-of-the-art methods. Further analysis shows that our predictions are reliable and explainable. Our code is available at https://github.com/D reamInvoker/SIRE.
翻訳日:2021-06-04 12:27:23 公開日:2021-06-03
# 変圧器に基づく言語モデルにおける翻訳不変自己認識の事例

The Case for Translation-Invarian t Self-Attention in Transformer-Based Language Models ( http://arxiv.org/abs/2106.01950v1 )

ライセンス: Link先を確認
Ulme Wennberg, Gustav Eje Henter(参考訳) 位置情報を符号化するメカニズムはトランスフォーマーベースの言語モデルの中心である。 本稿では,既存の言語モデルの位置埋め込みを解析し,組込み自体と自己意識への影響の両方において,翻訳不変性の強い証拠を見出す。 翻訳不変度はトレーニング中に増加し、モデル性能と正の相関関係を持つ。 この結果から,従来の位置埋め込みを必要とせず,解釈可能な方法でトークン間の相対的な位置を考慮し,翻訳不変な自己アテンション(tisa)を提案する。 本提案は,既存の位置表現アプローチに対して,いくつかの理論的利点がある。 実験では、グルータスクの通常のalbertでの改善が示されているが、位置パラメータは桁違いに小さい。

Mechanisms for encoding positional information are central for transformer-based language models. In this paper, we analyze the position embeddings of existing language models, finding strong evidence of translation invariance, both for the embeddings themselves and for their effect on self-attention. The degree of translation invariance increases during training and correlates positively with model performance. Our findings lead us to propose translation-invarian t self-attention (TISA), which accounts for the relative position between tokens in an interpretable fashion without needing conventional position embeddings. Our proposal has several theoretical advantages over existing position-representat ion approaches. Experiments show that it improves on regular ALBERT on GLUE tasks, while only adding orders of magnitude less positional parameters.
翻訳日:2021-06-04 12:27:06 公開日:2021-06-03
# 分類器融合の規範モデル

A Normative Model of Classifier Fusion ( http://arxiv.org/abs/2106.01770v1 )

ライセンス: Link先を確認
Susanne Trick, Constantin A. Rothkopf(参考訳) 複数の分類器や専門家の出力を単一の確率的分類に組み合わせることは、分類器融合から専門家の意見プールまで幅広い応用で機械学習の基本的な課題である。 ここでは、新しい相関ディリクレ分布に基づく確率的分類器融合の階層的ベイズモデルを示す。 この分布は、辺ディリクレ分布のランダムベクトル間の正の相関を明示的にモデル化し、ベース分類器または専門家間の相関の規範的モデリングを可能にする。 提案モデルは古典的独立意見プールと他の独立融合アルゴリズムを特別な場合として自然に適応する。 合成データと実世界のデータセットの融合の不確かさの低減と正確性によって評価される。 また, 不確実性低減による融合分類器の性能変化は, 高相関ベース分類器においても最適であることを示した。

Combining the outputs of multiple classifiers or experts into a single probabilistic classification is a fundamental task in machine learning with broad applications from classifier fusion to expert opinion pooling. Here we present a hierarchical Bayesian model of probabilistic classifier fusion based on a new correlated Dirichlet distribution. This distribution explicitly models positive correlations between marginally Dirichlet-distribute d random vectors thereby allowing normative modeling of correlations between base classifiers or experts. The proposed model naturally accommodates the classic Independent Opinion Pool and other independent fusion algorithms as special cases. It is evaluated by uncertainty reduction and correctness of fusion on synthetic and real-world data sets. We show that a change in performance of the fused classifier due to uncertainty reduction can be Bayes optimal even for highly correlated base classifiers.
翻訳日:2021-06-04 12:26:55 公開日:2021-06-03
# 予測ビデオトランス

Anticipative Video Transformer ( http://arxiv.org/abs/2106.02036v1 )

ライセンス: Link先を確認
Rohit Girdhar and Kristen Grauman(参考訳) 本稿では,先述した映像に応答して今後の行動を予測できる,エンドツーエンドの注意に基づくビデオモデリングアーキテクチャであるprotocipative video transformer (avt)を提案する。 我々は,ビデオシーケンスにおける次の動作を予測するために協調的にモデルを訓練すると同時に,将来のフレームの特徴を予測したフレーム特徴エンコーダを学習する。 既存の時間的アグリゲーション戦略と比較して、AVTは、観測された行動の逐次進行を維持すると同時に、長期依存を捕捉する利点がある。 EpicKitchens-55, EpicKitchens-100, EGTEA Gaze+, 50-Saladsの4つのアクション予測ベンチマークにおいて, AVTが最高のパフォーマンスを得られることを示す。

We propose Anticipative Video Transformer (AVT), an end-to-end attention-based video modeling architecture that attends to the previously observed video in order to anticipate future actions. We train the model jointly to predict the next action in a video sequence, while also learning frame feature encoders that are predictive of successive future frames' features. Compared to existing temporal aggregation strategies, AVT has the advantage of both maintaining the sequential progression of observed actions while still capturing long-range dependencies--both critical for the anticipation task. Through extensive experiments, we show that AVT obtains the best reported performance on four popular action anticipation benchmarks: EpicKitchens-55, EpicKitchens-100, EGTEA Gaze+, and 50-Salads, including outperforming all submissions to the EpicKitchens-100 CVPR'21 challenge.
翻訳日:2021-06-04 12:26:27 公開日:2021-06-03
# セマンティクスセグメンテーションのための注意誘導教師付きコントラスト学習

Attention-Guided Supervised Contrastive Learning for Semantic Segmentation ( http://arxiv.org/abs/2106.01596v1 )

ライセンス: Link先を確認
Ho Hin Lee, Yucheng Tang, Qi Yang, Xin Yu, Shunxing Bao, Bennett A. Landman, Yuankai Huo(参考訳) コントラスト学習は、コンピュータビジョン(例えば、画像分類)にグローバルおよび空間不変の特徴を埋め込む際に優れた性能を示す。 しかし、特にセマンティクスセグメンテーションにおいて、局所的特徴と空間的特徴を組み込むという全体的な成功はまだ限られている。 ピクセル単位の予測タスクでは、セグメンテーションのための単一の画像(例えば、画像は猫、犬、草を含む)に複数のラベルが存在するため、正のコントラスト学習環境では「正」または「負」のペアを定義することが困難である。 本稿では,1つのセマンティックオブジェクトを目標として毎回強調する,注意誘導型教師付きコントラスト学習手法を提案する。 私たちの設計では、同じイメージを別のセマンティッククラスタに埋め込むことができ、追加の入力チャネルとして、セマンティックな注意(すなわち、コアセマンティクスマスク)を付けることができます。 このような注目を集めるために、新たな2段階トレーニング戦略が提示される。 提案手法を社内データとBTCV 2015データセットの両方を用いて, マルチ組織画像分割タスクを主課題として評価した。 ResNet-50の背骨における教師付きおよび半教師付きトレーニングと比較すると,両画像セグメンテーションコホートのDiceスコアは5.53%,6.09%向上した。 提案手法の性能はPASCAL VOC 2012データセットを用いて評価され,2.75%の大幅な改善が得られた。

Contrastive learning has shown superior performance in embedding global and spatial invariant features in computer vision (e.g., image classification). However, its overall success of embedding local and spatial variant features is still limited, especially for semantic segmentation. In a per-pixel prediction task, more than one label can exist in a single image for segmentation (e.g., an image contains both cat, dog, and grass), thereby it is difficult to define 'positive' or 'negative' pairs in a canonical contrastive learning setting. In this paper, we propose an attention-guided supervised contrastive learning approach to highlight a single semantic object every time as the target. With our design, the same image can be embedded to different semantic clusters with semantic attention (i.e., coerce semantic masks) as an additional input channel. To achieve such attention, a novel two-stage training strategy is presented. We evaluate the proposed method on multi-organ medical image segmentation task, as our major task, with both in-house data and BTCV 2015 datasets. Comparing with the supervised and semi-supervised training state-of-the-art in the backbone of ResNet-50, our proposed pipeline yields substantial improvement of 5.53% and 6.09% in Dice score for both medical image segmentation cohorts respectively. The performance of the proposed method on natural images is assessed via PASCAL VOC 2012 dataset, and achieves 2.75% substantial improvement.
翻訳日:2021-06-04 12:25:46 公開日:2021-06-03
# スパイクニューラルネットワークを用いたイベントベース光流れの自己教師付き学習

Self-Supervised Learning of Event-Based Optical Flow with Spiking Neural Networks ( http://arxiv.org/abs/2106.01862v1 )

ライセンス: Link先を確認
Federico Paredes-Vall\'es, Jesse Hagenaars, Guido de Croon(参考訳) ニューロモルフィックセンシングと計算は、高エネルギー効率で高帯域幅のセンサー処理を約束する。 ニューロモルフィックコンピューティングの大きな課題は、従来の人工知能ニューラルネットワーク(ANN)の学習アルゴリズムが、離散スパイクとより複雑な神経力学のためにスパイキングニューラルネットワーク(SNN)に直接転送されないことである。 その結果、SNNは複雑な大規模タスクにはまだ適用されていない。 本稿では,イベントベースのカメラ入力からの光フロー推定の自己教師あり学習問題に着目し,snsでそれに取り組むために,最先端のannトレーニングパイプラインに必要な変化について検討する。 より具体的には、入力イベント表現を変更して、最小限の時間情報で、はるかに小さな時間スライスをエンコードする。 その結果、ネットワークの神経力学と繰り返し接続を、時間とともに情報を統合することに責任を負わせる。 さらに,その凸性を改善するために,イベントベース光流の自己教師損失関数を再構成する。 提案したパイプラインを用いて,様々な種類の繰り返しANNとSNNを用いて実験を行う。 SNNについて,パラメータ初期化や最適化,代理勾配形状,適応ニューロン機構などの要素の影響について検討する。 適応性と学習可能な神経パラメータが組み合わさることで、学習性能が向上する一方、初期化と補助勾配幅はスパース入力による学習を可能にする上で重要な役割を果たす。 提案するANNとSNNの性能は,自己教師型で訓練された現在の最先端のANNと同等であることを示す。

Neuromorphic sensing and computing hold a promise for highly energy-efficient and high-bandwidth-senso r processing. A major challenge for neuromorphic computing is that learning algorithms for traditional artificial neural networks (ANNs) do not transfer directly to spiking neural networks (SNNs) due to the discrete spikes and more complex neuronal dynamics. As a consequence, SNNs have not yet been successfully applied to complex, large-scale tasks. In this article, we focus on the self-supervised learning problem of optical flow estimation from event-based camera inputs, and investigate the changes that are necessary to the state-of-the-art ANN training pipeline in order to successfully tackle it with SNNs. More specifically, we first modify the input event representation to encode a much smaller time slice with minimal explicit temporal information. Consequently, we make the network's neuronal dynamics and recurrent connections responsible for integrating information over time. Moreover, we reformulate the self-supervised loss function for event-based optical flow to improve its convexity. We perform experiments with various types of recurrent ANNs and SNNs using the proposed pipeline. Concerning SNNs, we investigate the effects of elements such as parameter initialization and optimization, surrogate gradient shape, and adaptive neuronal mechanisms. We find that initialization and surrogate gradient width play a crucial part in enabling learning with sparse inputs, while the inclusion of adaptivity and learnable neuronal parameters can improve performance. We show that the performance of the proposed ANNs and SNNs are on par with that of the current state-of-the-art ANNs trained in a self-supervised manner.
翻訳日:2021-06-04 12:25:18 公開日:2021-06-03
# Kullback-Leibler Divergence を用いた回転物体検出のための高精度バウンディングボックスの学習

Learning High-Precision Bounding Box for Rotated Object Detection via Kullback-Leibler Divergence ( http://arxiv.org/abs/2106.01883v1 )

ライセンス: Link先を確認
Xue Yang, Xiaojiang Yang, Jirui Yang, Qi Ming, Wentao Wang, Qi Tian, Junchi Yan(参考訳) 既存の回転物体検出器は、主に水平検出パラダイムから受け継がれており、後者は十分に発達した領域へと進化している。 しかし、これらの検出器は、特にアスペクト比が大きい物体において、現在の回帰損失設計の限界により、高精度検出において顕著に実行するのは難しい。 本稿では, 水平方向検出が回転物体検出の特別な場合であるという観点から, 回転物体検出と水平方向検出の関係の観点から, 回転回帰損失の設計を誘導パラダイムから導出手法に変更する動機付けを行う。 本研究は, 動的ジョイント最適化において, 推定パラメータが相互に影響を及ぼすように, 回転回帰損失の結合パラメータを適応的, 相乗的に変調する方法が重要な課題であることを示す。 具体的には、まず回転した有界箱を2次元ガウス分布に変換し、その後、ガウス分布間のKLDを回帰損失として計算する。 各パラメータの勾配を解析することにより、KLD(とその誘導体)が対象の特性に応じてパラメータ勾配を動的に調整できることを示す。 アスペクト比に応じて角度パラメータの重要性(漸進的な重み)を調整する。 この機構は、わずかな角度誤差が大きなアスペクト比オブジェクトに対して深刻な精度低下を引き起こすため、高精度検出に不可欠である。 さらに、KLDがスケール不変であることが証明された。 さらに、KLD損失は、水平検出のために人気のある$l_{n}$-norm損失に分解可能であることを示す。 異なる検出器を用いた7つのデータセットの実験結果は、一貫性のある優位性を示しており、コードはhttps://github.com/y angxue0827/rotationd etectionで利用可能である。

Existing rotated object detectors are mostly inherited from the horizontal detection paradigm, as the latter has evolved into a well-developed area. However, these detectors are difficult to perform prominently in high-precision detection due to the limitation of current regression loss design, especially for objects with large aspect ratios. Taking the perspective that horizontal detection is a special case for rotated object detection, in this paper, we are motivated to change the design of rotation regression loss from induction paradigm to deduction methodology, in terms of the relation between rotation and horizontal detection. We show that one essential challenge is how to modulate the coupled parameters in the rotation regression loss, as such the estimated parameters can influence to each other during the dynamic joint optimization, in an adaptive and synergetic way. Specifically, we first convert the rotated bounding box into a 2-D Gaussian distribution, and then calculate the Kullback-Leibler Divergence (KLD) between the Gaussian distributions as the regression loss. By analyzing the gradient of each parameter, we show that KLD (and its derivatives) can dynamically adjust the parameter gradients according to the characteristics of the object. It will adjust the importance (gradient weight) of the angle parameter according to the aspect ratio. This mechanism can be vital for high-precision detection as a slight angle error would cause a serious accuracy drop for large aspect ratios objects. More importantly, we have proved that KLD is scale invariant. We further show that the KLD loss can be degenerated into the popular $l_{n}$-norm loss for horizontal detection. Experimental results on seven datasets using different detectors show its consistent superiority, and codes are available at https://github.com/y angxue0827/RotationD etection.
翻訳日:2021-06-04 12:24:52 公開日:2021-06-03
# dynamicvit:動的トークンスパーシフィケーションを用いた効率的な視覚トランスフォーマ

DynamicViT: Efficient Vision Transformers with Dynamic Token Sparsification ( http://arxiv.org/abs/2106.02034v1 )

ライセンス: Link先を確認
Yongming Rao, Wenliang Zhao, Benlin Liu, Jiwen Lu, Jie Zhou, Cho-Jui Hsieh(参考訳) 視覚トランスフォーマーは注意をそらしている。 視覚変換器の最終的な予測は、最も情報性の高いトークンのサブセットのみに基づいており、正確な画像認識には十分である。 本研究では,入力に基づいて冗長トークンを段階的かつ動的にプルする動的トークンスパーシフィケーションフレームワークを提案する。 具体的には、現在の特徴から各トークンの重要度を推定する軽量な予測モジュールを考案する。 モジュールは異なるレイヤに追加され、冗長トークンを階層的にプルークする。 予測モジュールをエンド・ツー・エンドで最適化するために,他のトークンとの相互作用をブロックし,トークンを識別的にプーンするアテンションマスキング戦略を提案する。 自己注意の性質から見れば、非構造化のスパーストークンは依然としてハードウェアフレンドリなので、私たちのフレームワークは実際のスピードアップを容易に実現できます。 入力トークンの66%を階層的にプルーニングすることにより、31%〜37%のFLOPを大幅に削減し、スループットを40%以上向上する一方、精度の低下は様々な視覚変換器の0.5%以内である。 動的トークンスペーシフィケーションフレームワークを備えたDynamicViTモデルは、ImageNetの最先端CNNやビジョントランスフォーマーと比較して、非常に競争力のある複雑性と精度のトレードオフを実現することができる。 コードはhttps://github.com/r aoyongming/DynamicVi Tで入手できる。

Attention is sparse in vision transformers. We observe the final prediction in vision transformers is only based on a subset of most informative tokens, which is sufficient for accurate image recognition. Based on this observation, we propose a dynamic token sparsification framework to prune redundant tokens progressively and dynamically based on the input. Specifically, we devise a lightweight prediction module to estimate the importance score of each token given the current features. The module is added to different layers to prune redundant tokens hierarchically. To optimize the prediction module in an end-to-end manner, we propose an attention masking strategy to differentiably prune a token by blocking its interactions with other tokens. Benefiting from the nature of self-attention, the unstructured sparse tokens are still hardware friendly, which makes our framework easy to achieve actual speed-up. By hierarchically pruning 66% of the input tokens, our method greatly reduces 31%~37% FLOPs and improves the throughput by over 40% while the drop of accuracy is within 0.5% for various vision transformers. Equipped with the dynamic token sparsification framework, DynamicViT models can achieve very competitive complexity/accuracy trade-offs compared to state-of-the-art CNNs and vision transformers on ImageNet. Code is available at https://github.com/r aoyongming/DynamicVi T
翻訳日:2021-06-04 12:24:21 公開日:2021-06-03
# 対人訓練における記憶の探索

Exploring Memorization in Adversarial Training ( http://arxiv.org/abs/2106.01606v1 )

ライセンス: Link先を確認
Yinpeng Dong, Ke Xu, Xiao Yang, Tianyu Pang, Zhijie Deng, Hang Su, Jun Zhu(参考訳) 深層学習モデルは、ランダムなラベルでもトレーニングセット全体の適合性を保ち、トレーニングサンプルを記憶する必要があることはよく知られている。 本稿では, 対人訓練(AT)における暗記効果について検討し, 対人訓練の能力, 収束, 一般化, 特に頑健なオーバーフィッティングの促進について検討する。 まず、深層ネットワークは、完全にランダムなラベルを持つトレーニングデータの逆例を記憶するのに十分な能力を持っていることを実証するが、全てのATアルゴリズムが極端な状況下で収束できるわけではない。 ランダムラベルを持つATの研究は、ATの収束と一般化に関するさらなる分析を動機付けている。 また,最近提案されている複雑性尺度では,ランダムラベル上で訓練されたモデルを考えることで,ロバスト一般化を説明することはできない。 さらに,ATにおける記憶の重大な欠点として,強靭なオーバーフィッティングが生じる可能性がある。 次に,詳細な記憶解析に動機づけられた新しい緩和アルゴリズムを提案する。 各種データセットに対する大規模な実験により,提案手法の有効性が検証された。

It is well known that deep learning models have a propensity for fitting the entire training set even with random labels, which requires memorization of every training sample. In this paper, we investigate the memorization effect in adversarial training (AT) for promoting a deeper understanding of capacity, convergence, generalization, and especially robust overfitting of adversarially trained classifiers. We first demonstrate that deep networks have sufficient capacity to memorize adversarial examples of training data with completely random labels, but not all AT algorithms can converge under the extreme circumstance. Our study of AT with random labels motivates further analyses on the convergence and generalization of AT. We find that some AT methods suffer from a gradient instability issue, and the recently suggested complexity measures cannot explain robust generalization by considering models trained on random labels. Furthermore, we identify a significant drawback of memorization in AT that it could result in robust overfitting. We then propose a new mitigation algorithm motivated by detailed memorization analyses. Extensive experiments on various datasets validate the effectiveness of the proposed method.
翻訳日:2021-06-04 12:23:57 公開日:2021-06-03
# 中国語文法誤り訂正のためのTail-to-Tail非回帰シーケンス予測

Tail-to-Tail Non-Autoregressive Sequence Prediction for Chinese Grammatical Error Correction ( http://arxiv.org/abs/2106.01609v1 )

ライセンス: Link先を確認
Piji Li and Shuming Shi(参考訳) 我々は,中国語文法誤り訂正(CGEC)の問題を調査し,CGECに隠された深い問題に対処するため,Tail-to-Tail (\textbf{TtT}) と呼ばれる新しいフレームワークを提案する。 ほとんどのトークンが正しいので、ソースからターゲットへ直接転送でき、双方向のコンテキスト情報に基づいてエラー位置を推定して補正できるので、バックボーンモデルとしてbert-initialized transformer encoderを用いて情報モデリングと伝達を行う。 同じ位置置換に頼るだけでは可変長の修正ケースを処理できないため、置換、削除、挿入、局所的な言い換えといった様々な操作が共同で必要となる。 したがって、条件付きランダムフィールド(CRF)層がアップテール上に積み重なり、トークン依存性をモデル化して非自己回帰シーケンス予測を行う。 ほとんどのトークンは正確で、予測や参照が容易であるため、モデルが深刻なクラス不均衡に陥る可能性がある。 この問題を軽減するために、焦点損失補償戦略を損失関数に統合する。 さらに,一般的な固定長誤差補正データセットに加えて,可変長コーパスを構築して実験を行う。 標準データセット、特に可変長データセットに関する実験結果は、誤り検出と訂正のタスクにおける文レベル精度、精度、リコール、F1-MeasureのTtTの有効性を示す。

We investigate the problem of Chinese Grammatical Error Correction (CGEC) and present a new framework named Tail-to-Tail (\textbf{TtT}) non-autoregressive sequence prediction to address the deep issues hidden in CGEC. Considering that most tokens are correct and can be conveyed directly from source to target, and the error positions can be estimated and corrected based on the bidirectional context information, thus we employ a BERT-initialized Transformer Encoder as the backbone model to conduct information modeling and conveying. Considering that only relying on the same position substitution cannot handle the variable-length correction cases, various operations such substitution, deletion, insertion, and local paraphrasing are required jointly. Therefore, a Conditional Random Fields (CRF) layer is stacked on the up tail to conduct non-autoregressive sequence prediction by modeling the token dependencies. Since most tokens are correct and easily to be predicted/conveyed to the target, then the models may suffer from a severe class imbalance issue. To alleviate this problem, focal loss penalty strategies are integrated into the loss functions. Moreover, besides the typical fix-length error correction datasets, we also construct a variable-length corpus to conduct experiments. Experimental results on standard datasets, especially on the variable-length datasets, demonstrate the effectiveness of TtT in terms of sentence-level Accuracy, Precision, Recall, and F1-Measure on tasks of error Detection and Correction.
翻訳日:2021-06-04 12:23:27 公開日:2021-06-03
# Chatbotの自己開示がユーザ信頼,親和性,レコメンデーション効果に与える影響を明らかにする

Discovering Chatbot's Self-Disclosure' ;s Impact on User Trust, Affinity, and Recommendation Effectiveness ( http://arxiv.org/abs/2106.01666v1 )

ライセンス: Link先を確認
Kai-Hui Liang, Weiyan Shi, Yoojung Oh, Jingwen Zhang, Zhou Yu(参考訳) 近年、チャットボットは人間とソーシャルな会話をする権限が与えられ、人々の個人的な経験、意見、感情を開示する可能性を秘めている。 しかし、チャボットの自己開示に対する反応の程度や程度は分かっていない。 本研究では、3つの自己開示レベルを持つソーシャルチャットボットを設計し、小規模な講演を行い、人々に適切なレコメンデーションを提供した。 372人のmturk参加者は、異なる自己開示レベルを持つ4つのグループのうちの1つにランダム化され、2つのトピック、映画、covid-19でチャットボットと会話した。 自己開示レベルはチャットボットの自己開示レベルと強く相反することがわかった。 チャットボットの自己開示もまた、ボットに対するエンゲージメントとユーザの認識に肯定的な影響を与え、参加者がより楽しむように、より効果的なレコメンデーションにつながった。

In recent years, chatbots have been empowered to engage in social conversations with humans and have the potential to elicit people to disclose their personal experiences, opinions, and emotions. However, how and to what extent people respond to chabots' self-disclosure remain less known. In this work, we designed a social chatbot with three self-disclosure levels that conducted small talks and provided relevant recommendations to people. 372 MTurk participants were randomized to one of the four groups with different self-disclosure levels to converse with the chatbot on two topics, movies, and COVID-19. We found that people's self-disclosure level was strongly reciprocal to a chatbot's self-disclosure level. Chatbots' self-disclosure also positively impacted engagement and users' perception of the bot and led to a more effective recommendation such that participants enjoyed and agreed more with the recommendations.
翻訳日:2021-06-04 12:23:02 公開日:2021-06-03
# 抽象の数学的理論に向けて

Towards a Mathematical Theory of Abstraction ( http://arxiv.org/abs/2106.01826v1 )

ライセンス: Link先を確認
Beren Millidge(参考訳) 複雑なシステムの振る舞いの理解と予測のための十分に簡潔な抽象化の効用は高く評価されているが、$\textit{is}$の抽象化は、これまでほとんど数学的形式化を免れた。 本稿では,抽象の数学的理論を確立することを目的とする。 抽象化とは何か,あるいはもっと重要なのは,静的データセットと動的システムの両方に対して,データから直接抽象化を学べるか,という点です。 私たちは抽象化をシステムの‘要約’の小さなセットとして定義し、システムやその動作に関する一連の問い合わせに答えられるようにします。 クエリ上のシステムの基底的真理の振る舞いと、抽象化によってのみ予測されるシステムの振る舞いの違いは、データから抽象化を直接学習するための損失関数として使用できる抽象化の‘リーキネス’の尺度を提供する。 このアプローチは,‘データ’全体を再構築することに関心はないが,データに関する任意のクエリの集合への応答にのみ関心を持つ古典統計の一般化と考えることができる。 高度に理論的だが,統計的推論や機械学習には深い影響があり,データから直接正確な抽象化を学習するための明示的な手法の開発に有用である。

While the utility of well-chosen abstractions for understanding and predicting the behaviour of complex systems is well appreciated, precisely what an abstraction $\textit{is}$ has so far has largely eluded mathematical formalization. In this paper, we aim to set out a mathematical theory of abstraction. We provide a precise characterisation of what an abstraction is and, perhaps more importantly, suggest how abstractions can be learnt directly from data both for static datasets and for dynamical systems. We define an abstraction to be a small set of `summaries' of a system which can be used to answer a set of queries about the system or its behaviour. The difference between the ground truth behaviour of the system on the queries and the behaviour of the system predicted only by the abstraction provides a measure of the `leakiness' of the abstraction which can be used as a loss function to directly learn abstractions from data. Our approach can be considered a generalization of classical statistics where we are not interested in reconstructing `the data' in full, but are instead only concerned with answering a set of arbitrary queries about the data. While highly theoretical, our results have deep implications for statistical inference and machine learning and could be used to develop explicit methods for learning precise kinds of abstractions directly from data.
翻訳日:2021-06-04 12:22:15 公開日:2021-06-03
# 偽画像検出における不可避逆例

Imperceptible Adversarial Examples for Fake Image Detection ( http://arxiv.org/abs/2106.01615v1 )

ライセンス: Link先を確認
Quanyu Liao, Yuezun Li, Xin Wang, Bin Kong, Bin Zhu, Siwei Lyu, Youbing Yin, Qi Song, Xi Wu(参考訳) ディープフェイクやガンで生成された、非常に現実的な偽画像で人々を騙すことは、社会に大きな社会的混乱をもたらします。 偽画像を検出するための多くの方法が提案されているが、敵の摂動に弱いため、意図的に設計されたノイズが誤った予測に繋がる可能性がある。 既存の偽画像検出器の攻撃方法は、通常、ほぼ全画像が摂動する敵の摂動を発生させる。 これは冗長であり、摂動の受容性を高める。 本稿では,鍵画素を偽画像検出器に判定し,鍵画素のみを攻撃することにより,対向的摂動の規範である$L_0$と$L_2$を従来よりもはるかに小さくすることで,偽画像検出を妨害する手法を提案する。 3つの偽画像検出器を用いた2つの公開データセット実験により,提案手法は,ホワイトボックス攻撃とブラックボックス攻撃の両方において最先端の性能を達成することを示す。

Fooling people with highly realistic fake images generated with Deepfake or GANs brings a great social disturbance to our society. Many methods have been proposed to detect fake images, but they are vulnerable to adversarial perturbations -- intentionally designed noises that can lead to the wrong prediction. Existing methods of attacking fake image detectors usually generate adversarial perturbations to perturb almost the entire image. This is redundant and increases the perceptibility of perturbations. In this paper, we propose a novel method to disrupt the fake image detection by determining key pixels to a fake image detector and attacking only the key pixels, which results in the $L_0$ and the $L_2$ norms of adversarial perturbations much less than those of existing works. Experiments on two public datasets with three fake image detectors indicate that our proposed method achieves state-of-the-art performance in both white-box and black-box attacks.
翻訳日:2021-06-04 12:21:55 公開日:2021-06-03
# Luna: 線形統一ネステッド注意

Luna: Linear Unified Nested Attention ( http://arxiv.org/abs/2106.01540v1 )

ライセンス: Link先を確認
Xuezhe Ma, Xiang Kong, Sinong Wang, Chunting Zhou, Jonathan May, Hao Ma, Luke Zettlemoyer(参考訳) 変圧器の注意機構の二次計算とメモリの複雑さは、長いシーケンスのモデリングのスケーラビリティを制限した。 本稿では,2つの重み付き線形注意関数とソフトマックス注意を近似する線形統一ネスト型注意機構であるLunaを提案する。 具体的には、最初の注意関数で、Lunaは入力シーケンスを一定の長さのシーケンスにまとめる。 そして、第2の注意関数を用いて充填シーケンスをアンパックする。 より伝統的なアテンション機構と比較して、lunaは入力として一定長さの追加シーケンスと対応する出力を導入し、適切なコンテキスト情報を格納しながら、lunaがアテンション操作を線形に行えるようにする。 大規模事前学習のための長コンテキストシーケンスモデリング,ニューラルネットワーク翻訳,マスキング言語モデリングの3つのベンチマークについて,広範な評価を行った。 競争的、またはより優れた実験結果が、ルナの多種間比較の有効性と効率を実証する

The quadratic computational and memory complexities of the Transformer's attention mechanism have limited its scalability for modeling long sequences. In this paper, we propose Luna, a linear unified nested attention mechanism that approximates softmax attention with two nested linear attention functions, yielding only linear (as opposed to quadratic) time and space complexity. Specifically, with the first attention function, Luna packs the input sequence into a sequence of fixed length. Then, the packed sequence is unpacked using the second attention function. As compared to a more traditional attention mechanism, Luna introduces an additional sequence with a fixed length as input and an additional corresponding output, which allows Luna to perform attention operation linearly, while also storing adequate contextual information. We perform extensive evaluations on three benchmarks of sequence modeling tasks: long-context sequence modeling, neural machine translation and masked language modeling for large-scale pretraining. Competitive or even better experimental results demonstrate both the effectiveness and efficiency of Luna compared to a variety
翻訳日:2021-06-04 12:21:17 公開日:2021-06-03
# 選挙区パーシングにおける限定文脈の制限

The Limitations of Limited Context for Constituency Parsing ( http://arxiv.org/abs/2106.01580v1 )

ライセンス: Link先を確認
Yuchen Li, Andrej Risteski(参考訳) NLPでニューラルアプローチに構文を組み込むことは、実用的かつ科学的に多くの利点がある。 BERTのような構文モジュールを使った差別モデルでさえ、教師なし構文解析のような中核的なNLPタスクには使えます。 近年の急速な進歩は、Parsing-Reading-Pred ict Architecture of (Shen et al., 2018a)の実証的な成功によって引き起こされ、後にOrder Neuron LSTM of (Shen et al., 2019)によって単純化された。 特に注目すべきは、神経アプローチが教師なし構文解析(F-1スコアなどのさまざまな指標で評価される)をうまく実行できたことだ。 しかし、ヒューリスティックな(完全に数学的ではない)理解でさえ、これらのアーキテクチャがなぜいつ機能するのかは、かなり遅れている。 本研究では、アーキテクチャ(shen et al., 2018a, 2019)とトランジッションベースの構文認識言語モデル(dyer et al., 2016): 構文表現に対する現在のニューラルネットワークのアプローチはどのようなものか? 具体的には、確率的文脈自由文法(PCFG)のサンドボックスにこの疑問を解き、これらのアプローチの表現力のキーとなる側面を同定する。 制限された文脈(有界あるいは一方向)では、これらのアプローチは最大様解析を表現できないPCFGが存在し、逆に文脈が無制限であれば、任意のPCFGの最大様解析を表現できることを示す。

Incorporating syntax into neural approaches in NLP has a multitude of practical and scientific benefits. For instance, a language model that is syntax-aware is likely to be able to produce better samples; even a discriminative model like BERT with a syntax module could be used for core NLP tasks like unsupervised syntactic parsing. Rapid progress in recent years was arguably spurred on by the empirical success of the Parsing-Reading-Pred ict architecture of (Shen et al., 2018a), later simplified by the Order Neuron LSTM of (Shen et al., 2019). Most notably, this is the first time neural approaches were able to successfully perform unsupervised syntactic parsing (evaluated by various metrics like F-1 score). However, even heuristic (much less fully mathematical) understanding of why and when these architectures work is lagging severely behind. In this work, we answer representational questions raised by the architectures in (Shen et al., 2018a, 2019), as well as some transition-based syntax-aware language models (Dyer et al., 2016): what kind of syntactic structure can current neural approaches to syntax represent? Concretely, we ground this question in the sandbox of probabilistic context-free-grammar s (PCFGs), and identify a key aspect of the representational power of these approaches: the amount and directionality of context that the predictor has access to when forced to make parsing decision. We show that with limited context (either bounded, or unidirectional), there are PCFGs, for which these approaches cannot represent the max-likelihood parse; conversely, if the context is unlimited, they can represent the max-likelihood parse of any PCFG.
翻訳日:2021-06-04 12:21:00 公開日:2021-06-03
# KBテキストの大規模埋め込みアライメントの系統的研究

A Systematic Investigation of KB-Text Embedding Alignment at Scale ( http://arxiv.org/abs/2106.01586v1 )

ライセンス: Link先を確認
Vardaan Pahuja, Yu Gu, Wenhu Chen, Mehdi Bahrami, Lei Liu, Wei-Peng Chen and Yu Su(参考訳) KBは長い範囲の推論をサポートする構造化された知識を格納し、テキストはより包括的でタイムリーな知識を非構造化的に格納する。 個別の知識ソースをベクトル空間に別々に埋め込むことで、各知識のエンコーディングに多大な成功をおさめたが、補完的情報を完全に活用するために両方の知識ソースと協力して推論する方法は、いまだに未解決の問題である。 共同推論のためのKBとテキストの埋め込みに関する大規模かつ体系的な研究を行う。 我々は,2つの評価課題,少数ショットリンク予測とアナログ推論を備えた新しい評価フレームワークを構築し,KB-text 埋め込みアライメント手法の配列を評価する。 また、このようなアライメントがKB埋め込みにテキスト情報を注入し、新興企業やイベントのより正確なリンク予測を、COVID-19を事例として示す。

Knowledge bases (KBs) and text often contain complementary knowledge: KBs store structured knowledge that can support long range reasoning, while text stores more comprehensive and timely knowledge in an unstructured way. Separately embedding the individual knowledge sources into vector spaces has demonstrated tremendous successes in encoding the respective knowledge, but how to jointly embed and reason with both knowledge sources to fully leverage the complementary information is still largely an open problem. We conduct a large-scale, systematic investigation of aligning KB and text embeddings for joint reasoning. We set up a novel evaluation framework with two evaluation tasks, few-shot link prediction and analogical reasoning, and evaluate an array of KB-text embedding alignment methods. We also demonstrate how such alignment can infuse textual information into KB embeddings for more accurate link prediction on emerging entities and events, using COVID-19 as a case study.
翻訳日:2021-06-04 12:20:29 公開日:2021-06-03
# トランスフォーマー法を用いた短い会話文の自動タグ付け

Auto-tagging of Short Conversational Sentences using Transformer Methods ( http://arxiv.org/abs/2106.01735v1 )

ライセンス: Link先を確認
D. Emre Ta\c{s}ar,\c{S}\"ukr\"u Ozan, Umut \"Ozdil, M. Fatih Akca, O\u{g}uzhan \"Olmez, Semih G\"ul\"um, Se\c{c}ilay Kutal, Ceren Belhan(参考訳) 意味的特徴に応じた短い文を高精度に分類する問題は自然言語処理の分野で研究されている。 本研究では,46のカテゴリに分類されたサンプルを用いたデータセットを用いた。 例は、会社の顧客代表者と会社のウェブサイト訪問者とのチャット会話から得られた文章である。 主な目的は、チャットアプリケーションで使用する46のカテゴリに対して、訪問者からの質問やリクエストを最も正確な方法で自動的にタグ付けし、webサイト訪問者が求めた質問に対して有意義な回答を生成することである。 このため、様々なBERTモデルとトルコ語で事前訓練されたGPT-2モデルが好まれた。 関連モデルの分類性能を詳細に分析し,その結果を報告する。

The problem of categorizing short speech sentences according to their semantic features with high accuracy is a subject studied in natural language processing. In this study, a data set created with samples classified in 46 different categories was used. Examples consist of sentences taken from chat conversations between a company's customer representatives and the company's website visitors. The primary purpose is to automatically tag questions and requests from visitors in the most accurate way for 46 predetermined categories for use in a chat application to generate meaningful answers to the questions asked by the website visitors. For this, different BERT models and one GPT-2 model, pre-trained in Turkish, were preferred. The classification performances of the relevant models were analyzed in detail and reported accordingly.
翻訳日:2021-06-04 12:20:12 公開日:2021-06-03
# 多言語応答提案のためのデータセットとベースライン

A Dataset and Baselines for Multilingual Reply Suggestion ( http://arxiv.org/abs/2106.02017v1 )

ライセンス: Link先を確認
Mozhi Zhang, Wei Wang, Budhaditya Deb, Guoqing Zheng, Milad Shokouhi, Ahmed Hassan Awadallah(参考訳) replyの提案モデルは、メールやチャットの処理を高速化する。 前回の研究は英語による回答のみである。 代わりに、10言語からなる多言語リプライ提案データセットmrsを提案する。 mrsは、1)固定された集合から応答を選択する検索モデル、2)スクラッチから応答を生成する生成モデルという2種類のモデルを比較するのに使うことができる。 したがって、mrsは分類とシーケンスラベリングタスクに焦点を当てた既存の言語間一般化ベンチマークを補完する。 MRSのベースラインとして生成モデルと検索モデルを構築した。 2つのモデルは単言語環境において異なる強みを持ち、言語をまたいで一般化するために異なる戦略を必要とする。 MRSはhttps://github.com/z hangmozhi/mrs.comで公開されている。

Reply suggestion models help users process emails and chats faster. Previous work only studies English reply suggestion. Instead, we present MRS, a multilingual reply suggestion dataset with ten languages. MRS can be used to compare two families of models: 1) retrieval models that select the reply from a fixed set and 2) generation models that produce the reply from scratch. Therefore, MRS complements existing cross-lingual generalization benchmarks that focus on classification and sequence labeling tasks. We build a generation model and a retrieval model as baselines for MRS. The two models have different strengths in the monolingual setting, and they require different strategies to generalize across languages. MRS is publicly available at https://github.com/z hangmozhi/mrs.
翻訳日:2021-06-04 12:20:02 公開日:2021-06-03
# 制約付きマルコフ決定過程に対する有理効率モデルフリーアルゴリズム

A Provably-Efficient Model-Free Algorithm for Constrained Markov Decision Processes ( http://arxiv.org/abs/2106.01577v1 )

ライセンス: Link先を確認
Honghao Wei, Xin Liu, Lei Ying(参考訳) 本稿では,制約付きマルコフ決定過程 (cmdps) に対する最初のモデルフリー, シミュレータフリーの強化学習アルゴリズムを提案する。 このアルゴリズムは、累積報酬のQ関数(アクション値関数とも呼ばれる)、制約の累積効用Q関数、累積制約違反を見積もる仮想キューという3つの重要な要素を持つため、トリプルQと名付けられた。 トリプルQでは、各ステップで、3つのQ値の組み合わせである擬似Q値に基づいてアクションが選択される。 アルゴリズムは、報酬と有用Q値を、訪問数に依存する学習率で更新し、対応する(状態、行動)ペアに周期的にリセットする。 エピソードCMDP設定では、Triple-Q は $\tilde{\cal O}\left(\frac{1 }{\delta}H^4 S^{\frac{1}{2}}A^{\frac{1}{2}}K^{\frac{4}{5}} \right)$ regret, where $K$ is the total number of episodes, $H$ is the number of steps in each episode, $S$ is the number of state, $A$ is the number of action, $\delta$ is Slater's constant。 さらに、Triple-Qは、$K$が十分に大きいときにゼロ制約違反を保証する。 最後に、Triple-Qの計算複雑性は制約のないMDPのSARSAと似ており、計算効率が良い。

This paper presents the first {\em model-free}, {\em simulator-free} reinforcement learning algorithm for Constrained Markov Decision Processes (CMDPs) with sublinear regret and zero constraint violation. The algorithm is named Triple-Q because it has three key components: a Q-function (also called action-value function) for the cumulative reward, a Q-function for the cumulative utility for the constraint, and a virtual-Queue that (over)-estimates the cumulative constraint violation. Under Triple-Q, at each step, an action is chosen based on the pseudo-Q-value that is a combination of the three Q values. The algorithm updates the reward and utility Q-values with learning rates that depend on the visit counts to the corresponding (state, action) pairs and are periodically reset. In the episodic CMDP setting, Triple-Q achieves $\tilde{\cal O}\left(\frac{1 }{\delta}H^4 S^{\frac{1}{2}}A^{\frac{1}{2}}K^{\frac{4}{5}} \right)$ regret, where $K$ is the total number of episodes, $H$ is the number of steps in each episode, $S$ is the number of states, $A$ is the number of actions, and $\delta$ is Slater's constant. Furthermore, Triple-Q guarantees zero constraint violation when $K$ is sufficiently large. Finally, the computational complexity of Triple-Q is similar to SARSA for unconstrained MDPs and is computationally efficient.
翻訳日:2021-06-04 12:19:21 公開日:2021-06-03
# 収束グラフ解法

Convergent Graph Solvers ( http://arxiv.org/abs/2106.01680v1 )

ライセンス: Link先を確認
Junyoung Park, Jinhyun Choo, Jinkyoo Park(参考訳) 本稿では,グラフシステムの定常状態(固定点)における性質を予測するために反復写像を学習し,収束を保証した深層学習法であるconvergent graph solver(cgs)を提案する。 CGSは対象のグラフシステムの固定点を体系的に計算し、既存の解法や中間解の事前知識なしでシステムの定常特性を推定するようにデコードする。 CGSの前方伝播は、(1)入力依存線形縮退反復写像の構築、(2)線形写像の固定点の計算、(3)固定点を復号して特性を推定する3つのステップで進行する。 構成された線型写像の縮約性は、バナッハの不動点定理に続く固定点の存在と一意性を保証する。 また,cgsを効率的に訓練するために,暗黙関数定理を活用し,その勾配を扱いやすい解析式を導出する。 各種ネットワーク分析およびグラフベンチマーク問題に適用することにより,CGSの性能を評価する。 その結果, CGSは, 対象系が線形か非線形かに関わらず, グラフシステムの定常特性を予測する競争力を持つことが示された。 CGSはまた、固定点の存在や意味を明確に定義することが難しいグラフ分類問題に対して高い性能を示し、一般的なグラフニューラルネットワークアーキテクチャとしてのCGSの可能性を強調している。

We propose the convergent graph solver (CGS), a deep learning method that learns iterative mappings to predict the properties of a graph system at its stationary state (fixed point) with guaranteed convergence. CGS systematically computes the fixed points of a target graph system and decodes them to estimate the stationary properties of the system without the prior knowledge of existing solvers or intermediate solutions. The forward propagation of CGS proceeds in three steps: (1) constructing the input dependent linear contracting iterative maps, (2) computing the fixed-points of the linear maps, and (3) decoding the fixed-points to estimate the properties. The contractivity of the constructed linear maps guarantees the existence and uniqueness of the fixed points following the Banach fixed point theorem. To train CGS efficiently, we also derive a tractable analytical expression for its gradient by leveraging the implicit function theorem. We evaluate the performance of CGS by applying it to various network-analytic and graph benchmark problems. The results indicate that CGS has competitive capabilities for predicting the stationary properties of graph systems, irrespective of whether the target systems are linear or non-linear. CGS also shows high performance for graph classification problems where the existence or the meaning of a fixed point is hard to be clearly defined, which highlights the potential of CGS as a general graph neural network architecture.
翻訳日:2021-06-04 12:18:39 公開日:2021-06-03
# 最適化変数:DNNの一般化特性を探る

Optimization Variance: Exploring Generalization Properties of DNNs ( http://arxiv.org/abs/2106.01714v1 )

ライセンス: Link先を確認
Xiao Zhang, Dongrui Wu, Haoyi Xiong, Bo Dai(参考訳) 統計学習理論における従来の知恵とは異なり、ディープニューラルネットワーク(DNN)のテスト誤差はしばしば二重降下を示す。 近年の研究では、バイアス分散の分解により、ベル形状の分散がモデルワイド二重降下の主な原因であることが判明した(DNNは徐々に拡大している)。 本稿は,DNNの試験誤差が,トレーニングエポッチの数の増加に伴って2重降下を示すという,画期的な2重降下について検討する。 バイアス分散解析をゼロワン損失のエポック方向の二重降下に拡張することで、バイアスのない分散自体がテストエラーと一貫して異なることが驚くべきことに判明した。 この結果に触発されて,同じイテレーションで描かれたランダムトレーニングバッチの確率的勾配によって生じるモデル更新の多様性を測定するための新しいメトリックである最適化分散(ov)を提案する。 OV はトレーニングセットからのサンプルだけで推定できるが、(未知の) \emph{test} エラーとよく相関しているため、早期停止は検証セットを使わずに達成できる。

Unlike the conventional wisdom in statistical learning theory, the test error of a deep neural network (DNN) often demonstrates double descent: as the model complexity increases, it first follows a classical U-shaped curve and then shows a second descent. Through bias-variance decomposition, recent studies revealed that the bell-shaped variance is the major cause of model-wise double descent (when the DNN is widened gradually). This paper investigates epoch-wise double descent, i.e., the test error of a DNN also shows double descent as the number of training epoches increases. By extending the bias-variance analysis to epoch-wise double descent of the zero-one loss, we surprisingly find that the variance itself, without the bias, varies consistently with the test error. Inspired by this result, we propose a novel metric, optimization variance (OV), to measure the diversity of model updates caused by the stochastic gradients of random training batches drawn in the same iteration. OV can be estimated using samples from the training set only but correlates well with the (unknown) \emph{test} error, and hence early stopping may be achieved without using a validation set.
翻訳日:2021-06-04 12:18:16 公開日:2021-06-03
# Implicit MLE:離散指数家族分布によるバックプロパゲーション

Implicit MLE: Backpropagating Through Discrete Exponential Family Distributions ( http://arxiv.org/abs/2106.01798v1 )

ライセンス: Link先を確認
Mathias Niepert and Pasquale Minervini and Luca Franceschi(参考訳) 離散確率分布と組合せ最適化問題のニューラルネットワークへの統合には多くの応用があるが、いくつかの課題がある。 離散指数系列分布と微分可能なニューラル成分を組み合わせたモデルのエンドツーエンド学習のためのフレームワークであるImlicit Maximum Likelihood Estimation (I-MLE)を提案する。 I-MLEは広く適用可能であり、最も確率の高い状態を計算する能力しか必要とせず、滑らかな緩和に依存しない。 このフレームワークは、摂動に基づく暗黙差分法や、ブラックボックス組合せ解法を通して区別する最近の方法など、いくつかのアプローチを含んでいる。 本稿では,境界を近似する新しいノイズ分布のクラスを提案する。 さらに,I-MLEは組合せ解法を含む最近研究された学習環境において,最大推定を単純化することを示した。 いくつかのデータセットの実験では、I-MLEは問題固有の緩和に依存する既存のアプローチと競合し、しばしば優れていることが示唆されている。

Integrating discrete probability distributions and combinatorial optimization problems into neural networks has numerous applications but poses several challenges. We propose Implicit Maximum Likelihood Estimation (I-MLE), a framework for end-to-end learning of models combining discrete exponential family distributions and differentiable neural components. I-MLE is widely applicable: it only requires the ability to compute the most probable states; and does not rely on smooth relaxations. The framework encompasses several approaches, such as perturbation-based implicit differentiation and recent methods to differentiate through black-box combinatorial solvers. We introduce a novel class of noise distributions for approximating marginals via perturb-and-MAP. Moreover, we show that I-MLE simplifies to maximum likelihood estimation when used in some recently studied learning settings that involve combinatorial solvers. Experiments on several datasets suggest that I-MLE is competitive with and often outperforms existing approaches which rely on problem-specific relaxations.
翻訳日:2021-06-04 12:17:57 公開日:2021-06-03
# 大規模シーケンスモデリング問題としての強化学習

Reinforcement Learning as One Big Sequence Modeling Problem ( http://arxiv.org/abs/2106.02039v1 )

ライセンス: Link先を確認
Michael Janner, Qiyang Li, Sergey Levine(参考訳) 強化学習(Reinforcement Learning, RL)は、通常は単一ステップポリシーや単一ステップモデルを推定し、マルコフ特性を利用して問題を時間内に分解する。 しかし、RLをシーケンスモデリング問題と見なすことができ、高い報酬の列につながる一連のアクションを予測することが目的である。 このように見れば、自然言語処理のような他の領域でうまく機能する強力で高容量なシーケンス予測モデルが、RL問題に対する単純かつ効果的な解決策を提供できるかどうかを考える傾向にある。 この目的のために、状態、行動、報酬の列にまたがる分布をモデル化するために最先端のTransformerアーキテクチャを用いて、RLを"1つの大きなシーケンスモデリング"問題として再編成する方法について検討する。 RL をシーケンスモデリング問題として扱うことは,従来のオフラインモデルフリー RL では一般的であったような,個別の動作ポリシー制約をもはや必要とせず,モデルベース RL では一般的であるようなアンサンブルや他のエピステミック不確実性推定器をもはや必要としない,という,設計上の決定の幅を大幅に単純化する。 これらのロールはすべて、同じTransformerシーケンスモデルで満たされます。 実験では,長時間ホリゾンダイナミクス予測,模倣学習,目標条件rl,オフラインrlにおいて,このアプローチの柔軟性を示す。

Reinforcement learning (RL) is typically concerned with estimating single-step policies or single-step models, leveraging the Markov property to factorize the problem in time. However, we can also view RL as a sequence modeling problem, with the goal being to predict a sequence of actions that leads to a sequence of high rewards. Viewed in this way, it is tempting to consider whether powerful, high-capacity sequence prediction models that work well in other domains, such as natural-language processing, can also provide simple and effective solutions to the RL problem. To this end, we explore how RL can be reframed as "one big sequence modeling" problem, using state-of-the-art Transformer architectures to model distributions over sequences of states, actions, and rewards. Addressing RL as a sequence modeling problem significantly simplifies a range of design decisions: we no longer require separate behavior policy constraints, as is common in prior work on offline model-free RL, and we no longer require ensembles or other epistemic uncertainty estimators, as is common in prior work on model-based RL. All of these roles are filled by the same Transformer sequence model. In our experiments, we demonstrate the flexibility of this approach across long-horizon dynamics prediction, imitation learning, goal-conditioned RL, and offline RL.
翻訳日:2021-06-04 12:17:41 公開日:2021-06-03
# ノックオフフリーな特徴選択のための正規化フロー

Normalizing Flows for Knockoff-free Controlled Feature Selection ( http://arxiv.org/abs/2106.01528v1 )

ライセンス: Link先を確認
Derek Hansen, Brian Manzo, Jeffrey Regier(参考訳) 制御された特徴選択の目標は、応答が依存する特徴を発見すると同時に、偽発見の割合を予め定義されたレベルに制限することである。 近年,モデルx ノックオフフレームワークによる機能選択制御のためのノックオフ生成にディープラーニングを用いた複数の手法が提案されている。 しかし、これらの手法は、しばしば偽発見率(FDR)を制御できないことを示す。 この欠点には2つの理由がある。 まず、これらの手法はしばしば不正確な特徴のモデルを学ぶ。 第二に、ノックオフが有効になるために必要な"swap"プロパティは、しばしば十分に強制されない。 本稿では,これらの問題を修復するFlowSelectという新しい手法を提案する。 より正確に特徴をモデル化するために、flowselectは密度推定の最先端手法である正規化フローを使用する。 スワッププロパティの強制を回避するため、FlowSelectはMCMCベースの新しいプロシージャを使用して各特徴のp値を直接計算する。 漸近的に、FlowSelectはFDRを正確に制御する。 実証的に、FlowSelectは合成ベンチマークと半合成ベンチマークの両方でFDRをうまく制御するが、競合するノックオフベースのアプローチではそうはならない。 FlowSelectは、これらのベンチマークでさらに力を発揮する。 さらに、大豆のゲノムワイドアソシエーション研究のデータを用いて、フローセレクトは特定の大豆形質に関連する遺伝的変異を正しく推測する。

The goal of controlled feature selection is to discover the features a response depends on while limiting the proportion of false discoveries to a predefined level. Recently, multiple methods have been proposed that use deep learning to generate knockoffs for controlled feature selection through the Model-X knockoff framework. We demonstrate, however, that these methods often fail to control the false discovery rate (FDR). There are two reasons for this shortcoming. First, these methods often learn inaccurate models of features. Second, the "swap" property, which is required for knockoffs to be valid, is often not well enforced. We propose a new procedure called FlowSelect that remedies both of these problems. To more accurately model the features, FlowSelect uses normalizing flows, the state-of-the-art method for density estimation. To circumvent the need to enforce the swap property, FlowSelect uses a novel MCMC-based procedure to directly compute p-values for each feature. Asymptotically, FlowSelect controls the FDR exactly. Empirically, FlowSelect controls the FDR well on both synthetic and semi-synthetic benchmarks, whereas competing knockoff-based approaches fail to do so. FlowSelect also demonstrates greater power on these benchmarks. Additionally, using data from a genome-wide association study of soybeans, FlowSelect correctly infers the genetic variants associated with specific soybean traits.
翻訳日:2021-06-04 12:16:17 公開日:2021-06-03
# ロバストキーワードスポッティングのための学生教師学習

Noisy student-teacher training for robust keyword spotting ( http://arxiv.org/abs/2106.01604v1 )

ライセンス: Link先を確認
Hyun-Jin Park, Pai Zhu, Ignacio Lopez Moreno, Niranjan Subrahmanya(参考訳) そこで本研究では,大規模非ラベルデータと積極的なデータ拡張を活用できるストリーミングキーワードスポッティングのための,うるさく学生教師アプローチによる自己学習を提案する。 提案手法は,学生と教師の両方の入力に対してアグレッシブなデータ拡張(スペクトル増強)を適用し,大規模にラベル付けされていないデータを利用する。 このような積極的な拡張は、通常、ハードラベルデータによる教師付きトレーニングで使用する場合のモデルパフォーマンスを低下させる。 実験により, ベースライン指導訓練法における攻撃的スペック増強は精度を低下させるが, ノイズの多い学生教師訓練による自己学習は, 難条件テストセットの精度を最大60%向上させることがわかった。

We propose self-training with noisy student-teacher approach for streaming keyword spotting, that can utilize large-scale unlabeled data and aggressive data augmentation. The proposed method applies aggressive data augmentation (spectral augmentation) on the input of both student and teacher and utilize unlabeled data at scale, which significantly boosts the accuracy of student against challenging conditions. Such aggressive augmentation usually degrades model performance when used with supervised training with hard-labeled data. Experiments show that aggressive spec augmentation on baseline supervised training method degrades accuracy, while the proposed self-training with noisy student-teacher training improves accuracy of some difficult-conditione d test sets by as much as 60%.
翻訳日:2021-06-04 12:15:54 公開日:2021-06-03
# MINIMALIST : サンプル軌道からのアモータイズされた同義語推論のための相互インフォーマトイオンの最大化

MINIMALIST: Mutual INformatIon Maximization for Amortized Likelihood Inference from Sampled Trajectories ( http://arxiv.org/abs/2106.01808v1 )

ライセンス: Link先を確認
Giulio Isacchini, Natanael Spisak, Armita Nourmohammad, Thierry Mora, Aleksandra M. Walczak(参考訳) シミュレーションに基づく推論は、その可能性が実際に計算できない場合でもモデルのパラメータを学習することができる。 あるクラスのメソッドは、異なるパラメータでシミュレートされたデータを使用して、確率とエビデンス比、または等価な後方関数の補正推定器を推定する。 本手法はモデルパラメータとシミュレーションデータ間の相互情報最大化の観点から定式化できることを示す。 我々は,この等価性を用いて,既存の推論手法を再解釈し,相互情報の下位境界に依存する2つの新しい手法を提案する。 提案手法は, 後部予測に人工ニューラルネットワークを用いて, サンプル軌道からの確率過程とカオス力学系のパラメータの推測に応用する。 提案手法は,相互情報推定器の力を利用した統合的フレームワークを提供する。

Simulation-based inference enables learning the parameters of a model even when its likelihood cannot be computed in practice. One class of methods uses data simulated with different parameters to infer an amortized estimator for the likelihood-to-eviden ce ratio, or equivalently the posterior function. We show that this approach can be formulated in terms of mutual information maximization between model parameters and simulated data. We use this equivalence to reinterpret existing approaches for amortized inference, and propose two new methods that rely on lower bounds of the mutual information. We apply our framework to the inference of parameters of stochastic processes and chaotic dynamical systems from sampled trajectories, using artificial neural networks for posterior prediction. Our approach provides a unified framework that leverages the power of mutual information estimators for inference.
翻訳日:2021-06-04 12:15:38 公開日:2021-06-03
# 因果効果推定のためのグラフ介入ネットワーク

Graph Intervention Networks for Causal Effect Estimation ( http://arxiv.org/abs/2106.01939v1 )

ライセンス: Link先を確認
Jean Kaddour, Qi Liu, Yuchen Zhu, Matt J. Kusner, Ricardo Silva(参考訳) 治療がグラフ構造(例えば薬物の分子グラフ)である場合の条件平均治療効果(CATE)の推定に対処する。 そこで本研究では,CATE推定を分離した簡易最適化問題に分解するプラグイン推定器を提案する。 我々の推定器(a)は因果推定器(正規化バイアスの低減)を分離し、(b)学習のために任意のモデルをプラグインすることができる。 また,小世界および分子グラフを用いた実験において,提案手法が先行手法よりも優れ,選択バイアスの変動に対して頑健であることを示す。 私たちの実装はオンラインです。

We address the estimation of conditional average treatment effects (CATEs) when treatments are graph-structured (e.g., molecular graphs of drugs). Given a weak condition on the effect, we propose a plug-in estimator that decomposes CATE estimation into separate, simpler optimization problems. Our estimator (a) isolates the causal estimands (reducing regularization bias), and (b) allows one to plug in arbitrary models for learning. In experiments with small-world and molecular graphs, we show that our approach outperforms prior approaches and is robust to varying selection biases. Our implementation is online.
翻訳日:2021-06-04 12:15:23 公開日:2021-06-03
# ハイパーグラフのガウス過程

Gaussian Processes on Hypergraphs ( http://arxiv.org/abs/2106.01982v1 )

ライセンス: Link先を確認
Thomas Pinder, Kathryn Turnbull, Christopher Nemeth, David Leslie(参考訳) 我々はハイパーグラフの頂点上の母性ガウス過程(gp)を導出する。 これにより、頂点に関連する観測値や潜在値の回帰モデルの推定が可能となり、相関や不確実性の推定はハイパーグラフ構造によって行われる。 さらに,ハイパーグラフGPを用いてハイパーグラフの頂点を潜在空間に埋め込むためのフレームワークを提案する。 最後に,分散gpsによるスケーラブルな推論を可能にする,少数の代表的な頂点を同定するためのスキームを提案する。 本研究では,投票行動や映画レビューの確率的行列因子化,低次元潜在空間への動物ハイパーグラフの埋め込みなどに基づいて,議員の政党所属に関する多種分類を課題とする3つの実世界問題に対する枠組みの有用性を実証する。

We derive a Matern Gaussian process (GP) on the vertices of a hypergraph. This enables estimation of regression models of observed or latent values associated with the vertices, in which the correlation and uncertainty estimates are informed by the hypergraph structure. We further present a framework for embedding the vertices of a hypergraph into a latent space using the hypergraph GP. Finally, we provide a scheme for identifying a small number of representative inducing vertices that enables scalable inference through sparse GPs. We demonstrate the utility of our framework on three challenging real-world problems that concern multi-class classification for the political party affiliation of legislators on the basis of voting behaviour, probabilistic matrix factorisation of movie reviews, and embedding a hypergraph of animals into a low-dimensional latent space.
翻訳日:2021-06-04 12:15:11 公開日:2021-06-03
# 放射基底関数成分を用いた非線形行列近似

Nonlinear Matrix Approximation with Radial Basis Function Components ( http://arxiv.org/abs/2106.02018v1 )

ライセンス: Link先を確認
Elizaveta Rebrova and Yu-Hang Tang(参考訳) 本稿では,放射基底関数(RBF)成分の和に分解による行列近似を導入する。 RBF成分は、一対のベクトル間の外積の一般化であり、RBF関数は個々のベクトル要素間のスカラー乗法を置き換える。 RBF関数は正定値であるが、成分間の和は凸結合に制限されず、必ずしも対称あるいは正定値でない任意の実行列の分解を計算することができる。 非線形および非凸損失関数を持つ最適化問題として,そのような分解を求める問題を定式化する。 この問題を解決するために、スケーラブルな確率的解法を含む勾配降下法の現代版がいくつか使用されている。 RBF分解の有効性と勾配に基づくフィッティングアルゴリズムの有効性を実証的に検証した。 提案手法は特異値分解(SVD)によって概念的に動機付けされているが, 提案手法は, 幅広い行列に対して同じ$L_2$-errorでデータ行列を近似するために必要なメモリを劇的に削減することで, SVDよりも優れる。 例えば、ガウスノイズ、グラフ隣接行列、カーネル行列の2倍から10倍のメモリ節約につながる。 さらに、この近接ベース分解は、例えば、データの内部の低次元構造をキャプチャし、グラフ接続構造を保持し、画像の正確性を保持するアプリケーションにおいて、さらなる解釈可能性を提供する。

We introduce and investigate matrix approximation by decomposition into a sum of radial basis function (RBF) components. An RBF component is a generalization of the outer product between a pair of vectors, where an RBF function replaces the scalar multiplication between individual vector elements. Even though the RBF functions are positive definite, the summation across components is not restricted to convex combinations and allows us to compute the decomposition for any real matrix that is not necessarily symmetric or positive definite. We formulate the problem of seeking such a decomposition as an optimization problem with a nonlinear and non-convex loss function. Several modern versions of the gradient descent method, including their scalable stochastic counterparts, are used to solve this problem. We provide extensive empirical evidence of the effectiveness of the RBF decomposition and that of the gradient-based fitting algorithm. While being conceptually motivated by singular value decomposition (SVD), our proposed nonlinear counterpart outperforms SVD by drastically reducing the memory required to approximate a data matrix with the same $L_2$-error for a wide range of matrix types. For example, it leads to 2 to 10 times memory save for Gaussian noise, graph adjacency matrices, and kernel matrices. Moreover, this proximity-based decomposition can offer additional interpretability in applications that involve, e.g., capturing the inner low-dimensional structure of the data, retaining graph connectivity structure, and preserving the acutance of images.
翻訳日:2021-06-04 12:14:57 公開日:2021-06-03
# 器用な手と触覚でピアノを弾くことを学ぶ

Towards Learning to Play Piano with Dexterous Hands and Touch ( http://arxiv.org/abs/2106.02040v1 )

ライセンス: Link先を確認
Huazhe Xu, Yuping Luo, Shaoxiong Wang, Trevor Darrell, Roberto Calandra(参考訳) ヴィルトゥオーソは情熱と詩と並外れた技術的能力でピアノを弾く。 リストが言ったように(ヴィルトゥオーソ)、香りと花を呼び起こし、息を吸う。 ピアノを弾ける最強のロボットは、特殊なロボットの手/ピアノとハードコードされた計画アルゴリズムの組み合わせに基づいている。 これとは対照的に,本論文では,エージェントが機械可読音楽から直接学習し,ピアノをシミュレートピアノでデクタラスハンドで演奏する方法を,強化学習(rl)をスクラッチから示す。 我々はRLエージェントが正しいキー位置を見つけるだけでなく、様々なリズミカル、ボリューム、フィンガーグの要求に対処できることを示した。 我々は,タッチによる報酬と新しいタスクカリキュラムを用いてこれを実現する。 我々は,このような学習アルゴリズムを実現するために重要な側面を慎重に研究することで,今後の研究に光を当てることができると結論付けた。

The virtuoso plays the piano with passion, poetry and extraordinary technical ability. As Liszt said (a virtuoso)must call up scent and blossom, and breathe the breath of life. The strongest robots that can play a piano are based on a combination of specialized robot hands/piano and hardcoded planning algorithms. In contrast to that, in this paper, we demonstrate how an agent can learn directly from machine-readable music score to play the piano with dexterous hands on a simulated piano using reinforcement learning (RL) from scratch. We demonstrate the RL agents can not only find the correct key position but also deal with various rhythmic, volume and fingering, requirements. We achieve this by using a touch-augmented reward and a novel curriculum of tasks. We conclude by carefully studying the important aspects to enable such learning algorithms and that can potentially shed light on future research in this direction.
翻訳日:2021-06-04 12:14:32 公開日:2021-06-03