このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201014となっている論文です。

PDF登録状況(公開日: 20201014)

TitleAuthorsAbstract論文公表日・翻訳日
# 主観的質問応答:主観的視点における変圧器の内部動作の解読

Subjective Question Answering: Deciphering the inner workings of Transformers in the realm of subjectivity ( http://arxiv.org/abs/2006.08342v2 )

ライセンス: Link先を確認
Lukas Muttenthaler(参考訳) 主観性を理解するには、共通知識の領域を超えた推論スキルが必要である。 感情を処理し、意見マイニングを行うには、機械学習モデルが必要です。 この作業では、最近リリースされたSpat-selection Question Answering、すなわちSubjQAのデータセットを利用しています。 SubjQAは、6つの異なるドメインのレビュー項に対応する主観的な意見を求める質問を含む最初のQAデータセットである。 したがって、これらの主観的な問いに答えるためには、学習者は様々なドメインの意見やプロセス感情を抽出し、さらに、段落から抽出した知識を対応する質問の自然言語発話と整合させ、同時にqaタスクの難易度を高める必要がある。 この論文の第一の目的はトランスフォーマーベースのアーキテクチャの内部構造(すなわち潜在表現)を調査し、まだよく理解されていない「ブラックボックス」モデルの理解を深めることであった。 真の答えスパンに関するトランスフォーマーの隠された表現は、誤った予測に対応する表現よりもベクトル空間内でより密集している。 この観察は、客観的および主観的な質問の上位3つのトランスフォーマー層にまたがって行われ、一般的には層次元の関数として増加する。 また、真の回答スパントークンに関する潜在空間における隠れ表現間の高いコサイン類似性を達成する確率は、不正確な回答スパン予測よりも正確である。 これらの結果はダウンストリームアプリケーションに決定的な意味を持ち、なぜニューラルネットワークがミスを犯したのか、どの点において、そのミスが起きたのかを知ることが不可欠である(例えば、ラベル付きデータを必要としない解答の正確性を自動的に予測するなど)。

Understanding subjectivity demands reasoning skills beyond the realm of common knowledge. It requires a machine learning model to process sentiment and to perform opinion mining. In this work, I've exploited a recently released dataset for span-selection Question Answering, namely SubjQA. SubjQA is the first QA dataset that contains questions that ask for subjective opinions corresponding to review paragraphs from six different domains. Hence, to answer these subjective questions, a learner must extract opinions and process sentiment for various domains, and additionally, align the knowledge extracted from a paragraph with the natural language utterances in the corresponding question, which together enhance the difficulty of a QA task. The primary goal of this thesis was to investigate the inner workings (i.e., latent representations) of a Transformer-based architecture to contribute to a better understanding of these not yet well understood "black-box" models. Transformer's hidden representations, concerning the true answer span, are clustered more closely in vector space than those representations corresponding to erroneous predictions. This observation holds across the top three Transformer layers for both objective and subjective questions and generally increases as a function of layer dimensions. Moreover, the probability to achieve a high cosine similarity among hidden representations in latent space concerning the true answer span tokens is significantly higher for correct compared to incorrect answer span predictions. These results have decisive implications for down-stream applications, where it is crucial to know about why a neural network made mistakes, and in which point, in space and time the mistake has happened (e.g., to automatically predict correctness of an answer span prediction without the necessity of labeled data).
翻訳日:2022-11-26 00:29:11 公開日:2020-10-14
# 資源制約エッジ推論における通信計算のトレードオフ

Communication-Computation Trade-Off in Resource-Constrained Edge Inference ( http://arxiv.org/abs/2006.02166v2 )

ライセンス: Link先を確認
Jiawei Shao, Jun Zhang(参考訳) 人工知能(AI)の最近のブレークスルー、特にディープニューラルネットワーク(DNN)は、科学と技術のあらゆる分野に影響を与えている。 特に、エッジデバイスでDNNベースのサービスを提供するための主要なアプリケーションシナリオとして、エッジAIが想定されている。 本稿では,資源制約のあるデバイスにおけるエッジ推論の効果的な手法を提案する。 エッジコンピューティングサーバが支援するデバイスエッジコカンファレンスに注目し、オンデバイスモデルの計算コストと中間機能をエッジサーバに転送する通信コストの間の重要なトレードオフを調査します。 1) オンデバイスモデルを決定するためのモデル分割点選択, (2) オンデバイス計算と結果として生じる通信オーバーヘッドを同時に削減するための通信認識モデル圧縮, (3) 中間機能のタスク指向エンコーディングにより通信オーバーヘッドがさらに低減される3段階のフレームワークを提案する。 実験により,提案フレームワークがより良いトレードオフを達成し,ベースラインメソッドよりも推論遅延を大幅に低減できることが実証された。

The recent breakthrough in artificial intelligence (AI), especially deep neural networks (DNNs), has affected every branch of science and technology. Particularly, edge AI has been envisioned as a major application scenario to provide DNN-based services at edge devices. This article presents effective methods for edge inference at resource-constrained devices. It focuses on device-edge co-inference, assisted by an edge computing server, and investigates a critical trade-off among the computation cost of the on-device model and the communication cost of forwarding the intermediate feature to the edge server. A three-step framework is proposed for the effective inference: (1) model split point selection to determine the on-device model, (2) communication-aware model compression to reduce the on-device computation and the resulting communication overhead simultaneously, and (3) task-oriented encoding of the intermediate feature to further reduce the communication overhead. Experiments demonstrate that our proposed framework achieves a better trade-off and significantly reduces the inference latency than baseline methods.
翻訳日:2022-11-25 17:34:53 公開日:2020-10-14
# MFPP:ブラックボックスモデル記述のための形態的フラクタル摂動ピラミッド

MFPP: Morphological Fragmental Perturbation Pyramid for Black-Box Model Explanations ( http://arxiv.org/abs/2006.02659v3 )

ライセンス: Link先を確認
Qing Yang, Xia Zhu, Jong-Kae Fwu, Yun Ye, Ganmei You and Yuan Zhu(参考訳) ディープニューラルネットワーク(dnn)は最近、医療診断や自動運転など、多くの先進的で多様なタスクに応用され、使用されている。 深層モデルの透明性が欠如しているため、DNNは人間によって説明できない予測についてしばしば批判される。 本稿では,説明可能なai問題を解くための新しい形態素断片摂動ピラミッド(mfpp)法を提案する。 特に,DNNの内部構造を理解することなく,DNNの出力に責任を持つ入力領域を識別するブラックボックス方式に着目した。 MFPP法では,入力画像をマルチスケールのフラグメントに分割し,フラグメントを摂動としてランダムにマスクしてサリエンシマップを生成し,ブラックボックスモデルの予測結果に対する各ピクセルの意義を示す。 既存の入力サンプリング摂動法と比較して,ピラミッド構造の破片の方が有効であることが判明した。 入力画像の形態情報をその意味情報と一致するようによりよく探索でき、DNN内部では何の価値も必要としない。 我々は,MFPPが複数のDNNモデルおよびデータセット上で,最先端(SOTA)ブラックボックス解釈法の性能に適合し,その性能を超えることを質的に定量的に証明する。

Deep neural networks (DNNs) have recently been applied and used in many advanced and diverse tasks, such as medical diagnosis, automatic driving, etc. Due to the lack of transparency of the deep models, DNNs are often criticized for their prediction that cannot be explainable by human. In this paper, we propose a novel Morphological Fragmental Perturbation Pyramid (MFPP) method to solve the Explainable AI problem. In particular, we focus on the black-box scheme, which can identify the input area that is responsible for the output of the DNN without having to understand the internal architecture of the DNN. In the MFPP method, we divide the input image into multi-scale fragments and randomly mask out fragments as perturbation to generate a saliency map, which indicates the significance of each pixel for the prediction result of the black box model. Compared with the existing input sampling perturbation method, the pyramid structure fragment has proved to be more effective. It can better explore the morphological information of the input image to match its semantic information, and does not need any value inside the DNN. We qualitatively and quantitatively prove that MFPP meets and exceeds the performance of state-of-the-art (SOTA) black-box interpretation method on multiple DNN models and datasets.
翻訳日:2022-11-25 10:11:19 公開日:2020-10-14
# 選挙人大学に触発されたグラフ生成のためのヒューリスティック半教師付き学習

Heuristic Semi-Supervised Learning for Graph Generation Inspired by Electoral College ( http://arxiv.org/abs/2006.06469v2 )

ライセンス: Link先を確認
Chen Li, Xutan Peng, Hao Peng, Jianxin Li, Lihong Wang, Philip S. Yu, Lifang He(参考訳) 近年、半教師付きセットアップで顕著な成功を収めたため、グラフベースのアルゴリズムが注目されている。 モデルの性能を改善するために、以前の研究は入力グラフのトポロジーを変換することを学ぶ。 しかし、これらは元のノードとエッジの最適化にのみ焦点が当てられ、既存のデータを拡張する方向は未検討のままである。 本稿では,グラフ信号の生成過程をシミュレーションすることにより,新しいノードとエッジを自動的に拡張し,高密度サブグラフ内のラベル類似性を洗練する,新しいヒューリスティックな前処理手法である選挙大学(elco)を提案する。 高品質なラベル付きデータでトレーニングセットを安定的に拡大することで、我々のフレームワークは下流モデルに効果的に恩恵をもたらすことができる。 ELCOの汎用性と実用性を正当化するため、人気のあるGraph Convolution NetworkとGraph Attention Networkと組み合わせて、3つの標準データセットで広範な評価を行う。 テストされたすべてのセットアップにおいて、本手法はベースモデルの平均スコアを4.7ポイントという大きなマージンで向上させ、最先端を一貫して上回っている。 再現性を保証するため、コードとデータをhttps://github.com/RingBDStack/ELCOでリリースしています。

Recently, graph-based algorithms have drawn much attention because of their impressive success in semi-supervised setups. For better model performance, previous studies learn to transform the topology of the input graph. However, these works only focus on optimizing the original nodes and edges, leaving the direction of augmenting existing data unexplored. In this paper, by simulating the generation process of graph signals, we propose a novel heuristic pre-processing technique, namely ELectoral COllege (ELCO), which automatically expands new nodes and edges to refine the label similarity within a dense subgraph. Substantially enlarging the original training set with high-quality generated labeled data, our framework can effectively benefit downstream models. To justify the generality and practicality of ELCO, we couple it with the popular Graph Convolution Network and Graph Attention Network to perform extensive evaluations on three standard datasets. In all setups tested, our method boosts the average score of base models by a large margin of 4.7 points, as well as consistently outperforms the state-of-the-art. We release our code and data on https://github.com/RingBDStack/ELCO to guarantee reproducibility.
翻訳日:2022-11-23 05:14:01 公開日:2020-10-14
# 深層学習によるホルスタイン・フリース牛の視覚的識別

Visual Identification of Individual Holstein-Friesian Cattle via Deep Metric Learning ( http://arxiv.org/abs/2006.09205v3 )

ライセンス: Link先を確認
William Andrew, Jing Gao, Siobhan Mullan, Neill Campbell, Andrew W Dowsey, Tilo Burghardt(参考訳) ホルシュタイン・フリーズ産の牛は、チューリングの反応拡散系から生じたものと類似した、個々の特性の白黒のコートパターンを示す。 この研究は、畳み込みニューラルネットワークとディープメトリック学習技術を介して個々のホルスタイン・フライシャンの視覚検出と生体認証を自動化するために、これらの自然なマーキングを利用する。 既存のアプローチは,様々なメンテナンス要件を持つマーキング,タグ,ウェアラブルに頼っているのに対して,オープン・ハード・セッティングにおける頭上画像からの個々の動物の自動検出,局所化,識別のための完全ハンズオフ手法を提案する。 そこで本研究では,ソフトマックスに基づく相反三重項損失法を用いて同定問題に対処し,固定群れパラダイムに対する手法を詳細に評価する。 ディープメトリック学習システムは、システムトレーニング中の多くの牛を識別し再同定する場合でも、強力なパフォーマンスを示すことが分かり、人口のわずか半分でトレーニングした場合、93.8%の精度が得られる。 本研究は, 牛の非侵入的モニタリングを, 精密農業や自動生産性, 健康, 福祉のモニタリングに応用し, 行動分析, 疫病発生追跡などの獣医学的な研究に役立てることを目的としている。 ソースコード、ネットワークウェイト、データセットの主要部分は公開されています。

Holstein-Friesian cattle exhibit individually-characteristic black and white coat patterns visually akin to those arising from Turing's reaction-diffusion systems. This work takes advantage of these natural markings in order to automate visual detection and biometric identification of individual Holstein-Friesians via convolutional neural networks and deep metric learning techniques. Existing approaches rely on markings, tags or wearables with a variety of maintenance requirements, whereas we present a totally hands-off method for the automated detection, localisation, and identification of individual animals from overhead imaging in an open herd setting, i.e. where new additions to the herd are identified without re-training. We propose the use of SoftMax-based reciprocal triplet loss to address the identification problem and evaluate the techniques in detail against fixed herd paradigms. We find that deep metric learning systems show strong performance even when many cattle unseen during system training are to be identified and re-identified -- achieving 93.8% accuracy when trained on just half of the population. This work paves the way for facilitating the non-intrusive monitoring of cattle applicable to precision farming and surveillance for automated productivity, health and welfare monitoring, and to veterinary research such as behavioural analysis, disease outbreak tracing, and more. Key parts of the source code, network weights and datasets are available publicly.
翻訳日:2022-11-20 21:05:14 公開日:2020-10-14
# 組合せ最適化と整数分解のための論理的合成・ハードウェア高速化・制限ボルツマンマシン

Logically Synthesized, Hardware-Accelerated, Restricted Boltzmann Machines for Combinatorial Optimization and Integer Factorization ( http://arxiv.org/abs/2007.13489v2 )

ライセンス: Link先を確認
Saavan Patel, Philip Canoza, Sayeef Salahuddin(参考訳) 制限ボルツマンマシン(Restricted Boltzmann Machine, RBM)は、NP-Hard組合せ最適化問題や整数分解など、様々な困難なタスクを解くことのできる確率的ニューラルネットワークである。 RBMアーキテクチャも非常にコンパクトで、重みやバイアスは極めて少ない。 これにより、そのような問題の基底状態を見つけるための単純で並列化可能なサンプリングアルゴリズムとともに、RBMはハードウェアアクセラレーションに対応できる。 しかしながら、これらの問題に対するRBMのトレーニングは、トレーニングアルゴリズムが大きな問題サイズで失敗する傾向にあり、効率的なマッピングを見つけるのが難しいため、大きな課題となる。 本稿では, RBMを組み合わさって, 大容量の問題をフルフォームで学習する必要性を回避する手法を提案する。 また, RBM のハードウェア化を図り, FPGA ベースのアクセラレータにアルゴリズムを効率的にマッピングできるようにする手法を提案する。 この加速器を用いることで、ハードウェアアクセラレーションによる16ビット数のファクタライゼーションを10000倍の速度向上と32倍の電力改善で高精度に行うことができる。

The Restricted Boltzmann Machine (RBM) is a stochastic neural network capable of solving a variety of difficult tasks such as NP-Hard combinatorial optimization problems and integer factorization. The RBM architecture is also very compact; requiring very few weights and biases. This, along with its simple, parallelizable sampling algorithm for finding the ground state of such problems, makes the RBM amenable to hardware acceleration. However, training of the RBM on these problems can pose a significant challenge, as the training algorithm tends to fail for large problem sizes and efficient mappings can be hard to find. Here, we propose a method of combining RBMs together that avoids the need to train large problems in their full form. We also propose methods for making the RBM more hardware amenable, allowing the algorithm to be efficiently mapped to an FPGA-based accelerator. Using this accelerator, we are able to show hardware accelerated factorization of 16 bit numbers with high accuracy with a speed improvement of 10000x and a power improvement of 32x.
翻訳日:2022-11-20 18:34:30 公開日:2020-10-14
# 新聞犯罪物語におけるギルトの主観評価のモデル化

Modeling Subjective Assessments of Guilt in Newspaper Crime Narratives ( http://arxiv.org/abs/2006.09589v2 )

ライセンス: Link先を確認
Elisa Kreiss, Zijian Wang, Christopher Potts(参考訳) 犯罪報告は、公的な認識と社会政策を形成する力を持つジャーナリズムの一般的な形態である。 これらのレポートの言語は読者にどのように作用するのか? 我々は、米国の英語新聞の注釈付き犯罪記事のSuspectGuilt Corpusでこの問題に対処しようとしている。 SuspectGuiltでは、アノテーターは短い犯罪記事を読み、主要な容疑者の罪悪感に関するテキストレベルの評価と、その記事のどの部分が彼らの評価に最も影響を与えたかを示すスパンレベルの注釈を提供した。 したがって、SuspectGuiltは、言語的選択が主観的罪悪感の判断にどのように影響するかをリッチな図示を提供する。 さらに,SuspectGuiltを用いて予測モデルの学習と評価を行い,テキストレベルの評価とスパンレベルのアノテーションからジャンル事前学習と共同指導の恩恵を受けることを示す。 このようなモデルは、犯罪報告の社会効果を理解するためのツールとして使われるかもしれない。

Crime reporting is a prevalent form of journalism with the power to shape public perceptions and social policies. How does the language of these reports act on readers? We seek to address this question with the SuspectGuilt Corpus of annotated crime stories from English-language newspapers in the U.S. For SuspectGuilt, annotators read short crime articles and provided text-level ratings concerning the guilt of the main suspect as well as span-level annotations indicating which parts of the story they felt most influenced their ratings. SuspectGuilt thus provides a rich picture of how linguistic choices affect subjective guilt judgments. In addition, we use SuspectGuilt to train and assess predictive models, and show that these models benefit from genre pretraining and joint supervision from the text-level ratings and span-level annotations. Such models might be used as tools for understanding the societal effects of crime reporting.
翻訳日:2022-11-19 20:44:04 公開日:2020-10-14
# 神経異方性方向

Neural Anisotropy Directions ( http://arxiv.org/abs/2006.09717v2 )

ライセンス: Link先を確認
Guillermo Ortiz-Jimenez, Apostolos Modas, Seyed-Mohsen Moosavi-Dezfooli, Pascal Frossard(参考訳) 本研究では,深層分類器の帰納的バイアス形成におけるネットワークアーキテクチャの役割を分析する。 この目的のために我々は,線形分離可能な分布のクラスを分類する,非常に単純な問題に注目し,分布の判別的特徴の方向に応じて,この単純な課題を解決するのに多くの最先端の深層畳み込みニューラルネットワーク(cnns)が驚くほど困難であることを示す。 次に、アーキテクチャの方向性誘導バイアスをカプセル化するベクトルを神経異方性方向(NAD)と定義する。 これらのベクトルは各アーキテクチャに特有であり、それゆえシグネチャとして振る舞うが、特定の特徴に基づいて入力データを分離するネットワークの好みを符号化する。 いくつかのCNNアーキテクチャにおいてNADを効率よく同定し,その方向誘導バイアスを明らかにする方法を提案する。 さらに、CIFAR-10データセットでは、NADはCNNが異なるクラス間で識別するために使用する特徴を特徴付ける。

In this work, we analyze the role of the network architecture in shaping the inductive bias of deep classifiers. To that end, we start by focusing on a very simple problem, i.e., classifying a class of linearly separable distributions, and show that, depending on the direction of the discriminative feature of the distribution, many state-of-the-art deep convolutional neural networks (CNNs) have a surprisingly hard time solving this simple task. We then define as neural anisotropy directions (NADs) the vectors that encapsulate the directional inductive bias of an architecture. These vectors, which are specific for each architecture and hence act as a signature, encode the preference of a network to separate the input data based on some particular features. We provide an efficient method to identify NADs for several CNN architectures and thus reveal their directional inductive biases. Furthermore, we show that, for the CIFAR-10 dataset, NADs characterize the features used by CNNs to discriminate between different classes.
翻訳日:2022-11-19 19:07:06 公開日:2020-10-14
# 脳MRIデータ分類のための3次元CNNの解釈

Interpretation of 3D CNNs for Brain MRI Data Classification ( http://arxiv.org/abs/2006.15969v2 )

ライセンス: Link先を確認
Maxim Kan, Ruslan Aliev, Anna Rudenko, Nikita Drobyshev, Nikita Petrashen, Ekaterina Kondrateva, Maxim Sharaev, Alexander Bernstein, Evgeny Burnaev(参考訳) 深層学習は多くの医療画像解析タスクに高い可能性を示している。 ニューラルネットワークは、大規模な事前処理や特徴生成なしに、フルサイズのデータを扱うことができる。 近年の研究では、MRIでは畳み込みニューラルネットワーク(CNN)を用いて特定の脳領域における形態的差異が発見されている。 しかし、既存のモデルの解釈は興味のある領域に基づいており、画像全体のvoxel-wise画像解釈に拡張することはできない。 現在の研究では、若者の健康な被験者の大規模なオープンソースデータセットの分類タスクについて検討している。 本稿では,T1脳MRIにおける拡散テンソル画像の性別差に関する過去の知見を拡張した。 本稿では,3つの解釈手法(Meaningful Perturbations, Grad CAM, Guided Backpropagation)の結果を比較し,オープンソースライブラリにコントリビュートする。

Deep learning shows high potential for many medical image analysis tasks. Neural networks can work with full-size data without extensive preprocessing and feature generation and, thus, information loss. Recent work has shown that the morphological difference in specific brain regions can be found on MRI with the means of Convolution Neural Networks (CNN). However, interpretation of the existing models is based on a region of interest and can not be extended to voxel-wise image interpretation on a whole image. In the current work, we consider the classification task on a large-scale open-source dataset of young healthy subjects -- an exploration of brain differences between men and women. In this paper, we extend the previous findings in gender differences from diffusion-tensor imaging on T1 brain MRI scans. We provide the voxel-wise 3D CNN interpretation comparing the results of three interpretation methods: Meaningful Perturbations, Grad CAM and Guided Backpropagation, and contribute with the open-source library.
翻訳日:2022-11-18 22:02:49 公開日:2020-10-14
# スロット注意による物体中心学習

Object-Centric Learning with Slot Attention ( http://arxiv.org/abs/2006.15055v2 )

ライセンス: Link先を確認
Francesco Locatello, Dirk Weissenborn, Thomas Unterthiner, Aravindh Mahendran, Georg Heigold, Jakob Uszkoreit, Alexey Dosovitskiy, Thomas Kipf(参考訳) 複雑なシーンのオブジェクト中心の表現を学習することは、低レベルの知覚的特徴から効率的な抽象的推論を実現するための有望なステップである。 しかし、ほとんどのディープラーニングアプローチは、自然シーンの構成特性を捉えない分散表現を学習する。 本稿では、畳み込みニューラルネットワークの出力などの知覚表現と相互作用し、スロットと呼ぶタスク依存抽象表現の集合を生成するアーキテクチャコンポーネントであるSlot Attentionモジュールを提案する。 これらのスロットは交換可能であり、複数の注意を払って競争手順を専門にすることで、入力中の任意のオブジェクトにバインドすることができる。 我々は,教師なしのオブジェクト発見と教師なしプロパティ予測タスクで訓練された場合,スロットアテンションがオブジェクト中心の表現を抽出できることを実証的に証明する。

Learning object-centric representations of complex scenes is a promising step towards enabling efficient abstract reasoning from low-level perceptual features. Yet, most deep learning approaches learn distributed representations that do not capture the compositional properties of natural scenes. In this paper, we present the Slot Attention module, an architectural component that interfaces with perceptual representations such as the output of a convolutional neural network and produces a set of task-dependent abstract representations which we call slots. These slots are exchangeable and can bind to any object in the input by specializing through a competitive procedure over multiple rounds of attention. We empirically demonstrate that Slot Attention can extract object-centric representations that enable generalization to unseen compositions when trained on unsupervised object discovery and supervised property prediction tasks.
翻訳日:2022-11-16 20:45:50 公開日:2020-10-14
# 脳波に基づく暗黙的人間フィードバックによる強化学習エージェントの高速化

Accelerating Reinforcement Learning Agent with EEG-based Implicit Human Feedback ( http://arxiv.org/abs/2006.16498v3 )

ライセンス: Link先を確認
Duo Xu, Mohit Agarwal, Ekansh Gupta, Faramarz Fekri, Raghupathy Sivakumar(参考訳) 人間のフィードバックによる強化学習(RL)エージェントの提供は、学習のさまざまな側面を劇的に改善することができる。 しかし、従来の手法では、人間の観察者が入力を明示的に(例えば、ボタンや音声インタフェースなど)与え、RLエージェントの学習プロセスのループで人間を負担する必要があった。 さらに、例えば、自動運転や障害リハビリテーションなど、明示的な人間のアドバイス(フィードバック)を得ることは、しばしば困難または不可能である。 本研究では,人間の内因性反応を脳波による暗黙の(そして自然な)フィードバックとして,エラー関連電位(ErrP)の形で捉え,RLエージェント学習を改善する自然的かつ直接的な方法を提供する。 そのため、人間の知能はRLアルゴリズムに暗黙のフィードバックを通して統合することができ、RLエージェントの学習を加速することができる。 提案する作業全体の性能を実験的に評価するために,3つの合理的に複雑な2次元離散ナビゲーションゲームを開発した。 私たちの仕事の主な貢献は次のとおりです。 (i)ErrPのゼロショット学習を提案し,実験により検証し,ErrPを1つのゲームで学習し,他のゲームに転送する。 (II)ErrPsを介して暗黙のフィードバックをRLエージェントと統合し、ラベルの効率と人的ミスに対する堅牢性を向上する新しいRLフレームワークを提案する。 (iii) 従来の研究と比較して,ErrPの応用を合理的に複雑な環境に拡張し,実際のユーザ実験を通じて学習を加速するアプローチの重要性を実証する。

Providing Reinforcement Learning (RL) agents with human feedback can dramatically improve various aspects of learning. However, previous methods require human observer to give inputs explicitly (e.g., press buttons, voice interface), burdening the human in the loop of RL agent's learning process. Further, it is sometimes difficult or impossible to obtain the explicit human advise (feedback), e.g., autonomous driving, disabled rehabilitation, etc. In this work, we investigate capturing human's intrinsic reactions as implicit (and natural) feedback through EEG in the form of error-related potentials (ErrP), providing a natural and direct way for humans to improve the RL agent learning. As such, the human intelligence can be integrated via implicit feedback with RL algorithms to accelerate the learning of RL agent. We develop three reasonably complex 2D discrete navigational games to experimentally evaluate the overall performance of the proposed work. Major contributions of our work are as follows, (i) we propose and experimentally validate the zero-shot learning of ErrPs, where the ErrPs can be learned for one game, and transferred to other unseen games, (ii) we propose a novel RL framework for integrating implicit human feedbacks via ErrPs with RL agent, improving the label efficiency and robustness to human mistakes, and (iii) compared to prior works, we scale the application of ErrPs to reasonably complex environments, and demonstrate the significance of our approach for accelerated learning through real user experiments.
翻訳日:2022-11-15 04:36:21 公開日:2020-10-14
# JUMPS:Pose Sequencesのジョイントアップサンプリング法

JUMPS: Joints Upsampling Method for Pose Sequences ( http://arxiv.org/abs/2007.01151v4 )

ライセンス: Link先を確認
Lucas Mourot, Fran\c{c}ois Le Clerc, C\'edric Th\'ebault and Pierre Hellier(参考訳) 人間の姿勢推定は、監視、人間の行動認識、シーン理解に有用な低レベルなタスクである。 また、合成文字のアニメーションに有望な視点を提供する。 これらすべてのアプリケーション、特に後者のアプリケーションにとって、多くのジョイントの位置の推定は、パフォーマンスとリアリズムを改善するのに望ましい。 本研究の目的は,2次元における関節数を増加させるJUMPSと呼ばれる新しい手法を提案することである。 これはこの問題に対処する最初の試みだと考えています。 我々は,GAN(Generative Adversarial Network)とエンコーダを組み合わせた深層生成モデルを構築した。 TheGANは高分解能人間のポーズ配列の分布を学習し、エンコーダは入力された低分解能配列を潜在空間にマッピングする。 GANジェネレータによるデコーディングが入力時の関節位置を最適に整合した潜在表現を演算することにより、塗装を得る。 本手法を用いた2dpose系列の処理後処理は、文字の動きをより豊かに表現する。 実験により, 付加関節の局所化精度は, 原位置推定値と平均的に一致していることがわかった。

Human Pose Estimation is a low-level task useful forsurveillance, human action recognition, and scene understandingat large. It also offers promising perspectives for the animationof synthetic characters. For all these applications, and especiallythe latter, estimating the positions of many joints is desirablefor improved performance and realism. To this purpose, wepropose a novel method called JUMPS for increasing the numberof joints in 2D pose estimates and recovering occluded ormissing joints. We believe this is the first attempt to addressthe issue. We build on a deep generative model that combines aGenerative Adversarial Network (GAN) and an encoder. TheGAN learns the distribution of high-resolution human posesequences, the encoder maps the input low-resolution sequencesto its latent space. Inpainting is obtained by computing the latentrepresentation whose decoding by the GAN generator optimallymatches the joints locations at the input. Post-processing a 2Dpose sequence using our method provides a richer representationof the character motion. We show experimentally that thelocalization accuracy of the additional joints is on average onpar with the original pose estimates.
翻訳日:2022-11-14 14:28:09 公開日:2020-10-14
# 移動マニピュレータのアクティブビジョンを用いた目標グラスピングの分散強化学習

Distributed Reinforcement Learning of Targeted Grasping with Active Vision for Mobile Manipulators ( http://arxiv.org/abs/2007.08082v2 )

ライセンス: Link先を確認
Yasuhiro Fujita, Kota Uenishi, Avinash Ummadisingu, Prabhat Nagarajan, Shimpei Masuda, and Mario Ynocente Castro(参考訳) 非構造環境で多様な操作タスクを実行できるパーソナルロボットの開発は、ロボットの把握システムにおけるいくつかの課題を解決する必要がある。 私たちは、私たちの知識に最初のrlベースのシステムを提示することで、この広範な目標に向かって一歩踏み出します。 (a)見当たらない対象物に一般化した目標把握を実現する。 (b)ごちゃごちゃした場面の複雑な把持方略を学習し、 (c)可動式手首カメラでアクティブビジョンを行い、物体の発見を良くする。 このシステムは、所望のターゲットオブジェクトに対して、そのオブジェクトの任意のrgbイメージの形で通知され、システムが再トレーニングすることなく、未認識のオブジェクトに一般化することができる。 このようなシステムを実現するために、深層強化学習のいくつかの進歩を組み合わせることで、高速プロトタイピングを容易にするために、マルチノードマルチgpuインフラストラクチャにシームレスに拡張可能な同期sgdを用いた大規模分散トレーニングシステムを提案する。 シミュレーション環境でシステムをトレーニングし,評価し,性能向上のための重要なコンポーネントを特定し,その動作を分析し,実環境へ移行する。

Developing personal robots that can perform a diverse range of manipulation tasks in unstructured environments necessitates solving several challenges for robotic grasping systems. We take a step towards this broader goal by presenting the first RL-based system, to our knowledge, for a mobile manipulator that can (a) achieve targeted grasping generalizing to unseen target objects, (b) learn complex grasping strategies for cluttered scenes with occluded objects, and (c) perform active vision through its movable wrist camera to better locate objects. The system is informed of the desired target object in the form of a single, arbitrary-pose RGB image of that object, enabling the system to generalize to unseen objects without retraining. To achieve such a system, we combine several advances in deep reinforcement learning and present a large-scale distributed training system using synchronous SGD that seamlessly scales to multi-node, multi-GPU infrastructure to make rapid prototyping easier. We train and evaluate our system in a simulated environment, identify key components for improving performance, analyze its behaviors, and transfer to a real-world setup.
翻訳日:2022-11-09 21:55:08 公開日:2020-10-14
# 最適なクライアントサンプリングによるコミュニケーション効率のよいフェデレーション学習

Communication-Efficient Federated Learning via Optimal Client Sampling ( http://arxiv.org/abs/2007.15197v2 )

ライセンス: Link先を確認
Monica Ribero, Haris Vikalo(参考訳) フェデレートラーニング(FL)は、中央サーバが多くのクライアントに分散したデータから学習をコーディネートする設定におけるプライバシー上の懸念を改善する。 クライアントはローカルにトレーニングし、学習したモデルをサーバに通信する。ローカルモデルの集約は、クライアントと中央サーバの間の大量の情報の頻繁な通信を必要とする。 本稿では,クライアントからのモデル収集と,通信されていないローカル更新を推定して,コミュニケーション制約付き設定における中心モデルを更新する,新しい,シンプルで効率的な方法を提案する。 特に、ornstein-uhlenbeckプロセスによるモデルの重み付けのモデリングにより、かなりの重み付け更新を伴うクライアントのサブセットを選択するための最適なサンプリング戦略を導出できる。 中央サーバは、選択したクライアントのみから更新されたローカルモデルを収集し、通信のために選択されなかったクライアントの予測モデル更新と組み合わせる。 このポリシーをロジスティック回帰のための合成データセットと2つのflベンチマーク、すなわちシェイクスピアデータセットを用いたemnistの分類タスクと現実的な言語モデリングタスクでテストする。 その結果,提案フレームワークは,競争力を維持しつつ,また,ベースラインよりも優れた性能を達成しつつ,コミュニケーションの大幅な削減を図っている。 提案手法は, 通信効率の高いflのための新しい手法であり, 量子化やスパース化といった既存のユーザローカル手法と直交する手法であり, 既存の手法を置き換えようとするのではなく補完するものである。

Federated learning (FL) ameliorates privacy concerns in settings where a central server coordinates learning from data distributed across many clients. The clients train locally and communicate the models they learn to the server; aggregation of local models requires frequent communication of large amounts of information between the clients and the central server. We propose a novel, simple and efficient way of updating the central model in communication-constrained settings based on collecting models from clients with informative updates and estimating local updates that were not communicated. In particular, modeling the progression of model's weights by an Ornstein-Uhlenbeck process allows us to derive an optimal sampling strategy for selecting a subset of clients with significant weight updates. The central server collects updated local models from only the selected clients and combines them with estimated model updates of the clients that were not selected for communication. We test this policy on a synthetic dataset for logistic regression and two FL benchmarks, namely, a classification task on EMNIST and a realistic language modeling task using the Shakespeare dataset. The results demonstrate that the proposed framework provides significant reduction in communication while maintaining competitive or achieving superior performance compared to a baseline. Our method represents a new line of strategies for communication-efficient FL that is orthogonal to the existing user-local methods such as quantization or sparsification, thus complementing rather than aiming to replace those existing methods.
翻訳日:2022-11-05 13:24:10 公開日:2020-10-14
# 自然言語処理とディープラーニングを用いた感情分析に基づく多人数マルチクリトリア意思決定手法による意思決定支援 TripAdvisor レビューを用いたレストラン選択事例の検討

Sentiment Analysis based Multi-person Multi-criteria Decision Making Methodology using Natural Language Processing and Deep Learning for Smarter Decision Aid. Case study of restaurant choice using TripAdvisor reviews ( http://arxiv.org/abs/2008.00032v2 )

ライセンス: Link先を確認
Cristina Zuheros, Eugenio Mart\'inez-C\'amara, Enrique Herrera-Viedma, and Francisco Herrera(参考訳) 意思決定モデルは、予め定義された数値または言語用語で専門家の評価をとることで制約される。 感情分析を用いることで、意思決定モデルが自然言語における専門家の評価を考慮できると主張している。 そこで,本研究では,自然言語評価から専門家評価を構築できる知的意思決定支援のための感情分析に基づく多人数多人数意思決定(sa-mpmcdm)手法を提案する。 SA-MpMcDM法は、アスペクトベースの感情分析のためのエンドツーエンドのマルチタスクディープラーニングモデル、DOC-ABSADeepLモデルを導入し、専門家レビューで言及されているアスペクトカテゴリを特定し、意見や基準を抽出する。 個々の評価は、専門家の注意による重み付けと呼ばれる手順によって集約される。 tripadvisor reviewsを用いたレストラン選択のケーススタディでこの手法を評価し,レストランレビューのtripr-2020データセットを構築し,手作業で注釈付けし,公開する。 自然言語と数値評価を用いて,SA-MpMcDM法を異なるシナリオで解析する。 分析の結果,両情報源の組み合わせにより,高品質な選好ベクトルが得られることがわかった。

Decision making models are constrained by taking the expert evaluations with pre-defined numerical or linguistic terms. We claim that the use of sentiment analysis will allow decision making models to consider expert evaluations in natural language. Accordingly, we propose the Sentiment Analysis based Multi-person Multi-criteria Decision Making (SA-MpMcDM) methodology for smarter decision aid, which builds the expert evaluations from their natural language reviews, and even from their numerical ratings if they are available. The SA-MpMcDM methodology incorporates an end-to-end multi-task deep learning model for aspect based sentiment analysis, named DOC-ABSADeepL model, able to identify the aspect categories mentioned in an expert review, and to distill their opinions and criteria. The individual evaluations are aggregated via the procedure named criteria weighting through the attention of the experts. We evaluate the methodology in a case study of restaurant choice using TripAdvisor reviews, hence we build, manually annotate, and release the TripR-2020 dataset of restaurant reviews. We analyze the SA-MpMcDM methodology in different scenarios using and not using natural language and numerical evaluations. The analysis shows that the combination of both sources of information results in a higher quality preference vector.
翻訳日:2022-11-04 05:36:28 公開日:2020-10-14
# ニューロモルフィックプロセッサを用いたオンラインジェスチャー学習

Online Few-shot Gesture Learning on a Neuromorphic Processor ( http://arxiv.org/abs/2008.01151v2 )

ライセンス: Link先を確認
Kenneth Stewart, Garrick Orchard, Sumit Bam Shrestha, Emre Neftci(参考訳) ニューロモルフィックプロセッサ上でのオンライン少ショット学習のためのSurrogate-gradient Online Error-Triggered Learning (SOEL)システムを提案する。 SOEL学習システムは、伝達学習と計算神経科学と深層学習の原理を組み合わせたものである。 ニューロモルフィックハードウェア上に実装された部分訓練されたディープスパイキングニューラルネットワーク(SNN)は、ドメイン内の新しいクラスのデータに迅速にオンラインに適応できることを示す。 soelはエラーが発生したときにトリガーを更新し、少ない更新で高速な学習を可能にする。 ジェスチャー認識をケーススタディとして、SOELは、事前に記録されたジェスチャーデータの新しいクラスのオンライン数ショット学習や、Dynamic Active-Pixel Vision SensorからIntel Loihiニューロモルフィック研究プロセッサへライブストリーミングされたデータから新しいジェスチャーの高速オンライン学習に使用できることを示す。

We present the Surrogate-gradient Online Error-triggered Learning (SOEL) system for online few-shot learning on neuromorphic processors. The SOEL learning system uses a combination of transfer learning and principles of computational neuroscience and deep learning. We show that partially trained deep Spiking Neural Networks (SNNs) implemented on neuromorphic hardware can rapidly adapt online to new classes of data within a domain. SOEL updates trigger when an error occurs, enabling faster learning with fewer updates. Using gesture recognition as a case study, we show SOEL can be used for online few-shot learning of new classes of pre-recorded gesture data and rapid online learning of new gestures from data streamed live from a Dynamic Active-pixel Vision Sensor to an Intel Loihi neuromorphic research processor.
翻訳日:2022-11-03 06:06:11 公開日:2020-10-14
# 深層学習系列を用いた意図付きシーケンスモデルによる太陽光発電の予測

Forecasting Photovoltaic Power Production using a Deep Learning Sequence to Sequence Model with Attention ( http://arxiv.org/abs/2008.02775v2 )

ライセンス: Link先を確認
Elizaveta Kharlova, Daniel May, Petr Musilek (University of Alberta)(参考訳) 分散型エネルギー資源としての(家庭用)太陽光発電(PV)電力の浸透レベルの増加は、電力インフラに多くの課題をもたらす。 電力生産の正確な予測を提供するための高品質で汎用的なツールが緊急に必要である。 本稿では,PV発電のエンドツーエンド予測のための教師付きディープラーニングモデルを提案する。 提案されたモデルは、他のシーケンス関連分野におけるディープラーニングアプローチのパフォーマンス向上に繋がる2つの独創的な概念に基づいているが、時系列予測の分野ではまだ改善されていない。 提案モデルでは,予測変数の予測値ではなく,数値天気予報と高分解能歴史的測定を用いて,予測時間間隔上の双対確率分布を推定する。 この設計は、完全に接続されたニューラルネットワークや1ブロックの短期的メモリアーキテクチャなど、一般的なベースラインアプローチと比較して大幅にパフォーマンスが向上する。 正規化ルート平均二乗誤差に基づく予測スキルスコアを性能指標として,提案手法を他のモデルと比較した。 その結果、新しい設計は、PV電力予測技術の現在の状態以上で実行可能であることがわかった。

Rising penetration levels of (residential) photovoltaic (PV) power as distributed energy resource pose a number of challenges to the electricity infrastructure. High quality, general tools to provide accurate forecasts of power production are urgently needed. In this article, we propose a supervised deep learning model for end-to-end forecasting of PV power production. The proposed model is based on two seminal concepts that led to significant performance improvements of deep learning approaches in other sequence-related fields, but not yet in the area of time series prediction: the sequence to sequence architecture and attention mechanism as a context generator. The proposed model leverages numerical weather predictions and high-resolution historical measurements to forecast a binned probability distribution over the prognostic time intervals, rather than the expected values of the prognostic variable. This design offers significant performance improvements compared to common baseline approaches, such as fully connected neural networks and one-block long short-term memory architectures. Using normalized root mean square error based forecast skill score as a performance indicator, the proposed approach is compared to other models. The results show that the new design performs at or above the current state of the art of PV power forecasting.
翻訳日:2022-11-02 07:03:41 公開日:2020-10-14
# 神経機械翻訳のための超深層トランスフォーマー

Very Deep Transformers for Neural Machine Translation ( http://arxiv.org/abs/2008.07772v2 )

ライセンス: Link先を確認
Xiaodong Liu, Kevin Duh, Liyuan Liu and Jianfeng Gao(参考訳) ニューラルマシン翻訳(nmt)における超深層トランスフォーマーモデルの応用について検討する。 トレーニングを安定させるシンプルで効果的な初期化手法を用いて,最大60のエンコーダ層と12のデコーダ層を持つ標準トランスフォーマーモデルを構築することが可能であることを示す。 これらの深層モデルは、ベースラインの6層を2.5 bleuで上回り、wmt14 英語-フランス語 (43.8 bleu と 46.4 bleu with back-translation) と wmt14 英語-ドイツ語 (30.1 bleu) で最新のベンチマーク結果を達成した。 コードとトレーニングされたモデルは、https://github.com/namisan/exdeep-nmt.comで公開される。

We explore the application of very deep Transformer models for Neural Machine Translation (NMT). Using a simple yet effective initialization technique that stabilizes training, we show that it is feasible to build standard Transformer-based models with up to 60 encoder layers and 12 decoder layers. These deep models outperform their baseline 6-layer counterparts by as much as 2.5 BLEU, and achieve new state-of-the-art benchmark results on WMT14 English-French (43.8 BLEU and 46.4 BLEU with back-translation) and WMT14 English-German (30.1 BLEU).The code and trained models will be publicly available at: https://github.com/namisan/exdeep-nmt.
翻訳日:2022-10-27 21:31:45 公開日:2020-10-14
# 拡張特徴を用いた構造物のドリフトの低減

Reducing Drift in Structure From Motion Using Extended Features ( http://arxiv.org/abs/2008.12295v3 )

ライセンス: Link先を確認
Aleksander Holynski, David Geraghty, Jan-Michael Frahm, Chris Sweeney, Richard Szeliski(参考訳) 低周波長範囲誤差(drift)は3次元構造における運動からの固有問題であり、しばしばシーンの合理的な再構成を妨げる。 本稿では,平面や消失点などの拡張構造的特徴を用いて,スケールと位置ドリフトを劇的に低減する手法を提案する。 従来の特徴マッチングとは異なり、拡張された特徴は重複しない入力画像にまたがることができ、したがって復元の規模と形状に長い範囲の制約を与えることができる。 これらの特徴を,運動アルゴリズムによる最先端のグローバル構造に対する付加的な制約として追加し,その付加制約により,慣性的な計測を伴わずに,長視野の低視野映像などのドリフトプロン系列を再構築できることを実証する。 さらに, 合成データセット上での評価により, これらの制約のドリフト低減能力の解析を行う。 我々の構造的特徴は、窓の列や平面的な建物ファサードなど、長々とした人造構造を含むシーンのドリフトを著しく低減することができる。

Low-frequency long-range errors (drift) are an endemic problem in 3D structure from motion, and can often hamper reasonable reconstructions of the scene. In this paper, we present a method to dramatically reduce scale and positional drift by using extended structural features such as planes and vanishing points. Unlike traditional feature matches, our extended features are able to span non-overlapping input images, and hence provide long-range constraints on the scale and shape of the reconstruction. We add these features as additional constraints to a state-of-the-art global structure from motion algorithm and demonstrate that the added constraints enable the reconstruction of particularly drift-prone sequences such as long, low field-of-view videos without inertial measurements. Additionally, we provide an analysis of the drift-reducing capabilities of these constraints by evaluating on a synthetic dataset. Our structural features are able to significantly reduce drift for scenes that contain long-spanning man-made structures, such as aligned rows of windows or planar building facades.
翻訳日:2022-10-24 08:12:56 公開日:2020-10-14
# ニューラルネットワークを用いた伝達学習メタモデルによる自然対流の囲い込み流れへの応用

A transfer learning metamodel using artificial neural networks applied to natural convection flows in enclosures ( http://arxiv.org/abs/2008.12483v2 )

ライセンス: Link先を確認
Majid Ashouri and Alireza Hashemi(参考訳) 本稿では,自然対流の包絡内におけるヌッセルト数を予測するために,伝達学習手法を用いた。 具体的には,水平壁と垂直壁を一定温度で分離した2次元正方形囲いのベンチマーク問題を検討した。 レイリー数とプレンドル数はこの問題を数値的にシミュレートするのに十分なパラメータである。 まず、コスト効率の高い方法でニューラルネットワークをトレーニングするために、マルチグリッドデータセットを使用しました。 このデータセットのトレーニング損失を監視することで、グリッドサイズ不足に起因する重要な異常を検出し、グリッドサイズを変更したり、より多くのデータを追加することでさらに修正しました。 第2に,深層ニューラルネットワークを用いた伝達学習を行うことで,入力機能の追加を考慮したメタモデルの実現を試みた。 我々は、単一入力機能(Rayleigh)でニューラルネットワークをトレーニングし、第2特徴(Prandtl)の効果を取り入れるように拡張した。 また,ホロウ囲いの場合も考慮し,計算コストやトレーニングコストを下げつつ,高い物理複雑性を持つシステムに学習フレームワークを適用することが可能であることを実証した。

In this paper, we employed a transfer learning technique to predict the Nusselt number for natural convection flows in enclosures. Specifically, we considered the benchmark problem of a two-dimensional square enclosure with isolated horizontal walls and vertical walls at constant temperatures. The Rayleigh and Prandtl numbers are sufficient parameters to simulate this problem numerically. We adopted two approaches to this problem: Firstly, we made use of a multi-grid dataset in order to train our artificial neural network in a cost-effective manner. By monitoring the training losses for this dataset, we detected any significant anomalies that stemmed from an insufficient grid size, which we further corrected by altering the grid size or adding more data. Secondly, we sought to endow our metamodel with the ability to account for additional input features by performing transfer learning using deep neural networks. We trained a neural network with a single input feature (Rayleigh) and extended it to incorporate the effects of a second feature (Prandtl). We also considered the case of hollow enclosures, demonstrating that our learning framework can be applied to systems with higher physical complexity, while bringing the computational and training costs down.
翻訳日:2022-10-24 02:42:33 公開日:2020-10-14
# 地すべり言語学習の迅速・低速化

Grounded Language Learning Fast and Slow ( http://arxiv.org/abs/2009.01719v4 )

ライセンス: Link先を確認
Felix Hill, Olivier Tieleman, Tamara von Glehn, Nathaniel Wong, Hamza Merzic, Stephen Clark(参考訳) 最近の研究は、従来の教師付き学習目標で訓練された大きなテキストベースのニューラル言語モデルが、数対1の学習において驚くべき確率を得ることを示した。 そこで本研究では,シミュレーションされた3次元世界に位置する具体化エージェントが,従来の強化学習アルゴリズムで学習すると,類似したワンショットワード学習を示すことができることを示す。 連続的な視覚知覚と言語プロンプト("this is a dax")による新しい物体への単一の導入の後、エージェントはオブジェクトを再識別し、指示通りに操作することができる("put the dax on the bed")。 その際、"dax"という単語の適切な参照者の短期的・内部的知識と、エピソード(つまり「ベッド」と「パッティング」)間で得られる長期的な語彙的・運動的知識とをシームレスに統合する。 特定の訓練条件と特定のメモリ書き込み機構により、エージェントのワンショットワードオブジェクトバインディングは、同一のShapeNetカテゴリ内の新しい例に一般化され、不慣れなオブジェクト数の設定に有効であることがわかった。 さらに,デュアルコーディングメモリを本質的モチベーションのシグナルとして活用し,エージェントに後から実行される命令に有用なオブジェクトの名前を求めるように促す方法を示した。 その結果,深層ニューラルネットワークは,メタラーニング,エピソディクスメモリ,明示的なマルチモーダル環境を利用して,人間の認知発達の基本柱である「高速マッピング」や,人間のユーザと相互作用するエージェントの潜在的変換能力を考慮することができることが示された。

Recent work has shown that large text-based neural language models, trained with conventional supervised learning objectives, acquire a surprising propensity for few- and one-shot learning. Here, we show that an embodied agent situated in a simulated 3D world, and endowed with a novel dual-coding external memory, can exhibit similar one-shot word learning when trained with conventional reinforcement learning algorithms. After a single introduction to a novel object via continuous visual perception and a language prompt ("This is a dax"), the agent can re-identify the object and manipulate it as instructed ("Put the dax on the bed"). In doing so, it seamlessly integrates short-term, within-episode knowledge of the appropriate referent for the word "dax" with long-term lexical and motor knowledge acquired across episodes (i.e. "bed" and "putting"). We find that, under certain training conditions and with a particular memory writing mechanism, the agent's one-shot word-object binding generalizes to novel exemplars within the same ShapeNet category, and is effective in settings with unfamiliar numbers of objects. We further show how dual-coding memory can be exploited as a signal for intrinsic motivation, stimulating the agent to seek names for objects that may be useful for later executing instructions. Together, the results demonstrate that deep neural networks can exploit meta-learning, episodic memory and an explicitly multi-modal environment to account for 'fast-mapping', a fundamental pillar of human cognitive development and a potentially transformative capacity for agents that interact with human users.
翻訳日:2022-10-22 06:48:58 公開日:2020-10-14
# 4Seasons: 自律運転におけるマルチウェザーSLAMのためのクロスシーソンデータセット

4Seasons: A Cross-Season Dataset for Multi-Weather SLAM in Autonomous Driving ( http://arxiv.org/abs/2009.06364v2 )

ライセンス: Link先を確認
Patrick Wenzel, Rui Wang, Nan Yang, Qing Cheng, Qadeer Khan, Lukas von Stumberg, Niclas Zeller, Daniel Cremers(参考訳) 本稿では,自律走行のための季節的および難解な知覚条件をカバーする新しいデータセットを提案する。 ビジュアルオドメトリ、グローバル位置認識、マップベースの再ローカライズトラッキングなどの研究が可能だ。 データは異なるシナリオで収集され、昼と夜を含む様々な気象条件と照明の下で収集された。 この結果、都市部(トンネルを含む)の多層駐車場から田舎や高速道路まで、9つの環境において350km以上の録音が行われた。 RTK-GNSSと直接立体視-慣性眼圧計の融合から得られる最大センチメートルの精度で一貫した参照ポーズを提供する。 完全なデータセットはhttps://www.4seasons-dataset.comで入手できる。

We present a novel dataset covering seasonal and challenging perceptual conditions for autonomous driving. Among others, it enables research on visual odometry, global place recognition, and map-based re-localization tracking. The data was collected in different scenarios and under a wide variety of weather conditions and illuminations, including day and night. This resulted in more than 350 km of recordings in nine different environments ranging from multi-level parking garage over urban (including tunnels) to countryside and highway. We provide globally consistent reference poses with up-to centimeter accuracy obtained from the fusion of direct stereo visual-inertial odometry with RTK-GNSS. The full dataset is available at https://www.4seasons-dataset.com.
翻訳日:2022-10-18 12:34:57 公開日:2020-10-14
# 暗黙的ランク最小オートエンコーダ

Implicit Rank-Minimizing Autoencoder ( http://arxiv.org/abs/2010.00679v2 )

ライセンス: Link先を確認
Li Jing, Jure Zbontar, Yann LeCun(参考訳) オートエンコーダの重要な構成要素は、潜在表現の情報容量を最小化または制限する手法である。 この研究において、符号の共分散行列のランクは、多層線形ネットワークにおける勾配降下学習が最小階解をもたらすという事実に依存して暗黙的に最小化される。 エンコーダとデコーダの間に多くの余分な線形層を挿入することで、システムは、低有効次元の表現を自然に学習する。 Implicit Rank-Minimizing Autoencoder (IRMAE) と呼ばれるこのモデルは単純で決定論的であり、コンパクトな潜在空間を学習する。 いくつかの画像生成および表現学習タスクにおいて,本手法の有効性を示す。

An important component of autoencoders is the method by which the information capacity of the latent representation is minimized or limited. In this work, the rank of the covariance matrix of the codes is implicitly minimized by relying on the fact that gradient descent learning in multi-layer linear networks leads to minimum-rank solutions. By inserting a number of extra linear layers between the encoder and the decoder, the system spontaneously learns representations with a low effective dimension. The model, dubbed Implicit Rank-Minimizing Autoencoder (IRMAE), is simple, deterministic, and learns compact latent spaces. We demonstrate the validity of the method on several image generation and representation learning tasks.
翻訳日:2022-10-12 07:08:21 公開日:2020-10-14
# FlowMOを用いたガウスプロセス分子特性予測

Gaussian Process Molecule Property Prediction with FlowMO ( http://arxiv.org/abs/2010.01118v2 )

ライセンス: Link先を確認
Henry B. Moss, Ryan-Rhys Griffiths(参考訳) ガウス過程を伴う分子特性予測のためのオープンソースのpythonライブラリであるflowmoを提案する。 gpflowとrdkit上に構築されたflowmoは、アクティブラーニングと分子設計アプリケーションの中心となるアウトプットである、不確実性推定を適切に調整した予測を可能にする。 ガウス過程は、高品質の実験データが不足している多くの現実世界の仮想スクリーニングキャンペーンの特徴である、小さな分子データセットのモデリングにおいて特に魅力的である。 3つの小さなデータセットにわたる計算実験は、ディープラーニング手法に匹敵する予測性能を示すが、不確実性のキャリブレーションが優れている。

We present FlowMO: an open-source Python library for molecular property prediction with Gaussian Processes. Built upon GPflow and RDKit, FlowMO enables the user to make predictions with well-calibrated uncertainty estimates, an output central to active learning and molecular design applications. Gaussian Processes are particularly attractive for modelling small molecular datasets, a characteristic of many real-world virtual screening campaigns where high-quality experimental data is scarce. Computational experiments across three small datasets demonstrate comparable predictive performance to deep learning methods but with superior uncertainty calibration.
翻訳日:2022-10-12 00:48:15 公開日:2020-10-14
# ニューラルUDパーサ用ユニバーサルPOSタグの欠陥について

On the Frailty of Universal POS Tags for Neural UD Parsers ( http://arxiv.org/abs/2010.01830v3 )

ライセンス: Link先を確認
Mark Anderson and Carlos G\'omez-Rodr\'iguez(参考訳) UPOSの精度が解析性能に与える影響について分析する。 その結果, UPOSタグをニューラルパーザの機能として活用するには, 極めて高いタグ付け精度が必要であり, ゴールドタグの使用は非直線的な性能向上をもたらすことが示唆された。 また,予測された UPOS タグのどの側面が精度にどのような影響を及ぼすかについても検討し,問題の潜在的な言語的側面を浮き彫りにしている。

We present an analysis on the effect UPOS accuracy has on parsing performance. Results suggest that leveraging UPOS tags as features for neural parsers requires a prohibitively high tagging accuracy and that the use of gold tags offers a non-linear increase in performance, suggesting some sort of exceptionality. We also investigate what aspects of predicted UPOS tags impact parsing accuracy the most, highlighting some potentially meaningful linguistic facets of the problem.
翻訳日:2022-10-10 21:21:37 公開日:2020-10-14
# クラウドソースデータセットを用いたテキストの事前条件のモデル化

Modeling Preconditions in Text with a Crowd-sourced Dataset ( http://arxiv.org/abs/2010.02429v3 )

ライセンス: Link先を確認
Heeyoung Kwon, Mahnaz Koupaee, Pratyush Singh, Gargi Sawhney, Anmol Shukla, Keerthi Kumar Kallur, Nathanael Chambers and Niranjan Balasubramanian(参考訳) 前提条件は、ある出来事が一緒に起こる理由と、因果関係、時間的順序付け、含意関係、会話関係など、より広く研究されている関係に相補する情報とを論理的に結びつける。 テキストのプリコンディションのモデリングは、テキストによる大規模なラベル付きデータの欠如によって、一部が妨げられている。 本稿では,newswireにおけるイベントペア間の前提条件に関するクラウドソースアノテーションであるpekoを紹介する。 この新たなコーパスを補完するために,前提条件のモデル化を目的とした2つの課題も紹介する。 i)事前条件識別 -- イベント参照のペア上で定義された標準分類タスク、 (ii)事前条件生成 -- あるイベントについてより一般的な推論能力をテストすることを目的とした生成タスク。 両タスクの評価は,今日の大規模言語モデル(LM)においても,事前条件のモデル化が難しいことを示している。 このことは、前提条件知識がlm由来の表現だけでは容易にアクセスできないことを示唆する。 生成結果から,PEKo 上の LM の微調整は,原文や時間順コーパスで訓練した場合よりも条件関係が良好であることが示唆された。

Preconditions provide a form of logical connection between events that explains why some events occur together and information that is complementary to the more widely studied relations such as causation, temporal ordering, entailment, and discourse relations. Modeling preconditions in text has been hampered in part due to the lack of large scale labeled data grounded in text. This paper introduces PeKo, a crowd-sourced annotation of preconditions between event pairs in newswire, an order of magnitude larger than prior text annotations. To complement this new corpus, we also introduce two challenge tasks aimed at modeling preconditions: (i) Precondition Identification -- a standard classification task defined over pairs of event mentions, and (ii) Precondition Generation -- a generative task aimed at testing a more general ability to reason about a given event. Evaluation on both tasks shows that modeling preconditions is challenging even for today's large language models (LM). This suggests that precondition knowledge is not easily accessible in LM-derived representations alone. Our generation results show that fine-tuning an LM on PeKo yields better conditional relations than when trained on raw text or temporally-ordered corpora.
翻訳日:2022-10-10 06:39:49 公開日:2020-10-14
# 画像認識のためのグローバルセルフアテンションネットワーク

Global Self-Attention Networks for Image Recognition ( http://arxiv.org/abs/2010.03019v2 )

ライセンス: Link先を確認
Zhuoran Shen, Irwan Bello, Raviteja Vemulapalli, Xuhui Jia, Ching-Hui Chen(参考訳) 近年,コンピュータビジョンにおける一連の研究が,自己注意を用いた様々な画像・映像理解タスクにおける有望な成果を示している。 しかしながら、自己注意の2次計算とメモリの複雑さのため、これらの研究はディープネットワークの後半の低解像度特徴写像にのみ注意を向けるか、各層における注意の場を小さな局所領域に制限する。 これらの制限を克服するため、この研究はGSAモジュールと呼ばれる新しいグローバルな自己保持モジュールを導入し、ディープネットワークのバックボーンコンポーネントとして機能するのに十分な効率である。 このモジュールは2つの平行なレイヤで構成されており、コンテンツに基づいてピクセルに付随するコンテンツアテンション層と、空間的位置に基づいてピクセルに付随する位置アテンション層である。 このモジュールの出力は、2つのレイヤの出力の総和である。 提案するgsaモジュールに基づいて,ピクセルインタラクションのモデル化に畳み込みではなく,gsaモジュールを使用するグローバルアテンションベース深層ネットワークを新たに導入する。 提案したGSAモジュールのグローバル範囲のため、GSAネットワークはネットワーク全体の長距離ピクセル間相互作用をモデル化することができる。 実験の結果,GSA ネットワークは CIFAR-100 と ImageNet のデータセットにおいて,より少ないパラメータと計算量を用いて,対応する畳み込みネットワークよりも優れていた。 提案したGSAネットワークは、ImageNetデータセット上で、既存の注目ベースのネットワークよりも優れている。

Recently, a series of works in computer vision have shown promising results on various image and video understanding tasks using self-attention. However, due to the quadratic computational and memory complexities of self-attention, these works either apply attention only to low-resolution feature maps in later stages of a deep network or restrict the receptive field of attention in each layer to a small local region. To overcome these limitations, this work introduces a new global self-attention module, referred to as the GSA module, which is efficient enough to serve as the backbone component of a deep network. This module consists of two parallel layers: a content attention layer that attends to pixels based only on their content and a positional attention layer that attends to pixels based on their spatial locations. The output of this module is the sum of the outputs of the two layers. Based on the proposed GSA module, we introduce new standalone global attention-based deep networks that use GSA modules instead of convolutions to model pixel interactions. Due to the global extent of the proposed GSA module, a GSA network has the ability to model long-range pixel interactions throughout the network. Our experimental results show that GSA networks outperform the corresponding convolution-based networks significantly on the CIFAR-100 and ImageNet datasets while using less parameters and computations. The proposed GSA networks also outperform various existing attention-based networks on the ImageNet dataset.
翻訳日:2022-10-10 06:04:14 公開日:2020-10-14
# ゼロショット認識のためのクラスタブル視覚特徴の学習

Learning Clusterable Visual Features for Zero-Shot Recognition ( http://arxiv.org/abs/2010.03245v2 )

ライセンス: Link先を確認
Jingyi Xu and Zhixin Shu and Dimitris Samaras(参考訳) ゼロショット学習(ZSL)では、条件付きジェネレータが追加のトレーニング機能を生成するために広く使用されている。 これらの機能は、データをテストするための分類器のトレーニングに使用できる。 しかしながら、いくつかのテストデータは、決定境界に近く、誤分類される傾向があり、ZSLのパフォーマンス低下につながるため、"ハード"と見なされる。 本稿では,ZSL問題に対するクラスタリング可能な特徴を学習することを提案する。 条件付き変分オートエンコーダ (cvae) を特徴生成器として使用し, 特徴を補助的分類損失によって管理される新しい特徴空間に投影する。 クラスタ性をさらに高めるため、ガウス類似性損失を用いて機能を微調整する。 クラスタブルな視覚特徴はCVAE再構成に適合するだけでなく、分類精度を向上させるために分離性も高い。 さらに,生成した特徴のクラス内分散を増大させるためにガウス雑音を導入することにより,分類器のロバスト性を向上させる。 SUN,CUB,AWA2のデータセットに対する実験により,従来のZSL結果よりも一貫した改善が得られた。 ゼロショット分類の有効性に加えて,特徴クラスタビリティを向上させる手法が,少数ショット学習アルゴリズムにも有効であることを示す。

In zero-shot learning (ZSL), conditional generators have been widely used to generate additional training features. These features can then be used to train the classifiers for testing data. However, some testing data are considered "hard" as they lie close to the decision boundaries and are prone to misclassification, leading to performance degradation for ZSL. In this paper, we propose to learn clusterable features for ZSL problems. Using a Conditional Variational Autoencoder (CVAE) as the feature generator, we project the original features to a new feature space supervised by an auxiliary classification loss. To further increase clusterability, we fine-tune the features using Gaussian similarity loss. The clusterable visual features are not only more suitable for CVAE reconstruction but are also more separable which improves classification accuracy. Moreover, we introduce Gaussian noise to enlarge the intra-class variance of the generated features, which helps to improve the classifier's robustness. Our experiments on SUN,CUB, and AWA2 datasets show consistent improvement over previous state-of-the-art ZSL results by a large margin. In addition to its effectiveness on zero-shot classification, experiments show that our method to increase feature clusterability benefits few-shot learning algorithms as well.
翻訳日:2022-10-09 23:39:42 公開日:2020-10-14
# FairMixRep : 不均一データに対する自己教師付きロバスト表現学習

FairMixRep : Self-supervised Robust Representation Learning for Heterogeneous Data with Fairness constraints ( http://arxiv.org/abs/2010.03228v2 )

ライセンス: Link先を確認
Souradip Chakraborty, Ekansh Verma, Saswata Sahoo, Jyotishka Datta(参考訳) 数値型とカテゴリ型の混合変数を持つ不均質空間における表現学習は、その複素特徴多様体のために興味深い課題がある。 さらに、クラスラベルや適切な学習損失関数のない教師なし設定での機能学習は、問題複雑性を増加させる。 さらに、学習された表現とその後の予測は、特定のセンシティブなグループや属性に対する差別行為を反映してはならない。 提案した特徴マップは、データに存在する最大変動を保ち、敏感な変数に対して公平である必要がある。 本研究の第一段階として,混合ドメイン情報を取得するための効率的なエンコーダデコーダフレームワークを提案する。 我々の研究の第2フェーズは、関連する公平性制約を加えることによって、混合空間表現の非バイアスに焦点をあてている。 これにより、フェアネス保存プロジェクションの前後における表現間の最小情報損失が保証される。 学習した情報内容と最終表現の公平性の両方が、優れたパフォーマンスを示すいくつかの指標を通じて検証されている。 我々の研究(FairMixRep)は、教師なしの観点から学習した混合空間フェア表現の問題に対処し、タイムリーでユニークで新しい研究貢献のユニバーサル表現を学ぶ。

Representation Learning in a heterogeneous space with mixed variables of numerical and categorical types has interesting challenges due to its complex feature manifold. Moreover, feature learning in an unsupervised setup, without class labels and a suitable learning loss function, adds to the problem complexity. Further, the learned representation and subsequent predictions should not reflect discriminatory behavior towards certain sensitive groups or attributes. The proposed feature map should preserve maximum variations present in the data and needs to be fair with respect to the sensitive variables. We propose, in the first phase of our work, an efficient encoder-decoder framework to capture the mixed-domain information. The second phase of our work focuses on de-biasing the mixed space representations by adding relevant fairness constraints. This ensures minimal information loss between the representations before and after the fairness-preserving projections. Both the information content and the fairness aspect of the final representation learned has been validated through several metrics where it shows excellent performance. Our work (FairMixRep) addresses the problem of Mixed Space Fair Representation learning from an unsupervised perspective and learns a Universal representation that is timely, unique, and a novel research contribution.
翻訳日:2022-10-09 21:53:06 公開日:2020-10-14
# 変圧器の表情表現と構成の評価

Assessing Phrasal Representation and Composition in Transformers ( http://arxiv.org/abs/2010.03763v2 )

ライセンス: Link先を確認
Lang Yu and Allyson Ettinger(参考訳) ディープトランスモデルはNLPタスクのパフォーマンスを新たな限界に押し上げ、フレーズのような複雑な言語入力の洗練された処理を推奨している。 しかし、これらのモデルが句の表現をどう扱うか、そしてそれが人間が行うような句の意味の洗練された構成を反映しているかどうかについての理解は限られている。 本稿では,最先端予習変圧器におけるフラシアル表現の系統的解析について述べる。 語句類似性と意味変化の人的判断を活用し,単語重複制御前後の結果を比較し,語彙効果と構成効果を区別する。 これらのモデルにおける句表現は単語の内容に大きく依存しており、ニュアンスな構成の証拠はほとんどない。 また, モデル, 層, 表現型にまたがる表現品質の変動を同定し, これらのモデルから表現の使用を推奨する。

Deep transformer models have pushed performance on NLP tasks to new limits, suggesting sophisticated treatment of complex linguistic inputs, such as phrases. However, we have limited understanding of how these models handle representation of phrases, and whether this reflects sophisticated composition of phrase meaning like that done by humans. In this paper, we present systematic analysis of phrasal representations in state-of-the-art pre-trained transformers. We use tests leveraging human judgments of phrase similarity and meaning shift, and compare results before and after control of word overlap, to tease apart lexical effects versus composition effects. We find that phrase representation in these models relies heavily on word content, with little evidence of nuanced composition. We also identify variations in phrase representation quality across models, layers, and representation types, and make corresponding recommendations for usage of representations from these models.
翻訳日:2022-10-09 12:07:47 公開日:2020-10-14
# 校正確率モデルを用いた短期太陽照度予測

Short-Term Solar Irradiance Forecasting Using Calibrated Probabilistic Models ( http://arxiv.org/abs/2010.04715v2 )

ライセンス: Link先を確認
Eric Zelikman, Sharon Zhou, Jeremy Irvin, Cooper Raterink, Hao Sheng, Anand Avati, Jack Kelly, Ram Rajagopal, Andrew Y. Ng, David Gagne(参考訳) 太陽エネルギーの電力網への統合を支援するためには,確率的太陽予測法が不可欠である。 本研究では,太陽放射の予測のための様々な最先端確率モデルを開発する。 ポストホック校正手法による確率予測の精度向上について検討した。 我々は,surfradネットワーク内の7局の公開データを用いてモデルを訓練し,評価し,最良モデルであるngboostが全駅で最高の日射量予測モデルよりも時間内分解能で高い性能を達成できることを実証した。 さらに, 時間分解能予測における数値天気予報モデルと比較して, CRUDE後キャリブレーションによるNGBoostの性能が向上することを示した。

Advancing probabilistic solar forecasting methods is essential to supporting the integration of solar energy into the electricity grid. In this work, we develop a variety of state-of-the-art probabilistic models for forecasting solar irradiance. We investigate the use of post-hoc calibration techniques for ensuring well-calibrated probabilistic predictions. We train and evaluate the models using public data from seven stations in the SURFRAD network, and demonstrate that the best model, NGBoost, achieves higher performance at an intra-hourly resolution than the best benchmark solar irradiance forecasting model across all stations. Further, we show that NGBoost with CRUDE post-hoc calibration achieves comparable performance to a numerical weather prediction model on hourly-resolution forecasting.
翻訳日:2022-10-09 05:15:43 公開日:2020-10-14
# BioMegatron: より大きなバイオメディカルドメイン言語モデル

BioMegatron: Larger Biomedical Domain Language Model ( http://arxiv.org/abs/2010.06060v2 )

ライセンス: Link先を確認
Hoo-Chang Shin, Yang Zhang, Evelina Bakhturina, Raul Puri, Mostofa Patwary, Mohammad Shoeybi, Raghav Mani(参考訳) バイオメディカルテキストで事前トレーニングされた言語モデルは、wikipediaやbooksのような一般的なドメインテキストコーパスでトレーニングされた言語よりもバイオメディカルドメインベンチマークでパフォーマンスが良いことを示す、バイオメディカルドメイン固有言語モデルが流入している。 しかし、ほとんどの作品は各ドメイン言語アプリケーションに影響を与える要因を深く研究していません。 さらに、ドメイン固有モデルにおけるモデルサイズの研究はほとんど欠落している。 サブワード語彙集合、モデルサイズ、事前学習コーパス、ドメイン転送など、ドメイン言語アプリケーションの性能に影響を与えるいくつかの要因を経験的に研究し、評価する。 我々は、より大きなドメインコーパスでトレーニングされたより大きなBioMegatronモデルとベンチマークで一貫した改善を示し、ドメイン言語モデルアプリケーションの理解に寄与する。 本研究は,生物医学的NLPベンチマーク(名前付きエンティティ認識,関係抽出,質問応答)における従来のSOTA(State-of-the-art)に対する顕著な改善を示す。 モデルチェックポイントとコードは [https://ngc.nvidia.com] と [https://github.com/NVIDIA/NeMo] で利用可能だ。

There has been an influx of biomedical domain-specific language models, showing language models pre-trained on biomedical text perform better on biomedical domain benchmarks than those trained on general domain text corpora such as Wikipedia and Books. Yet, most works do not study the factors affecting each domain language application deeply. Additionally, the study of model size on domain-specific models has been mostly missing. We empirically study and evaluate several factors that can affect performance on domain language applications, such as the sub-word vocabulary set, model size, pre-training corpus, and domain transfer. We show consistent improvements on benchmarks with our larger BioMegatron model trained on a larger domain corpus, contributing to our understanding of domain language model applications. We demonstrate noticeable improvements over the previous state-of-the-art (SOTA) on standard biomedical NLP benchmarks of named entity recognition, relation extraction, and question answering. Model checkpoints and code are available at [https://ngc.nvidia.com] and [https://github.com/NVIDIA/NeMo].
翻訳日:2022-10-08 07:08:34 公開日:2020-10-14
# いくつかの単語は他よりも価値があるか?

Are Some Words Worth More than Others? ( http://arxiv.org/abs/2010.06069v2 )

ライセンス: Link先を確認
Shiran Dudy and Steven Bedrick(参考訳) 言語モデリングと生成の現在の評価基準は、予測された(あるいは生成された)単語の正確さと基準基底真理に大きく依存している。 重要なことではあるが、トークンレベルの精度は言語モデルの振舞いの1つの側面のみを捉え、誤予測されたトークンが実際に有用である可能性のある単語の言語的性質を無視している。 さらに、予測精度(パープレキシティを含む)に直接関連付けられた統計は、しばしば発生する型で予測試みの大多数が発生するため、書字言語のZipfianの性質によって構築される可能性がある。 モデルの性能は、高頻度と低周波の単語間で大きく異なり、実際には、言語モデルの下流のコンシューマが生成する繰り返しや鈍化といった失敗モードにつながる可能性がある。 そこで本研究では,言語モデルの性能をより包括的に表現するための,単純な単語予測タスクの枠組み内での2つの本質的な評価手法を提案する。 我々は,提案するメトリクスを用いて,広く使用されている複数の大規模英語モデルを評価し,従来のメトリクスで曖昧なモデル間の機能的性能差を明らかにする。

Current evaluation metrics for language modeling and generation rely heavily on the accuracy of predicted (or generated) words as compared to a reference ground truth. While important, token-level accuracy only captures one aspect of a language model's behavior, and ignores linguistic properties of words that may allow some mis-predicted tokens to be useful in practice. Furthermore, statistics directly tied to prediction accuracy (including perplexity) may be confounded by the Zipfian nature of written language, as the majority of the prediction attempts will occur with frequently-occurring types. A model's performance may vary greatly between high- and low-frequency words, which in practice could lead to failure modes such as repetitive and dull generated text being produced by a downstream consumer of a language model. To address this, we propose two new intrinsic evaluation measures within the framework of a simple word prediction task that are designed to give a more holistic picture of a language model's performance. We evaluate several commonly-used large English language models using our proposed metrics, and demonstrate that our approach reveals functional differences in performance between the models that are obscured by more traditional metrics.
翻訳日:2022-10-08 07:08:14 公開日:2020-10-14
# 宇宙からの戦争破壊のモニタリング: 機械学習アプローチ

Monitoring War Destruction from Space: A Machine Learning Approach ( http://arxiv.org/abs/2010.05970v2 )

ライセンス: Link先を確認
Hannes Mueller, Andre Groger, Jonathan Hersh, Andrea Matranga and Joan Serrat(参考訳) 紛争地帯の破壊に関する既存のデータは目撃者の報告や手動による検出に依存しており、一般的には不足し、不完全であり、潜在的に偏りがある。 この信頼できるデータの欠如は、メディア報道、人道支援活動、人権監視、復興活動、暴力的紛争に関する学術研究に厳しい制限を課している。 本稿では、深層学習技術とデータ拡張を組み合わせた高解像度衛星画像の自動破壊計測手法を提案する。 我々はこの方法をシリア内戦に適用し、国内の主要都市における被害の進展を再構築する。 このアプローチにより、前例のない範囲、解像度、周波数(利用可能な衛星画像によってのみ制限される)で破壊データを生成することができ、データ制限を決定的に緩和することができる。

Existing data on building destruction in conflict zones rely on eyewitness reports or manual detection, which makes it generally scarce, incomplete and potentially biased. This lack of reliable data imposes severe limitations for media reporting, humanitarian relief efforts, human rights monitoring, reconstruction initiatives, and academic studies of violent conflict. This article introduces an automated method of measuring destruction in high-resolution satellite images using deep learning techniques combined with data augmentation to expand training samples. We apply this method to the Syrian civil war and reconstruct the evolution of damage in major cities across the country. The approach allows generating destruction data with unprecedented scope, resolution, and frequency - only limited by the available satellite imagery - which can alleviate data limitations decisively.
翻訳日:2022-10-08 06:24:36 公開日:2020-10-14
# MS$2$L:スケルトンに基づく行動認識のためのマルチタスク自己監視学習

MS$^2$L: Multi-Task Self-Supervised Learning for Skeleton Based Action Recognition ( http://arxiv.org/abs/2010.05599v2 )

ライセンス: Link先を確認
Lilang Lin, Sijie Song, Wenhan Yan and Jiaying Liu(参考訳) 本稿では,行動認識のための人体骨格からの自己指導型表現学習について述べる。 通常、1つの再構成タスクから特徴提示を学習する従来の手法は、過度に適合する問題に遭遇し、その特徴は行動認識には一般化できない。 代わりに、より一般的な表現を自己管理的に学習するために複数のタスクを統合することを提案する。 この目標を実現するために,モーション予測,ジグソーパズル認識,コントラスト学習を統合し,異なる側面からスケルトン特徴を学習する。 スケルトンダイナミクスは、将来のシーケンスを予測することによって、運動予測を通じてモデル化することができる。 そして、行動認識に不可欠な時間パターンは、ジグソーパズルを解くことによって学習される。 コントラスト学習により特徴空間をさらに規則化する。 また,行動認識のための自己監督タスクの知識を活用するための学習戦略も検討した。 我々は,マルチタスクの自己教師付き学習手法を,教師なし,半教師なし,完全教師なしの設定を含む,異なる構成で訓練された行動分類器を用いて評価する。 nw-ucla, ntu rgb+d, pkummdデータセットを用いた実験は, 行動認識に優れた性能を示し, より識別的, 汎用的な特徴を学習する手法の優位性を示した。 プロジェクトのwebサイトはhttps://langlandslin.github.io/projects/msl/で閲覧できます。

In this paper, we address self-supervised representation learning from human skeletons for action recognition. Previous methods, which usually learn feature presentations from a single reconstruction task, may come across the overfitting problem, and the features are not generalizable for action recognition. Instead, we propose to integrate multiple tasks to learn more general representations in a self-supervised manner. To realize this goal, we integrate motion prediction, jigsaw puzzle recognition, and contrastive learning to learn skeleton features from different aspects. Skeleton dynamics can be modeled through motion prediction by predicting the future sequence. And temporal patterns, which are critical for action recognition, are learned through solving jigsaw puzzles. We further regularize the feature space by contrastive learning. Besides, we explore different training strategies to utilize the knowledge from self-supervised tasks for action recognition. We evaluate our multi-task self-supervised learning approach with action classifiers trained under different configurations, including unsupervised, semi-supervised and fully-supervised settings. Our experiments on the NW-UCLA, NTU RGB+D, and PKUMMD datasets show remarkable performance for action recognition, demonstrating the superiority of our method in learning more discriminative and general features. Our project website is available at https://langlandslin.github.io/projects/MSL/.
翻訳日:2022-10-08 05:57:29 公開日:2020-10-14
# 完全探索型マスキング言語モデルによる自己教師あり事前学習の改善

Improving Self-supervised Pre-training via a Fully-Explored Masked Language Model ( http://arxiv.org/abs/2010.06040v2 )

ライセンス: Link先を確認
Mingzhi Zheng, Dinghan Shen, Yelong Shen, Weizhu Chen, Lin Xiao(参考訳) Masked Language Model (MLM)フレームワークは、自己教師型言語事前学習に広く採用されている。 本稿では,mlmにおけるランダムにサンプリングされたマスクは,好ましくないほど大きな勾配分散をもたらすと論じる。 したがって、勾配の共分散と2つの異なるマスク間のハミング距離(あるテキストシーケンス)を関連付けて勾配の分散を理論的に定量化する。 マスクのサンプリングによるばらつきを低減すべく,テキストシーケンスを一定数の重複しないセグメントに分割するための,十分に検討されたマスキング戦略を提案する。 その後、訓練用に1セグメント内のトークンをマスクする。 理論的な見地からすると、この新しいマスキングスキーマに由来する勾配はばらつきが小さく、より効率的な自己教師付きトレーニングにつながることを証明します。 我々は,スクラッチから連続事前訓練と一般事前訓練の両方について広範な実験を行った。 実験の結果、この新しいマスキング戦略は標準のランダムマスキングよりも一貫して優れていることが確認された。 詳細な効率解析とアブレーション研究により、MLMフレームワーク下での完全探索マスキング戦略の利点がさらに検証された。

Masked Language Model (MLM) framework has been widely adopted for self-supervised language pre-training. In this paper, we argue that randomly sampled masks in MLM would lead to undesirably large gradient variance. Thus, we theoretically quantify the gradient variance via correlating the gradient covariance with the Hamming distance between two different masks (given a certain text sequence). To reduce the variance due to the sampling of masks, we propose a fully-explored masking strategy, where a text sequence is divided into a certain number of non-overlapping segments. Thereafter, the tokens within one segment are masked for training. We prove, from a theoretical perspective, that the gradients derived from this new masking schema have a smaller variance and can lead to more efficient self-supervised training. We conduct extensive experiments on both continual pre-training and general pre-training from scratch. Empirical results confirm that this new masking strategy can consistently outperform standard random masking. Detailed efficiency analysis and ablation studies further validate the advantages of our fully-explored masking strategy under the MLM framework.
翻訳日:2022-10-08 05:48:44 公開日:2020-10-14
# 最適貯留層計算のためのグリーン関数による再帰の展開

Unfolding recurrence by Green's functions for optimized reservoir computing ( http://arxiv.org/abs/2010.06247v2 )

ライセンス: Link先を確認
Sandra Nestler, Christian Keup, David Dahmen, Matthieu Gilson, Holger Rauhut and Moritz Helias(参考訳) 皮質ネットワークは強く再発し、ニューロンは内在的な時間的ダイナミクスを持つ。 これにより、ディープフィードフォワードネットワークとは切り離される。 フィードフォワードネットワークの適用の著しい進歩と理論的理解にもかかわらず、反復性皮質ネットワークにおける再発の相互作用と非線形性がそれらの機能にどのように寄与するかは、まだ不明である。 本研究の目的は、フォワードネットワークにリンクする解決可能なリカレントネットワークモデルを提供することである。 摂動的手法により、時間連続的反復力学を線形および非線形時間核の効果的なフィードフォワード構造に変換する。 解析式により、ランダムな貯水池ネットワークから最適な時系列分類器を構築することができる。 まず,読み出しベクトルだけでなく入力投影も最適化し,高い性能向上を示す。 次に、第2次刺激統計がダイナミクスの非線形性と相互作用し、パフォーマンスを向上させる重要な要素であることを示す。

Cortical networks are strongly recurrent, and neurons have intrinsic temporal dynamics. This sets them apart from deep feed-forward networks. Despite the tremendous progress in the application of feed-forward networks and their theoretical understanding, it remains unclear how the interplay of recurrence and non-linearities in recurrent cortical networks contributes to their function. The purpose of this work is to present a solvable recurrent network model that links to feed forward networks. By perturbative methods we transform the time-continuous, recurrent dynamics into an effective feed-forward structure of linear and non-linear temporal kernels. The resulting analytical expressions allow us to build optimal time-series classifiers from random reservoir networks. Firstly, this allows us to optimize not only the readout vectors, but also the input projection, demonstrating a strong potential performance gain. Secondly, the analysis exposes how the second order stimulus statistics is a crucial element that interacts with the non-linearity of the dynamics and boosts performance.
翻訳日:2022-10-08 00:22:18 公開日:2020-10-14
# 異種情報ネットワークを用いたクロス教師付き共同イベント抽出

Cross-Supervised Joint-Event-Extraction with Heterogeneous Information Networks ( http://arxiv.org/abs/2010.06310v2 )

ライセンス: Link先を確認
Yue Wang, Zhuo Xu, Lu Bai, Yao Wan, Lixin Cui, Qian Zhao, Edwin R. Hancock, Philip S. Yu(参考訳) 非構造化実世界のコーパスから構造情報(すなわち、イベントの実体やトリガー)を抽出するジョイントイベント抽出は、自然言語処理における研究の注目を集めている。 既存の作品の多くは、エンティティとトリガーの間のスパース共起関係を完全に扱っていないため、この重要な情報が失われ、抽出性能が低下する。 この問題を軽減するため、まずジョイントイベント抽出をトリガーとエンティティのタグからなるタグセットでシーケンスからシーケンスへのラベリングタスクとして定義する。 そして、上記の共起関係に欠落した情報を組み込むために、相互の型分布に基づいてトリガまたはエンティティの抽出を交互に監督するクロススーパーバイザードメカニズム(CSM)を提案する。 さらに,接続されたエンティティとトリガが自然にヘテロジニアス情報ネットワーク(HIN)を形成するため,提案手法の性能向上のために,与えられたコーパスのメタパスに沿って潜時パターンを利用する。 提案手法の有効性を検証するため,本手法を最先端の手法と比較すると共に,実世界の4つのデータセットに対する広範な実験を行った。 実験結果と分析結果から,本手法は実体抽出とトリガ抽出の両方において最先端の手法より優れていることが示された。

Joint-event-extraction, which extracts structural information (i.e., entities or triggers of events) from unstructured real-world corpora, has attracted more and more research attention in natural language processing. Most existing works do not fully address the sparse co-occurrence relationships between entities and triggers, which loses this important information and thus deteriorates the extraction performance. To mitigate this issue, we first define the joint-event-extraction as a sequence-to-sequence labeling task with a tag set composed of tags of triggers and entities. Then, to incorporate the missing information in the aforementioned co-occurrence relationships, we propose a Cross-Supervised Mechanism (CSM) to alternately supervise the extraction of either triggers or entities based on the type distribution of each other. Moreover, since the connected entities and triggers naturally form a heterogeneous information network (HIN), we leverage the latent pattern along meta-paths for a given corpus to further improve the performance of our proposed method. To verify the effectiveness of our proposed method, we conduct extensive experiments on four real-world datasets as well as compare our method with state-of-the-art methods. Empirical results and analysis show that our approach outperforms the state-of-the-art methods in both entity and trigger extraction.
翻訳日:2022-10-07 23:39:55 公開日:2020-10-14
# 最先端機械翻訳のためのきめ細かな言語評価

Fine-grained linguistic evaluation for state-of-the-art Machine Translation ( http://arxiv.org/abs/2010.06359v2 )

ライセンス: Link先を確認
Eleftherios Avramidis, Vivien Macketanz, Ursula Strohriegel, Aljoscha Burchardt and Sebastian M\"oller(参考訳) 本稿では,第5回機械翻訳会議(WMT20)の現在最先端のドイツ語系システムに対して,言語性能の詳細な統計情報を提供するテストスイートについて述べる。 分析は,手動注記作業45時間を含む約5500個の試験項目に基づいて,14のカテゴリに分類された107の現象を対象とする。 2つのシステム(TohokuとHuoshan)は、他のシステムよりもテストスイートの精度が大幅に向上しているように見えるが、WMT20の最良のシステムは、マクロ平均でWMT19のシステムよりもはるかに優れているわけではない。 さらに、全てのシステムが苦しむ言語現象(イディオム、結果述語、pluperfectなど)を特定できるが、個々のシステム(引用符号、語彙曖昧性、スライシングなど)の弱点を特定することもできる。 WMT19のシステムの多くは、今年新しいバージョンを提出した。

This paper describes a test suite submission providing detailed statistics of linguistic performance for the state-of-the-art German-English systems of the Fifth Conference of Machine Translation (WMT20). The analysis covers 107 phenomena organized in 14 categories based on about 5,500 test items, including a manual annotation effort of 45 person hours. Two systems (Tohoku and Huoshan) appear to have significantly better test suite accuracy than the others, although the best system of WMT20 is not significantly better than the one from WMT19 in a macro-average. Additionally, we identify some linguistic phenomena where all systems suffer (such as idioms, resultative predicates and pluperfect), but we are also able to identify particular weaknesses for individual systems (such as quotation marks, lexical ambiguity and sluicing). Most of the systems of WMT19 which submitted new versions this year show improvements.
翻訳日:2022-10-07 23:38:51 公開日:2020-10-14
# Pagsusuri ng RNN-based Transfer Learning Techniquesa Low-Resource Language

Pagsusuri ng RNN-based Transfer Learning Technique sa Low-Resource Language ( http://arxiv.org/abs/2010.06447v2 )

ライセンス: Link先を確認
Dan John Velasco(参考訳) フィリピン語のような低リソース言語はデータの不足に悩まされており、フィリピン語のためのNLPアプリケーションを開発するのは難しい。 転送学習(tl)技術の使用は、低リソース環境でこの問題を緩和する。 近年、トランスフォーマーベースのモデルは低リソースタスクに有効であることが証明されているが、高い計算とメモリ要求のためにアクセシビリティの課題に直面している。 そのため、より安価で効果的な代替手段が必要となる。 この論文には3つの貢献がある。 まず、フィリピン語のための事前訓練されたAWD-LSTM言語モデルをリリースする。 第2に、Hate Speech分類タスクにおけるAWD-LSTMのベンチマークを行い、トランスフォーマーベースモデルと同等の性能を示す。 第3に、劣化試験を用いて低リソース環境でのAWD-LSTMの性能を分析し、トランスモデルと比較する。 Ang mga low-resource languages tulad ng Filipino ay gipit sa access na datos kaya't mahirap gumawa ng mga applications sa wikang ito Ang mga Transfer Learning (TL) technique ay malaking tulong para sa low-resource setting o mga pagkakataong gipit sa datos。 Sa mga nagdaang taon, nanaig ang mga transformer-based TL technique pagdating sa low-resource tasks ngunit ito ay mataas na compute and memory requirements Kaya nangangailangan ng mas mura pero epektibong alternatibo。 Ang papel na ito ay may tatlong kontribusyon. Una, maglabas ng pre-trained AWD-LSTM language model sa wikang Filipino upang maging tuntungan sa pagbuo ng mga NLP application sa wikang Filipino。 Pangalawa, mag benchmark ng AWD-LSTM sa Hate Speech classification task at ipakita na kayang nitong makipagsabayan sa mga transformer based model。 Pangatlo, suriin ang performance ng AWD-LSTM sa low-resource set gamit ang degradation test at kumpara ito sa mga transformer based model。

Low-resource languages such as Filipino suffer from data scarcity which makes it challenging to develop NLP applications for Filipino language. The use of Transfer Learning (TL) techniques alleviates this problem in low-resource setting. In recent years, transformer-based models are proven to be effective in low-resource tasks but faces challenges in accessibility due to its high compute and memory requirements. For this reason, there's a need for a cheaper but effective alternative. This paper has three contributions. First, release a pre-trained AWD-LSTM language model for Filipino language. Second, benchmark AWD-LSTM in the Hate Speech classification task and show that it performs on par with transformer-based models. Third, analyze the the performance of AWD-LSTM in low-resource setting using degradation test and compare it with transformer-based models. ----- Ang mga low-resource languages tulad ng Filipino ay gipit sa accessible na datos kaya't mahirap gumawa ng mga applications sa wikang ito. Ang mga Transfer Learning (TL) techniques ay malaking tulong para sa low-resource setting o mga pagkakataong gipit sa datos. Sa mga nagdaang taon, nanaig ang mga transformer-based TL techniques pagdating sa low-resource tasks ngunit ito ay mataas na compute and memory requirements kaya nangangailangan ng mas mura pero epektibong alternatibo. Ang papel na ito ay may tatlong kontribusyon. Una, maglabas ng pre-trained AWD-LSTM language model sa wikang Filipino upang maging tuntungan sa pagbuo ng mga NLP applications sa wikang Filipino. Pangalawa, mag benchmark ng AWD-LSTM sa Hate Speech classification task at ipakita na kayang nitong makipagsabayan sa mga transformer-based models. Pangatlo, suriin ang performance ng AWD-LSTM sa low-resource setting gamit ang degradation test at ikumpara ito sa mga transformer-based models.
翻訳日:2022-10-07 23:38:05 公開日:2020-10-14
# Annotationsaurus: アノテーションツールの検索可能なディレクトリ

Annotationsaurus: A Searchable Directory of Annotation Tools ( http://arxiv.org/abs/2010.06251v2 )

ライセンス: Link先を確認
Mariana Neves and Jurica Seva(参考訳) テキスト文書の手動アノテーションは、機械学習アルゴリズムのトレーニングと評価のためのベンチマークコーパスを構築するのに必要なタスクである。 現在93のツールを含むアノテーションツールの包括的なディレクトリを作成しました。 我々はツールを31種類の機能で分析し、選択された基準に基づいてツールをフィルタリングするシンプルなスクリプトとWebアプリケーションを実装した。 このディレクトリを使って2つのユースケースを提示し、その保守のためのアイデアを提案する。 ディレクトリ、スクリプトのソースコード、Webアプリケーションへのリンクは、https://github.com/mariananeves/annotation-tools.comで入手できる。

Manual annotation of textual documents is a necessary task when constructing benchmark corpora for training and evaluating machine learning algorithms. We created a comprehensive directory of annotation tools that currently includes 93 tools. We analyzed the tools over a set of 31 features and implemented simple scripts and a Web application that filters the tools based on chosen criteria. We present two use cases using the directory and propose ideas for its maintenance. The directory, source codes for scripts, and link to the Web application are available at: https://github.com/mariananeves/annotation-tools
翻訳日:2022-10-07 23:28:10 公開日:2020-10-14
# Attn-HybridNet:注意融合によるハイブリッド特徴の識別性の向上

Attn-HybridNet: Improving Discriminability of Hybrid Features with Attention Fusion ( http://arxiv.org/abs/2010.06096v2 )

ライセンス: Link先を確認
Sunny Verma, Chen Wang, Liming Zhu, and Wei Liu(参考訳) 主成分分析ネットワーク(PCANet)は、主成分を畳み込み層内のフィルタとして利用する、教師なしの擬似深層ネットワークである。 強力だが、PCANetは主成分や空間プールのような基本的な操作で構成されており、2つの根本的な問題に悩まされている。 まず、主成分はコラムベクトル(アマルガメートビューと呼ばれる)に変換して情報を取得し、データ内の空間情報の損失を引き起こす。 第2に、PCANetで利用される一般化空間プーリングは特徴冗長性を誘導し、また自然画像の空間統計に適合しない。 本研究ではまず,テンソル因子化ネットワーク(TFNet)と呼ばれるテンソル因子化に基づくディープネットワークを提案する。 tfnetはデータの空間構造(minutiae viewと呼ぶ)から特徴を抽出する。 そこで, PCANet と TFNet が取得した情報は, 独特で非自明であるが, 個々に不十分であることを示す。 この現象は、情報発見とデータの2つのビューを統合するハイブリッドネットの開発を必要とする。 ハイブリッド機能の識別性を高めるために,注意に基づく特徴融合を行い,特徴冗長性を緩和するattn-hybridnetを提案する。 提案するAttn-HybridNetの意義は,Attn-HybridNetで得られた特徴が他の一般的なベースライン手法よりも優れた分類性能を達成し,提案手法の有効性を示す複数の実世界のデータセット上で実証されている。

The principal component analysis network (PCANet) is an unsupervised parsimonious deep network, utilizing principal components as filters in its convolution layers. Albeit powerful, the PCANet consists of basic operations such as principal components and spatial pooling, which suffers from two fundamental problems. First, the principal components obtain information by transforming it to column vectors (which we call the amalgamated view), which incurs the loss of the spatial information in the data. Second, the generalized spatial pooling utilized in the PCANet induces feature redundancy and also fails to accommodate spatial statistics of natural images. In this research, we first propose a tensor-factorization based deep network called the Tensor Factorization Network (TFNet). The TFNet extracts features from the spatial structure of the data (which we call the minutiae view). We then show that the information obtained by the PCANet and the TFNet are distinctive and non-trivial but individually insufficient. This phenomenon necessitates the development of proposed HybridNet, which integrates the information discovery with the two views of the data. To enhance the discriminability of hybrid features, we propose Attn-HybridNet, which alleviates the feature redundancy by performing attention-based feature fusion. The significance of our proposed Attn-HybridNet is demonstrated on multiple real-world datasets where the features obtained with Attn-HybridNet achieves better classification performance over other popular baseline methods, demonstrating the effectiveness of the proposed technique.
翻訳日:2022-10-07 23:03:09 公開日:2020-10-14
# 重み付けを用いた半スーパービジョン変分オートエンコーダの生成と推論の相互作用制御

Controlling the Interaction Between Generation and Inference in Semi-Supervised Variational Autoencoders Using Importance Weighting ( http://arxiv.org/abs/2010.06549v2 )

ライセンス: Link先を確認
Ghazi Felhi, Joseph Leroux, Djam\'e Seddah(参考訳) 変分オートエンコーダ (VAE) は半教師付き学習に広く用いられているが、その動作理由は不明である。 実際、教師なし目的の追加は、しばしばあいまいに正規化として記述される。 この正規化の強度は、トレーニングセットの未ラベル部分の目標を低くすることで制御される。 半教師付きvaesの目的の分析を通して,学習した生成モデルの後方を用いて,部分的に観測された潜在変数の学習における推論モデルを導出する。 この観察結果から,教師なし目標が訓練手順に及ぼす影響について,より細かく制御できることが示されている。 重要度重み付けを用いて, 部分的に観測された潜在変数の1つか, 観測されていない潜在変数のどちらかを優先する2つの新しい目的を導出する。 IMDBの英語感情分析データセットとAG Newsのトピック分類データセットの実験では、優先順位付けメカニズムによる改善が示され、セミスーパービジョンのVAEの内部動作の説明とインラインな振る舞いを示している。

Even though Variational Autoencoders (VAEs) are widely used for semi-supervised learning, the reason why they work remains unclear. In fact, the addition of the unsupervised objective is most often vaguely described as a regularization. The strength of this regularization is controlled by down-weighting the objective on the unlabeled part of the training set. Through an analysis of the objective of semi-supervised VAEs, we observe that they use the posterior of the learned generative model to guide the inference model in learning the partially observed latent variable. We show that given this observation, it is possible to gain finer control on the effect of the unsupervised objective on the training procedure. Using importance weighting, we derive two novel objectives that prioritize either one of the partially observed latent variable, or the unobserved latent variable. Experiments on the IMDB english sentiment analysis dataset and on the AG News topic classification dataset show the improvements brought by our prioritization mechanism and exhibit a behavior that is inline with our description of the inner working of Semi-Supervised VAEs.
翻訳日:2022-10-07 22:44:09 公開日:2020-10-14
# 粗粒度及び細粒度自動クロッピング深層畳み込みニューラルネットワーク

Coarse and fine-grained automatic cropping deep convolutional neural network ( http://arxiv.org/abs/2010.06379v2 )

ライセンス: Link先を確認
Jingfei Chang(参考訳) 既存の畳み込みニューラルネットワークプルーニングアルゴリズムは、粗粒クリッピングと細粒クリッピングの2つのカテゴリに分類できる。 本稿では,畳み込みニューラルネットワークのより効率的かつ高精度な圧縮高速化を実現する,粗くきめ細かな自動刈取アルゴリズムを提案する。 まず、畳み込みニューラルネットワークの中間特徴マップをクラスタ化して、粗い切り込み後にネットワーク構造を取得し、次に、粒子群最適化アルゴリズムを用いて構造を反復的に探索し、最適化する。 最後に、最適なネットワーク調整サブ構造を得る。

The existing convolutional neural network pruning algorithms can be divided into two categories: coarse-grained clipping and fine-grained clipping. This paper proposes a coarse and fine-grained automatic pruning algorithm, which can achieve more efficient and accurate compression acceleration for convolutional neural networks. First, cluster the intermediate feature maps of the convolutional neural network to obtain the network structure after coarse-grained clipping, and then use the particle swarm optimization algorithm to iteratively search and optimize the structure. Finally, the optimal network tailoring substructure is obtained.
翻訳日:2022-10-07 22:36:17 公開日:2020-10-14
# 畳み込みニューラルネットワークを用いた透過電子顕微鏡像におけるアモルファス絶縁体と4H-SiCの界面の定量

Determination of the Interface between Amorphous Insulator and Crystalline 4H-SiC in Transmission Electron Microscope Image by using Convolutional Neural Network ( http://arxiv.org/abs/2010.09485v1 )

ライセンス: Link先を確認
Hironori Yoshioka and Tomonori Honda(参考訳) 粗いインターフェースはsicmosfetの低チャネル移動性(導電性)の原因の1つであると考えられる。 本研究では,畳み込みニューラルネットワーク(cnn)の深層学習アプローチを用いて,透過型電子顕微鏡(tem)により得られた断面画像中のアモルファス絶縁体と結晶性4h-sicの境界線を描画した。 インターフェースが手動で境界線を描画するには粗すぎる場合でも,CNNモデルはインターフェースを非常によく認識することを示す。 界面粗さのパワースペクトル密度を算出した。

A rough interface seems to be one of the possible reasons for low channel mobility (conductivity) in SiC MOSFETs. To evaluate the mobility by interface roughness, we drew a boundary line between amorphous insulator and crystalline 4H-SiC in a cross-sectional image obtained by a transmission electron microscope (TEM), by using the deep learning approach of convolutional neural network (CNN). We show that the CNN model recognizes the interface very well, even when the interface is too rough to draw the boundary line manually. Power spectral density of interface roughness was calculated.
翻訳日:2022-10-07 14:51:11 公開日:2020-10-14
# 粗粒非線形システム同定

Coarse-Grained Nonlinear System Identification ( http://arxiv.org/abs/2010.06830v1 )

ライセンス: Link先を確認
Span Spanbauer, Ian Hunter(参考訳) 本稿では,ボルテラ級数展開に基づく非線形系力学の効率良く普遍的なパラメータ化である粗粒状非線形力学を紹介する。 これらのモデルは、ボルテラ展開が切断される順序に関わらず、システムのメモリ内でのみ準線形なパラメータを必要とする。 この効率的なパラメータ化は、時間的に離れた入力サンプルの積に依存するシステムダイナミクスの粗粒化部分によって達成される;これは概念的には、高速多重極法が n-体ダイナミクスの$\mathcal{o}(n)$ のシミュレーションに使用する粗粒化と似ている。 我々の非線形力学の効率的なパラメータ化は正則化に利用することができ、正確な非線形力学モデルを特定するために非常に実験的なデータを必要とする粗粒非線形系同定に繋がる。 我々は,このアプローチの特性を単純な合成問題で示す。 また, この手法を実験的に検証した結果, タングステンフィラメントの光度ダイナミクスに対する非線形電圧の正確なモデルが実験データの1秒未満で同定された。

We introduce Coarse-Grained Nonlinear Dynamics, an efficient and universal parameterization of nonlinear system dynamics based on the Volterra series expansion. These models require a number of parameters only quasilinear in the system's memory regardless of the order at which the Volterra expansion is truncated; this is a superpolynomial reduction in the number of parameters as the order becomes large. This efficient parameterization is achieved by coarse-graining parts of the system dynamics that depend on the product of temporally distant input samples; this is conceptually similar to the coarse-graining that the fast multipole method uses to achieve $\mathcal{O}(n)$ simulation of n-body dynamics. Our efficient parameterization of nonlinear dynamics can be used for regularization, leading to Coarse-Grained Nonlinear System Identification, a technique which requires very little experimental data to identify accurate nonlinear dynamic models. We demonstrate the properties of this approach on a simple synthetic problem. We also demonstrate this approach experimentally, showing that it identifies an accurate model of the nonlinear voltage to luminosity dynamics of a tungsten filament with less than a second of experimental data.
翻訳日:2022-10-07 14:41:43 公開日:2020-10-14
# レジスト・オーディオ・アドバイザリの事例に向けて

Towards Resistant Audio Adversarial Examples ( http://arxiv.org/abs/2010.07190v1 )

ライセンス: Link先を確認
Tom D\"orr, Karla Markert, Nicolas M. M\"uller, Konstantin B\"ottinger(参考訳) 敵対的な例は、機械学習ベースのシステムの可用性と整合性を非常に脅かす。 このような攻撃の可能性は画像処理の分野ではまず観察されているが、近年の研究では、音声認識もまた敵対的攻撃の影響を受けやすいことが示されている。 しかし、空隙を確実につなぐ(例えば、逆の例をマイクで録音すると機能させる)ことは、研究者を遠ざけている。 生成プロセスの欠陥により、ターゲット音声認識システム(例えば、Mozilla Deepspeech)のバイナリ操作により、最先端の対向的なサンプル生成手法が過度に適合していることが判明した。 我々は,この欠陥を緩和するアプローチを考案し,異なるオフセットを持つ逆例の生成を改善する方法を見出した。 実環境下での編集距離の実証的比較により,本手法の大幅な改善を確認した。 われわれのアプローチは空襲に対する大きな一歩だ。 私たちはこのアプローチのコードと適用可能な実装を公開します。

Adversarial examples tremendously threaten the availability and integrity of machine learning-based systems. While the feasibility of such attacks has been observed first in the domain of image processing, recent research shows that speech recognition is also susceptible to adversarial attacks. However, reliably bridging the air gap (i.e., making the adversarial examples work when recorded via a microphone) has so far eluded researchers. We find that due to flaws in the generation process, state-of-the-art adversarial example generation methods cause overfitting because of the binning operation in the target speech recognition system (e.g., Mozilla Deepspeech). We devise an approach to mitigate this flaw and find that our method improves generation of adversarial examples with varying offsets. We confirm the significant improvement with our approach by empirical comparison of the edit distance in a realistic over-the-air setting. Our approach states a significant step towards over-the-air attacks. We publish the code and an applicable implementation of our approach.
翻訳日:2022-10-07 14:41:25 公開日:2020-10-14
# ベクターコストによるオンライン学習とKnapsackによるバンド

Online Learning with Vector Costs and Bandits with Knapsacks ( http://arxiv.org/abs/2010.07346v1 )

ライセンス: Link先を確認
Thomas Kesselheim and Sahil Singla(参考訳) ベクトルコストによるオンライン学習(\olvcp)を導入する。ステップ$t \in \{1,\ldots,t\}$では、未知ベクトルコストが$[0,1]^{d}$となるようなアクション$i \in \{1,\ldots,n\}$をプレイする必要がある。 オンラインアルゴリズムの目標は、コストベクトルの総和の$\ell_p$ノルムを最小化することである。 これは従来のオンライン学習設定を$d=1$でキャプチャし、さまざまなマシン(次元)間の負荷のバランスを取るオンラインスケジューリングのようなアプリケーションのために、一般的な$d$として興味深い。 確率的および敵対的な到着設定の両方で \olvcp を研究し、問題を$d$次元から1次元に減らすための一般的な手順を与える。 これにより、従来のオンライン学習アルゴリズムをフルフィードバックモデルとバンディットフィードバックモデルの両方で使用して、(ほぼ)最適な結果を得ることができます。 特に、確率的到着に対するサブ線形後悔を与える1つのアルゴリズム(学習速度の選択まで)と、敵対的到着に対する競合比の厳密な$O(\min\{p, \log d\})を得る。 OLVCp問題は、Knapsacks (\BwK) 問題で人気のBanditsを解く際にも自然のサブプロブレムとして発生する。 この接続により、我々のOLVCp技術を用いて、確率的および対角的両方の設定において、BwKの(ほぼ)最適結果を得ることができる。 特に、逆数 \BwK に対する厳密な$O(\log d \cdot \log T)$競争比アルゴリズムを求め、Immorlica et al の$O(d \cdot \log T)$競争比アルゴリズムを改良する。 [focs'19]

We introduce online learning with vector costs (\OLVCp) where in each time step $t \in \{1,\ldots, T\}$, we need to play an action $i \in \{1,\ldots,n\}$ that incurs an unknown vector cost in $[0,1]^{d}$. The goal of the online algorithm is to minimize the $\ell_p$ norm of the sum of its cost vectors. This captures the classical online learning setting for $d=1$, and is interesting for general $d$ because of applications like online scheduling where we want to balance the load between different machines (dimensions). We study \OLVCp in both stochastic and adversarial arrival settings, and give a general procedure to reduce the problem from $d$ dimensions to a single dimension. This allows us to use classical online learning algorithms in both full and bandit feedback models to obtain (near) optimal results. In particular, we obtain a single algorithm (up to the choice of learning rate) that gives sublinear regret for stochastic arrivals and a tight $O(\min\{p, \log d\})$ competitive ratio for adversarial arrivals. The \OLVCp problem also occurs as a natural subproblem when trying to solve the popular Bandits with Knapsacks (\BwK) problem. This connection allows us to use our \OLVCp techniques to obtain (near) optimal results for \BwK in both stochastic and adversarial settings. In particular, we obtain a tight $O(\log d \cdot \log T)$ competitive ratio algorithm for adversarial \BwK, which improves over the $O(d \cdot \log T)$ competitive ratio algorithm of Immorlica et al. [FOCS'19].
翻訳日:2022-10-07 14:40:59 公開日:2020-10-14
# BlockFLA: ハイブリッドブロックチェーンアーキテクチャによる説明可能なフェデレーション学習

BlockFLA: Accountable Federated Learning via Hybrid Blockchain Architecture ( http://arxiv.org/abs/2010.07427v1 )

ライセンス: Link先を確認
Harsh Bimal Desai, Mustafa Safa Ozdayi, Murat Kantarcioglu(参考訳) Federated Learning (FL) は、分散された分散化された機械学習プロトコルである。 flを実行することにより、エージェントのセットは、データセットを互いに共有することなく、あるいはサードパーティと共同でモデルを訓練することができる。 これにより、FLは特にデータのプライバシが求められる設定に適している。 同時に、トレーニングデータの隠蔽は、攻撃者がトレーニングされたモデルにバックドアを注入する機会を与える。 FL中、攻撃者は訓練されたモデルにバックドアを注入でき、その後、バックドアを利用してモデルを後で誤分類できる。 この脅威を和らげるために、ロバストなアグリゲーション関数を設計した作品がいくつかある。 しかし、より高度な攻撃が時間をかけて開発され、既存の防御をバイパスすることで、本研究の補完的な角度からこの問題にアプローチする。 特に、訓練期間終了後に攻撃者を検知し、罰し、バックドア攻撃を防止することを目的としている。 この目的のために、スマートコントラクトを使用して攻撃者を自動的に検出し、金銭的罰則によって罰する、ハイブリッドブロックチェーンベースのFLフレームワークを開発した。 私たちのフレームワークは、アグリゲーション関数や攻撃者検出アルゴリズムをプラグインできるという意味では一般的なものです。 我々は,このフレームワークがFLの通信効率のよい性質を保っていることを示す実験を行い,新たな攻撃者検出アルゴリズムを活用して攻撃者を罰則化できることを示す。

Federated Learning (FL) is a distributed, and decentralized machine learning protocol. By executing FL, a set of agents can jointly train a model without sharing their datasets with each other, or a third-party. This makes FL particularly suitable for settings where data privacy is desired. At the same time, concealing training data gives attackers an opportunity to inject backdoors into the trained model. It has been shown that an attacker can inject backdoors to the trained model during FL, and then can leverage the backdoor to make the model misclassify later. Several works tried to alleviate this threat by designing robust aggregation functions. However, given more sophisticated attacks are developed over time, which by-pass the existing defenses, we approach this problem from a complementary angle in this work. Particularly, we aim to discourage backdoor attacks by detecting, and punishing the attackers, possibly after the end of training phase. To this end, we develop a hybrid blockchain-based FL framework that uses smart contracts to automatically detect, and punish the attackers via monetary penalties. Our framework is general in the sense that, any aggregation function, and any attacker detection algorithm can be plugged into it. We conduct experiments to demonstrate that our framework preserves the communication-efficient nature of FL, and provide empirical results to illustrate that it can successfully penalize attackers by leveraging our novel attacker detection algorithm.
翻訳日:2022-10-07 14:40:05 公開日:2020-10-14
# 放射線学における人工知能(tru-ai)の追跡結果と活用--covid-19流行の早期観察

Tracking Results and Utilization of Artificial Intelligence (tru-AI) in Radiology: Early-Stage COVID-19 Pandemic Observations ( http://arxiv.org/abs/2010.07437v1 )

ライセンス: Link先を確認
Axel Wism\"uller and Larry Stockmaster(参考訳) 目的: 放射線学における人工知能(tru-AI)の結果の追跡と活用方法を提案する。 tru-aiアプローチは、大規模利用とai結果のデータの両方を追跡することで、新型コロナウイルス(covid-19)の流行による頭蓋内出血の発生など、経時的に重要な疾患関連観察量を測定するためのサーロゲートを計算することを目的としている。 方法: tru-AIアプローチの臨床応用性を定量的に検討するため, 商用AIソリューションを用いて頭蓋内出血(ICH)を自動的に同定するためのサービス要求を分析した。 我々は,2019年11月1日から2020年6月2日までに取得した大手医療システムにおいて,N=9,421名の緊急設定型非コントラスト頭部CT研究のデータを分析し,2回の観察期間を比較検討した。 (i)2019年11月1日から2020年2月29日までのパンデミック前期 (ii)2020年4月1~30日の新型コロナウイルス(covid-19)パンデミックの期間。 結果: 40.1+/-7.9) において, 日当たりのCTスキャン数は, 前(44.4+/7.6) に比べて有意に低かったが, 日当たりのICC+症例は, 統計学的に予想されるよりも1日あたりのICC+症例の方がAIにより観察される可能性が高かった。 結論: 放射線学における大規模利用とai結果データの両方を追跡することにより, tru-aiアプローチは, 医療に対するパンデミック関連効果の理解を深めるため, 広汎な探索ツールとして臨床価値を寄与できることが示唆された。

Objective: To introduce a method for tracking results and utilization of Artificial Intelligence (tru-AI) in radiology. By tracking both large-scale utilization and AI results data, the tru-AI approach is designed to calculate surrogates for measuring important disease-related observational quantities over time, such as the prevalence of intracranial hemorrhage during the COVID-19 pandemic outbreak. Methods: To quantitatively investigate the clinical applicability of the tru-AI approach, we analyzed service requests for automatically identifying intracranial hemorrhage (ICH) on head CT using a commercial AI solution. This software is typically used for AI-based prioritization of radiologists' reading lists for reducing turnaround times in patients with emergent clinical findings, such as ICH or pulmonary embolism.We analyzed data of N=9,421 emergency-setting non-contrast head CT studies at a major US healthcare system acquired from November 1, 2019 through June 2, 2020, and compared two observation periods, namely (i) a pre-pandemic epoch from November 1, 2019 through February 29, 2020, and (ii) a period during the COVID-19 pandemic outbreak, April 1-30, 2020. Results: Although daily CT scan counts were significantly lower during (40.1 +/- 7.9) than before (44.4 +/- 7.6) the COVID-19 outbreak, we found that ICH was more likely to be observed by AI during than before the COVID-19 outbreak (p<0.05), with approximately one daily ICH+ case more than statistically expected. Conclusion: Our results suggest that, by tracking both large-scale utilization and AI results data in radiology, the tru-AI approach can contribute clinical value as a versatile exploratory tool, aiming at a better understanding of pandemic-related effects on healthcare.
翻訳日:2022-10-07 14:39:42 公開日:2020-10-14
# EPEC市場におけるハイブリッドモデルによるエネルギースポット価格予測

Hybrid Modelling Approaches for Forecasting Energy Spot Prices in EPEC market ( http://arxiv.org/abs/2010.08400v1 )

ライセンス: Link先を確認
Tahir Miriyev, Alessandro Contu, Kevin Schafers, Ion Gabriel Ion(参考訳) 本研究では,epec市場におけるエネルギースポット価格予測のためのハイブリッドモデリング手法を検討した。 ハイブリダイゼーションは、ナイーブモデル、フーリエ解析、armaおよびgarchモデル、平均反転およびジャンプ拡散モデル、およびリカレントニューラルネットワーク(rnn)を組み合わせることによって行われる。 訓練データには2013-2014年の電力価格と2015年の試験データが含まれている。

In this work we considered several hybrid modelling approaches for forecasting energy spot prices in EPEC market. Hybridization is performed through combining a Naive model, Fourier analysis, ARMA and GARCH models, a mean-reversion and jump-diffusion model, and Recurrent Neural Networks (RNN). Training data was given in terms of electricity prices for 2013-2014 years, and test data as a year of 2015.
翻訳日:2022-10-07 14:39:06 公開日:2020-10-14
# 再生可能エネルギー貯蔵のための機械学習を用いた電気触媒設計入門

An Introduction to Electrocatalyst Design using Machine Learning for Renewable Energy Storage ( http://arxiv.org/abs/2010.09435v1 )

ライセンス: Link先を確認
C. Lawrence Zitnick, Lowik Chanussot, Abhishek Das, Siddharth Goyal, Javier Heras-Domingo, Caleb Ho, Weihua Hu, Thibaut Lavril, Aini Palizhati, Morgane Riviere, Muhammed Shuaibi, Anuroop Sriram, Kevin Tran, Brandon Wood, Junwoong Yoon, Devi Parikh, Zachary Ulissi(参考訳) 再生可能エネルギー貯蔵のためのスケーラブルで費用対効果の高いソリューションは、気候変動を抑えながら世界のエネルギー需要の増大に対処するために不可欠である。 断続的な電力を発生させる風力や太陽などの再生可能エネルギー源への依存が高まるにつれ、ピーク時からピーク時への電力の移動には蓄電が必要である。 これは何時間も何日も何ヶ月も電力を蓄える必要がある。 再生可能エネルギーを水素やメタンなどの他の燃料に転換するという、全国規模のグリッドにスケールする可能性を提供するソリューションのひとつだ。 広く採用するには、このプロセスは電気化学反応の実行に対してコスト効率のよい解を必要とする。 オープンな課題は、これらの反応を高速に駆動する低コストの電気触媒を見つけることである。 量子力学シミュレーション(密度汎関数理論)を用いることで、新しい触媒構造を試験し評価することができる。 残念ながら、これらのシミュレーションの計算コストはテスト可能な構造物の数を制限している。 機械学習の使用は、これらの計算を効率的に近似する方法を提供し、効果的な電気触媒を見つけるための新しいアプローチをもたらすかもしれない。 本稿では,適切な触媒を見つける上での課題,その問題への機械学習の適用方法,およびモデルトレーニングにおけるOpen Catalyst Project OC20データセットの利用について紹介する。

Scalable and cost-effective solutions to renewable energy storage are essential to addressing the world's rising energy needs while reducing climate change. As we increase our reliance on renewable energy sources such as wind and solar, which produce intermittent power, storage is needed to transfer power from times of peak generation to peak demand. This may require the storage of power for hours, days, or months. One solution that offers the potential of scaling to nation-sized grids is the conversion of renewable energy to other fuels, such as hydrogen or methane. To be widely adopted, this process requires cost-effective solutions to running electrochemical reactions. An open challenge is finding low-cost electrocatalysts to drive these reactions at high rates. Through the use of quantum mechanical simulations (density functional theory), new catalyst structures can be tested and evaluated. Unfortunately, the high computational cost of these simulations limits the number of structures that may be tested. The use of machine learning may provide a method to efficiently approximate these calculations, leading to new approaches in finding effective electrocatalysts. In this paper, we provide an introduction to the challenges in finding suitable electrocatalysts, how machine learning may be applied to the problem, and the use of the Open Catalyst Project OC20 dataset for model training.
翻訳日:2022-10-07 14:38:57 公開日:2020-10-14
# Mycorrhiza: 遺伝的ネットワークを用いた遺伝子型割り当て

Mycorrhiza: Genotype Assignment usingPhylogenetic Networks ( http://arxiv.org/abs/2010.09483v1 )

ライセンス: Link先を確認
Jeremy Georges-Filteau, Richard C. Hamelin and Mathieu Blanchette(参考訳) モチベーション 遺伝子型割り当て問題は、個体の遺伝子型から発生した既知の集団のどれかを予測することから成り立っている。 この問題は、野生動物鑑定、侵入種検出、生物多様性監視など、さまざまな文脈で発生する。 既存のアプローチは理想的な条件下ではうまく機能するが、依存する仮定の様々な共通違反に敏感である。 本稿では,遺伝子型割当問題に対する機械学習アプローチであるmycorrhizaについて述べる。 提案アルゴリズムは系統ネットワークを用いて,標本間の進化的関係を符号化する特徴を設計する。 これらの機能はランダムフォレスト分類器への入力として使用される。 分類精度は,複数のsnp,マイクロサテライト,コンセンサスシーケンスデータセットにおいて,サイズ,地理的分布,人口構造,シミュレーションデータセットを用いて評価した。 広く使われている評価試験や、構造や混和などの混合分析法、および主成分分析を用いた他の機械学習による次元低減法と比較した。 Mycorrhizaは、大きな平均固定指数(FST)を持つデータセットやハーディ・ワインバーグ平衡からの偏差で特に顕著な利得を得る。 さらに,系統ネットワークアプローチは混合比率を精度良く推定する。

Motivation The genotype assignment problem consists of predicting, from the genotype of an individual, which of a known set of populations it originated from. The problem arises in a variety of contexts, including wildlife forensics, invasive species detection and biodiversity monitoring. Existing approaches perform well under ideal conditions but are sensitive to a variety of common violations of the assumptions they rely on. Results In this article, we introduce Mycorrhiza, a machine learning approach for the genotype assignment problem. Our algorithm makes use of phylogenetic networks to engineer features that encode the evolutionary relationships among samples. Those features are then used as input to a Random Forests classifier. The classification accuracy was assessed on multiple published empirical SNP, microsatellite or consensus sequence datasets with wide ranges of size, geographical distribution and population structure and on simulated datasets. It compared favorably against widely used assessment tests or mixture analysis methods such as STRUCTURE and Admixture, and against another machine-learning based approach using principal component analysis for dimensionality reduction. Mycorrhiza yields particularly significant gains on datasets with a large average fixation index (FST) or deviation from the Hardy-Weinberg equilibrium. Moreover, the phylogenetic network approach estimates mixture proportions with good accuracy.
翻訳日:2022-10-07 14:38:39 公開日:2020-10-14
# 運動画像脳-コンピュータインタフェース分類のためのバイナリ化法

Binarization Methods for Motor-Imagery Brain-Computer Interface Classification ( http://arxiv.org/abs/2010.07004v1 )

ライセンス: Link先を確認
Michael Hersche, Luca Benini, Abbas Rahimi(参考訳) 成功した運動画像脳コンピュータインタフェース(MI-BCI)アルゴリズムは、多数の手作り特徴を抽出し、分類器を訓練するか、深層畳み込みニューラルネットワーク(CNN)内で特徴抽出と分類を組み合わせる。 どちらのアプローチも一般的には、リソースに制約のあるデバイス上でリアルタイム実行をターゲットとする場合に問題となる、一連の実価値重みを生じさせる。 そこで本研究では,実数値重みをバイナリ数に変換する手法を提案する。 最初の方法はスパース双極性確率射影に基づいて、線形SVM分類器を二乗重みで学習できるような、実数値リーマン共分散の多数の特徴を二乗空間に投影する。 2次埋め込みの次元を調整することで、float16重みを持つモデルに比べて4クラスMI(\leq$1.27%低い)でほぼ同じ精度を達成できるが、より単純な操作でよりコンパクトなモデルを提供する。 次に、MI-BCIにメモリ拡張ニューラルネットワーク(MANN)を用い、メモリを二項化することを提案する。 提案手法は,CNNの完全連結層をバイポーラランダムプロジェクションまたは学習プロジェクションを用いてバイナリ拡張メモリに置き換える。 既にコンパクトなMI-BCICNNであるEEGNetの実験結果から、ランダムプロジェクションを用いて1.28倍の精度で圧縮できることが示されている。 一方、学習された投影を用いると3.89%高い精度が得られるが、メモリサイズは28.10倍増加する。

Successful motor-imagery brain-computer interface (MI-BCI) algorithms either extract a large number of handcrafted features and train a classifier, or combine feature extraction and classification within deep convolutional neural networks (CNNs). Both approaches typically result in a set of real-valued weights, that pose challenges when targeting real-time execution on tightly resource-constrained devices. We propose methods for each of these approaches that allow transforming real-valued weights to binary numbers for efficient inference. Our first method, based on sparse bipolar random projection, projects a large number of real-valued Riemannian covariance features to a binary space, where a linear SVM classifier can be learned with binary weights too. By tuning the dimension of the binary embedding, we achieve almost the same accuracy in 4-class MI ($\leq$1.27% lower) compared to models with float16 weights, yet delivering a more compact model with simpler operations to execute. Second, we propose to use memory-augmented neural networks (MANNs) for MI-BCI such that the augmented memory is binarized. Our method replaces the fully connected layer of CNNs with a binary augmented memory using bipolar random projection, or learned projection. Our experimental results on EEGNet, an already compact CNN for MI-BCI, show that it can be compressed by 1.28x at iso-accuracy using the random projection. On the other hand, using the learned projection provides 3.89% higher accuracy but increases the memory size by 28.10x.
翻訳日:2022-10-07 14:33:01 公開日:2020-10-14
# 脳ネットワークにおける因果推論のためのグラフニューラルネットワークフレームワーク

A Graph Neural Network Framework for Causal Inference in Brain Networks ( http://arxiv.org/abs/2010.07143v1 )

ライセンス: Link先を確認
Simon Wein, Wilhelm Malloni, Ana Maria Tom\'e, Sebastian M. Frank, Gina-Isabelle Henze, Stefan W\"ust, Mark W. Greenlee, Elmar W. Lang(参考訳) 神経科学における中心的な問題は、脳内の自律的動的相互作用が比較的静的な構造的バックボーンにどのように現れるかである。 異なる脳領域間の空間的および時間的依存関係の複雑さのため、構造と機能の間の相互作用を完全に理解することは依然として困難であり、激しい研究の領域である。 本稿では,構造解剖学的レイアウトに基づく機能的相互作用を記述するためのグラフニューラルネットワーク(GNN)フレームワークを提案する。 gnnは,拡散テンソルイメージング(dti)から得られた構造情報を,機能的磁気共鳴画像(fmri)で観察されるような時間的神経活動プロファイルと組み合わせることが可能なグラフ構造時空間信号の処理を可能にする。 さらに、このデータ駆動アプローチによって学習された異なる脳領域間の動的相互作用は、因果接続強度のマルチモーダル尺度を提供することができる。 実験により得られたニューラルアクティベーションプロファイルを再現する能力を評価することにより,提案モデルの精度を評価するとともに,グランガー因果関係で一般的に用いられるベクトルオートレグレッション(VAR)の性能と比較する。 我々は,GNNがデータの長期的依存関係をキャプチャし,大規模ネットワークの解析まで計算的にスケールアップ可能であることを示す。 最後に、gnnが学習した機能は、mriスキャナタイプと取得プロトコルをまたいで一般化可能であることを確認し、小規模データセットでのgnnのパフォーマンスは、以前の研究と異なる研究からのデータに事前トレーニングすることで改善できることを示した。 提案したマルチモーダルGNNフレームワークは,脳の構造-機能関係の新たな視点を提供することができる。 このアプローチは、脳ネットワークにおける情報フローのキャラクタリゼーションに有望である。

A central question in neuroscience is how self-organizing dynamic interactions in the brain emerge on their relatively static structural backbone. Due to the complexity of spatial and temporal dependencies between different brain areas, fully comprehending the interplay between structure and function is still challenging and an area of intense research. In this paper we present a graph neural network (GNN) framework, to describe functional interactions based on the structural anatomical layout. A GNN allows us to process graph-structured spatio-temporal signals, providing a possibility to combine structural information derived from diffusion tensor imaging (DTI) with temporal neural activity profiles, like observed in functional magnetic resonance imaging (fMRI). Moreover, dynamic interactions between different brain regions learned by this data-driven approach can provide a multi-modal measure of causal connectivity strength. We assess the proposed model's accuracy by evaluating its capabilities to replicate empirically observed neural activation profiles, and compare the performance to those of a vector auto regression (VAR), like typically used in Granger causality. We show that GNNs are able to capture long-term dependencies in data and also computationally scale up to the analysis of large-scale networks. Finally we confirm that features learned by a GNN can generalize across MRI scanner types and acquisition protocols, by demonstrating that the performance on small datasets can be improved by pre-training the GNN on data from an earlier and different study. We conclude that the proposed multi-modal GNN framework can provide a novel perspective on the structure-function relationship in the brain. Therewith this approach can be promising for the characterization of the information flow in brain networks.
翻訳日:2022-10-07 14:32:31 公開日:2020-10-14
# トラクションの利点:逆アテンションを用いたリモートバイタル計測

The Benefit of Distraction: Denoising Remote Vitals Measurements using Inverse Attention ( http://arxiv.org/abs/2010.07770v1 )

ライセンス: Link先を確認
Ewa Nowara, Daniel McDuff, Ashok Veeraraghavan(参考訳) 注意はコンピュータビジョンにおける強力な概念である。 画像やビデオの領域に選択的にフォーカスすることを学ぶエンドツーエンドネットワークは、しばしば強く機能する。 しかし、他の画像領域は、必ずしも関心のシグナルを含まないが、有用なコンテキストを含むかもしれない。 本稿では,関心のある信号を含む領域とそうでない領域の間で,ノイズの統計情報を共有できるという考え方を生かしたアプローチを提案する。 本手法は, 注意マスクの逆数を用いて, 時間的観測をノイズ推定する手法である。 これをカメラによる生理的計測の課題に適用する。 コンボリューショナルアテンションネットワークを用いて、ビデオのどの領域が生理的信号を含んでいるかを学び、予備推定を生成する。 学習した注目マスクの逆領域の画素強度を用いて雑音推定を行い、これを生理信号の推定を洗練させる。 2つの大きなベンチマークデータセットで実験を行い、この手法が最先端の結果を生成し、信号対雑音比を最大5.8dB、心拍数と呼吸速度推定誤差を最大30%削減し、微妙なパルス波形のダイナミクスを回復し、リトレーニングなしでRGBからNIRビデオに一般化することを示した。

Attention is a powerful concept in computer vision. End-to-end networks that learn to focus selectively on regions of an image or video often perform strongly. However, other image regions, while not necessarily containing the signal of interest, may contain useful context. We present an approach that exploits the idea that statistics of noise may be shared between the regions that contain the signal of interest and those that do not. Our technique uses the inverse of an attention mask to generate a noise estimate that is then used to denoise temporal observations. We apply this to the task of camera-based physiological measurement. A convolutional attention network is used to learn which regions of a video contain the physiological signal and generate a preliminary estimate. A noise estimate is obtained by using the pixel intensities in the inverse regions of the learned attention mask, this in turn is used to refine the estimate of the physiological signal. We perform experiments on two large benchmark datasets and show that this approach produces state-of-the-art results, increasing the signal-to-noise ratio by up to 5.8 dB, reducing heart rate and breathing rate estimation error by as much as 30%, recovering subtle pulse waveform dynamics, and generalizing from RGB to NIR videos without retraining.
翻訳日:2022-10-07 14:30:19 公開日:2020-10-14
# 深層学習における複雑な畳み込みを用いた変調パターン検出

Modulation Pattern Detection Using Complex Convolutions in Deep Learning ( http://arxiv.org/abs/2010.15556v1 )

ライセンス: Link先を確認
Jakob Krzyston, Rajib Bhattacharjea, Andrew Stark(参考訳) 電気通信に用いられるトランシーバーは、複素数の列として表される特定の変調パターンを伝達し受信する。 変調パターンの分類は、受信信号が送信信号とほとんど似ていないような複雑な方法でノイズやチャネル障害が信号に影響するため困難である。 ディープラーニングのアプローチは、この問題空間における統計的手法よりも大きな期待を示してきたが、ディープラーニングのフレームワークは、複雑な値データのサポートに遅れを取っている。 このギャップに対処するために,畳み込みニューラルネットワークアーキテクチャにおける複雑な畳み込みの実装と利用について検討する。 アーキテクチャにおける複雑な一般化によるデータ構造と畳み込み操作の置換は、低SNR信号で訓練した後、高いSNRを持つ複素数値信号の変調パターンを認識する際に、統計的に有意な性能を向上させる。 これは、複雑な値の畳み込みによってネットワークがより意味のある表現を学習できることを示している。 本仮説は,各実験で得られた特徴を比較し,各ネットワークの1-hot変調パターン分類結果の入力を可視化することで検証する。

Transceivers used for telecommunications transmit and receive specific modulation patterns that are represented as sequences of complex numbers. Classifying modulation patterns is challenging because noise and channel impairments affect the signals in complicated ways such that the received signal bears little resemblance to the transmitted signal. Although deep learning approaches have shown great promise over statistical methods in this problem space, deep learning frameworks continue to lag in support for complex-valued data. To address this gap, we study the implementation and use of complex convolutions in a series of convolutional neural network architectures. Replacement of data structure and convolution operations by their complex generalization in an architecture improves performance, with statistical significance, at recognizing modulation patterns in complex-valued signals with high SNR after being trained on low SNR signals. This suggests complex-valued convolutions enables networks to learn more meaningful representations. We investigate this hypothesis by comparing the features learned in each experiment by visualizing the inputs that results in one-hot modulation pattern classification for each network.
翻訳日:2022-10-07 14:29:55 公開日:2020-10-14
# trine:三部構成異種ネットワークのためのネットワーク表現学習

TriNE: Network Representation Learning for Tripartite Heterogeneous Networks ( http://arxiv.org/abs/2010.06816v1 )

ライセンス: Link先を確認
Zhabiz Gharibshah, Xingquan Zhu(参考訳) 本稿では,3種類のノードを持つネットワークのノード表現特徴を学習する三部ネットワークのネットワーク表現学習について検討する。 実世界のアプリケーションでは三部ネットワークが一般的であり、表現学習の重要な課題は、ネットワーク内の様々なノードタイプとリンクの間の不均一な関係である。 この課題に対処するために、TriNEと呼ばれる三部構成の異種ネットワークを組込みます。 この方法は、ノード間の明示的な関係(オブザーバブルリンク)をモデル化する客観的関数を構築し、三部ノード(オブザーバブルノードセット間の非オブザーバブルリンク)間の暗黙的な関係をキャプチャする。 メタパス誘導ランダムウォークを編成し、ネットワーク内の全てのノードタイプのための異種近傍を生成する。 この情報は、統合最適化に基づいて不均一なスキップグラムモデルを訓練するために利用される。 実世界の三部ネットワーク実験は、埋め込みノード機能を用いたオンラインユーザ応答予測におけるTriNEの性能を検証する。

In this paper, we study network representation learning for tripartite heterogeneous networks which learns node representation features for networks with three types of node entities. We argue that tripartite networks are common in real world applications, and the essential challenge of the representation learning is the heterogeneous relations between various node types and links in the network. To tackle the challenge, we develop a tripartite heterogeneous network embedding called TriNE. The method considers unique user-item-tag tripartite relationships, to build an objective function to model explicit relationships between nodes (observed links), and also capture implicit relationships between tripartite nodes (unobserved links across tripartite node sets). The method organizes metapath guided random walks to create heterogeneous neighborhood for all node types in the network. This information is then utilized to train a heterogeneous skip-gram model based on a joint optimization. Experiments on real-world tripartite networks validate the performance of TriNE for the online user response prediction using embedding node features.
翻訳日:2022-10-07 14:22:38 公開日:2020-10-14
# 小売における消費者行動:ディープニューラルネットワークによる次の論理購入

Consumer Behaviour in Retail: Next Logical Purchase using Deep Neural Network ( http://arxiv.org/abs/2010.06952v1 )

ライセンス: Link先を確認
Ankur Verma(参考訳) 将来の消費者行動を予測することは、大規模小売企業にとって最も難しい問題の一つだ。 消費者購買パターンの正確な予測は、在庫計画と効率的なパーソナライズされたマーケティング戦略を可能にする。 最適な在庫計画は在庫不足や過剰在庫のインスタンスを最小化し、スマートパーソナライズされたマーケティング戦略は、スムーズで楽しいショッピング体験を保証します。 消費者の購入予測問題は、リコメンデータシステムまたは従来のMLアプローチを通じて、従来の方法でML研究者によって対処されてきた。 このようなモデリングアプローチは、消費者購買パターンの予測をうまく一般化しない。 本稿では、消費者の購買行動に関する調査を行い、Eコマース小売データを用いて、消費者が一定時間内に商品を購入するかどうかを予測するためのデータ駆動型フレームワークを構築した。 この関係をモデル化するために、関連するすべてのコンシューマーとイテムの組み合わせに対して時系列データを作成します。 次に,消費者,アイテム,時間の交点に特徴を生成することにより,一般化された非線形モデルを構築する。 異なるニューラルネットワークアーキテクチャ、MLモデル、それらの組み合わせを実験することで、堅牢なパフォーマンスを示す。 重み付け一般化アンサンブルとF1-Maximizationフレームワークとともに,様々なハイパーパラメータを用いた60のモデリング実験の結果を示す。 次に、XgboostやRandomForestといったMLモデルよりも、Multi Layer Perceptron、Long Short Term Memory(LSTM)、Temporal Convolutional Networks(TCN)、TN-LSTMといったニューラルネットワークアーキテクチャのメリットを紹介します。

Predicting future consumer behaviour is one of the most challenging problems for large scale retail firms. Accurate prediction of consumer purchase pattern enables better inventory planning and efficient personalized marketing strategies. Optimal inventory planning helps minimise instances of Out-of-stock/ Excess Inventory and, smart Personalized marketing strategy ensures smooth and delightful shopping experience. Consumer purchase prediction problem has generally been addressed by ML researchers in conventional manners, either through recommender systems or traditional ML approaches. Such modelling approaches do not generalise well in predicting consumer purchase pattern. In this paper, we present our study of consumer purchase behaviour, wherein, we establish a data-driven framework to predict whether a consumer is going to purchase an item within a certain time frame using e-commerce retail data. To model this relationship, we create a sequential time-series data for all relevant consumer-item combinations. We then build generalized non-linear models by generating features at the intersection of consumer, item, and time. We demonstrate robust performance by experimenting with different neural network architectures, ML models, and their combinations. We present the results of 60 modelling experiments with varying Hyperparameters along with Stacked Generalization ensemble and F1-Maximization framework. We then present the benefits that neural network architectures like Multi Layer Perceptron, Long Short Term Memory (LSTM), Temporal Convolutional Networks (TCN) and TCN-LSTM bring over ML models like Xgboost and RandomForest.
翻訳日:2022-10-07 14:21:33 公開日:2020-10-14
# コード切り換え音声言語識別におけるスペクトル拡張の活用

Exploiting Spectral Augmentation for Code-Switched Spoken Language Identification ( http://arxiv.org/abs/2010.07130v1 )

ライセンス: Link先を確認
Pradeep Rangan, Sundeep Teki, and Hemant Misra(参考訳) 音声言語識別(lid)システムは、与えられた音声サンプルに存在する言語を識別するために必要であり、通常、自動音声認識(asr)のような多くの音声処理に関連するタスクの最初のステップとなる。 音声信号に含まれる言語の自動識別は科学的に興味深いだけでなく、インドのような多言語国において実践的に重要である。 多くのインドの都市では、人々が互いに対話するとき、3つの言語が混在することがある。 これらの言語には、ヒンディー語、英語の公用語が含まれる(時には近隣の諸州の言語も混在することもある)。 これにより、インドの文脈ではLIDタスクは極めて困難である。 インド語の文脈ではかなり多くのLIDシステムが実装されているが、ほとんどのシステムは組織内部で収集された小規模の音声データを用いている。 現在の研究では、3つのインド語(Gujarati、Telugu、Tamil)で音声LIDをコード化して実行しています。 このタスクはmicrosoft researchチームによって、lidチャレンジとして組織された。 本研究では,従来のスペクトル拡張手法を改良し,言語IDペアを識別する言語マスクを提案する。 提案手法は,microsoftが提案する2つの共通タスクに対する3つの言語ペアについて提案するベースラインシステムに対して,約3~5%のlid精度を相対的に向上させる。

Spoken language Identification (LID) systems are needed to identify the language(s) present in a given audio sample, and typically could be the first step in many speech processing related tasks such as automatic speech recognition (ASR). Automatic identification of the languages present in a speech signal is not only scientifically interesting, but also of practical importance in a multilingual country such as India. In many of the Indian cities, when people interact with each other, as many as three languages may get mixed. These may include the official language of that province, Hindi and English (at times the languages of the neighboring provinces may also get mixed during these interactions). This makes the spoken LID task extremely challenging in Indian context. While quite a few LID systems in the context of Indian languages have been implemented, most such systems have used small scale speech data collected internally within an organization. In the current work, we perform spoken LID on three Indian languages (Gujarati, Telugu, and Tamil) code-mixed with English. This task was organized by the Microsoft research team as a spoken LID challenge. In our work, we modify the usual spectral augmentation approach and propose a language mask that discriminates the language ID pairs, which leads to a noise robust spoken LID system. The proposed method gives a relative improvement of approximately 3-5% in the LID accuracy over a baseline system proposed by Microsoft on the three language pairs for two shared tasks suggested in the challenge.
翻訳日:2022-10-07 14:14:07 公開日:2020-10-14
# 赤外線診断システムのための低ランク凸・スパース熱行列近似

Low-rank Convex/Sparse Thermal Matrix Approximation for Infrared-based Diagnostic System ( http://arxiv.org/abs/2010.06784v1 )

ライセンス: Link先を確認
Bardia Yousefi, Clemente Ibarra Castanedo, Xavier P.V. Maldague(参考訳) アクティブサーモグラフィとパッシブサーモグラフィは、診断のための地下欠陥につながる異種熱パターンを測定するために広く使用される2つの効率的な技術である。 本研究は, サーモグラフィにおける低ランク行列近似法の比較解析を行い, 準, 凸, スパース非負行列分解 (nmf) 法を用いて地下熱パターンの検出を行った。 これらの手法は主成分サーモグラフィ(PCT)とスパースPCTの利点を継承するが、スパースPCTでは非負の制約で負の基底に取り組み、処理データにクラスタリング特性を示す。 乳がんスクリーニングデータセット(74.1%, 75.8%, 77.8%)の乳房異常を識別するための熱的不均一性を保持する3つの試料(深さと大きさの異なる欠陥)における表面欠陥検出の実験結果により, これらの方法の実用性と効率が示された。

Active and passive thermography are two efficient techniques extensively used to measure heterogeneous thermal patterns leading to subsurface defects for diagnostic evaluations. This study conducts a comparative analysis on low-rank matrix approximation methods in thermography with applications of semi-, convex-, and sparse- non-negative matrix factorization (NMF) methods for detecting subsurface thermal patterns. These methods inherit the advantages of principal component thermography (PCT) and sparse PCT, whereas tackle negative bases in sparse PCT with non-negative constraints, and exhibit clustering property in processing data. The practicality and efficiency of these methods are demonstrated by the experimental results for subsurface defect detection in three specimens (for different depth and size defects) and preserving thermal heterogeneity for distinguishing breast abnormality in breast cancer screening dataset (accuracy of 74.1%, 75.8%, and 77.8%).
翻訳日:2022-10-07 14:13:43 公開日:2020-10-14
# 病理診断における3D OCTの高能率・高精度運動補正

Efficient and high accuracy 3-D OCT angiography motion correction in pathology ( http://arxiv.org/abs/2010.06931v1 )

ライセンス: Link先を確認
Stefan B. Ploner, Martin F. Kraus, Eric M. Moult, Lennart Husvogt, Julia Schottenhamml, A. Yasin Alibhai, Nadia K. Waheed, Jay S. Duker, James G. Fujimoto, Andreas K. Maier(参考訳) 直交ラスタ走査光コヒーレンスCTによる血管造影ボリュームの非剛性3次元運動補正法を提案する。 これは、網膜層や横行血管造影などの軸方向の構造的特徴を共同最適化で整列させる最初のアプローチである。 直交走査の使用と運動学的によりプラウザブルな変位の優遇と組み合わせることで、このアプローチは3次元全てでサブピクセルアライメントとマイクロメータースケールの歪み補正を可能にする。 特定の構造や層がセグメント化されていないため、アプローチは病理学的変化に対して堅牢に設計されている。 さらに、高度に並列な実装と短いランタイムのために設計されており、高密度スキャンや広視野スキャンでも臨床ルーチンに統合できる。 本アルゴリズムは, 広範囲の病態と健康管理を含む17名の被験者204名を対象に, 大規模定量評価において臨床的に関連性のある指標を用いて評価した。 本手法を用いて, 横方向のコアライメントと歪み補正の両面で, 特に病的部分群において有意な進歩を示した。

We propose a novel method for non-rigid 3-D motion correction of orthogonally raster-scanned optical coherence tomography angiography volumes. This is the first approach that aligns predominantly axial structural features like retinal layers and transverse angiographic vascular features in a joint optimization. Combined with the use of orthogonal scans and favorization of kinematically more plausible displacements, the approach allows subpixel alignment and micrometer-scale distortion correction in all 3 dimensions. As no specific structures or layers are segmented, the approach is by design robust to pathologic changes. It is furthermore designed for highly parallel implementation and brief runtime, allowing its integration in clinical routine even for high density or wide-field scans. We evaluated the algorithm with metrics related to clinically relevant features in a large-scale quantitative evaluation based on 204 volumetric scans of 17 subjects including both a wide range of pathologies and healthy controls. Using this method, we achieve state-of-the-art axial performance and show significant advances in both transverse co-alignment and distortion correction, especially in the pathologic subgroup.
翻訳日:2022-10-07 14:12:49 公開日:2020-10-14
# モバイルデバイス上でのDeep Rawイメージの実用化

Practical Deep Raw Image Denoising on Mobile Devices ( http://arxiv.org/abs/2010.06935v1 )

ライセンス: Link先を確認
Yuzhi Wang, Haibin Huang, Qin Xu, Jiaming Liu, Yiqun Liu, Jue Wang(参考訳) 近年,多くの公開ベンチマークデータセットにおいて,ディープラーニングに基づく画像認識アプローチが広く研究されている。 しかし、最先端のネットワークは計算コストがかかりすぎてモバイルデバイスに直接適用できない。 本研究では,メインストリームのモバイルデバイス上でスムーズに動作し,高品質なデノイジング結果を生成する,軽量で効率的なニューラルネットワークベースの生画像デノイザーを提案する。 1) センサノイズレベルの測定と推定により, センサ固有データに基づいてトレーニングした小型ネットワークは, 一般データでトレーニングした大規模ネットワークよりも優れ, 2) 異なるISO設定下での大きなノイズレベル変動は, k-Sigma 変換によって除去され, より広い範囲のノイズレベルを効率的に処理できる。 我々は、我々のアプローチの効率と正確性を実証するための広範な実験を行う。 qualcomm(クアルコム)のsnapdragon 855チップセットで1メガピクセルあたり約70ミリ秒で動作し、2019年に発売されたいくつかのフラッグシップスマートフォンの夜間撮影機能の基礎となっています。

Deep learning-based image denoising approaches have been extensively studied in recent years, prevailing in many public benchmark datasets. However, the stat-of-the-art networks are computationally too expensive to be directly applied on mobile devices. In this work, we propose a light-weight, efficient neural network-based raw image denoiser that runs smoothly on mainstream mobile devices, and produces high quality denoising results. Our key insights are twofold: (1) by measuring and estimating sensor noise level, a smaller network trained on synthetic sensor-specific data can out-perform larger ones trained on general data; (2) the large noise level variation under different ISO settings can be removed by a novel k-Sigma Transform, allowing a small network to efficiently handle a wide range of noise levels. We conduct extensive experiments to demonstrate the efficiency and accuracy of our approach. Our proposed mobile-friendly denoising model runs at ~70 milliseconds per megapixel on Qualcomm Snapdragon 855 chipset, and it is the basis of the night shot feature of several flagship smartphones released in 2019.
翻訳日:2022-10-07 14:12:31 公開日:2020-10-14
# mriデータ解析のためのコンピュータビジョンモデルにおける領域シフト:概要

Domain Shift in Computer Vision models for MRI data analysis: An Overview ( http://arxiv.org/abs/2010.07222v1 )

ライセンス: Link先を確認
Ekaterina Kondrateva, Marina Pominova, Elena Popova, Maxim Sharaev, Alexander Bernstein, Evgeny Burnaev(参考訳) 機械学習とコンピュータビジョン手法は、医用画像解析において優れた性能を示している。 しかし、現在臨床で使われているアプリケーションはごくわずかであり、その理由の1つは、異なるソースや取得ドメインのデータへのモデルの転送性が低かったことである。 マルチモーダル医用画像データにおける領域の伝達と適応のための新しい手法とアルゴリズムの開発は、正確なモデルの開発と臨床におけるそれらの使用に不可欠である。 本稿では,機械学習とコンピュータビジョンにおける領域シフト問題に取り組む手法について概説する。 この調査で議論されたアルゴリズムには、高度データ処理、モデルのアーキテクチャ強化、トレーニング、およびドメイン不変な潜在空間での予測が含まれる。 自動エンコーディングニューラルネットワークとそのドメイン不変変動の応用は,調査でよく議論されている。 磁気共鳴イメージング(MRI)データ解析に応用された最新の手法を観察し、その性能を結論し、さらなる研究の方向性を提案する。

Machine learning and computer vision methods are showing good performance in medical imagery analysis. Yetonly a few applications are now in clinical use and one of the reasons for that is poor transferability of themodels to data from different sources or acquisition domains. Development of new methods and algorithms forthe transfer of training and adaptation of the domain in multi-modal medical imaging data is crucial for thedevelopment of accurate models and their use in clinics. In present work, we overview methods used to tackle thedomain shift problem in machine learning and computer vision. The algorithms discussed in this survey includeadvanced data processing, model architecture enhancing and featured training, as well as predicting in domaininvariant latent space. The application of the autoencoding neural networks and their domain-invariant variationsare heavily discussed in a survey. We observe the latest methods applied to the magnetic resonance imaging(MRI) data analysis and conclude on their performance as well as propose directions for further research.
翻訳日:2022-10-07 14:12:11 公開日:2020-10-14
# fMRI領域適応のためのファダーネットワーク:ABIDE-II研究

Fader Networks for domain adaptation on fMRI: ABIDE-II study ( http://arxiv.org/abs/2010.07233v1 )

ライセンス: Link先を確認
Marina Pominova, Ekaterina Kondrateva, Maxim Sharaev, Alexander Bernstein, Evgeny Burnaev(参考訳) ABIDEは、fMRIデータと完全な表現型記述の両方を持つ、オープンソースの自閉症スペクトラム障害データベースである。 これらのデータは、機能的接続解析と生データによるディープラーニングに基づいて広範囲に研究され、トップモデルの精度は、別々の走査サイトに対して75\%近くであった。 しかし、ABIDE内の様々なスキャンサイト間でのモデル転送性には問題がある。 本稿では,脳神経画像データに基づく脳病理分類問題に対して,初めてドメイン適応を行う。 3次元畳み込みオートエンコーダを用いて非関係な潜在空間画像表現を構築し,既存のabideデータに対するアプローチに勝ることを示す。

ABIDE is the largest open-source autism spectrum disorder database with both fMRI data and full phenotype description. These data were extensively studied based on functional connectivity analysis as well as with deep learning on raw data, with top models accuracy close to 75\% for separate scanning sites. Yet there is still a problem of models transferability between different scanning sites within ABIDE. In the current paper, we for the first time perform domain adaptation for brain pathology classification problem on raw neuroimaging data. We use 3D convolutional autoencoders to build the domain irrelevant latent space image representation and demonstrate this method to outperform existing approaches on ABIDE data.
翻訳日:2022-10-07 14:11:56 公開日:2020-10-14
# GPUにおける空間モデルチェッカー(拡張版)

A spatial model checker in GPU (extended version) ( http://arxiv.org/abs/2010.07284v1 )

ライセンス: Link先を確認
Laura Bussi, Vincenzo Ciancia, Fabio Gadducci(参考訳) このツールのvoxlogicaは、計算画像アルゴリズムITKの最先端ライブラリを宣言仕様と空間論理モデルチェックによる最適化実行の組み合わせでマージする。 単純な論理仕様による脳腫瘍のセグメンテーションのための既存のベンチマークの分析は、最先端の精度に到達した。 本稿では,新しいgpuベースのvoxlogicaについて述べるとともに,その実装,スケーラビリティ,アプリケーションについて述べる。

The tool voxlogica merges the state-of-the-art library of computational imaging algorithms ITK with the combination of declarative specification and optimised execution provided by spatial logic model checking. The analysis of an existing benchmark for segmentation of brain tumours via a simple logical specification reached state-of-the-art accuracy. We present a new, GPU-based version of voxlogica and discuss its implementation, scalability, and applications.
翻訳日:2022-10-07 14:11:46 公開日:2020-10-14
# 時間的畳み込みネットワークによるパーソナライズと最適化

Offer Personalization using Temporal Convolution Network and Optimization ( http://arxiv.org/abs/2010.08130v1 )

ライセンス: Link先を確認
Ankur Verma(参考訳) 近年、オンラインショッピングや市場競争の激化により、小売・eリテール企業にとってパーソナライズドマーケティングが重要になっている。 オンラインショッピングやハイマーケット競争の増加は、オンライン小売業者のプロモーション支出の増加につながったため、取引数と利益のバランスを維持するために最適なオファーの展開が不可欠になっている。 本稿では,小売業における消費者,商品,時間の交点におけるオファー最適化問題を解決する手法を提案する。 提案を最適化するために,まず,時間的畳み込みネットワークを用いた一般化非線形モデルを構築し,消費者レベルでの商品購入確率を一定期間予測する。 次に,消費者商品の粒度における購入確率のオファー弾性を推定するために,過去のオファー値とモデルから得られた購入確率の関数関係を確立する。 最後に, 推定弾性率を用いて, 制約に基づく最適化手法を用いて提供価値を最適化する。 本稿では,本手法の詳細と,カテゴリ間のモデリングと最適化の結果について述べる。

Lately, personalized marketing has become important for retail/e-retail firms due to significant rise in online shopping and market competition. Increase in online shopping and high market competition has led to an increase in promotional expenditure for online retailers, and hence, rolling out optimal offers has become imperative to maintain balance between number of transactions and profit. In this paper, we propose our approach to solve the offer optimization problem at the intersection of consumer, item and time in retail setting. To optimize offer, we first build a generalized non-linear model using Temporal Convolutional Network to predict the item purchase probability at consumer level for the given time period. Secondly, we establish the functional relationship between historical offer values and purchase probabilities obtained from the model, which is then used to estimate offer-elasticity of purchase probability at consumer item granularity. Finally, using estimated elasticities, we optimize offer values using constraint based optimization technique. This paper describes our detailed methodology and presents the results of modelling and optimization across categories.
翻訳日:2022-10-07 14:05:28 公開日:2020-10-14
# クラスター帰属ネットワークへの類似度行列の精度向上

Refining Similarity Matrices to Cluster Attributed Networks Accurately ( http://arxiv.org/abs/2010.06854v1 )

ライセンス: Link先を確認
Yuta Yajima and Akihiro Inokuchi(参考訳) 近年のソーシャルネットワークの普及と、すべての分野にまたがる研究論文の増加により、人や論文などの属性を持つ対象間の関係からなる属性ネットワークがますます大きくなってきている。 そのため,ネットワークをサブネットワークにクラスタ化するための様々な研究が活発に行われている。 スペクトルクラスタリングを用いて属性ネットワークをクラスタリングする場合、クラスタリング精度は、スペクトルクラスタリングに入力され、オブジェクトのペア間の類似度を表す類似度行列の品質に強く影響を受ける。 本稿では,スペクトルクラスタリングを施す前に,行列を精製することで精度を高めることを目的とする。 本研究では, スペクトルクラスタリングの精度を類似度行列と比較することにより, 提案手法の実用性を検証する。

As a result of the recent popularity of social networks and the increase in the number of research papers published across all fields, attributed networks consisting of relationships between objects, such as humans and the papers, that have attributes are becoming increasingly large. Therefore, various studies for clustering attributed networks into sub-networks are being actively conducted. When clustering attributed networks using spectral clustering, the clustering accuracy is strongly affected by the quality of the similarity matrices, which are input into spectral clustering and represent the similarities between pairs of objects. In this paper, we aim to increase the accuracy by refining the matrices before applying spectral clustering to them. We verify the practicability of our proposed method by comparing the accuracy of spectral clustering with similarity matrices before and after refining them.
翻訳日:2022-10-07 14:05:13 公開日:2020-10-14
# 液体民主主義の力

Power in Liquid Democracy ( http://arxiv.org/abs/2010.07070v1 )

ライセンス: Link先を確認
Yuzhe Zhang and Davide Grossi(参考訳) 本稿では,代用投票システムのための権限理論を考案する。 我々は、有権者と議員の両方の影響を測定することができるパワーインデックスを定義する。 この指標を用いて,エージェントによるパワーサーキング動作を取り入れることで,従来のゲーム理論モデルを拡張した。 このようなモデルにおける純粋な戦略ナッシュ均衡の存在を解析的に研究する。 最後に,シミュレーションを用いて,モデル内のパワー不等式の発生に対する関連するパラメータの影響について検討する。

The paper develops a theory of power for delegable proxy voting systems. We define a power index able to measure the influence of both voters and delegators. Using this index, which we characterize axiomatically, we extend an earlier game-theoretic model by incorporating power-seeking behavior by agents. We analytically study the existence of pure strategy Nash equilibria in such a model. Finally, by means of simulations, we study the effect of relevant parameters on the emergence of power inequalities in the model.
翻訳日:2022-10-07 14:05:01 公開日:2020-10-14
# 拡張現実における物体配置タスクの最適支援

Optimal Assistance for Object-Rearrangement Tasks in Augmented Reality ( http://arxiv.org/abs/2010.07358v1 )

ライセンス: Link先を確認
Benjamin Newman, Kevin Carlberg and Ruta Desai(参考訳) オンボードセンサーへのアクセスと関連する情報をユーザに提示する機能を備えた拡張現実(ar)メガネは、クオーティディアンタスクでユーザ支援を提供する機会を提供する。 このようなタスクの多くは、オブジェクト再配置タスクとして特徴づけられる。 本稿では,(1)最適なアクションシーケンスと実施エージェントのポリシーを関連付けること,(2)このシーケンスをユーザに対してARシステムのヘッドアップディスプレイに提案することからなる,ARアシストの計算と表示のための新しいフレームワークを提案する。 実施エージェントは、ARシステムとユーザとの間の「ハイブリッド」と、ARシステムの観察空間(センサ)とユーザの行動空間(タスク実行行動)とを含み、そのポリシーは、タスク補完時間を最小化して学習される。 この初期研究では,ARシステムの観測には,環境マップとオブジェクトとユーザの局所化が含まれると仮定した。 これらの選択により、特にキャパシタブル・ルーティング問題として、任意のオブジェクト再配置タスクに対するarアシスタントの計算問題を計画問題として定式化することができる。 さらに,ebodied artificial intelligence のための habitat simulator を通じて,ar ライクアシスタンスと関連する大規模データ収集の web ベース評価を可能にする新たな ar シミュレータを提案する。 最後に,提案手法であるメカニカル・タークのarシミュレータを用いて,特定の商観的オブジェクト再配置タスクであるハウスクリーニングにおいて,提案するarアシスタンスに対するユーザ応答を評価する。 特に,提案したAR支援が,タスクの難易度に対するユーザのタスクパフォーマンスとエージェンシー感覚に与える影響について検討した。 以上より,このような支援を利用者に提供することで総合的なパフォーマンスが向上し,利用者が機関に対して負の影響を報告する一方で,支援を全く受けない支援を希望する可能性が示唆された。

Augmented-reality (AR) glasses that will have access to onboard sensors and an ability to display relevant information to the user present an opportunity to provide user assistance in quotidian tasks. Many such tasks can be characterized as object-rearrangement tasks. We introduce a novel framework for computing and displaying AR assistance that consists of (1) associating an optimal action sequence with the policy of an embodied agent and (2) presenting this sequence to the user as suggestions in the AR system's heads-up display. The embodied agent comprises a "hybrid" between the AR system and the user, with the AR system's observation space (i.e., sensors) and the user's action space (i.e., task-execution actions); its policy is learned by minimizing the task-completion time. In this initial study, we assume that the AR system's observations include the environment's map and localization of the objects and the user. These choices allow us to formalize the problem of computing AR assistance for any object-rearrangement task as a planning problem, specifically as a capacitated vehicle-routing problem. Further, we introduce a novel AR simulator that can enable web-based evaluation of AR-like assistance and associated at-scale data collection via the Habitat simulator for embodied artificial intelligence. Finally, we perform a study that evaluates user response to the proposed form of AR assistance on a specific quotidian object-rearrangement task, house cleaning, using our proposed AR simulator on mechanical turk. In particular, we study the effect of the proposed AR assistance on users' task performance and sense of agency over a range of task difficulties. Our results indicate that providing users with such assistance improves their overall performance and while users report a negative impact to their agency, they may still prefer the proposed assistance to having no assistance at all.
翻訳日:2022-10-07 14:04:13 公開日:2020-10-14
# 骨格橋のポイントコンプリート:グローバル推論から局所調整へ

Skeleton-bridged Point Completion: From Global Inference to Local Adjustment ( http://arxiv.org/abs/2010.07428v1 )

ライセンス: Link先を確認
Yinyu Nie, Yiqun Lin, Xiaoguang Han, Shihui Guo, Jian Chang, Shuguang Cui, Jian Jun Zhang(参考訳) 点完備化とは、部分点雲から失った物体の幾何学を完備することを指す。 既存の作業は通常、入力ポイントから符号化された潜在特徴を復号することで、欠落した形状を推定する。 しかし、現実世界のオブジェクトは通常、様々なトポロジーと表面の詳細を持ち、潜在機能はクリーンで完全な表面を復元するために表現できないかもしれない。 そこで本研究では,スケルトンブリッジ点完成ネットワーク (sk-pcn) を提案する。 部分スキャンを行い,まずその3次元骨格を予測して大域構造を求め,骨格点からの変位を学習して表面を仕上げる。 形状の完成を構造推定と表面再構成に分離し, 学習の難易度を低減し, 実地詳細を得るための便益を得る。 また,SK-PCNは入力点を符号化する際の特徴の欠如を考慮し,入力点雲を表面改質予測にマージする局所的な調整戦略を採用する。 従来の方法と比較して,スケルトンをブリッジした方法では,点雲を越える全表面メッシュを得るための点正規推定がより良好である。 ポイントクラウドとメッシュコンプリートの両方における質的かつ定量的な実験は、我々のアプローチが、様々なオブジェクトカテゴリの既存のメソッドよりも優れていることを示している。

Point completion refers to complete the missing geometries of objects from partial point clouds. Existing works usually estimate the missing shape by decoding a latent feature encoded from the input points. However, real-world objects are usually with diverse topologies and surface details, which a latent feature may fail to represent to recover a clean and complete surface. To this end, we propose a skeleton-bridged point completion network (SK-PCN) for shape completion. Given a partial scan, our method first predicts its 3D skeleton to obtain the global structure, and completes the surface by learning displacements from skeletal points. We decouple the shape completion into structure estimation and surface reconstruction, which eases the learning difficulty and benefits our method to obtain on-surface details. Besides, considering the missing features during encoding input points, SK-PCN adopts a local adjustment strategy that merges the input point cloud to our predictions for surface refinement. Comparing with previous methods, our skeleton-bridged manner better supports point normal estimation to obtain the full surface mesh beyond point clouds. The qualitative and quantitative experiments on both point cloud and mesh completion show that our approach outperforms the existing methods on various object categories.
翻訳日:2022-10-07 13:57:22 公開日:2020-10-14
# AutoADR:広告関連のための自動モデル設計

AutoADR: Automatic Model Design for Ad Relevance ( http://arxiv.org/abs/2010.07075v1 )

ライセンス: Link先を確認
Yiren Chen, Yaming Yang, Hong Sun, Yujing Wang, Yu Xu, Wei Shen, Rong Zhou, Yunhai Tong, Jing Bai, Ruofei Zhang(参考訳) 大規模事前学習モデルが研究コミュニティで広く注目を集め、自然言語処理の様々なタスクにおいて有望な結果を示している。 しかし、これらの事前訓練されたモデルはメモリと計算集約であり、Ad Relevanceのような産業用オンラインシステムへの展開を妨げる。 一方、効果的なモデルアーキテクチャを設計する方法は、オンライン広告レバレンスにおける別の難しい問題である。 最近、AutoMLはアーキテクチャ設計に新たな光を当てたが、それを事前訓練された言語モデルとどのように統合するかは未定のままである。 本稿では,この課題に対処する新しいエンドツーエンドフレームワークであるAutoADR (Automatic model design for AD Relevance)を提案する。 具体的には、AutoADRはワンショットのニューラルアーキテクチャ検索アルゴリズムを利用して、Ad Relevanceに適したネットワークアーキテクチャを見つける。 検索プロセスは、オンラインサービス制約(メモリやレイテンシなど)を考慮しながら、大きな事前学習された教師モデル(bertなど)からの知識蒸留によって同時に導かれる。 我々は、AutoADRがサブモデルとして設計したモデルを製品Ad Relevanceモデルに追加します。 この追加のサブモデルは、元のAd Relevanceモデルの上のPrecision-Recall AUC(PR AUC)を通常の出荷バーの2.65倍改善する。 さらに重要なことに、この自動設計のサブモデルを追加すると、オンラインa/bテストで統計的に4.6%の悪いad比が低下する。 このモデルはMicrosoft Bing Ad Relevance Productionモデルに出荷されている。

Large-scale pre-trained models have attracted extensive attention in the research community and shown promising results on various tasks of natural language processing. However, these pre-trained models are memory and computation intensive, hindering their deployment into industrial online systems like Ad Relevance. Meanwhile, how to design an effective yet efficient model architecture is another challenging problem in online Ad Relevance. Recently, AutoML shed new lights on architecture design, but how to integrate it with pre-trained language models remains unsettled. In this paper, we propose AutoADR (Automatic model design for AD Relevance) -- a novel end-to-end framework to address this challenge, and share our experience to ship these cutting-edge techniques into online Ad Relevance system at Microsoft Bing. Specifically, AutoADR leverages a one-shot neural architecture search algorithm to find a tailored network architecture for Ad Relevance. The search process is simultaneously guided by knowledge distillation from a large pre-trained teacher model (e.g. BERT), while taking the online serving constraints (e.g. memory and latency) into consideration. We add the model designed by AutoADR as a sub-model into the production Ad Relevance model. This additional sub-model improves the Precision-Recall AUC (PR AUC) on top of the original Ad Relevance model by 2.65X of the normalized shipping bar. More importantly, adding this automatically designed sub-model leads to a statistically significant 4.6% Bad-Ad ratio reduction in online A/B testing. This model has been shipped into Microsoft Bing Ad Relevance Production model.
翻訳日:2022-10-07 13:56:37 公開日:2020-10-14
# 不健康会話の6つの属性

Six Attributes of Unhealthy Conversation ( http://arxiv.org/abs/2010.07410v1 )

ライセンス: Link先を確認
Ilan Price, Jordan Gifford-Moore, Jory Fleming, Saul Musker, Maayan Roichman, Guillaume Sylvain, Nithum Thain, Lucas Dixon, Jeffrey Sorensen(参考訳) クラウドワーカーによってラベル付けされた約44000のコメントのデータセットを新たに提示する。 それぞれのコメントは、(1)敵対的、侮辱的、挑発的、またはトロール的、(3)否定的、(4)屈辱的、またはパトロン的、(5)皮肉的、または(6)不公平な一般化という、6つの「不健康」なサブ属性が存在するためのバイナリラベルに加えて、「健康的」または「不健康」とラベル付けされる。 各レーベルは、関連する信頼スコアも持っている。 我々は、「不健全なオンライン会話」という広い概念に基づく研究を可能にするデータセットの必要性を論じる。 このタイプは、不健康なオンライン会話に寄与する個々のコメントのかなりの割合を包含する。 これらの属性のいくつかについては、このスケールで公開された最初のデータセットである。 データセットの品質を調査し、データの有用性を説明するためにいくつかの要約統計と初期モデルを示し、さらなる研究のための限界と方向を強調する。

We present a new dataset of approximately 44000 comments labeled by crowdworkers. Each comment is labelled as either 'healthy' or 'unhealthy', in addition to binary labels for the presence of six potentially 'unhealthy' sub-attributes: (1) hostile; (2) antagonistic, insulting, provocative or trolling; (3) dismissive; (4) condescending or patronising; (5) sarcastic; and/or (6) an unfair generalisation. Each label also has an associated confidence score. We argue that there is a need for datasets which enable research based on a broad notion of 'unhealthy online conversation'. We build this typology to encompass a substantial proportion of the individual comments which contribute to unhealthy online conversation. For some of these attributes, this is the first publicly available dataset of this scale. We explore the quality of the dataset, present some summary statistics and initial models to illustrate the utility of this data, and highlight limitations and directions for further research.
翻訳日:2022-10-07 13:55:46 公開日:2020-10-14
# ドリフトデータストリームからのオンライン学習のための適応的深い森

Adaptive Deep Forest for Online Learning from Drifting Data Streams ( http://arxiv.org/abs/2010.07340v1 )

ライセンス: Link先を確認
{\L}ukasz Korycki, Bartosz Krawczyk(参考訳) データストリームから学ぶことは、現代のデータマイニングにおいて最も重要な分野である。 潜在的に非バウンドなデータソースから得られる情報をオンライン分析することで、データの継続的なフローに調整可能なリアクティブの最新モデルの設計が可能になる。 単純な低次元ストリーミング問題に対して、多くの浅い方法が提案されているが、画像やテキストといった複雑な文脈データから学ぶ問題には、ほとんど対処されていない。 前者は,ストリーミングシナリオにおいて非常に効率的であることが証明された適応決定木によって代表される。 後者は、主にオフラインのディープラーニングによって対処されている。 本研究では,これら2つの世界間のギャップを橋渡しし,適応型ディープフォレスト(adf)を提案する。これは,木ベースのストリーミング分類器とディープフォレストを自然に組み合わせたもので,文脈データから学ぶための興味深い代替案である。 実験により,ディープフォレストアプローチをオンラインアルゴリズムに効果的に変換できることが示され,特に高次元複雑ストリームに対して,最先端の浅層適応型分類器を上回るモデルを形成する。

Learning from data streams is among the most vital fields of contemporary data mining. The online analysis of information coming from those potentially unbounded data sources allows for designing reactive up-to-date models capable of adjusting themselves to continuous flows of data. While a plethora of shallow methods have been proposed for simpler low-dimensional streaming problems, almost none of them addressed the issue of learning from complex contextual data, such as images or texts. The former is represented mainly by adaptive decision trees that have been proven to be very efficient in streaming scenarios. The latter has been predominantly addressed by offline deep learning. In this work, we attempt to bridge the gap between these two worlds and propose Adaptive Deep Forest (ADF) - a natural combination of the successful tree-based streaming classifiers with deep forest, which represents an interesting alternative idea for learning from contextual data. The conducted experiments show that the deep forest approach can be effectively transformed into an online algorithm, forming a model that outperforms all state-of-the-art shallow adaptive classifiers, especially for high-dimensional complex streams.
翻訳日:2022-10-07 13:55:24 公開日:2020-10-14
# 予測のためのグラフ深度因子

Graph Deep Factors for Forecasting ( http://arxiv.org/abs/2010.07373v1 )

ライセンス: Link先を確認
Hongjie Chen, Ryan A. Rossi, Kanak Mahadik, Sungchul Kim, Hoda Eldardiry(参考訳) 近年,時系列の集合をモデル化するための予測手法が提案されている。 しかしながら、これらの手法は、コレクション内の時系列間の完全独立(ローカルモデル)または完全依存(グローバルモデル)のいずれかを明確に仮定する。 これは、すべての時系列がコレクション内の他の時系列から切り離された場合、または同様に、すべての時系列が他の時系列と関係しており、完全に連結されたグラフとなる2つの極端なケースに対応する。 本稿では,グラフ・ディープ・ファクター(graph deep factors, graphdf)と呼ばれる,ノードとその時系列を任意の方法で他のノードと接続させることで,これら2つの極端を超越した,ハイブリッドなグラフベース予測フレームワークを提案する。 GraphDFは、リレーショナルグローバルおよびリレーショナルローカルモデルで構成されるハイブリッド予測フレームワークである。 特に,グラフの構造を用いて複雑な非線形時系列パターンをグローバルに学習し,予測精度と計算効率の両方を改善するリレーショナルグローバルモデルを提案する。 同様に、すべての時系列を独立にモデル化する代わりに、個々の時系列だけでなく、グラフに接続されたノードの時系列を考える関係ローカルモデルを学ぶ。 実験は, 予測精度, 実行時間, スケーラビリティの観点から, 最先端手法と比較して, 深層ハイブリッドグラフに基づく予測モデルの有効性を示す。 ケーススタディでは,GraphDFがクラウド利用予測の生成に成功し,ワークロードを同時にスケジュールすることで,平均47.5%のクラウドクラスタ利用率向上を実現している。

Deep probabilistic forecasting techniques have recently been proposed for modeling large collections of time-series. However, these techniques explicitly assume either complete independence (local model) or complete dependence (global model) between time-series in the collection. This corresponds to the two extreme cases where every time-series is disconnected from every other time-series in the collection or likewise, that every time-series is related to every other time-series resulting in a completely connected graph. In this work, we propose a deep hybrid probabilistic graph-based forecasting framework called Graph Deep Factors (GraphDF) that goes beyond these two extremes by allowing nodes and their time-series to be connected to others in an arbitrary fashion. GraphDF is a hybrid forecasting framework that consists of a relational global and relational local model. In particular, we propose a relational global model that learns complex non-linear time-series patterns globally using the structure of the graph to improve both forecasting accuracy and computational efficiency. Similarly, instead of modeling every time-series independently, we learn a relational local model that not only considers its individual time-series but also the time-series of nodes that are connected in the graph. The experiments demonstrate the effectiveness of the proposed deep hybrid graph-based forecasting model compared to the state-of-the-art methods in terms of its forecasting accuracy, runtime, and scalability. Our case study reveals that GraphDF can successfully generate cloud usage forecasts and opportunistically schedule workloads to increase cloud cluster utilization by 47.5% on average.
翻訳日:2022-10-07 13:55:03 公開日:2020-10-14
# 分割機械としての決定木とその一般化特性

Decision trees as partitioning machines to characterize their generalization properties ( http://arxiv.org/abs/2010.07374v1 )

ライセンス: Link先を確認
Jean-Samuel Leboeuf, Fr\'ed\'eric LeBlanc and Mario Marchand(参考訳) 決定木は、構築が簡単で解釈が容易な一般的な機械学習モデルである。 決定木を学ぶアルゴリズムは50年近く遡るが、その一般化エラーに影響する重要な特性は依然として弱い境界である。 したがって、データの分割の観点から、実数値特徴のバイナリ決定木を再検討する。 分割関数の概念を導入し,成長関数やvc次元と関連づける。 この新しい概念を用いることで、決定切り株のVC次元を正確に見つけることができ、これは最大整数$d$で与えられるもので、$\ell \ge \binom{d}{\left\lfloor\frac{d}{2}\right\rfloor}$である。 分割関数のバウンドに対する再帰的表現を提供し,任意の決定木構造の成長関数の上界を導出する。 これにより、$N$内部ノードを持つ二分木構造のVC次元が$N \log(N\ell)$であることを示すことができる。 最後に,これらの結果に基づくプルーニングアルゴリズムを詳述し,クロスバリデーションを必要とせず,多数のデータセット上でカートアルゴリズムよりも優れた性能を示す。

Decision trees are popular machine learning models that are simple to build and easy to interpret. Even though algorithms to learn decision trees date back to almost 50 years, key properties affecting their generalization error are still weakly bounded. Hence, we revisit binary decision trees on real-valued features from the perspective of partitions of the data. We introduce the notion of partitioning function, and we relate it to the growth function and to the VC dimension. Using this new concept, we are able to find the exact VC dimension of decision stumps, which is given by the largest integer $d$ such that $2\ell \ge \binom{d}{\left\lfloor\frac{d}{2}\right\rfloor}$, where $\ell$ is the number of real-valued features. We provide a recursive expression to bound the partitioning functions, resulting in a upper bound on the growth function of any decision tree structure. This allows us to show that the VC dimension of a binary tree structure with $N$ internal nodes is of order $N \log(N\ell)$. Finally, we elaborate a pruning algorithm based on these results that performs better than the CART algorithm on a number of datasets, with the advantage that no cross-validation is required.
翻訳日:2022-10-07 13:54:37 公開日:2020-10-14
# weightalign: 重量アライメントによる活性化の正規化

WeightAlign: Normalizing Activations by Weight Alignment ( http://arxiv.org/abs/2010.07160v1 )

ライセンス: Link先を確認
Xiangwei Shi, Yunqiang Li, Xin Liu, Jan van Gemert(参考訳) バッチ正規化(BN)は、小さなバッチサイズでBNを不安定にするミニバッチサンプル統計により、アクティベーションを正規化することで、非常に深いネットワークのトレーニングを可能にする。 インスタンスノルム、レイヤノルム、グループノルムといった現在の小さなバッチソリューションでは、単一のサンプルでも計算可能なチャネル統計が使用されている。 このような方法はBNよりも安定ではないが、これは単一の入力サンプルの統計に依存するためである。 この問題に対処するため,サンプル統計を使わずにアクティベーションの正規化を提案する。 WeightAlign: フィルタ内で計算された平均およびスケールされた標準導出によって重みを正規化する手法で、サンプル統計を計算せずに活性化を正規化する。 提案手法はバッチサイズに依存しず,幅広いバッチサイズに対して安定である。 重み統計は標本統計に直交するので、WeightAlignと任意の活性化正規化法を直接組み合わせることができる。 CIFAR-10, CIFAR-100, ImageNet, PASCAL VOC 2012のセマンティックセグメンテーション, Office-31のドメイン適応に対するこれらの利点を実験的に実証した。

Batch normalization (BN) allows training very deep networks by normalizing activations by mini-batch sample statistics which renders BN unstable for small batch sizes. Current small-batch solutions such as Instance Norm, Layer Norm, and Group Norm use channel statistics which can be computed even for a single sample. Such methods are less stable than BN as they critically depend on the statistics of a single input sample. To address this problem, we propose a normalization of activation without sample statistics. We present WeightAlign: a method that normalizes the weights by the mean and scaled standard derivation computed within a filter, which normalizes activations without computing any sample statistics. Our proposed method is independent of batch size and stable over a wide range of batch sizes. Because weight statistics are orthogonal to sample statistics, we can directly combine WeightAlign with any method for activation normalization. We experimentally demonstrate these benefits for classification on CIFAR-10, CIFAR-100, ImageNet, for semantic segmentation on PASCAL VOC 2012 and for domain adaptation on Office-31.
翻訳日:2022-10-07 13:47:39 公開日:2020-10-14
# クロスドメイン一般化のためのマッチング空間ステレオネットワーク

Matching-space Stereo Networks for Cross-domain Generalization ( http://arxiv.org/abs/2010.07347v1 )

ライセンス: Link先を確認
Changjiang Cai, Matteo Poggi, Stefano Mattoccia, Philippos Mordohai(参考訳) エンドツーエンドのディープネットワークはステレオマッチング技術の現状を表している。 トレーニングセットに類似したイメージフレーミング環境に優れる一方で、見えない領域(例えば合成から実際のシーンに移行する場合)では、精度が大幅に低下する。 本稿では,Matching-Space Networks (MS-Nets) と呼ばれる新しいアーキテクチャ群を紹介する。 画像RGB値からの学習に基づく特徴抽出を、従来の知恵と一致した関数に置き換えることで、学習プロセスを色空間からマッチング空間に移動させ、過剰特殊化を回避し、ドメイン固有の特徴へ移行する。 4つの実際のデータセットに対する大規模な実験結果から,提案手法が従来の深層アーキテクチャよりも見つからない環境に優れた一般化をもたらすことが示唆された。 私たちのコードはhttps://github.com/ccj5351/MS-Netsで利用可能です。

End-to-end deep networks represent the state of the art for stereo matching. While excelling on images framing environments similar to the training set, major drops in accuracy occur in unseen domains (e.g., when moving from synthetic to real scenes). In this paper we introduce a novel family of architectures, namely Matching-Space Networks (MS-Nets), with improved generalization properties. By replacing learning-based feature extraction from image RGB values with matching functions and confidence measures from conventional wisdom, we move the learning process from the color space to the Matching Space, avoiding over-specialization to domain specific features. Extensive experimental results on four real datasets highlight that our proposal leads to superior generalization to unseen environments over conventional deep architectures, keeping accuracy on the source domain almost unaltered. Our code is available at https://github.com/ccj5351/MS-Nets.
翻訳日:2022-10-07 13:45:46 公開日:2020-10-14
# エンド・ツー・エンドのステレオアルゴリズムは情報を活用するか?

Do End-to-end Stereo Algorithms Under-utilize Information? ( http://arxiv.org/abs/2010.07350v1 )

ライセンス: Link先を確認
Changjiang Cai, Philippos Mordohai(参考訳) ステレオマッチングのためのディープネットワークは、通常2Dまたは3D畳み込みエンコーダデコーダアーキテクチャを利用してコストを集約し、コストボリュームを正当に調整する。 コンテンツに敏感な畳み込みとダウンサンプリングとアップサンプリング操作のため、これらのコスト集約メカニズムは画像で利用可能な情報を十分に活用することができない。 偏差写像は、咬合境界付近での過剰な運動と、薄い構造における誤った予測に苦しむ。 本稿では, 従来の2次元および3次元畳み込みネットワークにおいて, 深層適応フィルタと差別化可能な半グローバルアグリゲーションがどのように統合され, 精度が向上するかを示す。 この改良は、画像からRGB情報を信号として利用して、マッチングプロセスを動的にガイドするだけでなく、画像間でマッチングしようとする信号も利用している。 4つのステレオネットワーク(DispNetC, GCNet, PSMNet, GANet)を比較したKITTI 2015およびVirtual KITTI 2データセットについて, 動的フィルタリングネットワーク, ピクセル適応畳み込み, 半グローバルアグリゲーション)をアーキテクチャに組み込んだ実験結果を示した。 私たちのコードはhttps://github.com/ccj5351/DAFStereoNetsで利用可能です。

Deep networks for stereo matching typically leverage 2D or 3D convolutional encoder-decoder architectures to aggregate cost and regularize the cost volume for accurate disparity estimation. Due to content-insensitive convolutions and down-sampling and up-sampling operations, these cost aggregation mechanisms do not take full advantage of the information available in the images. Disparity maps suffer from over-smoothing near occlusion boundaries, and erroneous predictions in thin structures. In this paper, we show how deep adaptive filtering and differentiable semi-global aggregation can be integrated in existing 2D and 3D convolutional networks for end-to-end stereo matching, leading to improved accuracy. The improvements are due to utilizing RGB information from the images as a signal to dynamically guide the matching process, in addition to being the signal we attempt to match across the images. We show extensive experimental results on the KITTI 2015 and Virtual KITTI 2 datasets comparing four stereo networks (DispNetC, GCNet, PSMNet and GANet) after integrating four adaptive filters (segmentation-aware bilateral filtering, dynamic filtering networks, pixel adaptive convolution and semi-global aggregation) into their architectures. Our code is available at https://github.com/ccj5351/DAFStereoNets.
翻訳日:2022-10-07 13:45:30 公開日:2020-10-14
# 熱画像からの太陽電池モジュールセグメンテーションと熱分析ツール

Photovoltaic module segmentation and thermal analysis tool from thermal images ( http://arxiv.org/abs/2010.07356v1 )

ライセンス: Link先を確認
L. E. Monta\~nez, L. M. Valent\'in-Coronado, D. Moctezuma, G. Flores(参考訳) クリーンエネルギーの使用に対する関心が高まり、より大規模な太陽光発電システムの構築につながった。 そこで,本論文では,太陽光発電モジュールの自動検出と解析について述べる。 この解析を行うために、まず、デジタル画像処理アルゴリズムに基づくモジュール識別ステップを実行する。 このアルゴリズムは、画像強調(コントラスト強調、ノイズ低減など)と光電力モジュールのセグメンテーションからなる。 続いて、セグメンテーションモジュールの温度値に基づく統計解析を行うとともに、太陽電池モジュールの関連情報を提供する潜在的なツールとしてグラフィカルユーザインタフェースが設計されている。

The growing interest in the use of clean energy has led to the construction of increasingly large photovoltaic systems. Consequently, monitoring the proper functioning of these systems has become a highly relevant issue.In this paper, automatic detection, and analysis of photovoltaic modules are proposed. To perform the analysis, a module identification step, based on a digital image processing algorithm, is first carried out. This algorithm consists of image enhancement (contrast enhancement, noise reduction, etc.), followed by segmentation of the photovoltaic module. Subsequently, a statistical analysis based on the temperature values of the segmented module is performed.Besides, a graphical user interface has been designed as a potential tool that provides relevant information of the photovoltaic modules.
翻訳日:2022-10-07 13:44:59 公開日:2020-10-14
# バランス性能とプルーニング速度を考慮した最適フィルタプルーニングに向けて

Towards Optimal Filter Pruning with Balanced Performance and Pruning Speed ( http://arxiv.org/abs/2010.06821v1 )

ライセンス: Link先を確認
Dong Li, Sitong Chen, Xudong Liu, Yunda Sun and Li Zhang(参考訳) リソース制約のあるプラットフォームはよりコンパクトな配置モデルを必要とするため、フィルタプルーニングが注目されている。 しかし、現在の刈り取り法は、単発法の劣悪な性能や反復訓練法の高価な時間コストに悩まされている。 本稿では,性能とプルーニング速度の両立のためのバランス付きフィルタプルーニング法を提案する。 本手法は, フィルタ重要度基準に基づき, プリセット損失変動時に, 層別最適プルーニング速度を近似した層をプルーピングすることができる。 ネットワークはプルー・リトラクションのイテレーションに時間を費やすことなく階層的に切断される。 ネットワーク全体に対する事前定義されたプルーニングレートが与えられると、高速な収束速度で対応する損失変動閾値を求める方法も導入する。 さらに,短接続ネットワークにおけるチャネルアライメントのための層群プルーニングとチャネル選択機構を提案する。 提案手法は一般的なアーキテクチャに広く適用でき,最終的な微調整以外は追加訓練を行わない。 総合実験により,本手法が多くの最先端手法より優れていることが示された。

Filter pruning has drawn more attention since resource constrained platform requires more compact model for deployment. However, current pruning methods suffer either from the inferior performance of one-shot methods, or the expensive time cost of iterative training methods. In this paper, we propose a balanced filter pruning method for both performance and pruning speed. Based on the filter importance criteria, our method is able to prune a layer with approximate layer-wise optimal pruning rate at preset loss variation. The network is pruned in the layer-wise way without the time consuming prune-retrain iteration. If a pre-defined pruning rate for the entire network is given, we also introduce a method to find the corresponding loss variation threshold with fast converging speed. Moreover, we propose the layer group pruning and channel selection mechanism for channel alignment in network with short connections. The proposed pruning method is widely applicable to common architectures and does not involve any additional training except the final fine-tuning. Comprehensive experiments show that our method outperforms many state-of-the-art approaches.
翻訳日:2022-10-07 13:38:26 公開日:2020-10-14
# ロバストマッピングのための意味フロー誘導運動除去法

Semantic Flow-guided Motion Removal Method for Robust Mapping ( http://arxiv.org/abs/2010.06876v1 )

ライセンス: Link先を確認
Xudong Lv, Boya Wang, Dong Ye, and Shuo Wang(参考訳) SLAMシステムにとって、シーン内のオブジェクトの移動は深刻な課題である。 動く物体を検出することで、画像中の動き領域を取り除こうとする多くの努力がなされている。 このように、動き領域に属するキーポイントは、後の計算では無視される。 本稿では,意味情報と光流を利用して運動領域を抽出する新しい運動除去法を提案する。 以前の研究と異なり、動いた物体や動き領域を直接画像シーケンスから予測することはできない。 深さとポーズで合成した剛性光流を計算し,推定した光流と比較して初期運動領域を得る。 次に,K-meansを用いて運動領域マスクを例分割マスクで微調整した。 提案手法と統合したorb-slam2は,室内および屋外の動的環境において最高の性能を得た。

Moving objects in scenes are still a severe challenge for the SLAM system. Many efforts have tried to remove the motion regions in the images by detecting moving objects. In this way, the keypoints belonging to motion regions will be ignored in the later calculations. In this paper, we proposed a novel motion removal method, leveraging semantic information and optical flow to extract motion regions. Different from previous works, we don't predict moving objects or motion regions directly from image sequences. We computed rigid optical flow, synthesized by the depth and pose, and compared it against the estimated optical flow to obtain initial motion regions. Then, we utilized K-means to finetune the motion region masks with instance segmentation masks. The ORB-SLAM2 integrated with the proposed motion removal method achieved the best performance in both indoor and outdoor dynamic environments.
翻訳日:2022-10-07 13:38:10 公開日:2020-10-14
# 深層学習に基づく部分集積型アップルツリーのセマンティックセグメンテーション

Semantic Segmentation for Partially Occluded Apple Trees Based on Deep Learning ( http://arxiv.org/abs/2010.06879v1 )

ライセンス: Link先を確認
Zijue Chen, David Ting, Rhys Newbury, Chao Chen(参考訳) 果樹の刈り取りと果実の薄切りには、果実の木とその枝の高分解能なセグメンテーションを提供する強力な視覚システムが必要である。 しかし、近年の研究は休眠期のみを考慮し、枝に最小限の閉塞があるか、多項式曲線に適合して枝の形を再構築し、枝の厚さに関する情報を失う。 本研究では,2つの最先端教師付き学習モデル U-Net と DeepLabv3 と条件付き生成逆数ネットワーク Pix2Pix を用いて,部分閉塞な2D-オープン-V リンゴを分割する。 モデルの性能評価には,バイナリ精度,平均IoU,境界F1スコア,Occludedブランチリコールが用いられた。 DeepLabv3は、Binaryの精度で他のモデル、Mean IoUとBundary F1よりも優れているが、OccludedブランチリコールではPix2PixとU-Netに勝っている。 課題の難易度を定量化するための難易度指標として,(1)閉塞困難度指標と(2)深さ困難度指標を定式化した。 本稿では,分岐リコールとOccludedブランチリコールを用いて,両難易度指標の最悪の10画像を解析する。 u-netは、現在のメトリクスで他の2つのモデルを上回る。 一方、Pix2Pix(差別化なしで)は、メトリクスに反映されないブランチパスに関するより多くの情報を提供する。 これは、隠された情報を回復する上で、より具体的なメトリクスの必要性を強調します。 さらに,オクルージョンの背後の幻覚に対する画像伝達ネットワークの有用性を示す。 この技術が商業環境における農業作業の自動化に応用可能であるように、隠蔽からより多くの情報を回収するためのモデルをさらに強化する必要がある。

Fruit tree pruning and fruit thinning require a powerful vision system that can provide high resolution segmentation of the fruit trees and their branches. However, recent works only consider the dormant season, where there are minimal occlusions on the branches or fit a polynomial curve to reconstruct branch shape and hence, losing information about branch thickness. In this work, we apply two state-of-the-art supervised learning models U-Net and DeepLabv3, and a conditional Generative Adversarial Network Pix2Pix (with and without the discriminator) to segment partially occluded 2D-open-V apple trees. Binary accuracy, Mean IoU, Boundary F1 score and Occluded branch recall were used to evaluate the performances of the models. DeepLabv3 outperforms the other models at Binary accuracy, Mean IoU and Boundary F1 score, but is surpassed by Pix2Pix (without discriminator) and U-Net in Occluded branch recall. We define two difficulty indices to quantify the difficulty of the task: (1) Occlusion Difficulty Index and (2) Depth Difficulty Index. We analyze the worst 10 images in both difficulty indices by means of Branch Recall and Occluded Branch Recall. U-Net outperforms the other two models in the current metrics. On the other hand, Pix2Pix (without discriminator) provides more information on branch paths, which are not reflected by the metrics. This highlights the need for more specific metrics on recovering occluded information. Furthermore, this shows the usefulness of image-transfer networks for hallucination behind occlusions. Future work is required to further enhance the models to recover more information from occlusions such that this technology can be applied to automating agricultural tasks in a commercial environment.
翻訳日:2022-10-07 13:37:59 公開日:2020-10-14
# 自律運転に影響を及ぼすオープンインフォーマルデータセットの開発

Development of Open Informal Dataset Affecting Autonomous Driving ( http://arxiv.org/abs/2010.06900v1 )

ライセンス: Link先を確認
Yong-Gu Lee, Seong-Jae Lee, Sang-Jin Lee, Tae-Seung Baek, Dong-Whan Lee, Kyeong-Chan Jang, Ho-Jin Sohn, Jin-Soo Kim(参考訳) 本文書は、自動運転車用物体認識技術開発のための道路上の物体と非構造化動的データを収集するための手順と手法を記載した文書であり、データ収集方法、アノテーションデータ、オブジェクト分類基準、データ処理方法の概要を示す。 気象・時間・交通状況などの様々な環境において,道路上の物体・非構造的動的データを収集し,警察・安全要員に対する追加の受付を行った。 最終的に、歩行者や道路に存在するさまざまな物10万枚、警察・交通安全要員20万枚、警察・交通安全要員5000枚、画像データ5,000枚からなるデータセットが収集され、構築された。

This document is a document that has written procedures and methods for collecting objects and unstructured dynamic data on the road for the development of object recognition technology for self-driving cars, and outlines the methods of collecting data, annotation data, object classifier criteria, and data processing methods. On-road object and unstructured dynamic data were collected in various environments, such as weather, time and traffic conditions, and additional reception calls for police and safety personnel were collected. Finally, 100,000 images of various objects existing on pedestrians and roads, 200,000 images of police and traffic safety personnel, 5,000 images of police and traffic safety personnel, and data sets consisting of 5,000 image data were collected and built.
翻訳日:2022-10-07 13:37:12 公開日:2020-10-14
# ランキング問題としての相対的深さ推定

Relative Depth Estimation as a Ranking Problem ( http://arxiv.org/abs/2010.06944v1 )

ライセンス: Link先を確認
Alican Mertan, Damien Jade Duff, Gozde Unal(参考訳) 本稿では,1つの画像問題からの相対深度推定をランキング問題として定式化する。 この方法で問題を再構成することで、ランキング問題に文献を活用し、既存の知識を適用してより良い結果を得ることができた。 そこで我々は,相対的な深度推定問題に対して,ランキング文献である重み付きListMLEから借用したリストワイズランキングの損失を導入した。 また,提案手法の精度を高めるために,画素深度のランク付け精度を考慮した新しい測定基準も導入した。

We present a formulation of the relative depth estimation from a single image problem, as a ranking problem. By reformulating the problem this way, we were able to utilize literature on the ranking problem, and apply the existing knowledge to achieve better results. To this end, we have introduced a listwise ranking loss borrowed from ranking literature, weighted ListMLE, to the relative depth estimation problem. We have also brought a new metric which considers pixel depth ranking accuracy, on which our method is stronger.
翻訳日:2022-10-07 13:36:48 公開日:2020-10-14
# FC-DCNN: ステレオ推定のための密結合ニューラルネットワーク

FC-DCNN: A densely connected neural network for stereo estimation ( http://arxiv.org/abs/2010.06950v1 )

ライセンス: Link先を確認
Dominik Hirner, Friedrich Fraundorfer(参考訳) ステレオ推定のための新しい軽量ネットワークを提案する。 本ネットワークは,完全畳み込み高密度結合ニューラルネットワーク(fc-dcnn)で構成され,画像対のマッチングコストを計算する。 FC-DCNN法は,表現的特徴を学習し,単純だが効果的な後処理を行う。 密結合された層構造は、各層の出力とその後の層の入力とを接続する。 このネットワーク構造と、完全に接続されたレイヤや3D畳み込みを使用しないという事実は、非常に軽量なネットワークにつながります。 このネットワークの出力は、マッチングコストを計算し、コストボリュームを作成するために使用される。 半球マッチングや条件付きランダムフィールドなどの時間的・メモリ非効率なコスト集約手法を用いて結果を改善する代わりに,中央値フィルタやガイドフィルタといったフィルタリング技術に頼る。 左の一貫性チェックを計算することで、一貫性のない値を取り除きます。 その後,不一致を除去した不一致画像に対して,流域前景後景セグメンテーションを用いる。 このマスクは最終予測を洗練するために使われる。 提案手法は, ミドルベリー, KITTI, ETH3Dベンチマークでそれぞれ評価することで, 屋内と屋外の両方の課題に対して有効であることを示す。 私たちのフレームワークはhttps://github.com/thedodo/FC-DCNNで利用可能です。

We propose a novel lightweight network for stereo estimation. Our network consists of a fully-convolutional densely connected neural network (FC-DCNN) that computes matching costs between rectified image pairs. Our FC-DCNN method learns expressive features and performs some simple but effective post-processing steps. The densely connected layer structure connects the output of each layer to the input of each subsequent layer. This network structure and the fact that we do not use any fully-connected layers or 3D convolutions leads to a very lightweight network. The output of this network is used in order to calculate matching costs and create a cost-volume. Instead of using time and memory-inefficient cost-aggregation methods such as semi-global matching or conditional random fields in order to improve the result, we rely on filtering techniques, namely median filter and guided filter. By computing a left-right consistency check we get rid of inconsistent values. Afterwards we use a watershed foreground-background segmentation on the disparity image with removed inconsistencies. This mask is then used to refine the final prediction. We show that our method works well for both challenging indoor and outdoor scenes by evaluating it on the Middlebury, KITTI and ETH3D benchmarks respectively. Our full framework is available at https://github.com/thedodo/FC-DCNN
翻訳日:2022-10-07 13:36:39 公開日:2020-10-14
# パラメトリック表面再構成のためのパッチステッチングの改善

Better Patch Stitching for Parametric Surface Reconstruction ( http://arxiv.org/abs/2010.07021v1 )

ライセンス: Link先を確認
Zhantao Deng, Jan Bedna\v{r}\'ik, Mathieu Salzmann, Pascal Fua(参考訳) 近年、パラメトリックマッピングは、高い有効表面表現として現れ、低い再構成誤差を生じる。 特に、最新の作品は対象の形状を複数のマッピングのアトラスとして表現しており、オブジェクト部品を密にエンコードすることができる。 しかし、アトラス表現には1つの大きな欠点がある。個々のマッピングは一貫性が保証されていないため、再構成された形状やジャグリングされた表面領域に穴が開くことになる。 ローカルマッピングのグローバル一貫性を明示的に奨励するアプローチを導入する。 この目的のために2つの新しい損失項を導入する。 第一項では、表面の正規性を利用し、個々のマッピング内外における推定時に局所的に一貫性を保つことを要求する。 第二項はさらに、新しい縫合誤差を最小限にしてマッピングの空間的構成を改善する。 標準ベンチマークでは, 通常の整合性要件を用いることで, 基準線を定量的に上回り, 縫合性も向上し, 再建された物体の視覚的品質は, 最先端のものと比べ, はるかに向上することを示した。

Recently, parametric mappings have emerged as highly effective surface representations, yielding low reconstruction error. In particular, the latest works represent the target shape as an atlas of multiple mappings, which can closely encode object parts. Atlas representations, however, suffer from one major drawback: The individual mappings are not guaranteed to be consistent, which results in holes in the reconstructed shape or in jagged surface areas. We introduce an approach that explicitly encourages global consistency of the local mappings. To this end, we introduce two novel loss terms. The first term exploits the surface normals and requires that they remain locally consistent when estimated within and across the individual mappings. The second term further encourages better spatial configuration of the mappings by minimizing novel stitching error. We show on standard benchmarks that the use of normal consistency requirement outperforms the baselines quantitatively while enforcing better stitching leads to much better visual quality of the reconstructed objects as compared to the state-of-the-art.
翻訳日:2022-10-07 13:36:20 公開日:2020-10-14
# 不確実性のある新しい分布ランク付け損失:相対的深さ推定の例

A New Distributional Ranking Loss With Uncertainty: Illustrated in Relative Depth Estimation ( http://arxiv.org/abs/2010.07091v1 )

ライセンス: Link先を確認
Alican Mertan, Yusuf Huseyin Sahin, Damien Jade Duff, Gozde Unal(参考訳) 単一画像からの相対深度推定問題に対する新しいアプローチを提案する。 奥行きスコアを直接回帰する代わりに、この問題を深さを超える確率分布の推定として定式化し、与えられたデータの確率を最大化する分布のパラメータを学習することを目的とする。 そこで本研究では,より深い画素の深さがより近い画素の深さよりも大きい確率を増加させようとする新しいランキング損失,分布損失を提案する。 提案手法により,分布の標準偏差という形で,推定に対する信頼度を出力できる。 評価の信頼性を確保しつつ,多くのベースラインに対して技術結果の状態を達成している。 分析の結果,推定信頼度は精度の良い指標であることがわかった。 距離深度推定の下流課題における信頼度情報の利用について検討し,その性能向上を図る。

We propose a new approach for the problem of relative depth estimation from a single image. Instead of directly regressing over depth scores, we formulate the problem as estimation of a probability distribution over depth and aim to learn the parameters of the distributions which maximize the likelihood of the given data. To train our model, we propose a new ranking loss, Distributional Loss, which tries to increase the probability of farther pixel's depth being greater than the closer pixel's depth. Our proposed approach allows our model to output confidence in its estimation in the form of standard deviation of the distribution. We achieve state of the art results against a number of baselines while providing confidence in our estimations. Our analysis show that estimated confidence is actually a good indicator of accuracy. We investigate the usage of confidence information in a downstream task of metric depth estimation, to increase its performance.
翻訳日:2022-10-07 13:36:02 公開日:2020-10-14
# 双方向相互作用を用いた半監督バイリンガル語彙誘導

Semi-Supervised Bilingual Lexicon Induction with Two-way Interaction ( http://arxiv.org/abs/2010.07101v1 )

ライセンス: Link先を確認
Xu Zhao, Zihao Wang, Hao Wu, Yong Zhang(参考訳) セミスーパービジョンは、限定アノテーションを持つバイリンガル語彙誘導(BLI)のための有望なパラダイムである。 しかし、従来の半教師付き手法では、注釈データや非注釈データに隠された知識を十分に活用していないため、さらなる性能向上を妨げている。 本稿では,教師付き信号と教師なしアライメントとのインタラクションを促進するための,新しい半教師付きbliフレームワークを提案する。 注釈付きデータと非注釈付きデータの間で知識を伝達する2つのメッセージパッシング機構を,それぞれprior optimal transport と bi-directional lexicon update と命名した。 そして,周期的あるいはパラレルなパラメータ供給ルーチンに基づいて半教師付き学習を行い,モデルを更新する。 我々のフレームワークは、最適輸送に基づく教師付きおよび教師なしのBLIメソッドを組み込むことができる一般的なフレームワークである。 MUSEおよびVecMapデータセットの実験結果から,我々のモデルに大きな改善が得られた。 アブレーション研究はまた、教師付き信号と教師なしアライメントとの双方向相互作用が全体的な性能の利得を左右することを示した。 遠方の言語ペアの結果は,提案手法の長所と頑健さをさらに示している。

Semi-supervision is a promising paradigm for Bilingual Lexicon Induction (BLI) with limited annotations. However, previous semisupervised methods do not fully utilize the knowledge hidden in annotated and nonannotated data, which hinders further improvement of their performance. In this paper, we propose a new semi-supervised BLI framework to encourage the interaction between the supervised signal and unsupervised alignment. We design two message-passing mechanisms to transfer knowledge between annotated and non-annotated data, named prior optimal transport and bi-directional lexicon update respectively. Then, we perform semi-supervised learning based on a cyclic or a parallel parameter feeding routine to update our models. Our framework is a general framework that can incorporate any supervised and unsupervised BLI methods based on optimal transport. Experimental results on MUSE and VecMap datasets show significant improvement of our models. Ablation study also proves that the two-way interaction between the supervised signal and unsupervised alignment accounts for the gain of the overall performance. Results on distant language pairs further illustrate the advantage and robustness of our proposed method.
翻訳日:2022-10-07 13:29:26 公開日:2020-10-14
# 事前学習型言語モデルにおける下位量子化方式の検討

An Investigation on Different Underlying Quantization Schemes for Pre-trained Language Models ( http://arxiv.org/abs/2010.07109v1 )

ライセンス: Link先を確認
Zihan Zhao, Yuncong Liu, Lu Chen, Qi Liu, Rao Ma and Kai Yu(参考訳) 最近、BERTのような事前訓練された言語モデルは、複数の自然言語処理タスクで有望なパフォーマンスを示している。 しかし、これらのモデルの適用は、その巨大なサイズのために制限されている。 サイズを減らすために、人気があり効率的な方法は量子化である。 それでも、bert量子化に焦点をあてたほとんどの作品は、一次線形クラスタリングを量子化スキームとして採用しており、アップグレードしようとする作品はほとんどない。 これは量子化の性能を著しく制限する。 本稿では, k-平均量子化を実装し, bert の固定精度量子化と線形量子化の比較を行った。 比較を通じて,基礎となる量子化スキームのアップグレード効果が過小評価され,k-平均量子化の巨大な発展可能性が存在することを検証した。 さらに、ALBERTモデル上の2つの量子化スキームを比較し、異なる事前学習モデル間のロバスト性差を探索する。

Recently, pre-trained language models like BERT have shown promising performance on multiple natural language processing tasks. However, the application of these models has been limited due to their huge size. To reduce its size, a popular and efficient way is quantization. Nevertheless, most of the works focusing on BERT quantization adapted primary linear clustering as the quantization scheme, and few works try to upgrade it. That limits the performance of quantization significantly. In this paper, we implement k-means quantization and compare its performance on the fix-precision quantization of BERT with linear quantization. Through the comparison, we verify that the effect of the underlying quantization scheme upgrading is underestimated and there is a huge development potential of k-means quantization. Besides, we also compare the two quantization schemes on ALBERT models to explore the robustness differences between different pre-trained models.
翻訳日:2022-10-07 13:29:07 公開日:2020-10-14
# EOS決定と長さ外挿

The EOS Decision and Length Extrapolation ( http://arxiv.org/abs/2010.07174v1 )

ライセンス: Link先を確認
Benjamin Newman, John Hewitt, Percy Liang, Christopher D. Manning(参考訳) 未知の配列長への外挿は、言語のニューラル生成モデルの課題である。 本稿では,モデル決定の長大な外挿に対する影響を特徴付け,特殊語句(EOS)を用いて生成過程の終端を予測する。 本研究では,EOS(+EOS)予測のために訓練されたネットワークと,訓練されていないネットワーク(-EOS)の時間外動作を比較するために,テスト時に正しいシーケンス長にモデルを強制するオラクル設定について検討する。 例えば、ブラケットクローズタスクのトレーニング時間で見られるものよりも10倍長大で、複雑なSCANデータセット長一般化タスクでは+EOSよりも40%改善されています。 EOS モデルと +EOS モデルの隠れ状態と力学を比較することで、(1) 線形位置による隠蔽状態の非必要成層化は列(長さ多様体と呼ぶ構造)か、(2) EOS トークンが最大確率予測であるときにクラスター(長さ誘引子と呼ばれる)で立ち往生しているため、+EOS モデルが一般化できないことを観察する。

Extrapolation to unseen sequence lengths is a challenge for neural generative models of language. In this work, we characterize the effect on length extrapolation of a modeling decision often overlooked: predicting the end of the generative process through the use of a special end-of-sequence (EOS) vocabulary item. We study an oracle setting - forcing models to generate to the correct sequence length at test time - to compare the length-extrapolative behavior of networks trained to predict EOS (+EOS) with networks not trained to (-EOS). We find that -EOS substantially outperforms +EOS, for example extrapolating well to lengths 10 times longer than those seen at training time in a bracket closing task, as well as achieving a 40% improvement over +EOS in the difficult SCAN dataset length generalization task. By comparing the hidden states and dynamics of -EOS and +EOS models, we observe that +EOS models fail to generalize because they (1) unnecessarily stratify their hidden states by their linear position is a sequence (structures we call length manifolds) or (2) get stuck in clusters (which we refer to as length attractors) once the EOS token is the highest-probability prediction.
翻訳日:2022-10-07 13:28:55 公開日:2020-10-14
# 言語的セマンティック・プログレクション理論に基づくテキストの概念的スキーマ抽出のための新しいアプローチ

A new approach for extracting the conceptual schema of texts based on the linguistic Thematic Progression theory ( http://arxiv.org/abs/2010.07440v1 )

ライセンス: Link先を確認
Elena del Olmo Su\'arez and Ana Mar\'ia Fern\'andez-Pampill\'on Cesteros(参考訳) 本論の目的は,主題進行理論の適用を通じて,テキストの暗黙的概念スキーマの発見とラベル付けのための新しいアプローチを提案することである。 基礎となる概念スキーマは、テキストのセマンティクスと真に一貫性のある要約を生成するためのコアコンポーネントである。

The purpose of this article is to present a new approach for the discovery and labelling of the implicit conceptual schema of texts through the application of the Thematic Progression theory. The underlying conceptual schema is the core component for the generation of summaries that are genuinely consistent with the semantics of the text.
翻訳日:2022-10-07 13:27:55 公開日:2020-10-14
# 創造的アーティファクトの解説

Explaining Creative Artifacts ( http://arxiv.org/abs/2010.07126v1 )

ライセンス: Link先を確認
Lav R. Varshney, Nazneen Fatema Rajani, and Richard Socher(参考訳) 人間の創造性は、しばしば連想要素を新しい形に結合する精神的プロセスとして表現されるが、新しい計算的創造性アルゴリズムはこの方法では機能しない。 ここでは,人間の創造プロセスと一致するポストホック解釈の一形態として,合成的および構成的創造性の産物を連想連鎖に分解する逆問題定式化を開発する。 特に,我々の定式化は,関連要素のナレッジグラフを通じて,旅行セールスマン問題の解法として構成されている。 本稿では,明示的な意味構造が存在する料理の創造性を説明するための例と,知識グラフにマップする明示的な概念を抽出したり,単語埋め込み空間内で距離を考慮したりする言語生成における2つの例を用いて,我々のアプローチを実証する。 我々はクリエイティビティのノベルティの尺度として最適なトラベルセールスマンパスの長さを割り当てて閉じる。

Human creativity is often described as the mental process of combining associative elements into a new form, but emerging computational creativity algorithms may not operate in this manner. Here we develop an inverse problem formulation to deconstruct the products of combinatorial and compositional creativity into associative chains as a form of post-hoc interpretation that matches the human creative process. In particular, our formulation is structured as solving a traveling salesman problem through a knowledge graph of associative elements. We demonstrate our approach using an example in explaining culinary computational creativity where there is an explicit semantic structure, and two examples in language generation where we either extract explicit concepts that map to a knowledge graph or we consider distances in a word embedding space. We close by casting the length of an optimal traveling salesman path as a measure of novelty in creativity.
翻訳日:2022-10-07 13:27:49 公開日:2020-10-14
# 注意グラフニューラルネットワークを用いた回転平均化

Rotation Averaging with Attention Graph Neural Networks ( http://arxiv.org/abs/2010.06773v1 )

ライセンス: Link先を確認
Joshua Thorpe, Ruwan Tennakoon, Alireza Bab-Hadiashar(参考訳) 本稿では,大規模多重回転平均化に対するリアルタイムかつロバストな解法を提案する。 最近まで、従来の反復最適化アルゴリズムを用いて多重回転平均問題は解決されていた。 このような方法は、センサノイズと異常分布に関する仮定に基づいて選択されたロバストなコスト関数を用いた。 実際には、これらの仮定は必ずしも実際のデータセットに適合しない。 最近の研究では、グラフニューラルネットワークを用いてノイズ分布を学習できることが示されている。 この解法では、平均化ネットワークが貧弱な初期化に敏感であるため、異常検出と除去のための第2のネットワークが必要であった。 本稿では,雑音や異常値の存在下でロバストに回転平均化を行うことのできる単段グラフニューラルネットワークを提案する。 本手法では,ネットワーク設計における重み付け平均化とアテンション機構を用いて,すべての観測結果を用いて,外乱効果を抑制する。 その結果、より高速で堅牢で、従来のニューラルネットワークよりも少ないサンプルでトレーニングすることが可能なネットワークが、従来の反復アルゴリズムを精度と推論時間で上回っている。

In this paper we propose a real-time and robust solution to large-scale multiple rotation averaging. Until recently, Multiple rotation averaging problem had been solved using conventional iterative optimization algorithms. Such methods employed robust cost functions that were chosen based on assumptions made about the sensor noise and outlier distribution. In practice, these assumptions do not always fit real datasets very well. A recent work showed that the noise distribution could be learnt using a graph neural network. This solution required a second network for outlier detection and removal as the averaging network was sensitive to a poor initialization. In this paper we propose a single-stage graph neural network that can robustly perform rotation averaging in the presence of noise and outliers. Our method uses all observations, suppressing outliers effects through the use of weighted averaging and an attention mechanism within the network design. The result is a network that is faster, more robust and can be trained with less samples than the previous neural approach, ultimately outperforming conventional iterative algorithms in accuracy and in inference times.
翻訳日:2022-10-07 13:27:35 公開日:2020-10-14
# フェログラフ画像分類

Ferrograph image classification ( http://arxiv.org/abs/2010.06777v1 )

ライセンス: Link先を確認
Peng Peng, Jiugen Wang(参考訳) フェログラフ画像を小さなデータセットと様々な種類の摩耗粒子で識別することは困難である。 本研究では,これらの課題に対処するための新しいモデルを提案する。 サンプル不足問題に対して,まず画像パッチの置換に基づくデータ拡張アルゴリズムを提案する。 そして,データ拡張アルゴリズムにより生成された画像を特定するために,画像パッチ置換認識の補助的損失関数を提案した。 さらに,提案モデルに対して,より豊富な特徴の抽出と冗長表現の削減を強制する特徴抽出損失関数を設計した。 摩耗粒子径の大きな変化範囲の課題として,摩耗粒子の多元的表現を得るために,多元的特徴抽出ブロックを提案した。 フェログラフ画像データセットとミニCIFAR-10データセットの実験を行った。 実験の結果,提案モデルでは,ベースラインと比較して,2つのデータセットの精度を9%,20%向上できることがわかった。

It has been challenging to identify ferrograph images with a small dataset and various scales of wear particle. A novel model is proposed in this study to cope with these challenging problems. For the problem of insufficient samples, we first proposed a data augmentation algorithm based on the permutation of image patches. Then, an auxiliary loss function of image patch permutation recognition was proposed to identify the image generated by the data augmentation algorithm. Moreover, we designed a feature extraction loss function to force the proposed model to extract more abundant features and to reduce redundant representations. As for the challenge of large change range of wear particle size, we proposed a multi-scale feature extraction block to obtain the multi-scale representations of wear particles. We carried out experiments on a ferrograph image dataset and a mini-CIFAR-10 dataset. Experimental results show that the proposed model can improve the accuracy of the two datasets by 9% and 20% respectively compared with the baseline.
翻訳日:2022-10-07 13:27:18 公開日:2020-10-14
# Googleが低オープンソースの言語と方言のための音声コーパスと関連オープンソースリソースをクラウドソーシング

Google Crowdsourced Speech Corpora and Related Open-Source Resources for Low-Resource Languages and Dialects: An Overview ( http://arxiv.org/abs/2010.06778v1 )

ライセンス: Link先を確認
Alena Butryna and Shan-Hui Cathy Chu and Isin Demirsahin and Alexander Gutkin and Linne Ha and Fei He and Martin Jansche and Cibu Johny and Anna Katanova and Oddur Kjartansson and Chenfang Li and Tatiana Merkulova and Yin May Oo and Knot Pipatsrisawat and Clara Rivera and Supheakmungkol Sarin and Pasindu de Silva and Keshan Sodimana and Richard Sproat and Theeraphol Wattanavekin and Jaka Aris Eko Wibawa(参考訳) 本稿では,表現不足言語に対する自由な音声リソース開発の必要性の高まりに対処するプログラムの概要を述べる。 現在、南アジア、アフリカ、ヨーロッパ、南米の言語や方言に対して、テキスト音声および自動音声認識アプリケーションを構築するための38のデータセットをリリースしています。 本稿は,コーパスの開発に使用する方法論について述べるとともに,表現不足の言語コミュニティに利益をもたらす可能性のある知見をいくつか提示する。

This paper presents an overview of a program designed to address the growing need for developing freely available speech resources for under-represented languages. At present we have released 38 datasets for building text-to-speech and automatic speech recognition applications for languages and dialects of South and Southeast Asia, Africa, Europe and South America. The paper describes the methodology used for developing such corpora and presents some of our findings that could benefit under-represented language communities.
翻訳日:2022-10-07 13:20:30 公開日:2020-10-14
# 制約付きクローゼ補完を用いた言語モデルからの教師なし関係抽出

Unsupervised Relation Extraction from Language Models using Constrained Cloze Completion ( http://arxiv.org/abs/2010.06804v1 )

ライセンス: Link先を確認
Ankur Goswami, Akshata Bhat, Hadar Ohana, Theodoros Rekatsinas(参考訳) 本報告では,最先端の自己教師付き言語モデルを用いて,微調整された抽出ヘッドを訓練することなくコーパスから関係を抽出できることを示す。 本稿では,教師なし関係抽出を行うために,事前学習された言語モデルに対して制約付きクローゼ補完を行うシンプルなフレームワークであるre-flexを紹介する。 RE-Flexはコンテキストマッチングを使用して、言語モデル予測がターゲット関係に関連する入力コーパスからのエビデンスと一致することを保証する。 本研究では,複数の関係抽出ベンチマークを対象とし,事前学習した言語モデルに基づく非教師付き関係抽出法を27.8$f_1$点まで上回るre-flexの有効性を実証する。 その結果、言語モデルに対する制約付き推論クエリにより、正確な教師なし関係抽出が可能となった。

We show that state-of-the-art self-supervised language models can be readily used to extract relations from a corpus without the need to train a fine-tuned extractive head. We introduce RE-Flex, a simple framework that performs constrained cloze completion over pretrained language models to perform unsupervised relation extraction. RE-Flex uses contextual matching to ensure that language model predictions matches supporting evidence from the input corpus that is relevant to a target relation. We perform an extensive experimental study over multiple relation extraction benchmarks and demonstrate that RE-Flex outperforms competing unsupervised relation extraction methods based on pretrained language models by up to 27.8 $F_1$ points compared to the next-best method. Our results show that constrained inference queries against a language model can enable accurate unsupervised relation extraction.
翻訳日:2022-10-07 13:20:02 公開日:2020-10-14
# 数学語問題に対する意味論的適応型普遍木構造解法

Semantically-Aligned Universal Tree-Structured Solver for Math Word Problems ( http://arxiv.org/abs/2010.06823v1 )

ライセンス: Link先を確認
Jinghui Qin, Lihui Lin, Xiaodan Liang, Rumin Zhang, Liang Lin(参考訳) 実用的自動テキスト代数学語問題(MWP)は、多くのテキスト代数学MWPを解くことができるが、既存の作業の多くは1つの未知の線形MWPのみに焦点を当てている。 本稿では,様々なmwpの方程式を一様表現する最初の試みとして,汎用表現木 (uet) と呼ばれる単純かつ効率的な手法を提案する。 次に,エンコーダ・デコーダ・フレームワークに基づく意味的に整合した普遍木構造解法 (SAU-Solver) を提案する。 我々のSAU-Solverは、人間の解法MWPなどのシンボルの意味に基づいて、どのシンボルを生成すべきかを明示的に決定することで、普遍的な表現木を生成する。 我々のSAU-Solverには、文脈情報と整合して生成した表現木の意味的制約と合理性をさらに強化する、新しいサブツリーレベルの意味的整合正規化も含まれている。 最後に,解法の普遍性を検証し,MWPの研究境界を拡張するために,3種類のMWPからなるHybrid Math Word Problemsデータセット(HMWP)を導入する。 いくつかのMWPデータセットの実験結果から,我々のモデルはMWPの普遍型を解くことができ,最先端モデルよりも優れることが示された。

A practical automatic textual math word problems (MWPs) solver should be able to solve various textual MWPs while most existing works only focused on one-unknown linear MWPs. Herein, we propose a simple but efficient method called Universal Expression Tree (UET) to make the first attempt to represent the equations of various MWPs uniformly. Then a semantically-aligned universal tree-structured solver (SAU-Solver) based on an encoder-decoder framework is proposed to resolve multiple types of MWPs in a unified model, benefiting from our UET representation. Our SAU-Solver generates a universal expression tree explicitly by deciding which symbol to generate according to the generated symbols' semantic meanings like human solving MWPs. Besides, our SAU-Solver also includes a novel subtree-level semanticallyaligned regularization to further enforce the semantic constraints and rationality of the generated expression tree by aligning with the contextual information. Finally, to validate the universality of our solver and extend the research boundary of MWPs, we introduce a new challenging Hybrid Math Word Problems dataset (HMWP), consisting of three types of MWPs. Experimental results on several MWPs datasets show that our model can solve universal types of MWPs and outperforms several state-of-the-art models.
翻訳日:2022-10-07 13:19:45 公開日:2020-10-14
# チュニジア感覚分析のための単語表現の学習

Learning Word Representations for Tunisian Sentiment Analysis ( http://arxiv.org/abs/2010.06857v1 )

ライセンス: Link先を確認
Abir Messaoudi and Hatem Haddad and Moez Ben HajHmida and Chayma Fourati and Abderrazak Ben Hamida(参考訳) ソーシャルメディア上のチュニジア人は、ラテン文字(TUNIZI)を使って地元の方言で表現する傾向がある。 これにより、オンラインの意見を探求し認識するプロセスに新たな課題が生まれます。 これまで、自動システムのトレーニングに必要なリソースが少ないため、TUNIZIの感情分析に対処する作業はほとんど行われていない。 本稿では,ソーシャルメディア上で使用されるチュニジア方言の感情分析に注目した。 以前の作業のほとんどは、機械学習技術と手作りの機能を組み合わせたものだった。 最近では、ディープニューラルネットワークがこのタスク、特に英語で広く使われている。 本稿では,様々な教師なし単語表現(word2vec, BERT)の重要性について検討し,畳み込みニューラルネットワークと双方向長短期記憶の利用について検討する。 手作りの機能を使わずに、2つの公開データセットにおける実験結果は、他の言語と同等のパフォーマンスを示しました。

Tunisians on social media tend to express themselves in their local dialect using Latin script (TUNIZI). This raises an additional challenge to the process of exploring and recognizing online opinions. To date, very little work has addressed TUNIZI sentiment analysis due to scarce resources for training an automated system. In this paper, we focus on the Tunisian dialect sentiment analysis used on social media. Most of the previous work used machine learning techniques combined with handcrafted features. More recently, Deep Neural Networks were widely used for this task, especially for the English language. In this paper, we explore the importance of various unsupervised word representations (word2vec, BERT) and we investigate the use of Convolutional Neural Networks and Bidirectional Long Short-Term Memory. Without using any kind of handcrafted features, our experimental results on two publicly available datasets showed comparable performances to other languages.
翻訳日:2022-10-07 13:19:19 公開日:2020-10-14
# pythonで日本語をトークン化するツールfugashi

fugashi, a Tool for Tokenizing Japanese in Python ( http://arxiv.org/abs/2010.06858v1 )

ライセンス: Link先を確認
Paul McCann(参考訳) 近年、大規模多言語nlpプロジェクトの数が増加している。 しかし、そのようなプロジェクトでも、特別な処理要件を持つ言語は除外されることが多い。 そのような言語は日本語である。 日本語はスペースなしで書かれており、トークン化は自明ではない。高品質なオープンソーストークンは存在するが、使用が難しく、英語のドキュメントが欠如している。 本稿では,Python用MeCabラッパーであるフガシを紹介し,日本語のトークン化について紹介する。

Recent years have seen an increase in the number of large-scale multilingual NLP projects. However, even in such projects, languages with special processing requirements are often excluded. One such language is Japanese. Japanese is written without spaces, tokenization is non-trivial, and while high quality open source tokenizers exist they can be hard to use and lack English documentation. This paper introduces fugashi, a MeCab wrapper for Python, and gives an introduction to tokenizing Japanese.
翻訳日:2022-10-07 13:19:07 公開日:2020-10-14
# 中国の語彙の単純化

Chinese Lexical Simplification ( http://arxiv.org/abs/2010.07048v1 )

ライセンス: Link先を確認
Jipeng Qiang and Xinyu Lu and Yun Li and Yunhao Yuan and Yang Shi and Xindong Wu(参考訳) 語彙の単純化は多くの言語で注目を集めており、これはある文中の複雑な単語を等価な意味の単純な代替語に置き換える過程である。 中国語の語彙の豊かさは、子供や非母語話者にとって非常に読みにくいが、中国語の語彙単純化(CLS)に関する研究は行われていない。 アノテーション取得の難しさを回避するため,私たちは,語彙単純化システムの自動評価に使用できるCLSの最初のベンチマークデータセットを手作業で作成する。 より詳細な比較を行うために,シノニムベースアプローチ,単語埋め込みベースアプローチ,事前学習型言語モデルベースアプローチ,セメムベースアプローチ,ハイブリッドアプローチなど,複雑な単語の代替候補を生成するためのベースラインとして,5つの異なる手法を提案する。 最後に,これらのベースラインの実験的評価を設計し,その利点と欠点について議論する。 私たちの知る限りでは、これがCLSタスクの最初の研究です。

Lexical simplification has attracted much attention in many languages, which is the process of replacing complex words in a given sentence with simpler alternatives of equivalent meaning. Although the richness of vocabulary in Chinese makes the text very difficult to read for children and non-native speakers, there is no research work for Chinese lexical simplification (CLS) task. To circumvent difficulties in acquiring annotations, we manually create the first benchmark dataset for CLS, which can be used for evaluating the lexical simplification systems automatically. In order to acquire more thorough comparison, we present five different types of methods as baselines to generate substitute candidates for the complex word that include synonym-based approach, word embedding-based approach, pretrained language model-based approach, sememe-based approach, and a hybrid approach. Finally, we design the experimental evaluation of these baselines and discuss their advantages and disadvantages. To our best knowledge, this is the first study for CLS task.
翻訳日:2022-10-07 13:18:18 公開日:2020-10-14
# PP-LinkNet:多段訓練による高解像度衛星画像のセマンティックセグメンテーションの改善

PP-LinkNet: Improving Semantic Segmentation of High Resolution Satellite Imagery with Multi-stage Training ( http://arxiv.org/abs/2010.06932v1 )

ライセンス: Link先を確認
An Tran, Ali Zonoozi, Jagannadan Varadarajan, Hannes Kruppa(参考訳) 道路網と建物の足跡抽出は、地図の更新、交通規制、都市計画、配車、災害対応 \textit{etc} など、多くのアプリケーションで不可欠である。 道路網のマッピングは、現在高価かつ労働集約的である。 近年,深層ニューラルネットワークの適用による画像分割の改善により,大規模高解像度衛星画像からの道路セグメント抽出に有望な結果が得られた。 しかし、業界グレードアプリケーションのモデル構築に必要な十分なラベル付きトレーニングデータが不足しているため、大きな課題が残っている。 本稿では,クラウドソースのOpenStreetMap(OSM)データから得られるノイズの多い擬似地中真実マスク(人的負担なしで)を活用する衛星画像のセマンティックセマンティックセマンティックセマンティクスの堅牢性を向上させるための2段階のトランスファー学習手法を提案する。 さらに、焦点損失、ポリラーニングレート、コンテキストモジュールを用いたセグメンテーションのための改良されたディープニューラルネットワークであるPraamid Pooling-LinkNet(PP-LinkNet)を提案する。 提案手法の強みは,2つの課題,すなわち道路抽出と足跡検出による3つの人気データセットの評価を通じて実証する。 具体的には、SpaceNet構築フットプリントデータセットで78.19\%の平均IoU、SpaceNetとDeepGlobe道路抽出データセットで67.03\%、77.11\%を得る。

Road network and building footprint extraction is essential for many applications such as updating maps, traffic regulations, city planning, ride-hailing, disaster response \textit{etc}. Mapping road networks is currently both expensive and labor-intensive. Recently, improvements in image segmentation through the application of deep neural networks has shown promising results in extracting road segments from large scale, high resolution satellite imagery. However, significant challenges remain due to lack of enough labeled training data needed to build models for industry grade applications. In this paper, we propose a two-stage transfer learning technique to improve robustness of semantic segmentation for satellite images that leverages noisy pseudo ground truth masks obtained automatically (without human labor) from crowd-sourced OpenStreetMap (OSM) data. We further propose Pyramid Pooling-LinkNet (PP-LinkNet), an improved deep neural network for segmentation that uses focal loss, poly learning rate, and context module. We demonstrate the strengths of our approach through evaluations done on three popular datasets over two tasks, namely, road extraction and building foot-print detection. Specifically, we obtain 78.19\% meanIoU on SpaceNet building footprint dataset, 67.03\% and 77.11\% on the road topology metric on SpaceNet and DeepGlobe road extraction dataset, respectively.
翻訳日:2022-10-07 13:12:16 公開日:2020-10-14
# 軽量3次元ディープラーニングアーキテクチャを用いたT1強調MRIボリュームの高速髄膜腫セグメンテーション

Fast meningioma segmentation in T1-weighted MRI volumes using a lightweight 3D deep learning architecture ( http://arxiv.org/abs/2010.07002v1 )

ライセンス: Link先を確認
David Bouget, Andr\'e Pedersen, Sayied Abdol Mohieb Hosainey, Johanna Vanel, Ole Solheim, Ingerid Reinertsen(参考訳) 診断, 治療計画, 腫瘍増殖評価には, t1強調mriで自動的かつ一貫した髄膜腫の分画と対応する容積評価が有用である。 本稿では,外科的治療を施した髄膜腫と外来での無治療髄膜腫の両方を用いて,セグメンテーションと処理速度を最適化した。 2つの異なる3dニューラルネットワークアーキテクチャを研究しました。 (i)3次元U-Netに似た単純なエンコーダデコーダ (ii)軽量マルチスケールアーキテクチャ(PLS-Net)。 さらに、異なるトレーニングスキームの影響について検討した。 本研究はノルウェーのトロンドハイムにあるセント・オラヴ大学病院で698 T1-weighted MR volume を用いた。 モデルは,検出精度,セグメンテーション精度,トレーニング/推論速度の観点から評価した。 どちらのアーキテクチャも平均70%のdiceスコアに達したが、pls-netはf1-scoreが88%まで正確であった。 最大の髄膜腫に対して最も高い精度が得られた。 速度的にはPSS-Netアーキテクチャは約50時間で収束する傾向にあり、U-Netには130時間が必要であった。 PLS-Netによる推論はGPUで1秒未満、CPUで約15秒かかる。 全体として、混合精度トレーニングを用いることで、軽量なPLS-Netアーキテクチャを用いて比較的短時間で競合セグメンテーションモデルを訓練することが可能となった。 将来的には, 臨床診断と早期診断, 成長予測の速さを改善するため, 小さな髄膜腫(2ml未満)の分節化に焦点をあてるべきである。

Automatic and consistent meningioma segmentation in T1-weighted MRI volumes and corresponding volumetric assessment is of use for diagnosis, treatment planning, and tumor growth evaluation. In this paper, we optimized the segmentation and processing speed performances using a large number of both surgically treated meningiomas and untreated meningiomas followed at the outpatient clinic. We studied two different 3D neural network architectures: (i) a simple encoder-decoder similar to a 3D U-Net, and (ii) a lightweight multi-scale architecture (PLS-Net). In addition, we studied the impact of different training schemes. For the validation studies, we used 698 T1-weighted MR volumes from St. Olav University Hospital, Trondheim, Norway. The models were evaluated in terms of detection accuracy, segmentation accuracy and training/inference speed. While both architectures reached a similar Dice score of 70% on average, the PLS-Net was more accurate with an F1-score of up to 88%. The highest accuracy was achieved for the largest meningiomas. Speed-wise, the PLS-Net architecture tended to converge in about 50 hours while 130 hours were necessary for U-Net. Inference with PLS-Net takes less than a second on GPU and about 15 seconds on CPU. Overall, with the use of mixed precision training, it was possible to train competitive segmentation models in a relatively short amount of time using the lightweight PLS-Net architecture. In the future, the focus should be brought toward the segmentation of small meningiomas (less than 2ml) to improve clinical relevance for automatic and early diagnosis as well as speed of growth estimates.
翻訳日:2022-10-07 13:11:50 公開日:2020-10-14
# 過剰なクラス数のための3次元分割ネットワーク:上半身の特定骨分割

3D Segmentation Networks for Excessive Numbers of Classes: Distinct Bone Segmentation in Upper Bodies ( http://arxiv.org/abs/2010.07045v1 )

ライセンス: Link先を確認
Eva Schnider, Antal Horv\'ath, Georg Rauter, Azhar Zam, Magdalena M\"uller-Gerbl, Philippe C. Cattin(参考訳) 骨の分離は、診断、計画、ナビゲーション、骨転移の評価において重要な役割を担っている。 外科的介入の計画と医療専門家の教育のための可視化ツールに意味知識を提供する。 ディープラーニングを用いた3次元データの完全教師付きセグメンテーションは、多くのタスクで広く研究されてきたが、通常は少数のクラスしか区別できない。 125個の骨があり、典型的な3Dセグメンテーションタスクよりも多くのラベルが含まれている。 このため、ほとんどの確立された方法の直接的適応は不可能である。 本稿では,多ラベル環境での3次元セグメンテーションネットワークのトレーニングの複雑さについて論じ,ネットワークアーキテクチャ,損失関数,データ拡張に必要となる変更点を示す。 その結果,本手法のロバスト性は,ct-scanを用いたエンド・ツー・エンドの学習方法で,100以上の異なる骨を同時に分割することで示される。

Segmentation of distinct bones plays a crucial role in diagnosis, planning, navigation, and the assessment of bone metastasis. It supplies semantic knowledge to visualisation tools for the planning of surgical interventions and the education of health professionals. Fully supervised segmentation of 3D data using Deep Learning methods has been extensively studied for many tasks but is usually restricted to distinguishing only a handful of classes. With 125 distinct bones, our case includes many more labels than typical 3D segmentation tasks. For this reason, the direct adaptation of most established methods is not possible. This paper discusses the intricacies of training a 3D segmentation network in a many-label setting and shows necessary modifications in network architecture, loss function, and data augmentation. As a result, we demonstrate the robustness of our method by automatically segmenting over one hundred distinct bones simultaneously in an end-to-end learnt fashion from a CT-scan.
翻訳日:2022-10-07 13:11:25 公開日:2020-10-14
# 分散機械学習を用いたプライバシ保護対象検出と位置決め:乳幼児のアイブリンク条件の検討

Privacy-Preserving Object Detection & Localization Using Distributed Machine Learning: A Case Study of Infant Eyeblink Conditioning ( http://arxiv.org/abs/2010.07259v1 )

ライセンス: Link先を確認
Stefan Zwaard, Henk-Jan Boele, Hani Alers, Christos Strydis, Casey Lew-Williams, and Zaid Al-Ars(参考訳) 分散機械学習は、プライバシ、計算スケーラビリティ、帯域幅の容量のため、一般的なモデルトレーニング手法になりつつある。 本研究では,オブジェクト検出によく使用される2つのアルゴリズムのスケーラブルな分散学習バージョンについて検討する。 向き付き勾配(hog)のヒストグラムに基づく線形支持ベクトル機械(l-svm)物体検出に対して,平均重み行列集約(mwma)を用いた新しい分散学習アルゴリズムを提案する。 さらに,ERT(Ensemble of Regression Trees)ランドマークローカライゼーションの分散トレーニングのために,新しいWeighted Bin Aggregation (WBA)アルゴリズムを提案する。 どちらのアルゴリズムもモデルアグリゲーションの位置を制限せず、モデル分散のためのカスタムアーキテクチャを可能にする。 本研究では,両アルゴリズムのプールベースのローカルトレーニング・アグリゲーション(pblta)アーキテクチャについて検討した。 医療分野における両方のアルゴリズムの応用について、幼児の心理と神経科学のアイブリンク条件づけのパラダイムを用いて検討した。 分散学習を使用すると、他のノードに画像データを送信せずにモデルをトレーニングすることができる。 カスタムソフトウェアはGitHubで公開されている。 https://github.com/SLWZwaard/DMT。 その結果,mwmaを用いたhogアルゴリズムのモデルの集約により,モデルの精度が保たれるだけでなく,従来の学習に比べて0.9%の精度で分散学習が可能となった。 さらに、wbaはシングルノードモデルと比較して精度8%の精度でertモデルの集約を可能にする。

Distributed machine learning is becoming a popular model-training method due to privacy, computational scalability, and bandwidth capacities. In this work, we explore scalable distributed-training versions of two algorithms commonly used in object detection. A novel distributed training algorithm using Mean Weight Matrix Aggregation (MWMA) is proposed for Linear Support Vector Machine (L-SVM) object detection based in Histogram of Orientated Gradients (HOG). In addition, a novel Weighted Bin Aggregation (WBA) algorithm is proposed for distributed training of Ensemble of Regression Trees (ERT) landmark localization. Both algorithms do not restrict the location of model aggregation and allow custom architectures for model distribution. For this work, a Pool-Based Local Training and Aggregation (PBLTA) architecture for both algorithms is explored. The application of both algorithms in the medical field is examined using a paradigm from the fields of psychology and neuroscience - eyeblink conditioning with infants - where models need to be trained on facial images while protecting participant privacy. Using distributed learning, models can be trained without sending image data to other nodes. The custom software has been made available for public use on GitHub: https://github.com/SLWZwaard/DMT. Results show that the aggregation of models for the HOG algorithm using MWMA not only preserves the accuracy of the model but also allows for distributed learning with an accuracy increase of 0.9% compared with traditional learning. Furthermore, WBA allows for ERT model aggregation with an accuracy increase of 8% when compared to single-node models.
翻訳日:2022-10-07 13:11:07 公開日:2020-10-14
# ミツバチコロニーの集団防御 : 実験結果と理論的モデリング

Collective defense of honeybee colonies: experimental results and theoretical modeling ( http://arxiv.org/abs/2010.07326v1 )

ライセンス: Link先を確認
Andrea L\'opez-Incera, Morgane Nouvian, Katja Ried, Thomas M\"uller and Hans J. Briegel(参考訳) 社会性の昆虫群は、通常、大きな脊椎動物捕食者に直面しており、集団的な防御を行う必要がある。 そのため、ミツバチはアラームフェロモンを使い、近くのミツバチを誘引して、認識された脅威を大量殺傷する。 このアラームフェロモンはスティンガーに直接運ばれるため、攻撃中にその濃度が上昇する。 ここでは, 個々のハチが異なるアラームフェロモン濃度にどのように反応するか, そして, この進化した反応パターンが群レベルでどのように協調するかを検討する。 まず,アラームフェロモンに個々の線量応答曲線を提示し,実験を行った。 次に,各ミツバチをフェロモン濃度に依存した人工学習エージェントとしてモデル化するために,投射シミュレーションを適用する。 創発的な集団的パフォーマンスがコロニーに利益をもたらす場合、それをもたらす個々の反応は強化学習によって強化され、自然選択をエミュレートする。 捕食者は、抵抗性、殺傷率、攻撃頻度などの要因の影響を研究するために、現実的な方法でモデル化される。 実験によって測定されたミツバチの反応パターンを再現し、それを形成する主選択圧を同定することができる。 最後に、このモデルを事例研究に適用し、ヨーロッパまたはアフリカミツバチの環境条件を表すパラメータを調整することにより、これらの2亜種間で観察される攻撃性の違いを予測できる。

Social insect colonies routinely face large vertebrate predators, against which they need to mount a collective defense. To do so, honeybees use an alarm pheromone that recruits nearby bees into mass stinging of the perceived threat. This alarm pheromone is carried directly on the stinger, hence its concentration builds up during the course of the attack. Here, we investigate how individual bees react to different alarm pheromone concentrations, and how this evolved response-pattern leads to better coordination at the group level. We first present an individual dose-response curve to the alarm pheromone, obtained experimentally. Second, we apply Projective Simulation to model each bee as an artificial learning agent that relies on the pheromone concentration to decide whether to sting or not. If the emergent collective performance benefits the colony, the individual reactions that led to it are enhanced via reinforcement learning, thus emulating natural selection. Predators are modeled in a realistic way so that the effect of factors such as their resistance, their killing rate or their frequency of attacks can be studied. We are able to reproduce the experimentally measured response-pattern of real bees, and to identify the main selection pressures that shaped it. Finally, we apply the model to a case study: by tuning the parameters to represent the environmental conditions of European or African bees, we can predict the difference in aggressiveness observed between these two subspecies.
翻訳日:2022-10-07 13:03:25 公開日:2020-10-14
# 非IID環境におけるフェデレート学習の精度向上

Improving Accuracy of Federated Learning in Non-IID Settings ( http://arxiv.org/abs/2010.15582v1 )

ライセンス: Link先を確認
Mustafa Safa Ozdayi, Murat Kantarcioglu, Rishabh Iyer(参考訳) Federated Learning(FL)は、データを共有することなく、参加するエージェントのセットが協力してモデルをトレーニングできる、分散機械学習プロトコルである。 これにより、FLは特にデータのプライバシが求められる設定に適している。 しかし、flの性能はエージェントのローカルデータ分布と密接に関連していることが観察されている。 特に、ローカルなデータ分布がエージェント間で大きく異なる環境では、FLは集中的なトレーニングに関してかなりパフォーマンスが悪い。 この問題に対処するため,性能劣化の原因を仮説化し,それに応じていくつかの手法を開発する。 本研究では,flに対する通信オーバーヘッドを発生させることなく,クライアント側,サーバ側いずれにおいても軽量な計算オーバーヘッドを発生させることなく,トレーニングモデルの性能を向上させるための4つの簡単な手法を特定する。 実験分析では,本手法の組み合わせにより,flでトレーニングしたモデルの検証精度がベースラインに対して12%以上向上した。 これは集中型データでトレーニングされたモデルの精度よりも約5%低い。

Federated Learning (FL) is a decentralized machine learning protocol that allows a set of participating agents to collaboratively train a model without sharing their data. This makes FL particularly suitable for settings where data privacy is desired. However, it has been observed that the performance of FL is closely tied with the local data distributions of agents. Particularly, in settings where local data distributions vastly differ among agents, FL performs rather poorly with respect to the centralized training. To address this problem, we hypothesize the reasons behind the performance degradation, and develop some techniques to address these reasons accordingly. In this work, we identify four simple techniques that can improve the performance of trained models without incurring any additional communication overhead to FL, but rather, some light computation overhead either on the client, or the server-side. In our experimental analysis, combination of our techniques improved the validation accuracy of a model trained via FL by more than 12% with respect to our baseline. This is about 5% less than the accuracy of the model trained on centralized data.
翻訳日:2022-10-07 13:03:01 公開日:2020-10-14
# 非重複指数列の混合を用いたフレキシブル平均場変動推定

Flexible mean field variational inference using mixtures of non-overlapping exponential families ( http://arxiv.org/abs/2010.06768v1 )

ライセンス: Link先を確認
Jeffrey P. Spence(参考訳) スパースモデルは、自動変数選択、支援解釈可能性、正規化を行うことができるため、様々なドメインにわたる多くのアプリケーションで望ましい。 しかし、ベイズフレームワークにスパースモデルを適用する場合、最も単純な場合を除いて、興味のあるパラメータの後方分布を解析的に得ることは不可能である。 結果として、実践者はマルコフ連鎖モンテカルロのようなサンプリングアルゴリズムや、近似的な後方を求める変分法に頼らなければならない。 平均場変動推論は特に単純で一般的なフレームワークであり、しばしばクローズドフォームパラメータの更新を解析的に導き出すことができる。 モデル内のすべての分布が指数族のメンバーであり、条件付き共役であるとき、最適化スキームはしばしば手で導かれる。 しかし, スパイク・アンド・スラブなどの疎性誘導前モデルに対して, 標準平均場変動推論を用いることで, 妥当な結果が得られないことを示す。 幸いなことに、指数的家族分布と非重複的なサポートの混合が指数的家族を形成することを示すように、そのような病理学的挙動を修復することができる。 特に、散在する指数関数族とゼロの点質量の混合により、スパーシティのモデル化は指数関数族を形成する。 さらに、これらの分布の特定の選択は条件付き共役性を維持する。 ひとつは回帰係数に先立ってスパイク・アンド・スラブで一般化された最小二乗に接続する統計遺伝学、もうひとつは確率的主成分分析である。 ここで示した理論的結果は、これら2つの例を越えて広く適用できる。

Sparse models are desirable for many applications across diverse domains as they can perform automatic variable selection, aid interpretability, and provide regularization. When fitting sparse models in a Bayesian framework, however, analytically obtaining a posterior distribution over the parameters of interest is intractable for all but the simplest cases. As a result practitioners must rely on either sampling algorithms such as Markov chain Monte Carlo or variational methods to obtain an approximate posterior. Mean field variational inference is a particularly simple and popular framework that is often amenable to analytically deriving closed-form parameter updates. When all distributions in the model are members of exponential families and are conditionally conjugate, optimization schemes can often be derived by hand. Yet, I show that using standard mean field variational inference can fail to produce sensible results for models with sparsity-inducing priors, such as the spike-and-slab. Fortunately, such pathological behavior can be remedied as I show that mixtures of exponential family distributions with non-overlapping support form an exponential family. In particular, any mixture of a diffuse exponential family and a point mass at zero to model sparsity forms an exponential family. Furthermore, specific choices of these distributions maintain conditional conjugacy. I use two applications to motivate these results: one from statistical genetics that has connections to generalized least squares with a spike-and-slab prior on the regression coefficients; and sparse probabilistic principal component analysis. The theoretical results presented here are broadly applicable beyond these two examples.
翻訳日:2022-10-07 13:02:45 公開日:2020-10-14
# 神経混合分布回帰

Neural Mixture Distributional Regression ( http://arxiv.org/abs/2010.06889v1 )

ライセンス: Link先を確認
David R\"ugamer, Florian Pfisterer and Bernd Bischl(参考訳) フレキシブルな加法予測器によって定義される分布回帰の複雑な有限混合を推定する包括的枠組みであるニューラルミックス分布回帰(NMDR)を提案する。 我々のフレームワークは、高次元設定で潜在的に異なる分布の多くの混合を処理でき、効率的でスケーラブルな最適化を可能にし、構造化回帰モデルとディープニューラルネットワークを組み合わせた最近の概念に適用することができる。 混合モデルに対する既存の多くのアプローチは、そのような最適化の課題に対処し、特定のモデル仮定の下で収束する結果を提供するが、我々のアプローチは仮定レスであり、代わりにディープラーニングにおいて十分に確立された最適化器を利用する。 広範な数値実験と高次元深層学習アプリケーションを通じて,提案手法が既存のアプローチと競合し,より複雑なシナリオでうまく機能することを示す。

We present neural mixture distributional regression (NMDR), a holistic framework to estimate complex finite mixtures of distributional regressions defined by flexible additive predictors. Our framework is able to handle a large number of mixtures of potentially different distributions in high-dimensional settings, allows for efficient and scalable optimization and can be applied to recent concepts that combine structured regression models with deep neural networks. While many existing approaches for mixture models address challenges in optimization of such and provide results for convergence under specific model assumptions, our approach is assumption-free and instead makes use of optimizers well-established in deep learning. Through extensive numerical experiments and a high-dimensional deep learning application we provide evidence that the proposed approach is competitive to existing approaches and works well in more complex scenarios.
翻訳日:2022-10-07 13:02:18 公開日:2020-10-14
# メタ学習における推定誤差の理論的境界

Theoretical bounds on estimation error for meta-learning ( http://arxiv.org/abs/2010.07140v1 )

ライセンス: Link先を確認
James Lucas, Mengye Ren, Irene Kameni, Toniann Pitassi, Richard Zemel(参考訳) 機械学習モデルは、トレーニングとテストの分布が正確に一致するという前提の下で伝統的に開発されてきた。 しかし、最近の数ショット学習や関連する問題の成功は、これらのモデルが、列車とテストの分布が異なるより現実的な設定に適応できることを示す兆候である。 残念ながら、これらのアルゴリズムの理論的サポートは極めて限られており、これらの問題の難しさについてはほとんど分かっていない。 本研究では,複数の情報源からのデータを学習し,新しいデータで検証したアルゴリズムに対して,最小収束率に関する新しい情報理論の下限を提供する。 我々の境界は、データソース間で共有される情報に直感的に依存し、任意のアルゴリズムのこの設定における学習の難しさを特徴付ける。 メタラーニングの階層的ベイズモデル上でこれらの境界を実証し,パラメータ推定における上限値と下限値の計算を行う。

Machine learning models have traditionally been developed under the assumption that the training and test distributions match exactly. However, recent success in few-shot learning and related problems are encouraging signs that these models can be adapted to more realistic settings where train and test distributions differ. Unfortunately, there is severely limited theoretical support for these algorithms and little is known about the difficulty of these problems. In this work, we provide novel information-theoretic lower-bounds on minimax rates of convergence for algorithms that are trained on data from multiple sources and tested on novel data. Our bounds depend intuitively on the information shared between sources of data, and characterize the difficulty of learning in this setting for arbitrary algorithms. We demonstrate these bounds on a hierarchical Bayesian model of meta-learning, computing both upper and lower bounds on parameter estimation via maximum-a-posteriori inference.
翻訳日:2022-10-07 13:01:04 公開日:2020-10-14
# 株式市場のリターンを説明するためにニューストピックを選択する

Choosing News Topics to Explain Stock Market Returns ( http://arxiv.org/abs/2010.07289v1 )

ライセンス: Link先を確認
Paul Glasserman, Kriste Krstovski, Paul Laliberte, Harry Mamaysky(参考訳) ニュース記事の話題選択手法を分析し,株価のリターンを説明する。 確率的emアルゴリズムでgibbsサンプリングによって実装された潜在ディリクレ割当 (slda) は、経験的および理論的結果を通じて、しばしばトピックモデルの有害性への回帰に過剰に適合する。 通常のLDAモデルのランダム探索により,サンプル外性能が向上する。 効果的なトピック割り当てを強化する分岐手順は、しばしば最もよく機能する。 我々は、s&p 500企業に関する9万以上のニュース記事のアーカイブでメソッドをテストする。

We analyze methods for selecting topics in news articles to explain stock returns. We find, through empirical and theoretical results, that supervised Latent Dirichlet Allocation (sLDA) implemented through Gibbs sampling in a stochastic EM algorithm will often overfit returns to the detriment of the topic model. We obtain better out-of-sample performance through a random search of plain LDA models. A branching procedure that reinforces effective topic assignments often performs best. We test methods on an archive of over 90,000 news articles about S&P 500 firms.
翻訳日:2022-10-07 13:00:47 公開日:2020-10-14
# 無限幅極限におけるニューラルネットワークの暗黙前兆の不確実性の検討

Exploring the Uncertainty Properties of Neural Networks' Implicit Priors in the Infinite-Width Limit ( http://arxiv.org/abs/2010.07355v1 )

ライセンス: Link先を確認
Ben Adlam, Jaehoon Lee, Lechao Xiao, Jeffrey Pennington, and Jasper Snoek(参考訳) 現代のディープラーニングモデルは、多くのデータモダリティの予測精度において大きな成功を収めている。 しかし、彼らの多くの現実世界のタスクへの応用は、分散外データ(ood)に対する過信や、分散シフト下での不穏な失敗など、不確かさの少ない推定によって制限されている。 以前のベンチマークでは、ニューラルネットワーク(NN)のアンサンブルがOODデータ上で最高の校正モデルであることが分かっていた。 これに触発された我々は、無限大のNNのアンサンブルの前の関数空間をガウス過程として特徴付ける最近の理論的進歩を活用し、ニューラルネットワークガウス過程(NNGP)と呼ぶ。 NNGPとソフトマックスリンク関数を用いて,多クラス分類のための確率モデルを構築し,潜在ガウス出力を後方からのサンプルにマーザライズする。 これにより、関数空間上の暗黙的な前のNNの配置をよりよく理解することができ、NNGPとその有限幅アナログの校正を直接比較することができる。 また,分類問題を1ホットラベルの回帰として扱うnngpによる分類手法のキャリブレーションについても検討した。 この場合、ベイズ後部は正確であり、クラス上のカテゴリー分布を生成するためにいくつかのヒューリスティックスを比較する。 これらの手法は分布シフトの下でよく校正されている。 最後に、トレーニング済みの埋め込みと合わせて無限幅の最終層を考える。 これにより、転送学習の重要な実用的なユースケースが再現され、さらに大きなデータセットへのスケーリングが可能になる。 競合予測精度を達成するだけでなく、このアプローチは有限幅のアナログよりもキャリブレーションが良い。

Modern deep learning models have achieved great success in predictive accuracy for many data modalities. However, their application to many real-world tasks is restricted by poor uncertainty estimates, such as overconfidence on out-of-distribution (OOD) data and ungraceful failing under distributional shift. Previous benchmarks have found that ensembles of neural networks (NNs) are typically the best calibrated models on OOD data. Inspired by this, we leverage recent theoretical advances that characterize the function-space prior of an ensemble of infinitely-wide NNs as a Gaussian process, termed the neural network Gaussian process (NNGP). We use the NNGP with a softmax link function to build a probabilistic model for multi-class classification and marginalize over the latent Gaussian outputs to sample from the posterior. This gives us a better understanding of the implicit prior NNs place on function space and allows a direct comparison of the calibration of the NNGP and its finite-width analogue. We also examine the calibration of previous approaches to classification with the NNGP, which treat classification problems as regression to the one-hot labels. In this case the Bayesian posterior is exact, and we compare several heuristics to generate a categorical distribution over classes. We find these methods are well calibrated under distributional shift. Finally, we consider an infinite-width final layer in conjunction with a pre-trained embedding. This replicates the important practical use case of transfer learning and allows scaling to significantly larger datasets. As well as achieving competitive predictive accuracy, this approach is better calibrated than its finite width analogue.
翻訳日:2022-10-07 12:54:31 公開日:2020-10-14
# グラディエントブースティングマシンの組合わせによる解釈可能な機械学習

Interpretable Machine Learning with an Ensemble of Gradient Boosting Machines ( http://arxiv.org/abs/2010.07388v1 )

ライセンス: Link先を確認
Andrei V. Konstantinov and Lev V. Utkin(参考訳) 良く知られた一般化加法モデルに基づくブラックボックスモデルの局所的および大域的解釈法を提案する。 これは、ニューラル加算モデルを用いてアルゴリズムの拡張または修正と見なすことができる。 本手法は,1つの特徴に基づいて各GBMを学習し,その特徴の形状関数を生成するように,勾配昇降機(GBM)のアンサンブルを用いて構成する。 アンサンブルは、一般化加法モデルを形成する形状関数の重み付け和となる別々のGBMの重み付け和として構成される。 GBMは、非常に単純なアーキテクチャを提供する深さ1のランダム化決定木を用いて並列に構築される。 GBMの重量と特徴は、ラッソ法を用いて各反復で計算され、特定の平滑化手順によって更新される。 神経添加モデルとは対照的に、この方法は明示的な形式の特徴の重みを与え、単に訓練される。 合成および実データセットに提案手法を実装したアルゴリズムを用いた数値実験は、局所的および大域的解釈の効率性と特性を実証する。

A method for the local and global interpretation of a black-box model on the basis of the well-known generalized additive models is proposed. It can be viewed as an extension or a modification of the algorithm using the neural additive model. The method is based on using an ensemble of gradient boosting machines (GBMs) such that each GBM is learned on a single feature and produces a shape function of the feature. The ensemble is composed as a weighted sum of separate GBMs resulting a weighted sum of shape functions which form the generalized additive model. GBMs are built in parallel using randomized decision trees of depth 1, which provide a very simple architecture. Weights of GBMs as well as features are computed in each iteration of boosting by using the Lasso method and then updated by means of a specific smoothing procedure. In contrast to the neural additive model, the method provides weights of features in the explicit form, and it is simply trained. A lot of numerical experiments with an algorithm implementing the proposed method on synthetic and real datasets demonstrate its efficiency and properties for local and global interpretation.
翻訳日:2022-10-07 12:54:05 公開日:2020-10-14
# サインを選ぶ: グラディエントサインドロップアウトによるディープマルチタスクモデルの最適化

Just Pick a Sign: Optimizing Deep Multitask Models with Gradient Sign Dropout ( http://arxiv.org/abs/2010.06808v1 )

ライセンス: Link先を確認
Zhao Chen, Jiquan Ngiam, Yanping Huang, Thang Luong, Henrik Kretzschmar, Yuning Chai, Dragomir Anguelov(参考訳) 深層モデルの大部分は、訓練可能な重みの共有セットを更新するために、通常、複数の損失項の合計に対応する複数の勾配信号を使用する。 しかし、これらの複数の更新は、矛盾する方向にモデルを引っ張ることで最適なトレーニングを妨げる可能性がある。 本稿では,その一貫性レベルに基づいて,アクティベーション層で勾配をサンプリングする確率的マスキング法であるGradDropについて述べる。 GradDropは、どんなディープネットでも使えるシンプルなディープ層として実装され、他の勾配バランスのアプローチと相乗効果がある。 本研究では,GradDropが従来のマルチタスクと移動学習設定において最先端のマルチロス手法よりも優れており,GradDropが最適マルチロストレーニングと勾配確率の関係を明らかにする方法について論じる。

The vast majority of deep models use multiple gradient signals, typically corresponding to a sum of multiple loss terms, to update a shared set of trainable weights. However, these multiple updates can impede optimal training by pulling the model in conflicting directions. We present Gradient Sign Dropout (GradDrop), a probabilistic masking procedure which samples gradients at an activation layer based on their level of consistency. GradDrop is implemented as a simple deep layer that can be used in any deep net and synergizes with other gradient balancing approaches. We show that GradDrop outperforms the state-of-the-art multiloss methods within traditional multitask and transfer learning settings, and we discuss how GradDrop reveals links between optimal multiloss training and gradient stochasticity.
翻訳日:2022-10-07 12:53:48 公開日:2020-10-14
# 帰属マップ生成のための学習伝播規則

Learning Propagation Rules for Attribution Map Generation ( http://arxiv.org/abs/2010.07210v1 )

ライセンス: Link先を確認
Yiding Yang, Jiayan Qiu, Mingli Song, Dacheng Tao, Xinchao Wang(参考訳) 先行勾配に基づく帰属マップ法では、非線形・活性化層を逆行する過程における手作りの伝播規則に依拠し、入力の勾配を生成し、帰属写像を生成する。 有望な結果にもかかわらず、これらの手法は非形式的高周波成分に敏感であり、様々なモデルやサンプルへの適応性に欠ける。 本稿では,手工芸品の欠点を克服し,自動で伝播規則を学習する属性マップを生成するための専用手法を提案する。 具体的には,マスク生成の後方通過中に,各画素に対して適応的な伝搬規則を適用可能な学習可能なプラグインモジュールを提案する。 その後、マスクされた入力画像が再びモデルに入力され、元の画像と組み合わせてガイダンスとして使用できる新しい出力が得られる。 導入された学習可能なモジュールは、高階差分サポートを備えた任意のオートグレードフレームワークでトレーニングすることができる。 5つのデータセットと6つのネットワークアーキテクチャで示されているように、提案手法は最先端の結果をもたらし、よりクリーンでより視覚的な帰属マップを提供する。

Prior gradient-based attribution-map methods rely on handcrafted propagation rules for the non-linear/activation layers during the backward pass, so as to produce gradients of the input and then the attribution map. Despite the promising results achieved, such methods are sensitive to the non-informative high-frequency components and lack adaptability for various models and samples. In this paper, we propose a dedicated method to generate attribution maps that allow us to learn the propagation rules automatically, overcoming the flaws of the handcrafted ones. Specifically, we introduce a learnable plugin module, which enables adaptive propagation rules for each pixel, to the non-linear layers during the backward pass for mask generating. The masked input image is then fed into the model again to obtain new output that can be used as a guidance when combined with the original one. The introduced learnable module can be trained under any auto-grad framework with higher-order differential support. As demonstrated on five datasets and six network architectures, the proposed method yields state-of-the-art results and gives cleaner and more visually plausible attribution maps.
翻訳日:2022-10-07 12:53:20 公開日:2020-10-14
# データフリーな知識伝達による高精度量子化と刈り取り

Towards Accurate Quantization and Pruning via Data-free Knowledge Transfer ( http://arxiv.org/abs/2010.07334v1 )

ライセンス: Link先を確認
Chen Zhu, Zheng Xu, Ali Shafahi, Manli Shu, Amin Ghiasi, Tom Goldstein(参考訳) 大規模トレーニングデータが利用可能であれば、量子化とプルーニングによってリソース制約のある環境で効果的に展開できるコンパクトで正確なネットワークを得ることができる。 しかし、トレーニングデータはプライバシー上の懸念から保護されることが多く、データ無しでコンパクトネットワークを得ることは困難である。 訓練された大規模ネットワークからコンパクトネットワークへ知識を移すことで,データフリーな量子化とプルーニングについて検討する。 補助発電機は、対象のコンパクトネットワークで同時に対角的に訓練され、与えられた大きなネットワークとその量子化または切断されたバージョンとの差を最大化する合成入力を生成する。 基本となるミニマックス問題に対する交互最適化は、プルーニングと量子化の穏やかな条件下で収束することを示す。 データフリーのコンパクトネットワークは、トレーニングデータで微調整されたネットワークに対して、競争力のある精度を実現します。 量子化およびprunedネットワークは、よりコンパクトで軽量で優れた性能を実現しています。 さらに,宝くじ仮説によるコンパクトな構造と対応する初期化が,データフリートレーニングにも有効であることを示す。

When large scale training data is available, one can obtain compact and accurate networks to be deployed in resource-constrained environments effectively through quantization and pruning. However, training data are often protected due to privacy concerns and it is challenging to obtain compact networks without data. We study data-free quantization and pruning by transferring knowledge from trained large networks to compact networks. Auxiliary generators are simultaneously and adversarially trained with the targeted compact networks to generate synthetic inputs that maximize the discrepancy between the given large network and its quantized or pruned version. We show theoretically that the alternating optimization for the underlying minimax problem converges under mild conditions for pruning and quantization. Our data-free compact networks achieve competitive accuracy to networks trained and fine-tuned with training data. Our quantized and pruned networks achieve good performance while being more compact and lightweight. Further, we demonstrate that the compact structure and corresponding initialization from the Lottery Ticket Hypothesis can also help in data-free training.
翻訳日:2022-10-07 12:53:01 公開日:2020-10-14
# 噂を聞かないで! インフルエンザ・フェイク・ツイート検出のための多言語的アプローチ

No Rumours Please! A Multi-Indic-Lingual Approach for COVID Fake-Tweet Detection ( http://arxiv.org/abs/2010.06906v1 )

ライセンス: Link先を確認
Debanjana Kar, Mohit Bhardwaj, Suranjana Samanta, Amar Prakash Azad(参考訳) 新型コロナウイルス(COVID-19)による突然のパンデミックは、私たちの生活に前例のない影響を与えた。 人類はかつてない屈辱的な恐怖とソーシャルメディアへの依存を乗り越えている。 恐怖は必然的にパニック、憶測、誤情報の拡散につながる。 多くの政府は、このような誤報の拡散を抑制する措置を講じている。 グローバルな尺度に加えて、効果的なアウトリーチを行うためには、人口動態的な地域言語のためのシステムが、この取り組みにおいて重要な役割を果たす。 そこで本研究では,twitterなどのソーシャルメディアから早期にcovid-19に関する偽ニュースを英語以外の複数の言語で検出する手法を提案する。 さらに、偽ニュース検出のためのHindiとBengaliのツイートの注釈付きデータセットも作成します。 我々は、偽ツイートを識別するために、Twitterから抽出した関連機能を付加したBERTベースのモデルを提案する。 複数のIndic言語へのアプローチを拡大するために、ヒンディー語とベンガル語で生成されたデータセットを微調整したmBERTベースのモデルを使います。 また,このような低リソース言語に対するデータ不足問題を解決するためのゼロショット学習手法を提案する。 厳密な実験により,我々は偽ツイート検出において約89%のf-scoreに到達し,最新(sota)結果に取って代わることを示した。 さらに,ヒンディー語とベンガル語という2つの言語に対する最初のベンチマークを確立する。 注釈付きデータを用い,ヒンディー語ではf-scoreが約79%,ベンガル語ではf-scoreが81%であった。 我々のゼロショットモデルは、ヒンズー語ではf-scoreが約81%、ベンガル語ではf-scoreが78%と、注釈付きデータなしで達成されている。

The sudden widespread menace created by the present global pandemic COVID-19 has had an unprecedented effect on our lives. Man-kind is going through humongous fear and dependence on social media like never before. Fear inevitably leads to panic, speculations, and the spread of misinformation. Many governments have taken measures to curb the spread of such misinformation for public well being. Besides global measures, to have effective outreach, systems for demographically local languages have an important role to play in this effort. Towards this, we propose an approach to detect fake news about COVID-19 early on from social media, such as tweets, for multiple Indic-Languages besides English. In addition, we also create an annotated dataset of Hindi and Bengali tweet for fake news detection. We propose a BERT based model augmented with additional relevant features extracted from Twitter to identify fake tweets. To expand our approach to multiple Indic languages, we resort to mBERT based model which is fine-tuned over created dataset in Hindi and Bengali. We also propose a zero-shot learning approach to alleviate the data scarcity issue for such low resource languages. Through rigorous experiments, we show that our approach reaches around 89% F-Score in fake tweet detection which supercedes the state-of-the-art (SOTA) results. Moreover, we establish the first benchmark for two Indic-Languages, Hindi and Bengali. Using our annotated data, our model achieves about 79% F-Score in Hindi and 81% F-Score for Bengali Tweets. Our zero-shot model achieves about 81% F-Score in Hindi and 78% F-Score for Bengali Tweets without any annotated data, which clearly indicates the efficacy of our approach.
翻訳日:2022-10-07 12:52:43 公開日:2020-10-14
# ニューラルデータベース

Neural Databases ( http://arxiv.org/abs/2010.06973v1 )

ライセンス: Link先を確認
James Thorne, Majid Yazdani, Marzieh Saeidi, Fabrizio Silvestri, Sebastian Riedel, Alon Halevy(参考訳) 近年、ニューラルネットワークは、長年にわたるAI問題、特に自然言語テキストからのクエリに対する応答において、顕著なパフォーマンス向上を見せている。 これらの進歩は、データベース管理の基本的な前提、すなわち、データが事前に定義されたスキーマのフィールドとして表現されていることを緩和できる点まで拡張できるかどうかという疑問を提起する。 本稿ではその質問に答える第一歩を示す。 我々はneuraldbについて述べる。neuraldbは事前に定義されたスキーマを持たないデータベースシステムで、更新とクエリは自然言語で与えられる。 我々は,最先端の自然言語処理手法によって提供されるプリミティブに基づいてクエリ処理技術を開発する。 まず,学習済み言語モデルを用いた最近のNLPトランスフォーマーが,関連する事実の正確なセットが与えられた場合,選択プロジェクト-ジョインクエリに応答可能であることを示す。 しかし、非自明なデータベースにはスケールできず、集約クエリの実行もできない。 これらの結果に基づき,複数のニューラルSPJ演算子を並列に動作させるNeuralDBアーキテクチャについて述べる。 これらの演算子の結果は必要に応じてアグリゲーション演算子に供給される。 本稿では,それぞれのニューラルSPJ演算子に入力される事象の適切な集合を生成する方法を学習するアルゴリズムについて述べる。 重要なことに、このアルゴリズムはNeural SPJ演算子自身で訓練することができる。 我々はNeuralDBとそのコンポーネントの精度を実験的に検証し、非常に高い精度で何千もの文に対する問い合わせに答えられることを示す。

In recent years, neural networks have shown impressive performance gains on long-standing AI problems, and in particular, answering queries from natural language text. These advances raise the question of whether they can be extended to a point where we can relax the fundamental assumption of database management, namely, that our data is represented as fields of a pre-defined schema. This paper presents a first step in answering that question. We describe NeuralDB, a database system with no pre-defined schema, in which updates and queries are given in natural language. We develop query processing techniques that build on the primitives offered by the state of the art Natural Language Processing methods. We begin by demonstrating that at the core, recent NLP transformers, powered by pre-trained language models, can answer select-project-join queries if they are given the exact set of relevant facts. However, they cannot scale to non-trivial databases and cannot perform aggregation queries. Based on these findings, we describe a NeuralDB architecture that runs multiple Neural SPJ operators in parallel, each with a set of database sentences that can produce one of the answers to the query. The result of these operators is fed to an aggregation operator if needed. We describe an algorithm that learns how to create the appropriate sets of facts to be fed into each of the Neural SPJ operators. Importantly, this algorithm can be trained by the Neural SPJ operator itself. We experimentally validate the accuracy of NeuralDB and its components, showing that we can answer queries over thousands of sentences with very high accuracy.
翻訳日:2022-10-07 12:52:16 公開日:2020-10-14
# テキスト要約における再評価

Re-evaluating Evaluation in Text Summarization ( http://arxiv.org/abs/2010.07100v1 )

ライセンス: Link先を確認
Manik Bhandari, Pranav Gour, Atabak Ashfaq, Pengfei Liu and Graham Neubig(参考訳) 手動評価のためのスタンドインとしての自動評価指標は、テキスト要約などのテキスト生成タスクの開発において不可欠な部分である。 しかしながら、この分野は進展していますが、私たちの標準メトリクスは、ほとんど20年近くの間、要約論文の標準評価でした。 本稿では,テキスト要約の評価手法を再評価する試みとして,システムレベルの評価設定と要約レベルの評価設定の両方で最近普及しているデータセットに対して,トップスコアシステム出力と抽出の両方を用いて,自動メトリクスの信頼性を評価する。 古いデータセットにおける評価指標に関する結論は、現代データセットやシステムに必ずしも当てはまらない。

Automated evaluation metrics as a stand-in for manual evaluation are an essential part of the development of text-generation tasks such as text summarization. However, while the field has progressed, our standard metrics have not -- for nearly 20 years ROUGE has been the standard evaluation in most summarization papers. In this paper, we make an attempt to re-evaluate the evaluation method for text summarization: assessing the reliability of automatic metrics using top-scoring system outputs, both abstractive and extractive, on recently popular datasets for both system-level and summary-level evaluation settings. We find that conclusions about evaluation metrics on older datasets do not necessarily hold on modern datasets and systems.
翻訳日:2022-10-07 12:51:51 公開日:2020-10-14
# 公平なcoxモデルによる医療資源の公平配分

Equitable Allocation of Healthcare Resources with Fair Cox Models ( http://arxiv.org/abs/2010.06820v1 )

ライセンス: Link先を確認
Kamrun Naher Keya, Rashidul Islam, Shimei Pan, Ian Stockwell, James R. Foulds(参考訳) medicaidのような医療プログラムは、脆弱な人々に重要なサービスを提供するが、限られた資源のために、これらのサービスを必要とする多くの個人は、待ち行列に最もこだわる。 生存モデル(例えば、コックス比例ハザードモデル)は、個人のニーズレベルを予測することによってこの状況を改善し、待機リストの優先順位付けに使用できる。 必要な人にケアを提供することは、それらの個人の制度化を防ぎ、生活の質を改善し、全体的なコストを削減できる。 このようなアプローチの利点は明確であるが、優先順位付けのプロセスが人口統計学的情報に基づく有害なステレオタイプから公平か独立かを保証するために注意が必要である。 本研究では,医療資源の公平な配分を確保するために,サバイバルモデルと対応するcox比例ハザードモデルに対する複数のフェアネス定義を開発する。 本稿では,2つのサバイバルデータセットの公平性と予測精度の観点から,本手法の有用性を実証する。

Healthcare programs such as Medicaid provide crucial services to vulnerable populations, but due to limited resources, many of the individuals who need these services the most languish on waiting lists. Survival models, e.g. the Cox proportional hazards model, can potentially improve this situation by predicting individuals' levels of need, which can then be used to prioritize the waiting lists. Providing care to those in need can prevent institutionalization for those individuals, which both improves quality of life and reduces overall costs. While the benefits of such an approach are clear, care must be taken to ensure that the prioritization process is fair or independent of demographic information-based harmful stereotypes. In this work, we develop multiple fairness definitions for survival models and corresponding fair Cox proportional hazards models to ensure equitable allocation of healthcare resources. We demonstrate the utility of our methods in terms of fairness and predictive accuracy on two publicly available survival datasets.
翻訳日:2022-10-07 12:51:41 公開日:2020-10-14
# 温度チェック:ソフトマックス-クロスエントロピー損失のあるトレーニングモデルの理論と実践

Temperature check: theory and practice for training models with softmax-cross-entropy losses ( http://arxiv.org/abs/2010.07344v1 )

ライセンス: Link先を確認
Atish Agarwala, Jeffrey Pennington, Yann Dauphin, Sam Schoenholz(参考訳) ソフトマックス関数とクロスエントロピー損失の組み合わせは、ディープラーニングにおいてユビキタスになった確率分布をモデル化するための原則的アプローチである。 ソフトマックス関数は、訓練後のモデルの信頼性を調整する方法として一般的に1つに設定される唯一のハイパーパラメータ(温度)によって定義されるが、温度がトレーニング力学や一般化性能にどのように影響するかは分かっていない。 本研究では,ソフトマックスクロスエントロピー損失をトレーニングしたモデルの早期学習の理論を考案し,学習のダイナミクスが,初期化時のロジットの大きさである |||\beta{\bf z}||_{2}$ と逆温度$\beta$ に依存することを示した。 CIFAR10, ImageNet, IMDBの感情分析に基づいて学習した各種モデルアーキテクチャについて, 大規模な実証的研究を行った。 一般化性能は温度に大きく依存するが,初期ロジットの大きさは弱い。 我々は、$\beta$への一般化の依存はモデル信頼性の変化によるものではなく、動的現象であることを示す。 チューニング可能なハイパーパラメータとして$\beta$を追加することが、モデルパフォーマンスを最大化するための鍵である。 アーキテクチャに敏感な最適な$\beta$が見つかるが、我々の結果は、研究対象のアーキテクチャすべてに対して、$\beta$が10^{-2}$から10^1$にチューニングされることを示唆している。 より小さな$\beta$は、学習安定性を犠牲にしてパフォーマンスを向上させる可能性がある。

The softmax function combined with a cross-entropy loss is a principled approach to modeling probability distributions that has become ubiquitous in deep learning. The softmax function is defined by a lone hyperparameter, the temperature, that is commonly set to one or regarded as a way to tune model confidence after training; however, less is known about how the temperature impacts training dynamics or generalization performance. In this work we develop a theory of early learning for models trained with softmax-cross-entropy loss and show that the learning dynamics depend crucially on the inverse-temperature $\beta$ as well as the magnitude of the logits at initialization, $||\beta{\bf z}||_{2}$. We follow up these analytic results with a large-scale empirical study of a variety of model architectures trained on CIFAR10, ImageNet, and IMDB sentiment analysis. We find that generalization performance depends strongly on the temperature, but only weakly on the initial logit magnitude. We provide evidence that the dependence of generalization on $\beta$ is not due to changes in model confidence, but is a dynamical phenomenon. It follows that the addition of $\beta$ as a tunable hyperparameter is key to maximizing model performance. Although we find the optimal $\beta$ to be sensitive to the architecture, our results suggest that tuning $\beta$ over the range $10^{-2}$ to $10^1$ improves performance over all architectures studied. We find that smaller $\beta$ may lead to better peak performance at the cost of learning stability.
翻訳日:2022-10-07 12:46:06 公開日:2020-10-14
# 深層学習モデルの性能に及ぼす活性化関数の非線形性の影響

Effects of the Nonlinearity in Activation Functions on the Performance of Deep Learning Models ( http://arxiv.org/abs/2010.07359v1 )

ライセンス: Link先を確認
Nalinda Kulathunga, Nishath Rajiv Ranasinghe, Daniel Vrinceanu, Zackary Kinsman, Lei Huang, Yunjiao Wang(参考訳) ディープラーニングモデルにおける活性化関数の非線形性は予測モデルの成功に不可欠である。 Rectified Linear Unit (ReLU) や Leaky-ReLU (L-ReLU) など、一般的な非線形関数はいくつかある。 実際、これらの機能はモデルの精度を著しく向上させる。 しかし、あるモデルが他のモデルよりも優れた性能を持つ理由に関して、これらの非線形活性化関数の機能についての洞察は限られている。 本稿では、ReLUやL-ReLUを異なるモデルアーキテクチャやデータドメインのアクティベーション機能として使用する際のモデル性能について検討する。 興味深いことに、モデル内のトレーニング可能なパラメータの数が比較的少ない場合、L-ReLUの適用はほとんど効果的であることがわかった。 さらに,VGG-16などの事前学習モデルを用いた場合,画像分類モデルはL-ReLUと完全連結層で良好に機能することがわかった。

The nonlinearity of activation functions used in deep learning models are crucial for the success of predictive models. There are several commonly used simple nonlinear functions, including Rectified Linear Unit (ReLU) and Leaky-ReLU (L-ReLU). In practice, these functions remarkably enhance the model accuracy. However, there is limited insight into the functionality of these nonlinear activation functions in terms of why certain models perform better than others. Here, we investigate the model performance when using ReLU or L-ReLU as activation functions in different model architectures and data domains. Interestingly, we found that the application of L-ReLU is mostly effective when the number of trainable parameters in a model is relatively small. Furthermore, we found that the image classification models seem to perform well with L-ReLU in fully connected layers, especially when pre-trained models such as the VGG-16 are used for the transfer learning.
翻訳日:2022-10-07 12:45:38 公開日:2020-10-14
# 対称分割を持つベイズニューラルネットワークに対するハミルトンモンテカルロのスケーリング

Scaling Hamiltonian Monte Carlo Inference for Bayesian Neural Networks with Symmetric Splitting ( http://arxiv.org/abs/2010.06772v1 )

ライセンス: Link先を確認
Adam D. Cobb, Brian Jalaian(参考訳) ハミルトニアンのモンテカルロ (HMC) はマルコフ連鎖モンテカルロ (MCMC) のアプローチであり、ニューラルネットワークのような高次元モデルにおいて好ましい探索特性を示す。 残念なことに、HMCは大規模なデータ体制でしか使われておらず、ハミルトニアン全体を維持するための適切なアプローチを模索する研究はほとんどない。 本研究では,確率勾配に依存しない分割HMCに対する新しい対称積分法を提案する。 我々は、新しい定式化が従来のアプローチよりも効率的であることを示し、単一のGPUで簡単に実装できることを示します。 その結果、データセット全体を使用して、一般的なディープラーニングアーキテクチャよりも完全なHMCを実現できる。 また, 確率勾配MCMCとの比較では, 精度と不確かさの両面において, 高い性能が得られることを示す。 提案手法は,大規模機械学習問題に対する推論スキームを考慮した場合,HMCを実現可能な選択肢として示す。

Hamiltonian Monte Carlo (HMC) is a Markov chain Monte Carlo (MCMC) approach that exhibits favourable exploration properties in high-dimensional models such as neural networks. Unfortunately, HMC has limited use in large-data regimes and little work has explored suitable approaches that aim to preserve the entire Hamiltonian. In our work, we introduce a new symmetric integration scheme for split HMC that does not rely on stochastic gradients. We show that our new formulation is more efficient than previous approaches and is easy to implement with a single GPU. As a result, we are able to perform full HMC over common deep learning architectures using entire data sets. In addition, when we compare with stochastic gradient MCMC, we show that our method achieves better performance in both accuracy and uncertainty quantification. Our approach demonstrates HMC as a feasible option when considering inference schemes for large-scale machine learning problems.
翻訳日:2022-10-07 12:45:23 公開日:2020-10-14
# 正常化への再構成:時系列異常検出のための逆進学習および遅延ベクトル制約オートエンコーダ

Reconstruct Anomaly to Normal: Adversarial Learned and Latent Vector-constrained Autoencoder for Time-series Anomaly Detection ( http://arxiv.org/abs/2010.06846v1 )

ライセンス: Link先を確認
Chunkai Zhang, Wei Zuo, Xuan Wang(参考訳) 時系列における異常検出は広く研究され、重要な実用的応用がなされている。 近年、異常検出アルゴリズムは主にディープラーニング生成モデルに基づいており、再構成誤差を用いて異常を検出する。 彼らは、トレーニングフェーズで正規データを再構成し、正常データの分布をキャプチャし、テストデータの再構成エラーを計算して異常検出を試みる。 しかし、その多くはトレーニングフェーズで通常のデータのみを使用しており、異常データの再構築プロセスを保証することができない。 したがって、異常データはしばしば適切に再構成され、再構成誤差が低くなり、異常データの欠落につながる。 さらに、時系列データ内のデータポイントの隣接情報は、これらのアルゴリズムでは十分に活用されていない。 本稿では,正規化に対する再構成異常の概念に基づくRANを提案し,教師なし時系列異常検出に適用する。 正規データの再構成誤差を最小化し、異常データの最大化するために、正規データの再構築を良好に行うだけでなく、異常データの再構成を正規データの分布と整合させることを試みる。 我々は,この概念を「類似異常データ」を導入し,特殊設計の潜在ベクトル制約型オートエンコーダと識別器を組み合わせることで,敵ネットワークを構築する。 ECG診断などの異なるシーンからの時系列データセットに関する大規模な実験では、RANが意味のある異常を検出し、AUC-ROCの点で他のアルゴリズムよりも優れていることが示されている。

Anomaly detection in time series has been widely researched and has important practical applications. In recent years, anomaly detection algorithms are mostly based on deep-learning generative models and use the reconstruction error to detect anomalies. They try to capture the distribution of normal data by reconstructing normal data in the training phase, then calculate the reconstruction error of test data to do anomaly detection. However, most of them only use the normal data in the training phase and can not ensure the reconstruction process of anomaly data. So, anomaly data can also be well reconstructed sometimes and gets low reconstruction error, which leads to the omission of anomalies. What's more, the neighbor information of data points in time series data has not been fully utilized in these algorithms. In this paper, we propose RAN based on the idea of Reconstruct Anomalies to Normal and apply it for unsupervised time series anomaly detection. To minimize the reconstruction error of normal data and maximize this of anomaly data, we do not just ensure normal data to reconstruct well, but also try to make the reconstruction of anomaly data consistent with the distribution of normal data, then anomalies will get higher reconstruction errors. We implement this idea by introducing the "imitated anomaly data" and combining a specially designed latent vector-constrained Autoencoder with the discriminator to construct an adversary network. Extensive experiments on time-series datasets from different scenes such as ECG diagnosis also show that RAN can detect meaningful anomalies, and it outperforms other algorithms in terms of AUC-ROC.
翻訳日:2022-10-07 12:45:07 公開日:2020-10-14
# VEST: 予測のための自動機能エンジニアリング

VEST: Automatic Feature Engineering for Forecasting ( http://arxiv.org/abs/2010.07137v1 )

ライセンス: Link先を確認
Vitor Cerqueira, Nuno Moniz, Carlos Soares(参考訳) 時系列予測は、幅広いドメインのアプリケーションにとって困難なタスクである。 自動回帰はこれらの問題に対処する最も一般的なアプローチの1つである。 したがって、観測は過去のラグを予測変数として複数の回帰によってモデル化される。 時系列の過去のダイナミクスを要約した統計を用いて,自動回帰プロセスの拡張について検討する。 我々の研究結果はVESTと呼ばれる新しいフレームワークであり、単変量および数値時系列を用いて特徴工学を自動で行うように設計されている。 提案手法は3つの主要なステップで機能する。 まず、最近の観測は異なる表現にマッピングされる。 第二に、各表現は統計関数によって要約される。 最後に、特徴選択にフィルタを適用する。 VESTが生成した特徴と自動回帰を組み合わせることで,予測性能が大幅に向上することを発見した。 サンプリング頻度の高い90の時系列を用いて証拠を提供する。 VESTはオンラインで公開されている。

Time series forecasting is a challenging task with applications in a wide range of domains. Auto-regression is one of the most common approaches to address these problems. Accordingly, observations are modelled by multiple regression using their past lags as predictor variables. We investigate the extension of auto-regressive processes using statistics which summarise the recent past dynamics of time series. The result of our research is a novel framework called VEST, designed to perform feature engineering using univariate and numeric time series automatically. The proposed approach works in three main steps. First, recent observations are mapped onto different representations. Second, each representation is summarised by statistical functions. Finally, a filter is applied for feature selection. We discovered that combining the features generated by VEST with auto-regression significantly improves forecasting performance. We provide evidence using 90 time series with high sampling frequency. VEST is publicly available online.
翻訳日:2022-10-07 12:43:57 公開日:2020-10-14
# オンライン意思決定のための統計的推論:コンテキスト帯域設定において

Statistical Inference for Online Decision-Making: In a Contextual Bandit Setting ( http://arxiv.org/abs/2010.07283v1 )

ライセンス: Link先を確認
Haoyu Chen, Wenbin Lu, Rui Song(参考訳) オンライン意思決定の問題は、インクリメンタル情報に基づいた一連の意思決定を必要とする。 一般的な解決策は、文脈情報を与えられた異なるアクションの報酬モデルを学び、それから長期的な報酬を最大化する。 仮定されたモデルが妥当かどうか、そのモデルが漸近的にどのように機能するかを知ることは有意義である。 本稿では,線形報酬モデルを用いたコンテキストバンディットフレームワークのセットアップにより,この問題を考察する。 古典的な探索と探索のジレンマに対応するために、$\varepsilon$-greedyポリシーが採用されている。 マルティンゲール中心極限定理を用いて、モデルパラメータのオンライン最小二乗推定器が漸近的に正規であることを示す。 線形モデルが誤特定された場合,逆回帰スコア重み付けを用いたオンライン最小二乗推定器を提案し,その漸近正規性を確立する。 さらに,パラメータ推定器の特性に基づいて,サンプル内逆確率重み値推定器が漸近的に正規であることを示す。 シミュレーションと、yahoo!のニュース記事レコメンデーションデータセットへのアプリケーションを用いて、この結果を示す。

Online decision-making problem requires us to make a sequence of decisions based on incremental information. Common solutions often need to learn a reward model of different actions given the contextual information and then maximize the long-term reward. It is meaningful to know if the posited model is reasonable and how the model performs in the asymptotic sense. We study this problem under the setup of the contextual bandit framework with a linear reward model. The $\varepsilon$-greedy policy is adopted to address the classic exploration-and-exploitation dilemma. Using the martingale central limit theorem, we show that the online ordinary least squares estimator of model parameters is asymptotically normal. When the linear model is misspecified, we propose the online weighted least squares estimator using the inverse propensity score weighting and also establish its asymptotic normality. Based on the properties of the parameter estimators, we further show that the in-sample inverse propensity weighted value estimator is asymptotically normal. We illustrate our results using simulations and an application to a news article recommendation dataset from Yahoo!.
翻訳日:2022-10-07 12:43:23 公開日:2020-10-14
# 確率勾配によるオンライン意思決定の統計的推測

Statistical Inference for Online Decision Making via Stochastic Gradient Descent ( http://arxiv.org/abs/2010.07341v1 )

ライセンス: Link先を確認
Haoyu Chen, Wenbin Lu, Rui Song(参考訳) オンライン意思決定は、パーソナライズされた意思決定を行い、再帰的に決定ルールを更新することによって、最適な決定ルールを学ぶことを目的としている。 ビッグデータの助けを借りて、これまで以上に簡単になりましたが、新しい課題も生まれました。 決定ルールはステップ毎に1回更新する必要があるため、すべての履歴データを使用するオフライン更新は、計算とストレージにおいて非効率である。 そこで本研究では,確率的勾配降下によって決定ルールをオンラインに更新できる完全オンラインアルゴリズムを提案する。 効率的だけでなく、あらゆる種類のパラメトリック報酬モデルもサポートしている。 オンライン意思決定の統計的推測に着目し,アルゴリズムが生成したパラメータ推定器の漸近正規度と,最適値の推定に用いたオンライン逆確率重み値推定器を確立する。 パラメータと値の分散に対するオンラインプラグイン推定器も提供され、一貫性があることが示され、この方法で間隔推定と仮説テストが可能である。 提案アルゴリズムと理論的結果は,ニュース記事推薦へのシミュレーションおよび実データ応用によって検証される。

Online decision making aims to learn the optimal decision rule by making personalized decisions and updating the decision rule recursively. It has become easier than before with the help of big data, but new challenges also come along. Since the decision rule should be updated once per step, an offline update which uses all the historical data is inefficient in computation and storage. To this end, we propose a completely online algorithm that can make decisions and update the decision rule online via stochastic gradient descent. It is not only efficient but also supports all kinds of parametric reward models. Focusing on the statistical inference of online decision making, we establish the asymptotic normality of the parameter estimator produced by our algorithm and the online inverse probability weighted value estimator we used to estimate the optimal value. Online plugin estimators for the variance of the parameter and value estimators are also provided and shown to be consistent, so that interval estimation and hypothesis test are possible using our method. The proposed algorithm and theoretical results are tested by simulations and a real data application to news article recommendation.
翻訳日:2022-10-07 12:43:01 公開日:2020-10-14
# ラベル名のみを用いたテキスト分類:言語モデル自己学習アプローチ

Text Classification Using Label Names Only: A Language Model Self-Training Approach ( http://arxiv.org/abs/2010.07245v1 )

ライセンス: Link先を確認
Yu Meng, Yunyi Zhang, Jiaxin Huang, Chenyan Xiong, Heng Ji, Chao Zhang, Jiawei Han(参考訳) 現在のテキスト分類法は、訓練データとして多くの人ラベルの文書を必要とするが、実際のアプリケーションではコストがかかり難い。 人間はラベル付きの例を見ることなく分類することができるが、分類対象のカテゴリを記述する小さな単語セットのみに基づいている。 本稿では,ラベル付き文書を使わずに,各クラスのラベル名のみを用いてラベル付きデータの分類モデルを訓練する可能性について検討する。 カテゴリー理解のための一般的な言語知識源として,文書分類のための表現学習モデルとして,事前学習されたニューラルネットワークモデルを用いる。 本手法は,(1) 意味的関連語とラベル名とを関連づけ,(2) カテゴリー指示語を検索し,そのカテゴリを予測できるようにモデルを訓練し,(3) 自己学習によりモデルを一般化する。 本モデルでは,ラベル付き文書を使わずにトピック分類や感情分類を含む4つのベンチマークデータセットで約90%の精度を実現するが,ラベル名としてクラス毎に最大3ワード(1つ)の教師付きデータから学習する。

Current text classification methods typically require a good number of human-labeled documents as training data, which can be costly and difficult to obtain in real applications. Humans can perform classification without seeing any labeled examples but only based on a small set of words describing the categories to be classified. In this paper, we explore the potential of only using the label name of each class to train classification models on unlabeled data, without using any labeled documents. We use pre-trained neural language models both as general linguistic knowledge sources for category understanding and as representation learning models for document classification. Our method (1) associates semantically related words with the label names, (2) finds category-indicative words and trains the model to predict their implied categories, and (3) generalizes the model via self-training. We show that our model achieves around 90% accuracy on four benchmark datasets including topic and sentiment classification without using any labeled documents but learning from unlabeled data supervised by at most 3 words (1 in most cases) per class as the label name.
翻訳日:2022-10-07 12:34:56 公開日:2020-10-14
# 言語から言語へ:LSTMの非意味言語刺激表現はどのように脳様か?

From Language to Language-ish: How Brain-Like is an LSTM's Representation of Nonsensical Language Stimuli? ( http://arxiv.org/abs/2010.07435v1 )

ライセンス: Link先を確認
Maryam Hashemzadeh, Greta Kaufeld, Martha White, Andrea E. Martin, Alona Fyshe(参考訳) 多くの言語モデル(単語埋め込み、ニューラルネットワーク、トランスフォーマー)によって生成された表現は、人々が読んでいる間に記録された脳の活動と相関する。 しかしながら、これらの復号結果は、通常、脳の構文的および意味論的に音声言語刺激に対する反応に基づいている。 本研究では,LSTM(長期記憶)言語モデルにおいて,意味的・構文的に無意味な言語を訓練し,意味的・統語的情報を劣化させた言語サンプルをどう表現するかを問う。 LSTM表現は、まだ脳の反応に似ているか? 我々は、ある種の非感覚言語であっても、脳の活動とLSTMの表現との間に統計的に有意な関係があることを発見した。 これは、少なくともいくつかのケースでは、LSTMとヒトの脳が同様に非感覚的なデータを処理していることを示している。

The representations generated by many models of language (word embeddings, recurrent neural networks and transformers) correlate to brain activity recorded while people read. However, these decoding results are usually based on the brain's reaction to syntactically and semantically sound language stimuli. In this study, we asked: how does an LSTM (long short term memory) language model, trained (by and large) on semantically and syntactically intact language, represent a language sample with degraded semantic or syntactic information? Does the LSTM representation still resemble the brain's reaction? We found that, even for some kinds of nonsensical language, there is a statistically significant relationship between the brain's activity and the representations of an LSTM. This indicates that, at least in some instances, LSTMs and the human brain handle nonsensical data similarly.
翻訳日:2022-10-07 12:34:35 公開日:2020-10-14
# 公平な機械学習のための説明可能性

Explainability for fair machine learning ( http://arxiv.org/abs/2010.07389v1 )

ライセンス: Link先を確認
Tom Begley, Tobias Schwedes, Christopher Frye, Ilya Feige(参考訳) 機械学習モデルによる決定や影響が私たちの生活にますます影響を与えているため、不公平を検出し、理解し、軽減することが重要です。 しかし、与えられた文脈で「不公平」がどんな意味を持つべきかを単に決定することさえ簡単ではない:多くの競合する定義があり、それらを選択するには、基礎となるタスクの深い理解が必要である。 したがって、モデルフェアネスに関する洞察を得るためにモデル説明可能性を使う傾向がありますが、既存の説明可能性ツールは、モデルが本当にフェアかどうかを確実に示していません。 本稿では、Shapley値のパラダイムに基づく機械学習における公平性を説明する新しいアプローチを提案する。 我々の公正な説明は、モデルがセンシティブな属性を直接操作していない場合であっても、モデル全体の不公平さを個々の入力特徴に帰着する。 さらに,Shapleyの説明可能性の線形性によって動機づけられたメタアルゴリズムを提案し,既存のトレーニング時間フェアネス介入を適用し,新しいモデルではなく,オリジナルのモデルに摂動を訓練する。 元のモデル、摂動、公正補正モデルを説明することで、介入によって行われている正確性と公正性のトレードオフについて洞察を得る。 さらに, このメタアルゴリズムは, 柔軟性と安定性を両立し, 性能の低下を伴わないことを示す。

As the decisions made or influenced by machine learning models increasingly impact our lives, it is crucial to detect, understand, and mitigate unfairness. But even simply determining what "unfairness" should mean in a given context is non-trivial: there are many competing definitions, and choosing between them often requires a deep understanding of the underlying task. It is thus tempting to use model explainability to gain insights into model fairness, however existing explainability tools do not reliably indicate whether a model is indeed fair. In this work we present a new approach to explaining fairness in machine learning, based on the Shapley value paradigm. Our fairness explanations attribute a model's overall unfairness to individual input features, even in cases where the model does not operate on sensitive attributes directly. Moreover, motivated by the linearity of Shapley explainability, we propose a meta algorithm for applying existing training-time fairness interventions, wherein one trains a perturbation to the original model, rather than a new model entirely. By explaining the original model, the perturbation, and the fair-corrected model, we gain insight into the accuracy-fairness trade-off that is being made by the intervention. We further show that this meta algorithm enjoys both flexibility and stability benefits with no loss in performance.
翻訳日:2022-10-07 12:27:09 公開日:2020-10-14
# 誤予測サンプルの同定:アクティブラーニングのための方法

Identifying Wrongly Predicted Samples: A Method for Active Learning ( http://arxiv.org/abs/2010.06890v1 )

ライセンス: Link先を確認
Rahaf Aljundi, Nikolay Chumerin and Daniel Olmeda Reino(参考訳) 最先端の機械学習モデルは、望まれるパフォーマンスのレベルを達成するために、大量の注釈付きデータにアクセスする必要がある。 ラベルなしのデータはほとんど利用可能で、豊富であるが、アノテーションプロセスは非常に高価で制限される可能性がある。 あるタスクに対して、あるサンプルが他のタスクよりも重要であるという仮定の下で、アクティブな学習は、アノテーションを取得するべき最も情報に富むサンプルを特定する問題をターゲットにしている。 本研究では,新しい未知ラベルを利用するためのプロキシとして,モデルの不確実性に従来から依存する代わりに,不確実性を超えた単純なサンプル選択基準を提案する。 まずモデル予測を受理し,その一般化誤差への影響を判断することにより,誤った予測サンプルを同定する。 我々はさらに,非常に効率的で類似性に基づく解釈を提供する基準の近似を提示する。 アクティブラーニングの標準ベンチマーク上での手法の評価に加えて,カテゴリが等しく表現されない不均衡データの現実的シナリオについても検討する。 最新の結果と誤った予測サンプルの同定率を示す。 提案手法は単純で,モデルに依存しず,スクラッチから再トレーニングする必要がなく,現在のモデル状態に依存している。

State-of-the-art machine learning models require access to significant amount of annotated data in order to achieve the desired level of performance. While unlabelled data can be largely available and even abundant, annotation process can be quite expensive and limiting. Under the assumption that some samples are more important for a given task than others, active learning targets the problem of identifying the most informative samples that one should acquire annotations for. Instead of the conventional reliance on model uncertainty as a proxy to leverage new unknown labels, in this work we propose a simple sample selection criterion that moves beyond uncertainty. By first accepting the model prediction and then judging its effect on the generalization error, we can better identify wrongly predicted samples. We further present an approximation to our criterion that is very efficient and provides a similarity based interpretation. In addition to evaluating our method on the standard benchmarks of active learning, we consider the challenging yet realistic scenario of imbalanced data where categories are not equally represented. We show state-of-the-art results and better rates at identifying wrongly predicted samples. Our method is simple, model agnostic and relies on the current model status without the need for re-training from scratch.
翻訳日:2022-10-07 12:26:01 公開日:2020-10-14
# Web質問応答のための半構造化データのグラフ表現

A Graph Representation of Semi-structured Data for Web Question Answering ( http://arxiv.org/abs/2010.06801v1 )

ライセンス: Link先を確認
Xingyao Zhang, Linjun Shou, Jian Pei, Ming Gong, Lijie Wen, Daxin Jiang(参考訳) HTMLベースのテーブルやリストなどのWeb上の豊富な半構造化データにより、商用検索エンジンは質問応答(QA)のための豊富な情報ソースを提供する。 webドキュメントの平文節とは異なり、webテーブルとリストには固有の構造があり、テーブルとリストのさまざまな要素間の意味的相関がある。 既存の研究の多くは、表やリストを平らな文書としてテキストで扱い、構造に隠された意味情報をうまく利用していない。 本稿では, 半構造化データ中の成分の体系的分類とそれらの関係に基づく, ウェブ表とリストの新しいグラフ表現を提案する。 また,QAタスクのグラフモデル上での事前学習および推論手法も開発する。 商用エンジンから収集した実データに対する広範囲な実験により,本手法の有効性が検証された。 本手法は,最先端のベースラインに対してF1スコアを3.90ポイント向上させる。

The abundant semi-structured data on the Web, such as HTML-based tables and lists, provide commercial search engines a rich information source for question answering (QA). Different from plain text passages in Web documents, Web tables and lists have inherent structures, which carry semantic correlations among various elements in tables and lists. Many existing studies treat tables and lists as flat documents with pieces of text and do not make good use of semantic information hidden in structures. In this paper, we propose a novel graph representation of Web tables and lists based on a systematic categorization of the components in semi-structured data as well as their relations. We also develop pre-training and reasoning techniques on the graph model for the QA task. Extensive experiments on several real datasets collected from a commercial engine verify the effectiveness of our approach. Our method improves F1 score by 3.90 points over the state-of-the-art baselines.
翻訳日:2022-10-07 12:25:37 公開日:2020-10-14
# 教師なしBLIにおけるリラクシドマッチング法

A Relaxed Matching Procedure for Unsupervised BLI ( http://arxiv.org/abs/2010.07095v1 )

ライセンス: Link先を確認
Xu Zhao, Zihao Wang, Hao Wu, Yong Zhang(参考訳) 最近、平行コーパスのない非教師付きバイリンガルレキシコン誘導(BLI)が研究の関心を集めている。 BLIタスクにおけるメソッドの重要な部分の1つは、マッチング手順である。 先行研究はマッチングに強い制約を課し、多くの反直感的な翻訳ペアリングに繋がる。 そこで本研究では,2言語間のより正確なマッチング方法を提案する。 また、ソースとターゲット言語を双方向に埋め込むことで、大幅な改善が期待できる。 我々は実験を行うための前回の反復的枠組みに従う。 提案手法の有効性は,従来の教師なし手法よりもかなり優れていた。

Recently unsupervised Bilingual Lexicon Induction (BLI) without any parallel corpus has attracted much research interest. One of the crucial parts in methods for the BLI task is the matching procedure. Previous works impose a too strong constraint on the matching and lead to many counterintuitive translation pairings. Thus, We propose a relaxed matching procedure to find a more precise matching between two languages. We also find that aligning source and target language embedding space bidirectionally will bring significant improvement. We follow the previous iterative framework to conduct experiments. Results on standard benchmark demonstrate the effectiveness of our proposed method, which substantially outperforms previous unsupervised methods.
翻訳日:2022-10-07 12:25:01 公開日:2020-10-14
# Vokenization: コンテキスト化された視覚的なスーパービジョンによる言語理解の改善

Vokenization: Improving Language Understanding with Contextualized, Visual-Grounded Supervision ( http://arxiv.org/abs/2010.06775v1 )

ライセンス: Link先を確認
Hao Tan, Mohit Bansal(参考訳) 人間は、マルチモーダルな現実世界との対話を通じて、聞き、話し、書く、読むなど、言語を学ぶ。 既存の言語事前学習フレームワークでは,テキストのみの自己教師付けの有効性を示しつつ,視覚教師付き言語モデルの考え方を考察する。 この探索を妨げている主な理由は、視覚的に接地された言語データセットと純粋言語コーパスの間の大きなばらつきと分布である。 そこで我々は,言語トークンを関連画像(vokensと呼ぶ)にコンテキストマッピングすることで,言語のみのデータにマルチモーダルアライメントを外挿する "vokenization" という手法を開発した。 vokenizer"は、比較的小さな画像キャプションデータセットでトレーニングされ、それを大言語コーパス用のvokenを生成するために適用します。 これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルは、GLUE、SQuAD、SWAGといった複数の純粋言語タスクにおいて、自己教師付き言語よりも一貫した改善を示す。 コードと事前トレーニング済みモデルはhttps://github.com/airsplay/vokenizationで公開されている。

Humans learn language by listening, speaking, writing, reading, and also, via interaction with the multimodal real world. Existing language pre-training frameworks show the effectiveness of text-only self-supervision while we explore the idea of a visually-supervised language model in this paper. We find that the main reason hindering this exploration is the large divergence in magnitude and distributions between the visually-grounded language datasets and pure-language corpora. Therefore, we develop a technique named "vokenization" that extrapolates multimodal alignments to language-only data by contextually mapping language tokens to their related images (which we call "vokens"). The "vokenizer" is trained on relatively small image captioning datasets and we then apply it to generate vokens for large language corpora. Trained with these contextually generated vokens, our visually-supervised language models show consistent improvements over self-supervised alternatives on multiple pure-language tasks such as GLUE, SQuAD, and SWAG. Code and pre-trained models publicly available at https://github.com/airsplay/vokenization
翻訳日:2022-10-07 12:18:36 公開日:2020-10-14
# 拡張クープマンモデル

Extended Koopman Models ( http://arxiv.org/abs/2010.06845v1 )

ライセンス: Link先を確認
Span Spanbauer, Ian Hunter(参考訳) 非線形動的モデリングのクープマン作用素法の2つの新しい一般化を導入する。 これらの一般化はそれぞれ、非線形非凸系の高速で大域的な最適制御のポテンシャルであるクープマン法の特徴を犠牲にすることなく、予測性能を大幅に改善する。 最初の一般化であるConvex Koopman Modelsは、持ち上げ空間における線型力学よりも凸を用いる。 2番目に拡張されたkoopmanモデルは、昇降凸ダイナミクスに寄与する制御信号の可逆変換も導入している。 これらのモデルのクラスをパラメータ化するためのディープラーニングアーキテクチャについて述べるとともに,非線形非凸力学系の軌道予測において,それぞれが従来のクープマンモデルを大きく上回っていることを実験的に示す。

We introduce two novel generalizations of the Koopman operator method of nonlinear dynamic modeling. Each of these generalizations leads to greatly improved predictive performance without sacrificing a unique trait of Koopman methods: the potential for fast, globally optimal control of nonlinear, nonconvex systems. The first generalization, Convex Koopman Models, uses convex rather than linear dynamics in the lifted space. The second, Extended Koopman Models, additionally introduces an invertible transformation of the control signal which contributes to the lifted convex dynamics. We describe a deep learning architecture for parameterizing these classes of models, and show experimentally that each significantly outperforms traditional Koopman models in trajectory prediction for two nonlinear, nonconvex dynamic systems.
翻訳日:2022-10-07 12:17:57 公開日:2020-10-14
# InstantEmbedding: 効率的なローカルノード表現

InstantEmbedding: Efficient Local Node Representations ( http://arxiv.org/abs/2010.06992v1 )

ライセンス: Link先を確認
\c{S}tefan Post\u{a}varu, Anton Tsitsulin, Filipe Miguel Gon\c{c}alves de Almeida, Yingtao Tian, Silvio Lattanzi, Bryan Perozzi(参考訳) 本稿では,ローカルなPageRank計算を用いて単一ノード表現を効率よく生成するInstantEmbeddingを提案する。 我々は,この手法が線形時間で一貫した表現を生成することを理論的に証明する。 10億のエッジを持つ実世界のデータセットで、広範囲な実験を行い、経験的に実証する。 InstantEmbeddingは、DeepWalk、node2vec、VERSE、FastRPといった従来の方法よりも、単一のノードの埋め込みを生成するのに、計算時間(9000倍以上)とメモリ(8,000倍以上)を劇的に削減する必要があることを確認した。 また,提案手法は,ノード分類やリンク予測などのタスクにおける教師なし表現学習の技術を満たしているか,あるいは超えた結果を示す高品質表現を生成する。

In this paper, we introduce InstantEmbedding, an efficient method for generating single-node representations using local PageRank computations. We theoretically prove that our approach produces globally consistent representations in sublinear time. We demonstrate this empirically by conducting extensive experiments on real-world datasets with over a billion edges. Our experiments confirm that InstantEmbedding requires drastically less computation time (over 9,000 times faster) and less memory (by over 8,000 times) to produce a single node's embedding than traditional methods including DeepWalk, node2vec, VERSE, and FastRP. We also show that our method produces high quality representations, demonstrating results that meet or exceed the state of the art for unsupervised representation learning on tasks like node classification and link prediction.
翻訳日:2022-10-07 12:16:50 公開日:2020-10-14