このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200719となっている論文です。

PDF登録状況(公開日: 20200719)

TitleAuthorsAbstract論文公表日・翻訳日
# 固体中のイオン拡散に対する量子アニール法

Quantum annealing approach to Ionic Diffusion in Solid ( http://arxiv.org/abs/1912.13251v2 )

ライセンス: Link先を確認
Keishu Utimula, Tom Ichibha, Genki I. Prayogo, Kenta Hongo, Kousuke Nakano, Ryo Maezono(参考訳) 本研究では,量子アニーリング計算を用いて固体中のイオン拡散の鍵量,相関係数を評価するフレームワークを開発した。 既存の手法では、物理的に非現実的なモデルの場合のみ相関係数を解析的に計算することができ、現在の${ab\initio}$技術で得られる拡散経路ネットワークの微細構造情報を拡散係数などのマクロな量に関連付けることは困難である。 我々はこの問題をイジングハミルトニアンによって記述された量子スピン系にマッピングした。 本手法をab initio法と組み合わせることで, 拡散係数が温度, 圧力, 原子置換などによってどのように制御されているかを理解することができ, スピンモデル上のシミュレーション量子アニーリング, 古典的なランダムウォーク, 行列記述, ハイブリッドソルバを用いたd波の量子アニーリングなど, 様々な計算手法により, 既知の正確な結果と単純な場合の相関係数を計算した。 この比較は、すべての評価が相互に一貫した結果をもたらすことを示しているが、従来のアプローチの多くは計算コストが不必要であることを示している。 量子アニーリングは現在、qビットのコストと不足のため実現不可能であるが、技術進歩がこの状況を変えれば、量子アニーリングは既存の全ての方法に勝ると主張している。

We have developed a framework for using quantum annealing computation to evaluate a key quantity in ionic diffusion in solids, the correlation factor. Existing methods can only calculate the correlation factor analytically in the case of physically unrealistic models, making it difficult to relate microstructural information about diffusion path networks obtainable by current ${ab\ initio}$ techniques to macroscopic quantities such as diffusion coefficients. We have mapped the problem into a quantum spin system described by the Ising Hamiltonian. By applying our framework in combination with ab initio technique, it is possible to understand how diffusion coefficients are controlled by temperatures, pressures, atomic substitutions, and other factors.We have calculated the correlation factor in a simple case with a known exact result by a variety of computational methods, including simulated quantum annealing on the spin models, the classical random walk, the matrix description, and quantum annealing on D-Wave with hybrid solver. This comparison shows that all the evaluations give consistent results with each other, but that many of the conventional approaches require infeasible computational costs. Quantum annealing is also currently infeasible because of the cost and scarcity of Q-bits, but we argue that when technological advances alter this situation, quantum annealing will easily outperform all existing methods.
翻訳日:2023-01-16 21:28:06 公開日:2020-07-19
# 複素ハダマール対角グラフ

Complex Hadamard Diagonalisable Graphs ( http://arxiv.org/abs/2001.00251v2 )

ライセンス: Link先を確認
Ada Chan, Shaun Fallat, Steve Kirkland, Jephian C.-H. Lin, Shahla Nasserasr, and Sarah Plosker(参考訳) 近年のハダマール対角化グラフ(ラプラシアン行列がハダマール行列によって対角化可能であるグラフ)に対する関心から、この概念を実数から複素ハダマール行列へと一般化する。 このようなグラフを構築するための基本的な性質と方法をいくつか提示する。 複素アダマール対角グラフの大規模なクラスは、等方分割を形成する頂点集合を持ち、ラプラシア固有値は偶数でなければならないことを示す。 グラフの特別なクラスである$\mathbb{z}_r^d$ 上のケイリーグラフと、非完全拡張された$p$-sum (neps) を含む、複素ハダマール対角化グラフの例と構成をいくつか提示する。 複素アダマール対角グラフにより記述された連続時間量子ウォークにおける$(\alpha, \beta)$--ラプラシアン分数復元と完全状態遷移の必要十分条件について議論し、そのような量子状態転移の例を示す。

In light of recent interest in Hadamard diagonalisable graphs (graphs whose Laplacian matrix is diagonalisable by a Hadamard matrix), we generalise this notion from real to complex Hadamard matrices. We give some basic properties and methods of constructing such graphs. We show that a large class of complex Hadamard diagonalisable graphs have vertex sets forming an equitable partition, and that the Laplacian eigenvalues must be even integers. We provide a number of examples and constructions of complex Hadamard diagonalisable graphs, including two special classes of graphs: the Cayley graphs over $\mathbb{Z}_r^d$, and the non--complete extended $p$--sum (NEPS). We discuss necessary and sufficient conditions for $(\alpha, \beta)$--Laplacian fractional revival and perfect state transfer on continuous--time quantum walks described by complex Hadamard diagonalisable graphs and provide examples of such quantum state transfer.
翻訳日:2023-01-16 09:47:08 公開日:2020-07-19
# トモグラフィーにおける金属人工物低減のための金属マスクの符号化

Encoding Metal Mask Projection for Metal Artifact Reduction in Computed Tomography ( http://arxiv.org/abs/2001.00340v3 )

ライセンス: Link先を確認
Yuanyuan Lyu, Wei-An Lin, Haofu Liao, Jingjing Lu, S. Kevin Zhou(参考訳) CT(Computerd tomography)における金属人工物還元(MAR)は、画像領域において人工物の構造と非局所性のため、非常に難しい課題である。 しかし、それらは本質的にシンノグラムドメイン内に存在する。 したがって、marへの1つの可能なアプローチは、シノグラムのアーティファクトを減らすために学習することで後者の特徴を利用することである。 しかし, シングラム中の金属汚染領域を直接処理し, ニューラルネットワークが生成する代理データに置き換える場合, 人工的に生成したCT画像は, 金属影響領域内の微細な詳細が完全に無視されるため, 過度に滑らかになり歪む傾向にある。 そこで本研究では,(1)シンノグラム中の金属損傷領域を保持,(2)金属インプラントの形状情報をエンコードする2値化金属トレースを金属マスク投影に置き換えることで,この問題に対する分析的考察を行い,この問題に対処することを提案する。 シミュレーションデータセットの広範囲な実験と臨床画像のエキスパート評価により,新しいネットワークは最先端の手法よりも解剖学的に正確なアーティファクト縮小画像を生成することが示された。

Metal artifact reduction (MAR) in computed tomography (CT) is a notoriously challenging task because the artifacts are structured and non-local in the image domain. However, they are inherently local in the sinogram domain. Thus, one possible approach to MAR is to exploit the latter characteristic by learning to reduce artifacts in the sinogram. However, if we directly treat the metal-affected regions in sinogram as missing and replace them with the surrogate data generated by a neural network, the artifact-reduced CT images tend to be over-smoothed and distorted since fine-grained details within the metal-affected regions are completely ignored. In this work, we provide analytical investigation to the issue and propose to address the problem by (1) retaining the metal-affected regions in sinogram and (2) replacing the binarized metal trace with the metal mask projection such that the geometry information of metal implants is encoded. Extensive experiments on simulated datasets and expert evaluations on clinical images demonstrate that our novel network yields anatomically more precise artifact-reduced images than the state-of-the-art approaches, especially when metallic objects are large.
翻訳日:2023-01-16 04:41:59 公開日:2020-07-19
# 変分オートエンコーダにおけるガウス過程を用いた映像列の多重特徴の解消

Disentangling Multiple Features in Video Sequences using Gaussian Processes in Variational Autoencoders ( http://arxiv.org/abs/2001.02408v3 )

ライセンス: Link先を確認
Sarthak Bhagat, Shagun Uppal, Zhuyun Yin and Nengli Lim(参考訳) MGP-VAE(Multi-disentangled-features Gaussian Processes Variational AutoEncoder)は,ビデオシーケンス内の非教師なし表現の学習において,ガウス過程(GP)を用いて潜在空間をモデル化する変分オートエンコーダである。 我々は、静的または動的に複数の機能をアンタングル化できるフレームワークを確立することで、以前の作業を改善する。 具体的には、各独立チャネルにおいてフレーム間相関構造を強制するために、分数的ブラウン運動(fBM)とブラウン橋(BB)を用い、この構造の変化により、データの変化の異なる要因を捉えることができることを示す。 我々は,3つの公開データセットを用いた実験により,表現の質を実証するとともに,映像予測タスクを用いて改善度を定量化する。 さらに,データ多様体の曲率を考慮した新しい測地線損失関数を導入し,学習を改善する。 実験により,改良された表現と新たな損失関数の組み合わせにより,mgp-vaeはビデオ予測のベースラインを上回った。

We introduce MGP-VAE (Multi-disentangled-features Gaussian Processes Variational AutoEncoder), a variational autoencoder which uses Gaussian processes (GP) to model the latent space for the unsupervised learning of disentangled representations in video sequences. We improve upon previous work by establishing a framework by which multiple features, static or dynamic, can be disentangled. Specifically we use fractional Brownian motions (fBM) and Brownian bridges (BB) to enforce an inter-frame correlation structure in each independent channel, and show that varying this structure enables one to capture different factors of variation in the data. We demonstrate the quality of our representations with experiments on three publicly available datasets, and also quantify the improvement using a video prediction task. Moreover, we introduce a novel geodesic loss function which takes into account the curvature of the data manifold to improve learning. Our experiments show that the combination of the improved representations with the novel loss function enable MGP-VAE to outperform the baselines in video prediction.
翻訳日:2023-01-13 12:41:52 公開日:2020-07-19
# 深層学習による未学習疾患を含む108,308個の網膜画像の異常検出

Deep learning achieves perfect anomaly detection on 108,308 retinal images including unlearned diseases ( http://arxiv.org/abs/2001.05859v5 )

ライセンス: Link先を確認
Ayaka Suzuki, Yoshiro Suzuki(参考訳) 光コヒーレンス断層撮影(OCT)は様々な網膜疾患の検出に有用である。 しかし、世界中の多くの場所で網膜oct像を診断できる眼科医は不足している。 octスクリーニングを安価かつ広範囲に提供し、自動診断システムが不可欠である。 網膜oct画像の診断において、眼科医を支援する機械学習技術が数多く提示されているが、眼科医に頼らずに独立して診断できる技術は存在せず、すなわち、未発見疾患を含む異常を見逃さない技術は存在しない。 この技術で病気を見渡すリスクがある限り、眼科医はこの技術を正常と分類した画像でさえダブルチェックしなければならない。 ここでは, ディープラーニングに基づく2値分類器(正規または異常)が, 108,308 次元網膜 oct 画像,すなわち true positive rate = 1.000000 と true negative rate = 1.000000 の完全分類を達成したことを示す。 テストセットには3種類の疾患が含まれていたが、そのうち2つは訓練には使用されなかった。 しかし、全てのテスト画像は正しく分類された。 さらに,本手法が患者レースの違いに対処できることを実証した。 従来の手法では実現していない。 本研究は「眼科医補助」から「眼科医非独立診断システム」への網膜CT画像の自動診断技術の導入の可能性を示した。

Optical coherence tomography (OCT) scanning is useful in detecting various retinal diseases. However, there are not enough ophthalmologists who can diagnose retinal OCT images in much of the world. To provide OCT screening inexpensively and extensively, an automated diagnosis system is indispensable. Although many machine learning techniques have been presented for assisting ophthalmologists in diagnosing retinal OCT images, there is no technique that can diagnose independently without relying on an ophthalmologist, i.e., there is no technique that does not overlook any anomaly, including unlearned diseases. As long as there is a risk of overlooking a disease with a technique, ophthalmologists must double-check even those images that the technique classifies as normal. Here, we show that our deep-learning-based binary classifier (normal or abnormal) achieved a perfect classification on 108,308 two-dimensional retinal OCT images, i.e., true positive rate = 1.000000 and true negative rate = 1.000000; hence, the area under the ROC curve = 1.0000000. Although the test set included three types of diseases, two of these were not used for training. However, all test images were correctly classified. Furthermore, we demonstrated that our scheme was able to cope with differences in patient race. No conventional approach has achieved the above performances. Our work has a sufficient possibility of raising automated diagnosis techniques for retinal OCT images from "assistant for ophthalmologists" to "independent diagnosis system without ophthalmologists".
翻訳日:2023-01-11 23:42:34 公開日:2020-07-19
# 分布検出のための深部残留流

Deep Residual Flow for Out of Distribution Detection ( http://arxiv.org/abs/2001.05419v3 )

ライセンス: Link先を確認
Ev Zisselman and Aviv Tamar(参考訳) 現実世界におけるニューラルネットワークの効果的な応用は、分布外例を十分に検出することに依存する。 現代手法では, 異常を適切に識別するために, 訓練データ中の特徴活性化の分布をモデル化し, 最先端の手法ではガウス分布モデルを用いる。 本稿では, 流れの正規化に基づく表現的密度モデルを用いて, 最先端の技術を改善する新しい手法を提案する。 本稿では,ガウス分布から残差分布を学習する新しいフローアーキテクチャである残差フローを紹介する。 我々のモデルは一般的であり、ほぼガウス的である任意のデータに適用することができる。 画像データセットにおける分布検出の欠如に対して,本手法は最先端技術に対する原理的改善を提供する。 具体的には,様々な画像データセットでトレーニングされたresnetおよびdrknetアーキテクチャにおいて,本手法の有効性を示す。 例えば、CIFAR-100でトレーニングされ、ImageNetデータセットから配布外サンプルの検出に基づいて評価されたResNetでは、真の正のレート(TPR)を9,5\%$とすることで、真の負のレート(TNR)を56.7\%(現在の最先端)から77.5\%(当社)に改善する。

The effective application of neural networks in the real-world relies on proficiently detecting out-of-distribution examples. Contemporary methods seek to model the distribution of feature activations in the training data for adequately distinguishing abnormalities, and the state-of-the-art method uses Gaussian distribution models. In this work, we present a novel approach that improves upon the state-of-the-art by leveraging an expressive density model based on normalizing flows. We introduce the residual flow, a novel flow architecture that learns the residual distribution from a base Gaussian distribution. Our model is general, and can be applied to any data that is approximately Gaussian. For out of distribution detection in image datasets, our approach provides a principled improvement over the state-of-the-art. Specifically, we demonstrate the effectiveness of our method in ResNet and DenseNet architectures trained on various image datasets. For example, on a ResNet trained on CIFAR-100 and evaluated on detection of out-of-distribution samples from the ImageNet dataset, holding the true positive rate (TPR) at $95\%$, we improve the true negative rate (TNR) from $56.7\%$ (current state-of-the-art) to $77.5\%$ (ours).
翻訳日:2023-01-11 05:39:50 公開日:2020-07-19
# フェデレーション学習におけるパーソナライズのための3つのアプローチ

Three Approaches for Personalization with Applications to Federated Learning ( http://arxiv.org/abs/2002.10619v2 )

ライセンス: Link先を確認
Yishay Mansour and Mehryar Mohri and Jae Ro and Ananda Theertha Suresh(参考訳) 機械学習の標準的な目標は、すべてのユーザに対して単一のモデルをトレーニングすることだ。 しかし、クラウドコンピューティングやフェデレーション学習といった多くの学習シナリオでは、ユーザ毎にパーソナライズされたモデルを学ぶことができる。 本研究では,パーソナライズに関する体系的な学習理論を提示する。 本稿では,ユーザクラスタリング,データ補間,モデル補間という3つのアプローチを提案する。 これら3つのアプローチすべてに対して,学習理論の保証と効率的なアルゴリズムを提供し,その性能を実証的に示す。 全てのアルゴリズムはモデルに依存しず、任意の仮説クラスで機能する。

The standard objective in machine learning is to train a single model for all users. However, in many learning scenarios, such as cloud computing and federated learning, it is possible to learn a personalized model per user. In this work, we present a systematic learning-theoretic study of personalization. We propose and analyze three approaches: user clustering, data interpolation, and model interpolation. For all three approaches, we provide learning-theoretic guarantees and efficient algorithms for which we also demonstrate the performance empirically. All of our algorithms are model-agnostic and work for any hypothesis class.
翻訳日:2022-12-28 20:44:05 公開日:2020-07-19
# jigsawパッチのプログレッシブ多粒度トレーニングによる細粒度視覚分類

Fine-Grained Visual Classification via Progressive Multi-Granularity Training of Jigsaw Patches ( http://arxiv.org/abs/2003.03836v3 )

ライセンス: Link先を確認
Ruoyi Du, Dongliang Chang, Ayan Kumar Bhunia, Jiyang Xie, Zhanyu Ma, Yi-Zhe Song, Jun Guo(参考訳) 微粒な視覚分類(FGVC)は、本質的に微妙なクラス内オブジェクトの変化のため、従来の分類タスクよりもはるかに難しい。 最近の研究は主に、最も識別的な部分、より補足的な部分、および様々な粒状物の部分を見つける方法に焦点を当ててこの問題に取り組んでいる。 しかし、どの粒度が最も差別的であるか、どのように情報を多粒性に融合するか、といったことへの努力は少ない。 本研究では,これらの問題に対処するための視覚的きめ細かい分類のための新しい枠組みを提案する。 特に,我々は次のように提案する。 (i)異なる粒度から効果的に特徴を融合させる漸進的な訓練戦略 (ii)ネットワークが特定の粒度で特徴を学習することを奨励するランダムjigsawパッチジェネレータ。 提案手法は, 既存の手法を一貫して上回ったり, 競争力のある結果をもたらすなど, 標準のfgvcベンチマークデータセットで最先端のパフォーマンスを得る。 コードはhttps://github.com/PRIS-CV/PMG-Progressive-Multi-Granularity-Trainingで入手できる。

Fine-grained visual classification (FGVC) is much more challenging than traditional classification tasks due to the inherently subtle intra-class object variations. Recent works mainly tackle this problem by focusing on how to locate the most discriminative parts, more complementary parts, and parts of various granularities. However, less effort has been placed to which granularities are the most discriminative and how to fuse information cross multi-granularity. In this work, we propose a novel framework for fine-grained visual classification to tackle these problems. In particular, we propose: (i) a progressive training strategy that effectively fuses features from different granularities, and (ii) a random jigsaw patch generator that encourages the network to learn features at specific granularities. We obtain state-of-the-art performances on several standard FGVC benchmark datasets, where the proposed method consistently outperforms existing methods or delivers competitive results. The code will be available at https://github.com/PRIS-CV/PMG-Progressive-Multi-Granularity-Training.
翻訳日:2022-12-25 14:34:00 公開日:2020-07-19
# 弱教師付き物体定位のためのペアワイズ類似性知識伝達

Pairwise Similarity Knowledge Transfer for Weakly Supervised Object Localization ( http://arxiv.org/abs/2003.08375v2 )

ライセンス: Link先を確認
Amir Rahimi, Amirreza Shaban, Thalaiyasingam Ajanthan, Richard Hartley, Byron Boots(参考訳) Wakly Supervised Object Localization (WSOL) は、完全な教師付きアルゴリズムで必要とされる高価なバウンディングボックスアノテーションとは対照的に、画像レベルのラベルのみを必要とする。 弱教師付きイメージラベルを持つ対象クラスを対象とした局所化モデル学習の問題点を,完全注釈付きソースデータセットを用いて検討した。 通常、WSOLモデルは、オフザシェルフ完全教師付きソースデータセットでクラスジェネリックオブジェクト性スコアを予測するために訓練され、その後、弱教師付きターゲットデータセットでオブジェクトを学習するように順応する。 本研究では,対象性関数のみを学習することは知識伝達の弱い形態であり,2つの入力提案を直接比較するクラスワイズペアワイズ類似性関数を学習することを提案する。 ローカライゼーションモデルと推定対象アノテーションの組み合わせは、標準WSOLメソッドで一般的に行われているように、交互最適化パラダイムで共同で学習される。 対の類似性を学習する既存の研究とは対照的に,本手法は収束保証を伴う統一目的を最適化し,大規模アプリケーションでは計算効率がよい。 COCOおよびILSVRC 2013検出データセットの実験では、ペアワイズ類似度関数を含むことにより、ローカライズモデルの性能が大幅に向上することが示された。 例えば、ILSVRCデータセットでは、CorLoc(Correct Localization)のパフォーマンスは72.8%から78.2%に向上している。

Weakly Supervised Object Localization (WSOL) methods only require image level labels as opposed to expensive bounding box annotations required by fully supervised algorithms. We study the problem of learning localization model on target classes with weakly supervised image labels, helped by a fully annotated source dataset. Typically, a WSOL model is first trained to predict class generic objectness scores on an off-the-shelf fully supervised source dataset and then it is progressively adapted to learn the objects in the weakly supervised target dataset. In this work, we argue that learning only an objectness function is a weak form of knowledge transfer and propose to learn a classwise pairwise similarity function that directly compares two input proposals as well. The combined localization model and the estimated object annotations are jointly learned in an alternating optimization paradigm as is typically done in standard WSOL methods. In contrast to the existing work that learns pairwise similarities, our approach optimizes a unified objective with convergence guarantee and it is computationally efficient for large-scale applications. Experiments on the COCO and ILSVRC 2013 detection datasets show that the performance of the localization model improves significantly with the inclusion of pairwise similarity function. For instance, in the ILSVRC dataset, the Correct Localization (CorLoc) performance improves from 72.8% to 78.2% which is a new state-of-the-art for WSOL task in the context of knowledge transfer.
翻訳日:2022-12-22 12:49:31 公開日:2020-07-19
# 属性分解型GANによる人物画像合成

Controllable Person Image Synthesis with Attribute-Decomposed GAN ( http://arxiv.org/abs/2003.12267v4 )

ライセンス: Link先を確認
Yifang Men, Yiming Mao, Yuning Jiang, Wei-Ying Ma, Zhouhui Lian(参考訳) 本稿では,人物画像合成のための新しい生成モデルであるAttribute-Decomposed GANについて紹介する。 提案モデルの中核となる考え方は、人間の属性を独立コードとして潜在空間に埋め込み、明示的なスタイル表現の混合と補間操作を通じて属性の柔軟かつ連続的な制御を実現することである。 具体的には、従来のハードマッピングを複数のアクセス可能なサブタスクに分解するために、スタイルブロック接続を持つ2つのエンコーディングパスからなる新しいアーキテクチャを提案する。 ソースパスでは、市販のヒューマンパーサでコンポーネントレイアウトを抽出し、分解された潜在コードのための共有グローバルテクスチャエンコーダに供給する。 この戦略により、よりリアルな出力画像の合成と注釈のない属性の自動分離が可能になる。 提案手法は, ポーズ伝達における技量よりも優れていることを示す実験結果と, コンポーネント特性伝達の新たな課題における有効性を示す。

This paper introduces the Attribute-Decomposed GAN, a novel generative model for controllable person image synthesis, which can produce realistic person images with desired human attributes (e.g., pose, head, upper clothes and pants) provided in various source inputs. The core idea of the proposed model is to embed human attributes into the latent space as independent codes and thus achieve flexible and continuous control of attributes via mixing and interpolation operations in explicit style representations. Specifically, a new architecture consisting of two encoding pathways with style block connections is proposed to decompose the original hard mapping into multiple more accessible subtasks. In source pathway, we further extract component layouts with an off-the-shelf human parser and feed them into a shared global texture encoder for decomposed latent codes. This strategy allows for the synthesis of more realistic output images and automatic separation of un-annotated attributes. Experimental results demonstrate the proposed method's superiority over the state of the art in pose transfer and its effectiveness in the brand-new task of component attribute transfer.
翻訳日:2022-12-19 05:14:19 公開日:2020-07-19
# 混合車両輸送船のルートレベルエネルギー利用に関するデータ駆動予測

Data-Driven Prediction of Route-Level Energy Use for Mixed-Vehicle Transit Fleets ( http://arxiv.org/abs/2004.06043v2 )

ライセンス: Link先を確認
Afiya Ayman, Michael Wilbur, Amutheezan Sivagnanam, Philip Pugliese, Abhishek Dubey, Aron Laszka(参考訳) 環境影響、運転コスト、エネルギーセキュリティに関する懸念が高まっているため、公共交通機関は電気自動車(EV)の使用による燃料使用の削減を模索している。 しかし、evの先行コストが高いため、ほとんどの機関は内燃機関と電気自動車の混合車両のみを購入できる。 これらの混合車両を最大限に活用することは、交通路への車両の割り当ての最適化、充電のスケジューリング等が電気と燃料の使用の正確な予測を必要とするため、機関にとって課題となっている。 センサベースの技術、データ分析、機械学習の最近の進歩は、この状況を改善することができるが、私たちの知る限り、関連するすべてのデータを公共交通機関のルートレベルの予測モデルに統合するフレームワークは存在しない。 本稿では,tnのチャタヌーガ公共交通機関であるcartaのバス車両群から収集したデータを用いて,車両混合輸送車両の経路レベルエネルギー使用量を予測するための新しい枠組みを提案する。 本稿では,交通や気象条件を含むシステムレベルのデータと,位置追跡や燃料利用,電力使用など,高周波車両レベルのデータを取得するためのデータ収集およびストレージフレームワークを提案する。 街路マップや標高マップなど,様々な情報源からのデータの統合と浄化を行うための,ドメイン固有の手法とアルゴリズムを提案する。 最後に、統合データセット上で、ディープニューラルネットワーク、決定木、線形回帰を含む機械学習モデルをトレーニングし、評価します。 その結果,ニューラルネットワークは正確な推定値を提供するが,他のモデルではエネルギー利用と道路や気象条件などの要因の関係を発見できることがわかった。

Due to increasing concerns about environmental impact, operating costs, and energy security, public transit agencies are seeking to reduce their fuel use by employing electric vehicles (EVs). However, because of the high upfront cost of EVs, most agencies can afford only mixed fleets of internal-combustion and electric vehicles. Making the best use of these mixed fleets presents a challenge for agencies since optimizing the assignment of vehicles to transit routes, scheduling charging, etc. require accurate predictions of electricity and fuel use. Recent advances in sensor-based technologies, data analytics, and machine learning enable remedying this situation; however, to the best of our knowledge, there exists no framework that would integrate all relevant data into a route-level prediction model for public transit. In this paper, we present a novel framework for the data-driven prediction of route-level energy use for mixed-vehicle transit fleets, which we evaluate using data collected from the bus fleet of CARTA, the public transit authority of Chattanooga, TN. We present a data collection and storage framework, which we use to capture system-level data, including traffic and weather conditions, and high-frequency vehicle-level data, including location traces, fuel or electricity use, etc. We present domain-specific methods and algorithms for integrating and cleansing data from various sources, including street and elevation maps. Finally, we train and evaluate machine learning models, including deep neural networks, decision trees, and linear regression, on our integrated dataset. Our results show that neural networks provide accurate estimates, while other models can help us discover relations between energy use and factors such as road and weather conditions.
翻訳日:2022-12-14 21:29:12 公開日:2020-07-19
# PatchAttack:強化学習によるブラックボックステクスチャベースの攻撃

PatchAttack: A Black-box Texture-based Attack with Reinforcement Learning ( http://arxiv.org/abs/2004.05682v2 )

ライセンス: Link先を確認
Chenglin Yang, Adam Kortylewski, Cihang Xie, Yinzhi Cao, and Alan Yuille(参考訳) パッチベースの攻撃は、誤分類を引き起こす入力に認識できるが局所的な変更をもたらす。 現在のパッチベースのブラックボックスアタックの制限は、ターゲットアタックに対してパフォーマンスが悪く、より困難な非ターゲットシナリオであっても、大量のクエリが必要になることだ。 提案したPatchAttackは、クエリ効率が高く、ターゲットと非ターゲットの両方の攻撃のモデルを壊すことができる。 PatchAttackは入力画像に小さなテクスチャパッチを重ね合わせて誤分類を誘導する。 我々はこれらのパッチの外観をクラス固有のテクスチャの辞書によってパラメトリする。 このテクスチャ辞書は、VGGバックボーンから特徴活性化のグラム行列をクラスタリングすることによって学習される。 patchattackは強化学習を用いて各パッチの位置とテクスチャパラメータを最適化する。 我々の実験によると、PatchAttackは幅広いアーキテクチャでImageNetで99%の成功率を達成したが、ターゲット外攻撃では3%、標的攻撃では平均10%しかイメージを処理していない。 さらに,PatchAttackは,最先端の対人防御手法を回避できることを示す。

Patch-based attacks introduce a perceptible but localized change to the input that induces misclassification. A limitation of current patch-based black-box attacks is that they perform poorly for targeted attacks, and even for the less challenging non-targeted scenarios, they require a large number of queries. Our proposed PatchAttack is query efficient and can break models for both targeted and non-targeted attacks. PatchAttack induces misclassifications by superimposing small textured patches on the input image. We parametrize the appearance of these patches by a dictionary of class-specific textures. This texture dictionary is learned by clustering Gram matrices of feature activations from a VGG backbone. PatchAttack optimizes the position and texture parameters of each patch using reinforcement learning. Our experiments show that PatchAttack achieves > 99% success rate on ImageNet for a wide range of architectures, while only manipulating 3% of the image for non-targeted attacks and 10% on average for targeted attacks. Furthermore, we show that PatchAttack circumvents state-of-the-art adversarial defense methods successfully.
翻訳日:2022-12-14 05:32:29 公開日:2020-07-19
# SemEval-2020 Task 1におけるUiO-UvA: 語彙意味変化検出のためのコンテキスト付き埋め込み

UiO-UvA at SemEval-2020 Task 1: Contextualised Embeddings for Lexical Semantic Change Detection ( http://arxiv.org/abs/2005.00050v3 )

ライセンス: Link先を確認
Andrey Kutuzov and Mario Giulianelli(参考訳) SemEval-2020 Shared Task 1における語彙意味変化検出に文脈的単語埋め込みを適用した。 本稿では,時間経過に伴う意味的ドリフトの程度で単語をランク付けするサブタスク2について述べる。 2つのコンテキスト化アーキテクチャ(BERTとELMo)と3つの変更検出アルゴリズムの性能を解析する。 最も効果的なアルゴリズムは平均的なトークン埋め込みとトークン埋め込み間のペアワイズ距離の間のコサイン類似性に依存している。 それらのアルゴリズムは、大きなマージン(評価後の段階では、SemEval-2020 Task 1)に対するSubtask 2のベストなサブタスクがあるが、興味深いことに、特定のアルゴリズムの選択はテストセットにおける金のスコアの分布に依存する。

We apply contextualised word embeddings to lexical semantic change detection in the SemEval-2020 Shared Task 1. This paper focuses on Subtask 2, ranking words by the degree of their semantic drift over time. We analyse the performance of two contextualising architectures (BERT and ELMo) and three change detection algorithms. We find that the most effective algorithms rely on the cosine similarity between averaged token embeddings and the pairwise distances between token embeddings. They outperform strong baselines by a large margin (in the post-evaluation phase, we have the best Subtask 2 submission for SemEval-2020 Task 1), but interestingly, the choice of a particular algorithm depends on the distribution of gold scores in the test set.
翻訳日:2022-12-08 04:51:05 公開日:2020-07-19
# フェデレーション・ジェネレーティブ・逆境学習

Federated Generative Adversarial Learning ( http://arxiv.org/abs/2005.03793v3 )

ライセンス: Link先を確認
Chenyou Fan, Ping Liu(参考訳) 本研究は,フェデレーション学習環境下で生成的敵ネットワークを学習する。 generative adversarial networks (gans) は、画像編集、スタイル転送、シーン生成など、様々な現実世界のアプリケーションで進歩を遂げている。 しかし、他のディープラーニングモデルと同様に、GANも実際のケースでデータ制限の問題に悩まされている。 対象タスクにおけるganの性能を高めるため、異なるソースから可能な限り画像を集めることが重要になるだけでなく、必要となる。 例えば、堅牢で正確なバイオメトリック認証システムを構築するために、大量の画像を監視カメラから収集したり、ユーザーが同意を受け入れて携帯電話からアップロードしたりすることができる。 理想的には、パブリックデバイスやプライベートデバイスからアップロードされたすべてのデータをモデルトレーニングに使うのは簡単です。 残念ながら、実際のシナリオでは、いくつかの理由でこれは難しいです。 第二に、さまざまな種類のデバイスによって収集された画像は、おそらく、様々な要因によって異なるバイアスを持つ。$\textit{e.}$、コレクタの好み、地理的位置の違い、つまり、"ドメインシフト"とも呼ばれる。 このような問題に対処するために,フェデレート学習フレームワークを用いた新しい生成学習手法を提案する。 フェデレーション学習の構成に従って,1つのセンタと1つのクライアントグループでモデルトレーニングとアグリゲーションを実施します。 具体的には、クライアントの分散生成モデルを学習し、各クライアントで訓練されたモデルは中央に1つの統一的で汎用的なモデルに融合する。 異なるフェデレーション戦略を比較するために広範な実験を行い、異なるレベルの並列性とデータスキューネスの下でフェデレーションの有効性を実証的に検証する。

This work studies training generative adversarial networks under the federated learning setting. Generative adversarial networks (GANs) have achieved advancement in various real-world applications, such as image editing, style transfer, scene generations, etc. However, like other deep learning models, GANs are also suffering from data limitation problems in real cases. To boost the performance of GANs in target tasks, collecting images as many as possible from different sources becomes not only important but also essential. For example, to build a robust and accurate bio-metric verification system, huge amounts of images might be collected from surveillance cameras, and/or uploaded from cellphones by users accepting agreements. In an ideal case, utilize all those data uploaded from public and private devices for model training is straightforward. Unfortunately, in the real scenarios, this is hard due to a few reasons. At first, some data face the serious concern of leakage, and therefore it is prohibitive to upload them to a third-party server for model training; at second, the images collected by different kinds of devices, probably have distinctive biases due to various factors, $\textit{e.g.}$, collector preferences, geo-location differences, which is also known as "domain shift". To handle those problems, we propose a novel generative learning scheme utilizing a federated learning framework. Following the configuration of federated learning, we conduct model training and aggregation on one center and a group of clients. Specifically, our method learns the distributed generative models in clients, while the models trained in each client are fused into one unified and versatile model in the center. We perform extensive experiments to compare different federation strategies, and empirically examine the effectiveness of federation under different levels of parallelism and data skewness.
翻訳日:2022-12-05 22:47:41 公開日:2020-07-19
# SECure:AIシステムのための社会的および環境証明書

SECure: A Social and Environmental Certificate for AI Systems ( http://arxiv.org/abs/2006.06217v2 )

ライセンス: Link先を確認
Abhishek Gupta (1 and 2), Camylle Lanteigne (1 and 3), and Sara Kingsley (4) ((1) Montreal AI Ethics Institute, (2) Microsoft, (3) McGill University, (4) Carnegie Mellon University)(参考訳) aiアプリケーションによってますます支配される世界において、これらのパワーハングリーアルゴリズムの炭素と社会的足跡は、トレーニングと予測のために大量のデータを必要とする。 短期的には黒字だが、これらの慣行は持続不可能であり、データ利用とエネルギー利用の両方の観点から社会的に抽出される。 この研究は、社会技術と技術を組み合わせたESGにインスパイアされたフレームワークを提案し、社会に責任を負うAIシステムを構築する。 このフレームワークには4つの柱がある: 計算効率のよい機械学習、連合学習、データの主権、リーデスク証明書。 計算効率のよい機械学習は、圧縮されたネットワークアーキテクチャを使用し、精度の限界的な低下を示す。 フェデレーション学習は、アイドル容量に分散した計算負荷をデバイスに分散する技術を使用することで、最初の柱の影響を増強する。 これはデータ主権の第3の柱と組み合わせることで、使用ベースのプライバシーやディファレンシャルプライバシといった技術を通じて、ユーザデータのプライバシを確保する。 最後の柱は、これらすべての要因を結びつけ、消費者が購入した商品とサービスを、環境や社会的影響に標準化された方法で認証する。

In a world increasingly dominated by AI applications, an understudied aspect is the carbon and social footprint of these power-hungry algorithms that require copious computation and a trove of data for training and prediction. While profitable in the short-term, these practices are unsustainable and socially extractive from both a data-use and energy-use perspective. This work proposes an ESG-inspired framework combining socio-technical measures to build eco-socially responsible AI systems. The framework has four pillars: compute-efficient machine learning, federated learning, data sovereignty, and a LEEDesque certificate. Compute-efficient machine learning is the use of compressed network architectures that show marginal decreases in accuracy. Federated learning augments the first pillar's impact through the use of techniques that distribute computational loads across idle capacity on devices. This is paired with the third pillar of data sovereignty to ensure the privacy of user data via techniques like use-based privacy and differential privacy. The final pillar ties all these factors together and certifies products and services in a standardized manner on their environmental and social impacts, allowing consumers to align their purchase with their values.
翻訳日:2022-11-22 13:30:26 公開日:2020-07-19
# 知識ベースにおけるケースベース推論への単純アプローチ

A Simple Approach to Case-Based Reasoning in Knowledge Bases ( http://arxiv.org/abs/2006.14198v2 )

ライセンス: Link先を確認
Rajarshi Das, Ameya Godbole, Shehzaad Dhuliawala, Manzil Zaheer, Andrew McCallum(参考訳) 我々は,従来の人工知能(ai)におけるケースベース推論を想起させる,知識グラフ(kgs)の推論に対する驚くほど単純かつ正確なアプローチを提案する。 ソースエンティティとバイナリ関係が与えられたターゲットエンティティを見つけるタスクを考えてみましょう。 我々の非パラメトリックなアプローチは、与えられた関係を通して類似のソースエンティティを接続する複数の \textit{graph path pattern} を見つけることで、クエリ毎に論理ルールをクリップする。 NELL-995 と FB-122 では,従来のモデルよりも高い精度で新しい最先端の精度が得られる。 私たちはまた、我々のモデルが低データ設定で堅牢であることを示し、最近提案されたメタラーニングアプローチよりも優れています。

We present a surprisingly simple yet accurate approach to reasoning in knowledge graphs (KGs) that requires \emph{no training}, and is reminiscent of case-based reasoning in classical artificial intelligence (AI). Consider the task of finding a target entity given a source entity and a binary relation. Our non-parametric approach derives crisp logical rules for each query by finding multiple \textit{graph path patterns} that connect similar source entities through the given relation. Using our method, we obtain new state-of-the-art accuracy, outperforming all previous models, on NELL-995 and FB-122. We also demonstrate that our model is robust in low data settings, outperforming recently proposed meta-learning approaches
翻訳日:2022-11-17 03:56:39 公開日:2020-07-19
# 感性解析のための弾性重み強化による逐次領域適応

Sequential Domain Adaptation through Elastic Weight Consolidation for Sentiment Analysis ( http://arxiv.org/abs/2007.01189v3 )

ライセンス: Link先を確認
Avinash Madasu and Vijjini Anvesh Rao(参考訳) elastic weight consolidation (ewc) は、ニューラルネットワークでトレーニングされた一連のタスク間の破滅的な忘れを克服するために使用されるテクニックである。 タスク間の情報共有という現象をドメイン適応に利用します。 感情分析(SA)のようなタスクのトレーニングデータは、複数のドメインにまたがって適切に表現されない場合がある。 ドメイン適応(da)は、ソースドメインの情報を活用するアルゴリズムの構築を目標とする。 モデルに依存しないフレームワークであるSequential Domain Adaptation (SDA)を提案する。 SDAは、連続するソースドメインのトレーニングをEWCに委ねて、一般的なドメインソリューションへと移行し、ドメイン適応の問題を解決する。 我々は、畳み込み、繰り返し、注意に基づくアーキテクチャでSDAをテストする。 実験により,提案フレームワークは,SAのドメイン適応において,CNNなどの単純なアーキテクチャが複雑な最先端モデルより優れていることを示す。 さらに、ソースドメインのより難しい第1の反コイル順序付けの有効性が、最大性能をもたらすことを観察する。

Elastic Weight Consolidation (EWC) is a technique used in overcoming catastrophic forgetting between successive tasks trained on a neural network. We use this phenomenon of information sharing between tasks for domain adaptation. Training data for tasks such as sentiment analysis (SA) may not be fairly represented across multiple domains. Domain Adaptation (DA) aims to build algorithms that leverage information from source domains to facilitate performance on an unseen target domain. We propose a model-independent framework - Sequential Domain Adaptation (SDA). SDA draws on EWC for training on successive source domains to move towards a general domain solution, thereby solving the problem of domain adaptation. We test SDA on convolutional, recurrent, and attention-based architectures. Our experiments show that the proposed framework enables simple architectures such as CNNs to outperform complex state-of-the-art models in domain adaptation of SA. In addition, we observe that the effectiveness of a harder first Anti-Curriculum ordering of source domains leads to maximum performance.
翻訳日:2022-11-14 14:20:25 公開日:2020-07-19
# 深度到達のための変形可能な空間伝搬ネットワーク

Deformable spatial propagation network for depth completion ( http://arxiv.org/abs/2007.04251v2 )

ライセンス: Link先を確認
Zheyuan Xu, Hongche Yin, Jian Yao(参考訳) 深度測定から深度マップを復元することを目的とした自動運転の開発により,近年,深度完了が注目されている。 畳み込み空間伝播ネットワーク(CSPN)は,局所的な文脈で粗い深度マップを洗練させるために線形伝播モデルを採用する,最先端の手法の1つである。 しかし、各画素の伝播は一定の受容野で起こる。 これは、異なるピクセルが異なるローカルコンテキストを必要とするため、リファインメントに最適ではないかもしれない。 本稿では,各画素に対して異なる受容場と親和性行列を適応的に生成する変形可能な空間伝搬ネットワーク(DSPN)を提案する。 これにより、ネットワークは伝播のためのより少ないがより関連性の高い情報を得ることができる。 kitti depth completionベンチマークにおける実験結果から,提案手法が最先端の性能を実現することを証明した。

Depth completion has attracted extensive attention recently due to the development of autonomous driving, which aims to recover dense depth map from sparse depth measurements. Convolutional spatial propagation network (CSPN) is one of the state-of-the-art methods in this task, which adopt a linear propagation model to refine coarse depth maps with local context. However, the propagation of each pixel occurs in a fixed receptive field. This may not be the optimal for refinement since different pixel needs different local context. To tackle this issue, in this paper, we propose a deformable spatial propagation network (DSPN) to adaptively generates different receptive field and affinity matrix for each pixel. It allows the network obtain information with much fewer but more relevant pixels for propagation. Experimental results on KITTI depth completion benchmark demonstrate that our proposed method achieves the state-of-the-art performance.
翻訳日:2022-11-12 13:24:18 公開日:2020-07-19
# 画像翻訳による異物生成による科学的発見

Scientific Discovery by Generating Counterfactuals using Image Translation ( http://arxiv.org/abs/2007.05500v2 )

ライセンス: Link先を確認
Arunachalam Narayanaswamy, Subhashini Venugopalan, Dale R. Webster, Lily Peng, Greg Corrado, Paisan Ruamviboonsuk, Pinal Bavishi, Rory Sayres, Abigail Huang, Siva Balasubramanian, Michael Brenner, Philip Nelson, and Avinash V. Varadarajan(参考訳) モデル説明技術は、モデルのパフォーマンスの源を理解し、その決定を透明にする上で重要な役割を果たす。 ここでは、科学的発見のメカニズムとして説明技法が利用できるかを検討する。 まず,説明手法からの予測を発見機構に変換する枠組みを提案する。 第2に,ブラックボックス予測器と組み合わせた生成モデルを用いて,批判的に検証可能な仮説(人間の前兆を伴わない)を生成する方法を示す。 第3に,これらの手法を用いて糖尿病黄斑浮腫(dme)を予測する網膜画像の分類モデルを検討した。 提案手法は, 基礎となる科学的メカニズムを説明することができ, モデルの性能と人間の理解のギャップを橋渡しできることを示す。

Model explanation techniques play a critical role in understanding the source of a model's performance and making its decisions transparent. Here we investigate if explanation techniques can also be used as a mechanism for scientific discovery. We make three contributions: first, we propose a framework to convert predictions from explanation techniques to a mechanism of discovery. Second, we show how generative models in combination with black-box predictors can be used to generate hypotheses (without human priors) that can be critically examined. Third, with these techniques we study classification models for retinal images predicting Diabetic Macular Edema (DME), where recent work showed that a CNN trained on these images is likely learning novel features in the image. We demonstrate that the proposed framework is able to explain the underlying scientific mechanism, thus bridging the gap between the model's performance and human understanding.
翻訳日:2022-11-11 21:50:59 公開日:2020-07-19
# 大規模分類器の分類構造

Visualizing Classification Structure of Large-Scale Classifiers ( http://arxiv.org/abs/2007.06068v2 )

ライセンス: Link先を確認
Bilal Alsallakh and Zhixin Yan and Shabnam Ghaffarzadegan and Zeng Dai and Liu Ren(参考訳) 本稿では,予測スコアに基づく大規模分類におけるクラス類似度を計算する尺度を提案する。 この措置は文学において公式には公布されていない。 クラス類似度行列の可視化によって階層構造とクラスを統治する関係を明らかにする。 様々な分類器の例を通して、そのような構造が分類挙動の分析や潜在的コーナーケースの推測にどのように役立つかを示す。 1つの例のソースコードは、https://github.com/bilalsal/blocksでノートブックとして入手できる。

We propose a measure to compute class similarity in large-scale classification based on prediction scores. Such measure has not been formally pro-posed in the literature. We show how visualizing the class similarity matrix can reveal hierarchical structures and relationships that govern the classes. Through examples with various classifiers, we demonstrate how such structures can help in analyzing the classification behavior and in inferring potential corner cases. The source code for one example is available as a notebook at https://github.com/bilalsal/blocks
翻訳日:2022-11-11 05:10:59 公開日:2020-07-19
# ディープニューラルカーネルマシン

Deep Neural-Kernel Machines ( http://arxiv.org/abs/2007.06655v2 )

ライセンス: Link先を確認
Siamak Mehrkanoon(参考訳) 本稿では,2つの強力なモデル,すなわちカーネルベースモデルとニューラルネットワークの相乗効果を求めるアプローチである深層ニューラルネットワークアーキテクチャの最近の進歩に関する主要な文献を概説する。 導入されたディープニューラルネットワークフレームワークは、ニューラルネットワークアーキテクチャとカーネルマシンのハイブリッド化で構成されている。 より正確には、カーネル対応のモデルは、明示的な特徴マッピングを持つ最小二乗サポートベクターマシンに基づいている。 本稿では,ランダムフーリエ特徴によって得られた明示的特徴マップの一形態の使用について述べる。 この明示的な機能マップのおかげで、2つのアーキテクチャをブリッジする方がより簡単になり、一方、プライマルで関連する最適化問題の解を見つけることができるため、モデルを大規模データセットにスケーラブルにすることができる。 まず,異なるプール層を備えた深層モデルのコアモジュールとして機能するニューラルカーネルアーキテクチャの導入から始める。 特に,平均,最大,畳み込み層を有する3つのニューラルカーネルマシンについて検討した。 平均プーリング層では、前の表現層の出力が平均される。 最大化層は異なる入力表現間の競合を引き起こし、同じモデル内で複数のサブネットワークを形成することができる。 畳み込みプーリング層は、マルチスケール出力表現の次元性を減少させる。 ニューラルネットワークモデル、カーネルベースモデル、古典的ニューラルネットワークアーキテクチャと比較し、いくつかのベンチマークデータセットで導入したモデルの有効性を数値実験で示す。

In this chapter we review the main literature related to the recent advancement of deep neural-kernel architecture, an approach that seek the synergy between two powerful class of models, i.e. kernel-based models and artificial neural networks. The introduced deep neural-kernel framework is composed of a hybridization of the neural networks architecture and a kernel machine. More precisely, for the kernel counterpart the model is based on Least Squares Support Vector Machines with explicit feature mapping. Here we discuss the use of one form of an explicit feature map obtained by random Fourier features. Thanks to this explicit feature map, in one hand bridging the two architectures has become more straightforward and on the other hand one can find the solution of the associated optimization problem in the primal, therefore making the model scalable to large scale datasets. We begin by introducing a neural-kernel architecture that serves as the core module for deeper models equipped with different pooling layers. In particular, we review three neural-kernel machines with average, maxout and convolutional pooling layers. In average pooling layer the outputs of the previous representation layers are averaged. The maxout layer triggers competition among different input representations and allows the formation of multiple sub-networks within the same model. The convolutional pooling layer reduces the dimensionality of the multi-scale output representations. Comparison with neural-kernel model, kernel based models and the classical neural networks architecture have been made and the numerical experiments illustrate the effectiveness of the introduced models on several benchmark datasets.
翻訳日:2022-11-10 23:05:05 公開日:2020-07-19
# 報酬を欠いたコンテクスト・バンディット

Contextual Bandit with Missing Rewards ( http://arxiv.org/abs/2007.06368v2 )

ライセンス: Link先を確認
Djallel Bouneffouf, Sohini Upadhyay and Yasaman Khazaeni(参考訳) 我々は、文脈に基づく決定に関連する報酬が常に観測されないような、文脈的包帯問題(例えば、サイドインフォメーション付きマルチアームバンディット、あるいは意思決定者が利用できるコンテキスト)の新たな変種を考察する("missing rewards")。 この新しい問題は、臨床試験や広告レコメンデーションアプリケーションなど、特定のオンライン設定に動機づけられている。 不足した報酬設定に対処するために,標準的なコンテキストバンディットアプローチとクラスタリングのような教師なし学習機構を組み合わせることを提案する。 標準的なコンテキスト的バンディットメソッドとは異なり、クラスタリングを活用して、不足する報酬を見積もることで、受信する各イベントから、不足する報酬からも学ぶことができます。 いくつかの実生活データセットで実験結果が得られた。

We consider a novel variant of the contextual bandit problem (i.e., the multi-armed bandit with side-information, or context, available to a decision-maker) where the reward associated with each context-based decision may not always be observed("missing rewards"). This new problem is motivated by certain online settings including clinical trial and ad recommendation applications. In order to address the missing rewards setting, we propose to combine the standard contextual bandit approach with an unsupervised learning mechanism such as clustering. Unlike standard contextual bandit methods, by leveraging clustering to estimate missing reward, we are able to learn from each incoming event, even those with missing rewards. Promising empirical results are obtained on several real-life datasets.
翻訳日:2022-11-10 22:28:33 公開日:2020-07-19
# 臨床検索勧告のためのハイブリッド協調フィルタリングモデル

Hybrid Collaborative Filtering Models for Clinical Search Recommendation ( http://arxiv.org/abs/2008.01193v1 )

ライセンス: Link先を確認
Zhiyun Ren, Bo Peng, Titus K. Schleyer and Xia Ning(参考訳) 電子カルテの利用が増加し、臨床医は、診療所における大量の患者の健康記録の中で、重要な情報を効率的に取得する必要がある場合、しばしば時間的プレッシャーを受ける。 検索機能は患者の記録を閲覧するのに有用であるが、臨床医が類似した患者について同じまたは類似した情報を何度も検索するのは面倒である。 このような状況下では、臨床医の正確な検索用語推奨を生成する効果的なレコメンデーションシステムを構築する必要がある。 そこで本論文では,患者との出会いと検索語情報を用いた協調的フィルタリングモデルを構築し,臨床医が診療所における重要な情報を迅速に検索できるように,次の検索語を推奨する。 各患者に対して、このモデルでは、最新のICDコードと高い共起周波数を持つか、または、この患者の最新の検索条件に非常に関連がある用語を推奨する。 提案したモデルを評価するための総合的な実験を行い、実験結果により、各データセットにおけるトップN検索項推薦のための最先端のベースライン手法を全て上回る結果が得られた。

With increasing and extensive use of electronic health records, clinicians are often under time pressure when they need to retrieve important information efficiently among large amounts of patients' health records in clinics. While a search function can be a useful alternative to browsing through a patient's record, it is cumbersome for clinicians to search repeatedly for the same or similar information on similar patients. Under such circumstances, there is a critical need to build effective recommender systems that can generate accurate search term recommendations for clinicians. In this manuscript, we developed a hybrid collaborative filtering model using patients' encounter and search term information to recommend the next search terms for clinicians to retrieve important information fast in clinics. For each patient, the model will recommend terms that either have high co-occurrence frequencies with his/her most recent ICD codes or are highly relevant to the most recent search terms on this patient. We have conducted comprehensive experiments to evaluate the proposed model, and the experimental results demonstrate that our model can outperform all the state-of-the-art baseline methods for top-N search term recommendation on different datasets.
翻訳日:2022-11-09 00:51:47 公開日:2020-07-19
# カラー画像の全四次表現:QSVDに基づくカラー画像圧縮の一事例

Full Quaternion Representation of Color images: A Case Study on QSVD-based Color Image Compression ( http://arxiv.org/abs/2007.09758v1 )

ライセンス: Link先を確認
Alireza Parchami, Mojtaba Mahdavi(参考訳) 長年にわたり、カラー画像のチャネルを個別に処理してきたり、カラー画像処理に関してグレースケールに変換されたりしてきた。 カラー画像の純四元数表現は、画像が全体空間で処理できるため、この問題を解決する。 それでも、余剰4次元のために追加費用がかかる。 本稿では,カラー画像の処理を時間,空間,計算に余計なコストがかかることなく,全四元数で表現する手法を提案する。 カラーチャネルの自己相関と相互相関を考慮して、オートエンコーダニューラルネットワークを使用して、カラーイメージを完全な四元数行列に変換するグローバルモデルを生成する。 このモデルを評価するために,ucidデータセットを用いて,カラー画像に対して許容できる性能を有することを示す。 さらに,生成されたモデルとqsvdに基づく圧縮手法を事例として提案する。 本手法は、純四元数表現を用いて同じ圧縮法と比較し、UCIDデータセットを用いて評価する。 その結果,提案した全四元数表現を用いた圧縮手法は,圧縮ファイルの時間,品質,サイズにおいて,他よりも優れていた。

For many years, channels of a color image have been processed individually, or the image has been converted to grayscale one with respect to color image processing. Pure quaternion representation of color images solves this issue as it allows images to be processed in a holistic space. Nevertheless, it brings additional costs due to the extra fourth dimension. In this paper, we propose an approach for representing color images with full quaternion numbers that enables us to process color images holistically without additional cost in time, space and computation. With taking auto- and cross-correlation of color channels into account, an autoencoder neural network is used to generate a global model for transforming a color image into a full quaternion matrix. To evaluate the model, we use UCID dataset, and the results indicate that the model has an acceptable performance on color images. Moreover, we propose a compression method based on the generated model and QSVD as a case study. The method is compared with the same compression method using pure quaternion representation and is assessed with UCID dataset. The results demonstrate that the compression method using the proposed full quaternion representation fares better than the other in terms of time, quality, and size of compressed files.
翻訳日:2022-11-09 00:51:09 公開日:2020-07-19
# 騒々しいカメラ観測によるカップ・アンド・ボールの学習

Learning to Play Cup-and-Ball with Noisy Camera Observations ( http://arxiv.org/abs/2007.09562v1 )

ライセンス: Link先を確認
Monimoy Bujarbaruah, Tony Zheng, Akhil Shetty, Martin Sehr, Francesco Borrelli(参考訳) ロボット工学研究において,システム非線形性,接触力,正確な位置決めなどの重要な課題を終端ゴールとして抽象化するため,カップ・アンド・ボールゲームは興味深い課題である。 本稿では,ユニバーサルロボットUR5eマニピュレータアームが,ケダマのカップの1つでボールをキャッチすることを学習する,カップ・アンド・ボールゲームのための学習モデルに基づく制御戦略を提案する。 我々の制御問題は2つのサブタスク、すなわち$に分けられる。 (i)$制限された動作でボールを振り上げると$ (ii)フリーフォールボールをキャッチする。 スイングアップ軌道はオフラインで計算され、アームにオープンループで適用される。 その後、ボールの自由落下中に凸最適化問題をオンラインに解き、マニピュレータを制御してボールをキャッチする。 コントローラは、intel realsense d435深度カメラからのボールのノイズ位置フィードバックを利用する。 そこで本研究では,カメラのノイズ分布を反復的に学習し,制御方針を更新するための新しい反復的フレームワークを提案する。 固定ポリシー付きキャッチの確率は、ユーザが指定したロールアウト回数で経験的に計算される。 本設計は,学習支援がカメラノイズ分布の真のサポートに近づくにつれて,キャッチの確率が限界値に増加することを保証している。 高忠実度ムジョコシミュレーションと予備実験結果は理論解析を支持する。

Playing the cup-and-ball game is an intriguing task for robotics research since it abstracts important problem characteristics including system nonlinearity, contact forces and precise positioning as terminal goal. In this paper, we present a learning model based control strategy for the cup-and-ball game, where a Universal Robots UR5e manipulator arm learns to catch a ball in one of the cups on a Kendama. Our control problem is divided into two sub-tasks, namely $(i)$ swinging the ball up in a constrained motion, and $(ii)$ catching the free-falling ball. The swing-up trajectory is computed offline, and applied in open-loop to the arm. Subsequently, a convex optimization problem is solved online during the ball's free-fall to control the manipulator and catch the ball. The controller utilizes noisy position feedback of the ball from an Intel RealSense D435 depth camera. We propose a novel iterative framework, where data is used to learn the support of the camera noise distribution iteratively in order to update the control policy. The probability of a catch with a fixed policy is computed empirically with a user specified number of roll-outs. Our design guarantees that probability of the catch increases in the limit, as the learned support nears the true support of the camera noise distribution. High-fidelity Mujoco simulations and preliminary experimental results support our theoretical analysis.
翻訳日:2022-11-09 00:50:51 公開日:2020-07-19
# EPGAT: グラフアテンションネットワークによる遺伝子必須性予測

EPGAT: Gene Essentiality Prediction With Graph Attention Networks ( http://arxiv.org/abs/2007.09671v1 )

ライセンス: Link先を確認
Jo\~ao Schapke, Anderson Tavares, Mariana Recamonde-Mendoza(参考訳) 必須遺伝子/タンパク質の同定は、ヒトの生物学と病理の理解を深めるための重要なステップである。 計算的アプローチは、機械学習(ML)法と生物学的情報、特にタンパク質とタンパク質の相互作用(PPI)ネットワークとの相関を探索し、必須遺伝子を予測することによって、実験的制約を軽減するのに役立った。 それでも、ネットワークベースの中心性は必須性の排他的プロキシではなく、従来のMLメソッドはグラフのような非ユークリッド領域から学べないため、パフォーマンスはまだ限られている。 これらの制約から,グラフ構造化データを操作する注目型グラフニューラルネットワーク(GNN)であるグラフ注意ネットワーク(GAT)に基づく本質性予測手法であるEPGATを提案する。 本モデルでは,PPIネットワークから遺伝子必須性のパターンを直接学習し,ノード属性として符号化されたマルチオミクスデータから追加のエビデンスを統合する。 ヒトを含む4種の生物に対するEPGATを、AUCスコアが0.78から0.97の範囲で正確に予測した。 我々のモデルは,ネットワークベースおよび浅層MLベースの手法よりも優れ,最先端の node2vec 埋め込み方式と非常に競合する性能を実現した。 特に、EPGATは限られたトレーニングデータを持つシナリオで最も堅牢なアプローチであった。 したがって、提案手法は、必須遺伝子やタンパク質を同定するための強力で効果的な方法を提供する。

The identification of essential genes/proteins is a critical step towards a better understanding of human biology and pathology. Computational approaches helped to mitigate experimental constraints by exploring machine learning (ML) methods and the correlation of essentiality with biological information, especially protein-protein interaction (PPI) networks, to predict essential genes. Nonetheless, their performance is still limited, as network-based centralities are not exclusive proxies of essentiality, and traditional ML methods are unable to learn from non-Euclidean domains such as graphs. Given these limitations, we proposed EPGAT, an approach for essentiality prediction based on Graph Attention Networks (GATs), which are attention-based Graph Neural Networks (GNNs) that operate on graph-structured data. Our model directly learns patterns of gene essentiality from PPI networks, integrating additional evidence from multiomics data encoded as node attributes. We benchmarked EPGAT for four organisms, including humans, accurately predicting gene essentiality with AUC score ranging from 0.78 to 0.97. Our model significantly outperformed network-based and shallow ML-based methods and achieved a very competitive performance against the state-of-the-art node2vec embedding method. Notably, EPGAT was the most robust approach in scenarios with limited and imbalanced training data. Thus, the proposed approach offers a powerful and effective way to identify essential genes and proteins.
翻訳日:2022-11-09 00:50:32 公開日:2020-07-19
# 教師なし多領域MRI腹部領域分割のための一貫したクロスモダリティ特徴ジアンタングル

Unified cross-modality feature disentangler for unsupervised multi-domain MRI abdomen organs segmentation ( http://arxiv.org/abs/2007.09669v1 )

ライセンス: Link先を確認
Jue Jiang and Harini Veeraraghavan(参考訳) 提案手法は多領域画像変換と多臓器セグメンテーションのための統合的クロスモダリティ特徴分離手法である。 ラベル付きソースドメインとしてCTを用いることで,ラベル付きデータを持たないマルチモーダルMRI(T1重み,T2重み)を抽出する。 提案手法では, 可変オートエンコーダ(VAE)を用いて, 画像コンテンツをスタイルから切り離す。 vaeは、すべてのソースとターゲットモダリティのスタイルにまたがると仮定される普遍的事前(ガウシアン)にマッチするように、スタイル特徴エンコーディングを制約する。 抽出された画像スタイルを潜在型スケーリングコードに変換し、画像コンテンツ特徴からターゲットドメインコードに従ってジェネレータを変調してマルチモダリティ画像を生成する。 最後に,翻訳画像とタスク関連セグメンテーション確率マップを組み合わせることで,画像から画像への変換(I2I)をさらに制約し,規則化する共同分布マッチング判別器を提案する。 複数の最先端i2i翻訳法とセグメンテーション法との比較を行った。 その結果、平均的マルチドメイン画像再構成誤差は1.34$\pm$0.04であった。 提案手法は,T1wでは平均Dice類似度係数0.85,T2wMRIでは0.90,T1wMRIでは0.86,T2wMRIでは0.90であった。

Our contribution is a unified cross-modality feature disentagling approach for multi-domain image translation and multiple organ segmentation. Using CT as the labeled source domain, our approach learns to segment multi-modal (T1-weighted and T2-weighted) MRI having no labeled data. Our approach uses a variational auto-encoder (VAE) to disentangle the image content from style. The VAE constrains the style feature encoding to match a universal prior (Gaussian) that is assumed to span the styles of all the source and target modalities. The extracted image style is converted into a latent style scaling code, which modulates the generator to produce multi-modality images according to the target domain code from the image content features. Finally, we introduce a joint distribution matching discriminator that combines the translated images with task-relevant segmentation probability maps to further constrain and regularize image-to-image (I2I) translations. We performed extensive comparisons to multiple state-of-the-art I2I translation and segmentation methods. Our approach resulted in the lowest average multi-domain image reconstruction error of 1.34$\pm$0.04. Our approach produced an average Dice similarity coefficient (DSC) of 0.85 for T1w and 0.90 for T2w MRI for multi-organ segmentation, which was highly comparable to a fully supervised MRI multi-organ segmentation network (DSC of 0.86 for T1w and 0.90 for T2w MRI).
翻訳日:2022-11-09 00:44:04 公開日:2020-07-19
# 単一ステージエンコーダ-デコーダネットワークを超えて:セマンティックイメージセグメンテーションのためのディープデコーダ

Beyond Single Stage Encoder-Decoder Networks: Deep Decoders for Semantic Image Segmentation ( http://arxiv.org/abs/2007.09746v1 )

ライセンス: Link先を確認
Gabriel L. Oliveira, Senthil Yogamani, Wolfram Burgard and Thomas Brox(参考訳) セマンティックセグメンテーションのための単一エンコーダ-デコーダ手法は、セマンティックセグメンテーションの品質とレイヤー数あたりの効率の観点からピークに達している。 これらの制約に対処するために,より多くの情報コンテンツを取得するために浅層ネットワークの集合を用いたデコーダに基づく新しいアーキテクチャを提案する。 新しいデコーダにはスキップ接続の新しいトポロジ、すなわち後方およびスタック化された残コネクションがある。 アーキテクチャをさらに改善するために,ネットワークの注目度を高めるために,クラスの再バランスを目的とした重み関数を導入する。 我々はCamVid, Gatech, Freiburg Forestのデータセットに対して,最先端の成果をもたらす広範な実験を行った。 さらに,デコーダの有効性をさらに証明するために,デコーダが最先端のセグメンテーション技術に与える影響について,一連の実験を行った。 さらに,光学フロー情報を用いて意味セグメンテーションを補強する一連の実験を行い,動きの手がかりが純粋な画像に基づく意味セグメンテーションアプローチを促進することを示した。

Single encoder-decoder methodologies for semantic segmentation are reaching their peak in terms of segmentation quality and efficiency per number of layers. To address these limitations, we propose a new architecture based on a decoder which uses a set of shallow networks for capturing more information content. The new decoder has a new topology of skip connections, namely backward and stacked residual connections. In order to further improve the architecture we introduce a weight function which aims to re-balance classes to increase the attention of the networks to under-represented objects. We carried out an extensive set of experiments that yielded state-of-the-art results for the CamVid, Gatech and Freiburg Forest datasets. Moreover, to further prove the effectiveness of our decoder, we conducted a set of experiments studying the impact of our decoder to state-of-the-art segmentation techniques. Additionally, we present a set of experiments augmenting semantic segmentation with optical flow information, showing that motion clues can boost pure image based semantic segmentation approaches.
翻訳日:2022-11-09 00:43:34 公開日:2020-07-19
# E$^2$Net:CTスキャンにおける肝・腫瘍切開のためのエッジ拡張ネットワーク

E$^2$Net: An Edge Enhanced Network for Accurate Liver and Tumor Segmentation on CT Scans ( http://arxiv.org/abs/2007.09791v1 )

ライセンス: Link先を確認
Youbao Tang, Yuxing Tang, Yingying Zhu, Jing Xiao and Ronald M. Summers(参考訳) 肝癌診断, 手術計画, 癌治療を成功させるには, ctスキャンから有効な肝腫瘍分離モデルを開発することが非常に重要である。 本研究では,2次元肝と腫瘍の分節化のための2段階の枠組みを提案する。 第1段階は粗い肝セグメンテーションネットワークであり、第2段階はより正確な肝と腫瘍セグメンテーションのためのエッジ強化ネットワーク(E$^2$Net)である。 E$^2$Netは、臓器と病変の境界を保存するために、補体オブジェクト(肝と腫瘍)とそのネットワーク内のエッジ情報を明示的にモデル化する。 我々は,e$^2$netにエッジ予測モジュールを導入し,エッジ強化ネットワークを訓練するための余分な監視信号として使用される肝と腫瘍の境界の間のエッジ距離マップを設計する。 また,オブジェクトとエッジの両方からマルチスケール機能を洗練するためのディープクロス機能融合モジュールを提案する。 E$^2$Netは、小さなラベル付きデータセットでより簡単かつ効率的にトレーニングされ、元の2D CTスライスでトレーニング/テストできる(3Dモデルで再サンプリングエラー問題を解決)。 提案フレームワークは, 最先端の2D, 3D, 2D/3Dハイブリッドフレームワークと比較して, 肝および肝腫瘍のセグメンテーションにおいて優れた性能を示した。

Developing an effective liver and liver tumor segmentation model from CT scans is very important for the success of liver cancer diagnosis, surgical planning and cancer treatment. In this work, we propose a two-stage framework for 2D liver and tumor segmentation. The first stage is a coarse liver segmentation network, while the second stage is an edge enhanced network (E$^2$Net) for more accurate liver and tumor segmentation. E$^2$Net explicitly models complementary objects (liver and tumor) and their edge information within the network to preserve the organ and lesion boundaries. We introduce an edge prediction module in E$^2$Net and design an edge distance map between liver and tumor boundaries, which is used as an extra supervision signal to train the edge enhanced network. We also propose a deep cross feature fusion module to refine multi-scale features from both objects and their edges. E$^2$Net is more easily and efficiently trained with a small labeled dataset, and it can be trained/tested on the original 2D CT slices (resolve resampling error issue in 3D models). The proposed framework has shown superior performance on both liver and liver tumor segmentation compared to several state-of-the-art 2D, 3D and 2D/3D hybrid frameworks.
翻訳日:2022-11-09 00:43:14 公開日:2020-07-19
# コンピュータビジョンを用いた運動追跡の運動学

Kinematics of motion tracking using computer vision ( http://arxiv.org/abs/2008.00813v1 )

ライセンス: Link先を確認
Jos\'e L. Escalona(参考訳) 本稿では,ビデオ記録を用いた剛体運動追跡の運動特性について述べる。 この論文の目新しさは、コンピュータビジョンで使用される手法と命名法を、マルチボディシステムダイナミクスで使われるものに適用することにある。 このようにして、ここで示される方程式は、例えば、選択された体の運動追跡によって駆動される逆力学多体シミュレーションに利用できる。 本論文では,Zhangキャリブレーション法を提案命名法に適用する。

This paper describes the kinematics of the motion tracking of a rigid body using video recording. The novelty of the paper is on the adaptation of the methods and nomenclature used in Computer Vision to those used in Multibody System Dynamics. That way, the equations presented here can be used, for example, for inverse-dynamics multibody simulations driven by the motion tracking of selected bodies. This paper also adapts the well-known Zhang calibration method to the presented nomenclature.
翻訳日:2022-11-09 00:42:50 公開日:2020-07-19
# パーソナライズド線量探索のためのカーネル支援学習

Kernel Assisted Learning for Personalized Dose Finding ( http://arxiv.org/abs/2007.09811v1 )

ライセンス: Link先を確認
Liangyu Zhu, Wenbin Lu, Michael R. Kosorok, Rui Song(参考訳) 個人化された線量規則は、身体状態、遺伝因子、薬歴などの患者レベル情報に基づいて、連続した安全線量範囲内の線量レベルを推奨する。 伝統的に、パーソナライズされた線量検出プロセスは、患者の臨床訪問を繰り返すことと、服用量の頻繁な調整を必要とする。 したがって、患者はプロセス中に下水や過剰摂取のリスクに常にさらされる。 最適な個別化用量規則を見つけるための統計的手法は、患者のコストとリスクを下げる。 本稿では,最適な個人化線量規則を推定するためのカーネル支援学習手法を提案する。 提案手法は他のすべての継続的な意思決定問題にも適用できる。 提案手法の利点は,モデル誤特定に対するロバスト性,推定パラメータの統計的推論能力などである。 シミュレーション研究において,本手法は最適な個人別線量規則を同定でき,個体群において良好な期待結果が得られることを示す。 最後に, 血栓症患者に対するワーファリン服用研究のデータを用いたアプローチについて述べる。

An individualized dose rule recommends a dose level within a continuous safe dose range based on patient level information such as physical conditions, genetic factors and medication histories. Traditionally, personalized dose finding process requires repeating clinical visits of the patient and frequent adjustments of the dosage. Thus the patient is constantly exposed to the risk of underdosing and overdosing during the process. Statistical methods for finding an optimal individualized dose rule can lower the costs and risks for patients. In this article, we propose a kernel assisted learning method for estimating the optimal individualized dose rule. The proposed methodology can also be applied to all other continuous decision-making problems. Advantages of the proposed method include robustness to model misspecification and capability of providing statistical inference for the estimated parameters. In the simulation studies, we show that this method is capable of identifying the optimal individualized dose rule and produces favorable expected outcomes in the population. Finally, we illustrate our approach using data from a warfarin dosing study for thrombosis patients.
翻訳日:2022-11-09 00:42:44 公開日:2020-07-19
# NeuroMAX:畳み込みニューラルネットワークのための高スループット、マルチスレッド、ログベースの加速器

NeuroMAX: A High Throughput, Multi-Threaded, Log-Based Accelerator for Convolutional Neural Networks ( http://arxiv.org/abs/2007.09578v1 )

ライセンス: Link先を確認
Mahmood Azhar Qureshi and Arslan Munir(参考訳) 畳み込みニューラルネットワーク(CNN)は、計算コストが大きいため、リアルタイムアプリケーションに高いスループットのハードウェアアクセラレータを必要とする。 ほとんどの従来のCNNアクセラレータは、畳み込み操作を加速する1Dデータフローとともに、単一のコア、線形処理要素(PE)に依存している。 これにより、PEカウント当たりのピークスループットの最大比率をユニティに制限する。 過去の作業の多くは、この比率に達するために、そのデータフローを100%のハードウェア利用に最適化している。 本稿では,高スループット,マルチスレッド,ログベースのPEコアを提案する。 設計されたコアはPEカウントあたりのピークスループットを200%増加させ、同じ出力ビット精度の1つの線形乗算器PEコアと比較して6%のオーバヘッドしか増加しない。 また,PEコアのマルチスレッド特性を利用して,多層CNNにおいて高いハードウェア利用を実現する2次元重み放送データフローを提案する。 アーキテクチャ全体がNeuroMAXと呼ばれ、200MHzの処理クロックでXilinx Zynq 7020 SoC上に実装されている。 スループット、ハードウェア利用、面積と電力消費の減少、および従来のFPGAやASICの設計と比較して性能改善を示す遅延について詳細な分析を行う。

Convolutional neural networks (CNNs) require high throughput hardware accelerators for real time applications owing to their huge computational cost. Most traditional CNN accelerators rely on single core, linear processing elements (PEs) in conjunction with 1D dataflows for accelerating convolution operations. This limits the maximum achievable ratio of peak throughput per PE count to unity. Most of the past works optimize their dataflows to attain close to a 100% hardware utilization to reach this ratio. In this paper, we introduce a high throughput, multi-threaded, log-based PE core. The designed core provides a 200% increase in peak throughput per PE count while only incurring a 6% increase in area overhead compared to a single, linear multiplier PE core with same output bit precision. We also present a 2D weight broadcast dataflow which exploits the multi-threaded nature of the PE cores to achieve a high hardware utilization per layer for various CNNs. The entire architecture, which we refer to as NeuroMAX, is implemented on Xilinx Zynq 7020 SoC at 200 MHz processing clock. Detailed analysis is performed on throughput, hardware utilization, area and power breakdown, and latency to show performance improvement compared to previous FPGA and ASIC designs.
翻訳日:2022-11-09 00:42:31 公開日:2020-07-19
# 正規化混合モデルによる高次元データのクラスタリング

Supervised clustering of high dimensional data using regularized mixture modeling ( http://arxiv.org/abs/2007.09720v1 )

ライセンス: Link先を確認
Wennan Chang, Changlin Wan, Yong Zang, Chi Zhang, Sha Cao(参考訳) 分子変異と臨床プレゼンテーションとの関係の同定は、疾患の異種原因によって挑戦されている。 研究対象の多様性を考慮しつつ,高次元分子像と臨床プレゼンテーションとの関係を明らかにすることが不可欠である。 我々は,高次元分子特徴と表現型との異種関係を研究する上での課題に対処するために,ペナルテッド混合回帰モデルcsmrを用いた新しい教師付きクラスタリングアルゴリズムを提案した。 このアルゴリズムはクラスタリング問題に対する新しい教師付きソリューションを提供する分類期待最大化アルゴリズムに適応し、計算効率と生物学的解釈性の両方を大幅に改善した。 シミュレーションされたベンチマークデータセットの実験的評価により、CSMRは応答変数に対して特徴のサブセットが説明可能な部分空間を正確に識別でき、ベースライン法よりも優れていた。 CSMRの薬剤感受性データセットへの応用は、CSMRの他のものよりも優れた性能を示し、CSMRは異なる薬物への対処機構に関して、細胞のプールに隠された異なるサブグループを再カプセル化するのに強力である。 csmrはビッグデータ解析ツールであり、疾患の臨床症状を実際の原因に翻訳する複雑さを解消する可能性を秘めている。 われわれは、それが病気の分子基盤に新たな理解をもたらし、パーソナライズされた医療の分野における特別な関連性をもたらすと信じている。

Identifying relationships between molecular variations and their clinical presentations has been challenged by the heterogeneous causes of a disease. It is imperative to unveil the relationship between the high dimensional molecular manifestations and the clinical presentations, while taking into account the possible heterogeneity of the study subjects. We proposed a novel supervised clustering algorithm using penalized mixture regression model, called CSMR, to deal with the challenges in studying the heterogeneous relationships between high dimensional molecular features to a phenotype. The algorithm was adapted from the classification expectation maximization algorithm, which offers a novel supervised solution to the clustering problem, with substantial improvement on both the computational efficiency and biological interpretability. Experimental evaluation on simulated benchmark datasets demonstrated that the CSMR can accurately identify the subspaces on which subset of features are explanatory to the response variables, and it outperformed the baseline methods. Application of CSMR on a drug sensitivity dataset again demonstrated the superior performance of CSMR over the others, where CSMR is powerful in recapitulating the distinct subgroups hidden in the pool of cell lines with regards to their coping mechanisms to different drugs. CSMR represents a big data analysis tool with the potential to resolve the complexity of translating the clinical manifestations of the disease to the real causes underpinning it. We believe that it will bring new understanding to the molecular basis of a disease, and could be of special relevance in the growing field of personalized medicine.
翻訳日:2022-11-09 00:42:14 公開日:2020-07-19
# 部分グラフ注意を用いたロバスト階層グラフ分類

Robust Hierarchical Graph Classification with Subgraph Attention ( http://arxiv.org/abs/2007.10908v1 )

ライセンス: Link先を確認
Sambaran Bandyopadhyay, Manasvi Aggarwal, M. Narasimha Murty(参考訳) グラフニューラルネットワークは、機械学習コミュニティにおけるグラフ表現と分類に大きな注目を集めている。 ノード近傍に適用される注意機構は、グラフニューラルネットワークの性能を向上させる。 通常は、検討中のノードのラベルを決定するために、より重要な役割を果たす隣ノードを特定するのに役立つ。 しかし、現実のシナリオでは、サブセット内の個々のペアではなく、特定のノードの部分集合がグラフのラベルを決定するのに重要であるかもしれない。 この問題に対処するために,グラフのサブグラフアテンションの概念を導入する。 一方、階層的なグラフプーリングは近年の文献で有望であることが示されている。 しかし、実世界のグラフのノイズの多い階層構造のため、グラフの階層構造がグラフ分類に等しく働くわけではない。 そこで本研究では,subgattpoolと呼ばれるグラフ分類アルゴリズムを提案する。subgattpoolはサブグラフの注目度を学習し,階層構造における重要なノードとグラフにおける個々の階層の重要性を2つの異なる階層的注意機構を用いる。 異なるタイプのグラフ分類アルゴリズムによる実験的評価は、SubGattPoolが複数の公開グラフ分類データセットに対して、最先端または競争力を維持することができることを示している。 subgattpoolのさまざまなコンポーネントの有用性を正当化し、他のダウンストリームタスクで一貫したパフォーマンスを示すために、合成データと実世界のグラフデータセットの両方についてさらなる実験を行う。

Graph neural networks get significant attention for graph representation and classification in machine learning community. Attention mechanism applied on the neighborhood of a node improves the performance of graph neural networks. Typically, it helps to identify a neighbor node which plays more important role to determine the label of the node under consideration. But in real world scenarios, a particular subset of nodes together, but not the individual pairs in the subset, may be important to determine the label of the graph. To address this problem, we introduce the concept of subgraph attention for graphs. On the other hand, hierarchical graph pooling has been shown to be promising in recent literature. But due to noisy hierarchical structure of real world graphs, not all the hierarchies of a graph play equal role for graph classification. Towards this end, we propose a graph classification algorithm called SubGattPool which jointly learns the subgraph attention and employs two different types of hierarchical attention mechanisms to find the important nodes in a hierarchy and the importance of individual hierarchies in a graph. Experimental evaluation with different types of graph classification algorithms shows that SubGattPool is able to improve the state-of-the-art or remains competitive on multiple publicly available graph classification datasets. We conduct further experiments on both synthetic and real world graph datasets to justify the usefulness of different components of SubGattPool and to show its consistent performance on other downstream tasks.
翻訳日:2022-11-09 00:41:52 公開日:2020-07-19
# 大規模不均一ネットワーク表現学習のためのマルチセマンティックメタパスモデル

A Multi-Semantic Metapath Model for Large Scale Heterogeneous Network Representation Learning ( http://arxiv.org/abs/2007.11380v1 )

ライセンス: Link先を確認
Xuandong Zhao, Jinbao Xue, Jin Yu, Xi Li, Hongxia Yang(参考訳) Network Embeddingは、様々な現実世界のアプリケーションでデータをモデル化し、管理するために広く研究されている。 しかし、既存の作品の多くは単一型ノードやエッジを持つネットワークに焦点を当てており、ノードとエッジのバランスの取れない分布を考慮に入れていない。 実世界のアプリケーションでは、ネットワークは通常数十億の様々な種類のノードと豊富な属性を持つエッジで構成される。 本稿では,この課題に取り組むために,大規模異種表現学習のためのマルチセマンティクスメタパス(msm)モデルを提案する。 具体的には,マルチセマンティクスなメタパスに基づくランダムウォークを生成し,不均衡分布を扱う異種近傍を構築し,組込み学習のための統一フレームワークを提案する。 提案するフレームワークに対して,AmazonとAlibabaの2つの課題データセットに対して,体系的な評価を行う。 実験の結果,msmはリンク予測において,従来に比べて比較的有意な成果を得られることがわかった。

Network Embedding has been widely studied to model and manage data in a variety of real-world applications. However, most existing works focus on networks with single-typed nodes or edges, with limited consideration of unbalanced distributions of nodes and edges. In real-world applications, networks usually consist of billions of various types of nodes and edges with abundant attributes. To tackle these challenges, in this paper we propose a multi-semantic metapath (MSM) model for large scale heterogeneous representation learning. Specifically, we generate multi-semantic metapath-based random walks to construct the heterogeneous neighborhood to handle the unbalanced distributions and propose a unified framework for the embedding learning. We conduct systematical evaluations for the proposed framework on two challenging datasets: Amazon and Alibaba. The results empirically demonstrate that MSM can achieve relatively significant gains over previous state-of-arts on link prediction.
翻訳日:2022-11-09 00:41:30 公開日:2020-07-19
# プライバシー保護のためのディープニューラルネットワークの脆弱性の爆発

Exploiting vulnerabilities of deep neural networks for privacy protection ( http://arxiv.org/abs/2007.09766v1 )

ライセンス: Link先を確認
Ricardo Sanchez-Matilla, Chau Yi Li, Ali Shahin Shamsabadi, Riccardo Mazzon, Andrea Cavallaro(参考訳) 画像に逆の摂動を加えることで、不要な推論からコンテンツを保護することができる。 しかし、これらの摂動は摂動発生時に {seen} ではなかった分類器や、再量子化、中央値フィルタリング、jpeg圧縮に基づく防御に対して効果がない可能性がある。 これらの制限に対処するため、視覚的コンテンツを保護するために設計された対逆攻撃 { That is} を {unseen} 分類器や既知の防御装置に対して提示する。 我々は,Fast Gradient Signed Methodをベースとした反復的プロセスを用いて摂動を発生させ,各反復で分類器と防御器をランダムに選択する。 このランダム化は、特定の分類器や防御に好ましくないオーバーフィットを防止する。 我々は、places365標準データセットのプライベートクラスのターゲット設定と非ターゲット設定の両方で、提案された攻撃を検証する。 ResNet18、ResNet50、AlexNet、DenseNet161 {as classifiers} を使用すると、提案された攻撃のパフォーマンスは11の最先端攻撃を上回る。 実装はhttps://github.com/smartcameras/RP-FGSM/で公開されている。

Adversarial perturbations can be added to images to protect their content from unwanted inferences. These perturbations may, however, be ineffective against classifiers that were not {seen} during the generation of the perturbation, or against defenses {based on re-quantization, median filtering or JPEG compression. To address these limitations, we present an adversarial attack {that is} specifically designed to protect visual content against { unseen} classifiers and known defenses. We craft perturbations using an iterative process that is based on the Fast Gradient Signed Method and {that} randomly selects a classifier and a defense, at each iteration}. This randomization prevents an undesirable overfitting to a specific classifier or defense. We validate the proposed attack in both targeted and untargeted settings on the private classes of the Places365-Standard dataset. Using ResNet18, ResNet50, AlexNet and DenseNet161 {as classifiers}, the performance of the proposed attack exceeds that of eleven state-of-the-art attacks. The implementation is available at https://github.com/smartcameras/RP-FGSM/.
翻訳日:2022-11-09 00:35:42 公開日:2020-07-19
# マルチモーダル脳ネットワークのための深部表現学習

Deep Representation Learning For Multimodal Brain Networks ( http://arxiv.org/abs/2007.09777v1 )

ライセンス: Link先を確認
Wen Zhang, Liang Zhan, Paul Thompson, Yalin Wang(参考訳) ネットワークサイエンスのアプローチを応用して脳の機能や解剖を研究することは、現代の医用画像解析において一般的である。 複雑なネットワークトポロジーのため、個々の脳にとって、マルチモーダル脳ネットワークから識別的ネットワーク表現をマイニングするのは簡単ではない。 グラフ構造化データにおけるディープラーニング技術の最近の成功は、非線形な相互モダリティ関係をモデル化する新しい方法を示している。 しかし、現在のディープブレインネットワークの手法では、内在的なグラフトポロジーを無視するか、グループ内で共有されるネットワークベースを必要とする。 これらの課題に対処するため、我々は、マルチモーダル脳ネットワークを融合する新しいエンドツーエンドのディープグラフ表現学習(Deep Multimodal Brain Networks - DMBN)を提案する。 具体的には,クロスモダリティ関係をグラフエンコーディングおよび復号化プロセスを通じて解読する。 脳構造ネットワークから機能ネットワークへの高次ネットワークマッピングは、ノードドメインで学習される。 学習されたネットワーク表現は、教師付き方法で脳衛生マップを誘導するための情報となる一連のノード特徴である。 我々は、合成データと実画像データの両方でフレームワークをテストする。 実験結果は,提案手法が他の最先端の深層脳ネットワークモデルよりも優れていることを示す。

Applying network science approaches to investigate the functions and anatomy of the human brain is prevalent in modern medical imaging analysis. Due to the complex network topology, for an individual brain, mining a discriminative network representation from the multimodal brain networks is non-trivial. The recent success of deep learning techniques on graph-structured data suggests a new way to model the non-linear cross-modality relationship. However, current deep brain network methods either ignore the intrinsic graph topology or require a network basis shared within a group. To address these challenges, we propose a novel end-to-end deep graph representation learning (Deep Multimodal Brain Networks - DMBN) to fuse multimodal brain networks. Specifically, we decipher the cross-modality relationship through a graph encoding and decoding process. The higher-order network mappings from brain structural networks to functional networks are learned in the node domain. The learned network representation is a set of node features that are informative to induce brain saliency maps in a supervised manner. We test our framework in both synthetic and real image data. The experimental results show the superiority of the proposed method over some other state-of-the-art deep brain network models.
翻訳日:2022-11-09 00:35:23 公開日:2020-07-19
# 政治フレーム:米国のCOVID-19ブレムゲーム

Political Framing: US COVID19 Blame Game ( http://arxiv.org/abs/2007.09655v1 )

ライセンス: Link先を確認
Chereen Shurafa and Kareem Darwish and Wajdi Zaghouani(参考訳) Twitterを通じて、フレーミングは政治的にアクティブなユーザーのための著名な大統領選挙キャンペーンツールとなっている。 フラーミングは、ある出来事における特定の視点を呼び出すことによって思考に影響を与えるのに用いられる。 本稿では、新型コロナウイルス(covid-19)のパンデミックを公衆衛生問題ではなく、それを取り巻く政治的レトリックとして、主に非難枠(トランプ、中国、あるいは陰謀)と、2020年の大統領選挙までの共和党および民主党ユーザーの議題を支持する支持枠(支持候補)によって形づくられていることを示します。 フレームを利用することで、Twitter上の双方の支持者間の相違を解明する。 さらに,ユーザの思考を肯定的あるいは否定的に強化するためにフレーミングがどのように使われるかを示す。 再現可能なパイプラインを通じて、Twitterがトピックのフレームを効率的に識別する方法について検討する。

Through the use of Twitter, framing has become a prominent presidential campaign tool for politically active users. Framing is used to influence thoughts by evoking a particular perspective on an event. In this paper, we show that the COVID19 pandemic rather than being viewed as a public health issue, political rhetoric surrounding it is mostly shaped through a blame frame (blame Trump, China, or conspiracies) and a support frame (support candidates) backing the agenda of Republican and Democratic users in the lead up to the 2020 presidential campaign. We elucidate the divergences between supporters of both parties on Twitter via the use of frames. Additionally, we show how framing is used to positively or negatively reinforce users' thoughts. We look at how Twitter can efficiently be used to identify frames for topics through a reproducible pipeline.
翻訳日:2022-11-09 00:34:15 公開日:2020-07-19
# グローバルシティインジケータのためのエネルギーオントロジー(ISO 37120)

An Energy Ontology for Global City Indicators (ISO 37120) ( http://arxiv.org/abs/2008.04070v1 )

ライセンス: Link先を確認
Alanna Komisar and Mark S. Fox(参考訳) 明日のスマートな都市を作るには、計測可能な改善が必要です。 しかし、都市は複雑なシステムであり、その性能を測定すると様々な問題が発生する。 具体的には、どの基準を計測すべきか、どのように指示を定義するべきか、どのように特定された指標を導出すべきかを決定する。 このワーキングペーパーは、より大規模なPolisGnosis Project (Fox, 2017)の一部として、ISO 37120インジケータの17の異なるテーマのセマンティックWebベースの表現の作成に対処するシリーズである。 我々は,エネルギーテーマインジケータの一般知識を表現し,エネルギーインジケータを導出するための定義とデータの両方を表現するための標準オントロジーを定義する。

To create tomorrow's smarter cities, today's initiatives will need to create measurable improvements. However, a city is a complex system and measuring its performance generates a breadth of issues. Specifically, determining what criteria should be measured, how indications should be defined, and how should the identified indicators be derived. This working paper is one in series that addresses the creation of a Semantic Web based representation of the 17 different themes of ISO 37120 indicators as part of the larger PolisGnosis Project (Fox, 2017). We define a standard ontology for representing general knowledge for the Energy Theme indicators, and for representing both the definition and data used to derive the Energy indicators.
翻訳日:2022-11-09 00:33:22 公開日:2020-07-19
# AIの制御可能性について

On Controllability of AI ( http://arxiv.org/abs/2008.04071v1 )

ライセンス: Link先を確認
Roman V. Yampolskiy(参考訳) 人工知能の発明は、人間の文明の軌道に変化をもたらすと予測されている。 このような強力な技術のメリットを享受し、落とし穴を避けるためには、それを制御できることが重要です。 しかし、人工知能の制御の可能性や、より先進的な超知能は公式に確立されていない。 本稿では、先進的なAIを完全に制御できないことを示す複数の領域からの証拠を裏付けるとともに、議論を示す。 人類の未来とAI研究、AIの安全性とセキュリティについて、AIの制御不能な結果について議論する。

Invention of artificial general intelligence is predicted to cause a shift in the trajectory of human civilization. In order to reap the benefits and avoid pitfalls of such powerful technology it is important to be able to control it. However, possibility of controlling artificial general intelligence and its more advanced version, superintelligence, has not been formally established. In this paper, we present arguments as well as supporting evidence from multiple domains indicating that advanced AI can't be fully controlled. Consequences of uncontrollability of AI are discussed with respect to future of humanity and research on AI, and AI safety and security.
翻訳日:2022-11-09 00:33:11 公開日:2020-07-19
# ディープラーニングを用いた加齢後期黄斑変性のリスク予測

Predicting risk of late age-related macular degeneration using deep learning ( http://arxiv.org/abs/2007.09550v1 )

ライセンス: Link先を確認
Yifan Peng, Tiarnan D. Keenan, Qingyu Chen, Elvira Agr\'on, Alexis Allot, Wai T. Wong, Emily Y. Chew, Zhiyong Lu(参考訳) 2040年までに、年齢関連の黄斑変性(AMD)は世界中で約2億8800万人に影響を与える。 視力低下の段階である後期AMDへの進行のリスクが高い個人を特定することは、医療介入やタイムリーなモニタリングを含む臨床行動に重要である。 深層学習は,カラーファンドス写真を用いたamdの診断・スクリーニングに有望であるが,amd後期のリスクを正確に予測することは困難である。 両方のタスクにおいて、これらの初期の深層学習の試みは、独立したコホートにおいてほとんど検証されていない。 本稿では,老化関連眼疾患研究 AREDS と AREDS2 の3,298 人の参加者 (80,000 画像) を用いて,深層学習と生存分析が AMD の進行確率を予測する方法を示す。 601名の独立した検査データセットを検証したところ, 既往の2つの臨床基準 (81.3 (81.1-81.5) と82.0 (81.8-82.3) を用いた網膜専門医をほぼ上回り, 高い予後精度 (5年C統計値86.4 (95%信頼区間86.2-86.6)) を達成した。 興味深いことに、本手法は、AMD予後の既存の基準(例えば、50%以上のリスク確認)に対するさらなる強みを提供するとともに、82の網膜専門病院のトレーニングデータを考えると、高い一般化が期待できる。 実際、AREDSのトレーニングとAREDS2の独立したコホートとしての試験による外的検証では、既存の臨床基準よりも予後の精度が有意に高かった。 これらの結果は,AMD患者の臨床的意思決定を促進するための深層学習システムの可能性を強調した。

By 2040, age-related macular degeneration (AMD) will affect approximately 288 million people worldwide. Identifying individuals at high risk of progression to late AMD, the sight-threatening stage, is critical for clinical actions, including medical interventions and timely monitoring. Although deep learning has shown promise in diagnosing/screening AMD using color fundus photographs, it remains difficult to predict individuals' risks of late AMD accurately. For both tasks, these initial deep learning attempts have remained largely unvalidated in independent cohorts. Here, we demonstrate how deep learning and survival analysis can predict the probability of progression to late AMD using 3,298 participants (over 80,000 images) from the Age-Related Eye Disease Studies AREDS and AREDS2, the largest longitudinal clinical trials in AMD. When validated against an independent test dataset of 601 participants, our model achieved high prognostic accuracy (five-year C-statistic 86.4 (95% confidence interval 86.2-86.6)) that substantially exceeded that of retinal specialists using two existing clinical standards (81.3 (81.1-81.5) and 82.0 (81.8-82.3), respectively). Interestingly, our approach offers additional strengths over the existing clinical standards in AMD prognosis (e.g., risk ascertainment above 50%) and is likely to be highly generalizable, given the breadth of training data from 82 US retinal specialty clinics. Indeed, during external validation through training on AREDS and testing on AREDS2 as an independent cohort, our model retained substantially higher prognostic accuracy than existing clinical standards. These results highlight the potential of deep learning systems to enhance clinical decision-making in AMD patients.
翻訳日:2022-11-09 00:33:01 公開日:2020-07-19
# 視覚的質問応答のための意味等価逆データ拡張

Semantic Equivalent Adversarial Data Augmentation for Visual Question Answering ( http://arxiv.org/abs/2007.09592v1 )

ライセンス: Link先を確認
Ruixue Tang, Chao Ma, Wei Emma Zhang, Qi Wu, Xiaokang Yang(参考訳) VQA(Visual Question Answering)は、ディープニューラルネットワーク(DNN)の急速な開発によって大きな成功を収めている。 一方、データ拡張はDNNの主要なトリックの一つであり、多くのコンピュータビジョンタスクで広く使われている。 しかしながら、VQAのデータ拡張問題を研究する研究はほとんどなく、既存の画像ベースの拡張スキーム(回転やフリップなど)は、その意味構造($\langle image, question, answer\rangle$ triplet)のためにVQAに直接適用できない。 例えば、方向関連質問応答(QA)ペアは、関連する画像を回転させたり、反転させたりしても真実ではないかもしれない。 本稿では,画像と質問を直接操作する代わりに,画像と質問の両方に対して生成した逆例を拡張データとして使用する。 拡張された例では、画像に示される視覚的な特性や、問題の \textbf{semantic} の意味は変更されず、$\langle 画像の正確性、 question、 answer\rangle$ が維持される。 次に、逆学習を用いて、従来のVQAモデル(BUTD)を拡張データでトレーニングする。 我々はVQAv2の全体的な性能を向上するだけでなく、ベースラインモデルと比較して敵攻撃に効果的に対応できることを見出した。 ソースコードはhttps://github.com/zaynmi/seada-vqaで入手できる。

Visual Question Answering (VQA) has achieved great success thanks to the fast development of deep neural networks (DNN). On the other hand, the data augmentation, as one of the major tricks for DNN, has been widely used in many computer vision tasks. However, there are few works studying the data augmentation problem for VQA and none of the existing image based augmentation schemes (such as rotation and flipping) can be directly applied to VQA due to its semantic structure -- an $\langle image, question, answer\rangle$ triplet needs to be maintained correctly. For example, a direction related Question-Answer (QA) pair may not be true if the associated image is rotated or flipped. In this paper, instead of directly manipulating images and questions, we use generated adversarial examples for both images and questions as the augmented data. The augmented examples do not change the visual properties presented in the image as well as the \textbf{semantic} meaning of the question, the correctness of the $\langle image, question, answer\rangle$ is thus still maintained. We then use adversarial learning to train a classic VQA model (BUTD) with our augmented data. We find that we not only improve the overall performance on VQAv2, but also can withstand adversarial attack effectively, compared to the baseline model. The source code is available at https://github.com/zaynmi/seada-vqa.
翻訳日:2022-11-09 00:26:27 公開日:2020-07-19
# ユーザ履歴からの学習による適応的ビデオハイライト検出

Adaptive Video Highlight Detection by Learning from User History ( http://arxiv.org/abs/2007.09598v1 )

ライセンス: Link先を確認
Mrigank Rochan, Mahesh Kumar Krishna Reddy, Linwei Ye, Yang Wang(参考訳) 近年,興味深い瞬間を抽出し,より長いビデオから短時間のビデオを作成することを目的としたハイライト検出研究への関心が高まっている。 しかし、既存の方法の多くは、ビデオハイライトの定義が極めて主観的であるという事実を無視している。 異なるユーザーは、同じ入力ビデオに対して異なるハイライトの好みを持つかもしれない。 本稿では,ユーザの履歴を,ユーザが以前に作成したハイライト形式で活用することで,ユーザに対してハイライト検出を適応させる,シンプルで効果的なフレームワークを提案する。 我々のフレームワークは2つのサブネットワークで構成されている。完全な時間的畳み込みハイライト検出ネットワーク$H$は、入力ビデオのハイライトを予測し、履歴エンコーダネットワーク$M$は、ユーザ履歴のためのものである。 新たに設計された時間適応型インスタンス正規化(T-AIN)レイヤを2つのサブネットワークが相互に相互作用する$H$に導入する。 T-AINはユーザ履歴に基づいて$M$から予測されるアフィンパラメータを持ち、ユーザ適応シグナルを$H$にします。 大規模なデータセットに対する大規模な実験により、我々のフレームワークはより正確でユーザ固有のハイライト予測を行うことができる。

Recently, there is an increasing interest in highlight detection research where the goal is to create a short duration video from a longer video by extracting its interesting moments. However, most existing methods ignore the fact that the definition of video highlight is highly subjective. Different users may have different preferences of highlight for the same input video. In this paper, we propose a simple yet effective framework that learns to adapt highlight detection to a user by exploiting the user's history in the form of highlights that the user has previously created. Our framework consists of two sub-networks: a fully temporal convolutional highlight detection network $H$ that predicts highlight for an input video and a history encoder network $M$ for user history. We introduce a newly designed temporal-adaptive instance normalization (T-AIN) layer to $H$ where the two sub-networks interact with each other. T-AIN has affine parameters that are predicted from $M$ based on the user history and is responsible for the user-adaptive signal to $H$. Extensive experiments on a large-scale dataset show that our framework can make more accurate and user-specific highlight predictions.
翻訳日:2022-11-09 00:26:02 公開日:2020-07-19
# テキストスポッティングのための文字領域アテンション

Character Region Attention For Text Spotting ( http://arxiv.org/abs/2007.09629v1 )

ライセンス: Link先を確認
Youngmin Baek, Seung Shin, Jeonghun Baek, Sungrae Park, Junyeop Lee, Daehyun Nam, Hwalsuk Lee(参考訳) シーンテキストスポッターは、テキスト検出および認識モジュールで構成されている。 これらのモジュールをエンドツーエンドのトレーニング可能なモデルに統合してパフォーマンスを向上させるために、多くの研究が行われている。 典型的なアーキテクチャでは、検出および認識モジュールを別々のブランチに配置する。 しかし、注意に基づくデコーダを使用する認識器と文字領域の空間情報を表す検出器を採用する場合、モジュール間のより相補的な接続を確立する可能性はまだ残っている。 これは、2つのモジュールが共通のサブタスクを共有しており、文字領域の場所を見つけるためである。 洞察に基づいて、密結合した単一パイプラインモデルを構築します。 このアーキテクチャは、認識器における検出出力を利用し、検出段階を通じて認識損失を伝搬する。 キャラクタスコアマップを使用することで、認識者がキャラクタセンタポイントによく出席し、検出モジュールへの認識損失伝播によりキャラクタ領域の局在が向上する。 また、強化された共有ステージにより、任意の形状のテキスト領域の特徴の整定と境界の定位が可能となる。 公開可能なストレートおよびカーブされたベンチマークデータセットでは、広範な実験が最先端のパフォーマンスを示している。

A scene text spotter is composed of text detection and recognition modules. Many studies have been conducted to unify these modules into an end-to-end trainable model to achieve better performance. A typical architecture places detection and recognition modules into separate branches, and a RoI pooling is commonly used to let the branches share a visual feature. However, there still exists a chance of establishing a more complimentary connection between the modules when adopting recognizer that uses attention-based decoder and detector that represents spatial information of the character regions. This is possible since the two modules share a common sub-task which is to find the location of the character regions. Based on the insight, we construct a tightly coupled single pipeline model. This architecture is formed by utilizing detection outputs in the recognizer and propagating the recognition loss through the detection stage. The use of character score map helps the recognizer attend better to the character center points, and the recognition loss propagation to the detector module enhances the localization of the character regions. Also, a strengthened sharing stage allows feature rectification and boundary localization of arbitrary-shaped text regions. Extensive experiments demonstrate state-of-the-art performance in publicly available straight and curved benchmark dataset.
翻訳日:2022-11-09 00:25:20 公開日:2020-07-19
# 深層学習に基づくくずしじ認識に関する調査

Survey on Deep Learning-based Kuzushiji Recognition ( http://arxiv.org/abs/2007.09637v1 )

ライセンス: Link先を確認
Kazuya Ueki, Tomoka Kojima(参考訳) 2012年の画像分類コンペティションで実証された深層学習法の圧倒的精度により、深層学習は様々なタスクにうまく適用されている。 古文書の書き起こしに用いられる筆文字であるくずしじの高精度な検出と認識は,ディープラーニングを用いて実現されている。 近年、くずしじの認識に関するコンテストが開催され、多くの研究者が様々な認識方法を提案している。 本研究では, 深層学習を用いたクズシジ認識における最近の研究動向, 現状, 今後の展望について検討する。

Owing to the overwhelming accuracy of the deep learning method demonstrated at the 2012 image classification competition, deep learning has been successfully applied to a variety of other tasks. The high-precision detection and recognition of Kuzushiji, a Japanese cursive script used for transcribing historical documents, has been made possible through the use of deep learning. In recent years, competitions on Kuzushiji recognition have been held, and many researchers have proposed various recognition methods. This study examines recent research trends, current problems, and future prospects in Kuzushiji recognition using deep learning.
翻訳日:2022-11-09 00:25:00 公開日:2020-07-19
# クラウドカウントのためのエラー駆動カリキュラムの学習

Learning Error-Driven Curriculum for Crowd Counting ( http://arxiv.org/abs/2007.09676v1 )

ライセンス: Link先を確認
Wenxi Li, Zhuoqun Cao, Qian Wang, Songjian Chen and Rui Feng(参考訳) 密度回帰は、群衆計数に広く用いられている。 しかし、密度マップにおける画素値の周波数不均衡は、パフォーマンスを改善するための障害である。 本稿では,本ネットワークのトレーニングを補助する追加のネットワークを用いて,エラー駆動型カリキュラムを学習するための新しい学習戦略を提案する。 TutorNetと呼ばれるチューターネットワークが提案され、メインネットワークの致命的なエラーを繰り返し示す。 TutorNetは、トレーニング中にメインネットワークのカリキュラムを定式化するためにピクセルレベルの重みを生成する。 さらに,実測値間の距離を拡大する因子によって密度マップを拡大し,性能向上に寄与することが知られている。 2つの挑戦的なベンチマークデータセットに関する広範囲な実験は、この手法が最先端のパフォーマンスを達成していることを示している。

Density regression has been widely employed in crowd counting. However, the frequency imbalance of pixel values in the density map is still an obstacle to improve the performance. In this paper, we propose a novel learning strategy for learning error-driven curriculum, which uses an additional network to supervise the training of the main network. A tutoring network called TutorNet is proposed to repetitively indicate the critical errors of the main network. TutorNet generates pixel-level weights to formulate the curriculum for the main network during training, so that the main network will assign a higher weight to those hard examples than easy examples. Furthermore, we scale the density map by a factor to enlarge the distance among inter-examples, which is well known to improve the performance. Extensive experiments on two challenging benchmark datasets show that our method has achieved state-of-the-art performance.
翻訳日:2022-11-09 00:24:50 公開日:2020-07-19
# 意味セグメンテーションのためのクラス別動的グラフ畳み込み

Class-wise Dynamic Graph Convolution for Semantic Segmentation ( http://arxiv.org/abs/2007.09690v1 )

ライセンス: Link先を確認
Hanzhe Hu, Deyi Ji, Weihao Gan, Shuai Bai, Wei Wu, Junjie Yan(参考訳) 最近の研究は、拡張畳み込み、ピラミッドプーリング、自己認識機構を用いて、文脈情報を局所的またはグローバル的に活用することで意味的セグメンテーションに大きな進歩をもたらした。 先行研究における文脈情報集約の潜在的な誤解を避けるために,情報を適応的に伝播するクラスワイズ動的グラフ畳み込み(cdgc)モジュールを提案する。 グラフ推論は、同じクラス内の画素間で実行される。 提案したCDGCモジュールをベースとして,CDGCモジュールと基本セグメンテーションネットワークを含む2つの主要部分で構成されるCDGCNet(Class-wise Dynamic Graph Convolution Network)を導入し,粗大なパラダイムを形成する。 具体的には、CDGCモジュールは、粗いセグメンテーション結果をクラスマスクとして、グラフ構築のためのノード特徴を抽出し、構築されたグラフ上の動的グラフ畳み込みを行い、特徴集約と重み付けを学習する。 そして、精巧な特徴と元の特徴を融合させて最終的な予測を得る。 我々はCityscapes、PASCAL VOC 2012、COCO Stuffを含む3つの人気のあるセマンティックセマンティックセマンティクスベンチマークについて広範な実験を行い、3つのベンチマークで最先端のパフォーマンスを達成する。

Recent works have made great progress in semantic segmentation by exploiting contextual information in a local or global manner with dilated convolutions, pyramid pooling or self-attention mechanism. In order to avoid potential misleading contextual information aggregation in previous works, we propose a class-wise dynamic graph convolution (CDGC) module to adaptively propagate information. The graph reasoning is performed among pixels in the same class. Based on the proposed CDGC module, we further introduce the Class-wise Dynamic Graph Convolution Network(CDGCNet), which consists of two main parts including the CDGC module and a basic segmentation network, forming a coarse-to-fine paradigm. Specifically, the CDGC module takes the coarse segmentation result as class mask to extract node features for graph construction and performs dynamic graph convolutions on the constructed graph to learn the feature aggregation and weight allocation. Then the refined feature and the original feature are fused to get the final prediction. We conduct extensive experiments on three popular semantic segmentation benchmarks including Cityscapes, PASCAL VOC 2012 and COCO Stuff, and achieve state-of-the-art performance on all three benchmarks.
翻訳日:2022-11-09 00:24:37 公開日:2020-07-19
# 弱教師付き物体局在の幾何学的制約

Geometry Constrained Weakly Supervised Object Localization ( http://arxiv.org/abs/2007.09727v1 )

ライセンス: Link先を確認
Weizeng Lu, Xi Jia, Weicheng Xie, Linlin Shen, Yicong Zhou, Jinming Duan(参考訳) 本稿では、弱教師付きオブジェクトローカライゼーション(WSOL)のための幾何制約付きネットワーク、GC-Netを提案する。 GC-Netは、検出器、ジェネレータ、分類器の3つのモジュールで構成される。 検出器は、生成器が生成するマスクによって幾何学的に制約される幾何学的形状(楕円または長方形)を記述する係数の集合によって定義される物体の位置を予測する。 分類器は、得られたマスクされた画像を入力として、オブジェクトと背景の2つの補完的な分類タスクを実行する。 マスクをよりコンパクトかつ完全にするために,幾何学的形状,カテゴリー的クロスエントロピー,負エントロピーの面積を考慮した新しいマルチタスク損失関数を提案する。 以前のアプローチとは対照的に、gc-netはエンドツーエンドでトレーニングされ、追加のチューニングを必要とする後処理(例えばしきい値付け)なしでオブジェクトの位置を予測する。 CUB-200-2011とILSVRC2012データセットの大規模な実験により、GC-Netは最先端の手法よりも大きなマージンで優れていることが示された。 ソースコードはhttps://github.com/lwzeng/gc-netで入手できます。

We propose a geometry constrained network, termed GC-Net, for weakly supervised object localization (WSOL). GC-Net consists of three modules: a detector, a generator and a classifier. The detector predicts the object location defined by a set of coefficients describing a geometric shape (i.e. ellipse or rectangle), which is geometrically constrained by the mask produced by the generator. The classifier takes the resulting masked images as input and performs two complementary classification tasks for the object and background. To make the mask more compact and more complete, we propose a novel multi-task loss function that takes into account area of the geometric shape, the categorical cross-entropy and the negative entropy. In contrast to previous approaches, GC-Net is trained end-to-end and predict object location without any post-processing (e.g. thresholding) that may require additional tuning. Extensive experiments on the CUB-200-2011 and ILSVRC2012 datasets show that GC-Net outperforms state-of-the-art methods by a large margin. Our source code is available at https://github.com/lwzeng/GC-Net.
翻訳日:2022-11-09 00:23:56 公開日:2020-07-19
# 畳み込みニューラルネットワークの汎用的可視化手法

A Generic Visualization Approach for Convolutional Neural Networks ( http://arxiv.org/abs/2007.09748v1 )

ライセンス: Link先を確認
Ahmed Taha, Xitong Yang, Abhinav Shrivastava, and Larry Davis(参考訳) 検索ネットワークは検索と索引付けに不可欠である。 分類ネットワークと比較すると,検索ネットワークに対する注意の可視化はほとんど研究されていない。 制約付き最適化問題として注意可視化を定式化する。 我々は、L2-Norm制約を注意フィルタ(L2-CAF)として利用し、分類と検索の双方で注意をローカライズする。 最近の文献とは異なり、このアプローチではアーキテクチャの変更も微調整も必要ありません。 したがって、事前学習されたネットワークの性能を損なうことなく、弱教師付きオブジェクトローカライゼーションを用いてL2-CAFを定量的に評価する。 最先端の成果は分類ネットワークで達成される。 検索ネットワークでは、Grad-CAMベースライン上で大幅に改善される。 定性的評価は、L2-CAFが繰り返し検索ネットワークのフレーム毎の注意を可視化する方法を示す。 さらなるアブレーション研究は、我々のアプローチの計算コストを強調し、L2-CAFを他の実現可能な代替品と比較する。 コードはhttps://bit.ly/3idblfvで利用可能

Retrieval networks are essential for searching and indexing. Compared to classification networks, attention visualization for retrieval networks is hardly studied. We formulate attention visualization as a constrained optimization problem. We leverage the unit L2-Norm constraint as an attention filter (L2-CAF) to localize attention in both classification and retrieval networks. Unlike recent literature, our approach requires neither architectural changes nor fine-tuning. Thus, a pre-trained network's performance is never undermined L2-CAF is quantitatively evaluated using weakly supervised object localization. State-of-the-art results are achieved on classification networks. For retrieval networks, significant improvement margins are achieved over a Grad-CAM baseline. Qualitative evaluation demonstrates how the L2-CAF visualizes attention per frame for a recurrent retrieval network. Further ablation studies highlight the computational cost of our approach and compare L2-CAF with other feasible alternatives. Code available at https://bit.ly/3iDBLFv
翻訳日:2022-11-09 00:23:39 公開日:2020-07-19
# 深部畳み込みニューラルネットワークを用いた胸部X線画像からのCOVID-19の診断

Using Deep Convolutional Neural Networks to Diagnose COVID-19 From Chest X-Ray Images ( http://arxiv.org/abs/2007.09695v1 )

ライセンス: Link先を確認
Yi Zhong(参考訳) 新型コロナウイルスの感染拡大は世界中の安全と健康の脅威となっている。 画像診断は、新型コロナウイルスをスクリーニングする最も効果的な方法の1つだ。 このプロジェクトでは、いくつかのオープンソースまたはパブリックデータセットを使用して、COVID-19-CXR-Datasetという名称の、COVID-19 CXRのオープンソースデータセットを提示し、深い畳み込みニューラルネットワークモデルを導入する。 このモデルは740のテスト画像上で検証され、87.3%の精度、89.67パーセントの精度、84.46%のリコールを達成し、95%の信頼区間で81%以上の予測確率を持つ100のcovid-19 x線画像のうち98を正しく分類する。 このプロジェクトは、医用画像の深層学習アプリケーションの開発を推し進める他の研究者の参考となるかもしれない。

The COVID-19 epidemic has become a major safety and health threat worldwide. Imaging diagnosis is one of the most effective ways to screen COVID-19. This project utilizes several open-source or public datasets to present an open-source dataset of COVID-19 CXRs, named COVID-19-CXR-Dataset, and introduces a deep convolutional neural network model. The model validates on 740 test images and achieves 87.3% accuracy, 89.67 % precision, and 84.46% recall, and correctly classifies 98 out of 100 COVID-19 x-ray images in test set with more than 81% prediction probability under the condition of 95% confidence interval. This project may serve as a reference for other researchers aiming to advance the development of deep learning applications in medical imaging.
翻訳日:2022-11-09 00:17:43 公開日:2020-07-19
# 空間関係から空間構成へ

From Spatial Relations to Spatial Configurations ( http://arxiv.org/abs/2007.09557v1 )

ライセンス: Link先を確認
Soham Dan, Parisa Kordjamshidi, Julia Bonn, Archna Bhatia, Jon Cai, Martha Palmer, Dan Roth(参考訳) 言語からの空間推論は自然言語理解に不可欠である。 サポートには、画像やビデオと同様に言語で発生する空間現象をキャプチャできる表現スキームが必要である。 既存の空間表現は、複雑なタスクで使われる空間構成を記述するのに十分ではない。 本稿では,既存の空間表現言語の能力を拡張し,世界における自然言語テキストの空間的意味の基盤となる意味的側面の包括性を高める。 我々の空間関係言語は、推論に不可欠な大規模で包括的な空間概念の集合を表現でき、静的および動的空間構成の構成をサポートするように設計されている。 我々はこの言語を抽象的意味表現(AMR)アノテーションスキーマと統合し、この拡張されたAMRで注釈付けされたコーパスを示す。 この表現方式の適用性を示すために,多様なデータセットから抽出したテキストに注釈を付け,既存の空間表現言語の能力を拡張し,意味論のきめ細かい分解を行い,文章のamrや談話表現全体とシームレスに融合する方法を示す。

Spatial Reasoning from language is essential for natural language understanding. Supporting it requires a representation scheme that can capture spatial phenomena encountered in language as well as in images and videos. Existing spatial representations are not sufficient for describing spatial configurations used in complex tasks. This paper extends the capabilities of existing spatial representation languages and increases coverage of the semantic aspects that are needed to ground the spatial meaning of natural language text in the world. Our spatial relation language is able to represent a large, comprehensive set of spatial concepts crucial for reasoning and is designed to support the composition of static and dynamic spatial configurations. We integrate this language with the Abstract Meaning Representation(AMR) annotation schema and present a corpus annotated by this extended AMR. To exhibit the applicability of our representation scheme, we annotate text taken from diverse datasets and show how we extend the capabilities of existing spatial representation languages with the fine-grained decomposition of semantics and blend it seamlessly with AMRs of sentences and discourse representations as a whole.
翻訳日:2022-11-09 00:17:25 公開日:2020-07-19
# 強化学習のための自然言語状態表現の概観

An Overview of Natural Language State Representation for Reinforcement Learning ( http://arxiv.org/abs/2007.09774v1 )

ライセンス: Link先を確認
Brielen Madureira and David Schlangen(参考訳) 適切な状態表現は強化学習における学習プロセスの基本部分である。 様々なタスクにおいて、状態は自然言語で記述するか、自然言語自身で記述することができる。 この調査は、自然言語状態表現を構築するために文献で使われる戦略の概要を示す。 我々は、より言語的に解釈可能で基礎的な表現、設計決定の慎重な正当化、異なるアプローチの有効性の評価を訴える。

A suitable state representation is a fundamental part of the learning process in Reinforcement Learning. In various tasks, the state can either be described by natural language or be natural language itself. This survey outlines the strategies used in the literature to build natural language state representations. We appeal for more linguistically interpretable and grounded representations, careful justification of design decisions and evaluation of the effectiveness of different approaches.
翻訳日:2022-11-09 00:17:06 公開日:2020-07-19
# マルチプリンシパルアシストゲーム

Multi-Principal Assistance Games ( http://arxiv.org/abs/2007.09540v1 )

ライセンス: Link先を確認
Arnaud Fickinger, Simon Zhuang, Dylan Hadfield-Menell, Stuart Russell(参考訳) 補助ゲーム(協調逆強化学習ゲームとも呼ばれる)は有益aiのモデルとして提案されており、ロボットエージェントは人間のプリンシパルに代わって行動しなければならないが、当初は人間の報酬機能について不確かである。 本稿では,ロボットがn人に代わって行動するより一般的なケースをカバーするマルチプリンシパル・アシスタンスゲームについて検討する。 社会的選択論や投票理論における不合理性定理はそのようなゲームに適用でき、人間のプリンシパルによる戦略的行動は、支払いを学ぶ際にロボットのタスクを複雑にする可能性があることを示唆している。 特に,人間がまず腕に対する個人の好みを示すために行動し,次にロボットが人間の報酬の合計を最大化するために行動するバンディットの見習いゲームを分析した。 我々は,準最適アームの選択コストが,自然機構設計の一形態であるミスリードに対するインセンティブを減少させる程度について検討する。 この文脈では,選好推論と社会福祉最適化を組み合わせるために,システムの共有制御を用いた社会的選択手法を提案する。

Assistance games (also known as cooperative inverse reinforcement learning games) have been proposed as a model for beneficial AI, wherein a robotic agent must act on behalf of a human principal but is initially uncertain about the humans payoff function. This paper studies multi-principal assistance games, which cover the more general case in which the robot acts on behalf of N humans who may have widely differing payoffs. Impossibility theorems in social choice theory and voting theory can be applied to such games, suggesting that strategic behavior by the human principals may complicate the robots task in learning their payoffs. We analyze in particular a bandit apprentice game in which the humans act first to demonstrate their individual preferences for the arms and then the robot acts to maximize the sum of human payoffs. We explore the extent to which the cost of choosing suboptimal arms reduces the incentive to mislead, a form of natural mechanism design. In this context we propose a social choice method that uses shared control of a system to combine preference inference with social welfare optimization.
翻訳日:2022-11-09 00:16:59 公開日:2020-07-19
# 自律走行車のための反応性ミッション・モビリティ・プランニング・アーキテクチャ

Autonomy and Unmanned Vehicles Augmented Reactive Mission-Motion Planning Architecture for Autonomous Vehicles ( http://arxiv.org/abs/2007.09563v1 )

ライセンス: Link先を確認
Somaiyeh MahmoudZadeh, David MW Powers, Reza Bairam Zadeh(参考訳) ハードウェア技術の進歩は、無人車両(UV)の開発を増強し、搭載されたインテリジェンスに対する制約を軽減するため、高度なソフトウェアの統合を促進する。 その結果、UVは環境条件における継続的なトランスフォームがより高いレベルの状況応答性と自律的な意思決定を要求する複雑なミッションで運用することができる。 本書は、厳格な状況下での強固なミッション計画に対する内外の状況認識におけるuvsの自律性とその関連特性の包括的調査を目的とする研究モノグラフである。 高度な知性は、自律性の主要な概念である人的監督者への依存を最小限に抑えるために不可欠である。 uvは、現在のミッション目標が達成可能か、あるいは別の解決策を見つけるかを評価するための内部状態と能力に注意する必要がある。 本書では、AUVが主要なケーススタディスレッドとなるが、他のケースや車両の種類についても検討する。 研究のモノグラフ、レビューの章、そして私たちが開発してきた新しいアプローチは、ロボット/車両計画、タスク、ルーティング、信頼に関連する文学やアルゴリズムのカバレッジを、上年または大学院で参照するのに適しています。

Advances in hardware technology have facilitated more integration of sophisticated software toward augmenting the development of Unmanned Vehicles (UVs) and mitigating constraints for onboard intelligence. As a result, UVs can operate in complex missions where continuous trans-formation in environmental condition calls for a higher level of situational responsiveness and autonomous decision making. This book is a research monograph that aims to provide a comprehensive survey of UVs autonomy and its related properties in internal and external situation awareness to-ward robust mission planning in severe conditions. An advance level of intelligence is essential to minimize the reliance on the human supervisor, which is a main concept of autonomy. A self-controlled system needs a robust mission management strategy to push the boundaries towards autonomous structures, and the UV should be aware of its internal state and capabilities to assess whether current mission goal is achievable or find an alternative solution. In this book, the AUVs will become the major case study thread but other cases/types of vehicle will also be considered. In-deed the research monograph, the review chapters and the new approaches we have developed would be appropriate for use as a reference in upper years or postgraduate degrees for its coverage of literature and algorithms relating to Robot/Vehicle planning, tasking, routing, and trust.
翻訳日:2022-11-09 00:16:40 公開日:2020-07-19
# contactpose: 物体接触と手のポーズによる把持のデータセット

ContactPose: A Dataset of Grasps with Object Contact and Hand Pose ( http://arxiv.org/abs/2007.09545v1 )

ライセンス: Link先を確認
Samarth Brahmbhatt, Chengcheng Tang, Christopher D. Twigg, Charles C. Kemp, James Hays(参考訳) 放牧は人間にとって自然なことだ。 しかし、複雑な手の構造や軟部組織の変形が伴い、手と物体の間に複雑な接触領域が生じる。 この接触の理解とモデリングは、ハンドモデル、AR/VR体験、ロボットグルーピングを改善する可能性がある。 しかし、現在、接触モデリング技術の開発と評価に不可欠である他のデータモダリティと組み合わせた手動接触のデータセットが欠落している。 本稿では,ハンドポーズ,オブジェクトポーズ,rgb-d画像とペアリングしたハンドオブジェクトコンタクトの最初のデータセットである contactpose を紹介する。 ContactPoseは25の家庭用物体の2306のユニークな把握能力を持ち、50人の被験者による2つの機能的意図と2.9 M RGB-Dの把握画像を持っている。 ContactPoseデータの解析により、ポーズと接触の興味深い関係が明らかになった。 このデータを用いて,様々なデータ表現,文献からのヒューリスティックス,コンタクトモデリングのための学習手法を厳密に評価した。 データ、コード、トレーニングされたモデルはhttps://contactpose.cc.gatech.edu.comで入手できる。

Grasping is natural for humans. However, it involves complex hand configurations and soft tissue deformation that can result in complicated regions of contact between the hand and the object. Understanding and modeling this contact can potentially improve hand models, AR/VR experiences, and robotic grasping. Yet, we currently lack datasets of hand-object contact paired with other data modalities, which is crucial for developing and evaluating contact modeling techniques. We introduce ContactPose, the first dataset of hand-object contact paired with hand pose, object pose, and RGB-D images. ContactPose has 2306 unique grasps of 25 household objects grasped with 2 functional intents by 50 participants, and more than 2.9 M RGB-D grasp images. Analysis of ContactPose data reveals interesting relationships between hand pose and contact. We use this data to rigorously evaluate various data representations, heuristics from the literature, and learning methods for contact modeling. Data, code, and trained models are available at https://contactpose.cc.gatech.edu.
翻訳日:2022-11-09 00:16:11 公開日:2020-07-19
# Sat2Graph: グラフテンソルエンコーディングによる道路グラフ抽出

Sat2Graph: Road Graph Extraction through Graph-Tensor Encoding ( http://arxiv.org/abs/2007.09547v1 )

ライセンス: Link先を確認
Songtao He, Favyen Bastani, Satvat Jagwani, Mohammad Alizadeh, Hari Balakrishnan, Sanjay Chawla, Mohamed M. Elshrif, Samuel Madden, Amin Sadeghi(参考訳) 衛星画像から道路グラフを推測することは、コンピュータビジョンの課題である。 従来の解法は,(1)各画素が道路上にあるかどうかを予測する画素ワイドセグメンテーションに基づくアプローチ,(2)道路グラフを反復的に予測するグラフベースのアプローチの2つのカテゴリに分類される。 これら2つのアプローチは,独自の制限に苦しむ一方で,補完的な強みを持っていることが分かりました。 本稿では,従来の2つのカテゴリの利点を統一的なフレームワークに組み合わせた新たな手法であるSat2Graphを提案する。 sat2graph の重要な概念は、道路グラフをテンソル表現に符号化する新しい符号化スキーム graph-tensor encoding (gte) である。 GTEは、単純な非リカレントな教師付きモデルをトレーニングして、画像から直接グラフ構造をキャプチャする豊富な機能セットを予測することができる。 2つの大きなデータセットを用いてSat2Graphを評価する。 Sat2Graphは、TOPOとAPLSという2つの広く使われているメトリクスで、従来の手法を上回ります。 さらに,先行研究が平面道路グラフを推測するだけであるのに対して,本手法は積み重ねられた道路(過渡路など)を推定し,堅牢に行うことができる。

Inferring road graphs from satellite imagery is a challenging computer vision task. Prior solutions fall into two categories: (1) pixel-wise segmentation-based approaches, which predict whether each pixel is on a road, and (2) graph-based approaches, which predict the road graph iteratively. We find that these two approaches have complementary strengths while suffering from their own inherent limitations. In this paper, we propose a new method, Sat2Graph, which combines the advantages of the two prior categories into a unified framework. The key idea in Sat2Graph is a novel encoding scheme, graph-tensor encoding (GTE), which encodes the road graph into a tensor representation. GTE makes it possible to train a simple, non-recurrent, supervised model to predict a rich set of features that capture the graph structure directly from an image. We evaluate Sat2Graph using two large datasets. We find that Sat2Graph surpasses prior methods on two widely used metrics, TOPO and APLS. Furthermore, whereas prior work only infers planar road graphs, our approach is capable of inferring stacked roads (e.g., overpasses), and does so robustly.
翻訳日:2022-11-09 00:15:53 公開日:2020-07-19
# 単眼映像における運動的3次元物体検出

Kinematic 3D Object Detection in Monocular Video ( http://arxiv.org/abs/2007.09548v1 )

ライセンス: Link先を確認
Garrick Brazil, Gerard Pons-Moll, Xiaoming Liu, Bernt Schiele(参考訳) 物理的な世界を3Dで知覚することは、自動運転アプリケーションに欠かせない。 時間運動は人間の視界にとって、検出、追跡、深度知覚のための貴重な資源であるが、現代の3Dオブジェクト検出器では、そのような特徴を十分に利用していない。 本研究では,キネマティックな動きを慎重に活用して3次元位置推定の精度を向上させる,単眼映像に基づく3次元物体検出手法を提案する。 具体的には,まず,オブジェクト指向の新たな分解法と自己バランス3次元信頼度を提案する。 両方のコンポーネントがキネマティックモデルを効果的に動作させる上で重要であることを示す。 一つのモデルのみを用いて、単眼ビデオからの3Dキネマティクスを効率よく利用し、3Dオブジェクト検出における全体の位置決め精度を向上させるとともに、シーンダイナミクス(エゴモーションと物体ごとの速度)の副産物を生成する。 我々は、KITTI自動運転データセット内のモノクロ3次元物体検出とバードアイビュータスクの最先端性能を達成する。

Perceiving the physical world in 3D is fundamental for self-driving applications. Although temporal motion is an invaluable resource to human vision for detection, tracking, and depth perception, such features have not been thoroughly utilized in modern 3D object detectors. In this work, we propose a novel method for monocular video-based 3D object detection which carefully leverages kinematic motion to improve precision of 3D localization. Specifically, we first propose a novel decomposition of object orientation as well as a self-balancing 3D confidence. We show that both components are critical to enable our kinematic model to work effectively. Collectively, using only a single model, we efficiently leverage 3D kinematics from monocular videos to improve the overall localization precision in 3D object detection while also producing useful by-products of scene dynamics (ego-motion and per-object velocity). We achieve state-of-the-art performance on monocular 3D object detection and the Bird's Eye View tasks within the KITTI self-driving dataset.
翻訳日:2022-11-09 00:15:33 公開日:2020-07-19
# piou損失:複雑な環境における高精度指向オブジェクト検出に向けて

PIoU Loss: Towards Accurate Oriented Object Detection in Complex Environments ( http://arxiv.org/abs/2007.09584v1 )

ライセンス: Link先を確認
Zhiming Chen and Kean Chen and Weiyao Lin and John See and Hui Yu and Yan Ke and Cong Yang(参考訳) オブジェクト指向バウンディングボックス(OBB)を用いたオブジェクト検出は、背景領域との重なりを小さくすることで、ローテーションオブジェクトをよりターゲットにすることができる。 既存のOCBアプローチは主に、距離損失に最適化された追加の角度次元を導入することで、水平境界ボックス検出器上に構築されている。 しかし、距離損失は OBB の角度誤差を最小限に抑え、それが IoU とゆるやかに相関しているため、高アスペクト比の物体には無感である。 したがって、新しい損失であるPixels-IoU(PIoU)損失は、正確なOBB回帰のために角度とIoUの両方を利用するように定式化される。 PIoU損失は、水平および向きの有界箱に対して単純かつ適した画素幅のIoUメートル法から導かれる。 提案手法の有効性を示すため,アンカーベースおよびアンカーフリーフレームワークにおけるPIoU損失を評価する。 実験の結果, PIoU損失はOBB検出器, 特に高アスペクト比, 複雑な背景を持つ物体の性能を劇的に向上させることができることがわかった。 さらに、以前の評価データセットには、オブジェクトがアスペクト比が高いシナリオが含まれていなかったため、より複雑な環境にOBB検出器を適用するようにコミュニティに促すために、新しいデータセットであるRetail50Kが導入されている。

Object detection using an oriented bounding box (OBB) can better target rotated objects by reducing the overlap with background areas. Existing OBB approaches are mostly built on horizontal bounding box detectors by introducing an additional angle dimension optimized by a distance loss. However, as the distance loss only minimizes the angle error of the OBB and that it loosely correlates to the IoU, it is insensitive to objects with high aspect ratios. Therefore, a novel loss, Pixels-IoU (PIoU) Loss, is formulated to exploit both the angle and IoU for accurate OBB regression. The PIoU loss is derived from IoU metric with a pixel-wise form, which is simple and suitable for both horizontal and oriented bounding box. To demonstrate its effectiveness, we evaluate the PIoU loss on both anchor-based and anchor-free frameworks. The experimental results show that PIoU loss can dramatically improve the performance of OBB detectors, particularly on objects with high aspect ratios and complex backgrounds. Besides, previous evaluation datasets did not include scenarios where the objects have high aspect ratios, hence a new dataset, Retail50K, is introduced to encourage the community to adapt OBB detectors for more complex environments.
翻訳日:2022-11-09 00:14:57 公開日:2020-07-19
# NLPにおける音声タグ付けの部分:量子定式化とZX計算による実行時最適化

Parts of Speech Tagging in NLP: Runtime Optimization with Quantum Formulation and ZX Calculus ( http://arxiv.org/abs/2007.10328v1 )

ライセンス: Link先を確認
Arit Kumar Bishwas, Ashish Mani and Vasile Palade(参考訳) 本稿では、自然言語処理における音声タグ付けの部分を量子コンピューティングアプローチで最適化し、さらにZX計算による量子ゲートレベルのランナブル最適化を実証し、実装対象をノイズ中間スケール量子システム(NISQ)の文脈で維持する。 我々の量子定式化は古典的よりも2次的な速度を示し、さらにZX計算の助けを借りて実装可能な最適化を示す。

This paper proposes an optimized formulation of the parts of speech tagging in Natural Language Processing with a quantum computing approach and further demonstrates the quantum gate-level runnable optimization with ZX-calculus, keeping the implementation target in the context of Noisy Intermediate Scale Quantum Systems (NISQ). Our quantum formulation exhibits quadratic speed up over the classical counterpart and further demonstrates the implementable optimization with the help of ZX calculus postulates.
翻訳日:2022-11-09 00:08:40 公開日:2020-07-19
# 線形結合を用いた正規化行列テンソル因子分解のためのフレキシブル最適化フレームワーク

A Flexible Optimization Framework for Regularized Matrix-Tensor Factorizations with Linear Couplings ( http://arxiv.org/abs/2007.09605v1 )

ライセンス: Link先を確認
Carla Schenker, Jeremy E. Cohen and Evrim Acar(参考訳) 結合行列とテンソル因子分解(cmtf)は、データ融合(data fusion)とも呼ばれる複数のソースからのデータを共同分析するためにしばしば用いられる。 しかし、複数のソースから派生したデータセットの特徴は、データ融合において多くの課題をもたらし、データセット間のさまざまな規則化、制約、損失関数、異なるタイプの結合構造を採用する必要がある。 本稿では,交互最適化(ao)と乗算器の交互方向法(admm)を用いた,結合行列とテンソル因子分解のための柔軟なアルゴリズムフレームワークを提案する。 このフレームワークは、様々な制約、損失関数、およびシームレスな方法で線形変換との結合の使用を促進する。 シミュレーションおよび実際のデータセットに関する数値実験により、提案手法は正確であり、フロベニウスノルム損失に対するcmtf法と同等または優れた性能で計算効率が向上することが示された。 カウントデータに対するKullback-Leibler分散を用いて、アルゴリズムが他の損失関数に対しても正確な結果を得ることを示す。

Coupled matrix and tensor factorizations (CMTF) are frequently used to jointly analyze data from multiple sources, also called data fusion. However, different characteristics of datasets stemming from multiple sources pose many challenges in data fusion and require to employ various regularizations, constraints, loss functions and different types of coupling structures between datasets. In this paper, we propose a flexible algorithmic framework for coupled matrix and tensor factorizations which utilizes Alternating Optimization (AO) and the Alternating Direction Method of Multipliers (ADMM). The framework facilitates the use of a variety of constraints, loss functions and couplings with linear transformations in a seamless way. Numerical experiments on simulated and real datasets demonstrate that the proposed approach is accurate, and computationally efficient with comparable or better performance than available CMTF methods for Frobenius norm loss, while being more flexible. Using Kullback-Leibler divergence on count data, we demonstrate that the algorithm yields accurate results also for other loss functions.
翻訳日:2022-11-09 00:08:13 公開日:2020-07-19
# フロー再構成のための半条件変動オートエンコーダと限定観測による不確かさ定量化

Semi Conditional Variational Auto-Encoder for Flow Reconstruction and Uncertainty Quantification from Limited Observations ( http://arxiv.org/abs/2007.09644v1 )

ライセンス: Link先を確認
Kristian Gundersen, Anna Oleynik, Nello Blaser, Guttorm Alendal(参考訳) 空間的に疎い観測から非線形流れを再構成する新しいデータ駆動モデルを提案する。 このモデルは条件付き変分自動エンコーダ(CVAE)のバージョンであり、確率的再構成と予測の不確かさの定量化を可能にする。 本モデルでは, 完全な流れデータから測定値の条件付けを行うと, デコーダのみが測定値に依存するCVAEが発生することを示す。 このため、このモデルは半条件変分オートエンコーダ(scvae)と呼ばれる。 シリンダーまわりの2次元流れのシミュレーションと, ベルゲン海モデルによる底流の速度データから, 手法, 復元およびそれに伴う不確実性推定を導出する。 再建誤差はGappy Proper Orthogonal Decomposition (GPOD)法と比較した。

We present a new data-driven model to reconstruct nonlinear flow from spatially sparse observations. The model is a version of a conditional variational auto-encoder (CVAE), which allows for probabilistic reconstruction and thus uncertainty quantification of the prediction. We show that in our model, conditioning on the measurements from the complete flow data leads to a CVAE where only the decoder depends on the measurements. For this reason we call the model as Semi-Conditional Variational Autoencoder (SCVAE). The method, reconstructions and associated uncertainty estimates are illustrated on the velocity data from simulations of 2D flow around a cylinder and bottom currents from the Bergen Ocean Model. The reconstruction errors are compared to those of the Gappy Proper Orthogonal Decomposition (GPOD) method.
翻訳日:2022-11-09 00:07:54 公開日:2020-07-19
# Auto Encoder と Image Gradient に基づくチップ上での熱方程式を解く教師なし学習手法

An unsupervised learning approach to solving heat equations on chip based on Auto Encoder and Image Gradient ( http://arxiv.org/abs/2007.09684v1 )

ライセンス: Link先を確認
Haiyang He, Jay Pathak(参考訳) チップ上での熱伝達方程式を解くことは、今後の5GおよびAIチップパッケージシステムにおいて非常に重要になる。 しかし、データ駆動教師付き機械学習モデルでは、シミュレーションのバッチを実行する必要がある。 データ駆動方式はデータ飢餓に対処するため,物理情報ニューラルネットワーク(PINN)が提案されている。 しかしながら、バニラPINNモデルは一度に1つの固定熱方程式を解くため、異なるソース項を持つ熱方程式に対してモデルを再訓練する必要がある。 さらに、pde残差を最小化し、境界条件を満たし、観測データ等に適合させるため、多目的最適化に関する課題を解決する必要がある。 そこで本研究では,チップ上の熱伝達方程式を解法データを用いることなく解くための教師なし学習手法について検討し,未知のソース項を持つ熱方程式の解を予測するためのトレーニングネットワークを一般化する。 具体的には、Auto Encoder (AE) と Image Gradient (IG) ベースのネットワークのハイブリッドフレームワークを設計する。 AEは熱方程式の異なる源項を符号化するために用いられる。 IGベースのネットワークは、構造化グリッドの2階中央差分アルゴリズムを実装し、PDE残差を最小化する。 設計したネットワークの有効性は,様々な利用場面で熱方程式を解いて評価する。 AEネットワークをトレーニングする情報源項の数が限られているため、このフレームワークは与えられた熱伝達問題を単一のトレーニングプロセスで解くだけでなく、未知の場合(新しいソース項を持つ熱方程式)を再トレーニングすることなく合理的に予測できる。

Solving heat transfer equations on chip becomes very critical in the upcoming 5G and AI chip-package-systems. However, batches of simulations have to be performed for data driven supervised machine learning models. Data driven methods are data hungry, to address this, Physics Informed Neural Networks (PINN) have been proposed. However, vanilla PINN models solve one fixed heat equation at a time, so the models have to be retrained for heat equations with different source terms. Additionally, issues related to multi-objective optimization have to be resolved while using PINN to minimize the PDE residual, satisfy boundary conditions and fit the observed data etc. Therefore, this paper investigates an unsupervised learning approach for solving heat transfer equations on chip without using solution data and generalizing the trained network for predicting solutions for heat equations with unseen source terms. Specifically, a hybrid framework of Auto Encoder (AE) and Image Gradient (IG) based network is designed. The AE is used to encode different source terms of the heat equations. The IG based network implements a second order central difference algorithm for structured grids and minimizes the PDE residual. The effectiveness of the designed network is evaluated by solving heat equations for various use cases. It is proved that with limited number of source terms to train the AE network, the framework can not only solve the given heat transfer problems with a single training process, but also make reasonable predictions for unseen cases (heat equations with new source terms) without retraining.
翻訳日:2022-11-09 00:07:24 公開日:2020-07-19
# 産業用iotにおける時系列データの深部異常検出--通信効率の高いオンデバイスフェデレーション学習アプローチ

Deep Anomaly Detection for Time-series Data in Industrial IoT: A Communication-Efficient On-device Federated Learning Approach ( http://arxiv.org/abs/2007.09712v1 )

ライセンス: Link先を確認
Yi Liu, Sahil Garg, Jiangtian Nie, Yang Zhang, Zehui Xiong, Jiawen Kang, M. Shamim Hossain(参考訳) エッジデバイス障害(すなわち異常)は産業用iot(iiot)における産業製品生産に深刻な影響を与えるため、正確かつタイムリーな異常検出がますます重要になっている。 さらに、エッジデバイスが収集したデータは、ユーザのプライベートデータを含む可能性があり、近年、ユーザのプライバシが公衆の懸念を呼びかけているため、現在の検出アプローチに挑戦している。 本稿では,iiotにおける時系列データ検出のための新しい通信効率の高いデバイス上でのフェデレーション学習(fl)ベースの深部異常検出フレームワークを提案する。 具体的には,まず,分散エッジデバイスが協調的に異常検出モデルを訓練し,一般化能力を向上させるためのflフレームワークについて紹介する。 次に,アテンションメカニズムに基づく畳み込みニューラルネットワーク-Long Short Term Memory (AMCNN-LSTM)モデルを提案する。 AMCNN-LSTMモデルは、注意機構に基づくCNNユニットを使用して重要なきめ細かい特徴を捉え、メモリ損失や勾配分散の問題を防止する。 さらに、このモデルは時系列データの予測におけるLSTMユニットの利点を保っている。 第三に,提案手法を産業異常検出のタイムラインに適応させるため,Top-\textit{k}選択に基づく勾配圧縮機構を提案し,通信効率を向上させる。 4つの実世界のデータセットに関する大規模な実験により、提案フレームワークは、勾配圧縮スキームを使用しない連合学習フレームワークと比較して、異常を正確にタイムリーに検出し、通信オーバーヘッドを50%削減できることを示した。

Since edge device failures (i.e., anomalies) seriously affect the production of industrial products in Industrial IoT (IIoT), accurately and timely detecting anomalies is becoming increasingly important. Furthermore, data collected by the edge device may contain the user's private data, which is challenging the current detection approaches as user privacy is calling for the public concern in recent years. With this focus, this paper proposes a new communication-efficient on-device federated learning (FL)-based deep anomaly detection framework for sensing time-series data in IIoT. Specifically, we first introduce a FL framework to enable decentralized edge devices to collaboratively train an anomaly detection model, which can improve its generalization ability. Second, we propose an Attention Mechanism-based Convolutional Neural Network-Long Short Term Memory (AMCNN-LSTM) model to accurately detect anomalies. The AMCNN-LSTM model uses attention mechanism-based CNN units to capture important fine-grained features, thereby preventing memory loss and gradient dispersion problems. Furthermore, this model retains the advantages of LSTM unit in predicting time series data. Third, to adapt the proposed framework to the timeliness of industrial anomaly detection, we propose a gradient compression mechanism based on Top-\textit{k} selection to improve communication efficiency. Extensive experiment studies on four real-world datasets demonstrate that the proposed framework can accurately and timely detect anomalies and also reduce the communication overhead by 50\% compared to the federated learning framework that does not use a gradient compression scheme.
翻訳日:2022-11-09 00:06:55 公開日:2020-07-19
# AWR:3Dハンドポース推定のための適応重み付け回帰

AWR: Adaptive Weighting Regression for 3D Hand Pose Estimation ( http://arxiv.org/abs/2007.09590v1 )

ライセンス: Link先を確認
Weiting Huang and Pengfei Ren and Jingyu Wang and Qi Qi and Haifeng Sun(参考訳) 本稿では,適応重み付け回帰 (adaptive weighting regression, awr) 法を提案する。 手の関節座標は、適応重み写像によって導かれる濃密表現におけるすべてのピクセルの離散積分として推定される。 この学習可能な集約プロセスは、エンドツーエンドのトレーニングを可能にし、ウェイトマップへの適応性をもたらし、ネットワークをより正確かつ堅牢なものにします。 様々な実験環境下でのAWRの有効性と一般性を検証するため, 総合的な探索実験を行った。 我々の手法は、NYU, ICVL, MSRA, HANDS 2017データセットを含む4つの公開データセットにおいて、他の最先端手法よりも優れている。

In this paper, we propose an adaptive weighting regression (AWR) method to leverage the advantages of both detection-based and regression-based methods. Hand joint coordinates are estimated as discrete integration of all pixels in dense representation, guided by adaptive weight maps. This learnable aggregation process introduces both dense and joint supervision that allows end-to-end training and brings adaptability to weight maps, making the network more accurate and robust. Comprehensive exploration experiments are conducted to validate the effectiveness and generality of AWR under various experimental settings, especially its usefulness for different types of dense representation and input modality. Our method outperforms other state-of-the-art methods on four publicly available datasets, including NYU, ICVL, MSRA and HANDS 2017 dataset.
翻訳日:2022-11-09 00:06:12 公開日:2020-07-19
# 部分的ラベル病理像分割のための自己相似学習者

Self-similarity Student for Partial Label Histopathology Image Segmentation ( http://arxiv.org/abs/2007.09610v1 )

ライセンス: Link先を確認
Hsien-Tzu Cheng, Chun-Fu Yeh, Po-Chen Kuo, Andy Wei, Keng-Chi Liu, Mong-Chi Ko, Kuan-Hua Chao, Yu-Ching Peng, and Tyng-Luh Liu(参考訳) ギガピクセル全スライド画像(WSI)における癌領域の描写は,デジタル病理学において重要な診断方法である。 このプロセスは、ギガピクセルWSIの広い探索空間のために時間がかかり、不明瞭な腫瘍病変における欠落や誤解釈の可能性が生じる。 これを解決するために,自動癌領域分割法の開発が不可欠である。 この問題は部分ラベルWSIによるモデリング問題であり、一部の癌領域を良性と誤分類し、その逆でノイズのあるラベルを持つパッチを生成することができる。 そこで本研究では,教師・生徒のモデルパラダイムと類似性学習を組み合わせた自己相似性学生を提案する。 具体的には、各パッチについて、まず空間距離に応じて類似した異種パッチをサンプリングする。 次に教師学生モデルを導入し、学生モデルの重みと教師予測のアンサンブルの指数的な移動平均を特徴付ける。 学生モデルは、パッチを取る一方で、教師モデルは、ノイズの多いラベルパッチに対する堅牢な表現を学ぶために、対応する類似および異種パッチをすべて取ります。 この類似性学習に続いて、類似性アンサンブルは、所定のパッチの擬似ラベルとして類似パッチのアンサンブル予測をマージし、ノイズラベルを反動させる。 CAMELYON16データセットにおいて,本手法は最先端のノイズ認識学習手法を5$\%$,教師付きベースラインを10$\%$,様々なノイズの度合いで大幅に向上させる。 さらに,本手法はTVGH TURPデータセットのベースラインに2$\%の改善を加え,より臨床的な病理組織学的セグメンテーションタスクへの一般化可能性を示した。

Delineation of cancerous regions in gigapixel whole slide images (WSIs) is a crucial diagnostic procedure in digital pathology. This process is time-consuming because of the large search space in the gigapixel WSIs, causing chances of omission and misinterpretation at indistinct tumor lesions. To tackle this, the development of an automated cancerous region segmentation method is imperative. We frame this issue as a modeling problem with partial label WSIs, where some cancerous regions may be misclassified as benign and vice versa, producing patches with noisy labels. To learn from these patches, we propose Self-similarity Student, combining teacher-student model paradigm with similarity learning. Specifically, for each patch, we first sample its similar and dissimilar patches according to spatial distance. A teacher-student model is then introduced, featuring the exponential moving average on both student model weights and teacher predictions ensemble. While our student model takes patches, teacher model takes all their corresponding similar and dissimilar patches for learning robust representation against noisy label patches. Following this similarity learning, our similarity ensemble merges similar patches' ensembled predictions as the pseudo-label of a given patch to counteract its noisy label. On the CAMELYON16 dataset, our method substantially outperforms state-of-the-art noise-aware learning methods by 5$\%$ and the supervised-trained baseline by 10$\%$ in various degrees of noise. Moreover, our method is superior to the baseline on our TVGH TURP dataset with 2$\%$ improvement, demonstrating the generalizability to more clinical histopathology segmentation tasks.
翻訳日:2022-11-09 00:05:55 公開日:2020-07-19
# 行列指数による生成流れ

Generative Flows with Matrix Exponential ( http://arxiv.org/abs/2007.09651v1 )

ライセンス: Link先を確認
Changyi Xiao, Ligang Liu(参考訳) 生成フローモデルは、可逆関数列からなる、抽出可能な正確な確率と効率的なサンプリングの特性を享受する。 本稿では,行列指数関数を生成フローに組み込む。 行列指数は行列から可逆行列への写像であり、この性質は生成フローに適している。 行列指数関数に基づいて,アフィンカップリング層の一般的な場合である行列指数結合層と,トレーニング中に崩壊しない行列指数関数的可逆 1 x 1 畳み込みを提案する。 そしてネットワークアーキテクチャを変更して、トレーニングプロセスを安定的で重要なスピードアップします。 本実験は, 生成フローモデル間の密度推定において, 高い性能が得られることを示す。

Generative flows models enjoy the properties of tractable exact likelihood and efficient sampling, which are composed of a sequence of invertible functions. In this paper, we incorporate matrix exponential into generative flows. Matrix exponential is a map from matrices to invertible matrices, this property is suitable for generative flows. Based on matrix exponential, we propose matrix exponential coupling layers that are a general case of affine coupling layers and matrix exponential invertible 1 x 1 convolutions that do not collapse during training. And we modify the networks architecture to make trainingstable andsignificantly speed up the training process. Our experiments show that our model achieves great performance on density estimation amongst generative flows models.
翻訳日:2022-11-08 23:59:30 公開日:2020-07-19
# ゲート型グラフニューラルネットワークの長距離性能向上

Improving the Long-Range Performance of Gated Graph Neural Networks ( http://arxiv.org/abs/2007.09668v1 )

ライセンス: Link先を確認
Denis Lukovnikov, Jens Lehmann, Asja Fischer(参考訳) マルチリレーショナルグラフを処理可能なグラフニューラルネットワーク(gnn)の多くの一般的な変種は、勾配の消失に苦しむ可能性がある。 本稿では,マルチリレーショナルグラフにおける長距離依存性の処理能力を改善した,ゲート型グラフニューラルネットワークに基づく新しいgnnアーキテクチャを提案する。 異なる合成タスクの実験的解析により、提案アーキテクチャがいくつかの一般的なGNNモデルより優れていることが示された。

Many popular variants of graph neural networks (GNNs) that are capable of handling multi-relational graphs may suffer from vanishing gradients. In this work, we propose a novel GNN architecture based on the Gated Graph Neural Network with an improved ability to handle long-range dependencies in multi-relational graphs. An experimental analysis on different synthetic tasks demonstrates that the proposed architecture outperforms several popular GNN models.
翻訳日:2022-11-08 23:59:10 公開日:2020-07-19
# 予測間隔:品質駆動深層アンサンブルから正規混合を分離する

Prediction Intervals: Split Normal Mixture from Quality-Driven Deep Ensembles ( http://arxiv.org/abs/2007.09670v1 )

ライセンス: Link先を確認
T\'arik S. Salem, Helge Langseth, Heri Ramampiaro(参考訳) 予測間隔は回帰分析において予測の不確実性を表現する機械と人間の解釈可能な方法である。 本稿では,ニューラルネットワークのアンサンブルからの点推定とともに,予測間隔を生成する手法を提案する。 本稿では,予測間隔と点推定に関する品質指標を融合した多目的損失関数と,結果のセマンティックな整合性を実現し,ニューラルネットワークのトレーニングプロセスを安定化するペナルティ関数を提案する。 アンサンブル予測間隔は、後方予測分布の多モード性および非対称性を考慮に入れた分割正規混合として集約され、アレタリックおよびてんかんの不確実性を捉える予測間隔となる。 この結果から, 品質駆動型損失関数と集約法の両方が, 予測間隔や点推定に有効であることが示唆された。

Prediction intervals are a machine- and human-interpretable way to represent predictive uncertainty in a regression analysis. In this paper, we present a method for generating prediction intervals along with point estimates from an ensemble of neural networks. We propose a multi-objective loss function fusing quality measures related to prediction intervals and point estimates, and a penalty function, which enforces semantic integrity of the results and stabilizes the training process of the neural networks. The ensembled prediction intervals are aggregated as a split normal mixture accounting for possible multimodality and asymmetricity of the posterior predictive distribution, and resulting in prediction intervals that capture aleatoric and epistemic uncertainty. Our results show that both our quality-driven loss function and our aggregation method contribute to well-calibrated prediction intervals and point estimates.
翻訳日:2022-11-08 23:58:59 公開日:2020-07-19
# ゼロショット学習における意味的関係の活用

Leveraging Seen and Unseen Semantic Relationships for Generative Zero-Shot Learning ( http://arxiv.org/abs/2007.09549v1 )

ライセンス: Link先を確認
Maunil R Vyas, Hemanth Venkateswara, Sethuraman Panchanathan(参考訳) ゼロショット学習(ZSL)は、目に見えないクラスから見えないクラスに知識を伝達するために意味情報を活用することで、目に見えないクラス認識の問題に対処する。 生成モデルは、見えない視覚特徴を合成し、ZSLを古典的な教師付き学習問題に変換する。 これらの生成モデルは、見たクラスを使ってトレーニングされ、見えないクラスから見えないクラスに暗黙的に知識を転送することが期待されます。 しかし、それらの性能はオーバーフィッティングによって損なわれ、一般化ゼロショット学習(GZSL)のサブスタンダード性能に繋がる。 そこで本研究では,目に見えるカテゴリと見当たらないカテゴリのセマンティクス関係を活用し,新しいセマンティクス正規化損失(sr-loss)を組み込んだ知識伝達を明示的に行う生成モデルであるlsrganを提案する。 SR-lossはLsrGANをガイドし、目に見えるクラスと目に見えないクラスのセマンティックな関係を反映する視覚的特徴を生成する。 ウィキペディアのテキストベースのCUBとNABirdsの分割、AttributeベースのAWA、CUB、SUNを含む7つのベンチマークデータセットの実験は、ZSLとGZSLの従来の最先端アプローチと比較して、LsrGANの優位性を示している。 コードはhttps: // githubで入手できる。 com/Maunil/LsrGAN

Zero-shot learning (ZSL) addresses the unseen class recognition problem by leveraging semantic information to transfer knowledge from seen classes to unseen classes. Generative models synthesize the unseen visual features and convert ZSL into a classical supervised learning problem. These generative models are trained using the seen classes and are expected to implicitly transfer the knowledge from seen to unseen classes. However, their performance is stymied by overfitting, which leads to substandard performance on Generalized Zero-Shot learning (GZSL). To address this concern, we propose the novel LsrGAN, a generative model that Leverages the Semantic Relationship between seen and unseen categories and explicitly performs knowledge transfer by incorporating a novel Semantic Regularized Loss (SR-Loss). The SR-loss guides the LsrGAN to generate visual features that mirror the semantic relationships between seen and unseen classes. Experiments on seven benchmark datasets, including the challenging Wikipedia text-based CUB and NABirds splits, and Attribute-based AWA, CUB, and SUN, demonstrates the superiority of the LsrGAN compared to previous state-of-the-art approaches under both ZSL and GZSL. Code is available at https: // github. com/ Maunil/ LsrGAN
翻訳日:2022-11-08 23:58:29 公開日:2020-07-19
# サイクル内のマッピング: Sinkhorn による点雲形状の教師なし学習

Mapping in a cycle: Sinkhorn regularized unsupervised learning for point cloud shapes ( http://arxiv.org/abs/2007.09594v1 )

ライセンス: Link先を確認
Lei Yang, Wenxi Liu, Zhiming Cui, Nenglun Chen, Wenping Wang(参考訳) 本稿では,同じカテゴリの点雲形状間の密接な対応をサイクル・コンシスタンシーの定式化に基づいて求める,教師なし学習フレームワークを提案する。 ポイントクラウドデータからポイントワイズ特徴を識別するために, 学習したポイントワイズマッピングを可能な限り単射的にするために, シンクホーン正規化に基づく正規化項を定式化する。 さらに、ソース形状のランダムな剛性変換を導入し、モデルの摂動に対するロバスト性を改善するために三重項サイクルを形成する。 包括的実験により,学習したポイントワイズ機能は,部分形状登録やキーポイント転送など,さまざまなポイントクラウド解析タスクに有効であることが示された。 また,学習されたポイントワイズ機能は教師あり手法によって活用され,完全なトレーニングデータセットかほんの一部で部分セグメンテーション性能が向上することを示す。

We propose an unsupervised learning framework with the pretext task of finding dense correspondences between point cloud shapes from the same category based on the cycle-consistency formulation. In order to learn discriminative pointwise features from point cloud data, we incorporate in the formulation a regularization term based on Sinkhorn normalization to enhance the learned pointwise mappings to be as bijective as possible. Besides, a random rigid transform of the source shape is introduced to form a triplet cycle to improve the model's robustness against perturbations. Comprehensive experiments demonstrate that the learned pointwise features through our framework benefits various point cloud analysis tasks, e.g. partial shape registration and keypoint transfer. We also show that the learned pointwise features can be leveraged by supervised methods to improve the part segmentation performance with either the full training dataset or just a small portion of it.
翻訳日:2022-11-08 23:57:57 公開日:2020-07-19
# 表情の正規化と感情認識のための生成的対向重積オートエンコーダ

Generative Adversarial Stacked Autoencoders for Facial Pose Normalization and Emotion Recognition ( http://arxiv.org/abs/2007.09790v1 )

ライセンス: Link先を確認
Ariel Ruiz-Garcia, Vasile Palade, Mark Elshaw, Mariette Awad(参考訳) 本研究では,最大60度以上の表情を0度の照明不変な表情表現にマッピングすることを学ぶ,新しい生成的逆向き自動エンコーダを提案する。 局所空間情報と大域的空間情報の両方を利用する新しい畳み込み層と、顔の対称性を利用するパラメータの少ない畳み込み層を用いてこれを達成する。 さらに, 逐次的かつ効率的な自動エンコーダの学習を目的とした, 逐次的逆回帰層学習アルゴリズムを提案する。 本手法の有効性を実証し,実地で収集した顔を含む複数の表情認識コーパスにおける最先端のパフォーマンスを報告する。

In this work, we propose a novel Generative Adversarial Stacked Autoencoder that learns to map facial expressions, with up to plus or minus 60 degrees, to an illumination invariant facial representation of 0 degrees. We accomplish this by using a novel convolutional layer that exploits both local and global spatial information, and a convolutional layer with a reduced number of parameters that exploits facial symmetry. Furthermore, we introduce a generative adversarial gradual greedy layer-wise learning algorithm designed to train Adversarial Autoencoders in an efficient and incremental manner. We demonstrate the efficiency of our method and report state-of-the-art performance on several facial emotion recognition corpora, including one collected in the wild.
翻訳日:2022-11-08 23:56:43 公開日:2020-07-19
# 複数モーダリティによる空間関係の理解

Understanding Spatial Relations through Multiple Modalities ( http://arxiv.org/abs/2007.09551v1 )

ライセンス: Link先を確認
Soham Dan, Hangfeng He, Dan Roth(参考訳) ナビゲーション,方向付与,人間とコンピュータのインタラクションなど,複数のアプリケーションにおいて空間的関係の認識と推論が不可欠である。 オブジェクト間の空間的関係は、空間的前置詞として表されるか、移動、歩行、移動などの空間的動詞によって表される。 これらの両者、特に暗黙の関係は、大きな常識理解を必要とする。 本稿では,画像内の2つの実体間の暗黙的および明示的な空間的関係を推測するタスクを提案する。 本研究では、テキスト情報と視覚情報の両方を用いて空間関係を予測し、物体の位置情報と大きさ情報と画像埋め込みを利用するモデルを設計する。 我々は、空間モデルと強力な言語モデルを比較し、モデリングがこれらの力をどのように補完するかを示し、予測精度と範囲を改善し、目に見えない対象、対象、関係を扱うのを容易にする。

Recognizing spatial relations and reasoning about them is essential in multiple applications including navigation, direction giving and human-computer interaction in general. Spatial relations between objects can either be explicit -- expressed as spatial prepositions, or implicit -- expressed by spatial verbs such as moving, walking, shifting, etc. Both these, but implicit relations in particular, require significant common sense understanding. In this paper, we introduce the task of inferring implicit and explicit spatial relations between two entities in an image. We design a model that uses both textual and visual information to predict the spatial relations, making use of both positional and size information of objects and image embeddings. We contrast our spatial model with powerful language models and show how our modeling complements the power of these, improving prediction accuracy and coverage and facilitates dealing with unseen subjects, objects and relations.
翻訳日:2022-11-08 23:50:38 公開日:2020-07-19
# 異なるソーシャルネットワーク構造における強化コミュニケーション学習

Reinforcement Communication Learning in Different Social Network Structures ( http://arxiv.org/abs/2007.09820v1 )

ライセンス: Link先を確認
Marina Dubova, Arseny Moskvichev, Robert Goldstone(参考訳) 社会ネットワーク構造は、人間の言語進化の重要な決定要因の1つである。 以前の研究は、社会的相互作用のネットワークが人間の集団における分散学習を形作っており、様々な種類のコミュニケーション慣習が出現していることを示している。 分散型マルチエージェント強化学習コミュニティにおけるコミュニケーションシステムの特性に及ぼすソーシャルネットワーク組織の影響について検討した。 ソーシャルネットワークのグローバルな接続は、共有・対称的なコミュニケーションシステムにおける集団の収束を促進し、エージェントが多くのローカルな「方言」を形成するのを防ぐ。 さらに、エージェントの学位は、通信規約の使用の一貫性に逆らに関係している。 これらの結果は,強化コミュニケーション学習におけるソーシャル・ネットワーク構造の基本特性の重要性を示し,単語コンベンションにおける人間の収束に関する新たな解釈を示唆する。

Social network structure is one of the key determinants of human language evolution. Previous work has shown that the network of social interactions shapes decentralized learning in human groups, leading to the emergence of different kinds of communicative conventions. We examined the effects of social network organization on the properties of communication systems emerging in decentralized, multi-agent reinforcement learning communities. We found that the global connectivity of a social network drives the convergence of populations on shared and symmetric communication systems, preventing the agents from forming many local "dialects". Moreover, the agent's degree is inversely related to the consistency of its use of communicative conventions. These results show the importance of the basic properties of social network structure on reinforcement communication learning and suggest a new interpretation of findings on human convergence on word conventions.
翻訳日:2022-11-08 23:50:23 公開日:2020-07-19
# 長さ制御可能な画像キャプション

Length-Controllable Image Captioning ( http://arxiv.org/abs/2007.09580v1 )

ライセンス: Link先を確認
Chaorui Deng, Ning Ding, Mingkui Tan, Qi Wu(参考訳) この10年間、画像キャプションタスクの顕著な進歩が見られたが、既存のほとんどの手法では字幕を制御できない。 本稿では,簡単な長さレベルの埋め込みを用いて,その能力を実現することを提案する。 さらに,その自己回帰的な性質から,生成キャプションの長さが大きくなるにつれて,既存モデルの計算複雑性が線形に増加する。 そこで我々はさらに,字幕を長く無関係な複雑さで生成できる非自己回帰的な字幕化手法を考案する。 提案する長さレベル埋め込みの利点を3つのモデルに検証した。異なる種類のデコーダを持つ2つのstate-of-the-art (sota) 自己回帰モデルと、その一般化能力を示すために提案する非自己回帰モデルである。 実験では,MS COCOデータセット上でのSOTA性能だけでなく,長さ制御可能な多種多様な画像キャプションを生成する。 特に,非自己回帰モデルは,制御可能性や多様性の観点から自己回帰ベースラインよりも優れており,長いキャプションの復号効率も著しく向上している。 私たちのコードとモデルは、 \textcolor{magenta}{\texttt{https://github.com/bearcatt/labert}}でリリースされる。

The last decade has witnessed remarkable progress in the image captioning task; however, most existing methods cannot control their captions, \emph{e.g.}, choosing to describe the image either roughly or in detail. In this paper, we propose to use a simple length level embedding to endow them with this ability. Moreover, due to their autoregressive nature, the computational complexity of existing models increases linearly as the length of the generated captions grows. Thus, we further devise a non-autoregressive image captioning approach that can generate captions in a length-irrelevant complexity. We verify the merit of the proposed length level embedding on three models: two state-of-the-art (SOTA) autoregressive models with different types of decoder, as well as our proposed non-autoregressive model, to show its generalization ability. In the experiments, our length-controllable image captioning models not only achieve SOTA performance on the challenging MS COCO dataset but also generate length-controllable and diverse image captions. Specifically, our non-autoregressive model outperforms the autoregressive baselines in terms of controllability and diversity, and also significantly improves the decoding efficiency for long captions. Our code and models are released at \textcolor{magenta}{\texttt{https://github.com/bearcatt/LaBERT}}.
翻訳日:2022-11-08 23:50:10 公開日:2020-07-19
# DBQ: 軽量ディープニューラルネットワークのための微分分岐量子化器

DBQ: A Differentiable Branch Quantizer for Lightweight Deep Neural Networks ( http://arxiv.org/abs/2007.09818v1 )

ライセンス: Link先を確認
Hassan Dbouk, Hetul Sanghvi, Mahesh Mehendale, Naresh Shanbhag(参考訳) ディープニューラルネットワークは、様々なコンピュータビジョンタスクで最先端のパフォーマンスを達成した。 しかし、リソース制限されたデバイスへの展開は、計算とストレージの複雑さが高いために妨げられている。 軽量ネットワークアーキテクチャ設計やパラメータ量子化といった様々な複雑さ低減技術がこれらのネットワークの実装コストの削減に成功しているが、これらの手法はしばしば直交的と見なされている。 実際、既存の量子化技術はmobilenetのような軽量アーキテクチャでの成功を再現できない。 そこで本研究では,効率的な三元系ドット製品エンジンにシームレスにマッピング可能な,完全微分可能な非一様量子化器を提案する。 我々は、CIFAR-10、ImageNet、Visual Wake Wordsデータセットに関する包括的な実験を行う。 提案する量子化器 (DBQ) は,MobileNetV1, MobileNetV2, ShuffleNetV2 などの軽量ネットワークを積極的に定量化する,突進的な課題に対処する。 dbqは、最小限のトレーニングオーバーヘッドで最先端の成果を達成し、最高の(最適)精度と複雑さのトレードオフを提供します。

Deep neural networks have achieved state-of-the art performance on various computer vision tasks. However, their deployment on resource-constrained devices has been hindered due to their high computational and storage complexity. While various complexity reduction techniques, such as lightweight network architecture design and parameter quantization, have been successful in reducing the cost of implementing these networks, these methods have often been considered orthogonal. In reality, existing quantization techniques fail to replicate their success on lightweight architectures such as MobileNet. To this end, we present a novel fully differentiable non-uniform quantizer that can be seamlessly mapped onto efficient ternary-based dot product engines. We conduct comprehensive experiments on CIFAR-10, ImageNet, and Visual Wake Words datasets. The proposed quantizer (DBQ) successfully tackles the daunting task of aggressively quantizing lightweight networks such as MobileNetV1, MobileNetV2, and ShuffleNetV2. DBQ achieves state-of-the art results with minimal training overhead and provides the best (pareto-optimal) accuracy-complexity trade-off.
翻訳日:2022-11-08 23:49:47 公開日:2020-07-19
# 数発自然言語処理のためのメタラーニング:調査

Meta-learning for Few-shot Natural Language Processing: A Survey ( http://arxiv.org/abs/2007.09604v1 )

ライセンス: Link先を確認
Wenpeng Yin(参考訳) Few-shot Natural Language Processing (NLP) は、ラベル付き例のごく一部に付随するNLPタスクを指す。 これは、AIシステムが扱わなければならない現実的な課題である。 通常、より補助的な情報を集めるか、より効率的な学習アルゴリズムを開発することに頼る。 しかしながら、高容量モデルにおける一般的な勾配に基づく最適化は、スクラッチからトレーニングする場合、多くのラベル付き例に対して多くのパラメータアップステップが必要となる(snell et al., 2017)。 対象のタスク自体がより多くの情報を提供できない場合、モデル学習に役立つリッチアノテーションを備えたタスクをもっと集めてはどうでしょう? メタラーニングの目標は、いくつかのラベル付きサンプルを使用して新しいタスクを解決できるように、リッチアノテーションでさまざまなタスクでモデルをトレーニングすることである。 重要なアイデアは、パラメータがゼロまたはいくつかの勾配ステップで更新された後に、モデルが新しいタスクで最大パフォーマンスを持つように、モデルの初期パラメータをトレーニングすることだ。 メタラーニングに関する調査はすでにいくつかある(Vilalta and Drissi, 2002; Vanschoren, 2018; Hospedales et al., 2020)。 それにもかかわらず、本論文はNLPドメイン、特に少数ショットアプリケーションに焦点を当てている。 メタラーニングをNLPに応用する際の、より明確な定義、進捗の概要、一般的なデータセットを提供しようとしている。

Few-shot natural language processing (NLP) refers to NLP tasks that are accompanied with merely a handful of labeled examples. This is a real-world challenge that an AI system must learn to handle. Usually we rely on collecting more auxiliary information or developing a more efficient learning algorithm. However, the general gradient-based optimization in high capacity models, if training from scratch, requires many parameter-updating steps over a large number of labeled examples to perform well (Snell et al., 2017). If the target task itself cannot provide more information, how about collecting more tasks equipped with rich annotations to help the model learning? The goal of meta-learning is to train a model on a variety of tasks with rich annotations, such that it can solve a new task using only a few labeled samples. The key idea is to train the model's initial parameters such that the model has maximal performance on a new task after the parameters have been updated through zero or a couple of gradient steps. There are already some surveys for meta-learning, such as (Vilalta and Drissi, 2002; Vanschoren, 2018; Hospedales et al., 2020). Nevertheless, this paper focuses on NLP domain, especially few-shot applications. We try to provide clearer definitions, progress summary and some common datasets of applying meta-learning to few-shot NLP.
翻訳日:2022-11-08 23:49:11 公開日:2020-07-19
# 言語モデリングのためのワンショット学習

One-Shot Learning for Language Modelling ( http://arxiv.org/abs/2007.09679v1 )

ライセンス: Link先を確認
Talip Ucar, Adrian Gonzalez-Martin, Matthew Lee, Adrian Daniel Szwarc(参考訳) 人間は、たとえその単語を初めて読んだり聴いたりしても、周囲の単語の構文と意味を使って、単語の意味について多くのことを推測することができる。 単語の学習した概念を新しいタスクに一般化することもできる。 特定のタスク(Silver et al., 2016)における人間レベルのパフォーマンスの達成には大きな進歩があったが、1つまたは少数の例から学ぶことは機械学習の重要な課題であり、自然言語処理(NLP)では十分に研究されていない。 本研究では,近年の機械学習の課題である埋め込み,注意機構(softmax),類似度対策(cosine,Euclidean,Poincare,Minkowski)を取り入れることで,NLPタスクのワンショット学習の問題に取り組む。 我々は、マッチングネットワークで提案されるフレームワーク(Vinyals et al., 2016)に適応し、WikiText-2データセットを用いて、探索された単語の欠落を予測するタスク(Vinyals et al., 2016)において、上記の方法の有効性を検討する。 私たちの最初の貢献は、kショット学習における異なる距離メトリクスの有効性を探求し、共通の信念に挑戦するkショット学習に最適な距離メートル法がないことを示すことです。 その結果,距離測定器の性能は訓練中のショット数に依存することがわかった。 私たちの研究の2つ目の貢献は、言語タスクにおける1、2、3ショットの学習のためのベンチマークを、将来の研究に対してベンチマークするために利用可能なデータセットで確立することです。

Humans can infer a great deal about the meaning of a word, using the syntax and semantics of surrounding words even if it is their first time reading or hearing it. We can also generalise the learned concept of the word to new tasks. Despite great progress in achieving human-level performance in certain tasks (Silver et al., 2016), learning from one or few examples remains a key challenge in machine learning, and has not thoroughly been explored in Natural Language Processing (NLP). In this work we tackle the problem of oneshot learning for an NLP task by employing ideas from recent developments in machine learning: embeddings, attention mechanisms (softmax) and similarity measures (cosine, Euclidean, Poincare, and Minkowski). We adapt the framework suggested in matching networks (Vinyals et al., 2016), and explore the effectiveness of the aforementioned methods in one, two and three-shot learning problems on the task of predicting missing word explored in (Vinyals et al., 2016) by using the WikiText-2 dataset. Our work contributes in two ways: Our first contribution is that we explore the effectiveness of different distance metrics on k-shot learning, and show that there is no single best distance metric for k-shot learning, which challenges common belief. We found that the performance of a distance metric depends on the number of shots used during training. The second contribution of our work is that we establish a benchmark for one, two, and three-shot learning on a language task with a publicly available dataset that can be used to benchmark against in future research.
翻訳日:2022-11-08 23:48:48 公開日:2020-07-19
# mono と多言語トランスフォーマモデル:いくつかの言語タスクの比較

Mono vs Multilingual Transformer-based Models: a Comparison across Several Language Tasks ( http://arxiv.org/abs/2007.09757v1 )

ライセンス: Link先を確認
Diego de Vargas Feijo, Viviane Pereira Moreira(参考訳) BERT (Bidirectional Encoder Representations from Transformers) と ALBERT (A Lite BERT) は、後に様々な自然言語理解タスクのために微調整できる言語モデルの事前学習手法である。 これらの手法は、多くのタスク(主に英語)に適用され、最先端技術を上回る結果を得た。 本稿では、我々の貢献を2つにまとめる。 まず、ポルトガルでトレーニングされたBERTとAlbertモデルを利用可能にします。 第2に, 意味的テクスト的類似性, テクスト的包含, テクストカテゴリー分類, 感情分析, 不快コメント検出, フェイクニュース検出などの実験を用いて, 単言語モデルと標準多言語モデルを比較し, 生成した言語表現の有効性を評価した。 その結果,単言語モデルと多言語モデルの両方が最先端を実現することができ,単一言語モデルのトレーニングの利点は小さいことが示唆された。

BERT (Bidirectional Encoder Representations from Transformers) and ALBERT (A Lite BERT) are methods for pre-training language models which can later be fine-tuned for a variety of Natural Language Understanding tasks. These methods have been applied to a number of such tasks (mostly in English), achieving results that outperform the state-of-the-art. In this paper, our contribution is twofold. First, we make available our trained BERT and Albert model for Portuguese. Second, we compare our monolingual and the standard multilingual models using experiments in semantic textual similarity, recognizing textual entailment, textual category classification, sentiment analysis, offensive comment detection, and fake news detection, to assess the effectiveness of the generated language representations. The results suggest that both monolingual and multilingual models are able to achieve state-of-the-art and the advantage of training a single language model, if any, is small.
翻訳日:2022-11-08 23:48:19 公開日:2020-07-19