このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20200921となっている論文です。

PDF登録状況(公開日: 20200921)

TitleAuthorsAbstract論文公表日・翻訳日
# 複数の専門家から学ぶ:ロングテール分類のためのセルフペースド知識蒸留

Learning From Multiple Experts: Self-paced Knowledge Distillation for Long-tailed Classification ( http://arxiv.org/abs/2001.01536v3 )

ライセンス: Link先を確認
Liuyu Xiang, Guiguang Ding and Jungong Han(参考訳) 現実のシナリオでは、データはロングテールの分布を示す傾向があるため、ディープネットワークのトレーニングが困難になる。 本稿では,複数専門家による学習(lfme)という,新しい自己ペースの知識蒸留フレームワークを提案する。 本手法は,分散の非バランスな部分集合でトレーニングされたネットワークが,共同学習したネットワークよりも優れた性能が得られるという観察に着想を得たものである。 提案するLFMEフレームワークは,複数の'Experts'からの知識を集約して,統一された学生モデルを学ぶ。 具体的には,自己評価型エキスパート選択とカリキュラムインスタンス選択という2段階の適応型学習スケジュールが提案され,その知識が「学習者」に適応的に伝達される。 我々は,本手法が最先端手法に比べて優れた性能を達成できることを実証し,広範な実験を行った。 また,本手法を最先端のロングテール分類アルゴリズムに容易に組み込むことにより,さらなる改良が期待できることを示す。

In real-world scenarios, data tends to exhibit a long-tailed distribution, which increases the difficulty of training deep networks. In this paper, we propose a novel self-paced knowledge distillation framework, termed Learning From Multiple Experts (LFME). Our method is inspired by the observation that networks trained on less imbalanced subsets of the distribution often yield better performances than their jointly-trained counterparts. We refer to these models as 'Experts', and the proposed LFME framework aggregates the knowledge from multiple 'Experts' to learn a unified student model. Specifically, the proposed framework involves two levels of adaptive learning schedules: Self-paced Expert Selection and Curriculum Instance Selection, so that the knowledge is adaptively transferred to the 'Student'. We conduct extensive experiments and demonstrate that our method is able to achieve superior performances compared to state-of-the-art methods. We also show that our method can be easily plugged into state-of-the-art long-tailed classification algorithms for further improvements.
翻訳日:2023-01-14 01:50:43 公開日:2020-09-21
# 極座標に基づくリモートセンシング画像の物体検出

Objects detection for remote sensing images based on polar coordinates ( http://arxiv.org/abs/2001.02988v7 )

ライセンス: Link先を確認
Lin Zhou and Haoran Wei and Hao Li and Wenzhe Zhao and Yi Zhang and Yue Zhang(参考訳) 任意指向オブジェクト検出は、リモートセンシングオブジェクト検出の分野で重要なタスクである。 既存の研究では、極座標系は、より正確な回転物体検出を達成するためにより少ないパラメータを使用する、回転物体モデリングの問題に対処する上で明らかに有利であることが示されている。 しかし、ディープラーニングに基づく現在の最先端の検出器は、すべてデカルト座標でモデル化されている。 本稿では,この極座標系をディープラーニング検出器に初めて導入し,より単純なオブジェクト表現モデルと少ない回帰パラメータを用いて,競合検出精度を実現するアンカーフリーの極リモートセンシングオブジェクト検出器(P-RSDet)を提案する。 P-RSDet法では、中心点を予測し、1つの極半径と2つの極角を回帰することにより、任意の方向の物体検出が可能である。 また、極半径と極角との幾何学的制約関係を表現するために、角位置の予測精度を向上させるために極リング面積損失関数が提案されている。 DOTA,UCAS-AOD,NWPU VHR-10データセットを用いた実験により,我々のP-RSDetはより単純なモデルとより少ない回帰パラメータで最先端のパフォーマンスを達成することが示された。

Arbitrary-oriented object detection is an important task in the field of remote sensing object detection. Existing studies have shown that the polar coordinate system has obvious advantages in dealing with the problem of rotating object modeling, that is, using fewer parameters to achieve more accurate rotating object detection. However, present state-of-the-art detectors based on deep learning are all modeled in Cartesian coordinates. In this article, we introduce the polar coordinate system to the deep learning detector for the first time, and propose an anchor free Polar Remote Sensing Object Detector (P-RSDet), which can achieve competitive detection accuracy via uses simpler object representation model and less regression parameters. In P-RSDet method, arbitrary-oriented object detection can be achieved by predicting the center point and regressing one polar radius and two polar angles. Besides, in order to express the geometric constraint relationship between the polar radius and the polar angle, a Polar Ring Area Loss function is proposed to improve the prediction accuracy of the corner position. Experiments on DOTA, UCAS-AOD and NWPU VHR-10 datasets show that our P-RSDet achieves state-of-the-art performances with simpler model and less regression parameters.
翻訳日:2023-01-13 05:06:55 公開日:2020-09-21
# マニフォールド構造を有するランゲヴィン拡散の高速収束

Fast Convergence for Langevin Diffusion with Manifold Structure ( http://arxiv.org/abs/2002.05576v2 )

ライセンス: Link先を確認
Ankur Moitra, Andrej Risteski(参考訳) 本稿では,ある関数 f に対する p(x) \propto e^{-\beta f(x)} 形式の分布からのサンプリング問題について検討する。 このfへのアクセスモードは、例えばパラメトリックベイズモデルの後方からサンプリングするなど、そのような問題が発生するシナリオにおいて自然である。 古典的な結果は、自然のランダムウォーク、ランゲヴィン拡散が、fが凸であるときに急速に混合することを示している。 残念ながら、単純な例であっても、上述のアプリケーションは、非凸関数 f を扱わなければならない。 本稿では,関数 f における不変性(対称性)の存在,すなわち分布 p が同じ確率で点の多様体を持つこと,といった,現代の機械学習アプリケーションに関係する非凸性の側面に焦点を当てる。 まず、ランジュバン拡散の混合時間境界をこれらの多様体の幾何学の関数として証明するレシピを与える。 第二に、古典行列分解のようなベイズ推論問題に対して、低ランク行列の雑音測定 A(XX^T)、X \in R^{d \times k}、すなわち f(X) = \|A(XX^T) - b\|^2_2、X \in R^{d \times k} および \beta を得る。 そのような函数 f は直交変換の下で不変であり、行列分解、センシング、完備化といった問題を含む。 サンプリング以外にも、ランジュバン・ダイナミクスは確率的勾配降下を研究するための人気のある玩具モデルである。 これらの線に沿って、我々は、sgdが同じ出力を生成するパラメータの空間に高い対称性があるときにどのように振る舞うかを理解するための重要な第一歩であると信じています。

In this paper, we study the problem of sampling from distributions of the form p(x) \propto e^{-\beta f(x)} for some function f whose values and gradients we can query. This mode of access to f is natural in the scenarios in which such problems arise, for instance sampling from posteriors in parametric Bayesian models. Classical results show that a natural random walk, Langevin diffusion, mixes rapidly when f is convex. Unfortunately, even in simple examples, the applications listed above will entail working with functions f that are nonconvex -- for which sampling from p may in general require an exponential number of queries. In this paper, we focus on an aspect of nonconvexity relevant for modern machine learning applications: existence of invariances (symmetries) in the function f, as a result of which the distribution p will have manifolds of points with equal probability. First, we give a recipe for proving mixing time bounds for Langevin diffusion as a function of the geometry of these manifolds. Second, we specialize our arguments to classic matrix factorization-like Bayesian inference problems where we get noisy measurements A(XX^T), X \in R^{d \times k} of a low-rank matrix, i.e. f(X) = \|A(XX^T) - b\|^2_2, X \in R^{d \times k}, and \beta the inverse of the variance of the noise. Such functions f are invariant under orthogonal transformations, and include problems like matrix factorization, sensing, completion. Beyond sampling, Langevin dynamics is a popular toy model for studying stochastic gradient descent. Along these lines, we believe that our work is an important first step towards understanding how SGD behaves when there is a high degree of symmetry in the space of parameters the produce the same output.
翻訳日:2023-01-01 13:05:45 公開日:2020-09-21
# $k$-clusteringのための個人フェアネス

Individual Fairness for $k$-Clustering ( http://arxiv.org/abs/2002.06742v2 )

ライセンス: Link先を確認
Sepideh Mahabadi and Ali Vakilian(参考訳) 局所的な検索ベースのアルゴリズムを$k$-medianと$k$-means(より一般的には$k$-clustering with $\ell_p$ norm cost function)に対して、個人の公正性の観点から与える。 より正確には、ある点集合の$x$ に対して$P$ of size $n$ とすると、$r(x)$ を半径 $r(x)$ の球が$x$ に集中する最小半径とし、$P$ から少なくとも$n/k$ の点を持つ。 直観的には、一組の$k$ランダムポイントが中心として$p$から選択されると、すべての点$x\in p$ は半径 $r(x)$ 内に中心を持つことを期待する。 個別に公平なクラスタリングは、すべてのポイント$x\in p$の保証を提供する。 このフェアネスの概念は[jung et al., 2019]で導入され、このフェアネス条件に関して、ほぼ実現可能な$k$-clusteringを得る方法を示した。 本研究では,fair $k$-clusteringに対するbicriteria近似の取得方法を示す。 私たちのソリューションの$k$-median(k$-means)コストは,最適なfair $k$-clusteringのコストの一定要素の範囲内にあり,我々のソリューションはフェアネス条件(また定数係数内)をほぼ満足する。 さらに,理論的な境界を経験的評価で補完する。

We give a local search based algorithm for $k$-median and $k$-means (and more generally for any $k$-clustering with $\ell_p$ norm cost function) from the perspective of individual fairness. More precisely, for a point $x$ in a point set $P$ of size $n$, let $r(x)$ be the minimum radius such that the ball of radius $r(x)$ centered at $x$ has at least $n/k$ points from $P$. Intuitively, if a set of $k$ random points are chosen from $P$ as centers, every point $x\in P$ expects to have a center within radius $r(x)$. An individually fair clustering provides such a guarantee for every point $x\in P$. This notion of fairness was introduced in [Jung et al., 2019] where they showed how to get an approximately feasible $k$-clustering with respect to this fairness condition. In this work, we show how to get a bicriteria approximation for fair $k$-clustering: The $k$-median ($k$-means) cost of our solution is within a constant factor of the cost of an optimal fair $k$-clustering, and our solution approximately satisfies the fairness condition (also within a constant factor). Further, we complement our theoretical bounds with empirical evaluation.
翻訳日:2022-12-31 12:26:33 公開日:2020-09-21
# 深部生成前駆体を用いたソース分離

Source Separation with Deep Generative Priors ( http://arxiv.org/abs/2002.07942v2 )

ライセンス: Link先を確認
Vivek Jayaram, John Thickstun(参考訳) 信号源分離の大幅な進歩にもかかわらず、リッチな構造化データの結果は認識可能なアーティファクトを含んでいる。 対照的に、最近の深層生成モデルでは、データ分布のサンプルと区別できないさまざまなドメインで本物のサンプルを生成することができる。 本稿では,音源の混合成分の先行として生成モデルを用いた音源分離のベイズ的アプローチと,混合した音源の後方分布からサンプルを得るためのノイズアニードランジュバンダイナミクスを提案する。 これにより、ソース分離問題を生成モデルから分離し、最先端生成モデルを事前として直接使用することが可能になります。 MNIST桁分離のための最先端性能を実現する。 我々は、よりリッチなデータセットにおける分離品質を評価するための新しい手法を導入し、CIFAR-10における分離結果の定量的評価を行う。 LSUNに関する定性的な結果も提供する。

Despite substantial progress in signal source separation, results for richly structured data continue to contain perceptible artifacts. In contrast, recent deep generative models can produce authentic samples in a variety of domains that are indistinguishable from samples of the data distribution. This paper introduces a Bayesian approach to source separation that uses generative models as priors over the components of a mixture of sources, and noise-annealed Langevin dynamics to sample from the posterior distribution of sources given a mixture. This decouples the source separation problem from generative modeling, enabling us to directly use cutting-edge generative models as priors. The method achieves state-of-the-art performance for MNIST digit separation. We introduce new methodology for evaluating separation quality on richer datasets, providing quantitative evaluation of separation results on CIFAR-10. We also provide qualitative results on LSUN.
翻訳日:2022-12-30 12:58:55 公開日:2020-09-21
# 強化学習のためのハイブリッド確率的政策勾配アルゴリズム

A Hybrid Stochastic Policy Gradient Algorithm for Reinforcement Learning ( http://arxiv.org/abs/2003.00430v2 )

ライセンス: Link先を確認
Nhan H. Pham, Lam M. Nguyen, Dzung T. Phan, Phuong Ha Nguyen, Marten van Dijk and Quoc Tran-Dinh(参考訳) 本稿では,非バイアスのポリシ勾配推定器REINFORCE推定器と,政策最適化のための適応SARAH推定器を組み合わせたハイブリッド確率勾配推定器を提案する。 ハイブリッドポリシー勾配推定器は偏りがあるが、分散した特性を有する。 この推定器を用いて、ポリシパラメータの制約や正規化を処理できる複合ポリシー最適化問題を解くために、新しい確率的ハイブリッド確率的ポリシー勾配アルゴリズム(ProxHSPGA)を開発した。 まず,単ループアルゴリズムを提案し,より実用的な再スタート方式を提案する。 いずれのアルゴリズムも、既存の強化/gpomdp $\mathcal{o}\left(\varepsilon^{-4}\right)$ および svrpg $\mathcal{o}\left(\varepsilon^{-10/3}\right)$ よりも優れた複合問題の1次定常点を達成するために、最もよく知られた軌道複雑性 $\mathcal{o}\left(\varepsilon^{-10/3}\right)$ を達成することが証明される。 強化学習においてよく知られたいくつかの例において,アルゴリズムの性能を評価する。 数値計算の結果,本アルゴリズムは2つの既存手法より優れていることがわかった。 さらに、コンポジット設定は、特定の問題に対する非コンポジット設定と比較すると、いくつかの利点がある。

We propose a novel hybrid stochastic policy gradient estimator by combining an unbiased policy gradient estimator, the REINFORCE estimator, with another biased one, an adapted SARAH estimator for policy optimization. The hybrid policy gradient estimator is shown to be biased, but has variance reduced property. Using this estimator, we develop a new Proximal Hybrid Stochastic Policy Gradient Algorithm (ProxHSPGA) to solve a composite policy optimization problem that allows us to handle constraints or regularizers on the policy parameters. We first propose a single-looped algorithm then introduce a more practical restarting variant. We prove that both algorithms can achieve the best-known trajectory complexity $\mathcal{O}\left(\varepsilon^{-3}\right)$ to attain a first-order stationary point for the composite problem which is better than existing REINFORCE/GPOMDP $\mathcal{O}\left(\varepsilon^{-4}\right)$ and SVRPG $\mathcal{O}\left(\varepsilon^{-10/3}\right)$ in the non-composite setting. We evaluate the performance of our algorithm on several well-known examples in reinforcement learning. Numerical results show that our algorithm outperforms two existing methods on these examples. Moreover, the composite settings indeed have some advantages compared to the non-composite ones on certain problems.
翻訳日:2022-12-27 13:21:47 公開日:2020-09-21
# Denoized Smoothing: 事前訓練された分類器の防御

Denoised Smoothing: A Provable Defense for Pretrained Classifiers ( http://arxiv.org/abs/2003.01908v2 )

ライセンス: Link先を確認
Hadi Salman, Mingjie Sun, Greg Yang, Ashish Kapoor and J. Zico Kolter(参考訳) 本論文では,プリトレーニングされた画像分類器を$\ell_p$攻撃に対して確実に防御する手法を提案する。 例えば、この方法では、公開ビジョンAPIプロバイダやユーザは、トレーニング済みの非ロバスト分類サービスを、確実に堅牢なものにシームレスに変換することができます。 既定のイメージ分類器にカスタムトレーニングされたdenoiserをプリプティフィケーションし、ランダムスムージングを使用することで、事前訓練された分類器を変更することなく、敵対的な例に対して$\ell_p$-robustと保証される新しい分類器を効果的に作成する。 我々のアプローチは、事前訓練された分類器のホワイトボックスとブラックボックス設定の両方に適用できる。 本稿では,この防衛効果について,ImageNet と CIFAR-10 の広範な実験を通じて,その効果を実証する。 最後に、当社のアプローチを使用して、Azure、Google、AWS、CrarifAIイメージ分類APIを確実に保護しています。 論文のすべての実験を複製するコードは、https://github.com/microsoft/denoized-smoothing.comで確認できます。

We present a method for provably defending any pretrained image classifier against $\ell_p$ adversarial attacks. This method, for instance, allows public vision API providers and users to seamlessly convert pretrained non-robust classification services into provably robust ones. By prepending a custom-trained denoiser to any off-the-shelf image classifier and using randomized smoothing, we effectively create a new classifier that is guaranteed to be $\ell_p$-robust to adversarial examples, without modifying the pretrained classifier. Our approach applies to both the white-box and the black-box settings of the pretrained classifier. We refer to this defense as denoised smoothing, and we demonstrate its effectiveness through extensive experimentation on ImageNet and CIFAR-10. Finally, we use our approach to provably defend the Azure, Google, AWS, and ClarifAI image classification APIs. Our code replicating all the experiments in the paper can be found at: https://github.com/microsoft/denoised-smoothing.
翻訳日:2022-12-26 12:05:46 公開日:2020-09-21
# パラメーター効率の高い転送学習による多用途言語モデルの検討

Exploring Versatile Generative Language Model Via Parameter-Efficient Transfer Learning ( http://arxiv.org/abs/2004.03829v2 )

ライセンス: Link先を確認
Zhaojiang Lin, Andrea Madotto, Pascale Fung(参考訳) ダウンストリーム言語生成タスクへの微調整事前学習型生成言語モデルにより,有望な結果が得られた。 しかしこれは、低メモリ/パワーのシナリオ(モバイルなど)では理想的ではないタスクごとに1つの大きなモデルを持つことのコストが伴う。 本稿では,1つの大規模事前学習モデルを用いて,複数のダウンストリーム生成タスクを同時に微調整する方法を提案する。 5つの多様な言語生成タスクの実験は、各タスクに2-3%のパラメータを追加するだけで、モデル全体の微調整性能を維持または改善できることを示している。

Fine-tuning pre-trained generative language models to down-stream language generation tasks has shown promising results. However, this comes with the cost of having a single, large model for each task, which is not ideal in low-memory/power scenarios (e.g., mobile). In this paper, we propose an effective way to fine-tune multiple down-stream generation tasks simultaneously using a single, large pre-trained model. The experiments on five diverse language generation tasks show that by just using an additional 2-3% parameters for each task, our model can maintain or even improve the performance of fine-tuning the whole model.
翻訳日:2022-12-15 08:45:39 公開日:2020-09-21
# CURL:強化学習のための対照的な教師なし表現

CURL: Contrastive Unsupervised Representations for Reinforcement Learning ( http://arxiv.org/abs/2004.04136v4 )

ライセンス: Link先を確認
Aravind Srinivas, Michael Laskin, Pieter Abbeel(参考訳) 強化学習のための対照的教師なし表現であるcurlを提案する。 CURLは、コントラスト学習を用いて、原画素から高レベル特徴を抽出し、抽出した特徴の上に、外部制御を行う。 CURLは、DeepMind Control SuiteとAtari Gamesの複雑なタスクにおいて、それぞれ100K環境で1.9倍、1.2倍のパフォーマンス向上を示すモデルベースとモデルフリーの両方で、以前のピクセルベースの手法より優れている。 DeepMind Control Suiteでは、CURLが、状態ベースの機能を使用するメソッドのサンプル効率とほぼ一致した、最初のイメージベースのアルゴリズムである。 私たちのコードはオープンソースで、https://github.com/mishalaskin/curlで利用可能です。

We present CURL: Contrastive Unsupervised Representations for Reinforcement Learning. CURL extracts high-level features from raw pixels using contrastive learning and performs off-policy control on top of the extracted features. CURL outperforms prior pixel-based methods, both model-based and model-free, on complex tasks in the DeepMind Control Suite and Atari Games showing 1.9x and 1.2x performance gains at the 100K environment and interaction steps benchmarks respectively. On the DeepMind Control Suite, CURL is the first image-based algorithm to nearly match the sample-efficiency of methods that use state-based features. Our code is open-sourced and available at https://github.com/MishaLaskin/curl.
翻訳日:2022-12-15 08:01:05 公開日:2020-09-21
# 検索型チャットボットにおける知識獲得型応答選択のための反復参照前のフィルタリング

Filtering before Iteratively Referring for Knowledge-Grounded Response Selection in Retrieval-Based Chatbots ( http://arxiv.org/abs/2004.14550v2 )

ライセンス: Link先を確認
Jia-Chen Gu, Zhen-Hua Ling, Quan Liu, Zhigang Chen, Xiaodan Zhu(参考訳) 知識に基づく検索ベースのチャットボットを構築する際の課題は、その背景知識と、応答候補とコンテキストと知識を同時にマッチングする方法にある。 本稿では,FIRE(Iteratively Referring)の前にフィルタリングという手法を提案する。 本手法では、まず、グローバルおよび双方向の注意によってそれぞれ知識認識コンテキスト表現と文脈認識ナレッジ表現を導出するコンテキストフィルタと知識フィルタを構築した。 また、会話に無関係なエントリは知識フィルタによって破棄される。 その後、応答候補のスコア付けのための深いマッチング特徴を収集するために、文脈表現と応答表現と知識表現と応答表現とを反復的に参照する。 実験の結果、FIREはPERSONA-CHATデータセットでそれぞれ2.8%以上のマージンと4.1%のマージン、CMU_DoGデータセットでは3.1%以上のマージンをトップ1の精度で上回っていることがわかった。 また、知識基盤プロセスの可視化により、FIREはより解釈可能であることを示す。

The challenges of building knowledge-grounded retrieval-based chatbots lie in how to ground a conversation on its background knowledge and how to match response candidates with both context and knowledge simultaneously. This paper proposes a method named Filtering before Iteratively REferring (FIRE) for this task. In this method, a context filter and a knowledge filter are first built, which derive knowledge-aware context representations and context-aware knowledge representations respectively by global and bidirectional attention. Besides, the entries irrelevant to the conversation are discarded by the knowledge filter. After that, iteratively referring is performed between context and response representations as well as between knowledge and response representations, in order to collect deep matching features for scoring response candidates. Experimental results show that FIRE outperforms previous methods by margins larger than 2.8% and 4.1% on the PERSONA-CHAT dataset with original and revised personas respectively, and margins larger than 3.1% on the CMU_DoG dataset in terms of top-1 accuracy. We also show that FIRE is more interpretable by visualizing the knowledge grounding process.
翻訳日:2022-12-08 03:56:48 公開日:2020-09-21
# エゴセントリックビデオのためのテキスト合成生成

Text Synopsis Generation for Egocentric Videos ( http://arxiv.org/abs/2005.03804v2 )

ライセンス: Link先を確認
Aidean Sharghi, Niels da Vitoria Lobo, Mubarak Shah(参考訳) ボディウーンカメラの大量利用は、利用可能なエゴセントリックビデオの巨大なコーパスに繋がった。 既存の動画要約アルゴリズムは、興味ある映像を(視覚的に)選択することで、そのような動画の閲覧を高速化することができる。 それでも、システムユーザーは要約ビデオを見る必要があるため、大きなビデオデータベースを閲覧することは依然として困難である。 そこで本研究では,長いエゴセントリックビデオの中で最も重要な出来事を記述した数文からなるテキスト合成を生成することを提案する。 ユーザは短いテキストを読んで、ビデオに関する洞察を得ることができ、さらに重要なのは、テキストクエリを使って大きなビデオデータベースのコンテンツを効率的に検索できることだ。 エゴセントリックなビデオは長く、多くのアクティビティやイベントを含んでいるため、ビデオからテキストへのアルゴリズムを使うことで何千もの記述が生まれ、その多くが正しくない。 そこで本稿では,ビデオセグメントの記述を同時に生成し,その結果をエンドツーエンドで要約するマルチタスク学習手法を提案する。 我々は一連のビデオショットを入力し、ネットワークは各ショットのテキスト記述を生成する。 次に、弱い教師付き目標で訓練された視覚言語コンテンツマッチング部は、正しい記述を識別する。 最後に、我々のネットワークの最後のコンポーネントであるpurport networkは、説明をまとめて評価し、重要な情報を含むものを選択する。 ビデオに生成された何千もの説明のうち、いくつかの有益な文がユーザーに返される。 UTエゴセントリックなビデオデータセットでは、各ビデオの長さが3~5時間で、平均3000以上のテキスト記述が関連付けられています。 生成したテキスト要約は、生成した記述の5%(以下)しか含まないが、自然言語処理において確立されたメトリクスを使用して、テキストドメインの基幹要約と比較される。

Mass utilization of body-worn cameras has led to a huge corpus of available egocentric video. Existing video summarization algorithms can accelerate browsing such videos by selecting (visually) interesting shots from them. Nonetheless, since the system user still has to watch the summary videos, browsing large video databases remain a challenge. Hence, in this work, we propose to generate a textual synopsis, consisting of a few sentences describing the most important events in a long egocentric videos. Users can read the short text to gain insight about the video, and more importantly, efficiently search through the content of a large video database using text queries. Since egocentric videos are long and contain many activities and events, using video-to-text algorithms results in thousands of descriptions, many of which are incorrect. Therefore, we propose a multi-task learning scheme to simultaneously generate descriptions for video segments and summarize the resulting descriptions in an end-to-end fashion. We Input a set of video shots and the network generates a text description for each shot. Next, visual-language content matching unit that is trained with a weakly supervised objective, identifies the correct descriptions. Finally, the last component of our network, called purport network, evaluates the descriptions all together to select the ones containing crucial information. Out of thousands of descriptions generated for the video, a few informative sentences are returned to the user. We validate our framework on the challenging UT Egocentric video dataset, where each video is between 3 to 5 hours long, associated with over 3000 textual descriptions on average. The generated textual summaries, including only 5 percent (or less) of the generated descriptions, are compared to groundtruth summaries in text domain using well-established metrics in natural language processing.
翻訳日:2022-12-05 13:00:19 公開日:2020-09-21
# 機械学習を用いた離散事象シミュレーションモデルの自動校正のためのプロセス知識駆動変化点検出

Process Knowledge Driven Change Point Detection for Automated Calibration of Discrete Event Simulation Models Using Machine Learning ( http://arxiv.org/abs/2005.05385v2 )

ライセンス: Link先を確認
Suleyman Yildirim, Alper Ekrem Murat, Murat Yildirim, Suzan Arslanturk(参考訳) 複合システムのための離散イベントシミュレーションモデルの初期開発とその後のキャリブレーションには、動的に変化するプロセス特性の正確な識別が必要である。 既存のデータ駆動変更点法(DD-CPD)は、変更がシステム外にあると仮定し、利用可能なプロセス知識を利用できない。 本研究では,変化点検出モデルと機械学習とプロセス駆動シミュレーションモデルを組み合わせることで,プロセス駆動型多変量変化点検出(PD-CPD)の統一フレームワークを提案する。 pd-cpdはdd-cpdのchange point(s)で初期化した後、シミュレーションモデルを使用して時系列データストリームとしてシステムレベルの出力を生成し、ニューラルネットワークモデルをトレーニングしてシステム特性や変更点を予測する。 予測モデルの精度は、実際のプロセスデータがシステム特性のシミュレーションされた変化点に適合する可能性を測定する。 pd-cpdは、最大確率の変化点の集合が特定されるまで、シミュレーションと予測モデル構築ステップを繰り返して変化点を反復的に最適化する。 PD-CPDはDD-CPD推定値よりも変化点検出精度が有意に向上し,実際の変化点を検出できることを示す。

Initial development and subsequent calibration of discrete event simulation models for complex systems require accurate identification of dynamically changing process characteristics. Existing data driven change point methods (DD-CPD) assume changes are extraneous to the system, thus cannot utilize available process knowledge. This work proposes a unified framework for process-driven multi-variate change point detection (PD-CPD) by combining change point detection models with machine learning and process-driven simulation modeling. The PD-CPD, after initializing with DD-CPD's change point(s), uses simulation models to generate system level outputs as time-series data streams which are then used to train neural network models to predict system characteristics and change points. The accuracy of the predictive models measures the likelihood that the actual process data conforms to the simulated change points in system characteristics. PD-CPD iteratively optimizes change points by repeating simulation and predictive model building steps until the set of change point(s) with the maximum likelihood is identified. Using an emergency department case study, we show that PD-CPD significantly improves change point detection accuracy over DD-CPD estimates and is able to detect actual change points.
翻訳日:2022-12-04 20:03:20 公開日:2020-09-21
# 非定常MDPの将来に向けての最適化

Optimizing for the Future in Non-Stationary MDPs ( http://arxiv.org/abs/2005.08158v4 )

ライセンス: Link先を確認
Yash Chandak, Georgios Theocharous, Shiv Shankar, Martha White, Sridhar Mahadevan, Philip S. Thomas(参考訳) ほとんどの強化学習法は、遷移力学と報酬関数が固定されているというキー仮定に基づいており、基礎となるマルコフ決定過程は定常である。 しかし、多くの現実世界のアプリケーションでは、この仮定は違反しており、既存のアルゴリズムを使用するとパフォーマンスが遅れる可能性がある。 良き将来の政策を積極的に探究するために,今後の業績予測を最大化する政策勾配アルゴリズムを提案する。 この予測は、根底にある非定常性を明示的にモデル化することなく、時間とともに政策性能の反実推定値に曲線を合わせることによって得られる。 得られたアルゴリズムは過去のデータに対する一様でない再重み付けに相当し、過去のエピソードのデータに対するパフォーマンスを最小化することは、将来のパフォーマンスを最大化するポリシーを探す際に有益である。 実世界の応用によって動機付けられた3つのシミュレートされた問題に対して,我々のアルゴリズムであるPrognosticatorは2つのオンライン適応手法よりも非定常性に対して堅牢であることを示す。

Most reinforcement learning methods are based upon the key assumption that the transition dynamics and reward functions are fixed, that is, the underlying Markov decision process is stationary. However, in many real-world applications, this assumption is violated, and using existing algorithms may result in a performance lag. To proactively search for a good future policy, we present a policy gradient algorithm that maximizes a forecast of future performance. This forecast is obtained by fitting a curve to the counter-factual estimates of policy performance over time, without explicitly modeling the underlying non-stationarity. The resulting algorithm amounts to a non-uniform reweighting of past data, and we observe that minimizing performance over some of the data from past episodes can be beneficial when searching for a policy that maximizes future performance. We show that our algorithm, called Prognosticator, is more robust to non-stationarity than two online adaptation techniques, on three simulated problems motivated by real-world applications.
翻訳日:2022-12-02 05:18:29 公開日:2020-09-21
# 処理後の天気予報のための深層学習

Deep Learning for Post-Processing Ensemble Weather Forecasts ( http://arxiv.org/abs/2005.08748v2 )

ライセンス: Link先を確認
Peter Gr\"onquist, Chengyuan Yao, Tal Ben-Nun, Nikoli Dryden, Peter Dueben, Shigang Li, Torsten Hoefler(参考訳) 天気予報の不確実性の定量化は、特に極端な天気予報において重要である。 これは典型的には、多くの摂動式数値気象シミュレーション、あるいは軌道を並列に実行するアンサンブル予測システムによって達成される。 これらのシステムは高い計算コストと結び付きがあり、しばしば統計的な処理後ステップを伴って生の予測品質を安価に改善する。 深層ニューラルネットワークを用いた後処理ステップと組み合わせて,元来の天気トラジェクトリのサブセットのみを使用する混合モデルを提案する。 これにより、現在の数値モデルや後処理法では捉えられない非線形関係をモデルが考慮できる。 グローバルデータに適用すると,混合モデルは14%以上のアンサンブル予測スキル(crps)の相対的改善を達成している。 さらに,特定事例研究における極度気象事象に対する改善効果も大きいことを示した。 また,我々のポストプロセッシングは,完全なアンサンブルに匹敵する結果を達成するために,より少ないトラジェクタを使用できることを示した。 より少ないトラジェクトリを使用することで、アンサンブル予測システムの計算コストを削減し、より高い解像度で実行し、より正確な予測を生成することができる。

Quantifying uncertainty in weather forecasts is critical, especially for predicting extreme weather events. This is typically accomplished with ensemble prediction systems, which consist of many perturbed numerical weather simulations, or trajectories, run in parallel. These systems are associated with a high computational cost and often involve statistical post-processing steps to inexpensively improve their raw prediction qualities. We propose a mixed model that uses only a subset of the original weather trajectories combined with a post-processing step using deep neural networks. These enable the model to account for non-linear relationships that are not captured by current numerical models or post-processing methods. Applied to global data, our mixed models achieve a relative improvement in ensemble forecast skill (CRPS) of over 14%. Furthermore, we demonstrate that the improvement is larger for extreme weather events on select case studies. We also show that our post-processing can use fewer trajectories to achieve comparable results to the full ensemble. By using fewer trajectories, the computational costs of an ensemble prediction system can be reduced, allowing it to run at higher resolution and produce more accurate forecasts.
翻訳日:2022-12-01 23:11:50 公開日:2020-09-21
# 拡張軌道類似性探索のためのサクシンクトリトアレイトライ

Succinct Trit-array Trie for Scalable Trajectory Similarity Search ( http://arxiv.org/abs/2005.10917v2 )

ライセンス: Link先を確認
Shunsuke Kanda, Koh Takeuchi, Keisuke Fujii and Yasuo Tabei(参考訳) 移動物体の多様性のモビリティを表す空間軌道の膨大なデータセットは、研究や産業においてユビキタスである。 膨大なトラジェクトリの集合の類似性探索は、これらのデータセットを知識に変えるのに不可欠である。 局所性センシティブハッシュ(lsh)は高速類似性検索のための強力な技術である。 近年の手法ではlshを用い, トラジェクタの効率的な類似性探索を試みているが, 大規模データセットに適用した場合の探索時間やメモリの面では非効率である。 そこで本研究では,lshを軌道類似性探索に用いるスケーラブルな手法であるtstat(traveal-indexing succinct trit-array trie)を提案する。 tSTATは、Trueと呼ばれるツリーデータ構造を素早く検索する。 また,tSTATのメモリ効率を劇的に向上させる2つの新しい手法を提案する。 1つは、時間性能を維持しながら冗長なトライノードを実質的に省略するノード削減技術である。 もう一つは、簡潔なデータ構造(すなわち高速なデータ操作をサポートする圧縮データ構造)の背景にあるアイデアを活用する空間効率の表現である。 我々は, tSTAT を用いて, 大量のトラジェクトリからクエリに対して類似したトラジェクトリを検索できることを実験的に検証し, 最先端の類似性探索法と比較して, tSTAT が優れていることを示す。

Massive datasets of spatial trajectories representing the mobility of a diversity of moving objects are ubiquitous in research and industry. Similarity search of a large collection of trajectories is indispensable for turning these datasets into knowledge. Locality sensitive hashing (LSH) is a powerful technique for fast similarity searches. Recent methods employ LSH and attempt to realize an efficient similarity search of trajectories; however, those methods are inefficient in terms of search time and memory when applied to massive datasets. To address this problem, we present the trajectory-indexing succinct trit-array trie (tSTAT), which is a scalable method leveraging LSH for trajectory similarity searches. tSTAT quickly performs the search on a tree data structure called trie. We also present two novel techniques that enable to dramatically enhance the memory efficiency of tSTAT. One is a node reduction technique that substantially omits redundant trie nodes while maintaining the time performance. The other is a space-efficient representation that leverages the idea behind succinct data structures (i.e., a compressed data structure supporting fast data operations). We experimentally test tSTAT on its ability to retrieve similar trajectories for a query from large collections of trajectories and show that tSTAT performs superiorly in comparison to state-of-the-art similarity search methods.
翻訳日:2022-12-01 00:10:56 公開日:2020-09-21
# ユークリッド化フロー:安定力学系学習のための双相的還元

Euclideanizing Flows: Diffeomorphic Reduction for Learning Stable Dynamical Systems ( http://arxiv.org/abs/2005.13143v2 )

ライセンス: Link先を確認
Muhammad Asif Rana, Anqi Li, Dieter Fox, Byron Boots, Fabio Ramos, Nathan Ratliff(参考訳) ロボットのタスクは、しばしば複雑な幾何学構造を持つ運動を必要とする。 本稿では,人間の運動の規則性(安定性,滑らか性,境界性など)を利用して,限られた数のデモンストレーションからそのような動きを学習する手法を提案する。 複素運動は安定な力学系のロールアウトとして符号化され、微分同相によって定義される座標の変化の下では、単純手特定力学系と等価である。 微分同相写像を用いる直接的な結果として、手特定力学系の安定性特性は学習力学系に直接受け継がれる。 密度推定に関する最近の研究に触発されて,簡単なパラメータ付き微分同相写像の合成として微分同相写像を表現することを提案する。 生成した動きの滑らかさを保証するために追加構造が課される。 このアプローチの有効性は、確立されたベンチマークの検証と、実世界のロボットシステムで収集されたデモを通じて実証される。

Robotic tasks often require motions with complex geometric structures. We present an approach to learn such motions from a limited number of human demonstrations by exploiting the regularity properties of human motions e.g. stability, smoothness, and boundedness. The complex motions are encoded as rollouts of a stable dynamical system, which, under a change of coordinates defined by a diffeomorphism, is equivalent to a simple, hand-specified dynamical system. As an immediate result of using diffeomorphisms, the stability property of the hand-specified dynamical system directly carry over to the learned dynamical system. Inspired by recent works in density estimation, we propose to represent the diffeomorphism as a composition of simple parameterized diffeomorphisms. Additional structure is imposed to provide guarantees on the smoothness of the generated motions. The efficacy of this approach is demonstrated through validation on an established benchmark as well demonstrations collected on a real-world robotic system.
翻訳日:2022-11-28 09:51:07 公開日:2020-09-21
# リアルタイムロボットビジョンを用いた物体非依存ロボットハンドオーバ

Object-Independent Human-to-Robot Handovers using Real Time Robotic Vision ( http://arxiv.org/abs/2006.01797v2 )

ライセンス: Link先を確認
Patrick Rosenberger, Akansel Cosgun, Rhys Newbury, Jun Kwan, Valerio Ortenzi, Peter Corke and Manfred Grafinger(参考訳) 本稿では,ロボットビジョンと操作を用いた安全でオブジェクトに依存しないロボットハンドオーバのアプローチを提案する。 汎用物体検出器,高速把持選択アルゴリズム,グリッパー搭載rgb-dカメラの汎用的適用を目標とし,外部センサに依存しない。 ロボットは、対象物に対する視覚サーボを通じて制御される。 安全性を重視し,人体部分のセグメンテーションと手指のセグメンテーションという2つの知覚モジュールを用いた。 人間のものと考えられるピクセルは、候補の把持ポーズからフィルタリングされ、ロボットが人間のパートナーと衝突することなく安全に物体を拾うことを保証する。 把持選択と知覚モジュールはリアルタイムで同時に動作し、進捗の監視を可能にする。 13の物体を用いた実験で、このロボットは81.9%の試験で人間から物体を取り出すことに成功した。

We present an approach for safe and object-independent human-to-robot handovers using real time robotic vision and manipulation. We aim for general applicability with a generic object detector, a fast grasp selection algorithm and by using a single gripper-mounted RGB-D camera, hence not relying on external sensors. The robot is controlled via visual servoing towards the object of interest. Putting a high emphasis on safety, we use two perception modules: human body part segmentation and hand/finger segmentation. Pixels that are deemed to belong to the human are filtered out from candidate grasp poses, hence ensuring that the robot safely picks the object without colliding with the human partner. The grasp selection and perception modules run concurrently in real-time, which allows monitoring of the progress. In experiments with 13 objects, the robot was able to successfully take the object from the human in 81.9% of the trials.
翻訳日:2022-11-26 00:21:43 公開日:2020-09-21
# HiFi-GAN:敵対的ネットワークにおける音声深度特徴に基づく高忠実デノベーション・デノベーション

HiFi-GAN: High-Fidelity Denoising and Dereverberation Based on Speech Deep Features in Adversarial Networks ( http://arxiv.org/abs/2006.05694v2 )

ライセンス: Link先を確認
Jiaqi Su, Zeyu Jin, Adam Finkelstein(参考訳) 実世界のオーディオ録音は、しばしばノイズ、残響、等化歪みなどの要因によって劣化する。 本稿では,スタジオで録音された音声を音声に変換する深層学習手法であるhifi-ganについて述べる。 我々は、時間領域と時間周波数領域の両方において、マルチスケールの敵判別器で訓練されたエンドツーエンドフィードフォワードWaveNetアーキテクチャを使用する。 強調音声の知覚的品質を改善するために、識別器の深い特徴マッチング損失に依存する。 提案モデルは、新しい話者、新しい音声コンテンツ、新しい環境によく一般化する。 客観的および主観的な実験において、最先端のベースライン法を著しく上回る。

Real-world audio recordings are often degraded by factors such as noise, reverberation, and equalization distortion. This paper introduces HiFi-GAN, a deep learning method to transform recorded speech to sound as though it had been recorded in a studio. We use an end-to-end feed-forward WaveNet architecture, trained with multi-scale adversarial discriminators in both the time domain and the time-frequency domain. It relies on the deep feature matching losses of the discriminators to improve the perceptual quality of enhanced speech. The proposed model generalizes well to new speakers, new speech content, and new environments. It significantly outperforms state-of-the-art baseline methods in both objective and subjective experiments.
翻訳日:2022-11-23 06:35:04 公開日:2020-09-21
# ディープニューラルネットワークによるsar画像のデスペックリング:事前学習モデルからエンドツーエンドトレーニング戦略へ

SAR Image Despeckling by Deep Neural Networks: from a pre-trained model to an end-to-end training strategy ( http://arxiv.org/abs/2006.15559v4 )

ライセンス: Link先を確認
Emanuele Dalsasso, Xiangli Yang, Lo\"ic Denis, Florence Tupin, Wen Yang(参考訳) スペックル低減は合成開口レーダ(SAR)画像における長年の話題である。 強度SAR画像の復元のための様々なスキームが提案されている。 様々な可能なアプローチの中で、畳み込みニューラルネットワーク(CNN)に基づく手法が、最近SAR画像復元の最先端性能に達することが示されている。 CNNトレーニングは、多くのスペックルフリー/スペックル故障画像のペアという、優れたトレーニングデータを必要とする。 これは、スペックルフリー画像が本質的に不足していることを考えると、SARアプリケーションにおける問題である。 この問題に対処するために,本論文では,実行したいスペックル除去タスクと,SARデータのマルチテンポラリスタックの可用性に応じて,採用可能なさまざまな戦略を解析する。 最初の戦略は、最近提案されたsarスペックル除去フレームワークであるmulog (multi-channel logarithm with gaussian denoising) に、自然画像から添加された白色ガウスノイズを除去するように訓練されたcnnモデルを適用する。 SAR画像のトレーニングは行わず、ネットワークは容易にスペックル低減タスクに適用できる。 第2の戦略は、CNNモデルのトレーニングに必要なスペックルフリーなSAR画像の信頼性の高いデータセットを構築するための新しいアプローチを考えることである。 最後に、ハイブリッドアプローチも分析され、付加的な白色ガウスノイズを除去するcnnはスペックルフリーのsarイメージで訓練される。 提案手法は他のスペックル除去フィルタと比較し,ノイズの質を評価し,異なる戦略の長所と短所を考察した。 論文とともに、トレーニングされたネットワークの重みを利用可能にして、他の研究者が使用できるようにする。

Speckle reduction is a longstanding topic in synthetic aperture radar (SAR) images. Many different schemes have been proposed for the restoration of intensity SAR images. Among the different possible approaches, methods based on convolutional neural networks (CNNs) have recently shown to reach state-of-the-art performance for SAR image restoration. CNN training requires good training data: many pairs of speckle-free / speckle-corrupted images. This is an issue in SAR applications, given the inherent scarcity of speckle-free images. To handle this problem, this paper analyzes different strategies one can adopt, depending on the speckle removal task one wishes to perform and the availability of multitemporal stacks of SAR data. The first strategy applies a CNN model, trained to remove additive white Gaussian noise from natural images, to a recently proposed SAR speckle removal framework: MuLoG (MUlti-channel LOgarithm with Gaussian denoising). No training on SAR images is performed, the network is readily applied to speckle reduction tasks. The second strategy considers a novel approach to construct a reliable dataset of speckle-free SAR images necessary to train a CNN model. Finally, a hybrid approach is also analyzed: the CNN used to remove additive white Gaussian noise is trained on speckle-free SAR images. The proposed methods are compared to other state-of-the-art speckle removal filters, to evaluate the quality of denoising and to discuss the pros and cons of the different strategies. Along with the paper, we make available the weights of the trained network to allow its usage by other researchers.
翻訳日:2022-11-16 03:01:50 公開日:2020-09-21
# ニューラルネットワーク圧縮におけるハイブリッドテンソル分解

Hybrid Tensor Decomposition in Neural Network Compression ( http://arxiv.org/abs/2006.15938v3 )

ライセンス: Link先を確認
Bijiao Wu, Dingheng Wang, Guangshe Zhao, Lei Deng and Guoqi Li(参考訳) 近年、ディープニューラルネットワーク(DNN)は、ビッグデータから高レベルの特徴を学習する能力によって、さまざまな人工知能(AI)アプリケーションにおいて、目覚ましいブレークスルーを実現している。 しかし, 計算資源, 特にストレージ消費に対するdnnの需要は, ますます複雑なアプリケーションでは, モデルサイズの増加が求められているため, 増加傾向にある。 この問題を解決するために, テンソルトレイン (TT) やテンソルリング (TR) を含む数種類のテンソル分解法をDNNの圧縮に適用し, かなりの圧縮効果を示した。 本研究では,古典的だが滅多に使われないテンソル分解法である階層的タッカー(ht)を導入し,ニューラルネットワークの圧縮能力について検討する。 重み行列と畳み込みカーネルを比較研究のためにHTおよびTT形式に変換するが、後者は最も広く使われている分解法であり、HTの変種である。 さらに理論的および実験的に、HTフォーマットは重み行列の圧縮に優れた性能を示し、TTフォーマットは畳み込みカーネルの圧縮により適している。 この現象に基づいて、TTとHTを組み合わせて畳み込み部と完全連結部を個別に圧縮し、畳み込みニューラルネットワーク(CNN)上でのTTやHTフォーマットのみを使用するよりも精度が良いハイブリッドテンソル分解戦略を提案する。 我々の研究は、ニューラルネットワーク圧縮のためのハイブリッドテンソル分解の展望を照らしている。

Deep neural networks (DNNs) have enabled impressive breakthroughs in various artificial intelligence (AI) applications recently due to its capability of learning high-level features from big data. However, the current demand of DNNs for computational resources especially the storage consumption is growing due to that the increasing sizes of models are being required for more and more complicated applications. To address this problem, several tensor decomposition methods including tensor-train (TT) and tensor-ring (TR) have been applied to compress DNNs and shown considerable compression effectiveness. In this work, we introduce the hierarchical Tucker (HT), a classical but rarely-used tensor decomposition method, to investigate its capability in neural network compression. We convert the weight matrices and convolutional kernels to both HT and TT formats for comparative study, since the latter is the most widely used decomposition method and the variant of HT. We further theoretically and experimentally discover that the HT format has better performance on compressing weight matrices, while the TT format is more suited for compressing convolutional kernels. Based on this phenomenon we propose a strategy of hybrid tensor decomposition by combining TT and HT together to compress convolutional and fully connected parts separately and attain better accuracy than only using the TT or HT format on convolutional neural networks (CNNs). Our work illuminates the prospects of hybrid tensor decomposition for neural network compression.
翻訳日:2022-11-15 14:49:32 公開日:2020-09-21
# 新しい高次Weisfeiler-Lehmanグラフ畳み込み

A Novel Higher-order Weisfeiler-Lehman Graph Convolution ( http://arxiv.org/abs/2007.00346v2 )

ライセンス: Link先を確認
Clemens Damke, Vitalik Melnikov, Eyke H\"ullermeier(参考訳) 現在のGNNアーキテクチャは頂点近傍アグリゲーションスキームを用いており、その識別力は1次元ワイスフェイラー・リーマングラフ同型テスト(WL)に制限される。 本稿では,2次元WLテストに基づく新しいグラフ畳み込み演算子を提案する。 得られた2-WL-GNNアーキテクチャが既存のGNNアプローチよりも識別可能であることを示す。 この理論結果は、合成データと実データを用いた実験によって補完される。 複数の共通グラフ分類ベンチマークにおいて,提案モデルが最先端のグラフカーネルやGNNと競合することを示す。

Current GNN architectures use a vertex neighborhood aggregation scheme, which limits their discriminative power to that of the 1-dimensional Weisfeiler-Lehman (WL) graph isomorphism test. Here, we propose a novel graph convolution operator that is based on the 2-dimensional WL test. We formally show that the resulting 2-WL-GNN architecture is more discriminative than existing GNN approaches. This theoretical result is complemented by experimental studies using synthetic and real data. On multiple common graph classification benchmarks, we demonstrate that the proposed model is competitive with state-of-the-art graph kernels and GNNs.
翻訳日:2022-11-14 22:09:04 公開日:2020-09-21
# マルチモーダル画像登録のための逆一モード・多モードストリームネットワーク

Adversarial Uni- and Multi-modal Stream Networks for Multimodal Image Registration ( http://arxiv.org/abs/2007.02790v2 )

ライセンス: Link先を確認
Zhe Xu, Jie Luo, Jiangpeng Yan, Ritvik Pulya, Xiu Li, William Wells III, Jayender Jagadeesan(参考訳) CT画像とMR画像との変形性画像登録は多くの画像誘導療法において不可欠である。 本稿では,新しい翻訳に基づく教師なしデフォルマブル画像登録手法を提案する。 マルチモーダル問題(例えばct-to-mr)を画像から画像への変換によってユニモーダル問題(例えばmr-to-mr)に変換しようとする他の翻訳法とは別の方法である。 (i)翻訳されたMR画像及び (i) 元のCT画像はデュアルストリーム方式で、自動的に融合してより良い登録性能を得る方法を学ぶ。 マルチモーダル登録ネットワークは, 地盤変形を伴わずに計算効率の良い類似度指標を用いて効果的に訓練することができる。 本手法は,2つの臨床データセットで評価され,従来の手法と学習に基づく手法と比較して有望な結果が得られた。

Deformable image registration between Computed Tomography (CT) images and Magnetic Resonance (MR) imaging is essential for many image-guided therapies. In this paper, we propose a novel translation-based unsupervised deformable image registration method. Distinct from other translation-based methods that attempt to convert the multimodal problem (e.g., CT-to-MR) into a unimodal problem (e.g., MR-to-MR) via image-to-image translation, our method leverages the deformation fields estimated from both: (i) the translated MR image and (ii) the original CT image in a dual-stream fashion, and automatically learns how to fuse them to achieve better registration performance. The multimodal registration network can be effectively trained by computationally efficient similarity metrics without any ground-truth deformation. Our method has been evaluated on two clinical datasets and demonstrates promising results compared to state-of-the-art traditional and learning-based methods.
翻訳日:2022-11-13 03:03:01 公開日:2020-09-21
# 二重優先状態再生体験再生

Double Prioritized State Recycled Experience Replay ( http://arxiv.org/abs/2007.03961v3 )

ライセンス: Link先を確認
Fanchen Bu, Dong Eui Chang(参考訳) experience replayは、オンライン強化学習エージェントが環境と対話する前の体験を保存、再利用することができる。 元の方法では、経験をサンプル化し、ランダムに一様に再生する。 優先体験リプレイと呼ばれる以前の作業は、体験が優先されるように、より頻繁に体験をリプレイするために開発された。 本稿では,DPSR(Double-prioritized State-Recycled)エクスペリエンスの再生手法を開発し,トレーニング段階と記憶段階の両方での体験を優先し,メモリの体験を状態リサイクルに置き換えることで,一時的に優先度の低い体験を最大限に活用する。 我々は、この手法をDeep Q-Networks (DQN) で使用し、多くのAtariゲームにおいて、元の手法を上回り、経験再現を優先して最先端の結果を得た。

Experience replay enables online reinforcement learning agents to store and reuse the previous experiences of interacting with the environment. In the original method, the experiences are sampled and replayed uniformly at random. A prior work called prioritized experience replay was developed where experiences are prioritized, so as to replay experiences seeming to be more important more frequently. In this paper, we develop a method called double-prioritized state-recycled (DPSR) experience replay, prioritizing the experiences in both training stage and storing stage, as well as replacing the experiences in the memory with state recycling to make the best of experiences that seem to have low priorities temporarily. We used this method in Deep Q-Networks (DQN), and achieved a state-of-the-art result, outperforming the original method and prioritized experience replay on many Atari games.
翻訳日:2022-11-12 10:01:13 公開日:2020-09-21
# ビジネスプロセスインスタンスの文脈感的予測における因果対効果

Cause vs. Effect in Context-Sensitive Prediction of Business Process Instances ( http://arxiv.org/abs/2007.07549v2 )

ライセンス: Link先を確認
Jens Brunk, Matthias Stierle, Leon Papke, Kate Revoredo, Martin Matzner, J\"org Becker(参考訳) ビジネスプロセスインスタンスの実行中に望ましくないイベントを予測することは、プロセス参加者に介入し、プロセスをその目標に合わせる機会を提供します。 この課題に取り組むためのアプローチとして、プロセスの流れの視点と周囲のコンテキストを組み合わせるマルチパースペクティブな視点を考えるものはほとんどない。 今日の世界の多くのデータソースを考えると、コンテキストは様々であり、様々な意味を持つ。 本稿では、次の事象の原因または影響のコンテキストの問題と、次の事象の予測への影響について論じる。 確率モデルに関する従来の研究を活用し、動的ベイズネットワーク技術を開発した。 確率的モデルは理解可能であると考えられており、エンドユーザーとそのドメインに対する理解が予測に関与している。 我々の手法は、イベントに対する原因または影響関係を持つコンテキスト属性をモデル化する。 本手法を2つの実生活データセットを用いて評価し,予測プロセス監視分野の他の手法とベンチマークする。 その結果,文脈情報をモデルに正しく導入すれば,より優れた予測結果が得られることがわかった。

Predicting undesirable events during the execution of a business process instance provides the process participants with an opportunity to intervene and keep the process aligned with its goals. Few approaches for tackling this challenge consider a multi-perspective view, where the flow perspective of the process is combined with its surrounding context. Given the many sources of data in today's world, context can vary widely and have various meanings. This paper addresses the issue of context being cause or effect of the next event and its impact on next event prediction. We leverage previous work on probabilistic models to develop a Dynamic Bayesian Network technique. Probabilistic models are considered comprehensible and they allow the end-user and his or her understanding of the domain to be involved in the prediction. Our technique models context attributes that have either a cause or effect relationship towards the event. We evaluate our technique with two real-life data sets and benchmark it with other techniques from the field of predictive process monitoring. The results show that our solution achieves superior prediction results if context information is correctly introduced into the model.
翻訳日:2022-11-10 05:45:18 公開日:2020-09-21
# sar画像における海上・沿岸船舶検出のためのバランスシーン学習機構

Balance Scene Learning Mechanism for Offshore and Inshore Ship Detection in SAR Images ( http://arxiv.org/abs/2007.10714v2 )

ライセンス: Link先を確認
Tianwen Zhang, Xiaoling Zhang, Jun Shi, Shunjun Wei, Jianguo Wang, Jianwei Li, Hao Su, and Yue Zhou(参考訳) 異なるシーンのサンプル数の大きな不均衡は、SAR(Synthetic Aperture Radar)の船舶検出精度を大幅に低下させる。 そこで本論文では,SAR画像における沖合および沖合の船舶検出のためのバランスシーン学習機構(BSLM)を提案する。

Huge imbalance of different scenes' sample numbers seriously reduces Synthetic Aperture Radar (SAR) ship detection accuracy. Thus, to solve this problem, this letter proposes a Balance Scene Learning Mechanism (BSLM) for offshore and inshore ship detection in SAR images.
翻訳日:2022-11-08 05:32:57 公開日:2020-09-21
# 入力摂動による軸方向決定森林の学習表現

Learning Representations for Axis-Aligned Decision Forests through Input Perturbation ( http://arxiv.org/abs/2007.14761v2 )

ライセンス: Link先を確認
Sebastian Bruch, Jan Pfeifer, Mathieu Guillame-bert(参考訳) 軸整合決定林は、長年、表データのモデリングのための機械学習アルゴリズムの主要なクラスであった。 学習からランクへの学習のような機械学習の多くの応用において、決定の森は素晴らしいパフォーマンスをもたらす。 また、解釈可能性などの他の包括的特徴も持っている。 広く使われていることと豊富な歴史にもかかわらず、決定林はテキストのような生の構造化データを消費したり、効果的な表現を学ぶことができず、近年のディープニューラルネットワークの成功の要因となっている。 表現学習を達成するために、滑らかな決定の森を構築する方法が存在するが、結果として得られたモデルは、名前だけで決定の森である:それらはもはや軸に並ぶものではなく、確率的決定を用いるか、解釈できない。 さらに、既存の手法は、トランスファーラーニング処理を必要とする問題には適していない。 本稿では,新しい制約を課したり,構造変化を必要とせずに,意思決定森林の表現学習を実現するための,新規かつ直感的な提案を提案する。 我々のモデルは単に決定の森であり、ディープニューラルネットワークの上に、あらゆる森林学習アルゴリズムを使って訓練されている可能性がある。 純粋に解析的な手順である入力摂動を通じて決定森林の勾配を近似することにより、決定森林はニューラルネットワークに学習または微調整表現を指示する。 我々のフレームワークは任意の決定森林に適用可能であり、任意のディープニューラルネットワークを表現学習に利用できるという利点がある。 合成およびベンチマーク分類データセットの実験を通じて提案手法の有効性と有効性を示す。

Axis-aligned decision forests have long been the leading class of machine learning algorithms for modeling tabular data. In many applications of machine learning such as learning-to-rank, decision forests deliver remarkable performance. They also possess other coveted characteristics such as interpretability. Despite their widespread use and rich history, decision forests to date fail to consume raw structured data such as text, or learn effective representations for them, a factor behind the success of deep neural networks in recent years. While there exist methods that construct smoothed decision forests to achieve representation learning, the resulting models are decision forests in name only: They are no longer axis-aligned, use stochastic decisions, or are not interpretable. Furthermore, none of the existing methods are appropriate for problems that require a Transfer Learning treatment. In this work, we present a novel but intuitive proposal to achieve representation learning for decision forests without imposing new restrictions or necessitating structural changes. Our model is simply a decision forest, possibly trained using any forest learning algorithm, atop a deep neural network. By approximating the gradients of the decision forest through input perturbation, a purely analytical procedure, the decision forest directs the neural network to learn or fine-tune representations. Our framework has the advantage that it is applicable to any arbitrary decision forest and that it allows the use of arbitrary deep neural networks for representation learning. We demonstrate the feasibility and effectiveness of our proposal through experiments on synthetic and benchmark classification datasets.
翻訳日:2022-11-05 19:43:27 公開日:2020-09-21
# TexMesh:RGB-Dビデオから詳細な人間のテクスチャと幾何学を再構築

TexMesh: Reconstructing Detailed Human Texture and Geometry from RGB-D Video ( http://arxiv.org/abs/2008.00158v3 )

ライセンス: Link先を確認
Tiancheng Zhi, Christoph Lassner, Tony Tung, Carsten Stoll, Srinivasa G. Narasimhan and Minh Vo(参考訳) 我々は、RGB-Dビデオから高解像度フルボディテクスチャで詳細なメッシュを再構築する新しいアプローチであるTexMeshを提案する。 TexMeshは、人間の高品質な自由視点レンダリングを可能にする。 RGB-D追跡から得られたRGBフレーム, 捕捉された環境マップ, および粗いフレーム毎の人的メッシュを考慮し, 高分解能なアルベドテクスチャとともに, 時空間整合性と詳細なフレーム毎のメッシュを再構成する。 インシデント照明を用いて局所表面形状とアルベドを正確に推定することができ、さらに光度制約を用いて合成訓練されたモデルを実世界の配列に適応させ、詳細な表面形状と高分解能テクスチャ推定を行うことができる。 実際に、私たちは自己適応のための短いサンプルシーケンスでモデルをトレーニングし、その後インタラクティブなフレームレートでモデルを実行します。 texmeshを合成および実世界のデータで検証し,定量的および定性的に芸術の状態を上回っていることを示す。

We present TexMesh, a novel approach to reconstruct detailed human meshes with high-resolution full-body texture from RGB-D video. TexMesh enables high quality free-viewpoint rendering of humans. Given the RGB frames, the captured environment map, and the coarse per-frame human mesh from RGB-D tracking, our method reconstructs spatiotemporally consistent and detailed per-frame meshes along with a high-resolution albedo texture. By using the incident illumination we are able to accurately estimate local surface geometry and albedo, which allows us to further use photometric constraints to adapt a synthetically trained model to real-world sequences in a self-supervised manner for detailed surface geometry and high-resolution texture estimation. In practice, we train our models on a short example sequence for self-adaptation and the model runs at interactive framerate afterwards. We validate TexMesh on synthetic and real-world data, and show it outperforms the state of art quantitatively and qualitatively.
翻訳日:2022-11-04 00:47:00 公開日:2020-09-21
# 逆行性重り摂動は神経バックドアを注入できるか?

Can Adversarial Weight Perturbations Inject Neural Backdoors? ( http://arxiv.org/abs/2008.01761v2 )

ライセンス: Link先を確認
Siddhant Garg, Adarsh Kumar, Vibhor Goel, Yingyu Liang(参考訳) 敵対的機械学習は、ニューラルネットワークのいくつかのセキュリティリスクを露呈し、近年では重要な研究トピックとなっている。 これまでのところ、"adversarial perturbation"という概念は、mlモデルにerrを引き起こす小さな、不可避な変更を指す入力空間を参照してのみ用いられてきた。 本研究は、モデル重み付けの空間に「敵の摂動」という概念を拡張し、特に、トレーニングされたDNNにバックドアを注入することで、公開されているトレーニングされたモデルを使用することによるセキュリティリスクを明らかにする。 ここで、バックドアの注入は、トリガパターンが入力に追加された際にモデルから望ましい結果を得ると同時に、元のモデル予測を非トリガー入力に保持することを意味する。 逆境の観点からは、これらの逆摂動を元のモデル重みの周りの$\ell_{\infty}$ノルムに制約することを特徴付ける。 モデル重みの対向摂動について,原モデルの予測と所望のトリガに対する複合的損失を投影勾配降下による合成した。 これらの対向重み摂動は、コンピュータビジョンや自然言語処理タスクにおいて普遍的に存在することを実証的に示す。 以上の結果から, バックドアは, モデル重み値の相対的変化が比較的小さい場合に注入可能であることがわかった。

Adversarial machine learning has exposed several security hazards of neural models and has become an important research topic in recent times. Thus far, the concept of an "adversarial perturbation" has exclusively been used with reference to the input space referring to a small, imperceptible change which can cause a ML model to err. In this work we extend the idea of "adversarial perturbations" to the space of model weights, specifically to inject backdoors in trained DNNs, which exposes a security risk of using publicly available trained models. Here, injecting a backdoor refers to obtaining a desired outcome from the model when a trigger pattern is added to the input, while retaining the original model predictions on a non-triggered input. From the perspective of an adversary, we characterize these adversarial perturbations to be constrained within an $\ell_{\infty}$ norm around the original model weights. We introduce adversarial perturbations in the model weights using a composite loss on the predictions of the original model and the desired trigger through projected gradient descent. We empirically show that these adversarial weight perturbations exist universally across several computer vision and natural language processing tasks. Our results show that backdoors can be successfully injected with a very small average relative change in model weight values for several applications.
翻訳日:2022-11-02 23:57:54 公開日:2020-09-21
# 機械学習におけるレジェンド分解の実験的解析

Experimental Analysis of Legendre Decomposition in Machine Learning ( http://arxiv.org/abs/2008.05095v2 )

ライセンス: Link先を確認
Jianye Pang, Kai Yi, Wanguang Yin, Min Xu(参考訳) 本稿では,非負テンソルのレジェンダ分解を理論と応用において解析する。 理論的には、ルジャンドル分解における双対パラメータと双対平坦多様体の性質を概説し、テンソル射影およびパラメータ更新の過程を解析する。 応用として, 入力テンソルの有効低次元表現を期待して, サブ多様体上のパラメータを用いた一連の検証実験とクラスタリング実験を行った。 実験の結果,部分多様体上のパラメータは,直接低ランク表現として利用できないことがわかった。 分析と組み合わせることで,レジェンダ分解をニューラルネットワークや低ランク表現アプリケーションと結びつけ,有望な可能性をいくつか提示する。

In this technical report, we analyze Legendre decomposition for non-negative tensor in theory and application. In theory, the properties of dual parameters and dually flat manifold in Legendre decomposition are reviewed, and the process of tensor projection and parameter updating is analyzed. In application, a series of verification experiments and clustering experiments with parameters on submanifold were carried out, hoping to find an effective lower dimensional representation of the input tensor. The experimental results show that the parameters on submanifold have no ability to be directly used as low-rank representations. Combined with analysis, we connect Legendre decomposition with neural networks and low-rank representation applications, and put forward some promising prospects.
翻訳日:2022-10-31 04:34:46 公開日:2020-09-21
# 階層的アグリゲーションとリレーショナル・メトリック・ラーニングの統合による木構造認識グラフ表現学習

Tree Structure-Aware Graph Representation Learning via Integrated Hierarchical Aggregation and Relational Metric Learning ( http://arxiv.org/abs/2008.10003v2 )

ライセンス: Link先を確認
Ziyue Qiao, Pengyang Wang, Yanjie Fu, Yi Du, Pengfei Wang, Yuanchun Zhou(参考訳) グラフニューラルネットワーク(gnn)は、均質グラフのノード表現を学習する上で優れているが、ヘテロジニアスグラフでのgnnの利用は依然として難しい課題である。 支配的な理由は、GNNがノードの種類に関係なく隣人の情報を集約することでノード表現を学ぶことである。 このような問題を、異なるカテゴリを持つサンプル隣人との関係やメタパスを利用して緩和し、異なるカテゴリの異なる重要性を学習するために注意機構を利用する研究が提案されている。 しかし、1つの制限は、異なるタイプのノードに対する学習された表現が異なる特徴空間を所有すべきである一方で、上記の全ての作業は依然として1つの特徴空間にプロジェクションノード表現を投影することである。 さらに,大規模な異種グラフを探索した結果,同一型を持つ複数のノードが常にノードと別のタイプをつなぐという事実を識別し,階層木構造(階層木構造)の多対一スキーマを明らかにする。 しかし、上記のすべての作業は、隣接ノードから対象ノードへの正確なマルチホップパス相関はアグリゲーションによって消去されるため、そのような木構造を保存できない。 そこで本研究では,グラフ表現学習のための木構造対応グラフニューラルネットワークモデルであるT-GNNを提案する。 具体的には,T-GNNは,(1)階層型集約モジュールと(2)関係計量学習モジュールの2つのモジュールから構成される。 本モジュールは,GNNとGated Recurrent Unitを組み合わせることで木構造を保存し,木構造上の階層的およびシーケンシャルな近傍情報をノード表現に統合することを目的としている。 relational metric learningモジュールは、各タイプのノードを、類似度メトリクスに基づいて異なる分布を持つタイプ固有の空間に埋め込むことで、異質性を保存することを目的としている。

While Graph Neural Network (GNN) has shown superiority in learning node representations of homogeneous graphs, leveraging GNN on heterogeneous graphs remains a challenging problem. The dominating reason is that GNN learns node representations by aggregating neighbors' information regardless of node types. Some work is proposed to alleviate such issue by exploiting relations or meta-path to sample neighbors with distinct categories, then use attention mechanism to learn different importance for different categories. However, one limitation is that the learned representations for different types of nodes should own different feature spaces, while all the above work still project node representations into one feature space. Moreover, after exploring massive heterogeneous graphs, we identify a fact that multiple nodes with the same type always connect to a node with another type, which reveals the many-to-one schema, a.k.a. the hierarchical tree structure. But all the above work cannot preserve such tree structure, since the exact multi-hop path correlation from neighbors to the target node would be erased through aggregation. Therefore, to overcome the limitations of the literature, we propose T-GNN, a tree structure-aware graph neural network model for graph representation learning. Specifically, the proposed T-GNN consists of two modules: (1) the integrated hierarchical aggregation module and (2) the relational metric learning module. The integrated hierarchical aggregation module aims to preserve the tree structure by combining GNN with Gated Recurrent Unit to integrate the hierarchical and sequential neighborhood information on the tree structure to node representations. The relational metric learning module aims to preserve the heterogeneity by embedding each type of nodes into a type-specific space with distinct distribution based on similarity metrics.
翻訳日:2022-10-26 03:21:38 公開日:2020-09-21
# 学習条件と介入分布の因果的逆ネットワーク

Causal Adversarial Network for Learning Conditional and Interventional Distributions ( http://arxiv.org/abs/2008.11376v2 )

ライセンス: Link先を確認
Raha Moraffah, Bahman Moraffah, Mansooreh Karami, Adrienne Raglin, Huan Liu(参考訳) 条件付きおよび介入的分布から学習およびサンプリングを行うための生成因果逆ネットワーク(can)を提案する。 因果グラフを必要とする既存の因果関係とは対照的に,提案フレームワークはデータから因果関係を学習し,それに従ってサンプルを生成する。 提案するcanはラベル生成ネットワーク(lgn)と条件付き画像生成ネットワーク(cign)という2つのプロセスからなる。 LGNは、ラベル上の因果モデルから学習し、サンプルするGANベースのアーキテクチャである。 サンプルラベルは条件付きGANアーキテクチャであるCIGNに供給され、ラベル、ピクセル、ピクセル間の関係を学習し、それらに基づいてサンプルを生成する。 この枠組みは、可能な介入機構を備えている。 介入分布からサンプルを生成するモデルです 我々はCANの性能を定量的に定性的に評価し、CelebAデータに顔生成を適用するために因果グラフにアクセスすることなく、介入サンプルと条件サンプルの両方を生成できることを実証的に示す。

We propose a generative Causal Adversarial Network (CAN) for learning and sampling from conditional and interventional distributions. In contrast to the existing CausalGAN which requires the causal graph to be given, our proposed framework learns the causal relations from the data and generates samples accordingly. The proposed CAN comprises a two-fold process namely Label Generation Network (LGN) and Conditional Image Generation Network (CIGN). The LGN is a GAN-based architecture which learns and samples from the causal model over labels. The sampled labels are then fed to CIGN, a conditional GAN architecture, which learns the relationships amongst labels and pixels and pixels themselves and generates samples based on them. This framework is equipped with an intervention mechanism which enables. the model to generate samples from interventional distributions. We quantitatively and qualitatively assess the performance of CAN and empirically show that our model is able to generate both interventional and conditional samples without having access to the causal graph for the application of face generation on CelebA data.
翻訳日:2022-10-24 20:52:41 公開日:2020-09-21
# マルチアテンションベース超軽量画像超解像

Multi-Attention Based Ultra Lightweight Image Super-Resolution ( http://arxiv.org/abs/2008.12912v2 )

ライセンス: Link先を確認
Abdul Muqeet, Jiwon Hwang, Subin Yang, Jung Heum Kang, Yongwoo Kim, Sung-Ho Bae(参考訳) 軽量画像超解像(SR)ネットワークは、現実世界のアプリケーションにとって最も重要である。 優れた性能を持つディープラーニングベースのSR手法はいくつかあるが、そのメモリと計算コストは実用上の障害である。 この問題に対処するため,MAFFSRN(Multi-Attentive Feature Fusion Super-Resolution Network)を提案する。 MAFFSRNは、特徴抽出ブロックとして機能する機能融合グループ(FFG)からなる。 各FFGは、新しい特徴融合構造に組み合わされた提案されたマルチアテンションブロック(MAB)のスタックを含む。 さらに、コスト効率のよい注意機構(CEA)を持つMABは、複数の注意機構を用いて特徴を洗練・抽出するのに役立ちます。 包括的実験により,既存の最新技術よりも優れたモデルが得られた。 我々は,MAFFSRNモデルを用いてAIM 2020の効率的なSRチャレンジに参加し,メモリ使用率,浮動小数点演算(FLOP),パラメータ数でそれぞれ1位,3位,4位を獲得した。

Lightweight image super-resolution (SR) networks have the utmost significance for real-world applications. There are several deep learning based SR methods with remarkable performance, but their memory and computational cost are hindrances in practical usage. To tackle this problem, we propose a Multi-Attentive Feature Fusion Super-Resolution Network (MAFFSRN). MAFFSRN consists of proposed feature fusion groups (FFGs) that serve as a feature extraction block. Each FFG contains a stack of proposed multi-attention blocks (MAB) that are combined in a novel feature fusion structure. Further, the MAB with a cost-efficient attention mechanism (CEA) helps us to refine and extract the features using multiple attention mechanisms. The comprehensive experiments show the superiority of our model over the existing state-of-the-art. We participated in AIM 2020 efficient SR challenge with our MAFFSRN model and won 1st, 3rd, and 4th places in memory usage, floating-point operations (FLOPs) and number of parameters, respectively.
翻訳日:2022-10-23 17:01:19 公開日:2020-09-21
# tripletree:ブラックボックスエージェントとその環境の多彩な解釈可能な表現

TripleTree: A Versatile Interpretable Representation of Black Box Agents and their Environments ( http://arxiv.org/abs/2009.04743v2 )

ライセンス: Link先を確認
Tom Bewley, Jonathan Lawry(参考訳) 説明可能な人工知能では、自律エージェントの行動を理解して信頼を構築し、パフォーマンスを検証することに関心が高まっている。 深層強化学習などの現代のエージェントアーキテクチャは、ブラックボックスとして効果的に機能するように解釈可能な構造を欠いているが、それでも外的、行動主義的な観点から洞察を得ることができる。 概念空間理論に着想を得て, 一般理解への第一歩として, 状態空間を凸領域に分割し, 観測データセット内のエージェントの作用, 値関数, 時間力学の類似性を共同で捉えることを提案する。 このような表現をcart decision treeアルゴリズムの新たな変種を用いて作成し,予測,視覚化,規則に基づく説明を通じてブラックボックスエージェントの実用的理解を促進する方法を示す。

In explainable artificial intelligence, there is increasing interest in understanding the behaviour of autonomous agents to build trust and validate performance. Modern agent architectures, such as those trained by deep reinforcement learning, are currently so lacking in interpretable structure as to effectively be black boxes, but insights may still be gained from an external, behaviourist perspective. Inspired by conceptual spaces theory, we suggest that a versatile first step towards general understanding is to discretise the state space into convex regions, jointly capturing similarities over the agent's action, value function and temporal dynamics within a dataset of observations. We create such a representation using a novel variant of the CART decision tree algorithm, and demonstrate how it facilitates practical understanding of black box agents through prediction, visualisation and rule-based explanation.
翻訳日:2022-10-20 03:26:33 公開日:2020-09-21
# ハードウェアの宝くじ

The Hardware Lottery ( http://arxiv.org/abs/2009.06489v2 )

ライセンス: Link先を確認
Sara Hooker(参考訳) ハードウェア、システム、アルゴリズムの研究コミュニティは歴史的に異なるインセンティブ構造を持ち、互いに明示的に関わり合う動機を変動させてきた。 この歴史的扱いは、ハードウェアとソフトウェアがどの研究アイデアが成功するか(そして失敗するか)を頻繁に決定していることを考えると、奇妙である。 このエッセイは、研究のアイデアがいつ勝つかを説明するためのハードウェア宝くじという用語を紹介し、それは利用可能なソフトウェアやハードウェアに適しているからではなく、別の研究の方向性よりも優れているからである。 初期のコンピュータ科学史の例では、ハードウェア宝くじが成功アイデアを失敗としてキャストすることで研究の進捗を遅らせる方法を示している。 これらの教訓は、ドメイン特化ハードウェアが出現し、研究アイデアの狂った道から抜け出すのにますますコストがかかることを考えると、特に有益である。 このエッセイは、コンピューティングの進歩による利益がさらに不均一になり、ある研究方向が高速車線に移行し、他の研究の進歩がさらに妨げられていることを示唆している。

Hardware, systems and algorithms research communities have historically had different incentive structures and fluctuating motivation to engage with each other explicitly. This historical treatment is odd given that hardware and software have frequently determined which research ideas succeed (and fail). This essay introduces the term hardware lottery to describe when a research idea wins because it is suited to the available software and hardware and not because the idea is superior to alternative research directions. Examples from early computer science history illustrate how hardware lotteries can delay research progress by casting successful ideas as failures. These lessons are particularly salient given the advent of domain specialized hardware which make it increasingly costly to stray off of the beaten path of research ideas. This essay posits that the gains from progress in computing are likely to become even more uneven, with certain research directions moving into the fast-lane while progress on others is further obstructed.
翻訳日:2022-10-18 12:00:39 公開日:2020-09-21
# NABU $\mathrm{-}$ Multilingual Graph-based Neural RDF Verbalizer

NABU $\mathrm{-}$ Multilingual Graph-based Neural RDF Verbalizer ( http://arxiv.org/abs/2009.07728v2 )

ライセンス: Link先を確認
Diego Moussallem and Dwaraknath Gnaneshwar and Thiago Castro Ferreira and Axel-Cyrille Ngonga Ngomo(参考訳) RDF-to-textタスクは、Linked Dataの継続的な成長により、最近大きな注目を集めている。 従来のパイプラインモデルとは対照的に、最近の研究はニューラルネットワークに焦点を当てており、rdfトリプルのセットをエンドツーエンドでテキストに変換することで、有望な結果を得ることができる。 しかし、英語のみが広くターゲットとなっている。 本研究では,多言語グラフに基づくニューラルモデルであるNABUをドイツ語,ロシア語,英語に言語化することで,この研究ギャップに対処する。 NABUはエンコーダ-デコーダアーキテクチャをベースにしており、グラフアテンションネットワークにインスパイアされたエンコーダと、トランスフォーマーをデコーダとして使用する。 我々のアプローチは知識グラフが言語に依存しないという事実に依存しており、多言語テキストを生成するために使用できる。 標準ベンチマークWebNLGデータセット上でNABUを単言語および多言語設定で評価する。 以上の結果から,NABU は66.21 BLEU で最先端の手法よりも優れており,56.04 BLEU で多言語シナリオ上で全言語で一貫した結果が得られることがわかった。

The RDF-to-text task has recently gained substantial attention due to continuous growth of Linked Data. In contrast to traditional pipeline models, recent studies have focused on neural models, which are now able to convert a set of RDF triples into text in an end-to-end style with promising results. However, English is the only language widely targeted. We address this research gap by presenting NABU, a multilingual graph-based neural model that verbalizes RDF data to German, Russian, and English. NABU is based on an encoder-decoder architecture, uses an encoder inspired by Graph Attention Networks and a Transformer as decoder. Our approach relies on the fact that knowledge graphs are language-agnostic and they hence can be used to generate multilingual text. We evaluate NABU in monolingual and multilingual settings on standard benchmarking WebNLG datasets. Our results show that NABU outperforms state-of-the-art approaches on English with 66.21 BLEU, and achieves consistent results across all languages on the multilingual scenario with 56.04 BLEU.
翻訳日:2022-10-18 00:05:10 公開日:2020-09-21
# ユーザプロファイルと協調フィルタリングに基づくホテル推薦システム

Hotel Recommendation System Based on User Profiles and Collaborative Filtering ( http://arxiv.org/abs/2009.14045v1 )

ライセンス: Link先を確認
Bekir Berker T\"urker, Resul Tugay, \c{S}ule \"O\u{g}\"ud\"uc\"u, \.Ipek K{\i}z{\i}l(参考訳) 今では、多くの選択肢があるため、オンライン予約システムを使って休暇を計画している。 この大規模オプションからいつ、どこで選択するかは、ますます難しくなっている。 加えて、オンライン予約システムにある豊富な情報のために、消費者はより良い選択肢を見逃すことがある。 この意味では、リコメンデータシステムのようなパーソナライズされたサービスが意思決定において重要な役割を果たす。 従来の2つの推奨手法は、コンテンツベースと協調フィルタリングである。 どちらの方法にも利点はあるが、いくつかの欠点があり、そのいくつかは、両方のテクニックを組み合わせて推奨の質を向上させることで解決できる。 このシステムはハイブリッドレコメンデーションシステムとして知られている。 本稿では,ユーザが必要とするホテルを推薦し,時間的損失から節約するコンテンツベースと協調的なフィルタリング手法を組み合わせた,新しいハイブリッドホテル推薦システムを提案する。

Nowadays, people start to use online reservation systems to plan their vacations since they have vast amount of choices available. Selecting when and where to go from this large-scale options is getting harder. In addition, sometimes consumers can miss the better options due to the wealth of information to be found on the online reservation systems. In this sense, personalized services such as recommender systems play a crucial role in decision making. Two traditional recommendation techniques are content-based and collaborative filtering. While both methods have their advantages, they also have certain disadvantages, some of which can be solved by combining both techniques to improve the quality of the recommendation. The resulting system is known as a hybrid recommender system. This paper presents a new hybrid hotel recommendation system that has been developed by combining content-based and collaborative filtering approaches that recommends customer the hotel they need and save them from time loss.
翻訳日:2022-10-16 05:54:11 公開日:2020-09-21
# 明示的帰納的バイアスをもつ教師・学生ネットワークを用いたオープンセット短発話話者照合

Open-set Short Utterance Forensic Speaker Verification using Teacher-Student Network with Explicit Inductive Bias ( http://arxiv.org/abs/2009.09556v1 )

ライセンス: Link先を確認
Mufan Sang, Wei Xia, John H.L. Hansen(参考訳) 法医学的な応用では、複雑な音環境や未知の音環境における短い発話からなる小さな自然主義的なデータセットのみが利用できることが非常に一般的である。 本研究では,小型の法医学的フィールドデータセット上での話者検証を改善するパイプラインソリューションを提案する。 大規模領域外データセットを活用することで,教師学習における知識蒸留に基づく目的関数を提案する。 目的関数は話者分類の損失、kullback-leiblerの発散、埋め込みの類似性を考慮する。 訓練された深層話者埋め込みネットワークを、小規模のターゲットデータセットに対して頑健なものにするために、このモデルを微調整開始点と正規化時の参照として活用し、事前学習した学生モデルを法医学的対象領域に向けて微調整する新しい戦略を導入する。 提案手法は,未制御条件で記録された短発話からなる実殺人調査を新たに確立した自然主義データセットである1st48-utd法医学コーパスを用いて評価した。 提案する目的関数は,短い発話における教師・生徒学習のパフォーマンスを効率的に向上させ,事前学習モデルに対して明示的な帰納的バイアスを与えることで,提案手法が一般の重み減衰法よりも優れることを示す。

In forensic applications, it is very common that only small naturalistic datasets consisting of short utterances in complex or unknown acoustic environments are available. In this study, we propose a pipeline solution to improve speaker verification on a small actual forensic field dataset. By leveraging large-scale out-of-domain datasets, a knowledge distillation based objective function is proposed for teacher-student learning, which is applied for short utterance forensic speaker verification. The objective function collectively considers speaker classification loss, Kullback-Leibler divergence, and similarity of embeddings. In order to advance the trained deep speaker embedding network to be robust for a small target dataset, we introduce a novel strategy to fine-tune the pre-trained student model towards a forensic target domain by utilizing the model as a finetuning start point and a reference in regularization. The proposed approaches are evaluated on the 1st48-UTD forensic corpus, a newly established naturalistic dataset of actual homicide investigations consisting of short utterances recorded in uncontrolled conditions. We show that the proposed objective function can efficiently improve the performance of teacher-student learning on short utterances and that our fine-tuning strategy outperforms the commonly used weight decay method by providing an explicit inductive bias towards the pre-trained model.
翻訳日:2022-10-16 05:54:00 公開日:2020-09-21
# 聴覚・視覚的音声強調のための唇形状と単語の関連付け

Correlating Subword Articulation with Lip Shapes for Embedding Aware Audio-Visual Speech Enhancement ( http://arxiv.org/abs/2009.09561v1 )

ライセンス: Link先を確認
Hang Chen, Jun Du, Yu Hu, Li-Rong Dai, Bao-Cai Yin, Chin-Hui Lee(参考訳) 本稿では,電話と構音レベルの位置で視覚の唇フレームを同期させることにより,認識音声強調(ease)を改善する視覚埋め込み手法を提案する。 まず,視覚のみのEASE (VEASE) のために,事前に訓練した電話機や調音位置認識器を用いて,唇フレームから視覚埋め込みを抽出する。 次に、マルチモーダルEASE(MEASE)における音声と視覚の特徴の相補性を利用して、雑音の多い音声と唇のビデオから音声と視覚の埋め込みを情報交叉方式で抽出する。 擬似付加雑音によるTCD-TIMITコーパスの劣化実験により,提案手法が従来の単語レベルでの埋め込みよりも有効であることが示された。 さらに, 構音位置の視覚的埋め込みは, 構音位置と唇形状との間に高い相関関係を生かし, より優れた性能を示す。 最後に、音声と視覚の両方を組み込んだMEASEフレームワークは、最高の視覚のみおよび音声のみのEASEシステムで得られたものよりも、音声品質と知性に優れる。

In this paper, we propose a visual embedding approach to improving embedding aware speech enhancement (EASE) by synchronizing visual lip frames at the phone and place of articulation levels. We first extract visual embedding from lip frames using a pre-trained phone or articulation place recognizer for visual-only EASE (VEASE). Next, we extract audio-visual embedding from noisy speech and lip videos in an information intersection manner, utilizing a complementarity of audio and visual features for multi-modal EASE (MEASE). Experiments on the TCD-TIMIT corpus corrupted by simulated additive noises show that our proposed subword based VEASE approach is more effective than conventional embedding at the word level. Moreover, visual embedding at the articulation place level, leveraging upon a high correlation between place of articulation and lip shapes, shows an even better performance than that at the phone level. Finally the proposed MEASE framework, incorporating both audio and visual embedding, yields significantly better speech quality and intelligibility than those obtained with the best visual-only and audio-only EASE systems.
翻訳日:2022-10-16 05:53:24 公開日:2020-09-21
# div2vec: 多様性を強調したノード埋め込み

div2vec: Diversity-Emphasized Node Embedding ( http://arxiv.org/abs/2009.09588v1 )

ライセンス: Link先を確認
Jisu Jeong, Jeong-Min Yun, Hongi Keam, Young-Jin Park, Zimin Park, Junki Cho(参考訳) 近年,レコメンダシステムにおいて,グラフ表現学習への関心が急速に高まっている。 しかし,既存のほとんどの研究は精度の向上に重点を置いているが,現実のシステムでは,ユーザエクスペリエンスの向上だけでなく,レコメンデーションの多様性も考慮すべきである。 本稿では,DeepWalk や node2vec のようなランダムなウォークに基づく教師なし学習手法である div2vec の多様性強調ノード埋め込みを提案する。 ランダムウォークを生成する場合、DeepWalkとnode2vecサンプルノードはより多く、より低いノードはより少ない。 一方、div2vecは、各ノードがランダムウォークのコレクションに均等に属せるように、その次数に逆比例する確率のノードをサンプリングする。 この戦略はレコメンデーションモデルの多様性を改善する。 MovieLensデータセットのオフライン実験により,提案手法は精度と多様性の両面で推奨性能を改善した。 さらに,提案モデルであるwatchaとline wallet couponの評価を行い,div2vecがシステム多様化によりレコメンデーション品質を向上させることを観測した。

Recently, the interest of graph representation learning has been rapidly increasing in recommender systems. However, most existing studies have focused on improving accuracy, but in real-world systems, the recommendation diversity should be considered as well to improve user experiences. In this paper, we propose the diversity-emphasized node embedding div2vec, which is a random walk-based unsupervised learning method like DeepWalk and node2vec. When generating random walks, DeepWalk and node2vec sample nodes of higher degree more and nodes of lower degree less. On the other hand, div2vec samples nodes with the probability inversely proportional to its degree so that every node can evenly belong to the collection of random walks. This strategy improves the diversity of recommendation models. Offline experiments on the MovieLens dataset showed that our new method improves the recommendation performance in terms of both accuracy and diversity. Moreover, we evaluated the proposed model on two real-world services, WATCHA and LINE Wallet Coupon, and observed the div2vec improves the recommendation quality by diversifying the system.
翻訳日:2022-10-16 05:52:56 公開日:2020-09-21
# 制約付きMin-Max最適化の複雑さ

The Complexity of Constrained Min-Max Optimization ( http://arxiv.org/abs/2009.09623v1 )

ライセンス: Link先を確認
Constantinos Daskalakis and Stratis Skoulakis and Manolis Zampetakis(参考訳) 機械学習における重要な応用にもかかわらず、非凸非凹面目標のmin-max最適化はいまだ解明されていない。 局所的なmin-max点にさえ収束する既知の一階法が存在しないだけでなく、それらを特定する計算の複雑さもよく分かっていない。 本稿では,非凸非凸目的と線形制約を伴う制約付きmin-max最適化問題において,問題の計算複雑性と一階法の限界について考察する。 ウォームアップとして、目標がリプシッツで滑らかな微分可能関数であっても、min-max点が存在するかどうかを判断し、実際に近似min-max点が存在するかどうかを判断してもnp-hardであることを示す。 さらに重要なことは、近似が十分大きい局所的なmin-max点の存在が保証されるが、そのような点を見つけることはPPAD完全である。 勾配降下/上昇の近似不動点を計算する場合も同様である。 我々の証明の重要な副産物は、ネミロフスキー・ユーディンモデルにおける無条件硬さの結果を確立することである。 関数 $f : P \to [-1, 1] とその勾配 $\nabla f$, where $P \subseteq [0, 1]^d$ is a known convex polytope, every algorithm that finds a $\varepsilon$-approximate local min-max point to a least one of $1/\varepsilon$, $L$, $G$, $d$, where $L$ and $G$ are each smoothness and Lipschitzness of $f$ and $d$ is the dimension。 これは最小化問題とは対照的で、同じ設定で近似局所極小を見つけることは、$o(l/\varepsilon)$多くのクエリを使って投影された勾配降下でできる。 この2つの基本最適化問題の間に指数関数的分離を初めて示した結果である。

Despite its important applications in Machine Learning, min-max optimization of nonconvex-nonconcave objectives remains elusive. Not only are there no known first-order methods converging even to approximate local min-max points, but the computational complexity of identifying them is also poorly understood. In this paper, we provide a characterization of the computational complexity of the problem, as well as of the limitations of first-order methods in constrained min-max optimization problems with nonconvex-nonconcave objectives and linear constraints. As a warm-up, we show that, even when the objective is a Lipschitz and smooth differentiable function, deciding whether a min-max point exists, in fact even deciding whether an approximate min-max point exists, is NP-hard. More importantly, we show that an approximate local min-max point of large enough approximation is guaranteed to exist, but finding one such point is PPAD-complete. The same is true of computing an approximate fixed point of Gradient Descent/Ascent. An important byproduct of our proof is to establish an unconditional hardness result in the Nemirovsky-Yudin model. We show that, given oracle access to some function $f : P \to [-1, 1]$ and its gradient $\nabla f$, where $P \subseteq [0, 1]^d$ is a known convex polytope, every algorithm that finds a $\varepsilon$-approximate local min-max point needs to make a number of queries that is exponential in at least one of $1/\varepsilon$, $L$, $G$, or $d$, where $L$ and $G$ are respectively the smoothness and Lipschitzness of $f$ and $d$ is the dimension. This comes in sharp contrast to minimization problems, where finding approximate local minima in the same setting can be done with Projected Gradient Descent using $O(L/\varepsilon)$ many queries. Our result is the first to show an exponential separation between these two fundamental optimization problems.
翻訳日:2022-10-16 05:52:35 公開日:2020-09-21
# 携帯電話データを用いた非負行列分解法による活動リズム・睡眠リズム・時間特性の定量化

A Non-negative Matrix Factorization Based Method for Quantifying Rhythms of Activity and Sleep and Chronotypes Using Mobile Phone Data ( http://arxiv.org/abs/2009.09914v1 )

ライセンス: Link先を確認
Talayeh Aledavood, Ilkka Kivim\"aki, Sune Lehmann, and Jari Saram\"aki(参考訳) 人間の活動は、毎日、週、季節のリズムに従う。 これらのリズムの出現は、生理学や自然循環や社会的構成と関係している。 人体と生物学的機能は24時間リズム(概日リズム)に近い。 これらのリズムの周波数は、多かれ少なかれ人々の間で似ているが、位相が異なる。 時間生物学の文献では、その日の異なる時間に睡眠する確率に基づいて、人々は「textit{chronotypes」と呼ばれる朝型、夕型、中間型に分類される。 このタイプは典型的には、慎重に設計されたアンケートや、人々の活動のタイミングに関するデータに基づいて手作業で作成される特徴に基づいている。 ここでは,データ駆動型(教師なし)手法を開発し,個々の時間的活動パターンをコンポーネントに分解する。 これは、睡眠と活動時間に関する所定の仮定を含まないという利点があるが、その結果は完全に文脈に依存し、活動データの最も顕著な特徴によって決定される。 400人の携帯電話画面使用ログから1年間のデータセットを使用して、朝のアクティビティ、夜のアクティビティ、夜のアクティビティ、正午のアクティビティの4つの緊急時的コンポーネントを見つけました。 個々の行動はこれら4つの構成要素の重み付けに還元できる。 重みに基づいた明確な創発的なカテゴリーは観察しないが、個人の活動のタイミングに応じて、個人はより連続的なスペクトルに置かれる。 朝夜の部品の負荷は、寝る時間や目を覚ます時間と非常に相関している。 我々の研究は、主に睡眠時間のタイミングに焦点をあてるのではなく、日々の行動と行動の完全なリズムに基づいて、人々を分類するデータ駆動型手法をめざしている。

Human activities follow daily, weekly, and seasonal rhythms. The emergence of these rhythms is related to physiology and natural cycles as well as social constructs. The human body and biological functions undergo near 24-hour rhythms (circadian rhythms). The frequency of these rhythms is more or less similar across people, but its phase is different. In the chronobiology literature, based on the propensity to sleep at different hours of the day, people are categorized into morning-type, evening-type, and intermediate-type groups called \textit{chronotypes}. This typology is typically based on carefully designed questionnaires or manually crafted features drawing on data on timings of people's activity. Here we develop a fully data-driven (unsupervised) method to decompose individual temporal activity patterns into components. This has the advantage of not including any predetermined assumptions about sleep and activity hours, but the results are fully context-dependent and determined by the most prominent features of the activity data. Using a year-long dataset from mobile phone screen usage logs of 400 people, we find four emergent temporal components: morning activity, night activity, evening activity and activity at noon. Individual behavior can be reduced to weights on these four components. We do not observe any clear emergent categories of people based on the weights, but individuals are rather placed on a continuous spectrum according to the timings of their activities. High loads on morning and night components highly correlate with going to bed and waking up times. Our work points towards a data-driven way of categorizing people based on their full daily and weekly rhythms of activity and behavior, rather than focusing mainly on the timing of their sleeping periods.
翻訳日:2022-10-16 05:51:47 公開日:2020-09-21
# 大規模MIMOチャネル予測:Kalman Filtering vs. Machine Learning

Massive MIMO Channel Prediction: Kalman Filtering vs. Machine Learning ( http://arxiv.org/abs/2009.09967v1 )

ライセンス: Link先を確認
Hwanjin Kim, Sucheol Kim, Hyeongtaek Lee, Chulhee Jang, Yongyun Choi, and Junil Choi(参考訳) 本稿では,Multiple-input multiple-output (MIMO)システムにおけるチャネル予測手法について述べる。 従来のチャネル予測は、現実的なチャネルから逸脱する理論的なチャネルモデルに基づいている。 本稿では,ベクトルカルマンフィルタ(VKF)に基づくチャネル予測器と,空間チャネルモデル(SCM)を用いた機械学習(ML)に基づくチャネル予測器を開発し,比較する。 まず,大規模mimoにおける多数のアンテナを用いた空間平均に基づく低複雑度移動推定器を提案する。 モビリティ推定は、発達した予測器の複雑さの順序を決定するために用いられる。 本稿で開発したVKFチャネル予測器は,Yule-Walker方程式に基づいてSCMチャネルから推定される自己回帰(AR)パラメータを利用する。 次に、線形最小二乗誤差(LMMSE)に基づく雑音前処理データを用いたMLに基づくチャネル予測器を開発した。 計算結果から, チャネル予測器は, チャネル予測精度とデータレートの点で, 時代遅れのチャネルよりも大きく向上していることがわかった。 MLベースの予測器は、VKFベースの予測器よりも全体的な計算複雑性が大きいが、訓練されると、MLベースの予測器の運用複雑性はVKFベースの予測器よりも小さくなる。

This paper focuses on channel prediction techniques for massive multiple-input multiple-output (MIMO) systems. Previous channel predictors are based on theoretical channel models, which would be deviated from realistic channels. In this paper, we develop and compare a vector Kalman filter (VKF)-based channel predictor and a machine learning (ML)-based channel predictor using the realistic channels from the spatial channel model (SCM), which has been adopted in the 3GPP standard for years. First, we propose a low-complexity mobility estimator based on the spatial average using a large number of antennas in massive MIMO. The mobility estimate can be used to determine the complexity order of developed predictors. The VKF-based channel predictor developed in this paper exploits the autoregressive (AR) parameters estimated from the SCM channels based on the Yule-Walker equations. Then, the ML-based channel predictor using the linear minimum mean square error (LMMSE)-based noise pre-processed data is developed. Numerical results reveal that both channel predictors have substantial gain over the outdated channel in terms of the channel prediction accuracy and data rate. The ML-based predictor has larger overall computational complexity than the VKF-based predictor, but once trained, the operational complexity of ML-based predictor becomes smaller than that of VKF-based predictor.
翻訳日:2022-10-16 05:51:22 公開日:2020-09-21
# fMRIにおける位相同期法の評価 : 比較研究と新しいアプローチ

Evaluating phase synchronization methods in fMRI: a comparison study and new approaches ( http://arxiv.org/abs/2009.10126v1 )

ライセンス: Link先を確認
Hamed Honari (1), Ann S. Choe (2 and 3 and 4), Martin A. Lindquist (5) ((1) Department of Electrical and Computer Engineering, Johns Hopkins University, USA (2) F. M. Kirby Research Center for Functional Brain Imaging, Kennedy Krieger Institute, USA (3) International Center for Spinal Cord Injury, Kennedy Krieger Institute, USA (4) Russell H. Morgan Department of Radiology and Radiological Science, Johns Hopkins School of Medicine, USA (5) Department of Biostatistics, Johns Hopkins University, USA)(参考訳) 近年、安静時機能磁気共鳴画像(rs-fmri)データを用いた、異なる脳領域間の時間変動機能接続の測定に関心が高まっている。 異なる脳領域の信号間の関係を評価する一つの方法は、その位相同期(PS)を時間にわたって測定することである。 このような分析を行う方法はいくつかあり、ここでは、PSメトリックとスライドウィンドウを併用して、窓位相同期(WPS)と呼ばれる手法と、瞬時位相同期(IPS)を直接測定する方法を比較する。 特にIPSは、時間分解fMRI接続の単一タイムポイント解像度を提供するため、最近人気を集めている。 本稿では,PS分析に必要な前提条件について議論し,有効な結果を得るためにバンドパスフィルタの必要性を強調する。 我々はPSを評価するための様々な手法をレビューし、相対位相(CRP)のコサインを表すIPSフレームワークに新しいアプローチを導入する。 我々は一連のシミュレーションを通して手法を対比し、rs-fMRIデータに適用する。 以上の結果から, CRPは他の試験方法よりも優れており, IPS解析に共通する正~負の関連性から未検出の時間的遷移に関連する問題を克服していることが示された。 さらに、位相コヒーレンスとは対照的に、CRPはPS尺度の分布を拡大し、PS行列の連続した脳状態へのクラスタリングを促進する。

In recent years there has been growing interest in measuring time-varying functional connectivity between different brain regions using resting-state functional magnetic resonance imaging (rs-fMRI) data. One way to assess the relationship between signals from different brain regions is to measure their phase synchronization (PS) across time. There are several ways to perform such analyses, and here we compare methods that utilize a PS metric together with a sliding window, referred to here as windowed phase synchronization (WPS), with those that directly measure the instantaneous phase synchronization (IPS). In particular, IPS has recently gained popularity as it offers single time-point resolution of time-resolved fMRI connectivity. In this paper, we discuss the underlying assumptions required for performing PS analyses and emphasize the necessity of band-pass filtering the data to obtain valid results. We review various methods for evaluating PS and introduce a new approach within the IPS framework denoted the cosine of the relative phase (CRP). We contrast methods through a series of simulations and application to rs-fMRI data. Our results indicate that CRP outperforms other tested methods and overcomes issues related to undetected temporal transitions from positive to negative associations common in IPS analysis. Further, in contrast to phase coherence, CRP unfolds the distribution of PS measures, which benefits subsequent clustering of PS matrices into recurring brain states.
翻訳日:2022-10-16 05:51:03 公開日:2020-09-21
# 非線形ディープエンコーダデコーダフレームワークを用いた混合データ型の学習表現

Learning Representation for Mixed Data Types with a Nonlinear Deep Encoder-Decoder Framework ( http://arxiv.org/abs/2009.09634v1 )

ライセンス: Link先を確認
Saswata Sahoo and Souradip Chakraborty(参考訳) 混合変数、数値型、カテゴリー型のデータを適切な特徴写像に表現することは、重要な情報が複素非線型多様体に存在するため難しい課題である。 特徴変換は、個々の変数の限界情報と混合型変数間の複雑な相互依存構造を同時に組み込むことができるべきである。 本研究では,混合データ型に対するクロスドメイン情報を取り込む非線形深エンコーダ・デコーダフレームワークを提案する。 ネットワークの隠された層は、様々な非線形変換を通じて2種類の変数を接続し、潜在特徴写像を与える。 数値変数に関する情報を隠れた多数の非線形単位にエンコードする。 これらの単位を用いて、さらなる非線形変換を通じて分類変数を再現する。 数値変数とカテゴリ変数の役割を切り替える、別々で類似したネットワークが開発されている。 隠された表現単位は他のものと隣り合って積み重ねられ、局所性保存射影を用いて共通空間に変換される。 派生した特徴マップは、データのクラスタを探索するために使用される。 様々な標準データセットを調査し,単純なk-meansクラスタリングを用いた特徴マップを用いて,クラスタリングにおける技術性能のほぼ同水準を示す。

Representation of data on mixed variables, numerical and categorical types to get suitable feature map is a challenging task as important information lies in a complex non-linear manifold. The feature transformation should be able to incorporate marginal information of the individual variables and complex cross-dependence structure among the mixed type of variables simultaneously. In this work, we propose a novel nonlinear Deep Encoder-Decoder framework to capture the cross-domain information for mixed data types. The hidden layers of the network connect the two types of variables through various non-linear transformations to give latent feature maps. We encode the information on the numerical variables in a number of hidden nonlinear units. We use these units to recreate categorical variables through further nonlinear transformations. A separate and similar network is developed switching the roles of the numerical and categorical variables. The hidden representational units are stacked one next to the others and transformed into a common space using a locality preserving projection. The derived feature maps are used to explore the clusters in the data. Various standard datasets are investigated to show nearly the state of the art performance in clustering using the feature maps with simple K-means clustering.
翻訳日:2022-10-16 05:45:31 公開日:2020-09-21
# 構造多様性を損なうネットワークの進化のモデル化

Modeling the Evolution of Networks as Shrinking Structural Diversity ( http://arxiv.org/abs/2009.09764v1 )

ライセンス: Link先を確認
J\'er\^ome Kunegis(参考訳) 本稿では,構造的多様性の概念に基づくネットワーク進化のモデルをレビューし,評価する。 ネットワーク進化の3つの原則:優先アタッチメントモデル、接続性、リンク予測の3つの基本テーマは多様性である。 いずれの場合も,多様性を縮小する傾向は理論的にも経験的にも明らかである。 これまでの研究では、社会構造、ナビゲーション構造、交通インフラ、通信など、さまざまな種類のデータがネットワークとしてモデル化されてきた。 ほとんど全てのタイプのネットワークは静的構造ではなく、連続的に変化する動的システムである。 したがって、重要な質問は、これらのネットワークで観測可能なトレンドとその既存のネットワークモデルの観点からの解釈に関するものである。 本稿では,ほとんどの数値ネットワーク特性が統計的に有意な傾向を呈し,多様性の概念を考慮すれば,これらの傾向を予測できることを示す。 本研究では,ネットワーク径の縮小を観測し,クラスタリング係数,パワーロー指数,ランダムウォークリターン確率などの測定を行い,優先アタッチメントモデルとリンク予測アルゴリズムを正当化する。 この仮説を,27個の時間発展する実世界のネットワークデータセットの多種多様なコレクションを用いて実験的に評価した。

This article reviews and evaluates models of network evolution based on the notion of structural diversity. We show that diversity is an underlying theme of three principles of network evolution: the preferential attachment model, connectivity and link prediction. We show that in all three cases, a dominant trend towards shrinking diversity is apparent, both theoretically and empirically. In previous work, many kinds of different data have been modeled as networks: social structure, navigational structure, transport infrastructure, communication, etc. Almost all these types of networks are not static structures, but instead dynamic systems that change continuously. Thus, an important question concerns the trends observable in these networks and their interpretation in terms of existing network models. We show in this article that most numerical network characteristics follow statistically significant trends going either up or down, and that these trends can be predicted by considering the notion of diversity. Our work extends previous work observing a shrinking network diameter to measures such as the clustering coefficient, power-law exponent and random walk return probability, and justifies preferential attachment models and link prediction algorithms. We evaluate our hypothesis experimentally using a diverse collection of twenty-seven temporally evolving real-world network datasets.
翻訳日:2022-10-16 05:45:12 公開日:2020-09-21
# 主観的メトリクスに基づくクラウド市場パフォーマンス予測

Subjective Metrics-based Cloud Market Performance Prediction ( http://arxiv.org/abs/2009.09794v1 )

ライセンス: Link先を確認
Ahmed Alharbi and Hai Dong(参考訳) 本稿では,ソーシャルメディアに基づくクラウドコンシューマ,プロバイダ,投資家のクラウド市場パフォーマンス予測に有効な機械学習手法を提案する。 文献調査により,クラウド市場のパフォーマンスに影響を与える可能性のある,包括的主観的指標のセットを特定した。 ソーシャルメディアから収集した顧客レビューの処理には,一般的な感情分析手法を用いた。 クラウド市場の収益成長は、クラウド市場のパフォーマンスの指標として選ばれた。 我々は、Amazon Web Servicesの収益成長を、我々の実験のステークホルダーとみなした。 線形回帰、人工ニューラルネットワーク、サポートベクターマシンの3つの機械学習モデルが選択された。 これらのモデルを時系列予測モデルと比較した。 主観的指標のセットは、すべてのモデルの予測性能を向上させることができることがわかった。 支持ベクトルマシンは,他のモデルと比較して最高の予測結果を示した。

This paper explores an effective machine learning approach to predict cloud market performance for cloud consumers, providers and investors based on social media. We identified a set of comprehensive subjective metrics that may affect cloud market performance via literature survey. We used a popular sentiment analysis technique to process customer reviews collected from social media. Cloud market revenue growth was selected as an indicator of cloud market performance. We considered the revenue growth of Amazon Web Services as the stakeholder of our experiments. Three machine learning models were selected: linear regression, artificial neural network, and support vector machine. These models were compared with a time series prediction model. We found that the set of subjective metrics is able to improve the prediction performance for all the models. The support vector machine showed the best prediction results compared to the other models.
翻訳日:2022-10-16 05:44:52 公開日:2020-09-21
# 統一歌唱のための深層学習に基づく分析合成フレームワーク

A Deep Learning Based Analysis-Synthesis Framework For Unison Singing ( http://arxiv.org/abs/2009.09875v1 )

ライセンス: Link先を確認
Pritish Chandna, Helena Cuesta and Emilia G\'omez(参考訳) ユニソンの歌は、同じメロディと歌詞を同時に歌う歌手のアンサンブルに与えられる名前である。 統一された個々の歌手が同じ原則のメロディを歌う一方で、歌手の間にはわずかなタイミングとピッチのずれがあり、音色のアンサンブルとともにリスナーに「統一」の感覚を与える。 本稿では,最近提案されたディープラーニングに基づく手法を用いて,合唱団の文脈におけるユニゾン歌唱の研究を行い,その録音における個々の歌手の基本周波数(f0)分布を分析した。 そこで,本研究では,アカペラ入力からユニゾン信号を合成するシステムと,ユニゾン混合を代表する単一音声プロトタイプを提案する。 主観的リスニングテストを用いて,提案する合成システムの知覚的要因,品質,メロディへの適合度,知覚的ユニゾンの程度を評価した。

Unison singing is the name given to an ensemble of singers simultaneously singing the same melody and lyrics. While each individual singer in a unison sings the same principle melody, there are slight timing and pitch deviations between the singers, which, along with the ensemble of timbres, give the listener a perceived sense of "unison". In this paper, we present a study of unison singing in the context of choirs; utilising some recently proposed deep-learning based methodologies, we analyse the fundamental frequency (F0) distribution of the individual singers in recordings of unison mixtures. Based on the analysis, we propose a system for synthesising a unison signal from an a cappella input and a single voice prototype representative of a unison mixture. We use subjective listening tests to evaluate perceptual factors of our proposed system for synthesis, including quality, adherence to the melody as well the degree of perceived unison.
翻訳日:2022-10-16 05:44:43 公開日:2020-09-21
# 成長段階正規化を用いたマルチスペクトル衛星観測におけるレジリエント・イン・シーソン・クロップ型分類

Resilient In-Season Crop Type Classification in Multispectral Satellite Observations using Growth Stage Normalization ( http://arxiv.org/abs/2009.10189v1 )

ライセンス: Link先を確認
Hannah Kerner, Ritvik Sahajpal, Sergii Skakun, Inbal Becker-Reshef, Brian Barker, Mehdi Hosseini, Estefania Puricelli, Patrick Gray(参考訳) 衛星観測による作物種別分類は、植栽地域に関する洞察を提供し、特にそれらの量に関する不確実性が高い時期における作物の生育状況と収量の推定を可能にする重要なツールである。 気候変動や極端な気象現象が頻発するにつれて、これらの手法は、例えば植樹スケジュールの変化によって生じる可能性のあるドメインシフトの変化に耐性を持たなければならない。 本研究では,作物生育段階の入力を正規化することにより,植栽タイムラインに関連する領域シフトに対処する,適度な空間分解能(30m)衛星データを用いた季節内作物種別分類手法を提案する。 コンボリューション層とリカレント層の両方を利用したニューラルネットワークを用いて、ピクセルにトウモロコシ、大豆、または他の作物や土地被覆タイプが含まれているかどうかを予測する。 本手法は,アメリカ合衆国中西部における2019年成長期において,記録的な洪水を引き起こした極端な天候により植栽が1~2ヶ月遅れることについて評価した。 成長段階正規化時系列を用いた手法は, 収穫前(9月~11月)に85.4%, シーズン半ば(7月~9月)に82.8%の分類精度を達成できた。

Crop type classification using satellite observations is an important tool for providing insights about planted area and enabling estimates of crop condition and yield, especially within the growing season when uncertainties around these quantities are highest. As the climate changes and extreme weather events become more frequent, these methods must be resilient to changes in domain shifts that may occur, for example, due to shifts in planting timelines. In this work, we present an approach for within-season crop type classification using moderate spatial resolution (30 m) satellite data that addresses domain shift related to planting timelines by normalizing inputs by crop growth stage. We use a neural network leveraging both convolutional and recurrent layers to predict if a pixel contains corn, soybeans, or another crop or land cover type. We evaluated this method for the 2019 growing season in the midwestern US, during which planting was delayed by as much as 1-2 months due to extreme weather that caused record flooding. We show that our approach using growth stage-normalized time series outperforms fixed-date time series, and achieves overall classification accuracy of 85.4% prior to harvest (September-November) and 82.8% by mid-season (July-September).
翻訳日:2022-10-16 05:43:28 公開日:2020-09-21
# ローバー・テラインダイナミクスの同定のための適応メタラーニング

Adaptive Meta-Learning for Identification of Rover-Terrain Dynamics ( http://arxiv.org/abs/2009.10191v1 )

ライセンス: Link先を確認
S. Banerjee, J. Harrison, P. M. Furlong, M. Pavone(参考訳) ローバーは安全と効率を最大化する軌道計画のために地形の知識を必要とする。 Terrain型分類は、人間の演算子や機械学習ベースの画像分類アルゴリズムからの入力に依存する。 しかし、高層地形分類は典型的には、ローバーが予想外の砂トラップで立ち往生するのを防ぐには不十分であり、これらの状況では、オンラインローバーとテランの相互作用データを活用して将来のダイナミクスを正確に予測し、ローバーのさらなる損傷を防ぐことができる。 本稿では,ベイズ回帰アルゴリズム(P-ALPaCA)を用いて,パラメータに名目モデルアフィンを付加することにより,ローバーダイナミクスの確率論的予測を適用するメタラーニングに基づくアプローチを提案する。 正規化スキームは、名目および学習された特徴の直交性を促進するために導入され、様々な地形条件における地形パラメータの解釈可能な確率的推定をもたらす。

Rovers require knowledge of terrain to plan trajectories that maximize safety and efficiency. Terrain type classification relies on input from human operators or machine learning-based image classification algorithms. However, high level terrain classification is typically not sufficient to prevent incidents such as rovers becoming unexpectedly stuck in a sand trap; in these situations, online rover-terrain interaction data can be leveraged to accurately predict future dynamics and prevent further damage to the rover. This paper presents a meta-learning-based approach to adapt probabilistic predictions of rover dynamics by augmenting a nominal model affine in parameters with a Bayesian regression algorithm (P-ALPaCA). A regularization scheme is introduced to encourage orthogonality of nominal and learned features, leading to interpretable probabilistic estimates of terrain parameters in varying terrain conditions.
翻訳日:2022-10-16 05:43:05 公開日:2020-09-21
# 2次元広視野画像からの高分解能多焦点平面画像の再構成

Reconstruct high-resolution multi-focal plane images from a single 2D wide field image ( http://arxiv.org/abs/2009.09574v1 )

ライセンス: Link先を確認
Jiabo Ma, Sibo Liu, Shenghua Cheng, Xiuli Liu, Li Cheng, Shaoqun Zeng(参考訳) 高分解能な3次元医用画像は解析と診断に重要であるが、それらを取得するための軸走査は非常に時間がかかる。 本稿では,高分解能な多焦点平面像をスキャンに頼ることなく,高分解能な多焦点平面画像から再構成する高速エンドツーエンド多焦点平面イメージングネットワーク (MFPINet) を提案する。 現実的なmfp画像の取得を高速に行うため,提案手法では,生成型逆ネットワークフレームワークと,全焦点平面のポストサンプリングおよび再フォーカス戦略を採用している。 我々は細胞診顕微鏡画像の一連の実験を行い、MFPINetが軸方向再焦点と水平方向の超解像の両方で良好に動作することを示した。 さらに、MFPINetは、同じボリュームイメージを再構築する現在の再焦点法よりも約24倍高速である。 提案手法は,高分解能3次元画像の高速化と,低分解能広視野画像の適用範囲を拡大する可能性を秘めている。

High-resolution 3D medical images are important for analysis and diagnosis, but axial scanning to acquire them is very time-consuming. In this paper, we propose a fast end-to-end multi-focal plane imaging network (MFPINet) to reconstruct high-resolution multi-focal plane images from a single 2D low-resolution wild filed image without relying on scanning. To acquire realistic MFP images fast, the proposed MFPINet adopts generative adversarial network framework and the strategies of post-sampling and refocusing all focal planes at one time. We conduct a series experiments on cytology microscopy images and demonstrate that MFPINet performs well on both axial refocusing and horizontal super resolution. Furthermore, MFPINet is approximately 24 times faster than current refocusing methods for reconstructing the same volume images. The proposed method has the potential to greatly increase the speed of high-resolution 3D imaging and expand the application of low-resolution wide-field images.
翻訳日:2022-10-16 05:36:26 公開日:2020-09-21
# 脳波感情認識のための新しい伝達性注意ニューラルネットワークモデル

A Novel Transferability Attention Neural Network Model for EEG Emotion Recognition ( http://arxiv.org/abs/2009.09585v1 )

ライセンス: Link先を確認
Yang Li, Boxun Fu, Fu Li, Guangming Shi, Wenming Zheng(参考訳) 脳波(EEG)の感情認識手法は、常にすべての脳波サンプルに基づいてモデルを訓練する。 しかしながら、ソース(トレーニング)サンプルのいくつかは、ターゲット(テスト)サンプルと大きく異なるため、負の影響をもたらす可能性がある。 したがって、すべてのサンプルで分類モデルを強制的に訓練するのではなく、強い伝達性を持つ脳波サンプルに注意を払う必要がある。 さらに、脳波サンプルでは、神経科学の側面から、脳波サンプルのすべての脳領域が、テストデータに効果的に転送できる感情情報を含むわけではない。 一部の脳領域のデータでさえ、感情分類モデルの学習に強いネガティブな効果をもたらす。 本稿では、これら2つの課題を考慮し、脳波の感情認識のための伝達可能な注意ニューラルネットワーク(TANN)を提案し、脳波の伝達可能な脳波領域のデータとサンプルを局所的およびグローバル的注意機構を通じて適応的に強調することにより、感情の識別情報を学習する。 これは、複数の脳領域レベル判別器と1つのサンプルレベル判別器の出力を測定することで実現できる。 3つの脳波感情データセットについて広範な実験を行った。 その結果,提案モデルが最先端性能を実現することを確認した。

The existed methods for electroencephalograph (EEG) emotion recognition always train the models based on all the EEG samples indistinguishably. However, some of the source (training) samples may lead to a negative influence because they are significant dissimilar with the target (test) samples. So it is necessary to give more attention to the EEG samples with strong transferability rather than forcefully training a classification model by all the samples. Furthermore, for an EEG sample, from the aspect of neuroscience, not all the brain regions of an EEG sample contains emotional information that can transferred to the test data effectively. Even some brain region data will make strong negative effect for learning the emotional classification model. Considering these two issues, in this paper, we propose a transferable attention neural network (TANN) for EEG emotion recognition, which learns the emotional discriminative information by highlighting the transferable EEG brain regions data and samples adaptively through local and global attention mechanism. This can be implemented by measuring the outputs of multiple brain-region-level discriminators and one single sample-level discriminator. We conduct the extensive experiments on three public EEG emotional datasets. The results validate that the proposed model achieves the state-of-the-art performance.
翻訳日:2022-10-16 05:36:11 公開日:2020-09-21
# Computed Tomography Scansにおける畳み込みニューラルネットワークによるCOVID-19グラフ作成の自動化

Improving Automated COVID-19 Grading with Convolutional Neural Networks in Computed Tomography Scans: An Ablation Study ( http://arxiv.org/abs/2009.09725v1 )

ライセンス: Link先を確認
Coen de Vente, Luuk H. Boulogne, Kiran Vaidhya Venkadesh, Cheryl Sital, Nikolas Lessmann, Colin Jacobs, Clara I. S\'anchez, Bram van Ginneken(参考訳) パンデミックが進行中である中で、いくつかの研究で、CT画像を用いた新型コロナウイルスの分類とグレーディングが畳み込みニューラルネットワーク(CNN)で自動化できることが示されている。 これらの研究の多くは、よく使われるコンポーネントから組み立てられたアルゴリズムの初期結果の報告に焦点を当てた。 これらの部品の選択はしばしば体系的ではなく実用的であった。 例えば、いくつかの研究では3DCTボリュームを扱うのに最適ではないとしても、2D CNNを使用していた。 本稿では,CNNによるCT画像からのCOVID-19評価のためのアルゴリズムの性能向上を図った。 本研究では,2次元CNNの代わりに3次元CNNを用いてネットワークを初期化するトランスファーラーニング,ネットワーク入力として自動的に計算された病変マップの提供,カテゴリー出力の代わりに連続を予測することの有効性を検討した。 これらの成分を用いた3D CNNは、105個のCTスキャンで0.934のLOC曲線(AUC)と742個のCTスキャンで0.923のAUCを達成し、従来公表されていた2D CNNと比較して大幅に改善した。 アブレーション研究により、2d cnn転送学習の代わりに3d cnnを使うことが、最も多く、連続的なアウトプットがモデル性能の改善に最も寄与することを示した。

Amidst the ongoing pandemic, several studies have shown that COVID-19 classification and grading using computed tomography (CT) images can be automated with convolutional neural networks (CNNs). Many of these studies focused on reporting initial results of algorithms that were assembled from commonly used components. The choice of these components was often pragmatic rather than systematic. For instance, several studies used 2D CNNs even though these might not be optimal for handling 3D CT volumes. This paper identifies a variety of components that increase the performance of CNN-based algorithms for COVID-19 grading from CT images. We investigated the effectiveness of using a 3D CNN instead of a 2D CNN, of using transfer learning to initialize the network, of providing automatically computed lesion maps as additional network input, and of predicting a continuous instead of a categorical output. A 3D CNN with these components achieved an area under the ROC curve (AUC) of 0.934 on our test set of 105 CT scans and an AUC of 0.923 on a publicly available set of 742 CT scans, a substantial improvement in comparison with a previously published 2D CNN. An ablation study demonstrated that in addition to using a 3D CNN instead of a 2D CNN transfer learning contributed the most and continuous output contributed the least to improving the model performance.
翻訳日:2022-10-16 05:35:52 公開日:2020-09-21
# CCBlock: 深層学習を用いたX線画像を用いたCOVID-19自動診断

CCBlock: An Effective Use of Deep Learning for Automatic Diagnosis of COVID-19 Using X-Ray Images ( http://arxiv.org/abs/2009.10141v1 )

ライセンス: Link先を確認
Ali Al-Bawi, Karrar Ali Al-Kaabi, Mohammed Jeryo, Ahmad Al-Fatlawi(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、世界の人口の健康と健康に劇的に影響している。 この疾患は、毎日の新規感染者の増加、ウイルスの急速な拡散、PCR分析結果の遅れにより、より広範囲に持続する可能性がある。 そのため、新型コロナウイルスの感染拡大を根絶するためには、新型コロナウイルスの検出・診断支援手法の開発を検討する必要がある。 畳み込みニューラルネットワーク(cnns)に基づいて、自動化された検出システムは、新型コロナウイルスの診断をラジオグラフィによって行う有望な結果を示しており、covid-19診断の有効な解決策として紹介されている。 材料と方法: 古典的視覚幾何学群 (vgg) ネットワークと畳み込み型covid-19ブロック (ccblock) の強化に基づき, 肺炎患者と健常者とをx線写真で診断し, 識別するための効率的なスクリーニングモデルを提案した。 モデルテストデータセットには、パブリックプラットフォームで利用可能な1,828のX線画像が含まれていた。 新型コロナウイルスの感染者は310枚、肺炎は864枚、健康な人は654枚だった。 結果: 実験結果によると, 従来のVGGネットワークをラジオグラフィーで拡張した結果, 診断性能は98.52%, 総合精度は95.34%であった。 結論:結果によると、強化されたVGGディープニューラルネットワークを使用することで、ラジオグラフィーが新型コロナウイルスをラジオグラフィーで自動的に診断するのに役立つ。

Propose: Troubling countries one after another, the COVID-19 pandemic has dramatically affected the health and well-being of the world's population. The disease may continue to persist more extensively due to the increasing number of new cases daily, the rapid spread of the virus, and delay in the PCR analysis results. Therefore, it is necessary to consider developing assistive methods for detecting and diagnosing the COVID-19 to eradicate the spread of the novel coronavirus among people. Based on convolutional neural networks (CNNs), automated detection systems have shown promising results of diagnosing patients with the COVID-19 through radiography; thus, they are introduced as a workable solution to the COVID-19 diagnosis. Materials and Methods: Based on the enhancement of the classical visual geometry group (VGG) network with the convolutional COVID block (CCBlock), an efficient screening model was proposed in this study to diagnose and distinguish patients with the COVID-19 from those with pneumonia and the healthy people through radiography. The model testing dataset included 1,828 x-ray images available on public platforms. 310 images were showing confirmed COVID-19 cases, 864 images indicating pneumonia cases, and 654 images showing healthy people. Results: According to the test results, enhancing the classical VGG network with radiography provided the highest diagnosis performance and overall accuracy of 98.52% for two classes as well as accuracy of 95.34% for three classes. Conclusions: According to the results, using the enhanced VGG deep neural network can help radiologists automatically diagnose the COVID-19 through radiography.
翻訳日:2022-10-16 05:35:13 公開日:2020-09-21
# 携帯型uav:スカイリミットのための強化学習

Mobile Cellular-Connected UAVs: Reinforcement Learning for Sky Limits ( http://arxiv.org/abs/2009.09815v1 )

ライセンス: Link先を確認
M. Mahdi Azari, Atefeh Hajijamali Arani, Fernando Rosas(参考訳) セルラー接続無人航空機(uav)は、接続とエネルギー効率に関するいくつかの重要な課題に直面している。 学習に基づく戦略により,タスク完了時間を考慮して,UAVの切断時間,ハンドオーバ速度,エネルギー消費量を削減できる,汎用的なマルチアームバンディット(MAB)アルゴリズムを提案する。 UAVの速度の関数として問題を定式化することにより、各性能指標(PI)が、適切な学習パラメータの範囲、例えば、ブラインド戦略と比較してHOレートの50%削減を採用することにより、どのように改善されるかを示す。 しかし, 学習パラメータの最適組み合わせは, 特定の応用や最終目的関数におけるpiの重みに依存することが明らかとなった。

A cellular-connected unmanned aerial vehicle (UAV)faces several key challenges concerning connectivity and energy efficiency. Through a learning-based strategy, we propose a general novel multi-armed bandit (MAB) algorithm to reduce disconnectivity time, handover rate, and energy consumption of UAV by taking into account its time of task completion. By formulating the problem as a function of UAV's velocity, we show how each of these performance indicators (PIs) is improved by adopting a proper range of corresponding learning parameter, e.g. 50% reduction in HO rate as compared to a blind strategy. However, results reveal that the optimal combination of the learning parameters depends critically on any specific application and the weights of PIs on the final objective function.
翻訳日:2022-10-16 05:34:25 公開日:2020-09-21
# シーン復元のためのソーシャルセンササービスのヒューリスティックスに基づくモザイク

Heuristics based Mosaic of Social-Sensor Services for Scene Reconstruction ( http://arxiv.org/abs/2009.11663v1 )

ライセンス: Link先を確認
Tooba Aamir, Hai Dong and Athman Bouguettaya(参考訳) 我々は,モザイクシーンを再構築するための,ヒューリスティックスに基づくソーシャルセンシングクラウドサービスの選択と構成モデルを提案する。 提案手法では,クラウドソーシングによるソーシャルメディア画像を利用して画像モザイクを作成し,指定された場所と時間間隔でシーンを再構築する。 新たなアプローチは、サービスの関連性と構成可能性を決定するために、イメージメタデータのベースで定義された機能のセットに依存する。 非関連サービスをフィルタリングする新しいヒューリスティック技術が開発されている。 複数の機械学習戦略を用いてスムーズなサービス構成を生成し、位置情報と時間によってインデックスされた関連画像のモザイクを生成する。 予備的な分析結果から,提案した合成モデルの有効性が証明された。

We propose a heuristics-based social-sensor cloud service selection and composition model to reconstruct mosaic scenes. The proposed approach leverages crowdsourced social media images to create an image mosaic to reconstruct a scene at a designated location and an interval of time. The novel approach relies on the set of features defined on the bases of the image metadata to determine the relevance and composability of services. Novel heuristics are developed to filter out non-relevant services. Multiple machine learning strategies are employed to produce smooth service composition resulting in a mosaic of relevant images indexed by geolocation and time. The preliminary analytical results prove the feasibility of the proposed composition model.
翻訳日:2022-10-16 05:27:12 公開日:2020-09-21
# トラッキングシステムにおけるリアルタイムリソース割り当て

Real-Time Resource Allocation for Tracking Systems ( http://arxiv.org/abs/2010.03024v1 )

ライセンス: Link先を確認
Yash Satsangi, Shimon Whiteson, Frans A. Oliehoek, Henri Bouma(参考訳) 自動トラッキングは多くのコンピュータビジョンアプリケーションにとって鍵となる。 しかし、特に超高解像度画像において、人を検出するための計算コストが高いため、多くのトラッキングシステムはリアルタイムに実行できない。 本稿では,画像の関連部分にのみ人検出装置を適用することにより,コストを大幅に削減するアルゴリズム「emph{PartiMax}」を提案する。 partimaxは粒子フィルタの情報を活用し、画像中の$n$の候補 \emph{pixelbox} から$k$を選択する。 問題サイズに依存しない誤差境界で,PartiMaxがほぼ最適選択可能であることを証明した。 さらに,実生活データを用いた実験結果から,全画素ボックス処理時のトラッキング性能の80-%を保ちながら,画像中の画素ボックスの10-%のみを処理し,リアルタイムに動作できることが分かる。

Automated tracking is key to many computer vision applications. However, many tracking systems struggle to perform in real-time due to the high computational cost of detecting people, especially in ultra high resolution images. We propose a new algorithm called \emph{PartiMax} that greatly reduces this cost by applying the person detector only to the relevant parts of the image. PartiMax exploits information in the particle filter to select $k$ of the $n$ candidate \emph{pixel boxes} in the image. We prove that PartiMax is guaranteed to make a near-optimal selection with error bounds that are independent of the problem size. Furthermore, empirical results on a real-life dataset show that our system runs in real-time by processing only 10\% of the pixel boxes in the image while still retaining 80\% of the original tracking performance achieved when processing all pixel boxes.
翻訳日:2022-10-16 05:27:00 公開日:2020-09-21
# 単語の表面からのアクセント推定と大語彙アクセント辞書構築のためのロマン化

Accent Estimation of Japanese Words from Their Surfaces and Romanizations for Building Large Vocabulary Accent Dictionaries ( http://arxiv.org/abs/2009.09679v1 )

ライセンス: Link先を確認
Hideyuki Tachibana, Yotaro Katayama(参考訳) 日本語テキスト音声(TTS)では,アクセント情報を入力文に追加する必要がある。 しかし、公開されているアクセント辞書は限られており、例えばUniDicのような辞書には、実用的なTSシステムで必要とされる複合語や固有名詞などが多く含まれていない。 これらの単語を含む大規模なアクセント辞書を構築するため、著者らは限られた情報(漢字など)から単語のアクセントを予測するアクセント推定手法を開発した。 この手法はアクセントを高い確率で推定できることを実験的に示している。 著者らは、既存の大語彙辞書NEologdにこの技法を適用し、大語彙日本語アクセント辞書を得た。 この辞書を用いることで、UniDicよりも適切な音声情報が得られるケースが数多く見受けられる。

In Japanese text-to-speech (TTS), it is necessary to add accent information to the input sentence. However, there are a limited number of publicly available accent dictionaries, and those dictionaries e.g. UniDic, do not contain many compound words, proper nouns, etc., which are required in a practical TTS system. In order to build a large scale accent dictionary that contains those words, the authors developed an accent estimation technique that predicts the accent of a word from its limited information, namely the surface (e.g. kanji) and the yomi (simplified phonetic information). It is experimentally shown that the technique can estimate accents with high accuracies, especially for some categories of words. The authors applied this technique to an existing large vocabulary Japanese dictionary NEologd, and obtained a large vocabulary Japanese accent dictionary. Many cases have been observed in which the use of this dictionary yields more appropriate phonetic information than UniDic.
翻訳日:2022-10-16 05:26:43 公開日:2020-09-21
# DGTN:セッションベースレコメンデーションのためのデュアルチャネルグラフ遷移ネットワーク

DGTN: Dual-channel Graph Transition Network for Session-based Recommendation ( http://arxiv.org/abs/2009.10002v1 )

ライセンス: Link先を確認
Yujia Zheng, Siyi Liu, Zekun Li, Shu Wu(参考訳) セッションベースのレコメンデーションのタスクは、匿名セッションに基づいてユーザーアクションを予測することである。 最近の研究では、ターゲットセッションをシーケンスまたはグラフとしてモデル化し、他のユーザが生成した異なるセッション内のアイテム間の複雑な遷移を無視している。 これらのアイテムの遷移には、潜在的なコラボレーティブな情報が含まれ、同じような振る舞いパターンを反映しています。 本稿では,2チャネルグラフ遷移ネットワーク(DGTN)という新しい手法を提案し,対象セッションだけでなく,近隣セッションの項目遷移をモデル化する。 具体的には、ターゲットセッションとその隣人(類似)セッションを1つのグラフに統合する。 そして、チャネル認識伝搬により、遷移信号を埋め込みに明示的に注入する。 実世界のデータセットに関する実験では、dgtnは他の最先端のメソッドよりも優れています。 さらに,2チャンネルの項目遷移モデリングの合理性を検証し,セッションベースレコメンデーションの今後の方向性を示唆する。

The task of session-based recommendation is to predict user actions based on anonymous sessions. Recent research mainly models the target session as a sequence or a graph to capture item transitions within it, ignoring complex transitions between items in different sessions that have been generated by other users. These item transitions include potential collaborative information and reflect similar behavior patterns, which we assume may help with the recommendation for the target session. In this paper, we propose a novel method, namely Dual-channel Graph Transition Network (DGTN), to model item transitions within not only the target session but also the neighbor sessions. Specifically, we integrate the target session and its neighbor (similar) sessions into a single graph. Then the transition signals are explicitly injected into the embedding by channel-aware propagation. Experiments on real-world datasets demonstrate that DGTN outperforms other state-of-the-art methods. Further analysis verifies the rationality of dual-channel item transition modeling, suggesting a potential future direction for session-based recommendation.
翻訳日:2022-10-16 05:25:24 公開日:2020-09-21
# 新型コロナウイルスパンデミックモデルの比較分析

Models for COVID-19 Pandemic: A Comparative Analysis ( http://arxiv.org/abs/2009.10014v1 )

ライセンス: Link先を確認
Aniruddha Adiga, Devdatt Dubhashi, Bryan Lewis, Madhav Marathe, Srinivasan Venkatramanan, Anil Vullikanti(参考訳) 新型コロナウイルスのパンデミックは過去100年で前例のない世界的な健康危機だ。 経済、社会、健康への影響は成長を続けており、1918年のパンデミックや世界大戦以来最悪の世界的災害の1つになる可能性が高い。 数学モデルは、現在進行中の危機において重要な役割を担い、公共政策の伝達に用いられ、世界中の社会の分散対策の多くに役立っている。 本稿では,現在進行中の計画と対応を支援する上で,重要な数学的モデルをいくつか紹介する。 これらのモデルは、その使用法、数学的形式、範囲が異なる。

COVID-19 pandemic represents an unprecedented global health crisis in the last 100 years. Its economic, social and health impact continues to grow and is likely to end up as one of the worst global disasters since the 1918 pandemic and the World Wars. Mathematical models have played an important role in the ongoing crisis; they have been used to inform public policies and have been instrumental in many of the social distancing measures that were instituted worldwide. In this article we review some of the important mathematical models used to support the ongoing planning and response efforts. These models differ in their use, their mathematical form and their scope.
翻訳日:2022-10-16 05:25:09 公開日:2020-09-21
# 自律的なaiの法的推論が出現するアメリカの法律の次の時代

The Next Era of American Law Amid the Advent of Autonomous AI Legal Reasoning ( http://arxiv.org/abs/2009.11647v1 )

ライセンス: Link先を確認
Lance Eliot(参考訳) 法学者は、発見の年代順、信仰の年齢、そして不安の年齢の3つの時代のアメリカ法が現在まで存在したと仮定している。 法学において不慮の注意を受けた公的な疑問は、次の第4年は、何で構成され、同意年齢、情報年齢等を含む様々な提案が存在するかというものである。 第四の時代とは何か、第四の時代が既に始まっているのか、それとも将来に現れるのかについては、文献にまだ一致していない。 本稿では,自律型人工知能法則推論(AILR)が出現する中で,AILRが第4期,第5期,第6期,第6期,第4期,第4期,第5期,第6期のいずれかの要素となるかどうかを考察する。 また、アメリカの法律時代の出現において、法定形式主義と法実在主義が関与する役割に関する革新的な議論とともに、法定時代の変遷を識別する手段に関するメタ特性も紹介されている。

Legal scholars have postulated that there have been three eras of American law to-date, consisting in chronological order of the initial Age of Discovery, the Age of Faith, and then the Age of Anxiety. An open question that has received erudite attention in legal studies is what the next era, the fourth era, might consist of, and for which various proposals exist including examples such as the Age of Consent, the Age of Information, etc. There is no consensus in the literature as yet on what the fourth era is, and nor whether the fourth era has already begun or will instead emerge in the future. This paper examines the potential era-elucidating impacts amid the advent of autonomous Artificial Intelligence Legal Reasoning (AILR), entailing whether such AILR will be an element of a fourth era or a driver of a fourth, fifth, or perhaps the sixth era of American law. Also, a set of meta-characteristics about the means of identifying a legal era changeover are introduced, along with an innovative discussion of the role entailing legal formalism versus legal realism in the emergence of the American law eras.
翻訳日:2022-10-16 05:24:59 公開日:2020-09-21
# 因子モデルに関する最近の研究動向と計量学習への応用

Recent Developments on Factor Models and its Applications in Econometric Learning ( http://arxiv.org/abs/2009.10103v1 )

ライセンス: Link先を確認
Jianqing Fan, Kunpeng Li, Yuan Liao(参考訳) 本稿では,最近の因子モデルの開発とその統計的学習への応用について選択的に調査する。 我々は,因子モデルの低ランク構造の観点からの視点に着目し,特に低ランクリカバリの観点からモデルの推定に注意を向ける。 調査は主に3つの部分から構成されており、第1部は高次元モデルの低ランク構造を復元する最新の手法に基づく新しい因子推定のレビューである。 第2部では,いくつかの因子推論モデルの統計的推論と,計量的学習モデルの応用について論じる。 最後に、マトリックス完成の観点から、不均衡なパネルを扱う新しい開発をまとめます。

This paper makes a selective survey on the recent development of the factor model and its application on statistical learnings. We focus on the perspective of the low-rank structure of factor models, and particularly draws attentions to estimating the model from the low-rank recovery point of view. The survey mainly consists of three parts: the first part is a review on new factor estimations based on modern techniques on recovering low-rank structures of high-dimensional models. The second part discusses statistical inferences of several factor-augmented models and applications in econometric learning models. The final part summarizes new developments dealing with unbalanced panels from the matrix completion perspective.
翻訳日:2022-10-16 05:24:38 公開日:2020-09-21
# DR2S : カメラ品質評価のための領域選択による深部回帰

DR2S : Deep Regression with Region Selection for Camera Quality Evaluation ( http://arxiv.org/abs/2009.09981v1 )

ライセンス: Link先を確認
Marcelin Tworski, St\'ephane Lathuili\`ere, Salim Belkarfa, Attilio Fiandrotti, Marco Cagnazzo(参考訳) 本研究では,所定の照明条件下で微細なテクスチャを保存するためのカメラ機能を推定する問題に対処する。 重要なことは、テクスチャ保存の測定は人間の知覚と一致すべきである。 そこで我々は,この問題を回帰モデルとして定式化し,テクスチャ品質スコアを推定する深層畳み込みネットワークを導入する。 トレーニング時には,専門家のアノテータによって提供される地味品質スコアを用いて主観的品質測定を行う。 また,知覚の質を測定するのに適した画像領域を識別する領域選択法を提案する。 最後に,学習に基づくアプローチが既存の手法よりも優れており,領域選択アルゴリズムが常に品質評価を改善することを示す。

In this work, we tackle the problem of estimating a camera capability to preserve fine texture details at a given lighting condition. Importantly, our texture preservation measurement should coincide with human perception. Consequently, we formulate our problem as a regression one and we introduce a deep convolutional network to estimate texture quality score. At training time, we use ground-truth quality scores provided by expert human annotators in order to obtain a subjective quality measure. In addition, we propose a region selection method to identify the image regions that are better suited at measuring perceptual quality. Finally, our experimental evaluation shows that our learning-based approach outperforms existing methods and that our region selection algorithm consistently improves the quality estimation.
翻訳日:2022-10-16 05:18:32 公開日:2020-09-21
# 半スーパービジョンハイパースペクトル次元化のための空間スペクトルマニホールドアライメントを用いたJPSAとプログレッシブ部分空間解析

Joint and Progressive Subspace Analysis (JPSA) with Spatial-Spectral Manifold Alignment for Semi-Supervised Hyperspectral Dimensionality Reduction ( http://arxiv.org/abs/2009.10003v1 )

ライセンス: Link先を確認
Danfeng Hong, Naoto Yokoya, Jocelyn Chanussot, Jian Xu, Xiao Xiang Zhu(参考訳) 従来の非線形部分空間学習手法(例えば多様体学習)では、説明可能性(探索的マッピング)やコスト効率(線形化)、一般化能力(サンプル外)、表現可能性(空間的・スペクトル的識別)にいくつかの欠点がある。 これらの欠点を克服するため、半教師付き超スペクトル次元減少法(HDR)に対して、空間スペクトルアライメントを用いた線形化部分空間解析法(JPSA)を開発した。 JPSAはハイパースペクトルデータから高レベル、意味論的、共同空間スペクトル特徴表現を学習する 1) 潜在部分空間と線形分類器を共同で学習し、分類に好適な効果的な投影方向を求める。 2) 部分空間のいくつかの中間状態を段階的に探索し,原空間からより判別的な部分空間への最適写像に近づく。 3)各学習された潜在部分空間内の空間的およびスペクトル的に整列する多様体構造は、圧縮データと原データとの間に同一または類似の位相的性質を保持する。 HDR手法のアルゴリズム性能を検証するための潜在的応用として, 単純で効果的な分類器, 近辺 (NN) が検討されている。 広範に使用されている2つの超スペクトルデータセットであるインドマツ (92.98\%) とヒューストン大学 (86.09\%) に対するjpsaの優位性と有効性を示すために広範な実験を行った。 この基本的な作業(ECCV2018)のデモはhttps://github.com/danfenghong/ECCV2018_J-Playで公開されている。

Conventional nonlinear subspace learning techniques (e.g., manifold learning) usually introduce some drawbacks in explainability (explicit mapping) and cost-effectiveness (linearization), generalization capability (out-of-sample), and representability (spatial-spectral discrimination). To overcome these shortcomings, a novel linearized subspace analysis technique with spatial-spectral manifold alignment is developed for a semi-supervised hyperspectral dimensionality reduction (HDR), called joint and progressive subspace analysis (JPSA). The JPSA learns a high-level, semantically meaningful, joint spatial-spectral feature representation from hyperspectral data by 1) jointly learning latent subspaces and a linear classifier to find an effective projection direction favorable for classification; 2) progressively searching several intermediate states of subspaces to approach an optimal mapping from the original space to a potential more discriminative subspace; 3) spatially and spectrally aligning manifold structure in each learned latent subspace in order to preserve the same or similar topological property between the compressed data and the original data. A simple but effective classifier, i.e., nearest neighbor (NN), is explored as a potential application for validating the algorithm performance of different HDR approaches. Extensive experiments are conducted to demonstrate the superiority and effectiveness of the proposed JPSA on two widely-used hyperspectral datasets: Indian Pines (92.98\%) and the University of Houston (86.09\%) in comparison with previous state-of-the-art HDR methods. The demo of this basic work (i.e., ECCV2018) is openly available at https://github.com/danfenghong/ECCV2018_J-Play.
翻訳日:2022-10-16 05:18:19 公開日:2020-09-21
# 反復印象アグリゲーションによる人物再同定の改善

Improving Person Re-identification with Iterative Impression Aggregation ( http://arxiv.org/abs/2009.10066v1 )

ライセンス: Link先を確認
Dengpan Fu and Bo Xin and Jingdong Wang and Dongdong Chen and Jianmin Bao and Gang Hua and Houqiang Li(参考訳) ひとりに対する私たちの印象は、彼/彼女のより多くの側面を見た後に頻繁に更新されます。 このような直観を人物再同定問題(re-id)に定式化し、クエリ(probe)画像の表現をギャラリーの候補からの新しい情報とともに反復的に更新する。 具体的には,このようなパイプラインがCUHK03, Market-1501, DukeMTMCなどの標準ベンチマーク上での競合性能を実現することを示す。 このような単純な手法はベースラインモデルの性能を向上するだけでなく、最新の先進的なリグレードメソッドで同等のパフォーマンスを達成する。 この提案のもう1つの利点は、異なる表現と類似度メトリクスを組み込む柔軟性である。 より強力な表現とメトリクスを利用することで、提案手法の汎用性を検証し、最先端の人物のre-ID性能をさらに実証する。

Our impression about one person often updates after we see more aspects of him/her and this process keeps iterating given more meetings. We formulate such an intuition into the problem of person re-identification (re-ID), where the representation of a query (probe) image is iteratively updated with new information from the candidates in the gallery. Specifically, we propose a simple attentional aggregation formulation to instantiate this idea and showcase that such a pipeline achieves competitive performance on standard benchmarks including CUHK03, Market-1501 and DukeMTMC. Not only does such a simple method improve the performance of the baseline models, it also achieves comparable performance with latest advanced re-ranking methods. Another advantage of this proposal is its flexibility to incorporate different representations and similarity metrics. By utilizing stronger representations and metrics, we further demonstrate state-of-the-art person re-ID performance, which also validates the general applicability of the proposed method.
翻訳日:2022-10-16 05:17:14 公開日:2020-09-21
# グレースケール画像の極端圧縮

Extreme compression of grayscale images ( http://arxiv.org/abs/2009.10115v1 )

ライセンス: Link先を確認
Franklin Mendivil and \"Orjan Stenflo(参考訳) グレースケールのデジタル画像と正の整数$n$が与えられた場合、画像の圧縮比が$n:1$でどれだけ保存できるか? 本稿では、「$\mathbf{V}$-variable image compression」を用いた$n>>50$の極端な場合において、上記の問題に対処する。

Given an grayscale digital image, and a positive integer $n$, how well can we store the image at a compression ratio of $n:1$? In this paper we address the above question in extreme cases when $n>>50$ using "$\mathbf{V}$-variable image compression".
翻訳日:2022-10-16 05:16:57 公開日:2020-09-21
# PyTorchのためのオープンソースの微分可能コンピュータビジョンライブラリKorniaに関する調査

A survey on Kornia: an Open Source Differentiable Computer Vision Library for PyTorch ( http://arxiv.org/abs/2009.10521v1 )

ライセンス: Link先を確認
E. Riba, D. Mishkin, J. Shi, D. Ponsa, F. Moreno-Noguer and G. Bradski(参考訳) Korniaは、汎用的なコンピュータビジョン問題を解決することを目的とした、さまざまなルーチンとモジュールのセットに基づいて構築されたオープンソースのコンピュータビジョンライブラリである。 パッケージはPyTorchをメインバックエンドとして使用しており、効率だけでなく、逆自動微分エンジンを利用して複雑な関数の勾配を定義し、計算する。 opencvにインスパイアされたkorniaは、画像変換、カメラキャリブレーション、エピポーラジオメトリ、低レベルの画像処理技術、例えばフィルタリングやエッジ検出といった、グラフィカルな処理ユニットの高次元テンソル表現を直接操作し、より高速なシステムを生成するために、モデルをトレーニングするためにニューラルネットワークに統合可能なオペレータを含む一連のモジュールで構成されている。 従来のビジョンライブラリと比較したベンチマークを含む、このフレームワークで実装された古典的なビジョン問題の例が提供されている。

This work presents Kornia, an open source computer vision library built upon a set of differentiable routines and modules that aims to solve generic computer vision problems. The package uses PyTorch as its main backend, not only for efficiency but also to take advantage of the reverse auto-differentiation engine to define and compute the gradient of complex functions. Inspired by OpenCV, Kornia is composed of a set of modules containing operators that can be integrated into neural networks to train models to perform a wide range of operations including image transformations,camera calibration, epipolar geometry, and low level image processing techniques, such as filtering and edge detection that operate directly on high dimensional tensor representations on graphical processing units, generating faster systems. Examples of classical vision problems implemented using our framework are provided including a benchmark comparing to existing vision libraries.
翻訳日:2022-10-16 05:16:11 公開日:2020-09-21
# スパースサンプリングに基づくファーストパーソンビデオのセマンティック高速転送フレームワーク

A Sparse Sampling-based framework for Semantic Fast-Forward of First-Person Videos ( http://arxiv.org/abs/2009.11063v1 )

ライセンス: Link先を確認
Michel Melo Silva, Washington Luis Souza Ramos, Mario Fernando Montenegro Campos, Erickson Rangel Nascimento(参考訳) センサーの技術的進歩は、デジタルカメラがますますユビキタスになり、その結果、自己記録文化の人気が高まった。 その結果、インターネット上の視覚的データの量は、ユーザの利用可能な時間と忍耐力とは逆方向に移動している。 したがって、アップロードされたビデオのほとんどは忘れ去られ、コンピュータのフォルダーやウェブサイトに保管されている。 本稿では,関連コンテンツを失うことなく,スムーズな高速動画作成の問題に対処する。 重み付き最小再構成問題として定式化した新しい適応フレーム選択法を提案する。 本手法は,スムーズなフレーム遷移とセグメント間の視覚的ギャップを埋めることにより,関連セグメントを強調する一対ビデオの高速化と,視覚的不連続を回避する。 制御されたビデオやfpvs(first-person video)のデータセットで行った実験では、高速にフォワード動画を作成する場合、最先端の技術と同等に関連性のある情報と滑らかさを保ちながら、処理時間を短縮できることを示した。

Technological advances in sensors have paved the way for digital cameras to become increasingly ubiquitous, which, in turn, led to the popularity of the self-recording culture. As a result, the amount of visual data on the Internet is moving in the opposite direction of the available time and patience of the users. Thus, most of the uploaded videos are doomed to be forgotten and unwatched stashed away in some computer folder or website. In this paper, we address the problem of creating smooth fast-forward videos without losing the relevant content. We present a new adaptive frame selection formulated as a weighted minimum reconstruction problem. Using a smoothing frame transition and filling visual gaps between segments, our approach accelerates first-person videos emphasizing the relevant segments and avoids visual discontinuities. Experiments conducted on controlled videos and also on an unconstrained dataset of First-Person Videos (FPVs) show that, when creating fast-forward videos, our method is able to retain as much relevant information and smoothness as the state-of-the-art techniques, but in less processing time.
翻訳日:2022-10-16 05:15:55 公開日:2020-09-21
# 静的合成勾配モジュールを用いたフィードフォワードオンエッジファインチューニング

Feed-Forward On-Edge Fine-tuning Using Static Synthetic Gradient Modules ( http://arxiv.org/abs/2009.09675v1 )

ライセンス: Link先を確認
Robby Neven, Marian Verhelst, Tinne Tuytelaars and Toon Goedem\'e(参考訳) 組み込みデバイス上でのディープラーニングモデルのトレーニングは、一般的に回避される。 この作業では、すべてのアクティベーションを格納するために必要なメモリ量を削減することに重点を置いています。 代わりに、前方通過の間、静的なSGM(Synthetic Gradient Modules)は各レイヤの勾配を予測する。 これにより、すべてのアクティベーションを格納することなく、フィードフォワードでモデルをトレーニングすることができる。 実験では,ロボットが1つの実演で新しい物体をつかむことを学ぶ必要があるロボット把持シナリオを用いて実験を行った。 まず、SGMを共通のオブジェクトの集合上でメタラーニング的に訓練することで、SGMはモデルに正確な勾配を与え、新しいオブジェクトの把握をうまく学べるようにした。 提案手法は標準のバックプロパゲーションと同等の結果が得られた。

Training deep learning models on embedded devices is typically avoided since this requires more memory, computation and power over inference. In this work, we focus on lowering the amount of memory needed for storing all activations, which are required during the backward pass to compute the gradients. Instead, during the forward pass, static Synthetic Gradient Modules (SGMs) predict gradients for each layer. This allows training the model in a feed-forward manner without having to store all activations. We tested our method on a robot grasping scenario where a robot needs to learn to grasp new objects given only a single demonstration. By first training the SGMs in a meta-learning manner on a set of common objects, during fine-tuning, the SGMs provided the model with accurate gradients to successfully learn to grasp new objects. We have shown that our method has comparable results to using standard backpropagation.
翻訳日:2022-10-16 05:09:43 公開日:2020-09-21
# 大規模マルチチャネル攻撃(HQ-WMCA)データベース

The High-Quality Wide Multi-Channel Attack (HQ-WMCA) database ( http://arxiv.org/abs/2009.09703v1 )

ライセンス: Link先を確認
Zohreh Mostaani and Anjith George and Guillaume Heusch and David Geissbuhler and Sebastien Marcel(参考訳) High-Quality Wide Multi-Channel Attack Database (HQ-WMCA) データベースは、以前の Wide Multi-Channel Attack Database (WMCA) を拡張し、色、深さ、熱、赤外線 (spectra) 、短波赤外線 (spectra) 、および様々な種類の攻撃を行う。

The High-Quality Wide Multi-Channel Attack database (HQ-WMCA) database extends the previous Wide Multi-Channel Attack database(WMCA), with more channels including color, depth, thermal, infrared (spectra), and short-wave infrared (spectra), and also a wide variety of attacks.
翻訳日:2022-10-16 05:09:01 公開日:2020-09-21
# シーンテキストに基づく微細画像分類と検索のためのマルチモーダル推論グラフ

Multi-Modal Reasoning Graph for Scene-Text Based Fine-Grained Image Classification and Retrieval ( http://arxiv.org/abs/2009.09809v1 )

ライセンス: Link先を確認
Andres Mafla, Sounak Dey, Ali Furkan Biten, Lluis Gomez and Dimosthenis Karatzas(参考訳) 自然画像に見られるシーンテキストインスタンスは明示的な意味情報を持ち、コンピュータビジョンの幅広い問題を解決する重要な手がかりを提供する。 本稿では,画像分類と検索の課題に取り組むために,視覚的およびテキスト的手がかりの形でマルチモーダルコンテンツを活用することに焦点を当てる。 まず,テキスト読み出しシステムを用いて画像からテキストインスタンスを取得する。 そして,テキスト特徴と有能な画像領域を組み合わせることで,2つの情報源が持つ補完情報を活用する。 具体的には、グラフ畳み込みネットワークを用いてマルチモーダル推論を行い、画像中の有能なオブジェクトとテキスト間の共通意味空間を学習することで関係強化された特徴を得る。 視覚的特徴とテクスト的特徴の強化セットを得ることにより,提案モデルは,コンテキストとドリンクボトルのデータセットにおける粒度分類と画像検索の2つのタスクにおいて,従来の最先端技術を大きく上回っている。

Scene text instances found in natural images carry explicit semantic information that can provide important cues to solve a wide array of computer vision problems. In this paper, we focus on leveraging multi-modal content in the form of visual and textual cues to tackle the task of fine-grained image classification and retrieval. First, we obtain the text instances from images by employing a text reading system. Then, we combine textual features with salient image regions to exploit the complementary information carried by the two sources. Specifically, we employ a Graph Convolutional Network to perform multi-modal reasoning and obtain relationship-enhanced features by learning a common semantic space between salient objects and text found in an image. By obtaining an enhanced set of visual and textual features, the proposed model greatly outperforms the previous state-of-the-art in two different tasks, fine-grained classification and image retrieval in the Con-Text and Drink Bottle datasets.
翻訳日:2022-10-16 05:08:17 公開日:2020-09-21
# バイオメトリックな顔テンプレートにどんな情報が保存されているか?

Beyond Identity: What Information Is Stored in Biometric Face Templates? ( http://arxiv.org/abs/2009.09918v1 )

ライセンス: Link先を確認
Philipp Terh\"orst, Daniel F\"ahrmann, Naser Damer, Florian Kirchbuchner, Arjan Kuijper(参考訳) 深層学習された顔表現は、現在の顔認識システムの成功を可能にする。 これらの表現が個人のアイデンティティをエンコードする能力にもかかわらず、近年の研究では、人口統計、画像の特徴、社会的特徴など、より多くの情報が格納されていることが示されている。 多くのアプリケーションでは、これらのテンプレートは認識目的にのみ使用されることが期待されているため、これはユーザーのプライバシーを脅かす。 顔テンプレートにエンコードされた情報を知ることは、バイアス軽減とプライバシー保護のための顔認識技術の開発に役立つ。 本研究は,113属性に関する顔テンプレートを解析することにより,これら2つのブランチの開発を支援することを目的とする。 2つの公開顔埋め込み実験を行った。 属性の予測可能性を評価するために、予測信頼性を正確に記述できる巨大な属性分類器を訓練した。 これにより、属性の予測可能性に関するより洗練されたステートメントが作成できます。 その結果,顔テンプレートから最大74の属性を正確に予測できることがわかった。 特に、年齢、髪型、髪の色、ひげ、様々なアクセサリーなどの非永続的な属性は容易に予測可能である。 顔認識システムは、これらのバリエーションに対して堅牢であることを目指しているため、将来の研究は、より理解しやすいプライバシー保護ソリューションを開発し、堅牢で公正な顔テンプレートを構築するためにこの研究を基礎とするかもしれない。

Deeply-learned face representations enable the success of current face recognition systems. Despite the ability of these representations to encode the identity of an individual, recent works have shown that more information is stored within, such as demographics, image characteristics, and social traits. This threatens the user's privacy, since for many applications these templates are expected to be solely used for recognition purposes. Knowing the encoded information in face templates helps to develop bias-mitigating and privacy-preserving face recognition technologies. This work aims to support the development of these two branches by analysing face templates regarding 113 attributes. Experiments were conducted on two publicly available face embeddings. For evaluating the predictability of the attributes, we trained a massive attribute classifier that is additionally able to accurately state its prediction confidence. This allows us to make more sophisticated statements about the attribute predictability. The results demonstrate that up to 74 attributes can be accurately predicted from face templates. Especially non-permanent attributes, such as age, hairstyles, haircolors, beards, and various accessories, found to be easily-predictable. Since face recognition systems aim to be robust against these variations, future research might build on this work to develop more understandable privacy preserving solutions and build robust and fair face templates.
翻訳日:2022-10-16 05:07:45 公開日:2020-09-21
# 「雑草がうつ病を引き起こすと、それはあなたのファブ抗うつ剤だ」:関係抽出のための知識意識フレームワーク

"When they say weed causes depression, but it's your fav antidepressant": Knowledge-aware Attention Framework for Relationship Extraction ( http://arxiv.org/abs/2009.10155v1 )

ライセンス: Link先を確認
Shweta Yadav, Usha Lokala, Raminta Daniulaityte, Krishnaprasad Thirunarayan, Francois Lamy, Amit Sheth(参考訳) 大麻の医療・レクリエーション利用の合法化が進み、うつ病と大麻消費に関連する消費者行動の関係を理解するためには、さらなる研究が必要である。 ソーシャルメディアのデータは、これらの関連について、公衆衛生アナリストに深い洞察を与える可能性がある。 本研究は,大麻使用と抑うつとの関連性を明らかにするために,学習プロセスにドメイン固有の知識を組み込む価値を示す。 我々は、事前学習されたBERT言語表現モデルとドメイン固有の宣言的知識源(Drug Abuse Ontology (DAO))を活用するエンドツーエンドの知識注入ディープラーニングフレームワーク(Gated-K-BERT)を開発した。 さらに,本モデルでは,対象エンティティの位置の特定にオントロジーを用いるエンティティ配置対応アテンション層を通じて,文中のエンティティにもっと焦点を合わせるように調整している。 実験結果から,BERTと関連づけた知識・意識的表現を組み込むことで,最先端関係抽出器と比較して,大麻・抑うつ関係を良好なカバレッジで抽出できることが示唆された。

With the increasing legalization of medical and recreational use of cannabis, more research is needed to understand the association between depression and consumer behavior related to cannabis consumption. Big social media data has potential to provide deeper insights about these associations to public health analysts. In this interdisciplinary study, we demonstrate the value of incorporating domain-specific knowledge in the learning process to identify the relationships between cannabis use and depression. We develop an end-to-end knowledge infused deep learning framework (Gated-K-BERT) that leverages the pre-trained BERT language representation model and domain-specific declarative knowledge source (Drug Abuse Ontology (DAO)) to jointly extract entities and their relationship using gated fusion sharing mechanism. Our model is further tailored to provide more focus to the entities mention in the sentence through entity-position aware attention layer, where ontology is used to locate the target entities position. Experimental results show that inclusion of the knowledge-aware attentive representation in association with BERT can extract the cannabis-depression relationship with better coverage in comparison to the state-of-the-art relation extractor.
翻訳日:2022-10-16 05:01:25 公開日:2020-09-21
# 流線形制約モデルのポートフォリオ化に向けて:バランスの取れたアカデミックカリキュラム問題を用いたケーススタディ

Towards Portfolios of Streamlined Constraint Models: A Case Study with the Balanced Academic Curriculum Problem ( http://arxiv.org/abs/2009.10152v1 )

ライセンス: Link先を確認
Patrick Spracklen, Nguyen Dang, \"Ozg\"ur Akg\"un, Ian Miguel(参考訳) 追加の制約によるベース制約モデルの拡張は、ソルバによる推論を強化し、検索労力を削減することができる。 我々は,問題クラスの抽象的本質的仕様に存在する型から導かれたストリームライナー制約の自動付加に着目し,検索の大幅な削減を実現するためのトレードオフ完全性について検討した。 制約解決器への入力に適した制約モデルへの合理化されたEssence仕様の洗練は、基礎となるEssence仕様に必要なものに加えて、多数のモデリング選択をもたらす。 以前の自動化された合理化アプローチでは、各合理化仕様に対して単一のデフォルトモデルのみを評価することが制限されていた。 本稿では,仕様の合理化にともなうモデル選択の効果について考察する。 本稿では,各ストリームライナーに対して,パフォーマンスの変動性を探索し,最適なモデルを見出すためのモデルポートフォリオを評価することにより,パレート最適ストリームライナー・モデルの組み合わせのポートフォリオを生成する新しいベストファースト探索手法を提案する。 各種のレースは、訓練の計算コストを抑えるために使用される。

Augmenting a base constraint model with additional constraints can strengthen the inferences made by a solver and therefore reduce search effort. We focus on the automatic addition of streamliner constraints, derived from the types present in an abstract Essence specification of a problem class of interest, which trade completeness for potentially very significant reduction in search. The refinement of streamlined Essence specifications into constraint models suitable for input to constraint solvers gives rise to a large number of modelling choices in addition to those required for the base Essence specification. Previous automated streamlining approaches have been limited in evaluating only a single default model for each streamlined specification. In this paper we explore the effect of model selection in the context of streamlined specifications. We propose a new best-first search method that generates a portfolio of Pareto Optimal streamliner-model combinations by evaluating for each streamliner a portfolio of models to search and explore the variability in performance and find the optimal model. Various forms of racing are utilised to constrain the computational cost of training.
翻訳日:2022-10-16 05:00:26 公開日:2020-09-21
# 自動計画のためのインスタンス生成の探索

Exploring Instance Generation for Automated Planning ( http://arxiv.org/abs/2009.10156v1 )

ライセンス: Link先を確認
\"Ozg\"ur Akg\"un, Nguyen Dang, Joan Espasa, Ian Miguel, Andr\'as Z. Salamon, Christopher Stone(参考訳) 人工知能のコア分野の多くは、新しいアルゴリズムを開発する際にコミュニティがよく知られ広く使用している標準ベンチマーク問題である。 制約プログラミングと自動計画はこれらの領域の例であり、新しいアルゴリズムの振る舞いは、これらのインスタンスでどのように機能するかによって測定される。 一般に、各解法の有効性は問題間だけでなく、同じ問題のインスタンス間でも変化する。 したがって、多様なインスタンスセットを持つことは、新しい解法を効果的に評価できることが不可欠である。 制約プログラミング問題に対するインスタンスの自動生成の現在の手法は、宣言型モデルから始まり、硬さやサイズなどいくつかの望ましい属性を持つインスタンスを検索する。 まず、自動計画コミュニティのデファクト標準言語であるPDDLで書かれた問題仕様から始まるインスタンスを生成するためにこのアプローチを適用することの難しさについて検討する。 次に,pddlの特定の低レベル表現にコミットすることなく高レベル構造を表現できる抽象モデル言語であるessenceを用いて,計画問題記述全体をモデル化する手法を提案する。

Many of the core disciplines of artificial intelligence have sets of standard benchmark problems well known and widely used by the community when developing new algorithms. Constraint programming and automated planning are examples of these areas, where the behaviour of a new algorithm is measured by how it performs on these instances. Typically the efficiency of each solving method varies not only between problems, but also between instances of the same problem. Therefore, having a diverse set of instances is crucial to be able to effectively evaluate a new solving method. Current methods for automatic generation of instances for Constraint Programming problems start with a declarative model and search for instances with some desired attributes, such as hardness or size. We first explore the difficulties of adapting this approach to generate instances starting from problem specifications written in PDDL, the de-facto standard language of the automated planning community. We then propose a new approach where the whole planning problem description is modelled using Essence, an abstract modelling language that allows expressing high-level structures without committing to a particular low level representation in PDDL.
翻訳日:2022-10-16 05:00:07 公開日:2020-09-21
# エントロピー、計算、合理性

Entropy, Computing and Rationality ( http://arxiv.org/abs/2009.10224v1 )

ライセンス: Link先を確認
Luis A. Pineda(参考訳) 意思決定は、環境や意思決定エンジンに不確定性があることを、自由に仮定する。 前者はコミュニケーションによる行動の変化を反映している: 硬直した環境を示す変化は少ない; 生産的変化は適度な不決定性を示すが、生産的変化が少ない大きなコミュニケーション努力はカオス環境を特徴づける。 したがって、コミュニケーション、効果的な意思決定、生産的な行動変化が関連している。 エントロピーは環境の不確定性を測定し、コミュニケーションが効果的な意思決定を支援するエントロピー範囲が存在する。 この予想は「決定の潜在的な生産性」と呼ばれる。 意思決定に因果的なコンピューティングエンジンにも、いくつかの不確定性があるはずだ。 しかし、標準チューリング機械による計算を定めている。 この制限を克服するために、ここでRelational-Indeterminateと呼ばれるエントロピックな計算モードが提示される。 テーブル形式の実装は連想メモリをモデル化するために使われてきた。 現在の理論と実験はエントロピーのトレードオフを示唆している: 計算が効果的であるエントロピー範囲は存在するが、エントロピーが低すぎると計算は固くなりすぎ、計算が高すぎると実現不可能である。 コンピューティングエンジンのエントロピートレードオフは、環境決定の潜在的な生産性に対応する。 この理論は相互作用指向認知アーキテクチャと呼ばれる。 記憶、知覚、行動、思考は不決定性のレベルを伴い、意思決定はそのようなレベルで自由である。 全体論は合理性の生態学的見解を支持する。 脳のエントロピーは神経科学の研究で測定されており、この理論は脳がエントロピー機械であることを示している。 論文は、経験的に検証可能ないくつかの予測で締めくくられている。

Making decisions freely presupposes that there is some indeterminacy in the environment and in the decision making engine. The former is reflected on the behavioral changes due to communicating: few changes indicate rigid environments; productive changes manifest a moderate indeterminacy, but a large communicating effort with few productive changes characterize a chaotic environment. Hence, communicating, effective decision making and productive behavioral changes are related. The entropy measures the indeterminacy of the environment, and there is an entropy range in which communicating supports effective decision making. This conjecture is referred to here as the The Potential Productivity of Decisions. The computing engine that is causal to decision making should also have some indeterminacy. However, computations performed by standard Turing Machines are predetermined. To overcome this limitation an entropic mode of computing that is called here Relational-Indeterminate is presented. Its implementation in a table format has been used to model an associative memory. The present theory and experiment suggest the Entropy Trade-off: There is an entropy range in which computing is effective but if the entropy is too low computations are too rigid and if it is too high computations are unfeasible. The entropy trade-off of computing engines corresponds to the potential productivity of decisions of the environment. The theory is referred to an Interaction-Oriented Cognitive Architecture. Memory, perception, action and thought involve a level of indeterminacy and decision making may be free in such degree. The overall theory supports an ecological view of rationality. The entropy of the brain has been measured in neuroscience studies and the present theory supports that the brain is an entropic machine. The paper is concluded with a number of predictions that may be tested empirically.
翻訳日:2022-10-16 04:59:49 公開日:2020-09-21
# 3d-future:テクスチャ付き3d家具

3D-FUTURE: 3D Furniture shape with TextURE ( http://arxiv.org/abs/2009.09633v1 )

ライセンス: Link先を確認
Huan Fu, Rongfei Jia, Lin Gao, Mingming Gong, Binqiang Zhao, Steve Maybank, Dacheng Tao(参考訳) 現在の3dベンチマークの3dcad形状は、主にオンラインモデルリポジトリから収集される。 したがって、通常は幾何学的詳細が不十分で、情報的なテクスチャが少なくなるため、高品質な3Dメッシュやテクスチャリカバリといった分野の包括的かつ微妙な研究には魅力的ではない。 本稿では,3d家具形状とテクスチャ(3d-future):家庭シナリオにおける3d家具形状の多彩な大規模リポジトリについて述べる。 この技術レポートの時点で、3D-FUTUREは、5000部屋のクリーンでリアルな合成画像20,240枚を含んでいる。 高解像度のテクスチャを備えた家具には、9,992のユニークな3Dインスタンスがある。 経験豊富なデザイナーが部屋のシーンを開発し、シーン内の3DCAD形状は工業生産に使われている。 良好な3d未来を考えると,2dインスタンスセグメンテーションと3dオブジェクトポーズ推定,画像に基づく3d形状検索,1枚の画像からの3dオブジェクト再構成,および3d形状のテクスチャ復元など,広く研究されているタスクのベースライン実験を行い,関連研究の促進を図る。

The 3D CAD shapes in current 3D benchmarks are mostly collected from online model repositories. Thus, they typically have insufficient geometric details and less informative textures, making them less attractive for comprehensive and subtle research in areas such as high-quality 3D mesh and texture recovery. This paper presents 3D Furniture shape with TextURE (3D-FUTURE): a richly-annotated and large-scale repository of 3D furniture shapes in the household scenario. At the time of this technical report, 3D-FUTURE contains 20,240 clean and realistic synthetic images of 5,000 different rooms. There are 9,992 unique detailed 3D instances of furniture with high-resolution textures. Experienced designers developed the room scenes, and the 3D CAD shapes in the scene are used for industrial production. Given the well-organized 3D-FUTURE, we provide baseline experiments on several widely studied tasks, such as joint 2D instance segmentation and 3D object pose estimation, image-based 3D shape retrieval, 3D object reconstruction from a single image, and texture recovery for 3D shapes, to facilitate related future researches on our database.
翻訳日:2022-10-16 04:59:07 公開日:2020-09-21
# ソーシャルメディア投稿に基づく健康状態の重症度評価

Assessing the Severity of Health States based on Social Media Posts ( http://arxiv.org/abs/2009.09600v1 )

ライセンス: Link先を確認
Shweta Yadav, Joy Prakash Sain, Amit Sheth, Asif Ekbal, Sriparna Saha, Pushpak Bhattacharyya(参考訳) インターネットユーザーの前例のない成長は、患者が他のユーザーから健康関連の情報や意見を求める健康フォーラムを含む、ソーシャルメディア上の非構造化情報を豊富に生み出している。 これまでの研究では、専門家の介入なしにオンラインピアサポートが有効性に制限されていることが示されている。 したがって、患者のソーシャルメディア投稿から健康状態の重症度を評価するシステムにより、利用者の投稿を優先する健康専門家(HP)を支援することができる。 本研究では,NLU(Natural Language Understanding, 自然言語理解)の異なる側面の有効性を検証し, ユーザの健康状態の重症度を2つの視点(タスク)に関連づける。 (a)医学的状態(回復、現存、劣化等) (b)オンライン・ヘルス・コミュニティにおける薬物(有効、非有効、重篤な副作用その他) ユーザの健康状態の重症度を評価するために,テキストコンテンツとコンテキスト情報の両方をモデル化する多視点学習フレームワークを提案する。 具体的には、感情、感情、個性、図形言語の使用といったNLUの視点を利用して文脈情報を抽出する。 多様なNLUビューは、ユーザの健康を評価するために、タスクと個々の疾患の両方に効果を示す。

The unprecedented growth of Internet users has resulted in an abundance of unstructured information on social media including health forums, where patients request health-related information or opinions from other users. Previous studies have shown that online peer support has limited effectiveness without expert intervention. Therefore, a system capable of assessing the severity of health state from the patients' social media posts can help health professionals (HP) in prioritizing the user's post. In this study, we inspect the efficacy of different aspects of Natural Language Understanding (NLU) to identify the severity of the user's health state in relation to two perspectives(tasks) (a) Medical Condition (i.e., Recover, Exist, Deteriorate, Other) and (b) Medication (i.e., Effective, Ineffective, Serious Adverse Effect, Other) in online health communities. We propose a multiview learning framework that models both the textual content as well as contextual-information to assess the severity of the user's health state. Specifically, our model utilizes the NLU views such as sentiment, emotions, personality, and use of figurative language to extract the contextual information. The diverse NLU views demonstrate its effectiveness on both the tasks and as well as on the individual disease to assess a user's health.
翻訳日:2022-10-16 04:51:35 公開日:2020-09-21
# 複数表現構文解析のためのマルチタスクポインタネットワーク

Multitask Pointer Network for Multi-Representational Parsing ( http://arxiv.org/abs/2009.09730v1 )

ライセンス: Link先を確認
Daniel Fern\'andez-Gonz\'alez and Carlos G\'omez-Rodr\'iguez(参考訳) 一つのモデルを訓練することにより,任意の入力文を構成木と依存木の両方で効率的に解析し,連続/射影/不連続/非射影構文構造の両方をサポートするトランジッションベースアプローチを提案する。 そこで我々は,2つのタスク固有のデコーダと共通エンコーダを備えたポインタネットワークアーキテクチャを開発し,それらを共同学習するマルチタスク学習戦略に従う。 結果として得られた二次システムは、単一のモデルから制約のない構成木と依存木の両方を共同生成できる最初のパーサーとなるだけでなく、訓練中に両方の構文形式が互いに利益を得られることを証明し、連続する英語と中国語のペンバンク、不連続なドイツのネグラとタイガーデータセットのようないくつかの広く使われているベンチマークにおいて最先端のアキュラ性を達成する。

We propose a transition-based approach that, by training a single model, can efficiently parse any input sentence with both constituent and dependency trees, supporting both continuous/projective and discontinuous/non-projective syntactic structures. To that end, we develop a Pointer Network architecture with two separate task-specific decoders and a common encoder, and follow a multitask learning strategy to jointly train them. The resulting quadratic system, not only becomes the first parser that can jointly produce both unrestricted constituent and dependency trees from a single model, but also proves that both syntactic formalisms can benefit from each other during training, achieving state-of-the-art accuracies in several widely-used benchmarks such as the continuous English and Chinese Penn Treebanks, as well as the discontinuous German NEGRA and TIGER datasets.
翻訳日:2022-10-16 04:50:26 公開日:2020-09-21
# ラテンBERT:古典哲学のための文脈言語モデル

Latin BERT: A Contextual Language Model for Classical Philology ( http://arxiv.org/abs/2009.10053v1 )

ライセンス: Link先を確認
David Bamman and Patrick J. Burns(参考訳) 我々はラテン語の文脈言語モデルである Latin BERT を、古典期から21世紀にかけての様々な情報源から642.7万語で訓練した。 In a series of case studies, we illustrate the affordances of this language-specific model both for work in natural language processing for Latin and in using computational methods for traditional scholarship: we show that Latin BERT achieves a new state of the art for part-of-speech tagging on all three Universal Dependency datasets for Latin and can be used for predicting missing text (including critical emendations); we create a new dataset for assessing word sense disambiguation for Latin and demonstrate that Latin BERT outperforms static word embeddings; and we show that it can be used for semantically-informed search by querying contextual nearest neighbors. この分野での今後の作業を支援するために、トレーニングされたモデルを公開しています。

We present Latin BERT, a contextual language model for the Latin language, trained on 642.7 million words from a variety of sources spanning the Classical era to the 21st century. In a series of case studies, we illustrate the affordances of this language-specific model both for work in natural language processing for Latin and in using computational methods for traditional scholarship: we show that Latin BERT achieves a new state of the art for part-of-speech tagging on all three Universal Dependency datasets for Latin and can be used for predicting missing text (including critical emendations); we create a new dataset for assessing word sense disambiguation for Latin and demonstrate that Latin BERT outperforms static word embeddings; and we show that it can be used for semantically-informed search by querying contextual nearest neighbors. We publicly release trained models to help drive future work in this space.
翻訳日:2022-10-16 04:49:29 公開日:2020-09-21
# 数発インテントを用いた変分自然言語生成

Composed Variational Natural Language Generation for Few-shot Intents ( http://arxiv.org/abs/2009.10056v1 )

ライセンス: Link先を確認
Congying Xia, Caiming Xiong, Philip Yu, Richard Socher(参考訳) 本稿では,現実的不均衡シナリオにおいて,最小ショットインテントのトレーニング例の生成に着目する。 既存の多ショットインテントと少数ショットインテントの接続を構築するために,インテントをドメインとアクションの組み合わせとみなし,トランスフォーマーに基づく条件付き変分自動エンコーダである合成変分自然言語生成器(CLANG)を提案する。 CLANGは2つの潜伏変数を用いて意図の中の2つの異なる独立部分(ドメインとアクション)に対応する発話を表現し、潜伏変数は結合して自然例を生成する。 さらに、生成学習を改善するために、クラス内とクラス外発話生成とを対比した対照的な正規化損失を採用する。 生成した発話の品質を評価するために、一般化されたマイナショットインテント検出タスクについて実験を行う。 実験結果から,提案モデルが2つの実世界の意図検出データセット上で最先端の性能を達成することを示す。

In this paper, we focus on generating training examples for few-shot intents in the realistic imbalanced scenario. To build connections between existing many-shot intents and few-shot intents, we consider an intent as a combination of a domain and an action, and propose a composed variational natural language generator (CLANG), a transformer-based conditional variational autoencoder. CLANG utilizes two latent variables to represent the utterances corresponding to two different independent parts (domain and action) in the intent, and the latent variables are composed together to generate natural examples. Additionally, to improve the generator learning, we adopt the contrastive regularization loss that contrasts the in-class with the out-of-class utterance generation given the intent. To evaluate the quality of the generated utterances, experiments are conducted on the generalized few-shot intent detection task. Empirical results show that our proposed model achieves state-of-the-art performances on two real-world intent detection datasets.
翻訳日:2022-10-16 04:49:18 公開日:2020-09-21
# NeuroDiff:微細近似を用いたニューラルネットワークのスケーラブルな微分検証

NeuroDiff: Scalable Differential Verification of Neural Networks using Fine-Grained Approximation ( http://arxiv.org/abs/2009.09943v1 )

ライセンス: Link先を確認
Brandon Paulsen, Jingbo Wang, Jiawei Wang, Chao Wang(参考訳) ニューラルネットワークが安全性を重要視するシステムに入り込むにつれて、構造的に類似した2つのニューラルネットワークの等価性を保証することへの関心が高まっている。 例えば、トレーニングされたニューラルネットワークを計算的およびエネルギー制約のあるデバイスにデプロイするために、実際に圧縮技術が使用されることが多い。 残念ながら、既存の手法では1つのネットワークを検証するか、2つのネットワークの等価性を証明するためにゆるい近似に依存する。 過度に保守的な近似のため、差分検証は精度と計算コストの両面でスケーラビリティに欠ける。 これらの問題を克服するため,我々は,差分検証の精度を劇的に向上し,多数の桁数高速化を実現するシンボリックおよび細粒度近似手法であるneurodiffを提案する。 NeuroDiffには2つの重要な貢献がある。 1つは新しい凸近似で、2つのネットワークの差分ニューロンを可能な全ての入力でより正確に結合する。 2つ目は、異なる境界が大きな誤差を蓄積したニューロンを表現するために、記号変数を巧みに使用することである。 また,これら2つの手法が相補的であること,すなわち,組み合わせた場合の利益は,それぞれの利益の合計よりも大きいことが分かりました。 我々は様々な差分検証タスクでNeuroDiffを評価した。 以上の結果から,neurodiffは最先端ツールよりも最大1000倍高速で5倍精度が高いことがわかった。

As neural networks make their way into safety-critical systems, where misbehavior can lead to catastrophes, there is a growing interest in certifying the equivalence of two structurally similar neural networks. For example, compression techniques are often used in practice for deploying trained neural networks on computationally- and energy-constrained devices, which raises the question of how faithfully the compressed network mimics the original network. Unfortunately, existing methods either focus on verifying a single network or rely on loose approximations to prove the equivalence of two networks. Due to overly conservative approximation, differential verification lacks scalability in terms of both accuracy and computational cost. To overcome these problems, we propose NeuroDiff, a symbolic and fine-grained approximation technique that drastically increases the accuracy of differential verification while achieving many orders-of-magnitude speedup. NeuroDiff has two key contributions. The first one is new convex approximations that more accurately bound the difference neurons of two networks under all possible inputs. The second one is judicious use of symbolic variables to represent neurons whose difference bounds have accumulated significant error. We also find that these two techniques are complementary, i.e., when combined, the benefit is greater than the sum of their individual benefits. We have evaluated NeuroDiff on a variety of differential verification tasks. Our results show that NeuroDiff is up to 1000X faster and 5X more accurate than the state-of-the-art tool.
翻訳日:2022-10-16 04:43:34 公開日:2020-09-21
# ユーザデータを記憶せずに生産言語モデルを訓練する

Training Production Language Models without Memorizing User Data ( http://arxiv.org/abs/2009.10031v1 )

ライセンス: Link先を確認
Swaroop Ramaswamy, Om Thakkar, Rajiv Mathews, Galen Andrew, H. Brendan McMahan, Fran\c{c}oise Beaufays(参考訳) 本稿では,DP-FedAvg技術を活用しながら,Federated Learning (FL) を用いて学習した最初のコンシューマスケール次世代語予測モデルを提案する。 このようなインフラを使ったモバイルデバイス上での言語モデルのトレーニングの可能性を示す作業を含む、実用的なflインフラストラクチャの構築にはこれまでも取り組んできた。 また、DP-FedAvgアルゴリズムを用いてNWPモデルをユーザレベルの差分プライバシーでトレーニングすることが可能であることが(パブリックコーパスでのシミュレーションで)示されている。 それでも、DP-FedAvgで製造品質の高いNWPモデルを、異機種の携帯電話で実運用環境で訓練するには、多くの課題に対処する必要がある。 例えば、コーディネート中央サーバは、各ラウンドの開始時に利用可能なデバイスとサンプルデバイスをランダムに追跡し、サンプルの‘emph{secrecy of the sample}などを保証する必要がある。 これまでのすべてのプライバシ重視のFL作業とは違って、FLにおける生産ニューラルネットワークのトレーニングのための差分プライベートなメカニズムの展開と、意図しない記憶のエンドツーエンドな実証的な測定を行うための生産トレーニングインフラストラクチャの実施を初めて実演します。

This paper presents the first consumer-scale next-word prediction (NWP) model trained with Federated Learning (FL) while leveraging the Differentially Private Federated Averaging (DP-FedAvg) technique. There has been prior work on building practical FL infrastructure, including work demonstrating the feasibility of training language models on mobile devices using such infrastructure. It has also been shown (in simulations on a public corpus) that it is possible to train NWP models with user-level differential privacy using the DP-FedAvg algorithm. Nevertheless, training production-quality NWP models with DP-FedAvg in a real-world production environment on a heterogeneous fleet of mobile phones requires addressing numerous challenges. For instance, the coordinating central server has to keep track of the devices available at the start of each round and sample devices uniformly at random from them, while ensuring \emph{secrecy of the sample}, etc. Unlike all prior privacy-focused FL work of which we are aware, for the first time we demonstrate the deployment of a differentially private mechanism for the training of a production neural network in FL, as well as the instrumentation of the production training infrastructure to perform an end-to-end empirical measurement of unintended memorization.
翻訳日:2022-10-16 04:43:10 公開日:2020-09-21
# 影響下の盗賊(拡張版)

Bandits Under The Influence (Extended Version) ( http://arxiv.org/abs/2009.10135v1 )

ライセンス: Link先を確認
Silviu Maniu, Stratis Ioannidis, Bogdan Cautis(参考訳) レコメンダシステムは、後者が進化するにつれてユーザーの興味に適応すべきである。 ユーザの関心が進化する主な原因は、その社会的サークルの影響である。 一般に、興味が不明な場合には、観察された好みを活用しながらレコメンデーション空間を探索するオンラインアルゴリズムが望ましい。 線形多武装バンディット文学に根ざしたオンラインレコメンデーションアルゴリズムを提案する。 我々のバンディットアルゴリズムは、ユーザーの興味が社会的影響の下で進化するレコメンデーションシナリオに正確に適合している。 特に,古典的リレルおよびトンプソンサンプリングアルゴリズムの適応は,非社会的な場合と同様の漸近的後悔の限界を維持していることを示す。 合成データと実データの両方を用いて実験を行った。

Recommender systems should adapt to user interests as the latter evolve. A prevalent cause for the evolution of user interests is the influence of their social circle. In general, when the interests are not known, online algorithms that explore the recommendation space while also exploiting observed preferences are preferable. We present online recommendation algorithms rooted in the linear multi-armed bandit literature. Our bandit algorithms are tailored precisely to recommendation scenarios where user interests evolve under social influence. In particular, we show that our adaptations of the classic LinREL and Thompson Sampling algorithms maintain the same asymptotic regret bounds as in the non-social case. We validate our approach experimentally using both synthetic and real datasets.
翻訳日:2022-10-16 04:42:29 公開日:2020-09-21
# 医療が市販のWiFiと対決する時--家庭内モニタリングの非脆弱で低コストなアプローチ

When Healthcare Meets Off-the-Shelf WiFi: A Non-Wearable and Low-Costs Approach for In-Home Monitoring ( http://arxiv.org/abs/2009.09715v1 )

ライセンス: Link先を確認
Lingchao Guo, Zhaoming Lu, Shuang Zhou, Xiangming Wen, Zhihong He(参考訳) 高齢化に伴い、社会と医療が検証の課題に直面し始め、家庭内モニタリングがこの分野のプロフェッショナルの焦点になりつつある。 政府は、高齢者の快適さと自立性を確保しつつ、医療サービスの質を低コストで向上させる必要がある。 この研究は、市販のwi-fiをベースにした家庭内モニタリングアプローチを示しており、低コストで、着用不能で、介護者に一日中医療情報を提供する。 提案手法は,壁面からでも細かな人間のポーズ像を捉え,市販のWiFiデバイスで同時に詳細な呼吸状態を追跡する。 これらの結果から,高齢者の行動データ,生理データ,派生情報(異常事象や基礎疾患など)は,介護者に直接確認できた。 WiFiチャネル状態情報(CSI)から人間のポーズ図を抽出し呼吸状態曲線を抽出する一連の信号処理手法とニューラルネットワークを設計する。 広範にわたる実験を行い、その結果、市販のWiFiデバイスは、壁を通してもカメラと同様の微細な人間のポーズ像を捉え、正確な呼吸状態を追跡し、家庭内モニタリングにおける我々のアプローチの有効性と実現可能性を示す。

As elderly population grows, social and health care begin to face validation challenges, in-home monitoring is becoming a focus for professionals in the field. Governments urgently need to improve the quality of healthcare services at lower costs while ensuring the comfort and independence of the elderly. This work presents an in-home monitoring approach based on off-the-shelf WiFi, which is low-costs, non-wearable and makes all-round daily healthcare information available to caregivers. The proposed approach can capture fine-grained human pose figures even through a wall and track detailed respiration status simultaneously by off-the-shelf WiFi devices. Based on them, behavioral data, physiological data and the derived information (e.g., abnormal events and underlying diseases), of the elderly could be seen by caregivers directly. We design a series of signal processing methods and a neural network to capture human pose figures and extract respiration status curves from WiFi Channel State Information (CSI). Extensive experiments are conducted and according to the results, off-the-shelf WiFi devices are capable of capturing fine-grained human pose figures, similar to cameras, even through a wall and track accurate respiration status, thus demonstrating the effectiveness and feasibility of our approach for in-home monitoring.
翻訳日:2022-10-16 04:42:13 公開日:2020-09-21
# アンタングル表現を用いたNLPモデルのロバスト性および一般性の向上

Improving Robustness and Generality of NLP Models Using Disentangled Representations ( http://arxiv.org/abs/2009.09587v1 )

ライセンス: Link先を確認
Jiawei Wu, Xiaoya Li, Xiang Ao, Yuxian Meng, Fei Wu and Jiwei Li(参考訳) 教師付きニューラルネットワークは、最初に入力$x$を単一の表現$z$にマップし、次に$z$を出力ラベル$y$にマップし、幅広い自然言語処理(nlp)タスクで驚くべき成功を収めた。 入力に対する小さな摂動は、まったく異なる出力をもたらす可能性がある; あるドメインでトレーニングされたモデルの性能は、別のドメインでテストされると劇的に低下する。 本稿では,非交叉表現学習の観点から,NLPモデルの堅牢性と汎用性を改善する手法を提案する。 提案された戦略は、$x$ を 1 つの表現 $z$ にマッピングする代わりに、$x$ を $\{z_1,z_2,...,z_K\}$ の表現の集合にマッピングする。 これらの表現は異なるロジット$l$sにマッピングされ、そのアンサンブルは最終的な予測$y$に使用される。 例えば、$z$sに$L$2正規化器を追加したり、変動情報ボトルネック(VIB)の枠組みの下にTotal correlation(TC)を追加したりして、このアイデアを現在広く使われているモデルに組み込む方法を提案する。 提案手法を用いて学習したモデルが,様々な教師付き学習タスクにおいてより頑健性とドメイン適応性をもたらすことを示す。

Supervised neural networks, which first map an input $x$ to a single representation $z$, and then map $z$ to the output label $y$, have achieved remarkable success in a wide range of natural language processing (NLP) tasks. Despite their success, neural models lack for both robustness and generality: small perturbations to inputs can result in absolutely different outputs; the performance of a model trained on one domain drops drastically when tested on another domain. In this paper, we present methods to improve robustness and generality of NLP models from the standpoint of disentangled representation learning. Instead of mapping $x$ to a single representation $z$, the proposed strategy maps $x$ to a set of representations $\{z_1,z_2,...,z_K\}$ while forcing them to be disentangled. These representations are then mapped to different logits $l$s, the ensemble of which is used to make the final prediction $y$. We propose different methods to incorporate this idea into currently widely-used models, including adding an $L$2 regularizer on $z$s or adding Total Correlation (TC) under the framework of variational information bottleneck (VIB). We show that models trained with the proposed criteria provide better robustness and domain adaptation ability in a wide range of supervised learning tasks.
翻訳日:2022-10-16 04:40:37 公開日:2020-09-21
# 擬似説明を超えた視覚的, 粒度的手法による説明可能な機械学習の探索

Survey of explainable machine learning with visual and granular methods beyond quasi-explanations ( http://arxiv.org/abs/2009.10221v1 )

ライセンス: Link先を確認
Boris Kovalerchuk (1), Muhammad Aurangzeb Ahmad (2 and 3), Ankur Teredesai (2 and 3) ((1) Department of Computer Science, Central Washington University, USA (2) Department of Computer Science and Systems, University of Washington Tacoma, USA (3) Kensci Inc., USA)(参考訳) 本稿では、機械学習(ML)の視覚的説明可能性について、MLで支配的な準説明から、粒度の視覚によって支えられるドメイン固有の説明へと移行することに焦点を当てて検討する。 ML解釈は基本的に人間の活動であり、視覚的手法はより容易に解釈できる。 高次元データの効率的な視覚表現は存在するが、解釈可能な情報、オクルージョン、およびクラッタの喪失は依然として課題であり、準説明につながる。 まずは動機と説明可能性の異なる定義から始めます。 論文は、準説明とドメイン特化説明の明確な区別と、説明可能性ドメインにおいて極めて重要な、説明可能モデルと実際に説明可能なmlモデルとの区別に焦点を当てている。 本稿では,解釈可能性の基礎,視覚的解釈可能性について論じ,MLモデルを視覚化するためのいくつかの方法を提案する。 次に,最近導入された一般線座標(glc)の概念に基づき,解釈可能なモデルに着目したmlモデルの視覚的発見法を提案する。 これらの手法は、準説明であるだけでなく、ドメイン固有の視覚的説明である視覚的説明を作成するための重要なステップを取る。 この論文は、ジョンソン-リンデンシュトラウス補題、ポイント・ツー・ポイント・アンド・ポイント・ツー・グラフGLCアプローチ、実世界のケーススタディに基づく、低次元でのn-D距離の保存に関する理論的限界に関する結果を含む。 また、ディープラーニングや時系列モデルを含む、MLモデルを理解するための従来の視覚的手法についても取り上げる。 これらの手法の多くは準説明であり、ドメイン固有の説明となるためにさらなる拡張が必要であることを示す。 オープンな問題と現在の研究のフロンティアを概説して締めくくる。

This paper surveys visual methods of explainability of Machine Learning (ML) with focus on moving from quasi-explanations that dominate in ML to domain-specific explanation supported by granular visuals. ML interpretation is fundamentally a human activity and visual methods are more readily interpretable. While efficient visual representations of high-dimensional data exist, the loss of interpretable information, occlusion, and clutter continue to be a challenge, which lead to quasi-explanations. We start with the motivation and the different definitions of explainability. The paper focuses on a clear distinction between quasi-explanations and domain specific explanations, and between explainable and an actually explained ML model that are critically important for the explainability domain. We discuss foundations of interpretability, overview visual interpretability and present several types of methods to visualize the ML models. Next, we present methods of visual discovery of ML models, with the focus on interpretable models, based on the recently introduced concept of General Line Coordinates (GLC). These methods take the critical step of creating visual explanations that are not merely quasi-explanations but are also domain specific visual explanations while these methods themselves are domain-agnostic. The paper includes results on theoretical limits to preserve n-D distances in lower dimensions, based on the Johnson-Lindenstrauss lemma, point-to-point and point-to-graph GLC approaches, and real-world case studies. The paper also covers traditional visual methods for understanding ML models, which include deep learning and time series models. We show that many of these methods are quasi-explanations and need further enhancement to become domain specific explanations. We conclude with outlining open problems and current research frontiers.
翻訳日:2022-10-16 04:35:20 公開日:2020-09-21
# グラフニューラルネットワークの進化的アーキテクチャ探索

Evolutionary Architecture Search for Graph Neural Networks ( http://arxiv.org/abs/2009.10199v1 )

ライセンス: Link先を確認
Min Shi, David A.Wilson, Xingquan Zhu, Yu Huang, Yuan Zhuang, Jianxun Liu and Yufei Tang(参考訳) 自動機械学習(AutoML)は、過去10年間のディープラーニングのブームに再び関心を寄せている。 特に、NAS(Neural Architecture Search)はAutoML研究コミュニティ全体で大きな注目を集めており、テキストやイメージなどのグリッドライクなデータに対処する多くのニューラルモデルにおいて、最先端の技術を推し進めている。 しかし、非構造化ネットワークデータに関するグラフニューラルネットワーク(GNN)の学習については、非常に厳しい研究がなされている。 アグリゲータやアクティベーション関数などのコンポーネントの膨大な数の選択と組み合わせを考えると、特定の問題に適したGNN構造を決定するには、通常、膨大な専門知識と労力を要する。 さらに、学習率やドロップアウト率などのハイパーパラメータのわずかな変動は、GNNの学習能力を劇的に損なう可能性がある。 本稿では、ニューラル構造と学習パラメータの両方を含む大規模GNNアーキテクチャ空間における個々のモデルの進化を通して、新しいAutoMLフレームワークを提案する。 既存の作業として固定パラメータ設定を持つモデル構造のみを最適化するのではなく、GNN構造と学習パラメータの間で交互に進化プロセスを行い、互いの最適な適合を動的に見つける。 我々の知る限りでは、GNNモデルの進化的アーキテクチャ探索を導入し、評価する最初の試みである。 実験と検証により、進化的NASは、半教師付きトランスダクティブおよび帰納的ノード表現学習と分類の両方に対して、既存の最先端の強化学習アプローチと一致することを示す。

Automated machine learning (AutoML) has seen a resurgence in interest with the boom of deep learning over the past decade. In particular, Neural Architecture Search (NAS) has seen significant attention throughout the AutoML research community, and has pushed forward the state-of-the-art in a number of neural models to address grid-like data such as texts and images. However, very litter work has been done about Graph Neural Networks (GNN) learning on unstructured network data. Given the huge number of choices and combinations of components such as aggregator and activation function, determining the suitable GNN structure for a specific problem normally necessitates tremendous expert knowledge and laborious trails. In addition, the slight variation of hyper parameters such as learning rate and dropout rate could dramatically hurt the learning capacity of GNN. In this paper, we propose a novel AutoML framework through the evolution of individual models in a large GNN architecture space involving both neural structures and learning parameters. Instead of optimizing only the model structures with fixed parameter settings as existing work, an alternating evolution process is performed between GNN structures and learning parameters to dynamically find the best fit of each other. To the best of our knowledge, this is the first work to introduce and evaluate evolutionary architecture search for GNN models. Experiments and validations demonstrate that evolutionary NAS is capable of matching existing state-of-the-art reinforcement learning approaches for both the semi-supervised transductive and inductive node representation learning and classification.
翻訳日:2022-10-16 04:34:15 公開日:2020-09-21
# rl star platform: ロボットのシミュレーションベーストレーニングのための強化学習

RL STaR Platform: Reinforcement Learning for Simulation based Training of Robots ( http://arxiv.org/abs/2009.09595v1 )

ライセンス: Link先を確認
Tamir Blum, Gabin Paillet, Mickael Laine, Kazuya Yoshida(参考訳) 強化学習(Reinforcement Learning, RL)は、宇宙ロボットの自律性と意思決定能力を高めるための有望な分野である。 RLは、人間のフィードバックの少ない月面洞窟探査、より高速で安全な月面移動、マルチロボットシステムの協調と協調を可能にするために使用できる。 しかし、特にCoppeliaSimのような従来のロボットシミュレーターのリソース不足のため、RLと機械学習を使った宇宙ロボット応用の研究に挑戦するハードルが数多くある。 我々のソリューションはReinforcement Learning for Simulation based Training of Robots(RL STaR)と呼ばれるオープンソースのモジュラープラットフォームで、宇宙ロボット研究分野へのRLの応用を簡素化し、加速するのに役立ちます。 本稿では,RL STaRプラットフォームについて紹介する。

Reinforcement learning (RL) is a promising field to enhance robotic autonomy and decision making capabilities for space robotics, something which is challenging with traditional techniques due to stochasticity and uncertainty within the environment. RL can be used to enable lunar cave exploration with infrequent human feedback, faster and safer lunar surface locomotion or the coordination and collaboration of multi-robot systems. However, there are many hurdles making research challenging for space robotic applications using RL and machine learning, particularly due to insufficient resources for traditional robotics simulators like CoppeliaSim. Our solution to this is an open source modular platform called Reinforcement Learning for Simulation based Training of Robots, or RL STaR, that helps to simplify and accelerate the application of RL to the space robotics research field. This paper introduces the RL STaR platform, and how researchers can use it through a demonstration.
翻訳日:2022-10-16 04:33:51 公開日:2020-09-21
# 総合型ゼロサムゲームにおける最適前処理協調戦略の高速アルゴリズム

Faster Algorithms for Optimal Ex-Ante Coordinated Collusive Strategies in Extensive-Form Zero-Sum Games ( http://arxiv.org/abs/2009.10061v1 )

ライセンス: Link先を確認
Gabriele Farina and Andrea Celli and Nicola Gatti and Tuomas Sandholm(参考訳) 我々は,不完全な情報量ゼロサムゲームにおいて,対戦相手と対向する2人の選手の最適な戦略を見つけることに焦点を当てる。 チームメンバーはプレー中にコミュニケーションを許されず、試合前に調整することができる。 この設定では、チームができる最善のことは、ゲーム開始時の関節(つまり相関した)確率分布から潜在的にランダム化された戦略(プレイヤー1人)のプロファイルをサンプリングすることである。 本稿では,まず,異なる文献との相関関係を広範囲な相関関係に適用し,最適分布の計算に関する新たなモデリング結果を提案する。 第2に、各プロファイルに1人だけがランダム化できるプロファイルのみを用いて、最適な分布を計算するアルゴリズムを提供する。 ソリューションでは、そのようなプロファイルの数を上限にすることもできる。 これは上限を増やすことで任意のアルゴリズムをbegetする。 このようなプロファイルは、チームにとって最適なユーティリティに到達するのに十分であることが多いのです。 これにより、チームメンバーは比較的シンプルで理解可能な計画を通じて調整できる。 最後に,この観察と理論概念の活用に着想を得て,チームの最適分布を求めるための効率的な列生成アルゴリズムを開発した。 一般的なベンチマークゲームで評価します。 後者が解くことのできるゲームの以前の状態よりも3桁早く、以前未解決だったいくつかのゲームも解くことができる。

We focus on the problem of finding an optimal strategy for a team of two players that faces an opponent in an imperfect-information zero-sum extensive-form game. Team members are not allowed to communicate during play but can coordinate before the game. In that setting, it is known that the best the team can do is sample a profile of potentially randomized strategies (one per player) from a joint (a.k.a. correlated) probability distribution at the beginning of the game. In this paper, we first provide new modeling results about computing such an optimal distribution by drawing a connection to a different literature on extensive-form correlation. Second, we provide an algorithm that computes such an optimal distribution by only using profiles where only one of the team members gets to randomize in each profile. We can also cap the number of such profiles we allow in the solution. This begets an anytime algorithm by increasing the cap. We find that often a handful of well-chosen such profiles suffices to reach optimal utility for the team. This enables team members to reach coordination through a relatively simple and understandable plan. Finally, inspired by this observation and leveraging theoretical concepts that we introduce, we develop an efficient column-generation algorithm for finding an optimal distribution for the team. We evaluate it on a suite of common benchmark games. It is three orders of magnitude faster than the prior state of the art on games that the latter can solve and it can also solve several games that were previously unsolvable.
翻訳日:2022-10-16 04:33:11 公開日:2020-09-21
# 分散微分プライバシーと個別要素のカウントについて

On Distributed Differential Privacy and Counting Distinct Elements ( http://arxiv.org/abs/2009.09604v1 )

ライセンス: Link先を確認
Lijie Chen, Badih Ghazi, Ravi Kumar, Pasin Manurangsi(参考訳) 我々は、n$ ユーザの各要素が離散集合の要素を持ち、そのゴールは $(\epsilon, \delta)$-differentially privacy という制約の下で、全ユーザにわたって異なる要素の数を数えることである: - 非対話的な局所的な設定では、任意のプロトコルの加算誤差が任意の定数 $\epsilon$ に対して$\omega(n)$であることと、任意の $\delta$ 逆多項式に対して$n$ であることを証明する。 - シングルメッセージシャッフル設定では、任意の定数$\epsilon$に対するエラーに対して$\Omega(n)$の低い境界を証明し、ある$\delta$ inverse quasi-polynomial in $n$に対して。 我々は,分布推定に関する文献からモーメントマッチング法を構築した。 - マルチメッセージシャッフル設定では、期待して1ユーザ当たり少なくとも1つのメッセージと、任意の定数$\epsilon$と$n$の$\delta$逆多項式に対して$\tilde{O}(\sqrt(n))$のエラーを持つプロトコルを提供します。 我々のプロトコルは、厳密にシャッフルされ、そのエラー$\sqrt(n)$は、そのようなプロトコルの既知の下限と一致する。 私たちの証明テクニックは、支配的なプロトコルと呼ばれる新しい概念に依存しており、選択と学習のパリティのよく研究された問題に対するマルチメッセージシャッフルプロトコルに対する最初の非自明な下限を得るのにも利用できる。 異なる要素の数を推定するための最初の下限は、グローバルな感度と局所的な差分プライバシーにおけるエラーを分離する最初の$\omega(\sqrt(n))$である。 また,二者差動プライバシにおけるグローバル感度と誤差の分離を$\tilde{\omega}(n)$ とすることで,mcgregor et al. (2011) の疑問に答える簡単な構成を提供する。

We study the setup where each of $n$ users holds an element from a discrete set, and the goal is to count the number of distinct elements across all users, under the constraint of $(\epsilon, \delta)$-differentially privacy: - In the non-interactive local setting, we prove that the additive error of any protocol is $\Omega(n)$ for any constant $\epsilon$ and for any $\delta$ inverse polynomial in $n$. - In the single-message shuffle setting, we prove a lower bound of $\Omega(n)$ on the error for any constant $\epsilon$ and for some $\delta$ inverse quasi-polynomial in $n$. We do so by building on the moment-matching method from the literature on distribution estimation. - In the multi-message shuffle setting, we give a protocol with at most one message per user in expectation and with an error of $\tilde{O}(\sqrt(n))$ for any constant $\epsilon$ and for any $\delta$ inverse polynomial in $n$. Our protocol is also robustly shuffle private, and our error of $\sqrt(n)$ matches a known lower bound for such protocols. Our proof technique relies on a new notion, that we call dominated protocols, and which can also be used to obtain the first non-trivial lower bounds against multi-message shuffle protocols for the well-studied problems of selection and learning parity. Our first lower bound for estimating the number of distinct elements provides the first $\omega(\sqrt(n))$ separation between global sensitivity and error in local differential privacy, thus answering an open question of Vadhan (2017). We also provide a simple construction that gives $\tilde{\Omega}(n)$ separation between global sensitivity and error in two-party differential privacy, thereby answering an open question of McGregor et al. (2011).
翻訳日:2022-10-16 04:32:06 公開日:2020-09-21
# ロバストな外れ値アームの識別

Robust Outlier Arm Identification ( http://arxiv.org/abs/2009.09988v1 )

ライセンス: Link先を確認
Yinglun Zhu, Sumeet Katariya and Robert Nowak(参考訳) 本研究では, 報酬分布から適応的に抽出することにより, 期待報酬が多数から実質的に逸脱するアームの識別を目標とするロバストアウトリアーアーム識別(roai)の問題について検討する。 期待報酬の中央値と中央値の絶対偏差を用いて、外れ値のしきい値を計算する。 これは平均偏差や標準偏差を用いた場合に比べて、極端な外れ値が存在する場合でも外れ値のアームを識別できるため、しきい値に対するロバストな選択である。 我々の設定は、閾値が所定の値またはランクとして事前に指定されている既存の純粋な探索問題とは異なる。 これは、有望な項目の集合を特定することを目的としているアプリケーションで有用であるが、新しい疾患に対する有望な薬物の発見や、集団によって好まれる項目の特定など、このセットの基数は不明である。 ROAIのための$\delta$-PACアルゴリズムを2つ提案する。 また、対数的要因、最悪の場合下限までの一致を証明し、我々の上限は概して改善不可能であることを示している。 実験結果から,我々のアルゴリズムは,最先端技術と比較して頑健で5ドル程度のサンプル効率がよいことがわかった。

We study the problem of Robust Outlier Arm Identification (ROAI), where the goal is to identify arms whose expected rewards deviate substantially from the majority, by adaptively sampling from their reward distributions. We compute the outlier threshold using the median and median absolute deviation of the expected rewards. This is a robust choice for the threshold compared to using the mean and standard deviation, since it can identify outlier arms even in the presence of extreme outlier values. Our setting is different from existing pure exploration problems where the threshold is pre-specified as a given value or rank. This is useful in applications where the goal is to identify the set of promising items but the cardinality of this set is unknown, such as finding promising drugs for a new disease or identifying items favored by a population. We propose two $\delta$-PAC algorithms for ROAI, which includes the first UCB-style algorithm for outlier detection, and derive upper bounds on their sample complexity. We also prove a matching, up to logarithmic factors, worst case lower bound for the problem, indicating that our upper bounds are generally unimprovable. Experimental results show that our algorithms are both robust and about $5$x sample efficient compared to state-of-the-art.
翻訳日:2022-10-16 04:25:18 公開日:2020-09-21
# 機械学習による外国為替市場の日内リターンの予測

Machine learning based forecasting of significant daily returns in foreign exchange markets ( http://arxiv.org/abs/2009.10065v1 )

ライセンス: Link先を確認
Firuz Kamalov and Ikhlaas Gurrib(参考訳) 資産価値予測は常に、定量的分析における研究者の関心をひきつけてきた。 現代の機械学習モデルの出現により、この古典的な問題に対処する新しいツールが導入された。 本稿では、通貨為替レートの大幅な変動の予測について、未解決の問題に機械学習アルゴリズムを適用する。 10年間にわたり,4つの主要通貨ペアのデータを用いた9つの現代機械学習アルゴリズムの解析を行った。 鍵となる貢献は、この目的のために異常検出法を新規に使用することである。 数値実験では、異常検出手法が従来の機械学習やファイナンス技術を大きく上回っていることが示されている。 さらに,最近提案された新しい外れ値検出手法であるPKDEが,より優れた結果をもたらすことを示す。 本研究は,提案手法の堅牢性を示す異なる通貨対,重要度,時間軸にまたがる。

Asset value forecasting has always attracted an enormous amount of interest among researchers in quantitative analysis. The advent of modern machine learning models has introduced new tools to tackle this classical problem. In this paper, we apply machine learning algorithms to hitherto unexplored question of forecasting instances of significant fluctuations in currency exchange rates. We perform analysis of nine modern machine learning algorithms using data on four major currency pairs over a 10 year period. A key contribution is the novel use of outlier detection methods for this purpose. Numerical experiments show that outlier detection methods substantially outperform traditional machine learning and finance techniques. In addition, we show that a recently proposed new outlier detection method PKDE produces best overall results. Our findings hold across different currency pairs, significance levels, and time horizons indicating the robustness of the proposed method.
翻訳日:2022-10-16 04:23:50 公開日:2020-09-21
# 確率重み平均値を用いた対人訓練

Adversarial Training with Stochastic Weight Average ( http://arxiv.org/abs/2009.10526v1 )

ライセンス: Link先を確認
Joong-Won Hwang, Youngwan Lee, Sungchan Oh, Yuseok Bae(参考訳) 敵対的なトレーニング ディープニューラルネットワークは、しばしば深刻な過剰フィッティング問題に直面する。 近年,トレーニングデータのサンプル複雑性がロバスト性の一般化に不十分であることから,過剰フィッティングが発生することが説明されている。 従来の機械学習では、データの欠如から過剰フィッティングを緩和する方法の1つは、アンサンブルメソッドを使用することである。 しかし、複数のネットワークを訓練するのは非常に高価である。 さらに,対象モデルの選択には,逆の例を生成するためのジレンマがあることが判明した。 アンサンブルのメンバーへの攻撃を最適化することは、アンサンブルに対する準最適攻撃であり、共変量シフトを引き起こすが、アンサンブルへの攻撃はメンバーを弱め、センシングの利点を失う。 本稿では,確率的重み平均(SWA)を用いた対向的トレーニングを提案し,対向的トレーニングを行う一方で,トレーニングの軌跡における時間的重み状態を集約する。 SWAを採用することで、膨大な計算増分やジレンマに直面することなく、アンサンブルの利点を得ることができる。 さらに, 対人訓練に適したSWAをさらに改善した。 CIFAR-10, CIFAR-100, SVHNにおける実験結果から, 本手法がモデルの堅牢性を向上させることを示す。

Adversarial training deep neural networks often experience serious overfitting problem. Recently, it is explained that the overfitting happens because the sample complexity of training data is insufficient to generalize robustness. In traditional machine learning, one way to relieve overfitting from the lack of data is to use ensemble methods. However, adversarial training multiple networks is extremely expensive. Moreover, we found that there is a dilemma on choosing target model to generate adversarial examples. Optimizing attack to the members of ensemble will be suboptimal attack to the ensemble and incurs covariate shift, while attack to ensemble will weaken the members and lose the benefit from ensembling. In this paper, we propose adversarial training with Stochastic weight average (SWA); while performing adversarial training, we aggregate the temporal weight states in the trajectory of training. By adopting SWA, the benefit of ensemble can be gained without tremendous computational increment and without facing the dilemma. Moreover, we further improved SWA to be adequate to adversarial training. The empirical results on CIFAR-10, CIFAR-100 and SVHN show that our method can improve the robustness of models.
翻訳日:2022-10-16 04:23:38 公開日:2020-09-21
# ハールウェーブレットに基づくトラジェクタのブロック自己回帰流

Haar Wavelet based Block Autoregressive Flows for Trajectories ( http://arxiv.org/abs/2009.09878v1 )

ライセンス: Link先を確認
Apratim Bhattacharyya, Christoph-Nikolas Straehle, Mario Fritz, Bernt Schiele(参考訳) 歩行者等の軌道予測は,自律型エージェントの性能向上に不可欠である。 以前の研究では、GANやVAEのような条件付き生成モデルを利用して将来の軌道を学習しているが、これらのマルチモーダル分布の依存性構造を正確にモデル化することは困難である。 フローベース生成モデルの正規化は、正確な推論を認める複雑な分布をモデル化することができる。 例えば、分割結合可逆変換を持つ変種は、自己回帰変換に比べて並列化が容易である。 そこで本研究では,異なる粒度でのハールウェーブレットベース変換から得られる粗軌跡を条件として,分割結合を利用した新しいハールウェーブレット系ブロック自己回帰モデルを提案する。 これにより、階層的な方法で異なる時空間分解で軌跡をモデル化する正確な推論法が得られる。 実世界の2つのデータセット(Stanford DroneとIntersection Drone)上で、多種多様な正確な軌道を生成するアプローチの利点について説明する。

Prediction of trajectories such as that of pedestrians is crucial to the performance of autonomous agents. While previous works have leveraged conditional generative models like GANs and VAEs for learning the likely future trajectories, accurately modeling the dependency structure of these multimodal distributions, particularly over long time horizons remains challenging. Normalizing flow based generative models can model complex distributions admitting exact inference. These include variants with split coupling invertible transformations that are easier to parallelize compared to their autoregressive counterparts. To this end, we introduce a novel Haar wavelet based block autoregressive model leveraging split couplings, conditioned on coarse trajectories obtained from Haar wavelet based transformations at different levels of granularity. This yields an exact inference method that models trajectories at different spatio-temporal resolutions in a hierarchical manner. We illustrate the advantages of our approach for generating diverse and accurate trajectories on two real-world datasets - Stanford Drone and Intersection Drone.
翻訳日:2022-10-16 04:23:04 公開日:2020-09-21
# 文脈特異的独立関係による因果効果の同定

Identifying Causal Effects via Context-specific Independence Relations ( http://arxiv.org/abs/2009.09768v1 )

ライセンス: Link先を確認
Santtu Tikka, Antti Hyttinen, Juha Karvanen(参考訳) 因果効果の同定は、介入確率分布が与えられた因果構造における受動的に観察された分布から一意に決定できるかどうかを考える。 生成システムが文脈固有独立性(CSI)関係を誘導した場合、既存の識別手順とdo-calculusに基づく基準は本質的に不完全である。 CSIの存在下での因果効果の判定はNP-hardであることを示す。 そこで我々は,CSIの存在下での因果関係を識別する計算法と自動探索法を設計した。 アプローチは明らかに健全で、特殊なケースとして標準のdo-calculusを含んでいる。 このアプローチでは、以前には観測できなかった公式を識別することができ、少数のcsi関係が、以前に特定できなかったインスタンスを識別可能なものにするには十分であることを示すことができる。

Causal effect identification considers whether an interventional probability distribution can be uniquely determined from a passively observed distribution in a given causal structure. If the generating system induces context-specific independence (CSI) relations, the existing identification procedures and criteria based on do-calculus are inherently incomplete. We show that deciding causal effect non-identifiability is NP-hard in the presence of CSIs. Motivated by this, we design a calculus and an automated search procedure for identifying causal effects in the presence of CSIs. The approach is provably sound and it includes standard do-calculus as a special case. With the approach we can obtain identifying formulas that were unobtainable previously, and demonstrate that a small number of CSI-relations may be sufficient to turn a previously non-identifiable instance to identifiable.
翻訳日:2022-10-16 04:16:30 公開日:2020-09-21
# 階層的クラスタリングのインタラクティブステアリング

Interactive Steering of Hierarchical Clustering ( http://arxiv.org/abs/2009.09618v1 )

ライセンス: Link先を確認
Weikai Yang, Xiting Wang, Jie Lu, Wenwen Dou, Shixia Liu(参考訳) 階層的クラスタリングは、探索データ分析のためにビッグデータを整理する重要なテクニックである。 しかし、既存の1サイズ対応の階層的クラスタリング手法は、さまざまなユーザのニーズを満たすことができないことが多い。 そこで本研究では,ユーザからの公的な知識(wikipediaなど)と私的な知識の両方を利用して,制約付き階層的クラスタリングを視覚的に監視する対話型ステアリング手法を提案する。 私たちのアプローチの新規性には 1)知識(知識駆動)と固有データ分散(データ駆動)を用いた階層的クラスタリングのための制約の自動構築 2)ビジュアルインターフェース(ユーザ駆動)によるクラスタのインタラクティブなステアリングを可能にする。 本手法はまず,各データ項目を知識ベースにおける最も関連する項目にマップする。 その後、antコロニー最適化アルゴリズムを用いて初期制約木を抽出する。 アルゴリズムは木幅と深さのバランスをとり、データ項目を高い信頼性でカバーする。 制約木を考えると、データ項目は進化的ベイズバラ木を用いて階層的にクラスタ化される。 階層的クラスタリング結果を明確化するために,不確実性を認識したツリービジュアライゼーションが開発され,ユーザが最も不確定なサブ階層を素早く見つけ出し,対話的に改善できるようになった。 定量的評価とケーススタディにより,提案手法が効率的かつ効果的なクラスタリングツリーの構築を促進できることが示されている。

Hierarchical clustering is an important technique to organize big data for exploratory data analysis. However, existing one-size-fits-all hierarchical clustering methods often fail to meet the diverse needs of different users. To address this challenge, we present an interactive steering method to visually supervise constrained hierarchical clustering by utilizing both public knowledge (e.g., Wikipedia) and private knowledge from users. The novelty of our approach includes 1) automatically constructing constraints for hierarchical clustering using knowledge (knowledge-driven) and intrinsic data distribution (data-driven), and 2) enabling the interactive steering of clustering through a visual interface (user-driven). Our method first maps each data item to the most relevant items in a knowledge base. An initial constraint tree is then extracted using the ant colony optimization algorithm. The algorithm balances the tree width and depth and covers the data items with high confidence. Given the constraint tree, the data items are hierarchically clustered using evolutionary Bayesian rose tree. To clearly convey the hierarchical clustering results, an uncertainty-aware tree visualization has been developed to enable users to quickly locate the most uncertain sub-hierarchies and interactively improve them. The quantitative evaluation and case study demonstrate that the proposed approach facilitates the building of customized clustering trees in an efficient and effective manner.
翻訳日:2022-10-16 04:16:16 公開日:2020-09-21
# CURIE:コンセプトドリフト検出のためのセルオートマトン

CURIE: A Cellular Automaton for Concept Drift Detection ( http://arxiv.org/abs/2009.09677v1 )

ライセンス: Link先を確認
Jesus L. Lobo, Javier Del Ser, Eneko Osaba, Albert Bifet, Francisco Herrera(参考訳) データストリームマイニングは、高速かつ連続的に流れる大量のデータ(データストリーム)から情報を抽出する。 これらは通常、データ分布の変化によって影響を受け、概念ドリフトと呼ばれる現象を引き起こす。 したがって、学習モデルはそのような変化を検出し、適応し、ドリフトが発生した後に優れた予測性能を示す必要がある。 この点において,効率的なドリフト検出アルゴリズムの開発は,データストリームマイニングの重要な要因となっている。 本研究では,セルオートマトンを利用したドリフト検出器CU RIEを提案する。 具体的には、CU RIEでは、データストリームの分布はセルオートマトン(英語版)のグリッドに表現され、その周辺ルールを使用してストリーム上の分散変化を検出できる。 計算機シミュレーションを行い,cu rieが他のベース学習者とハイブリダイズした場合,検出指標と分類精度の面で競争行動を示すことを示す。 CU RIEは、様々なドリフト特性を持つ合成データセット上で確立されたドリフト検出器と比較される。

Data stream mining extracts information from large quantities of data flowing fast and continuously (data streams). They are usually affected by changes in the data distribution, giving rise to a phenomenon referred to as concept drift. Thus, learning models must detect and adapt to such changes, so as to exhibit a good predictive performance after a drift has occurred. In this regard, the development of effective drift detection algorithms becomes a key factor in data stream mining. In this work we propose CU RIE, a drift detector relying on cellular automata. Specifically, in CU RIE the distribution of the data stream is represented in the grid of a cellular automata, whose neighborhood rule can then be utilized to detect possible distribution changes over the stream. Computer simulations are presented and discussed to show that CU RIE, when hybridized with other base learners, renders a competitive behavior in terms of detection metrics and classification accuracy. CU RIE is compared with well-established drift detectors over synthetic datasets with varying drift characteristics.
翻訳日:2022-10-16 04:15:57 公開日:2020-09-21
# 一対多世代のための目標条件付け

Target Conditioning for One-to-Many Generation ( http://arxiv.org/abs/2009.09758v1 )

ライセンス: Link先を確認
Marie-Anne Lachaux, Armand Joulin, Guillaume Lample(参考訳) ニューラルネットワーク翻訳(nmt)モデルは、ビーム探索のような検索アルゴリズムと組み合わせる場合でも、生成された翻訳の多様性を欠くことが多い。 課題は、翻訳の多様性が対象言語の可変性によって引き起こされ、原文のみから推測できないことである。 本論文では,NMTモデルのデコーダを,対象文の領域を表す潜在変数に条件付けすることで,この一対多マッピングを明示的にモデル化する。 ドメインはNMTモデルと共同でトレーニングされたターゲットエンコーダによって生成される離散変数である。 目標文の予測領域は、訓練中にデコーダへの入力として与えられる。 推論では、異なるドメインでデコードすることで様々な翻訳を生成することができる。 我々の最強のベースライン(Shen et al., 2019)とは異なり、我々の方法はパフォーマンスやトレーニング時間に影響を与えることなく、あらゆるドメインにスケールできる。 我々は,モデルが生成する翻訳の質と多様性を,複数の指標を用いて3つの異なるデータセットで評価する。

Neural Machine Translation (NMT) models often lack diversity in their generated translations, even when paired with search algorithm, like beam search. A challenge is that the diversity in translations are caused by the variability in the target language, and cannot be inferred from the source sentence alone. In this paper, we propose to explicitly model this one-to-many mapping by conditioning the decoder of a NMT model on a latent variable that represents the domain of target sentences. The domain is a discrete variable generated by a target encoder that is jointly trained with the NMT model. The predicted domain of target sentences are given as input to the decoder during training. At inference, we can generate diverse translations by decoding with different domains. Unlike our strongest baseline (Shen et al., 2019), our method can scale to any number of domains without affecting the performance or the training time. We assess the quality and diversity of translations generated by our model with several metrics, on three different datasets.
翻訳日:2022-10-16 04:15:41 公開日:2020-09-21
# Ranky : 大規模スパース行列上での分散SVDの解法

Ranky : An Approach to Solve Distributed SVD on Large Sparse Matrices ( http://arxiv.org/abs/2009.09767v1 )

ライセンス: Link先を確認
Resul Tugay, Sule Gunduz Oguducu(参考訳) 特異値分解(SVD)は、データマイニングから画像処理まで、多くの分野や応用分野においてよく研究されている研究トピックである。 これらのアプリケーションから得られるデータは、大きくスパースなマトリックスとして表現することができる。 既存のアルゴリズムのほとんどは、大密度行列の特異値、左右特異ベクトルを計算するために使われるが、大小行列ではない。 たとえ大きな行列のSVDが見つかるとしても、大密度行列の計算はシーケンシャルアルゴリズムによって高速に複雑になる。 大規模行列のSVDの分散計算法を提案する。 しかし,これらの分散アルゴリズムを用いてSVDを解く場合,行列のランクは依然として問題となっている。 本稿では,分散的に分散行列のランク問題を解く手法としてrankyを提案する。 実験の結果、ランキーアプローチは与えられた大行列とスパース行列の特異値と左ベクトルと右ベクトルを無視可能な誤差で回復することを示した。

Singular Value Decomposition (SVD) is a well studied research topic in many fields and applications from data mining to image processing. Data arising from these applications can be represented as a matrix where it is large and sparse. Most existing algorithms are used to calculate singular values, left and right singular vectors of a large-dense matrix but not large and sparse matrix. Even if they can find SVD of a large matrix, calculation of large-dense matrix has high time complexity due to sequential algorithms. Distributed approaches are proposed for computing SVD of large matrices. However, rank of the matrix is still being a problem when solving SVD with these distributed algorithms. In this paper we propose Ranky, set of methods to solve rank problem on large and sparse matrices in a distributed manner. Experimental results show that the Ranky approach recovers singular values, singular left and right vectors of a given large and sparse matrix with negligible error.
翻訳日:2022-10-16 04:15:26 公開日:2020-09-21
# ニューラルネットワークのための一般化レバレッジスコアサンプリング

Generalized Leverage Score Sampling for Neural Networks ( http://arxiv.org/abs/2009.09829v1 )

ライセンス: Link先を確認
Jason D. Lee, Ruoqi Shen, Zhao Song, Mengdi Wang, Zheng Yu(参考訳) レバレッジスコアサンプリング(英: Leverage score sample)は、線形回帰、線形プログラミング、半定値プログラミング、切削平面法、グラフスパリフィケーション、最大マッチング、最大フローなど、多くの基本的な問題を高速化するために用いられる理論計算機科学に由来する強力な手法である。 近年、レバレッジスコアサンプリングはカーネルメソッド(Avron, Kapralov, Musco, Musco, Velingker, Zandieh 17]の高速化に役立つことが示されている。 本研究では、[Avron, Kapralov, Musco, Musco, Musco, Velingker, Zandieh 17] の結果をより広範なカーネルのクラスに一般化する。 我々はさらに、レバレッジスコアサンプリングをディープラーニング理論の分野に持ち込む。 $\bullet$ ニューラルネットワークトレーニングの初期化と、ランダムな特徴を持つニューラルネットワークカーネルの近似の関連性を示す。 正規化ニューラルネットワークと神経接核リッジ回帰の等価性を、古典的ランダムガウス法とスコアサンプリング法の両方の初期化の下で証明する。

Leverage score sampling is a powerful technique that originates from theoretical computer science, which can be used to speed up a large number of fundamental questions, e.g. linear regression, linear programming, semi-definite programming, cutting plane method, graph sparsification, maximum matching and max-flow. Recently, it has been shown that leverage score sampling helps to accelerate kernel methods [Avron, Kapralov, Musco, Musco, Velingker and Zandieh 17]. In this work, we generalize the results in [Avron, Kapralov, Musco, Musco, Velingker and Zandieh 17] to a broader class of kernels. We further bring the leverage score sampling into the field of deep learning theory. $\bullet$ We show the connection between the initialization for neural network training and approximating the neural tangent kernel with random features. $\bullet$ We prove the equivalence between regularized neural network and neural tangent kernel ridge regression under the initialization of both classical random Gaussian and leverage score sampling.
翻訳日:2022-10-16 04:14:54 公開日:2020-09-21
# 一般化読み出し関数によるグラフ特性予測の改善

Improving Graph Property Prediction with Generalized Readout Functions ( http://arxiv.org/abs/2009.09919v1 )

ライセンス: Link先を確認
Eric Alcaide(参考訳) グラフプロパティ予測は、任意の数のノードとそれらの間の接続を含むことができるため、グラフが最も一般的なデータ構造の一つであり、この種のデータ(ネットワーク、分子、知識ベースなど)の分類や回帰といった多くの異なるタスクのバックボーンであるという事実から、近年注目を集めている。 我々は,メッセージパッシングニューラルネットワークの読み出しフェーズで発生する情報損失を軽減するために,新しい一般化グローバルプーリング層を提案する。 この新しいレイヤは2つの値 (\beta$ と $p$) でパラメータ化され、オプションで学習でき、その変換は特定の設定で指定可能な、すでに人気がある読み出し関数 (mean, max, sum) に戻すことができる。 本手法の優れた表現性や性能を示すために,我々は,現在の最高の性能アーキテクチャを取り入れ,読み出し層をドロップイン置換として利用することにより,グラフ特性予測タスクでこれを検証し,新たな成果を報告する。 実験を再現するコードはここでアクセスできる。 https://github.com/ericalcaide/generalized-readout-phase

Graph property prediction is drawing increasing attention in the recent years due to the fact that graphs are one of the most general data structures since they can contain an arbitrary number of nodes and connections between them, and it is the backbone for many different tasks like classification and regression on such kind of data (networks, molecules, knowledge bases, ...). We introduce a novel generalized global pooling layer to mitigate the information loss that typically occurs at the Readout phase in Message-Passing Neural Networks. This novel layer is parametrized by two values ($\beta$ and $p$) which can optionally be learned, and the transformation it performs can revert to several already popular readout functions (mean, max and sum) under certain settings, which can be specified. To showcase the superior expressiveness and performance of this novel technique, we test it in a popular graph property prediction task by taking the current best-performing architecture and using our readout layer as a drop-in replacement and we report new state of the art results. The code to reproduce the experiments can be accessed here: https://github.com/EricAlcaide/generalized-readout-phase
翻訳日:2022-10-16 04:14:32 公開日:2020-09-21
# 対人コントラスト学習の指導による特徴拡張

Feature Distillation With Guided Adversarial Contrastive Learning ( http://arxiv.org/abs/2009.09922v1 )

ライセンス: Link先を確認
Tao Bai, Jinnan Chen, Jun Zhao, Bihan Wen, Xudong Jiang, Alex Kot(参考訳) ディープラーニングモデルは、敵の例に弱いことが示されている。 逆行訓練はモデルの堅牢性を高めることができるが、典型的なアプローチは計算コストが高い。 近年,ソフトラベルの異なるタスクやモデルにまたがる攻撃に対して,ロバスト性を伝達する研究が提案されている。 本稿では,教師から生徒へ対人ロバスト性を効果的に伝達する,GACD ( Guided Adversarial Contrastive Distillation) という新しい手法を提案する。 まず、この目的をコントラスト学習として定式化し、相互情報と結びつける。 アンカーとして訓練された教師モデルでは,教師に類似した特徴を抽出することが期待されている。 そこで,教師の潜在的な誤りを考慮し,教師の悪影響を排除すべく,サンプル再重み付け推定を提案する。 GACDでは、生徒は頑丈な特徴を抽出することを学ぶだけでなく、教師からの構造的知識も取得する。 CIFAR-10, CIFAR-100, STL-10などの一般的なデータセットを対象とする広範囲な実験により, 本手法は, 異なるモデルやタスクをまたいだロバストネスを効果的に伝達し, 既存の手法と同等あるいは優れた結果が得られることを示した。 また,様々な方法の詳細な分析を行い,本手法で構築した学生が教師から構造的知識を取り込み,敵の攻撃下でより強固な特徴を身につけることを示した。

Deep learning models are shown to be vulnerable to adversarial examples. Though adversarial training can enhance model robustness, typical approaches are computationally expensive. Recent works proposed to transfer the robustness to adversarial attacks across different tasks or models with soft labels.Compared to soft labels, feature contains rich semantic information and holds the potential to be applied to different downstream tasks. In this paper, we propose a novel approach called Guided Adversarial Contrastive Distillation (GACD), to effectively transfer adversarial robustness from teacher to student with features. We first formulate this objective as contrastive learning and connect it with mutual information. With a well-trained teacher model as an anchor, students are expected to extract features similar to the teacher. Then considering the potential errors made by teachers, we propose sample reweighted estimation to eliminate the negative effects from teachers. With GACD, the student not only learns to extract robust features, but also captures structural knowledge from the teacher. By extensive experiments evaluating over popular datasets such as CIFAR-10, CIFAR-100 and STL-10, we demonstrate that our approach can effectively transfer robustness across different models and even different tasks, and achieve comparable or better results than existing methods. Besides, we provide a detailed analysis of various methods, showing that students produced by our approach capture more structural knowledge from teachers and learn more robust features under adversarial attacks.
翻訳日:2022-10-16 04:14:13 公開日:2020-09-21
# 制約空間における知覚パターン解析のためのグラフベース多層K-means++(G-MLKM)

Graph Based Multi-layer K-means++ (G-MLKM) for Sensory Pattern Analysis in Constrained Spaces ( http://arxiv.org/abs/2009.09925v1 )

ライセンス: Link先を確認
Feng Tao, Rengan Suresh, Johnathan Votion, and Yongcan Cao(参考訳) 本稿では,制約空間上をターゲットが移動し,ターゲットの情報が最小限に抑えられるように,グラフベースのマルチレイヤk-means++ (G-MLKM) と呼ばれる新しい教師なし機械学習アルゴリズムの開発に焦点をあてる。 G-MLKMは統計確率に基づく従来のデータターゲットアソシエーション方式を採用する代わりに、データクラスタリングによってこの問題を解決する。 まず,局所空間におけるデータターゲットアソシエーションのためのマルチレイヤK-means++ (MLKM) 手法を開発する。 次に、局所空間が相互接続されるときの一般制約空間を表すために、p-双対グラフが提案される。 次に,2つのグラフとグラフ理論に基づいて局所的データターゲット関連をまず理解し,その空間の交点におけるデータアソシエーションを数学的に解析することにより,MLKMをG-MLKMに一般化する。 物理規則に反する潜在的なデータ・ターゲット関連誤差を排除し,精度向上のための誤り訂正機構を開発する。 G-MLKMの性能を示すためのシミュレーション例を多数行った。

In this paper, we focus on developing a novel unsupervised machine learning algorithm, named graph based multi-layer k-means++ (G-MLKM), to solve data-target association problem when targets move on a constrained space and minimal information of the targets can be obtained by sensors. Instead of employing the traditional data-target association methods that are based on statistical probabilities, the G-MLKM solves the problem via data clustering. We first will develop the Multi-layer K-means++ (MLKM) method for data-target association at local space given a simplified constrained space situation. Then a p-dual graph is proposed to represent the general constrained space when local spaces are interconnected. Based on the dual graph and graph theory, we then generalize MLKM to G-MLKM by first understanding local data-target association and then extracting cross-local data-target association mathematically analyze the data association at intersections of that space. To exclude potential data-target association errors that disobey physical rules, we also develop error correction mechanisms to further improve the accuracy. Numerous simulation examples are conducted to demonstrate the performance of G-MLKM.
翻訳日:2022-10-16 04:13:46 公開日:2020-09-21
# SemEval-2020 Task 9 における WESSA: トランスフォーマーを用いたコード混合感性解析

WESSA at SemEval-2020 Task 9: Code-Mixed Sentiment Analysis using Transformers ( http://arxiv.org/abs/2009.09879v1 )

ライセンス: Link先を確認
Ahmed Sultan (WideBot), Mahmoud Salim (WideBot), Amina Gaber (WideBot), Islam El Hosary (WideBot)(参考訳) 本稿では,SemEval 2020 Task 9, Code-Mixed Social Media Text の感性分析を他の実験とともに提案するシステムについて述べる。 我々の最高のパフォーマンスシステムは、モノリンガルな英語とスペイン語のデータとスペイン語のコードミキシングデータに基づいて、トランスファーラーニングベースモデル「XLM-RoBERTa」を微調整するトランスファーラーニングベースモデルである。 我々のシステムは、テストセットを使用して、公式のリーダーボード上で、70.1%の平均F1スコアを達成することで、公式タスクベースラインを上回ります。 その後の提出では、テストセットの75.9%の平均F1スコアを、CodaLabのユーザ名"ahmed0sultan"を使って達成する。

In this paper, we describe our system submitted for SemEval 2020 Task 9, Sentiment Analysis for Code-Mixed Social Media Text alongside other experiments. Our best performing system is a Transfer Learning-based model that fine-tunes "XLM-RoBERTa", a transformer-based multilingual masked language model, on monolingual English and Spanish data and Spanish-English code-mixed data. Our system outperforms the official task baseline by achieving a 70.1% average F1-Score on the official leaderboard using the test set. For later submissions, our system manages to achieve a 75.9% average F1-Score on the test set using CodaLab username "ahmed0sultan".
翻訳日:2022-10-16 04:07:47 公開日:2020-09-21
# スパイクニューラルネットワーク育成のためのマルチエージェントモデル

A multi-agent model for growing spiking neural networks ( http://arxiv.org/abs/2010.15045v1 )

ライセンス: Link先を確認
Javier Lopez Randulfe, Leon Bonde Larsen(参考訳) 人工知能は生物学的システムにインスピレーションを与えている。 脳には未発見の多くの側面があるが、神経科学はニューロン間のつながりが継続的に成長し、学習プロセスの一部として再形成する証拠を見出している。 これは、ニューラルネットワークの設計と異なり、それらとそれらのトポロジの間のシナプスの重みを進化させることで学習を実現する。 このプロジェクトは、学習メカニズムとしてスパイキングニューラルネットワークにおけるニューロン間の接続を拡大するためのルールを探求している。 これらのルールは、より複雑なシステムやアーキテクチャを構築する基盤となる、単純な論理関数を作成するためのマルチエージェントシステムに実装されている。 シミュレーション環境における結果は、与えられたパラメータのセットに対して、テストされた関数を再現するトポロジに到達できることを示した。 このプロジェクトはまた、モデルパラメータの最適な値を取得するための遺伝的アルゴリズムのようなテクニックの使用への扉を開き、それによって異なる機能に適応できるニューラルネットワークを作成する。

Artificial Intelligence has looked into biological systems as a source of inspiration. Although there are many aspects of the brain yet to be discovered, neuroscience has found evidence that the connections between neurons continuously grow and reshape as a part of the learning process. This differs from the design of Artificial Neural Networks, that achieve learning by evolving the weights in the synapses between them and their topology stays unaltered through time. This project has explored rules for growing the connections between the neurons in Spiking Neural Networks as a learning mechanism. These rules have been implemented on a multi-agent system for creating simple logic functions, that establish a base for building up more complex systems and architectures. Results in a simulation environment showed that for a given set of parameters it is possible to reach topologies that reproduce the tested functions. This project also opens the door to the usage of techniques like genetic algorithms for obtaining the best suited values for the model parameters, and hence creating neural networks that can adapt to different functions.
翻訳日:2022-10-16 04:07:05 公開日:2020-09-21
# タスク指向対話システムにおける教師付き学習と強化学習の再考

Rethinking Supervised Learning and Reinforcement Learning in Task-Oriented Dialogue Systems ( http://arxiv.org/abs/2009.09781v1 )

ライセンス: Link先を確認
Ziming Li and Julia Kiseleva and Maarten de Rijke(参考訳) タスク指向対話システムにおける対話政策学習は,強化学習手法を用いることで,近年大きな進歩を遂げている。 しかし、これらのアプローチは非常に洗練されている。 再評価する時が来た。 強化学習のみに基づく対話エージェントの開発は本当に進んでいるのか? 1) 従来の教師付き学習と(2) シミュレータフリーの逆学習法を併用して,最先端のrl法に匹敵する性能を実現する方法を示す。 まず,適切な動作を予測するための単純な対話動作デコーダを提案する。 そして、ダイアログエージェントの性能を向上させるため、ダイアログポリシー学習のための従来のマルチラベル分類ソリューションを拡張した。 最後に,Gumbel-Softmax推定器を用いて,強化学習を使わずに対話エージェントと対話報酬モデルを訓練する。 提案手法は,ユーザシミュレータの設計に必要なドメイン知識や強化学習における難易度パラメータチューニングなど,少ない労力で,より安定かつ高い性能を実現することができる。 我々の主な目的は、教師あり学習で強化学習に勝ることではなく、タスク指向対話システムの最適化における強化学習と教師あり学習の役割を再考する価値を示すことである。

Dialogue policy learning for task-oriented dialogue systems has enjoyed great progress recently mostly through employing reinforcement learning methods. However, these approaches have become very sophisticated. It is time to re-evaluate it. Are we really making progress developing dialogue agents only based on reinforcement learning? We demonstrate how (1)~traditional supervised learning together with (2)~a simulator-free adversarial learning method can be used to achieve performance comparable to state-of-the-art RL-based methods. First, we introduce a simple dialogue action decoder to predict the appropriate actions. Then, the traditional multi-label classification solution for dialogue policy learning is extended by adding dense layers to improve the dialogue agent performance. Finally, we employ the Gumbel-Softmax estimator to alternatively train the dialogue agent and the dialogue reward model without using reinforcement learning. Based on our extensive experimentation, we can conclude the proposed methods can achieve more stable and higher performance with fewer efforts, such as the domain knowledge required to design a user simulator and the intractable parameter tuning in reinforcement learning. Our main goal is not to beat reinforcement learning with supervised learning, but to demonstrate the value of rethinking the role of reinforcement learning and supervised learning in optimizing task-oriented dialogue systems.
翻訳日:2022-10-16 04:06:50 公開日:2020-09-21
# TRECVID 2019: ビデオアクティビティ検出のベンチマーク、ビデオキャプションとマッチング、ビデオ検索と検索のための評価キャンペーン

TRECVID 2019: An Evaluation Campaign to Benchmark Video Activity Detection, Video Captioning and Matching, and Video Search & Retrieval ( http://arxiv.org/abs/2009.09984v1 )

ライセンス: Link先を確認
George Awad, Asad A. Butt, Keith Curtis, Yooyoung Lee, Jonathan Fiscus, Afzal Godil, Andrew Delgado, Jesse Zhang, Eliot Godard, Lukas Diduch, Alan F. Smeaton, Yvette Graham, Wessel Kraaij, Georges Quenot(参考訳) TREC Video Retrieval Evaluation(TREC Video Retrieval Evaluation, TRECVID) 2019は、TREC形式のビデオ分析と検索評価であり、コンテンツベースのエクスプロイトとデジタルビデオからの情報のオープンなメトリクスベースの評価による検索の進展を促進することを目的としている。 過去19年間で、この取り組みは、システムがそのような処理を効果的に達成し、パフォーマンスを確実にベンチマークする方法をよりよく理解した。 TRECVIDはNIST(National Institute of Standards and Technology)や他の米国政府機関から資金提供を受けている。 加えて、世界中の多くの組織や個人が多大な時間と労力を費やしている。 TRECVID 2019は、TRECVID 2018の4つのタスクの継続を表す。 世界各国の研究機関の27チームが、以下の4つの課題を1つ以上完了した。 アドホックビデオ検索(AVS) 2. インスタンス検索(INS) 3.拡張ビデオ(ActEV)の活動 4.ビデオからテキストへの記述(vtt) この記事では、ワークショップで使用される評価フレームワーク、タスク、データ、測定方法を紹介します。

The TREC Video Retrieval Evaluation (TRECVID) 2019 was a TREC-style video analysis and retrieval evaluation, the goal of which remains to promote progress in research and development of content-based exploitation and retrieval of information from digital video via open, metrics-based evaluation. Over the last nineteen years this effort has yielded a better understanding of how systems can effectively accomplish such processing and how one can reliably benchmark their performance. TRECVID has been funded by NIST (National Institute of Standards and Technology) and other US government agencies. In addition, many organizations and individuals worldwide contribute significant time and effort. TRECVID 2019 represented a continuation of four tasks from TRECVID 2018. In total, 27 teams from various research organizations worldwide completed one or more of the following four tasks: 1. Ad-hoc Video Search (AVS) 2. Instance Search (INS) 3. Activities in Extended Video (ActEV) 4. Video to Text Description (VTT) This paper is an introduction to the evaluation framework, tasks, data, and measures used in the workshop.
翻訳日:2022-10-16 04:05:47 公開日:2020-09-21
# モデルに基づく強化学習のための動的水平値推定

Dynamic Horizon Value Estimation for Model-based Reinforcement Learning ( http://arxiv.org/abs/2009.09593v1 )

ライセンス: Link先を確認
Junjie Wang, Qichao Zhang, Dongbin Zhao, Mengchen Zhao, Jianye Hao(参考訳) 既存のモデルに基づく価値拡大手法は、典型的には、政策学習を支援するために固定ロールアウト地平線を用いた価値推定のために世界モデルを利用する。 しかし、不正確なモデルによる固定ロールアウトは、学習プロセスに害を与える可能性がある。 本稿では,モデル知識を価値展開に適応的に利用するアイデアについて検討する。 本研究では,動的水平モデルに基づく値展開(DMVE)と呼ばれる新しい手法を提案する。 視覚データノベルティ検出に応用可能な再構成技術に着想を得て,画像特徴抽出のための再構成モジュールを備えた世界モデルを用いて,より正確な値推定を行う。 原画像と再構成画像の両方を用いて、適応値展開に適した地平線を決定する。 いくつかのベンチマーク視覚制御タスクにおいて、DMVEはサンプル効率と最終的な性能において全てのベースラインより優れており、DMVEは最先端のモデルベース手法よりも効率的で正確な値推定が可能であることを示す実験結果が得られた。

Existing model-based value expansion methods typically leverage a world model for value estimation with a fixed rollout horizon to assist policy learning. However, the fixed rollout with an inaccurate model has a potential to harm the learning process. In this paper, we investigate the idea of using the model knowledge for value expansion adaptively. We propose a novel method called Dynamic-horizon Model-based Value Expansion (DMVE) to adjust the world model usage with different rollout horizons. Inspired by reconstruction-based techniques that can be applied for visual data novelty detection, we utilize a world model with a reconstruction module for image feature extraction, in order to acquire more precise value estimation. The raw and the reconstructed images are both used to determine the appropriate horizon for adaptive value expansion. On several benchmark visual control tasks, experimental results show that DMVE outperforms all baselines in sample efficiency and final performance, indicating that DMVE can achieve more effective and accurate value estimation than state-of-the-art model-based methods.
翻訳日:2022-10-16 04:05:27 公開日:2020-09-21
# アクティブ知覚のスケールアップのためのサブモジュール値関数のエクスプロイト

Exploiting Submodular Value Functions For Scaling Up Active Perception ( http://arxiv.org/abs/2009.09696v1 )

ライセンス: Link先を確認
Yash Satsangi, Shimon Whiteson, Frans A. Oliehoek, Matthijs T. J. Spaan(参考訳) アクティブな知覚タスクでは、エージェントは1つ以上の隠れた変数に対する不確かさを減らす知覚アクションを選択することを目指している。 部分的に観測可能なマルコフ決定過程(POMDP)はそのような問題に対する自然なモデルを提供するが、エージェントの信念における不確実性を直接的に罰する報酬関数は、ほとんどのPOMDPプランナーが要求する値関数の断片的線形および凸性を取り除くことができる。 さらに、エージェントが利用できるセンサーの数が増えるにつれて、POMDP計画の計算コストは指数関数的に増加し、従来の手法では不可能となる。 本稿では,アクティブ認知タスクのモデリングと計画に関する2つの課題に対処する。 有効知覚タスクをモデル化する2つのフレームワークである$\rho$POMDPとPOMDP-IRの数学的等価性を示し、値関数のPWLC特性を復元する。 アクティブな知覚タスクを効率的に計画するために、POMDP-IRの独立性を特定し、利用することにより、POMDP-IR(および$\rho$POMDP)の計算コストを削減する。 我々は,greedy point-based value iteration (PBVI) を提案する。これは,greedy maximization を用いて,アクティブな知覚POMDPの動作空間におけるスケーラビリティを大幅に向上させる新しいPOMDP計画手法である。 さらに,部分モジュラリティを含む一定の条件下では,greedy PBVIを用いて計算した値関数が最適値関数に対して有界誤差を持つことが保証されている。 我々は、アクティブな知覚POMDPの値関数がサブモジュラーであることを保証する条件を確立する。 最後に,ショッピングモールで採用されているマルチカメラ追跡システムから収集したデータセットについて,詳細な実証分析を行う。 提案手法は既存の手法と同じような性能を実現するが,計算コストのごく一部で能動的知覚タスクを解くためのスケーラビリティが向上する。

In active perception tasks, an agent aims to select sensory actions that reduce its uncertainty about one or more hidden variables. While partially observable Markov decision processes (POMDPs) provide a natural model for such problems, reward functions that directly penalize uncertainty in the agent's belief can remove the piecewise-linear and convex property of the value function required by most POMDP planners. Furthermore, as the number of sensors available to the agent grows, the computational cost of POMDP planning grows exponentially with it, making POMDP planning infeasible with traditional methods. In this article, we address a twofold challenge of modeling and planning for active perception tasks. We show the mathematical equivalence of $\rho$POMDP and POMDP-IR, two frameworks for modeling active perception tasks, that restore the PWLC property of the value function. To efficiently plan for active perception tasks, we identify and exploit the independence properties of POMDP-IR to reduce the computational cost of solving POMDP-IR (and $\rho$POMDP). We propose greedy point-based value iteration (PBVI), a new POMDP planning method that uses greedy maximization to greatly improve scalability in the action space of an active perception POMDP. Furthermore, we show that, under certain conditions, including submodularity, the value function computed using greedy PBVI is guaranteed to have bounded error with respect to the optimal value function. We establish the conditions under which the value function of an active perception POMDP is guaranteed to be submodular. Finally, we present a detailed empirical analysis on a dataset collected from a multi-camera tracking system employed in a shopping mall. Our method achieves similar performance to existing methods but at a fraction of the computational cost leading to better scalability for solving active perception tasks.
翻訳日:2022-10-16 04:05:07 公開日:2020-09-21
# 構造化知識を用いた視覚意味埋め込みモデル

Visual-Semantic Embedding Model Informed by Structured Knowledge ( http://arxiv.org/abs/2009.10026v1 )

ライセンス: Link先を確認
Mirantha Jayathilaka, Tingting Mu, Uli Sattler(参考訳) 外部構造知識ベースから取得した概念表現を組み込むことにより,視覚意味埋め込みモデルを改善する新しい手法を提案する。 標準およびゼロショット設定における画像分類の性能について検討する。 知識ベースで示されるクラス階層に関して分類誤差を分析するための2つの新しい評価フレームワークを提案する。 このアプローチは、ilsvrc 2012イメージデータセットとwordnetナレッジベースを使用してテストされる。 標準画像分類とゼロショット画像分類の両方に関して,本手法は,単語埋め込みを用いた従来の手法に比べて優れた性能を示す。

We propose a novel approach to improve a visual-semantic embedding model by incorporating concept representations captured from an external structured knowledge base. We investigate its performance on image classification under both standard and zero-shot settings. We propose two novel evaluation frameworks to analyse classification errors with respect to the class hierarchy indicated by the knowledge base. The approach is tested using the ILSVRC 2012 image dataset and a WordNet knowledge base. With respect to both standard and zero-shot image classification, our approach shows superior performance compared with the original approach, which uses word embeddings.
翻訳日:2022-10-16 03:58:38 公開日:2020-09-21
# 脳画像登録のためのディープニューラルネットワークの強度不変性探索

Exploring Intensity Invariance in Deep Neural Networks for Brain Image Registration ( http://arxiv.org/abs/2009.10058v1 )

ライセンス: Link先を確認
Hassan Mahmood, Asim Iqbal, Syed Mohammed Shamsul Islam(参考訳) 画像登録は、MRIやX線などのバイオメディカルイメージングにおいて、様々な画像モダリティや技術を通じてキャプチャされる大規模なデータセットを分析するために広く使われている技術である。 これらのデータセットは通常、さまざまなサイトや、さまざまなスキャナを使用して異なるイメージングプロトコルで収集される。 このようなデータ収集プロセスにおける不均一性は、不均一性または強度の変動(明度)とノイズ分布を引き起こす。 これらのバリエーションは、画像登録、セグメンテーション、検出アルゴリズムの性能に悪影響を及ぼす。 古典的な画像登録手法は計算コストが高いが、これらのアーティファクトを比較的うまく処理できる。 しかし、深層学習に基づく手法は、自動脳登録には計算効率が良いが、強度の変動には敏感である。 本研究では,深層学習に基づく画像登録手法における入力画像ペア間の強度分布の変化の影響について検討する。 異なる強度分布の脳画像対を類似した構造でも提示する場合に,これらのモデルの性能劣化が認められる。 この制限を克服するために、ディープニューラルネットワークに構造的類似性に基づく損失関数を組み込んで、トレーニング前に分離した検証分割と、完全に見えない新しいデータセット上でそのパフォーマンスをテストする。 構造的類似性に基づく損失をトレーニングしたディープラーニングモデルは,両データセットとも良好に機能すると思われる。 本研究は,深層学習に基づく登録モデルの性能制限要因を明らかにするとともに,入力画像対に強度分布のばらつきを組み込む潜在的な解決策を提案する。 私たちのコードとモデルはhttps://github.com/hassaanmahmood/deepintenseで利用可能です。

Image registration is a widely-used technique in analysing large scale datasets that are captured through various imaging modalities and techniques in biomedical imaging such as MRI, X-Rays, etc. These datasets are typically collected from various sites and under different imaging protocols using a variety of scanners. Such heterogeneity in the data collection process causes inhomogeneity or variation in intensity (brightness) and noise distribution. These variations play a detrimental role in the performance of image registration, segmentation and detection algorithms. Classical image registration methods are computationally expensive but are able to handle these artifacts relatively better. However, deep learning-based techniques are shown to be computationally efficient for automated brain registration but are sensitive to the intensity variations. In this study, we investigate the effect of variation in intensity distribution among input image pairs for deep learning-based image registration methods. We find a performance degradation of these models when brain image pairs with different intensity distribution are presented even with similar structures. To overcome this limitation, we incorporate a structural similarity-based loss function in a deep neural network and test its performance on the validation split separated before training as well as on a completely unseen new dataset. We report that the deep learning models trained with structure similarity-based loss seems to perform better for both datasets. This investigation highlights a possible performance limiting factor in deep learning-based registration models and suggests a potential solution to incorporate the intensity distribution variation in the input image pairs. Our code and models are available at https://github.com/hassaanmahmood/DeepIntense.
翻訳日:2022-10-16 03:58:04 公開日:2020-09-21
# 胸部X線に応用した深層学習:ショートカットの爆発と防止

Deep Learning Applied to Chest X-Rays: Exploiting and Preventing Shortcuts ( http://arxiv.org/abs/2009.10132v1 )

ライセンス: Link先を確認
Sarah Jabbour, David Fouhey, Ella Kazerooni, Michael W. Sjoding, Jenna Wiens(参考訳) 深層学習は、胸部X線に基づく疾患の自動診断を改善することを約束しているが、深層ネットワークはショートカットに関連する望ましくない行動を示す可能性がある。 本稿では,特定の属性を有する患者が興味を抱く可能性が極めて高い,突発性クラススキューの症例について検討する。 例えば、臨床プロトコルはペースメーカー患者が不釣り合いに心不全を起こしやすいデータセットに繋がる可能性がある。 このスキューは、バイアス属性に強く依存することでショートカットを取るモデルにつながる可能性がある。 我々は, 急性低酸素性呼吸不全の原因の診断の文脈において, 様々な属性からこの問題を探究する。 胸部X線に当てはまると 一 ディープネットは、性別(AUROC = 0.96)、年齢(AUROC >= 0.90)を含む多くの患者属性を正確に識別することができる。 二 診断の予測を学習する際に、これらの属性と結果ラベルの相関を利用でき、検査集団にその相関が持たない場合(例えば、試験セットの全員が男性である場合)、性能が低下する傾向があること。 三 簡単な転送学習アプローチは、近道の防止及び一般化性能の向上に驚くほど有効である。 高齢者向け胸部X線(年齢>=63)に基づいて心不全を診断する作業において,本手法は標準トレーニング(95% CI: 0.54-0.77)から0.84(95% CI: 0.73-0.92)AUROC)への一般化を改良する。 単純ではあるが,提案手法は,臨床医が診断に使用する疾患の症状への依存を促進することにより,集団間のモデルのパフォーマンスを向上させる可能性を秘めている。

While deep learning has shown promise in improving the automated diagnosis of disease based on chest X-rays, deep networks may exhibit undesirable behavior related to shortcuts. This paper studies the case of spurious class skew in which patients with a particular attribute are spuriously more likely to have the outcome of interest. For instance, clinical protocols might lead to a dataset in which patients with pacemakers are disproportionately likely to have congestive heart failure. This skew can lead to models that take shortcuts by heavily relying on the biased attribute. We explore this problem across a number of attributes in the context of diagnosing the cause of acute hypoxemic respiratory failure. Applied to chest X-rays, we show that i) deep nets can accurately identify many patient attributes including sex (AUROC = 0.96) and age (AUROC >= 0.90), ii) they tend to exploit correlations between such attributes and the outcome label when learning to predict a diagnosis, leading to poor performance when such correlations do not hold in the test population (e.g., everyone in the test set is male), and iii) a simple transfer learning approach is surprisingly effective at preventing the shortcut and promoting good generalization performance. On the task of diagnosing congestive heart failure based on a set of chest X-rays skewed towards older patients (age >= 63), the proposed approach improves generalization over standard training from 0.66 (95% CI: 0.54-0.77) to 0.84 (95% CI: 0.73-0.92) AUROC. While simple, the proposed approach has the potential to improve the performance of models across populations by encouraging reliance on clinically relevant manifestations of disease, i.e., those that a clinician would use to make a diagnosis.
翻訳日:2022-10-16 03:57:43 公開日:2020-09-21
# スコア分布のモデリングと連続共変量:ベイズ的アプローチ

Modeling Score Distributions and Continuous Covariates: A Bayesian Approach ( http://arxiv.org/abs/2009.09583v1 )

ライセンス: Link先を確認
Mel McCurrie, Hamish Nicholson, Walter J. Scheirer, Samuel Anthony(参考訳) コンピュータビジョンの実践者は、モデルのパフォーマンスを徹底的に理解する必要があるが、条件付き評価は複雑でエラーやすい。 生体認証では、連続的共変量よりもモデルの性能 - 性能に影響を与える画像の実数特性 - 特に研究は困難である。 本研究では,連続共変量上でのマッチングおよび非マッチスコア分布の生成モデルを開発し,現代のベイズ法による推論を行う。 混合モデルを用いて任意の分布と局所基底関数を捉え、非線形多変量トレンドを捉える。 提案手法の精度と有効性を示す3つの実験を行った。 まず、年齢と顔認証性能の関係を調べ、従来の方法がパフォーマンスと信頼性を過大に表現している可能性を見いだす。 次に,cnnの前処理について検討し,モデル性能の非線型多変量曲面を求める。 本手法は, 従来の合成法と比較して精度が高く, 効率的である。 第3に,複数の共変量に対して制御しながら,提案手法を歩行者追跡に適用し,変動しきい値と期待性能を算出する。

Computer Vision practitioners must thoroughly understand their model's performance, but conditional evaluation is complex and error-prone. In biometric verification, model performance over continuous covariates---real-number attributes of images that affect performance---is particularly challenging to study. We develop a generative model of the match and non-match score distributions over continuous covariates and perform inference with modern Bayesian methods. We use mixture models to capture arbitrary distributions and local basis functions to capture non-linear, multivariate trends. Three experiments demonstrate the accuracy and effectiveness of our approach. First, we study the relationship between age and face verification performance and find previous methods may overstate performance and confidence. Second, we study preprocessing for CNNs and find a highly non-linear, multivariate surface of model performance. Our method is accurate and data efficient when evaluated against previous synthetic methods. Third, we demonstrate the novel application of our method to pedestrian tracking and calculate variable thresholds and expected performance while controlling for multiple covariates.
翻訳日:2022-10-16 03:57:12 公開日:2020-09-21
# コントラストクラスタリング

Contrastive Clustering ( http://arxiv.org/abs/2009.09687v1 )

ライセンス: Link先を確認
Yunfan Li, Peng Hu, Zitao Liu, Dezhong Peng, Joey Tianyi Zhou, Xi Peng(参考訳) 本稿では,インスタンスレベルおよびクラスタレベルのコントラスト学習を明示的に実行する,コントラストクラスタリング(cc)と呼ばれる1段階のオンラインクラスタリング手法を提案する。 特定のデータセットに対して、正と負のインスタンスペアはデータ拡張によって構築され、それから機能空間に投影される。 正の対の類似性を最大化し、負の対の類似性を最小化することにより、各列と列の空間においてインスタンスレベルおよびクラスタレベルのコントラスト学習を行う。 我々のキーとなる観察は、特徴行列の行はインスタンスのソフトラベルと見なすことができ、したがって列はさらにクラスタ表現と見なすことができるということである。 インスタンスレベルのコントラスト損失とクラスタレベルのコントラスト損失を同時に最適化することで、モデルがエンドツーエンドで表現とクラスタ割り当てを共同学習する。 広範な実験結果から、6つの挑戦的画像ベンチマークにおいて,ccは17の競合クラスタリング手法を著しく上回っていることがわかった。 特にccは、cifar-10(cifar-100)データセット上で0.705(0.431)のnmiを達成し、最高のベースラインと比較して最大19\%(39\%)の性能向上を達成している。

In this paper, we propose a one-stage online clustering method called Contrastive Clustering (CC) which explicitly performs the instance- and cluster-level contrastive learning. To be specific, for a given dataset, the positive and negative instance pairs are constructed through data augmentations and then projected into a feature space. Therein, the instance- and cluster-level contrastive learning are respectively conducted in the row and column space by maximizing the similarities of positive pairs while minimizing those of negative ones. Our key observation is that the rows of the feature matrix could be regarded as soft labels of instances, and accordingly the columns could be further regarded as cluster representations. By simultaneously optimizing the instance- and cluster-level contrastive loss, the model jointly learns representations and cluster assignments in an end-to-end manner. Extensive experimental results show that CC remarkably outperforms 17 competitive clustering methods on six challenging image benchmarks. In particular, CC achieves an NMI of 0.705 (0.431) on the CIFAR-10 (CIFAR-100) dataset, which is an up to 19\% (39\%) performance improvement compared with the best baseline.
翻訳日:2022-10-16 03:56:56 公開日:2020-09-21
# GAN(Generative Adversarial Network)バリアントの性能について : 臨床データによる検討

On the Performance of Generative Adversarial Network (GAN) Variants: A Clinical Data Study ( http://arxiv.org/abs/2009.09579v1 )

ライセンス: Link先を確認
Jaesung Yoo, Jeman Park, An Wang, David Mohaisen, and Joongheon Kim(参考訳) generative adversarial network(gan)は、生成モデルや特徴抽出を含む様々な種類のアプリケーションにおいて有用なニューラルネットワークである。 様々な種類のGANがさまざまな洞察で研究されており、それぞれの世代でより優れたパフォーマンスを持つGANのファミリーが生まれる。 本総説では, 共通特性によって分類される様々なGANについて述べる。

Generative Adversarial Network (GAN) is a useful type of Neural Networks in various types of applications including generative models and feature extraction. Various types of GANs are being researched with different insights, resulting in a diverse family of GANs with a better performance in each generation. This review focuses on various GANs categorized by their common traits.
翻訳日:2022-10-16 03:49:38 公開日:2020-09-21
# ニュースメディアにおける偏光分析のためのニュアンスフレームの弱教師付き学習

Weakly Supervised Learning of Nuanced Frames for Analyzing Polarization in News Media ( http://arxiv.org/abs/2009.09609v1 )

ライセンス: Link先を確認
Shamik Roy, Dan Goldwasser(参考訳) 本稿では,政治的に分断された話題を報道するニュース記事中のニュアンスフレームを最小教師付きで識別する手法を提案する。 boydstunらによって2014年に提唱された広範な政策枠組みを、政治イデオロギーの相違をよりよい方法で捉えるための細粒度のサブフレームに分割することを提案している。 提案するサブフレームとその組込みを評価し,最小限の監督を用いて,移民,銃規制,中絶という3つのトピックについて検討した。 我々は,サブフレームがイデオロギー的差異を捉え,メディアにおける政治的言論を分析する能力を示す。

In this paper we suggest a minimally-supervised approach for identifying nuanced frames in news article coverage of politically divisive topics. We suggest to break the broad policy frames suggested by Boydstun et al., 2014 into fine-grained subframes which can capture differences in political ideology in a better way. We evaluate the suggested subframes and their embedding, learned using minimal supervision, over three topics, namely, immigration, gun-control and abortion. We demonstrate the ability of the subframes to capture ideological differences and analyze political discourse in news media.
翻訳日:2022-10-16 03:49:32 公開日:2020-09-21
# 機械ガイドと人間監督:グローバルな説明を伴う対話型学習

Machine Guides, Human Supervises: Interactive Learning with Global Explanations ( http://arxiv.org/abs/2009.09723v1 )

ライセンス: Link先を確認
Teodora Popordanoska, Mohit Kumar, Stefano Teso(参考訳) 本稿では,機械が人間を指導する対話型学習戦略である説明指導学習(XGL)を紹介する。 このガイダンスはグローバル説明によって提供され、インスタンス空間の異なる領域における分類器の振る舞いを要約し、欠陥を暴露する。 他の説明的対話型学習戦略と比較して、XGLは、機械が提供した説明が分類器の品質を上回るケースに対して堅牢であるように設計されている。 さらに、XGLはグローバルな説明を活用して、人間の開始によるインタラクションのブラックボックスを開くことで、管理者は学習モデルに挑戦する情報的サンプルを選択することができる。 対話型機械教示へのリンクを提示することにより,グローバル説明が監督者の指導に有効なアプローチであることを理論的に示す。 シミュレーションの結果,説明指導学習はモデル品質の過大評価を回避し,モデル品質の面では機械や人間主導の対話型学習戦略と同等かそれ以上の性能を発揮することがわかった。

We introduce explanatory guided learning (XGL), a novel interactive learning strategy in which a machine guides a human supervisor toward selecting informative examples for a classifier. The guidance is provided by means of global explanations, which summarize the classifier's behavior on different regions of the instance space and expose its flaws. Compared to other explanatory interactive learning strategies, which are machine-initiated and rely on local explanations, XGL is designed to be robust against cases in which the explanations supplied by the machine oversell the classifier's quality. Moreover, XGL leverages global explanations to open up the black-box of human-initiated interaction, enabling supervisors to select informative examples that challenge the learned model. By drawing a link to interactive machine teaching, we show theoretically that global explanations are a viable approach for guiding supervisors. Our simulations show that explanatory guided learning avoids overselling the model's quality and performs comparably or better than machine- and human-initiated interactive learning strategies in terms of model quality.
翻訳日:2022-10-16 03:48:24 公開日:2020-09-21
# 推薦システムのための深層ハイブリッドモデル

A Deep Hybrid Model for Recommendation Systems ( http://arxiv.org/abs/2009.09748v1 )

ライセンス: Link先を確認
Muhammet cakir, sule gunduz oguducu, resul tugay(参考訳) 推薦は、eコマースからソーシャルWebサイトまで、多くの分野で長年の問題だった。 ほとんどの研究は、コンテンツベースや協調フィルタリングのような従来のアプローチにのみ焦点を当てているが、ハイブリッドレコメンデータシステムでは比較的少ない。 コンピュータビジョンや自然言語処理など,さまざまな分野におけるディープラーニングの最新の進歩により,ディープラーニングはレコメンデーションシステムにおいても注目されている。 ディープニューラルネットワークとの協調フィルタリングを実現するために、ユーザとアイテムのid埋め込みを利用する研究がいくつかある。 しかし、そのような研究は入力の他のカテゴリー的あるいは連続的な特徴を生かさない。 本稿では,id埋め込みだけでなく,求人の特徴や相互推薦システムである求人推薦システム候補などの補助情報も含む,新しい深層ニューラルネットワークアーキテクチャを提案する。 ジョブサイトからのデータセットに対する実験結果から,提案手法は,ID埋め込みを用いたディープラーニングモデルよりも推奨結果を改善することが示された。

Recommendation has been a long-standing problem in many areas ranging from e-commerce to social websites. Most current studies focus only on traditional approaches such as content-based or collaborative filtering while there are relatively fewer studies in hybrid recommender systems. Due to the latest advances of deep learning achieved in different fields including computer vision and natural language processing, deep learning has also gained much attention in Recommendation Systems. There are several studies that utilize ID embeddings of users and items to implement collaborative filtering with deep neural networks. However, such studies do not take advantage of other categorical or continuous features of inputs. In this paper, we propose a new deep neural network architecture which consists of not only ID embeddings but also auxiliary information such as features of job postings and candidates for job recommendation system which is a reciprocal recommendation system. Experimental results on the dataset from a job-site show that the proposed method improves recommendation results over deep learning models utilizing ID embeddings.
翻訳日:2022-10-16 03:48:04 公開日:2020-09-21
# 機械学習と重畳一般化を用いた需要予測

Demand Prediction Using Machine Learning Methods and Stacked Generalization ( http://arxiv.org/abs/2009.09756v1 )

ライセンス: Link先を確認
Resul Tugay, Sule Gunduz Oguducu(参考訳) 需要と供給は販売者と顧客という2つの基本的な概念である。 正確に需要を予測することは、組織が計画を立てるために重要である。 本稿では,eコマースWebサイトにおける需要予測のための新しいアプローチを提案する。 提案されたモデルは、いくつかの点で以前のモデルと異なる。 モデルが実装されているeコマースウェブサイトで使用されるビジネスモデルには、企業がマーケットプレースモデルを運営している異なる価格で同じ製品を同時に販売する多くのセラーが含まれている。 このようなモデルに対する需要予測は、競合セラーが販売する同じ商品の価格を、これらのセラーの特徴に沿って考慮すべきである。 本研究では,トルコで最も人気のあるオンライン電子商取引企業の一つである企業のある部門の特定の製品に対して,まず異なる回帰アルゴリズムを適用した。 次に,スタック一般化(stacked generalization),あるいはスタックアンサンブル学習(stacking ensemble learning)を使用して需要予測を行った。 最後に、すべてのアプローチは、eコマース会社から取得した実世界のデータセットで評価される。 実験結果から,機械学習手法のいくつかは,積み重ね一般化法とほぼ同等の結果が得られることがわかった。

Supply and demand are two fundamental concepts of sellers and customers. Predicting demand accurately is critical for organizations in order to be able to make plans. In this paper, we propose a new approach for demand prediction on an e-commerce web site. The proposed model differs from earlier models in several ways. The business model used in the e-commerce web site, for which the model is implemented, includes many sellers that sell the same product at the same time at different prices where the company operates a market place model. The demand prediction for such a model should consider the price of the same product sold by competing sellers along the features of these sellers. In this study we first applied different regression algorithms for specific set of products of one department of a company that is one of the most popular online e-commerce companies in Turkey. Then we used stacked generalization or also known as stacking ensemble learning to predict demand. Finally, all the approaches are evaluated on a real world data set obtained from the e-commerce company. The experimental results show that some of the machine learning methods do produce almost as good results as the stacked generalization method.
翻訳日:2022-10-16 03:47:49 公開日:2020-09-21
# 静的から動的ノードへの埋め込み

From Static to Dynamic Node Embeddings ( http://arxiv.org/abs/2009.10017v1 )

ライセンス: Link先を確認
Di Jin, Sungchul Kim, Ryan A. Rossi, Danai Koutra(参考訳) 本稿では,時間的予測に基づくアプリケーションにグラフストリームデータを活用する汎用フレームワークを提案する。 提案フレームワークは,適切なグラフ時系列表現の学習,時間的依存関係のモデリングと重み付け,既存の埋め込み手法の一般化を含む。 動的モデリングと埋め込みに関する従来の研究は、特定の時間スケール(例えば1ヶ月)に基づいたグラフの時系列を用いて、タイムスタンプ付きエッジのストリームを表現することに重点を置いているが、我々は、各グラフに一定の数のエッジを使用する$\epsilon$-graphタイムシリーズの概念を提案し、その優位性を示す。 さらに,時間的到達性グラフと重み付き時間的要約グラフの概念に基づく新しい時間的モデルを提案する。 これらの時間的モデルは、データに時間的依存関係を組み込んで適切にモデル化することで、既存のベース(静的)埋め込みメソッドを一般化するために使用される。 調査した6つの時間ネットワークモデル(各7塩基埋め込み法)から、トップ3の時間モデルは常に新しい$\epsilon$-graph 時系列表現を利用するモデルであることが分かる。 さらに、フレームワークからの動的埋め込み手法は、時間的予測タスクに特化して開発された既存の最先端の動的ノード埋め込み手法よりも、ほぼ常に優れた予測性能を達成する。 最後に, 本研究の成果は, 動的埋込み法の設計に有用である。

We introduce a general framework for leveraging graph stream data for temporal prediction-based applications. Our proposed framework includes novel methods for learning an appropriate graph time-series representation, modeling and weighting the temporal dependencies, and generalizing existing embedding methods for such data. While previous work on dynamic modeling and embedding has focused on representing a stream of timestamped edges using a time-series of graphs based on a specific time-scale (e.g., 1 month), we propose the notion of an $\epsilon$-graph time-series that uses a fixed number of edges for each graph, and show its superiority over the time-scale representation used in previous work. In addition, we propose a number of new temporal models based on the notion of temporal reachability graphs and weighted temporal summary graphs. These temporal models are then used to generalize existing base (static) embedding methods by enabling them to incorporate and appropriately model temporal dependencies in the data. From the 6 temporal network models investigated (for each of the 7 base embedding methods), we find that the top-3 temporal models are always those that leverage the new $\epsilon$-graph time-series representation. Furthermore, the dynamic embedding methods from the framework almost always achieve better predictive performance than existing state-of-the-art dynamic node embedding methods that are developed specifically for such temporal prediction tasks. Finally, the findings of this work are useful for designing better dynamic embedding methods.
翻訳日:2022-10-16 03:47:34 公開日:2020-09-21