このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。



PDF登録状況(公開日: 20220118)

# 物理インフォームドディープカーネル学習

Physics Informed Deep Kernel Learning ( http://arxiv.org/abs/2006.04976v2 )

ライセンス: Link先を確認
Zheng Wang, Wei Xing, Robert Kirby, Shandian Zhe(参考訳) ディープカーネル学習は、ディープニューラルネットワークと非パラメトリック関数学習の有望な組み合わせである。 しかし、データ駆動アプローチとして、特に外挿タスクにおいて、深層カーネル学習のパフォーマンスは、不足または不十分なデータによって制限される。 これらの限界に対処するため,我々は,潜在源を持つ微分方程式に代表される物理知識を利用する物理情報付き深層核学習(pi-dkl)を提案する。 具体的には、ガウス過程の後方関数のサンプルを微分方程式の解の代用として使用し、この方程式を原理化されたベイズハイブリッドフレームワークに統合するための生成成分を構築する。 効率的かつ効果的な推論のために,確率的モデル推定アルゴリズムを開発するために,結合確率の潜伏変数を疎外し,崩壊したモデルエビデンスの下限(ELBO)を導出する。 ELBOは良好な,解釈可能な後続正則化対象とみなすことができる。 合成データセットと実世界のアプリケーションについて,予測精度と不確かさの定量化の両方において,本手法の利点を示す。

Deep kernel learning is a promising combination of deep neural networks and nonparametric function learning. However, as a data driven approach, the performance of deep kernel learning can still be restricted by scarce or insufficient data, especially in extrapolation tasks. To address these limitations, we propose Physics Informed Deep Kernel Learning (PI-DKL) that exploits physics knowledge represented by differential equations with latent sources. Specifically, we use the posterior function sample of the Gaussian process as the surrogate for the solution of the differential equation, and construct a generative component to integrate the equation in a principled Bayesian hybrid framework. For efficient and effective inference, we marginalize out the latent variables in the joint probability and derive a collapsed model evidence lower bound (ELBO), based on which we develop a stochastic model estimation algorithm. Our ELBO can be viewed as a nice, interpretable posterior regularization objective. On synthetic datasets and real-world applications, we show the advantage of our approach in both prediction accuracy and uncertainty quantification.
翻訳日:2022-11-24 01:08:03 公開日:2022-01-18
# 分類のための量子アンサンブル

Quantum Ensemble for Classification ( http://arxiv.org/abs/2007.01028v3 )

ライセンス: Link先を確認
Antonio Macaluso, Luca Clissa, Stefano Lodi, Claudio Sartori(参考訳) 機械学習のパフォーマンスを改善する強力な方法は、複数のモデルの予測を組み合わせたアンサンブルを構築することである。 アンサンブル法は個々の分類器よりもはるかに正確で分散度が低いことが多いが、メモリや計算時間に関しては高い要求がある。 実際、多くの代替アルゴリズムが採用され、それぞれが利用可能なすべてのデータをクエリする必要がある。 本稿では,量子重ね合わせ,絡み合い,干渉を利用して分類モデルのアンサンブルを構築する新しい量子アルゴリズムを提案する。 重ね合わせにおけるいくつかの量子軌道の生成により、トレーニングセットをわずか$log\left(B\right)$演算でエンコードする量子状態の$B$変換が得られる。 これは、対応する回路の深さを線形に増加させながら、アンサンブルサイズが指数関数的に増加することを意味する。 さらに,アルゴリズム全体のコストを考慮すれば,従来のアンサンブル法のように,単一の弱分類器の訓練が乗算よりも全体の時間複雑性に付加的に影響を及ぼすことを示す。 また,実世界のデータセットに関する小規模実験を行い,コサイン分類器の量子バージョンを定義し,ibm qiskit環境を用いてアルゴリズムの動作を示す。

A powerful way to improve performance in machine learning is to construct an ensemble that combines the predictions of multiple models. Ensemble methods are often much more accurate and lower variance than the individual classifiers that make them up but have high requirements in terms of memory and computational time. In fact, a large number of alternative algorithms is usually adopted, each requiring to query all available data. We propose a new quantum algorithm that exploits quantum superposition, entanglement and interference to build an ensemble of classification models. Thanks to the generation of the several quantum trajectories in superposition, we obtain $B$ transformations of the quantum state which encodes the training set in only $log\left(B\right)$ operations. This implies exponential growth of the ensemble size while increasing linearly the depth of the correspondent circuit. Furthermore, when considering the overall cost of the algorithm, we show that the training of a single weak classifier impacts additively the overall time complexity rather than multiplicatively, as it usually happens in classical ensemble methods. We also present small-scale experiments on real-world datasets, defining a quantum version of the cosine classifier and using the IBM qiskit environment to show how the algorithms work.
翻訳日:2022-11-14 13:53:18 公開日:2022-01-18
# OrbNet: シンメトリー適応原子軌道特徴を用いた量子化学の深層学習

OrbNet: Deep Learning for Quantum Chemistry Using Symmetry-Adapted Atomic-Orbital Features ( http://arxiv.org/abs/2007.08026v3 )

ライセンス: Link先を確認
Zhuoran Qiao, Matthew Welborn, Animashree Anandkumar, Frederick R. Manby, and Thomas F. Miller III(参考訳) 本稿では, 対称性に適応した原子軌道特徴とグラフニューラルネットアーキテクチャを用いて, シュロディンガー方程式からのエネルギー解を予測する機械学習手法を提案する。 半経験的電子構造計算から得られた低コストの特徴を活用しつつ, 密度汎関数理論の結果を予測するための学習効率と伝達性の観点から, 既存の手法より優れていることを示す。 QM7b-T, QM9, GDB-13-T, DrugBank, and the conformer benchmark dataset of Folmsbee and Hutchison, \textsc{OrbNet}は、DFTの化学的精度におけるエネルギーを1000倍以上の計算コストで予測する。

We introduce a machine learning method in which energy solutions from the Schrodinger equation are predicted using symmetry adapted atomic orbitals features and a graph neural-network architecture. \textsc{OrbNet} is shown to outperform existing methods in terms of learning efficiency and transferability for the prediction of density functional theory results while employing low-cost features that are obtained from semi-empirical electronic structure calculations. For applications to datasets of drug-like molecules, including QM7b-T, QM9, GDB-13-T, DrugBank, and the conformer benchmark dataset of Folmsbee and Hutchison, \textsc{OrbNet} predicts energies within chemical accuracy of DFT at a computational cost that is thousand-fold or more reduced.
翻訳日:2022-11-10 06:39:14 公開日:2022-01-18
# PECOS: 異常および関連する出力空間の予測

PECOS: Prediction for Enormous and Correlated Output Spaces ( http://arxiv.org/abs/2010.05878v2 )

ライセンス: Link先を確認
Hsiang-Fu Yu and Kai Zhong and Jiong Zhang and Wei-Cheng Chang and Inderjit S. Dhillon(参考訳) 大規模なアプリケーションの多くは、潜在的な候補の巨大な出力空間から関連する結果を見つけるのに役立ちます。 例えば、大きなカタログから最適なマッチング製品を見つけたり、検索エンジンで関連する検索フレーズを提案したりする。 これらの問題に対する出力空間のサイズは数百万から数十億までで、アプリケーションによっては無限になることもある。 さらに、トレーニングデータは出力空間内のロングテールアイテムに制限されることが多い。 幸いなことに、出力空間内のアイテムはよく相関して、データ空間の問題を軽減する機会を提供する。 本稿では、非常に大きな出力空間の予測問題を解くための汎用的でモジュール化された機械学習フレームワークであるPECOS(Predict for Enormous and Correlated Output Spaces)フレームワークを提案し、これをeXtreme Multilabel Ranking (XMR)問題に適用する。 我々はpecosの3段階フレームワークを提案する。 (i)第1フェーズでは、pecosはセマンティックインデックススキームを用いて出力空間を整理する。 (ii) 第二段階では, PECOS は, 機械学習マッチング方式を用いて, 出力空間を桁違いに絞り込み, インデックス化する。 (iii)第3フェーズでは、pecosは最終ランキング方式でマッチしたアイテムをランク付けする。 PECOSの汎用性とモジュール性により、インデックス付け、マッチング、ランキングフェーズの様々な選択を簡単にプラグイン&プレイできる。 また、XMR予測をリアルタイムに実行するための非常に高速な推論手順も開発しています。 PECOSソフトウェアはhttps://libpecos.orgで公開されている。

Many large-scale applications amount to finding relevant results from an enormous output space of potential candidates. For example, finding the best matching product from a large catalog or suggesting related search phrases on a search engine. The size of the output space for these problems can range from millions to billions, and can even be infinite in some applications. Moreover, training data is often limited for the long-tail items in the output space. Fortunately, items in the output space are often correlated thereby presenting an opportunity to alleviate the data sparsity issue. In this paper, we propose the Prediction for Enormous and Correlated Output Spaces (PECOS) framework, a versatile and modular machine learning framework for solving prediction problems for very large output spaces, and apply it to the eXtreme Multilabel Ranking (XMR) problem: given an input instance, find and rank the most relevant items from an enormous but fixed and finite output space. We propose a three phase framework for PECOS: (i) in the first phase, PECOS organizes the output space using a semantic indexing scheme, (ii) in the second phase, PECOS uses the indexing to narrow down the output space by orders of magnitude using a machine learned matching scheme, and (iii) in the third phase, PECOS ranks the matched items using a final ranking scheme. The versatility and modularity of PECOS allows for easy plug-and-play of various choices for the indexing, matching, and ranking phases. We also develop very fast inference procedures which allow us to perform XMR predictions in real time; for example, inference takes less than 1 millisecond per input on the dataset with 2.8 million labels. The PECOS software is available at https://libpecos.org.
翻訳日:2022-10-08 07:44:33 公開日:2022-01-18
# ベイジアンラベル遷移によるオンラインソーシャルネットワークの破壊

Deperturbation of Online Social Networks via Bayesian Label Transition ( http://arxiv.org/abs/2010.14121v3 )

ライセンス: Link先を確認
Jun Zhuang, Mohammad Al Hasan(参考訳) オンラインソーシャルネットワーク(OSN)は、ユーザを、それぞれのオンライン活動と関心に基づいて異なるカテゴリに分類する。 このようなタスクは、Graph Convolutional Networks(GCN)を使用して効果的に解決できる。 しかし、少数のユーザ(いわゆる摂動器)はOSN上でランダムな活動を行うことができ、GCNベースのノード分類タスクの性能を著しく低下させる。 この方向の既存の作業は、敵のトレーニングか、攻撃ノードを特定して削除することでGCNを防御する。 しかし、どちらのアプローチも攻撃パターンや攻撃ノードを最初に識別する必要があるため、摂動ノードの数が非常に少ない場合のシナリオでは困難である。 本研究では,ラベル遷移の概念を用いたGCNディフェンスモデル,すなわちGraphLTを開発する。 GraphLTは摂動子のランダムな活動がGCNのパフォーマンスを低下させると仮定する。 この問題を解決するため、GraphLTはその後、GCNの予測ラベルを取り込み、Gibs-samplingベースの推論によってラベル遷移を適用し、GCNの予測を修復してノード分類を改善する新しいベイズラベル遷移モデルを使用する。 7つのベンチマークデータセットに関する広範囲な実験により、graphltは不安定な環境でのノード分類器の性能を大幅に向上させ、さらに、いくつかの競合する方法よりも優れたパフォーマンスでgcnベースのノード分類器を正常に修復できることが確認された。

Online social networks (OSNs) classify users into different categories based on their online activities and interests, a task which is referred as a node classification task. Such a task can be solved effectively using Graph Convolutional Networks (GCNs). However, a small number of users, so-called perturbators, may perform random activities on an OSN, which significantly deteriorate the performance of a GCN-based node classification task. Existing works in this direction defend GCNs either by adversarial training or by identifying the attacker nodes followed by their removal. However, both of these approaches require that the attack patterns or attacker nodes be identified first, which is difficult in the scenario when the number of perturbator nodes is very small. In this work, we develop a GCN defense model, namely GraphLT, which uses the concept of label transition. GraphLT assumes that perturbators' random activities deteriorate GCN's performance. To overcome this issue, GraphLT subsequently uses a novel Bayesian label transition model, which takes GCN's predicted labels and applies label transitions by Gibbs-sampling-based inference and thus repairs GCN's prediction to achieve better node classification. Extensive experiments on seven benchmark datasets show that GraphLT considerably enhances the performance of the node classifier in an unperturbed environment; furthermore, it validates that GraphLT can successfully repair a GCN-based node classifier with superior performance than several competing methods.
翻訳日:2022-10-02 13:16:40 公開日:2022-01-18
# 進化的時間スケールにおける形態発達:ロボット発達進化

Morphological Development at the Evolutionary Timescale: Robotic Developmental Evolution ( http://arxiv.org/abs/2010.14894v2 )

ライセンス: Link先を確認
Fabien C. Y. Benureau and Jun Tani(参考訳) 進化と開発は異なる時間スケールで行われ、1世代は世代、もう1世代は寿命である。 地球上の生命の基盤であるこれらの2つの過程は、多くの非自明な方法で相互作用するが、その時間的階層(進化の階層的発達)は、ほとんどの多細胞生物で観察される。 しかし、ロボットを設計するとき、この傾向は浮き彫りになる。 我々は,この時間的階層を逆転させ,系統学的時間スケールで発生過程を設計することを提案する。 触手2Dロボットのための優れた歩行を見つけることを目的とした古典的な進化的探索を通じて、ロボットの形態に関する発達過程を追加する。 世代内では、ロボットの形態は変化しない。 しかし、ある世代から次の世代へ、形態が発達する。 大きく、強く、より重くなるように、私たちのロボットは、世代ごとに大きく、強く、より重いのです。 私たちのロボットはまず赤ちゃんの形態から始まり、数千世代後、大人に終止符を打つ。 成体ロボットのみによる進化的探索よりも、より良く質的に異なる歩留まりを生じさせ、探索を奨励することで早めの収束を防いでいることを示す。 さらに,voxel lattice 3dロボットの手法を文献から検証し,最近の進化的アプローチと比較した。 提案手法は概念上は単純であり,小人数のロボットに対して有効であり,タスクや環境ではなく,ロボットとその形態に固有のものである。 さらに、進化的探索を学習プロセスとして再キャストすることにより、これらの結果は発達的学習ロボティクスの文脈で見ることができる。

Evolution and development operate at different timescales; generations for the one, a lifetime for the other. These two processes, the basis of much of life on earth, interact in many non-trivial ways, but their temporal hierarchy -- evolution overarching development -- is observed for most multicellular lifeforms. When designing robots however, this tenet lifts: it becomes -- however natural -- a design choice. We propose to inverse this temporal hierarchy and design a developmental process happening at the phylogenetic timescale. Over a classic evolutionary search aimed at finding good gaits for tentacle 2D robots, we add a developmental process over the robots' morphologies. Within a generation, the morphology of the robots does not change. But from one generation to the next, the morphology develops. Much like we become bigger, stronger, and heavier as we age, our robots are bigger, stronger and heavier with each passing generation. Our robots start with baby morphologies, and a few thousand generations later, end-up with adult ones. We show that this produces better and qualitatively different gaits than an evolutionary search with only adult robots, and that it prevents premature convergence by fostering exploration. In addition, we validate our method on voxel lattice 3D robots from the literature and compare it to a recent evolutionary developmental approach. Our method is conceptually simple, and can be effective on small or large populations of robots, and intrinsic to the robot and its morphology, not the task or environment. Furthermore, by recasting the evolutionary search as a learning process, these results can be viewed in the context of developmental learning robotics.
翻訳日:2022-10-02 05:20:11 公開日:2022-01-18
# Rationally Inattentive Reinforcement Learning を用いたマルチエージェントシミュレーションにおける境界値のモデリング

Modeling Bounded Rationality in Multi-Agent Simulations Using Rationally Inattentive Reinforcement Learning ( http://arxiv.org/abs/2202.01691v1 )

ライセンス: Link先を確認
Tong Mu, Stephan Zheng, Alexander Trott(参考訳) マルチエージェント強化学習(MARL)は,複雑なエージェントに基づくシミュレーションにおいて,創発的行動を研究するための強力なフレームワークである。 しかし、rlエージェントはしばしば合理的であり、人間の行動を完全に反映しない最適に振る舞うと仮定される。 本稿では,人間不合理性の確立されたモデルであるRational Inattention(RI)モデルを組み込んだ,より人間的なRLエージェントについて検討する。 riは相互情報を用いた認知情報処理のコストをモデル化する。 当社のrirlフレームワークは,ヘテロジニアスな処理コストでマルチタイムステップダイナミクスと情報チャネルを実現することにより,従来の作業よりも一般化し,より柔軟です。 riモデル情報非対称性(例えば、マネージャが従業員に関する特定の情報を観察するのにコストがかかるかもしれない)における様々な複雑さのプリンシパルエージェント(特にマネージャ-雇用者関係)の問題設定において、rirlを評価する。 我々は、RIRLを用いることで、合理的な仮定の下で発見されたものと異なる新しい平衡挙動の豊富なスペクトルが得られることを示す。 例えば、プリンシパルの不注意のいくつかの形態は、報酬の増加によるエージェントの福祉を増加させる一方、他の形態では余分な努力を奨励することでエージェントの福祉を減らすことができる。 さらに、合理性仮定の下での新しい戦略が出現する。例えば、エージェントは仕事の労力を増やすためにインセンティブが与えられる。 これらの結果は、IRLが実際の人間の行動を模倣できるAIエージェントを構築するための強力なツールであることを示唆している。

Multi-agent reinforcement learning (MARL) is a powerful framework for studying emergent behavior in complex agent-based simulations. However, RL agents are often assumed to be rational and behave optimally, which does not fully reflect human behavior. Here, we study more human-like RL agents which incorporate an established model of human-irrationality, the Rational Inattention (RI) model. RI models the cost of cognitive information processing using mutual information. Our RIRL framework generalizes and is more flexible than prior work by allowing for multi-timestep dynamics and information channels with heterogeneous processing costs. We evaluate RIRL in Principal-Agent (specifically manager-employee relations) problem settings of varying complexity where RI models information asymmetry (e.g. it may be costly for the manager to observe certain information about the employees). We show that using RIRL yields a rich spectrum of new equilibrium behaviors that differ from those found under rational assumptions. For instance, some forms of a Principal's inattention can increase Agent welfare due to increased compensation, while other forms of inattention can decrease Agent welfare by encouraging extra work effort. Additionally, new strategies emerge compared to those under rationality assumptions, e.g., Agents are incentivized to increase work effort. These results suggest RIRL is a powerful tool towards building AI agents that can mimic real human behavior.
翻訳日:2022-02-06 08:58:59 公開日:2022-01-18
# 数学者のためのデータ倫理に関する非専門家の紹介

A Non-Expert's Introduction to Data Ethics for Mathematicians ( http://arxiv.org/abs/2201.07794v1 )

ライセンス: Link先を確認
Mason A. Porter(参考訳) データ倫理について簡単に紹介します。 私の関心は数学者ですが、議論が他の人にとっても役に立つことを願っています。 私はデータ倫理の専門家ではありません。 読者には、私が議論するリソースを調べて、データ倫理やデータやデータ分析の社会的な意味について慎重に検討し続けてほしいとお勧めします。

I give a short introduction to data ethics. My focal audience is mathematicians, but I hope that my discussion will also be useful to others. I am not an expert about data ethics, and my article is only a starting point. I encourage readers to examine the resources that I discuss and to continue to reflect carefully on data ethics and on the societal implications of data and data analysis throughout their lives.
翻訳日:2022-01-30 11:23:08 公開日:2022-01-18
# ネットワークによる科学概念のリンク予測 - science4cast のコンペティション

Network-based link prediction of scientific concepts -- a Science4Cast competition entry ( http://arxiv.org/abs/2201.07978v1 )

ライセンス: Link先を確認
Joao P. Moutinho, Bruno Coutinho, Lorenzo Buffoni(参考訳) 我々は,Science4Cast 2021のコンペティションにおいて,複雑な科学概念のネットワークにおけるリンクを予測するモデルについて報告する。 ネットワークは高次ノードのリンクを強く好んでおり、このモデルの主な特徴である一般的な概念間の新しい科学的なつながりが主に形成されていることを示す。 この人気概念の他に、共通の隣人の正規化数によって定量化されたノード間の類似度尺度を用いてモデルを改善する。 最後に,より古いリンクと新しいリンクの両方が予測に影響を及ぼす時間重み付き隣接行列を考慮し,それぞれルート化された概念と美術研究の状況を表現することにより,モデルをさらに改善できることを示す。

We report on a model built to predict links in a complex network of scientific concepts, in the context of the Science4Cast 2021 competition. We show that the network heavily favours linking nodes of high degree, indicating that new scientific connections are primarily made between popular concepts, which constitutes the main feature of our model. Besides this notion of popularity, we use a measure of similarity between nodes quantified by a normalized count of their common neighbours to improve the model. Finally, we show that the model can be further improved by considering a time-weighted adjacency matrix with both older and newer links having higher impact in the predictions, representing rooted concepts and state of the art research, respectively.
翻訳日:2022-01-21 14:59:11 公開日:2022-01-18
# (参考訳) ソーシャルメディア分析のためのNLPモデルの構築とエンティティ認識に関するTweebank Corpusの注釈

Annotating the Tweebank Corpus on Named Entity Recognition and Building NLP Models for Social Media Analysis ( http://arxiv.org/abs/2201.07281v1 )

ライセンス: CC BY 4.0
Hang Jiang, Yining Hua, Doug Beeferman, Deb Roy(参考訳) Twitterメッセージ(つぶやき)のようなソーシャルメディアデータは、短い、騒々しく、口語的な性質のため、NLPシステムに特別な課題をもたらす。 Named Entity Recognition (NER) や構文解析のようなタスクは、優れたパフォーマンスを得るために高度にドメインマッチングされたトレーニングデータを必要とする。 ツイートの注釈付きデータセットが公開されているが、これらはすべて一度にひとつのタスクを解決するために構築されている。 まだ、構文解析(例えば、音声タグ付け、依存性解析)とツイートのNERのための完全なトレーニングコーパスは存在しない。 本研究では、Tweebank V2(TB2)に基づくNERコーパスであるTweebank-NERを作成し、これらのデータセットを用いて最先端のNLPモデルをトレーニングする。 まず、Amazon Mechanical Turkを使ってTB2に名前付きエンティティをアノテートし、アノテーションの品質を測定します。 我々は、新しいベンチマークでStanza NERモデルをトレーニングし、他の非トランスフォーマーNERシステムとの競合性能を達成する。 最後に、他のtwitter nlpモデル(トークン、レンマタイザ、スピーチタガーの一部、依存性パーサ)をstanzaに基づいてtb2にトレーニングし、これらのタスクで最先端または競争力の高いパフォーマンスを実現します。 将来のつぶやきNLP研究のために、データセットをリリースし、モデルを"既成の"方法で使用できるようにします。 ソースコード、データ、事前学習されたモデルは、下記のとおり利用できる。

Social media data such as Twitter messages ("tweets") pose a particular challenge to NLP systems because of their short, noisy, and colloquial nature. Tasks such as Named Entity Recognition (NER) and syntactic parsing require highly domain-matched training data for good performance. While there are some publicly available annotated datasets of tweets, they are all purpose-built for solving one task at a time. As yet there is no complete training corpus for both syntactic analysis (e.g., part of speech tagging, dependency parsing) and NER of tweets. In this study, we aim to create Tweebank-NER, an NER corpus based on Tweebank V2 (TB2), and we use these datasets to train state-of-the-art NLP models. We first annotate named entities in TB2 using Amazon Mechanical Turk and measure the quality of our annotations. We train a Stanza NER model on the new benchmark, achieving competitive performance against other non-transformer NER systems. Finally, we train other Twitter NLP models (a tokenizer, lemmatizer, part of speech tagger, and dependency parser) on TB2 based on Stanza, and achieve state-of-the-art or competitive performance on these tasks. We release the dataset and make the models available to use in an "off-the-shelf" manner for future Tweet NLP research. Our source code, data, and pre-trained models are available at: \url{https://github.com/social-machines/TweebankNLP}.
翻訳日:2022-01-21 02:13:10 公開日:2022-01-18
# (参考訳) TranAD:多変量時系列データにおける異常検出のためのディープトランスネットワーク

TranAD: Deep Transformer Networks for Anomaly Detection in Multivariate Time Series Data ( http://arxiv.org/abs/2201.07284v1 )

ライセンス: CC BY 4.0
Shreshth Tuli, Giuliano Casale and Nicholas R. Jennings(参考訳) 多変量時系列データの効率的な異常検出と診断は、現代の産業応用にとって非常に重要である。 しかし、異常観測を迅速かつ正確に特定できるシステムを構築することは難しい問題である。 これは、異常ラベルの欠如、高データボラティリティ、そして現代のアプリケーションにおける超低推論時間の要求によるものである。 異常検出のためのディープラーニングアプローチが近年開発されているにも関わらず、これらすべての課題に対処できるものはごくわずかである。 本稿では,注意に基づくシーケンスエンコーダを用いて,データの時間的傾向を把握した推論を迅速に行うための,深層トランスフォーマネットワークに基づく異常検出・診断モデルであるtranadを提案する。 tranadはフォーカススコアベースのセルフコンディショニングを使用して、堅牢なマルチモーダル特徴抽出と敵意トレーニングを実現し、安定性を得る。 さらに、モデルに依存しないメタラーニング(MAML)により、限られたデータを使ってモデルをトレーニングすることができる。 6つの公開データセットに関する大規模な実証研究により、TranADは、データと時間効率のトレーニングによる検出と診断のパフォーマンスにおいて、最先端のベースラインメソッドより優れていることが示された。 具体的には、TranADはF1スコアを最大17%増加させ、ベースラインと比較してトレーニング時間を最大99%削減する。

Efficient anomaly detection and diagnosis in multivariate time-series data is of great importance for modern industrial applications. However, building a system that is able to quickly and accurately pinpoint anomalous observations is a challenging problem. This is due to the lack of anomaly labels, high data volatility and the demands of ultra-low inference times in modern applications. Despite the recent developments of deep learning approaches for anomaly detection, only a few of them can address all of these challenges. In this paper, we propose TranAD, a deep transformer network based anomaly detection and diagnosis model which uses attention-based sequence encoders to swiftly perform inference with the knowledge of the broader temporal trends in the data. TranAD uses focus score-based self-conditioning to enable robust multi-modal feature extraction and adversarial training to gain stability. Additionally, model-agnostic meta learning (MAML) allows us to train the model using limited data. Extensive empirical studies on six publicly available datasets demonstrate that TranAD can outperform state-of-the-art baseline methods in detection and diagnosis performance with data and time-efficient training. Specifically, TranAD increases F1 scores by up to 17%, reducing training times by up to 99% compared to the baselines.
翻訳日:2022-01-21 01:55:44 公開日:2022-01-18
# (参考訳) 遺伝的指数家族のブレグマン偏差

Bregman Deviations of Generic Exponential Families ( http://arxiv.org/abs/2201.07306v1 )

ライセンス: CC BY 4.0
Sayak Ray Chowdhury, Patrick Saux, Odalric-Ambrym Maillard, Aditya Gopalan(参考訳) ラプラス法(Laplace method)とも呼ばれる混合手法の手法を再検討し、一般指数族における濃度現象について検討する。 家系の対数分割関数に付随するブレグマン分岐の性質とスーパーマーチンガーの混合法を組み合わせることで、家族のパラメータとパラメータの有限サンプル推定値との間のブレグマン分岐を制御するジェネリック境界を確立する。 私たちの境界は時間一様であり、古典的な \textit{information gain} を指数族に拡張する量として現れ、それを \textit{Bregman information gain} と呼ぶ。 実践者のために、我々はこの小説をガウシアン、ベルヌーイ、指数的およびチ二乗といったいくつかの古典群に束縛し、信頼集合の明示的な形式とブレグマン情報を得る。 さらに,結果の信頼度境界を時間一様濃度に対する最先端の代替案と比較し,この新手法が競合結果をもたらすことを示す。 最後に, 線形文脈の多腕バンディット問題に対して, 結果がどのように適用できるかを強調する。

We revisit the method of mixture technique, also known as the Laplace method, to study the concentration phenomenon in generic exponential families. Combining the properties of Bregman divergence associated with log-partition function of the family with the method of mixtures for super-martingales, we establish a generic bound controlling the Bregman divergence between the parameter of the family and a finite sample estimate of the parameter. Our bound is time-uniform and makes appear a quantity extending the classical \textit{information gain} to exponential families, which we call the \textit{Bregman information gain}. For the practitioner, we instantiate this novel bound to several classical families, e.g., Gaussian, Bernoulli, Exponential and Chi-square yielding explicit forms of the confidence sets and the Bregman information gain. We further numerically compare the resulting confidence bounds to state-of-the-art alternatives for time-uniform concentration and show that this novel method yields competitive results. Finally, we highlight how our results can be applied in a linear contextual multi-armed bandit problem.
翻訳日:2022-01-21 01:33:31 公開日:2022-01-18
# (参考訳) フェデレートクラスタリングに向けて:フェデレートファジィ$c$-meansアルゴリズム(ffcm)

Towards Federated Clustering: A Federated Fuzzy $c$-Means Algorithm (FFCM) ( http://arxiv.org/abs/2201.07316v1 )

ライセンス: CC BY 4.0
Morris Stallmann and Anna Wilbik(参考訳) フェデレーテッド・ラーニング(FL)は、分散データを持つ複数のパーティが共同で機械学習(ML)モデルをトレーニングし、すべてのデータをパーティにローカルに保持する環境である。 フェデレーションクラスタリング(Federated Clustering)は、すべてのデータをローカルに保ちながら、グローバルに類似したデータをグループ化する、FL内の研究分野である。 我々は、この研究領域がそれ自体にどのような関心を持つことができるのか、また、監視されたFLフレームワークにおける非独立に識別された(d.d.)データのような問題にどのように対処するかを説明する。 しかし、この研究の焦点は、フェデレーションクラスタリングへの貢献として、フェデレーションされたファジィ$c$-meansアルゴリズムをfl設定(ffcm)に拡張することである。 本研究では,グローバルクラスタセンターを計算し,その挙動を評価するための2つの手法を提案する。 この手法の1つは、挑戦的なシナリオであっても優れたグローバルクラスタを識別できるが、多くの課題が未解決であることを認めている。

Federated Learning (FL) is a setting where multiple parties with distributed data collaborate in training a joint Machine Learning (ML) model while keeping all data local at the parties. Federated clustering is an area of research within FL that is concerned with grouping together data that is globally similar while keeping all data local. We describe how this area of research can be of interest in itself, or how it helps addressing issues like non-independently-identically-distributed (i.i.d.) data in supervised FL frameworks. The focus of this work, however, is an extension of the federated fuzzy $c$-means algorithm to the FL setting (FFCM) as a contribution towards federated clustering. We propose two methods to calculate global cluster centers and evaluate their behaviour through challenging numerical experiments. We observe that one of the methods is able to identify good global clusters even in challenging scenarios, but also acknowledge that many challenges remain open.
翻訳日:2022-01-21 01:30:52 公開日:2022-01-18
# (参考訳) カーネル平均埋め込みを用いた解釈可能な単セル集合分類

Interpretable Single-Cell Set Classification with Kernel Mean Embeddings ( http://arxiv.org/abs/2201.07322v1 )

ライセンス: CC0 1.0
Siyuan Shan, Vishal Baskaran, Haidong Yi, Jolene Ranek, Natalie Stanley, Junier Oliva(参考訳) 現代の単細胞フローおよび質量サイトメトリー技術は、血液または組織サンプル内の個々の細胞のいくつかのタンパク質の発現を測定する。 各プロファイルされた生物学的サンプルは、数十万の多次元細胞特徴ベクトルによって表現され、各生物学的サンプルの表現型を機械学習モデルで予測するために高い計算コストがかかる。 このような大きな集合の濃度は、個々のセルが最終的な予測にどのように影響するかを追跡するのが困難であるため、機械学習モデルの解釈可能性を制限する。 Kernel Mean Embeddingを用いて、各プロファイルされた生体試料の細胞景観を符号化し、簡単な線形分類器を訓練し、3つのフローおよび質量サイトメトリーデータセットの最先端の分類精度を達成できる。 私たちのモデルはパラメータは少ないが、数百万のパラメータを持つディープラーニングモデルと同じように動作する。 ディープラーニングのアプローチとは対照的に,モデルの線形性とサブ選択ステップによって,分類結果の解釈が容易になる。 また, クラスタリング解析により, 細胞多様性を臨床表現型と結びつける上で, 高い生物学的解釈性が得られた。

Modern single-cell flow and mass cytometry technologies measure the expression of several proteins of the individual cells within a blood or tissue sample. Each profiled biological sample is thus represented by a set of hundreds of thousands of multidimensional cell feature vectors, which incurs a high computational cost to predict each biological sample's associated phenotype with machine learning models. Such a large set cardinality also limits the interpretability of machine learning models due to the difficulty in tracking how each individual cell influences the ultimate prediction. Using Kernel Mean Embedding to encode the cellular landscape of each profiled biological sample, we can train a simple linear classifier and achieve state-of-the-art classification accuracy on 3 flow and mass cytometry datasets. Our model contains few parameters but still performs similarly to deep learning models with millions of parameters. In contrast with deep learning approaches, the linearity and sub-selection step of our model make it easy to interpret classification results. Clustering analysis further shows that our method admits rich biological interpretability for linking cellular heterogeneity to clinical phenotype.
翻訳日:2022-01-21 01:15:09 公開日:2022-01-18
# (参考訳) 分断共起ニューラルネットワークによる文法学習

Learning grammar with a divide-and-concur neural network ( http://arxiv.org/abs/2201.07341v1 )

ライセンス: CC BY 4.0
Sean Deyo and Veit Elser(参考訳) 文脈自由文法推論に対する分割・収束反復予測手法を実装した。 自然言語処理の最先端モデルとは異なり、我々の手法は比較的少数の離散パラメータを必要とするため、推論された文法を直接解釈できる -- 文法的に有効な文を構築する方法の解から読み取ることができる。 このアプローチのもう1つの利点は、他のモデルが採用している数百ギガバイトのトレーニングデータと比較して、わずか数文から意味のある文法規則を推測できることです。 提案手法は,単語を分類し,ゼロから文法を推定し,既存の文法を抽出し,そのカテゴリや規則を精査し,既存の文法を抽出し,新しいデータで新しい単語に遭遇するにつれて語彙を拡大する手法である。

We implement a divide-and-concur iterative projection approach to context-free grammar inference. Unlike most state-of-the-art models of natural language processing, our method requires a relatively small number of discrete parameters, making the inferred grammar directly interpretable -- one can read off from a solution how to construct grammatically valid sentences. Another advantage of our approach is the ability to infer meaningful grammatical rules from just a few sentences, compared to the hundreds of gigabytes of training data many other models employ. We demonstrate several ways of applying our approach: classifying words and inferring a grammar from scratch, taking an existing grammar and refining its categories and rules, and taking an existing grammar and expanding its lexicon as it encounters new words in new data.
翻訳日:2022-01-21 00:58:49 公開日:2022-01-18
# (参考訳) 触媒材料の電子トモグラフィーにおける非平衡データのセマンティックセグメンテーションのための深層学習手法

A Deep Learning Approach for Semantic Segmentation of Unbalanced Data in Electron Tomography of Catalytic Materials ( http://arxiv.org/abs/2201.07342v1 )

ライセンス: CC BY 4.0
Arda Genc, Libor Kovarik, Hamish L. Fraser(参考訳) 不均質な触媒は複雑な表面構造とバルク構造を持ち、本質的なコントラストが比較的乏しく、しばしば触媒ナノ粒子(nps)のばらばらな分布を有しており、現在のディープラーニング法を含む画像分割の重要な課題となっている。 そこで本研究では, クラス不均衡状態において, $\gamma$-allumina/pt 触媒材料の多クラスセグメンテーションに対して, 深層学習に基づくアプローチを適用する。 具体的には、重み付き焦点損失を損失関数としてu-netの完全畳み込みネットワークアーキテクチャにアタッチした。 dice類似度係数 (dsc) , 再現率, 精度, ハウスドルフ距離 (hd) を用いて, 地表面と予測セグメンテーションの重なりについて検討した。 重み付き焦点損失関数を用いたU-Netモデルを用いて平均DSCスコアを0.96$\pm$0.003,Pt NPsセグメンテーションタスクで0.84$\pm$0.003とした。 平均境界オーバーラップ誤差は90パーセントのHDにおいて,$\gamma$-AlluminaおよびPt NPsセグメンテーションに対して2nm未満である。 広角環状暗視野(haadf)走査型透過型電子顕微鏡(stem)による大規模データ集合の自動セグメンテーションにより,$\gamma$-アルミナの複雑な表面形態とpt npsとの関係を3dで可視化した。

Heterogeneous catalysts possess complex surface and bulk structures, relatively poor intrinsic contrast, and often a sparse distribution of the catalytic nanoparticles (NPs), posing a significant challenge for image segmentation, including the current state-of-the-art deep learning methods. To tackle this problem, we apply a deep learning-based approach for the multi-class semantic segmentation of a $\gamma$-Alumina/Pt catalytic material in a class imbalance situation. Specifically, we used the weighted focal loss as a loss function and attached it to the U-Net's fully convolutional network architecture. We assessed the accuracy of our results using Dice similarity coefficient (DSC), recall, precision, and Hausdorff distance (HD) metrics on the overlap between the ground-truth and predicted segmentations. Our adopted U-Net model with the weighted focal loss function achieved an average DSC score of 0.96 $\pm$ 0.003 in the $\gamma$-Alumina support material and 0.84 $\pm$ 0.03 in the Pt NPs segmentation tasks. We report an average boundary-overlap error of less than 2 nm at the 90th percentile of HD for $\gamma$-Alumina and Pt NPs segmentations. The complex surface morphology of the $\gamma$-Alumina and its relation to the Pt NPs were visualized in 3D by the deep learning-assisted automatic segmentation of a large data set of high-angle annular dark-field (HAADF) scanning transmission electron microscopy (STEM) tomography reconstructions.
翻訳日:2022-01-21 00:38:38 公開日:2022-01-18
# (参考訳) 肺スワッピングオートエンコーダ:胸部X線像の遠方構造-テクスチャ表現の学習

Lung Swapping Autoencoder: Learning a Disentangled Structure-texture Representation of Chest Radiographs ( http://arxiv.org/abs/2201.07344v1 )

ライセンス: CC BY 4.0
Lei Zhou, Joseph Bae, Huidong Liu, Gagandeep Singh, Jeremy Green, Amit Gupta, Dimitris Samaras, and Prateek Prasanna(参考訳) 胸部X線写真(CXR)のラベル付きデータセットは,アノテーションのコストが高いため取得が困難である。 したがって、ラベル付きデータを持たないタスクの恩恵を受けるために、教師なしの方法で堅牢で転送可能な表現を学ぶことが望ましい。 例えば、COVID-19のような多くの肺疾患は、解剖学的構造ではなく肺組織のテクスチャの変化として現れる。 したがって, 構造変化の影響を受けずにテクスチャのみを研究することは, 下流の予測および予測モデリングタスクにとって有利であると仮定した。 本稿では,cxrの因子化表現を学習し,組織因子からテクスチャ因子を分離する,肺交換オートエンコーダ(lsae)を提案する。 特に、逆行訓練により、lsaeは、ある画像内の肺形状を保存しつつ、別の画像の肺組織を継承するハイブリッド画像を生成するように最適化される。 本研究では,ChestX-ray14 (N=112,120) 上での LSAE のテクスチャエンコーダ $Enc^t$ と COVOC (N=340 (Subset-1) + 53 (Subset-2) ) の有効性を示す。 どちらのデータセットでも、ベースラインのInception v3よりも77%小さいLSAEの$Enc^t$を微調整することで、最先端に到達または超えることができます。 さらに、同様のモデル予算を持つ半自己管理設定では、LSAEの$Enc^t$も最先端のMoCoと競合する。 テクスチャと形状因子を「再混合」することで、トレーニングセットを増強できる有意義なハイブリッド画像を生成する。 このデータ拡張方法はCOVOC予測性能をさらに向上させることができる。 微調整なしでSubset-2上でSubset-1のトレーニングモデルを直接評価しても、改善は一貫しています。

Well-labeled datasets of chest radiographs (CXRs) are difficult to acquire due to the high cost of annotation. Thus, it is desirable to learn a robust and transferable representation in an unsupervised manner to benefit tasks that lack labeled data. Unlike natural images, medical images have their own domain prior; e.g., we observe that many pulmonary diseases, such as the COVID-19, manifest as changes in the lung tissue texture rather than the anatomical structure. Therefore, we hypothesize that studying only the texture without the influence of structure variations would be advantageous for downstream prognostic and predictive modeling tasks. In this paper, we propose a generative framework, the Lung Swapping Autoencoder (LSAE), that learns factorized representations of a CXR to disentangle the texture factor from the structure factor. Specifically, by adversarial training, the LSAE is optimized to generate a hybrid image that preserves the lung shape in one image but inherits the lung texture of another. To demonstrate the effectiveness of the disentangled texture representation, we evaluate the texture encoder $Enc^t$ in LSAE on ChestX-ray14 (N=112,120), and our own multi-institutional COVID-19 outcome prediction dataset, COVOC (N=340 (Subset-1) + 53 (Subset-2)). On both datasets, we reach or surpass the state-of-the-art by finetuning $Enc^t$ in LSAE that is 77% smaller than a baseline Inception v3. Additionally, in semi-and-self supervised settings with a similar model budget, $Enc^t$ in LSAE is also competitive with the state-of-the-art MoCo. By "re-mixing" the texture and shape factors, we generate meaningful hybrid images that can augment the training set. This data augmentation method can further improve COVOC prediction performance. The improvement is consistent even when we directly evaluate the Subset-1 trained model on Subset-2 without any fine-tuning.
翻訳日:2022-01-21 00:21:19 公開日:2022-01-18
# (参考訳) メタラーニングのための学習テンソル表現

Learning Tensor Representations for Meta-Learning ( http://arxiv.org/abs/2201.07348v1 )

ライセンス: CC BY 4.0
Samuel Deng, Yilin Guo, Daniel Hsu, and Debmalya Mandal(参考訳) 多様なタスクの集合からメタラーニングのための共有表現のテンソルモデルを導入する。 メタラーニングのための線形表現の学習は、異なるタスクに共通する共有表現が存在すると仮定し、追加のタスク固有の可観測側情報を考慮しない。 この研究では、タスクの観察されたタスクの特徴に適応できる3ドルのテンソルでメタパラメータをモデル化します。 基礎となるテンソルを推定する2つの方法を提案する。 第1の方法はテンソル回帰問題を解き、データ生成過程の自然な仮定の下で働く。 第2の方法は、追加の分布仮定の下でモーメント法を用い、タスク数の観点からサンプルの複雑さを改善した。 また,メタテストフェーズに注目し,タスク固有のパラメータを新しいタスクで推定する。 最初のステップから推定テンソルを置換することで、新しいタスクのごくわずかなサンプルでタスク固有のパラメータを推定できるため、メタラーニングのためのテンソル表現の学習の利点が示されます。 最後に,シミュレーションと実世界のいくつかのデータセットを用いて,提案手法を評価し,メタラーニングのための共有表現の以前の線形モデルよりも改善したことを示す。

We introduce a tensor-based model of shared representation for meta-learning from a diverse set of tasks. Prior works on learning linear representations for meta-learning assume that there is a common shared representation across different tasks, and do not consider the additional task-specific observable side information. In this work, we model the meta-parameter through an order-$3$ tensor, which can adapt to the observed task features of the task. We propose two methods to estimate the underlying tensor. The first method solves a tensor regression problem and works under natural assumptions on the data generating process. The second method uses the method of moments under additional distributional assumptions and has an improved sample complexity in terms of the number of tasks. We also focus on the meta-test phase, and consider estimating task-specific parameters on a new task. Substituting the estimated tensor from the first step allows us estimating the task-specific parameters with very few samples of the new task, thereby showing the benefits of learning tensor representations for meta-learning. Finally, through simulation and several real-world datasets, we evaluate our methods and show that it improves over previous linear models of shared representations for meta-learning.
翻訳日:2022-01-21 00:02:22 公開日:2022-01-18
# 入射型MIMO-OFDMシステムのためのデータ駆動深層学習によるハイブリッドビームフォーミング

Data-Driven Deep Learning Based Hybrid Beamforming for Aerial Massive MIMO-OFDM Systems with Implicit CSI ( http://arxiv.org/abs/2201.06778v1 )

ライセンス: Link先を確認
Zhen Gao, Minghui Wu, Chun Hu, Feifei Gao, Guanghui Wen, Dezhi Zheng, Jun Zhang(参考訳) 航空用ハイブリッドマルチインプット多重出力(MIMO)と直交周波数分割多重化(OFDM)システムでは、スペクトル効率のよい広帯域マルチユーザハイブリッドビームをパイロットとフィードバックのオーバーヘッドに制限のある設計方法が困難である。 そこで本研究では,鍵伝送モジュールをエンド・ツー・エンド(E2E)ニューラルネットワークとしてモデル化することにより,暗黙のチャネル状態情報(CSI)を持つ時間分割二重化(TDD)と周波数分割二重化(FDD)の両方のためのデータ駆動型深層学習(DL)に基づく統合ハイブリッドビームフォーミングフレームワークを提案する。 TDDシステムでは、提案されたDLベースのアプローチは、E2Eニューラルネットワークとして、アップリンクパイロットの組み合わせとダウンリンクハイブリッドビームフォーミングモジュールを共同でモデル化する。 FDDシステムにおいて、我々は、E2Eニューラルネットワークとして、ダウンリンクパイロットトランスミッション、アップリンクCSIフィードバック、およびダウンリンクハイブリッドビームフォーミングモジュールを共同でモデル化する。 異なるモジュールを個別に処理する従来の手法とは異なり、提案手法は最適化対象の和率で全てのモジュールを同時に最適化する。 したがって、地上から地上までのMIMO-OFDMチャネルサンプルの特性を知覚することにより、DLベースのE2Eニューラルネットワークは、チャネルからビームフォーマへのマッピング機能を確立でき、パイロットとフィードバックのオーバーヘッドを低減して、明示的なチャネル再構築を回避することができる。 さらに、実用的な低分解能位相シフタ(pss)は量子化制約を導入し、ニューラルネットワークを訓練する際には難解な勾配バックプロパゲーションをもたらす。 位相量子化誤差による性能損失を軽減するため、e2eニューラルネットワークを理想の無限分解pssを前提とした事前学習ネットワークに基づいてさらに微調整する転送学習戦略を採用する。 その結果,dlベースのスキームは最先端のスキームよりも大きなアドバンテージを持つことがわかった。

In an aerial hybrid massive multiple-input multiple-output (MIMO) and orthogonal frequency division multiplexing (OFDM) system, how to design a spectral-efficient broadband multi-user hybrid beamforming with a limited pilot and feedback overhead is challenging. To this end, by modeling the key transmission modules as an end-to-end (E2E) neural network, this paper proposes a data-driven deep learning (DL)-based unified hybrid beamforming framework for both the time division duplex (TDD) and frequency division duplex (FDD) systems with implicit channel state information (CSI). For TDD systems, the proposed DL-based approach jointly models the uplink pilot combining and downlink hybrid beamforming modules as an E2E neural network. While for FDD systems, we jointly model the downlink pilot transmission, uplink CSI feedback, and downlink hybrid beamforming modules as an E2E neural network. Different from conventional approaches separately processing different modules, the proposed solution simultaneously optimizes all modules with the sum rate as the optimization object. Therefore, by perceiving the inherent property of air-to-ground massive MIMO-OFDM channel samples, the DL-based E2E neural network can establish the mapping function from the channel to the beamformer, so that the explicit channel reconstruction can be avoided with reduced pilot and feedback overhead. Besides, practical low-resolution phase shifters (PSs) introduce the quantization constraint, leading to the intractable gradient backpropagation when training the neural network. To mitigate the performance loss caused by the phase quantization error, we adopt the transfer learning strategy to further fine-tune the E2E neural network based on a pre-trained network that assumes the ideal infinite-resolution PSs. Numerical results show that our DL-based schemes have considerable advantages over state-of-the-art schemes.
翻訳日:2022-01-20 15:27:32 公開日:2022-01-18
# 可逆的部分モジュラー関数のスパース化

Sparsification of Decomposable Submodular Functions ( http://arxiv.org/abs/2201.07289v1 )

ライセンス: Link先を確認
Akbar Rafiey, Yuichi Yoshida(参考訳) サブモジュール関数は多くの機械学習とデータマイニングタスクの中核にある。 これらのタスクの多くに対する根底となる部分モジュラ函数は分解可能である、すなわちいくつかの単純部分モジュラ函数の和である。 しかし、多くのデータ集約型アプリケーションでは、元の関数の根底にある部分モジュラ関数の数が非常に多いため、処理には非常に多くの時間が必要であり、あるいはメインメモリに収まらない。 そこで本研究では,少数の部分モジュラー関数の(重み付けされた)和である元の関数の正確な近似を求めることを目的とした,分解可能な部分モジュラー関数に対するスパーシフィケーションの概念を導入する。 我々の主な結果は多項式時間ランダム化スパーシフィケーションアルゴリズムであり、出力で使用される関数の期待数は、元の関数の基底部分モジュラ函数の数に依存しない。 また,マトロイドや濃度制約などの制約下でのアルゴリズムの有効性についても検討した。 我々は,アルゴリズムの性能に関する実証的研究により,理論解析を補完する。

Submodular functions are at the core of many machine learning and data mining tasks. The underlying submodular functions for many of these tasks are decomposable, i.e., they are sum of several simple submodular functions. In many data intensive applications, however, the number of underlying submodular functions in the original function is so large that we need prohibitively large amount of time to process it and/or it does not even fit in the main memory. To overcome this issue, we introduce the notion of sparsification for decomposable submodular functions whose objective is to obtain an accurate approximation of the original function that is a (weighted) sum of only a few submodular functions. Our main result is a polynomial-time randomized sparsification algorithm such that the expected number of functions used in the output is independent of the number of underlying submodular functions in the original function. We also study the effectiveness of our algorithm under various constraints such as matroid and cardinality constraints. We complement our theoretical analysis with an empirical study of the performance of our algorithm.
翻訳日:2022-01-20 15:26:33 公開日:2022-01-18
# 妥協行動指標を用いたサンドボックスサンプル分類

Sandbox Sample Classification Using Behavioral Indicators of Compromise ( http://arxiv.org/abs/2201.07359v1 )

ライセンス: Link先を確認
M. Andrecut(参考訳) Compromiseの振舞い指標は、仮想実行環境で実行されるシステム関数呼び出しを観察してサンプルの振舞いを抽出する様々な自動手法に関連付けられている。 したがって、各サンプルは、サンドボックス環境におけるサンプル挙動によって引き起こされる一連のbicによって記述される。 ここでは,引き起こされたBICのリストに基づいて,サンドボックスサンプルをMALICIOUSあるいはBENIGNに分類する機械学習手法について論じる。 ロジスティック回帰やネイブベイズ分類のような伝統的な手法に加えて、統計学的モンテカルロ法から着想を得た別のアプローチについても論じる。 数値結果はThreatGRIDとReversingLabsのデータで示される。

Behavioral Indicators of Compromise are associated with various automated methods used to extract the sample behavior by observing the system function calls performed in a virtual execution environment. Thus, every sample is described by a set of BICs triggered by the sample behavior in the sandbox environment. Here we discuss a Machine Learning approach to the classification of the sandbox samples as MALICIOUS or BENIGN, based on the list of triggered BICs. Besides the more traditional methods like Logistic Regression and Naive Bayes Classification we also discuss a different approach inspired by the statistical Monte Carlo methods. The numerical results are illustrated using ThreatGRID and ReversingLabs data.
翻訳日:2022-01-20 14:53:47 公開日:2022-01-18
# 平均場状態におけるニューラルネットワーク近似を用いたエントロピー正規化MDPのポリシー勾配の収束

Convergence of policy gradient for entropy regularized MDPs with neural network approximation in the mean-field regime ( http://arxiv.org/abs/2201.07296v1 )

ライセンス: Link先を確認
Bekzhan Kerimkulov and James-Michael Leahy and David \v{S}i\v{s}ka and Lukasz Szpruch(参考訳) 無限水平連続状態および行動空間,エントロピー規則化マルコフ決定過程(MDPs)に対する政策勾配のグローバル収束について検討する。 平均場環境における(隠れ層)ニューラルネットワーク近似を用いたソフトマックスポリシーを考える。 関連する平均場確率測定における追加のエントロピー正則化を加え、対応する勾配流を2-ワッサーシュタイン計量で研究する。 勾配流に沿って目的関数が増大していることを示す。 さらに、平均場測度の項による正規化が十分であれば、勾配流は指数関数的に一意な定常解に収束し、これは正規化mdpの目的の唯一の最大化である。 最後に, 定式化パラメータと初期条件に関して, 勾配流に沿った値関数の感度について検討した。 本研究は,非線型フォッカー-プランク-コルモゴロフ方程式の注意深い解析と,エントロピー正規化mdpにおける政策勾配のグローバル収束率を定量化するmei et al. 2020 と agarwal et al. 2020 の先駆的研究を拡張したものである。

We study the global convergence of policy gradient for infinite-horizon, continuous state and action space, entropy-regularized Markov decision processes (MDPs). We consider a softmax policy with (one-hidden layer) neural network approximation in a mean-field regime. Additional entropic regularization in the associated mean-field probability measure is added, and the corresponding gradient flow is studied in the 2-Wasserstein metric. We show that the objective function is increasing along the gradient flow. Further, we prove that if the regularization in terms of the mean-field measure is sufficient, the gradient flow converges exponentially fast to the unique stationary solution, which is the unique maximizer of the regularized MDP objective. Lastly, we study the sensitivity of the value function along the gradient flow with respect to regularization parameters and the initial condition. Our results rely on the careful analysis of non-linear Fokker--Planck--Kolmogorov equation and extend the pioneering work of Mei et al. 2020 and Agarwal et al. 2020, which quantify the global convergence rate of policy gradient for entropy-regularized MDPs in the tabular setting.
翻訳日:2022-01-20 14:02:30 公開日:2022-01-18
# 超音波の重症度向上のための弱教師付きコントラスト学習

Weakly Supervised Contrastive Learning for Better Severity Scoring of Lung Ultrasound ( http://arxiv.org/abs/2201.07357v1 )

ライセンス: Link先を確認
Gautam Rajendrakumar Gare, Hai V. Tran, Bennett P deBoisblanc, Ricardo Luis Rodriguez, John Michael Galeotti(参考訳) 新型コロナウイルス(COVID-19)の感染拡大に伴い、超音波は患者のベッドサイドモニタリングに有効なツールとして登場した。 これにより、AIに基づく診断と分析に使用できる大量の肺超音波スキャンが利用可能になった。 超音波スキャンの出現をスコアリングするaiベースの重症度スコアリングモデルがいくつか提案されている。 AIモデルは、標準化された視覚的特徴に基づいて手動でラベル付けされる超音波出現度スコアを使用して訓練される。 ビデオクリップ中の全ての超音波フレームにラベルをつけるという課題に対処する。 比較学習法では,ビデオクリップの重大度ラベルを個々のフレームに対して弱い重大度ラベルとして扱う。 従来のクロスエントロピー損失に基づくトレーニングよりも優れた性能を示す。 フレーム重大度予測とフレーム重大度予測を組み合わせることで、フレームベースモデルがビデオベースTSMモデルに匹敵する性能を、パブリックソースとプライベートソースを組み合わせた大規模なデータセット上で達成することを示す。

With the onset of the COVID-19 pandemic, ultrasound has emerged as an effective tool for bedside monitoring of patients. Due to this, a large amount of lung ultrasound scans have been made available which can be used for AI based diagnosis and analysis. Several AI-based patient severity scoring models have been proposed that rely on scoring the appearance of the ultrasound scans. AI models are trained using ultrasound-appearance severity scores that are manually labeled based on standardized visual features. We address the challenge of labeling every ultrasound frame in the video clips. Our contrastive learning method treats the video clip severity labels as noisy weak severity labels for individual frames, thus requiring only video-level labels. We show that it performs better than the conventional cross-entropy loss based training. We combine frame severity predictions to come up with video severity predictions and show that the frame based model achieves comparable performance to a video based TSM model, on a large dataset combining public and private sources.
翻訳日:2022-01-20 13:59:24 公開日:2022-01-18
# ニューラルネットワークを用いた架空の言語の語彙拡張

Extending the Vocabulary of Fictional Languages using Neural Networks ( http://arxiv.org/abs/2201.07288v1 )

ライセンス: Link先を確認
Thomas Zacharias, Ashutosh Taklikar, Raja Giryes(参考訳) 近年、小説、映画、テレビ番組、漫画、ビデオゲームなどで架空の言語が人気を博している。 これらの架空の言語のいくつかは完全な語彙を持っているが、多くはそうではない。 我々はこの問題に対する深層学習ソリューションを提案する。 スタイルトランスファーと機械翻訳ツールを用いて、対象とする架空の言語に対して新たな単語を生成し、作成者のスタイルを維持しながら、この言語語彙を拡張する。

Fictional languages have become increasingly popular over the recent years appearing in novels, movies, TV shows, comics, and video games. While some of these fictional languages have a complete vocabulary, most do not. We propose a deep learning solution to the problem. Using style transfer and machine translation tools, we generate new words for a given target fictional language, while maintaining the style of its creator, hence extending this language vocabulary.
翻訳日:2022-01-20 13:58:29 公開日:2022-01-18
# 臨床テキスト分析のためのプライバシー保護型ドメイン適応フレームワーク

A Privacy-Preserving Unsupervised Domain Adaptation Framework for Clinical Text Analysis ( http://arxiv.org/abs/2201.07317v1 )

ライセンス: Link先を確認
Qiyuan An, Ruijiang Li, Lin Gu, Hao Zhang, Qingyu Chen, Zhiyong Lu, Fei Wang, and Yingying Zhu(参考訳) 教師なし領域適応 (unsupervised domain adaptation, uda) は一般にラベルなしのターゲット領域データをソースドメインの分布に合わせ、分散シフト問題を緩和する。 標準的なUDAでは、ソースデータをターゲットと共有する必要がある。 ソースデータのプライバシを保護するため,まずソースデータの代わりにソースの特徴分布を共有することを提案する。 しかしながら、ソースの特徴分布のみを共有することは、ソースモデルへのブラックボックスアクセスによって個人のメンバシップを推測できるメンバーシップ推論攻撃に悩まされる可能性がある。 このプライバシー問題を解決するために,プライバシ保護ドメイン適応の未検討の問題をさらに研究し,ソースデータのプライバシを保護するための新たな差分プライバシートレーニング手法を提案する。 差分プライバシー設定下でガウス混合モデル(gmms)によってソース特徴分布をモデル化し、ターゲットクライアントに適応させるために送信する。 ターゲットクライアントはGMMから異なるプライベートソース機能を再サンプリングし、最先端のUDAバックボーンを持つターゲットデータに適応する。 提案手法により、ソースデータプロバイダは、ドメイン適応時にソースデータのプライバシの漏洩を回避し、ユーティリティを予約することができる。 提案手法の有用性とプライバシの損失を評価するために,2つの難易度の高い臨床テキストデータセットを用いて医療報告病名分類タスクに適用した。 提案手法は,テキスト分類タスクにわずかな性能の影響を伴って,ソースデータのプライバシを保存することができることを示す。

Unsupervised domain adaptation (UDA) generally aligns the unlabeled target domain data to the distribution of the source domain to mitigate the distribution shift problem. The standard UDA requires sharing the source data with the target, having potential data privacy leaking risks. To protect the source data's privacy, we first propose to share the source feature distribution instead of the source data. However, sharing only the source feature distribution may still suffer from the membership inference attack who can infer an individual's membership by the black-box access to the source model. To resolve this privacy issue, we further study the under-explored problem of privacy-preserving domain adaptation and propose a method with a novel differential privacy training strategy to protect the source data privacy. We model the source feature distribution by Gaussian Mixture Models (GMMs) under the differential privacy setting and send it to the target client for adaptation. The target client resamples differentially private source features from GMMs and adapts on target data with several state-of-art UDA backbones. With our proposed method, the source data provider could avoid leaking source data privacy during domain adaptation as well as reserve the utility. To evaluate our proposed method's utility and privacy loss, we apply our model on a medical report disease label classification task using two noisy challenging clinical text datasets. The results show that our proposed method can preserve source data's privacy with a minor performance influence on the text classification task.
翻訳日:2022-01-20 13:58:22 公開日:2022-01-18
# OSSID: Pose Estimation によるオンライン自己監視型インスタンス検出

OSSID: Online Self-Supervised Instance Detection by (and for) Pose Estimation ( http://arxiv.org/abs/2201.07309v1 )

ライセンス: Link先を確認
Qiao Gu, Brian Okorn, David Held(参考訳) 多くのロボット操作アルゴリズムにはリアルタイムオブジェクトポーズ推定が必要である。 しかし、オブジェクトのポーズ推定のための最先端の手法は特定のオブジェクトに対して訓練されるため、これらの手法は各新しいオブジェクトのポーズを推定するために再訓練する必要がある。 本稿では,高速検出アルゴリズムの学習を自己監視するために,スローゼロショットポーズ推定器を用いたossidフレームワークを提案する。 この高速検出器は、ポーズ推定器への入力をフィルタリングし、推論速度を大幅に改善する。 この自己教師付きトレーニングは,人間のアノテーションを必要とせずに,広く使用されている2つのオブジェクトポーズ推定および検出データセットにおいて,既存のゼロショット検出手法の性能を上回っている。 さらに, ポーズ推定の手法は, 画像の大部分をフィルタできるため, 推定速度が大幅に速くなることを示す。 そこで本手法は,検知器の自己教師型オンライン学習(スローポーズ推定器からの擬似ラベルを用いた学習)において,人間のアノテーションを必要とせず,リアルタイムなポーズ推定を行う。 追加資料とコードはhttps://georgegu1997.github.io/OSSID/にある。

Real-time object pose estimation is necessary for many robot manipulation algorithms. However, state-of-the-art methods for object pose estimation are trained for a specific set of objects; these methods thus need to be retrained to estimate the pose of each new object, often requiring tens of GPU-days of training for optimal performance. \revisef{In this paper, we propose the OSSID framework,} leveraging a slow zero-shot pose estimator to self-supervise the training of a fast detection algorithm. This fast detector can then be used to filter the input to the pose estimator, drastically improving its inference speed. We show that this self-supervised training exceeds the performance of existing zero-shot detection methods on two widely used object pose estimation and detection datasets, without requiring any human annotations. Further, we show that the resulting method for pose estimation has a significantly faster inference speed, due to the ability to filter out large parts of the image. Thus, our method for self-supervised online learning of a detector (trained using pseudo-labels from a slow pose estimator) leads to accurate pose estimation at real-time speeds, without requiring human annotations. Supplementary materials and code can be found at https://georgegu1997.github.io/OSSID/
翻訳日:2022-01-20 13:45:26 公開日:2022-01-18
# 病理画像を用いたAIによる癌診断と分類 : システムレビュー

AI-based Carcinoma Detection and Classification Using Histopathological Images: A Systematic Review ( http://arxiv.org/abs/2201.07231v1 )

ライセンス: Link先を確認
Swathi Prabhua, Keerthana Prasada, Antonio Robels-Kelly, Xuequan Lu(参考訳) 病理組織学的画像解析は癌診断の金の基準である。 がんは、すべてのがん症例の80%以上を構成するがんの亜型である。 扁平上皮癌と腺癌の2つの大きな亜型が生検スライドの顕微鏡的観察により診断された。 しかし、手動顕微鏡による評価は主観的かつ時間を要するプロセスである。 多くの研究者が癌の検出と分類を自動化する方法を報告している。 がん診断の自動化における人工知能(ai)の利用の増加もまた、ディープネットワークモデルの使用の大幅な増加を示している。 本体系的文献レビューでは,病理組織像を用いた癌診断における最先端のアプローチについて概観する。 研究は厳格な包含/排他基準を持つよく知られたデータベースから選択される。 論文を分類し,その手法を癌由来の特定の臓器に基づいて再認識した。 さらに,ai手法に関する文献を要約し,批判的課題と限界を強調するとともに,癌自動診断における今後の研究方向性について考察した。 選択された101項目のうち、ほとんどの研究は、画像サイズが異なるプライベートデータセットで実験を行い、63%から100%の精度を得た。 全体として、このレビューは、一般化されたAIベースの癌診断システムの必要性を強調している。 さらに、病理学者の評価を模倣する複数の拡大像から微視的な特徴を抽出するための説明可能なアプローチが望ましい。

Histopathological image analysis is the gold standard to diagnose cancer. Carcinoma is a subtype of cancer that constitutes more than 80% of all cancer cases. Squamous cell carcinoma and adenocarcinoma are two major subtypes of carcinoma, diagnosed by microscopic study of biopsy slides. However, manual microscopic evaluation is a subjective and time-consuming process. Many researchers have reported methods to automate carcinoma detection and classification. The increasing use of artificial intelligence (AI) in the automation of carcinoma diagnosis also reveals a significant rise in the use of deep network models. In this systematic literature review, we present a comprehensive review of the state-of-the-art approaches reported in carcinoma diagnosis using histopathological images. Studies are selected from well-known databases with strict inclusion/exclusion criteria. We have categorized the articles and recapitulated their methods based on specific organs of carcinoma origin. Further, we have summarized pertinent literature on AI methods, highlighted critical challenges and limitations, and provided insights on future research direction in automated carcinoma diagnosis. Out of 101 articles selected, most of the studies experimented on private datasets with varied image sizes, obtaining accuracy between 63% and 100%. Overall, this review highlights the need for a generalized AI-based carcinoma diagnostic system. Additionally, it is desirable to have accountable approaches to extract microscopic features from images of multiple magnifications that should mimic pathologists' evaluations.
翻訳日:2022-01-20 13:30:33 公開日:2022-01-18
# 安全制約を考慮した保守的分布強化学習

Conservative Distributional Reinforcement Learning with Safety Constraints ( http://arxiv.org/abs/2201.07286v1 )

ライセンス: Link先を確認
Hengrui Zhang, Youfang Lin, Sheng Han, Shuo Wang, Kai Lv(参考訳) 安全探索は、期待される長期コストが制約されるマルコフ決定問題とみなすことができる。 従来のオフポリシーアルゴリズムは、制約付き最適化問題をラグランジアン緩和法を導入することで対応する制約付き双対問題に変換する。 しかし、上記のアルゴリズムのコスト関数は不正確な推定を提供し、ラグランジュ乗算学習の不安定性を引き起こす。 本稿では,cdmpo(reservive distributional maximum a posteriori policy optimization)と呼ばれる新しいオフポリシー強化学習アルゴリズムを提案する。 まず,現状が制約を満たすかどうかを正確に判断するため,CDMPOは分散強化学習法を適用してQ関数とC関数を推定する。 そして、CDMPOは、探索過程における制約違反の数を減らすために、保守的な値関数損失を使用する。 さらに、Lagrange乗算器を安定に更新するために、Weighted Average Proportional Integral Derivative (WAPID) を利用する。 実験結果から,提案手法は早期探査プロセスにおける制約違反が少ないことが示された。 最終試験結果は,我々の手法がリスク管理に優れていることも示している。

Safety exploration can be regarded as a constrained Markov decision problem where the expected long-term cost is constrained. Previous off-policy algorithms convert the constrained optimization problem into the corresponding unconstrained dual problem by introducing the Lagrangian relaxation technique. However, the cost function of the above algorithms provides inaccurate estimations and causes the instability of the Lagrange multiplier learning. In this paper, we present a novel off-policy reinforcement learning algorithm called Conservative Distributional Maximum a Posteriori Policy Optimization (CDMPO). At first, to accurately judge whether the current situation satisfies the constraints, CDMPO adapts distributional reinforcement learning method to estimate the Q-function and C-function. Then, CDMPO uses a conservative value function loss to reduce the number of violations of constraints during the exploration process. In addition, we utilize Weighted Average Proportional Integral Derivative (WAPID) to update the Lagrange multiplier stably. Empirical results show that the proposed method has fewer violations of constraints in the early exploration process. The final test results also illustrate that our method has better risk control.
翻訳日:2022-01-20 13:29:57 公開日:2022-01-18
# (参考訳) 進化的多目的最適化における大規模候補解集合からのベンチマークサブセット選択

Benchmarking Subset Selection from Large Candidate Solution Sets in Evolutionary Multi-objective Optimization ( http://arxiv.org/abs/2201.06700v1 )

ライセンス: CC BY 4.0
Ke Shang and Tianye Shu and Hisao Ishibuchi and Yang Nan and Lie Meng Pang(参考訳) 進化的多目的最適化(EMO)の分野では、EMOアルゴリズムの最終個体群を出力として提示する。 しかし、最終人口には前世代に生成され廃棄された他の解が支配する解がしばしば含まれていることが示されている。 近年,新たな EMO フレームワークが提案され,アーカイブの進化中に生成したすべての非支配的ソリューションを格納し,アーカイブからのソリューションのサブセットを出力として選択することで,この問題を解決している。 このフレームワークの主要なコンポーネントは、通常、多数の候補ソリューションを格納するアーカイブからのサブセット選択である。 しかし、ほとんどの研究は環境選択のための小さな候補解集合に焦点を当てている。 大規模なサブセット選択のためのベンチマークテストスイートは存在しない。 本稿では,大規模候補解集合からのサブセット選択のためのベンチマークテストスイートの提案と,提案するテストスイートを用いた代表手法の比較により,この研究ギャップを埋めることを目的とする。 提案したテストスイートとベンチマーク研究は、研究者がEMO分野におけるサブセット選択法を理解し、使用し、比較し、開発するためのベースラインを提供する。

In the evolutionary multi-objective optimization (EMO) field, the standard practice is to present the final population of an EMO algorithm as the output. However, it has been shown that the final population often includes solutions which are dominated by other solutions generated and discarded in previous generations. Recently, a new EMO framework has been proposed to solve this issue by storing all the non-dominated solutions generated during the evolution in an archive and selecting a subset of solutions from the archive as the output. The key component in this framework is the subset selection from the archive which usually stores a large number of candidate solutions. However, most studies on subset selection focus on small candidate solution sets for environmental selection. There is no benchmark test suite for large-scale subset selection. This paper aims to fill this research gap by proposing a benchmark test suite for subset selection from large candidate solution sets, and comparing some representative methods using the proposed test suite. The proposed test suite together with the benchmarking studies provides a baseline for researchers to understand, use, compare, and develop subset selection methods in the EMO field.
翻訳日:2022-01-20 03:56:15 公開日:2022-01-18
# (参考訳) Deep $\Delta$-Interpolator によるモーションインベント

Motion Inbetweening via Deep $\Delta$-Interpolator ( http://arxiv.org/abs/2201.06701v1 )

ライセンス: CC BY 4.0
Boris N. Oreshkin, Antonios Valkanas, F\'elix G. Harvey, Louis-Simon M\'enard, Florent Bocquelet, Mark J. Coates(参考訳) アニメーション業界で一般的にはモーションインベンションとして知られるミドルフレームを合成するタスクは、通常の線形補間器をベースラインとしてデルタモードで深層学習補間器が動作した場合、より正確かつ効果的に解決できることを示す。 公開されているLaFAN1データセット上で実証的な結果を示す。 我々は、この結果をさらに一般化し、最後の既知のフレームの参照に対して$\Delta$-regimeが実行可能であることを示す。 これは、入力フレームに局所的な参照フレームの深いインベントワイニングが、以前の研究で提唱されたグローバル(世界)参照フレームのインベントワイニングよりも正確で堅牢である、というより一般的な結論を支持する。 私たちのコードはhttps://github.com/boreshkinai/delta-interpolatorで公開しています。

We show that the task of synthesizing missing middle frames, commonly known as motion inbetweening in the animation industry, can be solved more accurately and effectively if a deep learning interpolator operates in the delta mode, using the ordinary linear interpolator as a baseline. We demonstrate our empirical findings on the publicly available LaFAN1 dataset. We further generalize this result by showing that the $\Delta$-regime is viable with respect to the reference of the last known frame. This supports the more general conclusion that deep inbetweening in the reference frame local to input frames is more accurate and robust than inbetweening in the global (world) reference frame advocated in previous work. Our code is publicly available at https://github.com/boreshkinai/delta-interpolator.
翻訳日:2022-01-20 03:29:37 公開日:2022-01-18
# (参考訳) 近似学習:超体積寄与近似のための自動方向ベクトルセット生成

Learning to Approximate: Auto Direction Vector Set Generation for Hypervolume Contribution Approximation ( http://arxiv.org/abs/2201.06707v1 )

ライセンス: CC BY 4.0
Ke Shang and Tianye Shu and Hisao Ishibuchi(参考訳) ハイパーボリューム貢献は進化的多目的最適化(emo)において重要な概念である。 ハイパーボリュームベースのEMOアルゴリズムとハイパーボリュームサブセット選択アルゴリズムを含む。 その主な欠点は、多目的最適化への適用性を制限する高次元空間では計算コストが高いことである。 近年、超体積寄与を近似するためにR2インジケータ変種(例えば$R_2^{\text{HVC}}$インジケータ)が提案されている。 R_2^{\text{HVC}}$インジケータは、超体積寄与近似のための多くの方向ベクトルに沿った線分を使用する。 異なる方向ベクトル集合は異なる近似品質をもたらすことが示されている。 本稿では、$R_2^{\text{HVC}}$インジケータの方向ベクトル集合生成法である、近似に対するtextit{Learning to Approximate (LtA)}を提案する。 方向ベクトルセットは、トレーニングデータから自動的に学習される。 学習した方向ベクトル集合は、近似品質を改善するために$R_2^{\text{HVC}}$インジケータで使用できる。 提案手法の有用性を,R_2^{\text{HVC}}$インジケータの他の一般的な方向ベクトル集合生成法と比較することにより検討した。 実験の結果、ltaは高品質方向ベクトル集合を生成する他の方法よりも優れていることが示唆された。

Hypervolume contribution is an important concept in evolutionary multi-objective optimization (EMO). It involves in hypervolume-based EMO algorithms and hypervolume subset selection algorithms. Its main drawback is that it is computationally expensive in high-dimensional spaces, which limits its applicability to many-objective optimization. Recently, an R2 indicator variant (i.e., $R_2^{\text{HVC}}$ indicator) is proposed to approximate the hypervolume contribution. The $R_2^{\text{HVC}}$ indicator uses line segments along a number of direction vectors for hypervolume contribution approximation. It has been shown that different direction vector sets lead to different approximation quality. In this paper, we propose \textit{Learning to Approximate (LtA)}, a direction vector set generation method for the $R_2^{\text{HVC}}$ indicator. The direction vector set is automatically learned from training data. The learned direction vector set can then be used in the $R_2^{\text{HVC}}$ indicator to improve its approximation quality. The usefulness of the proposed LtA method is examined by comparing it with other commonly-used direction vector set generation methods for the $R_2^{\text{HVC}}$ indicator. Experimental results suggest the superiority of LtA over the other methods for generating high quality direction vector sets.
翻訳日:2022-01-20 03:12:59 公開日:2022-01-18
# (参考訳) アラビア語攻撃言語とヘイトスピーチのアンカーとしての絵文字

Emojis as Anchors to Detect Arabic Offensive Language and Hate Speech ( http://arxiv.org/abs/2201.06723v1 )

ライセンス: CC BY 4.0
Hamdy Mubarak, Sabit Hassan, Shammur Absar Chowdhury(参考訳) 話題やジャンルに関係なく、攻撃的かつ憎悪的なツイートを大量に収集する汎用的言語非依存手法を導入する。 絵文字に埋め込まれた言語外情報を利用して、大量の攻撃的ツイートを収集します。 提案手法をアラビア語のつぶやきに適用し、それを英語のつぶやきと比較する。 われわれはこれらの絵文字をTwitterの全タイムラインで攻撃性を表すために常に利用しているのを観察した。 我々は、攻撃的、きめ細かなヘイトスピーチ、粗悪、暴力コンテンツのための最大のアラビア語データセットを手作業で注釈し、公開します。 さらに,異なるトランスフォーマーアーキテクチャを用いた攻撃やヘイトスピーチの検出のためのデータセットのベンチマークを行い,詳細な言語解析を行った。 外部データセット -- 完全に異なる方法で収集されたtwitterデータセットと、twitter、youtube、facebookからのコメントを含むマルチプラットフォームデータセットで、一般化機能を評価します。 これらのデータセットの競合的な結果から,本手法を用いて収集したデータは攻撃言語の普遍的な特徴を捉えることが示唆された。 また,攻撃的コミュニケーションにおける一般的な単語,ヘイトスピーチの共通のターゲット,暴力ツイートの特定のパターン,文脈を理解し,文化や背景を考察し,サルカズムの存在を指摘し,分類ミスを指摘していた。

We introduce a generic, language-independent method to collect a large percentage of offensive and hate tweets regardless of their topics or genres. We harness the extralinguistic information embedded in the emojis to collect a large number of offensive tweets. We apply the proposed method on Arabic tweets and compare it with English tweets -- analyzing some cultural differences. We observed a constant usage of these emojis to represent offensiveness in throughout different timelines in Twitter. We manually annotate and publicly release the largest Arabic dataset for offensive, fine-grained hate speech, vulgar and violence content. Furthermore, we benchmark the dataset for detecting offense and hate speech using different transformer architectures and performed in-depth linguistic analysis. We evaluate our models on external datasets -- a Twitter dataset collected using a completely different method, and a multi-platform dataset containing comments from Twitter, YouTube and Facebook, for assessing generalization capability. Competitive results on these datasets suggest that the data collected using our method captures universal characteristics of offensive language. Our findings also highlight the common words used in offensive communications; common targets for hate speech; specific patterns in violence tweets and pinpoints common classification errors due to the need to understand the context, consider culture and background and the presence of sarcasm among others.
翻訳日:2022-01-20 02:33:13 公開日:2022-01-18
# (参考訳) 密度に基づくディープクラスタリングアンサンブルによる対話インテント誘導

Dialog Intent Induction via Density-based Deep Clustering Ensemble ( http://arxiv.org/abs/2201.06731v1 )

ライセンス: CC BY 4.0
Jiashu Pu, Guandan Chen, Yongzhu Chang, Xiaoxi Mao(参考訳) 既存のタスク指向チャットボットは、ユーザの発話意図や特定のタスクを実行するための重要な情報を決定するために、音声言語理解(SLU)システムに大きく依存している。 実生活アプリケーションでは、会話ログから時々新しいダイアログインテントを誘導し、ユーザエクスペリエンスを改善することが重要である。 本稿では,対話意図誘導のための密度に基づくDeep Clustering Ensemble (DDCE)法を提案する。 既存のK平均法と比較して,提案手法は,多数の外れ値が存在する実生活シナリオの処理に有効である。 データ利用を最大化するために,テキスト表現とクラスタリングアルゴリズムのハイパーパラメータを共同で最適化する。 さらに,オーバーフィッティング問題に対処するために,外部対応型クラスタリングアンサンブルフレームワークを設計した。 7つのデータセットにおける実験結果から,提案手法は他の最先端のベースラインを有意に上回っている。

Existing task-oriented chatbots heavily rely on spoken language understanding (SLU) systems to determine a user's utterance's intent and other key information for fulfilling specific tasks. In real-life applications, it is crucial to occasionally induce novel dialog intents from the conversation logs to improve the user experience. In this paper, we propose the Density-based Deep Clustering Ensemble (DDCE) method for dialog intent induction. Compared to existing K-means based methods, our proposed method is more effective in dealing with real-life scenarios where a large number of outliers exist. To maximize data utilization, we jointly optimize texts' representations and the hyperparameters of the clustering algorithm. In addition, we design an outlier-aware clustering ensemble framework to handle the overfitting issue. Experimental results over seven datasets show that our proposed method significantly outperforms other state-of-the-art baselines.
翻訳日:2022-01-20 01:44:52 公開日:2022-01-18
# (参考訳) Convolutional Cobweb: 2次元画像からのインクリメンタル学習モデル

Convolutional Cobweb: A Model of Incremental Learning from 2D Images ( http://arxiv.org/abs/2201.06740v1 )

ライセンス: CC BY 4.0
Christopher J. MacLellan and Harshil Thakur(参考訳) 本稿では,視覚画像のラベルをインクリメンタルに学習し,予測することのできる新しい概念形成手法を提案する。 この研究は、コンピュータビジョン研究からの畳み込み画像処理の概念と、人間が概念を漸進的に形成し、使用する方法に関する心理学的研究に基づく概念形成アプローチを統合する。 我々は、MNISTの桁認識タスクの漸進的な変化に適用することで、この新しいアプローチを実験的に評価する。 畳み込み処理をサポートしない概念形成アプローチであるcobwebと、畳み込み処理の複雑さが異なる2つの畳み込みニューラルネットワークとの比較を行った。 この研究は、現代のコンピュータビジョンのアイデアと古典的な概念形成研究を統合するための第一歩である。

This paper presents a new concept formation approach that supports the ability to incrementally learn and predict labels for visual images. This work integrates the idea of convolutional image processing, from computer vision research, with a concept formation approach that is based on psychological studies of how humans incrementally form and use concepts. We experimentally evaluate this new approach by applying it to an incremental variation of the MNIST digit recognition task. We compare its performance to Cobweb, a concept formation approach that does not support convolutional processing, as well as two convolutional neural networks that vary in the complexity of their convolutional processing. This work represents a first step towards unifying modern computer vision ideas with classical concept formation research.
翻訳日:2022-01-20 01:35:49 公開日:2022-01-18
# (参考訳) HashSet - ハッシュタグセグメンテーションのためのデータセット

HashSet -- A Dataset For Hashtag Segmentation ( http://arxiv.org/abs/2201.06741v1 )

ライセンス: CC BY 4.0
Prashant Kodali, Akshala Bhatnagar, Naman Ahuja, Manish Shrivastava, Ponnurangam Kumaraguru(参考訳) ハッシュタグセグメンテーションは、ハッシュタグを構成トークンに分割するタスクである。 ハッシュタグは、ユーザー生成の投稿の本質と、下流のタスクで役立つトピックや感情といった情報をエンコードすることが多い。 ハッシュタグは簡潔さを優先し、言語を音訳して混合し、バリエーションをスペルし、創造的な名前を持つエンティティを記述している。ハッシュタグセグメンテーションタスク(STAN、BOUN)に使用されるベンチマークデータセットは小さく、単一のツイートから抽出される。 しかし、データセットはハッシュタグの書き方の違いを反映し、ドメインや言語の特異性も考慮しなければならない。 モデルパフォーマンスはより広範なハッシュタグで評価されるべきであり、データセットは慎重にキュレートされるべきである。 この目的のために、以下からなるデータセットであるHashSetを提案する。 a) 手動で注釈付きデータセット1.9k b) 3.3M 緩やかな教師付きデータセット。 hashsetデータセットは、既存のデータセットと比較して異なるツイートセットからサンプリングされ、ハッシュタグセグメンテーションモデルを構築し検証するためのハッシュタグの代替ディストリビューションを提供する。 ハッシュタグセグメンテーションのためのSOTAモデルの性能は,提案したデータセットに実質的に低下し,提案データセットがモデルのトレーニングと評価のための代替ハッシュタグセットを提供することを示す。

Hashtag segmentation is the task of breaking a hashtag into its constituent tokens. Hashtags often encode the essence of user-generated posts, along with information like topic and sentiment, which are useful in downstream tasks. Hashtags prioritize brevity and are written in unique ways -- transliterating and mixing languages, spelling variations, creative named entities. Benchmark datasets used for the hashtag segmentation task -- STAN, BOUN -- are small in size and extracted from a single set of tweets. However, datasets should reflect the variations in writing styles of hashtags and also account for domain and language specificity, failing which the results will misrepresent model performance. We argue that model performance should be assessed on a wider variety of hashtags, and datasets should be carefully curated. To this end, we propose HashSet, a dataset comprising of: a) 1.9k manually annotated dataset; b) 3.3M loosely supervised dataset. HashSet dataset is sampled from a different set of tweets when compared to existing datasets and provides an alternate distribution of hashtags to build and validate hashtag segmentation models. We show that the performance of SOTA models for Hashtag Segmentation drops substantially on proposed dataset, indicating that the proposed dataset provides an alternate set of hashtags to train and assess models.
翻訳日:2022-01-20 01:24:51 公開日:2022-01-18
# (参考訳) 状態空間ガウス過程を用いたオンライン時系列異常検出

Online Time Series Anomaly Detection with State Space Gaussian Processes ( http://arxiv.org/abs/2201.06763v1 )

ライセンス: CC BY 4.0
Christian Bock and Fran\c{c}ois-Xavier Aubet and Jan Gasthaus and Andrey Kan and Ming Chen and Laurent Callot(参考訳) 本稿では,ガウス過程の効率的な状態空間定式化に基づく一様多変量時系列構築のための教師なしオンライン異常検出モデルであるr-ssGPFAを提案する。 高次元時系列に対して,時系列の共通潜時過程を同定するためにガウス過程因子解析の拡張を提案し,解析可能な方法で異常を効率的に検出する。 可観測者から観測者への写像に直交性制約を課すことで、計算を高速化しながら説明可能性を得る。 本モデルのロバスト性は、単純なヒューリスティックを用いて、異常観測時にカルマン更新をスキップすることによって改善される。 本手法は,合成データに対するモデルの挙動を調査し,標準ベンチマークデータセットを用いて,計算コストが低く,最先端の手法と競合することを示す。

We propose r-ssGPFA, an unsupervised online anomaly detection model for uni- and multivariate time series building on the efficient state space formulation of Gaussian processes. For high-dimensional time series, we propose an extension of Gaussian process factor analysis to identify the common latent processes of the time series, allowing us to detect anomalies efficiently in an interpretable manner. We gain explainability while speeding up computations by imposing an orthogonality constraint on the mapping from the latent to the observed. Our model's robustness is improved by using a simple heuristic to skip Kalman updates when encountering anomalous observations. We investigate the behaviour of our model on synthetic data and show on standard benchmark datasets that our method is competitive with state-of-the-art methods while being computationally cheaper.
翻訳日:2022-01-20 01:17:11 公開日:2022-01-18
# (参考訳) DEFER: ディープニューラルネットワークのための分散エッジ推論

DEFER: Distributed Edge Inference for Deep Neural Networks ( http://arxiv.org/abs/2201.06769v1 )

ライセンス: CC BY 4.0
Arjun Parthasarathy and Bhaskar Krishnamachari(参考訳) ディープニューラルネットワーク(DNN)のような現代の機械学習ツールは、自然言語処理、コンピュータビジョン、物のインターネットなど、多くの分野で革命的な役割を果たしている。 トレーニングが完了すると、エッジコンピュータにディープラーニングモデルをデプロイして、これらのアプリケーションのリアルタイムデータに対して分類と予測を行うことができる。 特に大規模モデルでは、単一エッジデバイス上の限られた計算資源とメモリ資源が、推論パイプラインのスループットボトルネックとなる可能性がある。 スループットの向上とデバイス毎の計算負荷の削減を目的として,複数の計算ノードに分散可能な層にディープニューラルネットワークを分割する分散エッジ推論フレームワークであるDEFER(Distributed Edge Inference)を提案する。 アーキテクチャは、DNNパーティションと推論データを各計算ノードに分散する単一の"分散"ノードで構成されている。 演算ノードは、各ノードの計算結果をその後のノードに中継する一連のパターンで接続される。 結果はdispatcherに返される。 COREネットワークエミュレータを用いて,現実的なネットワーク条件下でのスループット,エネルギー消費,ネットワークペイロード,オーバーヘッドを定量化する。 resnet50モデルでは、8つの計算ノードを持つdeferの推論スループットは53%高く、1ノードあたりのエネルギー消費量は1つのデバイス推論よりも63%低い。 さらに、ZFPシリアライゼーションとLZ4圧縮アルゴリズムを用いて、ネットワーク通信要求とエネルギー消費を削減する。 我々は、tensorflowとkeras mlライブラリを使用してpythonでdeferを実装し、研究コミュニティに利益をもたらすためのオープンソースフレームワークとしてdeferをリリースした。

Modern machine learning tools such as deep neural networks (DNNs) are playing a revolutionary role in many fields such as natural language processing, computer vision, and the internet of things. Once they are trained, deep learning models can be deployed on edge computers to perform classification and prediction on real-time data for these applications. Particularly for large models, the limited computational and memory resources on a single edge device can become the throughput bottleneck for an inference pipeline. To increase throughput and decrease per-device compute load, we present DEFER (Distributed Edge inFERence), a framework for distributed edge inference, which partitions deep neural networks into layers that can be spread across multiple compute nodes. The architecture consists of a single "dispatcher" node to distribute DNN partitions and inference data to respective compute nodes. The compute nodes are connected in a series pattern where each node's computed result is relayed to the subsequent node. The result is then returned to the Dispatcher. We quantify the throughput, energy consumption, network payload, and overhead for our framework under realistic network conditions using the CORE network emulator. We find that for the ResNet50 model, the inference throughput of DEFER with 8 compute nodes is 53% higher and per node energy consumption is 63% lower than single device inference. We further reduce network communication demands and energy consumption using the ZFP serialization and LZ4 compression algorithms. We have implemented DEFER in Python using the TensorFlow and Keras ML libraries, and have released DEFER as an open-source framework to benefit the research community.
翻訳日:2022-01-20 00:53:04 公開日:2022-01-18
# (参考訳) TaxoCom:新しいトピッククラスタの階層的発見によるトピック分類の完成

TaxoCom: Topic Taxonomy Completion with Hierarchical Discovery of Novel Topic Clusters ( http://arxiv.org/abs/2201.06771v1 )

ライセンス: CC BY 4.0
Dongha Lee, Jiaming Shen, SeongKu Kang, Susik Yoon, Jiawei Han, Hwanjo Yu(参考訳) 文書コレクションの潜在トピック(またはカテゴリ)構造を表すトピック分類は、web検索や情報フィルタリングといった多くのアプリケーションにおいて、コンテンツの貴重な知識を提供する。 近年,テキストコーパスからトピック分類を自動的に構築するための教師なし手法がいくつか開発されているが,事前の知識がなくても望ましい分類を生成することは困難である。 本稿では,トピック構造に関する部分的(あるいは不完全な)情報をどのように活用し,トピック分類の完全性を見出すかを検討する。 本稿では,トピック分類の完全化のための新しい枠組みであるtaxocomを提案し,用語と文書の新たなサブトピック・クラスターの発見により,トピック分類体系を再帰的に拡張する。 階層的なトピック構造の中で、新しいトピックを効果的に識別するために、TaxoComは、その埋め込みとクラスタリングテクニックを互いに密接にリンクするように考案した。 (i)局所的判別的埋め込みは、既知の(すなわち与えられた)サブトピック間で識別可能なテキスト埋め込み空間を最適化し、 (ii)新規適応クラスタリングは、既知のサブトピックまたは新しいサブトピックのいずれかに用語を割り当てる。 2つの実世界のデータセットに関する総合的な実験により、TaxoComは、用語の一貫性とトピックカバレッジの観点から高品質なトピック分類を生成するだけでなく、下流タスクにおける他のすべてのベースラインよりも優れています。

Topic taxonomies, which represent the latent topic (or category) structure of document collections, provide valuable knowledge of contents in many applications such as web search and information filtering. Recently, several unsupervised methods have been developed to automatically construct the topic taxonomy from a text corpus, but it is challenging to generate the desired taxonomy without any prior knowledge. In this paper, we study how to leverage the partial (or incomplete) information about the topic structure as guidance to find out the complete topic taxonomy. We propose a novel framework for topic taxonomy completion, named TaxoCom, which recursively expands the topic taxonomy by discovering novel sub-topic clusters of terms and documents. To effectively identify novel topics within a hierarchical topic structure, TaxoCom devises its embedding and clustering techniques to be closely-linked with each other: (i) locally discriminative embedding optimizes the text embedding space to be discriminative among known (i.e., given) sub-topics, and (ii) novelty adaptive clustering assigns terms into either one of the known sub-topics or novel sub-topics. Our comprehensive experiments on two real-world datasets demonstrate that TaxoCom not only generates the high-quality topic taxonomy in terms of term coherency and topic coverage but also outperforms all other baselines for a downstream task.
翻訳日:2022-01-20 00:44:51 公開日:2022-01-18
# (参考訳) COPA-SSE:Commonsense Reasoningのための半構造化説明

COPA-SSE: Semi-structured Explanations for Commonsense Reasoning ( http://arxiv.org/abs/2201.06777v1 )

ライセンス: CC BY 4.0
Ana Brassard, Benjamin Heinzerling, Pride Kavumba, Kentaro Inui(参考訳) 我々は,COPA質問に対する英語の半構造化・常識的説明をクラウドソーシングした新しいデータセットであるCOPA-SSE(Semi-Structured Explanations for COPA)を提案する。 これらの説明は、概念ネットの関係を持つが自由に書かれた三重類似の常識文の集合として形式化されている。 この半構造化フォーマットは、構造化データの高品質だが低いカバレッジと低い品質と自由形式のクラウドソーシングとのバランスをとる。 それぞれの説明には、人間による品質評価も含まれている。 慣れ親しんだ形式で、これらの説明は知識グラフを操作する常識的推論者に向けられ、そのようなシステムを改善するための継続的な取り組みの出発点となる。

We present Semi-Structured Explanations for COPA (COPA-SSE), a new crowdsourced dataset of 9,747 semi-structured, English common sense explanations for COPA questions. The explanations are formatted as a set of triple-like common sense statements with ConceptNet relations but freely written concepts. This semi-structured format strikes a balance between the high quality but low coverage of structured data and the lower quality but high coverage of free-form crowdsourcing. Each explanation also includes a set of human-given quality ratings. With their familiar format, the explanations are geared towards commonsense reasoners operating on knowledge graphs and serve as a starting point for ongoing work on improving such systems.
翻訳日:2022-01-20 00:25:10 公開日:2022-01-18
# (参考訳) 先行バイアスを用いた抵抗訓練--非偏平なシーングラフ生成に向けて

Resistance Training using Prior Bias: toward Unbiased Scene Graph Generation ( http://arxiv.org/abs/2201.06794v1 )

ライセンス: CC BY 4.0
Chao Chen, Yibing Zhan, Baosheng Yu, Liu Liu, Yong Luo, Bo Du(参考訳) scene graph generation(sgg)は、オブジェクトとペアリレーションを使用してシーンの構造化表現を構築することを目的としている。 しかし、現在のSGG法はトレーニングデータの長期分布のため、通常、準最適シーングラフ生成に悩まされる。 この問題に対処するために,シーングラフ生成のためのRTPBを用いた抵抗トレーニングを提案する。 具体的には、RTPBは、トレーニング中の頻繁な関係の少ないモデルの検出能力を改善するために、分散ベースの事前バイアスを使用する。 さらに、オブジェクトと関係のコンテキスト情報をさらに探求するため、Dual Transformer (DTrans) と呼ばれるバックボーンネットワークのコンテキスト符号化を設計する。 本手法の有効性を実証するために,非常に人気のあるベンチマークであるvg150を用いて広範囲な実験を行った。 RTPBは,現在のSGG法に適用した場合,平均リコールで10%以上の改善を実現している。 さらに、RTPBを用いたDTransは、最先端の手法のほとんど全てにおいて、大きなマージンを持つ。

Scene Graph Generation (SGG) aims to build a structured representation of a scene using objects and pairwise relationships, which benefits downstream tasks. However, current SGG methods usually suffer from sub-optimal scene graph generation because of the long-tailed distribution of training data. To address this problem, we propose Resistance Training using Prior Bias (RTPB) for the scene graph generation. Specifically, RTPB uses a distributed-based prior bias to improve models' detecting ability on less frequent relationships during training, thus improving the model generalizability on tail categories. In addition, to further explore the contextual information of objects and relationships, we design a contextual encoding backbone network, termed as Dual Transformer (DTrans). We perform extensive experiments on a very popular benchmark, VG150, to demonstrate the effectiveness of our method for the unbiased scene graph generation. In specific, our RTPB achieves an improvement of over 10% under the mean recall when applied to current SGG methods. Furthermore, DTrans with RTPB outperforms nearly all state-of-the-art methods with a large margin.
翻訳日:2022-01-20 00:17:57 公開日:2022-01-18
# (参考訳) CoAuthor: 言語モデル機能探索のための人間とAIの協調的な記述データセットの設計

CoAuthor: Designing a Human-AI Collaborative Writing Dataset for Exploring Language Model Capabilities ( http://arxiv.org/abs/2201.06796v1 )

ライセンス: CC BY 4.0
Mina Lee, Percy Liang, Qian Yang(参考訳) 大型言語モデル(lms)は、前例のない言語生成能力と相互作用設計のエキサイティングな機会を提供する。 しかし、文脈に依存した能力は理解が困難であり、しばしば主観的に解釈される。 本稿では,大規模なインタラクションデータセットをキュレートし,分析することで,hciコミュニティがlmsのジェネレーティブ能力のより切迫的な検証を育むことができると論じる。 このアプローチの実証として,創造的かつ議論的な文章作成を支援するGPT-3の能力を明らかにするために設計されたデータセットであるCoAuthorを提案する。 CoAuthorは、63のライターと1445の書き込みセッションでGPT-3の4つのインスタンス間のリッチなインタラクションをキャプチャする。 我々は, GPT-3の言語, アイデア, コラボレーション能力に関する問題に対処できることを実証し, 良質なコラボレーションのさまざまな定義の下で, 共同作業者としての貢献を明らかにした。 最後に、この作業がlmsの約束と相互作用設計に関する落とし穴に関するより原則的な議論をいかに促進するかについて議論する。 書き込みセッションを再生するためのデータセットとインターフェースはhttps://coauthor.stanford.eduで公開されている。

Large language models (LMs) offer unprecedented language generation capabilities and exciting opportunities for interaction design. However, their highly context-dependent capabilities are difficult to grasp and are often subjectively interpreted. In this paper, we argue that by curating and analyzing large interaction datasets, the HCI community can foster more incisive examinations of LMs' generative capabilities. Exemplifying this approach, we present CoAuthor, a dataset designed for revealing GPT-3's capabilities in assisting creative and argumentative writing. CoAuthor captures rich interactions between 63 writers and four instances of GPT-3 across 1445 writing sessions. We demonstrate that CoAuthor can address questions about GPT-3's language, ideation, and collaboration capabilities, and reveal its contribution as a writing "collaborator" under various definitions of good collaboration. Finally, we discuss how this work may facilitate a more principled discussion around LMs' promises and pitfalls in relation to interaction design. The dataset and an interface for replaying the writing sessions are publicly available at https://coauthor.stanford.edu.
翻訳日:2022-01-20 00:00:44 公開日:2022-01-18
# (参考訳) Tutela:EthereumとTornadoキャッシュでユーザプライバシを評価するオープンソースツール

Tutela: An Open-Source Tool for Assessing User-Privacy on Ethereum and Tornado Cash ( http://arxiv.org/abs/2201.06811v1 )

ライセンス: CC BY 4.0
Mike Wu, Will McTighe, Kaili Wang, Istvan A. Seres, Nick Bax, Manuel Puebla, Mariano Mendez, Federico Carrone, Tom\'as De Mattey, Herman O. Demaestri, Mariano Nicolini, Pedro Fontana(参考訳) ブロックチェーンユーザの一般的な誤解は、匿名性がプライバシを保証することだ。 現実はほぼ逆だ。 すべてのトランザクションは公開台帳に記録され、自分のアイデンティティに関する情報を公開する。 竜巻キャッシュのようなミキサーは、匿名プール内の他の取引と「混合」することでプライバシーを守るために開発され、プールからの預金と引き揚げのリンクが困難になった。 残念ながら、もしユーザーが注意を払わなければ匿名プール内の情報を公開することは可能である。 Ethereumアドレスの真の匿名性を報告するために、エキスパートヒューリスティックに基づいて構築されたアプリケーションであるTutelaを紹介します。 ひとつは、ethereumアドレスに対して、同じエンティティが所有する可能性のある他のアドレスを識別すること、もうひとつは、ethereumユーザが潜在的に侵害される可能性のあるトランザクションを示すこと、もうひとつは、tornadoキャッシュミキサーの匿名プールの真のサイズを、潜在的に侵害されたトランザクションを除外して計算することである。 tutelaの公開実装はhttps://github.com/tutelalabs/tutela-appにある。 Tutelaを使用するには、https://www.tutela.xyz.comを参照してください。

A common misconception among blockchain users is that pseudonymity guarantees privacy. The reality is almost the opposite. Every transaction one makes is recorded on a public ledger and reveals information about one's identity. Mixers, such as Tornado Cash, were developed to preserve privacy through "mixing" transactions with those of others in an anonymity pool, making it harder to link deposits and withdrawals from the pool. Unfortunately, it is still possible to reveal information about those in the anonymity pool if users are not careful. We introduce Tutela, an application built on expert heuristics to report the true anonymity of an Ethereum address. In particular, Tutela has three functionalities: first, it clusters together Ethereum addresses based on interaction history such that for an Ethereum address, we can identify other addresses likely owned by the same entity; second, it shows Ethereum users their potentially compromised transactions; third, Tutela computes the true size of the anonymity pool of each Tornado Cash mixer by excluding potentially compromised transactions. A public implementation of Tutela can be found at https://github.com/TutelaLabs/tutela-app. To use Tutela, visit https://www.tutela.xyz.
翻訳日:2022-01-19 23:28:42 公開日:2022-01-18
# (参考訳) ランダムフォレストとディープニューラルネットワークによる非パラメトリック特徴選択

Nonparametric Feature Selection by Random Forests and Deep Neural Networks ( http://arxiv.org/abs/2201.06821v1 )

ライセンス: CC BY 4.0
Xiaojun Mao, Liuhua Peng and Zhonglei Wang(参考訳) ランダムフォレストは広く使われている機械学習アルゴリズムであるが、多くのインスタンスと役に立たない特徴を持つ大規模データセットに適用すると、その計算効率は低下する。 本稿では,ランダムフォレストとディープニューラルネットワークを組み込んだ非パラメトリック特徴選択アルゴリズムを提案し,その理論的性質を正規性条件下で検討する。 異なる合成モデルと実例を用いて,有用な特徴の同定,役に立たない特徴の回避,計算効率の面で,提案アルゴリズムの利点を実証する。 このアルゴリズムは標準ランダムフォレストを用いて提案されているが、特徴を適切にソートできる限り、他の機械学習アルゴリズムに広く適用することができる。

Random forests are a widely used machine learning algorithm, but their computational efficiency is undermined when applied to large-scale datasets with numerous instances and useless features. Herein, we propose a nonparametric feature selection algorithm that incorporates random forests and deep neural networks, and its theoretical properties are also investigated under regularity conditions. Using different synthetic models and a real-world example, we demonstrate the advantage of the proposed algorithm over other alternatives in terms of identifying useful features, avoiding useless ones, and the computation efficiency. Although the algorithm is proposed using standard random forests, it can be widely adapted to other machine learning algorithms, as long as features can be sorted accordingly.
翻訳日:2022-01-19 23:15:14 公開日:2022-01-18
# (参考訳) イランのナンバープレート検出と認識のための深層学習に基づくフレームワーク

Deep Learning Based Framework for Iranian License Plate Detection and Recognition ( http://arxiv.org/abs/2201.06825v1 )

ライセンス: CC BY 4.0
Mojtaba Shahidi Zandi, Roozbeh Rajabi(参考訳) ナンバープレート認識システムは、料金管理、駐車管理、交通管理など、多くのアプリケーションにおいて非常に重要な役割を担っている。 本稿では,イランのライセンスプレート認識のために,深層畳み込みニューラルネットワークの枠組みを提案する。 第1のCNNは、入力画像中のイランのナンバープレートを検出するYOLOv3ネットワークであり、第2のCNNは、検出されたナンバープレートの文字を認識し分類する高速なR-CNNである。 本論文では,イランの無条件画像からなるライセンスプレートのデータセットも開発した。 YOLOv3ネットワークは99.6%のmAP、98.26%のリコール、98.08%の精度、平均検出速度は23msである。 また、Faster R-CNNネットワークは、開発データセットでトレーニングとテストを行い、98.97%のリコール、99.9%の精度、98.8%の精度を達成した。 提案システムは,ライセンスプレート上の望ましくないデータのような困難な状況下で,ライセンスプレートを認識することができる。 このシステムを他のイランのナンバープレート認識システムと比較すると、システムはより速く、より正確であり、またオープン環境でも機能する。

License plate recognition systems have a very important role in many applications such as toll management, parking control, and traffic management. In this paper, a framework of deep convolutional neural networks is proposed for Iranian license plate recognition. The first CNN is the YOLOv3 network that detects the Iranian license plate in the input image while the second CNN is a Faster R-CNN that recognizes and classifies the characters in the detected license plate. A dataset of Iranian license plates consisting of ill-conditioned images also developed in this paper. The YOLOv3 network achieved 99.6% mAP, 98.26% recall, 98.08% accuracy, and average detection speed is only 23ms. Also, the Faster R-CNN network trained and tested on the developed dataset and achieved 98.97% recall, 99.9% precision, and 98.8% accuracy. The proposed system can recognize the license plate in challenging situations like unwanted data on the license plate. Comparing this system with other Iranian license plate recognition systems shows that it is Faster, more accurate and also this system can work in an open environment.
翻訳日:2022-01-19 22:59:35 公開日:2022-01-18
# (参考訳) XAIモデルによる地すべりの精度・解釈性

XAI Model for Accurate and Interpretable Landslide Susceptibility ( http://arxiv.org/abs/2201.06837v1 )

ライセンス: CC BY 4.0
Khaled Youssef, Kevin Shao, Seulgi Moon, Louis-Serge Bouchard(参考訳) 地すべりは予測が難しいことで悪名高い。 ディープニューラルネットワーク(DNN)モデルは統計モデルよりも正確である。 しかし,これらは解釈不能であり,モデル地域における地すべり制御に関する機械的な情報を抽出することは困難である。 我々は,地すべりの感受性を評価するための説明可能なAI(XAI)モデルを開発した。 地すべりの影響を受けやすいヒマラヤ東部の3地域について検証を行った。 SNNはDNNよりも計算的にはるかに単純であるが、各領域における地すべり制御因子の相対的重要性に関する洞察を提供しながら、同様の性能を達成する。 私たちの分析は、以下の重要性を強調した。 1)斜面と降水率の積、および 2)地すべり地における高い感受性に寄与する地形的側面 これらの制御は, ヒマラヤ東部の地すべりにおいて, 強い斜面-気候結合と微気候が, より支配的な役割を担っていることを示唆している。 このモデルは物理的に安定性と統計モデルを上回っている。

Landslides are notoriously difficult to predict. Deep neural networks (DNNs) models are more accurate than statistical models. However, they are uninterpretable, making it difficult to extract mechanistic information about landslide controls in the modeled region. We developed an explainable AI (XAI) model to assess landslide susceptibility that is computationally simple and features high accuracy. We validated it on three different regions of eastern Himalaya that are highly susceptible to landslides. SNNs are computationally much simpler than DNNs, yet achieve similar performance while offering insights regarding the relative importance of landslide control factors in each region. Our analysis highlighted the importance of: 1) the product of slope and precipitation rate and 2) topographic aspects that contribute to high susceptibility in landslide areas. These identified controls suggest that strong slope-climate couplings, along with microclimates, play more dominant roles in eastern Himalayan landslides. The model outperforms physically-based stability and statistical models.
翻訳日:2022-01-19 22:47:59 公開日:2022-01-18
# (参考訳) 計算コストの高いモデルに対するサロゲート支援分散Swarm最適化

Surrogate-assisted distributed swarm optimisation for computationally expensive models ( http://arxiv.org/abs/2201.06843v1 )

ライセンス: CC BY 4.0
Rohitash Chandra, Yash Vardhan Sharma(参考訳) 並列コンピューティングと分散コンピューティングの進歩により、複雑で計算コストの高いモデルに対する分散群と進化的アルゴリズムの効率的な実装が可能になった。 進化的アルゴリズムは勾配のない最適化を提供し、そのような情報が得られないモデル、例えば地質学的景観進化モデルに有用である。 しかし、そのようなモデルは計算コストが非常に高く、分散Swarmや進化的アルゴリズムでさえ並列計算の能力に悩まされる。 代理学習や予測を行う上で,並列処理やプロセス間通信が課題となるため,サロゲート支援最適化などの効率的な戦略を組み込む必要がある。 本稿では,並列コンピューティングアーキテクチャ上での分散Swarm最適化において,サロゲートに基づく適合度評価を実装した。 本結果は, ベンチマーク関数と地質地形進化モデルに対して非常に有望な結果を示す。 並列計算環境においてサロゲートを用いて最適化解の精度を維持しながら計算時間を短縮する。

Advances in parallel and distributed computing have enabled efficient implementation of the distributed swarm and evolutionary algorithms for complex and computationally expensive models. Evolutionary algorithms provide gradient-free optimisation which is beneficial for models that do not have such information available, for instance, geoscientific landscape evolution models. However, such models are so computationally expensive that even distributed swarm and evolutionary algorithms with the power of parallel computing struggle. We need to incorporate efficient strategies such as surrogate assisted optimisation that further improves their performance; however, this becomes a challenge given parallel processing and inter-process communication for implementing surrogate training and prediction. In this paper, we implement surrogate-based estimation of fitness evaluation in distributed swarm optimisation over a parallel computing architecture. Our results demonstrate very promising results for benchmark functions and geoscientific landscape evolution models. We obtain a reduction in computationally time while retaining optimisation solution accuracy through the use of surrogates in a parallel computing environment.
翻訳日:2022-01-19 22:46:14 公開日:2022-01-18
# (参考訳) 入射表面関数に基づく高速3次元形状再構成のためのTaylorImNet

TaylorImNet for Fast 3D Shape Reconstruction Based on Implicit Surface Function ( http://arxiv.org/abs/2201.06845v1 )

ライセンス: CC BY 4.0
Yuting Xiao, Jiale Xu, Shenghua Gao(参考訳) 連続表現能力により、深い暗黙関数は任意の解像度で形状の等曲面を抽出することができる。 しかし、暗黙関数として多くのパラメータを持つニューラルネットワークを利用することで、大量のクエリポイントをネットワークに転送する必要があるため、高解像度トポロジの生成速度が低下する。 本研究では,Taylorシリーズにヒントを得たTaylorImNetを提案する。 TaylorImNet は離散展開点と対応するTaylor級数を用いて、連続な暗黙の形状場をモデル化する。 展開点と対応する係数が得られた後、我々のモデルは各点を評価するためにテイラー級数を計算する必要があり、展開点の数は生成分解能とは無関係である。 この表現に基づいて、TaylorImNetは他のベースラインよりもはるかに高速な生成速度を達成できます。 各種入力からの再構成タスクに対するアプローチを評価した結果,提案手法は既存の最先端ベースラインよりも若干性能が向上し,推論速度は大幅に向上することが示された。

Benefiting from the contiguous representation ability, deep implicit functions can extract the iso-surface of a shape at arbitrary resolution. However, utilizing the neural network with a large number of parameters as the implicit function prevents the generation speed of high-resolution topology because it needs to forward a large number of query points into the network. In this work, we propose TaylorImNet inspired by the Taylor series for implicit 3D shape representation. TaylorImNet exploits a set of discrete expansion points and corresponding Taylor series to model a contiguous implicit shape field. After the expansion points and corresponding coefficients are obtained, our model only needs to calculate the Taylor series to evaluate each point and the number of expansion points is independent of the generating resolution. Based on this representation, our TaylorImNet can achieve a significantly faster generation speed than other baselines. We evaluate our approach on reconstruction tasks from various types of input, and the experimental results demonstrate that our approach can get slightly better performance than existing state-of-the-art baselines while improving the inference speed with a large margin.
翻訳日:2022-01-19 22:19:33 公開日:2022-01-18
# (参考訳) 反復的局所探索によるプログラムポリシー抽出

Programmatic Policy Extraction by Iterative Local Search ( http://arxiv.org/abs/2201.06863v1 )

ライセンス: CC BY-SA 4.0
Rasmus Larsen, Mikkel N{\o}rgaard Schmidt(参考訳) 強化学習ポリシーはニューラルネットワークで表されることが多いが、プログラム的なポリシーは、より解釈可能で、形式的検証に適しており、より一般化しやすい場合が多い。 神経ポリシーを学習するための効率的なアルゴリズムは存在するが、プログラム的ポリシーの学習は困難である。 模擬射影とデータセットアグリゲーションと局所探索ヒューリスティックを組み合わせることで,事前学習されたニューラルポリシーからプログラム的ポリシーを抽出する,単純かつ直接的なアプローチを提案する。 プログラミングにおける局所探索ヒューリスティックを例題として検討した後,振り子揺らぎ問題に対するプログラム的ポリシー抽出法を実証した。 手作りのエキスパートポリシーと学習されたニューラルポリシーを使用してトレーニングを行うと、本手法はオリジナルとほぼ同等に機能する単純かつ解釈可能なポリシーを発見する。

Reinforcement learning policies are often represented by neural networks, but programmatic policies are preferred in some cases because they are more interpretable, amenable to formal verification, or generalize better. While efficient algorithms for learning neural policies exist, learning programmatic policies is challenging. Combining imitation-projection and dataset aggregation with a local search heuristic, we present a simple and direct approach to extracting a programmatic policy from a pretrained neural policy. After examining our local search heuristic on a programming by example problem, we demonstrate our programmatic policy extraction method on a pendulum swing-up problem. Both when trained using a hand crafted expert policy and a learned neural policy, our method discovers simple and interpretable policies that perform almost as well as the original.
翻訳日:2022-01-19 22:05:32 公開日:2022-01-18
# (参考訳) 複雑ネットワークにおける最小ノードセパレータ探索のための頻繁な項目セット駆動探索

Frequent Itemset-driven Search for Finding Minimum Node Separators in Complex Networks ( http://arxiv.org/abs/2201.06877v1 )

ライセンス: CC BY 4.0
Yangming Zhou and Xiaze Zhang and Na Geng and Zhibin Jiang and Mengchu Zhou(参考訳) 複雑なネットワークにおいて最適なクリティカルノードの集合を見つけることは、人工知能と運用研究の両方の分野で長年の課題であった。 潜在的な応用としては、疫病対策、ネットワークセキュリティ、二酸化炭素排出量モニタリング、創発反応、薬物設計、脆弱性評価などがある。 本研究では,グラフを複数の異なる連結成分に分離する最小ノード分離器を,各成分に限定された数の頂点未満で見つける問題を考える。 そこで本研究では,データマイニングにおける頻繁なアイテムセットマイニングの概念を,よく知られたmemetic searchフレームワークに統合した,頻繁なアイテムセット駆動検索手法を提案する。 ソリューション構築と人口修復手順によって構築された高品質な人口から始まり、頻繁なアイテムセット再結合オペレータ(高品質なソリューションで頻繁に発生するアイテムセットに基づく有望な子孫ソリューションの生成)、タブサーチに基づくシミュレートアニーリング(高品質なローカルオプティマを見つける)、人口修復手順(人口変更)、ランクベースの人口管理戦略(健康な人口を保証するため)を反復的に採用する。 広く使用されている50のベンチマークインスタンスに対する広範な評価は、最先端のアルゴリズムを大幅に上回っていることを示している。 特に29の新たな上限を発見し、18の最もよく知られた境界と一致する。 最後に,提案手法の重要なアルゴリズムモジュールの有効性を検証する実験を行った。

Finding an optimal set of critical nodes in a complex network has been a long-standing problem in the fields of both artificial intelligence and operations research. Potential applications include epidemic control, network security, carbon emission monitoring, emergence response, drug design, and vulnerability assessment. In this work, we consider the problem of finding a minimal node separator whose removal separates a graph into multiple different connected components with fewer than a limited number of vertices in each component. To solve it, we propose a frequent itemset-driven search approach, which integrates the concept of frequent itemset mining in data mining into the well-known memetic search framework. Starting from a high-quality population built by the solution construction and population repair procedures, it iteratively employs the frequent itemset recombination operator (to generate promising offspring solution based on itemsets that frequently occur in high-quality solutions), tabu search-based simulated annealing (to find high-quality local optima), population repair procedure (to modify the population), and rank-based population management strategy (to guarantee a healthy population). Extensive evaluations on 50 widely used benchmark instances show that it significantly outperforms state-of-the-art algorithms. In particular, it discovers 29 new upper bounds and matches 18 previous best-known bounds. Finally, experimental analyses are performed to confirm the effectiveness of key algorithmic modules of the proposed method.
翻訳日:2022-01-19 21:52:32 公開日:2022-01-18
# (参考訳) ビデオスナップショット圧縮イメージングのためのDeep Equilibrium Model

Deep Equilibrium Models for Video Snapshot Compressive Imaging ( http://arxiv.org/abs/2201.06931v1 )

ライセンス: CC BY 4.0
Yaping Zhao, Siming Zheng, Xin Yuan(参考訳) 高次元(HD)データを効率的にキャプチャするスナップショット圧縮イメージング(SCI)システムの能力は、圧縮・雑音測定からHD信号を復元する逆問題を引き起こしている。 近年のディープラーニングの進歩により、再構築アルゴリズムは急速に進化するが、正確で安定したリカバリの根本的な問題は依然として残っている。 そこで本稿では,データ駆動型正規化と安定収束を理論的に健全に融合したビデオSCIのためのDeep equilibrium Model (DEQ)を提案する。 各平衡モデルは暗黙的に非拡張演算子を学習し、定点を解析的に計算し、トレーニングとテストにおいて一定のメモリ要件のみを伴って無限反復ステップと無限ネットワーク深さを可能にする。 具体的には、リカレントニューラルネットワーク(RNN)とPlug-and-Play(PnP)アルゴリズムの2つの既存のビデオSCI再構成モデルにDECを適用する方法を示す。 各種データセットと実データを用いて,提案手法の有効性と安定性について定量的および定性的な評価を行った。 コードとモデルは一般公開される予定だ。

The ability of snapshot compressive imaging (SCI) systems to efficiently capture high-dimensional (HD) data has led to an inverse problem, which consists of recovering the HD signal from the compressed and noisy measurement. While reconstruction algorithms grow fast to solve it with the recent advances of deep learning, the fundamental issue of accurate and stable recovery remains. To this end, we propose deep equilibrium models (DEQ) for video SCI, fusing data-driven regularization and stable convergence in a theoretically sound manner. Each equilibrium model implicitly learns a nonexpansive operator and analytically computes the fixed point, thus enabling unlimited iterative steps and infinite network depth with only a constant memory requirement in training and testing. Specifically, we demonstrate how DEQ can be applied to two existing models for video SCI reconstruction: recurrent neural networks (RNN) and Plug-and-Play (PnP) algorithms. On a variety of datasets and real data, both quantitative and qualitative evaluations of our results demonstrate the effectiveness and stability of our proposed method. The code and models will be released to the public.
翻訳日:2022-01-19 21:18:06 公開日:2022-01-18
# (参考訳) 持続可能な海洋ネットワークのためのAI支援地球外・地球外6Gソリューション

AI-Aided Integrated Terrestrial and Non-Terrestrial 6G Solutions for Sustainable Maritime Networking ( http://arxiv.org/abs/2201.06947v1 )

ライセンス: CC BY 4.0
Salwa Saafi, Olga Vikhrova, G\'abor Fodor, Jiri Hosek, Sergey Andreev(参考訳) 海上産業は、造船、海上および内陸の船舶の運航、貨物管理、港での作業慣行に影響を及ぼす技術革新を経験した。 この継続的な変革は、エコシステムをより持続的でコスト効率の高いものにするという野望によって推進されています。 デジタル化と自動化は、輸送と巡航をよりコストとエネルギー効率のよい、脱炭酸化された産業セグメントに転換することで、これらの目標を達成するのに役立ちます。 これらのプロセスの主要な実現要因は、常に利用可能なコネクティビティとコンテンツ配信サービスであり、輸送会社による運用効率の向上と二酸化炭素排出量の削減を支援するだけでなく、乗務員の福祉と乗客体験の向上にも寄与する。 近年の高容量・超信頼性の地上・非地上ネットワーク技術の統合により、ユビキタスな海上通信が現実化しつつある。 本稿では,これらの統合システム管理の複雑さの増大に対処するため,さまざまな海上通信シナリオにおけるサービス要件とエネルギー効率の目標を満たすために,人工知能と機械学習ベースのアプローチを用いることを提唱する。

The maritime industry is experiencing a technological revolution that affects shipbuilding, operation of both seagoing and inland vessels, cargo management, and working practices in harbors. This ongoing transformation is driven by the ambition to make the ecosystem more sustainable and cost-efficient. Digitalization and automation help achieve these goals by transforming shipping and cruising into a much more cost- and energy-efficient, and decarbonized industry segment. The key enablers in these processes are always-available connectivity and content delivery services, which can not only aid shipping companies in improving their operational efficiency and reducing carbon emissions but also contribute to enhanced crew welfare and passenger experience. Due to recent advancements in integrating high-capacity and ultra-reliable terrestrial and non-terrestrial networking technologies, ubiquitous maritime connectivity is becoming a reality. To cope with the increased complexity of managing these integrated systems, this article advocates the use of artificial intelligence and machine learning-based approaches to meet the service requirements and energy efficiency targets in various maritime communications scenarios.
翻訳日:2022-01-19 21:02:57 公開日:2022-01-18
# (参考訳) 線形関数近似を用いた微分プライベート強化学習

Differentially Private Reinforcement Learning with Linear Function Approximation ( http://arxiv.org/abs/2201.07052v1 )

ライセンス: CC BY 4.0
Xingyu Zhou(参考訳) 利用者の敏感でプライベートな情報を保護する必要がある実世界のパーソナライズされたサービスにおける強化学習(RL)の普及により,差分プライバシー(DP)の制約の下で,有限水平マルコフ決定プロセス(MDP)における後悔の最小化について検討した。 タブ状の有限状態有限動作MDPのみで動作する既存のプライベートRLアルゴリズムと比較して、大きな状態とアクション空間を持つMDPにおけるプライバシー保護学習への第一歩を踏み出す。 具体的には、RLエージェントがユーザの機密データを保護する責任を負うJDP(Joint differential Privacy)の概念の下で、線形関数近似(特に線形混合MDP)を持つMDPについて検討する。 価値反復とポリシー最適化に基づく2つのプライベートRLアルゴリズムを設計し、プライバシ保護を保証しつつ、サブ線形後悔性能を享受していることを示す。 さらに、後悔の限界は状態の数とは独立しており、ほとんどの場合、アクションの数と対数的にスケールするので、現代の大規模パーソナライズされたサービスにおいて、プライバシ保護に適したアルゴリズムとなる。 本研究は,非私的学習のための従来の結果を一般化するだけでなく,一般私的強化学習の基盤として機能する,線形混合mdpによる学習の一般的な手順によって達成される。

Motivated by the wide adoption of reinforcement learning (RL) in real-world personalized services, where users' sensitive and private information needs to be protected, we study regret minimization in finite-horizon Markov decision processes (MDPs) under the constraints of differential privacy (DP). Compared to existing private RL algorithms that work only on tabular finite-state, finite-actions MDPs, we take the first step towards privacy-preserving learning in MDPs with large state and action spaces. Specifically, we consider MDPs with linear function approximation (in particular linear mixture MDPs) under the notion of joint differential privacy (JDP), where the RL agent is responsible for protecting users' sensitive data. We design two private RL algorithms that are based on value iteration and policy optimization, respectively, and show that they enjoy sub-linear regret performance while guaranteeing privacy protection. Moreover, the regret bounds are independent of the number of states, and scale at most logarithmically with the number of actions, making the algorithms suitable for privacy protection in nowadays large-scale personalized services. Our results are achieved via a general procedure for learning in linear mixture MDPs under changing regularizers, which not only generalizes previous results for non-private learning, but also serves as a building block for general private reinforcement learning.
翻訳日:2022-01-19 21:01:57 公開日:2022-01-18
# (参考訳) 個人化フェデレーション学習におけるバックドアハイパーネットワークへのモデル転送攻撃

Model Transferring Attacks to Backdoor HyperNetwork in Personalized Federated Learning ( http://arxiv.org/abs/2201.07063v1 )

ライセンス: CC BY 4.0
Phung Lai, NhatHai Phan, Abdallah Khreishah, Issa Khalil, Xintao Wu(参考訳) 本稿では,HyperNetをベースとしたパーソナライズド・フェデレーション・ラーニング(HyperNetFL)における毒性攻撃によるバックドアリスクについて検討する。 そこで本研究では,hypernetflモデルが生成する正統かつパーソナライズされたすべてのローカルモデルに対して,そのトレーニングプロセス全体において,漏洩したすべてのクライアント間で算出された,一貫性と効果的な局所勾配を通じて,ローカルバックドア感染モデルを転送する,新たなモデルであるhntroj(hntroj)を提案する。 その結果、HNTROJは攻撃を成功させるのに必要な妥協されたクライアントの数を減らし、攻撃をステルスにする正統なデータサンプルのモデルユーティリティに関する突然のシフトや劣化の兆候がない。 HNTROJに対抗するために,複数のバックドア抵抗FLトレーニングアルゴリズムをHyperNetFLに適応させた。 複数のベンチマークデータセットを用いた広範な実験により、hntrojはデータ中毒やモデル置換攻撃を大きく上回り、堅牢なトレーニングアルゴリズムをバイパスしていることが示された。

This paper explores previously unknown backdoor risks in HyperNet-based personalized federated learning (HyperNetFL) through poisoning attacks. Based upon that, we propose a novel model transferring attack (called HNTROJ), i.e., the first of its kind, to transfer a local backdoor infected model to all legitimate and personalized local models, which are generated by the HyperNetFL model, through consistent and effective malicious local gradients computed across all compromised clients in the whole training process. As a result, HNTROJ reduces the number of compromised clients needed to successfully launch the attack without any observable signs of sudden shifts or degradation regarding model utility on legitimate data samples making our attack stealthy. To defend against HNTROJ, we adapted several backdoor-resistant FL training algorithms into HyperNetFL. An extensive experiment that is carried out using several benchmark datasets shows that HNTROJ significantly outperforms data poisoning and model replacement attacks and bypasses robust training algorithms.
翻訳日:2022-01-19 19:46:43 公開日:2022-01-18
# (参考訳) RAWビデオ系列の合成とHDR

Joint denoising and HDR for RAW video sequences ( http://arxiv.org/abs/2201.07066v1 )

ライセンス: CC BY 4.0
A. Buades and O. Martorell and M. S\'anchez-Beeckman(参考訳) 本稿では,マルチ露光画像のシーケンスの同時分割と融合のためのパッチベース手法を提案する。 時空間的基準を用いて、シーケンスに沿って類似したパッチを選択でき、重み付けされた主成分分析により、マルチ露光データの識別と融合が可能である。 全体的な戦略により、複数の露光セットで各露光された画像を復元する必要なしに、画像セットをデノベーションし、融合することが可能となり、非常に効率的な手順となる。 いくつかの実験により,提案手法は実RAWデータを用いて最先端の融合結果を得ることができることが示された。

We propose a patch-based method for the simultaneous denoising and fusion of a sequence of RAW multi-exposed images. A spatio-temporal criterion is used to select similar patches along the sequence, and a weighted principal component analysis permits to both denoise and fuse the multi exposed data. The overall strategy permits to denoise and fuse the set of images without the need of recovering each denoised image in the multi-exposure set, leading to a very efficient procedure. Several experiments show that the proposed method permits to obtain state-of-the-art fusion results with real RAW data.
翻訳日:2022-01-19 19:17:44 公開日:2022-01-18
# (参考訳) アルゴリズムフィードバックループの創発的不安定性

Emergent Instabilities in Algorithmic Feedback Loops ( http://arxiv.org/abs/2201.07203v1 )

ライセンス: CC BY 4.0
Keith Burghardt, Kristina Lerman(参考訳) 推薦システムのような人間のタスクを支援するアルゴリズムはユビキタスである。 ソーシャルメディアからストリーミングビデオ、オンラインショッピングまで、あらゆるものに登場する。 しかし、人とアルゴリズムの間のフィードバックループは理解が不十分であり、認知バイアスや社会的偏見を増幅し、予期せぬ結果をもたらす。 本研究では,教師の学習シミュレーションを用いて,協調フィルタリングに基づく推薦アルゴリズムのアルゴリズム的コンファウンディングについて検討する。 すなわち、シミュレーションされた選択に基づいて訓練された学生協調フィルタリングに基づくモデルは、エージェントにアイテムを推薦するために推奨アルゴリズムによって使用される。 エージェントは、教師モデルに基づいてこれらの項目のいくつかを選択し、新しい選択は、新しいトレーニングデータ(オンライン機械学習を近似する)として学生モデルにフィードバックされる。 これらのシミュレーションは、アルゴリズム的結合が誤った推奨を生み出すことを示し、結果として、各シミュレーション実現の間でアイテムの人気が広範囲に変化する不安定性をもたらす。 シミュレーションを用いて,より安定かつ正確な推薦を作成できる協調フィルタリングモデルの訓練手法を示す。 我々の手法は、アルゴリズムの安定性をより定量化し改善するために、他の社会技術システムに拡張できるほど一般的である。 これらの結果は,人とアルゴリズムの相互作用から生じる行動の考慮の必要性を浮き彫りにしたものである。

Algorithms that aid human tasks, such as recommendation systems, are ubiquitous. They appear in everything from social media to streaming videos to online shopping. However, the feedback loop between people and algorithms is poorly understood and can amplify cognitive and social biases (algorithmic confounding), leading to unexpected outcomes. In this work, we explore algorithmic confounding in collaborative filtering-based recommendation algorithms through teacher-student learning simulations. Namely, a student collaborative filtering-based model, trained on simulated choices, is used by the recommendation algorithm to recommend items to agents. Agents might choose some of these items, according to an underlying teacher model, with new choices then fed back into the student model as new training data (approximating online machine learning). These simulations demonstrate how algorithmic confounding produces erroneous recommendations which in turn lead to instability, i.e., wide variations in an item's popularity between each simulation realization. We use the simulations to demonstrate a novel approach to training collaborative filtering models that can create more stable and accurate recommendations. Our methodology is general enough that it can be extended to other socio-technical systems in order to better quantify and improve the stability of algorithms. These results highlight the need to account for emergent behaviors from interactions between people and algorithms.
翻訳日:2022-01-19 19:02:23 公開日:2022-01-18
# オープンソース機械学習ライブラリとクロスエコシステムバインディングに関する研究

Studying Popular Open Source Machine Learning Libraries and Their Cross-Ecosystem Bindings ( http://arxiv.org/abs/2201.07201v1 )

ライセンス: Link先を確認
Hao Li and Cor-Paul Bezemer(参考訳) オープンソースの機械学習(ML)ライブラリにより、開発者は自身のアプリケーションに高度なML機能を統合できる。 しかし、TensorFlowのような一般的なMLライブラリは、すべてのプログラミング言語やソフトウェアパッケージエコシステムでネイティブに利用できるわけではない。 したがって、プログラミング言語や選択のエコシステムでは利用できないMLライブラリを使いたい開発者は、いわゆるバインディングライブラリを使う必要があるかもしれない。 バインディングライブラリは、ソースライブラリのプログラミング言語とパッケージエコシステム全体をサポートする。 例えば、kerasです。 NETバインディングは、Pythonで書かれたKerasライブラリであっても、NuGet(.NET)エコシステムでKerasライブラリをサポートする。 本稿では,155のシステム間バインディングの詳細な研究と,36のオープンソースmlライブラリの開発について述べる。 研究によると、ほとんどの一般的なmlライブラリでは、公式にサポートされているパッケージエコシステムは1つ(通常はpypi)だけです。 研究対象のmlライブラリの25%で使用可能なクロスエコシステムサポートは、コミュニティが維持するバインディング(例えば、npmエコシステムのバインディングの73%はコミュニティが維持する)を通じて提供される。 本研究により, 研究対象のバインディングの大部分は, ソースライブラリリリースのごく一部に過ぎず, ソースライブラリリリースに対するサポート受けの遅れが大きいことがわかった。

Open source machine learning (ML) libraries allow developers to integrate advanced ML functionality into their own applications. However, popular ML libraries, such as TensorFlow, are not available natively in all programming languages and software package ecosystems. Hence, developers who wish to use an ML library which is not available in their programming language or ecosystem of choice, may need to resort to using a so-called binding library. Binding libraries provide support across programming languages and package ecosystems for a source library. For example, the Keras .NET binding provides support for the Keras library in the NuGet (.NET) ecosystem even though the Keras library was written in Python. In this paper, we conduct an in-depth study of 155 cross-ecosystem bindings and their development for 36 popular open source ML libraries. Our study shows that for most popular ML libraries, only one package ecosystem is officially supported (usually PyPI). Cross-ecosystem support, which is available for 25% of the studied ML libraries, is usually provided through community-maintained bindings, e.g., 73% of the bindings in the npm ecosystem are community-maintained. Our study shows that the vast majority of the studied bindings cover only a small portion of the source library releases, and the delay for receiving support for a source library release is large.
翻訳日:2022-01-19 19:01:04 公開日:2022-01-18
# 確率制御のための頑健な深部FBSDE法の収束性

Convergence of a robust deep FBSDE method for stochastic control ( http://arxiv.org/abs/2201.06854v1 )

ライセンス: Link先を確認
Kristoffer Andersson, Adam Andersson, Cornelis W. Oosterlee(参考訳) 本稿では,確率的制御を基本としたFBSDEの深層学習に基づく数値スキームを提案する。 これは、後向き方程式に対する初期値が自由パラメータではなく、制御問題のコストの重み付け和である新たな損失関数と、端末条件における平均二乗誤差と一致する分散項とを有する、深いBSDE法の修正である。 古典的深部bsde法のfbsdeへの直接拡張が単純な線形-四次制御問題に失敗することを数値的な例で示し,新しい手法が機能する理由を示唆する。 時間連続および時間離散制御問題の厳密な制御に関する正則性と有界性仮定の下で,本手法の誤差解析を行う。 提案手法は3つの異なる問題に収束し,その1つは深部BSDE法の直接拡張に失敗した問題である。

In this paper we propose a deep learning based numerical scheme for strongly coupled FBSDE, stemming from stochastic control. It is a modification of the deep BSDE method in which the initial value to the backward equation is not a free parameter, and with a new loss function being the weighted sum of the cost of the control problem, and a variance term which coincides with the means square error in the terminal condition. We show by a numerical example that a direct extension of the classical deep BSDE method to FBSDE, fails for a simple linear-quadratic control problem, and motivate why the new method works. Under regularity and boundedness assumptions on the exact controls of time continuous and time discrete control problems we provide an error analysis for our method. We show empirically that the method converges for three different problems, one being the one that failed for a direct extension of the deep BSDE method.
翻訳日:2022-01-19 19:00:45 公開日:2022-01-18
# 平均運動共鳴挙動の機械学習予測 -平面の場合-

Machine learning prediction for mean motion resonance behaviour -- The planar case ( http://arxiv.org/abs/2201.06743v1 )

ライセンス: Link先を確認
Xin Li, Jian Li, Zhihong Jeff Xia and Nikolaos Georgakarakos(参考訳) 近ごろ、機械学習は可積分ハミルトン系のダイナミクスとカオス3体問題の研究に使われている。 本研究では,非可積分系における正則運動の中間事例として,海王星と2:3の平均運動共鳴の挙動を考える。 6250 yrの数値積分による初期データから、最も訓練された人工ニューラルネットワーク(ANN)は、その後の18750 yrの進化における2:3共振器の軌道を予測でき、組み合わせた周期で完全なリボレーションサイクルをカバーできることを示した。 ANNの共振角予測と数値積分の結果を比較することで、前者は数度以内の精度で共振角を予測できるが、計算時間を大幅に節約できるという利点がある。 より具体的には、訓練されたannは、2:3共振器の共振振幅を効果的に測定することができ、共振候補を識別できる高速なアプローチを提供する。 これは将来の調査で発見される大量のKBOの分類に役立つかもしれない。

Most recently, machine learning has been used to study the dynamics of integrable Hamiltonian systems and the chaotic 3-body problem. In this work, we consider an intermediate case of regular motion in a non-integrable system: the behaviour of objects in the 2:3 mean motion resonance with Neptune. We show that, given initial data from a short 6250 yr numerical integration, the best-trained artificial neural network (ANN) can predict the trajectories of the 2:3 resonators over the subsequent 18750 yr evolution, covering a full libration cycle over the combined time period. By comparing our ANN's prediction of the resonant angle to the outcome of numerical integrations, the former can predict the resonant angle with an accuracy as small as of a few degrees only, while it has the advantage of considerably saving computational time. More specifically, the trained ANN can effectively measure the resonant amplitudes of the 2:3 resonators, and thus provides a fast approach that can identify the resonant candidates. This may be helpful in classifying a huge population of KBOs to be discovered in future surveys.
翻訳日:2022-01-19 18:56:10 公開日:2022-01-18
# 物理インフォームドニューラルネットワークによるBoussinesq方程式の自己相似爆破プロファイル

Self-similar blow-up profile for the Boussinesq equations via a physics-informed neural network ( http://arxiv.org/abs/2201.06780v1 )

ライセンス: Link先を確認
Yongji Wang, Ching-Yao Lai, Javier G\'omez-Serrano, Tristan Buckmaster(参考訳) 我々は,Boussinesq方程式に対するスムーズな自己相似解を求めるために,物理インフォームドニューラルネットワークを用いた新しい数値フレームワークを開発した。 さらに、この解は円柱境界の存在下での3次元オイラー方程式の漸近的自己相似プロファイルに対応する。 特に、この解は3次元オイラーのルオ・フー爆破シナリオ(G. Luo, T. Hou, Proc. Natl. Sci. 111(36): 12968-12973, 2014)の正確な記述を表している。 著者の知識を最大限に活用するために、この解は流体力学の方程式から発見された最初の真の多次元スムーズな自己相似プロファイルである。 新しい数値的枠組みは他の方程式に頑健で容易に適応できることが示されている。

We develop a new numerical framework, employing physics-informed neural networks, to find a smooth self-similar solution for the Boussinesq equations. The solution in addition corresponds to an asymptotic self-similar profile for the 3-dimensional Euler equations in the presence of a cylindrical boundary. In particular, the solution represents a precise description of the Luo-Hou blow-up scenario [G. Luo, T. Hou, Proc. Natl. Acad. Sci. 111(36): 12968-12973, 2014] for 3-dimensional Euler. To the best of the authors' knowledge, the solution is the first truly multi-dimensional smooth backwards self-similar profile found for an equation from fluid mechanics. The new numerical framework is shown to be both robust and readily adaptable to other equations.
翻訳日:2022-01-19 18:55:50 公開日:2022-01-18
# 反QCDジェットタグのための不変表現駆動型ニューラル分類器

Invariant Representation Driven Neural Classifier for Anti-QCD Jet Tagging ( http://arxiv.org/abs/2201.07199v1 )

ライセンス: Link先を確認
Taoli Cheng, Aaron Courville(参考訳) ニューラルネットベース標準モデルジェット分類タスクにおける表現学習と誘導バイアスを利用して、非QCD信号ジェットを検出する。 ジェット物理学における分類に基づく異常検出の枠組みを確立するために, 十分に訓練された 'emph{well-calibrated} と 'emph{powerful enough feature extractor} では, 教師付きニューラルジェットタグが, QCDバックグラウンドを効果的に低減するための強力な汎用的な反QCDジェットタグとして機能することを示した。 imposing \emph{data-augmented} mass-invariance (decoupling the dominant factor) は背景推定を促進させるだけでなく、よりサブストラクチャー・アウェアな表現学習を誘導する。 検討中のすべてのテスト信号に対して、優れたタグ付け効率に到達することができます。 最善のケースでは、約50の背景拒絶率と50%の信号受容において3.6の重要改善係数に達し、ジェット質量は相関する。 本研究は、教師付き標準模型ジェット分類器が、一般的な新しい物理探索において大きな可能性を示唆している。

We leverage representation learning and the inductive bias in neural-net-based Standard Model jet classification tasks, to detect non-QCD signal jets. In establishing the framework for classification-based anomaly detection in jet physics, we demonstrate that with a \emph{well-calibrated} and \emph{powerful enough feature extractor}, a well-trained \emph{mass-decorrelated} supervised neural jet tagger can serve as a strong generic anti-QCD jet tagger for effectively reducing the QCD background. Imposing \emph{data-augmented} mass-invariance (decoupling the dominant factor) not only facilitates background estimation, but also induces more substructure-aware representation learning. We are able to reach excellent tagging efficiencies for all the test signals considered. In the best case, we reach a background rejection rate around 50 and a significance improvement factor of 3.6 at 50 \% signal acceptance, with jet mass decorrelated. This study indicates that supervised Standard Model jet classifiers have great potential in general new physics searches.
翻訳日:2022-01-19 18:55:34 公開日:2022-01-18
# (参考訳) 自動運転のためのコンテキスト道路レーンとシンボル生成

Contextual road lane and symbol generation for autonomous driving ( http://arxiv.org/abs/2201.07120v1 )

ライセンス: CC BY 4.0
Ajay Soni, Pratik Padamwar, Krishna Reddy Konda(参考訳) 本稿では,生成モデルを用いた車線検出とセグメンテーションのための新しい手法を提案する。 従来の識別モデルは、道路上のピクセルを意味的に分類するために用いられてきた。 生成的逆ネットワークを訓練することにより,車線と道路シンボルの確率分布をモデル化する。 学習した確率分布に基づいて、最寄りのクラスラベルに対してさらに定量化される所定の画像に対して、文脈対応レーンと道路標識を生成する。 提案手法はBDD100K と Baidu ApolloScape のデータセットでテストされており、最先端の手法よりも優れた性能を示し、消失したシナリオや隠蔽シナリオのレーンを生成することにより、悪条件に対する堅牢性を示す。

In this paper we present a novel approach for lane detection and segmentation using generative models. Traditionally discriminative models have been employed to classify pixels semantically on a road. We model the probability distribution of lanes and road symbols by training a generative adversarial network. Based on the learned probability distribution, context-aware lanes and road signs are generated for a given image which are further quantized for nearest class label. Proposed method has been tested on BDD100K and Baidu ApolloScape datasets and performs better than state of the art and exhibits robustness to adverse conditions by generating lanes in faded out and occluded scenarios.
翻訳日:2022-01-19 18:54:02 公開日:2022-01-18
# 注意に基づく3次元物体検出手法の提案

Attention-based Proposals Refinement for 3D Object Detection ( http://arxiv.org/abs/2201.07070v1 )

ライセンス: Link先を確認
Minh-Quan Dao, Elwan H\'ery, Vincent Fr\'emont(参考訳) 安全な自動運転技術は、予測やナビゲーションなどの安全上重要な下流タスクへの入力を生成するため、正確な3dオブジェクト検出に大きく依存する。 この分野での最近の進歩は、精度と効率のバランスを良くするために、voxelベースの地域提案ネットワークの改良段階を開発することである。 最先端フレームワークの間で一般的なアプローチは、提案や関心領域(ROI)をグリッドに分割し、ROI機能に合成する前に各グリッドロケーションの機能を抽出することである。 印象的なパフォーマンスを実現する一方で、このようなアプローチには、専門家の知識を正しくチューニングする必要がある多数の手作りのコンポーネント(グリッドサンプリング、セット抽象化など)が含まれている。 本稿では,注意機構を用いたroi特徴抽出に対するデータ駆動アプローチについて述べる。 具体的には、ROI内の点はROIの幾何学を組み込むように位置符号化される。 結果として得られる位置符号化とその特徴はベクトル注意によりROI特徴に変換される。 もともとのマルチヘッドアテンションとは異なり、ベクトルアテンションは点特徴内の異なるチャネルに異なる重みを割り当て、プールされた点とROIの間のより洗練された関係を捉えることができる。 kitti \textit{validation} セットの実験では、近縁の方法に比べてパラメータが低く、nvidia v100 gpu 上で 15 fps の準リアルタイム推論速度を達成しながら、クラスカーの84.84 apの競合性能を適度に達成できることが示されている。 コードはリリースされます。

Safe autonomous driving technology heavily depends on accurate 3D object detection since it produces input to safety critical downstream tasks such as prediction and navigation. Recent advances in this field is made by developing the refinement stage for voxel-based region proposal networks to better strike the balance between accuracy and efficiency. A popular approach among state-of-the-art frameworks is to divide proposals, or Region of Interest (ROI), into grids and extract feature for each grid location before synthesizing them to ROI feature. While achieving impressive performances, such an approach involves a number of hand crafted components (e.g. grid sampling, set abstraction) which requires expert knowledge to be tuned correctly. This paper takes a more data-driven approach to ROI feature extraction using the attention mechanism. Specifically, points inside a ROI are positionally encoded to incorporate ROI 's geometry. The resulted position encoding and their features are transformed into ROI feature via vector attention. Unlike the original multi-head attention, vector attention assign different weights to different channels within a point feature, thus being able to capture a more sophisticated relation between pooled points and ROI. Experiments on KITTI \textit{validation} set show that our method achieves competitive performance of 84.84 AP for class Car at Moderate difficulty while having the least parameters compared to closely related methods and attaining a quasi-real time inference speed at 15 FPS on NVIDIA V100 GPU. The code will be released.
翻訳日:2022-01-19 18:44:53 公開日:2022-01-18
# RRAMアーキテクチャのためのDense and Sparse Mapping Schemeの設計空間探索

Design Space Exploration of Dense and Sparse Mapping Schemes for RRAM Architectures ( http://arxiv.org/abs/2201.06703v1 )

ライセンス: Link先を確認
Corey Lammie, Jason K. Eshraghian, Chenqi Li, Amirali Amirsoleimani, Roman Genov, Wei D. Lu, Mostafa Rahimi Azghadi(参考訳) 混合信号抵抗ランダムアクセスメモリ(RRAM)アクセラレーターにおけるデバイスと回路レベルの影響は、一般的にディープラーニング(DL)アルゴリズムのパフォーマンス劣化として現れるが、影響の程度はアルゴリズムの特徴によって異なる。 これにはネットワークアーキテクチャ、キャパシティ、重量分布、層間接続の種類が含まれる。 スパースニューラルネットワークを効率的に訓練する技術は、アクティベーション空間、量子化、メムリシブノイズを持つ可能性がある。 本稿では,多種多様なネットワークアーキテクチャにおける密接かつスパースなマッピングスキームの利点と限界を定量化するための拡張設計空間探索(dse)手法を提案する。 接続性は電力消費を減らし、ローカライズされた特徴の抽出に最適化されることが多いが、階層化RRAMアレイの性能は高密度マッピング方式と比較して過度なパラメータ化によるノイズの影響を受けやすい。 さらに,CIFAR-10データセットを用いて,1-Transistor-1-Resistor (1T1R)タイルによる典型的な非イデアルのトレードオフの定量化と定式化を行う。

The impact of device and circuit-level effects in mixed-signal Resistive Random Access Memory (RRAM) accelerators typically manifest as performance degradation of Deep Learning (DL) algorithms, but the degree of impact varies based on algorithmic features. These include network architecture, capacity, weight distribution, and the type of inter-layer connections. Techniques are continuously emerging to efficiently train sparse neural networks, which may have activation sparsity, quantization, and memristive noise. In this paper, we present an extended Design Space Exploration (DSE) methodology to quantify the benefits and limitations of dense and sparse mapping schemes for a variety of network architectures. While sparsity of connectivity promotes less power consumption and is often optimized for extracting localized features, its performance on tiled RRAM arrays may be more susceptible to noise due to under-parameterization, when compared to dense mapping schemes. Moreover, we present a case study quantifying and formalizing the trade-offs of typical non-idealities introduced into 1-Transistor-1-Resistor (1T1R) tiled memristive architectures and the size of modular crossbar tiles using the CIFAR-10 dataset.
翻訳日:2022-01-19 18:43:18 公開日:2022-01-18
# 1次元量子力学のエネルギースペクトルによる深部ニューラルネットワークの物理理解の観察

Observing how deep neural networks understand physics through the energy spectrum of one-dimensional quantum mechanics ( http://arxiv.org/abs/2201.06676v1 )

ライセンス: Link先を確認
Kenzo Ogure(参考訳) ニューラルネットワーク(NN)が1次元量子力学を用いて物理学をどのように理解するかを検討した。 NNをトレーニングし、ポテンシャルからエネルギー固有値を正確に予測した後、NNの物理理解を4つの異なる側面から確認した。 訓練されたNNは、学習したものと異なるポテンシャルのエネルギー固有値を予測し、ポテンシャルの最小値と最大値に着目し、訓練中に使われていない粒子の存在の確率分布を予測し、訓練されていない物理現象を再現する。 これらの結果から,NNは限られたデータのみから物理法則を学習し,トレーニングで使用するものとは異なる条件下での実験結果を予測し,トレーニング中に提供されない種類の物理量を予測することができることがわかった。 NNは人間と異なる経路で物理学を理解し、人間の理解の仕方を補完することで、物理学を進化させる強力なツールになるだろう。

We investigated how neural networks (NNs) understand physics using one-dimensional quantum mechanics. After training an NN to accurately predict energy eigenvalues from potentials, we used it to confirm the NN's understanding of physics from four different aspects. The trained NN could predict energy eigenvalues of a different potential than the one learned, focus on minima and maxima of a potential, predict the probability distribution of the existence of particles not used during training, and reproduce untrained physical phenomena. These results show that NNs can learn the laws of physics from only a limited set of data, predict the results of experiments under conditions different from those used for training, and predict physical quantities of types not provided during training. Since NNs understand physics through a different path than humans take, and by complementing the human way of understanding, they will be a powerful tool for advancing physics.
翻訳日:2022-01-19 18:39:44 公開日:2022-01-18
# AESPA:高速プライベート推論のための低次多項式活性保存精度

AESPA: Accuracy Preserving Low-degree Polynomial Activation for Fast Private Inference ( http://arxiv.org/abs/2201.06699v1 )

ライセンス: Link先を確認
Jaiyoung Park and Michael Jaemin Kim and Wonkyung Jung and Jung Ho Ahn(参考訳) マルチパーティ計算(MPC)と同型暗号化の両方を相乗的に利用するハイブリッドプライベート推論(PI)プロトコルは、PIの最も顕著な技術の一つである。 しかし、最先端のPIプロトコルでさえ非線形層、特にアクティベーション関数によってボトルネックとなる。 標準の非線形アクティベーション関数はモデル精度を高めることができるが、高価なガーブレード回路MPCプリミティブで処理する必要がある。 多項式活性化は、Beaverの乗算三重項 MPC プリミティブを介して処理できるが、これまで深刻な精度低下を引き起こしてきた。 本稿では,ReLUのHermite展開とベースワイド正規化を利用した低次多項式活性化関数(AESPA)の精度保存を提案する。 我々は、VGGNet、ResNet、Pre-activation ResNetなどの一般的なMLモデルにAESPAを適用し、ReLUアクティベートされた標準モデルのモデルに匹敵する推論精度を示し、以前の低次多項式研究よりも優れた精度を実現する。 最先端のDelphi PIプロトコル上の全RELUベースラインに適用すると、AESPAは最大42.1倍、28.3倍のレイテンシと通信コストがかかる。

Hybrid private inference (PI) protocol, which synergistically utilizes both multi-party computation (MPC) and homomorphic encryption, is one of the most prominent techniques for PI. However, even the state-of-the-art PI protocols are bottlenecked by the non-linear layers, especially the activation functions. Although a standard non-linear activation function can generate higher model accuracy, it must be processed via a costly garbled-circuit MPC primitive. A polynomial activation can be processed via Beaver's multiplication triples MPC primitive but has been incurring severe accuracy drops so far. In this paper, we propose an accuracy preserving low-degree polynomial activation function (AESPA) that exploits the Hermite expansion of the ReLU and basis-wise normalization. We apply AESPA to popular ML models, such as VGGNet, ResNet, and pre-activation ResNet, to show an inference accuracy comparable to those of the standard models with ReLU activation, achieving superior accuracy over prior low-degree polynomial studies. When applied to the all-RELU baseline on the state-of-the-art Delphi PI protocol, AESPA shows up to 42.1x and 28.3x lower online latency and communication cost.
翻訳日:2022-01-19 18:32:06 公開日:2022-01-18
# 勧告アンラーニング

Recommendation Unlearning ( http://arxiv.org/abs/2201.06820v1 )

ライセンス: Link先を確認
Chong Chen, Fei Sun, Min Zhang, Bolin Ding(参考訳) 利用者の好みを収集データから学習することで,レコメンダシステムは不可欠なWebサービスを提供する。 しかし、多くの場合、システムは一部のトレーニングデータを忘れる必要がある。 プライバシーの観点から言えば、最近いくつかのプライバシー規制が提案されており、所有者が忘れるように要求するデータの影響を排除する必要がある。 実用性の観点からは、システムのユーティリティが悪いデータによって損傷された場合、システムはユーティリティを回復するためにこれらのデータを忘れる必要がある。 ユーザビリティの観点からは、ノイズや誤ったエントリを削除することで、システムはより有用なレコメンデーションを提供できる。 アンラーニングは非常に重要であるが、既存のレコメンデーションシステムでは十分に考慮されていない。 画像やテキストデータの領域における機械学習の問題を研究している研究もあるが、コラボレーティブな情報を考慮できないため、既存の手法は推奨には直接適用できない。 本稿では,レコメンデーションタスクに適した汎用かつ効率的な機械学習フレームワークであるreceraserを提案する。 reeraserの主なアイデアは、トレーニングセットを複数のシャードに分割し、各シャードの構成モデルをトレーニングすることだ。 具体的には,データの協調的情報を保持するために,まず3つの新しいデータ分割アルゴリズムを設計し,それらの類似性に基づいて,トレーニングデータをバランスの取れたグループに分割する。 そして, 異なるシャードモデルが最終予測に一様に寄与しないことを考慮し, グローバルモデルの有用性を向上させるための適応集計法を提案する。 3つの公開ベンチマークによる実験結果から、RecEraserは効率的な未学習を達成できるだけでなく、モデルユーティリティの観点から最先端の未学習手法よりも優れていることが示された。 ソースコードはhttps://github.com/chenchongthu/Recommendation-Unlearningにある。

Recommender systems provide essential web services by learning users' personal preferences from collected data. However, in many cases, systems also need to forget some training data. From the perspective of privacy, several privacy regulations have recently been proposed, requiring systems to eliminate any impact of the data whose owner requests to forget. From the perspective of utility, if a system's utility is damaged by some bad data, the system needs to forget these data to regain utility. From the perspective of usability, users can delete noise and incorrect entries so that a system can provide more useful recommendations. While unlearning is very important, it has not been well-considered in existing recommender systems. Although there are some researches have studied the problem of machine unlearning in the domains of image and text data, existing methods can not been directly applied to recommendation as they are unable to consider the collaborative information. In this paper, we propose RecEraser, a general and efficient machine unlearning framework tailored to recommendation task. The main idea of RecEraser is to partition the training set into multiple shards and train a constituent model for each shard. Specifically, to keep the collaborative information of the data, we first design three novel data partition algorithms to divide training data into balanced groups based on their similarity. Then, considering that different shard models do not uniformly contribute to the final prediction, we further propose an adaptive aggregation method to improve the global model utility. Experimental results on three public benchmarks show that RecEraser can not only achieve efficient unlearning, but also outperform the state-of-the-art unlearning methods in terms of model utility. The source code can be found at https://github.com/chenchongthu/Recommendation-Unlearning
翻訳日:2022-01-19 18:31:43 公開日:2022-01-18
# レイベース分散型自動運転車研究プラットフォーム

Ray Based Distributed Autonomous Vehicle Research Platform ( http://arxiv.org/abs/2201.06835v1 )

ライセンス: Link先を確認
Derek Xu(参考訳) 私のプロジェクトは、シミュレーター(Carla)を使った自動運転車の迅速な訓練にRayが使えるのか、さらに研究目的のために十分な頑丈なプラットフォームを構築できるのか、という問題に取り組みました。 rayは、分散機械学習アプリケーションを可能にするオープンソースのフレームワークである。 分散コンピューティング(distributed computing)は、モデルトレーニングなどの計算タスクを多くのマシンで並列化する技術である。 Rayはこれらのマシンの複雑な調整を抽象化し、急速にスケーラブルにする。 carlaはモデルトレーニングに使用されるデータを生成する車両シミュレータである。 プロジェクトの大部分が、Ray氏が分散モデルのトレーニングに使用するトレーニングロジックを書いていました。 模倣学習は自動運転車に最適だ。 模倣学習は強化学習の代替であり、与えられた一連のデモンストレーションを専門家(通常は人間)に模倣することで最適な方針を学習しようとする。 プロジェクトの重要な成果は、複雑なターンスルートラフィックのナビゲートなど、トレーニングされたエージェントをいくつかのベンチマークテストで紹介することだった。 さらに大きな野心は、他の人が大量のCarla車のデータですばやく実験を訓練し実行できる研究プラットフォームを開発することだった。 したがって、私の最終製品は単一のモデルではなく、自動運転車研究者が利用できる大規模なオープンソースの研究プラットフォーム(RayCarla)です。

My project tackles the question of whether Ray can be used to quickly train autonomous vehicles using a simulator (Carla), and whether a platform robust enough for further research purposes can be built around it. Ray is an open-source framework that enables distributed machine learning applications. Distributed computing is a technique which parallelizes computational tasks, such as training a model, among many machines. Ray abstracts away the complex coordination of these machines, making it rapidly scalable. Carla is a vehicle simulator that generates data used to train a model. The bulk of the project was writing the training logic that Ray would use to train my distributed model. Imitation learning is the best fit for autonomous vehicles. Imitation learning is an alternative to reinforcement learning and it works by trying to learn the optimal policy by imitating an expert (usually a human) given a set of demonstrations. A key deliverable for the project was showcasing my trained agent in a few benchmark tests, such as navigating a complex turn through traffic. Beyond that, the broader ambition was to develop a research platform where others could quickly train and run experiments on huge amounts of Carla vehicle data. Thus, my end product is not a single model, but a large-scale, open-source research platform (RayCarla) for autonomous vehicle researchers to utilize.
翻訳日:2022-01-19 18:31:17 公開日:2022-01-18
# GNNを用いた高レベル合成性能予測:ベンチマーク、モデリング、改善

High-Level Synthesis Performance Prediction using GNNs: Benchmarking, Modeling, and Advancing ( http://arxiv.org/abs/2201.06848v1 )

ライセンス: Link先を確認
Nan Wu, Hang Yang, Yuan Xie, Pan Li, Cong Hao(参考訳) アジャイルハードウェア開発には、初期の設計段階から高速で正確な回路品質の評価が必要である。 高レベル合成(HLS)性能予測の既存の作業は通常、合成プロセス後に広範な特徴工学を必要とする。 そこで本研究では,c/c++プログラムをグラフとして表現することで,グラフニューラルネットワーク(gnns)の表現能力を活用し,回路評価をできるだけ早く行うための高速かつ高精度な性能モデリング手法を提案する。 この作品の貢献は3倍である。 まず、40kCの合成可能プログラムを含む標準ベンチマークを構築し、合成プログラムと実世界の3つのHLSベンチマークを含む。 各プログラムはFPGA上に実装され、基調性能メトリクスを生成する。 第2に,グラフ上でのHLS性能予測問題を公式化し,予測スケジュール(早期/後期予測)と精度の異なるトレードオフを利用するGNNを用いた複数のモデリング戦略を提案する。 第3に, 時系列を犠牲にせず, 予測精度が大幅に向上し, hlsツールを大きく上回る階層型gnnを提案する。 提案する予測器はhlsを最大40倍に上回り,既存の予測器の2倍から5倍の資源使用率とタイミング予測に優れている。

Agile hardware development requires fast and accurate circuit quality evaluation from early design stages. Existing work of high-level synthesis (HLS) performance prediction usually needs extensive feature engineering after the synthesis process. To expedite circuit evaluation from as earlier design stage as possible, we propose a rapid and accurate performance modeling, exploiting the representation power of graph neural networks (GNNs) by representing C/C++ programs as graphs. The contribution of this work is three-fold. First, we build a standard benchmark containing 40k C synthesizable programs, which includes both synthetic programs and three sets of real-world HLS benchmarks. Each program is implemented on FPGA to generate ground-truth performance metrics. Second, we formally formulate the HLS performance prediction problem on graphs, and propose multiple modeling strategies with GNNs that leverage different trade-offs between prediction timeliness (early/late prediction) and accuracy. Third, we further propose a novel hierarchical GNN that does not sacrifice timeliness but largely improves prediction accuracy, significantly outperforming HLS tools. We apply extensive evaluations for both synthetic and unseen real-case programs; our proposed predictor largely outperforms HLS by up to 40X and excels existing predictors by 2X to 5X in terms of resource usage and timing prediction.
翻訳日:2022-01-19 18:30:59 公開日:2022-01-18
# ディープグラフ畳み込みネットワークとLSTMによる薬物標的結合親和性予測

Deep Graph Convolutional Network and LSTM based approach for predicting drug-target binding affinity ( http://arxiv.org/abs/2201.06872v1 )

ライセンス: Link先を確認
Shrimon Mukherjee, Madhusudan Ghosh, Partha Basuchowdhuri(参考訳) 新しい薬の開発は高価で時間のかかるプロセスである。 世界中でSARS-CoV-2が流行しているため、SARS-CoV-2用の新薬をできるだけ早く開発することが不可欠である。 薬物の再利用技術は、既存のfda承認薬物の一覧と、新しい疾患に対処するためにそれらを再利用する特性を調べることによって、新しい薬の開発に要する時間を短縮することができる。 本稿では,FDA承認薬物とSARS-CoV-2のウイルスタンパク質との結合親和性を予測し,グラフ畳み込みネットワークとLSTMに基づく新しいアーキテクチャであるDeepGLSTMを提案する。 提案したモデルは、Davis, KIBA (Kinase Inhibitor Bio Activity), DTC (Drug Target Commons), Metz, ToxCast, STITCHデータセットでトレーニングされている。 新規なアーキテクチャを用いて、5つのウイルスタンパク質に対して2,304のFDA承認薬物の複合スコア(DavisとKIBAスコアを用いた計算)を予測する。 組み合わせスコアに基づいて,sars-cov-2に存在する5つのウイルスタンパク質の結合親和性が最も高いトップ18薬のリストを作成した。 その後、このリストは、新しい有用な薬物の作成に使用できる。

Development of new drugs is an expensive and time-consuming process. Due to the world-wide SARS-CoV-2 outbreak, it is essential that new drugs for SARS-CoV-2 are developed as soon as possible. Drug repurposing techniques can reduce the time span needed to develop new drugs by probing the list of existing FDA-approved drugs and their properties to reuse them for combating the new disease. We propose a novel architecture DeepGLSTM, which is a Graph Convolutional network and LSTM based method that predicts binding affinity values between the FDA-approved drugs and the viral proteins of SARS-CoV-2. Our proposed model has been trained on Davis, KIBA (Kinase Inhibitor Bioactivity), DTC (Drug Target Commons), Metz, ToxCast and STITCH datasets. We use our novel architecture to predict a Combined Score (calculated using Davis and KIBA score) of 2,304 FDA-approved drugs against 5 viral proteins. On the basis of the Combined Score, we prepare a list of the top-18 drugs with the highest binding affinity for 5 viral proteins present in SARS-CoV-2. Subsequently, this list may be used for the creation of new useful drugs.
翻訳日:2022-01-19 18:30:37 公開日:2022-01-18
# エッジコンピューティングのためのハードウェア効率の良いデコンボリューションベースGAN

Hardware-Efficient Deconvolution-Based GAN for Edge Computing ( http://arxiv.org/abs/2201.06878v1 )

ライセンス: Link先を確認
Azzam Alhussain and Mingjie Lin(参考訳) Generative Adversarial Networks (GAN)は、学習したデータ分布に基づいて新しいデータサンプルを生成する最先端のアルゴリズムである。 しかし、その性能は計算とメモリ要求の面で大きなコストを伴っている。 本稿では,FPGA上に実装された量子化デコンボリューションGAN(QDCGAN)のトレーニングのためのHW/SW共同設計手法を提案する。 開発したアクセラレータは、ganベースのエッジコンピューティングのスケーリング係数に関して高い並列性を提供する効率的なデコンボリューションエンジンに基づいている。 さらに,リソース制約のあるプラットフォーム上での低消費電力推論のために,様々な精度,データセット,ネットワークスケーラビリティを解析した。 最後に、Xilinx SoC-FPGAのVivado高レベル合成による推論のトレーニング、実装、状態空間探索、スケーリング、およびJetson Nanoによる比較テストのためのエンドツーエンドのオープンソースフレームワークを提供する。

Generative Adversarial Networks (GAN) are cutting-edge algorithms for generating new data samples based on the learned data distribution. However, its performance comes at a significant cost in terms of computation and memory requirements. In this paper, we proposed an HW/SW co-design approach for training quantized deconvolution GAN (QDCGAN) implemented on FPGA using a scalable streaming dataflow architecture capable of achieving higher throughput versus resource utilization trade-off. The developed accelerator is based on an efficient deconvolution engine that offers high parallelism with respect to scaling factors for GAN-based edge computing. Furthermore, various precisions, datasets, and network scalability were analyzed for low-power inference on resource-constrained platforms. Lastly, an end-to-end open-source framework is provided for training, implementation, state-space exploration, and scaling the inference using Vivado high-level synthesis for Xilinx SoC-FPGAs, and a comparison testbed with Jetson Nano.
翻訳日:2022-01-19 18:30:15 公開日:2022-01-18
# CTR予測のための連続学習:ハイブリッドアプローチ

Continual Learning for CTR Prediction: A Hybrid Approach ( http://arxiv.org/abs/2201.06886v1 )

ライセンス: Link先を確認
Ke Hu, Yi Qi, Jianqiang Huang, Jia Cheng, Jun Lei(参考訳) クリックスルー率(CTR)予測はコスト・パー・クリック(CPC)広告システムにおける中核的なタスクであり、機械学習の実践者によって広く研究されている。 既存の多くのメソッドが実際にうまくデプロイされているが、そのほとんどは(独立で同一の)仮定に基づいて構築されており、トレーニングや推論に使用されるクリックデータが時間を通して収集され、本質的に非定常的でドリフトである。 このミスマッチは必然的に準最適パフォーマンスにつながるでしょう。 この問題に対処するため,CTR予測を連続学習タスクとして定式化し,非定常ドリフトクリックデータストリームに直面する場合の予測を適応・学習・継続するメモリベースのモジュールアーキテクチャを備えた,CTR予測のためのハイブリッド学習フレームワークであるCOLFを提案する。 メモリとターゲットデータの相違を明示的に制御するメモリ人口法と組み合わせて、COLFはその歴史的経験から肯定的な知識を得ることができ、CTR予測を改善することができる。 中国の大手ショッピングアプリから収集したクリックログに関する実証的評価は,既存の方法よりも優れていることを示す。 さらに,本手法をオンラインで展開し,CTRと収益の大幅な改善を観察し,本手法の有効性を実証した。

Click-through rate(CTR) prediction is a core task in cost-per-click(CPC) advertising systems and has been studied extensively by machine learning practitioners. While many existing methods have been successfully deployed in practice, most of them are built upon i.i.d.(independent and identically distributed) assumption, ignoring that the click data used for training and inference is collected through time and is intrinsically non-stationary and drifting. This mismatch will inevitably lead to sub-optimal performance. To address this problem, we formulate CTR prediction as a continual learning task and propose COLF, a hybrid COntinual Learning Framework for CTR prediction, which has a memory-based modular architecture that is designed to adapt, learn and give predictions continuously when faced with non-stationary drifting click data streams. Married with a memory population method that explicitly controls the discrepancy between memory and target data, COLF is able to gain positive knowledge from its historical experience and makes improved CTR predictions. Empirical evaluations on click log collected from a major shopping app in China demonstrate our method's superiority over existing methods. Additionally, we have deployed our method online and observed significant CTR and revenue improvement, which further demonstrates our method's efficacy.
翻訳日:2022-01-19 18:29:57 公開日:2022-01-18
# (参考訳) 自己適応システムに対する生涯動的最適化:事実かフィクションか?

Lifelong Dynamic Optimization for Self-Adaptive Systems: Fact or Fiction? ( http://arxiv.org/abs/2201.07096v1 )

ライセンス: CC BY 4.0
Tao Chen(参考訳) 環境の変化に直面している場合、高度に構成可能なソフトウェアシステムは、例えば、より高いスループットやより小さなレイテンシといった、自己適応型システム(SAS)の典型的な計画課題を最大限に維持する有望な適応プランを動的に探索する必要がある。 しかし、複数の局所最適条件を持つ頑丈で複雑な探索環境を考えると、特に動的環境において、このようなSAS計画は困難である。 本稿では,生涯にわたるSAS計画のための動的最適化フレームワークLiDOSを提案する。 LiDOSのユニークなところは、SAS計画をマルチモーダル最適化問題として定式化し、動的環境変化下での局所最適問題へのより良い対処を目的としていることである。 これは既存のプランナーと異なり、「ダイナミック」は計画中の探索プロセス中に明示的に処理されない。 そのため、LiDOSの検索と計画はSASの存続期間を通じて連続的に実行され、オフラインまたは検索スペースが環境下でカバーされた場合にのみ終了する。 3つの実世界のSASによる実験結果から,SAS計画における探索の一部としての動的処理を明示的に行うという概念が有効であることが示された。 また、最先端のプランナーよりも優れた結果が得られ、有望な適応プランを生成する上で1.4倍から10倍のスピードアップを実現している。

When faced with changing environment, highly configurable software systems need to dynamically search for promising adaptation plan that keeps the best possible performance, e.g., higher throughput or smaller latency -- a typical planning problem for self-adaptive systems (SASs). However, given the rugged and complex search landscape with multiple local optima, such a SAS planning is challenging especially in dynamic environments. In this paper, we propose LiDOS, a lifelong dynamic optimization framework for SAS planning. What makes LiDOS unique is that to handle the "dynamic", we formulate the SAS planning as a multi-modal optimization problem, aiming to preserve the useful information for better dealing with the local optima issue under dynamic environment changes. This differs from existing planners in that the "dynamic" is not explicitly handled during the search process in planning. As such, the search and planning in LiDOS run continuously over the lifetime of SAS, terminating only when it is taken offline or the search space has been covered under an environment. Experimental results on three real-world SASs show that the concept of explicitly handling dynamic as part of the search in the SAS planning is effective, as LiDOS outperforms its stationary counterpart overall with up to 10x improvement. It also achieves better results in general over state-of-the-art planners and with 1.4x to 10x speedup on generating promising adaptation plans.
翻訳日:2022-01-19 18:28:28 公開日:2022-01-18
# 知識駆動型ビジネスプロセス分析Canvas

A Knowledge-driven Business Process Analysis Canvas ( http://arxiv.org/abs/2201.06860v1 )

ライセンス: Link先を確認
Michele Missikoff(参考訳) ビジネスプロセス(bp)分析は情報システム開発の第一段階を表している。 それは、後にソフトウェア開発で使われるドメイン知識とその組織(例えば、ビジネスプロセスの再設計のために)の集まりで構成されます。 開発された情報システムの品質は,BP分析の実施方法と要求仕様書の品質に大きく依存する。 この問題が何十年も続いているにもかかわらず、ビジネスプロセス分析は依然として情報システム開発の重要な段階である。 有望な戦略の1つはBP分析におけるビジネス専門家の早期かつより重要な関与である。 本稿では,ビジネスエキスパートの早期関与を目標として,生産仕様の品質を保証する形式的基盤を提供する手法を提案する。 この目的のために,ビジネスエキスパートが分析を行うのを支援するために8つの知識セクションで構成された知識フレームワークであるBusiness Process Analysis Canvasを提案し,最終的にBP分析オントロジーが生み出される。

Business process (BP) analysis represents a first key phase of information system development. It consists in the gathering of domain knowledge and its organization to be later used in the software development, and beyond (e.g., for Business Process Reengineering). The quality of the developed information system largely depends on how the BP analysis has been carried out and the quality of the produced requirement specification documents. Despite the fact that the issue is on the table for decades, business process analysis is still a critical phase of information systems development. One promising strategy is an early and more important involvement of business experts in the BP analysis. This paper presents a methodology that aims at an early involvement of business experts while providing a formal grounding that guarantees the quality of the produced specifications. To this end, we propose the Business Process Analysis Canvas, a knowledge framework organized in eight knowledge sections aimed at supporting the business expert in carrying out the analysis, eventually yielding a BP analysis Ontology.
翻訳日:2022-01-19 17:57:03 公開日:2022-01-18
# 異種アノニマスウォークによるヘテロ構造の表現学習

Representation Learning on Heterostructures via Heterogeneous Anonymous Walks ( http://arxiv.org/abs/2201.06972v1 )

ライセンス: Link先を確認
Xuan Guo, Pengfei Jiao, Ting Pan, Wang Zhang, Mengyu Jia, Danyang Shi, Wenjun Wang(参考訳) 最近、ノードの機能や振る舞いを理解するのに非常に役立っているため、ネットワーク埋め込みの分野では構造的類似性を捉えることがホットな話題になっている。 しかしながら、既存の研究は均質ネットワークの学習構造に非常に注意を払っている一方で、ヘテロジニアスネットワークに関する関連する研究はいまだに無効である。 本稿では,ヘテロ構造の表現学習のための第一歩として,ノードタイプと基盤構造の組み合わせが多種多様であるため,非常に困難である。 多様なヘテロ構造を効果的に識別するために,まず,不均一匿名ウォーク (HAW) とその変種粗いHAW (CHAW) を理論的に保証する手法を提案する。 そして,同種匿名歩行埋め込み(HAWE)とその変種粗いHAWEをデータ駆動方式で考案し,各ノードの近傍で発生した歩行を予測して,非常に多数の歩行と列車の埋め込みを回避した。 最後に, ヘテロ構造学習のベンチマークを構築し, 提案手法の有効性を評価するために, 合成および実世界のネットワークに関する広範囲かつ実証的な実験を設計し, 適用する。 本手法は,均質で異質な古典的手法に比べて優れた性能を示し,大規模ネットワークに適用可能であることを示した。

Capturing structural similarity has been a hot topic in the field of network embedding recently due to its great help in understanding the node functions and behaviors. However, existing works have paid very much attention to learning structures on homogeneous networks while the related study on heterogeneous networks is still a void. In this paper, we try to take the first step for representation learning on heterostructures, which is very challenging due to their highly diverse combinations of node types and underlying structures. To effectively distinguish diverse heterostructures, we firstly propose a theoretically guaranteed technique called heterogeneous anonymous walk (HAW) and its variant coarse HAW (CHAW). Then, we devise the heterogeneous anonymous walk embedding (HAWE) and its variant coarse HAWE in a data-driven manner to circumvent using an extremely large number of possible walks and train embeddings by predicting occurring walks in the neighborhood of each node. Finally, we design and apply extensive and illustrative experiments on synthetic and real-world networks to build a benchmark on heterostructure learning and evaluate the effectiveness of our methods. The results demonstrate our methods achieve outstanding performance compared with both homogeneous and heterogeneous classic methods, and can be applied on large-scale networks.
翻訳日:2022-01-19 17:56:50 公開日:2022-01-18
# スパイキングニューラルネットワークのためのFPGA最適化ハードウェアアクセラレーション

FPGA-optimized Hardware acceleration for Spiking Neural Networks ( http://arxiv.org/abs/2201.06993v1 )

ライセンス: Link先を確認
Alessio Carpegna, Alessandro Savino, Stefano Di Carlo(参考訳) 人工知能(AI)は多くの異なるタスクで成功し、重要になっている。 aiシステムの広がりと複雑さは、研究者に専用のハードウェアアクセラレータの開発を促している。 スパイキングニューラルネットワーク(SNN)は、信頼性の高いハードウェア設計に適したモデルを実装するため、この意味で有望なソリューションである。 さらに、神経科学の観点からは、人間の脳をよりエミュレートする。 本研究は、MNISTをターゲットデータセットとして、画像認識タスクに適用したオフライントレーニングを備えたSNN用ハードウェアアクセラレータの開発を提案する。 領域の最小化や、単純なビットシフトによる乗算演算の置き換え、不活性スパイクに費やされた時間の最小化など、ニューロンの内部状態の更新には役に立たないようなパフォーマンスの最大化に多くの技術が用いられている。 この設計は Xilinx Artix-7 FPGA をターゲットにしており、利用可能なハードウェアリソースの40% を総じて使用し、分類時間を3桁程度削減している。

Artificial intelligence (AI) is gaining success and importance in many different tasks. The growing pervasiveness and complexity of AI systems push researchers towards developing dedicated hardware accelerators. Spiking Neural Networks (SNN) represent a promising solution in this sense since they implement models that are more suitable for a reliable hardware design. Moreover, from a neuroscience perspective, they better emulate a human brain. This work presents the development of a hardware accelerator for an SNN, with off-line training, applied to an image recognition task, using the MNIST as the target dataset. Many techniques are used to minimize the area and to maximize the performance, such as the replacement of the multiplication operation with simple bit shifts and the minimization of the time spent on inactive spikes, useless for the update of neurons' internal state. The design targets a Xilinx Artix-7 FPGA, using in total around the 40% of the available hardware resources and reducing the classification time by three orders of magnitude, with a small 4.5% impact on the accuracy, if compared to its software, full precision counterpart.
翻訳日:2022-01-19 17:56:27 公開日:2022-01-18
# 誰が救急部を増やすの? オレゴン健康保険実験の新たな知見

Who Increases Emergency Department Use? New Insights from the Oregon Health Insurance Experiment ( http://arxiv.org/abs/2201.07072v1 )

ライセンス: Link先を確認
Augustine Denteh (1), Helge Liebert (2) ((1) Department of Economics, Tulane University, (2) Department of Economics, University of Zurich)(参考訳) オレゴン州の救急医療機関(ED)がオレゴン州の実験で利用したことに対する新たな知見を提供する。 非パラメトリック因果機械学習法を用いて,メディケイド被覆がED使用に与える影響について,経済的に意味のある治療効果がみられた。 効果分布は広く分散しており、有意な効果は高用量個体に集中している。 参加者の約14%の小さなグループで、ed使用が大幅に増加したことで、全体的な効果が向上した。 個々の治療効果の残りは、ゼロまたは負と区別できない。 平均治療効果は、ほとんどの人の個別治療効果を表すものではない。 対象は,男性,スナップ前参加者,50歳未満の成人,初診前ed使用者の4群である。 以上の結果から, メディケイドは, ED使用に慣れており, 救急部門をあらゆる種類のケアに利用している人の間で, 有効利用率を高めることが示唆された。 我々は、異種効果を利用して最適な割り当てルールを推定し、同様の拡張における保険適用を優先順位付けする。

We provide new insights into the finding that Medicaid increased emergency department (ED) use from the Oregon experiment. Using nonparametric causal machine learning methods, we find economically meaningful treatment effect heterogeneity in the impact of Medicaid coverage on ED use. The effect distribution is widely dispersed, with significant positive effects concentrated among high-use individuals. A small group - about 14% of participants - in the right tail with significant increases in ED use drives the overall effect. The remainder of the individualized treatment effects is either indistinguishable from zero or negative. The average treatment effect is not representative of the individualized treatment effect for most people. We identify four priority groups with large and statistically significant increases in ED use - men, prior SNAP participants, adults less than 50 years old, and those with pre-lottery ED use classified as primary care treatable. Our results point to an essential role of intensive margin effects - Medicaid increases utilization among those already accustomed to ED use and who use the emergency department for all types of care. We leverage the heterogeneous effects to estimate optimal assignment rules to prioritize insurance applications in similar expansions.
翻訳日:2022-01-19 17:54:02 公開日:2022-01-18
# ドイツ語口伝インタビューにおける人間および自動音声認識性能

Human and Automatic Speech Recognition Performance on German Oral History Interviews ( http://arxiv.org/abs/2201.06841v1 )

ライセンス: Link先を確認
Michael Gref, Nike Matthiesen, Christoph Schmidt, Sven Behnke, Joachim K\"ohler(参考訳) 近年,音声認識システムは音声認識精度が著しく向上している。 一部の領域では、モデルが人間に近いパフォーマンスを達成している。 しかし, 口腔史の転写性能はヒトの精度には達していない。 本研究は,人間と機械の転写におけるこの差の大きさについて検討する。 そこで本研究では,新しい口腔史データセット上で3人の人間の転写を解析・比較する。 クリーンな音響条件を用いた最近のドイツの口頭史インタビューにおいて,人間の単語誤り率8.7%を推定した。 近年の機械書き起こし精度と比較するため,放送音声における近人性能を実現する音響モデルの適応実験を行った。 清潔で騒々しい口頭史インタビューの堅牢性と一般化に及ぼす異なる適応データの影響について検討する。 この課題に対して音響モデルを5~8%の相対的に最適化し, クリーンオーラルヒストリーの面接において, 雑音下で23.9%, 単語誤り率15.6%を達成する。

Automatic speech recognition systems have accomplished remarkable improvements in transcription accuracy in recent years. On some domains, models now achieve near-human performance. However, transcription performance on oral history has not yet reached human accuracy. In the present work, we investigate how large this gap between human and machine transcription still is. For this purpose, we analyze and compare transcriptions of three humans on a new oral history data set. We estimate a human word error rate of 8.7% for recent German oral history interviews with clean acoustic conditions. For comparison with recent machine transcription accuracy, we present experiments on the adaptation of an acoustic model achieving near-human performance on broadcast speech. We investigate the influence of different adaptation data on robustness and generalization for clean and noisy oral history interviews. We optimize our acoustic models by 5 to 8% relative for this task and achieve 23.9% WER on noisy and 15.6% word error rate on clean oral history interviews.
翻訳日:2022-01-19 17:53:22 公開日:2022-01-18
# 感情認識と感情分析のためのドイツ語口伝インタビューにおける人間注記の曖昧性に関する研究

A Study on the Ambiguity in Human Annotation of German Oral History Interviews for Perceived Emotion Recognition and Sentiment Analysis ( http://arxiv.org/abs/2201.06868v1 )

ライセンス: Link先を確認
Michael Gref, Nike Matthiesen, Sreenivasa Hikkal Venugopala, Shalaka Satheesh, Aswinkumar Vijayananth, Duc Bach Ha, Sven Behnke, Joachim K\"ohler(参考訳) 視聴覚インタビューアーカイブにおける研究は、しばしば、その発言だけでなく、その方法にも関心がある。 感情分析と感情認識は、これらの異なる顔の捕獲、分類、検索に役立つ。 特に、口述史アーカイブでは、このような索引付け技術が大きな関心事となる。 これらの技術は、歴史記憶における感情の役割を理解するのに役立つ。 しかし、人間はしばしばあいまいで主観的な感情や感情を知覚する。 さらに、口頭史インタビューは、複雑な、時には矛盾する、時には非常に微妙な感情の面の多層レベルを持つ。 したがって、マシンと人間がこれらを事前に定義されたカテゴリに捉えて割り当てた確率が問題となる。 本稿では,ドイツにおける口頭史インタビューにおける感情と感情の認識におけるあいまいさと機械学習システムへの影響について検討する。 我々の実験は、異なる感情に対する人間の知覚のかなりの違いを明らかにした。 さらに,様々なモーダルを用いた機械学習実験を報告する。 授業不均衡やトレーニングデータの欠如など,人間知覚の曖昧さやその他の課題は,現在,これらの技術が口伝アーカイブに活用できる機会を制限している。 それにもかかわらず、我々の研究は有望な観察とさらなる研究の可能性を明らかにする。

For research in audiovisual interview archives often it is not only of interest what is said but also how. Sentiment analysis and emotion recognition can help capture, categorize and make these different facets searchable. In particular, for oral history archives, such indexing technologies can be of great interest. These technologies can help understand the role of emotions in historical remembering. However, humans often perceive sentiments and emotions ambiguously and subjectively. Moreover, oral history interviews have multi-layered levels of complex, sometimes contradictory, sometimes very subtle facets of emotions. Therefore, the question arises of the chance machines and humans have capturing and assigning these into predefined categories. This paper investigates the ambiguity in human perception of emotions and sentiment in German oral history interviews and the impact on machine learning systems. Our experiments reveal substantial differences in human perception for different emotions. Furthermore, we report from ongoing machine learning experiments with different modalities. We show that the human perceptual ambiguity and other challenges, such as class imbalance and lack of training data, currently limit the opportunities of these technologies for oral history archives. Nonetheless, our work uncovers promising observations and possibilities for further research.
翻訳日:2022-01-19 17:53:09 公開日:2022-01-18
# ルーティングと操作のための変形可能な一次元物体検出

Deformable One-Dimensional Object Detection for Routing and Manipulation ( http://arxiv.org/abs/2201.06775v1 )

ライセンス: Link先を確認
Azarakhsh Keipour and Maryam Bandari and Stefan Schaal(参考訳) 変形可能な1次元オブジェクト(ケーブル、ロープ、糸など)をビデオフレームのストリームでモデル化し追跡する多くの方法が存在する。 しかし、これらの方法はいくつかの初期条件の存在に依存する。 我々の知る限りでは、これらの初期条件を非自明な状況で抽出できる検出手法の話題はほとんど解決されていない。 検出方法の欠如は、現実世界のアプリケーションにおけるトラッキングメソッドの使用を制限し、これらのオブジェクトを扱う完全自律的なアプリケーションにとってボトルネックとなる。 本稿では, 交差や閉塞を扱える変形可能な一次元物体の検出手法を提案する。 ルーティングや操作などのタスクに使用することができ、トラッキングメソッドが必要とする初期化を自動的に提供する。 このアルゴリズムは変形可能な物体を含む画像を取り、受動球状関節に接続された固定長円筒セグメント列を出力する。 鎖は変形可能な物体の自然な挙動に従い、元の画像の隙間と閉塞を埋めます。 実験および実験により, 様々な複雑な条件下で変形可能な一次元物体を正しく検出できることが確認された。

Many methods exist to model and track deformable one-dimensional objects (e.g., cables, ropes, and threads) across a stream of video frames. However, these methods depend on the existence of some initial conditions. To the best of our knowledge, the topic of detection methods that can extract those initial conditions in non-trivial situations has hardly been addressed. The lack of detection methods limits the use of the tracking methods in real-world applications and is a bottleneck for fully autonomous applications that work with these objects. This paper proposes an approach for detecting deformable one-dimensional objects which can handle crossings and occlusions. It can be used for tasks such as routing and manipulation and automatically provides the initialization required by the tracking methods. Our algorithm takes an image containing a deformable object and outputs a chain of fixed-length cylindrical segments connected with passive spherical joints. The chain follows the natural behavior of the deformable object and fills the gaps and occlusions in the original image. Our tests and experiments have shown that the method can correctly detect deformable one-dimensional objects in various complex conditions.
翻訳日:2022-01-19 17:46:05 公開日:2022-01-18
# ASOCEM:Cryo-EMにおける汚染の自動分離

ASOCEM: Automatic Segmentation Of Contaminations in cryo-EM ( http://arxiv.org/abs/2201.06978v1 )

ライセンス: Link先を確認
Amitay Eldar, Ido Amos and Yoel Shkolnisky(参考訳) 粒子抽出は現在、核電子顕微鏡による単一粒子再構成パイプラインにおいて重要なステップである。 取得したマイクログラフの汚染は粒子ピッカーの性能を著しく低下させ、収集した粒子のスタックには多くの'非粒子'が発生する。 本稿では, 粒子径の近似値のみを入力として, 汚染を検出する自動手法であるasocem (automatic segmentation of contaminations in cryo-em) を提案する。 特にパラメータチューニングや手作業による介入は不要である。 本手法は, 汚染領域の統計的分布が他のマイクログラフの分布と異なることに着目したものである。 この非制限的な仮定により、支持グリッドのカーボンエッジから異なる大きさのハイコントラストブロブまで、さまざまな種類の汚染を自動的に検出することができる。 様々な種類の汚染を含む実験データセットを用いて,アルゴリズムの有効性を示す。 ASOCEM は KLT picker \cite{ELDAR2020107473} の一部として統合されており、 \url{https://github.com/ShkolniskyLab/kltpicker2} で利用可能である。

Particle picking is currently a critical step in the cryo-electron microscopy single particle reconstruction pipeline. Contaminations in the acquired micrographs severely degrade the performance of particle pickers, resulting is many ``non-particles'' in the collected stack of particles. In this paper, we present ASOCEM (Automatic Segmentation Of Contaminations in cryo-EM), an automatic method to detect and segment contaminations, which requires as an input only the approximated particle size. In particular, it does not require any parameter tuning nor manual intervention. Our method is based on the observation that the statistical distribution of contaminated regions is different from that of the rest of the micrograph. This nonrestrictive assumption allows to automatically detect various types of contaminations, from the carbon edges of the supporting grid to high contrast blobs of different sizes. We demonstrate the efficiency of our algorithm using various experimental data sets containing various types of contaminations. ASOCEM is integrated as part of the KLT picker \cite{ELDAR2020107473} and is available at \url{https://github.com/ShkolniskyLab/kltpicker2}.
翻訳日:2022-01-19 17:45:48 公開日:2022-01-18
# (参考訳) SAR画像における航空機検出のための注意的特徴補正とアライメントネットワーク

Attentional Feature Refinement and Alignment Network for Aircraft Detection in SAR Imagery ( http://arxiv.org/abs/2201.07124v1 )

ライセンス: CC BY 4.0
Yan Zhao, Lingjun Zhao, Zhong Liu, Dewen Hu, Gangyao Kuang, Li Liu(参考訳) SAR(Synthetic Aperture Radar)画像における航空機検出は、航空機の非常に離散的な外観、明らかなクラス内変異、小さなサイズ、深刻な背景の干渉により、SAR自動目標認識(SAR ATR)領域において難しい課題である。 本稿では,sar画像中の航空機を検出するために,注目的特徴改善・アライメントネットワーク(afran)と呼ばれる単発検出器を提案する。 具体的には,航空機の情報特性の精細化・整合化のために,注意機能融合モジュール(AFFM),変形性横方向接続モジュール(DLCM),アンカー誘導検出モジュール(ADM)の3つの重要なコンポーネントを慎重に設計する。 干渉の少ない航空機の特性を表現するため、AFFMにおいて低レベルのテクスチャと高レベルのセマンティックな特徴を融合して洗練する。 航空機の離散後方散乱点と畳み込みサンプリングスポットのアライメントはDLCMで促進される。 最終的に航空機の位置は、改良されたアンカーによって修正された整列した特徴に基づいてADMで正確に予測される。 本手法の性能を評価するため,自作SAR航空機スライスデータセットと大シーンSAR画像を収集した。 詳細な分析による広範囲な量的・質的実験により,提案する3成分の有効性が示された。 さらに、DAPN、PADN、一般的なCNNベースの手法(FPN、Cascade R-CNN、SSD、RefineDet、RDDetなど)と比較して、最も高い検出精度と競合速度が得られた。

Aircraft detection in Synthetic Aperture Radar (SAR) imagery is a challenging task in SAR Automatic Target Recognition (SAR ATR) areas due to aircraft's extremely discrete appearance, obvious intraclass variation, small size and serious background's interference. In this paper, a single-shot detector namely Attentional Feature Refinement and Alignment Network (AFRAN) is proposed for detecting aircraft in SAR images with competitive accuracy and speed. Specifically, three significant components including Attention Feature Fusion Module (AFFM), Deformable Lateral Connection Module (DLCM) and Anchor-guided Detection Module (ADM), are carefully designed in our method for refining and aligning informative characteristics of aircraft. To represent characteristics of aircraft with less interference, low-level textural and high-level semantic features of aircraft are fused and refined in AFFM throughly. The alignment between aircraft's discrete back-scatting points and convolutional sampling spots is promoted in DLCM. Eventually, the locations of aircraft are predicted precisely in ADM based on aligned features revised by refined anchors. To evaluate the performance of our method, a self-built SAR aircraft sliced dataset and a large scene SAR image are collected. Extensive quantitative and qualitative experiments with detailed analysis illustrate the effectiveness of the three proposed components. Furthermore, the topmost detection accuracy and competitive speed are achieved by our method compared with other domain-specific,e.g., DAPN, PADN, and general CNN-based methods,e.g., FPN, Cascade R-CNN, SSD, RefineDet and RPDet.
翻訳日:2022-01-19 17:43:55 公開日:2022-01-18
# adaterm:適応型t分布推定ロバストモーメントによる雑音ロバスト確率勾配最適化器

AdaTerm: Adaptive T-Distribution Estimated Robust Moments towards Noise-Robust Stochastic Gradient Optimizer ( http://arxiv.org/abs/2201.06714v1 )

ライセンス: Link先を確認
Wendyam Eric Lionel Ilboudo, Taisuke Kobayashi and Kenji Sugimoto(参考訳) ディープラーニングで最適化されるべき問題がより現実的になるにつれて、データセットは必然的に、推定入力/出力によるラベル付けや置換といった、最適化結果に悪影響を及ぼす様々なノイズを含む。 安全ネットとして、ネットワークパラメータを学習の最終過程として更新する確率勾配降下(SGD)最適化器をノイズに対してより堅牢に改善することは自然な考えである。 関連する研究により,adam-like sgdオプティマイザにおける最初の運動量は,ノイズロバスト学習者のt分布に基づいて修正可能となり,雑音に対するロバスト性が継承されることが判明した。 本稿では,第1の運動量だけでなく,生徒のt分布に基づくすべての統計量も導出するAdaTermを提案する。 計算された勾配が異常であると思われる場合、adatermは、更新のための計算された勾配を除外し、次の更新のロバスト性を強化することが期待されている。 この雑音適応行動により, adaterm の学習性能は, 雑音比が異なるいくつかの事例において, 典型的な最適化問題により確認された。

As the problems to be optimized with deep learning become more practical, their datasets inevitably contain a variety of noise, such as mislabeling and substitution by estimated inputs/outputs, which would have negative impacts on the optimization results. As a safety net, it is a natural idea to improve a stochastic gradient descent (SGD) optimizer, which updates the network parameters as the final process of learning, to be more robust to noise. The related work revealed that the first momentum utilized in the Adam-like SGD optimizers can be modified based on the noise-robust student's t-distribution, resulting in inheriting the robustness to noise. In this paper, we propose AdaTerm, which derives not only the first momentum but also all the involved statistics based on the student's t-distribution. If the computed gradients seem to probably be aberrant, AdaTerm is expected to exclude the computed gradients for updates, and reinforce the robustness for the next updates; otherwise, it updates the network parameters normally, and can relax the robustness for the next updates. With this noise-adaptive behavior, the excellent learning performance of AdaTerm was confirmed via typical optimization problems with several cases where the noise ratio would be different.
翻訳日:2022-01-19 17:14:19 公開日:2022-01-18
# オープンセットアノテーションのためのアクティブラーニング

Active Learning for Open-set Annotation ( http://arxiv.org/abs/2201.06758v1 )

ライセンス: Link先を確認
Kun-Peng Ning, Xun Zhao, Yu Li, Sheng-Jun Huang(参考訳) 既存のアクティブラーニング研究は通常、ラベル付けされるすべてのデータ例が既知のクラスから引き出されると仮定してクローズドセット設定で動作する。 しかし、実際のアノテーションタスクでは、ラベルなしデータは通常未知のクラスから大量のサンプルを含むため、ほとんどのアクティブな学習方法が失敗する。 このオープンセットアノテーション(OSA)問題に対処するために,LfOSAと呼ばれる新しいアクティブ学習フレームワークを提案する。 LfOSAフレームワークは、ガウス混合モデルを用いて、サンプルごとの最大アクティベーション値(MAV)分布をモデル化する補助ネットワークを導入し、未ラベル集合の既知のクラスから、最も高い確率のサンプルを動的に選択できる。 さらに、損失関数の温度$t$を下げることで、既知の監視と未知の監視の両方を利用して検出モデルをさらに最適化する。 実験の結果,提案手法は既知のクラスの選択品質を著しく向上させ,最先端のアクティブラーニング手法よりもアノテーションコストを低く分類精度を向上できることがわかった。 私たちの知る限りでは、これはオープンセットアノテーションのためのアクティブラーニングの最初の仕事です。

Existing active learning studies typically work in the closed-set setting by assuming that all data examples to be labeled are drawn from known classes. However, in real annotation tasks, the unlabeled data usually contains a large amount of examples from unknown classes, resulting in the failure of most active learning methods. To tackle this open-set annotation (OSA) problem, we propose a new active learning framework called LfOSA, which boosts the classification performance with an effective sampling strategy to precisely detect examples from known classes for annotation. The LfOSA framework introduces an auxiliary network to model the per-example max activation value (MAV) distribution with a Gaussian Mixture Model, which can dynamically select the examples with highest probability from known classes in the unlabeled set. Moreover, by reducing the temperature $T$ of the loss function, the detection model will be further optimized by exploiting both known and unknown supervision. The experimental results show that the proposed method can significantly improve the selection quality of known classes, and achieve higher classification accuracy with lower annotation cost than state-of-the-art active learning methods. To the best of our knowledge, this is the first work of active learning for open-set annotation.
翻訳日:2022-01-19 17:13:56 公開日:2022-01-18
# 協調的外乱検出のための効率的なハッシュベースアンサンブル法

An Efficient Hashing-based Ensemble Method for Collaborative Outlier Detection ( http://arxiv.org/abs/2201.06806v1 )

ライセンス: Link先を確認
Kitty Li and Ninh Pham(参考訳) 協調的異常検出では、複数の参加者が自身のデータを交換することなく、分散デバイスでトレーニングされたローカル検出器を交換する。 協調的異常検出の重要な問題は、複数の局所検出器を効率的に集約して、参加者のデータのプライバシーを破らずにグローバル検出器を形成することであり、検出精度を低下させることである。 本研究では、局所性に敏感なハッシュに基づくアンサンブル法を用いて、協調的外乱を検知する。 提案するLSH iTablesは,多くの実世界のデータセット上の集中型および分散型シナリオにおいて,近年のアンサンブル競合より優れています。

In collaborative outlier detection, multiple participants exchange their local detectors trained on decentralized devices without exchanging their own data. A key problem of collaborative outlier detection is efficiently aggregating multiple local detectors to form a global detector without breaching the privacy of participants' data and degrading the detection accuracy. We study locality-sensitive hashing-based ensemble methods to detect collaborative outliers since they are mergeable and compatible with differentially private mechanisms. Our proposed LSH iTables is simple and outperforms recent ensemble competitors on centralized and decentralized scenarios over many real-world data sets.
翻訳日:2022-01-19 17:13:34 公開日:2022-01-18
# 背後には誰もいない: 広告主モデリングのためのマルチシナリオマルチタスクメタ学習アプローチ

Leaving No One Behind: A Multi-Scenario Multi-Task Meta Learning Approach for Advertiser Modeling ( http://arxiv.org/abs/2201.06814v1 )

ライセンス: Link先を確認
Qianqian Zhang, Xinru Liao, Quan Liu, Jian Xu, Bo Zheng(参考訳) TaobaoやAmazonといった多くのeコマースプラットフォームでは、広告主が重要な役割を果たす。 マーケティングニーズをフルフィルし、ビジネスの成長を支えることは、プラットフォーム経済の長期的な繁栄に不可欠である。 しかし、クリックスルー率予測のようなユーザーモデリングに関する広範な研究と比較すると、広告主にとって特にその多様な要求や性能の理解において、はるかに少ない注意が向けられている。 ユーザー・モデリングと異なり、広告主・モデリングは一般的に様々なタスク(例えば、広告主の支出の予測、アクティブ・レート、プロモーション商品の総印象)を伴っている。 さらに、主要なeコマースプラットフォームは、しばしば複数のマーケティングシナリオ(例えば、スポンサード検索、ディスプレイ広告、ライブストリーミング広告)を提供するが、広告主の行動は、その多くに分散する傾向がある。 これは、包括的な広告主モデリングにおいて、マルチタスクとマルチシナリオの考慮の必要性を提起する。第一に、シナリオ毎またはタスク毎のモデルが単にスケールしない;第二に、限られたデータサンプルで新しいシナリオやマイナーなシナリオをモデル化するのは特に困難;第三に、シナリオ間相関は複雑で、異なるタスクを与えられた場合があります。 そこで本研究では,複数の広告シナリオにおいて複数のタスクを同時に予測するマルチタスクメタラーニング手法(m2m)を提案する。

Advertisers play an essential role in many e-commerce platforms like Taobao and Amazon. Fulfilling their marketing needs and supporting their business growth is critical to the long-term prosperity of platform economies. However, compared with extensive studies on user modeling such as click-through rate predictions, much less attention has been drawn to advertisers, especially in terms of understanding their diverse demands and performance. Different from user modeling, advertiser modeling generally involves many kinds of tasks (e.g. predictions of advertisers' expenditure, active-rate, or total impressions of promoted products). In addition, major e-commerce platforms often provide multiple marketing scenarios (e.g. Sponsored Search, Display Ads, Live Streaming Ads) while advertisers' behavior tend to be dispersed among many of them. This raises the necessity of multi-task and multi-scenario consideration in comprehensive advertiser modeling, which faces the following challenges: First, one model per scenario or per task simply doesn't scale; Second, it is particularly hard to model new or minor scenarios with limited data samples; Third, inter-scenario correlations are complicated, and may vary given different tasks. To tackle these challenges, we propose a multi-scenario multi-task meta learning approach (M2M) which simultaneously predicts multiple tasks in multiple advertising scenarios.
翻訳日:2022-01-19 17:13:23 公開日:2022-01-18
# Hyper-Tune: スケールでの効率的なハイパーパラメータチューニングを目指して

Hyper-Tune: Towards Efficient Hyper-parameter Tuning at Scale ( http://arxiv.org/abs/2201.06834v1 )

ライセンス: Link先を確認
Yang Li, Yu Shen, Huaijun Jiang, Wentao Zhang, Jixiang Li, Ji Liu, Ce Zhang and Bin Cui(参考訳) 機械学習の需要と複雑さは、ハイパーパラメータチューニングシステムにプレッシャーをかけている。モデルの評価コストは増え続けているが、最先端のスケーラビリティは重要なボトルネックになりつつある。 本稿では,実運用環境におけるハイパーパラメータチューニングの運用経験と既存システムの限界に触発されて,高効率で堅牢な分散ハイパーパラメータチューニングフレームワークであるHyper-Tuneを提案する。 既存のシステムと比較して、hyper-tuneは(1)自動リソース割り当て、(2)非同期スケジューリング、(3)マルチフィデリティオプティマイザなど、複数のシステム最適化を強調する。 ベンチマークデータセットと大規模実世界のデータセットを大規模に評価する。 これらの最適化の助けを借りて、Hyper-Tuneは、XGBoost、CNN、RNN、およびニューラルネットワークのためのいくつかのアーキテクチャハイパーパラメータを含む幅広いシナリオにおいて、競争力のあるハイパーパラメータチューニングシステムより優れています。 最先端のBOHBとA-BOHBと比較すると、Hyper-Tuneは最大11.2倍と5.1倍のスピードアップを達成した。

The ever-growing demand and complexity of machine learning are putting pressure on hyper-parameter tuning systems: while the evaluation cost of models continues to increase, the scalability of state-of-the-arts starts to become a crucial bottleneck. In this paper, inspired by our experience when deploying hyper-parameter tuning in a real-world application in production and the limitations of existing systems, we propose Hyper-Tune, an efficient and robust distributed hyper-parameter tuning framework. Compared with existing systems, Hyper-Tune highlights multiple system optimizations, including (1) automatic resource allocation, (2) asynchronous scheduling, and (3) multi-fidelity optimizer. We conduct extensive evaluations on benchmark datasets and a large-scale real-world dataset in production. Empirically, with the aid of these optimizations, Hyper-Tune outperforms competitive hyper-parameter tuning systems on a wide range of scenarios, including XGBoost, CNN, RNN, and some architectural hyper-parameters for neural networks. Compared with the state-of-the-art BOHB and A-BOHB, Hyper-Tune achieves up to 11.2x and 5.1x speedups, respectively.
翻訳日:2022-01-19 17:12:58 公開日:2022-01-18
# 物理形ニューラルネットワークによる熱源系の温度場インバージョン

Temperature Field Inversion of Heat-Source Systems via Physics-Informed Neural Networks ( http://arxiv.org/abs/2201.06880v1 )

ライセンス: Link先を確認
Xu Liu, Wei Peng, Zhiqiang Gong, Weien Zhou, Wen Yao(参考訳) 熱源系(tfi-hss)の温度場インバージョンはシステムの健全性を監視するのに不可欠である。 TFI-HSSを解くために補間などの手法が提案されているが、既存の手法ではデータ制約と物理制約の相関を無視しており、精度は低い。 本研究では,TFI-HSSタスクを解く物理インフォームドニューラルネットワークを用いた温度場インバージョン法(PINN-TFI)と,CMCN-PSO法を用いてノイズ観測の最適位置を選択する係数行列条件数に基づく位置選択法(CMCN-PSO)を開発する。 TFI-HSSタスクに対して、PINN-TFI法は損失関数に制約項を符号化し、損失関数を最小化する最適化問題に変換する。 さらに, PINN-TFI法では, ノイズ観測が再現性能に著しく影響を及ぼすことがわかった。 ノイズ観測の影響を軽減するため,CMCN-PSO法を提案し,観測条件数を用いて位置を評価する。 その結果, PINN-TFI法は予測精度を大幅に向上し, CMCN-PSO法はより堅牢な温度場を得るのに優れた位置を見出すことができた。

Temperature field inversion of heat-source systems (TFI-HSS) with limited observations is essential to monitor the system health. Although some methods such as interpolation have been proposed to solve TFI-HSS, those existing methods ignore correlations between data constraints and physics constraints, causing the low precision. In this work, we develop a physics-informed neural network-based temperature field inversion (PINN-TFI) method to solve the TFI-HSS task and a coefficient matrix condition number based position selection of observations (CMCN-PSO) method to select optima positions of noise observations. For the TFI-HSS task, the PINN-TFI method encodes constrain terms into the loss function, thus the task is transformed into an optimization problem of minimizing the loss function. In addition, we have found that noise observations significantly affect reconstruction performances of the PINN-TFI method. To alleviate the effect of noise observations, the CMCN-PSO method is proposed to find optimal positions, where the condition number of observations is used to evaluate positions. The results demonstrate that the PINN-TFI method can significantly improve prediction precisions and the CMCN-PSO method can find good positions to acquire a more robust temperature field.
翻訳日:2022-01-19 17:12:39 公開日:2022-01-18
# 因果モデル等価性について:カテゴリー論的アプローチ

On the Equivalence of Causal Models: A Category-Theoretic Approach ( http://arxiv.org/abs/2201.06981v1 )

ライセンス: Link先を確認
Jun Otsuka, Hayato Saigo(参考訳) 離散変数上の異なるが同型な非巡回グラフを持つ因果モデルの同値性を決定するための圏論的基準を開発する。 jacobs et al. (2019) に従えば、因果モデルは因果文字列ダイアグラムの確率的解釈として定義され、すなわち "`syntactic''' の圏 $\textsf{syn}_g$ からグラフ $g$ の圏 $\textsf{stoch}$ of finite set and stochastic matrices への関手である。 因果モデルの同値性は、それぞれ$\phi$-abstraction と$\phi$-equivalence と呼ばれる2つのそのような関手の間の自然な変換または同型によって定義される。 あるモデルが別のモデルの$\Phi$-abstractionであるとき、前者の介入計算は、連続的に後者のモデルに変換可能であることが示されている。 また、変換が決定論的であるとき、モデルが$\Phi$-abstractionを許容する条件も特定する。

We develop a category-theoretic criterion for determining the equivalence of causal models having different but homomorphic directed acyclic graphs over discrete variables. Following Jacobs et al. (2019), we define a causal model as a probabilistic interpretation of a causal string diagram, i.e., a functor from the ``syntactic'' category $\textsf{Syn}_G$ of graph $G$ to the category $\textsf{Stoch}$ of finite sets and stochastic matrices. The equivalence of causal models is then defined in terms of a natural transformation or isomorphism between two such functors, which we call a $\Phi$-abstraction and $\Phi$-equivalence, respectively. It is shown that when one model is a $\Phi$-abstraction of another, the intervention calculus of the former can be consistently translated into that of the latter. We also identify the condition under which a model accommodates a $\Phi$-abstraction, when transformations are deterministic.
翻訳日:2022-01-19 17:11:14 公開日:2022-01-18
# 理論誘導型1次元畳み込みニューラルネットワークによる燃焼機関時系列のノック検出

Knock Detection in Combustion Engine Time Series Using a Theory-Guided 1D Convolutional Neural Network Approach ( http://arxiv.org/abs/2201.06990v1 )

ライセンス: Link先を確認
Andreas B. Ofner, Achilles Kefalas, Stefan Posch, Bernhard C. Geiger(参考訳) 本稿では,内圧データに基づいて訓練された1次元畳み込みニューラルネットワークを用いて内燃機関(ICE)のノック発生を検出する手法を提案する。 モデルアーキテクチャはノック燃焼の期待周波数特性を考慮に入れたものである。 特徴抽出を助けるため、全てのサイクルは60{\deg} CAの長い窓に短縮され、圧力トレースにそれ以上の処理は適用されなかった。 ニューラルネットワークは、複数の条件と人間の専門家が提供したラベルから、シリンダー内の圧力トレースにのみ訓練された。 最高の性能のモデルアーキテクチャは、ノックと非ノックのサイクルを区別する際に、10倍のクロスバリデーションで全てのテストセットで92%以上の精度を達成する。 各サイクルをノックと評する専門家の数でラベル付けされたマルチクラス問題では、サイクルの78%が完全にラベル付けされ、90%のサイクルが基礎真理から最も1つのクラスに分類された。 これにより,MAPO (Maximum Amplitude of Pressure Oscillation) 検出法と,以前の研究から再構成した他の基準を著しく上回った。 解析の結果,ニューラルネットワークはエンジン特性共鳴周波数と物理的に有意な特徴を学習し,理論誘導型データサイエンスアプローチを検証した。 より深い性能調査は、未確認の操作点に対する顕著な一般化能力を示している。 さらに、このモデルでは、少数の非ノックサイクルのトレーニングを通じて特徴に適応した後、不審エンジンのノックサイクルを89%の精度で分類することが判明した。 このアルゴリズムは1ミリ秒以下で個々のサイクルを分類し、エンジンのリアルタイム制御に効果的に適合する。

This paper introduces a method for the detection of knock occurrences in an internal combustion engine (ICE) using a 1D convolutional neural network trained on in-cylinder pressure data. The model architecture was based on considerations regarding the expected frequency characteristics of knocking combustion. To aid the feature extraction, all cycles were reduced to 60{\deg} CA long windows, with no further processing applied to the pressure traces. The neural networks were trained exclusively on in-cylinder pressure traces from multiple conditions and labels provided by human experts. The best-performing model architecture achieves an accuracy of above 92% on all test sets in a tenfold cross-validation when distinguishing between knocking and non-knocking cycles. In a multi-class problem where each cycle was labeled by the number of experts who rated it as knocking, 78% of cycles were labeled perfectly, while 90% of cycles were classified at most one class from ground truth. They thus considerably outperform the broadly applied MAPO (Maximum Amplitude of Pressure Oscillation) detection method, as well as other references reconstructed from previous works. Our analysis indicates that the neural network learned physically meaningful features connected to engine-characteristic resonance frequencies, thus verifying the intended theory-guided data science approach. Deeper performance investigation further shows remarkable generalization ability to unseen operating points. In addition, the model proved to classify knocking cycles in unseen engines with increased accuracy of 89% after adapting to their features via training on a small number of exclusively non-knocking cycles. The algorithm takes below 1 ms (on CPU) to classify individual cycles, effectively making it suitable for real-time engine control.
翻訳日:2022-01-19 17:10:52 公開日:2022-01-18
# 強力近距離分布検出の逆脆弱性

Adversarial vulnerability of powerful near out-of-distribution detection ( http://arxiv.org/abs/2201.07012v1 )

ライセンス: Link先を確認
Stanislav Fort(参考訳) 近年、大規模データセットで事前トレーニングされた大規模モデルと、マルチモダリティ(multi-modality)の利用が主な原因で、ニューラルネットワークにおけるアウトオブディストリビューション(ood)入力の検出が大幅に進展している。 我々は,現在最強のOOD検出技術でさえも,深刻な敵意の脆弱性を示す。 入力画素に対する小さなターゲットの摂動によって、画像の割り当てを分布内から分布外に変更することができ、その逆も容易である。 特に, OOD CIFAR-100 対 CIFAR-10 タスク, 遠方の OOD CIFAR-100 対 SVHN タスクにおいて, 深刻な敵の脆弱性を示す。 本稿では,ソフトマックス確率の最大値(MSP),マハラノビス距離,新たに提案されたマハラノビス距離など,いくつかのポストプロセッシング手法の対角的ロバスト性について検討する。 種々の摂動強度におけるOOD検出性能の損失を比較することにより,OOD検出器のアンサンブルを用いた場合の有効効果と,他の後処理法に比べてマハラノビス距離が有効であることを示す。 また,CLIPと多モード性を用いた強いゼロショットOOD検出においても,対向的ロバスト性が著しく欠如していることが示唆された。 私たちのコードはhttps://github.com/stanislavfort/adversaries_to_OOD_detectionで利用可能です。

There has been a significant progress in detecting out-of-distribution (OOD) inputs in neural networks recently, primarily due to the use of large models pretrained on large datasets, and an emerging use of multi-modality. We show a severe adversarial vulnerability of even the strongest current OOD detection techniques. With a small, targeted perturbation to the input pixels, we can change the image assignment from an in-distribution to an out-distribution, and vice versa, easily. In particular, we demonstrate severe adversarial vulnerability on the challenging near OOD CIFAR-100 vs CIFAR-10 task, as well as on the far OOD CIFAR-100 vs SVHN. We study the adversarial robustness of several post-processing techniques, including the simple baseline of Maximum of Softmax Probabilities (MSP), the Mahalanobis distance, and the newly proposed \textit{Relative} Mahalanobis distance. By comparing the loss of OOD detection performance at various perturbation strengths, we demonstrate the beneficial effect of using ensembles of OOD detectors, and the use of the \textit{Relative} Mahalanobis distance over other post-processing methods. In addition, we show that even strong zero-shot OOD detection using CLIP and multi-modality suffers from a severe lack of adversarial robustness as well. Our code is available at https://github.com/stanislavfort/adversaries_to_OOD_detection
翻訳日:2022-01-19 17:09:49 公開日:2022-01-18
# プログラム合成を伴うアルゴリズム的会話のための説明可能な対実ポリシーの合成

Synthesizing explainable counterfactual policies for algorithmic recourse with program synthesis ( http://arxiv.org/abs/2201.07135v1 )

ライセンス: Link先を確認
Giovanni De Toni, Bruno Lepri, Andrea Passerini(参考訳) ブラックボックスの機械学習モデル(例えばローン要求を拒否されるなど)によって、望ましくない決定をどう変えるかを説明するには、反ファクトの介入(望ましい結果を得るために私たちが取るべきアクションのシーケンス)を提供できることが不可欠です。 既存のソリューションは主に、その理論的根拠を説明することなく、実現可能な介入を生成することに重点を置いている。 さらに、各ユーザの最適化問題を別々に解決する必要がある。 本稿では,ユーザ記述と因果グラフから説明可能な反事実行動の列を出力するプログラムを,異なるアプローチで学習する。 我々は,プログラム合成技術,モンテカルロ木探索を併用した強化学習,ルール学習を活用し,各推奨行動の説明を抽出する。 合成および実世界のデータセットに関する実験的評価は、既存のソリューションに関してブラックボックス分類器のクエリを桁違いに減らし、解釈可能な説明でそれらを補完することで、我々のアプローチが効果的な介入を生み出す方法を示している。

Being able to provide counterfactual interventions - sequences of actions we would have had to take for a desirable outcome to happen - is essential to explain how to change an unfavourable decision by a black-box machine learning model (e.g., being denied a loan request). Existing solutions have mainly focused on generating feasible interventions without providing explanations on their rationale. Moreover, they need to solve a separate optimization problem for each user. In this paper, we take a different approach and learn a program that outputs a sequence of explainable counterfactual actions given a user description and a causal graph. We leverage program synthesis techniques, reinforcement learning coupled with Monte Carlo Tree Search for efficient exploration, and rule learning to extract explanations for each recommended action. An experimental evaluation on synthetic and real-world datasets shows how our approach generates effective interventions by making orders of magnitude fewer queries to the black-box classifier with respect to existing solutions, with the additional benefit of complementing them with interpretable explanations.
翻訳日:2022-01-19 17:09:22 公開日:2022-01-18
# (参考訳) 低アノテーション予算に対するアクティブラーニングの最適化

Optimizing Active Learning for Low Annotation Budgets ( http://arxiv.org/abs/2201.07200v1 )

ライセンス: CC0 1.0
Umang Aggarwal, Adrian Popescu and C\'eline Hudelot(参考訳) 大量の注釈付きデータを想定できない場合、アクティブな学習は良い戦略です。 これは、少量の注釈付きデータ(注釈付き予算)でモデルを学習し、以前のモデルを改善し、一般化する上で最適な点群を選択することで構成される。 ディープラーニングでは、アクティブラーニングは通常、連続したディープラーニングモデルが微調整によって更新される反復的なプロセスとして実装されるが、それでも問題が発生する。 まず、注釈付き画像の最初のバッチは、深層モデルのトレーニングに十分な大きさでなければならない。 このような仮定は特に総アノテーション予算が削減された場合に強くなる。 我々は,転送学習に触発されたアプローチを用いてこの問題に取り組む。 事前学習されたモデルを特徴抽出器として使用し、アクティブイテレーション中に浅い分類器のみを学習する。 第2の問題は、ALタスクの初期モデルの確率または特徴推定の有効性である。 サンプルは、通常、最後の学習モデルのみに基づいて取得関数を使用してアノテーションに選択される。 本稿では,ALプロセスの反復性を利用してより堅牢なサンプルを抽出する新しい取得関数を提案する。 最後の2つの学習したモデル予測の間の不確実性への最大シフトがあるサンプルが好まれる。 分類空間の異なる領域からサンプルを選択するために多様化ステップを追加し,提案手法に代表性成分を導入する。 評価は、バランスのとれた3つの不均衡なデータセットによる競合メソッドに対して行われ、それらを上回る。

When we can not assume a large amount of annotated data , active learning is a good strategy. It consists in learning a model on a small amount of annotated data (annotation budget) and in choosing the best set of points to annotate in order to improve the previous model and gain in generalization. In deep learning, active learning is usually implemented as an iterative process in which successive deep models are updated via fine tuning, but it still poses some issues. First, the initial batch of annotated images has to be sufficiently large to train a deep model. Such an assumption is strong, especially when the total annotation budget is reduced. We tackle this issue by using an approach inspired by transfer learning. A pre-trained model is used as a feature extractor and only shallow classifiers are learned during the active iterations. The second issue is the effectiveness of probability or feature estimates of early models for AL task. Samples are generally selected for annotation using acquisition functions based only on the last learned model. We introduce a novel acquisition function which exploits the iterative nature of AL process to select samples in a more robust fashion. Samples for which there is a maximum shift towards uncertainty between the last two learned models predictions are favored. A diversification step is added to select samples from different regions of the classification space and thus introduces a representativeness component in our approach. Evaluation is done against competitive methods with three balanced and imbalanced datasets and outperforms them.
翻訳日:2022-01-19 17:04:06 公開日:2022-01-18
# コンテクストアセンブルと強いデータ拡張によるイメージマットリングのロバスト性向上

Boosting Robustness of Image Matting with Context Assembling and Strong Data Augmentation ( http://arxiv.org/abs/2201.06889v1 )

ライセンス: Link先を確認
Yutong Dai and Brian Price and He Zhang and Chunhua Shen(参考訳) ディープ・イメージ・マッティング法は、ベンチマーク(例えば Composic-1k/alphamatting.com)でより優れた結果を得た。 しかし、トリマップへの堅牢性や異なる領域の画像への一般化など、堅牢性はまだ未定である。 トリマップの改良や、追加のデータ拡張による実世界画像へのアルゴリズムの適用を提案している作品もあるが、これらのデータ拡張を用いたベンチマークでの大幅なパフォーマンス低下は言うまでもなく、いずれも考慮されていない。 このギャップを埋めるために,マルチレベルコンテキストアセンブラと強力なデータ拡張により高ロバスト性(RMat)を実現する画像マッチング手法を提案する。 具体的には,まず,エンコーダ内のトランスフォーマーブロックと多量のグローバル情報をモデル化し,畳み込み層と組み合わせた詳細情報と,デコーダ内のアテンションブロックを組み込む低レベル機能に注目して,強力なマットングフレームワークを構築した。 そして、この強いベースラインに基づいて、現在のデータ拡張を分析し、ベースラインモデルを強化し、より一般化されたマッティング方法に貢献するために、シンプルで効果的な強力なデータ拡張を探索する。 従来の手法と比較して,提案手法はモデルサイズを小さくしたCompose-1kベンチマーク(SADが11%,Gradが27%)の最先端結果を達成するだけでなく,他のベンチマークや実世界の画像,さらには広範囲な実験による粗大なトリマップもより堅牢な一般化結果を示す。

Deep image matting methods have achieved increasingly better results on benchmarks (e.g., Composition-1k/alphamatting.com). However, the robustness, including robustness to trimaps and generalization to images from different domains, is still under-explored. Although some works propose to either refine the trimaps or adapt the algorithms to real-world images via extra data augmentation, none of them has taken both into consideration, not to mention the significant performance deterioration on benchmarks while using those data augmentation. To fill this gap, we propose an image matting method which achieves higher robustness (RMat) via multilevel context assembling and strong data augmentation targeting matting. Specifically, we first build a strong matting framework by modeling ample global information with transformer blocks in the encoder, and focusing on details in combination with convolution layers as well as a low-level feature assembling attention block in the decoder. Then, based on this strong baseline, we analyze current data augmentation and explore simple but effective strong data augmentation to boost the baseline model and contribute a more generalizable matting method. Compared with previous methods, the proposed method not only achieves state-of-the-art results on the Composition-1k benchmark (11% improvement on SAD and 27% improvement on Grad) with smaller model size, but also shows more robust generalization results on other benchmarks, on real-world images, and also on varying coarse-to-fine trimaps with our extensive experiments.
翻訳日:2022-01-19 16:51:23 公開日:2022-01-18
# コンテキスト対応シーン予測ネットワーク(CASPNet)

Context-Aware Scene Prediction Network (CASPNet) ( http://arxiv.org/abs/2201.06933v1 )

ライセンス: Link先を確認
Maximilian Sch\"afer, Kun Zhao, Markus B\"uhren and Anton Kummert(参考訳) 周囲の道路利用者の将来の動きを予測することは、自動運転(AD)と様々な先進運転支援システム(ADAS)にとって決定的かつ困難な課題である。 安全な将来の軌道計画は、交通状況の理解と、そのダイナミクスの予測に大きく依存する。 課題は、複雑な運転シナリオを理解することだけでなく、明示的なモデリングでは事実上不可能である、道路ユーザと環境間の多数のインタラクションを理解することにある。 本研究では,新しい畳み込みニューラルネットワーク(cnn)とrnn(recurrent neural network)ベースのアーキテクチャを用いて,シーン内のすべての道路利用者の動きを学習し,予測することで,上記の課題に取り組む。 さらに,グリッドベースの入力・出力データ構造を利用して,道路利用者数に依存しない計算コストを計算し,提案手法の固有の特性となる。 nuScenesデータセットの評価は,我々の手法が予測ベンチマークで最先端の結果に達することを示している。

Predicting the future motion of surrounding road users is a crucial and challenging task for autonomous driving (AD) and various advanced driver-assistance systems (ADAS). Planning a safe future trajectory heavily depends on understanding the traffic scene and anticipating its dynamics. The challenges do not only lie in understanding the complex driving scenarios but also the numerous possible interactions among road users and environments, which are practically not feasible for explicit modeling. In this work, we tackle the above challenges by jointly learning and predicting the motion of all road users in a scene, using a novel convolutional neural network (CNN) and recurrent neural network (RNN) based architecture. Moreover, by exploiting grid-based input and output data structures, the computational cost is independent of the number of road users and multi-modal predictions become inherent properties of our proposed method. Evaluation on the nuScenes dataset shows that our approach reaches state-of-the-art results in the prediction benchmark.
翻訳日:2022-01-19 16:50:51 公開日:2022-01-18
# 全ては頭の中にある:分類器共有による表現的知識蒸留

It's All in the Head: Representation Knowledge Distillation through Classifier Sharing ( http://arxiv.org/abs/2201.06945v1 )

ライセンス: Link先を確認
Emanuel Ben-Baruch, Matan Karklinsky, Yossi Biton, Avi Ben-Cohen, Hussam Lawen, Nadav Zamir(参考訳) 表現知識蒸留は、あるモデルから別のモデルへ豊かな情報を転送することを目的としている。 表現蒸留の現在のアプローチは、主にモデルの埋め込みベクトル間の距離メトリックの直接最小化に焦点を当てている。 このような直接的な方法は、表現ベクトルに埋め込まれた高次依存関係の転送や、教師と生徒モデルの容量ギャップの処理に制限される。 本稿では,教師と学生間の分類器共有を用いた表現蒸留の促進のための2つのアプローチを提案する。 具体的には,まず,教師の分類器と生徒の背骨を連結し,そのパラメータを凍結することが,表現蒸留のプロセスに有益であることを示し,一貫した改善をもたらす。 そこで本研究では,教師モデルを限られた能力を持つ生徒に調整する代替手法を提案する。 このアプローチは競合し、場合によっては最初の方法を超えます。 画像分類, きめ細かい分類, 顔認証など, 様々なデータセットやタスクにおける提案手法の有効性について検討した。 例えば、mobilefacenet モデルの ijb-c データセット上での顔検証を行うための最先端のパフォーマンスを実現する: tar@(far=1e-5)=93.7\%。 コードはhttps://github.com/Alibaba-MIIL/HeadSharingKDで入手できる。

Representation knowledge distillation aims at transferring rich information from one model to another. Current approaches for representation distillation mainly focus on the direct minimization of distance metrics between the models' embedding vectors. Such direct methods may be limited in transferring high-order dependencies embedded in the representation vectors, or in handling the capacity gap between the teacher and student models. In this paper, we introduce two approaches for enhancing representation distillation using classifier sharing between the teacher and student. Specifically, we first show that connecting the teacher's classifier to the student backbone and freezing its parameters is beneficial for the process of representation distillation, yielding consistent improvements. Then, we propose an alternative approach that asks to tailor the teacher model to a student with limited capacity. This approach competes with and in some cases surpasses the first method. Via extensive experiments and analysis, we show the effectiveness of the proposed methods on various datasets and tasks, including image classification, fine-grained classification, and face verification. For example, we achieve state-of-the-art performance for face verification on the IJB-C dataset for a MobileFaceNet model: TAR@(FAR=1e-5)=93.7\%. Code is available at https://github.com/Alibaba-MIIL/HeadSharingKD.
翻訳日:2022-01-19 16:50:33 公開日:2022-01-18
# MuSCLe: 弱教師付きセマンティックセグメンテーションのためのマルチストラテジーコントラスト学習フレームワーク

MuSCLe: A Multi-Strategy Contrastive Learning Framework for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2201.07021v1 )

ライセンス: Link先を確認
Kunhao Yuan, Gerald Schaefer, Yu-Kun Lai, Yifan Wang, Xiyao Liu, Lin Guan, Hui Fang(参考訳) 教師付きセマンティックセグメンテーション(WSSS)は、教師付きセマンティックセグメンテーション(SSS)メソッドで必要とされるピクセルレベルのアノテーションではなく、画像レベルのアノテーションのような弱いラベルにのみ依存するため、非常に人気がある。 アノテーションのコストが大幅に削減されたにもかかわらず、WSSSから学んだ典型的な特徴表現は、オブジェクトの健全な部分を表すだけであり、トレーニング中のガイダンスの弱いため、SSSに比べて信頼性が低い。 本稿では,画像,領域,画素,オブジェクト境界レベルでのコントラストペアの類似性と類似性を生かして,機能表現の強化とwsss性能の向上を図るための,新しいマルチストラテジーコントラスト学習(muscle)フレームワークを提案する。 本手法の有効性を実証し, 広く使用されているPASCAL VOC 2012データセットにおいて, MuSCLe が現状よりも優れていることを示す。

Weakly supervised semantic segmentation (WSSS) has gained significant popularity since it relies only on weak labels such as image level annotations rather than pixel level annotations required by supervised semantic segmentation (SSS) methods. Despite drastically reduced annotation costs, typical feature representations learned from WSSS are only representative of some salient parts of objects and less reliable compared to SSS due to the weak guidance during training. In this paper, we propose a novel Multi-Strategy Contrastive Learning (MuSCLe) framework to obtain enhanced feature representations and improve WSSS performance by exploiting similarity and dissimilarity of contrastive sample pairs at image, region, pixel and object boundary levels. Extensive experiments demonstrate the effectiveness of our method and show that MuSCLe outperforms the current state-of-the-art on the widely used PASCAL VOC 2012 dataset.
翻訳日:2022-01-19 16:50:13 公開日:2022-01-18
# ロバスト偽造検出のためのセルフスーパービジョンによる実話顔の活用

Leveraging Real Talking Faces via Self-Supervision for Robust Forgery Detection ( http://arxiv.org/abs/2201.07131v1 )

ライセンス: Link先を確認
Alexandros Haliassos, Rodrigo Mira, Stavros Petridis, Maja Pantic(参考訳) 顔操作ビデオの検出における最も差し迫った課題の1つは、訓練中に見られない偽造法を一般化することであり、圧縮などの一般的な腐敗下では有効である。 本稿では,自然の表情や行動に関する情報を豊富に含み,オンラインで簡単に入手できる実話の映像を用いて,この問題に取り組むことができるか疑問を呈する。 本手法は realforensics と呼ばれ, 2 段階からなる。 まず,実映像における視覚と聴覚のモダリティの自然な対応を利用して,顔の動きや表情,アイデンティティなどの要因を捉えた時間的に密接な映像表現を自己教師ありのクロスモーダル方式で学習する。 第二に、これらの学習された表現を、通常の二分法フォージェリ分類タスクとともに、フォージェリ検出器によって予測されるターゲットとして使用する。 本手法は,クロスマニピュレーションの一般化とロバストネス実験における最先端性能を実現し,その性能に寄与する要因について検討する。 以上の結果から,より堅牢な顔偽造検出装置の開発には,自然な映像やラベルなし動画の利用が有望な方向であることが示唆された。

One of the most pressing challenges for the detection of face-manipulated videos is generalising to forgery methods not seen during training while remaining effective under common corruptions such as compression. In this paper, we question whether we can tackle this issue by harnessing videos of real talking faces, which contain rich information on natural facial appearance and behaviour and are readily available in large quantities online. Our method, termed RealForensics, consists of two stages. First, we exploit the natural correspondence between the visual and auditory modalities in real videos to learn, in a self-supervised cross-modal manner, temporally dense video representations that capture factors such as facial movements, expression, and identity. Second, we use these learned representations as targets to be predicted by our forgery detector along with the usual binary forgery classification task; this encourages it to base its real/fake decision on said factors. We show that our method achieves state-of-the-art performance on cross-manipulation generalisation and robustness experiments, and examine the factors that contribute to its performance. Our results suggest that leveraging natural and unlabelled videos is a promising direction for the development of more robust face forgery detectors.
翻訳日:2022-01-19 16:49:56 公開日:2022-01-18
# MUSE-VAE:環境に配慮した長期軌道予測のためのマルチスケールVAE

MUSE-VAE: Multi-Scale VAE for Environment-Aware Long Term Trajectory Prediction ( http://arxiv.org/abs/2201.07189v1 )

ライセンス: Link先を確認
Mihee Lee, Samuel S. Sohn, Seonghyeon Moon, Sejong Yoon, Mubbasir Kapadia, Vladimir Pavlovic(参考訳) 複雑な場面において、複数のエージェント(歩行者や車両など)が、多様でしばしば未知の目標を達成しながら互いに環境と相互作用する正確な長期軌道予測は、難しい確率的予測問題である。 本研究では,多要素多要素予測アーキテクチャを用いた長期不確定軌道予測タスクに取り組む条件付きvaesのカスケードに基づく,新しい確率的モデリングフレームワークであるmuseを提案する。 マクロ段階では、モデルが2つの重要な要因(環境とエージェントの動き)の合同ピクセル空間表現を学習し、長期および短期の運動目標を予測する。 マイクロステージは、個々のエージェント軌跡の予測のための微細な時空間表現を学習する。 2つの段階にわたるVAEのバックボーンは、両方の粒度のレベルでの関節の不確かさを自然に説明することができる。 その結果、MUSEは現在の最先端技術と比較して、多様かつ同時に正確な予測を提供する。 これらの主張は、nuScenesとSDDベンチマークに関する包括的な実験と、複雑なエージェント環境相互作用シナリオにおけるモデルの予測能力に挑戦する新しい合成データセットであるPFSDを通じて実証する。

Accurate long-term trajectory prediction in complex scenes, where multiple agents (e.g., pedestrians or vehicles) interact with each other and the environment while attempting to accomplish diverse and often unknown goals, is a challenging stochastic forecasting problem. In this work, we propose MUSE, a new probabilistic modeling framework based on a cascade of Conditional VAEs, which tackles the long-term, uncertain trajectory prediction task using a coarse-to-fine multi-factor forecasting architecture. In its Macro stage, the model learns a joint pixel-space representation of two key factors, the underlying environment and the agent movements, to predict the long and short-term motion goals. Conditioned on them, the Micro stage learns a fine-grained spatio-temporal representation for the prediction of individual agent trajectories. The VAE backbones across the two stages make it possible to naturally account for the joint uncertainty at both levels of granularity. As a result, MUSE offers diverse and simultaneously more accurate predictions compared to the current state-of-the-art. We demonstrate these assertions through a comprehensive set of experiments on nuScenes and SDD benchmarks as well as PFSD, a new synthetic dataset, which challenges the forecasting ability of models on complex agent-environment interaction scenarios.
翻訳日:2022-01-19 16:49:34 公開日:2022-01-18
# ganmouflage:テクスチャフィールドを用いた3次元物体検出

GANmouflage: 3D Object Nondetection with Texture Fields ( http://arxiv.org/abs/2201.07202v1 )

ライセンス: Link先を確認
Rui Guo, Jasmine Collins, Oscar de Lima, Andrew Owens(参考訳) シーン内の3Dオブジェクトをカモフラージュする手法を提案する。 物体の形状や視点の分布を考慮に入れれば、検出が困難になるようなテクスチャを推定する。 この課題をうまく解決するには、各視点によって課される非常に矛盾する制約を同時に処理しながら、シーンからテクスチャを正確に再現できるモデルが必要である。 これらの課題をテクスチャフィールドと逆学習に基づくモデルで解決する。 本モデルは,入力シーン内のランダムなサンプル位置と視点から,様々な物体形状をカモフラージュすることを学び,複雑な物体形状を隠蔽する問題に最初に対処する。 人間のビジュアルサーチ研究により、推定されたテクスチャは、従来の方法よりもかなりよくオブジェクトを隠していることがわかった。 プロジェクトサイト: https://rrrrrguo.github.io/ganmouflage/

We propose a method that learns to camouflage 3D objects within scenes. Given an object's shape and a distribution of viewpoints from which it will be seen, we estimate a texture that will make it difficult to detect. Successfully solving this task requires a model that can accurately reproduce textures from the scene, while simultaneously dealing with the highly conflicting constraints imposed by each viewpoint. We address these challenges with a model based on texture fields and adversarial learning. Our model learns to camouflage a variety of object shapes from randomly sampled locations and viewpoints within the input scene, and is the first to address the problem of hiding complex object shapes. Using a human visual search study, we find that our estimated textures conceal objects significantly better than previous methods. Project site: https://rrrrrguo.github.io/ganmouflage/
翻訳日:2022-01-19 16:49:11 公開日:2022-01-18
# (参考訳) 敵対的映像生成のためのビデオラテントの自動エンコーディング

Autoencoding Video Latents for Adversarial Video Generation ( http://arxiv.org/abs/2201.06888v1 )

ライセンス: CC BY 4.0
Sai Hemanth Kasaraneni(参考訳) ビデオ信号の3次元の複雑さを考えると、データ空間に関わる大きな確率性のため、堅牢で多様なganベースのビデオ生成モデルのトレーニングは面倒である。 データの絡み合った表現を学習することは、ロバスト性を改善し、サンプリングプロセスの制御を提供するのに役立つ。 映像生成では, 動きや外観を直交情報として考慮し, 効率的に切り離すアーキテクチャを設計することで, この分野の進歩が進んでいる。 これらのアプローチは、潜伏空間における外見と運動符号を分解するためにジェネレータに構造上の優先順位を課す手作りアーキテクチャに依存している。 近年のオートエンコーダベースの画像生成の進歩に触発されて,avlae (adversarial video latent autoencoder) という2つのストリーム型潜在オートエンコーダを提案する。 特に,ビデオジェネレータの動作および出現遅延ベクトルを,対向的な設定で自動符号化する手法を提案する。 提案手法は, 発生器の明示的な構造構成を伴わずとも, 動きや外見の符号を乱すことができることを示す。 定性的および定量的な実験により,本手法の有効性が実証された。

Given the three dimensional complexity of a video signal, training a robust and diverse GAN based video generative model is onerous due to large stochasticity involved in data space. Learning disentangled representations of the data help to improve robustness and provide control in the sampling process. For video generation, there is a recent progress in this area by considering motion and appearance as orthogonal information and designing architectures that efficiently disentangle them. These approaches rely on handcrafting architectures that impose structural priors on the generator to decompose appearance and motion codes in the latent space. Inspired from the recent advancements in the autoencoder based image generation, we present AVLAE (Adversarial Video Latent AutoEncoder) which is a two stream latent autoencoder where the video distribution is learned by adversarial training. In particular, we propose to autoencode the motion and appearance latent vectors of the video generator in the adversarial setting. We demonstrate that our approach learns to disentangle motion and appearance codes even without the explicit structural composition in the generator. Several experiments with qualitative and quantitative results demonstrate the effectiveness of our method.
翻訳日:2022-01-19 16:40:34 公開日:2022-01-18
# 双方向クロスモーダルマッチングによる未ペア参照表現接地

Unpaired Referring Expression Grounding via Bidirectional Cross-Modal Matching ( http://arxiv.org/abs/2201.06686v1 )

ライセンス: Link先を確認
Hengcan Shi, Munawar Hayat, Jianfei Cai(参考訳) 表現基盤の参照はコンピュータビジョンにおいて重要かつ困難な課題である。 従来の参照接地における面倒なアノテーションを避けるために、トレーニングデータに対応のない複数の画像やクエリのみを含む未ペア参照接地を導入する。 画像テキストマッチングの課題や、非ペアデータによるトップダウンガイダンスの欠如などにより、未ペア参照グラウンドに対する既存のソリューションはまだ予備的だ。 本稿では,これらの課題に対処する新しい双方向クロスモーダルマッチング(BiCM)フレームワークを提案する。 特に,クエリ特有の視覚的アテンションマップを生成することで,トップダウン視点を導入するクエリアウェアアテンションマップ(qam)モジュールを設計した。 クロスモーダルオブジェクトマッチング(COM)モジュールがさらに導入され、ボトムアップの観点からターゲットオブジェクトを予測するために、最近登場した画像テキストマッチング事前訓練モデルであるCLIPを利用する。 トップダウンとボトムアップの予測は、類似性ファンジョン(SF)モジュールを介して統合される。 また,事前学習した知識を目標のデータセットやタスクに適応させるために,未学習のトレーニングデータを活用する知識適応マッチング(KAM)モジュールを提案する。 実験によると、我々のフレームワークは、2つの人気のある接地データセットで、以前の作業よりも6.55%と9.94%上回っている。

Referring expression grounding is an important and challenging task in computer vision. To avoid the laborious annotation in conventional referring grounding, unpaired referring grounding is introduced, where the training data only contains a number of images and queries without correspondences. The few existing solutions to unpaired referring grounding are still preliminary, due to the challenges of learning image-text matching and lack of the top-down guidance with unpaired data. In this paper, we propose a novel bidirectional cross-modal matching (BiCM) framework to address these challenges. Particularly, we design a query-aware attention map (QAM) module that introduces top-down perspective via generating query-specific visual attention maps. A cross-modal object matching (COM) module is further introduced, which exploits the recently emerged image-text matching pretrained model, CLIP, to predict the target objects from a bottom-up perspective. The top-down and bottom-up predictions are then integrated via a similarity funsion (SF) module. We also propose a knowledge adaptation matching (KAM) module that leverages unpaired training data to adapt pretrained knowledge to the target dataset and task. Experiments show that our framework outperforms previous works by 6.55% and 9.94% on two popular grounding datasets.
翻訳日:2022-01-19 16:16:33 公開日:2022-01-18
# ProposalCLIP: Exploiting CLIP Cuesによる教師なしオープンカテゴリオブジェクト生成

ProposalCLIP: Unsupervised Open-Category Object Proposal Generation via Exploiting CLIP Cues ( http://arxiv.org/abs/2201.06696v1 )

ライセンス: Link先を確認
Hengcan Shi, Munawar Hayat, Yicheng Wu, Jianfei Cai(参考訳) オブジェクトの提案生成はコンピュータビジョンにおいて重要かつ基本的なタスクである。 本稿では,教師なしオープンカテゴリオブジェクト提案生成のための提案CLIPを提案する。 多くのバウンディングボックスアノテーションや/または限られたオブジェクトカテゴリの提案しか生成できない以前の作業とは異なり、提案CLIPは、CLIP(Contrastive Language-image pre-training) cueを利用して、アノテーションなしでさまざまなオブジェクトカテゴリの提案を予測できます。 まず,教師なしのオープンカテゴリ提案生成のためのクリップを分析し,提案の選択に関する経験的分析に基づいて客観性スコアを設計する。 次に、CLIPキューとマージされた提案の制限を解決するために、グラフベースのマージモジュールが提案されている。 最後に,クリップキューに基づく擬似ラベルを抽出し,軽量ネットワークを訓練し,提案をさらに洗練する提案回帰モジュールを提案する。 PASCAL VOC、COCO、Visual Genomeのデータセットに対する大規模な実験により、提案CLIPは従来の最先端手法よりも提案をより良く生成できることが示された。 我々の提案CLIPはまた、教師なしオブジェクト検出のような下流タスクの利点を示す。

Object proposal generation is an important and fundamental task in computer vision. In this paper, we propose ProposalCLIP, a method towards unsupervised open-category object proposal generation. Unlike previous works which require a large number of bounding box annotations and/or can only generate proposals for limited object categories, our ProposalCLIP is able to predict proposals for a large variety of object categories without annotations, by exploiting CLIP (contrastive language-image pre-training) cues. Firstly, we analyze CLIP for unsupervised open-category proposal generation and design an objectness score based on our empirical analysis on proposal selection. Secondly, a graph-based merging module is proposed to solve the limitations of CLIP cues and merge fragmented proposals. Finally, we present a proposal regression module that extracts pseudo labels based on CLIP cues and trains a lightweight network to further refine proposals. Extensive experiments on PASCAL VOC, COCO and Visual Genome datasets show that our ProposalCLIP can better generate proposals than previous state-of-the-art methods. Our ProposalCLIP also shows benefits for downstream tasks, such as unsupervised object detection.
翻訳日:2022-01-19 16:15:12 公開日:2022-01-18
# 授業活動予測のためのクロスモーダルコントラスト蒸留

Cross-modal Contrastive Distillation for Instructional Activity Anticipation ( http://arxiv.org/abs/2201.06734v1 )

ライセンス: Link先を確認
Zhengyuan Yang, Jingen Liu, Jing Huang, Xiaodong He, Tao Mei, Chenliang Xu, Jiebo Luo(参考訳) 本研究では,過去を観察する上での有効な行動ステップを予測し,教育活動予測の課題について検討する。 アクションラベル予測を目標とする従来の予測タスクとは違って,今後のアクションステップの解釈と正確な記述を提供する自然言語出力の生成を目標としています。 教示ビデオから抽出された意味情報がないため、これは難しい課題である。 この課題を克服するために, 関連する外部テキスト知識を活用し, 視覚予測タスクを支援する新しい知識蒸留フレームワークを提案する。 しかし、従来の知識蒸留技術は一般に同じモード内で情報を転送する。 蒸留過程における視覚とテキストのモーダルのギャップを埋めるため,提案するクロスモーダル蒸留損失を伴う不均一なモーダルにおける教師と生徒の知識蒸留を容易にする,新しいクロスモーダルコントラスト蒸留(ccd)スキームを考案する。 本手法をtasty videoデータセット上で評価する。 CCDは、BLEU4の40.2%という大きなマージンで視覚的単独の学生モデルの予測性能を向上させる。 我々のアプローチは最先端のアプローチを大きく上回っている。

In this study, we aim to predict the plausible future action steps given an observation of the past and study the task of instructional activity anticipation. Unlike previous anticipation tasks that aim at action label prediction, our work targets at generating natural language outputs that provide interpretable and accurate descriptions of future action steps. It is a challenging task due to the lack of semantic information extracted from the instructional videos. To overcome this challenge, we propose a novel knowledge distillation framework to exploit the related external textual knowledge to assist the visual anticipation task. However, previous knowledge distillation techniques generally transfer information within the same modality. To bridge the gap between the visual and text modalities during the distillation process, we devise a novel cross-modal contrastive distillation (CCD) scheme, which facilitates knowledge distillation between teacher and student in heterogeneous modalities with the proposed cross-modal distillation loss. We evaluate our method on the Tasty Videos dataset. CCD improves the anticipation performance of the visual-alone student model by a large margin of 40.2% relatively in BLEU4. Our approach also outperforms the state-of-the-art approaches by a large margin.
翻訳日:2022-01-19 16:14:51 公開日:2022-01-18
# DDU-Net:高解像度リモートセンシング画像を用いた道路抽出のためのデュアルデコーダU-Net

DDU-Net: Dual-Decoder-U-Net for Road Extraction Using High-Resolution Remote Sensing Images ( http://arxiv.org/abs/2201.06750v1 )

ライセンス: Link先を確認
Ying Wang, Yuexing Peng, Xinran Liu, Wei Li, George C. Alexandropoulos, Junchuan Yu, Daqing Ge, Wei Xiang(参考訳) 高分解能リモートセンシング画像(hrsis)から道路を抽出することは、自動運転、経路計画、道路ナビゲーションなど、さまざまなアプリケーションにおいて不可欠である。 長くて細い形状と、植生や建物によって引き起こされる日陰のため、小型道路の識別は困難である。 本稿では,複数規模の道路がhrsiに共存している場合の小型道路抽出の信頼性と精度を向上させるため,デュアルデコーダu-net(ddu-net)と呼ばれる拡張深層ニューラルネットワークモデルを提案する。 u-netモデルに動機付けられた小さなデコーダが追加され、より詳細な機能のためにデュアルデコーダ構造が形成される。 さらに、エンコーダとデコーダの間に拡張畳み込みアテンションモジュール(dcam)を導入し、受容磁場を増加させ、拡張畳み込みとグローバル平均プーリングをカスケードすることでマルチスケールな特徴を蒸留する。 畳み込みブロックアテンションモジュール (CBAM) は、より注意を意識した特徴を捉えるために、並列拡張畳み込みとプーリングブランチに埋め込まれている。 実験の結果、マサチューセッツ・ローズのデータセットでは、提案されたモデルが最先端の密度指数、deeplabv3+、d-linknetを6.5%、miou平均交点で3.3%、d-linknetが2.1%、f1スコアで4%、4.8%、3.1%上回った。 本モデルの有効性を検証するため,アブレーションとヒートマップ解析を行った。

Extracting roads from high-resolution remote sensing images (HRSIs) is vital in a wide variety of applications, such as autonomous driving, path planning, and road navigation. Due to the long and thin shape as well as the shades induced by vegetation and buildings, small-sized roads are more difficult to discern. In order to improve the reliability and accuracy of small-sized road extraction when roads of multiple sizes coexist in an HRSI, an enhanced deep neural network model termed Dual-Decoder-U-Net (DDU-Net) is proposed in this paper. Motivated by the U-Net model, a small decoder is added to form a dual-decoder structure for more detailed features. In addition, we introduce the dilated convolution attention module (DCAM) between the encoder and decoders to increase the receptive field as well as to distill multi-scale features through cascading dilated convolution and global average pooling. The convolutional block attention module (CBAM) is also embedded in the parallel dilated convolution and pooling branches to capture more attention-aware features. Extensive experiments are conducted on the Massachusetts Roads dataset with experimental results showing that the proposed model outperforms the state-of-the-art DenseUNet, DeepLabv3+ and D-LinkNet by 6.5%, 3.3%, and 2.1% in the mean Intersection over Union (mIoU), and by 4%, 4.8%, and 3.1% in the F1 score, respectively. Both ablation and heatmap analyses are presented to validate the effectiveness of the proposed model.
翻訳日:2022-01-19 16:14:33 公開日:2022-01-18
# 表情認識がマイナショット学習を満たす場合--共同学習と代替学習の枠組み

When Facial Expression Recognition Meets Few-Shot Learning: A Joint and Alternate Learning Framework ( http://arxiv.org/abs/2201.06781v1 )

ライセンス: Link先を確認
Xinyi Zou, Yan Yan, Jing-Hao Xue, Si Chen, Hanzi Wang(参考訳) 人間の感情には基本的な表情と複合表情が含まれる。 しかし,現在の顔表情認識(FER)の研究は主に基本的表現に焦点を当てており,現実的なシナリオにおける人間の感情の多様性に対処できない。 一方、複合ferに関する既存の研究は豊富なラベル付き複合表現訓練データに大きく依存しており、しばしば心理学の専門的な指導の下で精力的に収集される。 本稿では,対象ドメインからの新規クラスの画像のみを参照として,クロスドメイン数ショット学習環境における複合FERについて検討する。 特に,分かりやすい基本表現データセットに基づいて学習したモデルを用いて,未知の複合表現を同定することを目的とする。 FERタスクにおける制限付きベースクラスの問題を軽減するため,感情分岐と類似性分岐からなる新しい感情ガイド型類似ネットワーク(EGS-Net)を2段階学習フレームワークに基づいて提案する。 具体的には、第1段階では、類似性ブランチと感情ブランチをマルチタスク形式で共同で訓練する。 感情分岐の規則化により、類似性分岐が異なるエピソード間で重なり合うサンプルベースクラスに過度に適合することを防止する。 第2段階では、感情分枝と類似度分枝とが「二学生ゲーム」をプレイして互いに交互に学習し、見知らぬ複合表現に対する類似度分枝の推論能力をさらに向上させる。 In-the-labとin-the-wildの複合表現データセットの実験結果から,提案手法がいくつかの最先端手法に対して優れていることを示す。

Human emotions involve basic and compound facial expressions. However, current research on facial expression recognition (FER) mainly focuses on basic expressions, and thus fails to address the diversity of human emotions in practical scenarios. Meanwhile, existing work on compound FER relies heavily on abundant labeled compound expression training data, which are often laboriously collected under the professional instruction of psychology. In this paper, we study compound FER in the cross-domain few-shot learning setting, where only a few images of novel classes from the target domain are required as a reference. In particular, we aim to identify unseen compound expressions with the model trained on easily accessible basic expression datasets. To alleviate the problem of limited base classes in our FER task, we propose a novel Emotion Guided Similarity Network (EGS-Net), consisting of an emotion branch and a similarity branch, based on a two-stage learning framework. Specifically, in the first stage, the similarity branch is jointly trained with the emotion branch in a multi-task fashion. With the regularization of the emotion branch, we prevent the similarity branch from overfitting to sampled base classes that are highly overlapped across different episodes. In the second stage, the emotion branch and the similarity branch play a "two-student game" to alternately learn from each other, thereby further improving the inference ability of the similarity branch on unseen compound expressions. Experimental results on both in-the-lab and in-the-wild compound expression datasets demonstrate the superiority of our proposed method against several state-of-the-art methods.
翻訳日:2022-01-19 16:13:58 公開日:2022-01-18
# 形状Focusにおける深さ強調のための適応重み付きガイド画像フィルタリング

Adaptive Weighted Guided Image Filtering for Depth Enhancement in Shape-From-Focus ( http://arxiv.org/abs/2201.06823v1 )

ライセンス: Link先を確認
Yuwen Li, Zhengguo Li, Chaobing Zheng and Shiqian Wu(参考訳) フォーカス(sff)技術による既存の形状は、複数の焦点画像から深度エッジと細部構造を保存できない。 さらに、マルチフォーカス画像のシーケンスにおけるノイズは深度マップの精度に影響する。 本稿では,適応重み付きガイド画像フィルタリング(AWGIF)に基づくSFFのための新しい深度強調アルゴリズムを提案する。 AWGIFは、従来のSFFによって推定される初期深度マップをベース層と詳細層に分解する。 洗練された深度マップにおいてエッジを正確に保存するために、多焦点画像シーケンスから誘導画像を構築し、awgifの係数を利用して細かな深さ詳細を高めながらノイズを抑制する。 実物および合成物に関する実験は、提案アルゴリズムの反雑音に対する優位性、および既存の手法と比較して深度エッジと微細構造を保存できることを実証している。

Existing shape from focus (SFF) techniques cannot preserve depth edges and fine structural details from a sequence of multi-focus images. Moreover, noise in the sequence of multi-focus images affects the accuracy of the depth map. In this paper, a novel depth enhancement algorithm for the SFF based on an adaptive weighted guided image filtering (AWGIF) is proposed to address the above issues. The AWGIF is applied to decompose an initial depth map which is estimated by the traditional SFF into a base layer and a detail layer. In order to preserve the edges accurately in the refined depth map, the guidance image is constructed from the multi-focus image sequence, and the coefficient of the AWGIF is utilized to suppress the noise while enhancing the fine depth details. Experiments on real and synthetic objects demonstrate the superiority of the proposed algorithm in terms of anti-noise, and the ability to preserve depth edges and fine structural details compared to existing methods.
翻訳日:2022-01-19 16:13:32 公開日:2022-01-18
# sture: オンラインマルチオブジェクト追跡におけるロバストデータアソシエーションのための空間-時間間相互表現学習

STURE: Spatial-Temporal Mutual Representation Learning for Robust Data Association in Online Multi-Object Tracking ( http://arxiv.org/abs/2201.06824v1 )

ライセンス: Link先を確認
HaidongWang, Zhiyong Li, Yaping Li, Ke Nai, Ming Wen(参考訳) オンラインマルチオブジェクトトラッキング(MOT)は、コンピュータビジョンとインテリジェントな車両プラットフォームのための長年のタスクである。 現在、主要なパラダイムはトラッキング・バイ・検出であり、このパラダイムの主な難しさは、現在の候補検出と過去のトラックレットを関連付ける方法である。 しかし、motのシナリオでは、各履歴トラックレットはオブジェクトシーケンスで構成され、各候補検出は単なるフラットイメージであり、オブジェクトシーケンスの時間的特徴を欠いている。 現在の候補検出と履歴トラックレットの特徴の違いは、オブジェクトの関連性をはるかに難しくする。 そこで,本稿では,現在候補検出と歴史的シーケンス間の空間時間表現を相互表現空間で学習する空間-時間間相互表現学習(sture)手法を提案する。 歴史的トラケレットの場合、検出学習ネットワークは、相互表現空間におけるシーケンス学習ネットワークの表現と一致せざるを得ない。 提案手法は,オブジェクト連想における各種設計損失を用いて,検出とシーケンス表現をより識別する手法である。 その結果、現在の検出特徴を強化するために時空間特徴を相互に学習し、特徴差を緩和することができる。 STUREのロバスト性を証明するために、パブリックMOTチャレンジベンチマークに適用され、ID保存メトリクスに基づく様々な最先端のオンラインMOTトラッカーと比較してよく機能する。

Online multi-object tracking (MOT) is a longstanding task for computer vision and intelligent vehicle platform. At present, the main paradigm is tracking-by-detection, and the main difficulty of this paradigm is how to associate the current candidate detection with the historical tracklets. However, in the MOT scenarios, each historical tracklet is composed of an object sequence, while each candidate detection is just a flat image, which lacks the temporal features of the object sequence. The feature difference between current candidate detection and historical tracklets makes the object association much harder. Therefore, we propose a Spatial-Temporal Mutual {Representation} Learning (STURE) approach which learns spatial-temporal representations between current candidate detection and historical sequence in a mutual representation space. For the historical trackelets, the detection learning network is forced to match the representations of sequence learning network in a mutual representation space. The proposed approach is capable of extracting more distinguishing detection and sequence representations by using various designed losses in object association. As a result, spatial-temporal feature is learned mutually to reinforce the current detection features, and the feature difference can be relieved. To prove the robustness of the STURE, it is applied to the public MOT challenge benchmarks and performs well compared with various state-of-the-art online MOT trackers based on identity-preserving metrics.
翻訳日:2022-01-19 16:13:18 公開日:2022-01-18
# (参考訳) 人工知能開発を推進するベンチマークデータセットは医療専門家のニーズを捉えられなかった

Benchmark datasets driving artificial intelligence development fail to capture the needs of medical professionals ( http://arxiv.org/abs/2201.07040v1 )

ライセンス: CC BY 4.0
Kathrin Blagec, Jakob Kraiger, Wolfgang Fr\"uhwirt, Matthias Samwald(参考訳) モデルパフォーマンスの評価と比較を可能にする公開可能なベンチマークは、人工知能(AI)の進歩の重要な要因である。 近年のAI能力の進歩は、医療専門家の認知プロセスを支援し、強化することで医療実践を変革する可能性を秘めているが、AIベンチマークによる臨床関連タスクのカバレッジはほとんど不明である。 さらに、システム化されたメタ情報がないため、臨床AI研究者は、臨床領域に関連するデータセットやベンチマークデータセットのアクセシビリティ、スコープ、コンテンツ、その他の特性を迅速に決定できる。 これらの問題に対処するため,文献とオンラインリソースの体系的レビューに基づいて,広範な臨床・生物医学自然言語処理分野(nlp)に関連するデータセットとベンチマークの包括的カタログを作成・公開した。 450のNLPデータセットを手動で体系化し、ターゲットタスク、臨床応用性、データタイプ、パフォーマンスメトリクス、アクセシビリティとライセンシング情報、データ分割の可用性など、豊富なメタデータで注釈付けした。 続いて私たちは、AIベンチマークデータセットでカバーされたタスクと、医療従事者が以前の実証研究で非常に望ましい自動化ターゲットとして報告した関連するタスクを比較した。 我々の分析は、AIベンチマークの直接臨床関連性は乏しく、臨床医が対応したい仕事のほとんどをカバーできないことを示唆している。 特に、日常的なドキュメントや患者データ管理ワークフローに関連するタスクは、重要な関連するワークロードにもかかわらず表現されない。 したがって、現在利用可能なAIベンチマークは、臨床環境でAI自動化の望ましい目標と不適切に一致しており、これらのギャップを埋めるために新しいベンチマークを作成する必要がある。

Publicly accessible benchmarks that allow for assessing and comparing model performances are important drivers of progress in artificial intelligence (AI). While recent advances in AI capabilities hold the potential to transform medical practice by assisting and augmenting the cognitive processes of healthcare professionals, the coverage of clinically relevant tasks by AI benchmarks is largely unclear. Furthermore, there is a lack of systematized meta-information that allows clinical AI researchers to quickly determine accessibility, scope, content and other characteristics of datasets and benchmark datasets relevant to the clinical domain. To address these issues, we curated and released a comprehensive catalogue of datasets and benchmarks pertaining to the broad domain of clinical and biomedical natural language processing (NLP), based on a systematic review of literature and online resources. A total of 450 NLP datasets were manually systematized and annotated with rich metadata, such as targeted tasks, clinical applicability, data types, performance metrics, accessibility and licensing information, and availability of data splits. We then compared tasks covered by AI benchmark datasets with relevant tasks that medical practitioners reported as highly desirable targets for automation in a previous empirical study. Our analysis indicates that AI benchmarks of direct clinical relevance are scarce and fail to cover most work activities that clinicians want to see addressed. In particular, tasks associated with routine documentation and patient data administration workflows are not represented despite significant associated workloads. Thus, currently available AI benchmarks are improperly aligned with desired targets for AI automation in clinical settings, and novel benchmarks should be created to fill these gaps.
翻訳日:2022-01-19 16:11:07 公開日:2022-01-18
# リーンによる説明可能な意思決定と議論的説明

Explainable Decision Making with Lean and Argumentative Explanations ( http://arxiv.org/abs/2201.06692v1 )

ライセンス: Link先を確認
Xiuyi Fan, Francesca Toni(参考訳) 自動化された意思決定の透明性は、インテリジェントなシステムのデプロイに不可欠であると広く認識されており、意思決定が"良い"理由と、この透明性を達成するための方法ではない理由を説明している。 我々は「良い」決定が代替に等しい2種類の意思決定を考える。 i)「最善」の目標を達成し、 (ii)「最も望ましい」目標の達成。 次に、それぞれの変種と「善」の概念(文献上の多くの既存の概念に対応する)について、異なるニーズと能力を持つ聴衆の選択肢の選択を正当化する2つの形式の説明を定義する: リーンの説明、満足する目標の観点、そして「善」の概念、代替決定、議論的な説明、そして、選択に至る決定過程を反映して、リーンの説明に対応する。 議論的説明を定義するため、仮定に基づく議論(ABA)は構造化議論のよく知られた形式である。 具体的には、「良い」決定が許容可能なABAの議論であるようなABAフレームワークを定義し、この許容性を認める議論ツリーから議論的な説明を引き出す。 最後に、デファシブルおよび非デファシブルな情報を含む意思決定グラフの観点で、目標と意思決定の関連性に対応するために、説明可能な意思決定のための全体的なフレームワークをインスタンス化する。

It is widely acknowledged that transparency of automated decision making is crucial for deployability of intelligent systems, and explaining the reasons why some decisions are "good" and some are not is a way to achieving this transparency. We consider two variants of decision making, where "good" decisions amount to alternatives (i) meeting "most" goals, and (ii) meeting "most preferred" goals. We then define, for each variant and notion of "goodness" (corresponding to a number of existing notions in the literature), explanations in two formats, for justifying the selection of an alternative to audiences with differing needs and competences: lean explanations, in terms of goals satisfied and, for some notions of "goodness", alternative decisions, and argumentative explanations, reflecting the decision process leading to the selection, while corresponding to the lean explanations. To define argumentative explanations, we use assumption-based argumentation (ABA), a well-known form of structured argumentation. Specifically, we define ABA frameworks such that "good" decisions are admissible ABA arguments and draw argumentative explanations from dispute trees sanctioning this admissibility. Finally, we instantiate our overall framework for explainable decision-making to accommodate connections between goals and decisions in terms of decision graphs incorporating defeasible and non-defeasible information.
翻訳日:2022-01-19 15:58:22 公開日:2022-01-18
# マルチモーダル電子健康記録を用いた疾病リスク予測のためのラベル依存注意モデル

Label Dependent Attention Model for Disease Risk Prediction Using Multimodal Electronic Health Records ( http://arxiv.org/abs/2201.06779v1 )

ライセンス: Link先を確認
Shuai Niu and Qing Yin and Yunya Song and Yike Guo and Xian Yang(参考訳) 疾病のリスク予測は、現代医療分野、特に人工知能(AI)の最新の進歩に注目が集まっている。 不均一な患者情報を含む電子健康記録(EHR)は、疾患リスク予測タスクに広く利用されている。 リスク予測にAIモデルを適用する上での課題のひとつは、予測能力を維持しながら予測結果をサポートするための解釈可能な証拠を生成することだ。 この問題に対処するため,注意モジュールが医療用ノートから単語の重みを学習し,リスク予測ラベルの名前との関連性に基づき,共同で単語やラベルを埋め込む手法を提案する。 このアプローチは、注意機構を採用し、モデルに予測タスクの名前を含めることで、解釈可能性を高める。 しかし,その応用は医療用ノートなどのテキスト入力の処理に限られる。 本稿では,ラベル依存型注意モデルLDAMを提案する。 1) 臨床用BERT(大規模臨床用コーパスで事前訓練されたバイオメディカル言語モデル)を用いて、生体学的に有意な特徴やラベルを共同で符号化することにより、解釈性を向上させる。 2) 共同埋め込みの考え方を時系列データの処理に拡張し, 医療ノートや時系列健康状態指標から異質な情報を統合するためのマルチモーダル学習フレームワークを開発する。 LDAMをMIMIC-IIIデータセットに適用し,異なる疾患リスクを予測する。 定量的にも定性的にも評価する。 具体的には、LDAMの予測力を示し、その解釈可能性を示すケーススタディを行う。

Disease risk prediction has attracted increasing attention in the field of modern healthcare, especially with the latest advances in artificial intelligence (AI). Electronic health records (EHRs), which contain heterogeneous patient information, are widely used in disease risk prediction tasks. One challenge of applying AI models for risk prediction lies in generating interpretable evidence to support the prediction results while retaining the prediction ability. In order to address this problem, we propose the method of jointly embedding words and labels whereby attention modules learn the weights of words from medical notes according to their relevance to the names of risk prediction labels. This approach boosts interpretability by employing an attention mechanism and including the names of prediction tasks in the model. However, its application is only limited to the handling of textual inputs such as medical notes. In this paper, we propose a label dependent attention model LDAM to 1) improve the interpretability by exploiting Clinical-BERT (a biomedical language model pre-trained on a large clinical corpus) to encode biomedically meaningful features and labels jointly; 2) extend the idea of joint embedding to the processing of time-series data, and develop a multi-modal learning framework for integrating heterogeneous information from medical notes and time-series health status indicators. To demonstrate our method, we apply LDAM to the MIMIC-III dataset to predict different disease risks. We evaluate our method both quantitatively and qualitatively. Specifically, the predictive power of LDAM will be shown, and case studies will be carried out to illustrate its interpretability.
翻訳日:2022-01-19 15:58:00 公開日:2022-01-18
# EHRを用いたラベル依存型・事象誘導型疾患予測

Label-dependent and event-guided interpretable disease risk prediction using EHRs ( http://arxiv.org/abs/2201.06783v1 )

ライセンス: Link先を確認
Shuai Niu and Yunya Song and Qing Yin and Yike Guo and Xian Yang(参考訳) 電子健康記録 (EHRs) には、患者の医療従事者から収集された異種データが含まれており、医療ノート、臨床イベント、検査結果、症状、診断が含まれる。 現代医療の分野では、人工知能(AI)が重要な役割を果たす有望な研究領域として、患者がERHに基づいてリスクを経験するかどうかを予測している。 aiモデルを実際に適用するためには、予測結果を正確かつ解釈可能であることが必要である。 そこで本稿では, ラベル依存型・事象誘導型リスク予測モデル(LERP)を提案する。 我々のモデルは以下の点で特徴付けられる。 まず、リスクラベルの名前にセマンティックに類似した医療用メモからの単語に注意を向けるラベル依存メカニズムを採用する。 第2に、臨床イベント(例えば、治療や薬物)は患者の健康状態を示すことができるため、このモデルでは、イベントからの情報を活用し、医療ノートのイベントガイド表現を生成する。 第三に、ラベル依存表現とイベント誘導表現の両方を統合して堅牢な予測を行い、医療ノートからの単語に対する注意重みによって解釈可能性を有効にする。 提案手法の適用性を実証するため,病院から収集した実世界のEHRを含むMIMIC-IIIデータセットに適用した。 本手法は定量的および定性的に評価される。

Electronic health records (EHRs) contain patients' heterogeneous data that are collected from medical providers involved in the patient's care, including medical notes, clinical events, laboratory test results, symptoms, and diagnoses. In the field of modern healthcare, predicting whether patients would experience any risks based on their EHRs has emerged as a promising research area, in which artificial intelligence (AI) plays a key role. To make AI models practically applicable, it is required that the prediction results should be both accurate and interpretable. To achieve this goal, this paper proposed a label-dependent and event-guided risk prediction model (LERP) to predict the presence of multiple disease risks by mainly extracting information from unstructured medical notes. Our model is featured in the following aspects. First, we adopt a label-dependent mechanism that gives greater attention to words from medical notes that are semantically similar to the names of risk labels. Secondly, as the clinical events (e.g., treatments and drugs) can also indicate the health status of patients, our model utilizes the information from events and uses them to generate an event-guided representation of medical notes. Thirdly, both label-dependent and event-guided representations are integrated to make a robust prediction, in which the interpretability is enabled by the attention weights over words from medical notes. To demonstrate the applicability of the proposed method, we apply it to the MIMIC-III dataset, which contains real-world EHRs collected from hospitals. Our method is evaluated in both quantitative and qualitative ways.
翻訳日:2022-01-19 15:57:36 公開日:2022-01-18
# 高次元時系列データに対するwasserstein change point detection

WATCH: Wasserstein Change Point Detection for High-Dimensional Time Series Data ( http://arxiv.org/abs/2201.07125v1 )

ライセンス: Link先を確認
Kamil Faber, Roberto Corizzo, Bartlomiej Sniezynski, Michael Baron, Nathalie Japkowicz(参考訳) 動的時系列データの時間的変化を検出することは、実世界の多くのデータ分析タスクにおいて極めて重要である。 変化点検出方法は教師なしの方法で変化を検出する能力を持ち、無境界データストリームやラベルなしデータストリームの分析において望ましい特性を示す。 しかしながら、既存のアプローチの大部分の制限は、トラフィックフロー予測、ヒューマンアクティビティ認識、スマートグリッド監視といった現代のアプリケーションでよく見られる多変量および高次元のデータを扱う能力が限られていることを表している。 本稿では,ワッサースタイン距離に基づく新しい変化点検出手法であるWATCHを提案する。この手法は,新しいデータポイントを処理しながら初期分布をモデル化し,その挙動を監視し,動的高次元データにおける変化点の高精度かつ堅牢な検出を可能にする。 多数のベンチマークデータセットを含む広範な実験的評価は、WATCHが変更点を正確に識別し、最先端の手法より優れた性能を発揮することを示している。

Detecting relevant changes in dynamic time series data in a timely manner is crucially important for many data analysis tasks in real-world settings. Change point detection methods have the ability to discover changes in an unsupervised fashion, which represents a desirable property in the analysis of unbounded and unlabeled data streams. However, one limitation of most of the existing approaches is represented by their limited ability to handle multivariate and high-dimensional data, which is frequently observed in modern applications such as traffic flow prediction, human activity recognition, and smart grids monitoring. In this paper, we attempt to fill this gap by proposing WATCH, a novel Wasserstein distance-based change point detection approach that models an initial distribution and monitors its behavior while processing new data points, providing accurate and robust detection of change points in dynamic high-dimensional data. An extensive experimental evaluation involving a large number of benchmark datasets shows that WATCH is capable of accurately identifying change points and outperforming state-of-the-art methods.
翻訳日:2022-01-19 15:57:09 公開日:2022-01-18
# (参考訳) Klexikon: 共同要約と単純化のためのドイツのデータセット

Klexikon: A German Dataset for Joint Summarization and Simplification ( http://arxiv.org/abs/2201.07198v1 )

ライセンス: CC BY 4.0
Dennis Aumiller and Michael Gertz(参考訳) 伝統的に、テキスト単純化は、ソーステキストと単純化されたテキスト間の文がトレーニングのためにアライメントされるモノリンガル翻訳タスクとして扱われる。 しかし、特に長い入力文書の場合、テキストの要約(あるいは関連コンテンツの削除)は、既存のデータセットに反映されていない単純化プロセスにおいて重要な役割を果たす。 同時に、非英語言語のリソースは一般的には乏しく、新しいソリューションのトレーニングを禁止している。 この問題に取り組むために,長いソース文書を共同で要約し,単純化できるシステムにおいて,コアとなる要件を提示する。 さらに、約2900の文書からなるドイツ版ウィキペディアとドイツの子供向け辞書「klexikon」に基づくテキストの簡易化と要約のための新しいデータセットの作成について述べる。 要約の側面を特に強調したドキュメントに整合したバージョンをリリースし、このリソースが単純化にも適しているという統計的な証拠を提供します。 コードとデータはgithubで入手できる。 https://github.com/dennlinger/klexikon

Traditionally, Text Simplification is treated as a monolingual translation task where sentences between source texts and their simplified counterparts are aligned for training. However, especially for longer input documents, summarizing the text (or dropping less relevant content altogether) plays an important role in the simplification process, which is currently not reflected in existing datasets. Simultaneously, resources for non-English languages are scarce in general and prohibitive for training new solutions. To tackle this problem, we pose core requirements for a system that can jointly summarize and simplify long source documents. We further describe the creation of a new dataset for joint Text Simplification and Summarization based on German Wikipedia and the German children's lexicon "Klexikon", consisting of almost 2900 documents. We release a document-aligned version that particularly highlights the summarization aspect, and provide statistical evidence that this resource is well suited to simplification as well. Code and data are available on Github: https://github.com/dennlinger/klexikon
翻訳日:2022-01-19 15:48:44 公開日:2022-01-18
# typic: 議論に関するテンプレートに基づく診断コメントのコーパス

TYPIC: A Corpus of Template-Based Diagnostic Comments on Argumentation ( http://arxiv.org/abs/2201.06674v1 )

ライセンス: Link先を確認
Shoichi Naito, Shintaro Sawada, Chihiro Nakagawa, Naoya Inoue, Kenshi Yamaguchi, Iori Shimizu, Farjana Sultana Mim, Keshav Singh, Kentaro Inui(参考訳) 批判的思考スキルの開発には,学習者の議論に対するフィードバックの提供が不可欠だが,多くの時間と労力を要する。 教師の負担を軽減するため,特に議論に内在する弱点を指摘する診断コメントを提示し,フィードバックのプロセスを自動化することを目的とする。 学習者が誤解なく診断を認識できるように、特定の診断コメントを与えることが望ましい。 しかし、どのように特定の診断コメントを提供するタスクを定式化するべきかは明らかではない。 本稿では,テンプレート選択とスロット充填としてタスクを定式化し,自動評価を容易にし,モデルの動作をより扱いやすいものにする。 定式化の鍵は、実用に十分なテンプレートセットを作成することができることである。 本稿では,テンプレートセットが満足すべき3つの条件,表現性,情報性,一意性を定義し,これらの条件を満たすテンプレートセットを最初の試行として作成する可能性を検証する。 テキスト中の診断コメントをテンプレート形式に変換するアノテーション研究によって実現可能であることを示す。 注釈研究で使用されるコーパスが公開されている。

Providing feedback on the argumentation of learner is essential for development of critical thinking skills, but it takes a lot of time and effort. To reduce the burden on teachers, we aim to automate a process of giving feedback, especially giving diagnostic comments which point out the weaknesses inherent in the argumentation. It is advisable to give specific diagnostic comments so that learners can recognize the diagnosis without misunderstanding. However, it is not obvious how the task of providing specific diagnostic comments should be formulated. We present a formulation of the task as template selection and slot filling to make an automatic evaluation easier and the behavior of the model more tractable. The key to the formulation is the possibility of creating a template set that is sufficient for practical use. In this paper, we define three criteria that a template set should satisfy: expressiveness, informativeness, and uniqueness, and verify the feasibility to create a template set that satisfies these criteria as a first trial. We will show that it is feasible through an annotation study that converts diagnostic comments given in text into a template format. The corpus used in the annotation study is publicly available.
翻訳日:2022-01-19 15:34:29 公開日:2022-01-18
# ユーリング:AIによる歌詞作成システム

Youling: an AI-Assisted Lyrics Creation System ( http://arxiv.org/abs/2201.06724v1 )

ライセンス: Link先を確認
Rongsheng Zhang, Xiaoxi Mao, Le Li, Lin Jiang, Lin Chen, Zhiwei Hu, Yadong Xi, Changjie Fan, Minlie Huang(参考訳) 近年,歌詞生成のための様々なニューラルモデルが提案されている。 しかし、これまでのほとんどの研究は、人間の介入がほとんどない単一のパスで生成プロセスを完成させた。 歌詞作成は人間の知性を中心とした創造的なプロセスだと信じています。 AIは、人間のインタラクションが高品質な創造に不可欠である歌詞作成プロセスにおいて、アシスタントとしての役割を担うべきです。 本稿では,AIによる歌詞作成システムである「textit{Youling}」について紹介する。 歌詞生成プロセスでは,従来型のフルテキスト生成モードと対話型生成モードをサポートし,先行した文脈で条件付けられた候補から満足な文を選択することができる。 システムは、ユーザーが望まない文や歌詞の言葉を繰り返し修正できるリビジョンモジュールも提供する。 さらに、 \textit{youling} では、ユーザが多面属性を使って、生成された歌詞の内容とフォーマットを制御できる。 システムのデモビデオはhttps://youtu.be/dfenphk0pm4で見ることができる。

Recently, a variety of neural models have been proposed for lyrics generation. However, most previous work completes the generation process in a single pass with little human intervention. We believe that lyrics creation is a creative process with human intelligence centered. AI should play a role as an assistant in the lyrics creation process, where human interactions are crucial for high-quality creation. This paper demonstrates \textit{Youling}, an AI-assisted lyrics creation system, designed to collaborate with music creators. In the lyrics generation process, \textit{Youling} supports traditional one pass full-text generation mode as well as an interactive generation mode, which allows users to select the satisfactory sentences from generated candidates conditioned on preceding context. The system also provides a revision module which enables users to revise undesired sentences or words of lyrics repeatedly. Besides, \textit{Youling} allows users to use multifaceted attributes to control the content and format of generated lyrics. The demo video of the system is available at https://youtu.be/DFeNpHk0pm4.
翻訳日:2022-01-19 15:34:10 公開日:2022-01-18
# 自己学習型エンドツーエンド対話システムに向けて

Toward Self-Learning End-to-End Dialog Systems ( http://arxiv.org/abs/2201.06849v1 )

ライセンス: Link先を確認
Xiaoying Zhang, Baolin Peng, Jianfeng Gao, Helen Meng(参考訳) エンドツーエンドのタスク指向のダイアログシステムは、動的、変化し、オープンな環境にデプロイされた後、アウト・オブ・ディストリビューション(OOD)の入力に悩まされることが多い。 本研究では,より現実的な環境下での対話システム構築のための教師付き学習,強化学習,機械教育を組み合わせた自己学習フレームワークSL-Agentを提案する。 SL-Agentは、システム応答の品質を判断するダイアログモデルと事前訓練された報酬モデルから構成される。 SL-Agentは、強化学習を通じて人間とボットのインタラクションから学習することで、ユーザー行動の変化のある環境に自動的に適応できる。 SL-Agentを4つの異なるダイアログドメインで検証する。 SL-Agentは自動評価と人的評価の両方を用いて環境変化に適応する。 さらに、挑戦的なドメイン拡張設定の実験により、slエージェントが機械教育によって提供される限られた人間の修正を用いて、新しいタスクに効果的に適応できることが示されている。 さらなる研究のために、コード、データ、事前訓練されたモデルをリリースします。

End-to-end task-oriented dialog systems often suffer from out-of-distribution (OOD) inputs after being deployed in dynamic, changing, and open environments. In this work, we propose SL-Agent, a self-learning framework that combines supervised learning, reinforcement learning, and machine teaching for building end-to-end dialog systems in a more realistic changing environment setting. SL-Agent consists of a dialog model and a pre-trained reward model to judge the quality of a system response. SL-Agent enables dialog agents to automatically adapt to environments with user behavior changes by learning from human-bot interactions via reinforcement learning, with the incorporated pre-trained reward model. We validate SL-Agent in four different dialog domains. Experimental results show the effectiveness of SL-Agent for automatically adapting to changing environments using both automatic and human evaluations. Furthermore, experiments on a challenging domain extension setting demonstrate that SL-Agent can effectively adapt to new tasks using limited human corrections provided via machine teaching. We will release code, data, and pre-trained models for further research.
翻訳日:2022-01-19 15:31:55 公開日:2022-01-18
# 言語理解と生成のためのインスタンス対応プロンプト学習

Instance-aware Prompt Learning for Language Understanding and Generation ( http://arxiv.org/abs/2201.07126v1 )

ライセンス: Link先を確認
Feihu Jin, Jinliang Lu, Jiajun Zhang and Chengqing Zong(参考訳) 近年,事前学習型言語モデル(plm)を用いたプロンプト学習が新たなパラダイムとなり,パラメータの増大によって下流タスクで有望な結果が得られている。 現在の離散的および連続的なプロンプトの使用は、プロンプトが特定のタスクに対して固定され、タスク内のすべてのサンプルが同じプロンプトを共有することを前提としている。 しかし、タスクには非常に多様なサンプルが含まれており、その中には簡単で難しいものもあれば、さまざまなプロンプトが望ましいものもある。 本稿では,インスタンス毎に異なるプロンプトを学習するインスタンス認識型プロンプト学習手法を提案する。 具体的には、各学習可能なプロンプトトークンが異なるインスタンスに対して異なる貢献を持つと仮定し、各インスタンスと各プロンプトトークンの間の関連性スコアを計算して貢献を学習する。 貢献の重み付けされたプロンプトはインスタンスに認識されます。 本手法は,一方向plmと双方向plmの両方に,言語理解と生成タスクの両方に応用する。 広範な実験により,本手法は強いベースラインと比較して相当な改善が得られた。 特に,本手法は,SuperGLUE数ショット学習ベンチマークの最先端性を達成している。

Recently, prompt learning has become a new paradigm to utilize pre-trained language models (PLMs) and achieves promising results in downstream tasks with a negligible increase of parameters. The current usage of discrete and continuous prompts assumes that the prompt is fixed for a specific task and all samples in the task share the same prompt. However, a task may contain quite diverse samples in which some are easy and others are difficult, and diverse prompts are desirable. In this paper, we propose an instance-aware prompt learning method that learns a different prompt for each instance. Specifically, we suppose that each learnable prompt token has a different contribution to different instances, and we learn the contribution by calculating the relevance score between an instance and each prompt token. The contribution weighted prompt would be instance aware. We apply our method to both unidirectional and bidirectional PLMs on both language understanding and generation tasks. Extensive experiments demonstrate that our method obtains considerable improvements compared to strong baselines. Especially, our method achieves the state-of-the-art on the SuperGLUE few-shot learning benchmark.
翻訳日:2022-01-19 15:31:35 公開日:2022-01-18
# (参考訳) Repre: 再構成前トレーニングによる自己監督型視覚変換器の改良

RePre: Improving Self-Supervised Vision Transformer with Reconstructive Pre-training ( http://arxiv.org/abs/2201.06857v1 )

ライセンス: CC BY 4.0
Luya Wang, Feng Liang, Yangguang Li, Wanli Ouyang, Honggang Zhang, Jing Shao(参考訳) 近年、自己監督型視覚変換器は印象的な表現学習能力で前例のない注目を集めている。 しかし、コントラスト学習という支配的な手法は、主に画像のグローバルな理解を学習するインスタンス識別プレテキストタスクに依存している。 本稿では,Reconstructive Pre-Training(RePre)を用いて,局所特徴学習を自己教師型視覚変換器に組み込む。 私たちのrepreは、既存のコントラスト目的と並行して生のピクセルを再構築するブランチを追加することで、コントラストフレームワークを拡張します。 RePreは軽量な畳み込みベースのデコーダを備えており、トランスフォーマーエンコーダのマルチ階層機能を融合している。 マルチ階層機能は、低レベルから高レベルのセマンティック情報まで、豊富な監視を提供します。 私たちのRePreは、異なるビジョントランスフォーマーアーキテクチャを持つさまざまなコントラストフレームワークに対して、適切な改善を提供します。 下流タスクにおける転送性能は、教師付き事前訓練およびSOTA(State-of-the-art)自己監督タスクよりも優れる。

Recently, self-supervised vision transformers have attracted unprecedented attention for their impressive representation learning ability. However, the dominant method, contrastive learning, mainly relies on an instance discrimination pretext task, which learns a global understanding of the image. This paper incorporates local feature learning into self-supervised vision transformers via Reconstructive Pre-training (RePre). Our RePre extends contrastive frameworks by adding a branch for reconstructing raw image pixels in parallel with the existing contrastive objective. RePre is equipped with a lightweight convolution-based decoder that fuses the multi-hierarchy features from the transformer encoder. The multi-hierarchy features provide rich supervisions from low to high semantic information, which are crucial for our RePre. Our RePre brings decent improvements on various contrastive frameworks with different vision transformer architectures. Transfer performance in downstream tasks outperforms supervised pre-training and state-of-the-art (SOTA) self-supervised counterparts.
翻訳日:2022-01-19 15:28:18 公開日:2022-01-18
# 最小限の最適性(おそらく)は、GANに対する分散学習を示唆しない

Minimax Optimality (Probably) Doesn't Imply Distribution Learning for GANs ( http://arxiv.org/abs/2201.07206v1 )

ライセンス: Link先を確認
Sitan Chen, Jerry Li, Yuanzhi Li, Raghu Meka(参考訳) 生成逆数ネットワーク(GAN)の理論における最も基本的な疑問は、GANが実際に基礎となる分布をどの程度学べるかを理解することである。 理論的および実証的証拠は、経験的訓練対象の局所的最適性が不十分であることを示唆している。 しかし、真の人口ミニマックス最適解を達成することが分布学習を意味する可能性は否定できない。 本稿では,この強い条件がまだ不十分であることを示す標準的な暗号仮定を示す。 すなわち、局所擬似乱数生成器(PRG)が存在する場合、自然の連続目標分布の大きな族に対して、ガウスランダムシードを取る定数深さと多項式サイズのReLUネットワーク生成器が存在することを示す。 (i) 出力は目標分布からwasserstein距離に遠く及んでいるが (ii)多項式的に大きなリプシッツ判別器reluネットワークは検出できない。 これは、ワッサーシュタイン GAN の目的に対して、人口最小の最適解さえも、通常の統計的意味での分布学習には不十分であることを意味する。 我々の技術は、GANとPRGの深い関係を明らかにし、GANの計算環境に関するさらなる洞察をもたらすものと信じている。

Arguably the most fundamental question in the theory of generative adversarial networks (GANs) is to understand to what extent GANs can actually learn the underlying distribution. Theoretical and empirical evidence suggests local optimality of the empirical training objective is insufficient. Yet, it does not rule out the possibility that achieving a true population minimax optimal solution might imply distribution learning. In this paper, we show that standard cryptographic assumptions imply that this stronger condition is still insufficient. Namely, we show that if local pseudorandom generators (PRGs) exist, then for a large family of natural continuous target distributions, there are ReLU network generators of constant depth and polynomial size which take Gaussian random seeds so that (i) the output is far in Wasserstein distance from the target distribution, but (ii) no polynomially large Lipschitz discriminator ReLU network can detect this. This implies that even achieving a population minimax optimal solution to the Wasserstein GAN objective is likely insufficient for distribution learning in the usual statistical sense. Our techniques reveal a deep connection between GANs and PRGs, which we believe will lead to further insights into the computational landscape of GANs.
翻訳日:2022-01-19 15:09:57 公開日:2022-01-18
# (参考訳) 不均一および部分ラベル付き画像データセットを用いた深部頸部モデルの開発

Deep Cervix Model Development from Heterogeneous and Partially Labeled Image Datasets ( http://arxiv.org/abs/2201.07013v1 )

ライセンス: CC BY 4.0
Anabik Pal, Zhiyun Xue and Sameer Antani(参考訳) 子宮頸癌は世界で4番目に多いがんである。 堅牢な自動頚椎画像分類システムの可用性は、従来の視覚検査における臨床ケア提供者のアセト酸(VIA)の限界を増大させる可能性がある。 しかし, 基準特異的予測モデル開発におけるラベル付け基準に影響を与える頚部検査の目的は様々である。 さらに、検証結果の欠如やラスタラベリングのばらつきにより、多くの画像がラベル付けされていない。 そこで本研究では,これらの課題に動機づけられた自己教師付き学習(ssl)アプローチを提案する。 開発したモデルはさらに微調整され、利用可能なラベル付き画像で基準に固有の分類モデルを生成する。 2つの頚部画像データセットを用いて提案手法の有効性を示す。 どちらのデータセットも部分的にラベル付けされており、ラベル付け基準が異なる。 実験の結果、SSLベースの初期化により分類性能(精度:2.5%分)が向上し、SSL中の両方のデータセットからのイメージの取り込みにより性能(精度:1.5%分)が向上した。 さらに,データ共有の制限を考慮し,フェデレートSSLの有効性を検証し,その画像だけで開発されたSSLモデルよりも性能を向上できることを確認した。 これはSSLベースのcervixモデル開発の重要性を正当化する。 本研究は,異なるソースからの画像をラベル付き・ラベル付きで合成し,画像アクセス制限に対処し,頸椎画像分類の基準固有の深層モデルを開発する上で,新たな方向性を示すものと考えられる。

Cervical cancer is the fourth most common cancer in women worldwide. The availability of a robust automated cervical image classification system can augment the clinical care provider's limitation in traditional visual inspection with acetic acid (VIA). However, there are a wide variety of cervical inspection objectives which impact the labeling criteria for criteria-specific prediction model development. Moreover, due to the lack of confirmatory test results and inter-rater labeling variation, many images are left unlabeled. Motivated by these challenges, we propose a self-supervised learning (SSL) based approach to produce a pre-trained cervix model from unlabeled cervical images. The developed model is further fine-tuned to produce criteria-specific classification models with the available labeled images. We demonstrate the effectiveness of the proposed approach using two cervical image datasets. Both datasets are partially labeled and labeling criteria are different. The experimental results show that the SSL-based initialization improves classification performance (Accuracy: 2.5% min) and the inclusion of images from both datasets during SSL further improves the performance (Accuracy: 1.5% min). Further, considering data-sharing restrictions, we experimented with the effectiveness of Federated SSL and find that it can improve performance over the SSL model developed with just its images. This justifies the importance of SSL-based cervix model development. We believe that the present research shows a novel direction in developing criteria-specific custom deep models for cervical image classification by combining images from different sources unlabeled and/or labeled with varying criteria, and addressing image access restrictions.
翻訳日:2022-01-19 15:01:28 公開日:2022-01-18
# 税関不正検出におけるドメイン適応による知識共有

Knowledge Sharing via Domain Adaptation in Customs Fraud Detection ( http://arxiv.org/abs/2201.06759v1 )

ライセンス: Link先を確認
Sungwon Park and Sundong Kim and Meeyoung Cha(参考訳) トラフィックの変化に関する知識はリスク管理において重要です。 世界中の税関は伝統的に、知識を蓄積し、税金の不正を検知するために地元の資源に頼ってきた。 これは、インフラの弱い国が、潜在的に非合法な貿易のタックスヘイブンになることを自然に表している。 本報告では,多国籍税関行政間の知識共有を支援するためのメモリバンクプラットフォームであるDASを提案する。 そこで本研究では,偽情報の伝達可能な知識をプロトタイプとして共有するドメイン適応手法を提案する。 800万以上の輸入宣言を含むデータは、この新しいシステムの実現可能性をテストするために使われており、参加国は共有知識の助けを借りて不正検出を最大2~11回行うことができる。 我々は、実質的な税収の可能性と不正取引に対する政策強化について論じる。

Knowledge of the changing traffic is critical in risk management. Customs offices worldwide have traditionally relied on local resources to accumulate knowledge and detect tax fraud. This naturally poses countries with weak infrastructure to become tax havens of potentially illicit trades. The current paper proposes DAS, a memory bank platform to facilitate knowledge sharing across multi-national customs administrations to support each other. We propose a domain adaptation method to share transferable knowledge of frauds as prototypes while safeguarding the local trade information. Data encompassing over 8 million import declarations have been used to test the feasibility of this new system, which shows that participating countries may benefit up to 2-11 times in fraud detection with the help of shared knowledge. We discuss implications for substantial tax revenue potential and strengthened policy against illicit trades.
翻訳日:2022-01-19 14:45:43 公開日:2022-01-18
# クローズドループ制御システムのためのai -モデリング、設計、チューニングのための新しい機会-

AI for Closed-Loop Control Systems --- New Opportunities for Modeling, Designing, and Tuning Control Systems ( http://arxiv.org/abs/2201.06961v1 )

ライセンス: Link先を確認
Julius Sch\"oning, Adrian Riechmann and Hans-J\"urgen Pfisterer(参考訳) 制御システム、特にクローズドループ制御システム(clcs)は、現在生産機械、車両、ロボットで頻繁に使用されている。 CLCSは、プロセスの実際の値を与えられた参照または設定された値に、非常に高い優先度で積極的に調整するために必要である。 しかし、人工知能(AI)はCLCSをモデル化、設計、最適化、チューニングするために使われていない。 本稿では,AIを活用した制御システムの設計と設計の可能性を強調し,制御システム工学の分野における新たな機会と研究の方向性について述べる。 そこで本研究では,CLCSの標準ブロック図内に構築されたブロックを,AI,すなわち人工神経ネットワーク(ANN)に置き換えることができるかを示す。 リアルタイムに含まれるプロセスと機能的安全性を念頭に置いて、aiベースのコントローラブロックがこれらの要求に対応できるかどうかを議論する。 論文を締めくくることで、AIを活用した設計とCLCSの設計の長所と短所が議論され、制御システム工学分野にAIを導入するための研究の方向性が提示される。

Control Systems, particularly closed-loop control systems (CLCS), are frequently used in production machines, vehicles, and robots nowadays. CLCS are needed to actively align actual values of a process to a given reference or set values in real-time with a very high precession. Yet, artificial intelligence (AI) is not used to model, design, optimize, and tune CLCS. This paper will highlight potential AI-empowered and -based control system designs and designing procedures, gathering new opportunities and research direction in the field of control system engineering. Therefore, this paper illustrates which building blocks within the standard block diagram of CLCS can be replaced by AI, i.e., artificial neuronal networks (ANN). Having processes with real-time contains and functional safety in mind, it is discussed if AI-based controller blocks can cope with these demands. By concluding the paper, the pros and cons of AI-empowered as well as -based CLCS designs are discussed, and possible research directions for introducing AI in the domain of control system engineering are given.
翻訳日:2022-01-19 14:45:29 公開日:2022-01-18
# 学習特徴による報酬学習の構造誘導

Inducing Structure in Reward Learning by Learning Features ( http://arxiv.org/abs/2201.07082v1 )

ライセンス: Link先を確認
Andreea Bobu, Marius Wiggert, Claire Tomlin, Anca D. Dragan(参考訳) リワード学習により、ロボットは人間の入力から適応的な行動を学ぶことができる。 従来の手法では、報酬を手作りの機能の線形関数としてモデル化するが、実際のタスクでは不可能である、すべての関連する特徴を事前に指定する必要がある。 この問題を回避するために、最近のDeep Inverse Reinforcement Learning (IRL)メソッドは生の状態から直接報酬を学習するが、ロボットは重要な機能とそれらを同時に組み合わせる方法を暗黙的に学ぶ必要があるため、これは難しい。 その代わり、分割と克服のアプローチを提案します。特徴を個別に学習することに特化した人間のインプットに注目し、それらを報酬に組み合わせる方法のみを学びます。 本稿では,その特徴を学習するための新しいタイプの人間入力と,それを生の状態空間から学習するアルゴリズムを紹介する。 ロボットは、デモや修正、その他の報酬学習フレームワークを使って、報酬と組み合わせる方法を学ぶことができる。 当社の手法は,すべての機能をスクラッチから学ばなければならないような設定や,いくつかの機能が知られている場所で実証しています。 提案手法は,まず特徴に焦点をあてることで,サンプルの複雑さを低減し,深いIRLベースライン上での学習報酬の一般化を向上する。 本研究は,7dofロボットマニピュレータを用いた実験や,シミュレーション環境でのユーザ実験で紹介する。

Reward learning enables robots to learn adaptable behaviors from human input. Traditional methods model the reward as a linear function of hand-crafted features, but that requires specifying all the relevant features a priori, which is impossible for real-world tasks. To get around this issue, recent deep Inverse Reinforcement Learning (IRL) methods learn rewards directly from the raw state but this is challenging because the robot has to implicitly learn the features that are important and how to combine them, simultaneously. Instead, we propose a divide and conquer approach: focus human input specifically on learning the features separately, and only then learn how to combine them into a reward. We introduce a novel type of human input for teaching features and an algorithm that utilizes it to learn complex features from the raw state space. The robot can then learn how to combine them into a reward using demonstrations, corrections, or other reward learning frameworks. We demonstrate our method in settings where all features have to be learned from scratch, as well as where some of the features are known. By first focusing human input specifically on the feature(s), our method decreases sample complexity and improves generalization of the learned reward over a deepIRL baseline. We show this in experiments with a physical 7DOF robot manipulator, as well as in a user study conducted in a simulated environment.
翻訳日:2022-01-19 14:45:11 公開日:2022-01-18
# エージェント数可変協調作業のためのk-nearest多エージェント深層強化学習

K-nearest Multi-agent Deep Reinforcement Learning for Collaborative Tasks with a Variable Number of Agents ( http://arxiv.org/abs/2201.07092v1 )

ライセンス: Link先を確認
Hamed Khorasgani, Haiyan Wang, Hsiu-Khuern Tang, Chetan Gupta(参考訳) 従来,多エージェント深部強化学習アルゴリズムの性能は,一定数のエージェントを持つゲーム環境で実証され,検証されてきた。 多くの産業アプリケーションでは、利用可能なエージェントの数はいつでも変化し、エージェントの数が事前に分かっている場合でも、操作中にエージェントが故障し、一定期間利用できなくなることが一般的である。 本稿では,多エージェント協調作業におけるエージェント数の変化を考慮した深層強化学習アルゴリズムを提案する。 本手法は,日立が開発したフリート管理シミュレータを用いて実運用環境での現実的なシナリオ生成を行う。

Traditionally, the performance of multi-agent deep reinforcement learning algorithms are demonstrated and validated in gaming environments where we often have a fixed number of agents. In many industrial applications, the number of available agents can change at any given day and even when the number of agents is known ahead of time, it is common for an agent to break during the operation and become unavailable for a period of time. In this paper, we propose a new deep reinforcement learning algorithm for multi-agent collaborative tasks with a variable number of agents. We demonstrate the application of our algorithm using a fleet management simulator developed by Hitachi to generate realistic scenarios in a production site.
翻訳日:2022-01-19 14:44:48 公開日:2022-01-18
# 社会経済格差とCOVID-19 : 因果関係

Socioeconomic disparities and COVID-19: the causal connections ( http://arxiv.org/abs/2201.07026v1 )

ライセンス: Link先を確認
Tannista Banerjee and Ayan Paul and Vishak Srikanth and Inga Str\"umke(参考訳) 因果関係の分析は様々な方法でアプローチ可能な課題である。 計算社会経済学における機械学習モデルの利用の増加に伴い、因果関係を考慮したモデルの説明が不可欠である。 本研究では,$do$ calculusを付加した協調ゲーム理論,すなわち因果シャプリー値からの説明的フレームワークの利用を提唱する。 本研究では,アメリカにおける新型コロナウイルスの感染拡大に因果関係を持つ社会経済的格差を分析した。 病期が拡大し,因果関係が経時的にどのように変化するかを明らかにする。 ランダム効果モデルを用いた因果分析を行い,この2つの手法の対応について検討した。 多変量解析を行う場合、非線形機械学習モデルでは、特に機械学習モデルでは、データ内の非線形相関をマップアウトできるため、線形モデルよりも明確な利点が示される。 さらに、因果Shapley値は、機械学習モデルのために計算された変数重要度に因果構造を含めることができる。

The analysis of causation is a challenging task that can be approached in various ways. With the increasing use of machine learning based models in computational socioeconomics, explaining these models while taking causal connections into account is a necessity. In this work, we advocate the use of an explanatory framework from cooperative game theory augmented with $do$ calculus, namely causal Shapley values. Using causal Shapley values, we analyze socioeconomic disparities that have a causal link to the spread of COVID-19 in the USA. We study several phases of the disease spread to show how the causal connections change over time. We perform a causal analysis using random effects models and discuss the correspondence between the two methods to verify our results. We show the distinct advantages a non-linear machine learning models have over linear models when performing a multivariate analysis, especially since the machine learning models can map out non-linear correlations in the data. In addition, the causal Shapley values allow for including the causal structure in the variable importance computed for the machine learning model.
翻訳日:2022-01-19 14:42:33 公開日:2022-01-18
# 記述ポリシーを用いたmdpに基づく動的スケジューリングのためのシステム非依存メタラーニング

System-Agnostic Meta-Learning for MDP-based Dynamic Scheduling via Descriptive Policy ( http://arxiv.org/abs/2201.07051v1 )

ライセンス: Link先を確認
Hyun-Suk Lee(参考訳) 動的スケジューリングは、キューから無線ネットワークへのアプリケーションにおいて重要な問題である。 長期的目標を達成するために、各タイムステップで複数のスケジューリング項目の中からアイテムを選択する方法に対処する。 動的スケジューリングの従来のアプローチは、与えられた特定のシステムに対して最適なポリシーを見つけるので、これらのアプローチからのポリシーは対応するシステム特性に対してのみ使用可能である。 したがって、システム特性が動的に変化する実用的なシステムには、そのようなアプローチを使うのは難しい。 本稿では,同一タスク(動的スケジューリング)のシステム特性に適応するシステム非依存な機能を有する,mdpベースの動的スケジューリングのための新しいポリシー構造を提案する。 この目的のために、記述ポリシーは「どの項目の条件がスケジューリングの優先度が高いか」という、システムに依存しないスケジューリング原則を学ぶ。 スケジューリング原則は任意のシステムに適用でき、あるシステムで学んだ記述ポリシーを他のシステムに使用することができる。 単純な説明と現実的なアプリケーションシナリオによる実験により、システム固有の従来のポリシーと比較して、パフォーマンスの低下が極めて少ない、システム非依存なメタラーニングが可能になる。

Dynamic scheduling is an important problem in applications from queuing to wireless networks. It addresses how to choose an item among multiple scheduling items in each timestep to achieve a long-term goal. Conventional approaches for dynamic scheduling find the optimal policy for a given specific system so that the policy from these approaches is usable only for the corresponding system characteristics. Hence, it is hard to use such approaches for a practical system in which system characteristics dynamically change. This paper proposes a novel policy structure for MDP-based dynamic scheduling, a descriptive policy, which has a system-agnostic capability to adapt to unseen system characteristics for an identical task (dynamic scheduling). To this end, the descriptive policy learns a system-agnostic scheduling principle--in a nutshell, "which condition of items should have a higher priority in scheduling". The scheduling principle can be applied to any system so that the descriptive policy learned in one system can be used for another system. Experiments with simple explanatory and realistic application scenarios demonstrate that it enables system-agnostic meta-learning with very little performance degradation compared with the system-specific conventional policies.
翻訳日:2022-01-19 14:42:17 公開日:2022-01-18
# 3次元点雲に対するグラフ畳み込みニューラルネットワークの不完全性

Incompleteness of graph convolutional neural networks for points clouds in three dimensions ( http://arxiv.org/abs/2201.07136v1 )

ライセンス: Link先を確認
Sergey N. Pozdnyakov and Michele Ceriotti(参考訳) グラフ畳み込みニューラルネットワーク(GCNN)は機械学習において非常に一般的な手法であり、分子や物質の特性の予測に非常にうまく応用されている。 第一次GCNNは不完全であることがよく知られており、GCNNのレンズを通して見ると、異なるが同一に見えるグラフが存在する。 したがって、より複雑なスキームは解決力を高めるために設計されている。 しかし、分子(およびより一般的には点雲)への応用は、問題に幾何学的次元を加える。 分子のグラフ表現を構築するための最も単純で一般的なアプローチは、原子をグラフの頂点とみなし、あらかじめ選択されたカットオフ内の各原子対間の結合を描くことである。 結合は原子間距離で装飾され、結果として生じる「距離グラフ畳み込みNN」(dGCNN)は、優れた分解力を示し、化学MLで広く用いられている。 ここでは、3次元原子雲によって誘導されるグラフの制限された場合においても、dGCNNは完全ではないことを示す。 我々は、任意のカットオフ半径に対して、一階ワイスフェイラー・リーマン検定に基づいて等価であるグラフを生成する異なる点雲のペアを構築する。 このタイプの縮退構造は化学的に証明可能な構成を含み、原子論的機械学習のための確立されたGCNNアーキテクチャの表現力に究極の限界を設定する。 原子環境の説明で明示的に角情報を使用するモデルは、これらの縮退を解決できる。

Graph convolutional neural networks (GCNN) are very popular methods in machine learning and have been applied very successfully to the prediction of the properties of molecules and materials. First-order GCNNs are well known to be incomplete, i.e., there exist graphs that are distinct but appear identical when seen through the lens of the GCNN. More complicated schemes have thus been designed to increase their resolving power. Applications to molecules (and more generally, point clouds), however, add a geometric dimension to the problem. The most straightforward and prevalent approach to construct graph representation for the molecules regards atoms as vertices in a graph and draws a bond between each pair of atoms within a certain preselected cutoff. Bonds can be decorated with the distance between atoms, and the resulting "distance graph convolution NNs" (dGCNN) have empirically demonstrated excellent resolving power and are widely used in chemical ML. Here we show that even for the restricted case of graphs induced by 3D atom clouds dGCNNs are not complete. We construct pairs of distinct point clouds that generate graphs that, for any cutoff radius, are equivalent based on a first-order Weisfeiler-Lehman test. This class of degenerate structures includes chemically-plausible configurations, setting an ultimate limit to the expressive power of some of the well-established GCNN architectures for atomistic machine learning. Models that explicitly use angular information in the description of atomic environments can resolve these degeneracies.
翻訳日:2022-01-19 14:42:01 公開日:2022-01-18
# 単変数関数の効率的な大域最適化のための低回帰二分サンプリング法

Low Regret Binary Sampling Method for Efficient Global Optimization of Univariate Functions ( http://arxiv.org/abs/2201.07164v1 )

ライセンス: Link先を確認
Kaan Gokcesu, Hakan Gokcesu(参考訳) 本研究では,一変量損失関数における大域最適化問題に対する計算効率のよいアルゴリズムを提案する。 性能評価のために, 最良問合せと目的関数の最適値との単純な後悔ではなく, アルゴリズムの累積後悔について検討した。 この手法は,リプシッツ連続関数やリプシッツ滑らか関数に対するpiyavskii-shubert法のような従来の低バウンドアルゴリズムでも同様に後悔する結果をもたらすが,計算コストの利点は大きい。 Piyavskii-Shubert 法では、ある種の関数に対して、クエリポイントは決定が難しい(それらがさらなる最適化問題の解であるから)。 しかし, この問題は, 関数特性に関わらずサンプリングセットが予め決められた二分サンプリング手法で回避される。 検索空間が$[0,1]$の場合、我々のアプローチは最大$L\log (3T)$と$2.25H$でそれぞれ$L$-Lipschitz連続と$H$-Lipschitz滑らかな関数を後悔する。 また、より複雑な正則性条件をカバーするより広範な関数のクラスに対して解析的に結果を拡張する。

In this work, we propose a computationally efficient algorithm for the problem of global optimization in univariate loss functions. For the performance evaluation, we study the cumulative regret of the algorithm instead of the simple regret between our best query and the optimal value of the objective function. Although our approach has similar regret results with the traditional lower-bounding algorithms such as the Piyavskii-Shubert method for the Lipschitz continuous or Lipschitz smooth functions, it has a major computational cost advantage. In Piyavskii-Shubert method, for certain types of functions, the query points may be hard to determine (as they are solutions to additional optimization problems). However, this issue is circumvented in our binary sampling approach, where the sampling set is predetermined irrespective of the function characteristics. For a search space of $[0,1]$, our approach has at most $L\log (3T)$ and $2.25H$ regret for $L$-Lipschitz continuous and $H$-Lipschitz smooth functions respectively. We also analytically extend our results for a broader class of functions that covers more complex regularity conditions.
翻訳日:2022-01-19 14:41:37 公開日:2022-01-18
# (参考訳) データ効率強化学習におけるビュー一貫性のあるダイナミクスによる表現学習の促進

Accelerating Representation Learning with View-Consistent Dynamics in Data-Efficient Reinforcement Learning ( http://arxiv.org/abs/2201.07016v1 )

ライセンス: CC BY 4.0
Tao Huang, Jiachen Wang, Xiao Chen(参考訳) 画像に基づく観察から情報表現を学ぶことは、深層強化学習(RL)の基本的関心事である。 しかし、データ非効率はこの目的にとって重要な障壁である。 この障害を克服するため,我々は,ダイナミクスのビュー一貫性を強制することにより,状態表現学習を高速化する。 まず,多視点マルコフ決定過程(MMDP)の定式化について述べる。 本手法はmmdpの構造に従い,潜在空間におけるビュー一貫性ダイナミクスモデルをトレーニングすることで状態表現を学習し,状態へのデータ拡張を適用してビューを生成する。 DeepMind Control SuiteとAtari-100kの実証的な評価により、VCDは視覚制御タスクにおけるSoTAデータ効率アルゴリズムであることが示された。

Learning informative representations from image-based observations is of fundamental concern in deep Reinforcement Learning (RL). However, data-inefficiency remains a significant barrier to this objective. To overcome this obstacle, we propose to accelerate state representation learning by enforcing view-consistency on the dynamics. Firstly, we introduce a formalism of Multi-view Markov Decision Process (MMDP) that incorporates multiple views of the state. Following the structure of MMDP, our method, View-Consistent Dynamics (VCD), learns state representations by training a view-consistent dynamics model in the latent space, where views are generated by applying data augmentation to states. Empirical evaluation on DeepMind Control Suite and Atari-100k demonstrates VCD to be the SoTA data-efficient algorithm on visual control tasks.
翻訳日:2022-01-19 14:39:58 公開日:2022-01-18
# ピストル:瞳孔、虹彩、目開き、眼球運動、瞳孔、虹彩視線ベクトル、および2d及び3d視線を抽出する瞳孔不可視支持具

Pistol: Pupil Invisible Supportive Tool to extract Pupil, Iris, Eye Opening, Eye Movements, Pupil and Iris Gaze Vector, and 2D as well as 3D Gaze ( http://arxiv.org/abs/2201.06799v1 )

ライセンス: Link先を確認
Wolfgang Fuhl, Daniel Weber, Enkelejda Kasneci(参考訳) 本稿では,将来,瞳孔が見えないプロジェクトや眼球追跡装置で使用できるピストルと呼ばれる特徴抽出・視線推定ソフトウェアについて述べる。 オフラインモードでは,瞳孔と虹彩楕円,瞳孔,瞳孔ベクトル,虹彩ベクトル,瞳孔と虹彩速度からの眼球運動タイプ,マーカー検出,マーカー距離,瞳孔中心の2次元視線推定,虹彩中心,瞳孔ベクトル,虹彩ベクトルなど,眼球から複数の特徴を抽出する。 視線信号は、各眼で2dで計算され、各眼でそれぞれ別々に、両眼でそれぞれ別々に3dで計算される。 このソフトウェアは、他の研究者が彼らの研究成果から最先端の機能を抽出するのに役立つことを願っている。

This paper describes a feature extraction and gaze estimation software, named Pistol that can be used with Pupil Invisible projects and other eye trackers in the future. In offline mode, our software extracts multiple features from the eye including, the pupil and iris ellipse, eye aperture, pupil vector, iris vector, eye movement types from pupil and iris velocities, marker detection, marker distance, 2D gaze estimation for the pupil center, iris center, pupil vector, and iris vector using Levenberg Marquart fitting and neural networks. The gaze signal is computed in 2D for each eye and each feature separately and for both eyes in 3D also for each feature separately. We hope this software helps other researchers to extract state-of-the-art features for their research out of their recordings.
翻訳日:2022-01-19 14:21:40 公開日:2022-01-18
# セマンティックセグメンテーションにおける連続的粗結合ドメイン適応

Continual Coarse-to-Fine Domain Adaptation in Semantic Segmentation ( http://arxiv.org/abs/2201.06974v1 )

ライセンス: Link先を確認
Donald Shenaj, Francesco Barbato, Umberto Michieli, Pietro Zanuttigh(参考訳) ディープニューラルネットワークは通常、特定のタスクとデータ分散のために単一のショットでトレーニングされるが、現実の設定では、タスクとアプリケーションのドメインの両方が変更される。 この問題は、セマンティックセグメンテーションのような密集した予測タスクにおいてさらに困難になり、さらに多くのアプローチが2つの問題に別々に取り組む。 本稿では,ドメインシフトの存在下で意味セグメンテーションアーキテクチャを粗雑に学習する新しいタスクを提案する。 各学習段階における意味ラベルの細かい集合は,前段階の粗い集合から階層的に導出される。 このシナリオに対処するための新しいアプローチ(CCDA)を提案する。 まず、ソースとターゲットドメインを整列させるために最大二乗損失を採用し、同時に、よく分類されたサンプルと難しいサンプルの勾配のバランスをとる。 第2に,ラベルの粗い集合から得られたネットワーク機能を,より微細なラベルの集合に転送するための,新しい粗大な知識蒸留制約を導入する。 最後に,各粗いクラスから細かなクラスへ重要度を分散させるために,粗いウェイト初期化ルールを設計する。 提案手法を評価するために,gta5データセットからソース知識を抽出し,cityscapes または idd データセットに転送するベンチマークを2つ設計した。

Deep neural networks are typically trained in a single shot for a specific task and data distribution, but in real world settings both the task and the domain of application can change. The problem becomes even more challenging in dense predictive tasks, such as semantic segmentation, and furthermore most approaches tackle the two problems separately. In this paper we introduce the novel task of coarse-to-fine learning of semantic segmentation architectures in presence of domain shift. We consider subsequent learning stages progressively refining the task at the semantic level; i.e., the finer set of semantic labels at each learning step is hierarchically derived from the coarser set of the previous step. We propose a new approach (CCDA) to tackle this scenario. First, we employ the maximum squares loss to align source and target domains and, at the same time, to balance the gradients between well-classified and harder samples. Second, we introduce a novel coarse-to-fine knowledge distillation constraint to transfer network capabilities acquired on a coarser set of labels to a set of finer labels. Finally, we design a coarse-to-fine weight initialization rule to spread the importance from each coarse class to the respective finer classes. To evaluate our approach, we design two benchmarks where source knowledge is extracted from the GTA5 dataset and it is transferred to either the Cityscapes or the IDD datasets, and we show how it outperforms the main competitors.
翻訳日:2022-01-19 14:19:35 公開日:2022-01-18
# (参考訳) 制約環境における人的・効率的なナビゲーションのための高速・スロー思考の組み合わせ

Combining Fast and Slow Thinking for Human-like and Efficient Navigation in Constrained Environments ( http://arxiv.org/abs/2201.07050v1 )

ライセンス: CC BY 4.0
Marianna B. Ganapini, Murray Campbell, Francesco Fabiano, Lior Horesh, Jon Lenchner, Andrea Loreggia, Nicholas Mattei, Taher Rahgooy, Francesca Rossi, Biplav Srivastava, Brent Venable(参考訳) 現在のAIシステムには、適応性、一般化可能性、自己制御、一貫性、常識、因果推論など、いくつかの重要な人間の能力がない。 我々は、人間の意思決定に関する既存の認知理論、例えば思考の速さと遅い理論は、これらの能力のいくつかに向けてAIシステムを前進させる方法について洞察を与えることができると考えている。 本稿では,高速かつスローな解法とメタ認知的成分に基づく汎用アーキテクチャを提案する。 次に、制約された環境でのナビゲーションに関する決定を行うAIシステムに対して、このアーキテクチャのインスタンスの動作に関する実験結果を示す。 高速で遅い意思決定のモダリティを組み合わせることで、システムが時間とともに進化し、十分な経験を積んだゆっくりとした思考から速い思考へと徐々に移行し、意思決定の品質、リソース消費、効率に大きく寄与することを示す。

Current AI systems lack several important human capabilities, such as adaptability, generalizability, self-control, consistency, common sense, and causal reasoning. We believe that existing cognitive theories of human decision making, such as the thinking fast and slow theory, can provide insights on how to advance AI systems towards some of these capabilities. In this paper, we propose a general architecture that is based on fast/slow solvers and a metacognitive component. We then present experimental results on the behavior of an instance of this architecture, for AI systems that make decisions about navigating in a constrained environment. We show how combining the fast and slow decision modalities allows the system to evolve over time and gradually pass from slow to fast thinking with enough experience, and that this greatly helps in decision quality, resource consumption, and efficiency.
翻訳日:2022-01-19 14:17:16 公開日:2022-01-18
# GTrans: グラフ埋め込みを用いた時空間自己回帰変換器

GTrans: Spatiotemporal Autoregressive Transformer with Graph Embeddings for Nowcasting Extreme Events ( http://arxiv.org/abs/2201.06717v1 )

ライセンス: Link先を確認
Bo Feng and Geoffrey Fox(参考訳) 時空間時系列放送は、モデルから新しいシーケンスを生成するという意味で、時間的および空間的ダイナミクスを保存すべきである。 従来の特徴抽出器はディープ畳み込みニューラルネットワーク(CNN)で構築されている。 しかし、CNNモデルは高次元配列でデータを生成できるイメージライクなアプリケーションに限りがある。 対照的に、ソーシャルネットワーク、道路交通、物理、化学特性予測における応用は、グラフのノードとエッジでデータ特徴を整理できる。 トランスフォーマーアーキテクチャは予測モデルのための新しい手法であり、注意機構の設計による高い精度と効率をもたらす。 本稿では,データ特徴をグラフ埋め込みに変換し,トランスフォーマモデルを用いて時空間ダイナミクスを予測する時空間モデルgtransを提案する。 我々の実験によると、GTransは空間的および時間的ダイナミクスをモデル化し、データセットの極端なイベントを放送することができる。 さらに、すべての実験において、GTransはベースラインモデルよりもバイナリクラスの予測テストでF1とF2のスコアが最も高い。

Spatiotemporal time series nowcasting should preserve temporal and spatial dynamics in the sense that generated new sequences from models respect the covariance relationship from history. Conventional feature extractors are built with deep convolutional neural networks (CNN). However, CNN models have limits to image-like applications where data can be formed with high-dimensional arrays. In contrast, applications in social networks, road traffic, physics, and chemical property prediction where data features can be organized with nodes and edges of graphs. Transformer architecture is an emerging method for predictive models, bringing high accuracy and efficiency due to attention mechanism design. This paper proposes a spatiotemporal model, namely GTrans, that transforms data features into graph embeddings and predicts temporal dynamics with a transformer model. According to our experiments, we demonstrate that GTrans can model spatial and temporal dynamics and nowcasts extreme events for datasets. Furthermore, in all the experiments, GTrans can achieve the highest F1 and F2 scores in binary-class prediction tests than the baseline models.
翻訳日:2022-01-19 14:03:49 公開日:2022-01-18
# 不確実性を考慮したリターンオン投資と予算制約による安全なオンライン入札最適化

Safe Online Bid Optimization with Return-On-Investment and Budget Constraints subject to Uncertainty ( http://arxiv.org/abs/2201.07139v1 )

ライセンス: Link先を確認
Matteo Castiglioni, Alessandro Nuara, Giulia Romano, Giorgio Spadaro, Francesco Trov\`o, Nicola Gatti(参考訳) オンラインマーケティングでは、広告主のゴールは通常、高いボリュームと高い利益率のトレードオフである。 両社のビジネスユニットはこのトレードオフに対して、投資収益率(ROI)の低下を保証しつつ、ボリュームを最大化することで、慣習的に対処する。 本稿では,不確定な予算とroi制約を受ける広告キャンペーンの入札最適化のための組合せバンディットアルゴリズムについて検討する。 我々は最適化問題と学習問題の両方の性質について研究する。 特に、不確実性のない最適化問題に注目する場合、P=NPを除いた任意の係数で近似できないことを示し、最適解を得る擬似多項式時間アルゴリズムを提供する。 不確実性を考慮すると、オンライン学習アルゴリズムが学習過程の制約(ROIまたは予算)に何回も違反することはなく、サブ線形擬似回帰を保証する。 そこで本研究では, 線形な制約違反のコストを犠牲にして, サブリニアな後悔を保証できるアルゴリズム, gcbを提案する。 我々はまた、その安全なバージョン、すなわちGCB_{safe}を設計し、線形擬似回帰のコストで制約違反の数に一定の上限を保証します。 より興味深いことに、我々は、それぞれROIと予算制約の満足度において許容度 \psi と \phi を受け入れるコストで、サブ線形擬似回帰と安全性 w.h.p. の両方を保証するアルゴリズム、GCB_{safe}(\psi,\phi) を提供する。 このアルゴリズムは、最適解への収束を排除せずに、制約違反によるリスクを軽減する。 最後に,実世界データから生成された設定における疑似レグレット/コンストラクション違反トレードオフの観点から,本アルゴリズムを実験的に比較し,安全性制約を実際に採用することの重要性とアルゴリズムの有効性を示した。

In online marketing, the advertisers' goal is usually a tradeoff between achieving high volumes and high profitability. The companies' business units customarily address this tradeoff by maximizing the volumes while guaranteeing a lower bound to the Return On Investment (ROI). This paper investigates combinatorial bandit algorithms for the bid optimization of advertising campaigns subject to uncertain budget and ROI constraints. We study the nature of both the optimization and learning problems. In particular, when focusing on the optimization problem without uncertainty, we show that it is inapproximable within any factor unless P=NP, and we provide a pseudo-polynomial-time algorithm that achieves an optimal solution. When considering uncertainty, we prove that no online learning algorithm can violate the (ROI or budget) constraints during the learning process a sublinear number of times while guaranteeing a sublinear pseudo-regret. Thus, we provide an algorithm, namely GCB, guaranteeing sublinear regret at the cost of a potentially linear number of constraints violations. We also design its safe version, namely GCB_{safe}, guaranteeing w.h.p. a constant upper bound on the number of constraints violations at the cost of a linear pseudo-regret. More interestingly, we provide an algorithm, namely GCB_{safe}(\psi,\phi), guaranteeing both sublinear pseudo-regret and safety w.h.p. at the cost of accepting tolerances \psi and \phi in the satisfaction of the ROI and budget constraints, respectively. This algorithm actually mitigates the risks due to the constraints violations without precluding the convergence to the optimal solution. Finally, we experimentally compare our algorithms in terms of pseudo-regret/constraint-violation tradeoff in settings generated from real-world data, showing the importance of adopting safety constraints in practice and the effectiveness of our algorithms.
翻訳日:2022-01-19 14:03:30 公開日:2022-01-18
# Weisfeiler-Lehmanテストとその変数に関する短いチュートリアル

A Short Tutorial on The Weisfeiler-Lehman Test And Its Variants ( http://arxiv.org/abs/2201.07083v1 )

ライセンス: Link先を確認
Ningyuan Huang, Soledad Villar(参考訳) グラフニューラルネットワークは、グラフ上の関数を学習するために設計されている。 通常、関連する対象関数は置換による作用に関して不変である。 したがって、いくつかのグラフニューラルネットワークアーキテクチャの設計はグラフ同型アルゴリズムにインスパイアされている。 古典的なweisfeiler-lehmanアルゴリズム(wl)は、色調整に基づくグラフ同型テストであり、グラフニューラルネットワークの研究に関係した。 WLテストは、$k$-WLとして知られる高階テストの階層に一般化することができる。 この階層は、グラフニューラルネットワークの表現力を特徴づけ、グラフニューラルネットワークアーキテクチャの設計を刺激するために使われてきた。 WL階層のいくつかの変種が文献に現れる。 この短い注記の目標は教育的かつ実践的であり、wlとフォークロア・wlの定式化の違いを説明し、文献における既存の議論の要点を指摘する。 例を可視化することで, 定式化の違いを照らし出す。

Graph neural networks are designed to learn functions on graphs. Typically, the relevant target functions are invariant with respect to actions by permutations. Therefore the design of some graph neural network architectures has been inspired by graph-isomorphism algorithms. The classical Weisfeiler-Lehman algorithm (WL) -- a graph-isomorphism test based on color refinement -- became relevant to the study of graph neural networks. The WL test can be generalized to a hierarchy of higher-order tests, known as $k$-WL. This hierarchy has been used to characterize the expressive power of graph neural networks, and to inspire the design of graph neural network architectures. A few variants of the WL hierarchy appear in the literature. The goal of this short note is pedagogical and practical: We explain the differences between the WL and folklore-WL formulations, with pointers to existing discussions in the literature. We illuminate the differences between the formulations by visualizing an example.
翻訳日:2022-01-19 13:59:35 公開日:2022-01-18
# オンライン, 情報型mcmc薄型化とsteinの不一致

Online, Informative MCMC Thinning with Kernelized Stein Discrepancy ( http://arxiv.org/abs/2201.07130v1 )

ライセンス: Link先を確認
Cole Hawkins, Alec Koppel, Zheng Zhang(参考訳) ベイズ推論における基本的な課題は、ターゲット分布の効率的な表現である。 多くの非パラメトリックなアプローチは、マルコフ・チェイン・モンテカルロ (MCMC) の変種を用いて多数の点をサンプリングする。 我々は、ksd閾値を超える後方サンプルのみを保持するmcmc変異体を提案し、これをksd薄型化と呼ぶ。 ksdしきい値パラメータ、サンプルサイズ、その他の問題パラメータの関数として、複数のksd薄型化の設定の収束と複雑性のトレードオフを確立する。 最後に, オンライン非パラメトリックベイズ法との比較を行い, 低複雑度後部表現を生成し, 優れた一貫性/複雑度トレードオフを観測する。 コードはgithub.com/colehawkins/KSD-Thinningで入手できる。

A fundamental challenge in Bayesian inference is efficient representation of a target distribution. Many non-parametric approaches do so by sampling a large number of points using variants of Markov Chain Monte Carlo (MCMC). We propose an MCMC variant that retains only those posterior samples which exceed a KSD threshold, which we call KSD Thinning. We establish the convergence and complexity tradeoffs for several settings of KSD Thinning as a function of the KSD threshold parameter, sample size, and other problem parameters. Finally, we provide experimental comparisons against other online nonparametric Bayesian methods that generate low-complexity posterior representations, and observe superior consistency/complexity tradeoffs. Code is available at github.com/colehawkins/KSD-Thinning.
翻訳日:2022-01-19 13:59:21 公開日:2022-01-18
# (参考訳) ハンガリー英語機械翻訳のための構文に基づくデータ拡張

Syntax-based data augmentation for Hungarian-English machine translation ( http://arxiv.org/abs/2201.06876v1 )

ライセンス: CC BY 4.0
Attila Nagy, Patrick Nanys, Bal\'azs Frey Konr\'ad, Bence Bial, Judit \'Acs(参考訳) 我々は、Hunglish2コーパスを用いて、ハンガリー語と英語とハンガリー語のトランスフォーマーベースのニューラルマシン翻訳モデルを訓練する。 我々の最良のモデルはハンガリー語で40.0点、英語とハンガリー語で33.4点である。 さらに、ニューラルマシン翻訳のための構文ベースの拡張に関する継続的な研究結果を示す。 コードとモデルの両方が公開されています。

We train Transformer-based neural machine translation models for Hungarian-English and English-Hungarian using the Hunglish2 corpus. Our best models achieve a BLEU score of 40.0 on HungarianEnglish and 33.4 on English-Hungarian. Furthermore, we present results on an ongoing work about syntax-based augmentation for neural machine translation. Both our code and models are publicly available.
翻訳日:2022-01-19 13:58:23 公開日:2022-01-18
# 階層型ニューラルネットワークによる長期文書分類

Hierarchical Neural Network Approaches for Long Document Classification ( http://arxiv.org/abs/2201.06774v1 )

ライセンス: Link先を確認
Snehal Khandve, Vedangi Wagh, Apurva Wani, Isha Joshi, Raviraj Joshi(参考訳) テキスト分類アルゴリズムは、単語や句間の複雑な関係を調査し、文書の解釈を推論しようとする。 ここ数年、これらのアルゴリズムは著しく進歩した。 トランスフォーマーアーキテクチャと文エンコーダは、自然言語処理タスクにおいて優れた結果をもたらすことが証明されている。 しかし、これらのアーキテクチャの大きな制限は、数百語以上のテキストの適用性である。 本稿では,長い文書分類のための階層的転送学習手法について検討する。 提案手法では,トランスフォーマー(BERT)から事前学習したユニバーサル文エンコーダ(USE)と双方向エンコーダ(BERT)を階層的に使い,より効率的な表現を実現する。 提案するモデルは概念的に単純であり,入力データをチャンクに分割し,BERTとUSEのベースモデルに渡す。 そして、各チャンクの出力表現をLSTMまたはCNNからなる浅いニューラルネットワークを介して伝播してテキストデータを分類する。 これらの拡張は6つのベンチマークデータセットで評価される。 USE + CNN/LSTM はスタンドアローンのベースラインよりも優れていることを示す。 一方、BERT + CNN/LSTMはスタンドアローンのものと同等に動作する。 しかし、BERTの注意機構の二次的複雑さを避けるため、階層的なBERTモデルは依然として望ましい。 階層的なアプローチに加えて、この研究は、長い文書分類のためのUSE、BERT、HAN、Longformer、BigBirdといった異なるディープラーニングアルゴリズムの比較も提供する。 Longformerのアプローチは、ほとんどのデータセットで一貫してうまく機能する。

Text classification algorithms investigate the intricate relationships between words or phrases and attempt to deduce the document's interpretation. In the last few years, these algorithms have progressed tremendously. Transformer architecture and sentence encoders have proven to give superior results on natural language processing tasks. But a major limitation of these architectures is their applicability for text no longer than a few hundred words. In this paper, we explore hierarchical transfer learning approaches for long document classification. We employ pre-trained Universal Sentence Encoder (USE) and Bidirectional Encoder Representations from Transformers (BERT) in a hierarchical setup to capture better representations efficiently. Our proposed models are conceptually simple where we divide the input data into chunks and then pass this through base models of BERT and USE. Then output representation for each chunk is then propagated through a shallow neural network comprising of LSTMs or CNNs for classifying the text data. These extensions are evaluated on 6 benchmark datasets. We show that USE + CNN/LSTM performs better than its stand-alone baseline. Whereas the BERT + CNN/LSTM performs on par with its stand-alone counterpart. However, the hierarchical BERT models are still desirable as it avoids the quadratic complexity of the attention mechanism in BERT. Along with the hierarchical approaches, this work also provides a comparison of different deep learning algorithms like USE, BERT, HAN, Longformer, and BigBird for long document classification. The Longformer approach consistently performs well on most of the datasets.
翻訳日:2022-01-19 13:45:25 公開日:2022-01-18
# ZeroPrompt: ゼロショットの一般化を改善する1000タスクへのプロンプトベースの事前トレーニング

ZeroPrompt: Scaling Prompt-Based Pretraining to 1,000 Tasks Improves Zero-Shot Generalization ( http://arxiv.org/abs/2201.06910v1 )

ライセンス: Link先を確認
Hanwei Xu, Yujun Chen, Yulun Du, Nan Shao, Yanggang Wang, Haiyu Li, Zhilin Yang(参考訳) タスクスケーリングとゼロショットプロンプトに着目し,ゼロショット一般化のためのマルチタスク事前学習手法ZeroPromptを提案する。 以前のモデルはわずか数十タスクでトレーニングされていますが、実際のデータを使って初めて1000タスクにスケールします。 これは、タスクのスケーリングがモデルスケーリングの効率的な代替になり得るという重要な発見に繋がる。 その結果,タスクスケーリングはFLOPの30倍のトレーニング効率を向上できることがわかった。 さらに,遺伝的アルゴリズムを組み込んだプロンプト手法を提案し,未発見のタスクに対して最適なプロンプトを自動的に検索する。 実証的には、ZeroPromptは、さまざまな学術的および生産的データセットにわたるゼロショット学習の効率性とパフォーマンスを大幅に改善する。

We propose a multitask pretraining approach ZeroPrompt for zero-shot generalization, focusing on task scaling and zero-shot prompting. While previous models are trained on only a few dozen tasks, we scale to 1,000 tasks for the first time using real-world data. This leads to a crucial discovery that task scaling can be an efficient alternative to model scaling; i.e., the model size has little impact on performance with an extremely large number of tasks. Our results show that task scaling can substantially improve training efficiency by 30 times in FLOPs. Moreover, we present a prompting method that incorporates a genetic algorithm to automatically search for the best prompt for unseen tasks, along with a few other improvements. Empirically, ZeroPrompt substantially improves both the efficiency and the performance of zero-shot learning across a variety of academic and production datasets.
翻訳日:2022-01-19 13:45:03 公開日:2022-01-18
# イベント生成のプロンプトとしてのコモンセンスの説明

Inferring Commonsense Explanations as Prompts for Future Event Generation ( http://arxiv.org/abs/2201.07099v1 )

ライセンス: Link先を確認
Li Lin, Yixin Cao, Lifu Huang, Shuang Li, Xuming Hu, Lijie Wen and Jianmin Wang(参考訳) Future Event Generationは、前回のイベントが持つ流動的で合理的な未来のイベント記述を生成することを目的としている。 イベントストーリー全体の一貫性を維持するには、流麗なテキスト生成だけでなく、常識的な推論も必要です。 しかし、既存のFEGメソッドは、生成プロセスに論理的制約を加えることなく、繰り返しまたは一般的なイベントに簡単に閉じ込められる。 本稿では,コモンセンス推論モデル (IM) とイベント生成モデル (GM) を組み合わせた,説明可能な新しいFEGフレームワークを提案する。 IMは、コモンセンス知識グラフATOMICで事前訓練され、前回の出来事を解釈し、コモンセンス推論を行い、意図、反応、ニーズといったキャラクター心理学を潜伏変数として明らかにする。 さらにgmは、コモンセンスの知識を、ロジスティックに一貫性のある将来のイベントの発生を導くための手段として捉えている。 ユニークなメリットとして、commonsenseプロンプトはさらにテキスト記述にデコードされ、将来のイベントの説明が得られる。 自動的および人的評価は,我々のアプローチが強いベースラインよりも一貫性,特異性,論理的将来事象を発生させることができることを示す。

Future Event Generation aims to generate fluent and reasonable future event descriptions given preceding events. It requires not only fluent text generation but also commonsense reasoning to maintain the coherence of the entire event story. However, existing FEG methods are easily trapped into repeated or general events without imposing any logical constraint to the generation process. In this paper, we propose a novel explainable FEG framework that consists of a commonsense inference model (IM) and an event generation model (GM). The IM, which is pre-trained on a commonsense knowledge graph ATOMIC, learns to interpret the preceding events and conducts commonsense reasoning to reveal the characters psychology such as intent, reaction, and needs as latent variables. GM further takes the commonsense knowledge as prompts to guide and enforce the generation of logistically coherent future events. As unique merit, the commonsense prompts can be further decoded into textual descriptions, yielding explanations for the future event. Automatic and human evaluation demonstrate that our approach can generate more coherent, specific, and logical future events than the strong baselines.
翻訳日:2022-01-19 13:44:50 公開日:2022-01-18
# バイオメディカル抽象化のセクション化:シーケンス分類タスクのシーケンス

Sectioning of Biomedical Abstracts: A Sequence of Sequence Classification Task ( http://arxiv.org/abs/2201.07112v1 )

ライセンス: Link先を確認
Mehmet Efruz Karabulut, K. Vijay-Shanker(参考訳) 生物医学文献の急速な成長は、生物医学のテキスト採掘分野において多くの進歩をもたらした。 膨大な情報のうち、生体医学的な記事の要約は簡単にアクセスできる情報源である。 しかし, 背景, 対象, 方法, 結果, 結論のカテゴリの1つを含む修辞的部分を記述する構造化抽象文の数は, いまだに少なからず少ない。 生物医学的要約における貴重な情報の探索は、逐次文分類タスクの改善により、迅速に行うことができる。 ディープラーニングベースのモデルは、このタスクで重要な結果を得る上で、優れたパフォーマンス/ポテンシャルを持つ。 しかし、それらはしばしば複雑すぎ、特定のデータに過度に適合する。 本稿では,SSN-4モデルと呼ぶ最先端のディープラーニングモデルについて検討する。 ssn-4モデルの様々なコンポーネントを調査し,性能と複雑性のトレードオフについて検討した。 我々は、このモデルがRandomized Controlled Trials(RCT)データセット以外の新しいデータセットにどのように一般化するかを検討する。 我々は、パフォーマンスを改善するために、単語埋め込みをタスクに調整できるかどうかという疑問に対処します。 さらに,第1モデルの混乱を解消する第2モデルを開発した。 その結果, SSN-4 モデルでは RCT データセットをはるかに超えた一般化は得られなかった。

Rapid growth of the biomedical literature has led to many advances in the biomedical text mining field. Among the vast amount of information, biomedical article abstracts are the easily accessible sources. However, the number of the structured abstracts, describing the rhetorical sections with one of Background, Objective, Method, Result and Conclusion categories is still not considerable. Exploration of valuable information in the biomedical abstracts can be expedited with the improvements in the sequential sentence classification task. Deep learning based models has great performance/potential in achieving significant results in this task. However, they can often be overly complex and overfit to specific data. In this project, we study a state-of-the-art deep learning model, which we called SSN-4 model here. We investigate different components of the SSN-4 model to study the trade-off between the performance and complexity. We explore how well this model generalizes to a new data set beyond Randomized Controlled Trials (RCT) dataset. We address the question that whether word embeddings can be adjusted to the task to improve the performance. Furthermore, we develop a second model that addresses the confusion pairs in the first model. Results show that SSN-4 model does not appear to generalize well beyond RCT dataset.
翻訳日:2022-01-19 13:44:29 公開日:2022-01-18
# ヘイトスピーチ検出のための相補的特徴表現と分類器の選択と組み合わせ

Selecting and combining complementary feature representations and classifiers for hate speech detection ( http://arxiv.org/abs/2201.06721v1 )

ライセンス: Link先を確認
Rafael M. O. Cruz and Woshington V. de Sousa and George D. C. Cavalcanti(参考訳) 毎日大量のデータが生成されるため、ソーシャルネットワークではヘイトスピーチが大きな問題となっている。 最近の研究は、憎しみのあるポストと単に皮肉や攻撃的な言語を区別するために必要なニュアンスを扱う機械学習(ML)の有用性を示している。 ヘイトスピーチ検出のための多くのMLソリューションは、テキストから特徴を抽出する方法や、採用した分類アルゴリズムを変更することによって提案されている。 しかし、ほとんどの研究は1種類の特徴抽出と分類アルゴリズムのみを考慮する。 この研究は、複数の特徴抽出技法と異なる分類モデルの組み合わせが必要であると主張している。 本稿では,複数の特徴抽出手法と分類手法の関係を分析し,それらの相互補完方法を理解する枠組みを提案する。 このフレームワークは、ヘイトスピーチ検出のための堅牢な多重分類器システム(MCS)を構成するための補完手法のサブセットを選択するために使用される。 4つのヘイト音声分類データセットを考慮した実験により,提案手法が高パフォーマンスmcsの分析と設計に有望な手法であることを実証した。 提案手法を用いて得られたmcsシステムは,全モデルと均質選択ヒューリスティックの組合せを著しく上回り,適切な選択スキームを持つことの重要性を示した。 ソースコード、図、データセットの分割はGitHubリポジトリで見ることができる。

Hate speech is a major issue in social networks due to the high volume of data generated daily. Recent works demonstrate the usefulness of machine learning (ML) in dealing with the nuances required to distinguish between hateful posts from just sarcasm or offensive language. Many ML solutions for hate speech detection have been proposed by either changing how features are extracted from the text or the classification algorithm employed. However, most works consider only one type of feature extraction and classification algorithm. This work argues that a combination of multiple feature extraction techniques and different classification models is needed. We propose a framework to analyze the relationship between multiple feature extraction and classification techniques to understand how they complement each other. The framework is used to select a subset of complementary techniques to compose a robust multiple classifiers system (MCS) for hate speech detection. The experimental study considering four hate speech classification datasets demonstrates that the proposed framework is a promising methodology for analyzing and designing high-performing MCS for this task. MCS system obtained using the proposed framework significantly outperforms the combination of all models and the homogeneous and heterogeneous selection heuristics, demonstrating the importance of having a proper selection scheme. Source code, figures, and dataset splits can be found in the GitHub repository: https://github.com/Menelau/Hate-Speech-MCS.
翻訳日:2022-01-19 13:44:10 公開日:2022-01-18
# 共起手がかりを用いた二重調音解析に基づく教師なしマルチモーダル単語発見

Unsupervised Multimodal Word Discovery based on Double Articulation Analysis with Co-occurrence cues ( http://arxiv.org/abs/2201.06786v1 )

ライセンス: Link先を確認
Akira Taniguchi, Hiroaki Murakami, Ryo Ozaki, Tadahiro Taniguchi(参考訳) ヒトの幼児は、音韻分布の統計的特性と他の感覚刺激の共起に基づいて、言語に関する最小限の事前知識から言語語彙を取得する。 本研究では,音韻情報を分布キューとして利用し,オブジェクト情報を共起キューとして利用することにより,音声単位の完全教師なし学習手法を提案する。 提案手法は,(1)教師なし学習を用いた音声信号から単語や音素を取得するだけでなく,(2)複数のモーダル性(視覚,触覚,聴覚など)に基づくオブジェクト情報も同時に利用することができる。 提案手法は,音韻特徴から音素と単語を検出するnpb-daa(nonparametric bayesian double articulation analyzer)と,オブジェクトから得られたマルチモーダル情報を分類するmlda(multimodal latent dirichlet allocation)に基づいている。 実験では,提案手法はベースライン法よりも高い単語発見性能を示した。 特に、対象の特徴を表す単語(名詞や形容詞に対応する単語)を正確に分割した。 さらに,言語情報の重要性の違いによる学習性能への影響について検討した。 単語モダリティの重みが増加すると,固定条件と比較してさらに性能が向上した。

Human infants acquire their verbal lexicon from minimal prior knowledge of language based on the statistical properties of phonological distributions and the co-occurrence of other sensory stimuli. In this study, we propose a novel fully unsupervised learning method discovering speech units by utilizing phonological information as a distributional cue and object information as a co-occurrence cue. The proposed method can not only (1) acquire words and phonemes from speech signals using unsupervised learning, but can also (2) utilize object information based on multiple modalities (i.e., vision, tactile, and auditory) simultaneously. The proposed method is based on the Nonparametric Bayesian Double Articulation Analyzer (NPB-DAA) discovering phonemes and words from phonological features, and Multimodal Latent Dirichlet Allocation (MLDA) categorizing multimodal information obtained from objects. In the experiment, the proposed method showed higher word discovery performance than the baseline methods. In particular, words that expressed the characteristics of the object (i.e., words corresponding to nouns and adjectives) were segmented accurately. Furthermore, we examined how learning performance is affected by differences in the importance of linguistic information. When the weight of the word modality was increased, the performance was further improved compared to the fixed condition.
翻訳日:2022-01-19 13:42:34 公開日:2022-01-18
# (参考訳) 分詞変換による文のアライメントの改善

Improve Sentence Alignment by Divide-and-conquer ( http://arxiv.org/abs/2201.06907v1 )

ライセンス: CC BY-SA 4.0
Wu Zhang(参考訳) 本稿では,文のアライメントを高速化する分割・コンカレントアルゴリズムを提案する。 我々は、外部のバイリンガル文の埋め込みを利用して、並列テキストをアライメントするための正確なハードデミッタを見つける。 我々はモンテカルロシミュレーションを用いて、この分割・対数アルゴリズムを用いて、任意の二次時間複雑文アライメントアルゴリズムを平均時間複雑度O(NlogN)のアルゴリズムに変換することを実験的に示す。 標準的なOCR生成データセットでは,Bleualignベースラインを3F1ポイント改善する。 さらに、計算資源が制限される場合、アルゴリズムは実際にはvecalignよりも高速である。

In this paper, we introduce a divide-and-conquer algorithm to improve sentence alignment speed. We utilize external bilingual sentence embeddings to find accurate hard delimiters for the parallel texts to be aligned. We use Monte Carlo simulation to show experimentally that using this divide-and-conquer algorithm, we can turn any quadratic time complexity sentence alignment algorithm into an algorithm with average time complexity of O(NlogN). On a standard OCR-generated dataset, our method improves the Bleualign baseline by 3 F1 points. Besides, when computational resources are restricted, our algorithm is faster than Vecalign in practice.
翻訳日:2022-01-19 13:40:05 公開日:2022-01-18
# Evidence-based Fake News Detectionのためのグラフニューラルネットワークによるきめ細かいセマンティクスのマイニング

Mining Fine-grained Semantics via Graph Neural Networks for Evidence-based Fake News Detection ( http://arxiv.org/abs/2201.06885v1 )

ライセンス: Link先を確認
Weizhi Xu, Junfei Wu, Qiang Liu, Shu Wu, Liang Wang(参考訳) 偽ニュースの拡散と有害性は、インターネット上で重大な問題であり、偽ニュースの自動検出の開発を後押ししている。 本稿では,証拠に基づく偽ニュース検出に焦点をあて,複数の証拠を用いてニュースの正確性(すなわちクレーム)を調査する。 従来のほとんどの手法は、まずシーケンシャルモデルを用いて意味情報を埋め込み、異なる注意機構に基づいてクレームと証拠の相互作用をキャプチャする。 効果はあるものの、2つの大きな弱点に悩まされている。 第一に、シーケンシャルなモデルの固有の欠点のために、彼らは検証の証拠にバラバラに散在している関連する情報を統合できない。 第二に、彼らは役に立たない、あるいは有害な証拠に含まれる多くの冗長な情報を無視する。 これらの問題を解決するために,グラフベースのsEmantic sTructureマイニングフレームワークを提案する。 具体的には,クレームやエビデンスをシーケンスとして扱う既存の作業とは違って,それらをグラフ構造データとしてモデル化し,近所の伝播を通じて分散した関連スニペット間の長距離的意味依存性を捉える。 文脈意味情報を得た後、グラフ構造学習によって情報冗長性を低減する。 最後に、細粒度のセマンティック表現は、予測のために下流のクレーム-エビデンス相互作用モジュールに入力される。 包括的な実験は、最先端技術よりもGETの方が優れていることを示した。

The prevalence and perniciousness of fake news has been a critical issue on the Internet, which stimulates the development of automatic fake news detection in turn. In this paper, we focus on the evidence-based fake news detection, where several evidences are utilized to probe the veracity of news (i.e., a claim). Most previous methods first employ sequential models to embed the semantic information and then capture the claim-evidence interaction based on different attention mechanisms. Despite their effectiveness, they still suffer from two main weaknesses. Firstly, due to the inherent drawbacks of sequential models, they fail to integrate the relevant information that is scattered far apart in evidences for veracity checking. Secondly, they neglect much redundant information contained in evidences that may be useless or even harmful. To solve these problems, we propose a unified Graph-based sEmantic sTructure mining framework, namely GET in short. Specifically, different from the existing work that treats claims and evidences as sequences, we model them as graph-structured data and capture the long-distance semantic dependency among dispersed relevant snippets via neighborhood propagation. After obtaining contextual semantic information, our model reduces information redundancy by performing graph structure learning. Finally, the fine-grained semantic representations are fed into the downstream claim-evidence interaction module for predictions. Comprehensive experiments have demonstrated the superiority of GET over the state-of-the-arts.
翻訳日:2022-01-19 13:31:21 公開日:2022-01-18
# ネットワークpruningのためのpruning-aware sparse regularization

Pruning-aware Sparse Regularization for Network Pruning ( http://arxiv.org/abs/2201.06776v1 )

ライセンス: Link先を確認
Nanfei Jiang, Xu Zhao, Chaoyang Zhao, Yongqi An, Ming Tang, Jinqiao Wang(参考訳) 構造ニューラルネットワークのプルーニングは、最終的な出力精度よりも重要度の低いフィルタをプルーニングすることで、深層畳み込みニューラルネットワーク(cnns)の冗長チャネルを除去することを目的としている。 刈り込み後の性能劣化を低減するため, スパース正則化による損失を利用して, 構造的疎度を生成する方法が多い。 本稿では,これらの疎性学習に基づく手法を解析し,未処理チャネルの正規化は不要であることを示す。 さらに、ネットワークの容量を制限し、不適合につながる。 そこで本稿では,pruning-aware sparse regularization を用いた新しいpruning法である masksparsity を提案する。 masksparsityは、モデルの全フィルタではなく、プルーニングマスクによって選択された特定のフィルタに細粒度のスパース正規化を課す。 MaskSparityの細粒度スパース正規化の前には、グローバルスパース正規化の実行など、プルーニングマスクの取得に多くの方法を用いることができる。 MaskSparsityは60.34%のパラメータを削除し、ResNet-110で63.03%のFLOPを削減した。 ILSVRC-2012では、MaskSparsityはResNet-50上で51.07%以上のFLOPを削減し、トップ1の精度は0.76%しか失われていない。 コードはhttps://github.com/CASIA-IVA-Lab/MaskSparsityで公開されている。 さらに、MaskSparityのコードを、https://gitee.com/casia_iva_engineer/easyprunerでPyTorchプルーニングツールキットEasyPrunerに統合しました。

Structural neural network pruning aims to remove the redundant channels in the deep convolutional neural networks (CNNs) by pruning the filters of less importance to the final output accuracy. To reduce the degradation of performance after pruning, many methods utilize the loss with sparse regularization to produce structured sparsity. In this paper, we analyze these sparsity-training-based methods and find that the regularization of unpruned channels is unnecessary. Moreover, it restricts the network's capacity, which leads to under-fitting. To solve this problem, we propose a novel pruning method, named MaskSparsity, with pruning-aware sparse regularization. MaskSparsity imposes the fine-grained sparse regularization on the specific filters selected by a pruning mask, rather than all the filters of the model. Before the fine-grained sparse regularization of MaskSparity, we can use many methods to get the pruning mask, such as running the global sparse regularization. MaskSparsity achieves 63.03%-FLOPs reduction on ResNet-110 by removing 60.34% of the parameters, with no top-1 accuracy loss on CIFAR-10. On ILSVRC-2012, MaskSparsity reduces more than 51.07% FLOPs on ResNet-50, with only a loss of 0.76% in the top-1 accuracy. The code is released at https://github.com/CASIA-IVA-Lab/MaskSparsity. Moreover, we have integrated the code of MaskSparity into a PyTorch pruning toolkit, EasyPruner, at https://gitee.com/casia_iva_engineer/easypruner.
翻訳日:2022-01-19 13:27:25 公開日:2022-01-18
# (参考訳) 解剖学的構造のセグメンテーションにおけるobserver間変動の定量化のための変分推論

Variational Inference for Quantifying Inter-observer Variability in Segmentation of Anatomical Structures ( http://arxiv.org/abs/2201.07106v1 )

ライセンス: CC BY 4.0
Xiaofeng Liu, Fangxu Xing, Thibault Marin, Georges El Fakhri, Jonghye Woo(参考訳) 医用画像データから見える病変や臓器境界はしばしば曖昧であり、結果として、複数の読み手のデリゲート、すなわちアレエータ的不確かさの源に大きな変化をもたらす。 特に,mri画像データを用いた手指注記のobserver間変動の定量化は,様々な診断・治療課題の基準設定において重要な役割を担っている。 しかし、ほとんどのセグメンテーション手法は単に画像から単一のセグメンテーションマップへのマッピングをモデル化し、注釈者の意見の不一致を考慮していない。 サーバ間の変動を精度を犠牲にすることなく考慮するために,特定のMR画像が与えられた場合の可視セグメンテーションマップの分布をモデル化する,新しい変分推論フレームワークを提案する。 具体的には、マルチリーダーの可変性を符号化し、画像データに固有の情報損失を相殺するために潜伏ベクトルを用いる。 次に,変分オートエンコーダネットワークを適用し,そのエビデンスローバウンド(ELBO)を最適化して,MR画像から得られるセグメンテーションマップの分布を効率的に近似する。 6) qubiq brain growth mri segmentation datasets with seven annotatorsを用いて実験を行った結果,本手法の有効性が示された。

Lesions or organ boundaries visible through medical imaging data are often ambiguous, thus resulting in significant variations in multi-reader delineations, i.e., the source of aleatoric uncertainty. In particular, quantifying the inter-observer variability of manual annotations with Magnetic Resonance (MR) Imaging data plays a crucial role in establishing a reference standard for various diagnosis and treatment tasks. Most segmentation methods, however, simply model a mapping from an image to its single segmentation map and do not take the disagreement of annotators into consideration. In order to account for inter-observer variability, without sacrificing accuracy, we propose a novel variational inference framework to model the distribution of plausible segmentation maps, given a specific MR image, which explicitly represents the multi-reader variability. Specifically, we resort to a latent vector to encode the multi-reader variability and counteract the inherent information loss in the imaging data. Then, we apply a variational autoencoder network and optimize its evidence lower bound (ELBO) to efficiently approximate the distribution of the segmentation map, given an MR image. Experimental results, carried out with the QUBIQ brain growth MRI segmentation datasets with seven annotators, demonstrate the effectiveness of our approach.
翻訳日:2022-01-19 13:25:19 公開日:2022-01-18
# ゼロショットプランナーとしての言語モデル:具体化エージェントに対する行動可能な知識の抽出

Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents ( http://arxiv.org/abs/2201.07207v1 )

ライセンス: Link先を確認
Wenlong Huang, Pieter Abbeel, Deepak Pathak, Igor Mordatch(参考訳) 大規模言語モデル(llm)によって学習された世界知識は、インタラクティブな環境での動作に使用できるか? 本稿では,自然言語で表現された高レベルタスク(例:「メーク朝食」)を,選択された実行可能なステップ(例:「オープン冷蔵庫」)に基盤付ける可能性を検討する。 事前の作業は、行動方法の明確なステップバイステップの例から学ぶことに集中していましたが、事前訓練済みのLMが十分に大きく、適切に誘導されている場合、さらにトレーニングすることなく、ハイレベルなタスクを低レベルな計画に効果的に分解できることに驚きました。 しかし、LSMが生み出した計画は、しばしば許容可能な行動に正確にマッピングできない。 そこで本研究では,既存の実演の条件と意味的に計画を許容行動に翻訳する手法を提案する。 最近のVirtualHome環境における評価は,LLMベースライン上での実行可能性を大幅に向上することを示す。 人的評価は,実行可能性と正しさのトレードオフを明らかにするが,言語モデルから実行可能な知識を抽出する上で有望な兆候を示す。 webサイト://huangwl18.github.io/language-planner

Can world knowledge learned by large language models (LLMs) be used to act in interactive environments? In this paper, we investigate the possibility of grounding high-level tasks, expressed in natural language (e.g. "make breakfast"), to a chosen set of actionable steps (e.g. "open fridge"). While prior work focused on learning from explicit step-by-step examples of how to act, we surprisingly find that if pre-trained LMs are large enough and prompted appropriately, they can effectively decompose high-level tasks into low-level plans without any further training. However, the plans produced naively by LLMs often cannot map precisely to admissible actions. We propose a procedure that conditions on existing demonstrations and semantically translates the plans to admissible actions. Our evaluation in the recent VirtualHome environment shows that the resulting method substantially improves executability over the LLM baseline. The conducted human evaluation reveals a trade-off between executability and correctness but shows a promising sign towards extracting actionable knowledge from language models. Website at https://huangwl18.github.io/language-planner
翻訳日:2022-01-19 12:59:35 公開日:2022-01-18
# 拡張畳み込みニューラルネットワークによる軽量ダイアクリティカルス修復

Dilated Convolutional Neural Networks for Lightweight Diacritics Restoration ( http://arxiv.org/abs/2201.06757v1 )

ライセンス: Link先を確認
B\'alint Csan\'ady, Andr\'as Luk\'acs(参考訳) ディアクリティックスの復元は、ラテン・アルファベットベースの英語によるインターネット言語環境において、ユビキタスなタスクとなっている。 本稿では,文字レベルで機能する1次元拡張畳み込みに基づく小さなフットプリントについて述べる。 1次元拡張畳み込みニューラルネットワークに基づく解は,再帰的ニューラルネットワークに基づくモデルや,ダイアクリティックス修復作業のための言語モデルに対する競合的な代替手段であることがわかった。 我々のソリューションは、同様のサイズのモデルの性能を超え、より大きなモデルと競合する。 私たちのソリューションの特別な特徴は、Webブラウザ上でもローカルに実行されることです。 このブラウザベースの実装の動作例も提供します。 本モデルはハンガリー語に重点を置き,異なるコーポラ上で評価される。 3つのハンガリーコーポラに対して,モデルの一般化力に関する比較測定を行った。 また,コーパスに基づく自己指導訓練の限界を理解するために,誤りを分析した。

Diacritics restoration has become a ubiquitous task in the Latin-alphabet-based English-dominated Internet language environment. In this paper, we describe a small footprint 1D dilated convolution-based approach which operates on a character-level. We find that solutions based on 1D dilated convolutional neural networks are competitive alternatives to models based on recursive neural networks or linguistic modeling for the task of diacritics restoration. Our solution surpasses the performance of similarly sized models and is also competitive with larger models. A special feature of our solution is that it even runs locally in a web browser. We also provide a working example of this browser-based implementation. Our model is evaluated on different corpora, with emphasis on the Hungarian language. We performed comparative measurements about the generalization power of the model in relation to three Hungarian corpora. We also analyzed the errors to understand the limitation of corpus-based self-supervised training.
翻訳日:2022-01-19 12:58:05 公開日:2022-01-18
# (参考訳) ウォームスタートとクリーンなクロールコーパス - 優れた言語モデルのためのレシピ

A Warm Start and a Clean Crawled Corpus -- A Recipe for Good Language Models ( http://arxiv.org/abs/2201.05601v2 )

ライセンス: CC BY 4.0
V\'esteinn Sn{\ae}bjarnarson, Haukur Barri S\'imonarson, P\'etur Orri Ragnarsson, Svanhv\'it Lilja Ing\'olfsd\'ottir, Haukur P\'all J\'onsson, Vilhj\'almur {\TH}orsteinsson, Hafsteinn Einarsson(参考訳) 我々はアイスランド語のためのいくつかの言語モデルを訓練し、例えばIceBERTは、音声タグ付け、名前付きエンティティ認識、文法的誤り検出、選挙区解析など、様々な下流タスクで最先端のパフォーマンスを達成する。 モデルをトレーニングするために、アイスランドのトップレベルドメイン(tld)をターゲットとした、オンライン上の高品質テキストのコレクションであるアイスランド共通クロールコーパス(ic3)を新たに導入した。 他のいくつかの公開データソースも、合計16GBのアイスランド語のテキストのために収集されている。 アイスランドにおけるモデル性能の評価を高め,基準値のバーを引き上げるために,WinoGrandeデータセットを共参照分解のために翻訳し,適応する。 これらの取り組みを通じて、キュレートされたコーパスで訓練されたモデルと比較することにより、ロー・ミディアム・リソース言語に対するNLPアプリケーションにおける最先端の結果を達成するのに十分なクロールコーパスが十分であることを示す。 さらに、既存の多言語モデルを用いた初期化モデルにより、ダウンストリームタスクの最先端結果が得られることを示す。

We train several language models for Icelandic, including IceBERT, that achieve state-of-the-art performance in a variety of downstream tasks, including part-of-speech tagging, named entity recognition, grammatical error detection and constituency parsing. To train the models we introduce a new corpus of Icelandic text, the Icelandic Common Crawl Corpus (IC3), a collection of high quality texts found online by targeting the Icelandic top-level-domain (TLD). Several other public data sources are also collected for a total of 16GB of Icelandic text. To enhance the evaluation of model performance and to raise the bar in baselines for Icelandic, we translate and adapt the WinoGrande dataset for co-reference resolution. Through these efforts we demonstrate that a properly cleaned crawled corpus is sufficient to achieve state-of-the-art results in NLP applications for low to medium resource languages, by comparison with models trained on a curated corpus. We further show that initializing models using existing multilingual models can lead to state-of-the-art results for some downstream tasks.
翻訳日:2022-01-19 11:41:37 公開日:2022-01-18