このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210519となっている論文です。

PDF登録状況(公開日: 20210519)

TitleAuthorsAbstract論文公表日・翻訳日
# 複数文書要約の説明性向上のためのグラフサムの注意重みの分析

Analysis of GraphSum's Attention Weights to Improve the Explainability of Multi-Document Summarization ( http://arxiv.org/abs/2105.11908v1 )

ライセンス: Link先を確認
M. Lautaro Hickmann and Fabian Wurzberger and Megi Hoxhalli and Arne Lochner and Jessica T\"ollich and Ansgar Scherp(参考訳) 現代のマルチドキュメント要約(MDS)手法はトランスフォーマーアーキテクチャに基づいている。 アートサマリーの状態を生成できるが、説明不可能である。 近年普及しているMDS用のグラフベースのトランスフォーマーモデルに注目した。 本研究の目的は,グラフベースMDSの注意重み分析による説明可能性の向上である。 GraphSumのようなグラフベースのMDSでは、頂点はテキスト単位を表し、エッジはユニット上の類似性グラフを形成する。 WikiSumとMultiNewsという2つのニュースベンチマークデータセット上で,文と段落の異なるテキスト単位を用いたグラフサムの性能を比較した。 実験では,段落レベルの表現が最良要約性能を示している。 そこで本研究では, トランスフォーマーmdsモデルの説明性を向上させるため, グラフサムのマルチヘッドおよびデコード層の段落レベルの注意重み分析に焦点をあてた。 基準指標として、入力された段落と生成された要約文の各文間のROUGEスコアを計算し、テキストの類似性を通じて原点情報を示す。 特にトランスフォーマーアーキテクチャの後のデコード層において,注意重みとこの基準計量との間に高い相関関係が観察された。 最後に, 生成した要約は, それぞれの要約に対して最も情報を提供する段落を抽出することにより, 位置バイアスのパターンに従うかを検討する。 以上の結果から,サマリの位置と原産地との間に高い相関関係が示された。

Modern multi-document summarization (MDS) methods are based on transformer architectures. They generate state of the art summaries, but lack explainability. We focus on graph-based transformer models for MDS as they gained recent popularity. We aim to improve the explainability of the graph-based MDS by analyzing their attention weights. In a graph-based MDS such as GraphSum, vertices represent the textual units, while the edges form some similarity graph over the units. We compare GraphSum's performance utilizing different textual units, i. e., sentences versus paragraphs, on two news benchmark datasets, namely WikiSum and MultiNews. Our experiments show that paragraph-level representations provide the best summarization performance. Thus, we subsequently focus oAnalysisn analyzing the paragraph-level attention weights of GraphSum's multi-heads and decoding layers in order to improve the explainability of a transformer-based MDS model. As a reference metric, we calculate the ROUGE scores between the input paragraphs and each sentence in the generated summary, which indicate source origin information via text similarity. We observe a high correlation between the attention weights and this reference metric, especially on the the later decoding layers of the transformer architecture. Finally, we investigate if the generated summaries follow a pattern of positional bias by extracting which paragraph provided the most information for each generated summary. Our results show that there is a high correlation between the position in the summary and the source origin.
翻訳日:2021-06-06 08:53:47 公開日:2021-05-19
# 緑内障自動スクリーニングにおける意味セグメンテーションのための動的領域提案ネットワーク

Dynamic region proposal networks for semantic segmentation in automated glaucoma screening ( http://arxiv.org/abs/2105.11364v1 )

ライセンス: Link先を確認
Shivam Shah, Nikhil Kasukurthi, Harshit Pande(参考訳) 眼底画像による緑内障診断のスクリーニングは、カップとディスク領域のセグメンテーションを必要とする視神経カップ対円板径比(cdr)によって決定することができる。 本稿では,パラメータ共有分岐ネットワーク (PSBN) と関心モデルベースセグメンテーション (WRoIM) のWeak Region of Interest Model-based segmentation (WRoIM) という2つの新しい手法を提案する。 従来のアプローチとは異なり、提案手法は単一のニューラルネットワークアーキテクチャを通じてエンドツーエンドでトレーニングされ、手動や従来のコンピュータビジョンベースの収穫ではなく動的収穫を使用する。 ネットワークパラメータの数が少なく、最先端のアプローチと同じようなパフォーマンスを実現できます。 実験では,drishti-gs1とrim-one v3データセットの異なる既知の手法との比較を行った。 7.8 \times 10^6$パラメータではDiceスコアが0.96/0.89でDrishti-GS1データのディスク/カップセグメンテーションが達成され、既存の最先端のアプローチでは19.8\times 10^6$パラメータが0.97/0.89である。

Screening for the diagnosis of glaucoma through a fundus image can be determined by the optic cup to disc diameter ratio (CDR), which requires the segmentation of the cup and disc regions. In this paper, we propose two novel approaches, namely Parameter-Shared Branched Network (PSBN) andWeak Region of Interest Model-based segmentation (WRoIM) to identify disc and cup boundaries. Unlike the previous approaches, the proposed methods are trained end-to-end through a single neural network architecture and use dynamic cropping instead of manual or traditional computer vision-based cropping. We are able to achieve similar performance as that of state-of-the-art approaches with less number of network parameters. Our experiments include comparison with different best known methods on publicly available Drishti-GS1 and RIM-ONE v3 datasets. With $7.8 \times 10^6$ parameters our approach achieves a Dice score of 0.96/0.89 for disc/cup segmentation on Drishti-GS1 data whereas the existing state-of-the-art approach uses $19.8\times 10^6$ parameters to achieve a dice score of 0.97/0.89.
翻訳日:2021-06-06 08:53:25 公開日:2021-05-19
# 大規模画像分類における相関入力依存ラベルノイズ

Correlated Input-Dependent Label Noise in Large-Scale Image Classification ( http://arxiv.org/abs/2105.10305v1 )

ライセンス: Link先を確認
Mark Collier, Basil Mustafa, Efi Kokiopoulou, Rodolphe Jenatton and Jesse Berent(参考訳) 大規模な画像分類データセットは、しばしばノイズラベルを含む。 これらのデータセットにおいて、入力依存(ヘテロシドスティック)、ラベルノイズ(ラベルノイズ)のモデル化には、原理的確率論的アプローチを採用する。 ニューラルネットワーク分類器の最終的な隠蔽層上に,多変量正規分布潜時変数を配置する。 この潜伏変数の共分散行列はラベルノイズによるアレタリック不確かさをモデル化する。 学習された共分散構造は、意味的に類似したクラスと共起クラスの間のラベルノイズの既知のソースをキャプチャする。 標準のニューラルネットワークトレーニングや他のベースラインと比較して、Imagenet ILSVRC 2012 79.3%(+2.6%)、Imagenet-21k 47.0%(+1.1%)、JFT 64.7%(+1.6%)の精度が大幅に向上した。 We set a new-of-the-art results on WebVision 1.0 with 76.6% top-1 accuracy。 これらのデータセットは、1m以上から300m以上のトレーニング例、1kクラスから21kクラスに及ぶ。 提案手法は, 使用が簡単であり, 深層分類器における最終完全接続層をドロップインで置き換える実装を提供する。

Large scale image classification datasets often contain noisy labels. We take a principled probabilistic approach to modelling input-dependent, also known as heteroscedastic, label noise in these datasets. We place a multivariate Normal distributed latent variable on the final hidden layer of a neural network classifier. The covariance matrix of this latent variable, models the aleatoric uncertainty due to label noise. We demonstrate that the learned covariance structure captures known sources of label noise between semantically similar and co-occurring classes. Compared to standard neural network training and other baselines, we show significantly improved accuracy on Imagenet ILSVRC 2012 79.3% (+2.6%), Imagenet-21k 47.0% (+1.1%) and JFT 64.7% (+1.6%). We set a new state-of-the-art result on WebVision 1.0 with 76.6% top-1 accuracy. These datasets range from over 1M to over 300M training examples and from 1k classes to more than 21k classes. Our method is simple to use, and we provide an implementation that is a drop-in replacement for the final fully-connected layer in a deep classifier.
翻訳日:2021-05-25 03:36:42 公開日:2021-05-19
# (参考訳) 肺癌予後関連データを用いたAI-Decision Support System Interface [全文訳有]

AI-Decision Support System Interface Using Cancer Related Data for Lung Cancer Prognosis ( http://arxiv.org/abs/2105.09471v1 )

ライセンス: CC0 1.0
Asim Leblebici, Omer Gesoglu, Yasemin Basbinar(参考訳) 2021年の初めまで、肺がんは世界で最も一般的ながんとして知られている。 この病気は、職業曝露、喫煙、環境汚染などの要因により一般的である。 疾患の早期診断と治療は、疾患の原因となる原因の予防だけでなく、非常に重要である。 この研究は、GDCデータポータルで肺がんの臨床と遺伝子発現を使用して予後を予測するための機械学習アルゴリズムと連携したWebインターフェースを作成することを計画された。

Until the beginning of 2021, lung cancer is known to be the most common cancer in the world. The disease is common due to factors such as occupational exposure, smoking and environmental pollution. The early diagnosis and treatment of the disease is of great importance as well as the prevention of the causes that cause the disease. The study was planned to create a web interface that works with machine learning algorithms to predict prognosis using lung cancer clinical and gene expression in the GDC data portal.
翻訳日:2021-05-22 01:40:37 公開日:2021-05-19
# (参考訳) DeepDebug: スタックトレース、バックトランスレーション、コードスケルトンを使用したPythonバグの修正 [全文訳有]

DeepDebug: Fixing Python Bugs Using Stack Traces, Backtranslation, and Code Skeletons ( http://arxiv.org/abs/2105.09352v1 )

ライセンス: CC BY 4.0
Dawn Drain, Colin B. Clement, Guillermo Serrato, and Neel Sundaresan(参考訳) バグのローカライゼーションとプログラムの修復という共同作業は、ソフトウェア開発プロセスの不可欠な部分です。 この作業では、大規模な事前トレーニングされたトランスフォーマーを使用した自動デバッグのアプローチであるDeepDebugを紹介します。 まず、合成バグを生成するために、逆コミットデータにバグ生成モデルをトレーニングする。 これらの合成バグを両端に適用する。 まず、200Kリポジトリからすべての関数のバックトランスレーションモデルをトレーニングする。 次に、テストの実行が可能な10kリポジトリに注目し、テストの通過によってカバーされるリポジトリ内のすべての関数のバギーバージョンを作成します。 これにより、スタックトレースやプリントステートメントといったリッチなデバッグ情報が得られます。 最後に、バギー関数自体を越えてコンテキストウィンドウを拡張し、その関数の親クラス、インポート、シグネチャ、docstring、メソッドボディからなるスケルトンを優先順に追加することで、すべてのモデルを強化します。 QuixBugsベンチマークでは、50%以上の修正数を増やしながら、偽陽性率を35%から5%に下げ、タイムアウトを6時間から1分に短縮しています。 実行可能なテストのベンチマークでは、トレースを使わずに最初の試行ですべてのバグの68%を修正し、トレースを追加した後、最初の試行で75%を修正しました。 実行可能なテストを評価するためのフレームワークと検証セットをオープンソースにします。

The joint task of bug localization and program repair is an integral part of the software development process. In this work we present DeepDebug, an approach to automated debugging using large, pretrained transformers. We begin by training a bug-creation model on reversed commit data for the purpose of generating synthetic bugs. We apply these synthetic bugs toward two ends. First, we directly train a backtranslation model on all functions from 200K repositories. Next, we focus on 10K repositories for which we can execute tests, and create buggy versions of all functions in those repositories that are covered by passing tests. This provides us with rich debugging information such as stack traces and print statements, which we use to finetune our model which was pretrained on raw source code. Finally, we strengthen all our models by expanding the context window beyond the buggy function itself, and adding a skeleton consisting of that function's parent class, imports, signatures, docstrings, and method bodies, in order of priority. On the QuixBugs benchmark, we increase the total number of fixes found by over 50%, while also decreasing the false positive rate from 35% to 5% and decreasing the timeout from six hours to one minute. On our own benchmark of executable tests, our model fixes 68% of all bugs on its first attempt without using traces, and after adding traces it fixes 75% on first attempt. We will open-source our framework and validation set for evaluating on executable tests.
翻訳日:2021-05-22 01:37:38 公開日:2021-05-19
# (参考訳) 網膜血管セグメンテーションのためのデータ拡張の限界を探る [全文訳有]

Exploring The Limits Of Data Augmentation For Retinal Vessel Segmentation ( http://arxiv.org/abs/2105.09365v1 )

ライセンス: CC BY 4.0
Enes Sadi Uysal, M.\c{S}afak Bilici, B. Selin Zaza, M. Yi\u{g}it \"Ozgen\c{c}, Onur Boyar(参考訳) 網膜血管剥離は各種疾患の診断に重要である。 網膜血管セグメンテーションの研究は、通常u-netアーキテクチャに基づくセグメンテーションモデルの改善に焦点を当てている。 本稿では、U-Netアーキテクチャを使用し、パフォーマンス向上のために重データ拡張に依存しています。 データ拡張の成功は、入力画像の問題にうまく対処することに依存する。 入力画像を分析して拡張を行うことにより,U-Netモデルの性能を劇的に向上させることができることを示す。 結果は最も広く使われている網膜データセットDRIVEを用いて報告される。

Retinal Vessel Segmentation is important for diagnosis of various diseases. The research on retinal vessel segmentation focuses mainly on improvement of the segmentation model which is usually based on U-Net architecture. In our study we use the U-Net architecture and we rely on heavy data augmentation in order to achieve better performance. The success of the data augmentation relies on successfully addressing the problem of input images. By analyzing input images and performing the augmentation accordingly we show that the performance of the U-Net model can be increased dramatically. Results are reported using the most widely used retina dataset, DRIVE.
翻訳日:2021-05-22 01:20:18 公開日:2021-05-19
# (参考訳) voila: 視覚観察のみの模倣学習による自律ナビゲーション [全文訳有]

VOILA: Visual-Observation-O nly Imitation Learning for Autonomous Navigation ( http://arxiv.org/abs/2105.09371v1 )

ライセンス: CC BY 4.0
Haresh Karnan, Garrett Warnell, Xuesu Xiao, Peter Stone(参考訳) 視覚ベースの自律移動ロボットナビゲーションのための模倣学習は最近、研究コミュニティで多くの注目を集めているが、既存のアプローチでは、デプロイプラットフォームを使って収集された状態動作のデモを必要とする。 しかし、これらのデモ信号を記録するためにプラットフォームを簡単に設定できない場合や、デモ参加者がプラットフォームにアクセスできない場合はどうでしょう? このようなシナリオにおいて、視覚ベースの自律ナビゲーションのための模倣学習は可能か? 本稿では,この答えがイエスであり,近年の観察(ifo)文学の模倣から得られたアイデアは,ロボットが視点ミスマッチの存在下においても,デモンストレータが収集したエゴセントリックビデオのみを使用してナビゲートを学べるようにすることができると仮定する。 そこで本研究では,視覚観察のみの自律ナビゲーション学習(VOILA)という新しいアルゴリズムを導入し,物理的に異なるエージェントから収集した単一のビデオデモからナビゲーションポリシーを学習する。 我々は,フォトリアリスティックなAirSimシミュレータでVOILAを評価し,VOILAが専門家を模倣するだけでなく,新しい環境に一般化可能なナビゲーションポリシーも学習していることを示す。 さらに,実環境におけるvoilaの有効性を実証するために,携帯電話カメラを用いて記録した映像を用いて,車輪付きジャッキールロボットが人間の環境歩行を模倣できることを示す。

While imitation learning for vision based autonomous mobile robot navigation has recently received a great deal of attention in the research community, existing approaches typically require state action demonstrations that were gathered using the deployment platform. However, what if one cannot easily outfit their platform to record these demonstration signals or worse yet the demonstrator does not have access to the platform at all? Is imitation learning for vision based autonomous navigation even possible in such scenarios? In this work, we hypothesize that the answer is yes and that recent ideas from the Imitation from Observation (IfO) literature can be brought to bear such that a robot can learn to navigate using only ego centric video collected by a demonstrator, even in the presence of viewpoint mismatch. To this end, we introduce a new algorithm, Visual Observation only Imitation Learning for Autonomous navigation (VOILA), that can successfully learn navigation policies from a single video demonstration collected from a physically different agent. We evaluate VOILA in the photorealistic AirSim simulator and show that VOILA not only successfully imitates the expert, but that it also learns navigation policies that can generalize to novel environments. Further, we demonstrate the effectiveness of VOILA in a real world setting by showing that it allows a wheeled Jackal robot to successfully imitate a human walking in an environment using a video recorded using a mobile phone camera.
翻訳日:2021-05-22 01:15:22 公開日:2021-05-19
# (参考訳) マキシミン株の保証:一部のエージェントが残した

Guaranteeing Maximin Shares: Some Agents Left Behind ( http://arxiv.org/abs/2105.09383v1 )

ライセンス: CC BY 4.0
Hadi Hosseini and Andrew Searns(参考訳) マクシミンシェア(mms)保証は、不可分な商品を割り当てるための望ましい公正概念である。 MMSアロケーションは常に存在するわけではないが、全てのエージェントがその最大シェアのごく一部を受け取ることを保証するためにいくつかの近似技術が開発されている。 我々は,少数のエージェントに対してMSを保証しようとするエージェントの集団に基づく,別の近似概念に焦点をあてる。 最適近似アルゴリズムは定数以上のエージェントを満足できないことを示し, 1つのエージェントを除くすべてのエージェントに対するmmsの存在と計算と近似mms保証との関係について論じる。 次に、$\frac{2}{3}$のエージェントに対するMMSを保証するアロケーションの存在を証明し、最大9個のエージェントに対してこの境界を達成する多項式時間アルゴリズムを考案する。 この結果の鍵となる意味は、$\text{mms}^{\lceil{3n/2}\rceil}$、すなわち、商品を$\lceil{\frac{3}{2}n}\rceil$バンドルに分割することによってエージェントが受け取る値、$\text{mms}^{2n-2}$の最もよく知られた保証を改善する割り当ての存在である。 最後に,合成データを用いた実験を行う。

The maximin share (MMS) guarantee is a desirable fairness notion for allocating indivisible goods. While MMS allocations do not always exist, several approximation techniques have been developed to ensure that all agents receive a fraction of their maximin share. We focus on an alternative approximation notion, based on the population of agents, that seeks to guarantee MMS for a fraction of agents. We show that no optimal approximation algorithm can satisfy more than a constant number of agents, and discuss the existence and computation of MMS for all but one agent and its relation to approximate MMS guarantees. We then prove the existence of allocations that guarantee MMS for $\frac{2}{3}$ of agents, and devise a polynomial time algorithm that achieves this bound for up to nine agents. A key implication of our result is the existence of allocations that guarantee $\text{MMS}^{\lceil{3n/2}\rceil}$, i.e., the value that agents receive by partitioning the goods into $\lceil{\frac{3}{2}n}\rceil$ bundles, improving the best known guarantee of $\text{MMS}^{2n-2}$. Finally, we provide empirical experiments using synthetic data.
翻訳日:2021-05-22 01:03:24 公開日:2021-05-19
# (参考訳) 意外と人気投票がランキングを回復! [全文訳有]

Surprisingly Popular Voting Recovers Rankings, Surprisingly! ( http://arxiv.org/abs/2105.09386v1 )

ライセンス: CC BY 4.0
Hadi Hosseini, Debmalya Mandal, Nisarg Shah, and Kevin Shi(参考訳) 群衆の知恵は、根底にある真実を予測するために個人や専門家から情報を引き出すための事実上のアプローチになっている。 しかしながら、個人を集約する古典的な民主的アプローチは、群衆の大多数の意見が比較的正確である場合にのみ有効である。 賢明な最近のアプローチである \emph{surprisingly popular voting} は、個人からの追加情報、すなわち他の個人の投票の \emph{prediction} を導き出し、専門家が少数派であっても根拠となる真実を確実に回復する。 このアプローチは、小さなリストから正しい選択肢を選択することを目標とする場合はうまく機能するが、選択肢の真のランキングを回復することが目標である場合には、アプローチの直接的な適用には、過剰な情報を引き出す必要がある。 本稿では,このアルゴリズムを部分的に投票と予測によってランク付けし,ロバストなアグリゲーションルールを設計するための実践的手法を検討する。 予測情報さえも、驚くほど人気の高い古典的アプローチの投票に役立つことを実験的に実証した。

The wisdom of the crowd has long become the de facto approach for eliciting information from individuals or experts in order to predict the ground truth. However, classical democratic approaches for aggregating individual \emph{votes} only work when the opinion of the majority of the crowd is relatively accurate. A clever recent approach, \emph{surprisingly popular voting}, elicits additional information from the individuals, namely their \emph{prediction} of other individuals' votes, and provably recovers the ground truth even when experts are in minority. This approach works well when the goal is to pick the correct option from a small list, but when the goal is to recover a true ranking of the alternatives, a direct application of the approach requires eliciting too much information. We explore practical techniques for extending the surprisingly popular algorithm to ranked voting by partial votes and predictions and designing robust aggregation rules. We experimentally demonstrate that even a little prediction information helps surprisingly popular voting outperform classical approaches.
翻訳日:2021-05-22 01:02:17 公開日:2021-05-19
# (参考訳) 地理質問応答 : 挑戦,特異性,分類,今後の方向性 [全文訳有]

Geographic Question Answering: Challenges, Uniqueness, Classification, and Future Directions ( http://arxiv.org/abs/2105.09392v1 )

ライセンス: CC BY 4.0
Gengchen Mai, Krzysztof Janowicz, Rui Zhu, Ling Cai, and Ni Lao(参考訳) 人工知能(AI)の重要な部分として、質問回答(QA)は自然言語で表現された質問に対する回答を生成することを目的としている。 オープンドメインの質問応答にはかなりの進歩があったが、QAシステムは地理的実体や概念、空間的な操作を必要とする疑問に答えようと苦戦している。 本稿では,地理質問応答(GeoQA)の問題について議論する。 まず,地理的質問の課題を分析して,地理的質問の答えが難しい理由を検討する。 地理的質問の独特性を一般のQAと比較する。 次に、GeoQAに関する既存の研究をレビューし、それらに対処できる質問の種類によって分類する。 本調査に基づき,地理的質問に対する一般的な分類フレームワークを提供する。 最後に,GeoQAの今後の独自の研究方向性を指摘することで,研究を締めくくっている。

As an important part of Artificial Intelligence (AI), Question Answering (QA) aims at generating answers to questions phrased in natural language. While there has been substantial progress in open-domain question answering, QA systems are still struggling to answer questions which involve geographic entities or concepts and that require spatial operations. In this paper, we discuss the problem of geographic question answering (GeoQA). We first investigate the reasons why geographic questions are difficult to answer by analyzing challenges of geographic questions. We discuss the uniqueness of geographic questions compared to general QA. Then we review existing work on GeoQA and classify them by the types of questions they can address. Based on this survey, we provide a generic classification framework for geographic questions. Finally, we conclude our work by pointing out unique future research directions for GeoQA.
翻訳日:2021-05-22 00:46:10 公開日:2021-05-19
# (参考訳) 特徴コントラスト学習によるロバスト性と感度のバランス [全文訳有]

Balancing Robustness and Sensitivity using Feature Contrastive Learning ( http://arxiv.org/abs/2105.09394v1 )

ライセンス: CC BY 4.0
Seungyeon Kim, Daniel Glasner, Srikumar Ramalingam, Cho-Jui Hsieh, Kishore Papineni, Sanjiv Kumar(参考訳) 一般に、非常に大きなネットワークの堅牢なトレーニングは、実世界のアプリケーションでの成功に不可欠であると考えられている。 しかし、極端に考えると、ロバスト性を促進する手法は、稀なパターンや過小表現パターンに対するモデルの感度を損なう可能性がある。 本稿では、文脈的特徴ユーティリティと文脈的特徴感度という2つの概念を導入することにより、自然(非敵対的)摂動に対する感度と頑健さのトレードオフについて論じる。 本稿では,コンテクストユーティリティの高い機能に対して,モデルがより敏感になるよう促す機能コントラスト学習(fcl)を提案する。 実験により、FCLで訓練されたモデルは、堅牢性と感度のバランスが良くなり、視覚とNLPデータセットの両方にノイズが存在することが一般化された。

It is generally believed that robust training of extremely large networks is critical to their success in real-world applications. However, when taken to the extreme, methods that promote robustness can hurt the model's sensitivity to rare or underrepresented patterns. In this paper, we discuss this trade-off between sensitivity and robustness to natural (non-adversarial) perturbations by introducing two notions: contextual feature utility and contextual feature sensitivity. We propose Feature Contrastive Learning (FCL) that encourages a model to be more sensitive to the features that have higher contextual utility. Empirical results demonstrate that models trained with FCL achieve a better balance of robustness and sensitivity, leading to improved generalization in the presence of noise on both vision and NLP datasets.
翻訳日:2021-05-22 00:16:38 公開日:2021-05-19
# (参考訳) 粗いパターンの識別によるテキスト行分割の教師なし学習 [全文訳有]

Unsupervised learning of text line segmentationby differentiating coarse patterns ( http://arxiv.org/abs/2105.09405v1 )

ライセンス: CC BY 4.0
Berat Kurar Barakat, Ahmad Droby, Raid Saabni, and Jihad El-Sana(参考訳) 近年,テキスト行セグメンテーションにおける教師なし深層学習の分野が進歩しているにもかかわらず,教師なし深層学習ソリューションが人気を集め始めている。 本稿では,距離が粗いテキスト行パターンの類似性に対応するコンパクトなユークリッド空間に,文書イメージパッチを埋め込む教師なしのディープラーニング手法を提案する。 この空間が生成されると、テキスト行のセグメンテーションは埋め込み特徴ベクトルを使って標準技術で容易に実装できる。 モデルのトレーニングには,テキスト行の粗い傾向を隣接パッチが含んでいると仮定したランダムな文書画像パッチを抽出するが,一方が回転している場合には,テキスト行の粗い傾向が異なる。 このタスクをうまくこなすには、モデルがテキスト行とその突出部を認識することを学ぶ必要がある。 このアプローチの利点は、手動ラベリングの労力をゼロにすることです。 本手法は,テキストラインセグメンテーションデータセットのいくつかの変種について定性的かつ定量的に評価し,その効果を示す。

Despite recent advances in the field of supervised deep learning for text line segmentation, unsupervised deep learning solutions are beginning to gain popularity. In this paper, we present an unsupervised deep learning method that embeds document image patches to a compact Euclidean space where distances correspond to a coarse text line pattern similarity. Once this space has been produced, text line segmentation can be easily implemented using standard techniques with the embedded feature vectors. To train the model, we extract random pairs of document image patches with the assumption that neighbour patches contain a similar coarse trend of text lines, whereas if one of them is rotated, they contain different coarse trends of text lines. Doing well on this task requires the model to learn to recognize the text lines and their salient parts. The benefit of our approach is zero manual labelling effort. We evaluate the method qualitatively and quantitatively on several variants of text line segmentation datasets to demonstrate its effectivity.
翻訳日:2021-05-21 23:41:04 公開日:2021-05-19
# (参考訳) 多層パーセプトロンと標準ベクトルマシンを用いた音声と歌の感情認識 [全文訳有]

Speech & Song Emotion Recognition Using Multilayer Perceptron and Standard Vector Machine ( http://arxiv.org/abs/2105.09406v1 )

ライセンス: CC BY 4.0
Behzad Javaheri(参考訳) 本稿では、RAVDESSデータセットの音声と歌のチャンネルを用いた感情認識におけるSVMとMLPの性能を比較した。 我々は、様々なオーディオ特徴を抽出し、最適なスケーリング戦略とハイパーパラメータを同定する旅をしてきた。 サンプルサイズを増やすため,SMOTEを用いて音声データ拡張とアドレスデータ不均衡を行った。 以上の結果から,最適化SVMはMLPの精度を75%と比較すると,82。 データ拡張後、両方のアルゴリズムのパフォーマンスは ~79% で同じであったが、SVM には過度な適合性があることは明らかであった。 最終調査の結果,svmとmlpの性能はともに,songチャネルに比べて音声チャネルの精度が低かった。 以上の結果から,SVM と MLP は声質に依存した感情認識のための強力な分類法であることが示唆された。

Herein, we have compared the performance of SVM and MLP in emotion recognition using speech and song channels of the RAVDESS dataset. We have undertaken a journey to extract various audio features, identify optimal scaling strategy and hyperparameter for our models. To increase sample size, we have performed audio data augmentation and addressed data imbalance using SMOTE. Our data indicate that optimised SVM outperforms MLP with an accuracy of 82 compared to 75%. Following data augmentation, the performance of both algorithms was identical at ~79%, however, overfitting was evident for the SVM. Our final exploration indicated that the performance of both SVM and MLP were similar in which both resulted in lower accuracy for the speech channel compared to the song channel. Our findings suggest that both SVM and MLP are powerful classifiers for emotion recognition in a vocal-dependent manner.
翻訳日:2021-05-21 23:27:36 公開日:2021-05-19
# (参考訳) iTelos-再利用可能な知識グラフの構築 [全文訳有]

iTelos- Building reusable knowledge graphs ( http://arxiv.org/abs/2105.09418v1 )

ライセンス: CC BY 4.0
Fausto Giunchiglia, Simone Bocca, Mattia Fumagalli, Mayukh Bagchi and Alessio Zamboni(参考訳) 新しいアプリケーションを開発するとき、既存のデータセットを再利用することは事実上不可能であるという事実である。 この難しさは追加コストの原因であり、その結果のアプリケーションが再び再利用されなくなるというさらなる欠点がある。 これは否定的なループであり、一貫して自身を補強し、そこから抜け出す方法がないように思われる。 iTelosは、このループを壊すように設計された汎用の方法論である。 その主な目標は、既存のデータを可能な限り再利用する再利用可能な知識グラフ(KG)を生成することである。 キーとなる仮定は、KGの設計は、開発の全段階において、設計が考慮すべきであることを意味している: (i) 提供すべき目的、そして、機能的なクエリのセットとして形式化されていること、 (ii) 既存のKGから抽出される可能性のある既存のデータセットのセット、 (iii) 既存の参照スキーマのセット。 我々は、これらの参照スキーマ、テレロジーをオントロジーとは別物と呼ぶ。つまり、同様の目的を持つ一方で、容易に適応するように設計されており、イテロの重要な実現者となることを意味する。

It is a fact that, when developing a new application, it is virtually impossible to reuse, as-is, existing datasets. This difficulty is the cause of additional costs, with the further drawback that the resulting application will again be hardly reusable. It is a negative loop which consistently reinforces itself and for which there seems to be no way out. iTelos is a general purpose methodology designed to break this loop. Its main goal is to generate reusable Knowledge Graphs (KGs), built reusing, as much as possible, already existing data. The key assumption is that the design of a KG should be done middle-out meaning by this that the design should take into consideration, in all phases of the development: (i) the purpose to be served, that we formalize as a set of competency queries, (ii) a set of pre-existing datasets, possibly extracted from existing KGs, and (iii) a set of pre-existing reference schemas, whose goal is to facilitate sharability. We call these reference schemas, teleologies, as distinct from ontologies, meaning by this that, while having a similar purpose, they are designed to be easily adapted, thus becoming a key enabler of itelos.
翻訳日:2021-05-21 23:17:14 公開日:2021-05-19
# (参考訳) 視覚特性による概念の分類 [全文訳有]

Classifying concepts via visual properties ( http://arxiv.org/abs/2105.09422v1 )

ライセンス: CC BY 4.0
Fausto Giunchiglia and Mayukh Bagchi(参考訳) 我々は、世界の物質は2種類の概念、すなわち物質概念と分類概念、前者は(視覚)知覚の道具、後者は(言語に基づく)分類によって表現されていると仮定する。 本稿では,物質概念を抽出した映像や写真などのメディアにノードを注釈付けし,それに対応する分類概念に関連付ける,物質概念の語彙的階層を構築するための一般的な手法を紹介する。 この方法論は、物質の概念を分類する問題を文脈化したランガナサンのオリジナルのアプローチに基づいている。 重要な特徴は、階層構造が物質概念の視覚的な性質を生かして構築されていることであるが、分類概念の言語的に定義された性質は物質概念を記述するためにのみ用いられる。 このアプローチの妥当性は、大規模マルチメディア多言語概念階層の構築を目標とする進行中のプロジェクトのハイライトを提供することで示される。

We assume that substances in the world are represented by two types of concepts, namely substance concepts and classification concepts, the former instrumental to (visual) perception, the latter to (language based) classification. Based on this distinction, we introduce a general methodology for building lexico-semantic hierarchies of substance concepts, where nodes are annotated with the media, e.g.,videos or photos, from which substance concepts are extracted, and are associated with the corresponding classification concepts. The methodology is based on Ranganathan's original faceted approach, contextualized to the problem of classifying substance concepts. The key novelty is that the hierarchy is built exploiting the visual properties of substance concepts, while the linguistically defined properties of classification concepts are only used to describe substance concepts. The validity of the approach is exemplified by providing some highlights of an ongoing project whose goal is to build a large scale multimedia multilingual concept hierarchy.
翻訳日:2021-05-21 23:05:54 公開日:2021-05-19
# (参考訳) 階層データ統合 [全文訳有]

Stratified Data Integration ( http://arxiv.org/abs/2105.09432v1 )

ライセンス: CC BY 4.0
Fausto Giunchiglia, Alessio Zamboni, Mayukh Bagchi and Simone Bocca(参考訳) We propose a novel approach to the problem of semantic heterogeneity where data are organized into a set of stratified and independent representation layers, namely: conceptual(where a set of unique alinguistic identifiers are connected inside a graph codifying their meaning), language(where sets of synonyms, possibly from multiple languages, annotate concepts), knowledge(in the form of a graph where nodes are entity types and links are properties), and data(in the form of a graph of entities populating the previous knowledge graph). これにより、意味的不均一性(semantic heterogeneity)の問題を表現多様性(Representation Diversity)の問題として記述することができる。 概念、言語、知識、データは、他のものと独立して、各レイヤ内で一様に処理されます。 本稿では,提案した階層化されたデータ表現と,まずデータを対象の表現に変換し,それを適切に統合し,最後にユーザの好みのフォーマットで提示するプロセスについて述べる。 提案フレームワークは様々なパイロットケーススタディやいくつかの産業データ統合問題で評価されている。

We propose a novel approach to the problem of semantic heterogeneity where data are organized into a set of stratified and independent representation layers, namely: conceptual(where a set of unique alinguistic identifiers are connected inside a graph codifying their meaning), language(where sets of synonyms, possibly from multiple languages, annotate concepts), knowledge(in the form of a graph where nodes are entity types and links are properties), and data(in the form of a graph of entities populating the previous knowledge graph). This allows us to state the problem of semantic heterogeneity as a problem of Representation Diversity where the different types of heterogeneity, viz. Conceptual, Language, Knowledge, and Data, are uniformly dealt within each single layer, independently from the others. In this paper we describe the proposed stratified representation of data and the process by which data are first transformed into the target representation, then suitably integrated and then, finally, presented to the user in her preferred format. The proposed framework has been evaluated in various pilot case studies and in a number of industrial data integration problems.
翻訳日:2021-05-21 22:51:33 公開日:2021-05-19
# (参考訳) Lewis WeightsサブサンプリングによるL1回帰 [全文訳有]

L1 Regression with Lewis Weights Subsampling ( http://arxiv.org/abs/2105.09433v1 )

ライセンス: CC BY 4.0
Aditya Parulekar, Advait Parulekar, Eric Price(参考訳) 我々は,少数のラベルのみを観測しながら,$\ell_1$回帰の近似解を求める問題を考察する。 n \times d$ unlabeled data matrix $x$ が与えられると、ラベルを観察するために m \ll n$ の小さなセットを選択し、元の問題に対するエラーが 1 + \varepsilon$ factor の範囲内にある推定 $\widehat{\beta}$ を出力する必要があります。 ルイス重みによる$X$からのサンプリングと経験的最小値の出力は確率1-\delta$ for $m > O(\frac{1}{\varepsilon^2} d \log \frac{d}{\varepsilon \delta})$で成功することを示す。 これは、$\ell_2$回帰のレバレッジスコアによるサンプリングのパフォーマンスに似ているが、$\delta$への指数的に優れた依存を持つ。 また、対応する下限の$\Omega(\frac{d}{\varepsilon^2} + (d + \frac{1}{\varepsilon^2}) \log\frac{1}{\delta})$を与える。

We consider the problem of finding an approximate solution to $\ell_1$ regression while only observing a small number of labels. Given an $n \times d$ unlabeled data matrix $X$, we must choose a small set of $m \ll n$ rows to observe the labels of, then output an estimate $\widehat{\beta}$ whose error on the original problem is within a $1 + \varepsilon$ factor of optimal. We show that sampling from $X$ according to its Lewis weights and outputting the empirical minimizer succeeds with probability $1-\delta$ for $m > O(\frac{1}{\varepsilon^2} d \log \frac{d}{\varepsilon \delta})$. This is analogous to the performance of sampling according to leverage scores for $\ell_2$ regression, but with exponentially better dependence on $\delta$. We also give a corresponding lower bound of $\Omega(\frac{d}{\varepsilon^2} + (d + \frac{1}{\varepsilon^2}) \log\frac{1}{\delta})$.
翻訳日:2021-05-21 22:40:00 公開日:2021-05-19
# トランスベースメディケアクレームエンコーダを用いた説明可能な健康リスク予測装置

Explainable Health Risk Predictor with Transformer-based Medicare Claim Encoder ( http://arxiv.org/abs/2105.09428v1 )

ライセンス: Link先を確認
Chuhong Lahlou, Ancil Crayton, Caroline Trier, Evan Willett(参考訳) 2019年、メディケア・メディケイドサービスセンター(CMS)は、CMSイノベーションセンターの支払いおよびサービス提供モデルに組み込まれる価値ベースのケアのリスクを予測するソリューションを模索する人工知能(AI)ヘルスアウトカムチャレンジ(Health Outcomes Challenge)を立ち上げた。 近年、現代言語モデルは、多くの健康関連タスクにおいて重要な役割を果たしている。 本稿では,患者の寛解予測に対するこれらのモデルの最初の応用について述べる。 そこで我々は,cmsが発行する限定データセット (lds) から得られた120万の医療履歴サンプルのデータセットを作成する。 さらに,このデータのための深層学習フレームワークに着目した総合的なモデリングソリューションを提案する。 この枠組みを実証するために,注意に基づくトランスフォーマーを訓練し,下流予測タスクの実行支援としてメディケアセマンティクスを学習し,読み出し分類において 0.91 auc と 0.91 のリコールを実現する。 また,新しいデータ前処理パイプラインを導入し,モデル説明可能性とバイアスを取り巻く関連するデプロイメントに関する考察を行う。

In 2019, The Centers for Medicare and Medicaid Services (CMS) launched an Artificial Intelligence (AI) Health Outcomes Challenge seeking solutions to predict risk in value-based care for incorporation into CMS Innovation Center payment and service delivery models. Recently, modern language models have played key roles in a number of health related tasks. This paper presents, to the best of our knowledge, the first application of these models to patient readmission prediction. To facilitate this, we create a dataset of 1.2 million medical history samples derived from the Limited Dataset (LDS) issued by CMS. Moreover, we propose a comprehensive modeling solution centered on a deep learning framework for this data. To demonstrate the framework, we train an attention-based Transformer to learn Medicare semantics in support of performing downstream prediction tasks thereby achieving 0.91 AUC and 0.91 recall on readmission classification. We also introduce a novel data pre-processing pipeline and discuss pertinent deployment considerations surrounding model explainability and bias.
翻訳日:2021-05-21 13:50:03 公開日:2021-05-19
# 生成型adversarial neural architecture search

Generative Adversarial Neural Architecture Search ( http://arxiv.org/abs/2105.09356v1 )

ライセンス: Link先を確認
Seyed Saeed Changiz Rezaei, Fred X. Han, Di Niu, Mohammad Salameh, Keith Mills, Shuo Lian, Wei Lu, and Shangling Jui(参考訳) ディープラーニングアプリケーションにおけるニューラルネットワーク探索(NAS)の実証的な成功にもかかわらず、NASスキームの最適性、再現性、コストは評価が難しいままである。 本稿では、理論的に証明可能な収束保証を持ち、ニューラルネットワーク探索における安定性と再現性を促進するジェネレーティブ・コンバーサリーnas(ga-nas)を提案する。 GA-NASは重要サンプリングにインスパイアされ、以前に発見されたトップアーキテクチャに反復的にジェネレータを適合させる。 さらに,判別器による報奨に基づく強化学習によってジェネレータを学習し,多数のアーキテクチャを評価せずに探索空間を探索できる効率的な対角学習手法を提案する。 大規模な実験により、GA-NASは3つのNASベンチマークでいくつかのケースで最高の結果を公表した。 一方、GA-NASはアドホックな検索制約や検索スペースを処理できる。 GA-NASは、画像ネットの精度やパラメータ数の観点から、EfficientNetやProxylessNASなど他のNAS手法で既に最適化されているベースラインの改善に利用できることを示す。

Despite the empirical success of neural architecture search (NAS) in deep learning applications, the optimality, reproducibility and cost of NAS schemes remain hard to assess. In this paper, we propose Generative Adversarial NAS (GA-NAS) with theoretically provable convergence guarantees, promoting stability and reproducibility in neural architecture search. Inspired by importance sampling, GA-NAS iteratively fits a generator to previously discovered top architectures, thus increasingly focusing on important parts of a large search space. Furthermore, we propose an efficient adversarial learning approach, where the generator is trained by reinforcement learning based on rewards provided by a discriminator, thus being able to explore the search space without evaluating a large number of architectures. Extensive experiments show that GA-NAS beats the best published results under several cases on three public NAS benchmarks. In the meantime, GA-NAS can handle ad-hoc search constraints and search spaces. We show that GA-NAS can be used to improve already optimized baselines found by other NAS methods, including EfficientNet and ProxylessNAS, in terms of ImageNet accuracy or the number of parameters, in their original search space.
翻訳日:2021-05-21 13:44:20 公開日:2021-05-19
# 不均一コントラスト学習

Heterogeneous Contrastive Learning ( http://arxiv.org/abs/2105.09401v1 )

ライセンス: Link先を確認
Lecheng Zheng, Yada Zhu, Jingrui He, and Jinjun Xiong(参考訳) 複数のハイインパクトアプリケーションにまたがるビッグデータの出現により、複雑な異質性という課題に直面していることが多い。 新たに収集されたデータは、通常、複数のモダリティで構成され、複数のラベルで特徴付けられるため、複数の種類の異質性の共存を示す。 最先端技術は、十分なラベル情報で複雑な不均一性をモデル化するのに長けているが、そのようなラベル情報は実際のアプリケーションで取得するのに非常に高価であり、これらの技術を用いた準最適性能をもたらす。 本稿では,リッチな非ラベルデータを活用したコントラスト学習の能力に着想を得て,重み付き非教師付きコントラスト損失と重み付き教師付きコントラスト損失とを組み合わせ,複数種類の不均質性をモデル化する統合型不均質学習フレームワークを提案する。 また,提案する重み付き教師付きコントラスト損失は同一クラスからの2つのサンプルの相互情報の下限であり,重み付き教師なしコントラスト損失は同一サンプルの2つのビューの隠れた表現間の相互情報の下限であることを示す理論的解析を行った。 実世界のデータセットにおける実験結果は,複数種類の不均一性をモデル化する提案手法の有効性と効率を示す。

With the advent of big data across multiple high-impact applications, we are often facing the challenge of complex heterogeneity. The newly collected data usually consist of multiple modalities and characterized with multiple labels, thus exhibiting the co-existence of multiple types of heterogeneity. Although state-of-the-art techniques are good at modeling the complex heterogeneity with sufficient label information, such label information can be quite expensive to obtain in real applications, leading to sub-optimal performance using these techniques. Inspired by the capability of contrastive learning to utilize rich unlabeled data for improving performance, in this paper, we propose a unified heterogeneous learning framework, which combines both weighted unsupervised contrastive loss and weighted supervised contrastive loss to model multiple types of heterogeneity. We also provide theoretical analyses showing that the proposed weighted supervised contrastive loss is the lower bound of the mutual information of two samples from the same class and the weighted unsupervised contrastive loss is the lower bound of the mutual information between the hidden representation of two views of the same sample. Experimental results on real-world data sets demonstrate the effectiveness and the efficiency of the proposed method modeling multiple types of heterogeneity.
翻訳日:2021-05-21 13:43:58 公開日:2021-05-19
# ニューラルネットワークを用いた計算形態学

Computational Morphology with Neural Network Approaches ( http://arxiv.org/abs/2105.09404v1 )

ライセンス: Link先を確認
Ling Liu(参考訳) ニューラルネットワークアプローチは計算形態学に多大な成功を収め、ほとんどのタスクのパフォーマンスを大きなマージンで改善し、モデリングの新しい視点を提供する。 本稿では,計算形態学を概説し,ニューラルネットワークを用いた計算形態学の最近の研究を概観し,その領域の概観について述べる。 最後に、計算形態学へのニューラルネットワークアプローチの利点と課題を分析し、今後の研究と研究で検討すべきいくつかの方向を指摘する。

Neural network approaches have been applied to computational morphology with great success, improving the performance of most tasks by a large margin and providing new perspectives for modeling. This paper starts with a brief introduction to computational morphology, followed by a review of recent work on computational morphology with neural network approaches, to provide an overview of the area. In the end, we will analyze the advantages and problems of neural network approaches to computational morphology, and point out some directions to be explored by future research and study.
翻訳日:2021-05-21 13:39:16 公開日:2021-05-19
# 無限ループ:静止画像における周期パターンの検出とアニメーション

Endless Loops: Detecting and Animating Periodic Patterns in Still Images ( http://arxiv.org/abs/2105.09374v1 )

ライセンス: Link先を確認
Tavi Halperin, Hanit Hakim, Orestis Vantzos, Gershon Hochman, Netai Benaim, Lior Sassy, Michael Kupchik, Ofir Bibi, Ohad Fried(参考訳) 本稿では,単一の画像からシームレスなアニメーションループを生成するアルゴリズムを提案する。 アルゴリズムは、建物の窓や階段の階段などの周期的な構造を検出し、その構造の各セグメントをユーザまたは自動選択された動き方向に沿って隣接するセグメントにマッピングする非自明な変位ベクトル場を生成する。 この変位場は、時間的および空間的平滑化と共に画像をワープし、連続したアニメーションループのフレームを生成する。 私たちのシネマグラフは、モバイルデバイス上で1秒で作成されます。 14万以上のユーザーがこのアプリをダウンロードし、35万本の映画を輸出した。 さらに,従来の手法に比べて,より手作業によるアプローチよりも,超現実的で構造化されたシネマグラフを作成する方法が好まれることを示す2つのユーザ研究を行った。

We present an algorithm for producing a seamless animated loop from a single image. The algorithm detects periodic structures, such as the windows of a building or the steps of a staircase, and generates a non-trivial displacement vector field that maps each segment of the structure onto a neighboring segment along a user- or auto-selected main direction of motion. This displacement field is used, together with suitable temporal and spatial smoothing, to warp the image and produce the frames of a continuous animation loop. Our cinemagraphs are created in under a second on a mobile device. Over 140,000 users downloaded our app and exported over 350,000 cinemagraphs. Moreover, we conducted two user studies that show that users prefer our method for creating surreal and structured cinemagraphs compared to more manual approaches and compared to previous methods.
翻訳日:2021-05-21 13:36:37 公開日:2021-05-19
# 鳥の羽:画像から鳥の形状モデルをキャプチャする

Birds of a Feather: Capturing Avian Shape Models from Images ( http://arxiv.org/abs/2105.09396v1 )

ライセンス: Link先を確認
Yufu Wang, Nikos Kolotouros, Kostas Daniilidis, Marc Badger(参考訳) 動物は形状が多様であるが、3Dデータがないため、新しい種のための変形可能な形状モデルを構築することは必ずしも不可能である。 そこで本研究では,そのテンプレートと画像を用いて新種を捕獲する手法を提案する。 本研究は主に鳥類に焦点を当てている。 鳥類は哺乳類のほぼ2倍の種を表すが、正確な形状モデルはない。 新たな種を捕獲するために、まず各トレーニングサンプルにarticulated templateを適合させる。 ポーズと形状を遠ざけることで、画像証拠から種間と種内の両方の変化を捉えた形状空間を学習する。 cubデータセットから複数の種のモデルを学び、下流の復元タスクに有用な新しい種特異的および多種多種形状モデルに寄与する。 低次元の埋め込みを用いて,我々は学習した3次元形状空間が,知覚的特徴よりも鳥類間の系統関係を反映することを示す。

Animals are diverse in shape, but building a deformable shape model for a new species is not always possible due to the lack of 3D data. We present a method to capture new species using an articulated template and images of that species. In this work, we focus mainly on birds. Although birds represent almost twice the number of species as mammals, no accurate shape model is available. To capture a novel species, we first fit the articulated template to each training sample. By disentangling pose and shape, we learn a shape space that captures variation both among species and within each species from image evidence. We learn models of multiple species from the CUB dataset, and contribute new species-specific and multi-species shape models that are useful for downstream reconstruction tasks. Using a low-dimensional embedding, we show that our learned 3D shape space better reflects the phylogenetic relationships among birds than learned perceptual features.
翻訳日:2021-05-21 13:36:25 公開日:2021-05-19
# エンド・ツー・エンドの教師なし文書画像ブラインド

End-to-End Unsupervised Document Image Blind Denoising ( http://arxiv.org/abs/2105.09437v1 )

ライセンス: Link先を確認
Mehrdad J Gangeh, Marcin Plata, Hamid Motahari, Nigel P Duffy(参考訳) スキャンされたページからノイズを取り除くことは、光学文字認識(OCR)システムに申請する前に重要なステップである。 ほとんどの利用可能な画像デノイジング手法は、ノイズ/クリーンページのペアが必要な場所で監督される。 しかし、この仮定は実際の設定では滅多に当てはまらない。 さらに、ドキュメントから様々なノイズタイプを削除できる単一のモデルは存在しない。 そこで本研究では,塩とペッパーのノイズ,ぼやけたテキスト,あるいは失明したテキストなど,さまざまな強度の文書からの透かしなど,複数の種類のノイズを効果的に除去できる,エンドツーエンドの非教師なし深層学習モデルを提案する。 提案手法は,複数のテストデータセットにおいて,スキャン画像の品質とページのocrを著しく改善することを示す。

Removing noise from scanned pages is a vital step before their submission to optical character recognition (OCR) system. Most available image denoising methods are supervised where the pairs of noisy/clean pages are required. However, this assumption is rarely met in real settings. Besides, there is no single model that can remove various noise types from documents. Here, we propose a unified end-to-end unsupervised deep learning model, for the first time, that can effectively remove multiple types of noise, including salt \& pepper noise, blurred and/or faded text, as well as watermarks from documents at various levels of intensity. We demonstrate that the proposed model significantly improves the quality of scanned images and the OCR of the pages on several test datasets.
翻訳日:2021-05-21 13:36:08 公開日:2021-05-19
# 機械学習による糖尿病および未診断糖尿病の危険因子の同定

Using Machine Learning Techniques to Identify Key Risk Factors for Diabetes and Undiagnosed Diabetes ( http://arxiv.org/abs/2105.09379v1 )

ライセンス: Link先を確認
Avraham Adler(参考訳) 本稿では、全国健康栄養検査調査(nhanes)の8年間のデータを用いて、糖尿病の有無と未診断糖尿病の有無の両方を予測するための機械学習モデルについて概説する。 モデルは調整され、ブライヤスコアで比較される。 次に、最高のパフォーマンスモデルの最も重要な変数を比較します。 リニアカーネルを備えたサポートベクターマシンは、糖尿病の予測に最も適しており、試験セット上でブライアスコア 0.0654 と auroc を 0.9235 で返す。 測定値が0.0294, AUROCが0.9439, 未診断糖尿病の予測に最適であった。 類似した特徴は、両方のモデルのモデルに顕著に現れる。 血液浸透圧、家族歴、様々な化合物の有病率、高血圧は全ての糖尿病リスクの指標である。 特に未診断の糖尿病には、強い相関関係として生じる民族性や遺伝的要素がある。

This paper reviews a wide selection of machine learning models built to predict both the presence of diabetes and the presence of undiagnosed diabetes using eight years of National Health and Nutrition Examination Survey (NHANES) data. Models are tuned and compared via their Brier Scores. The most relevant variables of the best performing models are then compared. A Support Vector Machine with a linear kernel performed best for predicting diabetes, returning a Brier score of 0.0654 and an AUROC of 0.9235 on the test set. An elastic net regression performed best for predicting undiagnosed diabetes with a Brier score of 0.0294 and an AUROC of 0.9439 on the test set. Similar features appear prominently in the models for both sets of models. Blood osmolality, family history, the prevalance of various compounds, and hypertension are key indicators for all diabetes risk. For undiagnosed diabetes in particular, there are ethnicity or genetic components which arise as strong correlates as well.
翻訳日:2021-05-21 13:31:42 公開日:2021-05-19
# グラフ衛生とノード分類への応用

Graph Sanitation with Application to Node Classification ( http://arxiv.org/abs/2105.09384v1 )

ライセンス: Link先を確認
Zhe Xu and Hanghang Tong(参考訳) 過去数十年間、グラフマイニングが繁栄し、ランキング、分類、クラスタリング、異常検出など、さまざまなマイニングタスク用に設計された洗練されたモデルやアルゴリズムが数多く登場してきた。 一般的に言えば、既存の作品の大部分は以下の質問に答えることを目的としています。 本稿では,直交質問への回答として,グラフ衛生問題を提案する。 つまり、マイニングタスクと初期グラフを考えると、最初に提供されたグラフを改善する最善の方法は何か? マイニングモデルの入力の一部として、より良いグラフを学習することで、デノイング、インキュベーション、ディフェンスなど、さまざまな環境でグラフマイニングの恩恵を受けることが期待されている。 グラフ衛生問題を二段階最適化問題として定式化し、さらに半教師付きノード分類により、GaSoliNeという効果的な解法とともにインスタンス化する。 その結果,提案手法は,(1)異なるグラフニューラルネットワークモデルと柔軟なグラフ修正戦略に対して広く適用可能であること,(2)様々な摂動シナリオにおける元のグラフと汚染されたグラフのノード分類精度の向上に有効であることを示した。 特に、既存の堅牢なグラフニューラルネットワークメソッドに対して、25%のパフォーマンス向上をもたらす。

The past decades have witnessed the prosperity of graph mining, with a multitude of sophisticated models and algorithms designed for various mining tasks, such as ranking, classification, clustering and anomaly detection. Generally speaking, the vast majority of the existing works aim to answer the following question, that is, given a graph, what is the best way to mine it? In this paper, we introduce the graph sanitation problem, to answer an orthogonal question. That is, given a mining task and an initial graph, what is the best way to improve the initially provided graph? By learning a better graph as part of the input of the mining model, it is expected to benefit graph mining in a variety of settings, ranging from denoising, imputation to defense. We formulate the graph sanitation problem as a bilevel optimization problem, and further instantiate it by semi-supervised node classification, together with an effective solver named GaSoliNe. Extensive experimental results demonstrate that the proposed method is (1) broadly applicable with respect to different graph neural network models and flexible graph modification strategies, (2) effective in improving the node classification accuracy on both the original and contaminated graphs in various perturbation scenarios. In particular, it brings up to 25% performance improvement over the existing robust graph neural network methods.
翻訳日:2021-05-21 13:31:27 公開日:2021-05-19
# disttune: 交通ネットワーク拡大のための分散細粒度適応交通速度予測

DistTune: Distributed Fine-Grained Adaptive Traffic Speed Prediction for Growing Transportation Networks ( http://arxiv.org/abs/2105.09421v1 )

ライセンス: Link先を確認
Ming-Chang Lee, Jia-Chun Lin, and Ernst Gunnar Gran(参考訳) 過去10年間、交通速度予測に多くのアプローチが導入された。 しかし,ネットワーク規模が拡大し,新たなトラヒック検出装置が常に配備されている交通ネットワークに対して,細かな粒度,精度,時間効率,適応的なトラヒック速度予測を提供することは十分に研究されていない。 本稿では,Long Short-Term Memory(LSTM)とNelder-Mead法に基づくDistTuneを提案する。 未処理の検出器に遭遇するたびに、DistTuneはこの検出器のLSTMモデルを正常化された速度パターンで他の処理された検出器と比較することによってカスタマイズするかどうかを決定する。 類似性が見つかれば、DistTuneはこの検出器と既存のLSTMモデルを直接共有し、時間効率な処理を実現する。 そうでなければ、DistTuneは検出器のLSTMモデルをカスタマイズして、きめ細かい予測を行う。 DistTuneをさらに時間効率よくするために、DistTuneは並列に計算ノードのクラスタ上で機能する。 適応的な交通速度予測を実現するために、DistTuneは、例えば交通速度パターンの変化による不満足な予測精度に苦しむ検出器のLSTM再最適化も提供する。 カリフォルニア州の高速道路I5-Nから収集した交通データに基づく大規模実験を行い,DistTuneの性能評価を行った。 その結果,disttuneは交通網の拡大に対して,細粒度,精度,時間効率,適応的な交通速度予測を提供することがわかった。

Over the past decade, many approaches have been introduced for traffic speed prediction. However, providing fine-grained, accurate, time-efficient, and adaptive traffic speed prediction for a growing transportation network where the size of the network keeps increasing and new traffic detectors are constantly deployed has not been well studied. To address this issue, this paper presents DistTune based on Long Short-Term Memory (LSTM) and the Nelder-Mead method. Whenever encountering an unprocessed detector, DistTune decides if it should customize an LSTM model for this detector by comparing the detector with other processed detectors in terms of the normalized traffic speed patterns they have observed. If similarity is found, DistTune directly shares an existing LSTM model with this detector to achieve time-efficient processing. Otherwise, DistTune customizes an LSTM model for the detector to achieve fine-grained prediction. To make DistTune even more time-efficient, DistTune performs on a cluster of computing nodes in parallel. To achieve adaptive traffic speed prediction, DistTune also provides LSTM re-customization for detectors that suffer from unsatisfactory prediction accuracy due to for instance traffic speed pattern change. Extensive experiments based on traffic data collected from freeway I5-N in California are conducted to evaluate the performance of DistTune. The results demonstrate that DistTune provides fine-grained, accurate, time-efficient, and adaptive traffic speed prediction for a growing transportation network.
翻訳日:2021-05-21 13:31:07 公開日:2021-05-19
# 単調作用素理論を用いた三値および多値最適化

Trilevel and Multilevel Optimization using Monotone Operator Theory ( http://arxiv.org/abs/2105.09407v1 )

ライセンス: Link先を確認
Allahkaram Shafiei and Vyacheslav Kungurtsev and Jakub Marecek(参考訳) 我々はむしろ、凸目的関数を最小化し、ネスト凸最適化問題のオプティマに制約を課す多レベル最適化問題の一般的なクラスであると考える。 特殊な場合として, 2つの下層層の目的が滑らかな項と非スムース項の和からなる三次最適化問題を考える。 固定点理論と関連する議論に基づき、自然一階アルゴリズムを示し、その収束率と収束率をパラメータのいくつかのレジームで解析する。

We consider rather a general class of multi-level optimization problems, where a convex objective function is to be minimized, subject to constraints to optima of a nested convex optimization problem. As a special case, we consider a trilevel optimization problem, where the objective of the two lower layers consists of a sum of a smooth and a non-smooth term. Based on fixed-point theory and related arguments, we present a natural first-order algorithm and analyze its convergence and rates of convergence in several regimes of parameters.
翻訳日:2021-05-21 13:30:20 公開日:2021-05-19
# kemenyランクアグリゲーションの多様性:パラメータ化アプローチ

Diversity in Kemeny Rank Aggregation: A Parameterized Approach ( http://arxiv.org/abs/2105.09413v1 )

ライセンス: Link先を確認
Emmanuel Arrighi, Henning Fernau, Daniel Lokshtanov, Mateus de Oliveira Oliveira, Petra Wolf(参考訳) 最も伝統的な設定では、最適化理論の主な関心事は、与えられた計算問題のインスタンスに対する最適解の探索である。 ソリューション多様性と呼ばれる最近の人工知能研究のトレンドは、主観性が不可欠である設定においてより適切な最適性の概念の開発に焦点を当てている。 目的は、一つの最適解を出力するアルゴリズムの開発ではなく、互いに十分に多様な十分良い解の小さなセットを出力するアルゴリズムを調査することである。 このようにして、ユーザは、目の前のコンテキストに最も適したソリューションを選択することができる。 また、解空間の豊かさも示している。 パラメタライズド複雑性理論の手法と組み合わせると、ソリューションの多様性のパラダイムは、実用的な妥当性の問題に対処する強力なアルゴリズムフレームワークを提供する。 本研究では,この組み合わせが,秩序論と社会的選択論の交叉や秩序論自体の分野においてもよく研究されている問題であるケメニー・ランク・アグリゲーションの分野に与える影響を考察する。 特に、ケメニ・ランク・アグリゲーション問題は、多様性の概念と十分良い解の概念の自然な定式化を提供する自然なパラメータに関して、一定のパラメータを抽出可能であることを示す。 我々の主な成果は、線形に順序付けられた投票よりも伝統的な集計の設定を考えるときと、部分的に投票が順序付けられたより一般的な場合の両方に当てはまる。

In its most traditional setting, the main concern of optimization theory is the search for optimal solutions for instances of a given computational problem. A recent trend of research in artificial intelligence, called solution diversity, has focused on the development of notions of optimality that may be more appropriate in settings where subjectivity is essential. The idea is that instead of aiming at the development of algorithms that output a single optimal solution, the goal is to investigate algorithms that output a small set of sufficiently good solutions that are sufficiently diverse from one another. In this way, the user has the opportunity to choose the solution that is most appropriate to the context at hand. It also displays the richness of the solution space. When combined with techniques from parameterized complexity theory, the paradigm of diversity of solutions offers a powerful algorithmic framework to address problems of practical relevance. In this work, we investigate the impact of this combination in the field of Kemeny Rank Aggregation, a well-studied class of problems lying in the intersection of order theory and social choice theory and also in the field of order theory itself. In particular, we show that the Kemeny Rank Aggregation problem is fixed-parameter tractable with respect to natural parameters providing natural formalizations of the notions of diversity and of the notion of a sufficiently good solution. Our main results work both when considering the traditional setting of aggregation over linearly ordered votes, and in the more general setting where votes are partially ordered.
翻訳日:2021-05-21 13:30:10 公開日:2021-05-19
# リカレント畳み込みニューラルネットワークを用いた拡散強調画像のロバスト部分フーリエ再構成

Robust partial Fourier reconstruction for diffusion-weighted imaging using a recurrent convolutional neural network ( http://arxiv.org/abs/2105.09378v1 )

ライセンス: Link先を確認
Fasil Gadjimuradov, Thomas Benkert, Marcel Dominik Nickel, Andreas Maier(参考訳) 目的: 非滑らかな位相変化を有する拡散重み付き(DW)画像に適用可能なロバスト部分フーリエ再構成アルゴリズムを開発すること。 手法: 非線形近位分割アルゴリズムに基づいて、繰り返し畳み込みによって実装されるデータ一貫性演算と正規化を交互に行うニューラルネットワークアーキテクチャを導出する。 相関を利用するために、置換同分散を考慮した同一スライスの複数の繰り返しを共同で再構成する。 提案手法は,60名のボランティアのdw肝データに基づいて訓練し,様々な解剖学的および解像度の遡及的および予測的サブサンプリングデータを用いて評価した。 また、他のロールング戦略よりもリカレントネットワークを利用するメリットについても検討した。 結果: 従来のPF技術は, 定量的測定や知覚的画質において, 著しく優れていた。 提案手法は,学習セットに存在しないコントラストと解像度を用いて,脳データによく一般化することができる。 pfサンプリングに伴うエコー時間(te)の低減は、より高い信号によるdwイメージングを可能にする。 また、高解像度の買収のTE増加を補うことができる。 重み付きネットワークやネットワークのカスケードよりも,再帰的ネットワークによるロールアウトの方が良好な結果が得られたことを示すことができる。 結論: 本研究はDWデータの堅牢なPF再構成が, 位相変化の激しいアプリケーションにおいて, 強いPF因子でも実現可能であることを示す。 提案手法は相の滑らかさを優先するものではなく,学習再帰畳み込みを用いるため,従来のpf法のアーチファクトを回避できる。

Purpose: To develop an algorithm for robust partial Fourier (PF) reconstruction applicable to diffusion-weighted (DW) images with non-smooth phase variations. Methods: Based on an unrolled proximal splitting algorithm, a neural network architecture is derived which alternates between data consistency operations and regularization implemented by recurrent convolutions. In order to exploit correlations, multiple repetitions of the same slice are jointly reconstructed under consideration of permutation-equivari ance. The proposed method is trained on DW liver data of 60 volunteers and evaluated on retrospectively and prospectively sub-sampled data of different anatomies and resolutions. In addition, the benefits of using a recurrent network over other unrolling strategies is investigated. Results: Conventional PF techniques can be significantly outperformed in terms of quantitative measures as well as perceptual image quality. The proposed method is able to generalize well to brain data with contrasts and resolution not present in the training set. The reduction in echo time (TE) associated with prospective PF-sampling enables DW imaging with higher signal. Also, the TE increase in acquisitions with higher resolution can be compensated for. It can be shown that unrolling by means of a recurrent network produced better results than using a weight-shared network or a cascade of networks. Conclusion: This work demonstrates that robust PF reconstruction of DW data is feasible even at strong PF factors in applications with severe phase variations. Since the proposed method does not rely on smoothness priors of the phase but uses learned recurrent convolutions instead, artifacts of conventional PF methods can be avoided.
翻訳日:2021-05-21 13:28:44 公開日:2021-05-19
# フェデレーション学習における勾配からのユーザラベル漏洩

User Label Leakage from Gradients in Federated Learning ( http://arxiv.org/abs/2105.09369v1 )

ライセンス: Link先を確認
Aidmar Wainakh and Fabrizio Ventola and Till M\"u{\ss}ig and Jens Keim and Carlos Garcia Cordero and Ephraim Zimmer and Tim Grube and Kristian Kersting and Max M\"uhlh\"auser(参考訳) フェデレーション学習(federated learning)は、複数のユーザがモデル更新(gradients)を共有することによって、ジョイントモデルを構築することができる。 これはプライバシーの利点をもたらすという一般的な信念とは対照的に、勾配を共有する際のプライバシーリスクに関する最近の結果に追加します。 具体的には,Gradients (LLG) のラベル漏洩を,共有勾配からユーザのトレーニングデータのラベルを抽出する新たな攻撃として提案する。 この攻撃は、ラベルの有無を決定するために勾配の方向と大きさを利用する。 LLGは単純だが有効であり、ラベルで表される潜在的な機密情報をリークし、任意のバッチサイズや複数のクラスにスケールできる。 我々は,異なる環境下での攻撃の有効性を経験的,数学的に実証する。 さらに, 実験結果から, LLGはモデルトレーニングの初期段階において, 高い精度でラベルを抽出することに成功した。 また,このような漏洩に対する防御機構についても論じる。 以上の結果から,傾斜圧縮は攻撃防止のための実用的な手法であることが示唆された。

Federated learning enables multiple users to build a joint model by sharing their model updates (gradients), while their raw data remains local on their devices. In contrast to the common belief that this provides privacy benefits, we here add to the very recent results on privacy risks when sharing gradients. Specifically, we propose Label Leakage from Gradients (LLG), a novel attack to extract the labels of the users' training data from their shared gradients. The attack exploits the direction and magnitude of gradients to determine the presence or absence of any label. LLG is simple yet effective, capable of leaking potential sensitive information represented by labels, and scales well to arbitrary batch sizes and multiple classes. We empirically and mathematically demonstrate the validity of our attack under different settings. Moreover, empirical results show that LLG successfully extracts labels with high accuracy at the early stages of model training. We also discuss different defense mechanisms against such leakage. Our findings suggest that gradient compression is a practical technique to prevent our attack.
翻訳日:2021-05-21 13:26:02 公開日:2021-05-19
# 連合学習におけるパワーの分離

Separation of Powers in Federated Learning ( http://arxiv.org/abs/2105.09400v1 )

ライセンス: Link先を確認
Pau-Chen Cheng, Kevin Eykholt, Zhongshu Gu, Hani Jamjoom, K. R. Jayaram, Enriquillo Valdez, Ashish Verma(参考訳) フェデレートラーニング(FL)は、相互不信者間の協調的なトレーニングを可能にする。 モデルの更新は、トレーニングデータではなく、中央アグリゲーションサーバに集中し、融合する。 FLの重要なセキュリティ上の課題は、信頼できないあるいは妥協された集約プロセスが、予期せぬ情報漏洩を引き起こす可能性があることである。 モデル更新から大量のトレーニングデータを再構築した最近実証された攻撃のため、この課題は特に深刻である。 本稿では,信頼性の高い分散集約アーキテクチャを用いて,単一アグリゲータに関する情報集中を分解する新しいクロスサイロFLシステムであるTRUDAを紹介する。 モデル融合アルゴリズムのユニークな計算特性に基づき、TRUDAのすべての交換モデル更新はパラメータ粒度で分解され、複数のTEE保護アグリゲータに指定されたランダムパーティションに再設定される。 したがって、各アグリゲータはモデル更新の断片的でシャッフルされたビューしか持たず、モデルアーキテクチャに従わない。 新たなセキュリティメカニズムは、トレーニングモデルの最終精度を維持しつつ、パフォーマンスオーバーヘッドを低く保ちながら、トレーニング再構築攻撃を根本的に軽減することができる。

Federated Learning (FL) enables collaborative training among mutually distrusting parties. Model updates, rather than training data, are concentrated and fused in a central aggregation server. A key security challenge in FL is that an untrustworthy or compromised aggregation process might lead to unforeseeable information leakage. This challenge is especially acute due to recently demonstrated attacks that have reconstructed large fractions of training data from ostensibly "sanitized" model updates. In this paper, we introduce TRUDA, a new cross-silo FL system, employing a trustworthy and decentralized aggregation architecture to break down information concentration with regard to a single aggregator. Based on the unique computational properties of model-fusion algorithms, all exchanged model updates in TRUDA are disassembled at the parameter-granularit y and re-stitched to random partitions designated for multiple TEE-protected aggregators. Thus, each aggregator only has a fragmentary and shuffled view of model updates and is oblivious to the model architecture. Our new security mechanisms can fundamentally mitigate training reconstruction attacks, while still preserving the final accuracy of trained models and keeping performance overheads low.
翻訳日:2021-05-21 13:25:46 公開日:2021-05-19
# (参考訳) 局在、凸性、星の凝集 [全文訳有]

Localization, Convexity, and Star Aggregation ( http://arxiv.org/abs/2105.08866v1 )

ライセンス: CC BY 4.0
Suhas Vijaykumar(参考訳) オフセットラデマッハの複雑性は、不適切な統計学習やオンライン学習を含む幅広い種類の問題において、正方形損失に対するデータ依存の上界を鋭く示すことが示されている。 統計的設定では、オフセット複雑性上界は、ある一様凸条件を満たす任意の損失に一般化可能であることを示す。 驚くべきことに、この状態は指数的凹凸と自己一致を捉え、明らかに異なる結果のいくつかをまとめている。 統一的な幾何学的引数により、これらの境界はアウディベルトの「スターアルゴリズム」を用いて非凸クラスにおける不適切な学習に直接変換される。 応用として、$p$-loss, $1 < p < \infty$, ギャップを$p > 2$で閉ざし、経験的リスク最小化の不適切な変種がロジスティック回帰やその他の一般化線形モデルに対して高速な速度が得られることを示す。

Offset Rademacher complexities have been shown to imply sharp, data-dependent upper bounds for the square loss in a broad class of problems including improper statistical learning and online learning. We show that in the statistical setting, the offset complexity upper bound can be generalized to any loss satisfying a certain uniform convexity condition. Amazingly, this condition is shown to also capture exponential concavity and self-concordance, uniting several apparently disparate results. By a unified geometric argument, these bounds translate directly to improper learning in a non-convex class using Audibert's "star algorithm." As applications, we recover the optimal rates for proper and improper learning with the $p$-loss, $1 < p < \infty$, closing the gap for $p > 2$, and show that improper variants of empirical risk minimization can attain fast rates for logistic regression and other generalized linear models.
翻訳日:2021-05-20 22:08:07 公開日:2021-05-19
# (参考訳) AIと倫理 - 責任あるAIを運用する [全文訳有]

AI and Ethics -- Operationalising Responsible AI ( http://arxiv.org/abs/2105.08867v1 )

ライセンス: CC BY-SA 4.0
Liming Zhu, Xiwei Xu, Qinghua Lu, Guido Governatori, Jon Whittle(参考訳) ここ数年、AIは社会に肯定的な影響を示す一方で、倫理的に疑わしい結果をもたらすこともある。 aiに対する公共の信頼の構築と維持は、成功し持続可能なイノベーションの鍵と認識されている。 この章では、倫理的AI原則の運用に関する課題について論じ、高レベルの倫理的AI原則、信頼/信頼の一般的な概念、責任あるAIの文脈における製品/プロセスのサポートをカバーし、より広範な利害関係者に対するAIの信頼と信頼の両面の改善を支援する、統合された見解を提示します。

In the last few years, AI continues demonstrating its positive impact on society while sometimes with ethically questionable consequences. Building and maintaining public trust in AI has been identified as the key to successful and sustainable innovation. This chapter discusses the challenges related to operationalizing ethical AI principles and presents an integrated view that covers high-level ethical AI principles, the general notion of trust/trustworthines s, and product/process support in the context of responsible AI, which helps improve both trust and trustworthiness of AI for a wider set of stakeholders.
翻訳日:2021-05-20 21:38:44 公開日:2021-05-19
# (参考訳) Nystr\"om Kernel PCAの統計的最適性と計算効率 [全文訳有]

Statistical Optimality and Computational Efficiency of Nystr\"om Kernel PCA ( http://arxiv.org/abs/2105.08875v1 )

ライセンス: CC BY 4.0
Nicholas Sterge, Bharath Sriperumbudur(参考訳) カーネル法は、単純な線形手法から非線形学習アルゴリズムを開発するためのエレガントなフレームワークを提供する。 これらの手法は複数の実データアプリケーションにおいて優れた経験的性能を有するが、大規模なサンプル状況で発生する計算負荷によってその有用性は阻害される。 これらの計算問題を緩和するために様々な近似スキームが文献に提案されており、近似カーネルマシンは経験的性能を維持することが示されている。 しかし、これらの近似カーネルマシンの理論的性質はよく理解されていない。 本研究では,nystr\"om 近似核主成分分析 (kpca) における計算複雑性と統計精度のトレードオフを理論的に検討し,nystr\"om 近似 kpca が計算上有益でありながら (非近似) kpca の統計性能と一致することを示す。 さらに、Nystr\"om almost KPCA"は、KPCAに適用した場合に、他の一般的な近似手法であるランダム特徴近似の統計的挙動よりも優れていることを示す。

Kernel methods provide an elegant framework for developing nonlinear learning algorithms from simple linear methods. Though these methods have superior empirical performance in several real data applications, their usefulness is inhibited by the significant computational burden incurred in large sample situations. Various approximation schemes have been proposed in the literature to alleviate these computational issues, and the approximate kernel machines are shown to retain the empirical performance. However, the theoretical properties of these approximate kernel machines are less well understood. In this work, we theoretically study the trade-off between computational complexity and statistical accuracy in Nystr\"om approximate kernel principal component analysis (KPCA), wherein we show that the Nystr\"om approximate KPCA matches the statistical performance of (non-approximate) KPCA while remaining computationally beneficial. Additionally, we show that Nystr\"om approximate KPCA outperforms the statistical behavior of another popular approximation scheme, the random feature approximation, when applied to KPCA.
翻訳日:2021-05-20 21:25:01 公開日:2021-05-19
# (参考訳) エネルギー最適化のための微分射影による政策可能性制約の実施 [全文訳有]

Enforcing Policy Feasibility Constraints through Differentiable Projection for Energy Optimization ( http://arxiv.org/abs/2105.08881v1 )

ライセンス: CC BY 4.0
Bingqing Chen, Priya Donti, Kyri Baker, J. Zico Kolter, Mario Berges(参考訳) 強化学習(RL)はエネルギーシステム制御において人気が高まりつつあるが、その実世界の応用は、学習方針からのアクションが機能要件を満たしていないり、基礎となる物理システムに対して実現可能であるため限られている。 本研究では,ニューラルポリシー内での凸操作制約を強制する方法であるProjected Feasibility (PROF)を提案する。 具体的には、ニューラルネットワークベースのポリシに微分可能な投影層を組み込んで、すべての学習アクションが実現可能であることを強制します。 次に、この微分可能な投影層を通して勾配を伝播することで、ポリシーをエンドツーエンドに更新し、ポリシーを運用上の制約を認識します。 本手法は,エネルギー効率の高い建築操作とインバータ制御の2つの応用について実証する。 建築作業環境において,PROFは熱的快適性を保ちながら,最先端手法よりもエネルギー効率を4%向上することを示した。 インバータ制御設定では、PRFはIEEE 37バス供給システムの電圧制約を完全に満たし、安全セット内で可能な限り再生可能エネルギーを削減できるように学習する。

While reinforcement learning (RL) is gaining popularity in energy systems control, its real-world applications are limited due to the fact that the actions from learned policies may not satisfy functional requirements or be feasible for the underlying physical system. In this work, we propose PROjected Feasibility (PROF), a method to enforce convex operational constraints within neural policies. Specifically, we incorporate a differentiable projection layer within a neural network-based policy to enforce that all learned actions are feasible. We then update the policy end-to-end by propagating gradients through this differentiable projection layer, making the policy cognizant of the operational constraints. We demonstrate our method on two applications: energy-efficient building operation and inverter control. In the building operation setting, we show that PROF maintains thermal comfort requirements while improving energy efficiency by 4% over state-of-the-art methods. In the inverter control setting, PROF perfectly satisfies voltage constraints on the IEEE 37-bus feeder system, as it learns to curtail as little renewable energy as possible within its safety set.
翻訳日:2021-05-20 20:38:04 公開日:2021-05-19
# (参考訳) クリックスルーレート予測におけるコールドスタート広告のためのグラフメタ埋め込み学習 [全文訳有]

Learning Graph Meta Embeddings for Cold-Start Ads in Click-Through Rate Prediction ( http://arxiv.org/abs/2105.08909v1 )

ライセンス: CC BY 4.0
Wentao Ouyang, Xiuwu Zhang, Shukui Ren, Li Li, Kun Zhang, Jinmei Luo, Zhaojie Liu, Yanlong Du(参考訳) クリックスルー率(CTR)予測は、オンライン広告システムにおいて最も重要なタスクの1つである。 特徴埋め込みと高次データの非線形性を利用した最近のディープラーニングモデルでは、CTR予測が劇的に成功した。 しかし、これらのモデルは新しいIDを使ったコールドスタート広告ではうまく機能しない。 本稿では,グラフニューラルネットワークとメタ学習に基づいて,新しい広告IDに最適な初期埋め込みを生成する方法を高速に学習できるグラフメタ埋め込み(GME)モデルを提案する。 これまでの作業は、この新しい広告そのものからこの問題に対処するが、既存の古い広告に含まれる有用な情報を無視する。 対照的に、GMEは2つの情報ソース(新しい広告と既存の古い広告)を同時に検討している。 新しい広告では、GMEは関連する属性を利用する。 既存の古い広告のために、GMEはまずグラフを作り、それらを新しい広告に結びつける。 異なる視点から3つの特定のGMEを提案し、どのような情報を使用するか、どのように情報を蒸留するかを探索する。 特に、GME-Pは事前訓練された隣接ID埋め込み、GME-Gは生成された隣接ID埋め込み、GME-Aは隣接属性を使用する。 3つの実世界のデータセットにおける実験結果は、gmesが5つの主要なディープラーニングベースのctr予測モデルに対して、コールドスタート(トレーニングデータがない)とウォームアップ(少数のトレーニングサンプルが収集される)の両方のシナリオにおいて、予測性能を大幅に改善できることを示しています。 GMEは変換率(CVR)予測にも適用できる。

Click-through rate (CTR) prediction is one of the most central tasks in online advertising systems. Recent deep learning-based models that exploit feature embedding and high-order data nonlinearity have shown dramatic successes in CTR prediction. However, these models work poorly on cold-start ads with new IDs, whose embeddings are not well learned yet. In this paper, we propose Graph Meta Embedding (GME) models that can rapidly learn how to generate desirable initial embeddings for new ad IDs based on graph neural networks and meta learning. Previous works address this problem from the new ad itself, but ignore possibly useful information contained in existing old ads. In contrast, GMEs simultaneously consider two information sources: the new ad and existing old ads. For the new ad, GMEs exploit its associated attributes. For existing old ads, GMEs first build a graph to connect them with new ads, and then adaptively distill useful information. We propose three specific GMEs from different perspectives to explore what kind of information to use and how to distill information. In particular, GME-P uses Pre-trained neighbor ID embeddings, GME-G uses Generated neighbor ID embeddings and GME-A uses neighbor Attributes. Experimental results on three real-world datasets show that GMEs can significantly improve the prediction performance in both cold-start (i.e., no training data is available) and warm-up (i.e., a small number of training samples are collected) scenarios over five major deep learning-based CTR prediction models. GMEs can be applied to conversion rate (CVR) prediction as well.
翻訳日:2021-05-20 20:16:34 公開日:2021-05-19
# (参考訳) 集中治療中のcovid-19患者に対する強化学習支援酸素療法 [全文訳有]

Reinforcement Learning Assisted Oxygen Therapy for COVID-19 Patients Under Intensive Care ( http://arxiv.org/abs/2105.08923v1 )

ライセンス: CC BY 4.0
Hua Zheng, Jiahao Zhu, Wei Xie, Judy Zhong(参考訳) 重篤なコロナウイルス19(COVID-19)患者は、通常、必須治療として補充酸素を必要とする。 本研究では,集中治療中の重篤者に対する酸素流量の継続的な管理を目的とした深層強化学習(RL)に基づく機械学習アルゴリズムを開発した。 基本的には、新型コロナウイルス患者とその健康状態の酸素流量軌跡をマルコフ決定プロセスとしてモデル化した。 個別の患者特性と健康状態に基づいて、強化学習に基づく酸素管理ポリシーを学習し、死亡率を減らすために酸素流量をリアルタイムに推奨する。 本研究は,2020年4月から2021年1月までに,ニューヨーク大学ラングーン保健センターの重症心身障害患者1,372名を対象に,電子カルテを用いた相互検証を行い,提案手法の有効性を検証した。 RLアルゴリズムの平均死亡率は2.57%(95% CI: 2.08-3.06)の減少率(P<0.001)から、我々のアルゴリズムでは7.94%から5.37%に低下し、推奨酸素流量は、実際に患者に届けられた率よりも1.28L/min(95% CI: 1.14-1.42)低い。 したがって、rlアルゴリズムは、酸素不足の資源を節約しながら、死亡率を低減できるより集中治療に繋がる可能性がある。 新型コロナウイルス(COVID-19)のパンデミックで酸素不足の問題を減らし、公衆衛生を改善できる。

Patients with severe Coronavirus disease 19 (COVID-19) typically require supplemental oxygen as an essential treatment. We developed a machine learning algorithm, based on a deep Reinforcement Learning (RL), for continuous management of oxygen flow rate for critical ill patients under intensive care, which can identify the optimal personalized oxygen flow rate with strong potentials to reduce mortality rate relative to the current clinical practice. Basically, we modeled the oxygen flow trajectory of COVID-19 patients and their health outcomes as a Markov decision process. Based on individual patient characteristics and health status, a reinforcement learning based oxygen control policy is learned and real-time recommends the oxygen flow rate to reduce the mortality rate. We assessed the performance of proposed methods through cross validation by using a retrospective cohort of 1,372 critically ill patients with COVID-19 from New York University Langone Health ambulatory care with electronic health records from April 2020 to January 2021. The mean mortality rate under the RL algorithm is lower than standard of care by 2.57% (95% CI: 2.08- 3.06) reduction (P<0.001) from 7.94% under the standard of care to 5.37 % under our algorithm and the averaged recommended oxygen flow rate is 1.28 L/min (95% CI: 1.14-1.42) lower than the rate actually delivered to patients. Thus, the RL algorithm could potentially lead to better intensive care treatment that can reduce mortality rate, while saving the oxygen scarce resources. It can reduce the oxygen shortage issue and improve public health during the COVID-19 pandemic.
翻訳日:2021-05-20 19:57:20 公開日:2021-05-19
# (参考訳) 関係推論のための補足構造学習ニューラルネットワーク [全文訳有]

Complementary Structure-Learning Neural Networks for Relational Reasoning ( http://arxiv.org/abs/2105.08944v1 )

ライセンス: CC BY 4.0
Jacob Russin, Maryam Zolfaghar, Seongmin A. Park, Erie Boorman, Randall C. O'Reilly(参考訳) フレキシブルリレーショナル推論をサポートする神経機構は、特に新しい状況において、現在の研究の大きな焦点となっている。 補足的な学習システムフレームワークでは、海馬におけるパターン分離は、新しい環境での迅速な学習を可能にするが、新皮質での学習の遅さは小さな変化を蓄積し、よく学習された環境から体系的な構造を抽出する。 本研究では,この枠組みを,暗黙的関係構造に従って新しい推移的推論を行なわなければならない最近のfMRI実験の課題に適用する。 これら2つのシステムの基本的な認知特性を捉えた計算モデルは,慣れ親しんだ環境と新しい環境の両方における関係推移的推論を説明でき,fmri実験で観測された重要な現象を再現できる。

The neural mechanisms supporting flexible relational inferences, especially in novel situations, are a major focus of current research. In the complementary learning systems framework, pattern separation in the hippocampus allows rapid learning in novel environments, while slower learning in neocortex accumulates small weight changes to extract systematic structure from well-learned environments. In this work, we adapt this framework to a task from a recent fMRI experiment where novel transitive inferences must be made according to implicit relational structure. We show that computational models capturing the basic cognitive properties of these two systems can explain relational transitive inferences in both familiar and novel environments, and reproduce key phenomena observed in the fMRI experiment.
翻訳日:2021-05-20 19:44:38 公開日:2021-05-19
# (参考訳) 多段階統合ネットワークによるマルチコントラストMRI超解像 [全文訳有]

Multi-Contrast MRI Super-Resolution via a Multi-Stage Integration Network ( http://arxiv.org/abs/2105.08949v1 )

ライセンス: CC BY 4.0
Chun-Mei Feng, Huazhu Fu, Shuhao Yuan, and Yong Xu(参考訳) 超分解能(sr)は磁気共鳴イメージング(mri)の画質向上に重要な役割を果たしている。 MRIはマルチコントラスト画像を生成し、軟部組織の明瞭な表示を提供する。 しかし、現在の超解像法は単一のコントラストのみを用いるか、あるいは単純なマルチコントラスト融合機構を用いて、SRを改善するのに有用な異なるコントラスト間のリッチな関係を無視している。 本研究では,マルチコントラスト画像間の依存関係をモデル化し,画像srを導出するマルチコントラストmri用マルチステージ統合ネットワーク(すなわちminant)を提案する。 特に,我々はまず,異なるコントラスト画像の複数の畳み込み段階から階層的な特徴表現を学習する。 次に,マルチコントラスト画像の表現間の包括的関係をマイニングするために,多段階統合モジュールを導入する。 具体的には、モジュールは各表現を他のすべての特徴と一致させ、その類似性の観点から統合してリッチな表現を得る。 高速MRIおよび実世界の臨床データセットに関する大規模な実験により、1)MINetは、様々な指標で最先端のマルチコントラストSR法より優れており、2)マルチステージ統合モジュールは、異なる段階におけるマルチコントラスト特徴間の複雑な相互作用を発掘することができ、目標画像の品質が向上することを示した。

Super-resolution (SR) plays a crucial role in improving the image quality of magnetic resonance imaging (MRI). MRI produces multi-contrast images and can provide a clear display of soft tissues. However, current super-resolution methods only employ a single contrast, or use a simple multi-contrast fusion mechanism, ignoring the rich relations among different contrasts, which are valuable for improving SR. In this work, we propose a multi-stage integration network (i.e., MINet) for multi-contrast MRI SR, which explicitly models the dependencies between multi-contrast images at different stages to guide image SR. In particular, our MINet first learns a hierarchical feature representation from multiple convolutional stages for each of different-contrast image. Subsequently, we introduce a multi-stage integration module to mine the comprehensive relations between the representations of the multi-contrast images. Specifically, the module matches each representation with all other features, which are integrated in terms of their similarities to obtain an enriched representation. Extensive experiments on fastMRI and real-world clinical datasets demonstrate that 1) our MINet outperforms state-of-the-art multi-contrast SR methods in terms of various metrics and 2) our multi-stage integration module is able to excavate complex interactions among multi-contrast features at different stages, leading to improved target-image quality.
翻訳日:2021-05-20 19:32:47 公開日:2021-05-19
# (参考訳) 他の文脈に類似した製品からの質問を活用して商品質問に答える [全文訳有]

Answering Product-Questions by Utilizing Questions from Other Contextually Similar Products ( http://arxiv.org/abs/2105.08956v1 )

ライセンス: CC BY 4.0
Ohad Rozen, David Carmel, Avihai Mejer, Vitaly Mirkis, and Yftah Ziser(参考訳) プロダクト関連の質問に対する回答を予測することは、最近多くの注目を集めた研究分野の新興だ。 主観的および意見に基づく質問への回答は、顧客生成コンテンツに依存するため、最も難しい。 これまでの研究は主に、レビュー対応の回答予測に重点を置いていたが、これらのアプローチは、新しい製品や不人気な製品では失敗し、レビューが手元にない(あるいはほんの数回)。 本研究では,同様の質問に対する回答に基づいて,質問に対する回答を予測するための新しい,補完的な手法を提案する。 同じ質問に対する回答に基づいて、製品間のコンテキスト的類似度を測定します。 mix-of-expertフレームワークは、コンテキスト的に類似した製品から回答を集約することで、回答を予測するために使用される。 実験結果から,我々のモデルは,コーパスに約10以上の類似した解答を持つ質問に対して,強いベースラインを達成できた。 この作業で使用される2つの大規模なデータセットも公開しています。1つは製品質問ペアで、もう1つは製品質問-回答ペアです。

Predicting the answer to a product-related question is an emerging field of research that recently attracted a lot of attention. Answering subjective and opinion-based questions is most challenging due to the dependency on customer-generated content. Previous works mostly focused on review-aware answer prediction; however, these approaches fail for new or unpopular products, having no (or only a few) reviews at hand. In this work, we propose a novel and complementary approach for predicting the answer for such questions, based on the answers for similar questions asked on similar products. We measure the contextual similarity between products based on the answers they provide for the same question. A mixture-of-expert framework is used to predict the answer by aggregating the answers from contextually similar products. Empirical results demonstrate that our model outperforms strong baselines on some segments of questions, namely those that have roughly ten or more similar resolved questions in the corpus. We additionally publish two large-scale datasets used in this work, one is of similar product question pairs, and the second is of product question-answer pairs.
翻訳日:2021-05-20 19:22:55 公開日:2021-05-19
# (参考訳) VSGM --ビジュアルセマンティックグラフによるロボットタスク理解機能強化 [全文訳有]

VSGM -- Enhance robot task understanding ability through visual semantic graph ( http://arxiv.org/abs/2105.08959v1 )

ライセンス: CC BY 4.0
Cheng Yu Tsai and Mu-Chun Su(参考訳) 近年,ロボット工学のためのai開発が注目されている。 ロボットの視覚と言語との相互作用は特に難しい。 視覚意味論と言語意味論をロボットに理解させると推論能力が向上すると考える。 本稿では,このセマンティックグラフを用いて,より優れた視覚的特徴を抽出し,ロボットの視覚的理解能力を向上させる手法であるVSGM(Visual Semantic Graph Memory)を提案する。 ロボットの事前の知識を提供し、画像中のオブジェクトを検出することにより、オブジェクトとオブジェクトの属性の相関を予測し、それらをグラフベースの表現に変換し、画像内のオブジェクトをトップダウンのエゴセントリックマップにマッピングする。 最後に、現在のタスクの重要なオブジェクトの特徴をグラフニューラルネットワークによって抽出する。 本稿では,alfred(action learning from real environment and directives)データセットを用いて,本手法の有効性を検証する。 このデータセットでは、ロボットは必要な言語指示に従って日々の家庭内タスクを実行する必要がある。 モデルがvsgmに追加されると、タスク成功率は6~10%向上する。

In recent years, developing AI for robotics has raised much attention. The interaction of vision and language of robots is particularly difficult. We consider that giving robots an understanding of visual semantics and language semantics will improve inference ability. In this paper, we propose a novel method-VSGM (Visual Semantic Graph Memory), which uses the semantic graph to obtain better visual image features, improve the robot's visual understanding ability. By providing prior knowledge of the robot and detecting the objects in the image, it predicts the correlation between the attributes of the object and the objects and converts them into a graph-based representation; and mapping the object in the image to be a top-down egocentric map. Finally, the important object features of the current task are extracted by Graph Neural Networks. The method proposed in this paper is verified in the ALFRED (Action Learning From Realistic Environments and Directives) dataset. In this dataset, the robot needs to perform daily indoor household tasks following the required language instructions. After the model is added to the VSGM, the task success rate can be improved by 6~10%.
翻訳日:2021-05-20 19:08:33 公開日:2021-05-19
# (参考訳) 高エネルギー物理シミュレーションを高速化する新しい畳み込み2次元アーキテクチャの物理検証 [全文訳有]

Physics Validation of Novel Convolutional 2D Architectures for Speeding Up High Energy Physics Simulations ( http://arxiv.org/abs/2105.08960v1 )

ライセンス: CC BY 4.0
Florian Rehm, Sofia Vallecorsa, Kerstin Borras, Dirk Kr\"ucker(参考訳) 検出器による粒子輸送の正確なシミュレーションは、高エネルギー物理学結果の解釈に成功するための重要な要素である。 しかし、モンテカルロのシミュレーションは計算資源の面で非常に要求されている。 この課題は、モンテカルロの標準的なアプローチを置き換えるためのより高速で代替的なアプローチの調査を動機付けている。 本稿では,GAN(Generative Adversarial Networks, GAN)を用いて, 温度計検出器のシミュレーションを置き換え, シミュレーション時間を桁違いに高速化する。 我々は,3次元畳み込みニューラルネットワークを用いて,同じ3次元画像生成問題を高速に解くための新しい2次元畳み込みネットワークを開発した。 さらに,パラメータ数とニューラルネットワーク表現力を増加させ,高い精度を得ることができた。 我々は、最も優れた畳み込み2Dニューラルネットワークアーキテクチャを比較し、以前の3DアーキテクチャとGeant4データと比較した。 その結果,物理精度が向上し,高速検出器シミュレーションにおけるGANの利用がさらに強化された。

The precise simulation of particle transport through detectors remains a key element for the successful interpretation of high energy physics results. However, Monte Carlo based simulation is extremely demanding in terms of computing resources. This challenge motivates investigations of faster, alternative approaches for replacing the standard Monte Carlo approach. We apply Generative Adversarial Networks (GANs), a deep learning technique, to replace the calorimeter detector simulations and speeding up the simulation time by orders of magnitude. We follow a previous approach which used three-dimensional convolutional neural networks and develop new two-dimensional convolutional networks to solve the same 3D image generation problem faster. Additionally, we increased the number of parameters and the neural networks representational power, obtaining a higher accuracy. We compare our best convolutional 2D neural network architecture and evaluate it versus the previous 3D architecture and Geant4 data. Our results demonstrate a high physics accuracy and further consolidate the use of GANs for fast detector simulations.
翻訳日:2021-05-20 18:54:05 公開日:2021-05-19
# (参考訳) 計算問題を解決するニューラルネットワークに合成処理が出現 [全文訳有]

Compositional Processing Emerges in Neural Networks Solving Math Problems ( http://arxiv.org/abs/2105.08961v1 )

ライセンス: CC BY 4.0
Jacob Russin, Roland Fernandez, Hamid Palangi, Eric Rosen, Nebojsa Jojic, Paul Smolensky, Jianfeng Gao(参考訳) 認知科学における長年の疑問は、人間の認知における構成性の基礎となる学習メカニズムに関するものである。 人間は、知覚的観察(聴覚音声など)において暗黙的に構造化された関係(文法規則など)を推論し、この知識を使って単純な意味の合成を複雑な全体へと導くことができる。 ニューラルネットワークの最近の進歩は、大きなモデルが十分な言語データに基づいて訓練されると、その表現に文法構造が現れることを示している。 ここでは、意味(例えば、数字に対応する量)がどのように構造化された規則(例えば、演算の順序)に基づいて構成されるべきかについて、正確な仮説を定式化することができる。 私たちの研究は、ニューラルネットワークがトレーニングデータに隠された構造化された関係について何かを推測できるだけでなく、個々の意味の合成を複合的な全体へと導くためにこの知識を展開できることを示しています。

A longstanding question in cognitive science concerns the learning mechanisms underlying compositionality in human cognition. Humans can infer the structured relationships (e.g., grammatical rules) implicit in their sensory observations (e.g., auditory speech), and use this knowledge to guide the composition of simpler meanings into complex wholes. Recent progress in artificial neural networks has shown that when large models are trained on enough linguistic data, grammatical structure emerges in their representations. We extend this work to the domain of mathematical reasoning, where it is possible to formulate precise hypotheses about how meanings (e.g., the quantities corresponding to numerals) should be composed according to structured rules (e.g., order of operations). Our work shows that neural networks are not only able to infer something about the structured relationships implicit in their training data, but can also deploy this knowledge to guide the composition of individual meanings into composite wholes.
翻訳日:2021-05-20 18:45:17 公開日:2021-05-19
# (参考訳) 深層学習を用いた音楽生成 [全文訳有]

Music Generation using Deep Learning ( http://arxiv.org/abs/2105.09046v1 )

ライセンス: CC BY-SA 4.0
Vaishali Ingale, Anush Mohan, Divit Adlakha, Krishna Kumar and Mohit Gupta(参考訳) 本稿では,Long Short-Term Memory Neural Network (LSTMNN) を用いたABC表記における音楽系列の生成について検討する。 提案されたアプローチは、nottinghamデータセットからabc記法を取り、それをニューラルネットワークの入力としてエンコードする。 第一の目的は、ニューラルネットワークを任意の音符で入力し、ネットワークに処理させ、良質な音楽が生成されるまで音符に基づくシーケンスを増強することである。 最適生成のために、ネットワークのパラメータを修正するために複数のチューニングが行われた。 出力は、リズム、調和、文法の正確さに基づいて評価される。

This paper explores the idea of utilising Long Short-Term Memory neural networks (LSTMNN) for the generation of musical sequences in ABC notation. The proposed approach takes ABC notations from the Nottingham dataset and encodes it to beefed as input for the neural networks. The primary objective is to input the neural networks with an arbitrary note, let the network process and augment a sequence based on the note until a good piece of music is produced. Multiple tunings have been done to amend the parameters of the network for optimal generation. The output is assessed on the basis of rhythm, harmony, and grammar accuracy.
翻訳日:2021-05-20 18:34:47 公開日:2021-05-19
# (参考訳) 投影による障害物分類 [全文訳有]

Obstructing Classification via Projection ( http://arxiv.org/abs/2105.09047v1 )

ライセンス: CC BY 4.0
Pantea Haghighatkhah, Wouter Meulemans, Bettina Speckman, J\'er\^ome Urhausen, Kevin Verbeek(参考訳) 機械学習とデータマイニングは、大量のデータを分類するための効果的なツールである。 しかし、例えば性別や人種に関して、データに固有のバイアスは残されがちです。 このようなバイアスをデータや学習した表現から取り除くことは、非常に難しい。 本稿では,バイアス除去のアプローチをモデル化する幾何問題について考察する。 入力はユークリッド空間 r^d における点 p の集合であり、各点には k 個の二値特性がラベル付けされる。 優先事項では、各プロパティに従ってデータを分類するのは「簡単」であると仮定する。 本研究の目的は,低次元ユークリッド空間 r^m (m < d) に対する適切な射影による一つの性質による分類を阻害することであり,他のすべての性質による分類は依然として容易である。 分類が容易であることの意味は、使用する分類モデルに依存する。 まず,線形分離性による分類をサポートベクタマシンで採用する。 キルヒベルガーの定理を用いて、ある条件下では、r^(d-1) への単純な射影が、他の性質の線形分離性を保ちながら、その特性の1つの線形分離性を排除できることを示した。 また,選択した特性の線形「分離性」を最大化する問題についても検討する。 第二に,より複雑な分離可能性について考察し,分類を阻害するために必要な射影数とそれらの分離性のヘリー型特性との関係を証明した。

Machine learning and data mining techniques are effective tools to classify large amounts of data. But they tend to preserve any inherent bias in the data, for example, with regards to gender or race. Removing such bias from data or the learned representations is quite challenging. In this paper we study a geometric problem which models a possible approach for bias removal. Our input is a set of points P in Euclidean space R^d and each point is labeled with k binary-valued properties. A priori we assume that it is "easy" to classify the data according to each property. Our goal is to obstruct the classification according to one property by a suitable projection to a lower-dimensional Euclidean space R^m (m < d), while classification according to all other properties remains easy. What it means for classification to be easy depends on the classification model used. We first consider classification by linear separability as employed by support vector machines. We use Kirchberger's Theorem to show that, under certain conditions, a simple projection to R^(d-1) suffices to eliminate the linear separability of one of the properties whilst maintaining the linear separability of the other properties. We also study the problem of maximizing the linear "inseparability" of the chosen property. Second, we consider more complex forms of separability and prove a connection between the number of projections required to obstruct classification and the Helly-type properties of such separabilities.
翻訳日:2021-05-20 18:29:12 公開日:2021-05-19
# (参考訳) ロシア語用テキストの解毒方法 [全文訳有]

Methods for Detoxification of Texts for the Russian Language ( http://arxiv.org/abs/2105.09052v1 )

ライセンス: CC BY 4.0
Daryna Dementieva, Daniil Moskovskiy, Varvara Logacheva, David Dale, Olga Kozlova, Nikita Semenov, and Alexander Panchenko(参考訳) 攻撃的言語と戦うために,ロシア語テキストの自動解毒に関する最初の研究を紹介する。 この種のテキストスタイルの転送は、例えばソーシャルメディアで有害なコンテンツを処理するために使用することができる。 この分野の英語については多くの研究がなされているが、ロシア語ではまだ解決されていない。 我々は,事前学習された言語 gpt-2 モデルに基づく局所的補正と教師付きアプローチを行う bert アーキテクチャに基づく教師なしアプローチと,いくつかのベースラインと比較する。 さらに,自動評価のためのトレーニングデータセットとメトリクスを提供する評価設定について述べる。 以上の結果から, 改良の余地はあるものの, 脱毒に有効であることが明らかとなった。

We introduce the first study of automatic detoxification of Russian texts to combat offensive language. Such a kind of textual style transfer can be used, for instance, for processing toxic content in social media. While much work has been done for the English language in this field, it has never been solved for the Russian language yet. We test two types of models - unsupervised approach based on BERT architecture that performs local corrections and supervised approach based on pretrained language GPT-2 model - and compare them with several baselines. In addition, we describe evaluation setup providing training datasets and metrics for automatic evaluation. The results show that the tested approaches can be successfully used for detoxification, although there is room for improvement.
翻訳日:2021-05-20 18:03:55 公開日:2021-05-19
# (参考訳) The State of AI Ethics Report (2021年1月)

The State of AI Ethics Report (January 2021) ( http://arxiv.org/abs/2105.09059v1 )

ライセンス: CC BY 4.0
Abhishek Gupta ((1) and (2)), Alexandrine Royer ((1) and (3)), Connor Wright ((1) and (4)), Falaah Arif Khan (1), Victoria Heath (1), Erick Galinkin ((1) and (5)), Ryan Khurana (1), Marianna Bergamaschi Ganapini ((1) and (6)), Muriam Fancy ((1), (7), and (8)), Masa Sweidan ((1) and (9)), Mo Akif (1), and Renjie Butalid (1) ((1) Montreal AI Ethics Institute, (2) Microsoft, (3) University of Oxford, (4) University of Exeter, (5) Rapid7, (6) Union College, (7) University of Toronto, (8) University of Ottawa, (9) McGill University)(参考訳) モントリオールAI倫理研究所のThe State of AI Ethicsの第3版は、2020年10月以来のAI倫理の最も重要な発展を捉えている。 機械学習の専門家から人権活動家や政策立案者まで、あらゆる人がこの分野の変化する発展を素早く理解し理解することを目指している。 研究と記事の要約と専門家のコメントを通じて、このレポートは、アルゴリズム上の不正、差別、倫理的AI、労働影響、誤情報、プライバシ、リスクとセキュリティ、ソーシャルメディアなど、AIの倫理に関するさまざまな領域に関する研究と報告を精査する。 さらに、The State of AI Ethicsには、大学、研究機関、コンサルティング会社、政府からの世界クラスのAI倫理専門家によって書かれた排他的コンテンツが含まれている。 このレポートの特筆すべき点は、Katlyn Tuner博士 (Research Scientist, Space Enabled Research Group, MIT)、Danielle Wood博士 (Assistant Professor, Program in Media Arts and Sciences; Assistant Professor, Aeronautics and Astronautics; Lead, Space Enabled Research Group, MIT)、Catherine D'Ignazio博士 (Assistant Professor, Urban Science and Planning; Director, Data + Feminism Lab, MIT)によって書かれた『The Abuse and Misogynoir Playbook』である。 この作品(およびそれに付随するインフォグラフィック)は、黒人女性の知識と奨学金への貢献の歴史的かつ体系的なサイレンシング、消去、および修正を深く掘り下げたものである。 このPlaybookの公開と対策は、AI倫理の専門家であるTimnit Gebru博士(およびその支持者)がGoogleで解雇された後、ますます重要になっている。 このレポートは、AI倫理の分野における最新の思考に関する参照と洞察のポイントとしてだけでなく、AIが世界に与える影響に関するより曖昧な会話を促進するために、イントロスペクションのツールとしても使われるべきです。

The 3rd edition of the Montreal AI Ethics Institute's The State of AI Ethics captures the most relevant developments in AI Ethics since October 2020. It aims to help anyone, from machine learning experts to human rights activists and policymakers, quickly digest and understand the field's ever-changing developments. Through research and article summaries, as well as expert commentary, this report distills the research and reporting surrounding various domains related to the ethics of AI, including: algorithmic injustice, discrimination, ethical AI, labor impacts, misinformation, privacy, risk and security, social media, and more. In addition, The State of AI Ethics includes exclusive content written by world-class AI Ethics experts from universities, research institutes, consulting firms, and governments. Unique to this report is "The Abuse and Misogynoir Playbook," written by Dr. Katlyn Tuner (Research Scientist, Space Enabled Research Group, MIT), Dr. Danielle Wood (Assistant Professor, Program in Media Arts and Sciences; Assistant Professor, Aeronautics and Astronautics; Lead, Space Enabled Research Group, MIT) and Dr. Catherine D'Ignazio (Assistant Professor, Urban Science and Planning; Director, Data + Feminism Lab, MIT). The piece (and accompanying infographic), is a deep-dive into the historical and systematic silencing, erasure, and revision of Black women's contributions to knowledge and scholarship in the United Stations, and globally. Exposing and countering this Playbook has become increasingly important following the firing of AI Ethics expert Dr. Timnit Gebru (and several of her supporters) at Google. This report should be used not only as a point of reference and insight on the latest thinking in the field of AI Ethics, but should also be used as a tool for introspection as we aim to foster a more nuanced conversation regarding the impacts of AI on the world.
翻訳日:2021-05-20 17:47:48 公開日:2021-05-19
# (参考訳) The State of AI Ethics Report (Volume 4)

The State of AI Ethics Report (Volume 4) ( http://arxiv.org/abs/2105.09060v1 )

ライセンス: CC BY 4.0
Abhishek Gupta ((1) and (2)), Alexandrine Royer ((1) and (3)), Connor Wright ((1) and (4)), Victoria Heath (1), Muriam Fancy ((1) and (5)), Marianna Bergamaschi Ganapini ((1) and (6)), Shannon Egan ((1) and (7)), Masa Sweidan ((1) and (8)), Mo Akif (1), and Renjie Butalid (1) ((1) Montreal AI Ethics Institute, (2) Microsoft, (3) University of Oxford, (4) University of Exeter, (5) University of Toronto, (6) Union College, (7) University of British Columbia, (8) McGill University)(参考訳) モントリオールAI倫理研究所のThe State of AI Ethicsの第4版は、2021年1月以来のAI倫理分野における最も重要な発展を捉えている。 このレポートは、機械学習の専門家から人権活動家や政策立案者まで、あらゆる人が、この分野の絶えず変化する発展を素早く理解し理解することを目指している。 研究と記事の要約と専門家のコメントを通じて、このレポートは、倫理的AI、公正と正義、人間と技術、プライバシの4つの主要なテーマに焦点を当て、AIの倫理に関するさまざまな領域に関する研究と報告を精査する。 さらに、The State of AI Ethicsには、大学、研究機関、コンサルティング会社、政府からの世界クラスのAI倫理専門家によって書かれた排他的コンテンツが含まれている。 報告書のオープニングはエドワード・ヒッグス(エセックス大学歴史学教授)による長編の「AI and the Face: A Historian's View」である。 その中でHigs氏は、顔分析の非科学的歴史と、AIが大規模な失敗をいかに繰り返しているかを調べている。 報告書にはAlexa Hagerty氏(ケンブリッジ大学解剖学者)、Marianna Ganapini氏(モントリオールAI倫理研究所ファクトリーディレクター)、Deborah G. Johnson氏(バージニア大学エンジニアリング・アンド・ソサエティ教授)、Soraj Hongladarom氏(哲学教授兼ディレクタ、バンコクのChulalongkorn大学科学・技術・社会センター)の章も紹介されている。 このレポートは、AI倫理の分野における最新の思考に関する参照と洞察のポイントとしてだけでなく、AIが世界に与える影響に関するより曖昧な会話を促進するために、イントロスペクションのツールとしても使われるべきです。

The 4th edition of the Montreal AI Ethics Institute's The State of AI Ethics captures the most relevant developments in the field of AI Ethics since January 2021. This report aims to help anyone, from machine learning experts to human rights activists and policymakers, quickly digest and understand the ever-changing developments in the field. Through research and article summaries, as well as expert commentary, this report distills the research and reporting surrounding various domains related to the ethics of AI, with a particular focus on four key themes: Ethical AI, Fairness & Justice, Humans & Tech, and Privacy. In addition, The State of AI Ethics includes exclusive content written by world-class AI Ethics experts from universities, research institutes, consulting firms, and governments. Opening the report is a long-form piece by Edward Higgs (Professor of History, University of Essex) titled "AI and the Face: A Historian's View." In it, Higgs examines the unscientific history of facial analysis and how AI might be repeating some of those mistakes at scale. The report also features chapter introductions by Alexa Hagerty (Anthropologist, University of Cambridge), Marianna Ganapini (Faculty Director, Montreal AI Ethics Institute), Deborah G. Johnson (Emeritus Professor, Engineering and Society, University of Virginia), and Soraj Hongladarom (Professor of Philosophy and Director, Center for Science, Technology and Society, Chulalongkorn University in Bangkok). This report should be used not only as a point of reference and insight on the latest thinking in the field of AI Ethics, but should also be used as a tool for introspection as we aim to foster a more nuanced conversation regarding the impacts of AI on the world.
翻訳日:2021-05-20 16:50:13 公開日:2021-05-19
# (参考訳) ロボットマニピュレーションのための変形可能な物体上のユーザ決定点の位置と追跡 [全文訳有]

Localization and Tracking of User-Defined Points on Deformable Objects for Robotic Manipulation ( http://arxiv.org/abs/2105.09067v1 )

ライセンス: CC BY 4.0
Sven Dittus, Benjamin Alt, Andreas Hermann, Darko Katic, Rainer J\"akel, J\"urgen Fleischer(参考訳) 本稿では,変形可能な物体の表面にユーザ定義点を配置し,その位置を時間とともに3次元空間で追跡する効率的な手法を提案する。 変形可能なオブジェクトの無限個のDOFに対応するために,複数ステップの非線形ソルバパイプラインを用いて実行時に推定される離散化変形場を提案する。 結果として生じる高次元エネルギー最小化問題は、オフライン定義参照モデルと事前処理されたカメラ画像とのずれを記述している。 さらなる正規化項は、対象の隠れた領域に関する仮定を可能にし、ソルバの数値安定性を高める。 本手法は, 産業生産プロセスにおける非剛体物体の認識に最適であるように, データ並列方式でオンラインのローカライズ問題を解くことができる。

This paper introduces an efficient procedure to localize user-defined points on the surface of deformable objects and track their positions in 3D space over time. To cope with a deformable object's infinite number of DOF, we propose a discretized deformation field, which is estimated during runtime using a multi-step non-linear solver pipeline. The resulting high-dimensional energy minimization problem describes the deviation between an offline-defined reference model and a pre-processed camera image. An additional regularization term allows for assumptions about the object's hidden areas and increases the solver's numerical stability. Our approach is capable of solving the localization problem online in a data-parallel manner, making it ideally suitable for the perception of non-rigid objects in industrial manufacturing processes.
翻訳日:2021-05-20 16:48:33 公開日:2021-05-19
# (参考訳) Essay-BR:ブラジルのEssaysコーパス [全文訳有]

Essay-BR: a Brazilian Corpus of Essays ( http://arxiv.org/abs/2105.09081v1 )

ライセンス: CC BY 4.0
Jeziel C. Marinho, Rafael T. Anchieta, and Raimundo S. Moura(参考訳) 自動エッセイスコアリング(automatic essay scoring, aes)とは、エッセイの評価とスコア付けを行うコンピュータ技術である。 様々な言語でいくつかのAES研究があるが、ポルトガル語に焦点を当てているものはほとんどない。 主な理由は、手書きのエッセイによるコーパスの欠如である。 このギャップを埋めるために,ブラジルの高校生がオンラインプラットフォーム上で書いたエッセイを,大規模なコーパスとして作成する。 エッセイはすべて議論的であり、専門家によって5つの能力で得点された。 さらに,作成したコーパスについて実験を行い,ポルトガル語による課題を示した。 私たちのコーパスはhttps://github.com/r afaelanchieta/essayで公開されている。

Automatic Essay Scoring (AES) is defined as the computer technology that evaluates and scores the written essays, aiming to provide computational models to grade essays either automatically or with minimal human involvement. While there are several AES studies in a variety of languages, few of them are focused on the Portuguese language. The main reason is the lack of a corpus with manually graded essays. In order to bridge this gap, we create a large corpus with several essays written by Brazilian high school students on an online platform. All of the essays are argumentative and were scored across five competencies by experts. Moreover, we conducted an experiment on the created corpus and showed challenges posed by the Portuguese language. Our corpus is publicly available at https://github.com/r afaelanchieta/essay.
翻訳日:2021-05-20 16:39:32 公開日:2021-05-19
# (参考訳) ディープラーニングにおけるエラーイン変数--アレエータ的不確実性再考 [全文訳有]

Errors-in-Variables for deep learning: rethinking aleatoric uncertainty ( http://arxiv.org/abs/2105.09095v1 )

ライセンス: CC BY 4.0
J\"org Martin and Clemens Elster(参考訳) 本稿では,ニューラルネットワークへの入力の不確実性を考慮したエラーイン変数モデルを用いて,深い回帰に対するベイズ法を提案する。 この処理を,変分推論に基づく不確実性定量化のための既存のアプローチとどのように組み合わせることができるかを示す。 我々のアプローチは、予測の不確実性の分解を、より完全で、多くの場合、統計的観点からより一貫した、動脈とてんかんの部分へと導く。 様々な玩具や実世界の例でそのアプローチを説明し,議論する。

We present a Bayesian treatment for deep regression using an Errors-in-Variables model which accounts for the uncertainty associated with the input to the employed neural network. It is shown how the treatment can be combined with already existing approaches for uncertainty quantification that are based on variational inference. Our approach yields a decomposition of the predictive uncertainty into an aleatoric and epistemic part that is more complete and, in many cases, more consistent from a statistical perspective. We illustrate and discuss the approach along various toy and real world examples.
翻訳日:2021-05-20 16:30:53 公開日:2021-05-19
# (参考訳) 大規模戦術計画のための定期的な貨物需要予測 [全文訳有]

Periodic Freight Demand Forecasting for Large-scale Tactical Planning ( http://arxiv.org/abs/2105.09136v1 )

ライセンス: CC BY 4.0
Greta Laage and Emma Frejinger and Gilles Savard(参考訳) 貨物輸送にとって重要なのが、サービスネットワークの戦術計画である。 目的は、予測された需要を最小限のコストで満たす、所定の戦術計画地平上の循環計画を得ることである。 計画プロセスへの中心的な入力は、定期的な需要、すなわち計画の地平線における各周期で繰り返されると予想される需要である。 計算トラクタビリティに関する決定論的モデルを必要とする大規模戦術計画問題に焦点を当てる。 実際に広く存在しているこの設定における周期的な需要を推定する問題は文献では見過ごされている。 第1ステップで得られた時系列予測に基づいて、我々は第2ステップで、固定コストを最小化する周期的需要推定法と、戦術計画を運用レベルで適用することで生じる変動コストを最小化する多段階の数学的プログラミングの定式化を提案する。 本報告では,カナダ国鉄の大規模適用に関する広範な実証研究の結果について報告する。 本稿では, 時系列予測の平均値を用いて, 周期的需要予測を, 実例でよく用いられる手法と比較する。 その結果,周期的需要推定問題の重要性が明らかとなった。 実際、計画コストは、異なる定期的な需要予測に対して重要な変動を示し、平均予測とは異なる見積もりを使用することで、大幅なコスト削減につながる可能性がある。 例えば、予測に基づく周期的需要予測に関連するコストは、実際の需要の平均を用いて得られたコストと同等、あるいはそれ以上であった。

Crucial to freight carriers is the tactical planning of the service network. The aim is to obtain a cyclic plan over a given tactical planning horizon that satisfies predicted demand at a minimum cost. A central input to the planning process is the periodic demand, that is, the demand expected to repeat in every period in the planning horizon. We focus on large-scale tactical planning problems that require deterministic models for computational tractability. The problem of estimating periodic demand in this setting broadly present in practice has hitherto been overlooked in the literature. We address this gap by formally introducing the periodic demand estimation problem and propose a two-step methodology: Based on time series forecasts obtained in the first step, we propose, in the second step, to solve a multilevel mathematical programming formulation whose solution is a periodic demand estimate that minimizes fixed costs, and variable costs incurred by adapting the tactical plan at an operational level. We report results in an extensive empirical study of a real large-scale application from the Canadian National Railway Company. We compare our periodic demand estimates to the approach commonly used in practice which simply consists in using the mean of the time series forecasts. The results clearly show the importance of the periodic demand estimation problem. Indeed, the planning costs exhibit an important variation over different periodic demand estimates, and using an estimate different from the mean forecast can lead to substantial cost reductions. For example, the costs associated with the period demand estimates based on forecasts were comparable to, or even better than those obtained using the mean of actual demand.
翻訳日:2021-05-20 16:15:29 公開日:2021-05-19
# (参考訳) TableZa - タブラル抽出のための古典的コンピュータビジョンアプローチ [全文訳有]

TableZa -- A classical Computer Vision approach to Tabular Extraction ( http://arxiv.org/abs/2105.09137v1 )

ライセンス: CC BY 4.0
Saumya Banthia, Anantha Sharma, Ravi Mangipudi(参考訳) コンピュータ支援の表データ抽出は、データのスペクトルと空間的健全性の両方を必要とするため、常に非常に困難で誤りやすいタスクである。 本稿では,文書理解の領域における語彙データ抽出のアプローチについて論じる。 様々な文書でよく見られる多種多様なタブラル形式を考慮し,画像やベクトルpdf(s)から画像に変換された表データの抽出にComputer Visionを用いた新しいアプローチについて論じる。

Computer aided Tabular Data Extraction has always been a very challenging and error prone task because it demands both Spectral and Spatial Sanity of data. In this paper we discuss an approach for Tabular Data Extraction in the realm of document comprehension. Given the different kinds of the Tabular formats that are often found across various documents, we discuss a novel approach using Computer Vision for extraction of tabular data from images or vector pdf(s) converted to image(s).
翻訳日:2021-05-20 15:57:23 公開日:2021-05-19
# (参考訳) 推論とノイズ制御のための物理的制約埋め込みニューラルネットワーク [全文訳有]

Physical Constraint Embedded Neural Networks for inference and noise regulation ( http://arxiv.org/abs/2105.09146v1 )

ライセンス: CC BY 4.0
Gregory Barber, Mulugeta A. Haile, Tzikang Chen(参考訳) ニューラルネットワークはしばしば、一般化するために大量のデータを必要とし、小さくてノイズの多い実験データセットのモデリングには不向きである。 希少でノイズの多いデータに基づいてトレーニングされた標準的なネットワークアーキテクチャは、基礎となる物理学に反する予測を返す。 本稿では,ニューラルネットワークに偶数ノードの対称性と保存則を埋め込む手法を提案し,新しい拡張法と物理制約組み込みニューラルネットワークのユースケースを提案する。 ニューラルネットワークのパラメータ化関数を偶数成分と奇数成分に分解する偶数分解アーキテクチャを設計し、事前の知識なしに対称性を正確に推測できることを実証する。 本稿では,物理制約組込みニューラルネットワークの雑音回復特性に注目し,物理拘束型ノイズレギュレータとしての有用性を示す。 ここでは, エネルギー制約組込みネットワークを, 物理に変形したノイズレギュレータとして, シンボル回帰タスクに用いた。 提案手法は,ベースラインのシンボリック回帰アプローチを上回りながら,基礎となる物理によく適合するニューラルネットワークのパラメータ化関数のシンボル表現を返すことを示した。

Neural networks often require large amounts of data to generalize and can be ill-suited for modeling small and noisy experimental datasets. Standard network architectures trained on scarce and noisy data will return predictions that violate the underlying physics. In this paper, we present methods for embedding even--odd symmetries and conservation laws in neural networks and propose novel extensions and use cases for physical constraint embedded neural networks. We design an even--odd decomposition architecture for disentangling a neural network parameterized function into its even and odd components and demonstrate that it can accurately infer symmetries without prior knowledge. We highlight the noise resilient properties of physical constraint embedded neural networks and demonstrate their utility as physics-informed noise regulators. Here we employed a conservation of energy constraint embedded network as a physics-informed noise regulator for a symbolic regression task. We showed that our approach returns a symbolic representation of the neural network parameterized function that aligns well with the underlying physics while outperforming a baseline symbolic regression approach.
翻訳日:2021-05-20 15:51:09 公開日:2021-05-19
# (参考訳) 局所適応ステップサイズを用いた変分推論の促進 [全文訳有]

Boosting Variational Inference With Locally Adaptive Step-Sizes ( http://arxiv.org/abs/2105.09240v1 )

ライセンス: CC BY 4.0
Gideon Dresdner, Saurav Shekhar, Fabian Pedregosa, Francesco Locatello, Gunnar R\"atsch(参考訳) 変分推論は、変分系列の容量と近似した後続分布を求めるトラクタビリティとの間のトレードオフを行う。 代わりに、Boosting Variational Inferenceは、より多くの計算に費やすことで、実践者がより優れた後部近似を得られるようにする。 Boosting Variational Inferenceが広く採用される主な障害は、強力な変動推論ベースラインよりも改善に必要なリソースの量である。 我々の研究では、この制限はKL-発散のグローバルな曲率に遡る。 我々は,グローバルな曲率が時間とメモリ消費に与える影響を特徴付け,局所曲率の概念を用いてこの問題に対処し,局所曲率を推定するための新しい近似バックトラックアルゴリズムを提供する。 アルゴリズムに新しい理論収束率を与え,合成および実世界のデータセットについて実験的検証を行う。

Variational Inference makes a trade-off between the capacity of the variational family and the tractability of finding an approximate posterior distribution. Instead, Boosting Variational Inference allows practitioners to obtain increasingly good posterior approximations by spending more compute. The main obstacle to widespread adoption of Boosting Variational Inference is the amount of resources necessary to improve over a strong Variational Inference baseline. In our work, we trace this limitation back to the global curvature of the KL-divergence. We characterize how the global curvature impacts time and memory consumption, address the problem with the notion of local curvature, and provide a novel approximate backtracking algorithm for estimating local curvature. We give new theoretical convergence rates for our algorithms and provide experimental validation on synthetic and real-world datasets.
翻訳日:2021-05-20 15:35:49 公開日:2021-05-19
# (参考訳) 連続治療による多元的因果調停分析

Multiply Robust Causal Mediation Analysis with Continuous Treatments ( http://arxiv.org/abs/2105.09254v1 )

ライセンス: CC BY 4.0
AmirEmad Ghassami, Numair Sani, Yizhen Xu, Ilya Shpitser(参考訳) 多くの応用において、研究者は関心の結果に対する介入の直接的および間接的因果効果に興味を持っている。 メディエーション分析は、そのような因果量の同定と推定のための厳密な枠組みを提供する。 二項処理の場合、直接的および間接的効果の効率的な推定は、Tchetgen Tchetgen and Shpitser (2012) によって導かれる。 これらの推定子は影響関数に基づいており、望ましい多重ロバスト性を持つ。 しかし、治療が継続している場合には簡単には適用できないため、医薬品の服用などいくつかの場面で用いられる。 本研究では,tchetgen tchetgen と shpitser (2012) の影響関数に基づく推定器を拡張し,カーネル平滑化アプローチを用いて連続処理を行う。 まず,提案する推定器は,tchetgen tchetgen and shpitser (2012) における推定器の多重ロバスト性を維持していることを示す。 そして、一定の穏やかな正規性条件下では、推定器は漸近的に正常であることを示す。 提案手法では,対象パラメータよりも遅い速度で推定できる高次元ニュアンスパラメータが可能である。 さらに, ニュアサンス関数に対するスムース性要件の弱化を可能にするクロスフィッティングを利用する。

In many applications, researchers are interested in the direct and indirect causal effects of an intervention on an outcome of interest. Mediation analysis offers a rigorous framework for the identification and estimation of such causal quantities. In the case of binary treatment, efficient estimators for the direct and indirect effects are derived by Tchetgen Tchetgen and Shpitser (2012). These estimators are based on influence functions and possess desirable multiple robustness properties. However, they are not readily applicable when treatments are continuous, which is the case in several settings, such as drug dosage in medical applications. In this work, we extend the influence function-based estimator of Tchetgen Tchetgen and Shpitser (2012) to deal with continuous treatments by utilizing a kernel smoothing approach. We first demonstrate that our proposed estimator preserves the multiple robustness property of the estimator in Tchetgen Tchetgen and Shpitser (2012). Then we show that under certain mild regularity conditions, our estimator is asymptotically normal. Our estimation scheme allows for high-dimensional nuisance parameters that can be estimated at slower rates than the target parameter. Additionally, we utilize cross-fitting, which allows for weaker smoothness requirements for the nuisance functions.
翻訳日:2021-05-20 15:17:12 公開日:2021-05-19
# (参考訳) パセルから大陸規模へ -Sentinel-1とLUCAS Copernicusのその場観測に基づくヨーロッパ初の作物型地図-

From parcel to continental scale -- A first European crop type map based on Sentinel-1 and LUCAS Copernicus in-situ observations ( http://arxiv.org/abs/2105.09261v1 )

ライセンス: CC BY 4.0
Rapha\"el, d'Andrimont and Astrid, Verhegghen and Guido, Lemoine and Pieter, Kempeneers and Michele, Meroni and Marijn, van der Velde(参考訳) 欧州連合(eu)の農業政策の評価には、詳細なパーセルレベルの作物タイプマッピングが必要である。 コペルニクス計画、特にセンチネル-1(s1)は、大陸規模の農地をタイムリーに監視する機会を提供する。 しかし、これまでのところ、S1のポテンシャルはそのような規模では研究されていない。 LUCAS 2018 Copernicus in-situサーベイにより、2018年のS1AとS1Bの合成開口レーダー観測に基づいて、EUの空間分解度10mで最初の大陸型作物マップを提示する。 ランダム森林分類アルゴリズムは19種類の作物を検知するために調整される。 このEUの作物マップの精度を3つのアプローチで評価する。 まず、大陸上空のルーカスコアの独立観測によって精度を評価する。 第2に、EU加盟国6か国または合計3Mパーセル8.21Mhaの地域からの農作物の主作物種別について、精度評価を行う。 最後に、分類によって引き起こされる作物の面積を、ユーロスタットが報告した亜国(NUTS2)地域統計と比較する。 この地図の全体的な精度は、主作物種別で80.3%、19作物種別別で76%と報告されている。 利用者によるレイプやカブレイプには高い精度が得られ、96%以上のアキュラシーが生成される。 リモートセンシングされた推定値とユーロスタットの相関は0.93(ポテト)から0.99(レイプとカブレイプ)まで様々である。 最後に,本論文で提示したフレームワークが,シーズン内高分解能作物マッピングの運用の基盤となる方法について論じる。

Detailed parcel-level crop type mapping for the whole European Union (EU) is necessary for the evaluation of agricultural policies. The Copernicus program, and Sentinel-1 (S1) in particular, offers the opportunity to monitor agricultural land at a continental scale and in a timely manner. However, so far the potential of S1 has not been explored at such a scale. Capitalizing on the unique LUCAS 2018 Copernicus in-situ survey, we present the first continental crop type map at 10-m spatial resolution for the EU based on S1A and S1B Synthetic Aperture Radar observations for the year 2018. Random forest classification algorithms are tuned to detect 19 different crop types. We assess the accuracy of this EU crop map with three approaches. First, the accuracy is assessed with independent LUCAS core in-situ observations over the continent. Second, an accuracy assessment is done specifically for main crop types from farmers declarations from 6 EU member countries or regions totaling >3M parcels and 8.21 Mha. Finally, the crop areas derived by classification are compared to the subnational (NUTS 2) area statistics reported by Eurostat. The overall accuracy for the map is reported as 80.3% when grouping main crop classes and 76% when considering all 19 crop type classes separately. Highest accuracies are obtained for rape and turnip rape with user and produced accuracies higher than 96%. The correlation between the remotely sensed estimated and Eurostat reported crop area ranges from 0.93 (potatoes) to 0.99 (rape and turnip rape). Finally, we discuss how the framework presented here can underpin the operational delivery of in-season high-resolution based crop mapping.
翻訳日:2021-05-20 15:16:17 公開日:2021-05-19
# (参考訳) クラウド上のオンラインマルウェア検出のための機械学習アプローチの解析 [全文訳有]

Analyzing Machine Learning Approaches for Online Malware Detection in Cloud ( http://arxiv.org/abs/2105.09268v1 )

ライセンス: CC BY 4.0
Jeffrey C Kimmell, Mahmoud Abdelsalam, Maanak Gupta(参考訳) さまざまなクラウドサービスプロバイダ(CSP)が提供するさまざまなサービスや機能が最近爆発的に増えている。 このようなサービスを利用することで、企業のインフラがクラウドベースになる多くの機会が生まれ、その結果、企業が容易に柔軟にサービスを顧客に提供できるようになった。 コンピューティングとストレージ目的でサーバへのアクセスをクライアントにレンタルするプラクティスは、IaaS(Infrastructure as a Service)として知られている。 IaaSの人気は、サイバーセキュリティとプライバシに関して、深刻で重要な懸念を引き起こしている。 特に、マルウェアはクラウドサービスに対して悪意のあるエンティティによって利用され、機密データを侵害したり、機能を妨げる。 この脅威に応えて、クラウド環境のマルウェア検出が広く研究され、多くの方法が提案され、デプロイされている。 本稿では,プロセスレベルのパフォーマンス指標に基づくオンラインマルウェア検出を行い,サポートベクター分類器(svc),ランダムフォレスト分類器(rfc),knearest neighbor(knn),gradie nt boosted classifier(gbc),gaus sian naive bayes(gnb),convoluti onal neural networks(cnn)などのベースライン機械学習モデルの有効性を分析する。 分析の結果、ニューラルネットワークモデルは、マルウェアがクラウド上の仮想マシンのプロセスレベルの機能に与える影響を最も正確に検出できるため、それらを検出するのに最も適していると結論づけた。 私たちのモデルは、40,680の悪意のあるサンプルと良質なサンプルのデータセットを使用して、トレーニング、検証、テストされました。 データセットは、生きたクラウド環境でさまざまな種類のマルウェア(virustotalから収集)を実行し、プロセスレベルの機能を収集することで補完された。

The variety of services and functionality offered by various cloud service providers (CSP) have exploded lately. Utilizing such services has created numerous opportunities for enterprises infrastructure to become cloud-based and, in turn, assisted the enterprises to easily and flexibly offer services to their customers. The practice of renting out access to servers to clients for computing and storage purposes is known as Infrastructure as a Service (IaaS). The popularity of IaaS has led to serious and critical concerns with respect to the cyber security and privacy. In particular, malware is often leveraged by malicious entities against cloud services to compromise sensitive data or to obstruct their functionality. In response to this growing menace, malware detection for cloud environments has become a widely researched topic with numerous methods being proposed and deployed. In this paper, we present online malware detection based on process level performance metrics, and analyze the effectiveness of different baseline machine learning models including, Support Vector Classifier (SVC), Random Forest Classifier (RFC), KNearest Neighbor (KNN), Gradient Boosted Classifier (GBC), Gaussian Naive Bayes (GNB) and Convolutional Neural Networks (CNN). Our analysis conclude that neural network models can most accurately detect the impact malware have on the process level features of virtual machines in the cloud, and therefore are best suited to detect them. Our models were trained, validated, and tested by using a dataset of 40,680 malicious and benign samples. The dataset was complied by running different families of malware (collected from VirusTotal) in a live cloud environment and collecting the process level features.
翻訳日:2021-05-20 15:14:35 公開日:2021-05-19
# (参考訳) DumbleDR: 次元減少予測品質のユーザ予測 [全文訳有]

DumbleDR: Predicting User Preferences of Dimensionality Reduction Projection Quality ( http://arxiv.org/abs/2105.09275v1 )

ライセンス: CC BY 4.0
Cristina Morariu, Adrien Bibal, Rene Cutura, Beno\^it Fr\'enay and Michael Sedlmair(参考訳) 過去数十年間、多くの次元的縮小技術が登場し、研究者やアナリストはデータを減らすためのさまざまな選択肢を持っている。 t-SNE, UMAPなど)。 最近の研究では、その方法自体が保存する特定の性質に関わらず、人々はしばしばブラックボックスとして次元の縮小を用いる。 したがって、2次元投影の評価と比較は通常、投影を並べて設定し、人間の判断でどの投影が最良かを判断することによって定性的に決定される。 そこで本研究では,人間の知覚を中央に配置し,投影を定量的に評価する方法を提案する。 比較研究を行い、画像データセットの低レベルのプロジェクションの散在するプロジェクション間で、人々が通常、プロジェクションを選択する方法をシミュレートする'良い'と'誤解する'ビューを選択するように求めます。 プロジェクションを決定する際に、人々が正確に何を探しているかを発見し、定量化することを目的とした、一連の品質指標のラベルとして研究データを使用します。 このヒューマン判断のプロキシを用いて、新しいデータセットの投影をランク付けし、それらがなぜ関連しているかを説明し、選択された投影における主観性の度合いを定量化する。

A plethora of dimensionality reduction techniques have emerged over the past decades, leaving researchers and analysts with a wide variety of choices for reducing their data, all the more so given some techniques come with additional parametrization (e.g. t-SNE, UMAP, etc.). Recent studies are showing that people often use dimensionality reduction as a black-box regardless of the specific properties the method itself preserves. Hence, evaluating and comparing 2D projections is usually qualitatively decided, by setting projections side-by-side and letting human judgment decide which projection is the best. In this work, we propose a quantitative way of evaluating projections, that nonetheless places human perception at the center. We run a comparative study, where we ask people to select 'good' and 'misleading' views between scatterplots of low-level projections of image datasets, simulating the way people usually select projections. We use the study data as labels for a set of quality metrics whose purpose is to discover and quantify what exactly people are looking for when deciding between projections. With this proxy for human judgments, we use it to rank projections on new datasets, explain why they are relevant, and quantify the degree of subjectivity in projections selected.
翻訳日:2021-05-20 15:02:04 公開日:2021-05-19
# (参考訳) 多様な委員会のオンライン選択 [全文訳有]

Online Selection of Diverse Committees ( http://arxiv.org/abs/2105.09295v1 )

ライセンス: CC BY 4.0
Virginie Do, Jamal Atif, J\'er\^ome Lang and Nicolas Usunier(参考訳) 市民のアセンブリは、一般人口の比率に応じてサブ人口を表す必要がある。 これらの大きな委員会は、しばしば、人々と接触し、ボランティアの人口特性を求め、それらを含めるかどうかを決めることによって、オンラインで構築される。 これにより、接触した人(および出費)の数と委員会の代表性との間のトレードオフが生じる。 理論的,実験的に,比例性に反しない限りボランティアを含む欲求アルゴリズム,ボランティアプールにおける共同特徴分布が知られていると仮定して,その特徴にのみ依存する確率を持つボランティアを含む非適応的手法,この分布が先駆的ではなくオンラインで学習する場合の強化学習に基づくアプローチ,の3つの手法を検討した。

Citizens' assemblies need to represent subpopulations according to their proportions in the general population. These large committees are often constructed in an online fashion by contacting people, asking for the demographic features of the volunteers, and deciding to include them or not. This raises a trade-off between the number of people contacted (and the incurring cost) and the representativeness of the committee. We study three methods, theoretically and experimentally: a greedy algorithm that includes volunteers as long as proportionality is not violated; a non-adaptive method that includes a volunteer with a probability depending only on their features, assuming that the joint feature distribution in the volunteer pool is known; and a reinforcement learning based approach when this distribution is not known a priori but learnt online.
翻訳日:2021-05-20 14:29:29 公開日:2021-05-19
# 信頼性スコア評価による偽ニュース検出のための説明可能なTsetlin Machineフレームワーク

Explainable Tsetlin Machine framework for fake news detection with credibility score assessment ( http://arxiv.org/abs/2105.09114v1 )

ライセンス: Link先を確認
Bimal Bhattarai, Ole-Christoffer Granmo, Lei Jiao(参考訳) 偽ニュースの拡散、すなわち故意に誤った情報のために広まるニュースは、個人や社会にとって脅威となる。 PolitiFactのような様々なファクトチェックサイトにもかかわらず、フェイクニュースの増加に対処するためには堅牢な検出技術が必要である。 いくつかのディープラーニングモデルは、偽ニュース分類に有望な結果を示すが、そのブラックボックスの性質は、それらの分類決定と品質保証モデルの説明を困難にしている。 本稿では,最近導入されたTsetlin Machine (TM) に基づく,新たな解釈可能な偽ニュース検出フレームワークを提案する。 要約すると、tmの結合節を用いて、真と偽のニューステキストの語彙的および意味的性質をキャプチャする。 さらに、この節のアンサンブルを用いて偽ニュースの信頼性を算出する。 評価のために、PolitiFactとGossipCopという2つの公開データセットで実験を行い、TMフレームワークが、解釈可能な論理ベースの表現の利点を付加して、これまで公開されたベースラインを少なくとも5\%以上上回っていることを示す。 さらに,本手法はBERTやXLNetよりもF1スコアが高いが,精度は若干低い。 最後に,モデルの説明可能性に関するケーススタディを行い,意味のある単語とその否定に分解する方法を示す。

The proliferation of fake news, i.e., news intentionally spread for misinformation, poses a threat to individuals and society. Despite various fact-checking websites such as PolitiFact, robust detection techniques are required to deal with the increase in fake news. Several deep learning models show promising results for fake news classification, however, their black-box nature makes it difficult to explain their classification decisions and quality-assure the models. We here address this problem by proposing a novel interpretable fake news detection framework based on the recently introduced Tsetlin Machine (TM). In brief, we utilize the conjunctive clauses of the TM to capture lexical and semantic properties of both true and fake news text. Further, we use the clause ensembles to calculate the credibility of fake news. For evaluation, we conduct experiments on two publicly available datasets, PolitiFact and GossipCop, and demonstrate that the TM framework significantly outperforms previously published baselines by at least $5\%$ in terms of accuracy, with the added benefit of an interpretable logic-based representation. Further, our approach provides higher F1-score than BERT and XLNet, however, we obtain slightly lower accuracy. We finally present a case study on our model's explainability, demonstrating how it decomposes into meaningful words and their negations.
翻訳日:2021-05-20 14:03:39 公開日:2021-05-19
# 医用画像における複数解剖学的ランドマーク検出のための細粒度適応損失の学習

Learn Fine-grained Adaptive Loss for Multiple Anatomical Landmark Detection in Medical Images ( http://arxiv.org/abs/2105.09124v1 )

ライセンス: Link先を確認
Guang-Quan Zhou, Juzheng Miao, Xin Yang, Rui Li, En-Ze Huo, Wenlong Shi, Yuhao Huang, Jikuan Qian, Chaoyu Chen, Dong Ni(参考訳) 解剖学的ランドマークの自動的かつ正確な検出は、様々な応用で医療画像解析に不可欠である。 近年の深層学習法では, 捕獲した解剖学の出現を度数マップ(すなわちヒートマップ)で直接エンコードすることで, 結果が向上している。 しかし、現在のほとんどの解は熱マップ回帰の別の本質を見落としており、対象の熱マップを回帰し、目標の精度を設定するために手作りのヒューリスティックに頼っている。 本稿では,ニューラルネットワークと目標精度を同時に最適化するランドマーク検出のための学習学習フレームワークを提案する。 この研究の要点は、強化学習(RL)フレームワークを利用して、トレーニングプロセス中に複数のヒートマップを動的に回帰するための客観的なメトリクスを探索し、問題固有の目標精度の設定を避けることである。 また,RLエージェントの相互作用のアクティブ終了のための早期停止戦略を導入し,探索・探索トレードオフを考慮した個別目標に対する最適精度を適応させる。 このアプローチでは、トレーニングの安定性が向上し、推論のローカライゼーション精度が向上する。 1) 当施設における出生前超音波(US)データセットと,2) 頭蓋X線ランドマーク検出の公開データセットの2つの異なる応用に関する大規模な実験結果から,提案手法の有効性が示された。 提案手法は汎用的であり,解剖学的ランドマーク検出の効率向上の可能性を示す。

Automatic and accurate detection of anatomical landmarks is an essential operation in medical image analysis with a multitude of applications. Recent deep learning methods have improved results by directly encoding the appearance of the captured anatomy with the likelihood maps (i.e., heatmaps). However, most current solutions overlook another essence of heatmap regression, the objective metric for regressing target heatmaps and rely on hand-crafted heuristics to set the target precision, thus being usually cumbersome and task-specific. In this paper, we propose a novel learning-to-learn framework for landmark detection to optimize the neural network and the target precision simultaneously. The pivot of this work is to leverage the reinforcement learning (RL) framework to search objective metrics for regressing multiple heatmaps dynamically during the training process, thus avoiding setting problem-specific target precision. We also introduce an early-stop strategy for active termination of the RL agent's interaction that adapts the optimal precision for separate targets considering exploration-exploita tion tradeoffs. This approach shows better stability in training and improved localization accuracy in inference. Extensive experimental results on two different applications of landmark localization: 1) our in-house prenatal ultrasound (US) dataset and 2) the publicly available dataset of cephalometric X-Ray landmark detection, demonstrate the effectiveness of our proposed method. Our proposed framework is general and shows the potential to improve the efficiency of anatomical landmark detection.
翻訳日:2021-05-20 14:03:14 公開日:2021-05-19
# 潜在ガウスモデルブースティング

Latent Gaussian Model Boosting ( http://arxiv.org/abs/2105.08966v1 )

ライセンス: Link先を確認
Fabio Sigrist(参考訳) 潜在ガウスモデルとブースティングは機械学習技術として広く使われている。 ツリーブースティングは多くのデータセットにおいて優れた予測精度を示すが、潜在的な欠点は、サンプルの条件付き独立性を仮定し、不連続な予測を発生させ、高心性カテゴリー変数では困難であることである。 ガウス過程や群ランダム効果モデルのような潜在ガウスモデルは、確率的予測を可能にする柔軟な事前モデルである。 しかし、既存の潜在ガウスモデルは通常、0 あるいは線型事前平均関数のいずれかを仮定する。 本稿では,上記の欠点を解消し,両手法の利点を活かすために,ブースティングモデルと潜時ガウスモデルを組み合わせた新しいアプローチを紹介する。 シミュレーションおよび実世界のデータ実験における既存手法と比較して予測精度が向上した。

Latent Gaussian models and boosting are widely used machine learning techniques. Tree-boosting shows excellent predictive accuracy on many data sets, but potential drawbacks are that it assumes conditional independence of samples, produces discontinuous predictions for, and it can have difficulty with high-cardinality categorical variables. Latent Gaussian models, such as Gaussian process and grouped random effects models, are flexible prior models that allow for making probabilistic predictions. However, existing latent Gaussian models usually assume either a zero or a linear prior mean function. This article introduces a novel approach that combines boosting and latent Gaussian models to remedy the above-mentioned drawbacks and to leverage the advantages of both techniques. We obtain increased predictive accuracy compared to existing approaches in both simulated and real-world data experiments.
翻訳日:2021-05-20 14:02:49 公開日:2021-05-19
# 事前学習型多言語言語モデルを用いた数学語問題の検討

Investigating Math Word Problems using Pretrained Multilingual Language Models ( http://arxiv.org/abs/2105.08928v1 )

ライセンス: Link先を確認
Minghuan Tan and Lei Wang and Lingxiao Jiang and Jing Jiang(参考訳) 本稿では,多言語・多言語の観点から,数学用語の問題~(MWP)を再考する。 コピー機構を持つシークエンス・ツー・シーケンス・モデルを用いて,事前学習した多言語モデル上でMWPソルバを構築する。 MWPソルバの言語横断シナリオと多言語シナリオにおける性能の比較を行った。 言語間性能の比較を容易にするために,我々はまず,大規模な英語データセットMathQAを中国語データセットMath23Kに適合させる。 次に、機械翻訳と人間のアノテーションにより、複数の英語データセットをバイリンガルデータセットに拡張する。 実験の結果,対象表現が同じ演算子セットと定数を持つ場合でも,MWPソルバは別の言語に変換されないことがわかった。 しかし、言語横断と多言語の両方の場合、ソース言語とターゲット言語の両方に問題型が存在する場合、より一般化することができる。

In this paper, we revisit math word problems~(MWPs) from the cross-lingual and multilingual perspective. We construct our MWP solvers over pretrained multilingual language models using sequence-to-sequence model with copy mechanism. We compare how the MWP solvers perform in cross-lingual and multilingual scenarios. To facilitate the comparison of cross-lingual performance, we first adapt the large-scale English dataset MathQA as a counterpart of the Chinese dataset Math23K. Then we extend several English datasets to bilingual datasets through machine translation plus human annotation. Our experiments show that the MWP solvers may not be transferred to a different language even if the target expressions have the same operator set and constants. But for both cross-lingual and multilingual cases, it can be better generalized if problem types exist on both source language and target language.
翻訳日:2021-05-20 14:02:37 公開日:2021-05-19
# 近接ドメインダイアログ生成のための検索型transformer-xl

Retrieval-Augmented Transformer-XL for Close-Domain Dialog Generation ( http://arxiv.org/abs/2105.09235v1 )

ライセンス: Link先を確認
Giovanni Bonetta, Rossella Cancelliere, Ding Liu, Paul Vozila(参考訳) トランスフォーマーベースのモデルは、自然言語生成におけるパターンや構造をキャプチャする優れた能力を示し、多くのタスクで最先端の結果を達成した。 本稿では,マルチターン対話応答生成のためのトランスモデルを提案する。 提案手法は,k-Nearest Neighborサーチによる学習データ中の記憶情報を利用した,トランスフォーマーに基づく生成モデルに新たな検索機構を付加したハイブリッド手法に基づいている。 googleがリリースしたtaskmaster-1は、高品質で目標指向の会話データと、実際のカスタマーサービスコールセンターから収集されたプロプライエタリなデータセットを持っている。 どちらも強いベースラインよりも優れたBLEUスコアを達成する。

Transformer-based models have demonstrated excellent capabilities of capturing patterns and structures in natural language generation and achieved state-of-the-art results in many tasks. In this paper we present a transformer-based model for multi-turn dialog response generation. Our solution is based on a hybrid approach which augments a transformer-based generative model with a novel retrieval mechanism, which leverages the memorized information in the training data via k-Nearest Neighbor search. Our system is evaluated on two datasets made by customer/assistant dialogs: the Taskmaster-1, released by Google and holding high quality, goal-oriented conversational data and a proprietary dataset collected from a real customer service call center. Both achieve better BLEU scores over strong baselines.
翻訳日:2021-05-20 14:02:25 公開日:2021-05-19
# 新しい軽量畳み込みニューラルネットワークExquisiteNetV2

A Novel lightweight Convolutional Neural Network, ExquisiteNetV2 ( http://arxiv.org/abs/2105.09008v1 )

ライセンス: Link先を確認
Shyh Yaw Jou and Chung Yen Su(参考訳) ExquisiteNetV1の論文では、ExquisiteNetV1の分類能力はDenseNetよりも悪い。 本稿では,より高速で優れたモデルexquisitenetv2を提案する。 我々はその性能を評価するために多くの実験を行う。 同じ条件下で15の信頼できるデータセット上で、ExquisiteNetV2、ExquisiteNetV1および他の9つのよく知られたモデルをテストする。 実験結果によると、exquisitenetv2はデータセットの半分以上の分類精度が最も高い。 重要なのは、ExquisiteNetV2にはパラメータがほとんどないことだ。 さらに、ほとんどの場合、ExquisiteNetV2は高速な計算速度を持つ。

In the paper of ExquisiteNetV1, the ability of classification of ExquisiteNetV1 is worse than DenseNet. In this article, we propose a faster and better model ExquisiteNetV2. We conduct many experiments to evaluate its performance. We test ExquisiteNetV2, ExquisiteNetV1 and other 9 well-known models on 15 credible datasets under the same condition. According to the experimental results, ExquisiteNetV2 gets the highest classification accuracy over half of the datasets. Important of all, ExquisiteNetV2 has fewest amounts of parameters. Besides, in most instances, ExquisiteNetV2 has fastest computing speed.
翻訳日:2021-05-20 14:02:13 公開日:2021-05-19
# 3dポイントクラウド上のローカルな攻撃的攻撃

Local Aggressive Adversarial Attacks on 3D Point Cloud ( http://arxiv.org/abs/2105.09090v1 )

ライセンス: Link先を確認
Yiming Sun, Feng Chen, Zhiyu Chen, Mingjie Wang, Ruonan Li(参考訳) ディープニューラルネットワークは、モデルを意図的に騙してミスを犯すような敵の例に傾向がある。 近年,グローバルポイントクラウド最適化により,このタスクを2次元イメージから3次元ポイントクラウドに拡張する作業がいくつか行われている。 しかし,グローバルポイントの摂動は被害者モデルの誤解に有効ではない。 まず、すべての点がミスリードに対する最適化において重要であるわけではない。 豊富なポイントはかなりの歪曲予算を負うが、攻撃に自明に寄与する。 第二に、マルチラベルの最適化は、複数のラベルの犠牲者モデル崩壊を見つける際に余分なエネルギーを消費し、特定のインスタンスと異なるインスタンス変換を引き起こすため、逆攻撃に最適である。 第3に、独立した敵意と知覚力の損失、誤分類と不一致を別々に考慮し、焦点を合わせることなく各点の更新を平等に扱う。 したがって、知覚損失が予算しきい値に近づくと、すべてのポイントは超球面にストックされ、攻撃は局所的最適性にロックされる。 そこで本稿では,上記の課題を解決するために,攻撃的攻撃攻撃(L3A)を提案する。 技術的には、勾配に応じて点雲の高スコア部分集合である一連の正解点を摂動に選択する。 次に, 攻撃的最適化戦略のフローを構築し, 被害者モデルに対する非知覚的な敵例の生成を強化する。 PointNet, PointNet++, DGCNN での大規模な実験により, 既存の攻撃手法に対する手法の最先端性能が実証された。

Deep neural networks are found to be prone to adversarial examples which could deliberately fool the model to make mistakes. Recently, a few of works expand this task from 2D image to 3D point cloud by using global point cloud optimization. However, the perturbations of global point are not effective for misleading the victim model. First, not all points are important in optimization toward misleading. Abundant points account considerable distortion budget but contribute trivially to attack. Second, the multi-label optimization is suboptimal for adversarial attack, since it consumes extra energy in finding multi-label victim model collapse and causes instance transformation to be dissimilar to any particular instance. Third, the independent adversarial and perceptibility losses, caring misclassification and dissimilarity separately, treat the updating of each point equally without a focus. Therefore, once perceptibility loss approaches its budget threshold, all points would be stock in the surface of hypersphere and attack would be locked in local optimality. Therefore, we propose a local aggressive adversarial attacks (L3A) to solve above issues. Technically, we select a bunch of salient points, the high-score subset of point cloud according to gradient, to perturb. Then a flow of aggressive optimization strategies are developed to reinforce the unperceptive generation of adversarial examples toward misleading victim models. Extensive experiments on PointNet, PointNet++ and DGCNN demonstrate the state-of-the-art performance of our method against existing adversarial attack methods.
翻訳日:2021-05-20 14:02:05 公開日:2021-05-19
# テキスト型の違いによるSpanBERTによる薬物イベント抽出の改善

Improving Adverse Drug Event Extraction with SpanBERT on Different Text Typologies ( http://arxiv.org/abs/2105.08882v1 )

ライセンス: Link先を確認
Beatrice Portelli, Daniele Passab\`i, Edoardo Lenzi, Giuseppe Serra, Enrico Santus and Emmanuele Chersoni(参考訳) 近年、インターネット利用者は、ソーシャルメディア、ブログ、健康フォーラムで有害薬物事件(ade)を報告している。 大量の報告のため、薬局はこれらのアウトレットを監視するためにNLPを活用しようとしている。 本稿では,ADE抽出のタスクにSpanBERTアーキテクチャを初めて使用することを提案する。 我々は2つのデータセット(SMM4HとCADEC)で異なるテキスト型(つぶやきとブログ投稿)で実験を行い、SpanBERTとCRFを組み合わせることにより、両者の競合よりも優れた結果が得られた。

In recent years, Internet users are reporting Adverse Drug Events (ADE) on social media, blogs and health forums. Because of the large volume of reports, pharmacovigilance is seeking to resort to NLP to monitor these outlets. We propose for the first time the use of the SpanBERT architecture for the task of ADE extraction: this new version of the popular BERT transformer showed improved capabilities with multi-token text spans. We validate our hypothesis with experiments on two datasets (SMM4H and CADEC) with different text typologies (tweets and blog posts), finding that SpanBERT combined with a CRF outperforms all the competitors on both of them.
翻訳日:2021-05-20 14:01:43 公開日:2021-05-19
# 因果干渉に対する決定規則のロバスト性に関する潜在的保証

Provable Guarantees on the Robustness of Decision Rules to Causal Interventions ( http://arxiv.org/abs/2105.09108v1 )

ライセンス: Link先を確認
Benjie Wang, Clare Lyle, Marta Kwiatkowska(参考訳) データ生成プロセスの変化に対する決定ルールのロバストさは、意思決定システムのデプロイの成功に不可欠である。 このようなシフトは因果グラフ上の介入と見なすことができ、自然の理由や逆境の作用によっても、データ生成プロセスの変化(おそらくは仮説上)を捉えることができる。 我々は因果ベイズ的ネットワークを考察し、パラメータや因果的影響の変化を示す介入の集合に関して最悪のケース性能を測定する決定関数に対する厳密性というモデルに基づく新しいロバスト性の概念である介入堅牢性問題を正式に定義する。 ベイズネットワークの扱いやすい表現を算術回路として依存することにより,介入的ロバスト性確率の上限値と下限値が保証される計算のための効率的なアルゴリズムを提供する。 実験により,提案手法は実用的ネットワークにおいて有用かつ解釈可能な境界を導出し,因果的に堅牢な意思決定システムへの道を開いた。

Robustness of decision rules to shifts in the data-generating process is crucial to the successful deployment of decision-making systems. Such shifts can be viewed as interventions on a causal graph, which capture (possibly hypothetical) changes in the data-generating process, whether due to natural reasons or by the action of an adversary. We consider causal Bayesian networks and formally define the interventional robustness problem, a novel model-based notion of robustness for decision functions that measures worst-case performance with respect to a set of interventions that denote changes to parameters and/or causal influences. By relying on a tractable representation of Bayesian networks as arithmetic circuits, we provide efficient algorithms for computing guaranteed upper and lower bounds on the interventional robustness probabilities. Experimental results demonstrate that the methods yield useful and interpretable bounds for a range of practical networks, paving the way towards provably causally robust decision-making systems.
翻訳日:2021-05-20 14:01:07 公開日:2021-05-19
# 自己強化型ユーザ嗜好による帯域学習のインセンティブ

Incentivized Bandit Learning with Self-Reinforcing User Preferences ( http://arxiv.org/abs/2105.08869v1 )

ライセンス: Link先を確認
Tianchen Zhou, Jia Liu, Chaosheng Dong, Jingyuan Deng(参考訳) 本稿では,多くの推薦システムにおいて実世界の現象を考慮した新しいマルチアーム・バンディット(MAB)オンライン学習モデルについて検討する: (i)学習エージェントは単独では腕を引っ張ることができず,また,間接的に腕の推進を動機付ける報酬を与える必要がある; (ii)特定の腕の好みを持つユーザに対して報奨が得られれば,類似の腕の好みを持つユーザを引き付けるという意味で,自己強化効果を誘導する。 探索と搾取のトレードオフに対処するだけでなく、新たなMABモデルのもう一つの重要な特徴は報酬のバランスと支払いのインセンティブを得ることである。 エージェントの目標は、固定時間軸$t$に対して総報酬を最大化し、総支払額を低くすることである。 i) ユーザの自己申告嗜好とインセンティブの関係を考慮したランダムアーム選択による新しいmabモデルを提案し, (ii) 非線形フィードバックモデルを用いた多色ポリa urnの特性を利用して, "at-least-$n$explore- then-commit" と "ucb-list" の2つのmabポリシーを提案する。 両ポリシーが$O(log T)$期待の後悔を達成し、$O(log T)$期待の支払いを時間軸で$T$で達成することを証明する。 我々は,これらの2つのポリシーの性能を実証し検証するために数値シミュレーションを行い,その頑健性について様々な条件下で検討する。

In this paper, we investigate a new multi-armed bandit (MAB) online learning model that considers real-world phenomena in many recommender systems: (i) the learning agent cannot pull the arms by itself and thus has to offer rewards to users to incentivize arm-pulling indirectly; and (ii) if users with specific arm preferences are well rewarded, they induce a "self-reinforcing&quo t; effect in the sense that they will attract more users of similar arm preferences. Besides addressing the tradeoff of exploration and exploitation, another key feature of this new MAB model is to balance reward and incentivizing payment. The goal of the agent is to maximize the total reward over a fixed time horizon $T$ with a low total payment. Our contributions in this paper are two-fold: (i) We propose a new MAB model with random arm selection that considers the relationship of users' self-reinforcing preferences and incentives; and (ii) We leverage the properties of a multi-color Polya urn with nonlinear feedback model to propose two MAB policies termed "At-Least-$n$ Explore-Then-Commit& quot; and "UCB-List". We prove that both policies achieve $O(log T)$ expected regret with $O(log T)$ expected payment over a time horizon $T$. We conduct numerical simulations to demonstrate and verify the performances of these two policies and study their robustness under various settings.
翻訳日:2021-05-20 14:00:48 公開日:2021-05-19
# 画像にフィットするフォントスタイル-画像コンテキストに基づくフォント生成

Font Style that Fits an Image -- Font Generation Based on Image Context ( http://arxiv.org/abs/2105.08879v1 )

ライセンス: Link先を確認
Taiga Miyazono, Brian Kenji Iwana, Daichi Haraguchi, Seiichi Uchida(参考訳) フォントを文書に使用する場合、意図的にデザイナーによって選択される。 例えば、本のカバーを設計するとき、テキストのタイポグラフィーは本の全体的な感覚において重要な要素である。 さらに、本カバーの残りの部分に適したフォントである必要がある。 そこで本研究では,書籍の表紙内のコンテキストに基づいてタイトル画像を生成する手法を提案する。 本稿では,書籍カバー,ターゲット位置マスク,所望の書籍タイトルを入力し,そのカバーに適したスタイル化されたテキストを出力するエンドツーエンドニューラルネットワークを提案する。 提案ネットワークは,マルチインプットエンコーダデコーダ,テキストスケルトン予測ネットワーク,知覚ネットワーク,および逆微分器の組み合わせを用いている。 提案手法は,定量的かつ定性的な結果によって,本文を効果的に生成できることを実証する。

When fonts are used on documents, they are intentionally selected by designers. For example, when designing a book cover, the typography of the text is an important factor in the overall feel of the book. In addition, it needs to be an appropriate font for the rest of the book cover. Thus, we propose a method of generating a book title image based on its context within a book cover. We propose an end-to-end neural network that inputs the book cover, a target location mask, and a desired book title and outputs stylized text suitable for the cover. The proposed network uses a combination of a multi-input encoder-decoder, a text skeleton prediction network, a perception network, and an adversarial discriminator. We demonstrate that the proposed method can effectively produce desirable and appropriate book cover text through quantitative and qualitative results.
翻訳日:2021-05-20 13:59:35 公開日:2021-05-19
# Kullback-Leiblerの多様性と平均二乗誤差の知識蒸留における比較

Comparing Kullback-Leibler Divergence and Mean Squared Error Loss in Knowledge Distillation ( http://arxiv.org/abs/2105.08919v1 )

ライセンス: Link先を確認
Taehyeon Kim, Jaehoon Oh, NakYil Kim, Sangwook Cho, Se-Young Yun(参考訳) 難解な教師モデルから軽量な学生モデルに知識を移す知識蒸留(kd)は、効率的な神経アーキテクチャを設計するために研究されている。 一般に、kd の目的関数は、教師モデルの軟化確率分布と、温度スケーリングハイパーパラメータ tau を用いた生徒モデルとの間のkullback-leibler (kl) 分岐損失である。 広く使われているにもかかわらず、そのような軟化が一般化に与える影響を論じる研究はほとんどない。 ここでは,KL分散損失は,タウ増加時のロジットマッチングと,タウ0のラベルマッチングに着目し,ロジットマッチングが一般に性能改善と正の相関があることを実証的に示す。 そこで本研究では,教師モデルのロジットを直接学習できるように,ロジットベクトル間の平均二乗誤差(MSE)である直感的なKD損失関数を考察する。 mse損失はkl分岐損失よりも優れており、この2つの損失間のペナルティメート層表現の違いが説明されている。 また,kl分岐損失を小さいtauで使用する場合,ラベルノイズを低減させるため,連続蒸留により性能が向上し,特にkdが向上することを示した。 実験を再現するコードはhttps://github.com/j hoon-oh/kd_data/で公開されている。

Knowledge distillation (KD), transferring knowledge from a cumbersome teacher model to a lightweight student model, has been investigated to design efficient neural architectures. Generally, the objective function of KD is the Kullback-Leibler (KL) divergence loss between the softened probability distributions of the teacher model and the student model with the temperature scaling hyperparameter tau. Despite its widespread use, few studies have discussed the influence of such softening on generalization. Here, we theoretically show that the KL divergence loss focuses on the logit matching when tau increases and the label matching when tau goes to 0 and empirically show that the logit matching is positively correlated to performance improvement in general. From this observation, we consider an intuitive KD loss function, the mean squared error (MSE) between the logit vectors, so that the student model can directly learn the logit of the teacher model. The MSE loss outperforms the KL divergence loss, explained by the difference in the penultimate layer representations between the two losses. Furthermore, we show that sequential distillation can improve performance and that KD, particularly when using the KL divergence loss with small tau, mitigates the label noise. The code to reproduce the experiments is publicly available online at https://github.com/j hoon-oh/kd_data/.
翻訳日:2021-05-20 13:59:23 公開日:2021-05-19
# BatchQuant:ロバスト量子化器による全アーキテクチャ検索

BatchQuant: Quantized-for-all Architecture Search with Robust Quantizer ( http://arxiv.org/abs/2105.08952v1 )

ライセンス: Link先を確認
Haoping Bai, Meng Cao, Ping Huang, Jiulong Shan(参考訳) エッジデバイスへのディープラーニングモデルの適用が加速するにつれて、リソース制約の異なるさまざまなシナリオへの迅速な適応が、モデルデプロイメントの重要な側面となっている。 その結果,適応型構成によるモデル最適化戦略がますます普及している。 シングルショット量子化ニューラルネットワークの検索は、モデルアーキテクチャと量子化ポリシーの両方において柔軟性を享受しているが、複合検索空間には、重み共有スーパーネットのトレーニングにおける不安定性や、指数的に増加する検索空間のナビゲートの難しさなど、多くの課題がある。 既存の手法では、アーキテクチャ検索スペースを少数のオプションに制限するか、量子化ポリシー検索スペースを固定精度ポリシーに制限する傾向にある。 そこで本研究では,コンパクトで単発,混合精度,重み共有型スーパーネットの高速かつ安定なトレーニングを実現する,ロバストな量子化公式である batchquant を提案する。 我々はBatchQuantを使って、従来の方法よりもGPU時間が少なくて、コンパクトなスーパーネット(量子化サブネット10〜76ドル以上)をトレーニングしています。 私たちのアプローチであるquantized-for-all(qf a)は、ワンショットの重量共有nasスーパーネットをシームレスに拡張し、任意の超低ビット幅混合精度量子化ポリシーでサブネットをサポートする最初の方法です。 QFAは、ハードウェアを意識したニューラルアーキテクチャ検索と量子化の新たな可能性を開く。 本手法の有効性をImageNet上で実証し,低複雑性制約(<20$MFLOPs)下でSOTA Top-1精度を実現する。 コードとモデルはhttps://github.com/b hpfelix/QFA.comで公開される。

As the applications of deep learning models on edge devices increase at an accelerating pace, fast adaptation to various scenarios with varying resource constraints has become a crucial aspect of model deployment. As a result, model optimization strategies with adaptive configuration are becoming increasingly popular. While single-shot quantized neural architecture search enjoys flexibility in both model architecture and quantization policy, the combined search space comes with many challenges, including instability when training the weight-sharing supernet and difficulty in navigating the exponentially growing search space. Existing methods tend to either limit the architecture search space to a small set of options or limit the quantization policy search space to fixed precision policies. To this end, we propose BatchQuant, a robust quantizer formulation that allows fast and stable training of a compact, single-shot, mixed-precision, weight-sharing supernet. We employ BatchQuant to train a compact supernet (offering over $10^{76}$ quantized subnets) within substantially fewer GPU hours than previous methods. Our approach, Quantized-for-all (QFA), is the first to seamlessly extend one-shot weight-sharing NAS supernet to support subnets with arbitrary ultra-low bitwidth mixed-precision quantization policies without retraining. QFA opens up new possibilities in joint hardware-aware neural architecture search and quantization. We demonstrate the effectiveness of our method on ImageNet and achieve SOTA Top-1 accuracy under a low complexity constraint ($<20$ MFLOPs). The code and models will be made publicly available at https://github.com/b hpfelix/QFA.
翻訳日:2021-05-20 13:59:00 公開日:2021-05-19
# 視覚特徴表現のプロトタイプ指導型フェデレーション学習

Prototype Guided Federated Learning of Visual Feature Representations ( http://arxiv.org/abs/2105.08982v1 )

ライセンス: Link先を確認
Umberto Michieli and Mete Ozay(参考訳) フェデレーション学習(federated learning、fl)は、分散トレーニングデータの大規模なコーパスを使用して、分散モデルのトレーニングを可能にするフレームワークである。 既存の手法では、内部表現を無視したモデルを集約する。 システムと統計的不均一性(例えば、高度不均衡と非i.d.) データ) さらに モデルトレーニングを害します この目的のために,FedProtoと呼ばれる手法を導入し,分散データ上で学習したプロトタイプ表現のマージンを用いてクライアントの偏差を計算し,アテンション機構によるフェデレーション最適化に応用する。 さらに,flで学習した特徴表現の統計的性質を解析し,flモデルの精度,マージン,特徴差の関係を明らかにするための3つの手法を提案する。 FedProtoは、FLモデルの最大マージントレーニングを可能にすることにより、画像分類とセマンティックセグメンテーションベンチマーク間の最先端の精度と収束率を示す。 さらに、FedProtoはベースラインと比較してFLモデルの予測の不確実性を低減する。 我々の知る限り、セマンティックセグメンテーションのような密集予測タスクにおけるFLモデルの評価はこれが初めてである。

Federated Learning (FL) is a framework which enables distributed model training using a large corpus of decentralized training data. Existing methods aggregate models disregarding their internal representations, which are crucial for training models in vision tasks. System and statistical heterogeneity (e.g., highly imbalanced and non-i.i.d. data) further harm model training. To this end, we introduce a method, called FedProto, which computes client deviations using margins of prototypical representations learned on distributed data, and applies them to drive federated optimization via an attention mechanism. In addition, we propose three methods to analyse statistical properties of feature representations learned in FL, in order to elucidate the relationship between accuracy, margins and feature discrepancy of FL models. In experimental analyses, FedProto demonstrates state-of-the-art accuracy and convergence rate across image classification and semantic segmentation benchmarks by enabling maximum margin training of FL models. Moreover, FedProto reduces uncertainty of predictions of FL models compared to the baseline. To our knowledge, this is the first work evaluating FL models in dense prediction tasks, such as semantic segmentation.
翻訳日:2021-05-20 13:58:31 公開日:2021-05-19
# 深層分類器が同意する:学習順序と画像統計の相関分析

When Deep Classifiers Agree: Analyzing Correlations between Learning Order and Image Statistics ( http://arxiv.org/abs/2105.08997v1 )

ライセンス: Link先を確認
Iuliia Pliushch, Martin Mundt, Nicolas Lupp, Visvanathan Ramesh(参考訳) 深層分類のための多くの建築的変種が時間をかけて導入されたが、近年の研究では、その訓練過程における類似性に対する実証的な証拠が見つかっている。 ニューラルネットワークが類似した表現に収束するだけでなく、データインスタンスが最初に学習される経験的合意の概念を示すと仮定されている。 後者の著作物$'$の足跡に続いて、このような分類合意の関係を経時的に定量化するためのメトリクスを定義し、調査されたデータセットのコア統計にアグリーメント現象をマッピングできると仮定する。 我々は、CIFAR10、Pascal、ImageNet、KTH-TIPS2データセットでこの仮説を実証的に裏付ける。 以上の結果から,コンセンサスは特定のアーキテクチャやハイパーパラメータ,ラベルに依存しないと考えられるが,画像統計では順序に従う。

Although a plethora of architectural variants for deep classification has been introduced over time, recent works have found empirical evidence towards similarities in their training process. It has been hypothesized that neural networks converge not only to similar representations, but also exhibit a notion of empirical agreement on which data instances are learned first. Following in the latter works$'$ footsteps, we define a metric to quantify the relationship between such classification agreement over time, and posit that the agreement phenomenon can be mapped to core statistics of the investigated dataset. We empirically corroborate this hypothesis across the CIFAR10, Pascal, ImageNet and KTH-TIPS2 datasets. Our findings indicate that agreement seems to be independent of specific architectures, training hyper-parameters or labels, albeit follows an ordering according to image statistics.
翻訳日:2021-05-20 13:58:12 公開日:2021-05-19
# オーバーヘッドの少ないより正確な早期出力用単層視覚変換器

Single-Layer Vision Transformers for More Accurate Early Exits with Less Overhead ( http://arxiv.org/abs/2105.09121v1 )

ライセンス: Link先を確認
Arian Bakhtiarnia, Qi Zhang and Alexandros Iosifidis(参考訳) エッジコンピューティングシステムやiotネットワークなど、限られた計算リソースを持つ時間クリティカルなアプリケーションにディープラーニングモデルをデプロイすることは、早期のイグジットのような動的推論メソッドにしばしば依存する、困難なタスクである。 本稿では,視覚トランスフォーマーアーキテクチャに基づく早期退出のための新しいアーキテクチャを提案するとともに,従来のアプローチに比べて早期退出ブランチの精度を著しく向上させながら,オーバーヘッドを低減した微調整戦略を提案する。 画像と音声の分類と音響視覚的群集の計数に関する広範な実験を通じて,本手法は分類と回帰の両問題,および単一・複数モードの設定において有効であることを示す。 さらに、オーディオ視覚データ解析において、早期出口における音声と視覚のモダリティを統合する新しい手法を導入し、よりきめ細かな動的推論を実現する。

Deploying deep learning models in time-critical applications with limited computational resources, for instance in edge computing systems and IoT networks, is a challenging task that often relies on dynamic inference methods such as early exiting. In this paper, we introduce a novel architecture for early exiting based on the vision transformer architecture, as well as a fine-tuning strategy that significantly increase the accuracy of early exit branches compared to conventional approaches while introducing less overhead. Through extensive experiments on image and audio classification as well as audiovisual crowd counting, we show that our method works for both classification and regression problems, and in both single- and multi-modal settings. Additionally, we introduce a novel method for integrating audio and visual modalities within early exits in audiovisual data analysis, that can lead to a more fine-grained dynamic inference.
翻訳日:2021-05-20 13:57:58 公開日:2021-05-19
# 外乱検出のためのドメイン内データから表現を学ぶ必要があるか?

Do We Really Need to Learn Representations from In-domain Data for Outlier Detection? ( http://arxiv.org/abs/2105.09270v1 )

ライセンス: Link先を確認
Zhisheng Xiao, Qing Yan, Yali Amit(参考訳) 教師なしの異常値検出(unsupervised outlier detection)は、テストサンプルが異常値であるかどうかを予測し、不正な不利値データからの情報のみを使用する。 近年,この2段階フレームワークに基づく手法が最先端のパフォーマンスを実現している。 このフレームワークは、自己教師付き表現学習アルゴリズムを利用して、異常データに特徴抽出器をトレーニングし、特徴空間に単純な外れ値検出器を適用する。 本稿では,外乱検出タスク毎に異なる表現をトレーニングするコストを高いコストで回避し,その代わりに,ドメイン内のデータソースに関わらず,単一の事前学習ネットワークをユニバーサルな特徴抽出器として使用する可能性を検討する。 特に、imagenetで事前トレーニングされた1つのネットワークでタスク固有の特徴抽出器を、自己教師付き損失に置き換える。 実験では,従来の2段階法と比較して,様々な外乱検出ベンチマークの競合性や性能を実証し,外乱検出にはドメイン内データからの学習表現が不要である可能性が示唆された。

Unsupervised outlier detection, which predicts if a test sample is an outlier or not using only the information from unlabelled inlier data, is an important but challenging task. Recently, methods based on the two-stage framework achieve state-of-the-art performance on this task. The framework leverages self-supervised representation learning algorithms to train a feature extractor on inlier data, and applies a simple outlier detector in the feature space. In this paper, we explore the possibility of avoiding the high cost of training a distinct representation for each outlier detection task, and instead using a single pre-trained network as the universal feature extractor regardless of the source of in-domain data. In particular, we replace the task-specific feature extractor by one network pre-trained on ImageNet with a self-supervised loss. In experiments, we demonstrate competitive or better performance on a variety of outlier detection benchmarks compared with previous two-stage methods, suggesting that learning representations from in-domain data may be unnecessary for outlier detection.
翻訳日:2021-05-20 13:57:44 公開日:2021-05-19
# MedSensor: スマートウォッチ加速度センサデータを用いたニューラルネットワークを用いたメディケイトアドヒアランスモニタリング

MedSensor: Medication Adherence Monitoring Using Neural Networks on Smartwatch Accelerometer Sensor Data ( http://arxiv.org/abs/2105.08907v1 )

ライセンス: Link先を確認
Chrisogonas Odhiambo (1 and 3), Pamela Wright (2 and 3), Cindy Corbett (2 and 3), Homayoun Valafar (1 and 3) ((1) Computer Science and Engineering Department, (2) College of Nursing, (3) University of South Carolina)(参考訳) 治療効果の低下、合併症、何十億ドルもの無駄な医療や処置の損失など深刻な経済的・健康的な問題を引き起こす。 この問題に対処するために様々な介入が提案されているが、医薬品の使用と定着を改善するためのユーザーツールを開発するために、スマートウォッチのような軽量でスマートで最小限の難読化技術を活用する必要がある。 本研究は,薬物摂取に関するいくつかの実験を行い,スマートウォッチから加速度計の手の動きデータを収集するアンドロイドアプリケーションを開発し,収集したデータを中央クラウドデータベースに転送した。 ニューラルネットワークを開発し、センサーデータのネットワークを訓練し、薬品や非薬効のジェスチャーを認識する。 提案する機械学習アルゴリズムアプローチにより,提案手法を用いたジェスチャーデータでは平均精度スコア97%,自然なジェスチャーデータでは95%を達成した。

Poor medication adherence presents serious economic and health problems including compromised treatment effectiveness, medical complications, and loss of billions of dollars in wasted medicine or procedures. Though various interventions have been proposed to address this problem, there is an urgent need to leverage light, smart, and minimally obtrusive technology such as smartwatches to develop user tools to improve medication use and adherence. In this study, we conducted several experiments on medication-taking activities, developed a smartwatch android application to collect the accelerometer hand gesture data from the smartwatch, and conveyed the data collected to a central cloud database. We developed neural networks, then trained the networks on the sensor data to recognize medication and non-medication gestures. With the proposed machine learning algorithm approach, this study was able to achieve average accuracy scores of 97% on the protocol-guided gesture data, and 95% on natural gesture data.
翻訳日:2021-05-20 13:57:26 公開日:2021-05-19
# 時空間軌道畳み込みネットワークと空港状況認識マップによる飛行遅延予測

Predicting Flight Delay with Spatio-Temporal Trajectory Convolutional Network and Airport Situational Awareness Map ( http://arxiv.org/abs/2105.08969v1 )

ライセンス: Link先を確認
Wei Shao, Arian Prabowo, Sichen Zhao, Piotr Koniusz, Flora D. Salim(参考訳) 飛行遅延を正確にモデル化し,予測するためには,空港のターマックエリアにおける様々な車両軌道およびコンテキストセンサデータを活用することが重要である。 これらの異種センサデータは、正しくモデル化された場合、状況認識マップを生成するために使用できる。 既存の手法では、従来の教師付き学習手法を歴史データ、状況情報、空港間の経路情報に適用し、フライト遅延の予測は不正確であり、到着遅延は予測するが、出発遅延は予測しない。 本稿では,空港に適用可能な高い予測精度を実現するためのビジョンベースソリューションを提案する。 提案手法では,空港状況認識マップのスナップショットを活用し,航空機の様々な軌跡や,気象や航空会社のスケジュールなどの状況情報を含む。 本稿では,状況認識マップから空間情報と時間情報の両方を取り込む,エンドツーエンドのディープラーニングアーキテクチャであるtrajcnnを提案する。 さらに,空港の状況認識マップは,発車遅延の推定に重要な影響を与えることを明らかにした。 提案手法は,ロサンゼルス国際空港の出発遅延を予測するためのよい結果(約18分誤差)を得た。

To model and forecast flight delays accurately, it is crucial to harness various vehicle trajectory and contextual sensor data on airport tarmac areas. These heterogeneous sensor data, if modelled correctly, can be used to generate a situational awareness map. Existing techniques apply traditional supervised learning methods onto historical data, contextual features and route information among different airports to predict flight delay are inaccurate and only predict arrival delay but not departure delay, which is essential to airlines. In this paper, we propose a vision-based solution to achieve a high forecasting accuracy, applicable to the airport. Our solution leverages a snapshot of the airport situational awareness map, which contains various trajectories of aircraft and contextual features such as weather and airline schedules. We propose an end-to-end deep learning architecture, TrajCNN, which captures both the spatial and temporal information from the situational awareness map. Additionally, we reveal that the situational awareness map of the airport has a vital impact on estimating flight departure delay. Our proposed framework obtained a good result (around 18 minutes error) for predicting flight departure delay at Los Angeles International Airport.
翻訳日:2021-05-20 13:57:11 公開日:2021-05-19
# 生成的深層学習における著作権

Copyright in Generative Deep Learning ( http://arxiv.org/abs/2105.09266v1 )

ライセンス: Link先を確認
Giorgio Franceschelli and Mirco Musolesi(参考訳) 機械によるアートシーンは現代美術シーンの一部であり、大きな投資を集めており、人間アーティストが制作した作品とともに展示会で展示されている。 これらのアートワークは主に生成的深層学習技術に基づいている。 また、その成功を踏まえると、これらの技術を扱う際にいくつかの法的問題が発生する。 本稿では,芸術における生成的深層学習の分野における重要な課題について考察する。 生成モデルのトレーニングセットとして著作権作品を使用することは可能か? トレーニングプロセスを実行するために、コピーを法的にどのように保存するか? そして、誰が(誰かが)生成したデータの著作権を所有するのか? 私たちは、米国とeuの両方で施行される法律と将来の代替案を考慮したこれらの質問に答え、ディープラーニング生成アートに取り組んでいるアーティストと開発者のためのガイドラインを定義しようとしています。

Machine-generated artworks are now part of the contemporary art scene: they are attracting significant investments and they are presented in exhibitions together with those created by human artists. These artworks are mainly based on generative deep learning techniques. Also given their success, several legal problems arise when working with these techniques. In this article we consider a set of key questions in the area of generative deep learning for the arts. Is it possible to use copyrighted works as training set for generative models? How do we legally store their copies in order to perform the training process? And then, who (if someone) will own the copyright on the generated data? We try to answer these questions considering the law in force in both US and EU and the future alternatives, trying to define a set of guidelines for artists and developers working on deep learning generated art.
翻訳日:2021-05-20 13:56:52 公開日:2021-05-19
# 3次元における分子生成のためのE(n)同変正規化流れ

E(n) Equivariant Normalizing Flows for Molecule Generation in 3D ( http://arxiv.org/abs/2105.09016v1 )

ライセンス: Link先を確認
Victor Garcia Satorras, Emiel Hoogeboom, Fabian B. Fuchs, Ingmar Posner, Max Welling(参考訳) 本稿ではユークリッド対称性に同値な生成モデルを提案する: E(n) 等変正規化フロー(E-NFs)。 E-NFsを構築するために、識別可能なE(n)グラフニューラルネットワークを微分方程式として統合し、可逆同変関数:連続時間正規化フローを得る。 E-NFsはDW4やLJ13などの粒子系、およびQM9の分子のログライクな構造において、ベースラインや既存手法よりもかなり優れていた。 私たちの知る限りでは、これは3Dで分子を生成する可能性に基づく最初の深層生成モデルである。

This paper introduces a generative model equivariant to Euclidean symmetries: E(n) Equivariant Normalizing Flows (E-NFs). To construct E-NFs, we take the discriminative E(n) graph neural networks and integrate them as a differential equation to obtain an invertible equivariant function: a continuous-time normalizing flow. We demonstrate that E-NFs considerably outperform baselines and existing methods from the literature on particle systems such as DW4 and LJ13, and on molecules from QM9 in terms of log-likelihood. To the best of our knowledge, this is the first likelihood-based deep generative model that generates molecules in 3D.
翻訳日:2021-05-20 13:56:42 公開日:2021-05-19
# Mill.jlとJsonGrinder.jl:生のJSONデータから学習するための自動微分可能な特徴抽出

Mill.jl and JsonGrinder.jl: automated differentiable feature extraction for learning from raw JSON data ( http://arxiv.org/abs/2105.09107v1 )

ライセンス: Link先を確認
Simon Mandlik, Matej Racinsky, Viliam Lisy, Tomas Pevny(参考訳) 生のデータ入力から学ぶことは、手作業の機能エンジニアリングの必要性を制限し、機械学習手法の多くの成功例の重要な要素の1つである。 機械学習の問題は、分類器に適したベクトル表現に自然に変換されるデータに定式化されることが多いが、例えばサイバーセキュリティでは、XML、JSON、Protocol Buffersのような統一階層構造を持つ様々なファイルで自然に表現されるデータソースが存在する。 このデータをベクトル(テンソル)表現に変換するのは、一般的に手動の機能エンジニアリングによって行われます。 MillとJsonGrinderはライブラリのタンデムであり、変換を完全に自動化している。 任意のJSONサンプルセットから始めて、生の形式でさらなるJSONサンプルから推論可能な、微分可能な機械学習モデルを生成する。

Learning from raw data input, thus limiting the need for manual feature engineering, is one of the key components of many successful applications of machine learning methods. While machine learning problems are often formulated on data that naturally translate into a vector representation suitable for classifiers, there are data sources, for example in cybersecurity, that are naturally represented in diverse files with a unifying hierarchical structure, such as XML, JSON, and Protocol Buffers. Converting this data to vector (tensor) representation is generally done by manual feature engineering, which is laborious, lossy, and prone to human bias about the importance of particular features. Mill and JsonGrinder is a tandem of libraries, which fully automates the conversion. Starting with an arbitrary set of JSON samples, they create a differentiable machine learning model capable of infer from further JSON samples in their raw form.
翻訳日:2021-05-20 13:56:32 公開日:2021-05-19
# XCyclesバックプロジェクション超解法

XCycles Backprojection Acoustic Super-Resolution ( http://arxiv.org/abs/2105.09128v1 )

ライセンス: Link先を確認
Feras Almasri, Jurgen Vandendriessche, Laurent Segers, Bruno da Silva, An Braeken, Kris Steenhaut, Abdellah Touhafi and Olivier Debeir(参考訳) コンピュータビジョンコミュニティは、ディープニューラルネットワーク(DNN)を用いた可視像超解像(SR)の開発に多くの注意を払っており、素晴らしい成果を上げている。 可視光スペクトルを超える音波の強度を可視化できるため、音響撮像センサなどの非可視光センサの進歩は多くの注目を集めている。 しかし, 音響データの取得に制限が課されているため, 音響画像の解像度を改善するための新しい手法が必要である。 この時点で、SR問題のために設計された音響画像データセットは存在しない。 本研究は,音響地図画像VUB-ULBデータセット(AMIVU)とともに,音響画像超解像問題のための新しいバックプロジェクションモデルアーキテクチャを提案する。 データセットは、異なる解像度で、大きなシミュレーションと実際のキャプチャー画像を提供する。 提案するxcycles backprojection model (xcbp) はfeedforwardモデルと対照的に,各サイクルにおける反復補正法を十分に活用し,低解像度および高分解能空間における符号化特徴の残差誤差補正を再構成する。 提案手法は,従来の補間演算子や最近のフィードフォワード・オブ・ザ・アーティファクトモデルと比較して高い性能を示した。 また、データ取得中に発生するサブサンプリングエラーを大幅に削減した。

The computer vision community has paid much attention to the development of visible image super-resolution (SR) using deep neural networks (DNNs) and has achieved impressive results. The advancement of non-visible light sensors, such as acoustic imaging sensors, has attracted much attention, as they allow people to visualize the intensity of sound waves beyond the visible spectrum. However, because of the limitations imposed on acquiring acoustic data, new methods for improving the resolution of the acoustic images are necessary. At this time, there is no acoustic imaging dataset designed for the SR problem. This work proposed a novel backprojection model architecture for the acoustic image super-resolution problem, together with Acoustic Map Imaging VUB-ULB Dataset (AMIVU). The dataset provides large simulated and real captured images at different resolutions. The proposed XCycles BackProjection model (XCBP), in contrast to the feedforward model approach, fully uses the iterative correction procedure in each cycle to reconstruct the residual error correction for the encoded features in both low- and high-resolution space. The proposed approach was evaluated on the dataset and showed high outperformance compared to the classical interpolation operators and to the recent feedforward state-of-the-art models. It also contributed to a drastically reduced sub-sampling error produced during the data acquisition.
翻訳日:2021-05-20 13:55:45 公開日:2021-05-19
# 事前学習された知覚指標を用いたスタイル伝達効果のツールおよびドメイン非依存パラメータ化

Tool- and Domain-Agnostic Parameterization of Style Transfer Effects Leveraging Pretrained Perceptual Metrics ( http://arxiv.org/abs/2105.09207v1 )

ライセンス: Link先を確認
Hiromu Yakura, Yuki Koyama, Masataka Goto(参考訳) スタイル転送のための現在のディープラーニング技術は、"ワンショット"転送が探索設計プロセスに適合しないため、設計支援に最適ではない。 このギャップを克服するために,既存のコンテンツ編集ツールで利用可能な特定の変換のパラメータ値にエンドツーエンドスタイル転送効果を転写するパラメトリック転写を提案する。 このアプローチにより、ユーザは慣れ親しんだツールで参照サンプルのスタイルを模倣することができ、パラメータを操作することで、さらなる探索を継続することができる。 これを実現するために,既存の事前学習モデルを用いて参照サンプルに対する知覚的スタイル距離を計算するフレームワークを導入し,ブラックボックス最適化を用いて,この距離を最小化するパラメータを求める。 InstagramやBlenderなど,さまざまなサードパーティツールによる実験から,私たちのフレームワークは,ディープラーニング技術を効果的に活用して計算設計をサポートできることが分かりました。

Current deep learning techniques for style transfer would not be optimal for design support since their "one-shot" transfer does not fit exploratory design processes. To overcome this gap, we propose parametric transcription, which transcribes an end-to-end style transfer effect into parameter values of specific transformations available in an existing content editing tool. With this approach, users can imitate the style of a reference sample in the tool that they are familiar with and thus can easily continue further exploration by manipulating the parameters. To enable this, we introduce a framework that utilizes an existing pretrained model for style transfer to calculate a perceptual style distance to the reference sample and uses black-box optimization to find the parameters that minimize this distance. Our experiments with various third-party tools, such as Instagram and Blender, show that our framework can effectively leverage deep learning techniques for computational design support.
翻訳日:2021-05-20 13:55:22 公開日:2021-05-19
# 並列MRIの無作為化と分割

Joint Calibrationless Reconstruction and Segmentation of Parallel MRI ( http://arxiv.org/abs/2105.09220v1 )

ライセンス: Link先を確認
Aniket Pramanik, Xiaodong Wu, Mathews Jacob(参考訳) MRIデータからの脳領域の体積推定は、高空間解像度のデータ取得が望ましい多くの臨床応用において重要な問題である。 並列MRIと制約画像再構成アルゴリズムはスキャンを高速化するが、画像再構成アーティファクトは特に高い加速係数で避けられない。 画像品質の向上と,加速度による画像アーティファクトに対する現在のセグメンテーションアルゴリズムの脆弱性の低減を目的として,キャリブレーションレス並列MRI再構成のための新しい画像領域深層学習フレームワークを提案する。 提案した画像領域の深いキャリブレーションレスアプローチとセグメンテーションアルゴリズムの組み合わせは、セグメンテーションの精度を高めつつ、画像品質を向上させる。 リコンストラクションとセグメンテーションタスク間で共有されるエンコーダを備えた新しいアーキテクチャは、セグメント化されたトレーニングデータセットの必要性を減少させる。 特に、提案されている数発のトレーニング戦略では、パフォーマンス向上のためにセグメント化されたデータセットの10%しか必要としない。

The volume estimation of brain regions from MRI data is a key problem in many clinical applications, where the acquisition of data at high spatial resolution is desirable. While parallel MRI and constrained image reconstruction algorithms can accelerate the scans, image reconstruction artifacts are inevitable, especially at high acceleration factors. We introduce a novel image domain deep-learning framework for calibrationless parallel MRI reconstruction, coupled with a segmentation network to improve image quality and to reduce the vulnerability of current segmentation algorithms to image artifacts resulting from acceleration. The combination of the proposed image domain deep calibrationless approach with the segmentation algorithm offers improved image quality, while increasing the accuracy of the segmentations. The novel architecture with an encoder shared between the reconstruction and segmentation tasks is seen to reduce the need for segmented training datasets. In particular, the proposed few-shot training strategy requires only 10% of segmented datasets to offer good performance.
翻訳日:2021-05-20 13:55:06 公開日:2021-05-19
# 画像から画像への変換 : 衛星画像からの地図生成

Image to Image Translation : Generating maps from satellite images ( http://arxiv.org/abs/2105.09253v1 )

ライセンス: Link先を確認
Vaishali Ingale, Rishabh Singh, Pragati Patwal(参考訳) 衛星画像からの地図生成は、従来は様々なツールで行われている。 地図は、衛星画像からの変換が少々高価になるが、生成モデルは、この課題に直面する可能性がある。 これらのモデルは、入力画像と出力画像の間のパターンを見つけることを目的としている。 衛星画像を対応する地図に変換するために画像から画像への変換を用いる。 生成逆数ネットワーク、条件付き逆数ネットワーク、共変量オートエンコーダなどの画像から画像への変換のための異なる技術を用いて、その領域の対応する可読マップを生成し、その入力として衛星画像を所定のズームレベルで取得する。 我々は,偽画像を生成する生成モデルと,画像の識別者が本物か偽かのどちらかを分類しようとするかからなる条件付き生成敵ネットワーク上でモデルを訓練し,両者が互いに騙し合い,その結果,モデル性能の向上を図っている。

Generation of maps from satellite images is conventionally done by a range of tools. Maps became an important part of life whose conversion from satellite images may be a bit expensive but Generative models can pander to this challenge. These models aims at finding the patterns between the input and output image. Image to image translation is employed to convert satellite image to corresponding map. Different techniques for image to image translations like Generative adversarial network, Conditional adversarial networks and Co-Variational Auto encoders are used to generate the corresponding human-readable maps for that region, which takes a satellite image at a given zoom level as its input. We are training our model on Conditional Generative Adversarial Network which comprises of Generator model which which generates fake images while the discriminator tries to classify the image as real or fake and both these models are trained synchronously in adversarial manner where both try to fool each other and result in enhancing model performance.
翻訳日:2021-05-20 13:54:48 公開日:2021-05-19
# ネスト付き名前付きエンティティ認識のためのシーケンス・ツー・セットネットワーク

A Sequence-to-Set Network for Nested Named Entity Recognition ( http://arxiv.org/abs/2105.08901v1 )

ライセンス: Link先を確認
Zeqi Tan, Yongliang Shen, Shuai Zhang, Weiming Lu, Yueting Zhuang(参考訳) 名前付き実体認識(NER)は自然言語処理において広く研究されている課題である。 近年、ネストされたNERに焦点をあてる研究が増えている。 スパンベースの手法は、エンティティ認識をスパン分類タスクとして考慮し、ネストされたエンティティを自然に扱うことができる。 しかし、彼らは巨大な検索スペースとエンティティ間の相互作用の欠如に悩まされている。 そこで本研究では,ネストナーのための新しいシーケンス・ツー・セットニューラルネットワークを提案する。 候補スパンを事前に指定するのではなく、有用なスパンのパターンを学ぶための学習可能なベクトルの固定セットを提供する。 我々は、非自己回帰デコーダを使用して、エンティティ間の依存関係をキャプチャできる1つのパスにおけるエンティティの最終セットを予測する。 シーケンス・ツー・シーケンス法と比較すると,本モデルはラベル順に敏感な非順序認識タスクに適している。 さらに,両部マッチングに基づく損失関数を用いて,総合的なトレーニング損失を算出する。 実験結果から,NERコーパス3個(ACE 2004,ACE 2005,KBP 2017)について,本モデルの有効性が示唆された。

Named entity recognition (NER) is a widely studied task in natural language processing. Recently, a growing number of studies have focused on the nested NER. The span-based methods, considering the entity recognition as a span classification task, can deal with nested entities naturally. But they suffer from the huge search space and the lack of interactions between entities. To address these issues, we propose a novel sequence-to-set neural network for nested NER. Instead of specifying candidate spans in advance, we provide a fixed set of learnable vectors to learn the patterns of the valuable spans. We utilize a non-autoregressive decoder to predict the final set of entities in one pass, in which we are able to capture dependencies between entities. Compared with the sequence-to-sequence method, our model is more suitable for such unordered recognition task as it is insensitive to the label order. In addition, we utilize the loss function based on bipartite matching to compute the overall training loss. Experimental results show that our proposed model achieves state-of-the-art on three nested NER corpora: ACE 2004, ACE 2005 and KBP 2017.
翻訳日:2021-05-20 13:53:52 公開日:2021-05-19
# openmeva: オープンエンドのストーリー生成メトリクスを評価するベンチマーク

OpenMEVA: A Benchmark for Evaluating Open-ended Story Generation Metrics ( http://arxiv.org/abs/2105.08920v1 )

ライセンス: Link先を確認
Jian Guan, Zhexin Zhang, Zhuoer Feng, Zitao Liu, Wenbiao Ding, Xiaoxi Mao, Changjie Fan, Minlie Huang(参考訳) 自動メトリクスは、自然言語生成(NLG)モデル、特にストーリー生成のようなオープンな言語生成タスクの開発に不可欠である。 しかし、既存の自動測定基準は人間の評価と相関が低い。 ベンチマークデータセットが標準化されていないため、メトリクスの能力を完全に評価し、異なるメトリクスを比較的比較することは困難である。 そこで我々はオープンエンドのストーリー生成指標を評価するベンチマークOpenMEVAを提案する。 OpenMEVAは、(a)人間の判断との相関、(b)異なるモデル出力とデータセットへの一般化、(c)ストーリーコヒーレンスを判断する能力、(d)摂動に対する堅牢性など、メトリクスの能力を評価するための包括的なテストスイートを提供する。 この目的のために、OpenMEVAは手動で注釈付けされたストーリーと自動構築されたテスト例の両方を含んでいる。 我々は、OpenMEVA上の既存の指標を評価し、人間の判断と相関が低く、談話レベルの不整合を認識できず、推論知識(イベント間の因果順序など)、一般化能力、堅牢性を欠いていることを観察する。 本研究は,nlgモデルとメトリクスの開発に関する知見を提供する。

Automatic metrics are essential for developing natural language generation (NLG) models, particularly for open-ended language generation tasks such as story generation. However, existing automatic metrics are observed to correlate poorly with human evaluation. The lack of standardized benchmark datasets makes it difficult to fully evaluate the capabilities of a metric and fairly compare different metrics. Therefore, we propose OpenMEVA, a benchmark for evaluating open-ended story generation metrics. OpenMEVA provides a comprehensive test suite to assess the capabilities of metrics, including (a) the correlation with human judgments, (b) the generalization to different model outputs and datasets, (c) the ability to judge story coherence, and (d) the robustness to perturbations. To this end, OpenMEVA includes both manually annotated stories and auto-constructed test examples. We evaluate existing metrics on OpenMEVA and observe that they have poor correlation with human judgments, fail to recognize discourse-level incoherence, and lack inferential knowledge (e.g., causal order between events), the generalization ability and robustness. Our study presents insights for developing NLG models and metrics in further research.
翻訳日:2021-05-20 13:53:38 公開日:2021-05-19
# 文レベルと談話レベルコヒーレンスをモデル化した長文生成

Long Text Generation by Modeling Sentence-Level and Discourse-Level Coherence ( http://arxiv.org/abs/2105.08963v1 )

ライセンス: Link先を確認
Jian Guan, Xiaoxi Mao, Changjie Fan, Zitao Liu, Wenbiao Ding, Minlie Huang(参考訳) 長く一貫性のあるテキストを生成することは重要なタスクであるが、特にストーリー生成のようなオープンな言語生成タスクでは難しい課題である。 文内コヒーレンスをモデル化することに成功したにもかかわらず、既存の世代モデル(例えばBART)は生成したテキスト全体を通してコヒーレントなイベントシーケンスを維持するのに苦戦している。 これは、デコーダがトークンレベルの共起を超えてコンテキスト内の高レベルセマンティクスと談話構造を捉えることが難しいためであると推測する。 本稿では,デコード処理における文レベルと談話レベルにおけるプレフィックス文を表現可能な長文生成モデルを提案する。 そこで本研究では,文間のセマンティックな類似性を予測し,正規文とシャッフル文の順序を区別することにより,表現を学習するための2つの事前学習目標を提案する。 広範な実験により,本モデルは最先端のベースラインよりもコヒーレントなテキストを生成することができることが示された。

Generating long and coherent text is an important but challenging task, particularly for open-ended language generation tasks such as story generation. Despite the success in modeling intra-sentence coherence, existing generation models (e.g., BART) still struggle to maintain a coherent event sequence throughout the generated text. We conjecture that this is because of the difficulty for the decoder to capture the high-level semantics and discourse structures in the context beyond token-level co-occurrence. In this paper, we propose a long text generation model, which can represent the prefix sentences at sentence level and discourse level in the decoding process. To this end, we propose two pretraining objectives to learn the representations by predicting inter-sentence semantic similarity and distinguishing between normal and shuffled sentence orders. Extensive experiments show that our model can generate more coherent texts than state-of-the-art baselines.
翻訳日:2021-05-20 13:53:19 公開日:2021-05-19
# QuatDE:知識グラフ補完のための動的四元数埋め込み

QuatDE: Dynamic Quaternion Embedding for Knowledge Graph Completion ( http://arxiv.org/abs/2105.09002v1 )

ライセンス: Link先を確認
Haipeng Gao, Kun Yang, Yuxue Yang, Rufai Yusuf Zakari, Jim Wilson Owusu, Ke Qin(参考訳) 近年,知識グラフ補完法が広範に研究され,グラフ埋め込み手法は実体と関係性の低次元表現を学習し,行方不明な事実を予測する。 これらのモデルは通常、関係ベクトルを実体対間の変換(TransE)または回転(rotatEとQuatE)とみなし、単純さと効率の利点を享受する。 しかし、クエートには2つの主要な問題がある: 1) 実体と関係の間の表現と特徴の相互作用の能力を捉えるモデルは、3つの埋め込みベクトルの厳密な計算のみに依存するため比較的弱い; 2) モデルは対称性、反対称性、反転、合成といった様々な関係パターンを扱うことができるが、一対一、多対一、多対多といった関係のマッピング特性は考慮されない。 本稿では,様々な関係パターンを明示的に捉え,三重項の要素間の特徴相互作用能力を向上するための動的マッピング手法であるQuatDEを提案する。 我々のモデルは、対象移動ベクトル、対象移動ベクトル、関係移動ベクトルの3つの余剰ベクトルに依存している。 マッピング戦略は、ハミルトン積を介して四元空間内の実体埋め込みベクトルの点位置を調整するために使用される各三重項に関連付けられた遷移ベクトルを動的に選択する。 実験結果から,QuatDEは3つの確立された知識グラフ補完ベンチマークで最先端の性能を達成できた。 特に、MR評価はWN18では26%、WN18RRでは15%増加しており、QuatDEの一般化が証明されている。

In recent years, knowledge graph completion methods have been extensively studied, in which graph embedding approaches learn low dimensional representations of entities and relations to predict missing facts. Those models usually view the relation vector as a translation (TransE) or rotation (rotatE and QuatE) between entity pairs, enjoying the advantage of simplicity and efficiency. However, QuatE has two main problems: 1) The model to capture the ability of representation and feature interaction between entities and relations are relatively weak because it only relies on the rigorous calculation of three embedding vectors; 2) Although the model can handle various relation patterns including symmetry, anti-symmetry, inversion and composition, but mapping properties of relations are not to be considered, such as one-to-many, many-to-one, and many-to-many. In this paper, we propose a novel model, QuatDE, with a dynamic mapping strategy to explicitly capture a variety of relational patterns, enhancing the feature interaction capability between elements of the triplet. Our model relies on three extra vectors donated as subject transfer vector, object transfer vector and relation transfer vector. The mapping strategy dynamically selects the transition vectors associated with each triplet, used to adjust the point position of the entity embedding vectors in the quaternion space via Hamilton product. Experiment results show QuatDE achieves state-of-the-art performance on three well-established knowledge graph completion benchmarks. In particular, the MR evaluation has relatively increased by 26% on WN18 and 15% on WN18RR, which proves the generalization of QuatDE.
翻訳日:2021-05-20 13:53:03 公開日:2021-05-19
# ベトナム語の文抽出に基づく機械読解

Sentence Extraction-Based Machine Reading Comprehension for Vietnamese ( http://arxiv.org/abs/2105.09043v1 )

ライセンス: Link先を確認
Phong Nguyen-Thuan Do, Nhat Duy Nguyen, Tin Van Huynh, Kiet Van Nguyen, Anh Gia-Tuan Nguyen, Ngan Luu-Thuy Nguyen(参考訳) ベトナム語処理の一般化、特に機械読解の進展は、研究コミュニティの大きな注目を集めている。 近年、ベトナムではUIT-ViQuADやUIT-ViNewsQAのような大規模な機械読解タスクのためのデータセットがいくつか存在する。 しかし、この研究に答えるデータセットは多様ではない。 本稿では,ベトナム語で文抽出に基づく機械読解を評価する最初のデータセットである uit-viwikiqa を紹介する。 UIT-ViWikiQAデータセットはUIT-ViQuADデータセットから変換され、ウィキペディアから174のベトナム語記事の5.109節に基づく23.074の質問回答からなる。 本研究では,文抽出に基づく機械読解のためのデータセットを作成するための変換アルゴリズムと,ベトナム語の文章抽出に基づく機械読解に関する3種類のアプローチを提案する。 我々の実験によると、最良のマシンモデルはXLM-R$_Largeであり、これは正確な一致(EM)スコアが85.97%、F1スコアが88.77%である。 また,ベトナム語の質問型と文脈がmrcモデルの性能に与える影響について実験結果を分析し,自然言語処理コミュニティに提案するuit-viwikiqaデータセットからの課題を示す。

The development of Vietnamese language processing in general and machine reading comprehension in particular has attracted the great attention of the research community. In recent years, there are a few datasets for machine reading comprehension tasks in Vietnamese with large sizes, such as UIT-ViQuAD and UIT-ViNewsQA. However, the datasets are not diverse in answer to serve the research. In this paper, we introduce the UIT-ViWikiQA, the first dataset for evaluating sentence extraction-based machine reading comprehension in the Vietnamese language. The UIT-ViWikiQA dataset is converted from the UIT-ViQuAD dataset, consisting of comprises 23.074 question-answers based on 5.109 passages of 174 Vietnamese articles from Wikipedia. We propose a conversion algorithm to create the dataset for sentence extraction-based machine reading comprehension and three types of approaches on the sentence extraction-based machine reading comprehension for Vietnamese. Our experiments show that the best machine model is XLM-R$_Large, which achieves an exact match (EM) score of 85.97% and an F1-score of 88.77% on our dataset. Besides, we analyze experimental results in terms of the question type in Vietnamese and the effect of context on the performance of the MRC models, thereby showing the challenges from the UIT-ViWikiQA dataset that we propose to the natural language processing community.
翻訳日:2021-05-20 13:52:34 公開日:2021-05-19
# モデルは関係の方向性を学ぶか? 新しい評価課題:関係方向認識

Do Models Learn the Directionality of Relations? A New Evaluation Task: Relation Direction Recognition ( http://arxiv.org/abs/2105.09045v1 )

ライセンス: Link先を確認
Shengfei Lyu, Xingyu Wu, Jinlong Li, Qiuju Chen, and Huanhuan Chen(参考訳) BERTのようなディープニューラルネットワークは関係分類に大きな進歩をもたらした。 優れたパフォーマンスを実現することは可能だが、これらのモデルが関係の方向性を認識するかどうか、特に解釈可能性に欠ける場合は問題である。 そこで本研究では,関係方向認識(Relation Direction Recognition, RDR)と呼ばれる新たな評価課題を提案する。 rdrの3つの指標を導入し、モデルが関係の方向性を認識する度合を測定する。 いくつかの最先端モデルがRDR上で評価されている。 実世界のデータセットにおける実験結果から、これらのモデルが従来のメトリクス(例えば、)で同様の性能を得るにもかかわらず、関係の方向性を認識する際には明確なギャップがあることが示されている。 マクロF1。 最後に、モデル設計やトレーニングの観点から関係の方向性を認識するためにモデルを強化することを提案する。

Deep neural networks such as BERT have made great progress in relation classification. Although they can achieve good performance, it is still a question of concern whether these models recognize the directionality of relations, especially when they may lack interpretability. To explore the question, a novel evaluation task, called Relation Direction Recognition (RDR), is proposed to explore whether models learn the directionality of relations. Three metrics for RDR are introduced to measure the degree to which models recognize the directionality of relations. Several state-of-the-art models are evaluated on RDR. Experimental results on a real-world dataset indicate that there are clear gaps among them in recognizing the directionality of relations, even though these models obtain similar performance in the traditional metric (e.g. Macro-F1). Finally, some suggestions are discussed to enhance models to recognize the directionality of relations from the perspective of model design or training.
翻訳日:2021-05-20 13:52:14 公開日:2021-05-19
# パートナー! 検索型チャットボットにおけるパーソナライズされた応答選択のためのペルソナの活用に関する実証的研究

Partner Matters! An Empirical Study on Fusing Personas for Personalized Response Selection in Retrieval-Based Chatbots ( http://arxiv.org/abs/2105.09050v1 )

ライセンス: Link先を確認
Jia-Chen Gu, Hui Liu, Zhen-Hua Ling, Quan Liu, Zhigang Chen, Xiaodan Zhu(参考訳) ペルソナは対話システムの一貫性を維持するための事前知識として機能する。 過去の研究の多くは、ある候補から選択されるか直接生成されるであろう対話において自己ペルソナを採用したが、対話におけるパートナーの役割に気付いていない。 本稿では,検索型チャットボットにおける自己とパートナーの話者を記述したペルソナの利用が応答選択課題に与える影響を徹底的に検討する。 4つのペルソナ融合戦略が設計されており、ペルソナが異なる方法でコンテキストや応答と相互作用することを想定している。 これらの戦略は,HRE(Hierarchical Recurrent Encoder),IMN(Interac tive Matching Network),BERT(Bidire ctional Encoder Representations from Transformer)の3つの代表的なモデルに実装されている。 Persona-Chatデータセットに関する実証研究は、過去の研究で無視されたパートナーペルソナがIMNモデルとBERTモデルにおける応答選択の精度を向上させることを示した。 さらに,従来の手法よりも2.7%以上のマージン,4.6%のパーソナをヒストル@1(トップ-1精度)で改善し,ペルソナ-チャットデータセット上での新たな最先端性能を実現した。

Persona can function as the prior knowledge for maintaining the consistency of dialogue systems. Most of previous studies adopted the self persona in dialogue whose response was about to be selected from a set of candidates or directly generated, but few have noticed the role of partner in dialogue. This paper makes an attempt to thoroughly explore the impact of utilizing personas that describe either self or partner speakers on the task of response selection in retrieval-based chatbots. Four persona fusion strategies are designed, which assume personas interact with contexts or responses in different ways. These strategies are implemented into three representative models for response selection, which are based on the Hierarchical Recurrent Encoder (HRE), Interactive Matching Network (IMN) and Bidirectional Encoder Representations from Transformers (BERT) respectively. Empirical studies on the Persona-Chat dataset show that the partner personas neglected in previous studies can improve the accuracy of response selection in the IMN- and BERT-based models. Besides, our BERT-based model implemented with the context-response-awa re persona fusion strategy outperforms previous methods by margins larger than 2.7% on original personas and 4.6% on revised personas in terms of hits@1 (top-1 accuracy), achieving a new state-of-the-art performance on the Persona-Chat dataset.
翻訳日:2021-05-20 13:52:00 公開日:2021-05-19
# 中国語文法誤り検出のためのGCNと変換器の組み合わせ

Combining GCN and Transformer for Chinese Grammatical Error Detection ( http://arxiv.org/abs/2105.09085v1 )

ライセンス: Link先を確認
Jinhong Zhang(参考訳) 本稿では,NLPTEA-2020 Task: Chinese Grammatical Error Diagnosis (CGED)で紹介する。 CGEDは,失語(M),冗長語(R),悪語選択(S),不規則語(W)の4種類の文法的誤りを診断することを目的としている。 自動ccdシステムは,誤り検出と誤り訂正の2つの部分を含み,誤り検出問題を解決するために設計されている。 本システムは,1)構文情報を利用したBERTモデル,2)コンテキスト埋め込みを利用したBERTモデル,3)辞書ベースのグラフニューラルネットワークの3つのモデルに基づいて構築されている。 また,単一モデルの性能向上のためのアンサンブル機構も設計した。 最後に, CGED 2020タスクに参加する全チームの中で, 検出レベルと識別レベルが最も高いF1スコアを得た。

This paper introduces our system at NLPTEA-2020 Task: Chinese Grammatical Error Diagnosis (CGED). CGED aims to diagnose four types of grammatical errors which are missing words (M), redundant words (R), bad word selection (S) and disordered words (W). The automatic CGED system contains two parts including error detection and error correction and our system is designed to solve the error detection problem. Our system is built on three models: 1) a BERT-based model leveraging syntactic information; 2) a BERT-based model leveraging contextual embeddings; 3) a lexicon-based graph neural network. We also design an ensemble mechanism to improve the performance of the single model. Finally, our system obtains the highest F1 scores at detection level and identification level among all teams participating in the CGED 2020 task.
翻訳日:2021-05-20 13:51:33 公開日:2021-05-19
# 頭が笑える? トランスフォーマーが意味を発見できるのか?

Laughing Heads: Can Transformers Detect What Makes a Sentence Funny? ( http://arxiv.org/abs/2105.09142v1 )

ライセンス: Link先を確認
Maxime Peyrard, Beatriz Borges, Kristina Gligori\'c and Robert West(参考訳) ユーモアの自動検出は自然言語処理において大きな課題となる。 トランスフォーマーベースのシステムは、最近このタスクで驚くべき結果を得たが、通常は(1)真面目なテキストとユーモラスなテキストが全く異なるソースからもたらされた設定で評価され、(2)モデルの動作に関する洞察を提供することなく、ベンチマークのパフォーマンスにフォーカスしている。 本研究は,変圧器をベースとしたユーモア認識モデルを用いて,最小対の一致文からなる最近導入されたデータセットをトレーニングし,解析することにより,両面で進展する。 一致したデータセットは以前のデータセットよりもはるかに難しいが、トランスフォーマーベースのモデルは、高精度(78%)の一致したペアでユーモラスな文を認識する。 注意深いエラー解析では、簡単なインスタンスと難しいインスタンスを特徴付ける。 最後に,注意重みの分析により,トランスフォーマーがユーモアを認識するメカニズムに関する重要な知見を得る。 最も顕著なのは、訓練時にこの情報にアクセスしなくても、一つの注意頭がテスト文をユーモラスにする単語を認識することを学ぶという明確な証拠である。

The automatic detection of humor poses a grand challenge for natural language processing. Transformer-based systems have recently achieved remarkable results on this task, but they usually (1)~were evaluated in setups where serious vs humorous texts came from entirely different sources, and (2)~focused on benchmarking performance without providing insights into how the models work. We make progress in both respects by training and analyzing transformer-based humor recognition models on a recently introduced dataset consisting of minimal pairs of aligned sentences, one serious, the other humorous. We find that, although our aligned dataset is much harder than previous datasets, transformer-based models recognize the humorous sentence in an aligned pair with high accuracy (78%). In a careful error analysis, we characterize easy vs hard instances. Finally, by analyzing attention weights, we obtain important insights into the mechanisms by which transformers recognize humor. Most remarkably, we find clear evidence that one single attention head learns to recognize the words that make a test sentence humorous, even without access to this information at training time.
翻訳日:2021-05-20 13:51:22 公開日:2021-05-19
# 自動アノテーションとフェデレーション学習による個人情報抽出のためのプライバシ保護手法

A Privacy-Preserving Approach to Extraction of Personal Information through Automatic Annotation and Federated Learning ( http://arxiv.org/abs/2105.09198v1 )

ライセンス: Link先を確認
Rajitha Hathurusinghe, Isar Nejadgholi, Miodrag Bolic(参考訳) 我々はウィキペディアの伝記ページからなる自動ラベル付きデータセットであるWikiPIIを、個人情報抽出のために注釈付けした。 自動アノテーションは高いラベルノイズを引き起こす可能性があるが、安価なプロセスであり、大量の注釈付き文書を生成することができる。 bertベースのnerモデルをwikipiiでトレーニングし,適切な大規模トレーニングデータセットを用いて,ラベルノイズのレベルが高いにも関わらず,手動情報抽出のコストを大幅に削減できることを示した。 同様のアプローチで、組織はテキストマイニング技術を利用して、人間のアノテーションの生データを共有することなく、履歴データからカスタマイズされた注釈付きデータセットを作成することができる。 また,アノテーションがうるさいときのフェデレーション学習を通じて,NERモデルの協調学習についても検討する。 この結果から,MLオペレータへの信頼度や利用可能なデータ量に応じて,分散トレーニングは,個人情報識別子をプライバシ保護された方法でトレーニングする上で有効な方法であることが示唆された。 研究資料はhttps://github.com/r atmcu/wikipiifedで入手できる。

We curated WikiPII, an automatically labeled dataset composed of Wikipedia biography pages, annotated for personal information extraction. Although automatic annotation can lead to a high degree of label noise, it is an inexpensive process and can generate large volumes of annotated documents. We trained a BERT-based NER model with WikiPII and showed that with an adequately large training dataset, the model can significantly decrease the cost of manual information extraction, despite the high level of label noise. In a similar approach, organizations can leverage text mining techniques to create customized annotated datasets from their historical data without sharing the raw data for human annotation. Also, we explore collaborative training of NER models through federated learning when the annotation is noisy. Our results suggest that depending on the level of trust to the ML operator and the volume of the available data, distributed training can be an effective way of training a personal information identifier in a privacy-preserved manner. Research material is available at https://github.com/r atmcu/wikipiifed.
翻訳日:2021-05-20 13:51:02 公開日:2021-05-19
# ヒンディー語と英語の混合テキストデータの感情検出

Detection of Emotions in Hindi-English Code Mixed Text Data ( http://arxiv.org/abs/2105.09226v1 )

ライセンス: Link先を確認
Divyansh Singh(参考訳) 近年,ソーシャルネットワークやスマートフォン上でのコミュニケーションにテキストチャットの利用が増加している。 これは特に、英語の語彙で認識されていない単語を含むヒンディー語と英語の混成テキストを使用する。 私たちはこれらの混合データから感情を検出し、怒り、恐怖、幸福、悲しみの感情で文章を分類しました。 我々は, 自然言語処理モデルの現状を利用して, この混合データ中の文からなるデータセットの性能を比較した。 データセットはソースから収集され、アノテートされ、モデルのトレーニングに使用される。

In recent times, we have seen an increased use of text chat for communication on social networks and smartphones. This particularly involves the use of Hindi-English code-mixed text which contains words which are not recognized in English vocabulary. We have worked on detecting emotions in these mixed data and classify the sentences in human emotions which are angry, fear, happy or sad. We have used state of the art natural language processing models and compared their performance on the dataset comprising sentences in this mixed data. The dataset was collected and annotated from sources and then used to train the models.
翻訳日:2021-05-20 13:50:45 公開日:2021-05-19
# 多言語機械翻訳のための学習言語固有サブネットワーク

Learning Language Specific Sub-network for Multilingual Machine Translation ( http://arxiv.org/abs/2105.09259v1 )

ライセンス: Link先を確認
Zehui Lin, Liwei Wu, Mingxuan Wang, Lei Li(参考訳) 多言語ニューラルマシン翻訳は、複数の言語のための単一の翻訳モデルを学ぶことを目的としている。 これらの共同学習モデルはしばしばリッチリソース言語ペアのパフォーマンス低下に苦しむ。 我々はこの変性をパラメータ干渉とみなす。 本稿では,単一統一多言語MTモデルを共同で学習するためのLaSSを提案する。 LaSSは言語固有のサブネットワーク(LaSS)を学習し、パラメータ干渉に対処する。 様々なTransformerアーキテクチャによるIWSLTとWMTデータセットの総合的な実験により、LaSSは最大1.2BLEUで36言語対のゲインを得ることが示された。 さらに、LaSSは、新しい言語ペアへの容易な拡張とゼロショット翻訳で強力な一般化性能を示し、30言語ペアで平均8.3BLEUでゼロショット翻訳を促進する。 コードとトレーニングされたモデルはhttps://github.com/N LP-Playground/LaSSで公開されている。

Multilingual neural machine translation aims at learning a single translation model for multiple languages. These jointly trained models often suffer from performance degradation on rich-resource language pairs. We attribute this degeneration to parameter interference. In this paper, we propose LaSS to jointly train a single unified multilingual MT model. LaSS learns Language Specific Sub-network (LaSS) for each language pair to counter parameter interference. Comprehensive experiments on IWSLT and WMT datasets with various Transformer architectures show that LaSS obtains gains on 36 language pairs by up to 1.2 BLEU. Besides, LaSS shows its strong generalization performance at easy extension to new language pairs and zero-shot translation.LaSS boosts zero-shot translation with an average of 8.3 BLEU on 30 language pairs. Codes and trained models are available at https://github.com/N LP-Playground/LaSS.
翻訳日:2021-05-20 13:50:38 公開日:2021-05-19
# 金融工学における最適停止のための深層強化学習

Deep Reinforcement Learning for Optimal Stopping with Application in Financial Engineering ( http://arxiv.org/abs/2105.08877v1 )

ライセンス: Link先を確認
Abderrahim Fathan and Erick Delage(参考訳) 最適停止は、期待される報酬を最大化するために、確率的なシステムにおいて特定の行動を取る適切な時間を決定する問題である。 金融、医療、統計など多くの分野に応用されている。 本稿では,2つの金融工学アプリケーション(オプション価格,最適オプションエクササイズ)における最適停止ポリシーを学習するために,深層強化学習(RL)を用いる。 本稿では,Double Deep Q-learning (DDQN), Catgorical Distributional RL (C51), Implicit Quantile Networks (IQN) という,最先端RLアルゴリズムの3つの状態によって識別される最適停止ポリシーの品質を総合的に評価した。 オプション価格の場合,理論的なブラックショル環境において,iqnは最適価格の特定に成功していることが示唆された。 一方、S&P500指数の資産を含むオプションエクササイズ問題において、実際の株価データの動きに直面した場合、C51では若干上回っている。 さらに重要なことに、C51アルゴリズムは、4つの自然なベンチマークポリシーのベストよりも8%多くサンプル外リターンを達成する最適な停止ポリシーを特定できる。 本研究は,今後の研究の道筋をたどるであろう研究成果の議論から締めくくっている。

Optimal stopping is the problem of deciding the right time at which to take a particular action in a stochastic system, in order to maximize an expected reward. It has many applications in areas such as finance, healthcare, and statistics. In this paper, we employ deep Reinforcement Learning (RL) to learn optimal stopping policies in two financial engineering applications: namely option pricing, and optimal option exercise. We present for the first time a comprehensive empirical evaluation of the quality of optimal stopping policies identified by three state of the art deep RL algorithms: double deep Q-learning (DDQN), categorical distributional RL (C51), and Implicit Quantile Networks (IQN). In the case of option pricing, our findings indicate that in a theoretical Black-Schole environment, IQN successfully identifies nearly optimal prices. On the other hand, it is slightly outperformed by C51 when confronted to real stock data movements in a put option exercise problem that involves assets from the S&P500 index. More importantly, the C51 algorithm is able to identify an optimal stopping policy that achieves 8% more out-of-sample returns than the best of four natural benchmark policies. We conclude with a discussion of our findings which should pave the way for relevant future research.
翻訳日:2021-05-20 13:50:26 公開日:2021-05-19
# 畳み込みオートエンコーダを用いたクラス固有部分空間表現の最適分離学習

Learning optimally separated class-specific subspace representations using convolutional autoencoder ( http://arxiv.org/abs/2105.08865v1 )

ライセンス: Link先を確認
Krishan Sharma (1), Shikha Gupta (1), Renu Rameshan (2) ((1) Vehant Technologies Pvt. Ltd., (2) Indian Institute of Technology Mandi, India)(参考訳) 本稿では,分類タスクに最適な部分空間固有の特徴表現を生成するための,新しい畳み込み型オートエンコーダアーキテクチャを提案する。 クラス固有のデータは、低次元の線形部分空間に存在し、ノイズがあり、分離が不十分である、すなわち、2つのクラス間の部分空間距離(主角)は非常に低い、と仮定される。 提案ネットワークは,エンコーダとデコーダネットワークの間に挟まれた新しいクラス固有自己表現層(CSSE)を用いて,適切に分離されたクラスワイド部分空間表現を生成する。 エンコーダ/デコーダと共にCSSE層は、入力空間よりも最小の主角を持つ特徴空間のサブスペースにデータが配置されるように訓練される。 提案手法の有効性を実証するため,最先端機械学習データセットについていくつかの実験を行い,既存の部分空間に基づく変換学習法に対して,分類性能の大幅な改善が見られた。

In this work, we propose a novel convolutional autoencoder based architecture to generate subspace specific feature representations that are best suited for classification task. The class-specific data is assumed to lie in low dimensional linear subspaces, which could be noisy and not well separated, i.e., subspace distance (principal angle) between two classes is very low. The proposed network uses a novel class-specific self expressiveness (CSSE) layer sandwiched between encoder and decoder networks to generate class-wise subspace representations which are well separated. The CSSE layer along with encoder/ decoder are trained in such a way that data still lies in subspaces in the feature space with minimum principal angle much higher than that of the input space. To demonstrate the effectiveness of the proposed approach, several experiments have been carried out on state-of-the-art machine learning datasets and a significant improvement in classification performance is observed over existing subspace based transformation learning methods.
翻訳日:2021-05-20 13:49:36 公開日:2021-05-19
# 医用視覚質問応答のためのマルチメタモデル定量化

Multiple Meta-model Quantifying for Medical Visual Question Answering ( http://arxiv.org/abs/2105.08913v1 )

ライセンス: Link先を確認
Tuong Do, Binh X. Nguyen, Erman Tjiputra, Minh Tran, Quang D. Tran, Anh Nguyen(参考訳) 伝達学習は、重要な特徴を抽出し、医療用視覚質問応答(VQA)タスクにおけるデータ制限を克服する重要なステップである。 しかし、既存の医療用VQA手法のほとんどは、データ転送学習のための外部データに依存しているが、データセット内のメタデータは完全には利用されていない。 本稿では,メタアノテーションを効果的に学習し,医用vqaタスクに有意義な機能を活用した,新しい多重メタモデル定量化手法を提案する。 提案手法は, 自動アノテーションによるメタデータ向上, ノイズラベルの扱い, 医療用VQAタスクにロバストな機能を提供するメタモデルを生成する。 2つの公開医療用VQAデータセットの大規模な実験結果から,本手法は他の最先端手法と比較して精度が良く,メタモデルのトレーニングには外部データを必要としないことがわかった。

Transfer learning is an important step to extract meaningful features and overcome the data limitation in the medical Visual Question Answering (VQA) task. However, most of the existing medical VQA methods rely on external data for transfer learning, while the meta-data within the dataset is not fully utilized. In this paper, we present a new multiple meta-model quantifying method that effectively learns meta-annotation and leverages meaningful features to the medical VQA task. Our proposed method is designed to increase meta-data by auto-annotation, deal with noisy labels, and output meta-models which provide robust features for medical VQA tasks. Extensively experimental results on two public medical VQA datasets show that our approach achieves superior accuracy in comparison with other state-of-the-art methods, while does not require external data to train meta-models.
翻訳日:2021-05-20 13:49:23 公開日:2021-05-19
# 集合屋内空間における大規模局所化データセット

Large-scale Localization Datasets in Crowded Indoor Spaces ( http://arxiv.org/abs/2105.08941v1 )

ライセンス: Link先を確認
Donghwan Lee, Soohyun Ryu, Suyong Yeon, Yonghan Lee, Deokhwa Kim, Cheolho Han, Yohann Cabon, Philippe Weinzaepfel, Nicolas Gu\'erin, Gabriela Csurka, and Martin Humenberger(参考訳) 視覚的ローカライゼーションを用いてカメラの正確な位置を推定することで、拡張現実やロボットナビゲーションといった興味深い応用が可能になる。 これは、GNSSのような他のローカライゼーション技術が失敗する屋内環境で特に有用である。 室内空間は、人による隠蔽、テクスチャのない表面、大きな視点の変化、低い光、反復的なテクスチャなど、視覚的ローカライゼーションアルゴリズムに興味深い課題を課している。 既存の屋内データセットは、比較できる限り小さいか、または上記の課題のサブセットのみをカバーする。 本稿では,現実環境における視覚的位置決めのための5つの新しい屋内データセットを提案する。 韓国ソウルにある大型ショッピングモールと大都市圏の駅で、カメラ10台とレーザースキャナー2台からなる専用のマッピングプラットフォームを使用して撮影された。 そこで我々は,実写カメラの正確なポーズを得るために,新しい構造に基づく最適化手法を用いて,初期ポーズを提供する頑健なLiDAR SLAMを開発した。 本稿では,ロバストな画像特徴を用いた構造ベース手法の優れた性能を示す,これらの課題データに対する現代的ビジュアルローカライゼーションアルゴリズムのベンチマークを示す。 データセットは、https://naverlabs.co m/datasetsで利用可能である。

Estimating the precise location of a camera using visual localization enables interesting applications such as augmented reality or robot navigation. This is particularly useful in indoor environments where other localization technologies, such as GNSS, fail. Indoor spaces impose interesting challenges on visual localization algorithms: occlusions due to people, textureless surfaces, large viewpoint changes, low light, repetitive textures, etc. Existing indoor datasets are either comparably small or do only cover a subset of the mentioned challenges. In this paper, we introduce 5 new indoor datasets for visual localization in challenging real-world environments. They were captured in a large shopping mall and a large metro station in Seoul, South Korea, using a dedicated mapping platform consisting of 10 cameras and 2 laser scanners. In order to obtain accurate ground truth camera poses, we developed a robust LiDAR SLAM which provides initial poses that are then refined using a novel structure-from-motio n based optimization. We present a benchmark of modern visual localization algorithms on these challenging datasets showing superior performance of structure-based methods using robust image features. The datasets are available at: https://naverlabs.co m/datasets
翻訳日:2021-05-20 13:49:06 公開日:2021-05-19
# 鉄道は電車ではない:弱監督セマンティックセグメンテーションのための擬似ピクセルスーパービジョンとしての正当性

Railroad is not a Train: Saliency as Pseudo-pixel Supervision for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2105.08965v1 )

ライセンス: Link先を確認
Seungho Lee, Minhyun Lee, Jongwuk Lee and Hyunjung Shim(参考訳) 画像レベルの弱い監視を用いた弱教師付きセマンティックセグメンテーション(WSSS)の研究には、スパースオブジェクトカバレッジ、不正確なオブジェクト境界、非ターゲットオブジェクトからの共起ピクセルなど、いくつかの制限がある。 これらの課題を克服するために,画像レベルラベルは,2つの弱い監督を組み合わせて画素レベルのフィードバックから学習する,EPS(Explicit Pseudo-Pixel Supervision)という新しいフレームワークを提案する。 両情報間の補完関係を完全に活用するための共同学習戦略を考案する。 本手法は, 被写体境界を精度良く取得し, 共起画素を破棄し, 擬似マスクの品質を大幅に向上させる。 実験の結果,提案手法はWSSSの重要な課題を解決し,PASCAL VOC 2012およびMS COCO 2014データセット上での新たな最先端性能を実現することにより,既存の手法よりも著しく優れていた。

Existing studies in weakly-supervised semantic segmentation (WSSS) using image-level weak supervision have several limitations: sparse object coverage, inaccurate object boundaries, and co-occurring pixels from non-target objects. To overcome these challenges, we propose a novel framework, namely Explicit Pseudo-pixel Supervision (EPS), which learns from pixel-level feedback by combining two weak supervisions; the image-level label provides the object identity via the localization map and the saliency map from the off-the-shelf saliency detection model offers rich boundaries. We devise a joint training strategy to fully utilize the complementary relationship between both information. Our method can obtain accurate object boundaries and discard co-occurring pixels, thereby significantly improving the quality of pseudo-masks. Experimental results show that the proposed method remarkably outperforms existing methods by resolving key challenges of WSSS and achieves the new state-of-the-art performance on both PASCAL VOC 2012 and MS COCO 2014 datasets.
翻訳日:2021-05-20 13:48:45 公開日:2021-05-19
# ネットワークアーキテクチャと重みの協調適応による効率的な転送学習

Efficient Transfer Learning via Joint Adaptation of Network Architecture and Weight ( http://arxiv.org/abs/2105.08994v1 )

ライセンス: Link先を確認
Ming Sun, Haoxuan Dou, Junjie Yan(参考訳) 転送学習は、ソースドメインの知識を活用することで、ターゲットタスクのパフォーマンスを高めることができる。 最近のワークイン型ニューラルネットワーク探索(NAS)、特にワンショットNASは、十分なネットワーク検索空間を確立することで、学習を支援することができる。 既存のnasメソッドは、複数のサブパスを持つ巨大なスーパーネットワークを構築して巨大な検索空間を近似する傾向にあり、子構造が見つかった後にスーパーネットワークの重みを破棄する。 既存のアプローチの両方の特性は、転送学習における繰り返しネットワークトレーニングソースタスクを引き起こす。 上記の問題を補うため、より広い検索空間を埋め込んだまま、ネットワークブロック間の接続をランダムに落とし、スーパーネットワークサイズを再現する。 さらに、アーキテクチャ転送のためのneural architecturesearchモジュールと、ウェイト転送のためのneural weight searchmoduleという2つのモジュールからなる新しいフレームワークを提案することで、冗長なトレーニングを避けるためにwasuse super-network weightsを使用する。 これら2つのモジュールは、減らされたスーパーネットワークに基づいてターゲットタスクを探索するので、ソースタスクのみを訓練する必要がある。 我々は,MS-COCOとCUB-200の2つのフレームワークを用いて,オブジェクト検出およびきめ細かい画像分類タスクを実験し, onlyO(CN)super-netwo rkの複雑さによる有望な改善を示す。

Transfer learning can boost the performance on the targettask by leveraging the knowledge of the source domain. Recent worksin neural architecture search (NAS), especially one-shot NAS, can aidtransfer learning by establishing sufficient network search space. How-ever, existing NAS methods tend to approximate huge search spaces byexplicitly building giant super-networks with multiple sub-paths, anddiscard super-network weights after a child structure is found. Both thecharacteristics of existing approaches causes repetitive network trainingon source tasks in transfer learning. To remedy the above issues, we re-duce the super-network size by randomly dropping connection betweennetwork blocks while embedding a larger search space. Moreover, wereuse super-network weights to avoid redundant training by proposinga novel framework consisting of two modules, the neural architecturesearch module for architecture transfer and the neural weight searchmodule for weight transfer. These two modules conduct search on thetarget task based on a reduced super-networks, so we only need to trainonce on the source task. We experiment our framework on both MS-COCO and CUB-200 for the object detection and fine-grained imageclassification tasks, and show promising improvements with onlyO(CN)super-netwo rk complexity.
翻訳日:2021-05-20 13:48:23 公開日:2021-05-19
# 知覚損失を用いた軽量文書画像のクリーンアップ

Light-weight Document Image Cleanup using Perceptual Loss ( http://arxiv.org/abs/2105.09076v1 )

ライセンス: Link先を確認
Soumyadeep Dey, Pratik Jawanpuria(参考訳) スマートフォンは、デジタル形式で文書を記録・共有できる。 しかし、これらの文書は、影や一様でない照明などの捕獲環境の老朽化、汚れ、欠点などにより、様々な種類の劣化を招き、文書画像の理解性を低下させる。 本研究では,スマートフォンアプリケーションなどの組み込みアプリケーションにおいて,デバイスおよび/または最高のユーザエクスペリエンスのためにメモリ,エネルギ,レイテンシの制限のある画像クリーンアップを文書化する問題を考察する。 文書画像からノイズ要素を取り除くために,軽量エンコーダデコーダを用いた畳み込みニューラルネットワークアーキテクチャを提案する。 ネットワーク能力の低い一般化性能を補うため,事前学習した深層CNNネットワークからの知識伝達における知覚的損失を損失関数に組み込む。 パラメータ数と製品単位演算に関しては,65~1030倍と3~27倍であり,従来の文書拡張モデルよりも小さい。 全体として、提案モデルが好適なリソース対精度トレードオフを提供し、実世界のベンチマークデータセットに対するアプローチの有効性を実証的に説明します。

Smartphones have enabled effortless capturing and sharing of documents in digital form. The documents, however, often undergo various types of degradation due to aging, stains, or shortcoming of capturing environment such as shadow, non-uniform lighting, etc., which reduces the comprehensibility of the document images. In this work, we consider the problem of document image cleanup on embedded applications such as smartphone apps, which usually have memory, energy, and latency limitations due to the device and/or for best human user experience. We propose a light-weight encoder decoder based convolutional neural network architecture for removing the noisy elements from document images. To compensate for generalization performance with a low network capacity, we incorporate the perceptual loss for knowledge transfer from pre-trained deep CNN network in our loss function. In terms of the number of parameters and product-sum operations, our models are 65-1030 and 3-27 times, respectively, smaller than existing state-of-the-art document enhancement models. Overall, the proposed models offer a favorable resource versus accuracy trade-off and we empirically illustrate the efficacy of our approach on several real-world benchmark datasets.
翻訳日:2021-05-20 13:48:01 公開日:2021-05-19
# Recursive-NeRF: 効率的で動的に成長するNeRF

Recursive-NeRF: An Efficient and Dynamically Growing NeRF ( http://arxiv.org/abs/2105.09103v1 )

ライセンス: Link先を確認
Guo-Wei Yang, Wen-Yang Zhou, Hao-Yang Peng, Dun Liang, Tai-Jiang Mu, Shi-Min Hu(参考訳) neural radiance field (nerf) 法のような一連の画像から学習した暗黙的な連続的な形状表現を用いたビュー合成手法は、その高品質な画像と高精細化への拡張性によって注目を集めている。 しかし、そのボリュームアプローチで必要とされる重い計算は、NeRFが実際に有用になるのを防ぎ、数メガピクセルの画像をレンダリングするのに数分かかる。 これにより、シーンの複雑な領域は大きなニューラルネットワークで表現されるべきであり、小さなニューラルネットワークは単純な領域をエンコードでき、効率と品質のバランスを両立させることができる。 Recursive-NeRFはこのアイデアの具体化であり、NeRFの効率よく適応的なレンダリングとトレーニングのアプローチを提供する。 Recursive-NeRFのコアは、予測色の品質と各レベルのボリューム強度を表す、クエリ座標の不確かさを学習する。 高い不確実性を持つクエリ座標のみが、より強力な表現能力を持つより大きなニューラルネットワークに次のレベルへ転送される。 最後のレンダリング画像は、すべてのレベルのニューラルネットワークによる結果の合成である。 3つの公開データセットについて評価したところ, 再帰型NeRFは, 最先端の品質を提供しながら, NeRFよりも効率的であることがわかった。 コードはhttps://github.com/G word/Recursive-NeRFで入手できる。

View synthesis methods using implicit continuous shape representations learned from a set of images, such as the Neural Radiance Field (NeRF) method, have gained increasing attention due to their high quality imagery and scalability to high resolution. However, the heavy computation required by its volumetric approach prevents NeRF from being useful in practice; minutes are taken to render a single image of a few megapixels. Now, an image of a scene can be rendered in a level-of-detail manner, so we posit that a complicated region of the scene should be represented by a large neural network while a small neural network is capable of encoding a simple region, enabling a balance between efficiency and quality. Recursive-NeRF is our embodiment of this idea, providing an efficient and adaptive rendering and training approach for NeRF. The core of Recursive-NeRF learns uncertainties for query coordinates, representing the quality of the predicted color and volumetric intensity at each level. Only query coordinates with high uncertainties are forwarded to the next level to a bigger neural network with a more powerful representational capability. The final rendered image is a composition of results from neural networks of all levels. Our evaluation on three public datasets shows that Recursive-NeRF is more efficient than NeRF while providing state-of-the-art quality. The code will be available at https://github.com/G word/Recursive-NeRF.
翻訳日:2021-05-20 13:47:43 公開日:2021-05-19
# ニューラルネットワークの対向ロバスト性向上のための直交分類器

An Orthogonal Classifier for Improving the Adversarial Robustness of Neural Networks ( http://arxiv.org/abs/2105.09109v1 )

ライセンス: Link先を確認
Cong Xu, Xiang Li and Min Yang(参考訳) ニューラルネットワークは、人工的に設計された敵対的摂動に影響を受けやすい。 近年、分類層に一定の修正を加えることで、ニューラルネットワークのロバスト性が向上することが示されている。 本稿では,成分が同じ大きさの高密度直交重み行列を明示的に構築し,新しいロバストな分類法を提案する。 提案した分類器は,従来の研究で望ましくない構造的冗長性の問題を回避する。 この分類器をクリーンデータに関する標準的なトレーニングに適用することは、モデルの精度と堅牢性を保証するのに十分である。 さらに、追加の対向サンプルを使用すると、特別の最悪の損失の助けを借りて、より優れた堅牢性が得られる。 実験の結果,本手法は最先端の防御手法と効率的かつ競争力があることがわかった。 私たちのコードは \url{https://github.com/M TandHJ/roboc} で利用可能です。

Neural networks are susceptible to artificially designed adversarial perturbations. Recent efforts have shown that imposing certain modifications on classification layer can improve the robustness of the neural networks. In this paper, we explicitly construct a dense orthogonal weight matrix whose entries have the same magnitude, thereby leading to a novel robust classifier. The proposed classifier avoids the undesired structural redundancy issue in previous work. Applying this classifier in standard training on clean data is sufficient to ensure the high accuracy and good robustness of the model. Moreover, when extra adversarial samples are used, better robustness can be further obtained with the help of a special worst-case loss. Experimental results show that our method is efficient and competitive to many state-of-the-art defensive approaches. Our code is available at \url{https://github.com/M TandHJ/roboc}.
翻訳日:2021-05-20 13:47:18 公開日:2021-05-19
# 専門家の関連性を考慮した総合的人物識別

Generalizable Person Re-identification with Relevance-aware Mixture of Experts ( http://arxiv.org/abs/2105.09156v1 )

ライセンス: Link先を確認
Yongxing Dai, Xiaotong Li, Jun Liu, Zekun Tong, Ling-Yu Duan(参考訳) ドメイン一般化可能(DG) 個人再識別(ReID)は、トレーニング中に未確認のターゲットドメインデータにアクセスできないため、難しい問題である。 既存のDG ReIDメソッドのほとんどすべてが同じパイプラインに従っており、トレーニングのために複数のソースドメインからハイブリッドデータセットを使用して、トレーニングされたモデルを未確認のターゲットドメインに直接適用してテストする。 これらの手法はしばしば個々のソースドメインの識別特性とその関連を無視する。 未確認のターゲットドメインですが、どちらもモデルの一般化に役立ちます。 上記の2つの問題に対処するため,提案手法はRaMoE(Relevance-Awar e Mixed of Expert)と呼ばれる,効率的な投票に基づく混合機構を用いて,ソースドメインの多様な特性を動的に活用し,モデルの一般化を改善する手法を提案する。 具体的には、ソースドメインネットワーク(専門家)が個々のドメインの特性の多様性と識別性を維持するための相関損失を提案する。 さらに,すべての専門家の機能を,より一般化可能な集約機能に適応的に統合する投票ネットワークを設計する。 対象ドメインの学習時の視認性を考慮し,新たな学習学習アルゴリズムと関係アライメント損失を組み合わせた投票ネットワークの更新を提案する。 広範な実験により,提案手法が最先端手法よりも優れていることを示した。

Domain generalizable (DG) person re-identification (ReID) is a challenging problem because we cannot access any unseen target domain data during training. Almost all the existing DG ReID methods follow the same pipeline where they use a hybrid dataset from multiple source domains for training, and then directly apply the trained model to the unseen target domains for testing. These methods often neglect individual source domains' discriminative characteristics and their relevances w.r.t. the unseen target domains, though both of which can be leveraged to help the model's generalization. To handle the above two issues, we propose a novel method called the relevance-aware mixture of experts (RaMoE), using an effective voting-based mixture mechanism to dynamically leverage source domains' diverse characteristics to improve the model's generalization. Specifically, we propose a decorrelation loss to make the source domain networks (experts) keep the diversity and discriminability of individual domains' characteristics. Besides, we design a voting network to adaptively integrate all the experts' features into the more generalizable aggregated features with domain relevance. Considering the target domains' invisibility during training, we propose a novel learning-to-learn algorithm combined with our relation alignment loss to update the voting network. Extensive experiments demonstrate that our proposed RaMoE outperforms the state-of-the-art methods.
翻訳日:2021-05-20 13:47:05 公開日:2021-05-19
# PPR10K:人力マスクとグループレベル一貫性を備えた大規模ポートレート写真リタッチデータセット

PPR10K: A Large-Scale Portrait Photo Retouching Dataset with Human-Region Mask and Group-Level Consistency ( http://arxiv.org/abs/2105.09180v1 )

ライセンス: Link先を確認
Jie Liang, Hui Zeng, Miaomiao Cui, Xuansong Xie, Lei Zhang(参考訳) 一般的な写真リタッチタスクと異なり、フラットな肖像画コレクションの視覚的品質向上を目的としたポートレート写真リタッチ(PPR)は、人間領域優先(HRP)やグループレベル整合(GLC)といった特殊かつ実践的な要件がある。 HRPは人間の領域により多くの注意を払わなければならないが、GLCはポートレート写真群を一貫したトーンに修正する必要がある。 しかし、既存の一般的なフォトリタッチデータセットでトレーニングされたモデルは、pprのこれらの要件をほとんど満たせない。 この高頻度タスクの研究を容易にするために,我々はPPR10Kという大規模PPRデータセットを構築した。 PPR10Kには、1,681ドルのグループと、11,161ドルの高品質の原像写真が含まれている。 ヒト領域の高分解能セグメンテーションマスクを提供する。 それぞれの写真は3人の専門家によって手直しされ、それぞれの写真群が一貫したトーンを持つように精巧に調整される。 我々は,PPRの性能を評価するための客観的尺度のセットを定義し,優れたHRPとGLC性能を持つPPRモデルを学習するための戦略を提案する。 構築されたPPR10Kデータセットは、自動PPR手法を研究するための優れたベンチマークを提供し、提案した学習戦略が修正性能を改善するのに有効であることを示す実験である。 データセットとコードは、https://github.com/c sjliang/ppr10k。

Different from general photo retouching tasks, portrait photo retouching (PPR), which aims to enhance the visual quality of a collection of flat-looking portrait photos, has its special and practical requirements such as human-region priority (HRP) and group-level consistency (GLC). HRP requires that more attention should be paid to human regions, while GLC requires that a group of portrait photos should be retouched to a consistent tone. Models trained on existing general photo retouching datasets, however, can hardly meet these requirements of PPR. To facilitate the research on this high-frequency task, we construct a large-scale PPR dataset, namely PPR10K, which is the first of its kind to our best knowledge. PPR10K contains $1, 681$ groups and $11, 161$ high-quality raw portrait photos in total. High-resolution segmentation masks of human regions are provided. Each raw photo is retouched by three experts, while they elaborately adjust each group of photos to have consistent tones. We define a set of objective measures to evaluate the performance of PPR and propose strategies to learn PPR models with good HRP and GLC performance. The constructed PPR10K dataset provides a good benchmark for studying automatic PPR methods, and experiments demonstrate that the proposed learning strategies are effective to improve the retouching performance. Datasets and codes are available: https://github.com/c sjliang/PPR10K.
翻訳日:2021-05-20 13:46:43 公開日:2021-05-19
# リアルタイムの高分解能フォトリアリスティック画像翻訳:ラプラシアピラミッド翻訳ネットワーク

High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network ( http://arxiv.org/abs/2105.09188v1 )

ライセンス: Link先を確認
Jie Liang, Hui Zeng, Lei Zhang(参考訳) 既存の画像から画像への変換法(i2it)は、高分解能特徴マップの畳み込みに計算の重荷がかかるため、低解像度画像や長い推論時間に制限されている。 本稿では, 閉形式ラプラシアンピラミッドの分解と再構成に基づく高分解能フォトリアリスティックI2ITタスクの高速化に着目する。 具体的には, 照明や色操作などの属性変換が低周波成分とより関連し, コンテンツの詳細は高周波成分で適応的に洗練できることを明らかにした。 そこで我々は,この2つのタスクを同時に行うためのラプラシアンピラミッド翻訳ネットワーク (LPTN) を提案し,低周波成分を分解能を低減して翻訳するための軽量ネットワークと,高周波成分を効率よく洗練するためのプログレッシブマスキング戦略を設計した。 本モデルでは,高分解能特徴マップの処理で消費される計算量のほとんどを回避し,画像詳細を忠実に保存する。 各種タスクに対する大規模な実験結果から,提案手法は1つの通常のGPUを用いて4K画像をリアルタイムに変換し,既存の手法と同等な変換性能を実現する。 データセットとコードは、https://github.com/c sjliang/lptn。

Existing image-to-image translation (I2IT) methods are either constrained to low-resolution images or long inference time due to their heavy computational burden on the convolution of high-resolution feature maps. In this paper, we focus on speeding-up the high-resolution photorealistic I2IT tasks based on closed-form Laplacian pyramid decomposition and reconstruction. Specifically, we reveal that the attribute transformations, such as illumination and color manipulation, relate more to the low-frequency component, while the content details can be adaptively refined on high-frequency components. We consequently propose a Laplacian Pyramid Translation Network (LPTN) to simultaneously perform these two tasks, where we design a lightweight network for translating the low-frequency component with reduced resolution and a progressive masking strategy to efficiently refine the high-frequency ones. Our model avoids most of the heavy computation consumed by processing high-resolution feature maps and faithfully preserves the image details. Extensive experimental results on various tasks demonstrate that the proposed method can translate 4K images in real-time using one normal GPU while achieving comparable transformation performance against existing methods. Datasets and codes are available: https://github.com/c sjliang/LPTN.
翻訳日:2021-05-20 13:46:20 公開日:2021-05-19
# ニューラルネットワークの可変性

Variability of Artificial Neural Networks ( http://arxiv.org/abs/2105.08911v1 )

ライセンス: Link先を確認
Yin Zhang and Yueyao Yu(参考訳) 人工ニューラルネットワークをトレーニングしやすくし、他の同等のネットワークよりも望ましいソリューションを生み出しやすい理由は何だろうか? 本稿では,モデルパラメータの固定数の設定の下で,このような問題を研究するための新しい角度を提供する。 可変性の概念を導入し、これは活性化比と負の相関関係を示し、その相関は {Collapse to Constants} (または C2C) と呼ばれる現象と相関する。 スタイル付きモデル問題の実験では、変数が完全に接続されたニューラルネットワークの重要なパフォーマンス指標であることを実証的に検証している。 この可変性の研究から得られた洞察は、新しい効果的なニューラルネットワークアーキテクチャの設計に役立つだろう。

What makes an artificial neural network easier to train and more likely to produce desirable solutions than other comparable networks? In this paper, we provide a new angle to study such issues under the setting of a fixed number of model parameters which in general is the most dominant cost factor. We introduce a notion of variability and show that it correlates positively to the activation ratio and negatively to a phenomenon called {Collapse to Constants} (or C2C), which is closely related but not identical to the phenomenon commonly known as vanishing gradient. Experiments on a styled model problem empirically verify that variability is indeed a key performance indicator for fully connected neural networks. The insights gained from this variability study will help the design of new and effective neural network architectures.
翻訳日:2021-05-20 13:45:26 公開日:2021-05-19
# 協調学習を用いた自己教師付き不均一グラフニューラルネットワーク

Self-supervised Heterogeneous Graph Neural Network with Co-contrastive Learning ( http://arxiv.org/abs/2105.09111v1 )

ライセンス: Link先を確認
Xiao Wang, Nian Liu, Hui Han, Chuan Shi(参考訳) 新興技術としてのヘテロジニアスグラフニューラルネットワーク(hgnn)は、ヘテロジニアス情報ネットワーク(hin)を扱う能力が優れていることを示している。 しかし、ほとんどのhgnnは半教師あり学習法に従っており、ラベルは通常実際のアプリケーションでは使用できないため、現実の広い使用範囲を制限している。 近年,自己指導型学習は最もエキサイティングな学習パラダイムの1つとなり,ラベルがない場合に大きな可能性を示す。 本稿では,自己教師型HGNNの問題点を考察し,HGNNのための新しいコントラスト学習機構であるHeCoを提案する。 正と負のサンプルの対比のみに焦点を当てた従来のコントラスト学習とは異なり、HeCoはクロスビューコントラスト機構を採用している。 具体的には、ノード埋め込みを学習するために、HIN(ネットワークスキーマとメタパスビュー)の2つのビューを提案し、局所構造と高次構造の両方を同時にキャプチャする。 そこで,2つの視点から肯定的,否定的な埋め込みを抽出できる,クロスビューコントラスト学習とビューマスク機構を提案する。 これにより、2つのビューが相互に監督し、最終的にハイレベルなノード埋め込みを学ぶことができる。 さらに、HeCoの2つの拡張は、高い品質の強い負のサンプルを生成するように設計されており、HeCoの性能をさらに向上させる。 様々な実世界のネットワーク上で行われた大規模な実験は、提案手法が最先端技術よりも優れた性能を示す。

Heterogeneous graph neural networks (HGNNs) as an emerging technique have shown superior capacity of dealing with heterogeneous information network (HIN). However, most HGNNs follow a semi-supervised learning manner, which notably limits their wide use in reality since labels are usually scarce in real applications. Recently, contrastive learning, a self-supervised method, becomes one of the most exciting learning paradigms and shows great potential when there are no labels. In this paper, we study the problem of self-supervised HGNNs and propose a novel co-contrastive learning mechanism for HGNNs, named HeCo. Different from traditional contrastive learning which only focuses on contrasting positive and negative samples, HeCo employs cross-viewcontrastiv e mechanism. Specifically, two views of a HIN (network schema and meta-path views) are proposed to learn node embeddings, so as to capture both of local and high-order structures simultaneously. Then the cross-view contrastive learning, as well as a view mask mechanism, is proposed, which is able to extract the positive and negative embeddings from two views. This enables the two views to collaboratively supervise each other and finally learn high-level node embeddings. Moreover, two extensions of HeCo are designed to generate harder negative samples with high quality, which further boosts the performance of HeCo. Extensive experiments conducted on a variety of real-world networks show the superior performance of the proposed methods over the state-of-the-arts.
翻訳日:2021-05-20 13:45:16 公開日:2021-05-19
# 依存量式モジュロ理論としてのプログラム合成

Program Synthesis as Dependency Quantified Formula Modulo Theory ( http://arxiv.org/abs/2105.09221v1 )

ライセンス: Link先を確認
Priyanka Golia, Subhajit Roy, and Kuldeep S. Meel(参考訳) x$ と出力 $y$ の入力に対して $\varphi(x,y)$ が与えられると、プログラム合成の問題は、$y=f(x)$ が$\varphi$ を満たすようなプログラム $f$ を設計することである。 過去10年間で、構文誘導合成(sygus)はプログラム合成の主要な手法として登場し、$\varphi$の仕様に加えて、エンドユーザーは基礎となる合成エンジンを支援するために$l$という文法も指定している。 本稿では,$\mathbb{t}$-constrained synthesisというサブクラスである文法を含まない合成手法の実現可能性について検討する。 DQF($\mathbb{T}$)、すなわち、依存量化フォーミュラ・モデュロ理論の証人を見つける問題に対して、$\mathbb{T}$-constrained synthesis は DQF($\mathbb{T}$) に還元できることを示す。 基本理論がビットベクトルの理論であるとき、対応するDQF(BV)問題は、さらに依存量化ブール式(DQBF)に還元することができる。 ドメイン固有のプログラム合成技術より優れたDQBFベースのシンセサイザーを設計し、DQBFをプログラム合成のコア表現言語として位置づけることに、DQBFの進歩を頼っている。 我々の経験的分析は、$\mathbb{T}$-constrained synthesisは構文誘導型アプローチよりもはるかに優れた性能が得られることを示している。 さらに、汎用DQBFソルバはドメイン固有の合成技術と同等に動作する。

Given a specification $\varphi(X,Y)$ over inputs $X$ and output $Y$, defined over a background theory $\mathbb{T}$, the problem of program synthesis is to design a program $f$ such that $Y=f(X)$ satisfies the specification $\varphi$. Over the past decade, syntax-guided synthesis (SyGuS) has emerged as a dominant approach for program synthesis where in addition to the specification $\varphi$, the end-user also specifies a grammar $L$ to aid the underlying synthesis engine. This paper investigates the feasibility of synthesis techniques without grammar, a sub-class defined as $\mathbb{T}$-constrained synthesis. We show that $\mathbb{T}$-constrained synthesis can be reduced to DQF($\mathbb{T}$), i.e., to the problem of finding a witness of a Dependency Quantified Formula Modulo Theory. When the underlying theory is the theory of bitvectors, the corresponding DQF(BV) problem can be further reduced to Dependency Quantified Boolean Formulas (DQBF). We rely on the progress in DQBF solving to design DQBF-based synthesizers that outperform the domain-specific program synthesis techniques, thereby positioning DQBF as a core representation language for program synthesis. Our empirical analysis shows that $\mathbb{T}$-constrained synthesis can achieve significantly better performance than syntax-guided approaches. Furthermore, the general-purpose DQBF solvers perform on par with domain-specific synthesis techniques.
翻訳日:2021-05-20 13:44:54 公開日:2021-05-19
# より類似した価値、より信頼? --人間-エージェント間相互作用における価値類似性が信頼に及ぼす影響

More Similar Values, More Trust? -- the Effect of Value Similarity on Trust in Human-Agent Interaction ( http://arxiv.org/abs/2105.09222v1 )

ライセンス: Link先を確認
Siddharth Mehrotra, Catholijn M. Jonker, Myrthe L. Tielman(参考訳) AIシステムは意思決定にますます関与しているため、ユーザから適切なレベルの信頼を得ることも重要だ。 これを実現するためには、AIの信頼に影響を与える要因を理解することがまず重要である。 aiへの信頼における個人的価値の役割に関して、研究のギャップが存在することを明らかにする。 そこで本稿では,人間とエージェントの価値類似性(vs)が,そのエージェントに対する人間の信頼に与える影響について検討する。 これを調べるために、89人の参加者が5つの異なるエージェントと組んだ。 シナリオに基づく実験では、エージェントは人質を救うために建物に入る際に何をすべきかを示唆した。 主観的価値の類似性,信頼,質的データに関するエージェントのスコアを分析した。 その結果,より類似した値を持つエージェントも信頼度が高く,両者間の肯定的な効果を示した。 これにより、価値相似性の役割に関する洞察を提供することで、既存の人間-エージェント信頼の理解を深める。

As AI systems are increasingly involved in decision making, it also becomes important that they elicit appropriate levels of trust from their users. To achieve this, it is first important to understand which factors influence trust in AI. We identify that a research gap exists regarding the role of personal values in trust in AI. Therefore, this paper studies how human and agent Value Similarity (VS) influences a human's trust in that agent. To explore this, 89 participants teamed up with five different agents, which were designed with varying levels of value similarity to that of the participants. In a within-subjects, scenario-based experiment, agents gave suggestions on what to do when entering the building to save a hostage. We analyzed the agent's scores on subjective value similarity, trust and qualitative data from open-ended questions. Our results show that agents rated as having more similar values also scored higher on trust, indicating a positive effect between the two. With this result, we add to the existing understanding of human-agent trust by providing insight into the role of value-similarity.
翻訳日:2021-05-20 13:44:25 公開日:2021-05-19
# 企業内ネットワークのロバスト性と安定性:モデレーターの影響

Robustness and stability of enterprise intranet social networks: The impact of moderators ( http://arxiv.org/abs/2105.09127v1 )

ライセンス: Link先を確認
A. Fronzetti Colladon and F. Vagaggini(参考訳) 本研究では,大手3社のイントラネットプラットフォームに含まれるオンラインフォーラムから抽出した3つの通信ネットワークのロバスト性を検証した。 各企業について,ネットワーク構造とコンテンツ(使用する言語)の両面で,従業員間のコミュニケーションを分析した。 8ヶ月間にわたり、約12,000人の従業員が投稿した52,000以上のメッセージを分析した。 具体的には、いくつかの異なるノード除去戦略を適用しながら、ネットワークのロバスト性と構造的および意味的メトリクスの安定性をテストした。 フォーラムモデレーター,スパマー,過度に接続されたノード,ネットワーク周辺にあるノードを除去し,これらの選択の異なる組み合わせをテストした。 以上の結果から,スパマーや周辺ノードの除去は,これらのソーシャルアクターが生み出すノイズの浄化や,解析の計算複雑性の低減に有効である可能性が示唆された。 一方でモデレーターの削除は、ネットワーク接続や共有コンテンツに大きな影響を与えているようだ。 最も影響を受ける変数は、密集度中心性と寄与指数である。 また、過度に接続されたノードの削除はネットワーク構造を著しく変更できることがわかった。 最後に,モデレーターの挙動を他のユーザと比較し,リストが不明な場合にモデレーターを識別できる特徴を見出した。 この知見は,ネットワーク内フォーラムにおけるモデレーターの役割を理解する上で有効であり,グラフ単純化手法の効果を評価することに関心のあるソーシャルネットワークアナリストにとって有用である。

In this study, we tested the robustness of three communication networks extracted from the online forums included in the intranet platforms of three large companies. For each company we analyzed the communication among employees both in terms of network structure and content (language used). Over a period of eight months, we analyzed more than 52,000 messages posted by approximately 12,000 employees. Specifically, we tested the network robustness and the stability of a set of structural and semantic metrics, while applying several different node removal strategies. We removed the forum moderators, the spammers, the overly connected nodes and the nodes lying at the network periphery, also testing different combinations of these selections. Results indicate that removing spammers and very peripheral nodes can be a relatively low impact strategy in this context; accordingly, it could be used to clean the noise generated by these types of social actor and to reduce the computation complexity of the analysis. On the other hand, the removal of moderators seems to have a significant impact on the network connectivity and the shared content. The most affected variables are closeness centrality and contribution index. We also found that the removal of overly connected nodes can significantly change the network structure. Lastly, we compared the behavior of moderators with the other users, finding distinctive characteristics by which moderators can be identified when their list is unknown. Our findings can help online community managers to understand the role of moderators within intranet forums and can be useful for social network analysts who are interested in evaluating the effects of graph simplification techniques.
翻訳日:2021-05-20 13:44:09 公開日:2021-05-19
# 4つの異なるオンラインメディアソースを使って 原油価格を予測し

Using four different online media sources to forecast the crude oil price ( http://arxiv.org/abs/2105.09154v1 )

ライセンス: Link先を確認
M. Elshendy, A. Fronzetti Colladon, E. Battistoni, P. A. Gloor(参考訳) 本研究は,オンラインソーシャルメディア上での経済意識のシグナルを探り,その経済予測における意義を検証した。 調査は2年間にわたって、西テキサス中間原油価格とTwitter、Google Trends、Wikipedia、およびGDELT(Global Data on Events、Language、Tone database)から抽出された複数の予測器の関係を分析した。 意味分析は、使用する言語の感情、感情、複雑さを研究するために用いられる。 説明変数を用いた自己回帰統合移動平均(ARIMAX)モデルを用いて、予測を行い、研究変数の価値を確認する。 その結果,4つのメディアプラットフォームの統合分析は,財務予測において貴重な情報をもたらすことがわかった。 Twitter言語の複雑さ、GDELTの項目数、ウィキペディアページの読み込みが最も予測力が高い。 この研究はまた、プラットフォームが価格の動きを何日前に予測できるかという点で、各プラットフォームで異なる先見能力を比較することを可能にする。 先行研究と比較して, メディアソースの増大と, 使用言語との相互作用の次元の増大を, 共同分析で組み合わせる。

This study looks for signals of economic awareness on online social media and tests their significance in economic predictions. The study analyses, over a period of two years, the relationship between the West Texas Intermediate daily crude oil price and multiple predictors extracted from Twitter, Google Trends, Wikipedia, and the Global Data on Events, Language, and Tone database (GDELT). Semantic analysis is applied to study the sentiment, emotionality and complexity of the language used. Autoregressive Integrated Moving Average with Explanatory Variable (ARIMAX) models are used to make predictions and to confirm the value of the study variables. Results show that the combined analysis of the four media platforms carries valuable information in making financial forecasting. Twitter language complexity, GDELT number of articles and Wikipedia page reads have the highest predictive power. This study also allows a comparison of the different fore-sighting abilities of each platform, in terms of how many days ahead a platform can predict a price movement before it happens. In comparison with previous work, more media sources and more dimensions of the interaction and of the language used are combined in a joint analysis.
翻訳日:2021-05-20 13:43:45 公開日:2021-05-19
# 電子メールを用いたソーシャルネットワーク分析による管理者の転職予測

Forecasting managerial turnover through e-mail based social network analysis ( http://arxiv.org/abs/2105.09208v1 )

ライセンス: Link先を確認
P. A. Gloor, A. Fronzetti Colladon, F. Grippa, G. Giacomelli(参考訳) 本研究では,職を自発的に辞めるマネージャと留まることを決めたマネージャのコミュニケーション行動を比較するために,電子メールのソーシャルネットワーク分析に基づく手法を提案する。 18ヶ月の電子メールを収集し,866人のマネージャのコミュニケーション行動を分析し,そのうち111人が大手グローバルサービス会社を去りました。 コミュニケーションパターンの差異を,ソーシャル・ネットワークの指標,すなわち,親密性中心性と親密性,および,使用する言語の感情性や複雑さといった内容分析指標の計算によって比較した。 経営陣の離職の出現を調査するため,調査対象の電子メールデータに基づいて区別を行った。 マネージャが去る5ヶ月から4ヶ月の間、コミュニケーションを観察し、ネットワーク構造と言語の使用の両方において大きな変化を見出した。 結果, 退社した平均管理職は, 集中度が低く, 会話の関与度も低かった。 さらに、退社を選択したマネージャは、その程度と近さの中心性、言語が複雑になるとともに、相互中心性における振動や、答えを得る前に仲間に送らなければならない「ナッジ」の数も増えることで、退社前の5ヶ月からコミュニケーション行動を変える傾向にあった。

In this study we propose a method based on e-mail social network analysis to compare the communication behavior of managers who voluntarily quit their job and managers who decide to stay. Collecting 18 months of e-mail, we analyzed the communication behavior of 866 managers, out of which 111 left a large global service company. We compared differences in communication patterns by computing social network metrics, such as betweenness and closeness centrality, and content analysis indicators, such as emotionality and complexity of the language used. To study the emergence of managers' disengagement, we made a distinction based on the period of e-mail data examined. We observed communications during months 5 and 4 before managers left, and found significant variations in both their network structure and use of language. Results indicate that on average managers who quit had lower closeness centrality and less engaged conversations. In addition, managers who chose to quit tended to shift their communication behavior starting from 5 months before leaving, by increasing their degree and closeness centrality, the complexity of their language, as well as their oscillations in betweenness centrality and the number of "nudges" they need to send to peers before getting an answer.
翻訳日:2021-05-20 13:43:27 公開日:2021-05-19
# universal adversarial perturbation を用いた実用的な話者照合システムへの攻撃

Attack on practical speaker verification system using universal adversarial perturbations ( http://arxiv.org/abs/2105.09022v1 )

ライセンス: Link先を確認
Weiyi Zhang, Shuning Zhao, Le Liu, Jianmin Li, Xingliang Cheng, Thomas Fang Zheng, Xiaolin Hu(参考訳) 認証シナリオでは、実際の話者認証システムの応用は通常、動的な認証テキストを読む必要がある。 以前の研究では、物理的攻撃を行うためのデジタル信号として音声対向的な例があり、オーディオ再生検出モジュールによって容易に拒否される。 本研究は, 相手が話しているときに, 相手を別個の音源として演奏することで, 相手をターゲットとする話者として誤判断することを示す。 2段階のアルゴリズムにより,テキスト非依存な普遍的逆摂動を最適化し,認証テキスト認識にはほとんど影響を与えない。 また,このアルゴリズムでは室内インパルス応答(rir)を推定し,空気中での摂動を効果的に行うことができた。 物理実験では,100%の成功率で標的攻撃を達成し,音声認識における単語誤り率(WER)は3.55%向上した。 そして録音された音声は、ライブの人のリプレイ検出をパスする。

In authentication scenarios, applications of practical speaker verification systems usually require a person to read a dynamic authentication text. Previous studies played an audio adversarial example as a digital signal to perform physical attacks, which would be easily rejected by audio replay detection modules. This work shows that by playing our crafted adversarial perturbation as a separate source when the adversary is speaking, the practical speaker verification system will misjudge the adversary as a target speaker. A two-step algorithm is proposed to optimize the universal adversarial perturbation to be text-independent and has little effect on the authentication text recognition. We also estimated room impulse response (RIR) in the algorithm which allowed the perturbation to be effective after being played over the air. In the physical experiment, we achieved targeted attacks with success rate of 100%, while the word error rate (WER) on speech recognition was only increased by 3.55%. And recorded audios could pass replay detection for the live person speaking.
翻訳日:2021-05-20 13:42:15 公開日:2021-05-19
# ディープラーニングにおける画像分類のためのラベルベース画素ブロック混合を用いた軽量プライバシー保護方式

A Lightweight Privacy-Preserving Scheme Using Label-based Pixel Block Mixing for Image Classification in Deep Learning ( http://arxiv.org/abs/2105.08876v1 )

ライセンス: Link先を確認
Yuexin Xiang, Tiantian Li, Wei Ren, Tianqing Zhu, Kim-Kwang Raymond Choo(参考訳) ディープラーニングモデルのトレーニングで使用される機密データのプライバシを確保するため、研究コミュニティによって多くのプライバシ保護手法が設計されている。 しかし、既存のスキームは一般的にテキストデータを扱うように設計されており、訓練に大量の画像を使用する場合、効率が良くない。 そこで本稿では,トレーニングセットの可用性を維持しつつ,画像のプライバシーを維持するための軽量かつ効率的なアプローチを提案する。 具体的には、ディープラーニングにおける画像分類プライバシー保護のための画素ブロック混合アルゴリズムを設計する。 その有用性を評価するために、混合トレーニングセットを使用して、WIKIデータセットとCNBCフェイスデータセット上でResNet50、VGG16、InceptionV3、DenseNet121モデルをトレーニングする。 実験結果から,本手法は深層学習モデルにおけるトレーニングセットの可用性を維持しつつ,画像のプライバシを保ったまま維持することを示す。 さらに,ウィキデータセットのvgg16モデルとcnbcデータセットのresnet50とdrknet121の両方において,優れた性能が得られることを示す実験結果を得た。 画素ブロックアルゴリズムは画像の混合においてかなり高い効率を実現しており、攻撃者が元のトレーニングセットに混合トレーニングセットを復元することは計算的に困難である。 さらに、データ拡張を混合トレーニングセットに適用することで、トレーニングの有効性を向上させることができる。

To ensure the privacy of sensitive data used in the training of deep learning models, a number of privacy-preserving methods have been designed by the research community. However, existing schemes are generally designed to work with textual data, or are not efficient when a large number of images is used for training. Hence, in this paper we propose a lightweight and efficient approach to preserve image privacy while maintaining the availability of the training set. Specifically, we design the pixel block mixing algorithm for image classification privacy preservation in deep learning. To evaluate its utility, we use the mixed training set to train the ResNet50, VGG16, InceptionV3 and DenseNet121 models on the WIKI dataset and the CNBC face dataset. Experimental findings on the testing set show that our scheme preserves image privacy while maintaining the availability of the training set in the deep learning models. Additionally, the experimental results demonstrate that we achieve good performance for the VGG16 model on the WIKI dataset and both ResNet50 and DenseNet121 on the CNBC dataset. The pixel block algorithm achieves fairly high efficiency in the mixing of the images, and it is computationally challenging for the attackers to restore the mixed training set to the original training set. Moreover, data augmentation can be applied to the mixed training set to improve the training's effectiveness.
翻訳日:2021-05-20 13:41:34 公開日:2021-05-19
# TarGAN:マルチモーダル医用画像翻訳のためのターゲット対応汎用ネットワーク

TarGAN: Target-Aware Generative Adversarial Networks for Multi-modality Medical Image Translation ( http://arxiv.org/abs/2105.08993v1 )

ライセンス: Link先を確認
Junxiao Chen, Jia Wei, and Rui Li(参考訳) 多重モダリティの医療画像は、医師が単一モダリティの医療画像よりも合理的な決定を下すのに役立つ補完的な情報を提供する。 しかし、それらは様々な要因(例えば、時間、コスト、放射線量)によって生成することが困難である。 これらの問題に対処するため、近年、マルチモーダルな医療画像翻訳が研究の関心を高めている。 しかし、既存の研究は主に、重要な対象領域や関心領域(ROI)、例えば臓器などではなく、全体像の翻訳効果に焦点を当てている。 これにより、局所化された対象領域の低品質な翻訳が、ぼやけたり、変形したり、あるいは余分な不合理なテクスチャになってしまう。 本稿では,2つのデータに頼らずに,(1)マルチモーダルな医用画像翻訳を学習できる汎用的マルチモーダル医療用画像翻訳モデルであるTarGANを提案する。 TarGANのジェネレータは、画像変換マッピングとターゲット領域変換マッピングの2つのレベルを同時に学習する。 これら2つの写像は交差損失によって相互に関連付けられる。 定量的測定と定性的評価の両方に関する実験は、TarGANがあらゆるケースにおいて最先端の手法よりも優れていることを示した。 その後のセグメンテーションタスクにより,TarGANが生成した合成画像の有効性を実世界のアプリケーションで実証する。 我々のコードはhttps://github.com/2 165998/TarGAN.comで入手できる。

Paired multi-modality medical images, can provide complementary information to help physicians make more reasonable decisions than single modality medical images. But they are difficult to generate due to multiple factors in practice (e.g., time, cost, radiation dose). To address these problems, multi-modality medical image translation has aroused increasing research interest recently. However, the existing works mainly focus on translation effect of a whole image instead of a critical target area or Region of Interest (ROI), e.g., organ and so on. This leads to poor-quality translation of the localized target area which becomes blurry, deformed or even with extra unreasonable textures. In this paper, we propose a novel target-aware generative adversarial network called TarGAN, which is a generic multi-modality medical image translation model capable of (1) learning multi-modality medical image translation without relying on paired data, (2) enhancing quality of target area generation with the help of target area labels. The generator of TarGAN jointly learns mapping at two levels simultaneously - whole image translation mapping and target area translation mapping. These two mappings are interrelated through a proposed crossing loss. The experiments on both quantitative measures and qualitative evaluations demonstrate that TarGAN outperforms the state-of-the-art methods in all cases. Subsequent segmentation task is conducted to demonstrate effectiveness of synthetic images generated by TarGAN in a real-world application. Our code is available at https://github.com/2 165998/TarGAN.
翻訳日:2021-05-20 13:41:10 公開日:2021-05-19
# 顔面皮膚色補正ガイド

Guided Facial Skin Color Correction ( http://arxiv.org/abs/2105.09034v1 )

ライセンス: Link先を確認
Keiichiro Shirai, Tatsuya Baba, Shunsuke Ono, Masahiro Okuda, Yusuke Tatesumi, and Paul Perrotin(参考訳) 本稿では、背景色による肌色変化を抑制し、顔の肌の色相の整合性を促進するポートレート写真の自動補正手法を提案する。 ポートレート写真では、照明環境(例えば、色の背景壁から反射した光やカメラストローブによる露出過多)により肌色が歪むことが多く、写真が人工的に他の背景色と組み合わせられた場合、この色の変化が強調され、不自然に合成される結果となる。 本フレームワークでは,顔領域を大まかに抽出し,色空間における肌の色分布を補正した後,原画像の顔の周囲の色と明るさの補正を行い,輝度や背景色の影響を受けない顔画像の適切な色バランスを実現する。 従来の色補正アルゴリズムとは異なり,最終結果はガイド画像を用いた色補正処理によって達成される。 特に,色補正のためのガイド画像フィルタリングは,heらによって提案されたガイド画像フィルタリング法において,完全に整列したガイド画像を必要としない。 実験の結果,本手法は従来の頭部写真だけでなく,自然シーン写真よりも自然な結果が得られることがわかった。 また、別のアプリケーションとして、自動年鑑スタイルの写真生成を示す。

This paper proposes an automatic image correction method for portrait photographs, which promotes consistency of facial skin color by suppressing skin color changes due to background colors. In portrait photographs, skin color is often distorted due to the lighting environment (e.g., light reflected from a colored background wall and over-exposure by a camera strobe), and if the photo is artificially combined with another background color, this color change is emphasized, resulting in an unnatural synthesized result. In our framework, after roughly extracting the face region and rectifying the skin color distribution in a color space, we perform color and brightness correction around the face in the original image to achieve a proper color balance of the facial image, which is not affected by luminance and background colors. Unlike conventional algorithms for color correction, our final result is attained by a color correction process with a guide image. In particular, our guided image filtering for the color correction does not require a perfectly-aligned guide image required in the original guide image filtering method proposed by He et al. Experimental results show that our method generates more natural results than conventional methods on not only headshot photographs but also natural scene photographs. We also show automatic yearbook style photo generation as an another application.
翻訳日:2021-05-20 13:40:42 公開日:2021-05-19
# ハイブリッド画像を用いた深層学習電波信号分類

Deep Learning Radio Frequency Signal Classification with Hybrid Images ( http://arxiv.org/abs/2105.09063v1 )

ライセンス: Link先を確認
Hilal Elyousseph, Majid L Altamimi(参考訳) 近年,無線周波数(rf)信号の検出と分類にディープラーニング(dl)が応用されている。 dlアプローチは、完全なプロトコル情報を必要としない信号の存在を識別し、レーダー信号などの非通信波形を検出・分類することができるため、特に有用である。 本研究では,入力訓練データに使用できるさまざまな前処理ステップに注目し,固定dlアーキテクチャ上で結果をテストする。 これまでは主に時間領域と周波数領域の両方に焦点をあててきたが、時間領域情報と周波数領域情報の両方を活用するハイブリッド画像を提案し、コンピュータビジョン問題として分類する。 最初の結果は、古典的な前処理アプローチの限界を指摘しながら、複数の信号表現の長所を活用できる分類器を構築可能であることも示しています。

In recent years, Deep Learning (DL) has been successfully applied to detect and classify Radio Frequency (RF) Signals. A DL approach is especially useful since it identifies the presence of a signal without needing full protocol information, and can also detect and/or classify non-communication waveforms, such as radar signals. In this work, we focus on the different pre-processing steps that can be used on the input training data, and test the results on a fixed DL architecture. While previous works have mostly focused exclusively on either time-domain or frequency domain approaches, we propose a hybrid image that takes advantage of both time and frequency domain information, and tackles the classification as a Computer Vision problem. Our initial results point out limitations to classical pre-processing approaches while also showing that it's possible to build a classifier that can leverage the strengths of multiple signal representations.
翻訳日:2021-05-20 13:40:22 公開日:2021-05-19
# 非参照360度画像品質評価のための適応ハイパーグラフ畳み込みネットワーク

Adaptive Hypergraph Convolutional Network for No-Reference 360-degree Image Quality Assessment ( http://arxiv.org/abs/2105.09143v1 )

ライセンス: Link先を確認
Jun Fu, Chen Hou, Wei Zhou, Jiahua Xu, Zhibo Chen(参考訳) no-reference 360-degree Image Quality Assessment (NR 360IQA)では、グラフを通してビューポート間の相互作用をモデル化するグラフ畳み込みネットワーク (GCN) が目覚ましい性能を達成した。 しかし、一般的なGCNベースのNR 360IQA法は、主に3つの制限がある。 まず、歪みした画像の高レベルな特徴のみを用いて品質スコアを抑える一方で、人間の視覚システム(HVS)は階層的な特徴に基づいて画像を評価する。 第二に、ビューポート間の複雑な高次相互作用をグラフを通してペアで単純化する。 第3に、グラフ構築では、ビューポートの空間的位置のみを考慮し、そのコンテンツ特性を無視している。 そこで本研究では, NR 360IQA のための適応型ハイパーグラフ畳み込みネットワーク AHGCN を提案する。 具体的には,まずビューポートから階層表現を抽出するマルチレベルビューポート記述子を設計する。 次に、ハイパーグラフを通してビューポート間の相互作用をモデル化し、各ハイパーエッジが2つ以上のビューポートを接続する。 ハイパーグラフ構築では,各ビューポートに対して位置ベースハイパーエッジとコンテンツベースハイパーエッジを構築する。 2つのパブリックな360IQAデータベースの実験結果から,提案手法は最先端の完全参照モデルと非参照IQAモデルに対して明らかな優位性を示す。

In no-reference 360-degree image quality assessment (NR 360IQA), graph convolutional networks (GCNs), which model interactions between viewports through graphs, have achieved impressive performance. However, prevailing GCN-based NR 360IQA methods suffer from three main limitations. First, they only use high-level features of the distorted image to regress the quality score, while the human visual system (HVS) scores the image based on hierarchical features. Second, they simplify complex high-order interactions between viewports in a pairwise fashion through graphs. Third, in the graph construction, they only consider spatial locations of viewports, ignoring its content characteristics. Accordingly, to address these issues, we propose an adaptive hypergraph convolutional network for NR 360IQA, denoted as AHGCN. Specifically, we first design a multi-level viewport descriptor for extracting hierarchical representations from viewports. Then, we model interactions between viewports through hypergraphs, where each hyperedge connects two or more viewports. In the hypergraph construction, we build a location-based hyperedge and a content-based hyperedge for each viewport. Experimental results on two public 360IQA databases demonstrate that our proposed approach has a clear advantage over state-of-the-art full-reference and no-reference IQA models.
翻訳日:2021-05-20 13:40:09 公開日:2021-05-19
# 埋め込みスペースはどこにありますか? Recommender システムにおけるネットワーク埋め込み手法に関する総合的分析

Where are we in embedding spaces? A Comprehensive Analysis on Network Embedding Approaches for Recommender Systems ( http://arxiv.org/abs/2105.08908v1 )

ライセンス: Link先を確認
Sixiao Zhang, Hongxu Chen, Xiao Ming, Lizhen Cui, Hongzhi Yin, Guandong Xu(参考訳) 双曲空間と双曲埋め込みはレコメンダシステムのための人気のある研究分野となっている。 しかし、どのような状況で双曲空間を考えるべきかは明らかではない。 このギャップを埋めるために、本論文は、レコメンダシステムにおいて双曲空間と双曲埋め込みを使うタイミングと場所に関する理論的解析と実証結果を提供する。 具体的には、どのタイプのモデルとデータセットが双曲空間にもっと適しているか、どの潜在サイズを選ぶべきか、という疑問に答える。 一般項目推薦ドメインとソーシャルレコメンデーションドメインのいずれにおいても,ユークリッド空間と双曲空間のパフォーマンスを,広く使用されている6つのデータセットと異なる潜在サイズで比較して評価した。 さらに,SCML とハイパーボリックバージョン HSCML という,メトリクス学習に基づく新しいレコメンデーション手法を提案する。 SCMLにおける双曲空間に関する結論を評価し,HSCMLと他のベースライン法との比較により,双曲空間の最先端性能を示す。

Hyperbolic space and hyperbolic embeddings are becoming a popular research field for recommender systems. However, it is not clear under what circumstances the hyperbolic space should be considered. To fill this gap, This paper provides theoretical analysis and empirical results on when and where to use hyperbolic space and hyperbolic embeddings in recommender systems. Specifically, we answer the questions that which type of models and datasets are more suited for hyperbolic space, as well as which latent size to choose. We evaluate our answers by comparing the performance of Euclidean space and hyperbolic space on different latent space models in both general item recommendation domain and social recommendation domain, with 6 widely used datasets and different latent sizes. Additionally, we propose a new metric learning based recommendation method called SCML and its hyperbolic version HSCML. We evaluate our conclusions regarding hyperbolic space on SCML and show the state-of-the-art performance of hyperbolic space by comparing HSCML with other baseline methods.
翻訳日:2021-05-20 13:39:47 公開日:2021-05-19
# 周期的グローバル平均化によるゴシップsgdの加速

Accelerating Gossip SGD with Periodic Global Averaging ( http://arxiv.org/abs/2105.09080v1 )

ライセンス: Link先を確認
Yiming Chen, Kun Yuan, Yingya Zhang, Pan Pan, Yinghui Xu, Wotao Yin(参考訳) 通信オーバーヘッドは、大規模分散トレーニングのスケーラビリティを妨げる。 Gossip SGDは、各ノードが隣り合うだけで平均となるが、従来の並列SGDよりも通信効率が高い。 しかし、その収束率は、ネットワーク接続度を測定する1-\beta$に逆比例する。 1-\beta \to 0$の大規模でスパースなネットワークでは、Gossip SGDはもっと多くのイテレーションを収束させ、通信の利点を相殺する。 本稿では,Gossip SGDに周期的グローバル平均化を加えたGossip-PGAを紹介する。 その過渡段階、すなわち漸近線形スピードアップ段階に到達するために必要な反復は、非凸問題に対して$\Omega(\beta^4 n^3/(1-\beta)^4)$から$\Omega(\beta^4 n^3 H^4)$に改善される。 Gossip-PGAにおけるネットワークトポロジの影響は平均化期間$H$で制御できる。 過渡段階の複雑性は、位数$\Omega(n^3 H^4)$の局所SGDよりも優れている。 画像分類 (ResNet50) と言語モデリング (BERT) に関する大規模トレーニングの実証結果から, 理論的知見が得られた。

Communication overhead hinders the scalability of large-scale distributed training. Gossip SGD, where each node averages only with its neighbors, is more communication-effici ent than the prevalent parallel SGD. However, its convergence rate is reversely proportional to quantity $1-\beta$ which measures the network connectivity. On large and sparse networks where $1-\beta \to 0$, Gossip SGD requires more iterations to converge, which offsets against its communication benefit. This paper introduces Gossip-PGA, which adds Periodic Global Averaging into Gossip SGD. Its transient stage, i.e., the iterations required to reach asymptotic linear speedup stage, improves from $\Omega(\beta^4 n^3/(1-\beta)^4)$ to $\Omega(\beta^4 n^3 H^4)$ for non-convex problems. The influence of network topology in Gossip-PGA can be controlled by the averaging period $H$. Its transient-stage complexity is also superior to Local SGD which has order $\Omega(n^3 H^4)$. Empirical results of large-scale training on image classification (ResNet50) and language modeling (BERT) validate our theoretical findings.
翻訳日:2021-05-20 13:39:29 公開日:2021-05-19
# 負サンプリングを用いた一般化スキップグラムによる自由エネルギーノード埋め込み

Free Energy Node Embedding via Generalized Skip-gram with Negative Sampling ( http://arxiv.org/abs/2105.09182v1 )

ライセンス: Link先を確認
Yu Zhu, Ananthram Swami, Santiago Segarra(参考訳) 教師なしノード埋め込み法の広く確立された集合は、2つの異なるステップからなると解釈できる: i) 関心グラフに基づく類似性行列の定義、ii) そのような行列の明示的または暗黙的な分解。 この観点から,フレームワークの両ステップの改善を提案する。 一方,最短経路と可換時間距離を補間する自由エネルギー距離に基づいてノードの類似性を符号化し,柔軟性を高めることを提案する。 一方,任意の類似度行列に対して負のサンプリングを施したスキップグラムモデルを一般化した損失関数に基づく行列分解法を提案する。 広く使われている$\ell_2$損失に基づく因子分解と比較すると,提案手法は高い類似度スコアに関連するノードペアをよりよく保存することができる。 さらに、高度な自動微分ツールキットを使用して容易に実装でき、GPUリソースを活用して効率的に計算できる。 実世界のデータセットにおけるノードクラスタリング、ノード分類、リンク予測実験は、フリーエネルギベースの類似性と、提案されたマトリックス因子化を最先端の代替品と比較した効果を示している。

A widely established set of unsupervised node embedding methods can be interpreted as consisting of two distinctive steps: i) the definition of a similarity matrix based on the graph of interest followed by ii) an explicit or implicit factorization of such matrix. Inspired by this viewpoint, we propose improvements in both steps of the framework. On the one hand, we propose to encode node similarities based on the free energy distance, which interpolates between the shortest path and the commute time distances, thus, providing an additional degree of flexibility. On the other hand, we propose a matrix factorization method based on a loss function that generalizes that of the skip-gram model with negative sampling to arbitrary similarity matrices. Compared with factorizations based on the widely used $\ell_2$ loss, the proposed method can better preserve node pairs associated with higher similarity scores. Moreover, it can be easily implemented using advanced automatic differentiation toolkits and computed efficiently by leveraging GPU resources. Node clustering, node classification, and link prediction experiments on real-world datasets demonstrate the effectiveness of incorporating free-energy-based similarities as well as the proposed matrix factorization compared with state-of-the-art alternatives.
翻訳日:2021-05-20 13:39:06 公開日:2021-05-19
# 音声イベント分類のための教師なし識別学習

Unsupervised Discriminative Learning of Sounds for Audio Event Classification ( http://arxiv.org/abs/2105.09279v1 )

ライセンス: Link先を確認
Sascha Hornauer, Ke Li, Stella X. Yu, Shabnam Ghaffarzadegan, Liu Ren(参考訳) ネットワークベースの音声イベント分類の最近の進歩は、ImageNetのようなビジュアルデータに対する事前学習モデルの利点を示している。 このプロセスは、異なるドメイン間での知識伝達を可能にするが、大規模なビジュアルデータセット上でモデルをトレーニングするのは時間を要する。 いくつかのオーディオイベント分類ベンチマークでは、教師なしのモデルを事前訓練する高速で効果的な代替手段が示され、これは音声データにのみ依存するが、ImageNetの事前訓練でオンパーのパフォーマンスを提供する。 さらに、我々の識別学習は、音声データセット間で知識を伝達し、オプションでImageNet事前学習を組み込むことができることを示す。

Recent progress in network-based audio event classification has shown the benefit of pre-training models on visual data such as ImageNet. While this process allows knowledge transfer across different domains, training a model on large-scale visual datasets is time consuming. On several audio event classification benchmarks, we show a fast and effective alternative that pre-trains the model unsupervised, only on audio data and yet delivers on-par performance with ImageNet pre-training. Furthermore, we show that our discriminative audio learning can be used to transfer knowledge across audio datasets and optionally include ImageNet pre-training.
翻訳日:2021-05-20 13:38:49 公開日:2021-05-19
# 変分オートエンコーダのアンサングル学習による音声・映像音声強調

Disentanglement Learning for Variational Autoencoders Applied to Audio-Visual Speech Enhancement ( http://arxiv.org/abs/2105.08970v1 )

ライセンス: Link先を確認
Guillaume Carbajal, Julius Richter, Timo Gerkmann(参考訳) 近年、標準変分オートエンコーダは、音声信号よりも先に確率的に学習し、音声強調を行うのに使われている。 変分オートエンコーダは、ハイレベルな音声属性(例えば、)を示すラベルで条件付けされる。 音声活動) 音声生成をより明示的な制御を可能にする。 しかし、ラベルが他の潜在変数から切り離されることは保証されておらず、標準の変分オートエンコーダに比べて性能が大幅に向上する。 本研究では,可変オートエンコーダに対して,ラベルを他の潜在変数から切り離すための逆訓練方式を提案する。 トレーニングでは、変分オートエンコーダのエンコーダと競合する判別器を使用します。 同時に、変分オートエンコーダのデコーダのラベルを推定する追加のエンコーダも使用しています。 視覚データから推定した音声活動ラベルを音声強調に用いた場合,提案する不等角化学習の利点を示す。

Recently, the standard variational autoencoder has been successfully used to learn a probabilistic prior over speech signals, which is then used to perform speech enhancement. Variational autoencoders have then been conditioned on a label describing a high-level speech attribute (e.g. speech activity) that allows for a more explicit control of speech generation. However, the label is not guaranteed to be disentangled from the other latent variables, which results in limited performance improvements compared to the standard variational autoencoder. In this work, we propose to use an adversarial training scheme for variational autoencoders to disentangle the label from the other latent variables. At training, we use a discriminator that competes with the encoder of the variational autoencoder. Simultaneously, we also use an additional encoder that estimates the label for the decoder of the variational autoencoder, which proves to be crucial to learn disentanglement. We show the benefit of the proposed disentanglement learning when a voice activity label, estimated from visual data, is used for speech enhancement.
翻訳日:2021-05-20 13:37:59 公開日:2021-05-19
# 強化学習におけるカーネル密度推定に基づく状態空間カバレッジ加速による探索開始の改善

Improved Exploring Starts by Kernel Density Estimation-Based State-Space Coverage Acceleration in Reinforcement Learning ( http://arxiv.org/abs/2105.08990v1 )

ライセンス: Link先を確認
Maximilian Schenke and Oliver Wallscheid(参考訳) 強化学習(rl)は現在、制御工学における一般的な研究テーマであり、産業および商業アプリケーションへの道を開く可能性がある。 対応するRLコントローラは、制御されたシステムと直接対話することで、データ駆動およびパフォーマンス指向のソリューションをレンダリングする。 開始(es)を探索するベストプラクティスは、ランダムに選択された初期状態を通じて学習プロセスをサポートするためにデフォルトで使用される。 しかし、システムの動的および制約が状態空間における好ましくないサンプル分布(例えば、特定の状態空間領域における凝縮されたサンプル蓄積)に繋がる場合、この方法は強いバイアスを与える。 この問題を解決するために,カーネル密度推定に基づく状態空間カバレッジ加速(DESSCA)を提案する。 検討されたテストシナリオは、マウンテンカー、カートポール、電動モーター制御環境である。 DQNとDDPGを例示的RLアルゴリズムとして使用することにより、DESSCAは確立されたESアプローチに対する単純かつ効果的なアルゴリズム拡張であることを示すことができる。

Reinforcement learning (RL) is currently a popular research topic in control engineering and has the potential to make its way to industrial and commercial applications. Corresponding RL controllers are trained in direct interaction with the controlled system, rendering them data-driven and performance-oriented solutions. The best practice of exploring starts (ES) is used by default to support the learning process via randomly picked initial states. However, this method might deliver strongly biased results if the system's dynamic and constraints lead to unfavorable sample distributions in the state space (e.g., condensed sample accumulation in certain state-space areas). To overcome this issue, a kernel density estimation-based state-space coverage acceleration (DESSCA) is proposed, which improves the ES concept by prioritizing infrequently visited states for a more balanced coverage of the state space during training. Considered test scenarios are mountain car, cartpole and electric motor control environments. Using DQN and DDPG as exemplary RL algorithms, it can be shown that DESSCA is a simple yet effective algorithmic extension to the established ES approach.
翻訳日:2021-05-20 13:37:43 公開日:2021-05-19
# トンプソンサンプリングのための拡散近似

Diffusion Approximations for Thompson Sampling ( http://arxiv.org/abs/2105.09232v1 )

ライセンス: Link先を確認
Lin Fan, Peter W. Glynn(参考訳) 我々は弱い収束の観点からトンプソンサンプリングの挙動を研究する。 アーム間のギャップが1/\sqrt{n}$と時間的地平線$n$となる状態において、トンプソンサンプリングのダイナミクスはSDEとランダムODEの離散バージョンに従って進化することを示す。 n \to \infty$ として、力学は対応する SDE およびランダムODE の解に弱収束することを示す。 (近年、WagerとXu(arXiv:2101.09855) は独立してこの体制を提唱し、SDEとランダムODE近似を開発した。) 我々の弱い収束理論は、古典的マルチアームと線形バンディットの設定の両方をカバーしており、例えば、アーム間での情報共有がある場合の後悔分布の特性や、分散推定、モデルミス特定、およびバンドディット学習におけるバッチ更新の影響の洞察を得るのに利用できる。 この理論は第一原理から開発され、他のサンプリングベースのバンディットアルゴリズムの解析にも応用できる。

We study the behavior of Thompson sampling from the perspective of weak convergence. In the regime where the gaps between arm means scale as $1/\sqrt{n}$ with the time horizon $n$, we show that the dynamics of Thompson sampling evolve according to discrete versions of SDEs and random ODEs. As $n \to \infty$, we show that the dynamics converge weakly to solutions of the corresponding SDEs and random ODEs. (Recently, Wager and Xu (arXiv:2101.09855) independently proposed this regime and developed similar SDE and random ODE approximations.) Our weak convergence theory covers both the classical multi-armed and linear bandit settings, and can be used, for instance, to obtain insight about the characteristics of the regret distribution when there is information sharing among arms, as well as the effects of variance estimation, model mis-specification and batched updates in bandit learning. Our theory is developed from first-principles and can also be adapted to analyze other sampling-based bandit algorithms.
翻訳日:2021-05-20 13:37:22 公開日:2021-05-19
# Robo-Advising: 逆最適化と深層強化学習による投資促進

Robo-Advising: Enhancing Investment with Inverse Optimization and Deep Reinforcement Learning ( http://arxiv.org/abs/2105.09264v1 )

ライセンス: Link先を確認
Haoran Wang, Shi Yu(参考訳) 機械学習(ML)は金融業界において強力なツールとして受け入れられており、投資管理を含む様々な分野に顕著な応用が広がっている。 本研究では,2つのmlエージェントからなるフルサイクルデータ駆動型投資ロボアドバイザリングフレームワークを提案する。 逆ポートフォリオ最適化エージェントである第1エージェントは、オンライン逆最適化を用いて、履歴アロケーションデータから直接、投資家のリスク選択と期待リターンを推測する。 第2のエージェントである深部強化学習(RL)エージェントは、予測されるリターンの推論シーケンスを集約し、深部RLアプローチを用いて解決可能な、新しい多周期平均分散ポートフォリオ最適化問題を定式化する。 提案された投資パイプラインは、2016年4月1日から2021年2月1日までの実際の市場データに適用され、市場最適配分を表すS&P500ベンチマークポートフォリオを一貫して上回っている。 アウトパフォーマンスは、多周期計画(単周期計画)とデータ駆動rlアプローチ(古典的推定アプローチ)に起因している可能性がある。

Machine Learning (ML) has been embraced as a powerful tool by the financial industry, with notable applications spreading in various domains including investment management. In this work, we propose a full-cycle data-driven investment robo-advising framework, consisting of two ML agents. The first agent, an inverse portfolio optimization agent, infers an investor's risk preference and expected return directly from historical allocation data using online inverse optimization. The second agent, a deep reinforcement learning (RL) agent, aggregates the inferred sequence of expected returns to formulate a new multi-period mean-variance portfolio optimization problem that can be solved using deep RL approaches. The proposed investment pipeline is applied on real market data from April 1, 2016 to February 1, 2021 and has shown to consistently outperform the S&P 500 benchmark portfolio that represents the aggregate market optimal allocation. The outperformance may be attributed to the the multi-period planning (versus single-period planning) and the data-driven RL approach (versus classical estimation approach).
翻訳日:2021-05-20 13:37:03 公開日:2021-05-19
# (参考訳) 微分可能SLAM-net:ビジュアルナビゲーションのための粒子SLAMの学習 [全文訳有]

Differentiable SLAM-net: Learning Particle SLAM for Visual Navigation ( http://arxiv.org/abs/2105.07593v2 )

ライセンス: CC BY 4.0
Peter Karkus, Shaojun Cai, David Hsu(参考訳) ローカライゼーションとマッピング(SLAM)は、高速な回転、特徴のない壁、カメラ品質の低下など、視覚ロボットナビゲーションなど、多くの下流アプリケーションにとって依然として困難である。 本稿では,これまで見つからなかった屋内環境における平面ロボットナビゲーションを実現するために,SLAMネットワークとナビゲーションアーキテクチャを導入する。 SLAM-netは、パーティクルフィルタに基づくSLAMアルゴリズムを微分可能な計算グラフにエンコードし、SLAMアルゴリズムを通じてバックプロパゲートすることでタスク指向のニューラルネットワークコンポーネントを学習する。 最終目的のためにすべてのモデルコンポーネントを一緒に最適化できるため、slam-netは困難な条件下で堅牢であることを学びます。 私たちは、実世界のRGBとRGB-Dデータセットの異なるHabitatプラットフォームで実験を行います。 SLAM-netは雑音条件下で広く適応したORB-SLAMよりも著しく優れていた。 当社のslam-netによるナビゲーションアーキテクチャは,habitat challenge 2020 pointnavタスクの最先端を,大きなマージン(37%から64%の成功)で改善しています。 プロジェクトウェブサイト: http://sites.google. com/view/slamnet

Simultaneous localization and mapping (SLAM) remains challenging for a number of downstream applications, such as visual robot navigation, because of rapid turns, featureless walls, and poor camera quality. We introduce the Differentiable SLAM Network (SLAM-net) along with a navigation architecture to enable planar robot navigation in previously unseen indoor environments. SLAM-net encodes a particle filter based SLAM algorithm in a differentiable computation graph, and learns task-oriented neural network components by backpropagating through the SLAM algorithm. Because it can optimize all model components jointly for the end-objective, SLAM-net learns to be robust in challenging conditions. We run experiments in the Habitat platform with different real-world RGB and RGB-D datasets. SLAM-net significantly outperforms the widely adapted ORB-SLAM in noisy conditions. Our navigation architecture with SLAM-net improves the state-of-the-art for the Habitat Challenge 2020 PointNav task by a large margin (37% to 64% success). Project website: http://sites.google. com/view/slamnet
翻訳日:2021-05-20 13:29:38 公開日:2021-05-19
# (参考訳) ELrオントロジーに基づくアクティブラーニングの概念と接続型クエリ [全文訳有]

Actively Learning Concepts and Conjunctive Queries under ELr-Ontologies ( http://arxiv.org/abs/2105.08326v2 )

ライセンス: CC BY 4.0
Maurice Funk, Jean Christoph Jung, Carsten Lutz(参考訳) 本稿では, 論理ELrで定式化されたオントロジーの存在下で, 概念や問合せを学習する上での問題点を, 学習アルゴリズムがオラクル(ドメインエキスパートなど)を対話的にクエリすることのできる, 活発な学習のフレームワークであるAngluinを用いて検討する。 1) el-concepts, (2) symmetry-free eli-concepts, (3) chordal, symmetry-free, そしてbounded arityである結合クエリ(cqs)である。 いずれの場合も、学習者は、ABoxesと同値クエリに基づいて、そのクラスから与えられた概念/クエリがターゲットと同等であるかどうかを問うオラクルメンバーシップクエリにポーズすることができる。 (3) における有界アリティに対する制限は、同値クエリで非制限な CQ が認められると取り除かれる。 また,EL-concepts は ELI-ontology の存在下で学習可能な多項式クエリではないことを示す。

We consider the problem to learn a concept or a query in the presence of an ontology formulated in the description logic ELr, in Angluin's framework of active learning that allows the learning algorithm to interactively query an oracle (such as a domain expert). We show that the following can be learned in polynomial time: (1) EL-concepts, (2) symmetry-free ELI-concepts, and (3) conjunctive queries (CQs) that are chordal, symmetry-free, and of bounded arity. In all cases, the learner can pose to the oracle membership queries based on ABoxes and equivalence queries that ask whether a given concept/query from the considered class is equivalent to the target. The restriction to bounded arity in (3) can be removed when we admit unrestricted CQs in equivalence queries. We also show that EL-concepts are not polynomial query learnable in the presence of ELI-ontologies.
翻訳日:2021-05-20 13:10:00 公開日:2021-05-19
# Few-NERD: エンティティ認識データセット

Few-NERD: A Few-Shot Named Entity Recognition Dataset ( http://arxiv.org/abs/2105.07464v2 )

ライセンス: Link先を確認
Ning Ding, Guangwei Xu, Yulin Chen, Xiaobin Wang, Xu Han, Pengjun Xie, Hai-Tao Zheng, Zhiyuan Liu(参考訳) 近年,エンティティ認識(ner)のテーマを中心に多くの文献が登場しているが,実用的かつ難解な課題に注目したベンチマークデータはほとんど公開されていない。 現在のアプローチでは、既存の教師付きNERデータセットを収集し、経験的研究のために数ショット設定に再編成している。 これらの戦略は、通常、大まかなエンティティタイプを少数の例で認識することを目的としている。 本稿では,大まかな粒度と細粒度66の階層構造を持つ大規模人手用少数ショットNERデータセットであるFew-NERDを提案する。 Few-NERDはウィキペディアの188,238文で構成され、4,601,160語が含まれ、それぞれが文脈または2段階のエンティティタイプの一部として注釈付けされている。 私たちの知る限りでは、これが最初の数発のNERデータセットであり、人造NERデータセットとしては最大です。 我々は,モデルの一般化能力を包括的に評価するために,異なる段階のベンチマークタスクを構築した。 大規模な実験結果と分析により、Few-NERDは困難であり、さらなる研究が必要であることが示された。 Few-NERDはhttps://ningding97.g ithub.io/fewnerd/で公開しています。

Recently, considerable literature has grown up around the theme of few-shot named entity recognition (NER), but little published benchmark data specifically focused on the practical and challenging task. Current approaches collect existing supervised NER datasets and re-organize them to the few-shot setting for empirical study. These strategies conventionally aim to recognize coarse-grained entity types with few examples, while in practice, most unseen entity types are fine-grained. In this paper, we present Few-NERD, a large-scale human-annotated few-shot NER dataset with a hierarchy of 8 coarse-grained and 66 fine-grained entity types. Few-NERD consists of 188,238 sentences from Wikipedia, 4,601,160 words are included and each is annotated as context or a part of a two-level entity type. To the best of our knowledge, this is the first few-shot NER dataset and the largest human-crafted NER dataset. We construct benchmark tasks with different emphases to comprehensively assess the generalization capability of models. Extensive empirical results and analysis show that Few-NERD is challenging and the problem requires further research. We make Few-NERD public at https://ningding97.g ithub.io/fewnerd/.
翻訳日:2021-05-20 11:28:47 公開日:2021-05-19
# スタイル誘導型プランニングによるスタイリズドストーリー生成

Stylized Story Generation with Style-Guided Planning ( http://arxiv.org/abs/2105.08625v2 )

ライセンス: Link先を確認
Xiangzhe Kong, Jialiang Huang, Ziquan Tung, Jian Guan and Minlie Huang(参考訳) 現在のストーリーテリングシステムは、ナレーションスタイルを考慮せずにコヒーレントなプロットでストーリーを生成することに焦点を当てている。 そこで,本稿では,先進的な文脈を与えられたスペクティブスタイルで物語を生成する新しいタスク,スタイル化されたストーリージェネレーションを提案する。 この問題に対処するために,まず文体化されたキーワードを計画し,そのキーワードの誘導で全ストーリーを生成する新しい生成モデルを提案する。 さらに、生成したストーリーと特定スタイルの整合性を評価するために、2つの自動メトリクスを提案する。 実験では、ROCStoriesデータセット(Mostafazadeh et al., 2016)に基づいて、当社のモデルが制御可能であることを実証した。 本研究は,今後の研究におけるスタイリズドストーリー生成の展望を示す。

Current storytelling systems focus more ongenerating stories with coherent plots regard-less of the narration style, which is impor-tant for controllable text generation. There-fore, we propose a new task, stylized story gen-eration, namely generating stories with speci-fied style given a leading context. To tacklethe problem, we propose a novel generationmodel that first plans the stylized keywordsand then generates the whole story with theguidance of the keywords. Besides, we pro-pose two automatic metrics to evaluate theconsistency between the generated story andthe specified style. Experiments demonstratesthat our model can controllably generateemo-tion-dri ven orevent-driven stories based onthe ROCStories dataset (Mostafazadeh et al.,2016). Our study presents insights for stylizedstory generation in further research.
翻訳日:2021-05-20 11:28:26 公開日:2021-05-19
# スパースアクションタスクのためのsparsity prior regularized q-learning

Sparsity Prior Regularized Q-learning for Sparse Action Tasks ( http://arxiv.org/abs/2105.08666v2 )

ライセンス: Link先を確認
Jing-Cheng Pang, Tian Xu, Sheng-Yi Jiang, Yu-Ren Liu, Yang Yu(参考訳) 多くの意思決定タスクにおいて、特定のアクションは、銃術の「火」や株式取引の「買い」など、その頻度や総量によって制限される。 我々はそのような行動を「スパースアクション」と呼ぶ。 スパースアクションは、しばしば優れたパフォーマンスを達成する上で重要な役割を果たす。 しかしながら、emph{classical bellman update} によって推定されるそれらのq値は、通常、標本のスパース性のため、大きな推定誤差を被る。 emph{greedy} のポリシーは、バイアス付き Q-函数によって大きく誤解される可能性があり、スパース作用を積極的に行い、大きな準最適をもたらす。 本稿では,sparseアクションに低い確率を割り当てる参照分布を構築し,その参照分布に明示的な制約を持つ正規化対象を提案する。 さらに、正規化ベルマン演算子と正規化最適ポリシーを導出し、エラーの伝播を遅くし、エージェントがよりスパースアクションを取るよう誘導する。 実験の結果,本手法は,典型的なスパース動作タスクにおける最先端性能を実現する。

In many decision-making tasks, some specific actions are limited in their frequency or total amounts, such as "fire" in the gunfight game and "buy/sell" in the stock trading. We name such actions as "sparse action". Sparse action often plays a crucial role in achieving good performance. However, their Q-values, estimated by \emph{classical Bellman update}, usually suffer from a large estimation error due to the sparsity of their samples. The \emph{greedy} policy could be greatly misled by the biased Q-function and takes sparse action aggressively, which leads to a huge sub-optimality. This paper constructs a reference distribution that assigns a low probability to sparse action and proposes a regularized objective with an explicit constraint to the reference distribution. Furthermore, we derive a regularized Bellman operator and a regularized optimal policy that can slow down the propagation of error and guide the agent to take sparse action more carefully. The experiment results demonstrate that our method achieves state-of-the-art performance on typical sparse action tasks.
翻訳日:2021-05-20 11:28:12 公開日:2021-05-19
# 逐次独立メカニズムの高速・低速学習

Fast and Slow Learning of Recurrent Independent Mechanisms ( http://arxiv.org/abs/2105.08710v2 )

ライセンス: Link先を確認
Kanika Madan, Nan Rosemary Ke, Anirudh Goyal, Bernhard Sch\"olkopf, Yoshua Bengio(参考訳) 知識を交換可能な部品に分解することは、分布の変化がある場合に一般化の利点を約束する。 環境と相互作用する学習エージェントは、既存の知識の新たな組み合わせを必要とする状況に直面しやすい。 このような知識の分解は、分布外変化を体系的に一般化できる上で特に重要であると仮定する。 そこで本研究では,エージェントが必要とする知識の一部と報酬関数が定常的であり,タスク間で再利用可能な,特定のトレーニングフレームワークを提案する。 注意機構は、どのモジュールを現在のタスクに適応できるかを動的に選択し、選択したモジュールのパラメータは、学習者が経験する変化に直面すると迅速に変更でき、一方で注意機構のパラメータは安定してゆっくりと変化するメタパラメータとして動作する。 我々は,注意のボトルネックを通じて相互に疎通するモジュール群が捉えた知識の断片に着目した。 画像レベルの入力を伴う部分的に観測されたグリッドの世界におけるナビゲーションを含む強化学習装置において,提案方式のモジュール的側面をメタラーニングすることで,より高速な適応を実現することができる。 また,パラメータとメタパラメータの役割を逆転させることは,動的に選択されたモジュールを高速に適応するための特別な役割を示唆する。

Decomposing knowledge into interchangeable pieces promises a generalization advantage when there are changes in distribution. A learning agent interacting with its environment is likely to be faced with situations requiring novel combinations of existing pieces of knowledge. We hypothesize that such a decomposition of knowledge is particularly relevant for being able to generalize in a systematic manner to out-of-distribution changes. To study these ideas, we propose a particular training framework in which we assume that the pieces of knowledge an agent needs and its reward function are stationary and can be re-used across tasks. An attention mechanism dynamically selects which modules can be adapted to the current task, and the parameters of the selected modules are allowed to change quickly as the learner is confronted with variations in what it experiences, while the parameters of the attention mechanisms act as stable, slowly changing, meta-parameters. We focus on pieces of knowledge captured by an ensemble of modules sparsely communicating with each other via a bottleneck of attention. We find that meta-learning the modular aspects of the proposed system greatly helps in achieving faster adaptation in a reinforcement learning setup involving navigation in a partially observed grid world with image-level input. We also find that reversing the role of parameters and meta-parameters does not work nearly as well, suggesting a particular role for fast adaptation of the dynamically selected modules.
翻訳日:2021-05-20 11:27:51 公開日:2021-05-19
# E-Commerce Fresh Retailのマークダウン: 対実予測と多機能最適化アプローチ

Markdowns in E-Commerce Fresh Retail: A Counterfactual Prediction and Multi-Period Optimization Approach ( http://arxiv.org/abs/2105.08313v2 )

ライセンス: Link先を確認
Junhao Hua, Ling Yan, Huan Xu, Cheng Yang(参考訳) 本稿では,大量の観測トランザクションデータを活用することで,非現実的予測と多周期価格最適化からなる,マークダウンのための新しいデータ駆動型かつ解釈可能な価格設定手法を提案する。 まず, 準パラメトリック構造モデルを構築し, 個々の価格弾性を学習し, 反事実需要を予測する。 この半パラメトリックモデルは、非パラメトリック機械学習モデルの予測可能性と経済モデルの解釈可能性の両方を活用する。 第2に,有限販売地平線上での消耗品全体の利益を最大化する多周期動的価格アルゴリズムを提案する。 決定論的需要を用いる従来のアプローチとは異なり、予測プロセスに必然的にランダム性を持つため、反事実的需要の不確かさをモデル化する。 確率モデルに基づいてマルコフ決定プロセスによる逐次価格戦略を導出し,それを解決するための2段階のアルゴリズムを設計する。 提案アルゴリズムは非常に効率的である。 指数関数から多項式への時間の複雑さを減少させる。 実験の結果,我々の価格アルゴリズムの利点が示され,提案したフレームワークは有名なeコマースの新鮮小売シナリオであるFreshippoにうまく展開されている。

In this paper, by leveraging abundant observational transaction data, we propose a novel data-driven and interpretable pricing approach for markdowns, consisting of counterfactual prediction and multi-period price optimization. Firstly, we build a semi-parametric structural model to learn individual price elasticity and predict counterfactual demand. This semi-parametric model takes advantage of both the predictability of nonparametric machine learning model and the interpretability of economic model. Secondly, we propose a multi-period dynamic pricing algorithm to maximize the overall profit of a perishable product over its finite selling horizon. Different with the traditional approaches that use the deterministic demand, we model the uncertainty of counterfactual demand since it inevitably has randomness in the prediction process. Based on the stochastic model, we derive a sequential pricing strategy by Markov decision process, and design a two-stage algorithm to solve it. The proposed algorithm is very efficient. It reduces the time complexity from exponential to polynomial. Experimental results show the advantages of our pricing algorithm, and the proposed framework has been successfully deployed to the well-known e-commerce fresh retail scenario - Freshippo.
翻訳日:2021-05-20 11:27:15 公開日:2021-05-19
# Exemplar-based Open-Set Panoptic Segmentation Network

Exemplar-Based Open-Set Panoptic Segmentation Network ( http://arxiv.org/abs/2105.08336v2 )

ライセンス: Link先を確認
Jaedong Hwang, Seoung Wug Oh, Joon-Young Lee, Bohyung Han(参考訳) 我々は、panoptic segmentationをopen-worldに拡張し、open-set panoptic segmentation (ops)タスクを導入する。 このタスクは、既知のクラスだけでなく、トレーニング中に認識されていない未知のクラスに対しても、単眼セグメンテーションを実行する必要がある。 タスクの実践的課題を調査し,既存のデータセットであるCOCO上にベンチマークを構築する。 さらに,実証理論に触発された新しいオープン・セット・パノプティクス・セグメンテーション・ネットワーク(EOPSN)を提案する。 提案手法は,クラスタ化によって識別され,疑似グラウンドルーツとして使用されるexemplarsに基づく新しいクラスを識別する。 各クラスのサイズは、クラスに関連する既存のクラスと類似性に基づいて、新しい例をマイニングすることによって増加する。 提案するベンチマークでeopsnを評価し,提案の有効性を実証する。 私たちの仕事の第一の目的は、オープンワールドのシナリオにおける認識にコミュニティの注意を引き付けることです。 我々のアルゴリズムの実装は、プロジェクトのWebページで利用可能である。

We extend panoptic segmentation to the open-world and introduce an open-set panoptic segmentation (OPS) task. This task requires performing panoptic segmentation for not only known classes but also unknown ones that have not been acknowledged during training. We investigate the practical challenges of the task and construct a benchmark on top of an existing dataset, COCO. In addition, we propose a novel exemplar-based open-set panoptic segmentation network (EOPSN) inspired by exemplar theory. Our approach identifies a new class based on exemplars, which are identified by clustering and employed as pseudo-ground-truths . The size of each class increases by mining new exemplars based on the similarities to the existing ones associated with the class. We evaluate EOPSN on the proposed benchmark and demonstrate the effectiveness of our proposals. The primary goal of our work is to draw the attention of the community to the recognition in the open-world scenarios. The implementation of our algorithm is available on the project webpage: https://cv.snu.ac.kr /research/EOPSN.
翻訳日:2021-05-20 11:26:57 公開日:2021-05-19
# CCGベースのDisCoCatフレームワーク

A CCG-Based Version of the DisCoCat Framework ( http://arxiv.org/abs/2105.07720v2 )

ライセンス: Link先を確認
Richie Yeung, Dimitri Kartsaklis(参考訳) DisCoCatモデル(Coecke et al., 2010)は意味論のレベルで言語の構成的側面を研究する上で有用なツールであることが証明されているが、前グループ文法への強い依存は重要な制約を生じている。 本稿では,DisCoCat を Combinatory Categorial Grammar (CCG) から意味論のカテゴリへ変換することで,これらの問題を解決する。 まず、標準分類文法を二閉圏として表現し、すべての規則がカリーリング/アンカーリングとして出現し、その後、単語の意味をエンコードするコンパクト閉圏の対称性を利用して、置換誘導規則をモデル化する。 我々は,「不思議の国のアリス」を,コミュニティで利用できるコーパスであるDisCoCat形式に変換する手法の概念実証を行う。

While the DisCoCat model (Coecke et al., 2010) has been proved a valuable tool for studying compositional aspects of language at the level of semantics, its strong dependency on pregroup grammars poses important restrictions: first, it prevents large-scale experimentation due to the absence of a pregroup parser; and second, it limits the expressibility of the model to context-free grammars. In this paper we solve these problems by reformulating DisCoCat as a passage from Combinatory Categorial Grammar (CCG) to a category of semantics. We start by showing that standard categorial grammars can be expressed as a biclosed category, where all rules emerge as currying/uncurrying the identity; we then proceed to model permutation-inducing rules by exploiting the symmetry of the compact closed category encoding the word meaning. We provide a proof of concept for our method, converting "Alice in Wonderland" into DisCoCat form, a corpus that we make available to the community.
翻訳日:2021-05-20 11:26:43 公開日:2021-05-19
# DID-eFed: 分散IDサービスとしてのフェデレーション学習の実現

DID-eFed: Facilitating Federated Learning as a Service with Decentralized Identities ( http://arxiv.org/abs/2105.08671v2 )

ライセンス: Link先を確認
Jiahui Geng, Neel Kanwal, Martin Gilje Jaatun, Chunming Rong(参考訳) 私たちはビッグデータの時代に入り、人工知能応用の繁栄の「燃料」と考えられている。 eu一般データ保護規則(gdpr)の制定は、ビッグデータにおける個人のプライバシーに関する懸念を引き起こす。 フェデレートラーニング(FL)は、ユーザプライバシとデータの機密性要件に準拠したまま、複数のパーティ間で共有される高性能モデルを構築するのに役立つ機能的なソリューションとして現れます。 FLは、実アプリケーションで集中的に研究され、使用されているが、関心のあるサードパーティへのFLaaS(Federated Learning as a Service)としての展望と応用に関する研究は、まだ限られている。 本稿では,分散ID(DID)とスマートコントラクトによってFLが促進されるFLaaSシステム,DID-eFedを提案する。 didは当社のシステムにおいて、より柔軟で信頼性の高い分散アクセス管理を可能にします。 DID-eFedが病院や研究機関のFLaaSを可能にするシナリオについて述べる。

We have entered the era of big data, and it is considered to be the "fuel" for the flourishing of artificial intelligence applications. The enactment of the EU General Data Protection Regulation (GDPR) raises concerns about individuals' privacy in big data. Federated learning (FL) emerges as a functional solution that can help build high-performance models shared among multiple parties while still complying with user privacy and data confidentiality requirements. Although FL has been intensively studied and used in real applications, there is still limited research related to its prospects and applications as a FLaaS (Federated Learning as a Service) to interested 3rd parties. In this paper, we present a FLaaS system: DID-eFed, where FL is facilitated by decentralized identities (DID) and a smart contract. DID enables a more flexible and credible decentralized access management in our system, while the smart contract offers a frictionless and less error-prone process. We describe particularly the scenario where our DID-eFed enables the FLaaS among hospitals and research institutions.
翻訳日:2021-05-20 11:26:26 公開日:2021-05-19