このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210612となっている論文です。

PDF登録状況(公開日: 20210612)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) ゲームエンジンデータセットを用いたセマンティックセグメンテーションの深さ予測

Predicting Depth from Semantic Segmentation using Game Engine Dataset ( http://arxiv.org/abs/2106.15257v1 )

ライセンス: CC BY 4.0
Mohammad Amin Kashi(参考訳) 深度知覚は、ロボットが周囲の環境を理解するための基本となる。 認知神経科学の観点では、視覚深度知覚法は、双眼鏡、アクティブ、ピクチャリアルの3つのカテゴリに分けられる。 最初の2つの分類は数十年にわたって詳細に研究されてきた。 しかし,第3カテゴリーの探索研究はまだ初期段階であり,近年の深層学習の展開によって勢いが増している。 認知神経科学では、画像深度知覚機構が観察対象の知覚に依存することが知られている。 この事実に触発された本論文では,物体の知覚と深度推定畳み込みニューラルネットワークの関係について検討した。 そこで我々は,入力時に1つの画像のみを使用する単純な深度推定ネットワークに基づく新しいネットワーク構造を開発した。 提案手法では,画像のイメージとセマンティックラベルの両方を入力として使用する。 対象知覚の出力として意味ラベルを用いた。 開発したネットワークとオリジナルネットワークの性能比較結果から,本研究の新たな構造は,相対誤差の52倍の深さ推定性能を向上させることができることがわかった。 実験の多くはゲームエンジンが生成した合成データセットを用いて行われ、不正確な深さと非合成データセットのセマンティックラベルの影響から性能比較を分離した。 適切なデータセットが利用できない場合には、特定の合成データセットを深度ネットワークのトレーニングに使用することができる。 さらに,これらの場合,セマンティックラベルの使用により,合成学習データから非合成テストデータへのドメインシフトに対するネットワークの堅牢性が向上することを示した。

Depth perception is fundamental for robots to understand the surrounding environment. As the view of cognitive neuroscience, visual depth perception methods are divided into three categories, namely binocular, active, and pictorial. The first two categories have been studied for decades in detail. However, research for the exploration of the third category is still in its infancy and has got momentum by the advent of deep learning methods in recent years. In cognitive neuroscience, it is known that pictorial depth perception mechanisms are dependent on the perception of seen objects. Inspired by this fact, in this thesis, we investigated the relation of perception of objects and depth estimation convolutional neural networks. For this purpose, we developed new network structures based on a simple depth estimation network that only used a single image at its input. Our proposed structures use both an image and a semantic label of the image as their input. We used semantic labels as the output of object perception. The obtained results of performance comparison between the developed network and original network showed that our novel structures can improve the performance of depth estimation by 52\% of relative error of distance in the examined cases. Most of the experimental studies were carried out on synthetic datasets that were generated by game engines to isolate the performance comparison from the effect of inaccurate depth and semantic labels of non-synthetic datasets. It is shown that particular synthetic datasets may be used for training of depth networks in cases that an appropriate dataset is not available. Furthermore, we showed that in these cases, usage of semantic labels improves the robustness of the network against domain shift from synthetic training data to non-synthetic test data.
翻訳日:2021-07-05 00:15:51 公開日:2021-06-12
# E-Commerce Text Attributes(SANTA)の標準化のためのスケーラブルなアプローチ

Scalable Approach for Normalizing E-commerce Text Attributes (SANTA) ( http://arxiv.org/abs/2106.09493v1 )

ライセンス: Link先を確認
Ravi Shankar Mishra, Kartik Mehta, Nikhil Rasiwasia(参考訳) 本稿では,Eコマース属性値を自動的に正規化するスケーラブルなフレームワークであるSANTAを提案する。 「Win 10 Pro」は、予め定義された標準値の固定セット(例)である。 「Windows 10」。 属性正規化に関する初期の研究は、ファジィ文字列マッチング(本論文では構文マッチングとも呼ばれる)に焦点を当てていた。 本研究では,まず9つの構文マッチングアルゴリズムの広範な研究を行い,'コサイン'の類似性が最良の結果をもたらすことを確認し,一般的なjaccardインデックスよりも2.7%改善した。 次に、弦の類似性だけでは属性正規化には不十分であり、多くの曲面形式は構文マッチングを超える必要がある(例)。 720p」と「hd」は同義語である。 教師なし埋め込み(例えば)のような意味的手法は word2vec/fastText)は、単語類似性タスクにおいて良い結果を示しており、これらの近接形式は、しばしば類似した文脈で発生するので、近接正準形式を区別するには不十分であることがわかった。 三重項損失を持つ双対ネットワークを用いてトークン埋め込みを学ぶことを提案する。 本稿では,これらの埋め込みを自己指導型で学習するために,原属性値と製品タイトルを活用する埋め込み学習タスクを提案する。 本稿では,提案課題を用いた監視を行うことにより,属性正規化のための構文的手法と非教師的埋め込み技術の両方よりも向上することを示す。 実世界の50属性の属性正規化データセットの実験から,提案手法を用いてトレーニングした埋め込みは,文字列マッチングよりも2.3%,教師なし埋め込みより19.3%向上していることがわかった。

In this paper, we present SANTA, a scalable framework to automatically normalize E-commerce attribute values (e.g. "Win 10 Pro") to a fixed set of pre-defined canonical values (e.g. "Windows 10"). Earlier works on attribute normalization focused on fuzzy string matching (also referred as syntactic matching in this paper). In this work, we first perform an extensive study of nine syntactic matching algorithms and establish that 'cosine' similarity leads to best results, showing 2.7% improvement over commonly used Jaccard index. Next, we argue that string similarity alone is not sufficient for attribute normalization as many surface forms require going beyond syntactic matching (e.g. "720p" and "HD" are synonyms). While semantic techniques like unsupervised embeddings (e.g. word2vec/fastText) have shown good results in word similarity tasks, we observed that they perform poorly to distinguish between close canonical forms, as these close forms often occur in similar contexts. We propose to learn token embeddings using a twin network with triplet loss. We propose an embedding learning task leveraging raw attribute values and product titles to learn these embeddings in a self-supervised fashion. We show that providing supervision using our proposed task improves over both syntactic and unsupervised embeddings based techniques for attribute normalization. Experiments on a real-world attribute normalization dataset of 50 attributes show that the embeddings trained using our proposed approach obtain 2.3% improvement over best string matching and 19.3% improvement over best unsupervised embeddings.
翻訳日:2021-06-20 16:14:57 公開日:2021-06-12
# (参考訳) 大規模非教師対象発見 [全文訳有]

Large-Scale Unsupervised Object Discovery ( http://arxiv.org/abs/2106.06650v1 )

ライセンス: CC BY 4.0
Huy V. Vo, Elena Sizikova, Cordelia Schmid, Patrick P\'erez, Jean Ponce(参考訳) unsupervised object discovery(uod)に対する既存のアプローチは、パフォーマンスを損なう近似なしでは大規模なデータセットにスケールアップできない。 本稿では,固有値問題やリンク解析に利用できる分散手法の武器として,ランク付け問題としてのUODの新たな定式化を提案する。 COCOとOpenImagesによる大規模な実験により、各画像に1つの顕著なオブジェクトを求める単一オブジェクト発見環境では、提案されたLOD(大規模オブジェクト発見)アプローチは、中規模データセット(最大120Kイメージ)の最先端技術と同等かそれ以上に、最大1.7Mイメージまでスケールアップ可能な他のアルゴリズムよりも37%以上優れていることが示された。 各画像に複数のオブジェクトを求めるマルチオブジェクトディスカバリ設定では、提案されたlodは20kから1.7mのデータセットの他の方法よりも平均精度(ap)が14%以上優れている。

Existing approaches to unsupervised object discovery (UOD) do not scale up to large datasets without approximations which compromise their performance. We propose a novel formulation of UOD as a ranking problem, amenable to the arsenal of distributed methods available for eigenvalue problems and link analysis. Extensive experiments with COCO and OpenImages demonstrate that, in the single-object discovery setting where a single prominent object is sought in each image, the proposed LOD (Large-scale Object Discovery) approach is on par with, or better than the state of the art for medium-scale datasets (up to 120K images), and over 37% better than the only other algorithms capable of scaling up to 1.7M images. In the multi-object discovery setting where multiple objects are sought in each image, the proposed LOD is over 14% better in average precision (AP) than all other methods for datasets ranging from 20K to 1.7M images.
翻訳日:2021-06-20 01:21:27 公開日:2021-06-12
# (参考訳) TDGIA:グラフニューラルネットワークにおける効果注入攻撃 [全文訳有]

TDGIA:Effective Injection Attacks on Graph Neural Networks ( http://arxiv.org/abs/2106.06663v1 )

ライセンス: CC BY 4.0
Xu Zou, Qinkai Zheng, Yuxiao Dong, Xinyu Guan, Evgeny Kharlamov, Jialiang Lu, Jie Tang(参考訳) グラフニューラルネットワーク(GNN)は、様々な現実世界のアプリケーションで有望なパフォーマンスを実現している。 しかし、近年の研究では、GNNは敵の攻撃に弱いことが示されている。 本稿では,グラフインジェクションアタック(GIA)において,最近導入された現実的な攻撃シナリオについて検討する。 GIAのシナリオでは、敵は既存のリンク構造や入力グラフのノード属性を変更することができない。 本稿では,GIA設定下でのGNNのトポロジ的脆弱性の解析を行い,効果的なインジェクション攻撃のためのトポロジカルデフェクティブグラフインジェクション攻撃(TDGIA)を提案する。 tdgiaは最初にトポロジカル欠陥エッジ選択戦略を導入し、注入されたノードと接続する元のノードを選択する。 次に、注入されたノードの特徴を生成するために、スムーズな特徴最適化の目的をデザインする。 大規模データセットに対する大規模な実験により、TDGIAは数十の防衛GNNモデルを攻撃する際に、様々な攻撃ベースラインを一貫して、著しく上回ることができることが示された。 特に、TDGIAによる目標GNNのパフォーマンス低下は、KDD-CUP 2020への数百件の提出のうち、最高の攻撃ソリューションによるダメージの2倍以上である。

Graph Neural Networks (GNNs) have achieved promising performance in various real-world applications. However, recent studies have shown that GNNs are vulnerable to adversarial attacks. In this paper, we study a recently-introduced realistic attack scenario on graphs -- graph injection attack (GIA). In the GIA scenario, the adversary is not able to modify the existing link structure and node attributes of the input graph, instead the attack is performed by injecting adversarial nodes into it. We present an analysis on the topological vulnerability of GNNs under GIA setting, based on which we propose the Topological Defective Graph Injection Attack (TDGIA) for effective injection attacks. TDGIA first introduces the topological defective edge selection strategy to choose the original nodes for connecting with the injected ones. It then designs the smooth feature optimization objective to generate the features for the injected nodes. Extensive experiments on large-scale datasets show that TDGIA can consistently and significantly outperform various attack baselines in attacking dozens of defense GNN models. Notably, the performance drop on target GNNs resultant from TDGIA is more than double the damage brought by the best attack solution among hundreds of submissions on KDD-CUP 2020.
翻訳日:2021-06-20 00:58:34 公開日:2021-06-12
# (参考訳) 視線領域による感染リスクの迅速検査 [全文訳有]

Rapid COVID-19 Risk Screening by Eye-region Manifestations ( http://arxiv.org/abs/2106.06664v1 )

ライセンス: CC BY 4.0
Yanwei Fu, Lei Zhao, Haojie Zheng, Qiang Sun, Li Yang, Hong Li, Jiao Xie, Xiangyang Xue, Feng Li, Yuan Li, Wei Wang, Yantao Pei, Jianmin Wang, Xiuqi Wu, Yanhua Zheng, Hongxia Tian Mengwei Gu1(参考訳) 医療資源不足地域における現在の検査方法の技術的・費用的制約により、アクセスが容易で低コストな新しい高速な新型コロナウイルススクリーニング方法を開発するのは、いまだに容易ではない。 一方で、covid-19患者に臨床証拠として報告されている眼症状はますます増えています[1]。 このプロジェクトに触発された。 平成20年(2021年)1月以降,河北医科大学四十九病院倫理委員会の承認を得て,中国・平北省四十八江市において共同臨床研究を行ってきた。 中国・武漢市にある華宗科学技術大学東路医科大学連合病院で、新型コロナウイルス(covid-19)患者の盲検を数回実施した。 2020年2月以降、aimomicsによる世界的な眼球検査プログラムの重要な部分として、一般的なccdおよびcmosカメラで撮影された眼球領域画像を分析する新しい高速スクリーニング法を提案する。 これにより、さまざまな国や人種で持続可能な安定的なハイパフォーマンスを実現することで、covid-19の迅速なリスクスクリーニングが実現される可能性がある。 我々の新型コロナウイルスの急激な事前スクリーニングモデルは、コストが低く、完全自己パフォーマンスで、非侵襲的で、重要なリアルタイム性を持つため、継続的な健康監視を可能にします。 さらにオープンアクセスAPIとして実装し、世界に公開サービスを提供しています。 私たちのパイロット実験では、空港や駅の赤外線測定装置や、パッケージ化されたアプリケーションとしてスマートフォンをグループ化したターゲットの人々に直接プッシュするなど、あらゆる種類の監視シナリオに使用できる準備ができています。

It is still nontrivial to develop a new fast COVID-19 screening method with the easier access and lower cost, due to the technical and cost limitations of the current testing methods in the medical resource-poor districts. On the other hand, there are more and more ocular manifestations that have been reported in the COVID-19 patients as growing clinical evidence[1]. This inspired this project. We have conducted the joint clinical research since January 2021 at the ShiJiaZhuang City, Heibei province, China, which approved by the ethics committee of The fifth hospital of ShiJiaZhuang of Hebei Medical University. We undertake several blind tests of COVID-19 patients by Union Hospital, Tongji Medical College, Huazhong University of Science and Technology, Wuhan, China. Meantime as an important part of the ongoing globally COVID-19 eye test program by AIMOMICS since February 2020, we propose a new fast screening method of analyzing the eye-region images, captured by common CCD and CMOS cameras. This could reliably make a rapid risk screening of COVID-19 with the sustainable stable high performance in different countries and races. Our model for COVID-19 rapid prescreening have the merits of the lower cost, fully self-performed, non-invasive, importantly real-time, and thus enables the continuous health surveillance. We further implement it as the open accessible APIs, and provide public service to the world. Our pilot experiments show that our model is ready to be usable to all kinds of surveillance scenarios, such as infrared temperature measurement device at airports and stations, or directly pushing to the target people groups smartphones as a packaged application.
翻訳日:2021-06-20 00:40:56 公開日:2021-06-12
# (参考訳) ハイパーグラフ学習のための学習可能なハイパーグラフラプラシアン [全文訳有]

Learnable Hypergraph Laplacian for Hypergraph Learning ( http://arxiv.org/abs/2106.06666v1 )

ライセンス: CC BY 4.0
Jiying Zhang, Yuzhao Chen, Xi Xiao, Runiu Lu, Shu-Tao Xia(参考訳) HyperGraph Convolutional Neural Networks (HGCNN) は、グラフ構造化データに保存された高次関係をモデル化する可能性を示した。 しかし、既存の畳み込みフィルタの多くは、事前に定義された初期ハイパーグラフトポロジーによって局所化され決定され、実世界データにおける暗黙的および長期的関係の探索を怠る。 本稿では,hgcnnの表現力を向上させる汎用プラグイン・イン・プレイモジュールとして機能する,適応型ハイパーグラフ構造構築のための最初の学習ベース手法であるhypergraph laplacian adaptor(herald)を提案する。 具体的には,ハイパーノードとハイパーエッジの隣接関係をエンドツーエンドで適応的に最適化し,タスク認識ハイパーグラフを学習する。 さらにヘラルドは、非局所的な対ノード関係を捉えるために自己アテンション機構を用いる。 ノード分類とグラフ分類タスクのための多種多様なハイパーグラフデータセットに対する大規模な実験により,本手法が一貫した性能向上を実現し,その有効性と一般化能力を示した。

HyperGraph Convolutional Neural Networks (HGCNNs) have demonstrated their potential in modeling high-order relations preserved in graph structured data. However, most existing convolution filters are localized and determined by the pre-defined initial hypergraph topology, neglecting to explore implicit and long-ange relations in real-world data. In this paper, we propose the first learning-based method tailored for constructing adaptive hypergraph structure, termed HypERgrAph Laplacian aDaptor (HERALD), which serves as a generic plug-in-play module for improving the representational power of HGCNNs. Specifically, HERALD adaptively optimizes the adjacency relationship between hypernodes and hyperedges in an end-to-end manner and thus the task-aware hypergraph is learned. Furthermore, HERALD employs the self-attention mechanism to capture the non-local paired-nodes relation. Extensive experiments on various popular hypergraph datasets for node classification and graph classification tasks demonstrate that our approach obtains consistent and considerable performance enhancement, proving its effectiveness and generalization ability.
翻訳日:2021-06-20 00:29:37 公開日:2021-06-12
# (参考訳) CARTL: 協調的対話型移動学習 [全文訳有]

CARTL: Cooperative Adversarially-Robust Transfer Learning ( http://arxiv.org/abs/2106.06667v1 )

ライセンス: CC BY 4.0
Dian Chen, Hongxin Hu, Qian Wang, Yinli Li, Cong Wang, Chao Shen, Qi Li(参考訳) 転送学習は、特にトレーニングデータが不足し、計算能力が限られている場合に、パフォーマンスの良いモデルをスクラッチからトレーニングすることの負担を緩和する。 ディープラーニングでは、トランスファー学習の典型的な戦略は、トレーニング済みモデルの初期のレイヤを凍結し、他のレイヤをターゲットドメインに微調整する。 従来の研究は、転送されたモデルの正確性に焦点をあてるが、敵の堅牢性の伝達を無視する。 本研究ではまず,転送学習によって対象領域の精度が向上するが,対象モデルのロバスト性は低下することを示す。 このような問題に対処するために,特徴距離最小化によるモデルの事前学習と,対象ドメインタスクに対する非拡張的微調整による事前学習を行うことにより,協調的逆転変換学習(CARTL)を提案する。 実験の結果,CARTLはベースラインとほぼ同等の精度で,遺伝性ロバストネスを約28%向上させることがわかった。 さらに, バッチ正規化(BN)層と転送学習の文脈におけるロバスト性との関係について検討し, 凍ったBN層がロバスト性伝達をさらに促進できることを明らかにする。

Transfer learning eases the burden of training a well-performed model from scratch, especially when training data is scarce and computation power is limited. In deep learning, a typical strategy for transfer learning is to freeze the early layers of a pre-trained model and fine-tune the rest of its layers on the target domain. Previous work focuses on the accuracy of the transferred model but neglects the transfer of adversarial robustness. In this work, we first show that transfer learning improves the accuracy on the target domain but degrades the inherited robustness of the target model. To address such a problem, we propose a novel cooperative adversarially-robust transfer learning (CARTL) by pre-training the model via feature distance minimization and fine-tuning the pre-trained model with non-expansive fine-tuning for target domain tasks. Empirical results show that CARTL improves the inherited robustness by about 28% at most compared with the baseline with the same degree of accuracy. Furthermore, we study the relationship between the batch normalization (BN) layers and the robustness in the context of transfer learning, and we reveal that freezing BN layers can further boost the robustness transfer.
翻訳日:2021-06-20 00:19:23 公開日:2021-06-12
# (参考訳) 不均衡データの感情分析におけるサンプリング法の検討 [全文訳有]

Study of sampling methods in sentiment analysis of imbalanced data ( http://arxiv.org/abs/2106.06673v1 )

ライセンス: CC BY 4.0
Zeeshan Ali Sayyed(参考訳) 本研究では,2つの異なる不均衡データセットに対する感情分析におけるサンプリング手法の適用について検討する。 1つのデータセットには、調理プラットフォームEpicuriousからのオンラインユーザレビューが含まれており、もう1つは、計画された親団体に提供されるコメントが含まれている。 どちらのデータセットでも、関心のクラスはまれである。 単語n-gramはこれらのデータセットの特徴として使われた。 まず,情報ゲインに基づく特徴選択手法を適用し,管理可能な空間への特徴量を削減する。 その後、クラス不均衡問題を緩和するために様々なサンプリング手法が適用され、分析された。

This work investigates the application of sampling methods for sentiment analysis on two different highly imbalanced datasets. One dataset contains online user reviews from the cooking platform Epicurious and the other contains comments given to the Planned Parenthood organization. In both these datasets, the classes of interest are rare. Word n-grams were used as features from these datasets. A feature selection technique based on information gain is first applied to reduce the number of features to a manageable space. A number of different sampling methods were then applied to mitigate the class imbalance problem which are then analyzed.
翻訳日:2021-06-20 00:01:51 公開日:2021-06-12
# (参考訳) 長期的平均制約を伴うマルコフ決定過程 [全文訳有]

Markov Decision Processes with Long-Term Average Constraints ( http://arxiv.org/abs/2106.06680v1 )

ライセンス: CC BY 4.0
Mridul Agarwal, Qinbo Bai, and Vaneet Aggarwal(参考訳) エージェントが一鎖マルコフ決定プロセスと相互作用する制約付きマルコフ決定プロセス(CMDP)の問題を考察する。 全ての相互作用において、エージェントは報酬を得る。 さらに、$K$コスト関数がある。 このエージェントは、長期平均報酬を最大化しつつ、k$の長期平均コストを一定のしきい値よりも低く抑えることを目指している。 本稿では、エージェントがCMDPと対話する最適なポリシーを学習できる後方サンプリングに基づくアルゴリズムであるCMDP-PSRLを提案する。 さらに、$S$状態、$A$アクション、および直径$D$を持つMDPの場合、CMDP-PSRLアルゴリズムに従うと、エージェントは$\Tilde{O}(poly(DSA)\sqrt{T})$で最適ポリシーからの報酬を蓄積しないことを後悔する。 さらに、$K$の制約の違反も$\Tilde{O}(poly(DSA)\sqrt{T})$で制限されていることを示す。 我々の知る限りでは、これは長期平均制約を持つエルゴード MDP に対する $\Tilde{O}(\sqrt{T})$ regret bounds を得る最初の作品である。

We consider the problem of constrained Markov Decision Process (CMDP) where an agent interacts with a unichain Markov Decision Process. At every interaction, the agent obtains a reward. Further, there are $K$ cost functions. The agent aims to maximize the long-term average reward while simultaneously keeping the $K$ long-term average costs lower than a certain threshold. In this paper, we propose CMDP-PSRL, a posterior sampling based algorithm using which the agent can learn optimal policies to interact with the CMDP. Further, for MDP with $S$ states, $A$ actions, and diameter $D$, we prove that following CMDP-PSRL algorithm, the agent can bound the regret of not accumulating rewards from optimal policy by $\Tilde{O}(poly(DSA)\sqrt{T})$. Further, we show that the violations for any of the $K$ constraints is also bounded by $\Tilde{O}(poly(DSA)\sqrt{T})$. To the best of our knowledge, this is the first work which obtains a $\Tilde{O}(\sqrt{T})$ regret bounds for ergodic MDPs with long-term average constraints.
翻訳日:2021-06-19 23:49:33 公開日:2021-06-12
# (参考訳) 事前学習したマルチモーダル表現における多言語フェアネスの評価 [全文訳有]

Assessing Multilingual Fairness in Pre-trained Multimodal Representations ( http://arxiv.org/abs/2106.06683v1 )

ライセンス: CC BY 4.0
Jialu Wang, Yang Liu, Xin Eric Wang(参考訳) 近年、CLIPのような事前訓練されたマルチモーダルモデルは、画像と自然言語を接続する特別な能力で注目を集めている。 英語のテキスト表現は、望ましくは多言語主義に移され、異なる言語のための下流のマルチモーダルタスクをサポートすることができる。 それにもかかわらず、視覚・言語学習における以前のフェアネス談話は主に単言語表現バイアスに焦点を当てており、このマルチモーダルな設定において多言語フェアネスの原則を精査することは滅多にない。 本稿では,個々人の公平さとグループフェアネスの微妙な理解を,言語を公平性の概念の受容者と見なすことによって提供する。 我々は,多言語文脈における新しいフェアネスの概念を定義し,事前学習された視覚・言語表現が言語間で個別に公平であるが,グループフェアネスが保証されないことを解析的に記述する。 さらに,言語間の集団格差や,人種,性別,年齢などの保護グループについて,広範な実験を行った。

Recently pre-trained multimodal models, such as CLIP, have received a surge of attention for their exceptional capabilities towards connecting images and natural language. The textual representations in English can be desirably transferred to multilingualism and support promising downstream multimodal tasks for different languages. Nevertheless, previous fairness discourse in vision-and-language learning mainly focuses on monolingual representational biases, and rarely scrutinizes the principles of multilingual fairness in this multimodal setting, where one language is equated to a group of individuals and images provide the universal grounding for bridging different languages. In this paper, we provide a nuanced understanding of individual fairness and group fairness by viewing language as the recipient of fairness notions. We define new fairness notions within multilingual context and analytically articulate that, pre-trained vision-and-language representations are individually fair across languages but not guaranteed to group fairness. Furthermore, we conduct extensive experiments to explore the prevalent group disparity across languages and protected groups including race, gender and age.
翻訳日:2021-06-19 23:22:36 公開日:2021-06-12
# (参考訳) Fisher-Rao正則化による対向ロバスト性 [全文訳有]

Adversarial Robustness via Fisher-Rao Regularization ( http://arxiv.org/abs/2106.06685v1 )

ライセンス: CC BY 4.0
Marine Picot, Francisco Messina, Malik Boudiaf, Fabrice Labeau, Ismail Ben Ayed, and Pablo Piantanida(参考訳) ニューラルネットワークが脆弱である傾向が観察されたため、敵対的堅牢性は機械学習への関心が高まっている。 本稿では, 対向防御の情報幾何学的定式化と, 自然な入力特徴と摂動入力特徴との測地距離に基づくカテゴリー的クロスエントロピー損失のための新しいフィッシャー・ラオ正規化 FIRE の導入を提案する。 ソフトマックス分布のクラスの情報幾何学的性質に基づいて、二進および多進のケースに対するフィッシャー・ラオ距離(FRD)の明示的な特徴を導出し、いくつかの興味深い特性と標準正規化指標との接続を引き出す。 さらに, 単純線形およびガウス的モデルでは, 精度ロバスト性領域の全てのパレート最適点がFIREによって到達可能である一方で, 他の最先端手法は失敗することを示す。 実験により,提案した標準データセットの損失を学習した各種分類器の性能を評価し,ロバスト性の観点から最大2倍の改善を達成し,最適性能の手法よりも20倍のトレーニング時間を短縮した。

Adversarial robustness has become a topic of growing interest in machine learning since it was observed that neural networks tend to be brittle. We propose an information-geometri c formulation of adversarial defense and introduce FIRE, a new Fisher-Rao regularization for the categorical cross-entropy loss, which is based on the geodesic distance between natural and perturbed input features. Based on the information-geometri c properties of the class of softmax distributions, we derive an explicit characterization of the Fisher-Rao Distance (FRD) for the binary and multiclass cases, and draw some interesting properties as well as connections with standard regularization metrics. Furthermore, for a simple linear and Gaussian model, we show that all Pareto-optimal points in the accuracy-robustness region can be reached by FIRE while other state-of-the-art methods fail. Empirically, we evaluate the performance of various classifiers trained with the proposed loss on standard datasets, showing up to 2\% of improvements in terms of robustness while reducing the training time by 20\% over the best-performing methods.
翻訳日:2021-06-19 23:07:24 公開日:2021-06-12
# (参考訳) BRAIN2DEPTH:脳波記録からの認知状態の分類のための軽量CNNモデル [全文訳有]

BRAIN2DEPTH: Lightweight CNN Model for Classification of Cognitive States from EEG Recordings ( http://arxiv.org/abs/2106.06688v1 )

ライセンス: CC BY 4.0
Pankaj Pandey and Krishna Prasad Miyapuram(参考訳) いくつかの畳み込み深層学習モデルが、いくつかの神経画像領域を用いて認知状態を分類するために提案されている。 これらのモデルは大きな成果を上げているが、数百万のパラメータで設計されているため、トレーニングやテスト時間が長くなり、モデルが複雑になり、リアルタイム分析にはあまり適さない。 本稿では,脳波記録から認知状態を分類するための,簡便で軽量なCNNモデルを提案する。 2段階からなる異なる認知表現を学ぶための新しいパイプラインを開発した。 第1段階は、特定の周波数帯域におけるニューラル時系列信号から2次元スペクトル画像を生成することである。 画像は、隣接する電極と認知事象のスペクトル特性との関係を保存するために生成される。 2つ目は、時間効率、計算量が少なく、高性能なモデルを開発することである。 本研究では,4ブロックからなるネットワークを設計し,性能向上のための標準および深度に関する畳み込みと,時間と性能のトレードオフを維持するパラメータの数を減少させる分離可能な畳み込みを行う。 専門家,非専門家,制御状態からなるオープンアクセス脳波想起データセットについて実験を行った。 6つの機械学習分類器と4つの最先端ディープラーニングモデルとの比較を行った。 他のモデルのパラメータの4\%未満を利用すれば、同等のパフォーマンスを達成できます。 このモデルはneurofeedbackのようなリアルタイム計算環境でも利用できる。

Several Convolutional Deep Learning models have been proposed to classify the cognitive states utilizing several neuro-imaging domains. These models have achieved significant results, but they are heavily designed with millions of parameters, which increases train and test time, making the model complex and less suitable for real-time analysis. This paper proposes a simple, lightweight CNN model to classify cognitive states from Electroencephalograp h (EEG) recordings. We develop a novel pipeline to learn distinct cognitive representation consisting of two stages. The first stage is to generate the 2D spectral images from neural time series signals in a particular frequency band. Images are generated to preserve the relationship between the neighboring electrodes and the spectral property of the cognitive events. The second is to develop a time-efficient, computationally less loaded, and high-performing model. We design a network containing 4 blocks and major components include standard and depth-wise convolution for increasing the performance and followed by separable convolution to decrease the number of parameters which maintains the tradeoff between time and performance. We experiment on open access EEG meditation dataset comprising expert, nonexpert meditative, and control states. We compare performance with six commonly used machine learning classifiers and four state of the art deep learning models. We attain comparable performance utilizing less than 4\% of the parameters of other models. This model can be employed in a real-time computation environment such as neurofeedback.
翻訳日:2021-06-19 22:41:13 公開日:2021-06-12
# (参考訳) Neural Combinatory Constituency Parsing [全文訳有]

Neural Combinatory Constituency Parsing ( http://arxiv.org/abs/2106.06689v1 )

ライセンス: CC BY 4.0
Zhousi Chen, Longtu Zhang, Aizhan Imankulova, and Mamoru Komachi(参考訳) 構成解析のための2つの高速なニューラルコンビネータモデルを提案する。 本モデルでは, ボトムアップ解析プロセスを, 1) タグ, ラベル, バイナリオリエンテーション, チャンクの分類と, 2) 計算した向きやチャンクに基づくベクトル構成に分解する。 これらのモデルは理論的に二次的複雑性と経験的線形複雑性を持つ。 二進法モデルでは、Penn TreebankのF1スコアは92.54であり、1327.2の送信/秒である。 XLNetのどちらのモデルも、ほぼ最先端の英語の精度を提供する。 ペン・ツリーバンク、チャイニーズツリーバンク、キーアキツリーバンク(日本語)の訓練および推論過程において、言語の構文分岐傾向と頭行性が観察される。

We propose two fast neural combinatory models for constituency parsing: binary and multi-branching. Our models decompose the bottom-up parsing process into 1) classification of tags, labels, and binary orientations or chunks and 2) vector composition based on the computed orientations or chunks. These models have theoretical sub-quadratic complexity and empirical linear complexity. The binary model achieves an F1 score of 92.54 on Penn Treebank, speeding at 1327.2 sents/sec. Both the models with XLNet provide near state-of-the-art accuracies for English. Syntactic branching tendency and headedness of a language are observed during the training and inference processes for Penn Treebank, Chinese Treebank, and Keyaki Treebank (Japanese).
翻訳日:2021-06-19 22:31:11 公開日:2021-06-12
# (参考訳) テキスト解釈可能な特徴のマイニングによる深層自然言語処理の解説 [全文訳有]

Explaining the Deep Natural Language Processing by Mining Textual Interpretable Features ( http://arxiv.org/abs/2106.06697v1 )

ライセンス: CC BY 4.0
Francesco Ventura, Salvatore Greco, Daniele Apiletti, Tania Cerquitelli(参考訳) 最先端の深層自然言語モデル(例)によって提供される高い精度にもかかわらず。 LSTM, BERT)は、エンドユーザーにとってブラックボックスのように振る舞うため、実際の設定でのアプリケーションはまだ広く制限されている。 したがって、深層学習アプローチに基づく次世代データ駆動システムの基本要件は、説明可能性によって急速に変化しつつある。 精度と解釈可能性のギャップを埋める試みがいくつかなされている。 しかし、深い自然言語モデルに適した堅牢で特殊なxAI(Explainable Artificial Intelligence)ソリューションはいまだに欠けている。 本稿では,ブラックボックス深層自然言語モデルに合わせた,革新的な予測局所およびクラスベースモデルグローバル説明戦略を提供する,t-ebanoという新しいフレームワークを提案する。 深層NLPモデルとテキスト入力データにより、T-EBAnOは自動意思決定プロセスの背景にある理由を客観的、可読、ドメイン固有の評価を提供する。 具体的には、モデルの内部知識をマイニングする解釈可能な特徴のセットを抽出する。 そして、局所レベルでの新たな正規化摂動影響関係指標と、グローバルレベルでの新しいグローバル絶対影響と、グローバル相対影響指数とを利用して、予測過程における各特徴の影響を定量化する。 i)微調整BERTモデルによる感情分析タスク,(ii)LSTMモデルによる有毒なコメント分類タスクについて,T-EBAnOによる局所的およびグローバル的説明の有効性と品質を検証した。

Despite the high accuracy offered by state-of-the-art deep natural-language models (e.g. LSTM, BERT), their application in real-life settings is still widely limited, as they behave like a black-box to the end-user. Hence, explainability is rapidly becoming a fundamental requirement of future-generation data-driven systems based on deep-learning approaches. Several attempts to fulfill the existing gap between accuracy and interpretability have been done. However, robust and specialized xAI (Explainable Artificial Intelligence) solutions tailored to deep natural-language models are still missing. We propose a new framework, named T-EBAnO, which provides innovative prediction-local and class-based model-global explanation strategies tailored to black-box deep natural-language models. Given a deep NLP model and the textual input data, T-EBAnO provides an objective, human-readable, domain-specific assessment of the reasons behind the automatic decision-making process. Specifically, the framework extracts sets of interpretable features mining the inner knowledge of the model. Then, it quantifies the influence of each feature during the prediction process by exploiting the novel normalized Perturbation Influence Relation index at the local level and the novel Global Absolute Influence and Global Relative Influence indexes at the global level. The effectiveness and the quality of the local and global explanations obtained with T-EBAnO are proved on (i) a sentiment analysis task performed by a fine-tuned BERT model, and (ii) a toxic comment classification task performed by an LSTM model.
翻訳日:2021-06-19 21:37:25 公開日:2021-06-12
# (参考訳) 局所グラフパラメータを持つグラフニューラルネットワーク

Graph Neural Networks with Local Graph Parameters ( http://arxiv.org/abs/2106.06707v1 )

ライセンス: CC BY 4.0
Pablo Barcel\'o and Floris Geerts and Juan Reutter and Maksimilian Ryschkov(参考訳) 最近の様々な提案は、$k$-tuplesの頂点間の機能を伝播することにより、グラフニューラルネットワークGNNの識別能力を高める。 これらの「高次の」GNNの区別力は、$k$-dimensional Weisfeiler-Leman (WL)テストによって制限されていることが知られているが、その$\mathcal O(n^k)$メモリ要件は適用性を制限する。 その他の提案では、GNNから所望の$\mathcal O(n)$メモリ要件を1回、おそらくは非線形の事前処理ステップのコストで継承することで、GNNを最初から高階グラフ構造情報に注入する。 本稿では,後者のアプローチを解析し,wlテストの変種や考慮可能なグラフ構造特性の観点から,その識別力を正確に特徴付けるためのフレームワークとして,gnnを有効とする局所グラフパラメータを提案する。 ローカルグラフパラメータは任意のGNNアーキテクチャに追加可能で、計算に安価である。 表現力の面では、我々の提案はGNNとその上位のネットワークの中間にある。 さらに,適切な局所グラフパラメータを選択するためのいくつかの手法を提案する。 我々の結果は、有限モデル理論と有限変数論理の深い結果とGNNを結びつける。 実験により,局所グラフパラメータの追加は,様々なGNN,データセット,グラフ学習タスクに対して肯定的な効果を示すことが示された。

Various recent proposals increase the distinguishing power of Graph Neural Networks GNNs by propagating features between $k$-tuples of vertices. The distinguishing power of these "higher-order'' GNNs is known to be bounded by the $k$-dimensional Weisfeiler-Leman (WL) test, yet their $\mathcal O(n^k)$ memory requirements limit their applicability. Other proposals infuse GNNs with local higher-order graph structural information from the start, hereby inheriting the desirable $\mathcal O(n)$ memory requirement from GNNs at the cost of a one-time, possibly non-linear, preprocessing step. We propose local graph parameter enabled GNNs as a framework for studying the latter kind of approaches and precisely characterize their distinguishing power, in terms of a variant of the WL test, and in terms of the graph structural properties that they can take into account. Local graph parameters can be added to any GNN architecture, and are cheap to compute. In terms of expressive power, our proposal lies in the middle of GNNs and their higher-order counterparts. Further, we propose several techniques to aide in choosing the right local graph parameters. Our results connect GNNs with deep results in finite model theory and finite variable logics. Our experimental evaluation shows that adding local graph parameters often has a positive effect for a variety of GNNs, datasets and graph learning tasks.
翻訳日:2021-06-19 21:10:43 公開日:2021-06-12
# (参考訳) autoloss:レコメンデーションにおける自動損失関数検索 [全文訳有]

AutoLoss: Automated Loss Function Search in Recommendations ( http://arxiv.org/abs/2106.06713v1 )

ライセンス: CC BY 4.0
Xiangyu Zhao, Haochen Liu, Wenqi Fan, Hui Liu, Jiliang Tang, Chong Wang(参考訳) 効果的な損失関数の設計は、ディープレコメンデータシステムのトレーニングにおいて重要な役割を果たす。 既存の作業の多くは、しばしば事前定義された固定された損失関数を利用して、最適以下の推奨品質とトレーニング効率をもたらす可能性がある。 いくつかの最近の試みは、計算と時間に非常にコストがかかる候補損失関数のグループを融合させるために、徹底的にまたは手動で探索された重みに頼っている。 また、異なるデータ例の様々な収束挙動を無視する。 本研究では,複数の候補から適切な損失関数を自動的にかつ適応的に検索できるautolossフレームワークを提案する。 具体的には、損失確率を動的に微分可能な方法で調整できる新しい制御ネットワークを開発した。 既存のアルゴリズムとは異なり、提案するコントローラは異なるデータ例の損失確率を、それぞれの収束挙動に応じて適応的に生成することができる。 このような設計は、ディープレコメンデータシステムとデータセット間のモデルの一般化性と転送可能性を改善する。 提案するフレームワークを2つのベンチマークデータセットで評価する。 その結果,autolossは代表ベースラインを上回ることがわかった。 転送性、コンポーネント、トレーニング効率など、AutoLossの理解を深めるためのさらなる実験が実施されている。

Designing an effective loss function plays a crucial role in training deep recommender systems. Most existing works often leverage a predefined and fixed loss function that could lead to suboptimal recommendation quality and training efficiency. Some recent efforts rely on exhaustively or manually searched weights to fuse a group of candidate loss functions, which is exceptionally costly in computation and time. They also neglect the various convergence behaviors of different data examples. In this work, we propose an AutoLoss framework that can automatically and adaptively search for the appropriate loss function from a set of candidates. To be specific, we develop a novel controller network, which can dynamically adjust the loss probabilities in a differentiable manner. Unlike existing algorithms, the proposed controller can adaptively generate the loss probabilities for different data examples according to their varied convergence behaviors. Such design improves the model's generalizability and transferability between deep recommender systems and datasets. We evaluate the proposed framework on two benchmark datasets. The results show that AutoLoss outperforms representative baselines. Further experiments have been conducted to deepen our understandings of AutoLoss, including its transferability, components and training efficiency.
翻訳日:2021-06-19 21:09:34 公開日:2021-06-12
# (参考訳) 発話対コヒーレンススコアリングによる教師なし対話トピックセグメンテーションの改善 [全文訳有]

Improving Unsupervised Dialogue Topic Segmentation with Utterance-Pair Coherence Scoring ( http://arxiv.org/abs/2106.06719v1 )

ライセンス: CC BY 4.0
Linzi Xing, Giuseppe Carenini(参考訳) 対話トピックセグメンテーションは、いくつかの対話モデリング問題において重要である。 しかし、一般的な教師なしアプローチは、発話間の話題のコヒーレンスを評価する際にのみ表面的特徴を利用する。 本研究は,発話対ペアのコヒーレンススコアリングタスクからの監視信号を活用することで,この制限に対処する。 まず,発話対ペアコヒーレンススコアのトレーニングコーパスを生成するための簡易かつ効果的な手法を提案する。 そして,得られた学習コーパスを用いて,BERTに基づくニューラル発話対ペアコヒーレンスモデルを訓練する。 最後に、このようなモデルを用いて発話間の話題関係を計測し、セグメンテーション推論の基盤として機能する。 英語と中国語の3つの公開データセットの実験では、私たちの提案は最先端のベースラインよりも優れています。

Dialogue topic segmentation is critical in several dialogue modeling problems. However, popular unsupervised approaches only exploit surface features in assessing topical coherence among utterances. In this work, we address this limitation by leveraging supervisory signals from the utterance-pair coherence scoring task. First, we present a simple yet effective strategy to generate a training corpus for utterance-pair coherence scoring. Then, we train a BERT-based neural utterance-pair coherence model with the obtained training corpus. Finally, such model is used to measure the topical relevance between utterances, acting as the basis of the segmentation inference. Experiments on three public datasets in English and Chinese demonstrate that our proposal outperforms the state-of-the-art baselines.
翻訳日:2021-06-19 20:50:57 公開日:2021-06-12
# (参考訳) BIOPAK Flasher : パキスタンにおけるテキストマイニングによる疫病のモニタリングと検出 [全文訳有]

BIOPAK Flasher: Epidemic disease monitoring and detection in Pakistan using text mining ( http://arxiv.org/abs/2106.06720v1 )

ライセンス: CC BY 4.0
Muhammad Nasir, Maheen Bakhtyar, Junaid Baber, Sadia Lakho, Bilal Ahmed, Waheed Noor(参考訳) 感染症の流行は多くの国で死亡率、死亡率に重大な影響を与え、経済的不安定を招きかねない。 世界貿易が拡大する中で、商品や個人は国境を越えて旅行すると予想されている。 病気の発生が迅速に認識されると、商品や旅行者(商人や旅行者)は効果的にワクチン接種され、病気は止まる。 ここでは、早期感染の発見が重要な役割を担い、市民、公衆衛生機関、政府による規制措置の迅速な実施に留意する。 多くの指標は、オンライン・ニュース・ソース(rss)やソーシャルメディア・ソース(twitter、facebook)といった貴重な情報を持っている。 言語(urdu)とカバーエリア(pakistan)に制限のある早期警告アウトブレイクシステムはほとんど存在しない。 パキスタンでは、アウトブレイクニュースをウルドゥー語や英語で発表するチャンネルは少ない。 目的はパキスタンの英語とウルドゥー語のニュースチャンネルから情報を入手し、病気の流行の過程を調査し、統合し、可視化することである。 ウルドゥーオントロジーは、抽出された疾患にマッチする以前に存在せず、病のオントロジーも構築する。

Infectious disease outbreak has a significant impact on morbidity, mortality and can cause economic instability of many countries. As global trade is growing, goods and individuals are expected to travel across the border, an infected epidemic area carrier can pose a great danger to his hostile. If a disease outbreak is recognized promptly, then commercial products and travelers (traders/visitors) will be effectively vaccinated, and therefore the disease stopped. Early detection of outbreaks plays an important role here, and beware of the rapid implementation of control measures by citizens, public health organizations, and government. Many indicators have valuable information, such as online news sources (RSS) and social media sources (Twitter, Facebook) that can be used, but are unstructured and bulky, to extract information about disease outbreaks. Few early warning outbreak systems exist with some limitation of linguistic (Urdu) and covering areas (Pakistan). In Pakistan, few channels are published the outbreak news in Urdu or English. The aim is to procure information from Pakistan's English and Urdu news channels and then investigate process, integrate, and visualize the disease epidemic. Urdu ontology is not existed before to match extracted diseases, so we also build that ontology of disease.
翻訳日:2021-06-19 20:35:42 公開日:2021-06-12
# (参考訳) LE-NAS: 線量予測のためのNASを用いた学習用エンセンブル [全文訳有]

LE-NAS: Learning-based Ensenble with NAS for Dose Prediction ( http://arxiv.org/abs/2106.06733v1 )

ライセンス: CC BY 4.0
Yi Lin, Yanfei Liu, Jingguang Liu, Guocai Liu, Kai Ma, Yefeng Zheng(参考訳) 放射線治療の治療計画は複雑なプロセスであり、標的線量処方と正常組織スペアリングは相反する目的である。 放射線治療計画のための自動的かつ正確な線量予測が要求されている。 本研究では,3次元放射線照射量予測のための知識蒸留とニューラルアーキテクチャ探索(NAS)を統合した新しい学習ベースアンサンブル手法LE-NASを提案する。 具体的には、予測ネットワークがまず、巨大なアーキテクチャ空間から各ブロックを徹底的に検索する。 そして、有望なパフォーマンスと多様性によって複数のアーキテクチャが選択される。 推論時間を短縮するために,複数の検索ネットワークからの多様なアウトプットの組み合わせを教師-学生のネットワークトレーニングの指針として活用する。 さらに,教師ネットワークの知識を回復するために,生徒ネットワークの最適化に逆学習を適用した。 我々の知識を最大限に活用するために,我々はNASと知識蒸留の組み合わせを初めて調査する。 提案手法は,OpenKBPデータセット上で評価され,提案手法の有効性と最先端手法に優れた性能を示す実験結果が得られた。

Radiation therapy treatment planning is a complex process, as the target dose prescription and normal tissue sparing are conflicting objectives. Automated and accurate dose prediction for radiation therapy planning is in high demand. In this study, we propose a novel learning-based ensemble approach, named LE-NAS, which integrates neural architecture search (NAS) with knowledge distillation for 3D radiotherapy dose prediction. Specifically, the prediction network first exhaustively searches each block from enormous architecture space. Then, multiple architectures are selected with promising performance and diversity. To reduce the inference time, we adopt the teacher-student paradigm by treating the combination of diverse outputs from multiple searched networks as supervisions to guide the student network training. In addition, we apply adversarial learning to optimize the student network to recover the knowledge in teacher networks. To the best of our knowledge, we are the first to investigate the combination of NAS and knowledge distillation. The proposed method has been evaluated on the public OpenKBP dataset, and experimental results demonstrate the effectiveness of our method and its superior performance to the state-of-the-art method.
翻訳日:2021-06-19 20:25:53 公開日:2021-06-12
# (参考訳) 視聴覚イベント認識のためのマルチレベルアテンション融合ネットワーク [全文訳有]

Multi-level Attention Fusion Network for Audio-visual Event Recognition ( http://arxiv.org/abs/2106.06736v1 )

ライセンス: CC BY 4.0
Mathilde Brousmiche and Jean Rouat and St\'ephane Dupont(参考訳) イベント分類は本質的にシーケンシャルかつマルチモーダルである。 したがって、ディープニューラルモデルは、ビデオの最も関連する時間ウィンドウと/またはモダリティに動的に焦点を合わせる必要がある。 本研究では,イベント認識のための視覚情報と音声情報を動的に融合するアーキテクチャであるマルチレベル注意融合ネットワーク(MAFnet)を提案する。 神経科学の先行研究に触発されて、視覚と聴覚の異なるレベルで2つのモダリティを結合した。 さらに、ネットワークは、イベントの分類に関連する所定の時間ウィンドウのモダリティを動的に強調する。 AVE(Audio-Visual Event)、UCF51、Kinetics-Soundsデータセットによる実験結果から、この手法は音声・視覚イベント分類の精度を効果的に向上できることが示された。 https://github.com/n umediart/mafnet

Event classification is inherently sequential and multimodal. Therefore, deep neural models need to dynamically focus on the most relevant time window and/or modality of a video. In this study, we propose the Multi-level Attention Fusion network (MAFnet), an architecture that can dynamically fuse visual and audio information for event recognition. Inspired by prior studies in neuroscience, we couple both modalities at different levels of visual and audio paths. Furthermore, the network dynamically highlights a modality at a given time window relevant to classify events. Experimental results in AVE (Audio-Visual Event), UCF51, and Kinetics-Sounds datasets show that the approach can effectively improve the accuracy in audio-visual event classification. Code is available at: https://github.com/n umediart/MAFnet
翻訳日:2021-06-19 20:16:05 公開日:2021-06-12
# (参考訳) 特許データベースからのエンジニアリング知識グラフ

Engineering Knowledge Graph from Patent Database ( http://arxiv.org/abs/2106.06739v1 )

ライセンス: CC BY 4.0
L Siddharth, Lucienne T.M. Blessing, Kristin L. Wood, Jianxi Luo(参考訳) 我々は,特許データベースにある実世界の工学的事実である(エンティティ,関係,実体)三つ組からなる,大規模でスケーラブルなエンジニアリング知識グラフを提案する。 我々は,クレームの構文的および語彙的性質に基づく一連の規則を特許文書に適用し,事実を抽出する。 各特許文書にこれらの事実を集約し、特許データベース全体にわたる事実の集合を統合し、エンジニアリング知識グラフを得る。 このような知識グラフは、様々なエンジニアリングタスクにおける推論、推論、リコールをサポートすることが期待されている。 知識グラフは、工学文献における知識グラフやセマンティックネットワークと比較して、より大きなサイズとカバレッジを持つ。

We propose a large, scalable engineering knowledge graph, comprising sets of (entity, relationship, entity) triples that are real-world engineering facts found in the patent database. We apply a set of rules based on the syntactic and lexical properties of claims in a patent document to extract facts. We aggregate these facts within each patent document and integrate the aggregated sets of facts across the patent database to obtain the engineering knowledge graph. Such a knowledge graph is expected to support inference, reasoning, and recalling in various engineering tasks. The knowledge graph has a greater size and coverage in comparison with the previously used knowledge graphs and semantic networks in the engineering literature.
翻訳日:2021-06-19 19:59:58 公開日:2021-06-12
# (参考訳) マルコフデータを用いた分布ロバスト最適化 [全文訳有]

Distributionally Robust Optimization with Markovian Data ( http://arxiv.org/abs/2106.06741v1 )

ライセンス: CC BY 4.0
Mengmeng Li, Tobias Sutter, Daniel Kuhn(参考訳) 未知問題パラメータの確率分布が未知であり、非未知のマルコフ連鎖によって生成される有限個の相関サンプルを通して間接的に観測される確率的プログラムについて検討した。 本稿では,問題の目的関数と最適解を推定するために,データ駆動型分散ロバスト最適化モデルを提案する。 大偏差理論の結果を利用することで、これらの推定器の品質に関する統計的保証を導出する。 最悪の予測問題は非凸であり、$\mathcal O(d^2)$決定変数を含む。 したがって、大きな$d$では効率的に解決できない。 この問題の構造を利用して、凸方向フィニングサブプロブレムを$\mathcal O(d)$でカスタマイズしたFrank-Wolfeアルゴリズムを考案する。 このアルゴリズムは穏やかな条件下で効率的に定常点を求める。 この方法の効率は、二重改質により可能となる次元の低減に比例する。 数値実験の結果,本手法は最先端手法よりも優れた計算特性と統計特性を有することがわかった。

We study a stochastic program where the probability distribution of the uncertain problem parameters is unknown and only indirectly observed via finitely many correlated samples generated by an unknown Markov chain with $d$ states. We propose a data-driven distributionally robust optimization model to estimate the problem's objective function and optimal solution. By leveraging results from large deviations theory, we derive statistical guarantees on the quality of these estimators. The underlying worst-case expectation problem is nonconvex and involves $\mathcal O(d^2)$ decision variables. Thus, it cannot be solved efficiently for large $d$. By exploiting the structure of this problem, we devise a customized Frank-Wolfe algorithm with convex direction-finding subproblems of size $\mathcal O(d)$. We prove that this algorithm finds a stationary point efficiently under mild conditions. The efficiency of the method is predicated on a dimensionality reduction enabled by a dual reformulation. Numerical experiments indicate that our approach has better computational and statistical properties than the state-of-the-art methods.
翻訳日:2021-06-19 19:59:04 公開日:2021-06-12
# (参考訳) 関節MRI再建と超解像のためのタスクトランスネットワーク [全文訳有]

Task Transformer Network for Joint MRI Reconstruction and Super-Resolution ( http://arxiv.org/abs/2106.06742v1 )

ライセンス: CC BY 4.0
Chun-Mei Feng, Yunlu Yan, Huazhu Fu, Li Chen, and Yong Xu(参考訳) 磁気共鳴イメージング(MRI)の中核的な問題は、加速度と画質のトレードオフである。 画像再構成と超解像は磁気共鳴イメージング(MRI)において2つの重要な技術である。 現在の手法はこれらのタスクを個別に実行するように設計されている。 本研究では,mriデータから高画質,高分解能,高分解能,高分解能画像を実現するために,複数のタスク間で表現と特徴伝達を共有できる,関節mri再構成と超解像のためのエンドツーエンドタスクトランスフォーマネットワーク(t$^2$net)を提案する。 本フレームワークでは,2つのサブブランチに分割し,その特徴をクエリとキーとして表現する。 具体的には,2つのタスク間の共同特徴学習を奨励し,正確なタスク情報を伝達する。 まず2つのCNNブランチを使用してタスク固有の特徴を抽出する。 次に、タスク変換モジュールを2つのタスク間の関連性を埋め込んで合成するように設計する。 実験結果から,我々のマルチタスクモデルは,定量的および定性的に,高度な逐次手法よりも優れていた。

The core problem of Magnetic Resonance Imaging (MRI) is the trade off between acceleration and image quality. Image reconstruction and super-resolution are two crucial techniques in Magnetic Resonance Imaging (MRI). Current methods are designed to perform these tasks separately, ignoring the correlations between them. In this work, we propose an end-to-end task transformer network (T$^2$Net) for joint MRI reconstruction and super-resolution, which allows representations and feature transmission to be shared between multiple task to achieve higher-quality, super-resolved and motion-artifacts-fre e images from highly undersampled and degenerated MRI data. Our framework combines both reconstruction and super-resolution, divided into two sub-branches, whose features are expressed as queries and keys. Specifically, we encourage joint feature learning between the two tasks, thereby transferring accurate task information. We first use two separate CNN branches to extract task-specific features. Then, a task transformer module is designed to embed and synthesize the relevance between the two tasks. Experimental results show that our multi-task model significantly outperforms advanced sequential methods, both quantitatively and qualitatively.
翻訳日:2021-06-19 19:20:28 公開日:2021-06-12
# (参考訳) 適応勾配降下から確率勾配降下へのスケーリング遷移の低減 [全文訳有]

Decreasing scaling transition from adaptive gradient descent to stochastic gradient descent ( http://arxiv.org/abs/2106.06749v1 )

ライセンス: CC BY 4.0
Kun Zeng, Jinlan Liu, Zhixia Jiang, Dongpo Xu(参考訳) 現在、AdaGrad、RMSProp、Adam、AmsGradなどの適応勾配降下アルゴリズムとその変種が提案されている。 これらのアルゴリズムは、初期の段階では高速であるが、後期の訓練における一般化能力は、確率的勾配降下ほど良くないことが多い。 近年,適応勾配降下と確率勾配降下を組み合わせる研究が行われ,両者の利点が得られ,良好な結果が得られた。 本研究では,適応勾配降下法から確率勾配降下法(DSTAda)へのスケーリング遷移を減少させる手法を提案する。 確率勾配降下の訓練段階では,一定の学習率ではなく,反復回数に比例して線形に減少する学習率を用いる。 適応勾配降下からスケールによる確率勾配降下への滑らかで安定な遷移を実現する。 同時に,オンライン学習の枠組みの下でdstadaの収束を理論的に証明する。 実験の結果,DSTAdaアルゴリズムはより高速な収束速度,高い精度,安定性,堅牢性を有することがわかった。 私たちの実装は、https://github.com/k unzeng/DSTAdam.comで利用可能です。

Currently, researchers have proposed the adaptive gradient descent algorithm and its variants, such as AdaGrad, RMSProp, Adam, AmsGrad, etc. Although these algorithms have a faster speed in the early stage, the generalization ability in the later stage of training is often not as good as the stochastic gradient descent. Recently, some researchers have combined the adaptive gradient descent and stochastic gradient descent to obtain the advantages of both and achieved good results. Based on this research, we propose a decreasing scaling transition from adaptive gradient descent to stochastic gradient descent method(DSTAda). For the training stage of the stochastic gradient descent, we use a learning rate that decreases linearly with the number of iterations instead of a constant learning rate. We achieve a smooth and stable transition from adaptive gradient descent to stochastic gradient descent through scaling. At the same time, we give a theoretical proof of the convergence of DSTAda under the framework of online learning. Our experimental results show that the DSTAda algorithm has a faster convergence speed, higher accuracy, and better stability and robustness. Our implementation is available at: https://github.com/k unzeng/DSTAdam.
翻訳日:2021-06-19 19:08:51 公開日:2021-06-12
# (参考訳) 運動量確率勾配降下から平滑確率勾配降下へのスケーリング遷移 [全文訳有]

Scaling transition from momentum stochastic gradient descent to plain stochastic gradient descent ( http://arxiv.org/abs/2106.06753v1 )

ライセンス: CC BY 4.0
Kun Zeng, Jinlan Liu, Zhixia Jiang, Dongpo Xu(参考訳) 平易な確率勾配降下と運動量確率勾配降下は、その単純な設定と計算複雑性の低さから、ディープラーニングにおいて非常に広く応用されている。 運動量確率勾配降下は、累積勾配を現在のパラメータの更新方向として使用し、より高速なトレーニング速度を持つ。 平面確率勾配勾配の方向は, 累積勾配によって補正されていない。 現在更新する必要があるパラメータに対して、それは最適な方向であり、その更新はより正確である。 本研究では,運動量確率勾配降下と高速訓練速度,平滑確率勾配降下の利点を高精度に組み合わせ,運動量確率勾配降下から平滑確率勾配降下(tsgd)へのスケーリング遷移を提案する。 同時に、繰り返しとともに線形に減少する学習率を、一定の学習率の代わりに使用する。 TSGDアルゴリズムは、トレーニングを高速化するために初期段階においてより大きなステップサイズを持ち、後期段階においてより小さなステップサイズでのトレーニングは着実に収束する。 実験の結果,TSGDアルゴリズムは学習速度が向上し,精度が向上し,安定性が向上した。 私たちの実装は、https://github.com/k unzeng/TSGD.comで利用可能です。

The plain stochastic gradient descent and momentum stochastic gradient descent have extremely wide applications in deep learning due to their simple settings and low computational complexity. The momentum stochastic gradient descent uses the accumulated gradient as the updated direction of the current parameters, which has a faster training speed. Because the direction of the plain stochastic gradient descent has not been corrected by the accumulated gradient. For the parameters that currently need to be updated, it is the optimal direction, and its update is more accurate. We combine the advantages of the momentum stochastic gradient descent with fast training speed and the plain stochastic gradient descent with high accuracy, and propose a scaling transition from momentum stochastic gradient descent to plain stochastic gradient descent(TSGD) method. At the same time, a learning rate that decreases linearly with the iterations is used instead of a constant learning rate. The TSGD algorithm has a larger step size in the early stage to speed up the training, and training with a smaller step size in the later stage can steadily converge. Our experimental results show that the TSGD algorithm has faster training speed, higher accuracy and better stability. Our implementation is available at: https://github.com/k unzeng/TSGD.
翻訳日:2021-06-19 18:33:31 公開日:2021-06-12
# (参考訳) データ配信サービスにおけるプライバシー保護型深層学習型ネットワーク侵入検出に向けて [全文訳有]

Towards a Privacy-preserving Deep Learning-based Network Intrusion Detection in Data Distribution Services ( http://arxiv.org/abs/2106.06765v1 )

ライセンス: CC BY 4.0
Stanislav Abaimov(参考訳) Data Distribution Service(DDS)は、ICS/IoTインフラストラクチャとロボティクスにおけるコミュニケーションに向けた革新的なアプローチである。 コンピュータ化されたデバイスに適用可能なクロスプラットフォームかつクロス言語apiをベースとしているため、現代的なプログラミング言語のメリットと、より複雑で高度なシステムを開発する機会を提供する。 しかし、DDSの複雑さは脆弱性を均等に増加させ、既存のセキュリティ対策はプラグインと静的ルールに限定され、残りのセキュリティはサードパーティのアプリケーションとオペレーティングシステムによって提供される。 具体的には、従来の侵入検知システム(IDS)はパブリッシュ/サブスクライブ方式の異常を検知しない。 指数関数的に増加するグローバル通信交換により、DDSの確保は、将来の産業、公共、さらには個人機器やシステムを保護する上で最も重要である。 本報告では,DDSに対する特定の攻撃のシミュレーションと,その検出にDeep Learningを適用した実験を行った。 その結果、Deep Learningはメタデータ分析のみを使用してシミュレーションされた攻撃を検出できるが、検出レベルは様々であり、いくつかの高度な攻撃は検出が難しい。 プライバシー保護の試みによって課された制限は、検出率を著しく低下させた。 報告書はまた、Deep Learningアプローチの欠点と制限をレビューし、DDSのセキュリティをさらに改善できる、選択されたソリューションと設定のセットを提案する。

Data Distribution Service (DDS) is an innovative approach towards communication in ICS/IoT infrastructure and robotics. Being based on the cross-platform and cross-language API to be applicable in any computerised device, it offers the benefits of modern programming languages and the opportunities to develop more complex and advanced systems. However, the DDS complexity equally increases its vulnerability, while the existing security measures are limited to plug-ins and static rules, with the rest of the security provided by third-party applications and operating system. Specifically, traditional intrusion detection systems (IDS) do not detect any anomalies in the publish/subscribe method. With the exponentially growing global communication exchange, securing DDS is of the utmost importance to futureproofing industrial, public, and even personal devices and systems. This report presents an experimental work on the simulation of several specific attacks against DDS, and the application of Deep Learning for their detection. The findings show that even though Deep Learning allows to detect all simulated attacks using only metadata analysis, their detection level varies, with some of the advanced attacks being harder to detect. The limitations imposed by the attempts to preserve privacy significantly decrease the detection rate. The report also reviews the drawbacks and limitations of the Deep Learning approach and proposes a set of selected solutions and configurations, that can further improve the DDS security.
翻訳日:2021-06-19 18:20:38 公開日:2021-06-12
# (参考訳) 多言語埋め込みに基づく文書・文アライメント改善のための並列コーパスの展開 [全文訳有]

Exploiting Parallel Corpora to Improve Multilingual Embedding based Document and Sentence Alignment ( http://arxiv.org/abs/2106.06766v1 )

ライセンス: CC BY 4.0
Dilan Sachintha, Lakmali Piyarathna, Charith Rajitha, Surangika Ranathunga(参考訳) 多言語文表現は、単独でモノリンガルモデルを構築するのに十分なデータを持たない低リソース言語に対して大きな利点をもたらす。 これらの多言語文表現は文書や文のアライメントについてはほとんど研究されていない。 しかし、低リソース言語のほとんどは、これらの事前訓練されたモデルでは表現されていない。 したがって、低リソース言語の場合、これらのモデルは、追加のデータソースを使用して、手作業のために微調整される必要がある。 本稿では,文書・文アライメントにおける多言語文表現の性能向上のために,小型並列コーパスを用いた重み付け機構を提案する。 SinhalaとTamilの2つの低リソース言語に関する実験が行われている。 新たに作成されたSinhala- English,Tamil- English,Sinhala-Tami lのデータセットの結果から,この新たな重み付け機構は文書のアライメントと文のアライメントを大幅に改善することが示された。 このデータセットとソースコードは公開されています。

Multilingual sentence representations pose a great advantage for low-resource languages that do not have enough data to build monolingual models on their own. These multilingual sentence representations have been separately exploited by few research for document and sentence alignment. However, most of the low-resource languages are under-represented in these pre-trained models. Thus, in the context of low-resource languages, these models have to be fine-tuned for the task at hand, using additional data sources. This paper presents a weighting mechanism that makes use of available small-scale parallel corpora to improve the performance of multilingual sentence representations on document and sentence alignment. Experiments are conducted with respect to two low-resource languages, Sinhala and Tamil. Results on a newly created dataset of Sinhala-English, Tamil-English, and Sinhala-Tamil show that this new weighting mechanism significantly improves both document and sentence alignment. This dataset, as well as the source-code, is publicly released.
翻訳日:2021-06-19 18:02:10 公開日:2021-06-12
# (参考訳) 線形化ニューラルネットワークは一般化について実際に何が言えるのか? [全文訳有]

What can linearized neural networks actually say about generalization? ( http://arxiv.org/abs/2106.06770v1 )

ライセンス: CC BY 4.0
Guillermo Ortiz-Jim\'enez, Seyed-Mohsen Moosavi-Dezfooli, Pascal Frossard(参考訳) ある無限大のニューラルネットワークに対して、神経接核(英語版)(ntk)理論は一般化を完全に特徴づける。 しかし、実際に使用されるネットワークでは、経験的ntkはこれらのアーキテクチャの粗い一階近似のみを表している。 それでも、この近似を利用して重要なディープラーニング現象を分析し、新しい応用のためにアルゴリズムを導出する作業が増えている。 本研究は,異なるニューラルネットワークの振る舞いと異なるタスクにおける線形近似の系統的比較を行い,そのような近似の実用的妥当性を決定するための強力な実証的証拠を提供する。 線形近似は、重要なニュアンスがあるにもかかわらず、ニューラルネットワークの特定のタスクの学習複雑性をランク付けできることを示す。 具体的には、従来観測されていたものとは対照的に、ニューラルネットワークが常にカーネル近似よりも優れたパフォーマンスを示すとは限らないことを見出し、そのパフォーマンスギャップがアーキテクチャやサンプル数、トレーニングタスクに大きく依存していることを明らかにする。 実際、トレーニング中、ディープネットワークは、実験的なNTKと目標タスクとの整合性を高めることが示され、トレーニング終了時の線形近似がディープネットワークのダイナミクスをよりよく説明できる理由が説明できる。 本研究は,今後の理論的研究を刺激する新たな深層学習現象の具体例を提供するとともに,深層学習におけるNTK近似の利用に関する新たな視点を提供する。

For certain infinitely-wide neural networks, the neural tangent kernel (NTK) theory fully characterizes generalization. However, for the networks used in practice, the empirical NTK represents only a rough first-order approximation of these architectures. Still, a growing body of work keeps leveraging this approximation to successfully analyze important deep learning phenomena and derive algorithms for new applications. In our work, we provide strong empirical evidence to determine the practical validity of such approximation by conducting a systematic comparison of the behaviour of different neural networks and their linear approximations on different tasks. We show that the linear approximations can indeed rank the learning complexity of certain tasks for neural networks, albeit with important nuances. Specifically, we discover that, in contrast to what was previously observed, neural networks do not always perform better than their kernel approximations, and reveal that their performance gap heavily depends on architecture, number of samples and training task. In fact, we show that during training, deep networks increase the alignment of their empirical NTK with the target task, which explains why linear approximations at the end of training can better explain the dynamics of deep networks. Overall, our work provides concrete examples of novel deep learning phenomena which can inspire future theoretical research, as well as provides a new perspective on the use of the NTK approximation in deep learning.
翻訳日:2021-06-19 17:47:30 公開日:2021-06-12
# (参考訳) 教師なし表面検査のためのワンショットテクスチャ知覚生成逆ネットワーク [全文訳有]

A One-Shot Texture-Perceiving Generative Adversarial Network for Unsupervised Surface Inspection ( http://arxiv.org/abs/2106.06792v1 )

ライセンス: CC BY 4.0
Lingyun Gu, Lin Zhang, Zhaokui Wang(参考訳) 視覚表面検査は、標的表面や欠陥領域の外観が多様であるため、難しい課題である。 以前の試みは、マニュアルアノテーションを使った大量のトレーニング例に大きく依存していた。 しかし, 実用上, 検査用サンプルを多数入手することは困難である。 これに対抗するために, 教師なし方式で一発画像から学習した階層的テクスチャ知覚生成対向ネットワーク (HTP-GAN) を提案する。 具体的には、HTP-GANは、大域構造と画像の微細な表現を同時に捉えることができる、畳み込み型GANのピラミッドを含んでいる。 この革新は、欠陥曲面領域と通常の領域を区別するのに役立つ。 また、判別器では、方位畳み込みによって正規画像の空間不変表現を捉えるためにテクスチャ知覚モジュールが考案され、欠陥領域に対してより敏感になる。 各種データセットを用いた実験により,本手法の有効性を一貫して実証した。

Visual surface inspection is a challenging task owing to the highly diverse appearance of target surfaces and defective regions. Previous attempts heavily rely on vast quantities of training examples with manual annotation. However, in some practical cases, it is difficult to obtain a large number of samples for inspection. To combat it, we propose a hierarchical texture-perceiving generative adversarial network (HTP-GAN) that is learned from the one-shot normal image in an unsupervised scheme. Specifically, the HTP-GAN contains a pyramid of convolutional GANs that can capture the global structure and fine-grained representation of an image simultaneously. This innovation helps distinguishing defective surface regions from normal ones. In addition, in the discriminator, a texture-perceiving module is devised to capture the spatially invariant representation of normal image via directional convolutions, making it more sensitive to defective areas. Experiments on a variety of datasets consistently demonstrate the effectiveness of our method.
翻訳日:2021-06-19 17:25:11 公開日:2021-06-12
# (参考訳) 限定データを用いた知識統合型授業インクリメンタルオンライン学習 [全文訳有]

Knowledge Consolidation based Class Incremental Online Learning with Limited Data ( http://arxiv.org/abs/2106.06795v1 )

ライセンス: CC BY 4.0
Mohammed Asad Karim, Vinay Kumar Verma, Pravendra Singh, Vinay Namboodiri, Piyush Rai(参考訳) 本稿では,限定的なデータ環境下での授業段階的なオンライン学習のための新しい手法を提案する。 1)クラスを段階的に与えること,(2)各クラスのデータはオンライン形式で与えられること,すなわち,トレーニング中に各トレーニングサンプルが1回だけ見られること,(3)各クラスにはトレーニングサンプルが極めて少ないこと,(4)以前のクラスからデータを格納するためにリプレイ/メモリにアクセスできないこと,などが,これらの制約により課題となっている。 したがって、この設定では、破滅的な忘れと過度な適合という2つの問題に対処しなければならない。 提案手法では,広範囲に一般化可能なロバスト表現を学習し,限られたサンプルで将来のクラスに対応するために,破滅的な忘れや過剰さの問題に苦しむことなく学習する。 提案手法は知識統合型メタラーニングフレームワークを活用する。 メタラーニングフレームワークは、サンプルがオンライン形式で現れるときの迅速な学習モデルを支援する。 同時に、知識の統合は、将来の学習を促進するために、オンライン更新の下で忘れることに対する堅牢な表現を学ぶのに役立つ。 我々の手法は、いくつかのベンチマークで他の手法よりも大幅に優れています。

We propose a novel approach for class incremental online learning in a limited data setting. This problem setting is challenging because of the following constraints: (1) Classes are given incrementally, which necessitates a class incremental learning approach; (2) Data for each class is given in an online fashion, i.e., each training example is seen only once during training; (3) Each class has very few training examples; and (4) We do not use or assume access to any replay/memory to store data from previous classes. Therefore, in this setting, we have to handle twofold problems of catastrophic forgetting and overfitting. In our approach, we learn robust representations that are generalizable across tasks without suffering from the problems of catastrophic forgetting and overfitting to accommodate future classes with limited samples. Our proposed method leverages the meta-learning framework with knowledge consolidation. The meta-learning framework helps the model for rapid learning when samples appear in an online fashion. Simultaneously, knowledge consolidation helps to learn a robust representation against forgetting under online updates to facilitate future learning. Our approach significantly outperforms other methods on several benchmarks.
翻訳日:2021-06-19 17:17:40 公開日:2021-06-12
# (参考訳) Zero-Cost Proxiesがアーキテクチャ検索を差別化 [全文訳有]

Zero-Cost Proxies Meet Differentiable Architecture Search ( http://arxiv.org/abs/2106.06799v1 )

ライセンス: CC BY 4.0
Lichuan Xiang, {\L}ukasz Dudziak, Mohamed S. Abdelfattah, Thomas Chau, Nicholas D. Lane, Hongkai Wen(参考訳) 微分可能なニューラルネットワーク検索(英語版)(nas)は、非常に大きな検索空間でもディープニューラルネットワークの有望なアーキテクチャを素早く発見する能力を持つため、近年注目を集めている。 その成功にもかかわらず、DARTSは一部のケースでは堅牢性に欠ける。 スキップ接続やランダムノイズのような過度なパラメトリックフリーな操作を持つ自明なアーキテクチャに縮退し、パフォーマンスが低下する可能性がある。 特に、最近、アーキテクチャパラメータの規模に基づく操作選択は、この側面を再考する必要性を示す根本的な誤りであることが証明された。 一方、ゼロコストのプロキシは、最近サンプルベースのnasが有望な結果を示している状況で研究されている。 本稿では,ゼロコストプロキシを利用する微分可能なnasの文脈において,新しい操作選択パラダイムを提案する。 我々の摂動型ゼロコスト操作選択(zero-cost-pt)は,検索空間サイズに関わらず,最良な差別化可能なアーキテクチャ検索に比べて検索時間と精度が向上する。 具体的には、DARTS CNNの検索空間でDARTS-PTに匹敵するアーキテクチャを40倍以上高速(単一のGPUで25分)で見つけることができる。

Differentiable neural architecture search (NAS) has attracted significant attention in recent years due to its ability to quickly discover promising architectures of deep neural networks even in very large search spaces. Despite its success, DARTS lacks robustness in certain cases, e.g. it may degenerate to trivial architectures with excessive parametric-free operations such as skip connection or random noise, leading to inferior performance. In particular, operation selection based on the magnitude of architectural parameters was recently proven to be fundamentally wrong showcasing the need to rethink this aspect. On the other hand, zero-cost proxies have been recently studied in the context of sample-based NAS showing promising results -- speeding up the search process drastically in some cases but also failing on some of the large search spaces typical for differentiable NAS. In this work we propose a novel operation selection paradigm in the context of differentiable NAS which utilises zero-cost proxies. Our perturbation-based zero-cost operation selection (Zero-Cost-PT) improves searching time and, in many cases, accuracy compared to the best available differentiable architecture search, regardless of the search space size. Specifically, we are able to find comparable architectures to DARTS-PT on the DARTS CNN search space while being over 40x faster (total searching time 25 minutes on a single GPU).
翻訳日:2021-06-19 16:59:13 公開日:2021-06-12
# (参考訳) 2次元医用画像分割のためのコントラスト半監督学習 [全文訳有]

Contrastive Semi-Supervised Learning for 2D Medical Image Segmentation ( http://arxiv.org/abs/2106.06801v1 )

ライセンス: CC BY 4.0
Prashant Pandey, Ajey Pai, Nisarg Bhatt, Prasenjit Das, Govind Makharia, Prathosh AP, Mausam(参考訳) Contrastive Learning (CL) は、画像表現におけるクラス間分離性とクラス内コンパクト性を促進することによって、有望な結果を得る、最近の表現学習手法である。 医用画像は画像毎に複数の関心クラスを含むことが多いため、標準的な画像レベルのCLは適用できない。 本研究では,全画像ではなくclを画像パッチに適用する,半教師付き2次元医療セグメンテーションソリューションを提案する。 これらのパッチは疑似ラベリングによって得られた異なるクラスの意味情報を用いて意味的に構築される。 また,コントラスト学習と相乗的に機能する新しい一貫性正規化スキームを提案する。 半教師付き設定でよく見られる確認バイアスの問題に対処し、機能領域におけるより良いクラスタリングを促進する。 提案手法は,提案する新しい病理組織学データセットとともに,4つの公衆医療セグメンテーションデータセット上で評価する。 本手法は,全データセットに対する最先端半教師付きセグメンテーション手法に対する一貫した改善を実現する。

Contrastive Learning (CL) is a recent representation learning approach, which achieves promising results by encouraging inter-class separability and intra-class compactness in learned image representations. Because medical images often contain multiple classes of interest per image, a standard image-level CL for these images is not applicable. In this work, we present a novel semi-supervised 2D medical segmentation solution that applies CL on image patches, instead of full images. These patches are meaningfully constructed using the semantic information of different classes obtained via pseudo labeling. We also propose a novel consistency regularization scheme, which works in synergy with contrastive learning. It addresses the problem of confirmation bias often observed in semi-supervised settings, and encourages better clustering in the feature space. We evaluate our method on four public medical segmentation datasets along with a novel histopathology dataset that we introduce. Our method obtains consistent improvements over the state-of-the-art semi-supervised segmentation approaches for all datasets.
翻訳日:2021-06-19 16:35:19 公開日:2021-06-12
# (参考訳) 木に基づくアンサンブル手法による南アフリカの高等教育スループットの予測 [全文訳有]

Predicting Higher Education Throughput in South Africa Using a Tree-Based Ensemble Technique ( http://arxiv.org/abs/2106.06805v1 )

ライセンス: CC BY 4.0
Rendani Mbuvha, Patience Zondo, Aluwani Mauda, Tshilidzi Marwala(参考訳) 南アフリカの大学では、勾配向上機とロジスティック回帰を用いて、学術的なスループットを予測する。 その結果,スループットの予測因子としての社会経済的要因と研究分野の有意義な影響が明らかになった。 さらに, 完成までの時間とともに, 社会経済的要因は, 研究分野に対する予測因子よりも少ないものとなることを見出した。 我々は、学術的、精神社会的、財政的な支援を含む、特定された効果に対処するための介入を推奨する。

We use gradient boosting machines and logistic regression to predict academic throughput at a South African university. The results highlight the significant influence of socio-economic factors and field of study as predictors of throughput. We further find that socio-economic factors become less of a predictor relative to the field of study as the time to completion increases. We provide recommendations on interventions to counteract the identified effects, which include academic, psychosocial and financial support.
翻訳日:2021-06-19 16:24:44 公開日:2021-06-12
# (参考訳) ソーシャルメディアにおけるCOVID-19関連誤報の検出事例 [全文訳有]

Case Study on Detecting COVID-19 Health-Related Misinformation in Social Media ( http://arxiv.org/abs/2106.06811v1 )

ライセンス: CC BY-SA 4.0
Mir Mehedi A. Pritom, Rosana Montanez Rodriguez, Asad Ali Khan, Sebastian A. Nugroho, Esra'a Alrashydah, Beatrice N. Ruiz, Anthony Rios(参考訳) 新型コロナウイルスのパンデミックは、公衆衛生当局が偽情報のインフォデミックと呼ぶものを生み出した。 ソーシャルディスタンシングと在宅勤務の命令が発効すると、多くの人々がソーシャルメディアに社交した。 このソーシャルメディアの利用の増加は、誤情報の拡散の原動力となっている。 本稿では,学際的アプローチによりソーシャルメディア上で新型コロナウイルスの健康関連誤情報を検出するメカニズムを提案する。 社会心理学を基礎と既存の誤情報フレームワークとして活用し,誤情報検出機構に組み込まれた誤情報テーマと関連するキーワードを,機械学習手法を用いて定義した。 次に,twitterデータセットを用いて,複数の最先端機械学習分類器を用いた提案手法の性能について検討した。 提案手法は,つぶやきと決定木分類器からのnlp特徴生成を用いて,健康関連誤情報の分類において,最大78%の精度で有望な結果を示す。 また、誤情報対策や倫理的考察の代替案についても提案する。

COVID-19 pandemic has generated what public health officials called an infodemic of misinformation. As social distancing and stay-at-home orders came into effect, many turned to social media for socializing. This increase in social media usage has made it a prime vehicle for the spreading of misinformation. This paper presents a mechanism to detect COVID-19 health-related misinformation in social media following an interdisciplinary approach. Leveraging social psychology as a foundation and existing misinformation frameworks, we defined misinformation themes and associated keywords incorporated into the misinformation detection mechanism using applied machine learning techniques. Next, using the Twitter dataset, we explored the performance of the proposed methodology using multiple state-of-the-art machine learning classifiers. Our method shows promising results with at most 78% accuracy in classifying health-related misinformation versus true information using uni-gram-based NLP feature generations from tweets and the Decision Tree classifier. We also provide suggestions on alternatives for countering misinformation and ethical consideration for the study.
翻訳日:2021-06-19 16:14:48 公開日:2021-06-12
# (参考訳) マルチエージェント信頼領域最適化のためのゲーム理論的アプローチ [全文訳有]

A Game-Theoretic Approach to Multi-Agent Trust Region Optimization ( http://arxiv.org/abs/2106.06828v1 )

ライセンス: CC BY 4.0
Ying Wen, Hui Chen, Yaodong Yang, Zheng Tian, Minne Li, Xu Chen, Jun Wang(参考訳) 信頼領域法は, 単調な性能向上保証のため, 単一エージェント強化学習問題に広く適用されている。 にもかかわらず、マルチエージェント設定に適用した場合、エージェントの支払いが他のエージェントの適応行動に影響されるため、信頼領域メソッドの保証はもはや保たない。 この問題に対処するため、政策空間におけるゲーム理論解析を行い、マルチエージェント学習のための信頼領域最適化を可能にするマルチエージェント信頼領域学習法(MATRL)を提案する。 具体的には、MATRLは、メタゲームレベルでのナッシュ平衡という解概念によって導かれる安定した改善方向を見つける。 本研究では,マルチエージェント設定における単調改善保証を導出し,二者間回転微分ゲームにおける安定不動点へのmatrlの局所収束を実証的に示す。 本手法を試すために,チェッカーやスイッチグリッドワールド,マルチエージェントのMuJoCo,アタリゲームなど,個別かつ連続的なマルチプレイヤー汎用ゲームにおいてMATRLを評価する。 その結果,MATRLは強いマルチエージェント強化学習ベースラインよりも優れていた。

Trust region methods are widely applied in single-agent reinforcement learning problems due to their monotonic performance-improvem ent guarantee at every iteration. Nonetheless, when applied in multi-agent settings, the guarantee of trust region methods no longer holds because an agent's payoff is also affected by other agents' adaptive behaviors. To tackle this problem, we conduct a game-theoretical analysis in the policy space, and propose a multi-agent trust region learning method (MATRL), which enables trust region optimization for multi-agent learning. Specifically, MATRL finds a stable improvement direction that is guided by the solution concept of Nash equilibrium at the meta-game level. We derive the monotonic improvement guarantee in multi-agent settings and empirically show the local convergence of MATRL to stable fixed points in the two-player rotational differential game. To test our method, we evaluate MATRL in both discrete and continuous multiplayer general-sum games including checker and switch grid worlds, multi-agent MuJoCo, and Atari games. Results suggest that MATRL significantly outperforms strong multi-agent reinforcement learning baselines.
翻訳日:2021-06-19 15:58:09 公開日:2021-06-12
# (参考訳) 検索型NLPにおけるエンティティの曖昧さの評価と人気度の役割 [全文訳有]

Evaluating Entity Disambiguation and the Role of Popularity in Retrieval-Based NLP ( http://arxiv.org/abs/2106.06830v1 )

ライセンス: CC BY 4.0
Anthony Chen, Pallavi Gudipati, Shayne Longpre, Xiao Ling, Sameer Singh(参考訳) Retrievalは、オープンドメインのNLPタスクのコアコンポーネントである。 オープンドメインのタスクでは、複数のエンティティが名前を共有することができる。 本稿では,AmbER(Ambiguous Entity Retrieval)セットと呼ばれる,これらの検索のエンティティの曖昧さを評価するための評価ベンチマークを提案する。 我々は、AmbERセットを、それらのエンティティに関するクエリとともに名前を共有するエンティティの集合として定義します。 多文名のエンティティの集合をカバーすることで、AmbER セットはエンティティの曖昧さの挑戦的なテストとして機能する。 我々は、ファクトチェック、スロットフィリング、質問応答という3つの人気のあるオープンドメインタスクのためのAmbERセットを作成し、多様な検索セットを評価する。 検索者は人気バイアスを示しており、例えば、名前を共有する稀なエンティティでは、同じ名前であまり人気がないエンティティに対して、クエリの不正なドキュメントを検索する確率が2倍になる。 AmbER セットでのこれらの実験は,評価ツールとしての有用性を示し,一般的な検索システムの弱点を浮き彫りにする。

Retrieval is a core component for open-domain NLP tasks. In open-domain tasks, multiple entities can share a name, making disambiguation an inherent yet under-explored problem. We propose an evaluation benchmark for assessing the entity disambiguation capabilities of these retrievers, which we call Ambiguous Entity Retrieval (AmbER) sets. We define an AmbER set as a collection of entities that share a name along with queries about those entities. By covering the set of entities for polysemous names, AmbER sets act as a challenging test of entity disambiguation. We create AmbER sets for three popular open-domain tasks: fact checking, slot filling, and question answering, and evaluate a diverse set of retrievers. We find that the retrievers exhibit popularity bias, significantly under-performing on rarer entities that share a name, e.g., they are twice as likely to retrieve erroneous documents on queries for the less popular entity under the same name. These experiments on AmbER sets show their utility as an evaluation tool and highlight the weaknesses of popular retrieval systems.
翻訳日:2021-06-19 15:22:20 公開日:2021-06-12
# (参考訳) フローベース因果推論による調和 [全文訳有]

Harmonization with Flow-based Causal Inference ( http://arxiv.org/abs/2106.06845v1 )

ライセンス: CC BY 4.0
Rongguang Wang, Pratik Chaudhari, Christos Davatzikos(参考訳) 医学データにおける不均一性(例えば、臨床研究において異なる場所で収集されたデータと異なるプロトコルから)は、機械学習モデルを用いて正確な予測を行うための基本的なハードルである。 本稿では,構造因果モデル (SCM) に反実的推論を施し,そのようなデータを調和させる正規化フローに基づく手法を提案する。 我々は、既知の共同創設者(サイト、性別、年齢)と外因性ノイズ変数から生じる観察効果(脳磁気共鳴画像データ)の因果モデルを作成する。 本手法は流れによって引き起こされる単射を調和に利用する。 我々は,外因性変数の後部を推測し,観察に介入し,結果のSCMからサンプルを抽出して反事実を得る。 我々は,この手法が最先端のアルゴリズムよりもドメイン間一般化に寄与することを示すために,複数の大規模実世界の医療データセットを評価した。 回帰および分類タスクを用いて,本モデルが生成する共起独立データの品質を評価する実験を行った。

Heterogeneity in medical data, e.g., from data collected at different sites and with different protocols in a clinical study, is a fundamental hurdle for accurate prediction using machine learning models, as such models often fail to generalize well. This paper presents a normalizing-flow-bas ed method to perform counterfactual inference upon a structural causal model (SCM) to harmonize such data. We formulate a causal model for observed effects (brain magnetic resonance imaging data) that result from known confounders (site, gender and age) and exogenous noise variables. Our method exploits the bijection induced by flow for harmonization. We can infer the posterior of exogenous variables, intervene on observations, and draw samples from the resultant SCM to obtain counterfactuals. We evaluate on multiple, large, real-world medical datasets to observe that this method leads to better cross-domain generalization compared to state-of-the-art algorithms. Further experiments that evaluate the quality of confounder-independe nt data generated by our model using regression and classification tasks are provided.
翻訳日:2021-06-19 15:04:11 公開日:2021-06-12
# (参考訳) トランスフォーマー言語モデルは心理計測特性を予測できるのか? [全文訳有]

Can Transformer Language Models Predict Psychometric Properties? ( http://arxiv.org/abs/2106.06849v1 )

ライセンス: CC BY 4.0
Antonio Laverghetta Jr., Animesh Nighojkar, Jamshidbek Mirzakhalov and John Licato(参考訳) トランスフォーマーベースの言語モデル(lms)は、人間にインスパイアされた「常識」の能力を模倣するタスクを含む、nlpベンチマークタスクにおける最先端のパフォーマンスを継続する。 LMが特定の言語的推論スキルを持つと言える程度をよりよく理解するために、研究者は心理学の分野のツールや概念に適応し始めている。 しかし、そのメリットはどこまで他の方向に流れますか? lmsは、テスト項目が人間の参加者に与えられたときに、テスト項目の心理的特性を予測するのに使えるだろうか? 我々は,言語能力の広範な診断試験において,多数の人的参加者とLM(トランスフォーマーおよび非トランスフォーマーベース)からの回答を収集する。 次に,ヒトの反応とLMの反応を別々に利用して,診断試験における項目の標準的な心理測定特性を計算する。 次に、これらの2つの予測セットがどの程度うまく一致しているかを決定する。 トランスフォーマーをベースとしたLMが、特定のカテゴリにおいて一貫して心理測定特性を予測できるが、他のカテゴリでは一貫して不規則に予測し、基本的類似性や人間とLMの推論の違いに対する新たな洞察を提供する。

Transformer-based language models (LMs) continue to advance state-of-the-art performance on NLP benchmark tasks, including tasks designed to mimic human-inspired "commonsense" competencies. To better understand the degree to which LMs can be said to have certain linguistic reasoning skills, researchers are beginning to adapt the tools and concepts of the field of psychometrics. But to what extent can the benefits flow in the other direction? I.e., can LMs be of use in predicting what the psychometric properties of test items will be when those items are given to human participants? We gather responses from numerous human participants and LMs (transformer and non-transformer-base d) on a broad diagnostic test of linguistic competencies. We then use the responses to calculate standard psychometric properties of the items in the diagnostic test, using the human responses and the LM responses separately. We then determine how well these two sets of predictions match. We find cases in which transformer-based LMs predict psychometric properties consistently well in certain categories but consistently poorly in others, thus providing new insights into fundamental similarities and differences between human and LM reasoning.
翻訳日:2021-06-19 14:49:47 公開日:2021-06-12
# (参考訳) 後継表現を用いた辺縁化重要度サンプリングへの深層強化学習手法 [全文訳有]

A Deep Reinforcement Learning Approach to Marginalized Importance Sampling with the Successor Representation ( http://arxiv.org/abs/2106.06854v1 )

ライセンス: CC BY 4.0
Scott Fujimoto, David Meger, Doina Precup(参考訳) 目標政策の状態行動占有率とサンプリング分布の密度比を測定するマージン化重要度サンプリング(mis)は、オフポリシー評価に有望なアプローチである。 しかし、現在最先端のMIS法は複雑な最適化手法に依存しており、ほとんどは単純な玩具の問題で成功している。 本研究は,misと深層強化学習のギャップを,対象政策の後継表現から密度比を計算できることを観察することで橋渡しする。 後継表現は、深層強化学習手法を用いて訓練し、環境のダイナミクスから報酬最適化を分離することにより、アルゴリズムを安定させ、高次元領域に適用することができる。 我々は,さまざまな挑戦的なatari環境とmujoco環境におけるアプローチの実証的性能を評価する。

Marginalized importance sampling (MIS), which measures the density ratio between the state-action occupancy of a target policy and that of a sampling distribution, is a promising approach for off-policy evaluation. However, current state-of-the-art MIS methods rely on complex optimization tricks and succeed mostly on simple toy problems. We bridge the gap between MIS and deep reinforcement learning by observing that the density ratio can be computed from the successor representation of the target policy. The successor representation can be trained through deep reinforcement learning methodology and decouples the reward optimization from the dynamics of the environment, making the resulting algorithm stable and applicable to high-dimensional domains. We evaluate the empirical performance of our approach on a variety of challenging Atari and MuJoCo environments.
翻訳日:2021-06-18 15:20:31 公開日:2021-06-12
# (参考訳) 自己教師付き補助タスクによる弱教師付き音響イベント検出の改善 [全文訳有]

Improving weakly supervised sound event detection with self-supervised auxiliary tasks ( http://arxiv.org/abs/2106.06858v1 )

ライセンス: CC BY 4.0
Soham Deshmukh, Bhiksha Raj, Rita Singh(参考訳) マルチタスクと転送学習は、限られたデータ設定でニューラルネットワークのパフォーマンスを改善することが示されているが、大きなデータセットで事前にモデルを事前トレーニングする必要がある。 本稿では,事前学習を必要とせず,低データおよび雑音環境下での弱教師付き音声イベント検出の性能向上に焦点をあてる。 そこで本研究では,音響イベント検出を主タスクとする共有エンコーダアーキテクチャと,自己教師付き補助タスクのための追加の二次デコーダを提案する。 本研究は,DCASE 2018 Task 2 の音響シーンデータを 0, 10, 20 dB SNR で再生したリミックスデータセットを用いて,弱教師付き音響イベント検出のための枠組みを実験的に評価した。 複数の音声イベントのローカライズ情報を確実に保持するために,クリップ内の複数の音声イベントの時間周波数ローカライズを提供する2段階のアテンションプーリング機構を提案する。 提案したフレームワークは、既存のベンチマークモデルを22.3%、12.8%、0、10、20dB SNRの5.9%で上回っている。 本研究は,SED性能向上のための補助課題と2段階の注意プールの貢献を決定するためのアブレーション研究である。

While multitask and transfer learning has shown to improve the performance of neural networks in limited data settings, they require pretraining of the model on large datasets beforehand. In this paper, we focus on improving the performance of weakly supervised sound event detection in low data and noisy settings simultaneously without requiring any pretraining task. To that extent, we propose a shared encoder architecture with sound event detection as a primary task and an additional secondary decoder for a self-supervised auxiliary task. We empirically evaluate the proposed framework for weakly supervised sound event detection on a remix dataset of the DCASE 2019 task 1 acoustic scene data with DCASE 2018 Task 2 sounds event data under 0, 10 and 20 dB SNR. To ensure we retain the localisation information of multiple sound events, we propose a two-step attention pooling mechanism that provides a time-frequency localisation of multiple audio events in the clip. The proposed framework with two-step attention outperforms existing benchmark models by 22.3%, 12.8%, 5.9% on 0, 10 and 20 dB SNR respectively. We carry out an ablation study to determine the contribution of the auxiliary task and two-step attention pooling to the SED performance improvement.
翻訳日:2021-06-18 14:38:04 公開日:2021-06-12
# (参考訳) オフライン強化学習のためのミニマリストアプローチ [全文訳有]

A Minimalist Approach to Offline Reinforcement Learning ( http://arxiv.org/abs/2106.06860v1 )

ライセンス: CC BY 4.0
Scott Fujimoto, Shixiang Shane Gu(参考訳) オフライン強化学習(RL)は、固定されたデータのバッチから学習するタスクを定義する。 out-of-distributionアクションからの値推定の誤りのため、ほとんどのオフラインrlアルゴリズムは、データセットに含まれるアクションでポリシーを制約または規則化するアプローチを取る。 既存のRLアルゴリズムに基づいて構築されたRLアルゴリズムをオフラインで動作させる変更は、さらなる複雑さを犠牲にしている。 オフラインRLアルゴリズムは、新しいハイパーパラメータを導入し、基礎となるRLアルゴリズムを調整しながら、生成モデルのような二次的なコンポーネントを利用することが多い。 本稿では,最小限の変更を行いながら,深いRLアルゴリズムを実現することを目的とする。 オンラインrlアルゴリズムのポリシー更新にビヘイビアクローン項を追加してデータを正規化することにより,最先端のオフラインrlアルゴリズムの性能を一致させることができる。 結果として得られたアルゴリズムはベースラインの実装とチューニングが簡単であり、以前の手法の計算オーバーヘッドを減らして全体の実行時間を半減する。

Offline reinforcement learning (RL) defines the task of learning from a fixed batch of data. Due to errors in value estimation from out-of-distribution actions, most offline RL algorithms take the approach of constraining or regularizing the policy with the actions contained in the dataset. Built on pre-existing RL algorithms, modifications to make an RL algorithm work offline comes at the cost of additional complexity. Offline RL algorithms introduce new hyperparameters and often leverage secondary components such as generative models, while adjusting the underlying RL algorithm. In this paper we aim to make a deep RL algorithm work while making minimal changes. We find that we can match the performance of state-of-the-art offline RL algorithms by simply adding a behavior cloning term to the policy update of an online RL algorithm and normalizing the data. The resulting algorithm is a simple to implement and tune baseline, while more than halving the overall run time by removing the additional computational overheads of previous methods.
翻訳日:2021-06-18 14:25:19 公開日:2021-06-12
# (参考訳) 連続ウェーブレットボコーダを用いたパラメトリック音声波形合成の分解 [全文訳有]

Continuous Wavelet Vocoder-based Decomposition of Parametric Speech Waveform Synthesis ( http://arxiv.org/abs/2106.06863v1 )

ライセンス: CC BY 4.0
Mohammed Salah Al-Radhi, Tam\'as G\'abor Csap\'o, Csaba Zaink\'o, G\'eza N\'emeth(参考訳) これまで,様々な音声技術システムがボコーダ方式を採用してきた。これは,統計的パラメトリック音声合成の性能に重要な役割を果たす音声波形を合成する方法である。 WaveNetは人間の声に近い最高のモデルの1つで、ニューラルネットワークの極めて複雑な構造を持つ連続的な方法で波形を生成する必要があります。

To date, various speech technology systems have adopted the vocoder approach, a method for synthesizing speech waveform that shows a major role in the performance of statistical parametric speech synthesis. WaveNet one of the best models that nearly resembles the human voice, has to generate a waveform in a time consuming sequential manner with an extremely complex structure of its neural networks.
翻訳日:2021-06-18 14:04:58 公開日:2021-06-12
# (参考訳) フォントのための多機能ニューラルネットワーク表現 [全文訳有]

A Multi-Implicit Neural Representation for Fonts ( http://arxiv.org/abs/2106.06866v1 )

ライセンス: CC0 1.0
Pradyumna Reddy, Zhifei Zhang, Matthew Fisher, Hailin Jin, Zhaowen Wang, Niloy J. Mitra(参考訳) フォントはドキュメントにまたがってユビキタスであり、様々なスタイルがある。 それらはネイティブベクトルフォーマットで表現されるか、固定解像度画像を生成するためにラスタライズされる。 第一に、非標準表現は、ニューラルネットワーク表現のための最新のネットワークアーキテクチャの利益を防ぎ、後者の場合、ラスタライズド表現は、ネットワークを介して符号化されると、エッジやコーナーのようなフォント固有の不連続がニューラルネットワークを使用して表現することが難しいため、データの忠実度が失われる。 複雑なフォントを単純な占有関数の集合の重ね合わせで表現できるという観測に基づいて、フォントを特徴(例えばエッジとコーナー)を失うことなく、学習されたインプライクト関数の置換不変集合として表現する \textit{multi-implicits} を導入する。 しかし、複数の実装がフォントの特徴をローカルに保存する一方で、基底真理のマルチチャネル信号の形で監督を得ること自体が問題となる。 代わりに,このような表現を局所的な監督だけでトレーニングする方法を提案する一方で,提案するニューラルネットワークはフォントファミリのグローバルに一貫性のあるマルチ実装を直接発見する。 提案手法は, 再構成, 補間, 合成を含む様々なタスクの表現を広範囲に評価し, 既存の代替案の明確な利点を示す。 さらに、この表現はグリフ補完を自然に可能にし、単一の特徴フォントを使用してターゲットスタイルでフォントファミリ全体を合成する。

Fonts are ubiquitous across documents and come in a variety of styles. They are either represented in a native vector format or rasterized to produce fixed resolution images. In the first case, the non-standard representation prevents benefiting from latest network architectures for neural representations; while, in the latter case, the rasterized representation, when encoded via networks, results in loss of data fidelity, as font-specific discontinuities like edges and corners are difficult to represent using neural networks. Based on the observation that complex fonts can be represented by a superposition of a set of simpler occupancy functions, we introduce \textit{multi-implicits} to represent fonts as a permutation-invarian t set of learned implict functions, without losing features (e.g., edges and corners). However, while multi-implicits locally preserve font features, obtaining supervision in the form of ground truth multi-channel signals is a problem in itself. Instead, we propose how to train such a representation with only local supervision, while the proposed neural architecture directly finds globally consistent multi-implicits for font families. We extensively evaluate the proposed representation for various tasks including reconstruction, interpolation, and synthesis to demonstrate clear advantages with existing alternatives. Additionally, the representation naturally enables glyph completion, wherein a single characteristic font is used to synthesize a whole font family in the target style.
翻訳日:2021-06-18 13:53:59 公開日:2021-06-12
# マルチターゲットニューラルネットワークによる早期故障検出

Early fault detection with multi-target neural networks ( http://arxiv.org/abs/2106.08957v1 )

ライセンス: Link先を確認
Angela Meyer(参考訳) 風力は世界中で強い成長を遂げている。 同時に、エネルギー市場における利益マージンの縮小により、風力発電の経営者はタービンの操業と保守におけるコスト削減の選択肢を探った。 センサベースの状態監視はタービンサブシステムの遠隔診断を容易にし、予期せぬメンテナンスが必要な場合の応答を高速化する。 タービンの監視制御とデータ取得(SCADA)システムからのデータによる条件モニタリングと,タービン状態変数の単一タスク正規演算モデルに基づくSCADAに基づく故障検出と診断手法を提案する。 SCADAチャネルの数が強くなったため、今日では数千の独立した単一ターゲットモデルが単一のタービンを監視するために設置されている。 モデル数を制限するために、最近マルチターゲット学習が提案されている。 本研究では,ドライブトレイン部品の早期故障検出にマルチターゲットニューラルネットワークを適用した。 歯車軸受欠陥検出の精度と遅れを,最先端の単一ターゲットアプローチと比較した。 マルチターゲット多層パーセプトロン(MLP)は,少なくとも早期および多くの場合,単一ターゲットMPPよりも早く断層を検出できた。 マルチターゲットMLPは単一ターゲットモデルよりも数日早く故障を検出することができた。 これにより、メンテナンス作業の計画とパフォーマンスにおいて大きなアドバンテージがもたらされます。 同時に、マルチターゲットMLPは同じレベルの予測安定性を達成した。

Wind power is seeing a strong growth around the world. At the same time, shrinking profit margins in the energy markets let wind farm managers explore options for cost reductions in the turbine operation and maintenance. Sensor-based condition monitoring facilitates remote diagnostics of turbine subsystems, enabling faster responses when unforeseen maintenance is required. Condition monitoring with data from the turbines' supervisory control and data acquisition (SCADA) systems was proposed and SCADA-based fault detection and diagnosis approaches introduced based on single-task normal operation models of turbine state variables. As the number of SCADA channels has grown strongly, thousands of independent single-target models are in place today for monitoring a single turbine. Multi-target learning was recently proposed to limit the number of models. This study applied multi-target neural networks to the task of early fault detection in drive-train components. The accuracy and delay of detecting gear bearing faults were compared to state-of-the-art single-target approaches. We found that multi-target multi-layer perceptrons (MLPs) detected faults at least as early and in many cases earlier than single-target MLPs. The multi-target MLPs could detect faults up to several days earlier than the single-target models. This can deliver a significant advantage in the planning and performance of maintenance work. At the same time, the multi-target MLPs achieved the same level of prediction stability.
翻訳日:2021-06-17 17:05:26 公開日:2021-06-12
# (参考訳) 不完全データを用いた地球日射量の短期予測 [全文訳有]

Short-term forecasting of global solar irradiance with incomplete data ( http://arxiv.org/abs/2106.06868v1 )

ライセンス: CC BY 4.0
Laura S. Hoyos-G\'omez, Jose F. Ruiz-Mu\~noz, Belizza J. Ruiz-Mendoza(参考訳) 太陽の照度と日射量を予測する正確なメカニズムは、再生可能エネルギー計画や農業計画、環境・社会経済研究に重要な情報を提供する。 本研究は、日射量と日射量の1日予測のためのパイプラインを導入し、トレーニングに日射量履歴データのみを必要とする。 さらに,このアプローチでは,データインプテーション状態を含むため,データ不足に対処することが可能である。 予測段階では、自動回帰統合移動平均(ARIMA)、単層フィードフォワードネットワーク(SL-FNN)、複数層フィードフォワードネットワーク(FL-FNN)、長短期メモリ(LSTM)の4つのデータ駆動型アプローチを検討する。 実験は、ナリ・ノ・コロンビアにある12の自動気象観測所(AWS)で収集された実世界のデータセットで実施される。 その結果,ニューラルネットワークモデルの方がARIMAより優れていることがわかった。 さらに、LSTMは(よりランダム性が期待される)曇り環境でのより良いパフォーマンスを示す。

Accurate mechanisms for forecasting solar irradiance and insolation provide important information for the planning of renewable energy and agriculture projects as well as for environmental and socio-economical studies. This research introduces a pipeline for the one-day ahead forecasting of solar irradiance and insolation that only requires solar irradiance historical data for training. Furthermore, our approach is able to deal with missing data since it includes a data imputation state. In the prediction stage, we consider four data-driven approaches: Autoregressive Integrated Moving Average (ARIMA), Single Layer Feed Forward Network (SL-FNN), Multiple Layer Feed Forward Network (FL-FNN), and Long Short-Term Memory (LSTM). The experiments are performed in a real-world dataset collected with 12 Automatic Weather Stations (AWS) located in the Nari\~no - Colombia. The results show that the neural network-based models outperform ARIMA in most cases. Furthermore, LSTM exhibits better performance in cloudy environments (where more randomness is expected).
翻訳日:2021-06-17 17:04:07 公開日:2021-06-12
# (参考訳) 少数ノード分類のための弱教師付きグラフメタラーニング [全文訳有]

Weakly-supervised Graph Meta-learning for Few-shot Node Classification ( http://arxiv.org/abs/2106.06873v1 )

ライセンス: CC BY 4.0
Kaize Ding, Jianling Wang, Jundong Li, James Caverlee and Huan Liu(参考訳) グラフはデータのリレーショナル構造をモデル化するために広く使われており、グラフ機械学習(ML)の研究は、分子グラフにおける薬物設計からソーシャルネットワークにおける友情推薦まで幅広い応用範囲を有している。 グラフmlの一般的なアプローチでは、グラフ上に新たに出現した概念(例えばノードの新しい分類)のラベル付きデータが限られているため、十分な結果を得るには豊富なラベル付きインスタンスが必要である。 メタラーニングは、さまざまなマイナショットグラフ学習問題に適用されてきたが、既存の取り組みのほとんどは、見られるクラスからのすべてのデータはゴールドラベルである、という仮定を主眼に置いている。 そこで,我々は,知識伝達の観点からモデルのロバスト性を改善するために,弱教師付きグラフメタラーニングの新たな問題を検討することを目的とする。 本稿では,この目的を達成するために,新しいグラフメタラーニングフレームワークであるグラフ幻覚ネットワーク(meta-ghn)を提案する。 新たなロバストネス強化エピソードトレーニングに基づいてメタGHNはメタ学習され、弱いラベル付きデータからクリーンノード表現を幻覚させ、高度に転送可能なメタ知識を抽出する。 グラフメタ学習におけるメタGHNの優位性を示す大規模な実験は、弱教師付き少数ショットノード分類の課題についてである。

Graphs are widely used to model the relational structure of data, and the research of graph machine learning (ML) has a wide spectrum of applications ranging from drug design in molecular graphs to friendship recommendation in social networks. Prevailing approaches for graph ML typically require abundant labeled instances in achieving satisfactory results, which is commonly infeasible in real-world scenarios since labeled data for newly emerged concepts (e.g., new categorizations of nodes) on graphs is limited. Though meta-learning has been applied to different few-shot graph learning problems, most existing efforts predominately assume that all the data from those seen classes is gold-labeled, while those methods may lose their efficacy when the seen data is weakly-labeled with severe label noise. As such, we aim to investigate a novel problem of weakly-supervised graph meta-learning for improving the model robustness in terms of knowledge transfer. To achieve this goal, we propose a new graph meta-learning framework -- Graph Hallucination Networks (Meta-GHN) in this paper. Based on a new robustness-enhanced episodic training, Meta-GHN is meta-learned to hallucinate clean node representations from weakly-labeled data and extracts highly transferable meta-knowledge, which enables the model to quickly adapt to unseen tasks with few labeled instances. Extensive experiments demonstrate the superiority of Meta-GHN over existing graph meta-learning studies on the task of weakly-supervised few-shot node classification.
翻訳日:2021-06-17 16:28:22 公開日:2021-06-12
# (参考訳) 単言語話者を除外しない:機械翻訳データをクラウドソーシングする方法 [全文訳有]

Don't Rule Out Monolingual Speakers: A Method For Crowdsourcing Machine Translation Data ( http://arxiv.org/abs/2106.06875v1 )

ライセンス: CC0 1.0
Rajat Bhatnagar, Ananya Ganesh, Katharina Kann(参考訳) 高性能機械翻訳(MT)システムは、言語障壁を克服し、誰もが自分の選択した言語で言語テクノロジーをコミュニケーションし使用できるようにする。 しかし、このようなシステムは訓練に大量の並行文を必要とするため、翻訳者は見つけるのが難しく、費用もかかる。 本稿では,二言語話者を必要とせず,安価で簡便なmtのためのデータ収集戦略を提案する。 人間は動きに特に注意を払っているという洞察に基づいて、私たちは単言語アノテーションから並列文を収集するためにピボットとしてグラフィック交換フォーマット(gifs)を使用します。 弊社の戦略は、ヒンディー語、タミル語、英語のデータを収集する。 ベースラインとして、画像を使ってデータをピボットとして収集する。 文対のサブセットを手作業で評価し,収集したデータに対してmbartを微調整することにより,本質的評価を行う。 GIFで集めた文章は、確かに質が高い。

High-performing machine translation (MT) systems can help overcome language barriers while making it possible for everyone to communicate and use language technologies in the language of their choice. However, such systems require large amounts of parallel sentences for training, and translators can be difficult to find and expensive. Here, we present a data collection strategy for MT which, in contrast, is cheap and simple, as it does not require bilingual speakers. Based on the insight that humans pay specific attention to movements, we use graphics interchange formats (GIFs) as a pivot to collect parallel sentences from monolingual annotators. We use our strategy to collect data in Hindi, Tamil and English. As a baseline, we also collect data using images as a pivot. We perform an intrinsic evaluation by manually evaluating a subset of the sentence pairs and an extrinsic evaluation by finetuning mBART on the collected data. We find that sentences collected via GIFs are indeed of higher quality.
翻訳日:2021-06-17 16:08:04 公開日:2021-06-12
# エントロピーに基づくニューラルネットワークの論理説明

Entropy-based Logic Explanations of Neural Networks ( http://arxiv.org/abs/2106.06804v1 )

ライセンス: Link先を確認
Pietro Barbiero, Gabriele Ciravegna, Francesco Giannini, Pietro Li\'o, Marco Gori, Stefano Melacci(参考訳) 説明可能な人工知能は、議員が安全クリティカルドメインの解釈可能なモデルを必要とし始めてから急速に発展してきた。 概念に基づくニューラルネットワークは、人間の理解可能なシンボル(つまり)を活用することによって、説明可能な設計方法として生まれてきた。 クラスメンバーシップを予測することです しかしながら、これらのアプローチのほとんどは、最も関連する概念の識別に焦点を当てているが、そのような概念がどのように分類器によって予測されるかの簡潔で形式的な説明を提供していない。 本稿では,一階述語論理の形式化を用いたニューラルネットワークからの論理説明の抽出を可能にする,新しいエンドツーエンドの微分可能手法を提案する。 この方法はエントロピーに基づく基準に依存し、最も関連する概念を自動的に識別する。 i) このエントロピーに基づく基準は, 臨床データからコンピュータビジョンへの安全クリティカル領域における簡潔な論理的説明の蒸留を可能にし, (ii) 提案手法は分類精度において最先端のホワイトボックスモデルより優れていることを示す。

Explainable artificial intelligence has rapidly emerged since lawmakers have started requiring interpretable models for safety-critical domains. Concept-based neural networks have arisen as explainable-by-desig n methods as they leverage human-understandable symbols (i.e. concepts) to predict class memberships. However, most of these approaches focus on the identification of the most relevant concepts but do not provide concise, formal explanations of how such concepts are leveraged by the classifier to make predictions. In this paper, we propose a novel end-to-end differentiable approach enabling the extraction of logic explanations from neural networks using the formalism of First-Order Logic. The method relies on an entropy-based criterion which automatically identifies the most relevant concepts. We consider four different case studies to demonstrate that: (i) this entropy-based criterion enables the distillation of concise logic explanations in safety-critical domains from clinical data to computer vision; (ii) the proposed approach outperforms state-of-the-art white-box models in terms of classification accuracy.
翻訳日:2021-06-15 16:36:30 公開日:2021-06-12
# D2C:Few-shot条件生成のための拡散分解モデル

D2C: Diffusion-Denoising Models for Few-shot Conditional Generation ( http://arxiv.org/abs/2106.06819v1 )

ライセンス: Link先を確認
Abhishek Sinha, Jiaming Song, Chenlin Meng, Stefano Ermon(参考訳) 高次元画像の条件生成モデルには多くの応用があるが、条件から画像への監視信号を取得するにはコストがかかる。 本稿では,無条件変分オートエンコーダ(vaes)を訓練するパラダイムであるコントラスト表現(d2c)を用いた拡散復号モデルについて述べる。 D2Cは、学習した拡散に基づく事前表現を用いて、表現品質を改善するために、生成と対照的な自己教師付き学習を改善する。 D2Cはラベル付けされた100の例から学習することで、ラベルや操作制約で条件付けられた新しい生成タスクに適応することができる。 新しいラベルからの条件付き生成では、D2Cは最先端のVAEや拡散モデルよりも優れた性能を達成する。 条件付き画像操作では、D2C世代はStyleGAN2世代よりも2桁早く生成でき、二重盲検でヒト評価者の50%から60%が好んでいる。

Conditional generative models of high-dimensional images have many applications, but supervision signals from conditions to images can be expensive to acquire. This paper describes Diffusion-Decoding models with Contrastive representations (D2C), a paradigm for training unconditional variational autoencoders (VAEs) for few-shot conditional image generation. D2C uses a learned diffusion-based prior over the latent representations to improve generation and contrastive self-supervised learning to improve representation quality. D2C can adapt to novel generation tasks conditioned on labels or manipulation constraints, by learning from as few as 100 labeled examples. On conditional generation from new labels, D2C achieves superior performance over state-of-the-art VAEs and diffusion models. On conditional image manipulation, D2C generations are two orders of magnitude faster to produce over StyleGAN2 ones and are preferred by 50% - 60% of the human evaluators in a double-blind study.
翻訳日:2021-06-15 16:36:14 公開日:2021-06-12
# 畳み込みニューラルネットワークを用いた磁場のヘリシティ分類

Using Convolutional Neural Networks for the Helicity Classification of Magnetic Fields ( http://arxiv.org/abs/2106.06718v1 )

ライセンス: Link先を確認
Nicol\`o Oreste Pinciroli Vago, Ibrahim A. Hameed and Michael Kachelriess(参考訳) 銀河間磁場における非ゼロヘリシティの存在は、cp不変性を破るプロセスによって生成される必要があるため、原核起源の喫煙銃である。 ヘリカル磁場の存在に関する実験的署名として、電磁カスケード、例えばtevブラザーズから発生する光子の波動ベクトルの三重スカラー積に基づく推定器q$が以前に提案されている。 本稿では、畳み込みニューラルネットワークを用いたヘリシティ分類にディープラーニングを適用し、この手法が$Q$推定器より優れていることを示す。

The presence of non-zero helicity in intergalactic magnetic fields is a smoking gun for their primordial origin since they have to be generated by processes that break CP invariance. As an experimental signature for the presence of helical magnetic fields, an estimator $Q$ based on the triple scalar product of the wave-vectors of photons generated in electromagnetic cascades from, e.g., TeV blazars, has been suggested previously. We propose to apply deep learning to helicity classification employing Convolutional Neural Networks and show that this method outperforms the $Q$ estimator.
翻訳日:2021-06-15 16:34:56 公開日:2021-06-12
# 常識推論タスクにおける対比的説明の促進

Prompting Contrastive Explanations for Commonsense Reasoning Tasks ( http://arxiv.org/abs/2106.06823v1 )

ライセンス: Link先を確認
Bhargavi Paranjape, Julian Michael, Marjan Ghazvininejad, Luke Zettlemoyer and Hannaneh Hajishirzi(参考訳) NLPタスクの多くの常識推論は、しばしば暗黙的な知識に基づいて、質問やプロンプトに対する1つ以上の可能な答えを選択することを含む。 大規模な事前学習された言語モデル(plm)は、そのようなタスクで人間に近いパフォーマンスを達成できるが、その基礎となる推論の人間の解釈可能な証拠はほとんど提供しない。 人間の説明の対照的な性質に触発されて、私たちは、正しい答えを正当化するために必要な重要な属性(例えば、ピーナッツは通常塩辛いが、レーズンは甘い)に従って代替品と対比する説明のプロンプトを完成させるために、PLMsを使用します。 これらの説明の条件付けモデル決定は、2つの常識推論ベンチマークの性能を向上させる。 これらの説明はまた、人間によってその課題の解決により関係があると判断され、説明の忠実さを評価するための新しい方法を促進する。

Many commonsense reasoning NLP tasks involve choosing between one or more possible answers to a question or prompt based on knowledge that is often implicit. Large pretrained language models (PLMs) can achieve near-human performance on such tasks, while providing little human-interpretable evidence of the underlying reasoning they use. In this work, we show how to use these same models to generate such evidence: inspired by the contrastive nature of human explanations, we use PLMs to complete explanation prompts which contrast alternatives according to the key attribute(s) required to justify the correct answer (for example, peanuts are usually salty while raisins are sweet). Conditioning model decisions on these explanations improves performance on two commonsense reasoning benchmarks, as compared to previous non-contrastive alternatives. These explanations are also judged by humans to be more relevant for solving the task, and facilitate a novel method to evaluate explanation faithfulfness.
翻訳日:2021-06-15 16:34:28 公開日:2021-06-12
# Learngene: オープンワールドから学習タスクへ

Learngene: From Open-World to Your Learning Task ( http://arxiv.org/abs/2106.06788v1 )

ライセンス: Link先を確認
Qiufeng Wang, Xin Geng, Shuxia Lin, Shiyu Xia, Lei Qi, Ning Xu(参考訳) ディープラーニングは、固定された大規模データセットに大きな進歩をもたらしたが、通常、オープンワールド分類における新しい/見えないクラスを不適切に検出し、過度にパラメータ化し、小さなサンプルを過度に適合させるという問題に直面している。 対照的に、生物学的システムは上記の困難を克服することができる。 個体は、数億年にわたって進化してきた集団生物から固有の遺伝子を受け継ぎ、いくつかの例を通して新しいスキルを学ぶことができる。 そこで本稿では,進化(拡張可能)ネットワークを用いてオープンワールドタスクを逐次学習する実践的な集団・個人パラダイムを提案する。 具体的には,メタ知識を包括的モデルから継承する学習遺伝子を革新的に導入し,対象タスクの新しい軽量個別モデルを再構築し,集団的個人的パラダイムを実現する。 特に,グラデーション情報に基づいて集団モデルにおいて学習遺伝子を発見できる新しい基準を提案する。 最後に、個々のモデルは、ソースデータがない場合にのみ、少数のサンプルでトレーニングされる。 本手法の有効性を広範な実証研究と理論的分析で実証する。

Although deep learning has made significant progress on fixed large-scale datasets, it typically encounters challenges regarding improperly detecting new/unseen classes in the open-world classification, over-parametrized, and overfitting small samples. In contrast, biological systems can overcome the above difficulties very well. Individuals inherit an innate gene from collective creatures that have evolved over hundreds of millions of years, and can learn new skills through a few examples. Inspired by this, we propose a practical collective-individua l paradigm where open-world tasks are trained in sequence using an evolution (expandable) network. To be specific, we innovatively introduce learngene that inherits the meta-knowledge from the collective model and reconstructs a new lightweight individual model for the target task, to realize the collective-individua l paradigm. Particularly, we present a novel criterion that can discover the learngene in the collective model, according to the gradient information. Finally, the individual model is trained only with a few samples in the absence of the source data. We demonstrate the effectiveness of our approach in an extensive empirical study and theoretical analysis.
翻訳日:2021-06-15 16:30:51 公開日:2021-06-12
# Hypernetworksによる強化学習ビルディングブロックのリコンパイル

Recomposing the Reinforcement Learning Building Blocks with Hypernetworks ( http://arxiv.org/abs/2106.06842v1 )

ライセンス: Link先を確認
Shai Keynan, Elad Sarafian and Sarit Kraus(参考訳) Reinforcement Learning (RL) ビルディングブロック、すなわち q-関数とポリシーネットワークは通常、2つのドメインのデカルト積から要素を入力として取り出す。 特に、Q-関数の入力は状態と動作の両方であり、マルチタスク問題(Meta-RL)では、ポリシーは状態とコンテキストを取ることができる。 標準アーキテクチャは、これらの変数の基本的な解釈を無視し、それらの特徴を単一のベクトルにまとめる。 本研究では,この選択が,アクタ-クリティックアルゴリズムの勾配推定やメタrlアルゴリズムの分散学習ステップに悪影響を及ぼす可能性があることを論じる。 入力変数間の相互作用を検討するために,プライマリネットワークが条件付き動的ネットワークの重み付けを決定するハイパーネットワークアーキテクチャを提案する。 このアプローチが勾配近似を改善し,学習ステップ分散を低減し,学習を加速し,最終性能を向上させることを示す。 我々は,RL(TD3とSAC)とMeta-RL(MAMLとPEARL)の両方において,異なる移動タスクと異なるアルゴリズムで一貫した改善を示す。

The Reinforcement Learning (RL) building blocks, i.e. Q-functions and policy networks, usually take elements from the cartesian product of two domains as input. In particular, the input of the Q-function is both the state and the action, and in multi-task problems (Meta-RL) the policy can take a state and a context. Standard architectures tend to ignore these variables' underlying interpretations and simply concatenate their features into a single vector. In this work, we argue that this choice may lead to poor gradient estimation in actor-critic algorithms and high variance learning steps in Meta-RL algorithms. To consider the interaction between the input variables, we suggest using a Hypernetwork architecture where a primary network determines the weights of a conditional dynamic network. We show that this approach improves the gradient approximation and reduces the learning step variance, which both accelerates learning and improves the final performance. We demonstrate a consistent improvement across different locomotion tasks and different algorithms both in RL (TD3 and SAC) and in Meta-RL (MAML and PEARL).
翻訳日:2021-06-15 16:30:33 公開日:2021-06-12
# SKIing on Simplices: Kernel Interpolation on the Permutohedral Lattice for Scalable Gaussian Processes

SKIing on Simplices: Kernel Interpolation on the Permutohedral Lattice for Scalable Gaussian Processes ( http://arxiv.org/abs/2106.06695v1 )

ライセンス: Link先を確認
Sanyam Kapoor, Marc Finzi, Ke Alexander Wang, Andrew Gordon Wilson(参考訳) スケーラブルガウス過程の最先端手法は反復アルゴリズムを使い、共分散カーネルと高速行列ベクトル乗算(MVM)を必要とする。 構造化カーネル補間(SKI)フレームワークは、グリッド上で効率的なMVMを実行し、元の空間に補間することで、これらのMVMを加速する。 本研究では,高次元高速二元フィルタに用いるSKIと直交格子の接続を開発する。 密度の大きい矩形格子の代わりにスパース単純格子を用いることで、SKIよりも指数関数的にGP推論を行うことができる。 当社のアプローチであるsimplex-gpは,強力な予測性能を維持しつつ,スキーの高次元へのスケーリングを可能にします。 また、MVMベースの推論のGPUアクセラレーションを著しく向上するSimplex-GPのCUDA実装も提供する。

State-of-the-art methods for scalable Gaussian processes use iterative algorithms, requiring fast matrix vector multiplies (MVMs) with the covariance kernel. The Structured Kernel Interpolation (SKI) framework accelerates these MVMs by performing efficient MVMs on a grid and interpolating back to the original space. In this work, we develop a connection between SKI and the permutohedral lattice used for high-dimensional fast bilateral filtering. Using a sparse simplicial grid instead of a dense rectangular one, we can perform GP inference exponentially faster in the dimension than SKI. Our approach, Simplex-GP, enables scaling SKI to high dimensions, while maintaining strong predictive performance. We additionally provide a CUDA implementation of Simplex-GP, which enables significant GPU acceleration of MVM based inference.
翻訳日:2021-06-15 16:28:04 公開日:2021-06-12
# 効率的な畳み込みニューラルネットウォックのための動的クローントランスフォーマー

Dynamic Clone Transformer for Efficient Convolutional Neural Netwoks ( http://arxiv.org/abs/2106.06778v1 )

ライセンス: Link先を確認
Longqing Ye(参考訳) 畳み込みネットワーク(ConvNets)は、様々なビジョンタスクを解く素晴らしい能力を示している。 それでも、パフォーマンスと効率のトレードオフは、リソース制約のあるプラットフォーム上で実行可能なモデルデプロイメントの課題である。 本稿では,多経路完全連結パターン (MPFC) という新しい概念を導入し,位相パターンの相互依存性,精度,ConvNets の効率性を再考する。 mpfcに触発され、さらにdct(dynamic clone transformer)と呼ばれるデュアルブランチモジュールを提案し、あるブランチが入力から複数のレプリカを生成し、別のブランチは入力自体に条件付けされた一連の差分ベクトルを通じてクローンを再構成し、より多くの変種を生成する。 この操作により、十分な学習能力を提供しながら、少ない計算コストで、データ駆動方式でチャネル毎の情報を自己拡張することが可能であり、これはボトルネック構造の拡張層として計算コストの高いポイントワイズ畳み込みを置き換える潜在的なユニットである。

Convolutional networks (ConvNets) have shown impressive capability to solve various vision tasks. Nevertheless, the trade-off between performance and efficiency is still a challenge for a feasible model deployment on resource-constrained platforms. In this paper, we introduce a novel concept termed multi-path fully connected pattern (MPFC) to rethink the interdependencies of topology pattern, accuracy and efficiency for ConvNets. Inspired by MPFC, we further propose a dual-branch module named dynamic clone transformer (DCT) where one branch generates multiple replicas from inputs and another branch reforms those clones through a series of difference vectors conditional on inputs itself to produce more variants. This operation allows the self-expansion of channel-wise information in a data-driven way with little computational cost while providing sufficient learning capacity, which is a potential unit to replace computationally expensive pointwise convolution as an expansion layer in the bottleneck structure.
翻訳日:2021-06-15 16:25:52 公開日:2021-06-12
# sparse pointpillars: 鳥眼視物体検出におけるスパーシティの活用

Sparse PointPillars: Exploiting Sparsity in Birds-Eye-View Object Detection ( http://arxiv.org/abs/2106.06882v1 )

ライセンス: Link先を確認
Kyle Vedder and Eric Eaton(参考訳) Bird's Eye View (BEV)は3Dポイントの雲を処理するための一般的な表現であり、その性質は基本的に疎らである。 モバイルロボットプラットフォームの計算上の制限によって、高速な高性能なBEV 3Dオブジェクト検出器であるPointPillarsを採用し、そのバックボーンを変更して、この分散性を活用することで、ランタイムの削減を実現しています。 本報告では,モデル固有のハイパーパラメータチューニングによって改善が期待できる,同じ性能のランタイムの低下や,低速なパフォーマンスの低下を示す予備的な結果を示す。 私たちの研究は、優れた検出性能を維持しながらランタイムとリソース使用量を削減するために、パイプライン全体を通してスパーシティを利用する新しいタイプの3dオブジェクト検出器に向けた第一歩です。

Bird's Eye View (BEV) is a popular representation for processing 3D point clouds, and by its nature is fundamentally sparse. Motivated by the computational limitations of mobile robot platforms, we take a fast high-performance BEV 3D object detector - PointPillars - and modify its backbone to exploit this sparsity, leading to decreased runtimes. We present preliminary results demonstrating decreased runtimes with either the same performance or a modest decrease in performance, which we anticipate will be remedied by model specific hyperparameter tuning. Our work is a first step towards a new class of 3D object detectors that exploit sparsity throughout their entire pipeline in order to reduce runtime and resource usage while maintaining good detection performance.
翻訳日:2021-06-15 16:25:37 公開日:2021-06-12
# 日本史文書における文字の順序予測

Predicting the Ordering of Characters in Japanese Historical Documents ( http://arxiv.org/abs/2106.06786v1 )

ライセンス: Link先を確認
Alex Lamb, Tarin Clanuwat, Siyu Han, Mikel Bober-Irizar, Asanobu Kitamoto(参考訳) 日本は異なる文化遺産を持つ独特な国であり、保存されている数十億の歴史的文書に反映されている。 しかし、1900年(明治33年)の日本語表記体系の変遷により、一般には入手不能となった。 主要な研究プロジェクトは、これらの歴史的文書をアクセスし、理解できるようにすることである。 文字認識のタスクと画像上の文字の位置に焦点を当てる研究が増えているが、文字の逐次順序を予測する方法に関する研究は少ない。 これは古典日本語の順序が現代日本語とは大きく異なるためである。 文字列への順序付けは文書テキストの読みやすく検索しやすくするために重要である。 さらに、データ上の任意の種類の自然言語処理(例: 自然言語処理)には、必要なステップである。 機械翻訳、言語モデリング、単語埋め込み)。 本稿では,文字の逐次順序を予測するためのいくつかの手法について検討する。1つは単純な手作りルール,もう1つは適応しきい値を持つ手作りルール,もう1つは教師強制で訓練された深いリカレントシーケンスモデルである。 我々はこれらのテクニックの定量的かつ質的な比較と、それらの異なるトレードオフを提供する。 我々のベストパフォーマンスシステムは98.65\%の精度を持ち、データセットの49\%の書籍に対して完全な精度を持ち、多くのタスクに十分な文字の順序を予測できることを示唆している。

Japan is a unique country with a distinct cultural heritage, which is reflected in billions of historical documents that have been preserved. However, the change in Japanese writing system in 1900 made these documents inaccessible for the general public. A major research project has been to make these historical documents accessible and understandable. An increasing amount of research has focused on the character recognition task and the location of characters on image, yet less research has focused on how to predict the sequential ordering of the characters. This is because sequence in classical Japanese is very different from modern Japanese. Ordering characters into a sequence is important for making the document text easily readable and searchable. Additionally, it is a necessary step for any kind of natural language processing on the data (e.g. machine translation, language modeling, and word embeddings). We explore a few approaches to the task of predicting the sequential ordering of the characters: one using simple hand-crafted rules, another using hand-crafted rules with adaptive thresholds, and another using a deep recurrent sequence model trained with teacher forcing. We provide a quantitative and qualitative comparison of these techniques as well as their distinct trade-offs. Our best-performing system has an accuracy of 98.65\% and has a perfect accuracy on 49\% of the books in our dataset, suggesting that the technique is able to predict the order of the characters well enough for many tasks.
翻訳日:2021-06-15 16:22:41 公開日:2021-06-12
# 木探索と模倣学習によるグラフベース公共グッズゲームの解決

Solving Graph-based Public Good Games with Tree Search and Imitation Learning ( http://arxiv.org/abs/2106.06762v1 )

ライセンス: Link先を確認
Victor-Alexandru Darvariu, Stephen Hailes, Mirco Musolesi(参考訳) パブリックグッズゲームは、個々のエージェントがより広い社会に利益をもたらすように貢献するためのインセンティブを研究するための洞察に富んだ設定を表している。 本研究は,自己関心のあるエージェントのネットワークのグローバルな視点と,ベストショット・パブリックグッズゲームの文脈で所望の資産を最大化することを目的として,中央プランナーの視点を採用する。 この既知のNP完全問題に対する既存のアルゴリズムは、社会福祉以外の基準に最適化できない準最適解を見つける。 提案手法は, グラフの平衡と最大独立集合(mIS)構造特性の対応性を直接的に活用する。 特に,mISを漸進的に生成するマルコフ決定プロセスを定義し,既存の手法よりも優れた平衡探索のための計画手法を採用する。 さらに,探索のデモンストレーションを用いてグラフニューラルネットワークパラメータ化ポリシを得るための模倣学習手法を考案し,未発見のゲームインスタンスに素早く一般化する。 評価の結果,本手法は,最大値のグラフで評価するのとほぼ3桁の速さで,計画手法の性能の99.5%に到達できることがわかった。 この研究で提示された手法は、潜在的に社会的に高い影響を与える可能性のある大規模な公共グッズゲームに適用することができる。

Public goods games represent insightful settings for studying incentives for individual agents to make contributions that, while costly for each of them, benefit the wider society. In this work, we adopt the perspective of a central planner with a global view of a network of self-interested agents and the goal of maximizing some desired property in the context of a best-shot public goods game. Existing algorithms for this known NP-complete problem find solutions that are sub-optimal and cannot optimize for criteria other than social welfare. In order to efficiently solve public goods games, our proposed method directly exploits the correspondence between equilibria and the Maximal Independent Set (mIS) structural property of graphs. In particular, we define a Markov Decision Process, which incrementally generates an mIS, and adopt a planning method to search for equilibria, outperforming existing methods. Furthermore, we devise an imitation learning technique that uses demonstrations of the search to obtain a graph neural network parametrized policy which quickly generalizes to unseen game instances. Our evaluation results show that this policy is able to reach 99.5% of the performance of the planning method while being approximately three orders of magnitude faster to evaluate on the largest graphs tested. The methods presented in this work can be applied to a large class of public goods games of potentially high societal impact.
翻訳日:2021-06-15 16:22:20 公開日:2021-06-12
# 次元還元における概念誤差の定量化

Quantifying the Conceptual Error in Dimensionality Reduction ( http://arxiv.org/abs/2106.06815v1 )

ライセンス: Link先を確認
Tom Hanika and Johannes Hirth(参考訳) データセットの次元減少は、機械学習と知識推論の領域における標準問題である。 データ次元のパターンや依存関係に影響を与え、最終的には意思決定プロセスに影響を与えます。 そのため、異なる目的を追求する様々な削減手順が用いられている。 これまでに考慮されていない基準は、縮小写像の概念的連続性、すなわち、元のデータセットに関する概念的構造の保存である。 本研究では,データスケーリングにおける概念的誤りの検出と定量化に関する理論的基礎を,形式的概念分析による概念的尺度から導いた概念的尺度に基づいて,b)非負行列分解の変種でそれぞれ処理された11個のデータセットに対するアプローチを実験的に検討した。

Dimension reduction of data sets is a standard problem in the realm of machine learning and knowledge reasoning. They affect patterns in and dependencies on data dimensions and ultimately influence any decision-making processes. Therefore, a wide variety of reduction procedures are in use, each pursuing different objectives. A so far not considered criterion is the conceptual continuity of the reduction mapping, i.e., the preservation of the conceptual structure with respect to the original data set. Based on the notion scale-measure from formal concept analysis we present in this work a) the theoretical foundations to detect and quantify conceptual errors in data scalings; b) an experimental investigation of our approach on eleven data sets that were respectively treated with a variant of non-negative matrix factorization.
翻訳日:2021-06-15 16:21:59 公開日:2021-06-12
# DNAメチル化データの二重非中心ベータマトリックス分解

Doubly Non-Central Beta Matrix Factorization for DNA Methylation Data ( http://arxiv.org/abs/2106.06691v1 )

ライセンス: Link先を確認
Aaron Schein, Anjali Nagulpally, Hanna Wallach, Patrick Flaherty(参考訳) ベータ分布の一般化である2つの非中央ベータ(DNCB)分布に基づく,$(0,1)$境界付きサポートデータに対する新しい非負行列分解モデルを提案する。 DNCB分布の表現性はDNAメチル化データセットをモデル化するのに特に有用であるが、モデル構造は、(0,1)$有界支持データの潜在表現が興味のある他の多くの領域に適応できるほど一般的である。 DNCB分布は以前に閉形式共役を欠いていたが、いくつかの拡張により、完全に解析的更新からなる効率的な後部推論アルゴリズムを導出することができた。 本モデルでは, バイオインフォマティクスにおける最先端手法よりも, 実および合成dnaメチル化データセットの予測性能が向上する。 さらに,本モデルでは,既存の生物学的知識に合致した有意義な潜在表現を導出する。

We present a new non-negative matrix factorization model for $(0,1)$ bounded-support data based on the doubly non-central beta (DNCB) distribution, a generalization of the beta distribution. The expressiveness of the DNCB distribution is particularly useful for modeling DNA methylation datasets, which are typically highly dispersed and multi-modal; however, the model structure is sufficiently general that it can be adapted to many other domains where latent representations of $(0,1)$ bounded-support data are of interest. Although the DNCB distribution lacks a closed-form conjugate prior, several augmentations let us derive an efficient posterior inference algorithm composed entirely of analytic updates. Our model improves out-of-sample predictive performance on both real and synthetic DNA methylation datasets over state-of-the-art methods in bioinformatics. In addition, our model yields meaningful latent representations that accord with existing biological knowledge.
翻訳日:2021-06-15 16:19:20 公開日:2021-06-12
# 逆ショートカットによる破壊モデルトレーニング

Disrupting Model Training with Adversarial Shortcuts ( http://arxiv.org/abs/2106.06654v1 )

ライセンス: Link先を確認
Ivan Evtimov and Ian Covert and Aditya Kusupati and Tadayoshi Kohno(参考訳) データの公開が人間の消費のために行われる場合、機械学習の目的での不正使用を防止する方法が不明である。 モデルトレーニングの成功は、慎重に設計されたデータセット修正によって防止可能であり、画像分類設定のための概念実証アプローチを提案する。 本研究では, モデルが意味的特徴よりも非破壊的な信号に頼ることを奨励する対向的ショートカットの概念に基づく手法を提案する。

When data is publicly released for human consumption, it is unclear how to prevent its unauthorized usage for machine learning purposes. Successful model training may be preventable with carefully designed dataset modifications, and we present a proof-of-concept approach for the image classification setting. We propose methods based on the notion of adversarial shortcuts, which encourage models to rely on non-robust signals rather than semantic features, and our experiments demonstrate that these measures successfully prevent deep learning models from achieving high accuracy on real, unmodified data examples.
翻訳日:2021-06-15 16:17:02 公開日:2021-06-12
# 深層機械学習を用いたアルツハイマー病の磁気共鳴画像における海馬分節

Hippocampus segmentation in magnetic resonance images of Alzheimer's patients using Deep machine learning ( http://arxiv.org/abs/2106.06743v1 )

ライセンス: Link先を確認
Hadi Varmazyar, Hossein Yousefi-Banaem, Saber Malekzadeh, Nahideh Gharehaghaji(参考訳) 背景:アルツハイマー病は進行性神経変性疾患であり、認知症の主な原因である。 海馬はアルツハイマー病の初期段階で変化しやすい。 アルツハイマー病発症前におけるMRI(MRI)による海馬変化の検出と観察により,予防・治療の迅速化が図られた。 目的: 本研究の目的は, 深層機械学習を用いたアルツハイマー病患者のMRI画像における海馬のセグメンテーションであった。 方法:畳み込みニューラルネットワークのU-Netアーキテクチャは、実際のMRIデータに海馬を分割するために提案された。 アルツハイマー病ニューロイメージング・イニシアチブ(ADNI)データセットで得られた100例と35例のMR画像は,それぞれ,モデルの訓練と試験に使用された。 提案手法の性能を,類似度の測定により手動分割と比較した。 結果: 所望のセグメンテーションは10回のイテレーションで達成された。 a dice similarity coefficient (dsc) = 92.3%, sensitivity = 96.5%, positive prediction value (ppv) = 90.4%, and intersection over union (iou) value for the train 92.94 and test 92.93 setsが得られた。 結論: 提案手法は有望であり, 早期の海馬容積変化の予測により, アルツハイマー病の予後に拡張することができる。

Background: Alzheimers disease is a progressive neurodegenerative disorder and the main cause of dementia in aging. Hippocampus is prone to changes in the early stages of Alzheimers disease. Detection and observation of the hippocampus changes using magnetic resonance imaging (MRI) before the onset of Alzheimers disease leads to the faster preventive and therapeutic measures. Objective: The aim of this study was the segmentation of the hippocampus in magnetic resonance (MR) images of Alzheimers patients using deep machine learning method. Methods: U-Net architecture of convolutional neural network was proposed to segment the hippocampus in the real MRI data. The MR images of the 100 and 35 patients available in Alzheimers disease Neuroimaging Initiative (ADNI) dataset, was used for the train and test of the model, respectively. The performance of the proposed method was compared with manual segmentation by measuring the similarity metrics. Results: The desired segmentation achieved after 10 iterations. A Dice similarity coefficient (DSC) = 92.3%, sensitivity = 96.5%, positive predicted value (PPV) = 90.4%, and Intersection over Union (IoU) value for the train 92.94 and test 92.93 sets were obtained which are acceptable. Conclusion: The proposed approach is promising and can be extended in the prognosis of Alzheimers disease by the prediction of the hippocampus volume changes in the early stage of the disease.
翻訳日:2021-06-15 16:16:52 公開日:2021-06-12
# 機能回復のための外部POSタグの導入

Incorporating External POS Tagger for Punctuation Restoration ( http://arxiv.org/abs/2106.06731v1 )

ライセンス: Link先を確認
Ning Shi, Wei Wang, Boxin Wang, Jinfeng Li, Xiangyu Liu and Zhouhan Lin(参考訳) 触覚回復は自動音声認識において重要な後処理ステップである。 他の種類の外部情報のうち、part-of-speech (pos) タグガーは情報タグを提供し、各入力トークンの構文的役割を示唆する。 本研究では,外部のposタグを組み込み,その予測ラベルを既存の言語モデルに融合して構文情報を提供する。 さらに、シーケンスタギングタスクとしてより効率的に句読点を学習するためのシーケンス境界サンプリング(SBS)を提案する。 実験の結果,本手法は一貫して性能向上を達成でき,共通iwsltベンチマークで新たな最先端を実現することができた。 さらなるアブレーション研究は、大きな事前訓練された言語モデルと外部POSタグの両方が、モデルの性能を改善するために不可欠な部分を持っていることを示している。

Punctuation restoration is an important post-processing step in automatic speech recognition. Among other kinds of external information, part-of-speech (POS) taggers provide informative tags, suggesting each input token's syntactic role, which has been shown to be beneficial for the punctuation restoration task. In this work, we incorporate an external POS tagger and fuse its predicted labels into the existing language model to provide syntactic information. Besides, we propose sequence boundary sampling (SBS) to learn punctuation positions more efficiently as a sequence tagging task. Experimental results show that our methods can consistently obtain performance gains and achieve a new state-of-the-art on the common IWSLT benchmark. Further ablation studies illustrate that both large pre-trained language models and the external POS tagger take essential parts to improve the model's performance.
翻訳日:2021-06-15 16:14:36 公開日:2021-06-12
# 限定ラベリングデータを用いた文書分類のための文レベル階層型BERTモデル

A Sentence-level Hierarchical BERT Model for Document Classification with Limited Labelled Data ( http://arxiv.org/abs/2106.06738v1 )

ライセンス: Link先を確認
Jinghui Lu, Maeve Henchion, Ivan Bacher, Brian Mac Namee(参考訳) ラベル付きデータによるディープラーニングモデルのトレーニングは、文書分類を含む多くのNLPタスクにとって魅力的なシナリオである。 近年のBERTの出現に伴い、ラベル付きインスタンスがほとんどない文書分類において、ディープラーニング言語モデルは合理的に優れた性能を達成できるが、長い文書分類にBERTのようなモデルを適用することには証拠がない。 この研究は、テキストの文レベルの特徴を学習し、ラベル付きデータに制限のあるシナリオでうまく機能する、長いテキスト固有のモデル、階層型BERTモデル(HBM)を導入している。 様々な評価実験により、HBMは文書の分類において、特に文書が長い場合、50から200のラベル付きインスタンスしか持たない従来の最先端の手法よりも高い性能を達成できることが示されている。 また、HBMの余分な利点として、学習したHBMによって識別される有能な文は、ユーザ研究に基づく文書のラベル付けのための説明として有用である。

Training deep learning models with limited labelled data is an attractive scenario for many NLP tasks, including document classification. While with the recent emergence of BERT, deep learning language models can achieve reasonably good performance in document classification with few labelled instances, there is a lack of evidence in the utility of applying BERT-like models on long document classification. This work introduces a long-text-specific model -- the Hierarchical BERT Model (HBM) -- that learns sentence-level features of the text and works well in scenarios with limited labelled data. Various evaluation experiments have demonstrated that HBM can achieve higher performance in document classification than the previous state-of-the-art methods with only 50 to 200 labelled instances, especially when documents are long. Also, as an extra benefit of HBM, the salient sentences identified by learned HBM are useful as explanations for labelling documents based on a user study.
翻訳日:2021-06-15 16:14:21 公開日:2021-06-12
# ニューラルマシン翻訳にシーラーを強制する教師を指導する

Guiding Teacher Forcing with Seer Forcing for Neural Machine Translation ( http://arxiv.org/abs/2106.06751v1 )

ライセンス: Link先を確認
Yang Feng, Shuhao Gu, Dengji Guo, Zhengxin Yang, Chenze Shao(参考訳) 教師の強制は、ニューラルマシン翻訳の主要なトレーニングパラダイムとなっているが、通常は過去の情報のみに基づいて予測を行うため、将来的なグローバルな計画が欠如している。 この問題に対処するために、ターゲット予測における将来の情報を含むエンコーダ・デコーダフレームワークにシーラデコーダと呼ばれる別のデコーダを導入する。 一方,従来のデコーダでは知識蒸留によりシーラーデコーダの動作をシミュレートする。 このようにして、テストでは、従来のデコーダはシーアデコーダのように実行することができる。 中国語・英語・ドイツ語・英語・ルーマニア語翻訳タスクの実験結果から,提案手法は競争ベースラインを著しく上回り,より大きなデータセットを改善することができることが示された。 さらに,本実験は, 逆学習やL2正規化と比較して, シーラーデコーダから従来のデコーダへ知識を伝達する最善の方法であることを示す。

Although teacher forcing has become the main training paradigm for neural machine translation, it usually makes predictions only conditioned on past information, and hence lacks global planning for the future. To address this problem, we introduce another decoder, called seer decoder, into the encoder-decoder framework during training, which involves future information in target predictions. Meanwhile, we force the conventional decoder to simulate the behaviors of the seer decoder via knowledge distillation. In this way, at test the conventional decoder can perform like the seer decoder without the attendance of it. Experiment results on the Chinese-English, English-German and English-Romanian translation tasks show our method can outperform competitive baselines significantly and achieves greater improvements on the bigger data sets. Besides, the experiments also prove knowledge distillation the best way to transfer knowledge from the seer decoder to the conventional decoder compared to adversarial learning and L2 regularization.
翻訳日:2021-06-15 16:14:04 公開日:2021-06-12
# Every Bite:ビジネスレビューのポイント分析

Every Bite Is an Experience: Key Point Analysis of Business Reviews ( http://arxiv.org/abs/2106.06758v1 )

ライセンス: Link先を確認
Roy Bar-Haim, Lilach Eden, Yoav Kantor, Roni Friedman, Noam Slonim(参考訳) レビュー要約に関する以前の作業では、レビューされた製品やビジネスの主要な側面に対する感情の測定や、テキスト要約の作成に重点を置いていました。 アスペクトベースの感情要約はアスペクトレーティングの十分な説明や正当化を欠いているが、テキスト要約は各要素の重要性を定量化せず、矛盾する見解を表現するのに適していない。 近年、キーポイント分析(KPA)は、データの主点のテキスト的および定量的な要約を提供する要約フレームワークとして提案されている。 キーポイント抽出の改善,KPAへの感情分析の統合,要約をレビューするための優れたキーポイント候補の特定,利用可能な大量のレビューとメタデータを活用することで,データのレビューにKPAを適用する。 KPAの新規拡張により性能が大幅に向上したことを示す。 我々は、有望な結果がドメイン固有のアノテーションなしで達成できることを実証するが、人間の監督はさらなる改善につながる可能性がある。

Previous work on review summarization focused on measuring the sentiment toward the main aspects of the reviewed product or business, or on creating a textual summary. These approaches provide only a partial view of the data: aspect-based sentiment summaries lack sufficient explanation or justification for the aspect rating, while textual summaries do not quantify the significance of each element, and are not well-suited for representing conflicting views. Recently, Key Point Analysis (KPA) has been proposed as a summarization framework that provides both textual and quantitative summary of the main points in the data. We adapt KPA to review data by introducing Collective Key Point Mining for better key point extraction; integrating sentiment analysis into KPA; identifying good key point candidates for review summaries; and leveraging the massive amount of available reviews and their metadata. We show empirically that these novel extensions of KPA substantially improve its performance. We demonstrate that promising results can be achieved without any domain-specific annotation, while human supervision can lead to further improvement.
翻訳日:2021-06-15 16:13:47 公開日:2021-06-12
# 低リソース言語への機械翻訳

Machine Translation into Low-resource Language Varieties ( http://arxiv.org/abs/2106.06797v1 )

ライセンス: Link先を確認
Sachin Kumar, Antonios Anastasopoulos, Shuly Wintner, Yulia Tsvetkov(参考訳) State-of-the-art machine translation (MT) システムは一般的に「標準」ターゲット言語を生成するために訓練されるが、多くの言語は標準言語とは異なる複数の品種(地域品種、方言、ソサイレント、非ネイティブ品種)を持っている。 このような品種は、しばしば低資源であり、MTを含む現代のNLPソリューションの恩恵を受けない。 我々は,mtシステムを並列(ソース-変数)データを用いずに,標準のターゲット言語に近かったが異なる言語種類を生成するために,mtシステムを迅速に適応させる汎用フレームワークを提案する。 これはまた、低リソースのタイポロジー関連ターゲット言語へのMTシステムの適応を含む。 我々は、英語-ロシア語 MT システムを適用して、ウクライナ語とベラルーシ語を生成、英語-ノルウェー語でNynorsk を生成する Bokm{\aa}l システム、英語-アラビア語で4つのアラビア方言を生成、競争ベースラインよりも大幅に改善した。

State-of-the-art machine translation (MT) systems are typically trained to generate the "standard" target language; however, many languages have multiple varieties (regional varieties, dialects, sociolects, non-native varieties) that are different from the standard language. Such varieties are often low-resource, and hence do not benefit from contemporary NLP solutions, MT included. We propose a general framework to rapidly adapt MT systems to generate language varieties that are close to, but different from, the standard target language, using no parallel (source--variety) data. This also includes adaptation of MT systems to low-resource typologically-relate d target languages. We experiment with adapting an English--Russian MT system to generate Ukrainian and Belarusian, an English--Norwegian Bokm{\aa}l system to generate Nynorsk, and an English--Arabic system to generate four Arabic dialects, obtaining significant improvements over competitive baselines.
翻訳日:2021-06-15 16:13:28 公開日:2021-06-12
# Pseudo Label-wise Attention Network for Automatic ICD Coding

A Pseudo Label-wise Attention Network for Automatic ICD Coding ( http://arxiv.org/abs/2106.06822v1 )

ライセンス: Link先を確認
Yifan Wu, Min Zeng, Ying Yu, Min Li(参考訳) 自動病原体分類(ICD)符号化はテキスト多ラベル分類問題の一種として定義されており,ラベルの数がとても多く,ラベルの分布が不均衡であるため難しい。 ラベルワイドアテンション機構は、異なるICD符号に対して完全な電子医療記録(EMR)に含まれる全ての単語に重みを割り当てることができるため、自動ICD符号化において広く用いられている。 しかし,ラベル単位の注意機構は冗長であり,コストがかかる。 本稿では,この問題に取り組むための擬似ラベルワイズ注意機構を提案する。 異なるICD符号の異なるアテンションモードを計算する代わりに、擬似ラベル対応アテンション機構が自動的に類似のICD符号とマージし、類似のICD符号のアテンションモードを1つだけ計算し、アテンションモードの数を大幅に圧縮し、予測精度を向上させる。 さらに, より便利かつ効果的にICDベクトルを得る方法を適用することにより, EMRベクトルとICDベクトルとの類似性を計算することにより, 新しいICD符号を予測できる。 広範な実験により,モデルの性能が向上した。 パブリックMIMIC-IIIデータセットとプライベートXiangyaデータセットでは,それぞれ0.575と0.796のマイクロf1を達成した。 さらに、新しいICD符号の予測におけるモデルの有効性を検証する。 本ケーススタディでは擬似ラベルワイズアテンションがどのように機能するかを示し,擬似ラベルワイズアテンション機構の有効性を示す。

Automatic International Classification of Diseases (ICD) coding is defined as a kind of text multi-label classification problem, which is difficult because the number of labels is very large and the distribution of labels is unbalanced. The label-wise attention mechanism is widely used in automatic ICD coding because it can assign weights to every word in full Electronic Medical Records (EMR) for different ICD codes. However, the label-wise attention mechanism is computational redundant and costly. In this paper, we propose a pseudo label-wise attention mechanism to tackle the problem. Instead of computing different attention modes for different ICD codes, the pseudo label-wise attention mechanism automatically merges similar ICD codes and computes only one attention mode for the similar ICD codes, which greatly compresses the number of attention modes and improves the predicted accuracy. In addition, we apply a more convenient and effective way to obtain the ICD vectors, and thus our model can predict new ICD codes by calculating the similarities between EMR vectors and ICD vectors. Extensive experiments show the superior performance of our model. On the public MIMIC-III dataset and private Xiangya dataset, our model achieves micro f1 of 0.575 and 0.796, respectively, which outperforms other competing models. Furthermore, we verify the ability of our model in predicting new ICD codes. The case study shows how pseudo label-wise attention works, and demonstrates the effectiveness of pseudo label-wise attention mechanism.
翻訳日:2021-06-15 16:13:12 公開日:2021-06-12
# 空間ネットワークの計画

Planning Spatial Networks ( http://arxiv.org/abs/2106.06768v1 )

ライセンス: Link先を確認
Victor-Alexandru Darvariu, Stephen Hailes, Mirco Musolesi(参考訳) 目標指向グラフ構築の問題に対処する: 開始グラフ、大域的目的関数(通信効率など)、修正予算が与えられた場合、グラフに追加することで目的を最大に改善するエッジの集合を見つけることを目的とする。 この問題は、交通や重要なインフラネットワークといった社会にとって非常に重要な多くのネットワークに現れる。 本手法では2つの重大な欠点を同定する。 まず、空間情報を無視しながら、ネットワークトポロジにのみフォーカスするが、多くの現実世界のネットワークでは、ノードは空間に埋め込まれ、異なるグローバルな目的を導き、実現可能な接続の範囲と密度を管理する。 第二に、既存のRL手法は、モデルのトレーニングに高いコストと、アクション空間のスケーリング要因とグローバルな目的のために、大規模ネットワークに対して低スケールである。 本研究では,決定論的 MDP として空間ネットワークの目的指向構築の問題を定式化する。 我々は、政策評価の速度よりも最終解の最適性を優先して、この領域の計画にモンテカルロ木探索フレームワークを採用する。 本稿では,本問題に対する標準の uct アルゴリズムに対するいくつかの改良を提案し,その単一エージェント性,エッジのコストと目的への貢献のトレードオフ,ノード数に線形なアクション空間について述べる。 提案手法は,インターネットバックボーンネットワークやメトロシステムを含む,多種多様な合成および実世界のネットワークのグローバル効率向上と攻撃レジリエンス向上に有効であることを示す。 テスト対象の最大ネットワークにおけるUTTに比べて平均24%優れた解が得られ,従来手法よりもスケーラビリティが向上した。

We tackle the problem of goal-directed graph construction: given a starting graph, a global objective function (e.g., communication efficiency), and a budget of modifications, the aim is to find a set of edges whose addition to the graph maximally improves the objective. This problem emerges in many networks of great importance for society such as transportation and critical infrastructure networks. We identify two significant shortcomings with present methods. Firstly, they focus exclusively on network topology while ignoring spatial information; however, in many real-world networks, nodes are embedded in space, which yields different global objectives and governs the range and density of realizable connections. Secondly, existing RL methods scale poorly to large networks due to the high cost of training a model and the scaling factors of the action space and global objectives. In this work, we formulate the problem of goal-directed construction of spatial networks as a deterministic MDP. We adopt the Monte Carlo Tree Search framework for planning in this domain, prioritizing the optimality of final solutions over the speed of policy evaluation. We propose several improvements over the standard UCT algorithm for this family of problems, addressing their single-agent nature, the trade-off between the costs of edges and their contribution to the objective, and an action space linear in the number of nodes. We demonstrate the suitability of this approach for improving the global efficiency and attack resilience of a variety of synthetic and real-world networks, including Internet backbone networks and metro systems. We obtain 24% better solutions on average compared to UCT on the largest networks tested, and scalability superior to previous methods.
翻訳日:2021-06-15 16:10:00 公開日:2021-06-12
# 多フレーム脳波画像に対するクロスオブジェクト領域適応

Cross-Subject Domain Adaptation for Multi-Frame EEG Images ( http://arxiv.org/abs/2106.06769v1 )

ライセンス: Link先を確認
Junfu Chen, Yang Chen, Bi Wang(参考訳) ワーキングメモリ(WM)は、人間の認知の基本的な部分であり、人間の認知負荷の研究において重要な役割を果たす。 様々な脳波イメージング技術の中で、脳波検査は容易なアクセスと信頼性の利点を示している。 しかし、重要な課題の1つは、特に確立されたモデルが不慣れな主題に合う場合、個人差が非効率な結果を引き起こす可能性があることである。 本研究では,空間的注意(cs-dasa)を用いた作業負荷分類を一般化するクロスサブジェクト型深層適応モデルを提案する。 まず,時系列脳波データを時空間情報を含む多フレーム脳波画像に変換する。 まず、CS-DASAの被写体共有モジュールは、ソースとターゲットの両方から多フレーム脳波画像データを受け取り、共通の特徴表現を学習する。 そして、被写体固有のモジュールにおいて、再生されたカーネルヒルベルト空間における領域分布のばらつきを測定するために、最大平均誤差を実装し、ドメイン適応に効果的なペナルティ損失を与える。 さらに、脳波画像データにおける最も識別性の高い空間特徴に焦点をあてるために、主観的対象空間注意機構を用いる。 13の被験者を含むパブリックなWM EEGデータセットで行った実験は、提案モデルが既存の最先端技術よりも優れた性能が得られることを示している。

Working memory (WM) is a basic part of human cognition, which plays an important role in the study of human cognitive load. Among various brain imaging techniques, electroencephalograp hy has shown its advantage on easy access and reliability. However, one of the critical challenges is that individual difference may cause the ineffective results, especially when the established model meets an unfamiliar subject. In this work, we propose a cross-subject deep adaptation model with spatial attention (CS-DASA) to generalize the workload classifications across subjects. First, we transform time-series EEG data into multi-frame EEG images incorporating more spatio-temporal information. First, the subject-shared module in CS-DASA receives multi-frame EEG image data from both source and target subjects and learns the common feature representations. Then, in subject-specific module, the maximum mean discrepancy is implemented to measure the domain distribution divergence in a reproducing kernel Hilbert space, which can add an effective penalty loss for domain adaptation. Additionally, the subject-to-subject spatial attention mechanism is employed to focus on the most discriminative spatial feature in EEG image data. Experiments conducted on a public WM EEG dataset containing 13 subjects show that the proposed model is capable of achieve better performance than existing state-of-the art methods.
翻訳日:2021-06-15 16:09:35 公開日:2021-06-12
# マルチコンテキストシステム:ダイナミクスと進化("ダイナミック環境におけるマルチコンテキストシステム"のプレプリント)

Multi-Context Systems: Dynamics and Evolution (Pre-Print of "Multi-context systems in dynamic environments") ( http://arxiv.org/abs/2106.06780v1 )

ライセンス: Link先を確認
Pedro Cabalar and Stefania Costantini and Giovanni De Gasperis and Andrea Formisano(参考訳) 計算論理系におけるマルチコンテキストシステム(MCS)モデルは「ブリッジルール」と呼ばれる特別なルールを介して相互作用する異種ソース("contexts")から構成される。 本稿では,橋梁ルール定義および適用における柔軟性と汎用性の向上について考察する。 特に、動的環境における実践的利用に役立つMCSの形式的拡張について紹介し、議論し、実装ガイドラインの提供を試みる。

Multi-Context Systems (MCS) model in Computational Logic distributed systems composed of heterogeneous sources, or "contexts", interacting via special rules called "bridge rules". In this paper, we consider how to enhance flexibility and generality in bridge-rules definition and application. In particular, we introduce and discuss some formal extensions of MCSs useful for a practical use in dynamic environments, and we try to provide guidelines for implementations
翻訳日:2021-06-15 16:09:12 公開日:2021-06-12
# 第1回YouTubeVOS Challenge 2021: Video Instance Segmentation

1st Place Solution for YouTubeVOS Challenge 2021:Video Instance Segmentation ( http://arxiv.org/abs/2106.06649v1 )

ライセンス: Link先を確認
Thuy C. Nguyen, Tuan N. Tang, Nam LH. Phan, Chuong H. Nguyen, Masayuki Yamazaki, Masao Yamanaka(参考訳) ビデオインスタンスセグメンテーション(VIS)は、検出、セグメンテーション、トラッキングを同時に実行するマルチタスク問題である。 画像セットアプリケーションから拡張され、ビデオデータはさらに時間情報を誘導し、適切に処理すれば、物体の動きを識別し予測するのに非常に有用である。 本研究では,これらのタスクを相互に学習するための統一モデルを設計する。 具体的には,オブジェクトのインスタンスマスクと隣接フレーム間の時間相関の利点を享受するために,時間相関インスタンスセグメンテーション(tcis)と双方向追跡(bitrack)という2つのモジュールを提案する。 一方、フレームの重複のため、ビデオデータは冗長であることが多い。 解析の結果,YoutubeVOS-VIS2021データではこの問題が特に深刻であることがわかった。 そこで本稿では,データ不足を補うためのマルチソースデータ(MSD)トレーニング機構を提案する。 これらのテクニックをトリックの袋と組み合わせることで、ネットワークのパフォーマンスはベースラインよりも大幅に向上し、YoutubeVOS-VIS 2019と2021データセットにおいて、他の手法よりもかなり優れています。

Video Instance Segmentation (VIS) is a multi-task problem performing detection, segmentation, and tracking simultaneously. Extended from image set applications, video data additionally induces the temporal information, which, if handled appropriately, is very useful to identify and predict object motions. In this work, we design a unified model to mutually learn these tasks. Specifically, we propose two modules, named Temporally Correlated Instance Segmentation (TCIS) and Bidirectional Tracking (BiTrack), to take the benefit of the temporal correlation between the object's instance masks across adjacent frames. On the other hand, video data is often redundant due to the frame's overlap. Our analysis shows that this problem is particularly severe for the YoutubeVOS-VIS2021 data. Therefore, we propose a Multi-Source Data (MSD) training mechanism to compensate for the data deficiency. By combining these techniques with a bag of tricks, the network performance is significantly boosted compared to the baseline, and outperforms other methods by a considerable margin on the YoutubeVOS-VIS 2019 and 2021 datasets.
翻訳日:2021-06-15 16:05:35 公開日:2021-06-12
# 変形可能なオブジェクト表現のための構造規則化アテンション

Structure-Regularize d Attention for Deformable Object Representation ( http://arxiv.org/abs/2106.06672v1 )

ライセンス: Link先を確認
Shenao Zhang, Li Shen, Zhifeng Li, Wei Liu(参考訳) コンテキスト依存のキャプチャは、ディープニューラルネットワークの表現力を改善する上で有用であることが証明されている。 自己注意や非局所操作といったグローバルコンテキストのモデリングに焦点をあてた近年のアプローチは、要素間の制約のないペアワイズ相互作用を可能にすることで、この目標を達成する。 本研究では,データに内在する構造的依存関係をモデル化することで,文脈利用のメリットを享受できる変形可能なオブジェクトの学習表現を検討する。 この目的のために, 軽量操作の対を用いて特徴的相互作用を構造的因子化として定式化する新しい構造正規化注意機構を提案する。 インスタンス化されたビルディングブロックは、現代の畳み込みニューラルネットワークに直接組み込むことができ、効率的な表現力を高めることができる。 複数のタスクに関する包括的研究と、現代の注意メカニズムとの比較は、性能とモデルの複雑さの両方の観点から、この手法がもたらした利益を示しています。 さらに,その特徴表現への影響についても検討し,訓練したモデルが,余分な監督を必要とせずに,対象部品を特徴付ける多様な表現をキャプチャできることを示した。

Capturing contextual dependencies has proven useful to improve the representational power of deep neural networks. Recent approaches that focus on modeling global context, such as self-attention and non-local operation, achieve this goal by enabling unconstrained pairwise interactions between elements. In this work, we consider learning representations for deformable objects which can benefit from context exploitation by modeling the structural dependencies that the data intrinsically possesses. To this end, we provide a novel structure-regularize d attention mechanism, which formalizes feature interaction as structural factorization through the use of a pair of light-weight operations. The instantiated building blocks can be directly incorporated into modern convolutional neural networks, to boost the representational power in an efficient manner. Comprehensive studies on multiple tasks and empirical comparisons with modern attention mechanisms demonstrate the gains brought by our method in terms of both performance and model complexity. We further investigate its effect on feature representations, showing that our trained models can capture diversified representations characterizing object parts without resorting to extra supervision.
翻訳日:2021-06-15 16:05:18 公開日:2021-06-12
# multistream validnet:自動マルチストリーム検証による6次元オブジェクトポーズ推定の改善

Multistream ValidNet: Improving 6D Object Pose Estimation by Automatic Multistream Validation ( http://arxiv.org/abs/2106.06684v1 )

ライセンス: Link先を確認
Joy Mazumder, Mohsen Zand, and Michael Greenspan(参考訳) 本研究は,真正と偽陽性の出現を検出・識別することにより,ポーズ推定の結果を改善する新しい手法を提案する。 これにより、任意のポーズ推定アルゴリズムの出力にバイナリ分類器をトレーニングし、結果の有効性を示すバイナリラベルを返す。 提案手法は,sil\'eaneデータセットにおける最先端のポーズ推定結果に基づき,平均クラス精度で4.15%,バリデーションで0.73%の精度でオルタナティブ・カルネット法の変動を上回った。 また,Op-Netのポーズ推定平均精度を平均6.06%向上させることができる。

This work presents a novel approach to improve the results of pose estimation by detecting and distinguishing between the occurrence of True and False Positive results. It achieves this by training a binary classifier on the output of an arbitrary pose estimation algorithm, and returns a binary label indicating the validity of the result. We demonstrate that our approach improves upon a state-of-the-art pose estimation result on the Sil\'eane dataset, outperforming a variation of the alternative CullNet method by 4.15% in average class accuracy and 0.73% in overall accuracy at validation. Applying our method can also improve the pose estimation average precision results of Op-Net by 6.06% on average.
翻訳日:2021-06-15 16:04:59 公開日:2021-06-12
# 一般画像分類器の訓練のための逆エンジニアリングによる乳幼児中心視点の分布構造

Reverse-engineer the Distributional Structure of Infant Egocentric Views for Training Generalizable Image Classifiers ( http://arxiv.org/abs/2106.06694v1 )

ライセンス: Link先を確認
Satoshi Tsutsui, David Crandall, Chen Yu(参考訳) 幼児の物体の自己中心的視点を分析した。 1) 幼児の自己中心的視点が成人の視点よりも多様な分布を持つこと, 2) 幼児の分布を計算的にシミュレートできること, 3) 乳児の自己中心的視覚だけでなく, 3人目のコンピュータビジョンに対しても,より一般化した画像分類器の訓練に有効であること,の実証的証拠を示す。

We analyze egocentric views of attended objects from infants. This paper shows 1) empirical evidence that children's egocentric views have more diverse distributions compared to adults' views, 2) we can computationally simulate the infants' distribution, and 3) the distribution is beneficial for training more generalized image classifiers not only for infant egocentric vision but for third-person computer vision.
翻訳日:2021-06-15 16:04:44 公開日:2021-06-12
# DS-TransUNet:Dual Swin Transformer U-Net for Medical Image Segmentation

DS-TransUNet:Dual Swin Transformer U-Net for Medical Image Segmentation ( http://arxiv.org/abs/2106.06716v1 )

ライセンス: Link先を確認
Ailiang Lin, Bingzhi Chen, Jiayu Xu, Zheng Zhang, Guangming Lu(参考訳) 医用画像の自動分割は、深層学習の発展によって大きな進歩をもたらした。 しかし、既存の手法のほとんどは畳み込みニューラルネットワーク(cnns)に基づいており、畳み込み操作における受容フィールドの制限のため、長距離依存関係とグローバルコンテキスト接続を構築することができない。 長距離文脈情報のモデリングにおけるTransformerの成功に触発された研究者の中には、TransformerベースのU-Netの堅牢な変形を設計するための多大な努力を経験している者もいる。 さらに、視覚トランスフォーマーで使用されるパッチ分割は通常、各パッチ内のピクセルレベルの固有の構造的特徴を無視する。 そこで本研究では,標準u字型アーキテクチャのエンコーダとデコーダの両方に階層型swinトランスフォーマの利点を同時に取り入れて,医用画像の意味的セグメンテーション品質を向上させるための,dual swin transformer u-net (ds-transunet) と呼ばれる新しい深層医用画像セグメンテーションフレームワークを提案する。 従来のTransformerベースのソリューションとは異なり、提案されたDS-TransUNetはまずSwin Transformerをベースとしたデュアルスケールエンコーダサブネットを採用し、異なる意味尺度の粗くきめ細かな特徴表現を抽出する。 DS-TransUNetのコアコンポーネントであるTransformer Interactive Fusion (TIF)モジュールは,自己保持機構を通じて異なるスケールの特徴間のグローバルな依存関係を効果的に確立するために提案されている。 さらに,Swin Transformerブロックをデコーダに導入して,アップサンプリングプロセス中の長距離コンテキスト情報をさらに探索する。 医用画像分割のための4つの典型的なタスクにわたる広範囲な実験により,ds-transunetの有効性が示された。

Automatic medical image segmentation has made great progress benefit from the development of deep learning. However, most existing methods are based on convolutional neural networks (CNNs), which fail to build long-range dependencies and global context connections due to the limitation of receptive field in convolution operation. Inspired by the success of Transformer in modeling the long-range contextual information, some researchers have expended considerable efforts in designing the robust variants of Transformer-based U-Net. Moreover, the patch division used in vision transformers usually ignores the pixel-level intrinsic structural features inside each patch. To alleviate these problems, we propose a novel deep medical image segmentation framework called Dual Swin Transformer U-Net (DS-TransUNet), which might be the first attempt to concurrently incorporate the advantages of hierarchical Swin Transformer into both encoder and decoder of the standard U-shaped architecture to enhance the semantic segmentation quality of varying medical images. Unlike many prior Transformer-based solutions, the proposed DS-TransUNet first adopts dual-scale encoder subnetworks based on Swin Transformer to extract the coarse and fine-grained feature representations of different semantic scales. As the core component for our DS-TransUNet, a well-designed Transformer Interactive Fusion (TIF) module is proposed to effectively establish global dependencies between features of different scales through the self-attention mechanism. Furthermore, we also introduce the Swin Transformer block into decoder to further explore the long-range contextual information during the up-sampling process. Extensive experiments across four typical tasks for medical image segmentation demonstrate the effectiveness of DS-TransUNet, and show that our approach significantly outperforms the state-of-the-art methods.
翻訳日:2021-06-15 16:04:33 公開日:2021-06-12
# Go Small and similar: 単純なアウトプットの減少によってパフォーマンスが向上

Go Small and Similar: A Simple Output Decay Brings Better Performance ( http://arxiv.org/abs/2106.06726v1 )

ライセンス: Link先を確認
Xuan Cheng, Tianshu Xie, Xiaomin Wang, Jiali Deng, Minghui Liu, Ming Liu(参考訳) 正規化とデータ拡張手法は広く使われており、ディープラーニングトレーニングではますます不可欠になっている。 これに専念する研究者は様々な可能性を検討してきた。 しかし、これまでのところ、モデルのアウトプットの正規化についてはほとんど議論がなかった。 本稿では,平均値と分散値がより小さい出力分布に優れた性能が深く関連しているという経験的観察から始める。 因果関係があると大胆に仮定することで、出力減衰と呼ばれる新しい正規化項を提案し、モデルが各クラスに小さく類似した出力値を割り当てることを強制する。 直観に反するが、このような小さな変更はパフォーマンスに著しい改善をもたらす。 広範な実験により、幅広い適用性、汎用性、出力崩壊の互換性が示されている。

Regularization and data augmentation methods have been widely used and become increasingly indispensable in deep learning training. Researchers who devote themselves to this have considered various possibilities. But so far, there has been little discussion about regularizing outputs of the model. This paper begins with empirical observations that better performances are significantly associated with output distributions, that have smaller average values and variances. By audaciously assuming there is causality involved, we propose a novel regularization term, called Output Decay, that enforces the model to assign smaller and similar output values on each class. Though being counter-intuitive, such a small modification result in a remarkable improvement on performance. Extensive experiments demonstrate the wide applicability, versatility, and compatibility of Output Decay.
翻訳日:2021-06-15 16:04:02 公開日:2021-06-12
# deepmmsa : 非小細胞肺癌生存率解析のための新しいマルチモーダル深層学習法

DeepMMSA: A Novel Multimodal Deep Learning Method for Non-small Cell Lung Cancer Survival Analysis ( http://arxiv.org/abs/2106.06744v1 )

ライセンス: Link先を確認
Yujiao Wu, Jie Ma, Xiaoshui Huang, Sai Ho Ling, and Steven Weidong Su(参考訳) 肺がんは世界中でがんの死因となっている。 死因は診断の遅れと予後不良である。 深層学習技術の発展が加速し、医療画像解釈や疾患診断などの健康分野を含む多くの現実の応用に広く応用されている。 情報処理に関わるモダリティをより多く組み合わせることで、マルチモーダル学習はより良い特徴を抽出し、予測能力を向上させることができる。 従来の肺癌生存率解析法は臨床データを用いており、統計的確率のみを提供する。 臨床実習における生存予測精度の向上と予後決定を支援するため,我々は,非小細胞肺癌(NSCLC)生存率分析のためのマルチモーダルディープラーニング法(DeepMMSA)を初めて提案した。 臨床データと組み合わせてCT画像を活用することにより、医用画像内の豊富な情報を肺がん生存情報に関連付けることができる。 The Cancer Imaging Archive (TCIA) のNSCLC患者422名について検討した。 実験結果から, 予後情報と放射線画像の関連性が示唆された。 また, 確立されたマルチモーダルモデルが従来の手法に適用可能であり, 既存手法のボトルネックを解消し, 全体のコンコルダント対(右予測ペア)の割合を4%増加させる可能性を示唆する定量的な結果が得られた。

Lung cancer is the leading cause of cancer death worldwide. The critical reason for the deaths is delayed diagnosis and poor prognosis. With the accelerated development of deep learning techniques, it has been successfully applied extensively in many real-world applications, including health sectors such as medical image interpretation and disease diagnosis. By combining more modalities that being engaged in the processing of information, multimodal learning can extract better features and improve predictive ability. The conventional methods for lung cancer survival analysis normally utilize clinical data and only provide a statistical probability. To improve the survival prediction accuracy and help prognostic decision-making in clinical practice for medical experts, we for the first time propose a multimodal deep learning method for non-small cell lung cancer (NSCLC) survival analysis, named DeepMMSA. This method leverages CT images in combination with clinical data, enabling the abundant information hold within medical images to be associate with lung cancer survival information. We validate our method on the data of 422 NSCLC patients from The Cancer Imaging Archive (TCIA). Experimental results support our hypothesis that there is an underlying relationship between prognostic information and radiomic images. Besides, quantitative results showing that the established multimodal model can be applied to traditional method and has the potential to break bottleneck of existing methods and increase the the percentage of concordant pairs(right predicted pairs) in overall population by 4%.
翻訳日:2021-06-15 16:03:52 公開日:2021-06-12
# エントロピーディフレクションを用いた映像品質評価

Evaluating Foveated Video Quality Using Entropic Differencing ( http://arxiv.org/abs/2106.06817v1 )

ライセンス: Link先を確認
Yize Jin, Anjul Patney, Alan Bovik(参考訳) ハードウェア技術の最近の進歩により、仮想現実は再び注目を集めている。 没入型画像/映像は全方位視覚情報を運ぶために広く採用されている。 しかし,実映像データの空間分解能や時間分解能が要求されるため,没入型ビデオの帯域幅は大幅に増大する。 帯域幅に対するストレスを軽減するため、フォベートビデオ圧縮の人気が回復し、網膜の空間的解像度が悪用される。 そこで我々は,FED(Foveated Entropic Differentencing)と呼ばれる,FED(Froveated Entropic Differentencing)と呼ばれるフルリファレンス画像品質評価アルゴリズムを提案する。 提案アルゴリズムは,FEDが新たに作成した2Dおよび3D LIVE-FBT-FCVRデータベース上での人間の判断に対して行う予測の相関性を測定して評価する。 提案アルゴリズムの性能は,既存の全参照アルゴリズムと比較して最先端である。 FEDのソフトウェアは、http://live.ece.utex as.edu/research/Qual ity/FED.zipで公開されている。

Virtual Reality is regaining attention due to recent advancements in hardware technology. Immersive images / videos are becoming widely adopted to carry omnidirectional visual information. However, due to the requirements for higher spatial and temporal resolution of real video data, immersive videos require significantly larger bandwidth consumption. To reduce stresses on bandwidth, foveated video compression is regaining popularity, whereby the space-variant spatial resolution of the retina is exploited. Towards advancing the progress of foveated video compression, we propose a full reference (FR) foveated image quality assessment algorithm, which we call foveated entropic differencing (FED), which employs the natural scene statistics of bandpass responses by applying differences of local entropies weighted by a foveation-based error sensitivity function. We evaluate the proposed algorithm by measuring the correlations of the predictions that FED makes against human judgements on the newly created 2D and 3D LIVE-FBT-FCVR databases for Virtual Reality (VR). The performance of the proposed algorithm yields state-of-the-art as compared with other existing full reference algorithms. Software for FED has been made available at: http://live.ece.utex as.edu/research/Qual ity/FED.zip
翻訳日:2021-06-15 16:03:29 公開日:2021-06-12
# ビデオ超解像トランス

Video Super-Resolution Transformer ( http://arxiv.org/abs/2106.06847v1 )

ライセンス: Link先を確認
Jiezhang Cao, Yawei Li, Kai Zhang, Luc Van Gool(参考訳) ビデオ超解像(VSR)は、高解像度映像を対応する低解像度バージョンから復元することを目的としており、時空間シーケンス予測問題である。 近年,シークエンス・ツー・シーケンス・モデリングの並列計算能力により,Transformerが普及している。 したがって、視覚変換器をVSRの解法に適用することは容易である。 しかしながら、完全接続された自己接続層とトークン指向のフィードフォワード層を持つトランスの典型的なブロック設計は、以下の2つの理由からvsrには適さない。 第一に、完全接続されたセルフアテンション層は、注意マップを計算するために線形層に依存するため、データの局所性を利用するのを怠る。 第2に、トークンワイドフィードフォワード層は、VSRにとって重要な特徴アライメントを欠いている。 本稿では,VSR に Transformer を適用するための最初の試みを行う。 具体的には,まず,局所性情報を利用した理論的理解を伴う空間的時間的畳み込み自己認識層を提案する。 第2の課題として,双方向光フロー型フィードフォワード層をデザインし,異なる映像フレーム間の相関を探索し,特徴を整合させる。 いくつかのベンチマークデータセットに対する大規模な実験により,提案手法の有効性が示された。 コードはhttps://github.com/c aojiezhang/vsr-trans formerで入手できる。

Video super-resolution (VSR), with the aim to restore a high-resolution video from its corresponding low-resolution version, is a spatial-temporal sequence prediction problem. Recently, Transformer has been gaining popularity due to its parallel computing ability for sequence-to-sequence modeling. Thus, it seems to be straightforward to apply the vision Transformer to solve VSR. However, the typical block design of Transformer with a fully connected self-attention layer and a token-wise feed-forward layer does not fit well for VSR due to the following two reasons. First, the fully connected self-attention layer neglects to exploit the data locality because this layer relies on linear layers to compute attention maps. Second, the token-wise feed-forward layer lacks the feature alignment which is important for VSR since this layer independently processes each of the input token embeddings without any interaction among them. In this paper, we make the first attempt to adapt Transformer for VSR. Specifically, to tackle the first issue, we present a spatial-temporal convolutional self-attention layer with a theoretical understanding to exploit the locality information. For the second issue, we design a bidirectional optical flow-based feed-forward layer to discover the correlations across different video frames and also align features. Extensive experiments on several benchmark datasets demonstrate the effectiveness of our proposed method. The code will be available at https://github.com/c aojiezhang/VSR-Trans former.
翻訳日:2021-06-15 16:03:07 公開日:2021-06-12
# DyGLIP: 高精度マルチカメラ多目的追跡のためのリンク予測付き動的グラフモデル

DyGLIP: A Dynamic Graph Model with Link Prediction for Accurate Multi-Camera Multiple Object Tracking ( http://arxiv.org/abs/2106.06856v1 )

ライセンス: Link先を確認
Kha Gia Quach, Pha Nguyen, Huu Le, Thanh-Dat Truong, Chi Nhan Duong, Minh-Triet Tran, Khoa Luu(参考訳) マルチカメラマルチオブジェクトトラッキング(mc-mot)は、いくつかの実世界のアプリケーションで新たに適用できるため、コンピュータビジョンの重要な問題である。 多くの既存の作業にもかかわらず、MC-MOTパイプラインにおけるデータアソシエーションの問題を解決することは、間違いなく最も難しいタスクの1つである。 しかし、堅牢なMC-MOTシステムの開発は、一貫性のない照明条件、様々な物体の動きパターン、カメラ間の物体の軌道閉塞など、多くの実用的な問題のために、依然として非常に困難である。 これらの問題に対処するため、この研究は、データアソシエーションタスクを解決するために、リンク予測(DyGLIP)を用いた新しい動的グラフモデルを提案する。 既存手法と比較して,我々の新しいモデルには,機能表現の改善や,カメラ移行時に失われたトラックから回復する機能など,いくつかの利点がある。 さらに、カメラ間の重なり合いによらず、我々のモデルは良好に機能する。 実験結果から,既存のMC-MOTアルゴリズムよりも,いくつかの実用的なデータセットに対して大きな差があることが判明した。 特に、我々のモデルはオンライン設定でうまく機能するが、大規模データセットの漸進的なアプローチに拡張できる。

Multi-Camera Multiple Object Tracking (MC-MOT) is a significant computer vision problem due to its emerging applicability in several real-world applications. Despite a large number of existing works, solving the data association problem in any MC-MOT pipeline is arguably one of the most challenging tasks. Developing a robust MC-MOT system, however, is still highly challenging due to many practical issues such as inconsistent lighting conditions, varying object movement patterns, or the trajectory occlusions of the objects between the cameras. To address these problems, this work, therefore, proposes a new Dynamic Graph Model with Link Prediction (DyGLIP) approach to solve the data association task. Compared to existing methods, our new model offers several advantages, including better feature representations and the ability to recover from lost tracks during camera transitions. Moreover, our model works gracefully regardless of the overlapping ratios between the cameras. Experimental results show that we outperform existing MC-MOT algorithms by a large margin on several practical datasets. Notably, our model works favorably on online settings but can be extended to an incremental approach for large-scale datasets.
翻訳日:2021-06-15 16:02:44 公開日:2021-06-12
# 表現学習による多経路領域間の証明可能な適応

Provable Adaptation across Multiway Domains via Representation Learning ( http://arxiv.org/abs/2106.06657v1 )

ライセンス: Link先を確認
Zhili Feng, Shaobo Han, Simon S. Du(参考訳) 本稿では,各ドメインが多次元配列にインデックス付けされるゼロショット領域適応について検討する。 私たちの目標は、 \emph{unseen}領域でうまく機能する予測器を作ることです。 本稿では,低ランクテンソル構造を持つドメイン不変潜在表現層とドメイン固有線形予測層からなるモデルを提案する。 理論的には、トレーニングデータを持つドメイン数とドメインごとのデータ数という観点から、未知のドメインの予測誤差を特徴付けるために、明示的なサンプル複雑性境界を示す。 我々の知る限り、これはゼロショット領域適応に対する最初の有限サンプル保証である。 さらに,本モデルの有効性を示すために,2方向MNISTと4方向ファイバーセンシングデータセットの実験を行った。

This paper studies zero-shot domain adaptation where each domain is indexed on a multi-dimensional array, and we only have data from a small subset of domains. Our goal is to produce predictors that perform well on \emph{unseen} domains. We propose a model which consists of a domain-invariant latent representation layer and a domain-specific linear prediction layer with a low-rank tensor structure. Theoretically, we present explicit sample complexity bounds to characterize the prediction error on unseen domains in terms of the number of domains with training data and the number of data per domain. To our knowledge, this is the first finite-sample guarantee for zero-shot domain adaptation. In addition, we provide experiments on two-way MNIST and four-way fiber sensing datasets to demonstrate the effectiveness of our proposed model.
翻訳日:2021-06-15 15:51:30 公開日:2021-06-12
# 画素球面の同変ネットワーク

Equivariant Networks for Pixelized Spheres ( http://arxiv.org/abs/2106.06662v1 )

ライセンス: Link先を確認
Mehran Shakerinava, Siamak Ravanbakhsh(参考訳) 立方体やイコサヘドロンのようなプラトン固体のピクセル化は、気候記録から宇宙マイクロ波背景マップまで球面データを表現するために広く使われている。 プラトン固体は、よく知られたグローバル対称性を持つ。 固体の各面をピクセル化すると、各面はユークリッド等距離の形で独自の局所対称性を持つ。 これらの対称性を結合する一つの方法は階層である。 しかし、このアプローチは2つの対称性変換の間の相互作用を適切にモデル化しない。 この相互作用を群論のアイデアを用いてモデル化する方法を示し、同変線型写像を同定し、これらの対称性を尊重する同変パディングを導入する。 これらのマップをビルディングブロックとして使用するディープネットワークは、ピクセル化された球面上のゲージ同変cnnを一般化する。 これらの深層ネットワークは、気候データと全方位画像処理のためのセマンティックセグメンテーションの最先端の結果を得る。 コードはhttps://git.io/jgiza で入手できる。

Pixelizations of Platonic solids such as the cube and icosahedron have been widely used to represent spherical data, from climate records to Cosmic Microwave Background maps. Platonic solids have well-known global symmetries. Once we pixelize each face of the solid, each face also possesses its own local symmetries in the form of Euclidean isometries. One way to combine these symmetries is through a hierarchy. However, this approach does not adequately model the interplay between the two levels of symmetry transformations. We show how to model this interplay using ideas from group theory, identify the equivariant linear maps, and introduce equivariant padding that respects these symmetries. Deep networks that use these maps as their building blocks generalize gauge equivariant CNNs on pixelized spheres. These deep networks achieve state-of-the-art results on semantic segmentation for climate data and omnidirectional image processing. Code is available at https://git.io/JGiZA .
翻訳日:2021-06-15 15:51:18 公開日:2021-06-12
# 半教師型アクティブ回帰

Semi-supervised Active Regression ( http://arxiv.org/abs/2106.06676v1 )

ライセンス: Link先を確認
Fnu Devvrit, Nived Rajaraman, Pranjal Awasthi(参考訳) ラベル付けされたデータは、人の採用やコストのかかる実験を必要とするため、しばしばコストがかかる。 同時に、多くの実践シナリオでは、すでに部分的にラベル付けされた潜在的なバイアスのあるデータセットにアクセスでき、学習タスクを手元で支援することができる。 このような設定に触発され、線形回帰のフレームを通して$semi-supervised$$ac tive$ $learning$の研究を開始する。 この設定では、学習者はアルゴリズムが積極的に問い合わせ可能な$n_1$の非ラベル例と、a-prioriとラベル付けされた$n_2$の例からなるデータセット$x \in \mathbb{r}^{(n_1+n_2) \times d}$にアクセスすることができる。 具体的には、真のラベルを$y \in \mathbb{r}^{n_1 + n_2}$ で表すと、学習者の目標は$\widehat{\beta} \in \mathbb{r}^d$ を見つけることであり、それゆえ、{begin{equation} \|x \widehat{\beta} - y \|_2^2 \le (1 + \epsilon) \min_{\beta \in \mathbb{r}^d} \| x \beta - y \|_22 \end{equation} を可能な限り追加する。 ラベルクエリをバインドするために,$r_x$ で表される還元ランクと呼ばれるインスタンス依存パラメータを導入し,クエリ複雑性 $o(r_x/\epsilon)$ を持つ効率的なアルゴリズムを提案する。 この結果は、 (i) アクティブリッジ回帰(英語版)と (ii) アクティブカーネルリッジ回帰(英語版)の2つの重要な特殊ケースにおける上界の改善を直接的に意味している: (i) アクティブリッジ回帰(英語版)、および (ii) アクティブカーネルリッジ回帰(英語版)、そこで、縮小ランクは統計次元に等しく、$sd_\lambda$と実次元は$d_\lambda$、$d_\lambda$、$\lambda \ge 0$は正規化パラメータを表す。 アクティブリッジ回帰では、任意のアルゴリズムのクエリの複雑さに基づいて$o(sd_\lambda / \epsilon)$が一致することを証明します。 これは、正規化されていないケースのみを考慮した以前の作業、すなわち$\lambda = 0$を仮定する。

Labelled data often comes at a high cost as it may require recruiting human labelers or running costly experiments. At the same time, in many practical scenarios, one already has access to a partially labelled, potentially biased dataset that can help with the learning task at hand. Motivated by such settings, we formally initiate a study of $semi-supervised$ $active$ $learning$ through the frame of linear regression. In this setting, the learner has access to a dataset $X \in \mathbb{R}^{(n_1+n_2) \times d}$ which is composed of $n_1$ unlabelled examples that an algorithm can actively query, and $n_2$ examples labelled a-priori. Concretely, denoting the true labels by $Y \in \mathbb{R}^{n_1 + n_2}$, the learner's objective is to find $\widehat{\beta} \in \mathbb{R}^d$ such that, \begin{equation} \| X \widehat{\beta} - Y \|_2^2 \le (1 + \epsilon) \min_{\beta \in \mathbb{R}^d} \| X \beta - Y \|_2^2 \end{equation} while making as few additional label queries as possible. In order to bound the label queries, we introduce an instance dependent parameter called the reduced rank, denoted by $R_X$, and propose an efficient algorithm with query complexity $O(R_X/\epsilon)$. This result directly implies improved upper bounds for two important special cases: (i) active ridge regression, and (ii) active kernel ridge regression, where the reduced-rank equates to the statistical dimension, $sd_\lambda$ and effective dimension, $d_\lambda$ of the problem respectively, where $\lambda \ge 0$ denotes the regularization parameter. For active ridge regression we also prove a matching lower bound of $O(sd_\lambda / \epsilon)$ on the query complexity of any algorithm. This subsumes prior work that only considered the unregularized case, i.e., $\lambda = 0$.
翻訳日:2021-06-15 15:51:05 公開日:2021-06-12
# 組合せバンディットのための単純な組合せアルゴリズム:腐敗と近似

Simple Combinatorial Algorithms for Combinatorial Bandits: Corruptions and Approximations ( http://arxiv.org/abs/2106.06712v1 )

ライセンス: Link先を確認
Haike Xu, Jian Li(参考訳) 敵対的腐敗を伴う確率的組合せ半バンド問題を考える。 単純な組合せアルゴリズムは、$\tilde{O}\left(C+d^2K/\Delta_{min}\right)$を後悔し、$C$は汚職の総量、$d$は各ラウンドでプレイできる武器の最大数、$K$は武器の数である。 各ラウンドで片方の腕だけを選ぶと、$\tilde{O}\left(C+\sum_{\Delta_i>0}(1/\Delta_i)\right)$ を後悔する。 我々のアルゴリズムは, [Gupta et al., COLT2019] (その境界は$\tilde{O}\left(KC+\sum_{\Delta_i>0}(1/\Delta_i)\right)$ ) と, [Zimmert et al., ICML2019] と [Zimmert and Seldin, AISTATS2019] (対数係数まで) で得られた最もよく知られた境界にほぼ一致する。 Zimmert et al., ICML2019] と [Zimmert and Seldin, AISTATS2019] のアルゴリズムは複雑な凸プログラムを解く必要があり、我々のアルゴリズムは組合せ的であり、実装が非常に簡単であり、より弱い仮定を必要とし、オラクルの複雑さと実行時間が非常に低い。 また,確率的組合せ半帯域問題に対する近似オラクルにのみアクセス可能な設定についても検討した。 我々のアルゴリズムは、$\tilde{O}\left(d\sqrt{KT}\right)$の(近似)後悔境界を達成する。 我々のアルゴリズムは非常に単純で、$\sqrt{d}$で縛られる最もよく知られた後悔よりも悪く、以前の作業よりもはるかにオラクルの複雑さが低い。

We consider the stochastic combinatorial semi-bandit problem with adversarial corruptions. We provide a simple combinatorial algorithm that can achieve a regret of $\tilde{O}\left(C+d^2K/\Delta_{min}\right)$ where $C$ is the total amount of corruptions, $d$ is the maximal number of arms one can play in each round, $K$ is the number of arms. If one selects only one arm in each round, we achieves a regret of $\tilde{O}\left(C+\sum_{\Delta_i>0}(1/\Delta_i)\right)$ . Our algorithm is combinatorial and improves on the previous combinatorial algorithm by [Gupta et al., COLT2019] (their bound is $\tilde{O}\left(KC+\sum_{\Delta_i>0}(1/\Delta_i)\right)$ ), and almost matches the best known bounds obtained by [Zimmert et al., ICML2019] and [Zimmert and Seldin, AISTATS2019] (up to logarithmic factor). Note that the algorithms in [Zimmert et al., ICML2019] and [Zimmert and Seldin, AISTATS2019] require one to solve complex convex programs while our algorithm is combinatorial, very easy to implement, requires weaker assumptions and has very low oracle complexity and running time. We also study the setting where we only get access to an approximation oracle for the stochastic combinatorial semi-bandit problem. Our algorithm achieves an (approximation) regret bound of $\tilde{O}\left(d\sqrt{KT}\right)$. Our algorithm is very simple, only worse than the best known regret bound by $\sqrt{d}$, and has much lower oracle complexity than previous work.
翻訳日:2021-06-15 15:50:18 公開日:2021-06-12
# 新しい特徴量に基づくアンサンブル選択の再学習

Relearning ensemble selection based on new generated features ( http://arxiv.org/abs/2106.06761v1 )

ライセンス: Link先を確認
Robert Burduk(参考訳) アンサンブル法は、いくつかのベース機械学習技術を組み合わせて分類の有効性を高めるメタアルゴリズムである。 多くの既存の分類器の委員会は、分類器の選択プロセスを使用して、基底分類器の最適セットを決定する。 本稿では,再学習ベース分類器を用いた分類器選択フレームワークを提案する。 さらに、提案フレームワークでは、再学習プロセス後に得られる新しい特徴を新たに生成する。 提案手法は,3つのベンチマークデータセットと1つの合成データセットを用いた最先端アンサンブル手法と比較した。 提案手法の評価には4つの分類性能指標を用いる。

The ensemble methods are meta-algorithms that combine several base machine learning techniques to increase the effectiveness of the classification. Many existing committees of classifiers use the classifier selection process to determine the optimal set of base classifiers. In this article, we propose the classifiers selection framework with relearning base classifiers. Additionally, we use in the proposed framework the new generated feature, which can be obtained after the relearning process. The proposed technique was compared with state-of-the-art ensemble methods using three benchmark datasets and one synthetic dataset. Four classification performance measures are used to evaluate the proposed method.
翻訳日:2021-06-15 15:49:43 公開日:2021-06-12
# フェデレート学習におけるチャネル不確実性を考慮した共同顧客スケジューリングと資源配分

Joint Client Scheduling and Resource Allocation under Channel Uncertainty in Federated Learning ( http://arxiv.org/abs/2106.06796v1 )

ライセンス: Link先を確認
Madhusanka Manimel Wadu, Sumudu Samarakoon, Mehdi Bennis(参考訳) 無線ネットワーク上での連合学習(fl)の性能は、クライアント-サーバ接続の信頼性とクライアントのローカル計算能力に依存する。 本稿では,不完全なチャネル状態情報(CSI)と限られたローカルコンピューティングリソースの下での事前定義されたトレーニング期間において,FLを用いたモデルトレーニングの性能を高めるためのクライアントスケジューリングとリソースブロック(RB)割り当ての問題について検討する。 まず、クライアントスケジューリングによるFLのトレーニング損失と、所定のトレーニング期間の集中訓練方法とのギャップを解析的に導出する。 そして,クライアントスケジューリングによるトレーニング損失最小化とRB割り当てのギャップを確率的最適化問題として定式化し,リアプノフ最適化を用いて解決する。 ガウス過程の回帰に基づくチャネル予測手法を用いて、クライアントのCSI予測と計算パワーをスケジューリング決定に組み込んだ無線チャネルを学習・追跡する。 提案手法は,多種多様なデータ分布の配列に対して,完全かつ不完全なcsi下でのロバスト性を検証する。 その結果,提案手法は,最先端クライアントスケジューリングやRBアロケーション手法と比較して,トレーニング精度損失のギャップを最大40.7%削減できることがわかった。

The performance of federated learning (FL) over wireless networks depend on the reliability of the client-server connectivity and clients' local computation capabilities. In this article we investigate the problem of client scheduling and resource block (RB) allocation to enhance the performance of model training using FL, over a pre-defined training duration under imperfect channel state information (CSI) and limited local computing resources. First, we analytically derive the gap between the training losses of FL with clients scheduling and a centralized training method for a given training duration. Then, we formulate the gap of the training loss minimization over client scheduling and RB allocation as a stochastic optimization problem and solve it using Lyapunov optimization. A Gaussian process regression-based channel prediction method is leveraged to learn and track the wireless channel, in which, the clients' CSI predictions and computing power are incorporated into the scheduling decision. Using an extensive set of simulations, we validate the robustness of the proposed method under both perfect and imperfect CSI over an array of diverse data distributions. Results show that the proposed method reduces the gap of the training accuracy loss by up to 40.7% compared to state-of-theart client scheduling and RB allocation methods.
翻訳日:2021-06-15 15:49:35 公開日:2021-06-12
# マルチアーマッドバンドにおける信頼度ベストアーム識別の保証

Guaranteed Fixed-Confidence Best Arm Identification in Multi-Armed Bandit ( http://arxiv.org/abs/2106.06848v1 )

ライセンス: Link先を確認
MohammadJavad Azizi, Sheldon M Ross, Zhengyu Zhang(参考訳) 我々は,n個体群(腕)が最大の平均値を持つ適応サンプリングによる探索の問題を考える。 本研究の目的は, できるだけ少ない観測値を用いて, 最良集団を最小限の信頼性で識別するルールを決定することである。 固定信条(FC) BAI (Best Arm ID) は、多武装の盗賊。 我々はベルヌーイとガウスの両人口のベイズ的設定の下でそのような問題を研究する。 我々は,各ラウンドに1回だけ生存個体数をサンプリングする古典ベクトルを時間(vt)規則で用いることを提案する。 ベイジアン設定でVTをどのように実装・分析し、早期除去により改善できるかを示す。 また,古典的プレイ・ザ・ウィナー (pw) アルゴリズムの変種を提案し,解析する。 数値計算の結果,これらのルールは最先端のアルゴリズムと良好に比較できることがわかった。

We consider the problem of finding, through adaptive sampling, which of n populations (arms) has the largest mean. Our objective is to determine a rule which identifies the best population with a fixed minimum confidence using as few observations as possible, i.e. fixed-confidence (FC) best arm identification (BAI) in multi-armed bandits. We study such problems under the Bayesian setting with both Bernoulli and Gaussian populations. We propose to use the classical vector at a time (VT) rule, which samples each alive population once in each round. We show how VT can be implemented and analyzed in our Bayesian setting and be improved by early elimination. We also propose and analyze a variant of the classical play the winner (PW) algorithm. Numerical results show that these rules compare favorably with state-of-art algorithms.
翻訳日:2021-06-15 15:49:15 公開日:2021-06-12
# ランダム・シャッフルがSGDを抜いたのは、多くのEpochsのあと

Random Shuffling Beats SGD Only After Many Epochs on Ill-Conditioned Problems ( http://arxiv.org/abs/2106.06880v1 )

ライセンス: Link先を確認
Itay Safran and Ohad Shamir(参考訳) 近年,非置換性SGDの収束速度の研究や,非置換性SGDよりも高速であることの証明に多くの関心が寄せられている。 しかし、これらの著作は、その条件数を含む問題の幾何について、厳密な境界を与えないか無視する。 意外なことに、条件番号が考慮されると、条件番号よりもエポック数(データを越えるパス)が大きければ、非置換SGD \emph{does not} は最悪ケース境界の点で、不置換SGDを大幅に改善する。 機械学習や他の分野の多くの問題は条件が不適切であり、大きなデータセットが関与しているため、現実的なイテレーション予算のために、置き換えのないサンプリングは必ずしも改善されない。 我々は,二次項を可換とする二次問題に対して,(対数係数まで)密接な新しい下界と上界を提供することにより,問題パラメータへの依存度を正確に定量化する。

Recently, there has been much interest in studying the convergence rates of without-replacement SGD, and proving that it is faster than with-replacement SGD in the worst case. However, these works ignore or do not provide tight bounds in terms of the problem's geometry, including its condition number. Perhaps surprisingly, we prove that when the condition number is taken into account, without-replacement SGD \emph{does not} significantly improve on with-replacement SGD in terms of worst-case bounds, unless the number of epochs (passes over the data) is larger than the condition number. Since many problems in machine learning and other areas are both ill-conditioned and involve large datasets, this indicates that without-replacement does not necessarily improve over with-replacement sampling for realistic iteration budgets. We show this by providing new lower and upper bounds which are tight (up to log factors), for quadratic problems with commuting quadratic terms, precisely quantifying the dependence on the problem parameters.
翻訳日:2021-06-15 15:49:04 公開日:2021-06-12
# radarビデオによる深層埋め込み学習による教師なし位置認識

Unsupervised Place Recognition with Deep Embedding Learning over Radar Videos ( http://arxiv.org/abs/2106.06703v1 )

ライセンス: Link先を確認
Matthew Gadd, Daniele De Martini, Paul Newman(参考訳) 我々は,複雑なレーダデータを用いて位置認識問題を解決するのに適したレーダ画像のシーケンスからの埋め込みを教師なしの方法で学習する。 280 kmのデータを実験し、最先端の教師付きアプローチを上回る性能を示し、最も近いデータベース候補を用いる場合の98.38%を正確にローカライズした。

We learn, in an unsupervised way, an embedding from sequences of radar images that is suitable for solving place recognition problem using complex radar data. We experiment on 280 km of data and show performance exceeding state-of-the-art supervised approaches, localising correctly 98.38% of the time when using just the nearest database candidate.
翻訳日:2021-06-15 15:42:08 公開日:2021-06-12
# 社会的公正クラスタリングのためのFPT近似

FPT Approximation for Socially Fair Clustering ( http://arxiv.org/abs/2106.06755v1 )

ライセンス: Link先を確認
Dishant Goyal and Ragesh Jaiswal(参考訳) 本研究では,社会的に公平な$k$median/$k$-means問題について検討する。 距離関数 $d(.,.)$ を持つ距離空間 $\mathcal{x}$ において、点の集合 $p$ が与えられる。 P_1,\dotsc,P_{\ell} \subseteq P$。 また、$\mathcal{x}$ で実現可能なセンターのセット $f$ も与えられます。 社会的に公正な$k$-median問題の目標は、すべてのグループに対する最大平均コストを最小化する$C \subseteq F$ of $k$センターを見つけることである。 すなわち、目的函数 $\Phi(C,P) \equiv \max_{j} \sum_{x \in P_j} d(C,x)/|P_j|$ を最小化する $C$ を見つける。 社会的に公平な$k$-means問題は、同様に2乗距離、すなわち$d^{2}(.)を用いて定義される。 は$d(.....)$の代わりに$です。 本研究では,社会的に公正な$k$-medianと$k$-meansのそれぞれに対して,$(5+\varepsilon)$と$(33+ \varepsilon)$近似アルゴリズムを設計する。 パラメータは$k$ と $\ell$ で、アルゴリズムは fpt (fixed parameter tractable) の実行時間は $f(k,\ell,\varepsilo n) \cdot n$ for $f(k,\ell,\varepsilo n) = 2^{{o}(k \, \ell/\varepsilon)}$ と $n = |p \cup f|$ である。 また、中心が$P$、すなわち$P \subseteq F$から選択されることが許される問題の特別な場合についても研究する。 この特別な場合、我々のアルゴリズムは、社会的に公平な$k$-medianと$k$-means問題に対してそれぞれ$(4+\varepsilon)$と$(18+\varepsilon)$の近似保証を与える。 さらに,これらのアルゴリズムを一定パス空間ストリーミングアルゴリズムに変換する。 最後に,上界と下界の差が小さい問題に対する近似結果のFPT硬さを示す。

In this work, we study the socially fair $k$-median/$k$-means problem. We are given a set of points $P$ in a metric space $\mathcal{X}$ with a distance function $d(.,.)$. There are $\ell$ groups: $P_1,\dotsc,P_{\ell} \subseteq P$. We are also given a set $F$ of feasible centers in $\mathcal{X}$. The goal of the socially fair $k$-median problem is to find a set $C \subseteq F$ of $k$ centers that minimizes the maximum average cost over all the groups. That is, find $C$ that minimizes the objective function $\Phi(C,P) \equiv \max_{j} \sum_{x \in P_j} d(C,x)/|P_j|$, where $d(C,x)$ is the distance of $x$ to the closest center in $C$. The socially fair $k$-means problem is defined similarly by using squared distances, i.e., $d^{2}(.,.)$ instead of $d(.,.)$. In this work, we design $(5+\varepsilon)$ and $(33 + \varepsilon)$ approximation algorithms for the socially fair $k$-median and $k$-means problems, respectively. For the parameters: $k$ and $\ell$, the algorithms have an FPT (fixed parameter tractable) running time of $f(k,\ell,\varepsilo n) \cdot n$ for $f(k,\ell,\varepsilo n) = 2^{{O}(k \, \ell/\varepsilon)}$ and $n = |P \cup F|$. We also study a special case of the problem where the centers are allowed to be chosen from the point set $P$, i.e., $P \subseteq F$. For this special case, our algorithms give better approximation guarantees of $(4+\varepsilon)$ and $(18+\varepsilon)$ for the socially fair $k$-median and $k$-means problems, respectively. Furthermore, we convert these algorithms to constant pass log-space streaming algorithms. Lastly, we show FPT hardness of approximation results for the problem with a small gap between our upper and lower bounds.
翻訳日:2021-06-15 15:38:34 公開日:2021-06-12
# 画像品質評価のための残差ネットワークに基づく歪み分類とランク付け

Residual Networks based Distortion Classification and Ranking for Laparoscopic Image Quality Assessment ( http://arxiv.org/abs/2106.06784v1 )

ライセンス: Link先を確認
Zohaib Amjad Khan, Azeddine Beghdadi, Mounir Kaaniche and Faouzi Alaya Cheikh(参考訳) 腹腔鏡画像やビデオは、ノイズ、煙、ぼやけ、不均一照明などの異なる種類の歪みによってしばしば影響を受ける。 これらの歪みの自動検出は、一般に適切な画質向上法の適用により、手術中の誤りを避けるために重要である。 この文脈において重要なステップは、画像品質の客観的評価であり、画像に影響を及ぼす歪みタイプの分類と、その歪みの重大度レベルの推定の両方を必要とする2次元の問題である。 本稿では,品質スコアを主に推定する既存の画像品質尺度と異なり,画像品質評価タスクを,そのタイプと歪みの重大度レベル(またはランク)の両方を考慮したマルチラベル分類問題として定式化する。 ここで、この問題はディープニューラルネットワークベースのアプローチによって解決される。 腹腔鏡画像データセットで得られた結果は,提案手法の効率性を示す。

Laparoscopic images and videos are often affected by different types of distortion like noise, smoke, blur and nonuniform illumination. Automatic detection of these distortions, followed generally by application of appropriate image quality enhancement methods, is critical to avoid errors during surgery. In this context, a crucial step involves an objective assessment of the image quality, which is a two-fold problem requiring both the classification of the distortion type affecting the image and the estimation of the severity level of that distortion. Unlike existing image quality measures which focus mainly on estimating a quality score, we propose in this paper to formulate the image quality assessment task as a multi-label classification problem taking into account both the type as well as the severity level (or rank) of distortions. Here, this problem is then solved by resorting to a deep neural networks based approach. The obtained results on a laparoscopic image dataset show the efficiency of the proposed approach.
翻訳日:2021-06-15 15:37:48 公開日:2021-06-12
# 非iidデータによる連合学習:調査

Federated Learning on Non-IID Data: A Survey ( http://arxiv.org/abs/2106.06843v1 )

ライセンス: Link先を確認
Hangyu Zhu, Jinjin Xu, Shiqing Liu and Yaochu Jin(参考訳) フェデレーション学習は、プライバシ保護のための新たな分散機械学習フレームワークである。 しかし、連合学習で訓練されたモデルは、通常、標準集中学習モードで訓練されたモデルよりもパフォーマンスが悪く、特に、トレーニングデータが独立で、ローカルデバイス上で同じ分散(非iid)である場合である。 本研究では,非IIDデータによる水平および垂直両方の学習におけるパラメトリックおよび非パラメトリック機械学習モデルへの影響を詳細に分析する。 さらに,フェデレートラーニングにおける非IIDデータの課題への対処に関する研究について概説し,これらの手法の長所と短所について考察した。 最後に,論文をまとめる前に,今後の研究の方向性を提案する。

Federated learning is an emerging distributed machine learning framework for privacy preservation. However, models trained in federated learning usually have worse performance than those trained in the standard centralized learning mode, especially when the training data are not independent and identically distributed (Non-IID) on the local devices. In this survey, we pro-vide a detailed analysis of the influence of Non-IID data on both parametric and non-parametric machine learning models in both horizontal and vertical federated learning. In addition, cur-rent research work on handling challenges of Non-IID data in federated learning are reviewed, and both advantages and disadvantages of these approaches are discussed. Finally, we suggest several future research directions before concluding the paper.
翻訳日:2021-06-15 15:37:32 公開日:2021-06-12
# 機械学習による未知多様体上のpdes解法

Solving PDEs on Unknown Manifolds with Machine Learning ( http://arxiv.org/abs/2106.06682v1 )

ライセンス: Link先を確認
Senwei Liang and Shixiao W. Jiang and John Harlim and Haizhao Yang(参考訳) 本稿では,拡散マップ(DM)とディープラーニングに基づいて,点雲と同一視される未知多様体上の楕円型PDEを解くためのメッシュフリー計算フレームワークと機械学習理論を提案する。 PDEソルバは、PDEを近似する代数方程式を課す最小二乗回帰問題を解くための教師付き学習タスクとして定式化される。 この代数方程式は、二階楕円微分作用素の一貫した推定器であるDM漸近展開によって得られるグラフ-ラプラシア型行列を含む。 その結果, ニューラルネットワーク型関数の仮説空間から解法に従えば, 極めて非凸な経験的リスク最小化問題を解くことができる。 十分に仮定された楕円型pde設定では、仮説空間が無限幅または深さのフィードフォワードニューラルネットワークからなるとき、経験的損失関数の大域的最小化は大きなトレーニングデータの限界における一貫した解であることを示す。 仮説空間が2層ニューラルネットワークである場合、十分に広い幅に対して、勾配降下法によって経験的損失関数の大域的最小化を識別できることを示す。 数値例のサポートは、大規模なデータセットが利用可能になったときに従来のアプローチを阻害する数値的問題を避けるために、解の収束と提案する解法の有効性を示す。

This paper proposes a mesh-free computational framework and machine learning theory for solving elliptic PDEs on unknown manifolds, identified with point clouds, based on diffusion maps (DM) and deep learning. The PDE solver is formulated as a supervised learning task to solve a least-squares regression problem that imposes an algebraic equation approximating a PDE (and boundary conditions if applicable). This algebraic equation involves a graph-Laplacian type matrix obtained via DM asymptotic expansion, which is a consistent estimator of second-order elliptic differential operators. The resulting numerical method is to solve a highly non-convex empirical risk minimization problem subjected to a solution from a hypothesis space of neural-network type functions. In a well-posed elliptic PDE setting, when the hypothesis space consists of feedforward neural networks with either infinite width or depth, we show that the global minimizer of the empirical loss function is a consistent solution in the limit of large training data. When the hypothesis space is a two-layer neural network, we show that for a sufficiently large width, the gradient descent method can identify a global minimizer of the empirical loss function. Supporting numerical examples demonstrate the convergence of the solutions and the effectiveness of the proposed solver in avoiding numerical issues that hampers the traditional approach when a large data set becomes available, e.g., large matrix inversion.
翻訳日:2021-06-15 15:32:00 公開日:2021-06-12
# 分岐マルコフ決定過程に対するモデルフリー強化学習

Model-free Reinforcement Learning for Branching Markov Decision Processes ( http://arxiv.org/abs/2106.06777v1 )

ライセンス: Link先を確認
Ernst Moritz Hahn, Mateo Perez, Sven Schewe, Fabio Somenzi, Ashutosh Trivedi, Dominik Wojtczak(参考訳) 分岐マルコフ連鎖(BMC)の自然な拡張である分岐マルコフ決定過程(BMDP)の最適制御のための強化学習について検討した。 状態 (discrete-time) BMC は、様々なタイプのエンティティの集まりであり、他のエンティティを生成しながら、ペイオフを生成する。 同一タイプの各エンティティの進化が同じ確率パターンに従うBMCと比較して、BMDPは外部コントローラが様々な選択肢から選択できる。 これにより、システムのベスト/ワーストな振る舞いを研究できます。 モデルフリー強化学習手法を一般化し、未知のBMDPの最適制御戦略をその極限で計算する。 提案手法の実用性を示す実装の結果について述べる。

We study reinforcement learning for the optimal control of Branching Markov Decision Processes (BMDPs), a natural extension of (multitype) Branching Markov Chains (BMCs). The state of a (discrete-time) BMCs is a collection of entities of various types that, while spawning other entities, generate a payoff. In comparison with BMCs, where the evolution of a each entity of the same type follows the same probabilistic pattern, BMDPs allow an external controller to pick from a range of options. This permits us to study the best/worst behaviour of the system. We generalise model-free reinforcement learning techniques to compute an optimal control strategy of an unknown BMDP in the limit. We present results of an implementation that demonstrate the practicality of the approach.
翻訳日:2021-06-15 15:31:38 公開日:2021-06-12