このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。



PDF登録状況(公開日: 20210714)

# 線形bの脚手に対する神経表現学習

Neural Representation Learning for Scribal Hands of Linear B ( http://arxiv.org/abs/2108.04199v1 )

ライセンス: Link先を確認
Nikita Srivatsan, Jason Vega, Christina Skelton, Taylor Berg-Kirkpatrick(参考訳) 本研究では,リニアB書記システムのスクレイバルハンド解析におけるニューラル特徴抽出の利用について検討する。 以前の研究は、線形bの歴史を追跡する系統分類学のような戦略の有用性を実証してきたが、これらのアプローチは手動で抽出した特徴に依存しており、手動で定義するのに非常に時間がかかる。 代わりに、人間のアノテーションを必要としない完全に教師なしのニューラルネットワークを使った学習機能を提案する。 具体的には,著者のスタイルパターンを表現するために共用ベクター埋め込みと,同音節記号を表す各グリフと,そのキャラクタの識別形状を表す共用ベクター埋め込みを割り当てる。 このように、データセットの各画像の特性は、スクライブ埋め込みとサイン埋め込みの組み合わせとして表現される。 このモデルは,対応する埋め込みからグリフを再現しようとするデコーダが支配する再構成的損失と,埋め込みが与えられた画像に対応するか否かを予測するモデルの能力を測定する識別的損失の両方を用いて訓練する。 本研究の主な貢献の一つとして,(1)スクリブラハンドと手話タイプでアノテートされたリニアbグリフの新たなデータセットを提示し,(2)グリフ形状からスクリブラハンドの特性を分離するニューラルモデルを提案し,(3)手話から抽出された特徴との類似性や類似性に関する学習埋め込みを定量的に評価し,より単純なベースライン手法の改善を示す。

In this work, we present an investigation into the use of neural feature extraction in performing scribal hand analysis of the Linear B writing system. While prior work has demonstrated the usefulness of strategies such as phylogenetic systematics in tracing Linear B's history, these approaches have relied on manually extracted features which can be very time consuming to define by hand. Instead we propose learning features using a fully unsupervised neural network that does not require any human annotation. Specifically our model assigns each glyph written by the same scribal hand a shared vector embedding to represent that author's stylistic patterns, and each glyph representing the same syllabic sign a shared vector embedding to represent the identifying shape of that character. Thus the properties of each image in our dataset are represented as the combination of a scribe embedding and a sign embedding. We train this model using both a reconstructive loss governed by a decoder that seeks to reproduce glyphs from their corresponding embeddings, and a discriminative loss which measures the model's ability to predict whether or not an embedding corresponds to a given image. Among the key contributions of this work we (1) present a new dataset of Linear B glyphs, annotated by scribal hand and sign type, (2) propose a neural model for disentangling properties of scribal hands from glyph shape, and (3) quantitatively evaluate the learned embeddings on findplace prediction and similarity to manually extracted features, showing improvements over simpler baseline methods.
翻訳日:2021-08-15 11:28:24 公開日:2021-07-14
# 大規模NLPモデルのための効率的なDP-SGD機構

An Efficient DP-SGD Mechanism for Large Scale NLP Models ( http://arxiv.org/abs/2107.14586v1 )

ライセンス: Link先を確認
Christophe Dupuy, Radhika Arava, Rahul Gupta, Anna Rumshisky(参考訳) ディープラーニングの最近の進歩は、多くの自然言語理解(NLU)タスクのパフォーマンスを大幅に改善している。 しかしながら、NLUモデルのトレーニングに使われるデータには、住所や電話番号などのプライベート情報が含まれており、特に人から引き出された場合である。 基礎となるモデルは、トレーニングデータに含まれるプライベート情報を公開しないことが望ましい。 プライバシ保護モデル構築のメカニズムとして,DP-SGD(Fariially Private Stochastic Gradient Descent)が提案されている。 しかし、DP-SGDは訓練に極めて遅い。 本稿では,GPUインフラストラクチャを用いたトレーニングのためのDP-SGDを提案し,LSTMとトランスフォーマーアーキテクチャに基づく微調整モデルに適用する。 提案するDP-SGDによる微調整が,トレーニング時間やプライバシ保護の改善を著しく損なうことなく,より高速なトレーニング時間,精度,理論的プライバシ保証,モデルに対するメンバシップ推論攻撃の成功を報告した。 また、よりゆるく理論的な$\epsilon や \delta$ といった観察は、重要な実用的なプライバシー向上に変換できる。

Recent advances in deep learning have drastically improved performance on many Natural Language Understanding (NLU) tasks. However, the data used to train NLU models may contain private information such as addresses or phone numbers, particularly when drawn from human subjects. It is desirable that underlying models do not expose private information contained in the training data. Differentially Private Stochastic Gradient Descent (DP-SGD) has been proposed as a mechanism to build privacy-preserving models. However, DP-SGD can be prohibitively slow to train. In this work, we propose a more efficient DP-SGD for training using a GPU infrastructure and apply it to fine-tuning models based on LSTM and transformer architectures. We report faster training times, alongside accuracy, theoretical privacy guarantees and success of Membership inference attacks for our models and observe that fine-tuning with proposed variant of DP-SGD can yield competitive models without significant degradation in training time and improvement in privacy protection. We also make observations such as looser theoretical $\epsilon, \delta$ can translate into significant practical privacy gains.
翻訳日:2021-08-08 11:01:56 公開日:2021-07-14
# (参考訳) 社会的善のための倫理的AI [全文訳有]

Ethical AI for Social Good ( http://arxiv.org/abs/2107.14044v1 )

ライセンス: CC BY 4.0
Ramya Akula and Ivan Garibay(参考訳) AI for Social Good(AI4SG)の概念は、情報社会とAIコミュニティの両方で勢いを増している。 AIベースのソリューションの進歩を通じて、社会的問題を効果的に解決することができる。 しかし、現時点では、原則としてAIが社会的に有益であるもの、現実にAI4SGを構成するもの、それを保証するのに必要なポリシーと規則について、初歩的な理解しかありません。 本稿では,今後のAI4SGの取り組みに不可欠な倫理的側面に対処することで,その空白を埋める。 これらの特徴のいくつかはAIに新しいもので、他の特徴はその使用によってより重要である。

The concept of AI for Social Good(AI4SG) is gaining momentum in both information societies and the AI community. Through all the advancement of AI-based solutions, it can solve societal issues effectively. To date, however, there is only a rudimentary grasp of what constitutes AI socially beneficial in principle, what constitutes AI4SG in reality, and what are the policies and regulations needed to ensure it. This paper fills the vacuum by addressing the ethical aspects that are critical for future AI4SG efforts. Some of these characteristics are new to AI, while others have greater importance due to its usage.
翻訳日:2021-08-01 13:26:14 公開日:2021-07-14
# 非線形状態空間のモデリングと患者の生活習慣の変化が複数の慢性状態の発生に及ぼす影響の制御

Nonlinear State Space Modeling and Control of the Impact of Patients' Modifiable Lifestyle Behaviors on the Emergence of Multiple Chronic Conditions ( http://arxiv.org/abs/2107.13394v1 )

ライセンス: Link先を確認
Syed Hasib Akhter Faruqui, Adel Alaeddini, Jing Wang, Susan P Fisher-Hoch, and Joseph B Mccormic(参考訳) 複数の慢性疾患(mcc)の出現と進行は、患者の修正可能な危険因子とその非修正可能な危険因子および既存の状態との相互作用に依存する動的ネットワークを形成することが多い。 連続時間ベイズネットワーク(CTBN)は、MCC関係の複雑なネットワークを時間とともにモデル化する有効な手法である。 しかしCTBNは、MCCの出現と進行に対する患者の変更可能な危険因子の動的影響を効果的に定式化することはできない。 個人のリスク因子と既存条件に対するmcc関係の基盤構造を表現する機能的ctbn(fctbn)を考えると,拡張カルマンフィルタ(ekf)に基づく非線形状態空間モデルを提案し,mccの進化における患者の変化可能なリスク因子と既存の状態のダイナミクスを捉える。 また,慢性期発症の危険因子の変化が慢性期発症のリスクに与える影響を動的にモニタリングするテンソルコントロールチャートも開発した。 キャメロン郡ヒスパニック・コーホート(CCHC)の患者385名を対象に, シミュレーションと実データを組み合わせることで, 提案手法の有効性を検証した。 このデータセットは、生活習慣行動(ダイエット、運動、喫煙習慣、飲酒習慣)を表わす4つの要因と、人口統計情報(年齢、性別、教育)を含む3つの非修飾リスク因子に基づいて、5つの慢性疾患(糖尿病、肥満、認知障害、高脂血症、高血圧)の出現について検討する。 その結果, 個別患者のMCC発生リスクを動的に予測し, モニタリングする手法の有効性が示された。

The emergence and progression of multiple chronic conditions (MCC) over time often form a dynamic network that depends on patient's modifiable risk factors and their interaction with non-modifiable risk factors and existing conditions. Continuous time Bayesian networks (CTBNs) are effective methods for modeling the complex network of MCC relationships over time. However, CTBNs are not able to effectively formulate the dynamic impact of patient's modifiable risk factors on the emergence and progression of MCC. Considering a functional CTBN (FCTBN) to represent the underlying structure of the MCC relationships with respect to individuals' risk factors and existing conditions, we propose a nonlinear state-space model based on Extended Kalman filter (EKF) to capture the dynamics of the patients' modifiable risk factors and existing conditions on the MCC evolution over time. We also develop a tensor control chart to dynamically monitor the effect of changes in the modifiable risk factors of individual patients on the risk of new chronic conditions emergence. We validate the proposed approach based on a combination of simulation and real data from a dataset of 385 patients from Cameron County Hispanic Cohort (CCHC) over multiple years. The dataset examines the emergence of 5 chronic conditions (Diabetes, Obesity, Cognitive Impairment, Hyperlipidemia, and Hypertension) based on 4 modifiable risk factors representing lifestyle behaviors (Diet, Exercise, Smoking Habit, and Drinking Habit) and 3 non-modifiable risk factors, including demographic information (Age, Gender, Education). The results demonstrate the effectiveness of the proposed methodology for dynamic prediction and monitoring of the risk of MCC emergence in individual patients.
翻訳日:2021-08-01 11:03:19 公開日:2021-07-14
# (参考訳) MARC:クラスタリングモデルを用いたデータセットからのマイニングアソシエーションルール [全文訳有]

MARC: Mining Association Rules from datasets by using Clustering models ( http://arxiv.org/abs/2107.08814v1 )

ライセンス: CC BY 4.0
Shadi Al Shehabi and Abdullatif Baba(参考訳) 関連ルールは、大きなデータセット内のさまざまな項目の間に隠れている関係を見つけるのに役立ちます。 シンボリックモデルは関連ルールを抽出する主要なツールである。 この基本的なテクニックは時間がかかり、多数の関連するルールを生成する。 この欠点を克服するため、我々はMARCと呼ばれる新しい手法を提案し、I型とII型という2つの重要な階層のより重要な関連ルールを抽出する。 このアプローチは、多面的非教師なしニューラルネットワークモデルと、与えられた数値分類モデルの成功を自然な象徴モデルとして評価するクラスタリング品質尺度に依存する。

Association rules are useful to discover relationships, which are mostly hidden, between the different items in large datasets. Symbolic models are the principal tools to extract association rules. This basic technique is time-consuming, and it generates a big number of associated rules. To overcome this drawback, we suggest a new method, called MARC, to extract the more important association rules of two important levels: Type I, and Type II. This approach relies on a multi-topographic unsupervised neural network model as well as clustering quality measures that evaluate the success of a given numerical classification model to behave as a natural symbolic model.
翻訳日:2021-07-25 12:13:58 公開日:2021-07-14
# 非平滑な目的による深層学習

Deep Learning with Nonsmooth Objectives ( http://arxiv.org/abs/2107.08800v1 )

ライセンス: Link先を確認
Vinesha Peiris, Nadezda Sukhorukova, Vera Roshchina(参考訳) 人工ニューラルネットワークのトレーニングにおける最大ノルムに基づく非滑らかな損失関数の利用の可能性を検討する。 これは、訓練データが非常に小さいか不均衡な場合において、より優れた分類結果をもたらす可能性があると仮定する。 隠れレイヤのない単純なニューラルネットワーク(標準非滑らかな最適化技術にすぐに適応できる設定)で行った数値実験は、一様近似に基づくアプローチが、相対的なクラスタサイズで制限された、あるいは偏りのある、信頼できるトレーニングデータを持つデータセットにもっと適している、という仮説を裏付けているように思われる。

We explore the potential for using a nonsmooth loss function based on the max-norm in the training of an artificial neural network. We hypothesise that this may lead to superior classification results in some special cases where the training data is either very small or unbalanced. Our numerical experiments performed on a simple artificial neural network with no hidden layers (a setting immediately amenable to standard nonsmooth optimisation techniques) appear to confirm our hypothesis that uniform approximation based approaches may be more suitable for the datasets with reliable training data that either is limited size or biased in terms of relative cluster sizes.
翻訳日:2021-07-25 11:58:45 公開日:2021-07-14
# 深層学習によるパラメトリック駆動非線形力学系における極限事象発生のモデルフリー予測

Model-free prediction of emergence of extreme events in a parametrically driven nonlinear dynamical system by Deep Learning ( http://arxiv.org/abs/2107.08819v1 )

ライセンス: Link先を確認
J.Meiyazhagan, S. Sudharsan, and M. Senthilvelan(参考訳) パラメトリック駆動非線形力学系における極端な事象の発生を,多層パーセプトロン,畳み込みニューラルネットワーク,長期記憶という3つのディープラーニングモデルを用いて予測する。 Deep Learningモデルはトレーニングセットを使用してトレーニングされ、テストセットデータを予測することができる。 予測後、モデルの性能を可視化するために、実値と予測値の時系列を相互にプロットする。 予測と実際の3つのモデル間の根平均二乗誤差値を評価した結果、長期短期記憶モデルはカオス時系列を予測し、考慮されたシステムに対する極端な事象の発生を予測するのに最適なモデルとなることが判明した。

We predict the emergence of extreme events in a parametrically driven nonlinear dynamical system using three Deep Learning models, namely Multi-Layer Perceptron, Convolutional Neural Network and Long Short-Term Memory. The Deep Learning models are trained using the training set and are allowed to predict the test set data. After prediction, the time series of the actual and the predicted values are plotted one over the other in order to visualize the performance of the models. Upon evaluating the Root Mean Square Error value between predicted and the actual values of all three models, we find that the Long Short-Term Memory model can serve as the best model to forecast the chaotic time series and to predict the emergence of extreme events for the considered system.
翻訳日:2021-07-25 11:58:18 公開日:2021-07-14
# (参考訳) 第16回論理フレームワークとメタ言語に関するワークショップ:理論と実践

Proceedings of the Sixteenth Workshop on Logical Frameworks and Meta-Languages: Theory and Practice ( http://arxiv.org/abs/2107.07376v1 )

ライセンス: CC BY 4.0
Elaine Pimentel (UFRN), Enrico Tassi (Inria)(参考訳) 論理フレームワークとメタ言語は、論理学や計算機科学に興味のある様々な演法体系を表現、実装、推論するための共通の基盤を形成する。 ソフトウェアの設計、実装、推論タスクにおけるそれらの使用は、ソフトウェアの正しさから形式システムの特性まで、過去20年にわたってかなりの研究の焦点となっている。 このワークショップは、設計者、実装者、実践者を集めて、可変バインディング、帰納的および共帰的推論技術、推論プロセスの表現力と明快さなど、論理的フレームワークの構造と有用性に影響を及ぼす様々な側面について議論する。

Logical frameworks and meta-languages form a common substrate for representing, implementing and reasoning about a wide variety of deductive systems of interest in logic and computer science. Their design, implementation and their use in reasoning tasks, ranging from the correctness of software to the properties of formal systems, have been the focus of considerable research over the last two decades. This workshop brings together designers, implementors and practitioners to discuss various aspects impinging on the structure and utility of logical frameworks, including the treatment of variable binding, inductive and co-inductive reasoning techniques and the expressiveness and lucidity of the reasoning process.
翻訳日:2021-07-17 06:13:53 公開日:2021-07-14
# (参考訳) デジタル標高モデル解析によるUAV着陸地点検出の可能性 [全文訳有]

Potential UAV Landing Sites Detection through Digital Elevation Models Analysis ( http://arxiv.org/abs/2107.06921v1 )

ライセンス: CC BY 4.0
Efstratios Kakaletsis, Nikos Nikolaidis(参考訳) 本稿では,平面の同定による地形情報を用いた無人航空機(uavs)の着陸地点検出のための簡易手法を提案する。 このアルゴリズムは、地域の高さ分布を表すデジタル標高モデル(DEM)を利用する。 通常または緊急時のUAVの適切な着陸ゾーンを構成する平坦な領域は、デジタル表面モデル(DSM)の画像勾配等級を閾値付けすることによって生じる。 提案手法では,着地に十分な大きさの接続領域を発見するために,閾値勾配画像の連結成分評価も行う。 また, 人工構造物や植生地域は, 潜在的な上陸地点から検出・排除されている。 実世界および合成データセットの様々な領域において,提案手法の有効性を定量的に評価し,最先端アルゴリズムとの比較を行った結果,その効率と優越性が証明された。

In this paper, a simple technique for Unmanned Aerial Vehicles (UAVs) potential landing site detection using terrain information through identification of flat areas, is presented. The algorithm utilizes digital elevation models (DEM) that represent the height distribution of an area. Flat areas which constitute appropriate landing zones for UAVs in normal or emergency situations result by thresholding the image gradient magnitude of the digital surface model (DSM). The proposed technique also uses connected components evaluation on the thresholded gradient image in order to discover connected regions of sufficient size for landing. Moreover, man-made structures and vegetation areas are detected and excluded from the potential landing sites. Quantitative performance evaluation of the proposed landing site detection algorithm in a number of areas on real world and synthetic datasets, accompanied by a comparison with a state-of-the-art algorithm, proves its efficiency and superiority.
翻訳日:2021-07-17 06:13:03 公開日:2021-07-14
# (参考訳) ミスマッチモデルにおけるベイズ線形回帰の性能 [全文訳有]

Performance of Bayesian linear regression in a model with mismatch ( http://arxiv.org/abs/2107.06936v1 )

ライセンス: CC0 1.0
Jean Barbier, Wei-Kuo Chen, Dmitry Panchenko, and Manuel S\'aenz(参考訳) ランダムな設計による高次元線形回帰モデルについて,ガウス前駆体を用いた対数凸ベイズ分布の平均による推定器の性能を解析した。 統計学者が仮定したモデルと同様に、ラベル生成過程は入力データ内で線形であるが、分類器の接頭辞とガウス雑音のばらつきは彼女にとって未知である。 この推論モデルは、スピングラスにおけるガードナーモデルのバージョンとして再現することができ、キャビティ法を用いて様々な重なり次パラメータに対する不動点方程式を提供し、特に(解の特異性の仮定の下で)分類器上の平均二乗再構成誤差の式を与える。 直接系として、自由エネルギーを表す式を得る。 同様のモデルはシュチェルビナやティロツィ、タラグランドによって既に研究されているが、我々の議論はより単純であり、いくつかの仮定は緩和されている。 解析結果の興味深い結果は、リッジ回帰のランダムな設計設定において、後部平均の性能が統計学者が仮定したノイズ分散(または「温度」)とは無関係であり、通常の(零温度)リッジ推定器と一致することである。

For a model of high-dimensional linear regression with random design, we analyze the performance of an estimator given by the mean of a log-concave Bayesian posterior distribution with gaussian prior. The model is mismatched in the following sense: like the model assumed by the statistician, the labels-generating process is linear in the input data, but both the classifier ground-truth prior and gaussian noise variance are unknown to her. This inference model can be rephrased as a version of the Gardner model in spin glasses and, using the cavity method, we provide fixed point equations for various overlap order parameters, yielding in particular an expression for the mean-square reconstruction error on the classifier (under an assumption of uniqueness of solutions). As a direct corollary we obtain an expression for the free energy. Similar models have already been studied by Shcherbina and Tirozzi and by Talagrand, but our arguments are more straightforward and some assumptions are relaxed. An interesting consequence of our analysis is that in the random design setting of ridge regression, the performance of the posterior mean is independent of the noise variance (or "temperature") assumed by the statistician, and matches the one of the usual (zero temperature) ridge estimator.
翻訳日:2021-07-17 06:06:10 公開日:2021-07-14
# (参考訳) 公平性制約下における非自明な精度の不可能性について [全文訳有]

On the impossibility of non-trivial accuracy under fairness constraints ( http://arxiv.org/abs/2107.06944v1 )

ライセンス: CC BY 4.0
Carlos Pinz\'on, Catuscia Palamidessi, Pablo Piantanida, Frank Valencia(参考訳) 機械学習(ML)における公正性に関する主な懸念の1つは、それを達成するためには、ある程度の正確さを放棄する必要があることである。 このトレードオフを念頭に置いて、Hardtら。 等機会の概念(EO)を提案しており、正確性に適合するように設計されている。 実際、入力データのソースが決定論的であれば、2つの概念は互いにうまく一致していることを示すことができる。 しかし、確率的な場合、状況は変わる。 私たちが示すように、eoが達成できる確率的データソースは、正確性を完全に損なうことでしかありません。 EOを達成するモデルの中では、入力に依存しない予測値が最も正確である。

One of the main concerns about fairness in machine learning (ML) is that, in order to achieve it, one may have to renounce to some accuracy. Having this trade-off in mind, Hardt et al. have proposed the notion of equal opportunities (EO), designed so as to be compatible with accuracy. In fact, it can be shown that if the source of input data is deterministic, the two notions go well along with each other. In the probabilistic case, however, things change. As we show, there are probabilistic data sources for which EO can only be achieved at the total detriment of accuracy, i.e. among the models that achieve EO, those whose prediction does not depend on the input have the highest accuracy.
翻訳日:2021-07-17 04:26:06 公開日:2021-07-14
# (参考訳) 微分プライベート機械学習の二酸化炭素排出量の定量化に向けて [全文訳有]

Towards Quantifying the Carbon Emissions of Differentially Private Machine Learning ( http://arxiv.org/abs/2107.06946v1 )

ライセンス: CC BY 4.0
Rakshit Naidu, Harshita Diddee, Ajinkya Mulay, Aleti Vardhan, Krithika Ramesh, Ahmed Zamzam(参考訳) 近年,大規模データセットを用いた機械学習技術が注目されている。 ノイズを追加することによって、差分プライバシーは、そのような学習アルゴリズムに対して強力なプライバシー保証を提供する。 差分プライバシーのコストはしばしばモデル精度の低下と収束速度の低下である。 本稿では,学習アルゴリズムにおける差分プライバシの影響について,実行時間や試験失敗によるカーボンフットプリントの観点から検討する。 広範な実験を通じて、望ましいプライバシーレベルと二酸化炭素排出量の削減のバランスをとることのできるノイズレベルを選択するための更なるガイダンスが提供される。

In recent years, machine learning techniques utilizing large-scale datasets have achieved remarkable performance. Differential privacy, by means of adding noise, provides strong privacy guarantees for such learning algorithms. The cost of differential privacy is often a reduced model accuracy and a lowered convergence speed. This paper investigates the impact of differential privacy on learning algorithms in terms of their carbon footprint due to either longer run-times or failed experiments. Through extensive experiments, further guidance is provided on choosing the noise levels which can strike a balance between desired privacy levels and reduced carbon emissions.
翻訳日:2021-07-17 04:07:01 公開日:2021-07-14
# (参考訳) HTLM: 言語モデルのハイパーテキスト事前学習とプロンプト [全文訳有]

HTLM: Hyper-Text Pre-Training and Prompting of Language Models ( http://arxiv.org/abs/2107.06955v1 )

ライセンス: CC BY 4.0
Armen Aghajanyan, Dmytro Okhonko, Mike Lewis, Mandar Joshi, Hu Xu, Gargi Ghosh, Luke Zettlemoyer(参考訳) HTLMは大規模Webクローリングで訓練されたハイパーテキスト言語モデルである。 ハイパーテキストのモデリングにはいくつかの利点がある: (1) スケールで簡単に収集でき、(2) リッチなドキュメントレベルとエンドタスクの監視を提供する(例)。 クラスとIDの属性は文書のカテゴリ情報をエンコードすることが多い)、(3)HTMLの確立したセマンティクスに従う新しい構造化プロンプトを可能にする。 入力テキストを含むWebページのタイトルタグを埋め込むことで、ゼロショット要約を行う。 単純化したHTML上でのBARTスタイルのデノベーション損失による事前訓練は、広範囲のタスクや監督レベルに対して非常に効果的な転送を可能にすることを示す。 HTLMは、ゼロショットのプロンプトと微調整のための比較可能なサイズのテキストのみのLMの性能と、ゼロショットの要約のための新しい最先端のパフォーマンスレベルを設定する。 また,HTLM は,既存の LM に対して行うような平易なテキストプロンプトよりも,HTLM に対して高い価値を提供するとともに,利用可能なトレーニングデータに対して最も可能性の高いハイパーテキストフォーマッティングを生成することで,自動プロンプト自体を効果的に行うことができることも見出した。 将来のHTLM研究をサポートするため、すべてのコードとモデルをリリースします。

We introduce HTLM, a hyper-text language model trained on a large-scale web crawl. Modeling hyper-text has a number of advantages: (1) it is easily gathered at scale, (2) it provides rich document-level and end-task-adjacent supervision (e.g. class and id attributes often encode document category information), and (3) it allows for new structured prompting that follows the established semantics of HTML (e.g. to do zero-shot summarization by infilling title tags for a webpage that contains the input text). We show that pretraining with a BART-style denoising loss directly on simplified HTML provides highly effective transfer for a wide range of end tasks and supervision levels. HTLM matches or exceeds the performance of comparably sized text-only LMs for zero-shot prompting and fine-tuning for classification benchmarks, while also setting new state-of-the-art performance levels for zero-shot summarization. We also find that hyper-text prompts provide more value to HTLM, in terms of data efficiency, than plain text prompts do for existing LMs, and that HTLM is highly effective at auto-prompting itself, by simply generating the most likely hyper-text formatting for any available training data. We will release all code and models to support future HTLM research.
翻訳日:2021-07-17 03:58:07 公開日:2021-07-14
# (参考訳) 弁論書における証拠の注釈・分類・推論改訂 [全文訳有]

Annotation and Classification of Evidence and Reasoning Revisions in Argumentative Writing ( http://arxiv.org/abs/2107.06990v1 )

ライセンス: CC BY 4.0
Tazin Afrin, Elaine Wang, Diane Litman, Lindsay C. Matsumura, Richard Correnti(参考訳) 自動筆記評価システムでは,学生が提供したフィードバックに参画し,フィードバックに沿った形でエッセイの草稿を改訂することで,学生の文章の書き方を改善することができる。 しかし、これらのシステムにおける議論的文章の改訂に関するこれまでの研究は、学生が実際にフィードバックに反応し、エッセイを改善させる程度ではなく、改訂のタイプ(表面と内容)に焦点をあてている。 本稿では,証拠使用と推論の文レベルのリビジョン(「rer」方式)の性質を捉え,第5学年生の議論的エッセイに適用する注釈方式を提案する。 信頼性のある手動アノテーションが達成できることを示し,提案したフィードバックに則ったエッセイ改善の全体的評価とリビジョンアノテーションの相関性を示す。 さらに,提案手法に従って自動的にリビジョンを分類する可能性についても検討する。

Automated writing evaluation systems can improve students' writing insofar as students attend to the feedback provided and revise their essay drafts in ways aligned with such feedback. Existing research on revision of argumentative writing in such systems, however, has focused on the types of revisions students make (e.g., surface vs. content) rather than the extent to which revisions actually respond to the feedback provided and improve the essay. We introduce an annotation scheme to capture the nature of sentence-level revisions of evidence use and reasoning (the `RER' scheme) and apply it to 5th- and 6th-grade students' argumentative essays. We show that reliable manual annotation can be achieved and that revision annotations correlate with a holistic assessment of essay improvement in line with the feedback provided. Furthermore, we explore the feasibility of automatically classifying revisions according to our scheme.
翻訳日:2021-07-17 03:42:38 公開日:2021-07-14
# (参考訳) 少数音節楽器認識のための階層構造の利用 [全文訳有]

Leveraging Hierarchical Structures for Few-Shot Musical Instrument Recognition ( http://arxiv.org/abs/2107.07029v1 )

ライセンス: CC BY 4.0
Hugo Flores Garcia, Aldo Aguilar, Ethan Manilow, Bryan Pardo(参考訳) 楽器認識の深層学習は一般に、豊富なデータを持つ楽器クラスに焦点を当てている。 本研究では,数発の学習環境において,楽器間の階層的関係を利用して,より広い範囲の楽器の分類を可能にする。 原型ネットワークのトレーニングに階層的損失関数を適用し、事前定義された楽器階層の構造を反映してプロトタイプを階層的に集約する手法を組み合わせる。 これらの拡張はネットワークアーキテクチャの変更を必要とせず、新しいレベルを容易に追加または削除できる。 非階層的な少数ショットベースラインと比較すると,本手法は分類精度が著しく向上し,訓練中に見つからない楽器類に対する誤り重大度が著しく低下する。

Deep learning work on musical instrument recognition has generally focused on instrument classes for which we have abundant data. In this work, we exploit hierarchical relationships between instruments in a few-shot learning setup to enable classification of a wider set of musical instruments, given a few examples at inference. We apply a hierarchical loss function to the training of prototypical networks, combined with a method to aggregate prototypes hierarchically, mirroring the structure of a predefined musical instrument hierarchy. These extensions require no changes to the network architecture and new levels can be easily added or removed. Compared to a non-hierarchical few-shot baseline, our method leads to a significant increase in classification accuracy and significant decrease mistake severity on instrument classes unseen in training.
翻訳日:2021-07-17 03:30:26 公開日:2021-07-14
# FetalNet:胎児超音波生体計測のためのマルチタスクディープラーニングフレームワーク

FetalNet: Multi-task deep learning framework for fetal ultrasound biometric measurements ( http://arxiv.org/abs/2107.06943v1 )

ライセンス: Link先を確認
Szymon P{\l}otka, Tomasz W{\l}odarczyk, Adam Klasa, Micha{\l} Lipa, Arkadiusz Sitek, Tomasz Trzci\'nski(参考訳) 本稿では,時空間超音波スキャンビデオ解析のための注意機構と積み重ねモジュールを備えた,エンドツーエンドのマルチタスクニューラルネットワークであるfetalnetを提案する。 胎児生体計測は胎児成長モニタリングおよび妊娠年齢と胎児体重の推定に使用される妊娠中の標準検査である。 胎児超音波スキャンビデオ解析の主な目標は、胎児の頭、腹部、大腿骨を測定するための適切な標準平面を見つけることである。 超音波データにおける天然の高スペックルノイズと影のため、適切な取得面を見つけ、胎児の正確な測定を行うためには、医療専門知識と超音波経験が必要である。 また, 胎児の生体計測のためのコンピュータ支援手法は, 時間的特徴を考慮せずに, 1つの画像フレームのみに限られている。 これらの問題点に対処するために,胎児の部位を同時に局所化し,分類し,測定するために,時空間超音波スキャンビデオ解析のためのエンドツーエンドマルチタスクニューラルネットワークを提案する。 分類分岐を組み込んだ新しいエンコーダ・デコーダセグメンテーションアーキテクチャを提案する。 さらに,無関係な米国地域を抑圧し,効率的なスキャン平面位置決めを行うために,モジュールを積み重ねたアテンション機構を応用した。 胎児超音波検査は,700名の異なる患者の定期検査から得られた。 FetalNetという手法は胎児超音波ビデオ記録における分類とセグメント化の両方において既存の最先端手法よりも優れている。

In this paper, we propose an end-to-end multi-task neural network called FetalNet with an attention mechanism and stacked module for spatio-temporal fetal ultrasound scan video analysis. Fetal biometric measurement is a standard examination during pregnancy used for the fetus growth monitoring and estimation of gestational age and fetal weight. The main goal in fetal ultrasound scan video analysis is to find proper standard planes to measure the fetal head, abdomen and femur. Due to natural high speckle noise and shadows in ultrasound data, medical expertise and sonographic experience are required to find the appropriate acquisition plane and perform accurate measurements of the fetus. In addition, existing computer-aided methods for fetal US biometric measurement address only one single image frame without considering temporal features. To address these shortcomings, we propose an end-to-end multi-task neural network for spatio-temporal ultrasound scan video analysis to simultaneously localize, classify and measure the fetal body parts. We propose a new encoder-decoder segmentation architecture that incorporates a classification branch. Additionally, we employ an attention mechanism with a stacked module to learn salient maps to suppress irrelevant US regions and efficient scan plane localization. We trained on the fetal ultrasound video comes from routine examinations of 700 different patients. Our method called FetalNet outperforms existing state-of-the-art methods in both classification and segmentation in fetal ultrasound video recordings.
翻訳日:2021-07-16 14:16:25 公開日:2021-07-14
# ショーから話へ:画像のキャプションに関する調査

From Show to Tell: A Survey on Image Captioning ( http://arxiv.org/abs/2107.06912v1 )

ライセンス: Link先を確認
Matteo Stefanini, Marcella Cornia, Lorenzo Baraldi, Silvia Cascianelli, Giuseppe Fiameni, Rita Cucchiara(参考訳) 視覚と言語を結びつけることは、ジェネレーティブインテリジェンスにおいて重要な役割を果たす。 このため、近年、画像キャプション、すなわち画像キャプションに多大な研究努力が注がれている。 構文的に意味のある文で画像を記述するタスク。 2015年以降、タスクは一般的にビジュアルエンコーディングステップとテキスト生成のための言語モデルで構成されるパイプラインで対処されている。 この間、両方のコンポーネントはオブジェクト領域、属性、リレーションシップの活用、マルチモーダル接続の導入、完全適応アプローチ、BERTのような早期融合戦略によって大きく進化してきた。 しかし, 印象的な結果に拘わらず, 画像キャプションの研究は結論に達していない。 本研究は,視覚エンコーディングやテキスト生成からトレーニング戦略,使用済みデータセット,評価指標まで,画像キャプションアプローチの包括的概要と分類を提供することを目的とする。 この観点から,画像キャプションアーキテクチャやトレーニング戦略において,最も影響力のある技術革新を特定するために,多くの最先端手法を定量的に比較する。 さらに,問題の多くの変種とオープンな課題を分析し,考察した。 この研究の最終目標は、既存の最先端を理解するためのツールであり、コンピュータビジョンと自然言語処理が最適なシナジーを見つけることができる分野の研究の今後の方向性を強調することである。

Connecting Vision and Language plays an essential role in Generative Intelligence. For this reason, in the last few years, a large research effort has been devoted to image captioning, i.e. the task of describing images with syntactically and semantically meaningful sentences. Starting from 2015 the task has generally been addressed with pipelines composed of a visual encoding step and a language model for text generation. During these years, both components have evolved considerably through the exploitation of object regions, attributes, and relationships and the introduction of multi-modal connections, fully-attentive approaches, and BERT-like early-fusion strategies. However, regardless of the impressive results obtained, research in image captioning has not reached a conclusive answer yet. This work aims at providing a comprehensive overview and categorization of image captioning approaches, from visual encoding and text generation to training strategies, used datasets, and evaluation metrics. In this respect, we quantitatively compare many relevant state-of-the-art approaches to identify the most impactful technical innovations in image captioning architectures and training strategies. Moreover, many variants of the problem and its open challenges are analyzed and discussed. The final goal of this work is to serve as a tool for understanding the existing state-of-the-art and highlighting the future directions for an area of research where Computer Vision and Natural Language Processing can find an optimal synergy.
翻訳日:2021-07-16 14:14:24 公開日:2021-07-14
# ダイナミックコードフィルタ融合を用いた画像分類のためのコンパクトcnnの訓練

Training Compact CNNs for Image Classification using Dynamic-coded Filter Fusion ( http://arxiv.org/abs/2107.06916v1 )

ライセンス: Link先を確認
Mingbao Lin, Rongrong Ji, Bohong Chen, Fei Chao, Jianzhuang Liu, Wei Zeng, Yonghong Tian, Qi Tian(参考訳) フィルタプルーニングの主流のアプローチは、通常、計算量の多い事前訓練されたモデルに対して「重要」なフィルタを選択するためにハードコードされた重要度推定を強制するか、ネットワークトレーニングを標準化するために損失目標にハイパーパラメータ感受性のスパース制約を課すことである。 本稿では,効率的な画像分類のために,コンパクトなcnnを計算経済的かつ正規化フリーな方法で導出する,dynamic-coded filter fusion (dcff) と呼ばれる新しいフィルタプルーニング法を提案する。 まず,dcff内の各フィルタに温度パラメータをフィルタプロキシとする相似性分布が与えられ,その上に,新しいkullback-leibler divergence-based dynamic-coded criterionが提案されている。 他の方法では単にハイスコアフィルタを保持するのとは対照的に、フィルタ融合の概念、すなわち割り当てられたプロキシを用いた重み付け平均を保存フィルタとして提案する。 温度パラメータが無限大に近づくと, 熱間相似分布が得られる。 したがって、各フィルタの相対的重要性は、コンパクトなcnnのトレーニングと異なり、事前学習されたモデルに依存することなく動的に変更可能な融合フィルタとスパース制約の導入の両方をもたらすことができる。 分類ベンチマークに関する広範囲な実験により,比較対象に対するdcffの優位性が示された。 例えば、当社のDCFFは、72.77MのFLOPと1.06Mのパラメータしか持たないコンパクトなVGGNet-16をCIFAR-10で93.47%の精度で生成する。 コンパクトなResNet-50は63.8%のFLOPと58.6%のパラメータ削減を備えており、ILSVRC-2012では75.60%の精度を維持している。 私たちのコード、より狭いモデル、トレーニングログはhttps://github.com/l mbxmu/dcff.com/で利用可能です。

The mainstream approach for filter pruning is usually either to force a hard-coded importance estimation upon a computation-heavy pretrained model to select "important" filters, or to impose a hyperparameter-sensi tive sparse constraint on the loss objective to regularize the network training. In this paper, we present a novel filter pruning method, dubbed dynamic-coded filter fusion (DCFF), to derive compact CNNs in a computation-economic al and regularization-free manner for efficient image classification. Each filter in our DCFF is firstly given an inter-similarity distribution with a temperature parameter as a filter proxy, on top of which, a fresh Kullback-Leibler divergence based dynamic-coded criterion is proposed to evaluate the filter importance. In contrast to simply keeping high-score filters in other methods, we propose the concept of filter fusion, i.e., the weighted averages using the assigned proxies, as our preserved filters. We obtain a one-hot inter-similarity distribution as the temperature parameter approaches infinity. Thus, the relative importance of each filter can vary along with the training of the compact CNN, leading to dynamically changeable fused filters without both the dependency on the pretrained model and the introduction of sparse constraints. Extensive experiments on classification benchmarks demonstrate the superiority of our DCFF over the compared counterparts. For example, our DCFF derives a compact VGGNet-16 with only 72.77M FLOPs and 1.06M parameters while reaching top-1 accuracy of 93.47% on CIFAR-10. A compact ResNet-50 is obtained with 63.8% FLOPs and 58.6% parameter reductions, retaining 75.60% top-1 accuracy on ILSVRC-2012. Our code, narrower models and training logs are available at https://github.com/l mbxmu/DCFF.
翻訳日:2021-07-16 14:14:03 公開日:2021-07-14
# unpaired image-to-image translationにおける内視鏡画像合成とランドマーク検出の相互改善

Mutually improved endoscopic image synthesis and landmark detection in unpaired image-to-image translation ( http://arxiv.org/abs/2107.06941v1 )

ライセンス: Link先を確認
Lalith Sharan, Gabriele Romano, Sven Koehler, Halvar Kelm, Matthias Karck, Raffaele De Simone and Sandy Engelhardt(参考訳) CycleGANフレームワークは、教師なしデータのイメージ間変換を可能にする。 外科手術シミュレータにおける手術訓練のシナリオでは、この方法でファントムの内視鏡像を、同じ外科的標的構造の術中外観に近い画像に変換することができる。 これは、新しい拡張現実アプローチと見なすことができ、前回の作業で超現実主義を生み出した。 このユースケースでは、針や縫合、両領域で一貫した器具などのオブジェクトを表示するのが最重要であり、スタイルを組織的な外観に変更する。 これらのオブジェクトのセグメンテーションは直接転送を可能にするが、部分的には小さくて薄いフォアグラウンドオブジェクトは複雑で、おそらく不正確である。 代わりに, 縫合糸が組織に浸透したときの点のランドマーク検出法を提案する。 この目的は、事前訓練された検出器モデルの性能をさらなる最適化目標として扱うことにより、CycleGANフレームワークに直接組み込まれる。 これらのスパースランドマークラベルに定義されたタスクは、両方のドメインにおけるジェネレータネットワークによる合成の整合性を改善する。 The baseline CycleGAN architecture to our proposed extension (DetCycleGAN), mean precision (PPV) improve by +61.32, mean sensitivity (TPR) by +37.91, mean F1 score by +0.4743。 さらに,データセットの融合により,生成した術中画像が検出ネットワーク自体の訓練データとして利用できることを示した。 データは、https://adaptor2021. github.io/でAdaptor MICCAI Challenge 2021の範囲内でリリースされ、https://github.com/C ardio-AI/detcyclegan _pytorchでコードが公開されている。

The CycleGAN framework allows for unsupervised image-to-image translation of unpaired data. In a scenario of surgical training on a physical surgical simulator, this method can be used to transform endoscopic images of phantoms into images which more closely resemble the intra-operative appearance of the same surgical target structure. This can be viewed as a novel augmented reality approach, which we coined Hyperrealism in previous work. In this use case, it is of paramount importance to display objects like needles, sutures or instruments consistent in both domains while altering the style to a more tissue-like appearance. Segmentation of these objects would allow for a direct transfer, however, contouring of these, partly tiny and thin foreground objects is cumbersome and perhaps inaccurate. Instead, we propose to use landmark detection on the points when sutures pass into the tissue. This objective is directly incorporated into a CycleGAN framework by treating the performance of pre-trained detector models as an additional optimization goal. We show that a task defined on these sparse landmark labels improves consistency of synthesis by the generator network in both domains. Comparing a baseline CycleGAN architecture to our proposed extension (DetCycleGAN), mean precision (PPV) improved by +61.32, mean sensitivity (TPR) by +37.91, and mean F1 score by +0.4743. Furthermore, it could be shown that by dataset fusion, generated intra-operative images can be leveraged as additional training data for the detection network itself. The data is released within the scope of the AdaptOR MICCAI Challenge 2021 at https://adaptor2021. github.io/, and code at https://github.com/C ardio-AI/detcyclegan _pytorch.
翻訳日:2021-07-16 14:13:32 公開日:2021-07-14
# 特徴シフト検出:条件付分布テストによる特徴シフトの局所化

Feature Shift Detection: Localizing Which Features Have Shifted via Conditional Distribution Tests ( http://arxiv.org/abs/2107.06929v1 )

ライセンス: Link先を確認
Sean Kulinski, Saurabh Bagchi, David I. Inouye(参考訳) 従来の分散シフト検出アプローチでは、シフトが発生したかどうかを識別できるが、これらのアプローチでは、分散シフトを引き起こした特定の特徴をローカライズすることはできない。 例えば、軍用センサーネットワークでは、ユーザーがセンサーの1つまたは複数の部分が侵害されたことを検知し、重要なことに、どのセンサーが侵害されたかを知る必要がある。 そこで我々はまず,この問題を複数の条件分布仮説テストとして定式化し,非パラメトリックおよびパラメトリック統計テストを提案する。 効率と柔軟性の両立のために,密度モデルスコア関数(すなわち,スコア関数)に基づいたテスト統計法を提案する。 入力に対する勾配) -- 単一の前方および後方のパスで、すべての次元のテスト統計を簡単に計算できる。 任意の密度モデルは、フローの正規化や自己回帰モデルのような深い密度モデルを含む必要な統計の計算に使用できる。 さらに,多変量時系列データにおけるシフトの発生時期と発生場所を識別する手法を開発し,シミュレーションデータと実世界データの両方に対する現実的な攻撃モデルを用いて,複数のシナリオに対して結果を示す。

While previous distribution shift detection approaches can identify if a shift has occurred, these approaches cannot localize which specific features have caused a distribution shift -- a critical step in diagnosing or fixing any underlying issue. For example, in military sensor networks, users will want to detect when one or more of the sensors has been compromised, and critically, they will want to know which specific sensors might be compromised. Thus, we first define a formalization of this problem as multiple conditional distribution hypothesis tests and propose both non-parametric and parametric statistical tests. For both efficiency and flexibility, we then propose to use a test statistic based on the density model score function (i.e. gradient with respect to the input) -- which can easily compute test statistics for all dimensions in a single forward and backward pass. Any density model could be used for computing the necessary statistics including deep density models such as normalizing flows or autoregressive models. We additionally develop methods for identifying when and where a shift occurs in multivariate time-series data and show results for multiple scenarios using realistic attack models on both simulated and real world data.
翻訳日:2021-07-16 14:10:41 公開日:2021-07-14
# 機能的確率層を有するハイブリッドベイズニューラルネットワーク

Hybrid Bayesian Neural Networks with Functional Probabilistic Layers ( http://arxiv.org/abs/2107.07014v1 )

ライセンス: Link先を確認
Daniel T. Chang(参考訳) ベイズニューラルネットワークは、従来の重み(およびバイアス)の不確実性をエンコードする確率的層を使用することで、確率的深層学習をサポートするために、標準の深部ニューラルネットワークを拡張する直接的な自然な方法を提供する。 特に、ハイブリッドベイズニューラルネットワークは、標準決定論的層と、不確実性推定のためにネットワーク内に配置される確率的層をほとんど利用しない。 ベイズ推論の主な側面と利点は、原則として、事前知識をエンコードして推論や予測に用いる手段を提供することである。 しかし、重みには直感的な解釈がないため、重みの事前指定は困難である。 さらに,ネットワークで計算された関数に対する重み付けの事前関係を特徴付けるのが困難である。 対照的に、関数は直感的に解釈でき、入力を出力にマップするため直接的である。 したがって、事前知識をエンコードし、関数に基づく推論や予測に使用する関数の優先順位を指定するのが自然である。 これを支援するために,機能不確実性を符号化する機能的確率層を持つハイブリッドベイズニューラルネットワークを提案する。 関数ベイズ推定,関数変分推論,スパースガウス過程,スパース変分ガウス過程におけるそれらの基礎について論じる。 我々はさらに,gaussian process layerを提供し,決定論的keras layerを用いてハイブリッドニューラルネットワークとgaussian process modelを形成する新しいライブラリであるgpflusを用いて,概念実証実験を行った。

Bayesian neural networks provide a direct and natural way to extend standard deep neural networks to support probabilistic deep learning through the use of probabilistic layers that, traditionally, encode weight (and bias) uncertainty. In particular, hybrid Bayesian neural networks utilize standard deterministic layers together with few probabilistic layers judicially positioned in the networks for uncertainty estimation. A major aspect and benefit of Bayesian inference is that priors, in principle, provide the means to encode prior knowledge for use in inference and prediction. However, it is difficult to specify priors on weights since the weights have no intuitive interpretation. Further, the relationships of priors on weights to the functions computed by networks are difficult to characterize. In contrast, functions are intuitive to interpret and are direct since they map inputs to outputs. Therefore, it is natural to specify priors on functions to encode prior knowledge, and to use them in inference and prediction based on functions. To support this, we propose hybrid Bayesian neural networks with functional probabilistic layers that encode function (and activation) uncertainty. We discuss their foundations in functional Bayesian inference, functional variational inference, sparse Gaussian processes, and sparse variational Gaussian processes. We further perform few proof-of-concept experiments using GPflus, a new library that provides Gaussian process layers and supports their use with deterministic Keras layers to form hybrid neural network and Gaussian process models.
翻訳日:2021-07-16 14:10:20 公開日:2021-07-14
# 遷移型バブル解析:コーディネーション構造予測の改善

Transition-based Bubble Parsing: Improvements on Coordination Structure Prediction ( http://arxiv.org/abs/2107.06905v1 )

ライセンス: Link先を確認
Tianze Shi, Lillian Lee(参考訳) 協調構造同定と依存型構文解析を同時に行うための遷移型バブルパーサを提案する。 バブル表現は数十年前に形式言語学の文献で提案され、コーディネーション境界とコーディネーション構造の内部関係を明示的にエンコードすることで依存木を強化する。 本稿では,これらの気泡構造を解析するための遷移系とニューラルモデルを提案する。 英ペン・ツリーバンク (penn treebank) と英ジェニア・コーパス (british genia corpus) の実験結果は, コーディネート構造予測の課題, 特に複雑なコーディネート構造を持つ文の部分集合に対して, 従来の手法を上回っていた。

We propose a transition-based bubble parser to perform coordination structure identification and dependency-based syntactic analysis simultaneously. Bubble representations were proposed in the formal linguistics literature decades ago; they enhance dependency trees by encoding coordination boundaries and internal relationships within coordination structures explicitly. In this paper, we introduce a transition system and neural models for parsing these bubble-enhanced structures. Experimental results on the English Penn Treebank and the English GENIA corpus show that our parsers beat previous state-of-the-art approaches on the task of coordination structure prediction, especially for the subset of sentences with complex coordination structures.
翻訳日:2021-07-16 14:05:27 公開日:2021-07-14
# TGIF:2段階ジェネリックから個別言語ファインタニングによる拡張UDのための木グラフ統合型パーサ

TGIF: Tree-Graph Integrated-Format Parser for Enhanced UD with Two-Stage Generic- to Individual-Language Finetuning ( http://arxiv.org/abs/2107.06907v1 )

ライセンス: Link先を確認
Tianze Shi, Lillian Lee(参考訳) 本稿では,iwpt 2021の共通タスクである,拡張ユニバーサル依存関係へのパースへの貢献について述べる。 我々の主なシステムコンポーネントは、(a)拡張グラフに対して、(b)拡張グラフに存在しない追加グラフエッジに対して、(a)拡張ツリーのスパンニング予測を統合するハイブリッドツリーグラフパーサである。 また、まず、利用可能なすべての言語からのデータの連結について、言語ジェネリックパーサをトレーニングし、次に、各言語を個別に微調整する、微調整戦略を採用しています。 さらに,事前学習されたXLM-Rモデルと文字レベル言語モデルの事前学習に基づいて,トークン化や文分割,マルチワードトークン拡張など,共有タスクに関連する独自の事前処理モジュールを開発する。 我々の提出はテストセットで平均89.24のマクロ平均ELASに達する。 全チームの中でトップにランクインし、次のベストパフォーマンスの応募者に対して2つ以上の絶対 elas と17言語中16言語でベストスコアを付けている。

We present our contribution to the IWPT 2021 shared task on parsing into enhanced Universal Dependencies. Our main system component is a hybrid tree-graph parser that integrates (a) predictions of spanning trees for the enhanced graphs with (b) additional graph edges not present in the spanning trees. We also adopt a finetuning strategy where we first train a language-generic parser on the concatenation of data from all available languages, and then, in a second step, finetune on each individual language separately. Additionally, we develop our own complete set of pre-processing modules relevant to the shared task, including tokenization, sentence segmentation, and multiword token expansion, based on pre-trained XLM-R models and our own pre-training of character-level language models. Our submission reaches a macro-average ELAS of 89.24 on the test set. It ranks top among all teams, with a margin of more than 2 absolute ELAS over the next best-performing submission, and best score on 16 out of 17 languages.
翻訳日:2021-07-16 14:05:08 公開日:2021-07-14
# 制御可能な特徴を有する知識接地対話における忠実性の向上

Increasing Faithfulness in Knowledge-Grounded Dialogue with Controllable Features ( http://arxiv.org/abs/2107.06963v1 )

ライセンス: Link先を確認
Hannah Rashkin, David Reitter, Gaurav Singh Tomar, Dipanjan Das(参考訳) 知識接地対話システムは、所定の情報源テキストに提供される証拠に基づく情報伝達を目的としている。 本稿では,このようなシステムに対する生成的神経対話モデルの訓練の課題について考察する。 既存のデータセットには、選択されたエビデンスに忠実な会話応答と、より主観的あるいはチトチャットスタイルの応答が混在している。 そこで本稿では,情報量と客観性を定量化することにより,これらの応答の異なるスタイルを解消するための異なる評価手法を提案する。 トレーニング時には、これらの評価基準に基づく追加入力が対話モデルに与えられる。 これらの追加入力は、与えられた証拠に忠実な応答を生成するようモデルに促すスタイリスティックな制御として機能する。 また,再サンプリング手法を用いて復号時に追加制御を用いることも検討した。 自動測定の他に,レーダがこれらの制御された生成モデルの出力を,ベースライン対話システムと比較して一般的に客観的かつ忠実であると判断する評価研究を行う。

Knowledge-grounded dialogue systems are intended to convey information that is based on evidence provided in a given source text. We discuss the challenges of training a generative neural dialogue model for such systems that is controlled to stay faithful to the evidence. Existing datasets contain a mix of conversational responses that are faithful to selected evidence as well as more subjective or chit-chat style responses. We propose different evaluation measures to disentangle these different styles of responses by quantifying the informativeness and objectivity. At training time, additional inputs based on these evaluation measures are given to the dialogue model. At generation time, these additional inputs act as stylistic controls that encourage the model to generate responses that are faithful to the provided evidence. We also investigate the usage of additional controls at decoding time using resampling techniques. In addition to automatic metrics, we perform a human evaluation study where raters judge the output of these controlled generation models to be generally more objective and faithful to the evidence compared to baseline dialogue systems.
翻訳日:2021-07-16 14:04:49 公開日:2021-07-14
# スパース・リワード環境におけるエンパワーメントが探索を駆動する可能性のある実験エビデンス

Experimental Evidence that Empowerment May Drive Exploration in Sparse-Reward Environments ( http://arxiv.org/abs/2107.07031v1 )

ライセンス: Link先を確認
Francesco Massari, Martin Biehl, Lisa Meeden, Ryota Kanai(参考訳) 強化学習(Reinforcement Learning, RL)は、外因性報酬の少ない環境では、しばしば失敗することが知られている。 考えられる対策は、現在のセンサ状態の特定の特徴に基づいてエージェントに報奨を与える、内在的な報酬機能(インタリンシックモチベーション)をrlエージェントに与えることである。 エンパワーメントの原理に基づく内在的な報酬関数は、エージェントが自身のセンサーに対して持つ制御量に比例する報酬を割り当てる。 我々は,最近提案されている本質的動機付けエージェント(curious agent)とエンパワーメントに触発されたエージェントのバリエーションを実装した。 前者は変分オートエンコーダでセンサ状態を符号化し、後者は変分情報ボトルネックを介して次のセンサ状態を予測する。 両エージェントのパフォーマンスを,4つのスパース報酬グリッド世界におけるアドバンテージアクター-批評家ベースラインのパフォーマンスと比較した。 エンパワーメントエージェントと、その好奇心の強い競争相手は、彼らの本質的な報酬から、同様の利益を得るようだ。 これは、エンパワーメントが探検を促進するのに使用できるという予想を実験的に支持する。

Reinforcement Learning (RL) is known to be often unsuccessful in environments with sparse extrinsic rewards. A possible countermeasure is to endow RL agents with an intrinsic reward function, or 'intrinsic motivation', which rewards the agent based on certain features of the current sensor state. An intrinsic reward function based on the principle of empowerment assigns rewards proportional to the amount of control the agent has over its own sensors. We implemented a variation on a recently proposed intrinsically motivated agent, which we refer to as the 'curious' agent, and an empowerment-inspired agent. The former leverages sensor state encoding with a variational autoencoder, while the latter predicts the next sensor state via a variational information bottleneck. We compared the performance of both agents to that of an advantage actor-critic baseline in four sparse reward grid worlds. Both the empowerment agent and its curious competitor seem to benefit to similar extents from their intrinsic rewards. This provides some experimental support to the conjecture that empowerment can be used to drive exploration.
翻訳日:2021-07-16 14:04:03 公開日:2021-07-14
# 深層多段階特徴融合と反復投票を用いた大規模美術コレクションのオブジェクト検索と局所化

Object Retrieval and Localization in Large Art Collections using Deep Multi-Style Feature Fusion and Iterative Voting ( http://arxiv.org/abs/2107.06935v1 )

ライセンス: Link先を確認
Nikolai Ufer, Sabine Lang, Bj\"orn Ommer(参考訳) 特定の対象やモチーフの探索は、美術史に欠かせないものであり、どちらも美術作品の意味を解読する助けとなる。 デジタル化は大規模な美術コレクションを生み出しているが、手作業による分析では不十分であることが証明されている。 以下では、ユーザが特定のモチーフやオブジェクトを含む画像領域を検索し、拡張データセットで類似の領域を見つけるアルゴリズムを紹介し、美術史家による大規模なデジタル化アートコレクションの分析を支援する。 コンピュータビジョンは、写真にまたがる視覚的なインスタンス検索の効率的な方法を提示した。 しかし、美術コレクションに適用すると、多様なモチーフや、技術や素材、スタイルの違いによって引き起こされる膨大なドメインシフトにより、深刻な欠陥が顕在化している。 本稿では,ラベル付きデータやキュレートされた画像コレクションを使わずに,ドメイン間ギャップを低減し,検索結果を改善するマルチスタイル特徴融合手法を提案する。 GPUによる近似近傍探索による領域ベースの投票では、広範囲なデータセット内の小さなモチーフを数秒で見つけ、ローカライズすることが可能です。 我々は,Brueghelデータセットの最先端結果を取得し,その非均一なコレクションへの一般化を実証した。

The search for specific objects or motifs is essential to art history as both assist in decoding the meaning of artworks. Digitization has produced large art collections, but manual methods prove to be insufficient to analyze them. In the following, we introduce an algorithm that allows users to search for image regions containing specific motifs or objects and find similar regions in an extensive dataset, helping art historians to analyze large digitized art collections. Computer vision has presented efficient methods for visual instance retrieval across photographs. However, applied to art collections, they reveal severe deficiencies because of diverse motifs and massive domain shifts induced by differences in techniques, materials, and styles. In this paper, we present a multi-style feature fusion approach that successfully reduces the domain gap and improves retrieval results without labelled data or curated image collections. Our region-based voting with GPU-accelerated approximate nearest-neighbour search allows us to find and localize even small motifs within an extensive dataset in a few seconds. We obtain state-of-the-art results on the Brueghel dataset and demonstrate its generalization to inhomogeneous collections with a large number of distractors.
翻訳日:2021-07-16 14:03:00 公開日:2021-07-14
# 変圧器を用いた手術指導生成

Surgical Instruction Generation with Transformers ( http://arxiv.org/abs/2107.06964v1 )

ライセンス: Link先を確認
Jinglu Zhang, Yinyu Nie, Jian Chang, and Jian Jun Zhang(参考訳) 手術指導の自動生成は術中コンテクスト認識手術支援の前提条件である。 しかし, 手術場面からの指示の生成には, 現在の視点の手術活動の理解と, 視覚情報とテキスト記述の関係のモデル化が不可欠である。 オープンドメインのニューラルマシン翻訳と画像キャプションタスクに触発されて,自己クリティカル強化学習によるトランスフォーマーバックボンドエンコーダデコーダネットワークを導入し,手術画像からの指示を生成する。 各種医療分野の290の手順を含むDAISIデータセットに対して,本手法の有効性を評価した。 提案手法は,すべてのキャプション評価指標に対して,既存のベースラインを上回ります。 その結果,マルチモーダルコンテキストの処理においてトランスフォーマによってバックボーン化されるエンコーダ・デコーダ構造の利点が示された。

Automatic surgical instruction generation is a prerequisite towards intra-operative context-aware surgical assistance. However, generating instructions from surgical scenes is challenging, as it requires jointly understanding the surgical activity of current view and modelling relationships between visual information and textual description. Inspired by the neural machine translation and imaging captioning tasks in open domain, we introduce a transformer-backbone d encoder-decoder network with self-critical reinforcement learning to generate instructions from surgical images. We evaluate the effectiveness of our method on DAISI dataset, which includes 290 procedures from various medical disciplines. Our approach outperforms the existing baseline over all caption evaluation metrics. The results demonstrate the benefits of the encoder-decoder structure backboned by transformer in handling multimodal context.
翻訳日:2021-07-16 14:02:39 公開日:2021-07-14
# ニューラルネットワークにおける受動的注意は人間の視覚選択性を予測する

Passive attention in artificial neural networks predicts human visual selectivity ( http://arxiv.org/abs/2107.07013v1 )

ライセンス: Link先を確認
Thomas A. Langlois, H. Charles Zhao, Erin Grant, Ishita Dasgupta, Thomas L. Griffiths, Nori Jacoby(参考訳) 過去10年間の機械学習の解釈技術の発展は、ニューラルネットワーク(anns)の分類と局在化に最も有用な画像領域を観察するための新しいツールを提供してきた。 同じ領域が人間の観察者にも同様に有益か? 78の新たな実験と6,610人の参加者から得られたデータから,視覚的識別,空間的局所化,認識性,自由視認性,クエッドオブジェクト探索,サリエンシ探索などの6つの異なる行動課題から導かれる人間の視覚選択性推定値と有意な重なりを示した。 提案手法を応用した比較的単純なannアーキテクチャから得られた入力の可視化が,人間の尺度のジョイント変動における共有成分の最適予測因子であることを見出した。 認識実験を用いて,これらの相関結果を因果操作と検証する。 ANNアテンションマップでマスクした画像は、高速認識実験において、制御マスクよりも人間が分類しやすいことを示す。 同様に、同一のANNモデルにおける認識性能も、人間の視覚的選択性マップを用いた入力画像のマスキングの影響を受けていることがわかった。 本研究は、画像に含まれる情報に対する視覚選択性の観点からの類似性と差異を調べることにより、先行するアンの生物学的・心理的妥当性を人間の視覚モデルとして評価する新しいアプローチに寄与する。

Developments in machine learning interpretability techniques over the past decade have provided new tools to observe the image regions that are most informative for classification and localization in artificial neural networks (ANNs). Are the same regions similarly informative to human observers? Using data from 78 new experiments and 6,610 participants, we show that passive attention techniques reveal a significant overlap with human visual selectivity estimates derived from 6 distinct behavioral tasks including visual discrimination, spatial localization, recognizability, free-viewing, cued-object search, and saliency search fixations. We find that input visualizations derived from relatively simple ANN architectures probed using guided backpropagation methods are the best predictors of a shared component in the joint variability of the human measures. We validate these correlational results with causal manipulations using recognition experiments. We show that images masked with ANN attention maps were easier for humans to classify than control masks in a speeded recognition experiment. Similarly, we find that recognition performance in the same ANN models was likewise influenced by masking input images using human visual selectivity maps. This work contributes a new approach to evaluating the biological and psychological validity of leading ANNs as models of human vision: by examining their similarities and differences in terms of their visual selectivity to the information contained in images.
翻訳日:2021-07-16 14:02:26 公開日:2021-07-14
# 深部生成モデルを用いた分布外検出における故障の理解

Understanding Failures in Out-of-Distribution Detection with Deep Generative Models ( http://arxiv.org/abs/2107.06908v1 )

ライセンス: Link先を確認
Lily H. Zhang, Mark Goldstein, Rajesh Ranganath(参考訳) 深部生成モデル (DGM) は, アウト・オブ・ディストリビューション (OOD) の入力を検出するのに適していると考えられるが, トレーニング分布の画像よりも高い確率や密度をOOD画像に割り当てることが示されている。 本稿では,この行動がモデル推定に起因している理由を説明する。 まず,外部分布が関係していると仮定することなく,ランダムな偶然以上の性能を保証できないことを証明した。 次に、典型的な集合仮説、関連する外分布はデータ分布の確率の高い領域にあり、ood検出はデータ分布の典型的な集合に基づいて定義されるべきであるという主張を問う。 我々は,OOD検出の典型的な集合の任意性だけでなく,内分布と外分布の重なり合いを仮定することによってもたらされる影響を強調した。 以上の結果から, 推定誤差は, 可能性に基づくOOD検出と関心の分散との相違よりも, 推定誤差の最小化がOOD検出の失敗の原因となりうることを示すとともに, 深部生成モデルやOOD検出における今後の研究に影響を及ぼすことを示す。

Deep generative models (DGMs) seem a natural fit for detecting out-of-distribution (OOD) inputs, but such models have been shown to assign higher probabilities or densities to OOD images than images from the training distribution. In this work, we explain why this behavior should be attributed to model misestimation. We first prove that no method can guarantee performance beyond random chance without assumptions on which out-distributions are relevant. We then interrogate the typical set hypothesis, the claim that relevant out-distributions can lie in high likelihood regions of the data distribution, and that OOD detection should be defined based on the data distribution's typical set. We highlight the consequences implied by assuming support overlap between in- and out-distributions, as well as the arbitrariness of the typical set for OOD detection. Our results suggest that estimation error is a more plausible explanation than the misalignment between likelihood-based OOD detection and out-distributions of interest, and we illustrate how even minimal estimation error can lead to OOD detection failures, yielding implications for future work in deep generative modeling and OOD detection.
翻訳日:2021-07-16 13:59:10 公開日:2021-07-14
# フェデレーション最適化のためのフィールドガイド

A Field Guide to Federated Optimization ( http://arxiv.org/abs/2107.06917v1 )

ライセンス: Link先を確認
Jianyu Wang, Zachary Charles, Zheng Xu, Gauri Joshi, H. Brendan McMahan, Blaise Aguera y Arcas, Maruan Al-Shedivat, Galen Andrew, Salman Avestimehr, Katharine Daly, Deepesh Data, Suhas Diggavi, Hubert Eichner, Advait Gadhikar, Zachary Garrett, Antonious M. Girgis, Filip Hanzely, Andrew Hard, Chaoyang He, Samuel Horvath, Zhouyuan Huo, Alex Ingerman, Martin Jaggi, Tara Javidi, Peter Kairouz, Satyen Kale, Sai Praneeth Karimireddy, Jakub Konecny, Sanmi Koyejo, Tian Li, Luyang Liu, Mehryar Mohri, Hang Qi, Sashank J. Reddi, Peter Richtarik, Karan Singhal, Virginia Smith, Mahdi Soltanolkotabi, Weikang Song, Ananda Theertha Suresh, Sebastian U. Stich, Ameet Talwalkar, Hongyi Wang, Blake Woodworth, Shanshan Wu, Felix X. Yu, Honglin Yuan, Manzil Zaheer, Mi Zhang, Tong Zhang, Chunxiang Zheng, Chen Zhu, Wennan Zhu(参考訳) フェデレーション学習と分析は、分散型データからモデル(あるいは統計)を協調的に学習するための分散アプローチである。 分散学習プロセスは、コミュニケーション効率、データ不均一性、プライバシとシステム要件との互換性、その他の問題設定における主要な考慮事項ではない制約を強調する、フェデレートされた最適化問題の解決として定式化することができる。 本稿では,実世界性能を推定するための効果的なシミュレーションを行うことに焦点をあて,具体的な例と実践的実装を通じて,連関最適化アルゴリズムの定式化,設計,評価,分析に関する勧告とガイドラインを提供する。 この研究の目的は、現在の文献を調査することではなく、研究者や実践者が様々な実践的応用に使用できるフェデレーション学習アルゴリズムを設計するよう促すことである。

Federated learning and analytics are a distributed approach for collaboratively learning models (or statistics) from decentralized data, motivated by and designed for privacy protection. The distributed learning process can be formulated as solving federated optimization problems, which emphasize communication efficiency, data heterogeneity, compatibility with privacy and system requirements, and other constraints that are not primary considerations in other problem settings. This paper provides recommendations and guidelines on formulating, designing, evaluating and analyzing federated optimization algorithms through concrete examples and practical implementation, with a focus on conducting effective simulations to infer real-world performance. The goal of this work is not to survey the current literature, but to inspire researchers and practitioners to design federated learning algorithms that can be used in various practical applications.
翻訳日:2021-07-16 13:58:48 公開日:2021-07-14
# データ上の学習アルゴリズムのマッピング : パフォーマンス最適化のための有用なステップとその比較

Mapping Learning Algorithms on Data, a useful step for optimizing performances and their comparison ( http://arxiv.org/abs/2107.06981v1 )

ライセンス: Link先を確認
Filippo Neri(参考訳) 本稿では,パラメータ空間における性能分布の理解を深めるために,学習アルゴリズムをデータ(パフォーマンスマップ)上にマップする新しい手法を提案する。 本手法は,学習者の最良構成を選択する際に有用な情報を提供するとともに,学習者の学習コンテキスト間の比較も強化する。 本研究は,提案手法を説明するために,学習コンテキスト,性能マップ,高性能関数の概念を紹介する。 そして、これらの概念をさまざまな学習コンテキストに適用して、学習者の行動により多くの洞察を与える方法を示し、学習コンテキストをまたいだ学習者の比較を強化する。 この研究は,提案手法の適用方法に関する広範な実験研究によって完了した。

In the paper, we propose a novel methodology to map learning algorithms on data (performance map) in order to gain more insights in the distribution of their performances across their parameter space. This methodology provides useful information when selecting a learner's best configuration for the data at hand, and it also enhances the comparison of learners across learning contexts. In order to explain the proposed methodology, the study introduces the notions of learning context, performance map, and high performance function. It then applies these concepts to a variety of learning contexts to show how their use can provide more insights in a learner's behavior, and can enhance the comparison of learners across learning contexts. The study is completed by an extensive experimental study describing how the proposed methodology can be applied.
翻訳日:2021-07-16 13:58:32 公開日:2021-07-14
# The Benchmark Lottery

The Benchmark Lottery ( http://arxiv.org/abs/2107.07002v1 )

ライセンス: Link先を確認
Mostafa Dehghani, Yi Tay, Alexey A. Gritsenko, Zhe Zhao, Neil Houlsby, Fernando Diaz, Donald Metzler, Oriol Vinyals(参考訳) 経験的機械学習(ML)の世界は、異なるアルゴリズムとメソッドの相対的有効性を決定するために、ベンチマークに強く依存している。 本稿では,MLベンチマークプロセスの全体的脆弱性を記述する「ベンチマーク抽選」の概念を提案する。 ベンチマーク宝くじは、基本的なアルゴリズム上の優位性以外の多くの要因が、メソッドが優れていると認識される可能性があることを仮定している。 MLコミュニティで広く普及している複数のベンチマーク設定では、アルゴリズムの相対的な性能は、異なるベンチマークタスクを選択することで著しく変化し、現在のパラダイムの脆弱さと、ベンチマークMLメソッドから派生した潜在的な誤解釈を強調している。 すべてのベンチマークで重要視されていることに関する声明が述べられていることを踏まえると、これはコミュニティにおけるバイアスのある進歩につながるかもしれない、と私たちは主張します。 本稿では,自然言語処理,コンピュータビジョン,情報検索,レコメンダシステム,強化学習など,複数の機械学習領域とコミュニティをユースケースとして活用するためのレコメンデーションを提案する。

The world of empirical machine learning (ML) strongly relies on benchmarks in order to determine the relative effectiveness of different algorithms and methods. This paper proposes the notion of "a benchmark lottery" that describes the overall fragility of the ML benchmarking process. The benchmark lottery postulates that many factors, other than fundamental algorithmic superiority, may lead to a method being perceived as superior. On multiple benchmark setups that are prevalent in the ML community, we show that the relative performance of algorithms may be altered significantly simply by choosing different benchmark tasks, highlighting the fragility of the current paradigms and potential fallacious interpretation derived from benchmarking ML methods. Given that every benchmark makes a statement about what it perceives to be important, we argue that this might lead to biased progress in the community. We discuss the implications of the observed phenomena and provide recommendations on mitigating them using multiple machine learning domains and communities as use cases, including natural language processing, computer vision, information retrieval, recommender systems, and reinforcement learning.
翻訳日:2021-07-16 13:58:20 公開日:2021-07-14
# 人間はAIから来るとより信頼されるか? 人間とAIの相互作用の解析

Do Humans Trust Advice More if it Comes from AI? An Analysis of Human-AI Interactions ( http://arxiv.org/abs/2107.07015v1 )

ライセンス: Link先を確認
Kailas Vodrahalli, Tobias Gerstenberg, James Zou(参考訳) aiの多くの応用において、アルゴリズムの出力は人間のユーザへの提案としてフレーム化される。 ユーザーはアドバイスを無視したり、判断を変更するために考慮したりすることができる。 このような人間-aiインタラクションの普及に伴い、ユーザーがaiアドバイスに対してどのように行動するか(あるいは行動しないか)、また、アドバイスが"ai"と他の人間から来ると信じている場合、ユーザーがアドバイスをどう考えるかを理解することが重要である。 本稿では,複数の実験環境において,人間同士の対等な提案に対するAI提案の使い方を特徴付ける。 特定のタスクにおける人間対AIのパフォーマンスに対する参加者の信念が、アドバイスをハイドするかどうかに影響を及ぼすことがわかった。 参加者がアドバイスを使うことを決めると、人間やAIの提案も同じように行われる。 これらの結果は、人間とAIの相互作用に影響を与える要因に関する洞察を与える。

In many applications of AI, the algorithm's output is framed as a suggestion to a human user. The user may ignore the advice or take it into consideration to modify his/her decisions. With the increasing prevalence of such human-AI interactions, it is important to understand how users act (or do not act) upon AI advice, and how users regard advice differently if they believe the advice come from an "AI" versus another human. In this paper, we characterize how humans use AI suggestions relative to equivalent suggestions from a group of peer humans across several experimental settings. We find that participants' beliefs about the human versus AI performance on a given task affects whether or not they heed the advice. When participants decide to use the advice, they do so similarly for human and AI suggestions. These results provide insights into factors that affect human-AI interactions.
翻訳日:2021-07-16 13:56:45 公開日:2021-07-14
# 回答セットプログラミングにおける留意 - サーベイ

Forgetting in Answer Set Programming -- A Survey ( http://arxiv.org/abs/2107.07016v1 )

ライセンス: Link先を確認
Ricardo Gon\c{c}alves, Matthias Knorr, Jo\~ao Leite(参考訳) forgetting -または変数の削除 - は、もはや関係のない中間変数の知識ベースから、削除を許可する操作である。 近年では、解答集合プログラミングを忘れるための多くの異なるアプローチが、特定の演算子、あるいはそのような演算子のクラスという形で提案され、一般に異なる原理に従い、異なる性質に従う。 それぞれのアプローチは、そのような視点で望ましいと考えられる特定の性質の集合に従うことを目的とした、忘れることに関する特定の見解に何らかの対処するために開発されたが、既存の演算子や特性の包括的かつ均一な概要は欠落している。 本稿では,既存プロパティと(クラスの)演算子を網羅的に検討し,これらの演算子のクラス全体の全体像を描き,特性と演算子の関係に関する新しい結果が多数含まれている。 当社の目標は、ユーザがアプリケーション要件に最も適したオペレータを選択するためのガイダンスを提供することです。

Forgetting - or variable elimination - is an operation that allows the removal, from a knowledge base, of middle variables no longer deemed relevant. In recent years, many different approaches for forgetting in Answer Set Programming have been proposed, in the form of specific operators, or classes of such operators, commonly following different principles and obeying different properties. Each such approach was developed to somehow address some particular view on forgetting, aimed at obeying a specific set of properties deemed desirable in such view, but a comprehensive and uniform overview of all the existing operators and properties is missing. In this paper, we thoroughly examine existing properties and (classes of) operators for forgetting in Answer Set Programming, drawing a complete picture of the landscape of these classes of forgetting operators, which includes many novel results on relations between properties and operators, including considerations on concrete operators to compute results of forgetting and computational complexity. Our goal is to provide guidance to help users in choosing the operator most adequate for their application requirements.
翻訳日:2021-07-16 13:56:30 公開日:2021-07-14
# 人工知能を用いた屋内定位のための多種永久磁石上部構造

Multiclass Permanent Magnets Superstructure for Indoor Localization using Artificial Intelligence ( http://arxiv.org/abs/2107.07425v1 )

ライセンス: Link先を確認
Amir Ivry, Elad Fisher, Roger Alimi, Idan Mosseri, and Kanna Nahir(参考訳) スマートフォンは,ユーザの屋内位置推定や位置推定に人気がある。 既存のソリューションは主にWi-Fi、RFID、磁気センシング技術を用いて、混雑した会場での動きを追跡する。 これらは磁気クラッタに対して高い感度を持ち、しばしば性能を低下させる局所環境磁場に依存する。 また、これらの技術は地域の地図調査や活動ビーコンの存在を必要とすることが多いが、これは必ずしも利用できない。 既知の場所に小型・大型のマグネットを埋め込み、特定の幾何学的星座に配置し、磁気的超構造パターンを作成します。 これらのシグネチャは、移動センサキャリアに対するあいまいな磁気環境を構成する。 ローカライズアルゴリズムは、トレーニング中に散在する磁石のユニークなパターンを学習し、ローカライズ中のデータの流れからそれらを検出する。 私たちの貢献は2倍です。 まず、アクティブな磁気送信機とは対照的に、電源を必要としない受動永久磁石を配置する。 第2に,磁力計の静的位置決めではなく,スマートフォンの動作に基づく位置決めを行う。 前回の研究では、単一超構造パターンを検討した。 本稿では,そのアルゴリズムを拡張したマルチスーパー構造ローカライゼーション手法を提案する。 実験により,人工知能を用いた1m未満の平均局在誤差で95%の局在精度を示した。

Smartphones have become a popular tool for indoor localization and position estimation of users. Existing solutions mainly employ Wi-Fi, RFID, and magnetic sensing techniques to track movements in crowded venues. These are highly sensitive to magnetic clutters and depend on local ambient magnetic fields, which frequently degrades their performance. Also, these techniques often require pre-known mapping surveys of the area, or the presence of active beacons, which are not always available. We embed small-volume and large-moment magnets in pre-known locations and arrange them in specific geometric constellations that create magnetic superstructure patterns of supervised magnetic signatures. These signatures constitute an unambiguous magnetic environment with respect to the moving sensor carrier. The localization algorithm learns the unique patterns of the scattered magnets during training and detects them from the ongoing streaming of data during localization. Our contribution is twofold. First, we deploy passive permanent magnets that do not require a power supply, in contrast to active magnetic transmitters. Second, we perform localization based on smartphone motion rather than on static positioning of the magnetometer. In our previous study, we considered a single superstructure pattern. Here, we present an extended version of that algorithm for multi-superstructure localization, which covers a broader localization area of the user. Experimental results demonstrate localization accuracy of 95% with a mean localization error of less than 1m using artificial intelligence.
翻訳日:2021-07-16 13:55:41 公開日:2021-07-14
# FST: IWSLT21多言語共有タスクのためのFAIR音声翻訳システム

FST: the FAIR Speech Translation System for the IWSLT21 Multilingual Shared Task ( http://arxiv.org/abs/2107.06959v1 )

ライセンス: Link先を確認
Yun Tang, Hongyu Gong, Xian Li, Changhan Wang, Juan Pino, Holger Schwenk, Naman Goyal(参考訳) 本稿では,多言語音声翻訳共有タスクについて,iwslt 2021評価キャンペーンに提出した多言語音声翻訳システムについて述べる。 我々のシステムは、モダリティ、タスク、言語間の伝達学習を活用して構築されている。 まず,大量のラベル付きデータで事前訓練された汎用多言語モジュールを利用する。 さらに,テキストタスクから音声タスクへの知識伝達を,共同で2つのタスクを訓練することで実現する。 最後に,音声翻訳タスク固有のデータに基づいて多言語モデルを微調整し,最良翻訳結果を得る。 実験の結果,エンド・ツー・エンドとカスケード・ベースの両方の手法が報告されたシステムよりも高いマージンを示した。 いくつかの翻訳方向では,公的な多言語TEDxテストセットで評価された音声翻訳結果は,オラクル音声の書き起こしを入力として用いた強いテキストからテキストへの翻訳システムと同等である。

In this paper, we describe our end-to-end multilingual speech translation system submitted to the IWSLT 2021 evaluation campaign on the Multilingual Speech Translation shared task. Our system is built by leveraging transfer learning across modalities, tasks and languages. First, we leverage general-purpose multilingual modules pretrained with large amounts of unlabelled and labelled data. We further enable knowledge transfer from the text task to the speech task by training two tasks jointly. Finally, our multilingual model is finetuned on speech translation task-specific data to achieve the best translation results. Experimental results show our system outperforms the reported systems, including both end-to-end and cascaded based approaches, by a large margin. In some translation directions, our speech translation results evaluated on the public Multilingual TEDx test set are even comparable with the ones from a strong text-to-text translation system, which uses the oracle speech transcripts as input.
翻訳日:2021-07-16 13:54:38 公開日:2021-07-14
# Lidar Light Scattering Augmentation (LISA):3次元物体検出のための逆気象条件の物理シミュレーション

Lidar Light Scattering Augmentation (LISA): Physics-based Simulation of Adverse Weather Conditions for 3D Object Detection ( http://arxiv.org/abs/2107.07004v1 )

ライセンス: Link先を確認
Velat Kilic, Deepti Hegde, Vishwanath Sindagi, A. Brinton Cooper, Mark A. Foster and Vishal M. Patel(参考訳) lidarベースの物体検出器は、自動運転車のような自律ナビゲーションシステムにおける3d知覚パイプラインの重要な部分である。 しかし, 降雨, 雪, 霧などの悪天候に敏感であることが知られており, 信号対雑音比 (SNR) と信号対背景比 (SBR) の低下が原因である。 その結果、通常の天候で捉えたデータに基づいて訓練されたライダーベースの物体検出器は、このようなシナリオでは性能が悪くなる傾向にある。 しかし、さまざまな悪天候下で十分な訓練データを収集し、ラベル付けすることは手間がかかり、非常に高価である。 そこで本研究では,気象条件下でのライダーポイント雲をシミュレートする物理ベースの手法を提案する。 これらのデータセットを使用してライダーベースの検出器をトレーニングし、全天候の信頼性を向上させることができる。 具体的には, (i) 粒子をランダムに配置し, 背面反射力とターゲットとを比較して大粒子の効果を処理し, および (ii) ミー理論と粒子径分布からの散乱効率の計算により, 平均に対する減衰効果を平均化する, ハイブリッドモンテカルロ法を提案する。 この拡張データを用いたネットワーク再トレーニングにより,実世界の雨シーンで評価された平均精度が向上し,文献から得られた既存モデルと比較して,モデルによる性能向上が確認できた。 さらに,近年の気象状況をシミュレートしたセンサの評価を行い,その性能の詳細な解析を行った。

Lidar-based object detectors are critical parts of the 3D perception pipeline in autonomous navigation systems such as self-driving cars. However, they are known to be sensitive to adverse weather conditions such as rain, snow and fog due to reduced signal-to-noise ratio (SNR) and signal-to-background ratio (SBR). As a result, lidar-based object detectors trained on data captured in normal weather tend to perform poorly in such scenarios. However, collecting and labelling sufficient training data in a diverse range of adverse weather conditions is laborious and prohibitively expensive. To address this issue, we propose a physics-based approach to simulate lidar point clouds of scenes in adverse weather conditions. These augmented datasets can then be used to train lidar-based detectors to improve their all-weather reliability. Specifically, we introduce a hybrid Monte-Carlo based approach that treats (i) the effects of large particles by placing them randomly and comparing their back reflected power against the target, and (ii) attenuation effects on average through calculation of scattering efficiencies from the Mie theory and particle size distributions. Retraining networks with this augmented data improves mean average precision evaluated on real world rainy scenes and we observe greater improvement in performance with our model relative to existing models from the literature. Furthermore, we evaluate recent state-of-the-art detectors on the simulated weather conditions and present an in-depth analysis of their performance.
翻訳日:2021-07-16 13:53:21 公開日:2021-07-14
# Diff-Net:画像特徴差に基づく高精細マップ変化検出

Diff-Net: Image Feature Difference based High-Definition Map Change Detection ( http://arxiv.org/abs/2107.07030v1 )

ライセンス: Link先を確認
Lei He and Shengjie Jiang and Xiaoqing Liang and Ning Wang and Shiyu Song(参考訳) 最新のハイディフィニション(HD)マップは、自動運転車にとって不可欠である。 常に更新されたHDマップを実現するために、ディープニューラルネットワーク(DNN)Diff-Netを提示し、それらの変化を検出する。 従来の物体検出器に基づく手法と比較して,本研究の本質的設計は,カメラとラスタ化画像から抽出した特徴を比較して地図変化を推定する並列特徴差計算構造である。 これらのラスタ化画像を生成するために、カメラビュー内の画像にマップ要素を投影し、それに応じてDNNが消費できる有意義なマップ表現を生成する。 オブジェクト検出問題として変更検出タスクを定式化する際、異なる変更ステータスカテゴリを持つバウンディングボックスを予測するアンカーベース構造を利用する。 さらに,シングルフレーム入力に頼るのではなく,ヒストリーフレームから電流に特徴を融合する時空間融合モジュールを導入し,全体的な性能向上を図る。 最後に,新たに収集したデータセットを用いて,本手法の有効性を総合的に検証する。 その結果、diff-netはベースラインメソッドよりも優れたパフォーマンスを実現し、最新のhdマップを維持するマップ生産パイプラインに統合する準備ができています。

Up-to-date High-Definition (HD) maps are essential for self-driving cars. To achieve constantly updated HD maps, we present a deep neural network (DNN), Diff-Net, to detect changes in them. Compared to traditional methods based on object detectors, the essential design in our work is a parallel feature difference calculation structure that infers map changes by comparing features extracted from the camera and rasterized images. To generate these rasterized images, we project map elements onto images in the camera view, yielding meaningful map representations that can be consumed by a DNN accordingly. As we formulate the change detection task as an object detection problem, we leverage the anchor-based structure that predicts bounding boxes with different change status categories. Furthermore, rather than relying on single frame input, we introduce a spatio-temporal fusion module that fuses features from history frames into the current, thus improving the overall performance. Finally, we comprehensively validate our method's effectiveness using freshly collected datasets. Results demonstrate that our Diff-Net achieves better performance than the baseline methods and is ready to be integrated into a map production pipeline maintaining an up-to-date HD map.
翻訳日:2021-07-16 13:52:55 公開日:2021-07-14
# Chimera: 双方向パイプラインによる大規模ニューラルネットワークの効率的なトレーニング

Chimera: Efficiently Training Large-Scale Neural Networks with Bidirectional Pipelines ( http://arxiv.org/abs/2107.06925v1 )

ライセンス: Link先を確認
Shigang Li, Torsten Hoefler(参考訳) 大規模なディープラーニングモデルのトレーニングは非常に難しい。 本稿では,大規模モデルを効率的に学習するための双方向パイプラインを組み合わせた新しいパイプライン並列化スキームchimeraを提案する。 chimeraは同期アプローチであるため、精度の損失はなく、非同期アプローチよりもコンバージェンスフレンドリである。 最新の同期パイプラインアプローチと比較して、chimeraはバブル数を最大50%削減する。双方向パイプラインの高度なスケジューリングによって、chimeraはよりバランスのとれたアクティベーションメモリ消費量を持つ。 トランスフォーマーに基づく言語モデルを用いて評価を行う。 Piz Daintスーパーコンピュータの2,048のGPUノード上で動作する13億のパラメータを持つGPT-2モデルにおいて、Chimeraは最先端の同期および非同期パイプラインアプローチよりも1.16x-2.34xのトレーニングスループットを向上させる。

Training large deep learning models at scale is very challenging. This paper proposes Chimera, a novel pipeline parallelism scheme which combines bidirectional pipelines for efficiently training large-scale models. Chimera is a synchronous approach and therefore no loss of accuracy, which is more convergence-friendly than asynchronous approaches. Compared with the latest synchronous pipeline approach, Chimera reduces the number of bubbles by up to 50%; benefiting from the sophisticated scheduling of bidirectional pipelines, Chimera has a more balanced activation memory consumption. Evaluations are conducted on Transformer based language models. For a GPT-2 model with 1.3 billion parameters running on 2,048 GPU nodes of the Piz Daint supercomputer, Chimera improves the training throughput by 1.16x-2.34x over the state-of-the-art synchronous and asynchronous pipeline approaches.
翻訳日:2021-07-16 13:51:03 公開日:2021-07-14
# 高速化エッジ推論のためのニューラルネットワークのメモリアウェアfusingとtiling

Memory-Aware Fusing and Tiling of Neural Networks for Accelerated Edge Inference ( http://arxiv.org/abs/2107.06960v1 )

ライセンス: Link先を確認
Jackson Farley, Andreas Gerstlauer(参考訳) リソース制約のあるエッジデバイス上で、コストのかかる機械学習(ML)ネットワークをローカルで実行する、という研究課題が増えている。 大きな畳み込み層を持つmlネットワークは、容易に利用可能なメモリを超えることができ、過剰なスワップによるレイテンシが増加する。 プルーニングや量子化のような以前のメモリ削減技術はモデルの精度を低下させ、再トレーニングを必要とする。 あるいは、分散メソッドは畳み込みを同等の小さなサブ計算に分割するが、実装は通信コストを導入し、デバイスネットワークを必要とする。 しかし、分散パーティショニングアプローチは、ネットワークをより小さな操作に分割することによって、単一のデバイス上のメモリフットプリントを削減するためにも使用できる。 本報告では,ティアリングによる分散パーティショニングと畳み込みレイヤの融合を,単一のデバイス上でのメモリ認識実行に拡張する。 提案手法は, 融解とタイル化を独立に行う2つの畳み込み層を実現するために, 事前のfusing戦略を拡張する。 このアプローチはデータ再利用によるオーバーヘッドを低減し、メモリフットプリントをさらに削減します。 また、任意の畳み込み層に対して、メモリ使用率予測器と探索アルゴリズムを併用して、フラクションおよびタイリング構成を提供する。 YOLOv2オブジェクト検出ネットワークに適用すると,本手法はメモリの半分以下で動作し,メモリの厳しい制約下では最大2.78の高速化を実現している。 さらに、我々のアルゴリズムは、手動検索で測定された最高のレイテンシの6%以内のレイテンシで設定を返します。

A rising research challenge is running costly machine learning (ML) networks locally on resource-constrained edge devices. ML networks with large convolutional layers can easily exceed available memory, increasing latency due to excessive swapping. Previous memory reduction techniques such as pruning and quantization reduce model accuracy and often require retraining. Alternatively, distributed methods partition the convolutions into equivalent smaller sub-computations, but the implementations introduce communication costs and require a network of devices. However, a distributed partitioning approach can also be used to run in a reduced memory footprint on a single device by subdividing the network into smaller operations. This report extends prior work on distributed partitioning using tiling and fusing of convolutional layers into a memory-aware execution on a single device. Our approach extends prior fusing strategies to allow for two groups of convolutional layers that are fused and tiled independently. This approach reduces overhead via data reuse, and reduces the memory footprint further. We also propose a memory usage predictor coupled with a search algorithm to provide fusing and tiling configurations for an arbitrary set of convolutional layers. When applied to the YOLOv2 object detection network, results show that our approach can run in less than half the memory, and with a speedup of up to 2.78 under severe memory constraints. Additionally, our algorithm will return a configuration with a latency that is within 6% of the best latency measured in a manual search.
翻訳日:2021-07-16 13:50:48 公開日:2021-07-14
# 近似pomdpによるコグニティブ無線の学習に基づくスペクトル検出とアクセス

Learning-based Spectrum Sensing and Access in Cognitive Radios via Approximate POMDPs ( http://arxiv.org/abs/2107.07049v1 )

ライセンス: Link先を確認
Bharath Keshavamurthy and Nicolo Michelusi(参考訳) 認知無線(cr)は、無線エコシステムにおけるライセンスユーザ(lus)のスペクトル占有の基盤となる時間周波数相関モデルを学び、同時に、ほぼ最適なスペクトルセンシングおよびアクセスポリシーをセンシング制約下で考案する、新しい学習ベースのスペクトルセンシング・アクセス(lessa)フレームワークを提案する。 雑音スペクトル測定に基づくLUスペクトル占有率のパラメトリックマルコフ遷移モデルを学習するために,Baum-Welchアルゴリズムを提案する。 スペクトルセンシングとアクセスは、ランダム化されたポイントベースの値反復によってほぼ最適化された部分観測可能なマルコフ決定プロセスとしてキャストされる。 フラグメンテーション,ハミング距離状態フィルタ,モンテカルロ法によって計算の複雑さを緩和し,crスループットとlu干渉のトレードオフを規制する重み付け報酬指標が提案されている。 数値評価により、LESSAは、LUスペクトル占有の予知を伴うジェニーエイド上界の5%以内で動作し、トレードオフ領域全体にわたって最先端のアルゴリズムを上回り、相関ベースのクラスタリングの71パーセント、ネイマン・ピアソン検出の26パーセント、ビタビアルゴリズムの6%、適応的なディープQ-ネットワークの9%を上回ります。 LESSAは分散マルチエージェント設定(MA-LESSA)に拡張され、新しい隣人発見とチャネルアクセスランク割り当てを提案する。 MA-LESSAは、協調的なTD-SARSAで43%、協調的な欲求分散学習で84%、g統計学とACKで非協調的な学習で3倍のCRスループットを改善する。 最後に、ma-lessaはdarpa sc2プラットフォーム上で実装されており、実世界のtdwr-unii wlanエミュレーションにおいて競合他社よりも優れたパフォーマンスを示している。

A novel LEarning-based Spectrum Sensing and Access (LESSA) framework is proposed, wherein a cognitive radio (CR) learns a time-frequency correlation model underlying spectrum occupancy of licensed users (LUs) in a radio ecosystem; concurrently, it devises an approximately optimal spectrum sensing and access policy under sensing constraints. A Baum-Welch algorithm is proposed to learn a parametric Markov transition model of LU spectrum occupancy based on noisy spectrum measurements. Spectrum sensing and access are cast as a Partially-Observable Markov Decision Process, approximately optimized via randomized point-based value iteration. Fragmentation, Hamming-distance state filters and Monte-Carlo methods are proposed to alleviate the inherent computational complexity, and a weighted reward metric to regulate the trade-off between CR throughput and LU interference. Numerical evaluations demonstrate that LESSA performs within 5 percent of a genie-aided upper bound with foreknowledge of LU spectrum occupancy, and outperforms state-of-the-art algorithms across the entire trade-off region: 71 percent over correlation-based clustering, 26 percent over Neyman-Pearson detection, 6 percent over the Viterbi algorithm, and 9 percent over an adaptive Deep Q-Network. LESSA is then extended to a distributed Multi-Agent setting (MA-LESSA), by proposing novel neighbor discovery and channel access rank allocation. MA-LESSA improves CR throughput by 43 percent over cooperative TD-SARSA, 84 percent over cooperative greedy distributed learning, and 3x over non-cooperative learning via g-statistics and ACKs. Finally, MA-LESSA is implemented on the DARPA SC2 platform, manifesting superior performance over competitors in a real-world TDWR-UNII WLAN emulation; its implementation feasibility is further validated on a testbed of ESP32 radios, exhibiting 96 percent success probability.
翻訳日:2021-07-16 13:50:26 公開日:2021-07-14
# 情報の流れの定量化に向けて:ディープニューラルネットワークと再正規化群における相対エントロピー

Towards quantifying information flows: relative entropy in deep neural networks and the renormalization group ( http://arxiv.org/abs/2107.06898v1 )

ライセンス: Link先を確認
Johanna Erdmenger, Kevin T. Grosvenor, and Ro Jefferson(参考訳) 本稿では, ニューロンの層がRGに沿った連続的なステップに類似する, 再正規化群 (RG) とディープニューラルネットワークの類似性について検討する。 特に,1次元および2次元のIsingモデルと,深度関数としてのフィードフォワードニューラルネットワークの両方において,相対エントロピーあるいはクルバック・リブラーの偏差を明示的に計算することにより,情報の流れを定量化する。 パラメータ依存漸近値への単調増加を特徴とする定性的に同一の挙動を観察する。 場の量子論側では、単調増加は相対エントロピーとc-理論の間の関係を確認する。 ニューラルネットワークの場合、漸近的な振る舞いは、機械学習における様々な情報最大化手法や、拡張性や一般化可能性に影響を及ぼす可能性がある。 さらに,2次元イジングモデルとランダムニューラルネットワークはいずれも非自明な臨界点を示すが,相対エントロピーはいずれの系の位相構造にも影響を受けない。 この意味では、これらのモデルにおける情報の流れを完全に解明するために、より洗練されたプローブが必要である。

We investigate the analogy between the renormalization group (RG) and deep neural networks, wherein subsequent layers of neurons are analogous to successive steps along the RG. In particular, we quantify the flow of information by explicitly computing the relative entropy or Kullback-Leibler divergence in both the one- and two-dimensional Ising models under decimation RG, as well as in a feedforward neural network as a function of depth. We observe qualitatively identical behavior characterized by the monotonic increase to a parameter-dependent asymptotic value. On the quantum field theory side, the monotonic increase confirms the connection between the relative entropy and the c-theorem. For the neural networks, the asymptotic behavior may have implications for various information maximization methods in machine learning, as well as for disentangling compactness and generalizability. Furthermore, while both the two-dimensional Ising model and the random neural networks we consider exhibit non-trivial critical points, the relative entropy appears insensitive to the phase structure of either system. In this sense, more refined probes are required in order to fully elucidate the flow of information in these models.
翻訳日:2021-07-16 13:47:57 公開日:2021-07-14
# (参考訳) ハイパーパラメータ最適化:基盤、アルゴリズム、ベストプラクティス、オープンチャレンジ

Hyperparameter Optimization: Foundations, Algorithms, Best Practices and Open Challenges ( http://arxiv.org/abs/2107.05847v2 )

ライセンス: CC BY 4.0
Bernd Bischl, Martin Binder, Michel Lang, Tobias Pielok, Jakob Richter, Stefan Coors, Janek Thomas, Theresa Ullmann, Marc Becker, Anne-Laure Boulesteix, Difan Deng, Marius Lindauer(参考訳) ほとんどの機械学習アルゴリズムは、1つまたは複数のハイパーパラメータによって構成される。 高性能なハイパーパラメータ構成を見つけるための時間的消費と再現不可能な手動試行とエラープロセスを避けるために、教師付き機械学習のための再サンプリング誤差推定に基づくhpo(automatic hyperparameter optimization)メソッドを用いることができる。 一般論としてHPOを導入した後、グリッドやランダム検索、進化アルゴリズム、ベイズ最適化、ハイパーバンド、レースなどの重要なHPO手法を概説する。 HPOアルゴリズム自体、パフォーマンス評価、HPOとMLパイプラインの結合方法、ランタイム改善、並列化など、HPOの実行時に行う重要な選択に関する実践的な推奨事項を提供する。

Most machine learning algorithms are configured by one or several hyperparameters that must be carefully chosen and often considerably impact performance. To avoid a time consuming and unreproducible manual trial-and-error process to find well-performing hyperparameter configurations, various automatic hyperparameter optimization (HPO) methods, e.g., based on resampling error estimation for supervised machine learning, can be employed. After introducing HPO from a general perspective, this paper reviews important HPO methods such as grid or random search, evolutionary algorithms, Bayesian optimization, Hyperband and racing. It gives practical recommendations regarding important choices to be made when conducting HPO, including the HPO algorithms themselves, performance evaluation, how to combine HPO with ML pipelines, runtime improvements, and parallelization.
翻訳日:2021-07-16 09:11:08 公開日:2021-07-14
# カーネル連続学習

Kernel Continual Learning ( http://arxiv.org/abs/2107.05757v2 )

ライセンス: Link先を確認
Mohammad Mahdi Derakhshani, Xiantong Zhen, Ling Shao, Cees G. M. Snoek(参考訳) 本稿では,カーネル手法の非パラメトリックな性質を活用して,破滅的誤りに対処する,単純かつ効果的な連続学習法であるカーネル継続学習を紹介する。 タスク毎にサンプルのサブセットを格納したエピソディックメモリユニットをデプロイして,カーネルリッジ回帰に基づいてタスク固有の分類器を学習する。 これはメモリの再生を必要とせず、分類器のタスク干渉を体系的に回避する。 さらに,タスク毎にデータ駆動カーネルを学習するために,変動ランダムな特徴を導入する。 そこで我々はカーネル連続学習を変分推論問題として定式化し、ランダムなフーリエ基底を潜在変数として組み込む。 各タスクのコアセットからランダムなフーリエ基底上の変動後分布を推定する。 このようにして、各タスク固有のより情報的なカーネルを生成することができ、さらに重要なことは、コアセットのサイズを小さくすることで、よりコンパクトなメモリを実現し、エピソードメモリに基づくより効率的な連続学習を実現することができる。 4つのベンチマークの広範な評価は、継続的な学習におけるカーネルの有効性と期待を示している。

This paper introduces kernel continual learning, a simple but effective variant of continual learning that leverages the non-parametric nature of kernel methods to tackle catastrophic forgetting. We deploy an episodic memory unit that stores a subset of samples for each task to learn task-specific classifiers based on kernel ridge regression. This does not require memory replay and systematically avoids task interference in the classifiers. We further introduce variational random features to learn a data-driven kernel for each task. To do so, we formulate kernel continual learning as a variational inference problem, where a random Fourier basis is incorporated as the latent variable. The variational posterior distribution over the random Fourier basis is inferred from the coreset of each task. In this way, we are able to generate more informative kernels specific to each task, and, more importantly, the coreset size can be reduced to achieve more compact memory, resulting in more efficient continual learning based on episodic memory. Extensive evaluation on four benchmarks demonstrates the effectiveness and promise of kernels for continual learning.
翻訳日:2021-07-16 09:09:13 公開日:2021-07-14
# (参考訳) GREN:X線画像における弱スーパービジョン病局在のためのグラフ規則化埋め込みネットワーク [全文訳有]

GREN: Graph-Regularized Embedding Network for Weakly-Supervised Disease Localization in X-ray images ( http://arxiv.org/abs/2107.06442v1 )

ライセンス: CC BY 4.0
Baolian Qi, Gangming Zhao, Xin Wei, Chaowei Fang, Chengwei Pan, Jinpeng Li, Huiguang He, and Licheng Jiao(参考訳) 注意深いアノテーションで胸部x線画像内の疾患を見つけることは、大きな人間の努力を救える。 近年の研究では,MIL (Multi-instance Learning) やクラスアクティベーションマップ (class activation map, CAM) などのアルゴリズムによって,この課題にアプローチしているが,不正確な領域や不完全領域を生じることが多い。 理由の1つは、各画像内の解剖学的領域と画像間の関係に隠された病理学的意味の無視である。 本稿では,コンテクスト情報と補償情報としてのクロスリージョンとクロスイメージの関係が,より一貫した統合領域を得るために不可欠であると主張する。 この関係をモデル化するために,胸部X線画像上の疾患の特定に画像内および画像間情報を活用するグラフ正規化埋め込みネットワーク(GREN)を提案する。 grenは訓練済みのu-netを使って肺葉を分割し、画像内グラフを用いて肺葉間の画像内関係をモデル化し、異なる領域を比較する。 一方、バッチ内画像間の関係は画像間グラフによってモデル化され、複数の画像を比較する。 このプロセスは放射線医の訓練と意思決定の過程を模倣し、複数の領域と画像を比較して診断する。 ニューラルネットワークの深層埋め込み層が構造情報を保持するために(局所化タスクにおいて重要)、ハッシュ符号化とハミング距離を用いてグラフを計算する。 このことから,本研究はNIH胸部X線データを用いた軽度疾患局所化のための最先端の成果を得た。 私たちのコードはオンラインでアクセスできます。

Locating diseases in chest X-ray images with few careful annotations saves large human effort. Recent works approached this task with innovative weakly-supervised algorithms such as multi-instance learning (MIL) and class activation maps (CAM), however, these methods often yield inaccurate or incomplete regions. One of the reasons is the neglection of the pathological implications hidden in the relationship across anatomical regions within each image and the relationship across images. In this paper, we argue that the cross-region and cross-image relationship, as contextual and compensating information, is vital to obtain more consistent and integral regions. To model the relationship, we propose the Graph Regularized Embedding Network (GREN), which leverages the intra-image and inter-image information to locate diseases on chest X-ray images. GREN uses a pre-trained U-Net to segment the lung lobes, and then models the intra-image relationship between the lung lobes using an intra-image graph to compare different regions. Meanwhile, the relationship between in-batch images is modeled by an inter-image graph to compare multiple images. This process mimics the training and decision-making process of a radiologist: comparing multiple regions and images for diagnosis. In order for the deep embedding layers of the neural network to retain structural information (important in the localization task), we use the Hash coding and Hamming distance to compute the graphs, which are used as regularizers to facilitate training. By means of this, our approach achieves the state-of-the-art result on NIH chest X-ray dataset for weakly-supervised disease localization. Our codes are accessible online.
翻訳日:2021-07-16 01:47:57 公開日:2021-07-14
# (参考訳) MSFNet:単眼深度推定のためのマルチスケール特徴ネットワーク [全文訳有]

MSFNet:Multi-scale features network for monocular depth estimation ( http://arxiv.org/abs/2107.06445v1 )

ライセンス: CC BY 4.0
Meiqi Pei(参考訳) 近年,周囲の3次元環境を理解するために単眼深度推定が適用され,大きな進歩を遂げている。 しかし、1つの画像から直接深度情報を得る方法には不適切な問題がある。 ディープラーニングの急速な発展により、この問題は解決できる。 ますます多くのアプローチが提案されているが、既存の手法の多くは、rgb空間から深度空間へのマッピング時に連続的なダウンサンプリングによって、必然的に詳細を失っている。 最後に,多機能ネットワーク(msfnet,multi-scale features network)の設計を行い,拡張多機能化(eda)モジュールとアップサンプルステージ融合(usf)モジュールからなる。 edaモジュールは空間的注意法を用いて重要な空間情報を学習するが、usfモジュールはマルチスケール特徴融合の観点から低レベルの詳細情報と高レベル意味情報とを補完し、予測効果を改善する。 加えて、単純なサンプルは常により良い効果を得るために訓練されているため、硬いサンプルは収束が難しい。 従って、バッチ内のより難しいサンプルに大きな損失係数を割り当てるためにバッチロスを設計する。 NYU-Depth V2データセットとKITTIデータセットの実験は、我々の提案手法が定性評価と定量的評価の両方において最先端の手法とより競合することを示した。

In recent years, monocular depth estimation is applied to understand the surrounding 3D environment and has made great progress. However, there is an ill-posed problem on how to gain depth information directly from a single image. With the rapid development of deep learning, this problem is possible to be solved. Although more and more approaches are proposed one after another, most of existing methods inevitably lost details due to continuous downsampling when mapping from RGB space to depth space. To the end, we design a Multi-scale Features Network (MSFNet), which consists of Enhanced Diverse Attention (EDA) module and Upsample-Stage Fusion (USF) module. The EDA module employs the spatial attention method to learn significant spatial information, while USF module complements low-level detail information with high-level semantic information from the perspective of multi-scale feature fusion to improve the predicted effect. In addition, since the simple samples are always trained to a better effect first, the hard samples are difficult to converge. Therefore, we design a batch-loss to assign large loss factors to the harder samples in a batch. Experiments on NYU-Depth V2 dataset and KITTI dataset demonstrate that our proposed approach is more competitive with the state-of-the-art methods in both qualitative and quantitative evaluation.
翻訳日:2021-07-16 01:29:21 公開日:2021-07-14
# (参考訳) ボリューム登録のための終端超音波フレーム [全文訳有]

End-to-end Ultrasound Frame to Volume Registration ( http://arxiv.org/abs/2107.06449v1 )

ライセンス: CC BY 4.0
Hengtao Guo, Xuanang Xu, Sheng Xu, Bradford J. Wood, Pingkun Yan(参考訳) 前立腺生検では術中2次元経直腸超音波(TRUS)画像と術前3次元磁気共鳴(MR)容積を併用することにより,収率を有意に高めることができる。 しかし、このようなマルチモーダル2D/3D登録問題は非常に難しい課題である。 本稿では,2次元TRUSフレームを3次元TRUSボリュームに整列させることで,ハードウェアトラッキングを必要とせずに,従来の研究ギャップを効率的に埋めることのできる,エンドツーエンドのフレーム・ツー・ボリューム登録ネットワーク(FVR-Net)を提案する。 The proposed FVR-Net using a dual-branch feature extract module to extract the information from TRUS frame and volume to estimated transformation parameters。 また,コンテンツ対応学習のための教師なし画像類似度損失から逆伝播可能な2次元スライスサンプリングモジュールを提案する。 本モデルは,高い競合性を有するリアルタイム介入指導に優れた効率を示す。

Fusing intra-operative 2D transrectal ultrasound (TRUS) image with pre-operative 3D magnetic resonance (MR) volume to guide prostate biopsy can significantly increase the yield. However, such a multimodal 2D/3D registration problem is a very challenging task. In this paper, we propose an end-to-end frame-to-volume registration network (FVR-Net), which can efficiently bridge the previous research gaps by aligning a 2D TRUS frame with a 3D TRUS volume without requiring hardware tracking. The proposed FVR-Net utilizes a dual-branch feature extraction module to extract the information from TRUS frame and volume to estimate transformation parameters. We also introduce a differentiable 2D slice sampling module which allows gradients backpropagating from an unsupervised image similarity loss for content correspondence learning. Our model shows superior efficiency for real-time interventional guidance with highly competitive registration accuracy.
翻訳日:2021-07-16 01:11:41 公開日:2021-07-14
# (参考訳) AID-Purifier: 敵防衛を強化するための軽量補助ネットワーク [全文訳有]

AID-Purifier: A Light Auxiliary Network for Boosting Adversarial Defense ( http://arxiv.org/abs/2107.06456v1 )

ライセンス: CC BY 4.0
Duhun Hwang, Eunjung Lee, Wonjong Rhee(参考訳) 入力を清浄することにより、敵の学習したネットワークの堅牢性を高めることができるAID浄化器を提案する。 AID-purifierは、既に訓練済みの主分類器のアドオンとして機能する補助ネットワークである。 計算を軽くするために、二項クロスエントロピー損失を持つ判別器として訓練される。 敵の例からさらに有用な情報を得るため、アーキテクチャ設計は、主分類ネットワークの2層を補助ネットワークにパイプする情報最大化原則と密接に関連している。 浄化の反復最適化手順を支援するため、補助ネットワークをAVmixupでトレーニングする。 AID-purifierは、PixelDefendなどの他のパーファイアと一緒に追加の強化に使うことができる。 以上の結果から, AID-purifier が軽量で堅牢な競合候補である場合, 最適性能の浄化ネットワークにより, 最適性能の対向学習ネットワークを向上できることが示唆された。

We propose an AID-purifier that can boost the robustness of adversarially-traine d networks by purifying their inputs. AID-purifier is an auxiliary network that works as an add-on to an already trained main classifier. To keep it computationally light, it is trained as a discriminator with a binary cross-entropy loss. To obtain additionally useful information from the adversarial examples, the architecture design is closely related to information maximization principles where two layers of the main classification network are piped to the auxiliary network. To assist the iterative optimization procedure of purification, the auxiliary network is trained with AVmixup. AID-purifier can be used together with other purifiers such as PixelDefend for an extra enhancement. The overall results indicate that the best performing adversarially-traine d networks can be enhanced by the best performing purification networks, where AID-purifier is a competitive candidate that is light and robust.
翻訳日:2021-07-16 01:01:53 公開日:2021-07-14
# (参考訳) 離散化ガウス-ラプラシア-ロジスティック混合モデルと連結化残留モジュールによる学習画像圧縮 [全文訳有]

Learned Image Compression with Discretized Gaussian-Laplacian-L ogistic Mixture Model and Concatenated Residual Modules ( http://arxiv.org/abs/2107.06463v1 )

ライセンス: CC BY 4.0
Haisheng Fu and Feng Liang and Jianping Lin and Bing Li and Mohammad Akbari and Jie Liang and Guohe Zhang and Dong Liu and Chengjie Tu and Jingning Han(参考訳) 近年、深層学習に基づく画像圧縮手法は大きな成果を上げ、psnrとms-ssimメトリクスの両方で最新のvvc(standard versatile video coding)を含む従来のアプローチを徐々に上回っている。 学習した画像圧縮フレームワークの2つの重要なコンポーネントは、潜在表現のエントロピーモデルと、エンコーディング/デコードネットワークアーキテクチャである。 自己回帰、ソフトマックス、ロジスティック混合、ガウス混合、ラプラシアンなど様々なモデルが提案されている。 既存のスキームはこれらのモデルの1つしか使用していない。 しかし,画像の多様性が大きいため,画像の異なる領域であっても,すべての画像に対してひとつのモデルを使用するのが最適ではない。 本稿では,画像の異なるコンテンツや画像の異なる領域により正確に適応できる潜在表現に対する,より柔軟に離散化されたガウス・ラプラシア・ロジスティック混合モデル(gllmm)を提案する。 さらに、符号化/復号化ネットワーク設計部では、複数の残余ブロックを追加のショートカット接続で直列接続する連結残差ブロック(CRB)を提案する。 CRBはネットワークの学習能力を向上させることができ、圧縮性能をさらに向上させることができる。 Kodak と Tecnick のデータセットを用いた実験結果から,提案手法はPSNR と MS-SSIM の両面から VVC イントラコーディング (4:4:4 と 4:2:0) を含む最先端の学習手法や既存の圧縮標準よりも優れていた。

Recently deep learning-based image compression methods have achieved significant achievements and gradually outperformed traditional approaches including the latest standard Versatile Video Coding (VVC) in both PSNR and MS-SSIM metrics. Two key components of learned image compression frameworks are the entropy model of the latent representations and the encoding/decoding network architectures. Various models have been proposed, such as autoregressive, softmax, logistic mixture, Gaussian mixture, and Laplacian. Existing schemes only use one of these models. However, due to the vast diversity of images, it is not optimal to use one model for all images, even different regions of one image. In this paper, we propose a more flexible discretized Gaussian-Laplacian-L ogistic mixture model (GLLMM) for the latent representations, which can adapt to different contents in different images and different regions of one image more accurately. Besides, in the encoding/decoding network design part, we propose a concatenated residual blocks (CRB), where multiple residual blocks are serially connected with additional shortcut connections. The CRB can improve the learning ability of the network, which can further improve the compression performance. Experimental results using the Kodak and Tecnick datasets show that the proposed scheme outperforms all the state-of-the-art learning-based methods and existing compression standards including VVC intra coding (4:4:4 and 4:2:0) in terms of the PSNR and MS-SSIM.
翻訳日:2021-07-16 00:45:42 公開日:2021-07-14
# (参考訳) 線形rlを超える:サンプル効率的な神経関数近似

Going Beyond Linear RL: Sample Efficient Neural Function Approximation ( http://arxiv.org/abs/2107.06466v1 )

ライセンス: CC0 1.0
Baihe Huang and Kaixuan Huang and Sham M. Kakade and Jason D. Lee and Qi Lei and Runzhe Wang and Jiaqi Yang(参考訳) Q関数のニューラルネット近似による深層強化学習(RL)は、経験的成功を収めた。 RLの理論は伝統的に線形関数近似(あるいは可溶性次元)アプローチに焦点を合わせてきたが、Q関数のニューラルネット近似を持つ非線形RLについてはほとんど知られていない。 この研究の焦点は、2層ニューラルネットワークによる関数近似(ReLUと多項式アクティベーション関数の両方を考慮する)の研究である。 最初の結果は、2層ニューラルネットワークの完全性を考慮した生成モデル設定における計算量および統計効率のよいアルゴリズムである。 第2の結果は、この設定を考えるが、ニューラルネット関数クラスは実現可能である。 ここで決定論的ダイナミクスを仮定すると、サンプル複雑性は代数次元において線形にスケールする。 いずれの場合においても, 線形(あるいはエルダー次元)法で達成できることで, 結果は著しく向上した。

Deep Reinforcement Learning (RL) powered by neural net approximation of the Q function has had enormous empirical success. While the theory of RL has traditionally focused on linear function approximation (or eluder dimension) approaches, little is known about nonlinear RL with neural net approximations of the Q functions. This is the focus of this work, where we study function approximation with two-layer neural networks (considering both ReLU and polynomial activation functions). Our first result is a computationally and statistically efficient algorithm in the generative model setting under completeness for two-layer neural networks. Our second result considers this setting but under only realizability of the neural net function class. Here, assuming deterministic dynamics, the sample complexity scales linearly in the algebraic dimension. In all cases, our results significantly improve upon what can be attained with linear (or eluder dimension) methods.
翻訳日:2021-07-16 00:23:31 公開日:2021-07-14
# (参考訳) 機械翻訳からコードスイッチングへ:高品質なコードスイッチトテキストを生成する [全文訳有]

From Machine Translation to Code-Switching: Generating High-Quality Code-Switched Text ( http://arxiv.org/abs/2107.06483v1 )

ライセンス: CC BY 4.0
Ishan Tarunesh, Syamantak Kumar, Preethi Jyothi(参考訳) コード切替テキストの生成は、特に大量の実際のコード切替テキストを含むコーパスの不足を考えると、関心が高まっている問題である。 本研究では,モノリンガルなヒンディー語文から始まるヒンディー語文を生成するために,最先端のニューラルマシン翻訳モデルを適用する。 我々は,高品質なコード切替テキストを生成するための,合成コード切替テキストの使用を含む,事前学習手順を慎重に設計したカリキュラムを概説する。 データ拡張として我々のモデルから生成されたテキストを用いて、CSテキストの他の生成モデルからのテキストと比較して、言語モデリングタスクにおけるパープレキシティの大幅な低下を示す。 また、下流のコード切り換え自然言語推論タスクにテキストを使用する場合の改善も示しています。 生成したテキストは、人間の評価研究と様々な客観的指標を用いて厳密な評価を受け、ヒンディー語話者である群衆労働者によって得られたコード変更テキストに匹敵する性能(時として優れている)を示す。

Generating code-switched text is a problem of growing interest, especially given the scarcity of corpora containing large volumes of real code-switched text. In this work, we adapt a state-of-the-art neural machine translation model to generate Hindi-English code-switched sentences starting from monolingual Hindi sentences. We outline a carefully designed curriculum of pretraining steps, including the use of synthetic code-switched text, that enable the model to generate high-quality code-switched text. Using text generated from our model as data augmentation, we show significant reductions in perplexity on a language modeling task, compared to using text from other generative models of CS text. We also show improvements using our text for a downstream code-switched natural language inference task. Our generated text is further subjected to a rigorous evaluation using a human evaluation study and a range of objective metrics, where we show performance comparable (and sometimes even superior) to code-switched text obtained via crowd workers who are native Hindi speakers.
翻訳日:2021-07-16 00:22:34 公開日:2021-07-14
# (参考訳) ニューラルスピーカ埋め込みのための連続多層マルチヘッドアテンション [全文訳有]

Serialized Multi-Layer Multi-Head Attention for Neural Speaker Embedding ( http://arxiv.org/abs/2107.06493v1 )

ライセンス: CC BY 4.0
Hongning Zhu, Kong Aik Lee, Haizhou Li(参考訳) 本稿では,テキスト非依存話者検証におけるニューラルスピーカー埋め込みのためのシリアライズされた多層マルチヘッドアテンションを提案する。 先行研究では、ある層からのフレームレベルの特徴を集約し、発話レベルの表現を形成する。 提案手法はトランスフォーマーネットワークにインスパイアされ,階層型自己認識機構を用いて話者とより相関の深い特徴を導出する。 シリアライズドアテンション機構は、話者の固定次元表現を作成するための自己注意モジュールのスタックを含んでいる。 マルチヘッドアテンションを並列に利用する代わりに,提案するシリアライズ多層マルチヘッドアテンションは,一層から次層への注意統計を連続的に集約し,伝播するように設計されている。 さらに,統計プールを用いた各発話に対して,入力認識クエリを用いる。 レイヤーを積み重ねることで、ニューラルネットワークはより差別的な話者埋め込みを学ぶことができる。 voxceleb1 データセットと sitw データセットの実験結果から,提案手法は x-vectors および他の x-vectors + 注意プーリングアプローチを含む他のベースライン法を9.7%,dcf0.01 を8.1%上回ることがわかった。

This paper proposes a serialized multi-layer multi-head attention for neural speaker embedding in text-independent speaker verification. In prior works, frame-level features from one layer are aggregated to form an utterance-level representation. Inspired by the Transformer network, our proposed method utilizes the hierarchical architecture of stacked self-attention mechanisms to derive refined features that are more correlated with speakers. Serialized attention mechanism contains a stack of self-attention modules to create fixed-dimensional representations of speakers. Instead of utilizing multi-head attention in parallel, the proposed serialized multi-layer multi-head attention is designed to aggregate and propagate attentive statistics from one layer to the next in a serialized manner. In addition, we employ an input-aware query for each utterance with the statistics pooling. With more layers stacked, the neural network can learn more discriminative speaker embeddings. Experiment results on VoxCeleb1 dataset and SITW dataset show that our proposed method outperforms other baseline methods, including x-vectors and other x-vectors + conventional attentive pooling approaches by 9.7% in EER and 8.1% in DCF0.01.
翻訳日:2021-07-16 00:04:49 公開日:2021-07-14
# (参考訳) 希薄なrgbdビデオからの短時間のニューラルヒューマンパフォーマンスレンダリング [全文訳有]

Few-shot Neural Human Performance Rendering from Sparse RGBD Videos ( http://arxiv.org/abs/2107.06505v1 )

ライセンス: CC BY 4.0
Anqi Pang, Xin Chen, Haimin Luo, Minye Wu, Jingyi Yu, Lan Xu(参考訳) 人間の活動に対する最近のニューラルレンダリングアプローチは、素晴らしいビュー合成結果をもたらすが、それでも全てのキャプチャフレームで集中した入力ビューや密集したトレーニングに依存しているため、デプロイの困難さと非効率的なトレーニングオーバーロードに繋がる。 しかし、入力が空間的にも時間的にもスパースであれば、既存の進歩は悪くなる。 このギャップを埋めるため,本稿では,時間的および空間的冗長性を利用して人間の活動のフォトリアリスティックなフリービューアウトプットを生成する,スパースrgbd入力のみから,数ショットのニューラルヒューマンレンダリング(fnhr)手法を提案する。 我々のFNHRは入力シーケンスで運動多様体を拡張するキーフレームにのみ訓練される。 そこで本研究では,ニューラルポイントレンダリングと古典的なグラフィックテキスト作成パイプラインを組み合わせた2分岐型ニューラルブレンド手法を提案する。 さらに,局所冗長性を利用したパッチベースの敵対的トレーニングプロセスを採用し,キーフレームへの過剰フィットを回避し,詳細なレンダリング結果を生成する。 広範に実験を行い,高品質なフリービューポイントを生成できる手法の有効性を実証した。

Recent neural rendering approaches for human activities achieve remarkable view synthesis results, but still rely on dense input views or dense training with all the capture frames, leading to deployment difficulty and inefficient training overload. However, existing advances will be ill-posed if the input is both spatially and temporally sparse. To fill this gap, in this paper we propose a few-shot neural human rendering approach (FNHR) from only sparse RGBD inputs, which exploits the temporal and spatial redundancy to generate photo-realistic free-view output of human activities. Our FNHR is trained only on the key-frames which expand the motion manifold in the input sequences. We introduce a two-branch neural blending to combine the neural point render and classical graphics texturing pipeline, which integrates reliable observations over sparse key-frames. Furthermore, we adopt a patch-based adversarial training process to make use of the local redundancy and avoids over-fitting to the key-frames, which generates fine-detailed rendering results. Extensive experiments demonstrate the effectiveness of our approach to generate high-quality free view-point results for challenging human performances under the sparse setting.
翻訳日:2021-07-15 23:53:08 公開日:2021-07-14
# (参考訳) リモートセンシング画像スーパーリゾリューションのためのマルチアテンション・ジェネレーティブ・アドバイザリー・ネットワーク [全文訳有]

Multi-Attention Generative Adversarial Network for Remote Sensing Image Super-Resolution ( http://arxiv.org/abs/2107.06536v1 )

ライセンス: CC BY 4.0
Meng Xu, Zhihao Wang, Jiasong Zhu, Xiuping Jia, Sen Jia(参考訳) 画像超解像(SR)法は,高解像度で高解像度のリモートセンシング画像を生成することができるため,高解像度で高解像度のリモートセンシング画像が得られる。 明らかに、画像の超解像度は深刻な問題である。 幸いにも、ディープラーニングの開発によって、ディープニューラルネットワークの強力な適合能力は、この問題をある程度解決した。 本稿では,GAN(Generative Adversarial Network)に基づく,マルチアテンション・ジェネレーティブ・ディベザリ・ネットワーク(MA-GAN)と呼ばれる高解像度リモートセンシング画像を生成するネットワークを提案する。 我々はまず、画像SRタスクのためのGANベースのフレームワークを設計した。 SRタスクを達成するためのコアは、私たちが設計したポストサンプリングによるイメージジェネレータです。 発電機の本体には2つのブロックがあり、1つは残留拡散ブロック(pcrdb)のピラミッド畳み込み、もう1つは注意に基づくアップサムル(aup)ブロックである。 PCRDBブロックの注目ピラミッド畳み込み(AttPConv)は、マルチスケールの畳み込みとチャネルアテンションを組み合わせたモジュールで、より良い結果を得るために残留物のスケーリングを自動的に学習し調整する。 AUPブロックは、ピクセルアテンション(PA)を組み合わせて任意の複数のアップサンプリングを実行するモジュールである。 これら2つのブロックは協力して高品質な画像を生成する。 損失関数に対しては,画素損失に基づく損失関数を設計し,逆損失と特徴損失の両方を導入して,ジェネレータ学習を指導する。 本手法をリモートセンシングシーン画像データセット上でいくつかの最先端手法と比較し,MA-GANの有効性を連続的に示す実験結果を得た。

Image super-resolution (SR) methods can generate remote sensing images with high spatial resolution without increasing the cost, thereby providing a feasible way to acquire high-resolution remote sensing images, which are difficult to obtain due to the high cost of acquisition equipment and complex weather. Clearly, image super-resolution is a severe ill-posed problem. Fortunately, with the development of deep learning, the powerful fitting ability of deep neural networks has solved this problem to some extent. In this paper, we propose a network based on the generative adversarial network (GAN) to generate high resolution remote sensing images, named the multi-attention generative adversarial network (MA-GAN). We first designed a GAN-based framework for the image SR task. The core to accomplishing the SR task is the image generator with post-upsampling that we designed. The main body of the generator contains two blocks; one is the pyramidal convolution in the residual-dense block (PCRDB), and the other is the attention-based upsample (AUP) block. The attentioned pyramidal convolution (AttPConv) in the PCRDB block is a module that combines multi-scale convolution and channel attention to automatically learn and adjust the scaling of the residuals for better results. The AUP block is a module that combines pixel attention (PA) to perform arbitrary multiples of upsampling. These two blocks work together to help generate better quality images. For the loss function, we design a loss function based on pixel loss and introduce both adversarial loss and feature loss to guide the generator learning. We have compared our method with several state-of-the-art methods on a remote sensing scene image dataset, and the experimental results consistently demonstrate the effectiveness of the proposed MA-GAN.
翻訳日:2021-07-15 23:40:23 公開日:2021-07-14
# (参考訳) ZR-2021VG: Zero-Resource Speech Challenge, Visually-Grounded Language Modelling Track, 2021 edition [全文訳有]

ZR-2021VG: Zero-Resource Speech Challenge, Visually-Grounded Language Modelling track, 2021 edition ( http://arxiv.org/abs/2107.06546v1 )

ライセンス: CC BY 4.0
Afra Alishahia, Grzegorz Chrupa{\l}a, Alejandrina Cristia, Emmanuel Dupoux, Bertrand Higy, Marvin Lavechin, Okko R\"as\"anen and Chen Yu(参考訳) 本稿では,Zero-Resource Speech Challenge, 2021 Edition, 2nd Roundで導入された,視覚的な言語モデリングトラックについて紹介する。 我々は新しいトラックを動機付け、参加ルールを詳細に議論する。 このトラック用に開発された2つのベースラインシステムについても紹介する。

We present the visually-grounded language modelling track that was introduced in the Zero-Resource Speech challenge, 2021 edition, 2nd round. We motivate the new track and discuss participation rules in detail. We also present the two baseline systems that were developed for this track.
翻訳日:2021-07-15 23:21:29 公開日:2021-07-14
# (参考訳) 生物多様性のFAIRerデータ記述のためのI-ADOPT相互運用フレームワーク [全文訳有]

The I-ADOPT Interoperability Framework for FAIRer data descriptions of biodiversity ( http://arxiv.org/abs/2107.06547v1 )

ライセンス: CC BY 4.0
Barbara Magagna and Ilaria Rosati and Maria Stoica and Sirko Schindler and Gwenaelle Moncoiffe and Anusuriya Devaraju and Johannes Peterseil and Robert Huber(参考訳) 生物多様性、種と生態系の変動は、人類の健康と惑星の平衡に不可欠である。 人類社会の持続可能な発展には不可欠であり、重要な国際的課題である。 生物多様性の研究はデータ集約化が進み、GBIF、ILTER、LifeWatch、BODC、PANGAEA、TERNといったグローバルおよび地域イニシアチブが利用できる異種および分散データを扱う。 特に、これらのイニシアチブによって様々なメタデータやセマンティックリソースが作成され、生物多様性の観察を記述し、データ管理システム間の相互運用性の問題を導入している。 これらの課題に対処するため、2019年に国際用語プロバイダとデータセンター管理者のグループによって、観測、測定、計算、導出に関する共通アプローチを構築するために、InteroperAble Descriptions of Observable Property Terminology WG(I-ADOPT WG)が設立された。 変数の既存のセマンティック表現の広範な分析に基づいて、WGはI-ADOPTフレームワークオントロジーを公開した。これは、既存のセマンティックリソース間の相互運用性を促進し、コンポーネントをFAIR語彙にマッピングしたマシン可読な変数記述の提供をサポートする。 i-adoptフレームワークオントロジーは、科学的な観察で一般的に見られる様々なパターンを記述するのに使用できる、高レベルの意味コンポーネントのセットを定義している。 この貢献は、生物多様性領域でよく使われる変数を表現するために、I-ADOPTフレームワークをどのように適用できるかに焦点を当てる。

Biodiversity, the variation within and between species and ecosystems, is essential for human well-being and the equilibrium of the planet. It is critical for the sustainable development of human society and is an important global challenge. Biodiversity research has become increasingly data-intensive and it deals with heterogeneous and distributed data made available by global and regional initiatives, such as GBIF, ILTER, LifeWatch, BODC, PANGAEA, and TERN, that apply different data management practices. In particular, a variety of metadata and semantic resources have been produced by these initiatives to describe biodiversity observations, introducing interoperability issues across data management systems. To address these challenges, the InteroperAble Descriptions of Observable Property Terminology WG (I-ADOPT WG) was formed by a group of international terminology providers and data center managers in 2019 with the aim to build a common approach to describe what is observed, measured, calculated, or derived. Based on an extensive analysis of existing semantic representations of variables, the WG has recently published the I-ADOPT framework ontology to facilitate interoperability between existing semantic resources and support the provision of machine-readable variable descriptions whose components are mapped to FAIR vocabulary terms. The I-ADOPT framework ontology defines a set of high level semantic components that can be used to describe a variety of patterns commonly found in scientific observations. This contribution will focus on how the I-ADOPT framework can be applied to represent variables commonly used in the biodiversity domain.
翻訳日:2021-07-15 23:09:42 公開日:2021-07-14
# (参考訳) 多言語ニューラルマシン翻訳における重要度に基づくニューロン配置 [全文訳有]

Importance-based Neuron Allocation for Multilingual Neural Machine Translation ( http://arxiv.org/abs/2107.06569v1 )

ライセンス: CC BY 4.0
Wanying Xie, Yang Feng, Shuhao Gu, Dong Yu(参考訳) 単一モデルによる多言語ニューラルマシン翻訳は、複数の言語を扱う能力のため、多くの注目を集めている。 しかし、現在の多言語翻訳パラダイムは、モデルが一般的な知識を保持する傾向があるが、言語固有の知識を無視する傾向がある。 過去の研究では、様々な言語固有のモジュールをモデルに追加することでこの問題を解決しようとしたが、パラメータ爆発問題に悩まされ、特別な手動設計が必要となった。 これらの問題を解決するために,モデルニューロンを言語間の重要性に基づいて,一般および言語固有の部分に分割することを提案する。 一般部は一般知識の保存とすべての言語の翻訳への参加に責任を持ち、言語固有の部は言語固有の知識の保存と特定の言語の翻訳への参加に責任がある。 IWSLTとEuroparl corpusデータセットをカバーする複数の言語対の実験結果から,提案手法の有効性と普遍性を実証した。

Multilingual neural machine translation with a single model has drawn much attention due to its capability to deal with multiple languages. However, the current multilingual translation paradigm often makes the model tend to preserve the general knowledge, but ignore the language-specific knowledge. Some previous works try to solve this problem by adding various kinds of language-specific modules to the model, but they suffer from the parameter explosion problem and require specialized manual design. To solve these problems, we propose to divide the model neurons into general and language-specific parts based on their importance across languages. The general part is responsible for preserving the general knowledge and participating in the translation of all the languages, while the language-specific part is responsible for preserving the language-specific knowledge and participating in the translation of some specific languages. Experimental results on several language pairs, covering IWSLT and Europarl corpus datasets, demonstrate the effectiveness and universality of the proposed method.
翻訳日:2021-07-15 22:53:12 公開日:2021-07-14
# (参考訳) 胸部X線写真による視覚的COVID-19の特徴の階層的解析 [全文訳有]

Hierarchical Analysis of Visual COVID-19 Features from Chest Radiographs ( http://arxiv.org/abs/2107.06618v1 )

ライセンス: CC BY 4.0
Shruthi Bannur, Ozan Oktay, Melanie Bernhardt, Anton Schwaighofer, Rajesh Jena, Besmira Nushi, Sharan Wadhwani, Aditya Nori, Kal Natarajan, Shazad Ashraf, Javier Alvarez-Valle, Daniel C. Castro(参考訳) 胸部X線撮影は、新型コロナウイルスのパンデミックを通じて集中治療室(ICU)の患者トリアージと資源管理に推奨されている。 このワークフローを強化する機械学習の取り組みは、レポートの欠陥、モデル評価、障害モード分析のために、長い間課題とされてきた。 これらの欠点のいくつかに対処するために、放射線学的決定プロセスと整合する、人間解釈可能な階層構造を持つ放射線学的特徴をモデル化する。 また,本モデルの盲点を明らかにするために,データ駆動型誤り解析手法の利用を提案し,その臨床的有用性についてさらなる透明性を提供する。 例えば, モデル故障はICU画像条件と相関し, 特定の種類の放射線学的特徴を識別することの難しさが示唆された。 また, 階層的解釈と分析により, 放射線科医の知見と変数間性の比較が容易となり, その結果として, モデルの臨床応用性の評価が向上した。

Chest radiography has been a recommended procedure for patient triaging and resource management in intensive care units (ICUs) throughout the COVID-19 pandemic. The machine learning efforts to augment this workflow have been long challenged due to deficiencies in reporting, model evaluation, and failure mode analysis. To address some of those shortcomings, we model radiological features with a human-interpretable class hierarchy that aligns with the radiological decision process. Also, we propose the use of a data-driven error analysis methodology to uncover the blind spots of our model, providing further transparency on its clinical utility. For example, our experiments show that model failures highly correlate with ICU imaging conditions and with the inherent difficulty in distinguishing certain types of radiological features. Also, our hierarchical interpretation and analysis facilitates the comparison with respect to radiologists' findings and inter-variability, which in return helps us to better assess the clinical applicability of models.
翻訳日:2021-07-15 22:38:24 公開日:2021-07-14
# (参考訳) ジョンソン・リンデンシュトラウス次元還元の実用的尺度に対する最適性 [全文訳有]

Optimality of the Johnson-Lindenstraus s Dimensionality Reduction for Practical Measures ( http://arxiv.org/abs/2107.06626v1 )

ライセンス: CC BY 4.0
Yair Bartal and Ora Nova Fandina and Kasper Green Larsen(参考訳) Johnson-Lindenstraus s次元減少法が最悪の場合の歪みに対して最適であることが知られている。 実際には、他の多くの方法やヒューリスティックが使用されるが、その性能の境界についてはあまり知られていない。 JL法が実際に歪みの測定に最適かどうかという問題は、最近 \cite{BFN19} (NeurIPS'19) で提起された。 彼らは幅広い実践的措置のために品質の上界を提供し、多くのケースでこれが最善であることを示した。 しかし、平均歪みの基本的なケースを含む最も重要なケースは、未解決のまま残されている。 特に、JL変換は、$k=O(1/\eps^2)$、より一般的な$q$-normsの歪み、$k = O(\max\{1/\eps^2,q/\eps\})$、$k=O(1/\eps^2)$、$k=O(\max\{1/\eps^2,q/\eps\})$に埋め込むための平均歪みが1+\epsilon$1+\epsilon$である。 本稿では、任意の次元減少法において、これらの境界が最善であることが証明され、任意の 1 \leq q \leq o(\frac{\log (2\eps^2n)}{\eps})$ および $\epsilon \geq \frac{1}{\sqrt{n}}$ に対して、$n$ はユークリッド空間の部分集合の大きさである。 以上の結果から, JL法は, 応力, エネルギー, 相対誤差など, 実際に一般的に用いられる様々な歪み測定に最適であることが示唆された。 これらの測度のいずれかが$\eps$であれば、$k=\Omega(1/\eps^2)$, for any $\epsilon \geq \frac{1}{\sqrt{n}}$, with the upper bounds of \cite{BFN19} and extended their tightness results for the full range moment analysis。 以上の結果から,JL次元減少法は実用的応用においてより頻繁に検討されるべきであり,他の手法とヒューリスティックスの性能を評価する際には,その品質に対する限界を比較尺度として提供すべきであると考えられる。

It is well known that the Johnson-Lindenstraus s dimensionality reduction method is optimal for worst case distortion. While in practice many other methods and heuristics are used, not much is known in terms of bounds on their performance. The question of whether the JL method is optimal for practical measures of distortion was recently raised in \cite{BFN19} (NeurIPS'19). They provided upper bounds on its quality for a wide range of practical measures and showed that indeed these are best possible in many cases. Yet, some of the most important cases, including the fundamental case of average distortion were left open. In particular, they show that the JL transform has $1+\epsilon$ average distortion for embedding into $k$-dimensional Euclidean space, where $k=O(1/\eps^2)$, and for more general $q$-norms of distortion, $k = O(\max\{1/\eps^2,q/\eps\})$, whereas tight lower bounds were established only for large values of $q$ via reduction to the worst case. In this paper we prove that these bounds are best possible for any dimensionality reduction method, for any $1 \leq q \leq O(\frac{\log (2\eps^2 n)}{\eps})$ and $\epsilon \geq \frac{1}{\sqrt{n}}$, where $n$ is the size of the subset of Euclidean space. Our results imply that the JL method is optimal for various distortion measures commonly used in practice, such as {\it stress, energy} and {\it relative error}. We prove that if any of these measures is bounded by $\eps$ then $k=\Omega(1/\eps^2)$, for any $\epsilon \geq \frac{1}{\sqrt{n}}$, matching the upper bounds of \cite{BFN19} and extending their tightness results for the full range moment analysis. Our results may indicate that the JL dimensionality reduction method should be considered more often in practical applications, and the bounds we provide for its quality should be served as a measure for comparison when evaluating the performance of other methods and heuristics.
翻訳日:2021-07-15 22:22:05 公開日:2021-07-14
# (参考訳) 全体医用イメージングのための自己監督型マルチモードアライメント [全文訳有]

Self-Supervised Multi-Modal Alignment for Whole Body Medical Imaging ( http://arxiv.org/abs/2107.06652v1 )

ライセンス: CC BY 4.0
Rhydian Windsor, Amir Jamaludin, Timor Kadir, Andrew Zisserman(参考訳) 本稿では,同じ被験者に対して2つのスキャンモダリティが利用可能である場合の医療画像における自己教師型深層学習の利用について検討する。 具体的には、英国バイオバンクの2万人以上の被験者を対象に、全身Dixon technique magnetic resonance(MR)スキャンとデュアルエネルギーX線吸収率(DXA)スキャンを併用した大規模な公開データセットを使用します。 i) 同じ被験者の異なるモダリティスキャンを高精度に一致させることができるマルチモーダル画像マッチングコントラストフレームワークを導入する。 (ii) 適応がなければ, このコントラストトレーニングステップで学習した対応文が, 完全に教師なしの方法で自動クロスモーダルスキャン登録を行うことができることを示す。 (iii) 最後に、これらの登録を用いて、dxaスキャンからmrスキャンへのセグメンテーションマップを転送し、地上mr例を必要とせず、解剖学的領域をセグメンテーションするためにネットワークを訓練する。 さらなる研究を支援するため、私たちのコードは公開されます。

This paper explores the use of self-supervised deep learning in medical imaging in cases where two scan modalities are available for the same subject. Specifically, we use a large publicly-available dataset of over 20,000 subjects from the UK Biobank with both whole body Dixon technique magnetic resonance (MR) scans and also dual-energy x-ray absorptiometry (DXA) scans. We make three contributions: (i) We introduce a multi-modal image-matching contrastive framework, that is able to learn to match different-modality scans of the same subject with high accuracy. (ii) Without any adaption, we show that the correspondences learnt during this contrastive training step can be used to perform automatic cross-modal scan registration in a completely unsupervised manner. (iii) Finally, we use these registrations to transfer segmentation maps from the DXA scans to the MR scans where they are used to train a network to segment anatomical regions without requiring ground-truth MR examples. To aid further research, our code will be made publicly available.
翻訳日:2021-07-15 21:26:34 公開日:2021-07-14
# (参考訳) DeepMutants: コンテキスト変異による神経バグ検出のトレーニング [全文訳有]

DeepMutants: Training neural bug detectors with contextual mutations ( http://arxiv.org/abs/2107.06657v1 )

ライセンス: CC BY 4.0
Cedric Richter, Heike Wehrheim(参考訳) 学習ベースのバグ検知器は、変数名や関数名、コメントなどの自然なヒントを利用して、大きなコードベースでバグを見つけることを約束する。 それでも、既存のテクニックは、現実的なバグを提示するとパフォーマンスが低下する傾向があります。 バグ検出学習は現在、現実的なトレーニング例の欠如に苦しんでいると思います。 実際、現実世界のバグは少なく、既存の方法で人工的に作られ、ほとんど非現実的なミュータントを訓練している。 本研究では,突然変異文脈に関する知識を組み込んで,自然およびより現実的な障害を動的にコードに注入する,新しい文脈突然変異演算子を提案する。 提案手法はマスキング言語モデルを用いて,実現可能なトークン置換に対するコンテキスト依存分布を生成する。 評価の結果、言語モデルからのサンプリングは、実際のバグをより正確に表現するミュータントを生成するだけでなく、人工ベンチマークと実世界のソースコードの両方において、より良いバグ検出を行うことができた。

Learning-based bug detectors promise to find bugs in large code bases by exploiting natural hints such as names of variables and functions or comments. Still, existing techniques tend to underperform when presented with realistic bugs. We believe bug detector learning to currently suffer from a lack of realistic defective training examples. In fact, real world bugs are scarce which has driven existing methods to train on artificially created and mostly unrealistic mutants. In this work, we propose a novel contextual mutation operator which incorporates knowledge about the mutation context to dynamically inject natural and more realistic faults into code. Our approach employs a masked language model to produce a context-dependent distribution over feasible token replacements. The evaluation shows that sampling from a language model does not only produce mutants which more accurately represent real bugs but also lead to better performing bug detectors, both on artificial benchmarks and on real world source code.
翻訳日:2021-07-15 20:59:43 公開日:2021-07-14
# (参考訳) 動的システムにおけるモデルエラーの機械学習フレームワーク

A Framework for Machine Learning of Model Error in Dynamical Systems ( http://arxiv.org/abs/2107.06658v1 )

ライセンス: CC BY 4.0
Matthew E. Levine and Andrew M. Stuart(参考訳) 動的システムのデータインフォームド予測モデルの開発は多くの分野において広く関心を集めている。 データから動的システムを特定するための機械的アプローチと機械学習アプローチを組み合わせるための統一フレームワークを提案する。 純粋なデータ駆動学習と不完全なドメイン知識を含むハイブリッドモデルを比較する。 連続時間と離散時間の両方において、モデルエラーがメモリレスであり、大きなメモリを持つ問題に対して問題を提起し、データ駆動とハイブリッドのアプローチを実験的に比較した。 私たちの定式化は、選択された機械学習モデルに依存しない。 Lorenz '63 と Lorenz '96 のマルチスケールシステムを用いて、ハイブリッド手法はデータ飢餓、モデルの複雑さの要求、全体的な予測性能において、データ駆動のアプローチを著しく上回ります。 また、連続時間フレーミングは不規則なサンプリングや望ましいドメイン解釈性への堅牢性を可能にするが、離散時間フレーミングは、特にデータがアンサンプリングされベクトル場が解決できない場合に、同様の、またはより良い予測性能を提供することができる。 We study model error from the learning theory perspective, defining excess risk and generalization error; for a linear model of the error used to learn about ergodic dynamical systems, both errors are bounded by terms that diminish with the square-root of T. We also illustrate scenarios that benefit from modeling with memory, proving that continuous-time recurrent neural networks (RNNs) can, in principle, learn memory-dependent model error and reconstruct the original system arbitrarily well; numerical results depict challenges in representing memory by this approach. また、RNNを貯水池計算に接続し、メモリ依存誤差の学習をランダムな特徴を用いたバナッハ空間間の教師あり学習に関連付ける。

The development of data-informed predictive models for dynamical systems is of widespread interest in many disciplines. We present a unifying framework for blending mechanistic and machine-learning approaches to identify dynamical systems from data. We compare pure data-driven learning with hybrid models which incorporate imperfect domain knowledge. We cast the problem in both continuous- and discrete-time, for problems in which the model error is memoryless and in which it has significant memory, and we compare data-driven and hybrid approaches experimentally. Our formulation is agnostic to the chosen machine learning model. Using Lorenz '63 and Lorenz '96 Multiscale systems, we find that hybrid methods substantially outperform solely data-driven approaches in terms of data hunger, demands for model complexity, and overall predictive performance. We also find that, while a continuous-time framing allows for robustness to irregular sampling and desirable domain-interpretabil ity, a discrete-time framing can provide similar or better predictive performance, especially when data are undersampled and the vector field cannot be resolved. We study model error from the learning theory perspective, defining excess risk and generalization error; for a linear model of the error used to learn about ergodic dynamical systems, both errors are bounded by terms that diminish with the square-root of T. We also illustrate scenarios that benefit from modeling with memory, proving that continuous-time recurrent neural networks (RNNs) can, in principle, learn memory-dependent model error and reconstruct the original system arbitrarily well; numerical results depict challenges in representing memory by this approach. We also connect RNNs to reservoir computing and thereby relate the learning of memory-dependent error to recent work on supervised learning between Banach spaces using random features.
翻訳日:2021-07-15 20:38:22 公開日:2021-07-14
# (参考訳) 目標指向タスクに対するプランベース緩和リワード整形 [全文訳有]

Plan-Based Relaxed Reward Shaping for Goal-Directed Tasks ( http://arxiv.org/abs/2107.06661v1 )

ライセンス: CC BY 4.0
Ingmar Schubert and Ozgur S. Oguz and Marc Toussaint(参考訳) 高次元状態空間では、強化学習(RL)の有用性は探索の問題によって制限される。 この問題は以前にもPB-RS ( potential-based reward shaping) を用いて解決されている。 本稿では,FV-RS(Final-Volume- Preserving Reward Shaping)を紹介する。 FV-RSはPB-RSの厳密な最適性保証を長期的行動の保証に緩和する。 制限の少ないFV-RSは、RLアルゴリズムのサンプル効率を改善するのにさらに適した報酬形成機能を実現する。 特に,エージェントが近似計画にアクセス可能な設定について検討する。 本稿では、シミュレーションロボット操作の例を用いて、プランベースFV-RSが、プランベースPB-RSよりもRLのサンプル効率を大幅に向上できることを示す。

In high-dimensional state spaces, the usefulness of Reinforcement Learning (RL) is limited by the problem of exploration. This issue has been addressed using potential-based reward shaping (PB-RS) previously. In the present work, we introduce Final-Volume-Preserv ing Reward Shaping (FV-RS). FV-RS relaxes the strict optimality guarantees of PB-RS to a guarantee of preserved long-term behavior. Being less restrictive, FV-RS allows for reward shaping functions that are even better suited for improving the sample efficiency of RL algorithms. In particular, we consider settings in which the agent has access to an approximate plan. Here, we use examples of simulated robotic manipulation tasks to demonstrate that plan-based FV-RS can indeed significantly improve the sample efficiency of RL over plan-based PB-RS.
翻訳日:2021-07-15 20:36:56 公開日:2021-07-14
# (参考訳) 任意の経路損失マップのオンライン学習のためのハイブリッドモデルとデータ駆動アルゴリズム [全文訳有]

Hybrid Model and Data Driven Algorithm for Online Learning of Any-to-Any Path Loss Maps ( http://arxiv.org/abs/2107.06677v1 )

ライセンス: CC BY 4.0
M. A. Gutierrez-Estevez, Martin Kasparick, Renato L. G. Cavalvante, S{\l}awomir Sta\'nczak(参考訳) 任意の経路損失マップ(A2A)を学習し、目的は地図内の任意の2つのポイント間の経路損失を再構築することであり、デバイス間通信(D2D)に依存する多くのアプリケーションにとって重要な実現手段となる。 そのような用途には、機械式通信(MTC)や車両間通信(V2V)がある。 A2Aマップを学習するための現在のアプローチは、モデルベースの方法または純粋なデータ駆動手法である。 モデルベース手法は、計算量の低い信頼性の高い推定を生成できるという利点があるが、データから得られる情報を利用することはできない。 純粋なデータ駆動手法は物理的なモデルを仮定せずに優れたパフォーマンスを達成することができるが、その複雑さと堅牢性の欠如は多くのアプリケーションでは受け入れられない。 本稿では,オンライン形式でデータセットとモデルから得られた情報を融合する,新しいハイブリッドモデルとデータ駆動手法を提案する。 そこで我々は,確率学習の枠組みを活用して,サンプルの逐次到着に対処し,代わりに,元の非凸問題を最小限に抑えるオンラインアルゴリズムを提案する。 収束の証明は、第一に合成データに基づく実験、第二にV2Xのためのより現実的なデータセットに基づく実験とともに提示される。

Learning any-to-any (A2A) path loss maps, where the objective is the reconstruction of path loss between any two given points in a map, might be a key enabler for many applications that rely on device-to-device (D2D) communication. Such applications include machine-type communications (MTC) or vehicle-to-vehicle (V2V) communications. Current approaches for learning A2A maps are either model-based methods, or pure data-driven methods. Model-based methods have the advantage that they can generate reliable estimations with low computational complexity, but they cannot exploit information coming from data. Pure data-driven methods can achieve good performance without assuming any physical model, but their complexity and their lack of robustness is not acceptable for many applications. In this paper, we propose a novel hybrid model and data-driven approach that fuses information obtained from datasets and models in an online fashion. To that end, we leverage the framework of stochastic learning to deal with the sequential arrival of samples and propose an online algorithm that alternatively and sequentially minimizes the original non-convex problem. A proof of convergence is presented, along with experiments based firstly on synthetic data, and secondly on a more realistic dataset for V2X, with both experiments showing promising results.
翻訳日:2021-07-15 20:15:47 公開日:2021-07-14
# (参考訳) 伝達可能な直交ネットワークによるサファー強化学習 [全文訳有]

Safer Reinforcement Learning through Transferable Instinct Networks ( http://arxiv.org/abs/2107.06686v1 )

ライセンス: CC BY 4.0
Djordje Grbic and Sebastian Risi(参考訳) ランダム探索は、強化学習(RL)が優れた政策を見出す主要なメカニズムの1つである。 しかし、安全クリティカルな環境でオンラインで学ぶと、望ましくない、または破滅的な結果をもたらす可能性がある。 実際、安全な学習は、デプロイ中に学習できる現実世界のエージェントに対する大きな障害の1つです。 エージェントが厳しい制限を尊重することを保証する1つの方法は、運用可能なバウンダリを明示的に設定することである。 場合によってはこれはうまくいくかも知れませんが、状態やアクションが危険な状態に危険に近づける可能性のある、明確なaプライオリ情報を持っているとは限らないのです。 ここでは,新たな政策が主方針を覆し,より安全な代替手段を提供するアプローチを提案する。 instinct-regulated rl (ir^2l) アプローチでは,学習方針を守りながら,望ましくない状況を認識する「本能的」ネットワークを訓練する。 instinctネットワークは、ミスを犯しても安全である1つのタスクで事前トレーニングされ、新しいタスクを安全に学習する環境に移行することが重要です。 オープンAIセーフティ体育館におけるIR^2Lは,ベースラインRLアプローチよりもトレーニング中の安全性違反が有意に少ないが,課題性能は類似している。

Random exploration is one of the main mechanisms through which reinforcement learning (RL) finds well-performing policies. However, it can lead to undesirable or catastrophic outcomes when learning online in safety-critical environments. In fact, safe learning is one of the major obstacles towards real-world agents that can learn during deployment. One way of ensuring that agents respect hard limitations is to explicitly configure boundaries in which they can operate. While this might work in some cases, we do not always have clear a-priori information which states and actions can lead dangerously close to hazardous states. Here, we present an approach where an additional policy can override the main policy and offer a safer alternative action. In our instinct-regulated RL (IR^2L) approach, an "instinctual" network is trained to recognize undesirable situations, while guarding the learning policy against entering them. The instinct network is pre-trained on a single task where it is safe to make mistakes, and transferred to environments in which learning a new task safely is critical. We demonstrate IR^2L in the OpenAI Safety gym domain, in which it receives a significantly lower number of safety violations during training than a baseline RL approach while reaching similar task performance.
翻訳日:2021-07-15 19:36:34 公開日:2021-07-14
# (参考訳) 深層適応型多目的逆強化学習 [全文訳有]

Deep Adaptive Multi-Intention Inverse Reinforcement Learning ( http://arxiv.org/abs/2107.06692v1 )

ライセンス: CC BY 4.0
Ariyan Bighashdel, Panagiotis Meletis, Pavol Jancura, and Gijs Dubbelman(参考訳) 本稿では,非ラベル専門家による実演から事前に未知の非線形報酬関数を学習できる,奥行き逆強化学習(irl)フレームワークを提案する。 この目的のために,dirichletプロセスからのツールを用いて,複雑な報酬関数と未知数の報酬関数を同時に考慮する適応的アプローチを提案する。 条件付き最大エントロピー原理を用いて、専門家の多目的行動を潜在意図分布の混合としてモデル化し、2つのアルゴリズムを導出し、未ラベルのデモンストレーションから専門家の意図の数とともに深い報酬ネットワークのパラメータを推定する。 提案アルゴリズムは3つのベンチマークで評価され、そのうち2つは多目的IRLに対して特に拡張され、よく知られたベースラインと比較された。 既存のアプローチよりもアルゴリズムの利点とオンライン推論のメリットを,いくつかの実験を通じて実証した。

This paper presents a deep Inverse Reinforcement Learning (IRL) framework that can learn an a priori unknown number of nonlinear reward functions from unlabeled experts' demonstrations. For this purpose, we employ the tools from Dirichlet processes and propose an adaptive approach to simultaneously account for both complex and unknown number of reward functions. Using the conditional maximum entropy principle, we model the experts' multi-intention behaviors as a mixture of latent intention distributions and derive two algorithms to estimate the parameters of the deep reward network along with the number of experts' intentions from unlabeled demonstrations. The proposed algorithms are evaluated on three benchmarks, two of which have been specifically extended in this study for multi-intention IRL, and compared with well-known baselines. We demonstrate through several experiments the advantages of our algorithms over the existing approaches and the benefits of online inferring, rather than fixing beforehand, the number of expert's intentions.
翻訳日:2021-07-15 19:21:35 公開日:2021-07-14
# (参考訳) ゼロラウンドアクティブラーニング [全文訳有]

Zero-Round Active Learning ( http://arxiv.org/abs/2107.06703v1 )

ライセンス: CC BY 4.0
Si Chen, Tianhao Wang, Ruoxi Jia(参考訳) アクティブラーニング(AL)は、大きなプールから最も価値のあるラベル付きデータポイントを特定することで、ラベル付けの労力を削減することを目的としている。 従来のALフレームワークには2つの制限がある。 第二に、ラベル付けされていないプールのデータと同じドメインにラベル付けされたデータポイントが少量存在すると仮定する。 最近の研究は、データユーティリティ学習と最適化に基づく一周的なアクティブラーニングのソリューションを提案している。 本稿では,両問題を解く解として$\mathrm{D^2ULO}$を提案する。 具体的には、$\mathrm{D^2ULO}$は、ドメイン適応(DA)の概念を利用してデータユーティリティモデルをトレーニングし、一度ラベル付けされた任意の未ラベルデータのユーティリティを効果的に予測できる。 トレーニングされたデータユーティリティモデルを使用して、高ユーティリティデータを選択し、同時に、選択したデータの有用性の見積を行うことができる。 このアルゴリズムは対象領域の注釈者からのフィードバックに依存しないため、ゼロラウンドアクティブラーニングの実行や、既存のマルチラウンドアクティブラーニング戦略のウォームスタートに使用できる。 実験によれば、$\mathrm{d^2ulo}$は、様々なドメインシフト設定(実データと合成データ)に対してドメイン適応を備えた既存のal戦略よりも優れています。 特に$\mathrm{D^2ULO}$は、ソースとターゲットラベルが一致しないシナリオに適用できる。

Active learning (AL) aims at reducing labeling effort by identifying the most valuable unlabeled data points from a large pool. Traditional AL frameworks have two limitations: First, they perform data selection in a multi-round manner, which is time-consuming and impractical. Second, they usually assume that there are a small amount of labeled data points available in the same domain as the data in the unlabeled pool. Recent work proposes a solution for one-round active learning based on data utility learning and optimization, which fixes the first issue but still requires the initially labeled data points in the same domain. In this paper, we propose $\mathrm{D^2ULO}$ as a solution that solves both issues. Specifically, $\mathrm{D^2ULO}$ leverages the idea of domain adaptation (DA) to train a data utility model which can effectively predict the utility for any given unlabeled data in the target domain once labeled. The trained data utility model can then be used to select high-utility data and at the same time, provide an estimate for the utility of the selected data. Our algorithm does not rely on any feedback from annotators in the target domain and hence, can be used to perform zero-round active learning or warm-start existing multi-round active learning strategies. Our experiments show that $\mathrm{D^2ULO}$ outperforms the existing state-of-the-art AL strategies equipped with domain adaptation over various domain shift settings (e.g., real-to-real data and synthetic-to-real data). Particularly, $\mathrm{D^2ULO}$ are applicable to the scenario where source and target labels have mismatches, which is not supported by the existing works.
翻訳日:2021-07-15 19:04:40 公開日:2021-07-14
# (参考訳) ソースデータのない半監督領域適応のための不確かさ誘導混合 [全文訳有]

Uncertainty-Guided Mixup for Semi-Supervised Domain Adaptation without Source Data ( http://arxiv.org/abs/2107.06707v1 )

ライセンス: CC BY 4.0
Ning Ma, Jiajun Bu, Zhen Zhang, Sheng Zhou(参考訳) 現在のドメイン適応手法は通常、ソースデータとターゲットデータを同時にアクセスすることによって明示的な表現アラインメントを実行する。 しかしながら、プライバシー保護の考慮や帯域幅の制限のため、ソースデータは必ずしも利用可能ではない。 ソースフリードメイン適応は、ソースデータにアクセスせずにドメイン適応を行うことによって上記の問題を解決することを目的としている。 近年、適応パラダイムはますます注目を集めており、教師なしのソースフリードメイン適応のために複数の作品が提案されている。 しかし、適応段階における教師付き信号やソースデータを利用することなく、ターゲットモデルの最適化は不安定で脆弱である。 この問題を軽減するため,ソースフリー環境下での半教師付きドメイン適応に着目した。 具体的には、表現のドメイン内不一致を低減し、ソースデータに直接アクセスすることなくドメイン間アライメントを実行するための不確実性誘導型ミックスアップを提案する。 最後に,様々なデータセットに対して,半教師あり領域適応実験を行う。 提案手法は,最近の半教師付きベースラインよりも優れており,教師なし変種は競争性能も向上する。 実験コードは今後リリースされる予定だ。

Present domain adaptation methods usually perform explicit representation alignment by simultaneously accessing the source data and target data. However, the source data are not always available due to the privacy preserving consideration or bandwidth limitation. Source-free domain adaptation aims to solve the above problem by performing domain adaptation without accessing the source data. The adaptation paradigm is receiving more and more attention in recent years, and multiple works have been proposed for unsupervised source-free domain adaptation. However, without utilizing any supervised signal and source data at the adaptation stage, the optimization of the target model is unstable and fragile. To alleviate the problem, we focus on semi-supervised domain adaptation under source-free setting. More specifically, we propose uncertainty-guided Mixup to reduce the representation's intra-domain discrepancy and perform inter-domain alignment without directly accessing the source data. Finally, we conduct extensive semi-supervised domain adaptation experiments on various datasets. Our method outperforms the recent semi-supervised baselines and the unsupervised variant also achieves competitive performance. The experiment codes will be released in the future.
翻訳日:2021-07-15 18:50:43 公開日:2021-07-14
# (参考訳) 専門家の連合混合 [全文訳有]

Federated Mixture of Experts ( http://arxiv.org/abs/2107.06724v1 )

ライセンス: CC BY 4.0
Matthias Reisser, Christos Louizos, Efstratios Gavves, Max Welling(参考訳) フェデレートラーニング(FL)は、中央の場所でデータを収集することなく、複数のユーザー間でニューラルネットワークモデルの協調トレーニングを行う主要なアプローチとして登場した。 この設定における重要な課題の1つはデータ不均一性である。 異なるユーザーは異なるデータ特性を持っています このため、個々のユーザのデータのパフォーマンスを考慮する場合、単一のグローバルモデルでのトレーニングと使用が最適ではない可能性がある。 本稿では、専門的なモデルのアンサンブルをトレーニングできるフレームワークであるFedMixのFederated Mixture of Expertsを通じて、この問題に取り組みます。 FedMixは、アンサンブルメンバーのユーザ固有の選択を適応的に選択し、訓練する。 類似したデータ特性を持つユーザが同じメンバーを選択して,非i.dデータの影響を緩和しながら,統計的強度を共有することを示す。 実験結果から,feedmixは,多種多様な非i.i.d.ネス源にまたがる単一グローバルモデルと比較して,性能が向上することを示した。

Federated learning (FL) has emerged as the predominant approach for collaborative training of neural network models across multiple users, without the need to gather the data at a central location. One of the important challenges in this setting is data heterogeneity, i.e. different users have different data characteristics. For this reason, training and using a single global model might be suboptimal when considering the performance of each of the individual user's data. In this work, we tackle this problem via Federated Mixture of Experts, FedMix, a framework that allows us to train an ensemble of specialized models. FedMix adaptively selects and trains a user-specific selection of the ensemble members. We show that users with similar data characteristics select the same members and therefore share statistical strength while mitigating the effect of non-i.i.d data. Empirically, we show through an extensive experimental evaluation that FedMix improves performance compared to using a single global model across a variety of different sources of non-i.i.d.-ness.
翻訳日:2021-07-15 18:36:48 公開日:2021-07-14
# (参考訳) ソースフリードメイン適応のための半教師付き仮説変換 [全文訳有]

Semi-Supervised Hypothesis Transfer for Source-Free Domain Adaptation ( http://arxiv.org/abs/2107.06735v1 )

ライセンス: CC BY 4.0
Ning Ma, Jiajun Bu, Lixian Lu, Jun Wen, Zhen Zhang, Sheng Zhou, Xifeng Yan(参考訳) ドメイン適応(Domain Adaptation)は、視覚、言語、マルチメディアなどの分散シフトを扱うために広く使われている。 ほとんどのドメイン適応手法は、両方のドメインからのデータを使ってドメイン不変な特徴を学習する。 しかし、そのような戦略は、データプライバシの懸念によりソースデータが利用できない場合、実際には実現できないかもしれない。 そこで本研究では,適応段階でソースデータにアクセスせずに仮説伝達による新しい適応手法を提案する。 制限対象データを完全に活用するために,エントロピー最小化と拡張ラベル伝搬を反復的に使用してドメイン間およびドメイン内アライメントを行う半教師付き相互拡張法を提案する。 3つの公開データセットの実験結果から, 半教師付き適応タスクにおいて, 最大19.9%の改善が得られた。

Domain Adaptation has been widely used to deal with the distribution shift in vision, language, multimedia etc. Most domain adaptation methods learn domain-invariant features with data from both domains available. However, such a strategy might be infeasible in practice when source data are unavailable due to data-privacy concerns. To address this issue, we propose a novel adaptation method via hypothesis transfer without accessing source data at adaptation stage. In order to fully use the limited target data, a semi-supervised mutual enhancement method is proposed, in which entropy minimization and augmented label propagation are used iteratively to perform inter-domain and intra-domain alignments. Compared with state-of-the-art methods, the experimental results on three public datasets demonstrate that our method gets up to 19.9% improvements on semi-supervised adaptation tasks.
翻訳日:2021-07-15 17:50:37 公開日:2021-07-14
# (参考訳) 特権情報を用いたピンボールtwsvmの効率的な学習とその応用

Efficient Learning of Pinball TWSVM using Privileged Information and its applications ( http://arxiv.org/abs/2107.06744v1 )

ライセンス: CC BY 4.0
Reshma Rastogi (nee. Khemchandani) and Aman Pal(参考訳) どんな学習フレームワークでも、エキスパートの知識は常に重要な役割を果たす。 しかし、機械学習の分野では、専門家が提供する知識はめったに使われない。 さらに、機械学習アルゴリズム(SVMベース)は一般的にノイズに敏感なヒンジ損失関数を使用する。 そこで,本稿では,専門家の知識を特権情報として活用した2つのピンボール支援ベクトルマシン分類器(Pin-TWSVMPI)を提案する。 提案したPin-TWSVMPIは2つの非並列決定超平面を得るために補正関数を用いて特権情報を組み込む。 さらに,計算をより効率的かつ高速にするために,逐次最小最適化(smo)手法を用いて分類器を取得し,歩行者検出や手書き文字認識への応用も示した。 さらに、UCIデータセットに対して、まず、Pin-TWSVMPIによりさらに活用されるデータセットの特徴から特権情報を抽出するプロシージャを実装し、より少ない計算時間で分類精度を向上させる。

In any learning framework, an expert knowledge always plays a crucial role. But, in the field of machine learning, the knowledge offered by an expert is rarely used. Moreover, machine learning algorithms (SVM based) generally use hinge loss function which is sensitive towards the noise. Thus, in order to get the advantage from an expert knowledge and to reduce the sensitivity towards the noise, in this paper, we propose privileged information based Twin Pinball Support Vector Machine classifier (Pin-TWSVMPI) where expert's knowledge is in the form of privileged information. The proposed Pin-TWSVMPI incorporates privileged information by using correcting function so as to obtain two nonparallel decision hyperplanes. Further, in order to make computations more efficient and fast, we use Sequential Minimal Optimization (SMO) technique for obtaining the classifier and have also shown its application for Pedestrian detection and Handwritten digit recognition. Further, for UCI datasets, we first implement a procedure which extracts privileged information from the features of the dataset which are then further utilized by Pin-TWSVMPI that leads to enhancement in classification accuracy with comparatively lesser computational time.
翻訳日:2021-07-15 17:34:34 公開日:2021-07-14
# (参考訳) DIT4BEARがスマートロードインターンシップを開始 [全文訳有]

DIT4BEARs Smart Roads Internship ( http://arxiv.org/abs/2107.06755v1 )

ライセンス: CC BY 4.0
Md. Abrar Jahin and Andrii Krutsylo(参考訳) uit(ノルウェー北極大学)の研究インターンシップは、私たちのチームが'smart roads - winter road maintenance 2021'ハッカソンの勝者になるために提供されました。 インターンシップは2021年5月3日に始まり、2021年5月21日に終了した。 国籍や学歴が異なるにも関わらず、インターンはチームとして可能な限り協力しようとしました。 このプロジェクトでもっとも順調な部分は、北極圏の人々が直面している重要な状況に気付きました。 状態を分類するためのディープラーニングモデル(乾燥,湿潤,湿潤,氷,雪,スラッシュ)を開発し,実装した。 天気予報アプリでは、最良のモデルによって、Ta、Turf、Height、Speed、Waterなどの状況を予測する。 考慮に入れます 重要な部分は、摩擦に基づく事故率と状態に基づく事故率の積である安全基準を定義することであった。 我々は,センサデータから得られた分類器の状態と摩擦に応じて,安全度を予測できる回帰器を開発した。 パス探索アルゴリズムは、センサーデータ、オープンストリートマップデータ、気象データを用いて設計されている。

The research internship at UiT - The Arctic University of Norway was offered for our team being the winner of the 'Smart Roads - Winter Road Maintenance 2021' Hackathon. The internship commenced on 3 May 2021 and ended on 21 May 2021 with meetings happening twice each week. In spite of having different nationalities and educational backgrounds, we both interns tried to collaborate as a team as much as possible. The most alluring part was working on this project made us realize the critical conditions faced by the arctic people, where it was hard to gain such a unique experience from our residence. We developed and implemented several deep learning models to classify the states (dry, moist, wet, icy, snowy, slushy). Depending upon the best model, the weather forecast app will predict the state taking the Ta, Tsurf, Height, Speed, Water, etc. into consideration. The crucial part was to define a safety metric which is the product of the accident rates based on friction and the accident rates based on states. We developed a regressor that will predict the safety metric depending upon the state obtained from the classifier and the friction obtained from the sensor data. A pathfinding algorithm has been designed using the sensor data, open street map data, weather data.
翻訳日:2021-07-15 17:33:28 公開日:2021-07-14
# (参考訳) BERT言語モデルを用いた大規模ニュース分類:Spark NLPアプローチ [全文訳有]

Large-Scale News Classification using BERT Language Model: Spark NLP Approach ( http://arxiv.org/abs/2107.06785v1 )

ライセンス: CC BY 4.0
Kuncahyo Setyo Nugroho, Kuncahyo Setyo Nugroho, Novanto Yudistira(参考訳) NLP上のビッグデータ分析の台頭は、大規模にテキスト処理を行う際の計算負担を増大させる。 NLPで直面する問題は高次元テキストであり、高い計算資源を必要とする。 MapReduceは大規模計算の並列化を可能にし、テキスト処理の効率を向上させる。 本研究の目的は,ビッグデータ処理がNLPタスクに与える影響をディープラーニングアプローチに基づいて検討することである。 我々は、事前訓練されたモデルを用いた細調整BERTを用いて、ニューストピックの大きなテキストを分類する。 本研究では,パラメータの異なる5つの事前学習モデルを用いた。 本手法の効率性を評価するため, BERTとSpark NLPのパイプラインの性能を比較した。 その結果, Spark NLP の BERT は Spark NLP の BERT よりも精度が高いことがわかった。 BERTを用いた全てのモデルの精度平均とトレーニング時間は0.9187と35分であり、Spark NLPパイプラインを使用したBERTは0.8444と9分である。 より大きなモデルはより多くの計算リソースを必要とし、タスクを完了するのに長い時間がかかるでしょう。 しかし、Spark NLPのBERTの精度は平均5.7%しか低下せず、トレーニング時間はSpark NLPのBERTに比べて62.9%低下した。

The rise of big data analytics on top of NLP increases the computational burden for text processing at scale. The problems faced in NLP are very high dimensional text, so it takes a high computation resource. The MapReduce allows parallelization of large computations and can improve the efficiency of text processing. This research aims to study the effect of big data processing on NLP tasks based on a deep learning approach. We classify a big text of news topics with fine-tuning BERT used pre-trained models. Five pre-trained models with a different number of parameters were used in this study. To measure the efficiency of this method, we compared the performance of the BERT with the pipelines from Spark NLP. The result shows that BERT without Spark NLP gives higher accuracy compared to BERT with Spark NLP. The accuracy average and training time of all models using BERT is 0.9187 and 35 minutes while using BERT with Spark NLP pipeline is 0.8444 and 9 minutes. The bigger model will take more computation resources and need a longer time to complete the tasks. However, the accuracy of BERT with Spark NLP only decreased by an average of 5.7%, while the training time was reduced significantly by 62.9% compared to BERT without Spark NLP.
翻訳日:2021-07-15 17:29:42 公開日:2021-07-14
# (参考訳) トランスフォーマーネットワークを用いたインドネシアの偽ニュース検出 [全文訳有]

Indonesia's Fake News Detection using Transformer Network ( http://arxiv.org/abs/2107.06796v1 )

ライセンス: CC BY 4.0
Aisyah Awalina, Jibran Fawaid, Rifky Yunus Krisnabayu, Novanto Yudistira(参考訳) フェイクニュースは、この時代の社会が直面する問題である。 偽ニュースが人々の挑発や問題を引き起こすことは珍しいことではない。 インドネシアは人口が4番目に多い国であり、偽ニュースを扱うのに問題がある。 この偽ニュース問題によって、農村や都市人口の30%以上が騙されている。 これまで研究してきたように、バハサ・インドネシアにおける偽ニュースの拡散防止に関する文献は少ない。 そこで,これらの問題を防止するために本研究を行った。 この研究で使用されたデータセットは、偽ニュースである turnbackhoax.id を識別するニュースポータルから得られた。 このページでWeb Scrappingを使って、有効なニュースと偽ニュースからなる1116のデータを得た。 データセットはhttps://github.com/J ibranFawaid/turnback hoax-datasetでアクセスできる。 このデータセットは、他の利用可能なデータセットと組み合わせられる。 使用される方法は、cnn, bilstm, hybrid cnn-bilstm, bert with transformer networkである。 本研究は, Transformer Network を用いたBERT法が最大90%の精度で最良の結果が得られることを示した。

Fake news is a problem faced by society in this era. It is not rare for fake news to cause provocation and problem for the people. Indonesia, as a country with the 4th largest population, has a problem in dealing with fake news. More than 30% of rural and urban population are deceived by this fake news problem. As we have been studying, there is only few literatures on preventing the spread of fake news in Bahasa Indonesia. So, this research is conducted to prevent these problems. The dataset used in this research was obtained from a news portal that identifies fake news, turnbackhoax.id. Using Web Scrapping on this page, we got 1116 data consisting of valid news and fake news. The dataset can be accessed at https://github.com/J ibranFawaid/turnback hoax-dataset. This dataset will be combined with other available datasets. The methods used are CNN, BiLSTM, Hybrid CNN-BiLSTM, and BERT with Transformer Network. This research shows that the BERT method with Transformer Network has the best results with an accuracy of up to 90%.
翻訳日:2021-07-15 17:19:06 公開日:2021-07-14
# (参考訳) BERT Fine-Tuning for Sentiment Analysis on Indonesian Mobile Apps Reviews [全文訳有]

BERT Fine-Tuning for Sentiment Analysis on Indonesian Mobile Apps Reviews ( http://arxiv.org/abs/2107.06802v1 )

ライセンス: CC BY 4.0
Kuncahyo Setyo Nugroho, Anantha Yullian Sukmadewa, Haftittah Wuswilahaken DW, Fitra Abdurrachman Bachtiar, Novanto Yudistira(参考訳) ユーザレビューは、開発中のモバイルアプリの成功に不可欠な役割を持つ。 テキスト形式のユーザレビューは構造化されていないデータであり、感情分析のために処理されると非常に複雑になる。 これまで使われてきたアプローチはレビューの文脈を無視することが多い。 さらに、比較的小さなデータによって、モデルは過度に適合する。 新たなアプローチであるBERTは、以前より優れたコンテキスト表現を持つように訓練されたトレーニング済みのモデルで、転送学習モデルとして導入された。 本研究では,2種類の事前学習モデルを用いた感情分析における細調整BERTの有効性を検討した。 多言語事前学習モデルに加えて,インドネシアでのみ訓練された事前学習モデルを用いる。 使用されるデータセットは、インドネシアのGoogle Playサイトで2020年のトップ10アプリのユーザーレビューである。 最適なトレーニングモデルを見つけるために、ハイパーパラメータチューニングも行います。 2つのトレーニングデータラベリング手法を用いて,スコアベースとレキシコンベースのモデルの有効性を検証した。 インドネシアで訓練された事前訓練モデルでは,レキシコンデータの平均精度が向上した。 事前訓練されたインドネシアのモデルは84%の精度で、25のエポックと24分間のトレーニング時間を持つ。 これらの結果は、機械学習や多言語事前学習モデルよりも優れている。

User reviews have an essential role in the success of the developed mobile apps. User reviews in the textual form are unstructured data, creating a very high complexity when processed for sentiment analysis. Previous approaches that have been used often ignore the context of reviews. In addition, the relatively small data makes the model overfitting. A new approach, BERT, has been introduced as a transfer learning model with a pre-trained model that has previously been trained to have a better context representation. This study examines the effectiveness of fine-tuning BERT for sentiment analysis using two different pre-trained models. Besides the multilingual pre-trained model, we use the pre-trained model that only has been trained in Indonesian. The dataset used is Indonesian user reviews of the ten best apps in 2020 in Google Play sites. We also perform hyper-parameter tuning to find the optimum trained model. Two training data labeling approaches were also tested to determine the effectiveness of the model, which is score-based and lexicon-based. The experimental results show that pre-trained models trained in Indonesian have better average accuracy on lexicon-based data. The pre-trained Indonesian model highest accuracy is 84%, with 25 epochs and a training time of 24 minutes. These results are better than all of the machine learning and multilingual pre-trained models.
翻訳日:2021-07-15 17:10:26 公開日:2021-07-14
# (参考訳) 深層学習に基づく新しい視点合成 [全文訳有]

Deep Learning based Novel View Synthesis ( http://arxiv.org/abs/2107.06812v1 )

ライセンス: CC BY 4.0
Amit More and Subhasis Chaudhuri(参考訳) 現実世界の画像からシーンの新しいビューを予測することは、常に難しい作業でした。 本研究では,与えられた画像の集合からシーンの新たなビューを予測することを学ぶディープ畳み込みニューラルネットワーク(CNN)を提案する。 従来の深層学習に基づくアプローチと比較して、新しいビューを予測するために一定数の入力画像しか処理できないのに対し、提案手法は異なる入力画像で機能する。 提案モデルでは、与えられた入力画像から特徴抽出とマッチングを行い、各画素において、シーン内の可能な深さレベルの確率分布(pdf)を推定する。 このpdfは、新しいビューを推定するために使われる。 モデルは、与えられた画像収集から、入力画像ペアあたりの1つの推定値である、新規ビューの複数の予測を推定する。 モデルはまた、オクルージョンマスクを推定し、複数の新しいビュー推定を1つの最適な予測に組み合わせる。 この分析で使用される深度は、推定されたビューで時折曖昧になる可能性がある。 我々は,この問題を簡易なマルチレゾリューション解析によって軽減し,推定の質を向上させる。 異なるデータセットで性能を確認し、競争力のある性能を示す。

Predicting novel views of a scene from real-world images has always been a challenging task. In this work, we propose a deep convolutional neural network (CNN) which learns to predict novel views of a scene from given collection of images. In comparison to prior deep learning based approaches, which can handle only a fixed number of input images to predict novel view, proposed approach works with different numbers of input images. The proposed model explicitly performs feature extraction and matching from a given pair of input images and estimates, at each pixel, the probability distribution (pdf) over possible depth levels in the scene. This pdf is then used for estimating the novel view. The model estimates multiple predictions of novel view, one estimate per input image pair, from given image collection. The model also estimates an occlusion mask and combines multiple novel view estimates in to a single optimal prediction. The finite number of depth levels used in the analysis may cause occasional blurriness in the estimated view. We mitigate this issue with simple multi-resolution analysis which improves the quality of the estimates. We substantiate the performance on different datasets and show competitive performance.
翻訳日:2021-07-15 16:59:32 公開日:2021-07-14
# (参考訳) 構成的会話否定 [全文訳有]

Composing Conversational Negation ( http://arxiv.org/abs/2107.06820v1 )

ライセンス: CC BY 4.0
Razin A. Shaikh and Lia Yeh and Benjamin Rodatz and Bob Coecke(参考訳) 自然言語における否定はブール論理に従わないため、本質的にモデル化が難しい。 特に、否定されていることに対するより広範な理解を考慮している。 先行研究で,「世界的文脈」を考慮した単語の否定のための枠組みを提案した。 本稿では,DisCoCircフレームワーク内で,言語に固有の構成構造を考慮に入れた提案を拡張した。 文の否定を捉えるために単一の単語の否定を構成する。 また,文中で意味が進化する単語の否定をモデル化する方法についても述べる。

Negation in natural language does not follow Boolean logic and is therefore inherently difficult to model. In particular, it takes into account the broader understanding of what is being negated. In previous work, we proposed a framework for negation of words that accounts for `worldly context'. In this paper, we extend that proposal now accounting for the compositional structure inherent in language, within the DisCoCirc framework. We compose the negations of single words to capture the negation of sentences. We also describe how to model the negation of words whose meanings evolve in the text.
翻訳日:2021-07-15 16:47:46 公開日:2021-07-14
# (参考訳) LSTMを用いた画像復調のための深部CNNのメタ最適化 [全文訳有]

Meta-Optimization of Deep CNN for Image Denoising Using LSTM ( http://arxiv.org/abs/2107.06845v1 )

ライセンス: CC BY 4.0
Basit O. Alawode, Motaz Alfarraj(参考訳) 近年,様々なタスクへのディープラーニング(DL)の適用により,従来の技術の性能がDLベースの技術を上回っている。 その結果、DLは画像からのノイズ除去にも同様に応用されている。 特に,深層フィードフォワード畳み込みニューラルネットワーク(dncnns)の利用について検討した。 ディープアーキテクチャ、残差学習、バッチ正規化といったdl技術の進歩を利用して、従来の最先端のデノイジングアルゴリズムよりも優れたデノイジング性能を実現している。 しかし、その深いアーキテクチャはトレーニング可能なパラメータの巨大なセットを生み出した。 メタ最適化は、アルゴリズムが自分自身でトレーニングすることを学ぶことができるトレーニングアプローチである。 メタオプティマイザを用いたトレーニングアルゴリズムは、古典的な勾配勾配に基づくトレーニングアプローチと比較して、より良いパフォーマンスを実現することができる。 そこで本研究では,メタ最適化トレーニング手法をDnCNN復調アルゴリズムに適用し,復調能力の向上を図る。 より単純なアルゴリズムに関する予備実験により,DnCNN復調能力向上に向けたメタ最適化トレーニング手法の活用の可能性を明らかにした。

The recent application of deep learning (DL) to various tasks has seen the performance of classical techniques surpassed by their DL-based counterparts. As a result, DL has equally seen application in the removal of noise from images. In particular, the use of deep feed-forward convolutional neural networks (DnCNNs) has been investigated for denoising. It utilizes advances in DL techniques such as deep architecture, residual learning, and batch normalization to achieve better denoising performance when compared with the other classical state-of-the-art denoising algorithms. However, its deep architecture resulted in a huge set of trainable parameters. Meta-optimization is a training approach of enabling algorithms to learn to train themselves by themselves. Training algorithms using meta-optimizers have been shown to enable algorithms to achieve better performance when compared to the classical gradient descent-based training approach. In this work, we investigate the application of the meta-optimization training approach to the DnCNN denoising algorithm to enhance its denoising capability. Our preliminary experiments on simpler algorithms reveal the prospects of utilizing the meta-optimization training approach towards the enhancement of the DnCNN denoising capability.
翻訳日:2021-07-15 16:35:14 公開日:2021-07-14
# (参考訳) トランスニューラルネットワークを用いた極端な降雨季節予測 [全文訳有]

Extreme Precipitation Seasonal Forecast Using a Transformer Neural Network ( http://arxiv.org/abs/2107.06846v1 )

ライセンス: CC BY 4.0
Daniel Salles Civitarese, Daniela Szwarcman, Bianca Zadrozny, Campbell Watson(参考訳) 気候変動の影響は、極端な降水現象の頻度と強度の増加である。 しかし、季節スケールでの極端な降水確率を確実に予測することは大きな課題である。 本稿では, 時間融合変圧器 (TFT) モデルを用いて, 週ごとの最大降水量の予測手法を提案する。 2つの地域での実験を通して、TFT予測を気候学と校正ECMWF SEAS5アンサンブル予測(S5)の2つの基準線と比較した。 その結果,6ヶ月のリードタイムでの質的リスクの観点からは,tft予測がs5の予測を大きく上回っており,気候学に比べて全体の改善がみられた。 TFTはまた、気候学ができないという正常からの離脱に肯定的に反応する。

An impact of climate change is the increase in frequency and intensity of extreme precipitation events. However, confidently predicting the likelihood of extreme precipitation at seasonal scales remains an outstanding challenge. Here, we present an approach to forecasting the quantiles of the maximum daily precipitation in each week up to six months ahead using the temporal fusion transformer (TFT) model. Through experiments in two regions, we compare TFT predictions with those of two baselines: climatology and a calibrated ECMWF SEAS5 ensemble forecast (S5). Our results show that, in terms of quantile risk at six month lead time, the TFT predictions significantly outperform those from S5 and show an overall small improvement compared to climatology. The TFT also responds positively to departures from normal that climatology cannot.
翻訳日:2021-07-15 16:24:25 公開日:2021-07-14
# (参考訳) 融点を用いた多エージェント強化学習のスケーラブル評価

Scalable Evaluation of Multi-Agent Reinforcement Learning with Melting Pot ( http://arxiv.org/abs/2107.06857v1 )

ライセンス: CC BY 4.0
Joel Z. Leibo, Edgar Du\'e\~nez-Guzm\'an, Alexander Sasha Vezhnevets, John P. Agapiou, Peter Sunehag, Raphael Koster, Jayd Matyas, Charles Beattie, Igor Mordatch, Thore Graepel(参考訳) 既存のマルチエージェント強化学習(MARL)の評価スイートは、新しい状況への一般化を主目的として評価していない(教師付き学習ベンチマークとは違って)。 私たちの貢献であるMelting Potは、このギャップを埋めるMARL評価スイートであり、新しいテストシナリオを作成するのに必要な人的労力を減らすために強化学習を使用します。 これは、あるエージェントの動作が他のエージェントの環境を構成する(一部)ためである。 スケーラビリティを示すために、ソーシャルジレンマ、相互性、リソース共有、タスク分割といった幅広い研究トピックをカバーする80以上のユニークなテストシナリオを作成しました。 これらのテストシナリオを標準marlトレーニングアルゴリズムに適用し、トレーニングパフォーマンスだけでは明らかでない弱点をメルトポットがいかに示すかを実証する。

Existing evaluation suites for multi-agent reinforcement learning (MARL) do not assess generalization to novel situations as their primary objective (unlike supervised-learning benchmarks). Our contribution, Melting Pot, is a MARL evaluation suite that fills this gap, and uses reinforcement learning to reduce the human labor required to create novel test scenarios. This works because one agent's behavior constitutes (part of) another agent's environment. To demonstrate scalability, we have created over 80 unique test scenarios covering a broad range of research topics such as social dilemmas, reciprocity, resource sharing, and task partitioning. We apply these test scenarios to standard MARL training algorithms, and demonstrate how Melting Pot reveals weaknesses not apparent from training performance alone.
翻訳日:2021-07-15 16:16:31 公開日:2021-07-14
# (参考訳) 慣性センサを用いた座位-立位運動学の新しいモデル化と分類法 [全文訳有]

A novel approach for modelling and classifying sit-to-stand kinematics using inertial sensors ( http://arxiv.org/abs/2107.06859v1 )

ライセンス: CC BY 4.0
Maitreyee Wairagkar, Emma Villeneuve, Rachel King, Balazs Janko, Malcolm Burnett, Ann Ashburn, Veena Agarwal, R. Simon Sherratt, William Holderbaum, William Harwin(参考訳) 座位から立位への遷移は、日常生活における活動の重要な部分であり、人間の機能的移動において重要な役割を担っている。 立ち上がり運動は、老年者やパーキンソン病などの運動障害のある患者にしばしば影響を受け、転倒する。 座位移行の運動学の研究は、影響を受けた人々に対する評価、監視、リハビリ戦略の開発に洞察を与えることができる。 そこで本研究では,2つのウェアラブル慣性センサのみを用いて,身近な運動学を推定するための3分割体モデルを提案する。 センサーの数を1個分ではなく2個分に減らすことで、長期にわたる動きの監視と分類が容易になり、センサーのパワー要件を減らしながら着用しやすくなる。 若年健常成人10名(YH),高齢健常成人12名(OH),パーキンソン病12名(PwP)に本モデルを適用した。 我々は,拡張カルマンフィルタを用いた角運動学再構成モデルにおいて,教師なし学習を用いた独特なスタンス・トゥ・スタンド分類手法を取り入れた。 提案モデルにより,慣性センサを用いて大腿運動を計測することなく,大腿運動を推定することができた。 我々は,YH,OH,PwPはそれぞれ98.67%,94.20%,91.41% の起立状態,着座状態,立位状態を分類した。 座屈運動中の身体運動を推定するためのモデリングと分類の新たな統合アプローチを提案し,それをYH,OH,PwP群に適用した。

Sit-to-stand transitions are an important part of activities of daily living and play a key role in functional mobility in humans. The sit-to-stand movement is often affected in older adults due to frailty and in patients with motor impairments such as Parkinson's disease leading to falls. Studying kinematics of sit-to-stand transitions can provide insight in assessment, monitoring and developing rehabilitation strategies for the affected populations. We propose a three-segment body model for estimating sit-to-stand kinematics using only two wearable inertial sensors, placed on the shank and back. Reducing the number of sensors to two instead of one per body segment facilitates monitoring and classifying movements over extended periods, making it more comfortable to wear while reducing the power requirements of sensors. We applied this model on 10 younger healthy adults (YH), 12 older healthy adults (OH) and 12 people with Parkinson's disease (PwP). We have achieved this by incorporating unique sit-to-stand classification technique using unsupervised learning in the model based reconstruction of angular kinematics using extended Kalman filter. Our proposed model showed that it was possible to successfully estimate thigh kinematics despite not measuring the thigh motion with inertial sensor. We classified sit-to-stand transitions, sitting and standing states with the accuracies of 98.67%, 94.20% and 91.41% for YH, OH and PwP respectively. We have proposed a novel integrated approach of modelling and classification for estimating the body kinematics during sit-to-stand motion and successfully applied it on YH, OH and PwP groups.
翻訳日:2021-07-15 16:15:35 公開日:2021-07-14
# (参考訳) オフラインモデルに基づく効果的な最適化のための保守的客観モデル [全文訳有]

Conservative Objective Models for Effective Offline Model-Based Optimization ( http://arxiv.org/abs/2107.06882v1 )

ライセンス: CC BY 4.0
Brandon Trabucco, Aviral Kumar, Xinyang Geng, Sergey Levine(参考訳) 計算設計問題は、合成生物学からコンピュータアーキテクチャまで、様々な場面で発生する。 本稿では,データ駆動型モデルベース最適化(mbo)の問題を解決することを目的として,事前実験の静的データセットのみにアクセス可能な未知の目的関数を最大化する設計入力を求める。 このようなデータ駆動最適化手順は、アクティブなデータ収集が高価(タンパク質を最適化する場合など)または危険(航空機の設計を最適化する場合など)である多くの実世界の領域で唯一の実用的な方法である。 学習したモデルに対して設計を最適化するmboの典型的な方法は、分散シフトに苦しむ。 これを解決するために,本手法では,分布外入力の基幹目標の実際の値を低く抑える目的関数モデル(COM)を学習し,最適化に利用する。 構造的には、COMは敵の例を克服するために使用される敵の訓練手法に似ている。 COMは、タンパク質配列の最適化、ロボット形態学、ニューラルネットワークの重み付け、超伝導材料など、幅広いMBO問題に対して、多くの既存の手法の実装と性能の向上が簡単である。

Computational design problems arise in a number of settings, from synthetic biology to computer architectures. In this paper, we aim to solve data-driven model-based optimization (MBO) problems, where the goal is to find a design input that maximizes an unknown objective function provided access to only a static dataset of prior experiments. Such data-driven optimization procedures are the only practical methods in many real-world domains where active data collection is expensive (e.g., when optimizing over proteins) or dangerous (e.g., when optimizing over aircraft designs). Typical methods for MBO that optimize the design against a learned model suffer from distributional shift: it is easy to find a design that "fools" the model into predicting a high value. To overcome this, we propose conservative objective models (COMs), a method that learns a model of the objective function that lower bounds the actual value of the ground-truth objective on out-of-distribution inputs, and uses it for optimization. Structurally, COMs resemble adversarial training methods used to overcome adversarial examples. COMs are simple to implement and outperform a number of existing methods on a wide range of MBO problems, including optimizing protein sequences, robot morphologies, neural network weights, and superconducting materials.
翻訳日:2021-07-15 15:51:43 公開日:2021-07-14
# (参考訳) グラフ距離、埋め込みアライメントなどのための高次元のスケーラブルな最適輸送 [全文訳有]

Scalable Optimal Transport in High Dimensions for Graph Distances, Embedding Alignment, and More ( http://arxiv.org/abs/2107.06876v1 )

ライセンス: CC BY 4.0
Johannes Klicpera, Marten Lienen, Stephan G\"unnemann(参考訳) 現在の最適輸送(OT)計算のベストプラクティスはエントロピー正規化とシンクホーン反復によるものである。 このアルゴリズムは、一対のコスト行列を必要とするため、2次時間で実行される。 本稿では,コスト行列の2つの有効対数線形時間近似を提案する。1つは局所性感受性ハッシュ(lsh)に基づくスパース近似,もう1つは,局所補正されたnystr\"om(lcn)と呼ばれるlshに基づくスパース補正を用いたnystr\"om近似である。 これらの近似は、深層学習で一般的な複雑な高次元空間でもうまく機能するエントロピー正規化otに対する一般的な対数線形時間アルゴリズムを可能にする。 これらの近似を理論的に解析し、実世界のアプリケーションのためのコンポーネントとして直接およびエンドツーエンドの両方で実験的に評価する。 教師なし単語埋め込みアライメントの近似を用いて3倍の精度で最先端の手法を高速化すると同時に,追加のモデル変更なしに3.1ポイントの精度を向上する。 グラフ距離回帰のために,グラフニューラルネットワーク(GNN)と拡張シンクホーンを組み合わせたグラフトランスポートネットワーク(GTN)を提案する。 GTNは以前のモデルを48%上回り、それでもノード数でログリニアにスケールする。

The current best practice for computing optimal transport (OT) is via entropy regularization and Sinkhorn iterations. This algorithm runs in quadratic time as it requires the full pairwise cost matrix, which is prohibitively expensive for large sets of objects. In this work we propose two effective log-linear time approximations of the cost matrix: First, a sparse approximation based on locality-sensitive hashing (LSH) and, second, a Nystr\"om approximation with LSH-based sparse corrections, which we call locally corrected Nystr\"om (LCN). These approximations enable general log-linear time algorithms for entropy-regularized OT that perform well even for the complex, high-dimensional spaces common in deep learning. We analyse these approximations theoretically and evaluate them experimentally both directly and end-to-end as a component for real-world applications. Using our approximations for unsupervised word embedding alignment enables us to speed up a state-of-the-art method by a factor of 3 while also improving the accuracy by 3.1 percentage points without any additional model changes. For graph distance regression we propose the graph transport network (GTN), which combines graph neural networks (GNNs) with enhanced Sinkhorn. GTN outcompetes previous models by 48% and still scales log-linearly in the number of nodes.
翻訳日:2021-07-15 15:11:07 公開日:2021-07-14
# 機械学習分類器の総合評価のための生成的および再現可能なベンチマーク

Generative and reproducible benchmarks for comprehensive evaluation of machine learning classifiers ( http://arxiv.org/abs/2107.06475v1 )

ライセンス: Link先を確認
Patryk Orzechowski and Jason H. Moore(参考訳) 機械学習(ml)アルゴリズムの強みと弱みを理解することは、その適用範囲を決定する上で重要である。 本稿では,2値結果の分類のための機械学習アルゴリズムの包括的,再現性,解釈可能なベンチマークのための合成データセットの集合であるdigen(diversive and generative ml benchmark)を紹介する。 DIGENリソースは40の数学的関数で構成され、連続した特徴を合成データセットを作成するために個別のエンドポイントにマッピングする。 これらの40の関数は、複数の一般的な機械学習アルゴリズムのパフォーマンスの多様性を最大化するために設計されたヒューリスティックアルゴリズムを用いて発見された。 生成関数へのアクセスは、なぜメソッドが他のアルゴリズムと比較して性能が低いのかを理解するのに役立ち、改善のためのアイデアを提供する。 広範なドキュメンテーションと分析を備えたリソースはオープンソースであり、githubで入手できる。

Understanding the strengths and weaknesses of machine learning (ML) algorithms is crucial for determine their scope of application. Here, we introduce the DIverse and GENerative ML Benchmark (DIGEN) - a collection of synthetic datasets for comprehensive, reproducible, and interpretable benchmarking of machine learning algorithms for classification of binary outcomes. The DIGEN resource consists of 40 mathematical functions which map continuous features to discrete endpoints for creating synthetic datasets. These 40 functions were discovered using a heuristic algorithm designed to maximize the diversity of performance among multiple popular machine learning algorithms thus providing a useful test suite for evaluating and comparing new methods. Access to the generative functions facilitates understanding of why a method performs poorly compared to other algorithms thus providing ideas for improvement. The resource with extensive documentation and analyses is open-source and available on GitHub.
翻訳日:2021-07-15 14:28:59 公開日:2021-07-14
# mess: マニホールド埋め込みによる超サンプリング

MESS: Manifold Embedding Motivated Super Sampling ( http://arxiv.org/abs/2107.06566v1 )

ライセンス: Link先を確認
Erik Thordsen and Erich Schubert(参考訳) 機械学習とデータ分析の分野における多くのアプローチは、観測されたデータが低次元多様体上にあるという仮定に依存している。 この仮定は多くの実際のデータセットで実証的に検証されている。 この多様体の仮定を利用するには、一般に多様体の特徴を観察できるような特定の密度に局所的に標本化する必要がある。 しかし、データセットの固有の次元性を高めるために、必要なデータ密度は、非常に大きなデータセットの必要性をもたらし、結果として、次元の呪いの多くの面の1つとなる。 局所データ密度の増大に対応するために,データ内の可観測多様体の基礎となる近似埋め込み関数に忠実な仮想データポイントを生成する枠組みを提案する。

Many approaches in the field of machine learning and data analysis rely on the assumption that the observed data lies on lower-dimensional manifolds. This assumption has been verified empirically for many real data sets. To make use of this manifold assumption one generally requires the manifold to be locally sampled to a certain density such that features of the manifold can be observed. However, for increasing intrinsic dimensionality of a data set the required data density introduces the need for very large data sets, resulting in one of the many faces of the curse of dimensionality. To combat the increased requirement for local data density we propose a framework to generate virtual data points that faithful to an approximate embedding function underlying the manifold observable in the data.
翻訳日:2021-07-15 14:28:48 公開日:2021-07-14
# 工学モデルの分類のための畳み込みニューラルネットワークアプローチ

A Convolutional Neural Network Approach to the Classification of Engineering Models ( http://arxiv.org/abs/2107.06481v1 )

ライセンス: Link先を確認
Bharadwaj Manda, Pranjal Bhaskare, Ramanathan Muthuganapathy(参考訳) 本稿では,畳み込みニューラルネットワーク(cnns)を用いたcadモデルのための深層学習手法を提案する。 大規模な注釈付きデータセットが利用可能であり、GPUの形で十分な計算能力を持つため、特に画像やグラフィカルモデルの領域において、オブジェクト分類のためのディープラーニングベースのソリューションが近年提案されている。 それにもかかわらず、CADモデルの機能分類の課題に対して、非常に少ない解が提案されている。 そこで本研究では,CADモデルをESB(Engineering Shape Benchmark)や国家設計リポジトリ(National Design Repository,NDR)から収集し,モデリングソフトウェアを用いて新たなモデルを構築し,"CADNET"というデータセットを作成する。 ResNetにインスパイアされたCADNETの残余ネットワークアーキテクチャを使うことが提案されている。 特徴抽出の方法として重み付き光フィールド記述子(LFD)方式を選択し、生成された画像をCNNへの入力として供給する。 データセットにおけるクラス不均衡の問題は、クラス重み付けアプローチを用いて解決される。 測地線距離など他のシグネチャでも実験が行われている。 CADNET上の他のネットワークアーキテクチャと同様にディープネットワークを使用する。 提案したネットワークアーキテクチャを用いたLFDベースのCNNアプローチと勾配向上によりCADNET上での最良の分類精度が得られた。

This paper presents a deep learning approach for the classification of Engineering (CAD) models using Convolutional Neural Networks (CNNs). Owing to the availability of large annotated datasets and also enough computational power in the form of GPUs, many deep learning-based solutions for object classification have been proposed of late, especially in the domain of images and graphical models. Nevertheless, very few solutions have been proposed for the task of functional classification of CAD models. Hence, for this research, CAD models have been collected from Engineering Shape Benchmark (ESB), National Design Repository (NDR) and augmented with newer models created using a modelling software to form a dataset - 'CADNET'. It is proposed to use a residual network architecture for CADNET, inspired by the popular ResNet. A weighted Light Field Descriptor (LFD) scheme is chosen as the method of feature extraction, and the generated images are fed as inputs to the CNN. The problem of class imbalance in the dataset is addressed using a class weights approach. Experiments have been conducted with other signatures such as geodesic distance etc. using deep networks as well as other network architectures on the CADNET. The LFD-based CNN approach using the proposed network architecture, along with gradient boosting yielded the best classification accuracy on CADNET.
翻訳日:2021-07-15 14:28:36 公開日:2021-07-14
# M5コンペティション不確実性:過分散、分布予測、GAMLSSなど

M5 Competition Uncertainty: Overdispersion, distributional forecasting, GAMLSS and beyond ( http://arxiv.org/abs/2107.06675v1 )

ライセンス: Link先を確認
Florian Ziel(参考訳) M5競争の不確実性トラックは、数千のウォルマート小売商品の販売の確率予測を目的としている。 M5コンペティションのデータは、特に需要ゼロの強い過分散と散発的な需要に直面している。 本稿では,このような数列データプロセスの適切な確率予測に関するモデリング問題について論じる。 残念なことに、M5コンペで使われる一般的な予測手法の大多数(例)。 Lightgbmとxgboost GBMs)は、考慮された目的関数のためにデータ特性に対処できない。 分布予測はこれらの問題を克服するための適切なモデリング手法を提供する。 GAMLSSフレームワークは、低次元分布を用いた柔軟な確率予測を可能にする。 本稿では,様々な分布の位置とスケールパラメータをモデル化することにより,m5競合データに対してgamlssアプローチを適用する方法を示す。 負の二項分布です 最後に、rパッケージgamlssとそのパッケージ拡張、tensorflow probabilityのような(深い)ディストリビューション予測ライブラリなど、分散モデリングのためのソフトウェアパッケージとその欠点について論じる。

The M5 competition uncertainty track aims for probabilistic forecasting of sales of thousands of Walmart retail goods. We show that the M5 competition data faces strong overdispersion and sporadic demand, especially zero demand. We discuss resulting modeling issues concerning adequate probabilistic forecasting of such count data processes. Unfortunately, the majority of popular prediction methods used in the M5 competition (e.g. lightgbm and xgboost GBMs) fails to address the data characteristics due to the considered objective functions. The distributional forecasting provides a suitable modeling approach for to the overcome those problems. The GAMLSS framework allows flexible probabilistic forecasting using low dimensional distributions. We illustrate, how the GAMLSS approach can be applied for the M5 competition data by modeling the location and scale parameter of various distributions, e.g. the negative binomial distribution. Finally, we discuss software packages for distributional modeling and their drawback, like the R package gamlss with its package extensions, and (deep) distributional forecasting libraries such as TensorFlow Probability.
翻訳日:2021-07-15 14:28:16 公開日:2021-07-14
# 合成一般化のための代数的組換えの学習

Learning Algebraic Recombination for Compositional Generalization ( http://arxiv.org/abs/2107.06516v1 )

ライセンス: Link先を確認
Chenyao Liu, Shengnan An, Zeqi Lin, Qian Liu, Bei Chen, Jian-Guang Lou, Lijie Wen, Nanning Zheng and Dongmei Zhang(参考訳) ニューラルシーケンスモデルは、意味解析タスクにおいて限定的な構成一般化能力を示す。 構成一般化には代数的再結合、すなわち構造的表現を再帰的に動的に再結合する必要がある。 しかし、これまでのほとんどの研究は、主に代数的再結合の重要な部分ではあるが十分でない語彙単位の再結合に焦点を当てていた。 本稿では,合成一般化のための代数的組換え学習のためのエンドツーエンドニューラルモデルLeARを提案する。 鍵となる洞察は、意味解析タスクを潜在構文代数と意味代数学の間の準同型としてモデル化し、代数的再結合を促進することである。 具体的には、潜在構文を生成するComposerと、セマンティック操作を割り当てるInterpreterの2つのモジュールを共同で学習する。 2つの現実的および包括的構成一般化ベンチマークの実験は、我々のモデルの有効性を実証した。 ソースコードはhttps://github.com/m icrosoft/ContextualS Pで公開されている。

Neural sequence models exhibit limited compositional generalization ability in semantic parsing tasks. Compositional generalization requires algebraic recombination, i.e., dynamically recombining structured expressions in a recursive manner. However, most previous studies mainly concentrate on recombining lexical units, which is an important but not sufficient part of algebraic recombination. In this paper, we propose LeAR, an end-to-end neural model to learn algebraic recombination for compositional generalization. The key insight is to model the semantic parsing task as a homomorphism between a latent syntactic algebra and a semantic algebra, thus encouraging algebraic recombination. Specifically, we learn two modules jointly: a Composer for producing latent syntax, and an Interpreter for assigning semantic operations. Experiments on two realistic and comprehensive compositional generalization benchmarks demonstrate the effectiveness of our model. The source code is publicly available at https://github.com/m icrosoft/ContextualS P.
翻訳日:2021-07-15 14:27:49 公開日:2021-07-14
# Pseudo-Domain Labelによる顔アンチスプーフィングのためのドメイン一般化

Domain Generalization with Pseudo-Domain Label for Face Anti-Spoofing ( http://arxiv.org/abs/2107.06552v1 )

ライセンス: Link先を確認
Young Eun Kim and Seong-Whan Lee(参考訳) face anti-spoofing (fas) は顔認識システムを顔表現攻撃から守る上で重要な役割を担っている。 FASにおける最近の多くの研究が領域一般化技術を用いてこの問題にアプローチしている。 ドメインの一般化は、様々な種類の攻撃や目に見えない攻撃をよりよく検出するために、一般化性能を高めることを目的としている。 しかし、この領域における過去の研究は、各ドメインを単にアンチ・スプーフィング・データセットとして定義し、学習技術の開発に重点を置いている。 本稿では,ドメインをデータセットとしてラベル付けすることなく,ネットワークの中間層からの畳み込み特徴統計を用いて,ネットワークのドメインをそれ自体で判断する手法を提案する。 ネットワーク抽出機能だけでなく,これまでFASの補助的タスクとしてのみ使用されていた深度推定器を用いて,擬似ドメインラベルを得た。 実験では,3つのデータセットを用いてトレーニングを行い,残りの1つのデータセットを用いて評価を行い,合計4種類の実験を行うことで提案手法の有効性を実証した。

Face anti-spoofing (FAS) plays an important role in protecting face recognition systems from face representation attacks. Many recent studies in FAS have approached this problem with domain generalization technique. Domain generalization aims to increase generalization performance to better detect various types of attacks and unseen attacks. However, previous studies in this area have defined each domain simply as an anti-spoofing datasets and focused on developing learning techniques. In this paper, we proposed a method that enables network to judge its domain by itself with the clustered convolutional feature statistics from intermediate layers of the network, without labeling domains as datasets. We obtained pseudo-domain labels by not only using the network extracting features, but also using depth estimators, which were previously used only as an auxiliary task in FAS. In our experiments, we trained with three datasets and evaluated the performance with the remaining one dataset to demonstrate the effectiveness of the proposed method by conducting a total of four sets of experiments.
翻訳日:2021-07-15 14:27:37 公開日:2021-07-14
# PETにおける人工知能の産業的展望

Artificial Intelligence in PET: an Industry Perspective ( http://arxiv.org/abs/2107.06747v1 )

ライセンス: Link先を確認
Arkadiusz Sitek, Sangtae Ahn, Evren Asma, Adam Chandler, Alvin Ihsani, Sven Prevrhal, Arman Rahmim, Babak Saboury, Kris Thielemans(参考訳) 人工知能(AI)は、ポジトロン・エミッション・トモグラフィ(PET)イメージングの応用など、医療画像に肯定的な影響を与え、進歩する可能性がある。 AIは、患者スケジューリング、患者設定、プロトコル、データ取得、検出信号処理、再構築、画像処理、解釈からPET画像チェーンのすべての側面を拡張および最適化する能力を持っている。 AIは、PETにおけるAIの将来の可能性を最大化するために対処し克服する必要がある、業界固有の課題を提起する。 本稿では,AIの開発,標準化,商業化,臨床導入におけるこれらの業界固有の課題について概説し,近い将来にAIによってもたらされるPET画像の拡張の可能性を探る。 特に、オンデマンドの画像再構成、ai、カスタムデザインのデータ処理ワークフローの組み合わせは、イノベーションの新たな可能性を開き、業界や最終的に患者に影響を与える可能性がある。

Artificial intelligence (AI) has significant potential to positively impact and advance medical imaging, including positron emission tomography (PET) imaging applications. AI has the ability to enhance and optimize all aspects of the PET imaging chain from patient scheduling, patient setup, protocoling, data acquisition, detector signal processing, reconstruction, image processing and interpretation. AI poses industry-specific challenges which will need to be addressed and overcome to maximize the future potentials of AI in PET. This paper provides an overview of these industry-specific challenges for the development, standardization, commercialization, and clinical adoption of AI, and explores the potential enhancements to PET imaging brought on by AI in the near future. In particular, the combination of on-demand image reconstruction, AI, and custom designed data processing workflows may open new possibilities for innovation which would positively impact the industry and ultimately patients.
翻訳日:2021-07-15 14:27:22 公開日:2021-07-14
# スタイルの合成: 合成データを用いた歴史的文書のセマンティックセグメンテーション

Synthesis in Style: Semantic Segmentation of Historical Documents using Synthetic Data ( http://arxiv.org/abs/2107.06777v1 )

ライセンス: Link先を確認
Christian Bartz, Hendrik R\"atz, Haojin Yang, Joseph Bethge, Christoph Meinel(参考訳) 歴史的文書の自動分析における最も差し迫った問題の1つは、注釈付きトレーニングデータの可用性である。 本稿では,文書画像のセマンティックセグメンテーションのためのトレーニングデータの合成手法を提案する。 我々はRGBとラベル画像の合成にStyleGANジェネレータの中間的特徴のクラスタを同時に利用した。 我々のモデルは、個々の画像のマニュアルアノテーションを必要とせずに、スキャンされたドキュメントのデータセットに適用することができる。 実験では,合成データに基づいてトレーニングされたモデルが,行分割のためのオープンベンチマークデータセット上での競合性能に達することを示す。

One of the most pressing problems in the automated analysis of historical documents is the availability of annotated training data. In this paper, we propose a novel method for the synthesis of training data for semantic segmentation of document images. We utilize clusters found in intermediate features of a StyleGAN generator for the synthesis of RGB and label images at the same time. Our model can be applied to any dataset of scanned documents without the need for manual annotation of individual images, as each model is custom-fit to the dataset. In our experiments, we show that models trained on our synthetic data can reach competitive performance on open benchmark datasets for line segmentation.
翻訳日:2021-07-15 14:27:05 公開日:2021-07-14
# トレーニングデータの重複が言語モデルを改善する

Deduplicating Training Data Makes Language Models Better ( http://arxiv.org/abs/2107.06499v1 )

ライセンス: Link先を確認
Katherine Lee, Daphne Ippolito, Andrew Nystrom, Chiyuan Zhang, Douglas Eck, Chris Callison-Burch, Nicholas Carlini(参考訳) 既存の言語モデリングデータセットには、多くの類似した例と長い反復的なサブストリングが含まれていることがわかった。 その結果、これらのデータセットでトレーニングされた言語モデルの未学習出力の1%以上が、トレーニングデータから冗長にコピーされる。 トレーニングデータセットの重複を解消する2つのツールを開発した – 例えば,6万回以上繰り返された単一の61単語の英語文をc4から削除する,という方法です。 重複により、記憶されたテキストを10倍の頻度で出力し、同じまたはより良い精度を達成するために列車のステップを少なくするモデルを訓練することができる。 また、標準データセットの検証セットの4%以上に影響を与えるトレイン-テストのオーバーラップを減らすことで、より正確な評価を可能にします。 作業の再現とデータセットの重複をhttps://github.com/g oogle-research/dedup licate-text-datasets で実行するコードをリリースする。

We find that existing language modeling datasets contain many near-duplicate examples and long repetitive substrings. As a result, over 1% of the unprompted output of language models trained on these datasets is copied verbatim from the training data. We develop two tools that allow us to deduplicate training datasets -- for example removing from C4 a single 61 word English sentence that is repeated over 60,000 times. Deduplication allows us to train models that emit memorized text ten times less frequently and require fewer train steps to achieve the same or better accuracy. We can also reduce train-test overlap, which affects over 4% of the validation set of standard datasets, thus allowing for more accurate evaluation. We release code for reproducing our work and performing dataset deduplication at https://github.com/g oogle-research/dedup licate-text-datasets .
翻訳日:2021-07-15 14:26:56 公開日:2021-07-14
# TEACHING -- 人中心知性による信頼できる自律型サイバー物理アプリケーション

TEACHING -- Trustworthy autonomous cyber-physical applications through human-centred intelligence ( http://arxiv.org/abs/2107.06543v1 )

ライセンス: Link先を確認
Davide Bacciu, Siranush Akarmazyan, Eric Armengaud, Manlio Bacco, George Bravos, Calogero Calandra, Emanuele Carlini, Antonio Carta, Pietro Cassara, Massimo Coppola, Charalampos Davalas, Patrizio Dazzi, Maria Carmela Degennaro, Daniele Di Sarli, J\"urgen Dobaj, Claudio Gallicchio, Sylvain Girbal, Alberto Gotta, Riccardo Groppo, Vincenzo Lomonaco, Georg Macher, Daniele Mazzei, Gabriele Mencagli, Dimitrios Michail, Alessio Micheli, Roberta Peroglio, Salvatore Petroni, Rosaria Potenza, Farank Pourdanesh, Christos Sardianos, Konstantinos Tserpes, Fulvio Tagliab\`o, Jakob Valtl, Iraklis Varlamis, Omar Veledar(参考訳) 本稿では,H2020 TEACHINGプロジェクトの,エッジクラウド連続体にまたがる仮想リソースと物理リソースからなる分散および高度に均一な環境で動作する次世代自律アプリケーションに対する展望について述べる。 TEACHINGは、自律的アプリケーションの適応と最適化のドライバーとして、ユーザの生理的、感情的、認知的状態を活用する、人間中心のビジョンを推進している。 それは、その信頼性、セキュリティ、プライバシ保護を強制するための方法とツールによって補完される、分散された組込みおよび連合学習システムを構築することによって実現される。 本稿は、TEACHINGアプローチの主な概念について論じ、それに関連するAI関連の研究課題をまとめた。 さらに、上記の課題に取り組むためのTEACHINGシステムの設計選択についても議論する。

This paper discusses the perspective of the H2020 TEACHING project on the next generation of autonomous applications running in a distributed and highly heterogeneous environment comprising both virtual and physical resources spanning the edge-cloud continuum. TEACHING puts forward a human-centred vision leveraging the physiological, emotional, and cognitive state of the users as a driver for the adaptation and optimization of the autonomous applications. It does so by building a distributed, embedded and federated learning system complemented by methods and tools to enforce its dependability, security and privacy preservation. The paper discusses the main concepts of the TEACHING approach and singles out the main AI-related research challenges associated with it. Further, we provide a discussion of the design choices for the TEACHING system to tackle the aforementioned challenges
翻訳日:2021-07-15 14:26:25 公開日:2021-07-14
# 波長可変基底関数に基づくスペクトルガウス過程

Spectrum Gaussian Processes Based On Tunable Basis Functions ( http://arxiv.org/abs/2107.06473v1 )

ライセンス: Link先を確認
Wenqi Fang, Guanlin Wu, Jingjing Li, Zheng Wang, Jiang Cao, Yang Ping(参考訳) ガウス過程のスペクトル近似と変分誘導学習は、計算複雑性を低減する2つの一般的な方法である。 しかし、以前の研究では、これらの手法は常にヒルベルト空間の固有ベクトルやスペクトル法、変分フレームワークの直交成分といった正規直交基底関数を採用する傾向がある。 本稿では,量子物理学にヒントを得て,ガウス過程の核関数を近似するために,チューナブルで局所的かつ有界な新しい基底関数を導入する。 これらの関数には2つの調整可能なパラメータがあり、互いに直交性を制御し、境界性を制限する。 オープンソースデータセットに関する広範な実験を行い、その性能を検証します。 いくつかの最先端手法と比較して,提案手法は良好な結果が得られるか,さらによい結果が得られることが判明した。

Spectral approximation and variational inducing learning for the Gaussian process are two popular methods to reduce computational complexity. However, in previous research, those methods always tend to adopt the orthonormal basis functions, such as eigenvectors in the Hilbert space, in the spectrum method, or decoupled orthogonal components in the variational framework. In this paper, inspired by quantum physics, we introduce a novel basis function, which is tunable, local and bounded, to approximate the kernel function in the Gaussian process. There are two adjustable parameters in these functions, which control their orthogonality to each other and limit their boundedness. And we conduct extensive experiments on open-source datasets to testify its performance. Compared to several state-of-the-art methods, it turns out that the proposed method can obtain satisfactory or even better results, especially with poorly chosen kernel functions.
翻訳日:2021-07-15 14:26:06 公開日:2021-07-14
# lstmとトランスフォーマを用いた分子動力学における希少事象の学習

A Note on Learning Rare Events in Molecular Dynamics using LSTM and Transformer ( http://arxiv.org/abs/2107.06573v1 )

ライセンス: Link先を確認
Wenqi Zeng, Siqin Cao, Xuhui Huang, Yuan Yao(参考訳) 長期記憶(LSTM)のような言語モデルのためのリカレントニューラルネットワークは、複雑な確率的分子系の長期力学をモデル化し予測するためのツールとして利用されてきた。 近年,低次元反応座標のシミュレーションデータを用いてLSTMによるスローダイナミクスの学習に成功した。 しかし,本報告では,反応座標の次元性,時間分解能,状態分割の3つの要因が言語モデル学習の性能に有意な影響を与えていることを示す。 高次元の分子動力学シミュレーションにリカレントニューラルネットワークを適用すると、スローダイナミクスに対応する稀な事象がシステムの他のより高速なダイナミクスによって隠蔽され、効率的に学習できないことが分かる。 このような条件下では、コンフォメーション空間を準安定状態に粗粒化させ、状態間の遷移確率を推定する際に再交差イベントを取り除くことで、分子動力学におけるスローダイナミクス学習の精度を大幅に向上させることができる。 さらに,これらの問題を克服する上で,LSTMよりも優れた性能を示しないTransformerなどのモデルについても検討する。 したがって、LSTMとTransformerによって遅い分子動力学の希少事象を学習するには、高分解能データにおいて適切な時間分解能(すなわちMDシミュレーション軌跡の保存間隔)と状態分割を選択することが重要である。

Recurrent neural networks for language models like long short-term memory (LSTM) have been utilized as a tool for modeling and predicting long term dynamics of complex stochastic molecular systems. Recently successful examples on learning slow dynamics by LSTM are given with simulation data of low dimensional reaction coordinate. However, in this report we show that the following three key factors significantly affect the performance of language model learning, namely dimensionality of reaction coordinates, temporal resolution and state partition. When applying recurrent neural networks to molecular dynamics simulation trajectories of high dimensionality, we find that rare events corresponding to the slow dynamics might be obscured by other faster dynamics of the system, and cannot be efficiently learned. Under such conditions, we find that coarse graining the conformational space into metastable states and removing recrossing events when estimating transition probabilities between states could greatly help improve the accuracy of slow dynamics learning in molecular dynamics. Moreover, we also explore other models like Transformer, which do not show superior performance than LSTM in overcoming these issues. Therefore, to learn rare events of slow molecular dynamics by LSTM and Transformer, it is critical to choose proper temporal resolution (i.e., saving intervals of MD simulation trajectories) and state partition in high resolution data, since deep neural network models might not automatically disentangle slow dynamics from fast dynamics when both are present in data influencing each other.
翻訳日:2021-07-15 14:24:53 公開日:2021-07-14
# 特徴学習に基づくプライバシー保護プロセスマイニングのための距離尺度

A Distance Measure for Privacy-preserving Process Mining based on Feature Learning ( http://arxiv.org/abs/2107.06578v1 )

ライセンス: Link先を確認
Fabian R\"osel, Stephan A. Fahrenkrog-Petersen, Han van der Aa, Matthias Weidlich(参考訳) プロセス実行に関わる個人のプライバシーを損なうことなく、イベントログに基づくプロセス分析を可能にするために、ログを匿名化することができる。 このような匿名化は、証明可能なプライバシ保証を満たすようにログを変換すると同時に、プロセス分析のユーティリティを大きく維持する。 既存の手法は、単純な構文的手法を用いて匿名化を行い、適切な変換操作を識別する。 このように、トレース内のイベントによって参照されるアクティビティのセマンティクスは無視され、関連するアクティビティのイベントがマージされるトランスフォーメーションに繋がる可能性がある。 これを回避し、匿名化中の活動の意味を組み込むために、特徴学習に基づく距離尺度を導入することを提案する。 具体的には,イベントの埋め込みがトレースの距離測定値の定義を可能にし,イベントログの匿名化を導く方法を示す。 実世界のデータを用いた実験から, この手法を用いた匿名化は, 様々な次元において, 元のログに近いログが生成され, プロセス解析に有用であることが示唆された。

To enable process analysis based on an event log without compromising the privacy of individuals involved in process execution, a log may be anonymized. Such anonymization strives to transform a log so that it satisfies provable privacy guarantees, while largely maintaining its utility for process analysis. Existing techniques perform anonymization using simple, syntactic measures to identify suitable transformation operations. This way, the semantics of the activities referenced by the events in a trace are neglected, potentially leading to transformations in which events of unrelated activities are merged. To avoid this and incorporate the semantics of activities during anonymization, we propose to instead incorporate a distance measure based on feature learning. Specifically, we show how embeddings of events enable the definition of a distance measure for traces to guide event log anonymization. Our experiments with real-world data indicate that anonymization using this measure, compared to a syntactic one, yields logs that are closer to the original log in various dimensions and, hence, have higher utility for process analysis.
翻訳日:2021-07-15 14:24:27 公開日:2021-07-14
# ディープニューラルネットワークの連続対離散最適化

Continuous vs. Discrete Optimization of Deep Neural Networks ( http://arxiv.org/abs/2107.06608v1 )

ライセンス: Link先を確認
Omer Elkabetz and Nadav Cohen(参考訳) 深層学習における最適化の既存の分析は連続的であり、勾配流の変分に焦点を当てているか、勾配降下を直接扱う(変分)かのどちらかである。 勾配流は理論解析に適しているが、スタイリゼーションされ、計算効率を無視している。 勾配降下を表わす程度は、深層学習理論において明らかな問題である。 現在の論文はこの問題を研究している。 勾配流の初期値問題に対する近似数値解としての勾配降下を見て, 近似の程度は, 勾配流の軌跡に沿った曲率に依存することがわかった。 さらに,均質なアクティベーションを持つディープニューラルネットワーク上では,勾配流の軌跡が好適な曲率を示し,勾配降下によって近似されることを示す。 この発見により、深い線形ニューラルネットワーク上の勾配流の解析を、ほぼ確実にランダムな初期化の下で、勾配降下が大域最小まで効率的に収束することを保証できる。 実験によると、単純なディープニューラルネットワークよりも、従来のステップサイズでの勾配降下は、確かに連続的な限界に近い。 勾配流の理論は、深層学習の背後にある謎を解き放つ中心となると仮定する。

Existing analyses of optimization in deep learning are either continuous, focusing on (variants of) gradient flow, or discrete, directly treating (variants of) gradient descent. Gradient flow is amenable to theoretical analysis, but is stylized and disregards computational efficiency. The extent to which it represents gradient descent is an open question in deep learning theory. The current paper studies this question. Viewing gradient descent as an approximate numerical solution to the initial value problem of gradient flow, we find that the degree of approximation depends on the curvature along the latter's trajectory. We then show that over deep neural networks with homogeneous activations, gradient flow trajectories enjoy favorable curvature, suggesting they are well approximated by gradient descent. This finding allows us to translate an analysis of gradient flow over deep linear neural networks into a guarantee that gradient descent efficiently converges to global minimum almost surely under random initialization. Experiments suggest that over simple deep neural networks, gradient descent with conventional step size is indeed close to the continuous limit. We hypothesize that the theory of gradient flows will be central to unraveling mysteries behind deep learning.
翻訳日:2021-07-15 14:24:10 公開日:2021-07-14
# 軌道最適化を用いたロバストロバストロコモーションのためのモデルフリー強化学習

Model-free Reinforcement Learning for Robust Locomotion Using Trajectory Optimization for Exploration ( http://arxiv.org/abs/2107.06629v1 )

ライセンス: Link先を確認
Miroslav Bogdanovic, Majid Khadiv, Ludovic Righetti(参考訳) 本研究では,1つの実演軌道から,追加のトレーニングを伴わずにハードウェアに展開可能な堅牢なポリシーに移行するための,一般的な2段階強化学習手法を提案する。 デモは最初の段階で最初の探索を容易にするための出発点として使われます。 第2段階では、関連するタスク報酬を直接最適化し、環境不確実性にロバストなポリシーを算出する。 実四足歩行ロボットにおけるハイダイナミックホッピングおよびバウンディングタスクにおけるアプローチの性能とロバスト性を実証および検討した。

In this work we present a general, two-stage reinforcement learning approach for going from a single demonstration trajectory to a robust policy that can be deployed on hardware without any additional training. The demonstration is used in the first stage as a starting point to facilitate initial exploration. In the second stage, the relevant task reward is optimized directly and a policy robust to environment uncertainties is computed. We demonstrate and examine in detail performance and robustness of our approach on highly dynamic hopping and bounding tasks on a real quadruped robot.
翻訳日:2021-07-15 14:23:53 公開日:2021-07-14
# DULA:物理HRIにおける姿勢最適化のための微分エルゴノミクスモデル

DULA: A Differentiable Ergonomics Model for Postural Optimization in Physical HRI ( http://arxiv.org/abs/2107.06875v1 )

ライセンス: Link先を確認
Amir Yazdani, Roya Sabbagh Novin, Andrew Merryweather, Tucker Hermans(参考訳) エルゴノミクスと人間の快適性は、人間とロボットの相互作用アプリケーションにおいて必須の関心事である。 正確で使いやすい人間工学的評価モデルを定義することは、オペレーターの健康と快適性を改善するために、姿勢修正のフィードバックを提供する上で重要なステップである。 効率的な計算を可能にするために、先述した自動人間工学評価・修正ツールは、実際にエルゴノミストが使用する金標準評価ツールの近似や単純化を行う。 評価品質を維持するため、計算的考察を改善しつつ、大衆的かつ科学的に検証されたRULA評価を再現するために学習された微分可能連続エルゴノミクスモデルであるDULAを導入する。 DULAはRULAに匹敵するアセスメントを提供すると同時に,計算上の利点を提供する。 シミュレーション遠隔操作作業における勾配に基づく姿勢最適化の実証におけるDULAの強みを強調した。

Ergonomics and human comfort are essential concerns in physical human-robot interaction applications. Defining an accurate and easy-to-use ergonomic assessment model stands as an important step in providing feedback for postural correction to improve operator health and comfort. In order to enable efficient computation, previously proposed automated ergonomic assessment and correction tools make approximations or simplifications to gold-standard assessment tools used by ergonomists in practice. In order to retain assessment quality, while improving computational considerations, we introduce DULA, a differentiable and continuous ergonomics model learned to replicate the popular and scientifically validated RULA assessment. We show that DULA provides assessment comparable to RULA while providing computational benefits. We highlight DULA's strength in a demonstration of gradient-based postural optimization for a simulated teleoperation task.
翻訳日:2021-07-15 14:23:44 公開日:2021-07-14
# 制約付き最適化のためのゼロ・1次確率フランクウルフアルゴリズム

Zeroth and First Order Stochastic Frank-Wolfe Algorithms for Constrained Optimization ( http://arxiv.org/abs/2107.06534v1 )

ライセンス: Link先を確認
Zeeshan Akhtar, and Ketan Rajawat(参考訳) 本稿では, 2つの制約からなる確率的凸最適化問題について考察する: (a) 最適化変数の領域に対する決定論的制約, (b) 効率的な射影を許容する決定論的あるいは確率的制約。 この形式の問題は、半定値プログラミングの文脈や、様々なNPハード問題が半定値緩和によってほぼ解決されたときに頻繁に発生する。 最初の制約セットへのプロジェクションは困難であるため、確率的フランク・ウルフアルゴリズム(FW)のようなプロジェクションフリーなアルゴリズムを探索する必要がある。 一方、第2の制約セットは同じ方法では処理できず、目的関数内にインジケータ関数として組み込まれなければならないため、fwメソッドの適用が複雑になる。 同様の問題は以前に研究され、ホモトピーとネステロフの平滑化手法を指標関数に適用して一階確率的fwアルゴリズムを用いて解いた。 この研究は、これらの既存の結果を改善し、第2の制約のない問題に対する最もよく知られたレートに匹敵する収束率を改善する運動量に基づく一階法を提示する。 提案されたアルゴリズムのゼロ次変種も開発され、最先端のレート結果が再び改善される。 提案アルゴリズムの有効性は, スパース行列推定, 半定緩和によるクラスタリング, および一様スペースカット問題の適用性について検証した。

This paper considers stochastic convex optimization problems with two sets of constraints: (a) deterministic constraints on the domain of the optimization variable, which are difficult to project onto; and (b) deterministic or stochastic constraints that admit efficient projection. Problems of this form arise frequently in the context of semidefinite programming as well as when various NP-hard problems are solved approximately via semidefinite relaxation. Since projection onto the first set of constraints is difficult, it becomes necessary to explore projection-free algorithms, such as the stochastic Frank-Wolfe (FW) algorithm. On the other hand, the second set of constraints cannot be handled in the same way, and must be incorporated as an indicator function within the objective function, thereby complicating the application of FW methods. Similar problems have been studied before, and solved using first-order stochastic FW algorithms by applying homotopy and Nesterov's smoothing techniques to the indicator function. This work improves upon these existing results and puts forth momentum-based first-order methods that yield improved convergence rates, at par with the best known rates for problems without the second set of constraints. Zeroth-order variants of the proposed algorithms are also developed and again improve upon the state-of-the-art rate results. The efficacy of the proposed algorithms is tested on relevant applications of sparse matrix estimation, clustering via semidefinite relaxation, and uniform sparsest cut problem.
翻訳日:2021-07-15 14:23:31 公開日:2021-07-14
# ロジスティック回帰のための斜めスケッチ

Oblivious sketching for logistic regression ( http://arxiv.org/abs/2107.06615v1 )

ライセンス: Link先を確認
Alexander Munteanu, Simon Omlor, David Woodruff(参考訳) データストリームを1回のパスでロジスティック回帰を解決できる保証は何だろうか? この疑問に答えるために、ロジスティック回帰のための最初のデータ難読スケッチを示す。 私たちのスケッチは、回転するデータストリーム上の入力スパーシティタイムで計算でき、$n$から$\operatorname{poly}(\mu d\log n)$の重み付きポイントまで、$d$次元のデータのサイズを縮小します。 スケッチ上で(重み付けされた)ロジスティック回帰を解くと、データセット全体の元の問題に対して$o(\log n)$-approximationが得られる。 また、わずかな修正を加えて$O(1)$-approximation を得る方法を示す。 私たちのスケッチは速く、シンプルで、実装も簡単です。

What guarantees are possible for solving logistic regression in one pass over a data stream? To answer this question, we present the first data oblivious sketch for logistic regression. Our sketch can be computed in input sparsity time over a turnstile data stream and reduces the size of a $d$-dimensional data set from $n$ to only $\operatorname{poly}(\mu d\log n)$ weighted points, where $\mu$ is a useful parameter which captures the complexity of compressing the data. Solving (weighted) logistic regression on the sketch gives an $O(\log n)$-approximation to the original problem on the full data set. We also show how to obtain an $O(1)$-approximation with slight modifications. Our sketches are fast, simple, easy to implement, and our experiments demonstrate their practicality.
翻訳日:2021-07-15 14:23:05 公開日:2021-07-14
# AdvFilter:マルチドメイン学習による敵攻撃に対する予測摂動認識フィルタ

AdvFilter: Predictive Perturbation-aware Filtering against Adversarial Attack via Multi-domain Learning ( http://arxiv.org/abs/2107.06501v1 )

ライセンス: Link先を確認
Yihao Huang and Qing Guo and Felix Juefei-Xu and Lei Ma and Weikai Miao and Yang Liu and Geguang Pu(参考訳) 入力データと再学習モデルによる逆攻撃に対するcnnのロバスト性を高めるため,高レベル表現誘導画素分節化と逆行訓練は独立したソリューションである。 直近では,ピクセル分母法が魅力を欠く一方で,逆行訓練手法が広く研究され,改善されている。 しかし、より高度なピクセルデノイングに基づく手法が存在するのか、この2つのソリューションの組み合わせが互いに利益をもたらすのかは疑問である。 そこで,本研究では,画像レベルの復元と意味レベルの復元の損失関数の下で,敵対的ロバスト性向上のための2種類の画素分割法(すなわち既存の加算型および未探索型フィルタリングベース法)を包括的に検討し,画素単位のフィルタリングにより画像品質(例えば,より高いpsnr)と、既存の画素単位の加算型法よりも高いロバスト性(例えば、逆行例の精度)が得られることを示した。 しかし, フィルタ方式の頑健性は, 学習に用いた逆数例の摂動振幅に依存することも観察した。 この問題に対処するために,2つの摂動フィルタと不確実性を考慮した融合モジュールを設計し,トレーニングおよび試験過程における摂動振幅を自動的に知覚する,予測摂動対応画素ワイズフィルタを提案する。 提案手法はAdvFilterと呼ばれる。 さらに, 対向画素復調法を3つの対向訓練法と組み合わせることで, データとモデルを併用することで, より堅牢なCNNを実現することができることを示唆する。 実験はNeurIPS-2017DEV、SVHN、CIFAR10データセット上で行われ、CNNの堅牢性の向上、異なるモデルへの高い一般化、ノイズレベルに対するアドバンテージを示す。

High-level representation-guide d pixel denoising and adversarial training are independent solutions to enhance the robustness of CNNs against adversarial attacks by pre-processing input data and re-training models, respectively. Most recently, adversarial training techniques have been widely studied and improved while the pixel denoising-based method is getting less attractive. However, it is still questionable whether there exists a more advanced pixel denoising-based method and whether the combination of the two solutions benefits each other. To this end, we first comprehensively investigate two kinds of pixel denoising methods for adversarial robustness enhancement (i.e., existing additive-based and unexplored filtering-based methods) under the loss functions of image-level and semantic-level restorations, respectively, showing that pixel-wise filtering can obtain much higher image quality (e.g., higher PSNR) as well as higher robustness (e.g., higher accuracy on adversarial examples) than existing pixel-wise additive-based method. However, we also observe that the robustness results of the filtering-based method rely on the perturbation amplitude of adversarial examples used for training. To address this problem, we propose predictive perturbation-aware pixel-wise filtering, where dual-perturbation filtering and an uncertainty-aware fusion module are designed and employed to automatically perceive the perturbation amplitude during the training and testing process. The proposed method is termed as AdvFilter. Moreover, we combine adversarial pixel denoising methods with three adversarial training-based methods, hinting that considering data and models jointly is able to achieve more robust CNNs. The experiments conduct on NeurIPS-2017DEV, SVHN, and CIFAR10 datasets and show the advantages over enhancing CNNs' robustness, high generalization to different models, and noise levels.
翻訳日:2021-07-15 14:22:50 公開日:2021-07-14
# 自己監督型迷路推定による異常行動の検出

Detection of Abnormal Behavior with Self-Supervised Gaze Estimation ( http://arxiv.org/abs/2107.06530v1 )

ライセンス: Link先を確認
Suneung-Kim, Seong-Whan Lee(参考訳) 新型コロナウイルスの感染拡大に伴い、多くのクラス、試験、会議が対面で行われている。 しかし,ビデオ会議ソリューションの基礎はいまだ不十分である。 この技術は重要な問題になっています 特に、これらの技術は対面テストには不可欠であり、技術の普及は急務である。 本稿では,これらの問題に備えた視線推定を用いた単一のビデオ会議ソリューションを提案する。 視線は人間の行動の分析などのタスクにとって重要な手がかりである。 したがって,これまで最も顕著な手法の一つである深層学習を用いて視線推定を解くための研究が数多く提案されている。 これらの視線推定手法を用いて,ビデオ会議参加者の異常行動を検出する。 私たちの貢献は以下の通りです。 一) 視線推定法に最適なネットワークを見つけ, 適用し, 自己教師あり手法を適用し, 精度を向上させる。 二 異常検出のために、新しい視線、頭部のポーズ等の値を集約する新しいデータセットを提案する。 三 深層学習に基づく異常行動を検出するために、マルチレイヤパーセプトロン(MLP)モデルで新たに作成したデータを訓練する。 実験により本手法の頑健性を示す。

Due to the recent outbreak of COVID-19, many classes, exams, and meetings have been conducted non-face-to-face. However, the foundation for video conferencing solutions is still insufficient. So this technology has become an important issue. In particular, these technologies are essential for non-face-to-face testing, and technology dissemination is urgent. In this paper, we present a single video conferencing solution using gaze estimation in preparation for these problems. Gaze is an important cue for the tasks such as analysis of human behavior. Hence, numerous studies have been proposed to solve gaze estimation using deep learning, which is one of the most prominent methods up to date. We use these gaze estimation methods to detect abnormal behavior of video conferencing participants. Our contribution is as follows. i) We find and apply the optimal network for the gaze estimation method and apply a self-supervised method to improve accuracy. ii) For anomaly detection, we present a new dataset that aggregates the values of a new gaze, head pose, etc. iii) We train newly created data on Multi Layer Perceptron (MLP) models to detect anomaly behavior based on deep learning. We demonstrate the robustness of our method through experiments.
翻訳日:2021-07-15 14:22:16 公開日:2021-07-14
# ParCourE:多言語コーパスのための並列コーパスエクスプローラ

ParCourE: A Parallel Corpus Explorer fora Massively Multilingual Corpus ( http://arxiv.org/abs/2107.06632v1 )

ライセンス: Link先を確認
Ayyoob Imani, Masoud Jalili Sabet, Philipp Dufter, Michael Cysouw, Hinrich Sch\"utze(参考訳) 全世界で7000以上の言語を持つ多言語自然言語処理(nlp)は、学術的・商業的にも不可欠である。 多言語NLPの進展には,言語の種類的特性の研究が不可欠である。 例えば、効果的な転送学習のための言語類似性の評価、機械学習モデルへの帰納的バイアスの注入、辞書やインフレクションテーブルなどのリソースの作成などだ。 我々は,1334言語をカバーする単語対応並列コーパスを閲覧可能なオンラインツールparcoureを提供する。 これは類型研究に有用であることを示す。 パークールは任意の並列コーパスに設定でき、それによって他のコーパスのタイプ学研究や、その品質と特性の探求に使うことができる。

With more than 7000 languages worldwide, multilingual natural language processing (NLP) is essential both from an academic and commercial perspective. Researching typological properties of languages is fundamental for progress in multilingual NLP. Examples include assessing language similarity for effective transfer learning, injecting inductive biases into machine learning models or creating resources such as dictionaries and inflection tables. We provide ParCourE, an online tool that allows to browse a word-aligned parallel corpus, covering 1334 languages. We give evidence that this is useful for typological research. ParCourE can be set up for any parallel corpus and can thus be used for typological research on other corpora as well as for exploring their quality and properties.
翻訳日:2021-07-15 14:21:49 公開日:2021-07-14
# マルチエージェントRLの集中モデルと探索政策

Centralized Model and Exploration Policy for Multi-Agent RL ( http://arxiv.org/abs/2107.06434v1 )

ライセンス: Link先を確認
Qizhen Zhang, Chris Lu, Animesh Garg, Jakob Foerster(参考訳) 部分的に観測可能な完全協調型マルチエージェント設定(Dec-POMDP)での強化学習(RL)は、原則として、救助ロボットの群れやクワッドコプターの同期チームを制御するなど、現実の多くの課題に対処することができる。 しかし、dec-pomdpは単一エージェント問題よりも解決がかなり難しく、前者はnexp完全、後者はmdpsであり、単にp完全である。 したがって、現在のDec-POMDPのRLアルゴリズムはサンプルの複雑さに悩まされ、環境相互作用がコストがかかる現実的な問題への適用性が低下する。 我々の重要な洞察は、サンプルの多項式数だけで、異なるポリシーをまたいで一般化する集中モデルを学ぶことができるということである。 そして、実際のシステムではなく学習モデル内でポリシーを最適化し、環境相互作用の数を減らすことができる。 また、モデル内の集中的な探索方針を学習し、モデルの不確実性の高い状態対応領域における追加データ収集を学習する。 最後に,提案したモデルベースアルゴリズムであるMARCOを3つの協調通信タスクで実証的に評価し,サンプル効率を最大20倍改善する。

Reinforcement learning (RL) in partially observable, fully cooperative multi-agent settings (Dec-POMDPs) can in principle be used to address many real-world challenges such as controlling a swarm of rescue robots or a synchronous team of quadcopters. However, Dec-POMDPs are significantly harder to solve than single-agent problems, with the former being NEXP-complete and the latter, MDPs, being just P-complete. Hence, current RL algorithms for Dec-POMDPs suffer from poor sample complexity, thereby reducing their applicability to practical problems where environment interaction is costly. Our key insight is that using just a polynomial number of samples, one can learn a centralized model that generalizes across different policies. We can then optimize the policy within the learned model instead of the true system, reducing the number of environment interactions. We also learn a centralized exploration policy within our model that learns to collect additional data in state-action regions with high model uncertainty. Finally, we empirically evaluate the proposed model-based algorithm, MARCO, in three cooperative communication tasks, where it improves sample efficiency by up to 20x.
翻訳日:2021-07-15 14:21:39 公開日:2021-07-14
# 高速・低速エニグマと親性指導

Fast and Slow Enigmas and Parental Guidance ( http://arxiv.org/abs/2107.06750v1 )

ライセンス: Link先を確認
Zarathustra Goertzel, Karel Chvalovsk\'y, Jan Jakub\r{u}v, Miroslav Ol\v{s}\'ak, Josef Urban(参考訳) 本稿では,E自動定理証明器における節選択を導くENIGMAシステムへのいくつかの追加について述べる。 まず、サーバベースのGPU評価を追加することにより、ニューラルネットワークのガイダンスを大幅に高速化する。 第2の追加は、eやprovr9などのシステムで現在使用されている、軽量なリジェクションフィルタによるものだ。 このようなシステムは、よりインテリジェントな事前フィルタリングを実装するENIGMAの高速バージョンをトレーニングすることで、よりインテリジェントにすることができる。 これにより、トレーニング可能な高速かつ低速な思考の組み合わせが実現され、高速と低速の両方で改善される。 3つ目の追加は「両親によって子供を裁く」こと、つまり、条項を作成する前に推論を拒絶することに基づいている。 これは、現在の人口において可能なすべての子孫を生産するコストが常にかかる標準的な進化メカニズムによって動機付けられる。 これにより、全ての節をより高価な方法で評価しないことで時間を節約し、生成された節の補完的なビューを提供する。 これらの手法は、Mizar Mathematical Libraryからの大規模なベンチマークで評価され、最先端の優れた改善が示されている。

We describe several additions to the ENIGMA system that guides clause selection in the E automated theorem prover. First, we significantly speed up its neural guidance by adding server-based GPU evaluation. The second addition is motivated by fast weight-based rejection filters that are currently used in systems like E and Prover9. Such systems can be made more intelligent by instead training fast versions of ENIGMA that implement more intelligent pre-filtering. This results in combinations of trainable fast and slow thinking that improves over both the fast-only and slow-only methods. The third addition is based on "judging the children by their parents", i.e., possibly rejecting an inference before it produces a clause. This is motivated by standard evolutionary mechanisms, where there is always a cost to producing all possible offsprings in the current population. This saves time by not evaluating all clauses by more expensive methods and provides a complementary view of the generated clauses. The methods are evaluated on a large benchmark coming from the Mizar Mathematical Library, showing good improvements over the state of the art.
翻訳日:2021-07-15 14:20:50 公開日:2021-07-14
# 深層強化学習のための体験リプレイにおける人間と自己爆発の混合

Mixing Human Demonstrations with Self-Exploration in Experience Replay for Deep Reinforcement Learning ( http://arxiv.org/abs/2107.06840v1 )

ライセンス: Link先を確認
Dylan Klein, Akansel Cosgun(参考訳) 本稿では,Deep Reinforcement Learning におけるリプレイバッファにおける人間の実演データの利用効果について検討する。 本研究では,人間の実演体験を所定の確率でサンプリングするリプレイバッファを改良したポリシー勾配法を用いる。 エージェントが障害物を避けながら目標に到達しようとするタスクにおいて,実証データを使用する場合の比率を解析する。 その結果、純粋な自己探索と純粋な実演によって訓練されたエージェントは同様の成功率を示したが、純粋な実演モデルはより少ないステップ数で解に収束した。

We investigate the effect of using human demonstration data in the replay buffer for Deep Reinforcement Learning. We use a policy gradient method with a modified experience replay buffer where a human demonstration experience is sampled with a given probability. We analyze different ratios of using demonstration data in a task where an agent attempts to reach a goal while avoiding obstacles. Our results suggest that while the agents trained by pure self-exploration and pure demonstration had similar success rates, the pure demonstration model converged faster to solutions with less number of steps.
翻訳日:2021-07-15 14:20:33 公開日:2021-07-14
# カートゥーン顔認識のためのグラフJigsaw学習

Graph Jigsaw Learning for Cartoon Face Recognition ( http://arxiv.org/abs/2107.06532v1 )

ライセンス: Link先を確認
Yong Li, Lingjie Lao, Zhen Cui, Shiguang Shan, Jian Yang(参考訳) マンガの顔認識は、通常、滑らかな色領域と強調されたエッジを持つため、マンガの顔を認識する鍵は、それらの希薄で批判的な形状パターンを正確に知覚することである。 しかし,畳み込みニューラルネットワーク(CNN)を用いたマンガの顔認識における形状指向表現の学習は非常に困難である。 この問題を軽減するために,分類ネットワークの様々な段階においてジグソーパズルを構築し,グラフ畳み込みネットワーク(gcn)を用いて漸進的に解くグラフジグソーを提案する。 パズルを解くには、テクスチャ情報がかなり限られているため、漫画の顔の形状パターンを見つける必要がある。 GraphJigsawの鍵となるアイデアは、空間次元の中間畳み込み特徴写像をランダムにシャッフルし、GCNを利用して自監督的な方法でジグソーフラグメントの正確なレイアウトを推論し、復元することでジグソーパズルを構築することである。 提案するgraphjigsawは,ノイズパターンを発生させ,最終分類に有害な分解画像を用いた分類モデルのトレーニングを回避している。 特に、graphjigsawは分類モデル内でトップダウン方式で様々な段階に組み込むことができ、学習した形状パターンを徐々に伝播させることができる。 GraphJigsawはトレーニングプロセス中に追加のマニュアルアノテーションを依存せず、推論時に余分な計算負担を伴わない。 定量的および定性的な実験結果から提案したGraphJigsawの有効性が検証された。

Cartoon face recognition is challenging as they typically have smooth color regions and emphasized edges, the key to recognize cartoon faces is to precisely perceive their sparse and critical shape patterns. However, it is quite difficult to learn a shape-oriented representation for cartoon face recognition with convolutional neural networks (CNNs). To mitigate this issue, we propose the GraphJigsaw that constructs jigsaw puzzles at various stages in the classification network and solves the puzzles with the graph convolutional network (GCN) in a progressive manner. Solving the puzzles requires the model to spot the shape patterns of the cartoon faces as the texture information is quite limited. The key idea of GraphJigsaw is constructing a jigsaw puzzle by randomly shuffling the intermediate convolutional feature maps in the spatial dimension and exploiting the GCN to reason and recover the correct layout of the jigsaw fragments in a self-supervised manner. The proposed GraphJigsaw avoids training the classification model with the deconstructed images that would introduce noisy patterns and are harmful for the final classification. Specially, GraphJigsaw can be incorporated at various stages in a top-down manner within the classification model, which facilitates propagating the learned shape patterns gradually. GraphJigsaw does not rely on any extra manual annotation during the training process and incorporates no extra computation burden at inference time. Both quantitative and qualitative experimental results have verified the feasibility of our proposed GraphJigsaw, which consistently outperforms other face recognition or jigsaw-based methods on two popular cartoon face datasets with considerable improvements.
翻訳日:2021-07-15 14:19:37 公開日:2021-07-14
# 胸部x線写真における疾患分類のためのマルチラベル一般化ゼロショット学習

Multi-Label Generalized Zero Shot Learning for the Classification of Disease in Chest Radiographs ( http://arxiv.org/abs/2107.06563v1 )

ライセンス: Link先を確認
Nasir Hayat, Hazem Lashen, Farah E. Shamout(参考訳) 胸部x線(cxr)診断におけるディープニューラルネットワークの成功にもかかわらず、教師付き学習はトレーニング中に見られた疾患クラスを予測できるのみである。 推論では、これらのネットワークは未発見の疾患クラスを予測できない。 新しいクラスを組み込むにはラベル付きデータの収集が必要ですが、これはささいな作業ではありません。 結果として、可能なすべての疾患クラスを診断できるモデルを構築することは不可能になる。 そこで本研究では,CXR画像中の複数の疾患や見えない疾患を同時に予測できる多ラベル一般化ゼロショット学習(CXR-ML-GZSL)ネットワークを提案する。 入力画像が与えられた場合、CXR-ML-GZSLは、リッチな医療用テキストコーパスから抽出された入力の対応するセマンティクスによってガイドされる視覚表現を学習する。 この野心的な目標に向けて,視覚と意味のモダリティを新しい学習目標を用いて潜在特徴空間にマッピングすることを提案する。 この目的により、(i)クエリ画像の最も関連性の高いラベルは、無関係なラベルよりも上位にランクされ、(ii)ネットワークは、潜在特徴空間におけるセマンティクスと整合した視覚表現を学習し、(iii)マッピングされたセマンティクスが元のクラス間表現を保存する。 ネットワークはエンドツーエンドのトレーニングが可能で、オフライン機能抽出器の独立した事前トレーニングは不要である。 NIH Chest X-rayデータセットの実験により、我々のネットワークはリコール、精度、f1スコア、受信機動作特性曲線の領域で2つの強いベースラインを上回ります。 私たちのコードは、https://github.com/n yuad-cai/cxr-ml-gzsl .gitで公開されている。

Despite the success of deep neural networks in chest X-ray (CXR) diagnosis, supervised learning only allows the prediction of disease classes that were seen during training. At inference, these networks cannot predict an unseen disease class. Incorporating a new class requires the collection of labeled data, which is not a trivial task, especially for less frequently-occurring diseases. As a result, it becomes inconceivable to build a model that can diagnose all possible disease classes. Here, we propose a multi-label generalized zero shot learning (CXR-ML-GZSL) network that can simultaneously predict multiple seen and unseen diseases in CXR images. Given an input image, CXR-ML-GZSL learns a visual representation guided by the input's corresponding semantics extracted from a rich medical text corpus. Towards this ambitious goal, we propose to map both visual and semantic modalities to a latent feature space using a novel learning objective. The objective ensures that (i) the most relevant labels for the query image are ranked higher than irrelevant labels, (ii) the network learns a visual representation that is aligned with its semantics in the latent feature space, and (iii) the mapped semantics preserve their original inter-class representation. The network is end-to-end trainable and requires no independent pre-training for the offline feature extractor. Experiments on the NIH Chest X-ray dataset show that our network outperforms two strong baselines in terms of recall, precision, f1 score, and area under the receiver operating characteristic curve. Our code is publicly available at: https://github.com/n yuad-cai/CXR-ML-GZSL .git
翻訳日:2021-07-15 14:19:08 公開日:2021-07-14
# 画像処理のための教師なしニューラルレンダリング

Unsupervised Neural Rendering for Image Hazing ( http://arxiv.org/abs/2107.06681v1 )

ライセンス: Link先を確認
Boyun Li, Yijie Lin, Xiao Liu, Peng Hu, Jiancheng Lv and Xi Peng(参考訳) Image hazingは、ゲーム、撮影、写真のフィルタリング、画像のデハージングなど、さまざまな実用用途に適用可能な、クリーンな画像からヘイズな画像をレンダリングすることを目的としている。 可塑性ヘイズを生成するために,ハジー画像レンダリングにおける2つの問題,すなわち,補助的な情報のない単一画像から送信マップを推定する方法,および,不適切な実ハジー画像からエアライトを適応的に学習する方法について検討した。 そこで本研究では,hazegenと呼ばれる画像ヘイジングのニューラルレンダリング手法を提案する。 具体的に言うと、HazeGENは知識駆動型ニューラルネットワークであり、トランスミッションマップと入力クリーンイメージの間には、新しい事前、すなわち、構造的類似性(例えば、輪郭と輝度)を生かして送信マップを推定する。 空気光を適応的に学習するために,新たな先行手法,すなわちレンダリングされたhazy像とexemplarを用いたニューラルモジュールを空気光分布で構築する。 私たちの知る限りでは、これは教師なしの方法でぼんやりとした画像を深くレンダリングする最初の試みかもしれない。 既存のヘイズ生成法と比較して、ヘイズ画像は教師なし、学習可能、制御可能な方法でレンダリングされるため、ヘイズ生成におけるペアデータ収集における労力集約的な努力やドメインシフト問題を回避することができる。 実験により,定性比較と定量的比較の両面から,本手法の有望な性能を示す。 コードは受け入れた後にGitHubでリリースされる。

Image hazing aims to render a hazy image from a given clean one, which could be applied to a variety of practical applications such as gaming, filming, photographic filtering, and image dehazing. To generate plausible haze, we study two less-touched but challenging problems in hazy image rendering, namely, i) how to estimate the transmission map from a single image without auxiliary information, and ii) how to adaptively learn the airlight from exemplars, i.e., unpaired real hazy images. To this end, we propose a neural rendering method for image hazing, dubbed as HazeGEN. To be specific, HazeGEN is a knowledge-driven neural network which estimates the transmission map by leveraging a new prior, i.e., there exists the structure similarity (e.g., contour and luminance) between the transmission map and the input clean image. To adaptively learn the airlight, we build a neural module based on another new prior, i.e., the rendered hazy image and the exemplar are similar in the airlight distribution. To the best of our knowledge, this could be the first attempt to deeply rendering hazy images in an unsupervised fashion. Comparing with existing haze generation methods, HazeGEN renders the hazy images in an unsupervised, learnable, and controllable manner, thus avoiding the labor-intensive efforts in paired data collection and the domain-shift issue in haze generation. Extensive experiments show the promising performance of our method comparing with some baselines in both qualitative and quantitative comparisons. The code will be released on GitHub after acceptance.
翻訳日:2021-07-15 14:18:38 公開日:2021-07-14
# PDC: スーパーピクセルを用いた鉛直深度補完

PDC: Piecewise Depth Completion utilizing Superpixels ( http://arxiv.org/abs/2107.06711v1 )

ライセンス: Link先を確認
Dennis Teutscher, Patrick Mangat, Oliver Wasenm\"uller(参考訳) スパースLiDARと高解像度RGBデータからの深度補完は、自動運転技術の基礎の1つである。 現在のアプローチは、いくつかの既知の欠点があるCNNベースの手法に依存している: 深度不連続のフライングピクセル、与えられたデータセットとエラーメトリクスの両方に過度に適合する。 そこで我々は,深層学習を伴わずに完全に機能する小説Piecewise Depth Completion (PDC)を提案する。 PDCはRGB画像を、同様の深さ値の領域に対応するスーパーピクセルに分割する。 同じオブジェクトに対応するスーパーピクセルはコストマップを使用して収集される。 最後に,芸術的精度を指標とした詳細な深度画像が得られた。 本評価では,提案する個々の処理ステップと提案手法の全体的な性能が,挑戦的なkittiデータセットに与える影響を示すことができる。

Depth completion from sparse LiDAR and high-resolution RGB data is one of the foundations for autonomous driving techniques. Current approaches often rely on CNN-based methods with several known drawbacks: flying pixel at depth discontinuities, overfitting to both a given data set as well as error metric, and many more. Thus, we propose our novel Piecewise Depth Completion (PDC), which works completely without deep learning. PDC segments the RGB image into superpixels corresponding the regions with similar depth value. Superpixels corresponding to same objects are gathered using a cost map. At the end, we receive detailed depth images with state of the art accuracy. In our evaluation, we can show both the influence of the individual proposed processing steps and the overall performance of our method on the challenging KITTI dataset.
翻訳日:2021-07-15 14:18:12 公開日:2021-07-14
# BiSTF:半改良大規模ファイングラインド認識のためのバイラテラルブランチ自己学習フレームワーク

BiSTF: Bilateral-Branch Self-Training Framework for Semi-Supervised Large-scale Fine-Grained Recognition ( http://arxiv.org/abs/2107.06768v1 )

ライセンス: Link先を確認
Hao Chang, Guochen Xie, Jun Yu, Qiang Ling(参考訳) 半教師付きファイングラインド認識は、データ不均衡、高いクラス間類似性、ドメインミスマッチの難しさによる課題である。 近年、この分野は非常に進歩し、多くの手法が大きな成果を上げている。 しかし,非ラベルデータのノイズや不均衡な細粒度データから特徴を学習する能力に乏しいため,semi-inatなどの大規模データセットへの一般化は困難である。 本研究では,クラス不均衡データとドメインシフトデータの半教師付き学習法を改善するための,シンプルかつ効果的なフレームワークであるBilateral-Branch Self-Training Framework (BiSTF)を提案する。 確率的エポック更新による更新頻度の調整により、BiSTFは、ラベル付きデータと同じ擬似ラベル付きサンプルの分布を持つ未ラベルセットから擬似ラベル付きサンプルを選択的に追加することにより拡張されたラベル付きセットで、ベースラインSSLモデルを反復的に再トレーニングする。 BiSTFはSemi-iNatデータセット上で既存の最先端SSLアルゴリズムよりも優れていることを示す。

Semi-supervised Fine-Grained Recognition is a challenge task due to the difficulty of data imbalance, high inter-class similarity and domain mismatch. Recent years, this field has witnessed great progress and many methods has gained great performance. However, these methods can hardly generalize to the large-scale datasets, such as Semi-iNat, as they are prone to suffer from noise in unlabeled data and the incompetence for learning features from imbalanced fine-grained data. In this work, we propose Bilateral-Branch Self-Training Framework (BiSTF), a simple yet effective framework to improve existing semi-supervised learning methods on class-imbalanced and domain-shifted fine-grained data. By adjusting the update frequency through stochastic epoch update, BiSTF iteratively retrains a baseline SSL model with a labeled set expanded by selectively adding pseudo-labeled samples from an unlabeled set, where the distribution of pseudo-labeled samples are the same as the labeled data. We show that BiSTF outperforms the existing state-of-the-art SSL algorithm on Semi-iNat dataset.
翻訳日:2021-07-15 14:18:00 公開日:2021-07-14
# 野生の顔:監視条件下での効率的なジェンダー認識

Faces in the Wild: Efficient Gender Recognition in Surveillance Conditions ( http://arxiv.org/abs/2107.06847v1 )

ライセンス: Link先を確認
Tiago Roxo and Hugo Proen\c{c}a(参考訳) 監視シナリオにおけるソフトバイオメトリックス推論は、様々なアプリケーション、特にセキュリティ関連の分野での関心事である。 しかし、ソフトバイオメトリック解析は野生環境では広く報告されていない。 特に、性別認識に関する以前の研究は、比較的良好な画像品質と正面ポーズを持つ顔データセットの結果を報告している。 野生環境での顔領域の可用性の不確実性を考えると,これらの手法は監視設定に適していないと考えられる。 これらの制約を克服するため,1) 3つのよく知られた監視データセットの正面および野生の顔バージョンを提示し,2)野生環境での性別認識に適した顔情報と身体情報を効果的に動的に結合するモデルを提案する。 前面と野面のデータセットは、前面サンプルと顔領域をフィルタリングするためのポーズに基づくアプローチを用いて、広く使用されている歩行者属性認識(PAR)セット(PETA、PA-100K、RAP)から派生した。 このアプローチは、最先端の顔検出器がしばしば失敗する画像/オブジェクト条件の異なる画像の顔領域を検索する。 本モデルでは,学習可能な融合マトリクスとチャネル・アテンション・サブネットワークを介して顔と身体の情報を結合し,特定の画像/サブジェクトの特徴に応じて最も影響力のある身体部位に焦点をあてる。 5つのpar法と比較し,性別認識における最先端の結果を一貫して獲得し,前頭標本の予測誤差を最大24%低減した。 発表されたPARデータセットのバージョンとモデルは、野生のソフトバイオメトリックス分類の基礎となり、https://github.com/T iago-Roxo.comで利用可能である。

Soft biometrics inference in surveillance scenarios is a topic of interest for various applications, particularly in security-related areas. However, soft biometric analysis is not extensively reported in wild conditions. In particular, previous works on gender recognition report their results in face datasets, with relatively good image quality and frontal poses. Given the uncertainty of the availability of the facial region in wild conditions, we consider that these methods are not adequate for surveillance settings. To overcome these limitations, we: 1) present frontal and wild face versions of three well-known surveillance datasets; and 2) propose a model that effectively and dynamically combines facial and body information, which makes it suitable for gender recognition in wild conditions. The frontal and wild face datasets derive from widely used Pedestrian Attribute Recognition (PAR) sets (PETA, PA-100K, and RAP), using a pose-based approach to filter the frontal samples and facial regions. This approach retrieves the facial region of images with varying image/subject conditions, where the state-of-the-art face detectors often fail. Our model combines facial and body information through a learnable fusion matrix and a channel-attention sub-network, focusing on the most influential body parts according to the specific image/subject features. We compare it with five PAR methods, consistently obtaining state-of-the-art results on gender recognition, and reducing the prediction errors by up to 24% in frontal samples. The announced PAR datasets versions and model serve as the basis for wild soft biometrics classification and are available in https://github.com/T iago-Roxo.
翻訳日:2021-07-15 14:17:39 公開日:2021-07-14
# 「どう言えばいいの?」 ブロック世界の機械語から自然言語へのディレクティブの翻訳

"How to best say it?" : Translating Directives in Machine Language into Natural Language in the Blocks World ( http://arxiv.org/abs/2107.06886v1 )

ライセンス: Link先を確認
Sujeong Kim, Amir Tamrakar(参考訳) 本稿では,ブロック世界の人間とエージェントの相互作用において,機械のプランナーが生成するブロック配置指示に対して最適な自然言語を生成する手法を提案する。 ユーザフレンドリーでないマシンディレクティブ、例えばmove(objid, topos)は、ユーザーが理解しやすい視覚的かつ文脈的に接地した参照表現に変換される。 計算機のディレクティブをeci(elementary composable ideas)-spaceで漸進的かつ生成的に変換し、ディレクティブの様々なバージョンを生成するアルゴリズムについて述べる。 次に、コスト関数を定義し、これらの選択肢の理解の容易さを評価し、最適な選択肢を選択する。 このコスト関数のパラメータは、発話と行動のタイミングを測定するユーザー調査から経験的に導出された。

We propose a method to generate optimal natural language for block placement directives generated by a machine's planner during human-agent interactions in the blocks world. A non user-friendly machine directive, e.g., move(ObjId, toPos), is transformed into visually and contextually grounded referring expressions that are much easier for the user to comprehend. We describe an algorithm that progressively and generatively transforms the machine's directive in ECI (Elementary Composable Ideas)-space, generating many alternative versions of the directive. We then define a cost function to evaluate the ease of comprehension of these alternatives and select the best option. The parameters for this cost function were derived empirically from a user study that measured utterance-to-action timings.
翻訳日:2021-07-15 14:16:31 公開日:2021-07-14
# 勧告の因果効果に関するオンライン評価手法

Online Evaluation Methods for the Causal Effect of Recommendations ( http://arxiv.org/abs/2107.06630v1 )

ライセンス: Link先を確認
Masahiro Sato(参考訳) ユーザインタラクションに対する因果効果が直接的にセールスやユーザエンゲージメントの増加につながるため,レコメンデーションの因果効果を評価することが重要な目的である。 最適なレコメンデーションモデルを選択するには、モデル性能を比較するためにA/Bテストを行うのが一般的である。 しかし、因果効果のA/Bテストには多数のユーザーが必要であり、そのような実験は費用がかかり危険である。 そこで本研究では,因果効果の観点からレコメンデーションモデルを効率的に比較できる最初のインターリーブ手法を提案する。 従来のインターリーブ方式とは対照的に,提案する結果と非推奨の結果の差が因果効果であるので,インターリーブリストとインターリーブリストではない項目の双方の結果を測定する。 評価が不偏であることを保証するため、同じ確率の項目を選択するか、逆傾向スコアを用いて結果の重み付けを行う。 次に,オンライン評価手法の偏りと効率をシミュレートしたオンライン実験により検証する。 その結果,提案手法は非バイアスであり,A/B試験よりも効率がよいことがわかった。

Evaluating the causal effect of recommendations is an important objective because the causal effect on user interactions can directly leads to an increase in sales and user engagement. To select an optimal recommendation model, it is common to conduct A/B testing to compare model performance. However, A/B testing of causal effects requires a large number of users, making such experiments costly and risky. We therefore propose the first interleaving methods that can efficiently compare recommendation models in terms of causal effects. In contrast to conventional interleaving methods, we measure the outcomes of both items on an interleaved list and items not on the interleaved list, since the causal effect is the difference between outcomes with and without recommendations. To ensure that the evaluations are unbiased, we either select items with equal probability or weight the outcomes using inverse propensity scores. We then verify the unbiasedness and efficiency of online evaluation methods through simulated online experiments. The results indicate that our proposed methods are unbiased and that they have superior efficiency to A/B testing.
翻訳日:2021-07-15 14:16:02 公開日:2021-07-14
# 早期停止信号としてのバッチ間のばらつき

Disparity Between Batches as a Signal for Early Stopping ( http://arxiv.org/abs/2107.06665v1 )

ライセンス: Link先を確認
Mahsa Forouzesh and Patrick Thiran(参考訳) ミニバッチ勾配勾配で学習したディープニューラルネットワークの一般化能力を評価するための指標を提案する。 我々の計量は勾配分散と呼ばれ、トレーニングセットから引き出された2つのミニバッチの勾配ベクトル間の$\ell_2$ノルム距離である。 ネットワークがこのミニバッチでトレーニングされた場合と、同じデータセットからサンプリングされた別のミニバッチでネットワークがトレーニングされた場合の、与えられたミニバッチに対する分類誤差の差に関する確率的上限から導かれる。 我々は,データに制限がある場合には,勾配差が非常に有望な早期停止基準(i)であることを実証的に示し,(ii) 利用可能なデータにノイズラベルがある場合には,バリデーションデータよりも過剰に適合することを示す。 さらに,学習セットとテストセット間の一般化誤差に勾配差が強く関係していること,ラベルノイズのレベルについても非常に有意であることを示す。

We propose a metric for evaluating the generalization ability of deep neural networks trained with mini-batch gradient descent. Our metric, called gradient disparity, is the $\ell_2$ norm distance between the gradient vectors of two mini-batches drawn from the training set. It is derived from a probabilistic upper bound on the difference between the classification errors over a given mini-batch, when the network is trained on this mini-batch and when the network is trained on another mini-batch of points sampled from the same dataset. We empirically show that gradient disparity is a very promising early-stopping criterion (i) when data is limited, as it uses all the samples for training and (ii) when available data has noisy labels, as it signals overfitting better than the validation data. Furthermore, we show in a wide range of experimental settings that gradient disparity is strongly related to the generalization error between the training and test sets, and that it is also very informative about the level of label noise.
翻訳日:2021-07-15 14:15:43 公開日:2021-07-14
# Differential-Critic GAN: 選好のキューで望むものを生成する

Differential-Critic GAN: Generating What You Want by a Cue of Preferences ( http://arxiv.org/abs/2107.06700v1 )

ライセンス: Link先を確認
Yinghua Yao, Yuangang Pan, Ivor W.Tsang, Xin Yao(参考訳) 本稿では,利用者の期待を満たし,所望の属性を持った生物製品の設計を支援するデータを生成するため,データセット全体ではなく部分的なデータのみを所有する場合に,利用者の希望するデータの分布を学習するために,ディファレンシャル・クリティック・ジェネレーティブ・アドバーサリー・ネットワーク(dicgan)を提案する。 既存のアプローチでは、まず所望のサンプルを選択し、選択したサンプルに正規のGANを訓練して、ユーザが望むデータ分布を導出する。 しかし、望ましいデータの選択は、データセット全体に対する専門家の基準と監督に依存する。 DiCGANは、アマチュアの知識であり、トレーニングデータの一部として定義できる、ペアの好みから好みの方向を学習できる差分批評家を導入する。 結果の批評家は、データ全体ではなく、所望のデータの生成をガイドする。 具体的には、ワッサーシュタイン GAN の損失とは別に、ペアの選好のランキングの損失が批評家によって定義される。 それぞれのサンプル間の評価値の差をペアの選好関係で与える。 高い批評家価値は、サンプルがユーザに好まれることを示している。 このように、より高い批判値に対する生成モデルを訓練することで、ユーザ優先のサンプルの生成が促進される。 広汎な実験により,DCGANはユーザの希望するデータ分布を学習する上で,特に所望の不十分なデータや限られた監視を行う場合において,最先端のパフォーマンスを達成することが示された。

This paper proposes Differential-Critic Generative Adversarial Network (DiCGAN) to learn the distribution of user-desired data when only partial instead of the entire dataset possesses the desired property, which generates desired data that meets user's expectations and can assist in designing biological products with desired properties. Existing approaches select the desired samples first and train regular GANs on the selected samples to derive the user-desired data distribution. However, the selection of the desired data relies on an expert criterion and supervision over the entire dataset. DiCGAN introduces a differential critic that can learn the preference direction from the pairwise preferences, which is amateur knowledge and can be defined on part of the training data. The resultant critic guides the generation of the desired data instead of the whole data. Specifically, apart from the Wasserstein GAN loss, a ranking loss of the pairwise preferences is defined over the critic. It endows the difference of critic values between each pair of samples with the pairwise preference relation. The higher critic value indicates that the sample is preferred by the user. Thus training the generative model for higher critic values encourages the generation of user-preferred samples. Extensive experiments show that our DiCGAN achieves state-of-the-art performance in learning the user-desired data distributions, especially in the cases of insufficient desired data and limited supervision.
翻訳日:2021-07-15 14:15:25 公開日:2021-07-14
# 計算・通信タスクのスマート並列性による分散K-FACの高速化

Accelerating Distributed K-FAC with Smart Parallelism of Computing and Communication Tasks ( http://arxiv.org/abs/2107.06533v1 )

ライセンス: Link先を確認
Shaohuai Shi, Lin Zhang, Bo Li(参考訳) GPUクラスタ上での同期確率勾配降下(SGD)による分散トレーニングは、ディープモデルのトレーニングプロセスの高速化に広く利用されている。 しかし、SGDはモデルパラメータ更新の1次勾配のみを利用しており、数日や数週間かかる可能性がある。 近年の研究では、Kronecker-Factored Approximate Curvature (KFAC) が深層モデルのトレーニングにおいて最も効率的な近似アルゴリズムの1つとして現れる訓練過程を高速化するために、近似二階情報を利用することに成功した。 しかし、GPUクラスタを活用して分散KFAC(D-KFAC)でモデルをトレーニングする場合は、大規模な計算に加えて、イテレーション毎に追加の通信が導入される。 本研究では,コンピュータと通信タスクのスマート並列性を備えたd-kfac(spd-kfac)を提案する。 具体的には,1) D-KFACの性能ボトルネック,2) Kronecker因子の計算と動的テンソル融合による通信のためのパイプライニング機構の設計と実装,3)GPUクラスタ上で複数の行列を反転させる負荷分散配置を開発する。 我々は,100Gb/s InfiniBand相互接続64GPUクラスタ上で実世界の実験を行う。 実験結果から,提案したSPD-KFACトレーニングスキームは最先端アルゴリズムよりも10%-35%改善できることがわかった。

Distributed training with synchronous stochastic gradient descent (SGD) on GPU clusters has been widely used to accelerate the training process of deep models. However, SGD only utilizes the first-order gradient in model parameter updates, which may take days or weeks. Recent studies have successfully exploited approximate second-order information to speed up the training process, in which the Kronecker-Factored Approximate Curvature (KFAC) emerges as one of the most efficient approximation algorithms for training deep models. Yet, when leveraging GPU clusters to train models with distributed KFAC (D-KFAC), it incurs extensive computation as well as introduces extra communications during each iteration. In this work, we propose D-KFAC (SPD-KFAC) with smart parallelism of computing and communication tasks to reduce the iteration time. Specifically, 1) we first characterize the performance bottlenecks of D-KFAC, 2) we design and implement a pipelining mechanism for Kronecker factors computation and communication with dynamic tensor fusion, and 3) we develop a load balancing placement for inverting multiple matrices on GPU clusters. We conduct real-world experiments on a 64-GPU cluster with 100Gb/s InfiniBand interconnect. Experimental results show that our proposed SPD-KFAC training scheme can achieve 10%-35% improvement over state-of-the-art algorithms.
翻訳日:2021-07-15 14:15:01 公開日:2021-07-14
# 決定論的大域最適化のための粒界シービングアルゴリズム

A Granular Sieving Algorithm for Deterministic Global Optimization ( http://arxiv.org/abs/2107.06581v1 )

ライセンス: Link先を確認
Tao Qian, Lei Dai, Liming Zhang, and Zehua Chen(参考訳) ユークリッド空間内の任意のパスワイズ連結コンパクト集合で定義されるリプシッツ連続関数の大域的最適化問題を解くために、勾配なし決定論的手法を開発した。 この方法は、対象関数の領域と範囲の両方において同期解析を伴う粒状シービングと見なすことができる。 単変量関数と多変量関数の両方に適用可能な単純な数学的定式化により、大域最小値と全大域最小化関数は、それぞれ領域と範囲空間の2つのコンパクト集合の減少列を通して配置される。 このアルゴリズムは、適度な計算コストで容易に実装できる。 この手法は文献の広範なベンチマーク関数に対して試験される。 実験結果は,アルゴリズムの有効性と適用性を示した。

A gradient-free deterministic method is developed to solve global optimization problems for Lipschitz continuous functions defined in arbitrary path-wise connected compact sets in Euclidean spaces. The method can be regarded as granular sieving with synchronous analysis in both the domain and range of the objective function. With straightforward mathematical formulation applicable to both univariate and multivariate objective functions, the global minimum value and all the global minimizers are located through two decreasing sequences of compact sets in, respectively, the domain and range spaces. The algorithm is easy to implement with moderate computational cost. The method is tested against extensive benchmark functions in the literature. The experimental results show remarkable effectiveness and applicability of the algorithm.
翻訳日:2021-07-15 14:14:36 公開日:2021-07-14
# MDE4QAI:量子人工知能のためのモデル駆動工学を目指して

MDE4QAI: Towards Model-Driven Engineering for Quantum Artificial Intelligence ( http://arxiv.org/abs/2107.06708v1 )

ライセンス: Link先を確認
Armin Moin, Moharram Challenger, Atta Badii and Stephan G\"unnemann(参考訳) 過去10年間で、人工知能(AI)は、ソフトウェアシステムに対する新たな要求と要求だけでなく、非常に新しい可能性と機会を提供してきた。 特に機械学習(ML)は、ほとんどの垂直アプリケーションドメインで有用であることが証明されている。 インテリジェントエージェントやマルチエージェントシステム(mas)といった他のaiの下位分野は、同じ程度に昇格しなかったが、モノのインターネット(iot)やスマートサイバーフィジカルシステム(cps)の普及が続いているなど、主流のテクノロジスタックやエコシステムに統合される可能性はまだ残っている。 しかし、今後10年で、おそらく量子古典ハイブリッドモデルとともに、古典コンピューティングから量子コンピューティング(qc)への前例のないパラダイムシフトが期待されている。 私たちは、モデル駆動エンジニアリング(MDE)パラダイムが、量子と量子古典ハイブリッドアプリケーションに関して、本質的に異質なハードウェアとソフトウェアプラットフォームとAPIを備えた、IoT、スマートCPS、AIの非常に複雑なドメインにおいてすでに有益であることが証明されているため、実現可能かつファシリテーターであると期待しています。 これには、自動コード生成だけでなく、自動モデルチェックと検証、初期の設計フェーズにおけるモデル分析、および設計時と実行時の両方におけるモデルからモデルへの変換が含まれる。 本稿では,量子AIのためのMDEと,これらをすべて統合した総合的なアプローチに注目した。

Over the past decade, Artificial Intelligence (AI) has provided enormous new possibilities and opportunities, but also new demands and requirements for software systems. In particular, Machine Learning (ML) has proven useful in almost every vertical application domain. Although other sub-disciplines of AI, such as intelligent agents and Multi-Agent Systems (MAS) did not become promoted to the same extent, they still possess the potential to be integrated into the mainstream technology stacks and ecosystems, for example, due to the ongoing prevalence of the Internet of Things (IoT) and smart Cyber-Physical Systems (CPS). However, in the decade ahead, an unprecedented paradigm shift from classical computing towards Quantum Computing (QC) is expected, with perhaps a quantum-classical hybrid model. We expect the Model-Driven Engineering (MDE) paradigm to be an enabler and a facilitator, when it comes to the quantum and the quantum-classical hybrid applications as it has already proven beneficial in the highly complex domains of IoT, smart CPS and AI with inherently heterogeneous hardware and software platforms, and APIs. This includes not only automated code generation, but also automated model checking and verification, as well as model analysis in the early design phases, and model-to-model transformations both at the design-time and at the runtime. In this paper, the vision is focused on MDE for Quantum AI, and a holistic approach integrating all of the above.
翻訳日:2021-07-15 14:14:19 公開日:2021-07-14
# 健康ニュースと研究文献のリンク

Linking Health News to Research Literature ( http://arxiv.org/abs/2107.06472v1 )

ライセンス: Link先を確認
Jun Wang, Bei Yu(参考訳) ニュース記事と科学研究の正確なリンクは、研究作業の社会的影響の測定や、科学ニュースにおける不正確性や歪みの検出など、多くの応用において重要な要素である。 ニュースと文学の結びつきの欠如はこれらの応用において課題となっているが、比較的未解明の研究課題である。 本稿では, (1) メタデータ抽出のための最新の名前付きエンティティ認識手法の強化, (2) 拡張されたメタデータクエリの利用を容易にする新しい弾性検索エンジンの設計, からなる新しいアプローチを設計, 評価した。 提案手法を評価するために,2つの組み合わせのニュース記事と研究論文のデータセットを構築し,その1つはメタデータ抽出のためのトレーニングモデル,もう1つは評価のためのトレーニングモデルを構築した。 実験の結果,新しい手法はaltmetric.comのベースラインアプローチ(トップ1の精度では0.89対0.32)よりも有意に優れていた。 EurekAlert!で公表された37,600件の健康関連プレスリリースについても,本手法の有効性を実証するため,少なくとも0.97件のTop-1精度で対応する研究論文を同定することができた。

Accurately linking news articles to scientific research works is a critical component in a number of applications, such as measuring the social impact of a research work and detecting inaccuracies or distortions in science news. Although the lack of links between news and literature has been a challenge in these applications, it is a relatively unexplored research problem. In this paper we designed and evaluated a new approach that consists of (1) augmenting latest named-entity recognition techniques to extract various metadata, and (2) designing a new elastic search engine that can facilitate the use of enriched metadata queries. To evaluate our approach, we constructed two datasets of paired news articles and research papers: one is used for training models to extract metadata, and the other for evaluation. Our experiments showed that the new approach performed significantly better than a baseline approach used by altmetric.com (0.89 vs 0.32 in terms of top-1 accuracy). To further demonstrate the effectiveness of the approach, we also conducted a study on 37,600 health-related press releases published on EurekAlert!, which showed that our approach was able to identify the corresponding research papers with a top-1 accuracy of at least 0.97.
翻訳日:2021-07-15 14:13:54 公開日:2021-07-14
# MMGCN:会話における感情認識のためのディープグラフ畳み込みネットワークによるマルチモーダルフュージョン

MMGCN: Multimodal Fusion via Deep Graph Convolution Network for Emotion Recognition in Conversation ( http://arxiv.org/abs/2107.06779v1 )

ライセンス: Link先を確認
Jingwen Hu, Yuchen Liu, Jinming Zhao, Qin Jin(参考訳) 会話における感情認識(ERC)は感情対話システムにおいて重要な要素であり、ユーザの感情を理解し、共感的な反応を生成するのに役立つ。 しかし、ほとんどの研究は、主にテキストのモダリティに焦点を当てた話者情報と文脈情報のモデリングや、特徴結合によるマルチモーダル情報の活用に重点を置いている。 本研究では,マルチモーダル・長距離両方のコンテキスト情報を活用するためのより効率的な手法を探るため,マルチモーダル融合グラフ畳み込みネットワークMMGCNに基づく新しいモデルを提案する。 mmgcnはマルチモーダル依存を効果的に利用するだけでなく、話者情報を利用して話者間依存や話者内依存をモデル化する。 提案手法をiemocapとmeldの2つの公開ベンチマークデータセットで評価し,マルチモーダルな会話環境において,他のsoma手法を有意差で上回るmmgcnの有効性を実証した。

Emotion recognition in conversation (ERC) is a crucial component in affective dialogue systems, which helps the system understand users' emotions and generate empathetic responses. However, most works focus on modeling speaker and contextual information primarily on the textual modality or simply leveraging multimodal information through feature concatenation. In order to explore a more effective way of utilizing both multimodal and long-distance contextual information, we propose a new model based on multimodal fused graph convolutional network, MMGCN, in this work. MMGCN can not only make use of multimodal dependencies effectively, but also leverage speaker information to model inter-speaker and intra-speaker dependency. We evaluate our proposed model on two public benchmark datasets, IEMOCAP and MELD, and the results prove the effectiveness of MMGCN, which outperforms other SOTA methods by a significant margin under the multimodal conversation setting.
翻訳日:2021-07-15 14:13:10 公開日:2021-07-14
# 微細画像認識のためのピーク抑圧と知識指導を備えた変圧器

Transformer with Peak Suppression and Knowledge Guidance for Fine-grained Image Recognition ( http://arxiv.org/abs/2107.06538v1 )

ライセンス: Link先を確認
Xinda Liu, Lili Wang, Xiaoguang Han(参考訳) 識別手がかりは通常、単一の画像からでも複数の画像からでも断片化されるため、きめ細かい画像認識は困難である。 重要な改善にもかかわらず、既存の手法のほとんどは1つの画像から最も識別可能な部分に焦点を当てており、他の地域での情報的な詳細を無視し、他の関連画像からのヒントを考慮していない。 本稿では,新たな視点から細粒画像認識の難しさを分析し,単一画像における識別特徴の多様化と複数画像間の識別手がかりの集約を考慮し,ピーク抑圧モジュールと知識誘導モジュールを用いたトランスフォーマティブアーキテクチャを提案する。 具体的には、ピーク抑圧モジュールは、まず線形投影を利用して入力画像をシーケンシャルトークンに変換する。 次に、変換器エンコーダが生成したアテンション応答に基づいてトークンをブロックする。 このモジュールは、特徴学習プロセスにおいて最も識別性の高い部分に注意を向け、無視された領域の情報利用を強化する。 知識誘導モジュールは、ピーク抑圧モジュールから生成された画像ベース表現と学習可能な知識埋め込みセットを比較し、知識応答係数を求める。 その後、応答係数を分類スコアとして、知識学習を分類問題として定式化する。 知識埋め込みとイメージベースの表現はトレーニング中に更新され、知識埋め込みは異なる画像の識別手がかりを含む。 最後に、取得した知識を画像に基づく表現に総合表現として組み込むことにより、パフォーマンスが大幅に向上する。 6つの一般的なデータセットに対する広範囲な評価は,提案手法の利点を示している。

Fine-grained image recognition is challenging because discriminative clues are usually fragmented, whether from a single image or multiple images. Despite their significant improvements, most existing methods still focus on the most discriminative parts from a single image, ignoring informative details in other regions and lacking consideration of clues from other associated images. In this paper, we analyze the difficulties of fine-grained image recognition from a new perspective and propose a transformer architecture with the peak suppression module and knowledge guidance module, which respects the diversification of discriminative features in a single image and the aggregation of discriminative clues among multiple images. Specifically, the peak suppression module first utilizes a linear projection to convert the input image into sequential tokens. It then blocks the token based on the attention response generated by the transformer encoder. This module penalizes the attention to the most discriminative parts in the feature learning process, therefore, enhancing the information exploitation of the neglected regions. The knowledge guidance module compares the image-based representation generated from the peak suppression module with the learnable knowledge embedding set to obtain the knowledge response coefficients. Afterwards, it formalizes the knowledge learning as a classification problem using response coefficients as the classification scores. Knowledge embeddings and image-based representations are updated during training so that the knowledge embedding includes discriminative clues for different images. Finally, we incorporate the acquired knowledge embeddings into the image-based representations as comprehensive representations, leading to significantly higher performance. Extensive evaluations on the six popular datasets demonstrate the advantage of the proposed method.
翻訳日:2021-07-15 14:12:54 公開日:2021-07-14
# ベイズニューラルネットワークによる確率的人間の動作予測

Probabilistic Human Motion Prediction via A Bayesian Neural Network ( http://arxiv.org/abs/2107.06564v1 )

ライセンス: Link先を確認
Jie Xu, Xingyu Chen, Xuguang Lan and Nanning Zheng(参考訳) 人間の動き予測は重要かつ挑戦的なトピックであり、効率的で安全な人間-ロボット-インタラクションシステムに期待できる。 現在、人間の運動予測アルゴリズムの大部分は決定論的モデルに基づいており、ロボットのリスクの高い決定に繋がる可能性がある。 そこで本研究では,人間の動作予測のための確率論的モデルを提案する。 このアプローチの重要な考え方は、従来の決定論的動き予測ニューラルネットワークをベイズ型ニューラルネットワークに拡張することです。 一方、観測された動き列が与えられた場合、我々のモデルはいくつかの将来の動きを生成できる。 一方,認識的不確かさとヘテロシドスティック・アレエータ的不確かさを計算することにより,ロボットに観察が以前に見られたかどうかを判断し,可能なすべての予測の中で最適な結果を与えることができる。 我々は大規模なベンチマークデータセットHuman3.6mに対して、我々のアプローチを広範囲に検証した。 実験の結果,我々のアプローチは決定論的手法よりも優れていることがわかった。 我々は,Human-Robot-Interac tion(HRI)シナリオにおける我々のアプローチをさらに評価する。 実験の結果,提案手法はインタラクションをより効率的かつ安全にすることを示す。

Human motion prediction is an important and challenging topic that has promising prospects in efficient and safe human-robot-interact ion systems. Currently, the majority of the human motion prediction algorithms are based on deterministic models, which may lead to risky decisions for robots. To solve this problem, we propose a probabilistic model for human motion prediction in this paper. The key idea of our approach is to extend the conventional deterministic motion prediction neural network to a Bayesian one. On one hand, our model could generate several future motions when given an observed motion sequence. On the other hand, by calculating the Epistemic Uncertainty and the Heteroscedastic Aleatoric Uncertainty, our model could tell the robot if the observation has been seen before and also give the optimal result among all possible predictions. We extensively validate our approach on a large scale benchmark dataset Human3.6m. The experiments show that our approach performs better than deterministic methods. We further evaluate our approach in a Human-Robot-Interact ion (HRI) scenario. The experimental results show that our approach makes the interaction more efficient and safer.
翻訳日:2021-07-15 14:12:32 公開日:2021-07-14
# DVMN:Dense Validity Mask Network for Depth Completion

DVMN: Dense Validity Mask Network for Depth Completion ( http://arxiv.org/abs/2107.06709v1 )

ライセンス: Link先を確認
Laurenz Reichardt, Patrick Mangat, Oliver Wasenm\"uller(参考訳) LiDAR深度マップは様々な用途で環境ガイダンスを提供する。 しかし、このような深度マップは通常、自律的なナビゲーションのような複雑なタスクには不十分である。 最先端の手法は、画像誘導ニューラルネットワークを用いて、深い奥行きを完遂する。 スパース深度マップから高密度かつ有効な情報を集めることに焦点を当てたガイド付き畳み込みニューラルネットワークを開発した。 そこで本稿では,空間的変異とコンテンツ依存拡張を有する新しい層を導入し,スパース入力からの付加データを含める。 さらに,スパーシティ不変残差ボトルネックブロックを提案する。 我々は,KITTI深度補完ベンチマークを用いてDense Validity Mask Network (DVMN) を評価し,その結果を報告する。 提案時点では,本ネットワークはスパーシティ不変畳み込みを用いた指導的手法である。

LiDAR depth maps provide environmental guidance in a variety of applications. However, such depth maps are typically sparse and insufficient for complex tasks such as autonomous navigation. State of the art methods use image guided neural networks for dense depth completion. We develop a guided convolutional neural network focusing on gathering dense and valid information from sparse depth maps. To this end, we introduce a novel layer with spatially variant and content-depended dilation to include additional data from sparse input. Furthermore, we propose a sparsity invariant residual bottleneck block. We evaluate our Dense Validity Mask Network (DVMN) on the KITTI depth completion benchmark and achieve state of the art results. At the time of submission, our network is the leading method using sparsity invariant convolution.
翻訳日:2021-07-15 14:12:16 公開日:2021-07-14
# ダイナミックイベントカメラキャリブレーション

Dynamic Event Camera Calibration ( http://arxiv.org/abs/2107.06749v1 )

ライセンス: Link先を確認
Kun Huang, Yifu Wang and Laurent Kneip(参考訳) カメラキャリブレーションは3次元コンピュータビジョン問題の解決に向けた重要な前提条件である。 従来の方法は、キャリブレーションパターンの静的イメージに依存している。 これにより、十分な測定値を得るために画像の変更を必要とするイベントカメラの実用化に向けた興味深い課題が提起される。 イベントカメラのキャリブレーションの現在の標準は、フラッシュパターンを使用する。 それらは、すべての再計画されたパターン特徴ロケーションで同時にイベントをトリガーする利点があるが、そのようなパターンをフィールドで構築または使用することは困難である。 最初の動的イベントカメラキャリブレーションアルゴリズムを提案する。 カメラとキャリブレーションパターンの間の相対的な動きで捉えたイベントから直接キャリブレーションする。 本手法はキャリブレーションパターンの新たな特徴抽出機構により推進され,マルチセグメント連続時間定式化によるパラメータの最適化に先立って既存のキャリブレーションツールを利用する。 実データを用いた結果から示すように,10秒未満のデータ列から得られるキャリブレーション手法は,非常に便利かつ確実にキャリブレーションできる。

Camera calibration is an important prerequisite towards the solution of 3D computer vision problems. Traditional methods rely on static images of a calibration pattern. This raises interesting challenges towards the practical usage of event cameras, which notably require image change to produce sufficient measurements. The current standard for event camera calibration therefore consists of using flashing patterns. They have the advantage of simultaneously triggering events in all reprojected pattern feature locations, but it is difficult to construct or use such patterns in the field. We present the first dynamic event camera calibration algorithm. It calibrates directly from events captured during relative motion between camera and calibration pattern. The method is propelled by a novel feature extraction mechanism for calibration patterns, and leverages existing calibration tools before optimizing all parameters through a multi-segment continuous-time formulation. As demonstrated through our results on real data, the obtained calibration method is highly convenient and reliably calibrates from data sequences spanning less than 10 seconds.
翻訳日:2021-07-15 14:12:05 公開日:2021-07-14
# RCDNet: 単一画像作成のための解釈可能な雨畳み込み辞書ネットワーク

RCDNet: An Interpretable Rain Convolutional Dictionary Network for Single Image Deraining ( http://arxiv.org/abs/2107.06808v1 )

ライセンス: Link先を確認
Hong Wang, Qi Xie, Qian Zhao, Yong Liang, Deyu Meng(参考訳) 一般的な天候として、雨は画質を悪化させる。 したがって、画像から雨を取り除くことがこの分野で重要な問題となっている。 そこで本稿では,このような不適切な単一画像レーダ処理を行うため,雨畳み込み辞書ネットワーク (rcdnet) と呼ばれる新しい深層アーキテクチャを構築した。 具体的には、まず雨害を表すためのRCDモデルを構築し、近似勾配降下法を用いてモデル解くための単純な演算子のみを含む反復アルゴリズムを設計する。 展開することで、全てのネットワークモジュールが明確な物理的意味を持ち、アルゴリズムに関連する各操作に対応するRCDNetを構築する。 この優れた解釈性は、ネットワーク内で何が起きているのか、なぜ推論プロセスでうまく機能するのかを簡単に視覚化し分析するのに役立つ。 さらに,実際のシナリオにおけるドメイン間ギャップ問題を考慮した新しい動的rcdnetの設計を行い,入力された雨画像に応じてレインカーネルを動的に推定し,雨層推定のスペースを少ない雨マップで縮小し,トレーニングとテストデータ間の雨種間の一貫性のないシナリオにおいて,正確な一般化性能を確保する。 このような解釈可能なネットワークをエンドツーエンドでトレーニングすることで、関係する雨核と近位演算子を自動的に抽出し、雨層と清潔な背景層の両方の特徴を忠実に特徴付けることで、自然とより良い排水性能をもたらすことができる。 包括的実験は,本手法の優越性,特に多種多様なテストシナリオに対する優れた一般化と,すべてのモジュールに対する優れた解釈可能性について実証する。 コードは \emph{\url{https://github.com/h ongwang01/drcdnet}} で利用可能である。

As a common weather, rain streaks adversely degrade the image quality. Hence, removing rains from an image has become an important issue in the field. To handle such an ill-posed single image deraining task, in this paper, we specifically build a novel deep architecture, called rain convolutional dictionary network (RCDNet), which embeds the intrinsic priors of rain streaks and has clear interpretability. In specific, we first establish a RCD model for representing rain streaks and utilize the proximal gradient descent technique to design an iterative algorithm only containing simple operators for solving the model. By unfolding it, we then build the RCDNet in which every network module has clear physical meanings and corresponds to each operation involved in the algorithm. This good interpretability greatly facilitates an easy visualization and analysis on what happens inside the network and why it works well in inference process. Moreover, taking into account the domain gap issue in real scenarios, we further design a novel dynamic RCDNet, where the rain kernels can be dynamically inferred corresponding to input rainy images and then help shrink the space for rain layer estimation with few rain maps so as to ensure a fine generalization performance in the inconsistent scenarios of rain types between training and testing data. By end-to-end training such an interpretable network, all involved rain kernels and proximal operators can be automatically extracted, faithfully characterizing the features of both rain and clean background layers, and thus naturally lead to better deraining performance. Comprehensive experiments substantiate the superiority of our method, especially on its well generality to diverse testing scenarios and good interpretability for all its modules. Code is available in \emph{\url{https://github.com/h ongwang01/DRCDNet}}.
翻訳日:2021-07-15 14:11:51 公開日:2021-07-14
# 高速・高品質テキスト・ライップ生成

High-Speed and High-Quality Text-to-Lip Generation ( http://arxiv.org/abs/2107.06831v1 )

ライセンス: Link先を確認
Jinglin Liu, Zhiying Zhu, Yi Ren and Zhou Zhao(参考訳) 発話顔生成の重要な構成要素として、唇運動生成は、生成した発話顔映像の自然性とコヒーレンスを決定する。 先行文学は主に音声からリップへの生成に焦点が当てられ、一方でテキストからリップ(t2l)の生成にはpaucityがある。 T2Lは難題であり、既存のエンドツーエンドの作業は注意機構と自己回帰(AR)復号法に依存している。 しかし、ar復号方式は、予め生成されたフレームに条件付けされた現在のリップフレームを生成し、本質的に推論速度を阻害すると同時に、エラー伝搬による生成リップフレームの品質に悪影響を及ぼす。 これにより、並列T2L生成の研究が促進される。 本研究では,高速かつ高品質なテキスト-リップ生成(HH-T2L)のための並列デコーディングモデルを提案する。 具体的には,エンコードされた言語特徴の持続期間を予測し,その持続期間を非自己回帰的な方法でエンコードされた言語特徴に基づく対象唇フレームをモデル化する。 さらに,構造的類似度指標損失と逆学習を組み込んで,生成した唇フレームの知覚品質を改善し,ぼやけた予測問題を緩和する。 GRIDおよびTCD-TIMITデータセットを用いて行った実験の結果, 1) HH-T2Lは, 最先端のAR T2LモデルであるDualLipと競合する品質の唇運動を発生し, 誤差伝搬問題の緩和による顕著な差でベースラインのARモデルであるTransformerT2Lを上回り, 2) 推論速度(TCD-TIMITのDualLipの平均速度は19$\times$。

As a key component of talking face generation, lip movements generation determines the naturalness and coherence of the generated talking face video. Prior literature mainly focuses on speech-to-lip generation while there is a paucity in text-to-lip (T2L) generation. T2L is a challenging task and existing end-to-end works depend on the attention mechanism and autoregressive (AR) decoding manner. However, the AR decoding manner generates current lip frame conditioned on frames generated previously, which inherently hinders the inference speed, and also has a detrimental effect on the quality of generated lip frames due to error propagation. This encourages the research of parallel T2L generation. In this work, we propose a novel parallel decoding model for high-speed and high-quality text-to-lip generation (HH-T2L). Specifically, we predict the duration of the encoded linguistic features and model the target lip frames conditioned on the encoded linguistic features with their duration in a non-autoregressive manner. Furthermore, we incorporate the structural similarity index loss and adversarial learning to improve perceptual quality of generated lip frames and alleviate the blurry prediction problem. Extensive experiments conducted on GRID and TCD-TIMIT datasets show that 1) HH-T2L generates lip movements with competitive quality compared with the state-of-the-art AR T2L model DualLip and exceeds the baseline AR model TransformerT2L by a notable margin benefiting from the mitigation of the error propagation problem; and 2) exhibits distinct superiority in inference speed (an average speedup of 19$\times$ than DualLip on TCD-TIMIT).
翻訳日:2021-07-15 14:11:21 公開日:2021-07-14
# 深部強化学習を用いた新しいラジオのQoS対応スケジューリング

QoS-Aware Scheduling in New Radio Using Deep Reinforcement Learning ( http://arxiv.org/abs/2107.06570v1 )

ライセンス: Link先を確認
Jakob Stigenberg, Vidit Saxena, Soma Tayamon, Euhanna Ghadimi(参考訳) 第5世代(5G) ニューラジオ(NR) セルネットワークは様々な新しいサービスをサポートしており、その多くがアプリケーション固有のQoS(Quality of Service)を必要とする。 保証された最小ビットレートまたは最大許容遅延の観点で。 したがって、複数の並列データフローをスケジューリングすることは、それぞれがユニークなアプリケーションインスタンスを提供するため、前世代に比べてさらに困難なタスクとなる。 本稿では, 深層強化学習の最近の進歩を活用し, NRネットワークのためのQoS-Aware Deep Reinforcement Learning Agent (QADRA)スケジューラを提案する。 最先端のスケジューリングヒューリスティックとは対照的に、QADRAスケジューラはネットワーク性能を最大化しながらQoS満足度を明示的に最適化する。 さらに,これらの目的に対してエンドツーエンドでアルゴリズムをトレーニングする。 我々は,QADRAを実規模,ほぼ生産量,システムレベルのNRシミュレータで評価し,ネットワーク性能の大幅な向上を示す。 我々の評価シナリオでは、QADRAスケジューラは、最先端のベースラインと比較して、ネットワークが提供するVoIPユーザのQoS満足度を同時に維持しながら、ネットワークスループットを30%向上させる。

Fifth-generation (5G) New Radio (NR) cellular networks support a wide range of new services, many of which require an application-specific quality of service (QoS), e.g. in terms of a guaranteed minimum bit-rate or a maximum tolerable delay. Therefore, scheduling multiple parallel data flows, each serving a unique application instance, is bound to become an even more challenging task compared to the previous generations. Leveraging recent advances in deep reinforcement learning, in this paper, we propose a QoS-Aware Deep Reinforcement learning Agent (QADRA) scheduler for NR networks. In contrast to state-of-the-art scheduling heuristics, the QADRA scheduler explicitly optimizes for the QoS satisfaction rate while simultaneously maximizing the network performance. Moreover, we train our algorithm end-to-end on these objectives. We evaluate QADRA in a full scale, near-product, system level NR simulator and demonstrate a significant boost in network performance. In our particular evaluation scenario, the QADRA scheduler improves network throughput by 30% while simultaneously maintaining the QoS satisfaction rate of VoIP users served by the network, compared to state-of-the-art baselines.
翻訳日:2021-07-15 14:10:26 公開日:2021-07-14
# 効率的なベクトル探索

Efficient Set of Vectors Search ( http://arxiv.org/abs/2107.06817v1 )

ライセンス: Link先を確認
Michael Leybovich and Oded Shmueli(参考訳) ベクトルのペアの平均と最大コサイン距離をバランスさせる2つの集合 $A$ と $B$ の類似度測度を考え、その1つは集合 $A$ と 1 は集合 $B$ から。 この尺度の動機として,データベース上での系統追跡を提案する。 この測度を実際に実現するためには、ベクトルの集合A$とベクトルの集合B_1,...,B_n$を与えられた近似探索アルゴリズムが必要である。 すべての集合がシングルトン集合である場合、基本的には1つのベクトルであり、木探索アルゴリズムの近似バージョン、局所性感受性ハッシュ(LSH)、ベクトル量子化(VQ)、近接グラフアルゴリズムなどの効率的な近似探索アルゴリズムが存在する。 本研究では,一般事例に対する近似探索アルゴリズムを提案する。 これらのアルゴリズムの根底にある考え方は、一組のベクトルを「長い」単一ベクトルで符号化することである。

We consider a similarity measure between two sets $A$ and $B$ of vectors, that balances the average and maximum cosine distance between pairs of vectors, one from set $A$ and one from set $B$. As a motivation for this measure, we present lineage tracking in a database. To practically realize this measure, we need an approximate search algorithm that given a set of vectors $A$ and sets of vectors $B_1,...,B_n$, the algorithm quickly locates the set $B_i$ that maximizes the similarity measure. For the case where all sets are singleton sets, essentially each is a single vector, there are known efficient approximate search algorithms, e.g., approximated versions of tree search algorithms, locality-sensitive hashing (LSH), vector quantization (VQ) and proximity graph algorithms. In this work, we present approximate search algorithms for the general case. The underlying idea in these algorithms is encoding a set of vectors via a "long" single vector.
翻訳日:2021-07-15 14:10:05 公開日:2021-07-14
# 階層的連想記憶

Hierarchical Associative Memory ( http://arxiv.org/abs/2107.06446v1 )

ライセンス: Link先を確認
Dmitry Krotov(参考訳) Dense Associative Memories や Modern Hopfield Networks は連想記憶の魅力的な特徴を多数持っている。 パターンの完了や大量のメモリの保存が可能で、生物学的な信頼性とニューロン間のフィードバックの豊富な再帰的なニューラルネットワークを使って記述することができる。 同時に、このクラスのすべてのモデルは、これまで1つの隠れた層しか持たず、密結合されたネットワークアーキテクチャでのみ定式化され、機械学習アプリケーションを妨げる2つの側面がある。 本稿では、このギャップに取り組み、局所的に接続できる層(畳み込み)と、ニューロンの活性化の動的軌道を減少させる対応するエネルギー関数を含む、任意に多数の層を持つアソシエーションメモリの完全再帰モデルを記述する。 ネットワーク全体の記憶は、下位層のシナプス重みにエンコードされたプリミティブを使って動的に「組み立て」され、上位層のシナプス重みにエンコードされる「組み立て規則」によって符号化される。 一般的に使用されるフィードフォワードニューラルネットワークの典型的なボトムアップ伝搬に加えて、モデルでは、上位層からの豊富なトップダウンフィードバックにより、下層のニューロンが入力刺激に対する応答を決定する。

Dense Associative Memories or Modern Hopfield Networks have many appealing properties of associative memory. They can do pattern completion, store a large number of memories, and can be described using a recurrent neural network with a degree of biological plausibility and rich feedback between the neurons. At the same time, up until now all the models of this class have had only one hidden layer, and have only been formulated with densely connected network architectures, two aspects that hinder their machine learning applications. This paper tackles this gap and describes a fully recurrent model of associative memory with an arbitrary large number of layers, some of which can be locally connected (convolutional), and a corresponding energy function that decreases on the dynamical trajectory of the neurons' activations. The memories of the full network are dynamically "assembled" using primitives encoded in the synaptic weights of the lower layers, with the "assembling rules" encoded in the synaptic weights of the higher layers. In addition to the bottom-up propagation of information, typical of commonly used feedforward neural networks, the model described has rich top-down feedback from higher layers that help the lower-layer neurons to decide on their response to the input stimuli.
翻訳日:2021-07-15 14:09:13 公開日:2021-07-14
# ディープラーニングシステムのためのモデル並列モデル選択

Model-Parallel Model Selection for Deep Learning Systems ( http://arxiv.org/abs/2107.06469v1 )

ライセンス: Link先を確認
Kabir Nagrecha(参考訳) ディープラーニングが時間と計算の両面で高価になるにつれて、マシンラーニング(ML)トレーニングの非効率性は、ほとんどのユーザにとって最先端モデルの実用的使用を妨げる。 最新のモデルアーキテクチャは、単に1つのプロセッサに適合するには大きすぎる。 この問題に対処するため、多くのML実践者は、計算要求を複数のデバイスに分散させる方法として、並列性をモデル化している。 残念なことに、ニューラルネットワークのシーケンシャルな性質は、モデル並列トレーニングジョブにおいて非常に低い効率とデバイス利用を引き起こす。 タスクとモデル並列性を組み合わせた新しい形式の"シャード並列性"を提案し,それをhydraと呼ばれるフレームワークにパッケージ化する。 Hydraは、モデル並列性の問題をマルチモデルコンテキストで再放送し、独立モデルではなく独立モデルシャードのきめ細かい並列ワークロードを生成する。 この新しい並列設計は、従来のモデル並列化パラダイムと比較して劇的なスピードアップを約束する。

As deep learning becomes more expensive, both in terms of time and compute, inefficiencies in machine learning (ML) training prevent practical usage of state-of-the-art models for most users. The newest model architectures are simply too large to be fit onto a single processor. To address the issue, many ML practitioners have turned to model parallelism as a method of distributing the computational requirements across several devices. Unfortunately, the sequential nature of neural networks causes very low efficiency and device utilization in model parallel training jobs. We propose a new form of "shard parallelism" combining task and model parallelism, then package it into a framework we name Hydra. Hydra recasts the problem of model parallelism in the multi-model context to produce a fine-grained parallel workload of independent model shards, rather than independent models. This new parallel design promises dramatic speedups relative to the traditional model parallelism paradigm.
翻訳日:2021-07-15 14:08:54 公開日:2021-07-14
# CNN-Cap:フルチップパラサイト抽出のための効果的な畳み込みニューラルネットワークベース容量モデル

CNN-Cap: Effective Convolutional Neural Network Based Capacitance Models for Full-Chip Parasitic Extraction ( http://arxiv.org/abs/2107.06511v1 )

ライセンス: Link先を確認
Dingcheng Yang, Wenjian Yu, Yuanbo Guo, Wenjie Liang(参考訳) 高度なプロセス技術の下で集積回路の設計において、正確な容量抽出がますます重要になっている。 このパターンマッチングベースのフルチップ抽出手法は高速な計算速度をもたらすが、大きなエラーが発生し、増大する構造パターンの容量モデルを構築するのに手間がかかる。 本研究では,フルチップ容量抽出における2次元(2次元)構造のための畳み込みニューラルネットワーク(CNN)ベースの容量モデル(CNN-Cap)を構築するための有効な手法を提案する。 グリッドに基づく新しいデータ表現により,提案手法は,パターンを可変数の導体でモデル化することができるため,パターンの数を大幅に削減できる。 得られたcnn-capは,空間情報取得におけるresnetアーキテクチャの能力と,提案するトレーニングスキルに基づいて,多層知覚ニューラルネットワークに基づく容量モデルよりも,より汎用性が高い性能を示す。 55nmおよび15nmプロセス技術に関する大規模な実験により、CNN-Capで生成された全容量の誤差は1.3%以内であり、生成した結合容量の誤差は99.5%以上の確率で10%未満であることが示された。 CNN-CapはGPUサーバ上で2次元フィールドソルバよりも4000倍高速に動作し、ルックアップテーブルベースの容量モデルと比較して無視可能なメモリを消費する。

Accurate capacitance extraction is becoming more important for designing integrated circuits under advanced process technology. The pattern matching based full-chip extraction methodology delivers fast computational speed, but suffers from large error, and tedious efforts on building capacitance models of the increasing structure patterns. In this work, we propose an effective method for building convolutional neural network (CNN) based capacitance models (called CNN-Cap) for two-dimensional (2-D) structures in full-chip capacitance extraction. With a novel grid-based data representation, the proposed method is able to model the pattern with a variable number of conductors, so that largely reduce the number of patterns. Based on the ability of ResNet architecture on capturing spatial information and the proposed training skills, the obtained CNN-Cap exhibits much better performance over the multilayer perception neural network based capacitance model while being more versatile. Extensive experiments on a 55nm and a 15nm process technologies have demonstrated that the error of total capacitance produced with CNN-Cap is always within 1.3% and the error of produced coupling capacitance is less than 10% in over 99.5% probability. CNN-Cap runs more than 4000X faster than 2-D field solver on a GPU server, while it consumes negligible memory compared to the look-up table based capacitance model.
翻訳日:2021-07-15 14:08:39 公開日:2021-07-14
# IFedAvg:フェデレートラーニングのための解釈可能なデータインターオペラビリティ

IFedAvg: Interpretable Data-Interoperabilit y for Federated Learning ( http://arxiv.org/abs/2107.06580v1 )

ライセンス: Link先を確認
David Roschewitz, Mary-Anne Hartley, Luca Corinzia, Martin Jaggi(参考訳) 近年、プライバシ指向の機械学習に対する需要がますます高まっているため、研究者はフェデレートされた分散学習技術を開発し、個々のクライアントがプライベートデータセットを公開することなく、協力的にモデルをトレーニングできるようになった。 しかし、データ互換性の評価が不可欠である高レベルのユーザ信頼に依存するドメインでは、広く採用されている。 本研究では,表型データに対するフェデレート学習におけるクライアントデータの不整合による低相互運用性の定義と対処を行う。 提案手法であるifedavgは,協調学習プロセスのパーソナライズと粒度理解を可能にするために,局所的な要素別アフィン層を付加した平均的フェデレーションに基づく。 これにより、フェデレーション内の異常データセットの検出と、元のデータを共有せずにローカルデータ分散シフトの補償を学習することができる。 我々は、2014年から2016年の西アフリカエボラの流行による、いくつかの公開ベンチマークと未熟な実世界のデータセットの収集を用いてifedavgを評価し、世界最大規模のデータセットを共同形成する。 すべての評価において、iFedAvgは無視できるオーバーヘッドで競合平均性能を達成する。 さらに、個々のデータセットシフトに対するロバスト性の向上も強調されている。 最も重要なのは,相互運用可能なフェデレーション学習のガイドとして,詳細な粒度のクライアント固有の洞察を提供する方法である。

Recently, the ever-growing demand for privacy-oriented machine learning has motivated researchers to develop federated and decentralized learning techniques, allowing individual clients to train models collaboratively without disclosing their private datasets. However, widespread adoption has been limited in domains relying on high levels of user trust, where assessment of data compatibility is essential. In this work, we define and address low interoperability induced by underlying client data inconsistencies in federated learning for tabular data. The proposed method, iFedAvg, builds on federated averaging adding local element-wise affine layers to allow for a personalized and granular understanding of the collaborative learning process. Thus, enabling the detection of outlier datasets in the federation and also learning the compensation for local data distribution shifts without sharing any original data. We evaluate iFedAvg using several public benchmarks and a previously unstudied collection of real-world datasets from the 2014 - 2016 West African Ebola epidemic, jointly forming the largest such dataset in the world. In all evaluations, iFedAvg achieves competitive average performance with negligible overhead. It additionally shows substantial improvement on outlier clients, highlighting increased robustness to individual dataset shifts. Most importantly, our method provides valuable client-specific insights at a fine-grained level to guide interoperable federated learning.
翻訳日:2021-07-15 14:08:15 公開日:2021-07-14
# RCLC:ROIに基づく従来型・学習型ビデオ圧縮

RCLC: ROI-based joint conventional and learning video compression ( http://arxiv.org/abs/2107.06492v1 )

ライセンス: Link先を確認
Trinh Man Hoang, Jinjia Zhou(参考訳) 新型コロナウイルス(covid-19)は、リモート対話システムに対する高い需要につながる。 これらのシステムの鍵となる要素の1つはビデオストリーミングであり、特に高解像度ビデオの場合、特定のリアルタイム要求のために非常に高い帯域幅を必要とする。 既存のビデオ圧縮手法は,映像品質と速度要件のトレードオフに苦慮している。 遠隔ミーティングでは背景情報がほとんど変化しない状況に対処し,最先端学習と従来技術を活用した地域間対話(roi)ベースのビデオ圧縮フレームワーク(rclc)を導入する。 RCLCでは、各フレームはバックグラウンド更新(BU)またはROI更新(RU)フレームとしてマークされる。 従来のビデオコーデックを適用して、BUフレームを低品質・高圧縮で圧縮し、RUフレームからのROIを高画質・低圧縮で圧縮する。 学習に基づく手法は、ROIを検出し、バックグラウンドROIをブレンドし、ビデオ品質を向上させる。 実験の結果, RCLC は H.265 ビデオコーデックと比較して 1080p の圧縮時間で ROI 領域で 32.55 % の BD レートを低減できることがわかった。

COVID-19 leads to the high demand for remote interactive systems ever seen. One of the key elements of these systems is video streaming, which requires a very high network bandwidth due to its specific real-time demand, especially with high-resolution video. Existing video compression methods are struggling in the trade-off between video quality and the speed requirement. Addressed that the background information rarely changes in most remote meeting cases, we introduce a Region-Of-Interests (ROI) based video compression framework (named RCLC) that leverages the cutting-edge learning-based and conventional technologies. In RCLC, each coming frame is marked as a background-updating (BU) or ROI-updating (RU) frame. By applying the conventional video codec, the BU frame is compressed with low-quality and high-compression, while the ROI from RU-frame is compressed with high-quality and low-compression. The learning-based methods are applied to detect the ROI, blend background-ROI, and enhance video quality. The experimental results show that our RCLC can reduce up to 32.55\% BD-rate for the ROI region compared to H.265 video codec under a similar compression time with 1080p resolution.
翻訳日:2021-07-15 14:07:50 公開日:2021-07-14
# シンクホーン単語移動距離の新しい並列アルゴリズムとそのPiumAおよびXeon CPU上での性能

A New Parallel Algorithm for Sinkhorn Word-Movers Distance and Its Performance on PIUMA and Xeon CPU ( http://arxiv.org/abs/2107.06433v1 )

ライセンス: Link先を確認
Jesmin Jahan Tithi and Fabrizio Petrini(参考訳) Word Movers Distance (WMD)は、ソース/クエリ文書の全ての単語をターゲット文書の最も類似した単語に最適に移動させるコストを計算することによって、2つの文書間の意味的相違を測定する。 2つのドキュメント間のwmdの計算にはコストがかかる。それは、ドキュメント内のユニークな単語の数が$v$である場合、$o (v^3 \log(v)) $の最適化問題を解決する必要があるからだ。 幸いなことに、wmd はアルゴリズムの複雑さを最適化問題にエントロピーペナルティを追加し、spinhorn-knoppアルゴリズムを用いて解くことで $o(v^2)$ に還元できる earth mover's distance (emd) として構成することができる。 さらに、ひとつのクエリドキュメントのWMDを複数のターゲットドキュメントに対して一度に計算することで、例えば、あるツイートがある日の他のつぶやきと似ているかどうかを調べることで、計算を非常に並列にすることができる。 本稿では、まず共有メモリ並列Sinkhorn-Knoppアルゴリズムを提案し、$O(V^2)$ EMDアルゴリズムを用いて、1つの文書のWMDを他の多くの文書に対して計算する。 次に,元の$O(V^2)$高密度計算重度バージョンを,新しいIntel Programmable Integrated Unified Memory Architecture (PiumA)システムにマッピングした等価スパース版に変換する。 WMD並列実装は、Intel Cascade Lakeシステムの4つのNUMAソケットにまたがる96コアでの67倍の高速化を実現している。 また、PiumAコアはシンクホーンWMDのXeonコアよりも1.2-2.6倍高速であり、より強力なスケーリングを提供することを示した。

The Word Movers Distance (WMD) measures the semantic dissimilarity between two text documents by computing the cost of optimally moving all words of a source/query document to the most similar words of a target document. Computing WMD between two documents is costly because it requires solving an optimization problem that costs $O (V^3 \log(V)) $ where $V$ is the number of unique words in the document. Fortunately, WMD can be framed as an Earth Mover's Distance (EMD) for which the algorithmic complexity can be reduced to $O(V^2)$ by adding an entropy penalty to the optimization problem and solving it using the Sinkhorn-Knopp algorithm. Additionally, the computation can be made highly parallel by computing the WMD of a single query document against multiple target documents at once, for example by finding whether a given tweet is similar to any other tweets of a given day. In this paper, we first present a shared-memory parallel Sinkhorn-Knopp algorithm to compute the WMD of one document against many other documents by adopting the $ O(V^2)$ EMD algorithm. We then algorithmically transform the original $O(V^2)$ dense compute-heavy version into an equivalent sparse one which is mapped onto the new Intel Programmable Integrated Unified Memory Architecture (PIUMA) system. The WMD parallel implementation achieves 67x speedup on 96 cores across 4 NUMA sockets of an Intel Cascade Lake system. We also show that PIUMA cores are around 1.2-2.6x faster than Xeon cores on Sinkhorn-WMD and also provide better strong scaling.
翻訳日:2021-07-15 14:07:32 公開日:2021-07-14
# 不均衡データを含むiotヘテロジニアスシステムのための通信効率の高い階層型連合学習

Communication-Effici ent Hierarchical Federated Learning for IoT Heterogeneous Systems with Imbalanced Data ( http://arxiv.org/abs/2107.06548v1 )

ライセンス: Link先を確認
Alaa Awad Abdellatif, Naram Mhaisen, Amr Mohamed, Aiman Erbad, Mohsen Guizani, Zaher Dawy, Wassim Nasreddine(参考訳) フェデレーション学習(federated learning, fl)は、複数のノードがローカルデータを共有することなく、ディープラーニングモデルを協調的にトレーニングできる分散学習方法論である。 これは、厳格なプライバシー制約を維持しながら、異なる場所からの将来のイベントの検出、分類、予測のために集中的なデータ収集を要求する遠隔監視システムにとって有望なソリューションである。 プライバシー上の懸念と重要な通信ボトルネックのため、FL更新モデルを集中サーバに送信するのは現実的ではない。 本稿では,iotヘテロジニアスシステムにおける階層型flの可能性について検討し,複数のエッジノードにおけるユーザ割り当てとリソース割り当ての最適化ソリューションを提案する。 特に本研究は,不均一分散データのユーザ間の実用的制約を考慮しつつ,勾配拡散型スキームを用いてトレーニングされる機械学習モデルの汎用クラスに着目したものである。 2つの実世界のデータセットを用いて提案システムの評価を行い、現状のFLソリューションよりも優れていることを示す。 特に,提案手法の有効性と分類精度を4~6%向上させる能力について,距離に基づくユーザ割り当てを考慮した階層的FLスキームについて検討した。 さらに,提案手法は,同一モデル精度で,エッジノードと集中サーバ間の通信ラウンドを75~85%削減することで,FLトレーニングの大幅な高速化と通信オーバーヘッドの低減を可能にする。

Federated learning (FL) is a distributed learning methodology that allows multiple nodes to cooperatively train a deep learning model, without the need to share their local data. It is a promising solution for telemonitoring systems that demand intensive data collection, for detection, classification, and prediction of future events, from different locations while maintaining a strict privacy constraint. Due to privacy concerns and critical communication bottlenecks, it can become impractical to send the FL updated models to a centralized server. Thus, this paper studies the potential of hierarchical FL in IoT heterogeneous systems and propose an optimized solution for user assignment and resource allocation on multiple edge nodes. In particular, this work focuses on a generic class of machine learning models that are trained using gradient-descent-bas ed schemes while considering the practical constraints of non-uniformly distributed data across different users. We evaluate the proposed system using two real-world datasets, and we show that it outperforms state-of-the-art FL solutions. In particular, our numerical results highlight the effectiveness of our approach and its ability to provide 4-6% increase in the classification accuracy, with respect to hierarchical FL schemes that consider distance-based user assignment. Furthermore, the proposed approach could significantly accelerate FL training and reduce communication overhead by providing 75-85% reduction in the communication rounds between edge nodes and the centralized server, for the same model accuracy.
翻訳日:2021-07-15 14:06:59 公開日:2021-07-14
# higgs boson分類:streambrainを用いた脳インスパイアbcpnn学習

Higgs Boson Classification: Brain-inspired BCPNN Learning with StreamBrain ( http://arxiv.org/abs/2107.06676v1 )

ライセンス: Link先を確認
Martin Svedin, Artur Podobas, Steven W. D. Chien, Stefano Markidis(参考訳) データ分析と大規模なデータセット探索の最も有望なアプローチの1つは、脳モデルにインスパイアされた機械学習技術である。 このような方法は、既存の学習規則よりも効率的な代替学習規則を使用する。 本稿では,高パフォーマンスコンピューティング(hpc)資源を活用してml問題を解決するための,脳にインスパイアされたmlの可能性に注目し,bcpnnと,その計算コスト,hpcシステムに適合するhpc実装について論じる。 例えば、ストリームブレインを使って高エネルギー物理学からヒッグス粒子データセットを分析し、高エネルギー粒子衝突器の衝突における背景と信号のクラスを区別する。 全体的な精度は69.15%、AUC(Area Under the Curve)のパフォーマンスは76.4%に達する。

One of the most promising approaches for data analysis and exploration of large data sets is Machine Learning techniques that are inspired by brain models. Such methods use alternative learning rules potentially more efficiently than established learning rules. In this work, we focus on the potential of brain-inspired ML for exploiting High-Performance Computing (HPC) resources to solve ML problems: we discuss the BCPNN and an HPC implementation, called StreamBrain, its computational cost, suitability to HPC systems. As an example, we use StreamBrain to analyze the Higgs Boson dataset from High Energy Physics and discriminate between background and signal classes in collisions of high-energy particle colliders. Overall, we reach up to 69.15% accuracy and 76.4% Area Under the Curve (AUC) performance.
翻訳日:2021-07-15 14:06:35 公開日:2021-07-14
# 不確実性下におけるランキングの公平性

Fairness in Ranking under Uncertainty ( http://arxiv.org/abs/2107.06720v1 )

ライセンス: Link先を確認
Ashudeep Singh, David Kempe, Thorsten Joachims(参考訳) 公平性はアルゴリズムによる意思決定において重要な考慮事項となっている。 不公平は、より有益なエージェントが、より有益なエージェントよりも悪い結果を得るときに起こる。 私たちの中心となる点は、不公平の主な原因は不確実性であるということです。 決定を下すプリンシパルまたはアルゴリズムは、エージェントの真の価値にアクセスできず、代わりに、不完全なメリットを予測できるプロキシ機能(例えば、GPA、星の評価、レコメンデーションレター)を使用する。 いずれもエージェントのメリットを完全に把握するものではないが、既存のアプローチでは、観察された特徴と結果に基づいて、フェアネスの概念を直接定義している。 第一のポイントは、不確実性を明示的に認識し、モデル化することがより原則であることです。 観察された特徴の役割は、エージェントのメリットの後方分布を引き起こすことである。 この視点を用いてランキングにおける近似公平性の概念を定義する。 アルゴリズムを$\phi$-fair (for $\phi \in [0,1]$) と呼ぶ: エージェント$x$ と all $k$ に対して以下の性質を持つ: エージェント$x$ が確率が少なくとも$\rho$ (後述のメリット分布による) のメリットに関する上位$k$ エージェントであるなら、アルゴリズムはそのエージェントを少なくとも$\phi \rho$ のランクの上位$k$ エージェントに配置する。 そこで本研究では,実用性に対して最適に公平さをトレードオフするランキングの計算法を示す。 理論的な特徴付けに加えて,シミュレーション研究におけるアプローチの潜在的影響を実証的に分析する。 実世界の検証のために、我々は大規模な会議で構築し、焦点を当てた論文レコメンデーションシステムという文脈でアプローチを適用しました。

Fairness has emerged as an important consideration in algorithmic decision-making. Unfairness occurs when an agent with higher merit obtains a worse outcome than an agent with lower merit. Our central point is that a primary cause of unfairness is uncertainty. A principal or algorithm making decisions never has access to the agents' true merit, and instead uses proxy features that only imperfectly predict merit (e.g., GPA, star ratings, recommendation letters). None of these ever fully capture an agent's merit; yet existing approaches have mostly been defining fairness notions directly based on observed features and outcomes. Our primary point is that it is more principled to acknowledge and model the uncertainty explicitly. The role of observed features is to give rise to a posterior distribution of the agents' merits. We use this viewpoint to define a notion of approximate fairness in ranking. We call an algorithm $\phi$-fair (for $\phi \in [0,1]$) if it has the following property for all agents $x$ and all $k$: if agent $x$ is among the top $k$ agents with respect to merit with probability at least $\rho$ (according to the posterior merit distribution), then the algorithm places the agent among the top $k$ agents in its ranking with probability at least $\phi \rho$. We show how to compute rankings that optimally trade off approximate fairness against utility to the principal. In addition to the theoretical characterization, we present an empirical analysis of the potential impact of the approach in simulation studies. For real-world validation, we applied the approach in the context of a paper recommendation system that we built and fielded at a large conference.
翻訳日:2021-07-15 14:06:23 公開日:2021-07-14
# 半監督型音声認識のためのフェデレーション自己学習

Federated Self-Training for Semi-Supervised Audio Recognition ( http://arxiv.org/abs/2107.06877v1 )

ライセンス: Link先を確認
Vasileios Tsouvalas, Aaqib Saeed, Tanir Ozcelebi(参考訳) Federated Learningは分散機械学習のパラダイムであり、分散化された個人データセットを扱う。 データはスマートフォンや仮想アシスタントなどのデバイス上に存在するため、クライアントにラベル付けを委託するか、ラベルを自動抽出する。 具体的には、オーディオデータの場合、意味的アノテーションの取得は、非常に高価で時間がかかります。 結果として、大量のオーディオデータがユーザのデバイスにラベルがなく、未公開のままである。 既存の連合学習のアプローチのほとんどは、ラベルのないデータを使わずに教師あり学習にフォーカスしている。 本研究では,フェデレーション学習と連動して,自己学習による音声モデルの半教師付き学習の問題について検討する。 そこで本研究では,feedstarの大規模オンデバイス非ラベルデータを活用した音声認識モデルの一般化を提案する。 さらに,自己教師付き事前学習モデルがオンデバイスモデルのトレーニングを加速し,少ないトレーニングラウンドでの収束性を大幅に改善できることを実証する。 各種公開音声分類データセットの実験を行い、ラベル付きおよびラベルなしデータの異なるパーセンテージでモデルの性能について検討する。 特に,ラベル付きデータの利用頻度が3%未満のFedSTARは,完全に管理されたフェデレーションモデルと比較して,認識率を13.28%向上させることができる。

Federated Learning is a distributed machine learning paradigm dealing with decentralized and personal datasets. Since data reside on devices like smartphones and virtual assistants, labeling is entrusted to the clients, or labels are extracted in an automated way. Specifically, in the case of audio data, acquiring semantic annotations can be prohibitively expensive and time-consuming. As a result, an abundance of audio data remains unlabeled and unexploited on users' devices. Most existing federated learning approaches focus on supervised learning without harnessing the unlabeled data. In this work, we study the problem of semi-supervised learning of audio models via self-training in conjunction with federated learning. We propose FedSTAR to exploit large-scale on-device unlabeled data to improve the generalization of audio recognition models. We further demonstrate that self-supervised pre-trained models can accelerate the training of on-device models, significantly improving convergence to within fewer training rounds. We conduct experiments on diverse public audio classification datasets and investigate the performance of our models under varying percentages of labeled and unlabeled data. Notably, we show that with as little as 3% labeled data available, FedSTAR on average can improve the recognition rate by 13.28% compared to the fully supervised federated model.
翻訳日:2021-07-15 14:05:51 公開日:2021-07-14
# correlationd stochastic block model:正確なグラフマッチングとコミュニティ回復への応用

Correlated Stochastic Block Models: Exact Graph Matching with Applications to Recovering Communities ( http://arxiv.org/abs/2107.06767v1 )

ライセンス: Link先を確認
Miklos Z. Racz, Anirudh Sridhar(参考訳) 複数の相関ネットワークから潜在コミュニティ構造を学習する作業を検討する。 まず, 2つのエッジ相関確率ブロックモデル間の潜在頂点対応を学習する問題を, 平均次数が頂点数で対数であるような状態に着目して検討する。 我々は、正確な回復のための正確な情報理論上の閾値を導出する:しきい値の上には、確率と1に近い確率との真の対応を出力する推定子が存在するが、その下には、0から離れた確率と真の対応を回復できない。 この結果の応用として,単一のグラフだけでは情報理論上不可能であるパラメータレジームにおいて,複数の相関グラフを用いて潜在コミュニティを正確に回復できることを示す。

We consider the task of learning latent community structure from multiple correlated networks. First, we study the problem of learning the latent vertex correspondence between two edge-correlated stochastic block models, focusing on the regime where the average degree is logarithmic in the number of vertices. We derive the precise information-theoreti c threshold for exact recovery: above the threshold there exists an estimator that outputs the true correspondence with probability close to 1, while below it no estimator can recover the true correspondence with probability bounded away from 0. As an application of our results, we show how one can exactly recover the latent communities using multiple correlated graphs in parameter regimes where it is information-theoreti cally impossible to do so using just a single graph.
翻訳日:2021-07-15 14:05:34 公開日:2021-07-14
# (参考訳) 他者から学ぶ - 限定スーパービジョンによる一般化ゼロショット学習の再考 [全文訳有]

Learn from Anywhere: Rethinking Generalized Zero-Shot Learning with Limited Supervision ( http://arxiv.org/abs/2107.04952v2 )

ライセンス: CC BY 4.0
Gaurav Bhatt, Shivam Chandhok and Vineeth N Balasubramanian(参考訳) ほとんどゼロと少数ショットの学習アプローチの一般的な問題は、クラスに対する偏見に悩まされ、サブ最適性能をもたらすことである。 既存の取り組みは、訓練中に目に見えないクラス(すなわち、トランスダクティブゼロショット)からラベルなしの画像を活用することを目的としている。 しかし、対象とするunseenクラスのデータが使用できない、あるいは収集できない、実用的なシナリオでは使用が制限される。 そこで,本研究では,見知らぬカテゴリに属さない他のデータクラスからのラベルなしイメージを,任意の学習における一般化向上に活用する,帰納的ゼロ・少数ショット学習の実践的設定を提案する。 我々は、製品・オブ・エキスパートズに基づく定式化を活用し、通常は利用可能であり、事実上アノテーションコストを伴わないデータ・クラスのラベルなしサンプルを使用できる新しいaudモジュールを導入する。 さらに,本モデルの実用的かつ難解な汎用的なゼロショットを限定的な監督設定で解決する可能性も示し,基本視クラスでさえ十分な注釈付きサンプルを持っていないことを示した。

A common problem with most zero and few-shot learning approaches is they suffer from bias towards seen classes resulting in sub-optimal performance. Existing efforts aim to utilize unlabeled images from unseen classes (i.e transductive zero-shot) during training to enable generalization. However, this limits their use in practical scenarios where data from target unseen classes is unavailable or infeasible to collect. In this work, we present a practical setting of inductive zero and few-shot learning, where unlabeled images from other out-of-data classes, that do not belong to seen or unseen categories, can be used to improve generalization in any-shot learning. We leverage a formulation based on product-of-experts and introduce a new AUD module that enables us to use unlabeled samples from out-of-data classes which are usually easily available and practically entail no annotation cost. In addition, we also demonstrate the applicability of our model to address a more practical and challenging, Generalized Zero-shot under a limited supervision setting, where even base seen classes do not have sufficient annotated samples.
翻訳日:2021-07-15 12:04:29 公開日:2021-07-14
# (参考訳) Deep Collaborative Filtering-based Method for Image Denoisingの詳細 [全文訳有]

Details Preserving Deep Collaborative Filtering-Based Method for Image Denoising ( http://arxiv.org/abs/2107.05115v2 )

ライセンス: CC BY 4.0
Basit O. Alawode, Mudassir Masood, Tarig Ballal, and Tareq Al-Naffouri(参考訳) 何年もの間、複数のデノイジングアルゴリズムによって達成された改善にもかかわらず、その多くはデノイジング後の画像の細部を保存できていない。 これは、画像に対する滑らかな効果の結果である。 ほとんどのニューラルネットワークベースのアルゴリズムは、古典的な推論アルゴリズムよりも優れた量的性能を達成している。 しかし、スムーズなアウト効果の結果、質的な(視覚的な)パフォーマンスに悩まされる。 本稿では,この問題に対処するアルゴリズムを提案する。 本稿では,画像デノイジングのための深い協調フィルタリング(deep-cofib)アルゴリズムを提案する。 このアルゴリズムは、最適化されたニューラルネットワークモデルのセットを使用してスパース領域における画像パッチの協調分解を行う。 これにより、ノイズ除去と詳細保存のトレードオフを良好に得ることができる高速アルゴリズムが得られる。 大規模な実験により、DeepCoFiBは(PSNRとSSIMの観点から)定量的に、そして(視覚的に)多くの最先端の復調アルゴリズムより質的に(定量的に)優れていることが示された。

In spite of the improvements achieved by the several denoising algorithms over the years, many of them still fail at preserving the fine details of the image after denoising. This is as a result of the smooth-out effect they have on the images. Most neural network-based algorithms have achieved better quantitative performance than the classical denoising algorithms. However, they also suffer from qualitative (visual) performance as a result of the smooth-out effect. In this paper, we propose an algorithm to address this shortcoming. We propose a deep collaborative filtering-based (Deep-CoFiB) algorithm for image denoising. This algorithm performs collaborative denoising of image patches in the sparse domain using a set of optimized neural network models. This results in a fast algorithm that is able to excellently obtain a trade-off between noise removal and details preservation. Extensive experiments show that the DeepCoFiB performed quantitatively (in terms of PSNR and SSIM) and qualitatively (visually) better than many of the state-of-the-art denoising algorithms.
翻訳日:2021-07-15 11:44:45 公開日:2021-07-14
# (参考訳) Covid-19肺病変セグメンテーションにおける未訓練nnU-Netモデル異常の検出 [全文訳有]

Detecting when pre-trained nnU-Net models fail silently for Covid-19 lung lesion segmentation ( http://arxiv.org/abs/2107.05975v2 )

ライセンス: CC BY 4.0
Camila Gonzalez, Karol Gotkowski, Andreas Bucher, Ricarda Fischbach, Isabel Kaltenborn, Anirban Mukhopadhyay(参考訳) コンピュータ断層撮影における肺病変の自動分離は、コビッドウイルスパンデミックにおける臨床医の負担を軽減する可能性がある。 しかし、予測されたディープラーニングモデルは、ood(out-of-distribut ion)データで静かに失敗するため、臨床ルーチンでは信頼できない。 本稿では,特徴空間におけるマハラノビス距離を利用した軽量OOD検出手法を提案する。 提案されたアプローチは,モデルアーキテクチャやトレーニング手順の変更を必要とせずに,最先端のセグメンテーションパイプラインにシームレスに統合することができる。 提案手法を,マルチインスティカルデータセットを用いて訓練したパッチベースのnnU-Netアーキテクチャを用いて検証し,モデルセグメントが正しくないサンプルを効果的に検出することを確認した。

Automatic segmentation of lung lesions in computer tomography has the potential to ease the burden of clinicians during the Covid-19 pandemic. Yet predictive deep learning models are not trusted in the clinical routine due to failing silently in out-of-distribution (OOD) data. We propose a lightweight OOD detection method that exploits the Mahalanobis distance in the feature space. The proposed approach can be seamlessly integrated into state-of-the-art segmentation pipelines without requiring changes in model architecture or training procedure, and can therefore be used to assess the suitability of pre-trained models to new data. We validate our method with a patch-based nnU-Net architecture trained with a multi-institutional dataset and find that it effectively detects samples that the model segments incorrectly.
翻訳日:2021-07-15 11:32:51 公開日:2021-07-14
# (参考訳) 予算制限下での適応型インセンティブアロケーションのための未知のソーシャルネットワークにおけるインフルエンシアルユーザ同定

Identifying Influential Users in Unknown Social Networks for Adaptive Incentive Allocation Under Budget Restriction ( http://arxiv.org/abs/2107.05992v2 )

ライセンス: CC BY 4.0
Shiqing Wu, Weihua Li, Hao Shen, Quan Bai(参考訳) 近年、多くの分野においてレコメンデーションシステムが広く採用されている。 これらのシステムは、ユーザがシステムが期待する振る舞いを選択することに影響を及ぼす。 一方、インセンティブの提供はユーザーの行動に影響を与えるためのより積極的な方法であることが証明されている。 予算の制限により、インセンティブを得られるユーザ数は制限される。 ここでは,ユーザ間で存在する社会的影響を活用し,インセンティブの効果を高めることを目的とする。 影響力のあるユーザーに直接インセンティブを与えることで、ソーシャルネットワークのフォロワーは間接的にインセンティブを受ける可能性がある。 しかし、多くの現実世界のシナリオでは、ネットワークのトポロジー構造は通常不明であり、影響力のあるユーザーを特定することは困難である。 上記の課題に取り組むため,本稿では,ネットワークのトポロジを知らずに,過去の行動に基づいてユーザ間の影響力関係を推定できる未知ネットワークにおける影響力のあるユーザを探索する新しいアルゴリズムを提案する。 一方,我々は,ユーザの嗜好と影響度に基づいてインセンティブ値を決定する適応的インセンティブ割当手法を考案する。 提案手法の有効性を,合成データセットと実世界のデータセットの両方で実験することで評価する。 実験の結果,提案手法の有効性が示された。

In recent years, recommendation systems have been widely applied in many domains. These systems are impotent in affecting users to choose the behavior that the system expects. Meanwhile, providing incentives has been proven to be a more proactive way to affect users' behaviors. Due to the budget limitation, the number of users who can be incentivized is restricted. In this light, we intend to utilize social influence existing among users to enhance the effect of incentivization. Through incentivizing influential users directly, their followers in the social network are possibly incentivized indirectly. However, in many real-world scenarios, the topological structure of the network is usually unknown, which makes identifying influential users difficult. To tackle the aforementioned challenges, in this paper, we propose a novel algorithm for exploring influential users in unknown networks, which can estimate the influential relationships among users based on their historical behaviors and without knowing the topology of the network. Meanwhile, we design an adaptive incentive allocation approach that determines incentive values based on users' preferences and their influence ability. We evaluate the performance of the proposed approaches by conducting experiments on both synthetic and real-world datasets. The experimental results demonstrate the effectiveness of the proposed approaches.
翻訳日:2021-07-15 11:22:57 公開日:2021-07-14
# HAT: 人物再識別のための階層的集約変換器

HAT: Hierarchical Aggregation Transformers for Person Re-identification ( http://arxiv.org/abs/2107.05946v2 )

ライセンス: Link先を確認
Guowen Zhang and Pingping Zhang and Jinqing Qi and Huchuan Lu(参考訳) 近年、深層畳み込みニューラルネットワーク(CNN)の進歩により、人物認識(Re-ID)は様々なアプリケーションで大きな成功を収めている。 しかしながら、cnnの受容領域が限られているにもかかわらず、非オーバーラップカメラ下の人々のグローバルビューで差別表現を抽出することは依然として困難である。 一方、トランスフォーマーは、空間的およびシーケンシャルなデータに対する長距離依存をモデル化する強力な能力を示す。 本研究では,CNNとトランスフォーマーの双方の利点を生かし,ハイパフォーマンスな人物Re-IDのための階層型アグリゲーショントランスフォーマ(HAT)という新しい学習フレームワークを提案する。 この目的を達成するために,我々はまず,CNNバックボーンから階層的特徴を逐次集約するDeeply Supervised Aggregation (DSA)を提案する。 マルチグラニュラリティの監視により、DSAは従来の方法とは大きく異なる、人物検索のためのマルチスケール機能を強化することができる。 次に,高レベル意味情報のグローバルプリエントとして低レベル詳細情報を統合するトランスフォーマティブ型特徴量校正(tfc)を提案する。 提案したTFCは階層的な各レベルに挿入され,性能が向上した。 我々の知る限り、この研究は、画像ベースのRe-IDに対して、CNNとTransformerの両方の利点を利用する最初のものである。 4つの大規模Re-IDベンチマークの総合的な実験により,本手法はいくつかの最先端手法よりも優れた結果を示した。 コードはhttps://github.com/A I-Zhpp/HATで公開されている。

Recently, with the advance of deep Convolutional Neural Networks (CNNs), person Re-Identification (Re-ID) has witnessed great success in various applications. However, with limited receptive fields of CNNs, it is still challenging to extract discriminative representations in a global view for persons under non-overlapped cameras. Meanwhile, Transformers demonstrate strong abilities of modeling long-range dependencies for spatial and sequential data. In this work, we take advantages of both CNNs and Transformers, and propose a novel learning framework named Hierarchical Aggregation Transformer (HAT) for image-based person Re-ID with high performance. To achieve this goal, we first propose a Deeply Supervised Aggregation (DSA) to recurrently aggregate hierarchical features from CNN backbones. With multi-granularity supervisions, the DSA can enhance multi-scale features for person retrieval, which is very different from previous methods. Then, we introduce a Transformer-based Feature Calibration (TFC) to integrate low-level detail information as the global prior for high-level semantic information. The proposed TFC is inserted to each level of hierarchical features, resulting in great performance improvements. To our best knowledge, this work is the first to take advantages of both CNNs and Transformers for image-based person Re-ID. Comprehensive experiments on four large-scale Re-ID benchmarks demonstrate that our method shows better results than several state-of-the-art methods. The code is released at https://github.com/A I-Zhpp/HAT.
翻訳日:2021-07-15 11:19:29 公開日:2021-07-14
# 拡張行動モデルによる多動物軌跡からのインタラクションルールの学習

Learning interaction rules from multi-animal trajectories via augmented behavioral models ( http://arxiv.org/abs/2107.05326v2 )

ライセンス: Link先を確認
Keisuke Fujii, Naoya Takeishi, Kazushi Tsutsui, Emyo Fujioka, Nozomi Nishiumi, Ryoya Tanaka, Mika Fukushiro, Kaoru Ide, Hiroyoshi Kohno, Ken Yoda, Susumu Takahashi, Shizuko Hiryu, Yoshinobu Kawahara(参考訳) 移動配列から生物学的エージェントの相互作用規則を抽出することは、様々な領域における課題を引き起こす。 顆粒因果関係は観察された時系列データから相互作用を分析するための実践的な枠組みであるが、この枠組みは動物の行動における生成過程の構造を無視し、解釈上の問題を引き起こす可能性がある。 本稿では,解釈可能なデータ駆動モデルを用いた拡張理論に基づく行動モデルを用いて,多対象軌道からグラガー因果関係を学習するための新しいフレームワークを提案する。 我々は,ニューラルネットワークを用いた時間変化動的システムによって記述された不完全なマルチエージェント行動モデルを強化するアプローチを採用する。 効率的かつ解釈可能な学習には,ナビゲーションと動作プロセスを分離した理論に基づくアーキテクチャと,信頼性のある行動モデリングのための理論誘導型正規化を利用する。 これは、ある特定の者が接近または分離を引き起こすとき、時間の経過とともにグランジャー・コーサル効果の解釈可能な兆候を与えることができる。 合成データセットを用いた実験では, 各種ベースラインよりも優れた性能を示した。 次に,マウス,ハエ,鳥,コウモリの多動物データセットを分析し,その方法を確認し,新たな生物学的知見を得た。

Extracting the interaction rules of biological agents from moving sequences pose challenges in various domains. Granger causality is a practical framework for analyzing the interactions from observed time-series data; however, this framework ignores the structures of the generative process in animal behaviors, which may lead to interpretational problems and sometimes erroneous assessments of causality. In this paper, we propose a new framework for learning Granger causality from multi-animal trajectories via augmented theory-based behavioral models with interpretable data-driven models. We adopt an approach for augmenting incomplete multi-agent behavioral models described by time-varying dynamical systems with neural networks. For efficient and interpretable learning, our model leverages theory-based architectures separating navigation and motion processes, and the theory-guided regularization for reliable behavioral modeling. This can provide interpretable signs of Granger-causal effects over time, i.e., when specific others cause the approach or separation. In experiments using synthetic datasets, our method achieved better performance than various baselines. We then analyzed multi-animal datasets of mice, flies, birds, and bats, which verified our method and obtained novel biological insights.
翻訳日:2021-07-15 11:19:01 公開日:2021-07-14
# ディープラーニングに基づく4Kビデオのリアルタイム超解像システム

Real-Time Super-Resolution System of 4K-Video Based on Deep Learning ( http://arxiv.org/abs/2107.05307v2 )

ライセンス: Link先を確認
Yanpeng Cao, Chengcheng Wang, Changjun Song, Yongming Tang, He Li(参考訳) ビデオ超解像(VSR)技術は、補間に基づくアルゴリズムによって生じる不快なブラー効果を回避し、低品質のビデオの再構成に優れる。 しかし、計算の複雑さとメモリ占有は、特に大規模なVSRタスクにおいて、現実のアプリケーションにおける遅延性と実行時の推論の端を脅かす。 本稿では、リアルタイムVSRシステムの可能性について検討し、EGVSRと呼ばれる効率的で汎用的なVSRネットワークを設計する。 The proposed EGVSR is based on spatio-temporal adversarial learning for temporal coherence。 本稿では,最大4k解像度のvsr処理を高速化するために,軽量ネットワーク構造と効率的なアップサンプリング手法を選択し,高画質でegvsrネットワークに必要な計算量を削減することを試みる。 さらに,実ハードウェアプラットフォーム上でのバッチ正規化計算融合,畳み込み高速化アルゴリズム,その他のニューラルネットワーク高速化手法を実装し,EGVSRネットワークの推論プロセスを最適化する。 最後に、EGVSRは4K@29.61FPSのリアルタイム処理能力を達成する。 現在最も進んだVSRネットワークであるTecoGANと比較して、計算密度の85.04%削減と7.92倍の性能向上を実現している。 視覚的品質の面では、提案されたEGVSRがほとんどの指標(LPIPS、tOF、tLPなど)の上位である。 パブリックテストデータセットのVid4で、パフォーマンススコアで他の最先端メソッドを上回る。 プロジェクトのソースコードはhttps://github.com/T hmen/EGVSRで確認できる。

Video super-resolution (VSR) technology excels in reconstructing low-quality video, avoiding unpleasant blur effect caused by interpolation-based algorithms. However, vast computation complexity and memory occupation hampers the edge of deplorability and the runtime inference in real-life applications, especially for large-scale VSR task. This paper explores the possibility of real-time VSR system and designs an efficient and generic VSR network, termed EGVSR. The proposed EGVSR is based on spatio-temporal adversarial learning for temporal coherence. In order to pursue faster VSR processing ability up to 4K resolution, this paper tries to choose lightweight network structure and efficient upsampling method to reduce the computation required by EGVSR network under the guarantee of high visual quality. Besides, we implement the batch normalization computation fusion, convolutional acceleration algorithm and other neural network acceleration techniques on the actual hardware platform to optimize the inference process of EGVSR network. Finally, our EGVSR achieves the real-time processing capacity of 4K@29.61FPS. Compared with TecoGAN, the most advanced VSR network at present, we achieve 85.04% reduction of computation density and 7.92x performance speedups. In terms of visual quality, the proposed EGVSR tops the list of most metrics (such as LPIPS, tOF, tLP, etc.) on the public test dataset Vid4 and surpasses other state-of-the-art methods in overall performance score. The source code of this project can be found on https://github.com/T hmen/EGVSR.
翻訳日:2021-07-15 11:18:43 公開日:2021-07-14
# Force-in-domain GAN インバージョン

Force-in-domain GAN inversion ( http://arxiv.org/abs/2107.06050v2 )

ライセンス: Link先を確認
Guangjie Leng, Yekun Zhu and Zhi-Qin John Xu(参考訳) 実証研究は、画像生成の訓練を受ける際に、GAN(Generative Adversarial Networks)の潜在領域に様々な意味が現れることを示唆している。 実際の画像編集を行うには、これらの学習されたセマンティクスを活用するために、実際の画像から潜在空間への正確なマッピングが必要である。 実画像空間内の反転符号から得られた再構成画像を強制することで、潜伏空間内の反転符号を制約するドメイン内GANインバージョン手法が最近提案されている。 経験的に、ドメイン内GANによる反転コードは、潜在空間から著しく逸脱することができる。 そこで,この問題を解決するために,判別器を用いて潜在空間内に可逆コードを強制する,ドメイン内ganに基づくパワーインドメインganを提案する。 ドメイン内のフォースガンは、少し修正したサイクルGANでも解釈できる。 広範にわたる実験により,我々の領域内GANは,対象画像を画素レベルで再構成するだけでなく,逆コードと潜在空間との整合性も示している。

Empirical works suggest that various semantics emerge in the latent space of Generative Adversarial Networks (GANs) when being trained to generate images. To perform real image editing, it requires an accurate mapping from the real image to the latent space to leveraging these learned semantics, which is important yet difficult. An in-domain GAN inversion approach is recently proposed to constraint the inverted code within the latent space by forcing the reconstructed image obtained from the inverted code within the real image space. Empirically, we find that the inverted code by the in-domain GAN can deviate from the latent space significantly. To solve this problem, we propose a force-in-domain GAN based on the in-domain GAN, which utilizes a discriminator to force the inverted code within the latent space. The force-in-domain GAN can also be interpreted by a cycle-GAN with slight modification. Extensive experiments show that our force-in-domain GAN not only reconstructs the target image at the pixel level, but also align the inverted code with the latent space well for semantic editing.
翻訳日:2021-07-15 11:18:20 公開日:2021-07-14
# 粗大な規則の下での格付け

Rating Facts under Coarse-to-fine Regimes ( http://arxiv.org/abs/2107.06051v2 )

ライセンス: Link先を確認
Guojun Wu(参考訳) フェイクニュースを政治兵器として操作することの台頭は世界的な懸念となり、急速に生成されたフェイクニュースに対して手動で事実チェックができないことを強調した。 したがって,この問題を効率的に解決するには統計的アプローチが必要である。 公開データセットの不足は、自動ファクトチェックの大きなボトルネックのひとつだ。 これに対処するために、我々はpolitifactから24kの手動で評価されたステートメントを収集した。 表1に示すように、クラス値は真理性に関して自然な順序を示す。 このように、我々のタスクはクラス間の様々な類似性のため、標準分類から逸脱している。 そこで我々は, 粗大な分類体制を定義し, 新たな分類課題を提示した。 そこで本研究では,BERTモデルを提案する。 トレーニング後、クラス類似性は、多クラスデータセット、特にきめ細かいデータセットに対して賢明である。 すべての体制の下で、BERTは芸術の状態を達成し、追加のレイヤは重要な改善を提供する。

The rise of manipulating fake news as a political weapon has become a global concern and highlighted the incapability of manually fact checking against rapidly produced fake news. Thus, statistical approaches are required if we are to address this problem efficiently. The shortage of publicly available datasets is one major bottleneck of automated fact checking. To remedy this, we collected 24K manually rated statements from PolitiFact. The class values exhibit a natural order with respect to truthfulness as shown in Table 1. Thus, our task represents a twist from standard classification, due to the various degrees of similarity between classes. To investigate this, we defined coarse-to-fine classification regimes, which presents new challenge for classification. To address this, we propose BERT-based models. After training, class similarity is sensible over the multi-class datasets, especially in the fine-grained one. Under all the regimes, BERT achieves state of the art, while the additional layers provide insignificant improvement.
翻訳日:2021-07-15 11:18:03 公開日:2021-07-14
# 知識グラフを用いたゼロショット視覚質問応答

Zero-shot Visual Question Answering using Knowledge Graph ( http://arxiv.org/abs/2107.05348v3 )

ライセンス: Link先を確認
Zhuo Chen, Jiaoyan Chen, Yuxia Geng, Jeff Z. Pan, Zonggang Yuan and Huajun Chen(参考訳) VQA(Visual Question Answering)に外部知識を組み込むことは、重要な実践的ニーズとなっている。 既存の手法では、知識マッチングや抽出、機能学習など、さまざまなコンポーネントを持つパイプラインアプローチが採用されているが、そのようなパイプラインアプローチは、一部のコンポーネントが正常に動作しない場合に悩まされ、エラーの伝播と全体的なパフォーマンスの低下につながる。 さらに、既存のアプローチの大部分は回答バイアスの問題を無視している -- 実単語アプリケーションでトレーニング中に、多くの回答が現れたことがないかもしれない(すなわち、見当たらない回答)。 本稿では,これらのギャップを埋めるために,知識グラフを用いたゼロショットvqaアルゴリズムと,外部知識の統合性を高めるマスクベース学習機構を提案し,f-vqaデータセットのための新しい回答ベースゼロショットvqa分割を提案する。 実験の結果,Zero-shot VQAでは,従来のF-VQAタスクのエンド・ツー・エンド・モデルを大幅に拡張すると同時に,非表示の回答で最先端の性能を実現することができた。

Incorporating external knowledge to Visual Question Answering (VQA) has become a vital practical need. Existing methods mostly adopt pipeline approaches with different components for knowledge matching and extraction, feature learning, etc.However, such pipeline approaches suffer when some component does not perform well, which leads to error propagation and poor overall performance. Furthermore, the majority of existing approaches ignore the answer bias issue -- many answers may have never appeared during training (i.e., unseen answers) in real-word application. To bridge these gaps, in this paper, we propose a Zero-shot VQA algorithm using knowledge graphs and a mask-based learning mechanism for better incorporating external knowledge, and present new answer-based Zero-shot VQA splits for the F-VQA dataset. Experiments show that our method can achieve state-of-the-art performance in Zero-shot VQA with unseen answers, meanwhile dramatically augment existing end-to-end models on the normal F-VQA task.
翻訳日:2021-07-15 11:17:50 公開日:2021-07-14
# MINERVAS: VirtuAl合成のための大規模インテリア環境

MINERVAS: Massive INterior EnviRonments VirtuAl Synthesis ( http://arxiv.org/abs/2107.06149v2 )

ライセンス: Link先を確認
Haocheng Ren and Hao Zhang and Jia Zheng and Jiaxiang Zheng and Rui Tang and Rui Wang and Hujun Bao(参考訳) データ駆動技術が急速に発展し、様々なコンピュータビジョンタスクにおいてデータが重要な役割を担ってきた。 様々な問題に対処するために、多くの現実的な合成データセットが提案されている。 しかし,(1)データセットの作成は通常,手作業による面倒なプロセスであり,(2)ほとんどのデータセットは1つの特定のタスクのためにのみ設計されており,(3)3Dシーンの変更やランダム化は困難であり,(4)商用3Dデータのリリースは著作権問題に直面する可能性がある。 本稿では,大規模室内環境仮想合成システムである minervas について,視覚課題に対する3次元シーンの修正と2次元画像合成を容易にすることを目的とする。 特に,ドメイン特化言語を用いたプログラム可能なパイプラインを設計し,(1)市販屋内シーンデータベースからシーンを選択すること,(2)カスタマイズされたルールで異なるタスクのシーンを合成すること,(3)視覚色,幾何学的構造,セマンティックラベルなどの様々な画像データを描画することなどが可能である。 本システムでは,タスクごとに多数のシーンをカスタマイズすることの難しさを軽減し,マルチレベルサンプリングシステムを用いてユーザ制御可能なランダム性を提供することにより,きめ細かいシーン構成の操作を省く。 最も重要なことは、ユーザーが数百万の屋内シーンを持つ商用シーンデータベースにアクセスし、コアデータ資産、例えば3DCADモデルの著作権を保護することである。 本稿では,様々なコンピュータビジョンタスクの性能を向上させるために,合成データを用いてシステムの有効性と柔軟性を示す。

With the rapid development of data-driven techniques, data has played an essential role in various computer vision tasks. Many realistic and synthetic datasets have been proposed to address different problems. However, there are lots of unresolved challenges: (1) the creation of dataset is usually a tedious process with manual annotations, (2) most datasets are only designed for a single specific task, (3) the modification or randomization of the 3D scene is difficult, and (4) the release of commercial 3D data may encounter copyright issue. This paper presents MINERVAS, a Massive INterior EnviRonments VirtuAl Synthesis system, to facilitate the 3D scene modification and the 2D image synthesis for various vision tasks. In particular, we design a programmable pipeline with Domain-Specific Language, allowing users to (1) select scenes from the commercial indoor scene database, (2) synthesize scenes for different tasks with customized rules, and (3) render various imagery data, such as visual color, geometric structures, semantic label. Our system eases the difficulty of customizing massive numbers of scenes for different tasks and relieves users from manipulating fine-grained scene configurations by providing user-controllable randomness using multi-level samplers. Most importantly, it empowers users to access commercial scene databases with millions of indoor scenes and protects the copyright of core data assets, e.g., 3D CAD models. We demonstrate the validity and flexibility of our system by using our synthesized data to improve the performance on different kinds of computer vision tasks.
翻訳日:2021-07-15 11:17:20 公開日:2021-07-14
# 条件ICAによる機能的磁気共鳴画像データ増大

Functional Magnetic Resonance Imaging data augmentation through conditional ICA ( http://arxiv.org/abs/2107.06104v2 )

ライセンス: Link先を確認
Badr Tajini, Hugo Richard, Bertrand Thirion(参考訳) 計算認知神経画像研究の進歩は、大量のラベル付き脳画像データの利用可能性に関連しているが、そのようなデータは少ないし、コストもかかる。 generative adversarial networks(gans)のような強力なデータ生成メカニズムは、コンピュータビジョンのために過去10年間に設計されてきたが、このような改善はまだ脳イメージングに引き継がれていない。 考えられる理由は、gansトレーニングが機能的神経画像で利用可能なノイズ、高次元、小型のサンプルデータに適していないためである。 本稿では,FMRI(Functional Magnetic Resonance Imaging)データ拡張技術であるConditional ICA(Conditional ICA)について述べる。 次に、少数のサンプルで観察されたクラスにジェネレータを条件付けるメカニズムを提案する。 まず,生成機構が観察と区別できないデータの合成に成功し,脳デコード問題における分類精度が向上することを示す。 特に、最適化と解釈がずっと簡単でありながら、GANよりも優れています。 最後に、Conditional ICAはパラメータチューニングなしで8つのデータセットの分類精度を向上させる。

Advances in computational cognitive neuroimaging research are related to the availability of large amounts of labeled brain imaging data, but such data are scarce and expensive to generate. While powerful data generation mechanisms, such as Generative Adversarial Networks (GANs), have been designed in the last decade for computer vision, such improvements have not yet carried over to brain imaging. A likely reason is that GANs training is ill-suited to the noisy, high-dimensional and small-sample data available in functional neuroimaging. In this paper, we introduce Conditional Independent Components Analysis (Conditional ICA): a fast functional Magnetic Resonance Imaging (fMRI) data augmentation technique, that leverages abundant resting-state data to create images by sampling from an ICA decomposition. We then propose a mechanism to condition the generator on classes observed with few samples. We first show that the generative mechanism is successful at synthesizing data indistinguishable from observations, and that it yields gains in classification accuracy in brain decoding problems. In particular it outperforms GANs while being much easier to optimize and interpret. Lastly, Conditional ICA enhances classification accuracy in eight datasets without further parameters tuning.
翻訳日:2021-07-15 11:16:54 公開日:2021-07-14