このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。



PDF登録状況(公開日: 20210804)

# ランダムエッジグラフニューラルネットワークによる電力制御のためのブラックボックスとモジュールメタラーニング

Black-Box and Modular Meta-Learning for Power Control via Random Edge Graph Neural Networks ( http://arxiv.org/abs/2108.13178v1 )

ライセンス: Link先を確認
Ivana Nikoloska and Osvaldo Simeone(参考訳) 本稿では,ノードの追加や削除を含む任意の時間変化トポロジを持つ無線ネットワークにおける電力制御の問題について考察する。 グラフニューラルネットワーク(GNN)を利用したデータ駆動設計手法を採用し、チャネル状態情報(CSI)をマッピングして電力を伝達する電力制御ポリシーを効率的にパラメータ化する。 特定のGNNアーキテクチャはランダムエッジGNN (REGNN) と呼ばれ、空間重みがチャネル係数に結びついている非線形グラフ畳み込みフィルタを定義する。 先行研究は,すべてのトポロジでregnnベースのポリシが共有される合同トレーニングアプローチを想定していたが,本稿では,現在のトポロジーに関する限定されたcsiデータに基づく電力制御ポリシーの適用を目標とした。 そこで我々は,ブラックボックスとモジュールメタラーニングの両方を提案する。 black-boxメタラーニングは(確率的な)勾配降下による汎用適応手順を最適化する一方、モジュラメタラーニングは、新しいネットワークトポロジーのためのソリューションのコンポーネントを形成できる再利用可能なモジュールのセットを見つける。 共同学習方式による電力制御問題に対するメタラーニングの利点を検証し,データ可用性が極めて制限された場合のモジュール型メタラーニングの利点を示す。

In this paper, we consider the problem of power control for a wireless network with an arbitrarily time-varying topology, including the possible addition or removal of nodes. A data-driven design methodology that leverages graph neural networks (GNNs) is adopted in order to efficiently parametrize the power control policy mapping the channel state information (CSI) to transmit powers. The specific GNN architecture, known as random edge GNN (REGNN), defines a non-linear graph convolutional filter whose spatial weights are tied to the channel coefficients. While prior work assumed a joint training approach whereby the REGNN-based policy is shared across all topologies, this paper targets adaptation of the power control policy based on limited CSI data regarding the current topology. To this end, we propose both black-box and modular meta-learning techniques. Black-box meta-learning optimizes a general-purpose adaptation procedure via (stochastic) gradient descent, while modular meta-learning finds a set of reusable modules that can form components of a solution for any new network topology. Numerical results validate the benefits of meta-learning for power control problems over joint training schemes, and demonstrate the advantages of modular meta-learning when data availability is extremely limited.
翻訳日:2021-09-05 08:50:18 公開日:2021-08-04
# 1つの声で:旅行用音声アシスタントを改造したモデル

With One Voice: Composing a Travel Voice Assistant from Re-purposed Models ( http://arxiv.org/abs/2108.11463v1 )

ライセンス: Link先を確認
Shachaf Poran, Gil Amsalem, Amit Beka, Dmitri Goldenberg(参考訳) 音声アシスタントは、ユーザーがデジタル製品と対話する新しい方法を提供する。 このような製品は、音声からテキストへの書き起こし、名前付きエンティティ認識と解決、テキスト分類など、いくつかの機械学習モデルで構成されている。 音声アシスタントをスクラッチから構築するには、多数のモデルを構築し、コンポーネント間で編成する複数のチームの長い努力が必要だ。 サードパーティベンダの使用や既存モデルの再提案といった代替手段は、市場投入時間や開発コストを短縮すると考えられる。 しかし、それぞれの選択肢には利点と欠点がある。 Booking.com検索・レコメンデーションシステムのための音声検索アシスタントの構築から得られた重要な知見を提示する。 本稿は,既存の汎用モデルに対する専用ソリューションの性能と開発実績を比較したものである。 我々は、実装のトレードオフとその推定結果に関するデータ駆動決定を後から見て議論し、完全に機能する機械学習製品が既存のモデルから構築できることを示す。

Voice assistants provide users a new way of interacting with digital products, allowing them to retrieve information and complete tasks with an increased sense of control and flexibility. Such products are comprised of several machine learning models, like Speech-to-Text transcription, Named Entity Recognition and Resolution, and Text Classification. Building a voice assistant from scratch takes the prolonged efforts of several teams constructing numerous models and orchestrating between components. Alternatives such as using third-party vendors or re-purposing existing models may be considered to shorten time-to-market and development costs. However, each option has its benefits and drawbacks. We present key insights from building a voice search assistant for Booking.com search and recommendation system. Our paper compares the achieved performance and development efforts in dedicated tailor-made solutions against existing re-purposed models. We share and discuss our data-driven decisions about implementation trade-offs and their estimated outcomes in hindsight, showing that a fully functional machine learning product can be built from existing models.
翻訳日:2021-08-29 12:08:26 公開日:2021-08-04
# (参考訳) 太陽・太陽圏観測ミッションから作成した機械学習対応データセット [全文訳有]

A Machine-Learning-Rea dy Dataset Prepared from the Solar and Heliospheric Observatory Mission ( http://arxiv.org/abs/2108.06394v1 )

ライセンス: CC BY 4.0
Carl Shneider (1), Andong Hu (1), Ajay K. Tiwari (1), Monica G. Bobra (2), Karl Battams (5), Jannis Teunissen (1), and Enrico Camporeale (3 and 4) ((1) Multiscale Dynamics Group, Center for Mathematics and Computer Science (CWI), Amsterdam, The Netherlands, (2) W.W. Hansen Experimental Physics Laboratory, Stanford University, Stanford, CA, USA, (3) CIRES, University of Colorado, Boulder, CO, USA, (4) NOAA, Space Weather Prediction Center, Boulder, CO, USA, (5) US Naval Research Laboratory, Washington DC, USA)(参考訳) 我々は、ユーザ定義の選択基準と様々な事前処理ステップを可能にする、ソーラー画像から標準データセットを生成するPythonツールを提案する。 私たちのpythonツールは、solar and heliospheric observatory(soho)とsolar dynamics observatory(sdo)の両方のミッションからのすべてのイメージ製品で動作します。 sohoミッションのマルチスペクトル画像から得られたデータセットについて検討し、コロナグラフ画像内の惑星通過や欠落したデータや惑星トランジットを含まず、時間的同期により機械学習システムへの入力の準備が整う。 機械学習対応の画像は、例えば宇宙天気パラメータの予測に使用できるため、コミュニティにとって貴重なリソースである。 ラグランジュ点1(L1)で観測された惑星間磁場(IMF)の南北成分の3~5日間の予測値を用いて,このデータの利用について述べる。 このユースケースでは、完全なsohoデータセットのサブセットにディープ畳み込みニューラルネットワーク(cnn)を適用し、ガウスのナイーブベイズ分類器のベースライン結果と比較する。

We present a Python tool to generate a standard dataset from solar images that allows for user-defined selection criteria and a range of pre-processing steps. Our Python tool works with all image products from both the Solar and Heliospheric Observatory (SoHO) and Solar Dynamics Observatory (SDO) missions. We discuss a dataset produced from the SoHO mission's multi-spectral images which is free of missing or corrupt data as well as planetary transits in coronagraph images, and is temporally synced making it ready for input to a machine learning system. Machine-learning-rea dy images are a valuable resource for the community because they can be used, for example, for forecasting space weather parameters. We illustrate the use of this data with a 3-5 day-ahead forecast of the north-south component of the interplanetary magnetic field (IMF) observed at Lagrange point one (L1). For this use case, we apply a deep convolutional neural network (CNN) to a subset of the full SoHO dataset and compare with baseline results from a Gaussian Naive Bayes classifier.
翻訳日:2021-08-22 16:19:46 公開日:2021-08-04
# (参考訳) 条件付きフィルタを用いた言語モデルにおける害の軽減 [全文訳有]

Mitigating harm in language models with conditional-likeliho od filtration ( http://arxiv.org/abs/2108.07790v1 )

ライセンス: CC BY 4.0
Helen Ngo, Cooper Raterink, Jo\~ao G.M. Ara\'ujo, Ivan Zhang, Carol Chen, Adrien Morisot, Nicholas Frosst(参考訳) open webからキュレートされた大規模な非フィルタリングデータセットでトレーニングされた言語モデルは、トレーニングデータからシステムのバイアス、偏見、有害なビューを取得する。 本稿では,Webスケールデータセットから有害テキストをプログラムで識別し,除去する手法を提案する。 事前訓練された言語モデルを用いて、特定の文書に条件付けされた研究者によるトリガーフレーズのログ類似度を計算し、データセットから文書を識別してフィルタリングする。 このフィルタ付きデータセットでトレーニングされたモデルは、有害なテキストを生成する確率が低く、標準言語モデリングベンチマークでは、非フィルタ型ベースラインに比べてパフォーマンスがわずかに低下していることが示されている。 標準言語モデリングベンチマークからヘイトスピーチなどの好ましくないコンテンツを例示することにより,このパフォーマンスギャップの部分的な説明を行う。 最後に,本手法の一般化と,特定の値を反映したトリガーフレーズを用いて,より緊密な言語モデルを構築する方法について論じる。

Language models trained on large-scale unfiltered datasets curated from the open web acquire systemic biases, prejudices, and harmful views from their training data. We present a methodology for programmatically identifying and removing harmful text from web-scale datasets. A pretrained language model is used to calculate the log-likelihood of researcher-written trigger phrases conditioned on a specific document, which is used to identify and filter documents from the dataset. We demonstrate that models trained on this filtered dataset exhibit lower propensity to generate harmful text, with a marginal decrease in performance on standard language modeling benchmarks compared to unfiltered baselines. We provide a partial explanation for this performance gap by surfacing examples of hate speech and other undesirable content from standard language modeling benchmarks. Finally, we discuss the generalization of this method and how trigger phrases which reflect specific values can be used by researchers to build language models which are more closely aligned with their values.
翻訳日:2021-08-22 16:00:03 公開日:2021-08-04
# 機械学習訓練エキスパートシステムを用いた偽ニュースとフィッシング検出

Fake News and Phishing Detection Using a Machine Learning Trained Expert System ( http://arxiv.org/abs/2108.08264v1 )

ライセンス: Link先を確認
Benjamin Fitzpatrick, Xinyu "Sherwin" Liang, Jeremy Straub(参考訳) 専門家システムは、コンピュータが推奨や決定を行うために使われてきた。 本稿では,フィッシングサイト検出と偽ニュース検出のための機械学習訓練エキスパートシステム(mles)について述べる。 どちらのトピックも同様の目標を共有している。ルールファクトネットワークを設計することで、各領域のドメインエキスパートのようにコンピュータが説明可能な決定をすることができる。 フィッシングサイト検出研究では、MLESを使用して、サイト特性(URLの長さや有効期限など)を分析し、潜在的なフィッシングサイトを検出する。 フェイクニュース検出研究では、mlesルールファクトネットワークを使用して、感情、話者の政治的所属状況、仕事などの要因に基づいて、ニュースストーリーの真偽を評価する。 2つの研究は異なるMLESネットワーク実装を使用しており、ここで提示され比較される。 フェイクニュース研究はより線形な設計を用い、フィッシングプロジェクトはより複雑な接続構造を利用した。 両方のネットワークの入力は一般に利用可能なデータセットに基づいている。

Expert systems have been used to enable computers to make recommendations and decisions. This paper presents the use of a machine learning trained expert system (MLES) for phishing site detection and fake news detection. Both topics share a similar goal: to design a rule-fact network that allows a computer to make explainable decisions like domain experts in each respective area. The phishing website detection study uses a MLES to detect potential phishing websites by analyzing site properties (like URL length and expiration time). The fake news detection study uses a MLES rule-fact network to gauge news story truthfulness based on factors such as emotion, the speaker's political affiliation status, and job. The two studies use different MLES network implementations, which are presented and compared herein. The fake news study utilized a more linear design while the phishing project utilized a more complex connection structure. Both networks' inputs are based on commonly available data sets.
翻訳日:2021-08-22 14:40:29 公開日:2021-08-04
# サービス拒否(IDoS:Combating Informational Denial-of-Service)攻撃のモデル化と緩和

Combating Informational Denial-of-Service (IDoS) Attacks: Modeling and Mitigation of Attentional Human Vulnerability ( http://arxiv.org/abs/2108.08255v1 )

ライセンス: Link先を確認
Linan Huang and Quanyan Zhu(参考訳) 本研究は、人間の注意力の脆弱性を悪用する、IDoS(Informational Denial-of-Service)攻撃と呼ばれる新しいタイプのプロアクティブアタックを提案する。 大量のフィントを発生させることで、IDoS攻撃は人間のオペレーターの認知資源を減らし、フィントの中に隠された真の攻撃を人間が識別するのを防ぐ。 本研究の目的は、IDoS攻撃の重症度とリスクを軽減するために、IDoS攻撃を正式に定義し、その結果を定量化し、ヒューマンアシストセキュリティ技術を開発することである。 この目的のために,カテゴリラベルをセミマルコフプロセスとして,実際のアタックと実際のアタックのシーケンシャル到着をモデル化する。 この補助技術は、選択的アラートを定期的に強調することにより、人間の注意を戦略的に管理し、他のアラートの邪魔を防ぐ。 データ駆動型アプローチは、異なる注意管理(AM)戦略の下で人のパフォーマンスを評価するために適用される。 本稿では,2つの動的プログラム表現間の計算等価性を確立し,理論計算とオンライン学習を簡略化する。 ケーススタディは、学習フレームワークの有効性を裏付けるものである。 この数値結果は、AM戦略が重度レベルとIDoS攻撃のリスクを軽減する方法を示している。 さらに,全AM戦略における最小重大度レベルの基本的な限界と検査期間の最大長を特徴付け,IDoSリスクを低減する。

This work proposes a new class of proactive attacks called the Informational Denial-of-Service (IDoS) attacks that exploit the attentional human vulnerability. By generating a large volume of feints, IDoS attacks deplete the cognition resources of human operators to prevent humans from identifying the real attacks hidden among feints. This work aims to formally define IDoS attacks, quantify their consequences, and develop human-assistive security technologies to mitigate the severity level and risks of IDoS attacks. To this end, we model the feint and real attacks' sequential arrivals with category labels as a semi-Markov process. The assistive technology strategically manages human attention by highlighting selective alerts periodically to prevent the distraction of other alerts. A data-driven approach is applied to evaluate human performance under different Attention Management (AM) strategies. Under a representative special case, we establish the computational equivalency between two dynamic programming representations to simplify the theoretical computation and the online learning. A case study corroborates the effectiveness of the learning framework. The numerical results illustrate how AM strategies can alleviate the severity level and the risk of IDoS attacks. Furthermore, we characterize the fundamental limits of the minimum severity level under all AM strategies and the maximum length of the inspection period to reduce the IDoS risks.
翻訳日:2021-08-22 14:38:53 公開日:2021-08-04
# 自動車イーサネットにおける深層学習に基づくシーケンスモデルを用いたSOME/IP侵入検出

SOME/IP Intrusion Detection using Deep Learning-based Sequential Models in Automotive Ethernet Networks ( http://arxiv.org/abs/2108.08262v1 )

ライセンス: Link先を確認
Natasha Alkhatib, Hadi Ghauch, and Jean-Luc Danger(参考訳) 侵入検知システムは、サイバー攻撃、特にsome/ipなどのハッキング攻撃に弱いプロトコルを検出するために広く使われている。 本稿では,SOME/IPアプリケーション層プロトコル上でのオフライン侵入検出のための深層学習に基づくシーケンシャルモデルを提案する。 侵入検知システムを評価するために、私たちは、現実的な侵入を表すいくつかのクラスと通常のクラスを含むデータセットを作成しラベル付けしました。 さらに,開発したデータセットに適用可能な,ディープラーニングに基づくシーケンシャルモデルの一例として,単純なリカレントニューラルネットワーク(rnn)を提案する。 数値計算の結果,RNNは車内侵入予測に優れ,F1スコアとAUC値は各種類の侵入に対して0.99であることがわかった。

Intrusion Detection Systems are widely used to detect cyberattacks, especially on protocols vulnerable to hacking attacks such as SOME/IP. In this paper, we present a deep learning-based sequential model for offline intrusion detection on SOME/IP application layer protocol. To assess our intrusion detection system, we have generated and labeled a dataset with several classes representing realistic intrusions, and a normal class - a significant contribution due to the absence of such publicly available datasets. Furthermore, we also propose a simple recurrent neural network (RNN), as an instance of deep learning-based sequential model, that we apply to our generated dataset. The numerical results show that RNN excel at predicting in-vehicle intrusions, with F1 Scores and AUC values of 0.99 for each type of intrusion.
翻訳日:2021-08-22 14:38:00 公開日:2021-08-04
# 電磁医用画像における演算学習に基づく境界推定

Operational Learning-based Boundary Estimation in Electromagnetic Medical Imaging ( http://arxiv.org/abs/2108.03233v1 )

ライセンス: Link先を確認
A. Al-Saffar, A. Stancombe, A. Zamani, A. Abbosh(参考訳) 撮像アルゴリズムの優先情報として撮像対象の境界を組み込むことで、電磁医療画像システムの性能を大幅に向上させることができる。 異なるセンサと被験者の動きの悪影響を利用してシステムを過度に複雑化するのを避けるために,同じ電磁画像データを用いて画像の境界(外部輪郭)を推定する学習法を提案した。 イメージング技術は、画像に支配的かつ非形成的であるために反射係数を破棄するが、これらのパラメータは境界検出に使用される。 学習モデルは、0.7-1.6ghz帯で動作する16素子アンテナアレイを用いた頭部イメージングシステムを用いて、独立した臨床試験を通じて検証される。 評価の結果,Huモーメントにおける平均0.012の相似性は頭部境界を検知しながら達成できた。 このモデルは、正確な境界推定のための追加デバイスを不要にしながら、高速なスキャンと画像生成を可能にする。

Incorporating boundaries of the imaging object as a priori information to imaging algorithms can significantly improve the performance of electromagnetic medical imaging systems. To avoid overly complicating the system by using different sensors and the adverse effect of the subject's movement, a learning-based method is proposed to estimate the boundary (external contour) of the imaged object using the same electromagnetic imaging data. While imaging techniques may discard the reflection coefficients for being dominant and uninformative for imaging, these parameters are made use of for boundary detection. The learned model is verified through independent clinical human trials by using a head imaging system with a 16-element antenna array that works across the band 0.7-1.6 GHz. The evaluation demonstrated that the model achieves average dissimilarity of 0.012 in Hu-moment while detecting head boundary. The model enables fast scan and image creation while eliminating the need for additional devices for accurate boundary estimation.
翻訳日:2021-08-15 11:34:08 公開日:2021-08-04
# エッジ・ツー・クラウド連続体における複雑なアプリケーションの再現可能な性能最適化

Reproducible Performance Optimization of Complex Applications on the Edge-to-Cloud Continuum ( http://arxiv.org/abs/2108.04033v1 )

ライセンス: Link先を確認
Daniel Rosendo (KerData), Alexandru Costan, Gabriel Antoniu, Matthieu Simonin, Jean-Christophe Lombardo, Alexis Joly, Patrick Valduriez(参考訳) より多くのアプリケーション領域において、コンピューティング、分析、学習を組み合わせた複雑なワークフローの出現を目撃しています。 それらは、クラウド/HPCシステム(別名Computer Continuum)と相互接続されたIoTデバイスを備えたハイブリッド実行インフラストラクチャを必要とすることが多い。 このようなワークフローは、パフォーマンス、リソース使用量、エネルギー消費、財務コストの点で複雑な制約と要件が課される。 これにより、コンフィギュレーションとデプロイメントの最適化が難しくなる。 エッジ・ツー・クラウド・コンティニュム上でのリアルタイムアプリケーションの最適化を支援する手法を提案する。 E2ClabはEdge-to-Cloud連続体全体にわたる完全な実験サイクルをサポートするフレームワークだ。 当社のアプローチでは,コントロールされたテストベッド環境で可能な構成を厳密に分析することで,その動作と関連するパフォーマンス上のトレードオフを理解します。 本稿では,世界規模の植物識別アプリケーションPl@ntNetの最適化手法について述べる。 当社の方法論はEdge-to-Cloud Continuumの他のアプリケーションに一般化することができる。

In more and more application areas, we are witnessing the emergence of complex workflows that combine computing, analytics and learning. They often require a hybrid execution infrastructure with IoT devices interconnected to cloud/HPC systems (aka Computing Continuum). Such workflows are subject to complex constraints and requirements in terms of performance, resource usage, energy consumption and financial costs. This makes it challenging to optimize their configuration and deployment. We propose a methodology to support the optimization of real-life applications on the Edge-to-Cloud Continuum. We implement it as an extension of E2Clab, a previously proposed framework supporting the complete experimental cycle across the Edge-to-Cloud Continuum. Our approach relies on a rigorous analysis of possible configurations in a controlled testbed environment to understand their behaviour and related performance trade-offs. We illustrate our methodology by optimizing Pl@ntNet, a world-wide plant identification application. Our methodology can be generalized to other applications in the Edge-to-Cloud Continuum.
翻訳日:2021-08-15 11:33:51 公開日:2021-08-04
# アルゴリズムプロファイリングの公正性:ドイツにおける事例研究

Fairness in Algorithmic Profiling: A German Case Study ( http://arxiv.org/abs/2108.04134v1 )

ライセンス: Link先を確認
Christoph Kern, Ruben L. Bach, Hannah Mautner and Frauke Kreuter(参考訳) アルゴリズムプロファイリングは、限られた公共資源を効果的かつ客観的に割り当てる手段として、公共部門でますます使われている。 例えば、公共雇用サービスによる支援策の配分を導くために、求職者の予測に基づく統計プロファイルがある。 しかしながら、意図しない差別や公平性の懸念といった潜在的な副作用の実証的な評価は稀である。 本研究では, 長期失業リスクを予測するための統計モデルの比較・評価を行い, 予測性能, 公平度指標, およびデータ分析判断に対する脆弱性について検討した。 事例としてドイツに着目し,ドイツ公共雇用サービスによって定期的に収集される求職者の就業履歴の行政データを利用して,現実的な条件下でのプロファイリングモデルを評価する。 これらのデータは、競争力のある精度で長期的な失業率を予測するのに使用できることを示すだけでなく、異なる分類方針が公正性に全く異なることを強調する。 したがって、そのようなモデルを実践する前に厳格な監査プロセスを要求します。

Algorithmic profiling is increasingly used in the public sector as a means to allocate limited public resources effectively and objectively. One example is the prediction-based statistical profiling of job seekers to guide the allocation of support measures by public employment services. However, empirical evaluations of potential side-effects such as unintended discrimination and fairness concerns are rare. In this study, we compare and evaluate statistical models for predicting job seekers' risk of becoming long-term unemployed with respect to prediction performance, fairness metrics, and vulnerabilities to data analysis decisions. Focusing on Germany as a use case, we evaluate profiling models under realistic conditions by utilizing administrative data on job seekers' employment histories that are routinely collected by German public employment services. Besides showing that these data can be used to predict long-term unemployment with competitive levels of accuracy, we highlight that different classification policies have very different fairness implications. We therefore call for rigorous auditing processes before such models are put to practice.
翻訳日:2021-08-15 11:33:09 公開日:2021-08-04
# 分子動力学の高度化のためのデータ駆動ペリダイナミック連続体モデル

A data-driven peridynamic continuum model for upscaling molecular dynamics ( http://arxiv.org/abs/2108.04883v1 )

ライセンス: Link先を確認
Huaiqian You, Yue Yu, Stewart Silling, Marta D'Elia(参考訳) ペリダイナミックスを含む非局所モデルは、しばしばその定義に長さスケールを埋め込んだ積分作用素を用いる。 しかしながら、これらの演算子のインテグレードは、実験室の機械的特性テストのような特定の物理系で一般的に利用できるデータから定義することが困難である。 対照的に、分子動力学(md)はこれらの積分を必要としないが、対処できる長さと時間スケールの計算上の制限に苦しむ。 両手法の強みを組み合わせ, 材料挙動を効率的に正確に把握する粗粒等化連続体モデルを得るために, MDデータから学習フレームワークを提案し, 最適線形ペリダイナミックソリッド(LPS)モデルをMD変位の代用として抽出する。 学習モデルの精度を最大化するために、得られたモデルの適切さを保ちつつ、ペリダイナミックな影響関数を部分的に負にする。 これを実現するために、符号変化の影響関数を持つ離散化LPSモデルに対して十分な適正条件を提供し、そのような可解性条件を強制しながら方程式残差を最小化する制約付き最適化アルゴリズムを開発する。 このフレームワークは、結果のモデルが数学的に適切に配置され、物理的に一貫性があり、トレーニングで使用されるものと異なる設定にうまく一般化することを保証します。 単層グラフェンの数値実験により,提案手法の有効性を明らかにした。 提案手法は, 熱雑音, 異なるドメイン形状, 外部負荷, および訓練用データと実質的に異なる離散化を含む, 検証用データセット上での頑健性を示す。

Nonlocal models, including peridynamics, often use integral operators that embed lengthscales in their definition. However, the integrands in these operators are difficult to define from the data that are typically available for a given physical system, such as laboratory mechanical property tests. In contrast, molecular dynamics (MD) does not require these integrands, but it suffers from computational limitations in the length and time scales it can address. To combine the strengths of both methods and to obtain a coarse-grained, homogenized continuum model that efficiently and accurately captures materials' behavior, we propose a learning framework to extract, from MD data, an optimal Linear Peridynamic Solid (LPS) model as a surrogate for MD displacements. To maximize the accuracy of the learnt model we allow the peridynamic influence function to be partially negative, while preserving the well-posedness of the resulting model. To achieve this, we provide sufficient well-posedness conditions for discretized LPS models with sign-changing influence functions and develop a constrained optimization algorithm that minimizes the equation residual while enforcing such solvability conditions. This framework guarantees that the resulting model is mathematically well-posed, physically consistent, and that it generalizes well to settings that are different from the ones used during training. We illustrate the efficacy of the proposed approach with several numerical tests for single layer graphene. Our two-dimensional tests show the robustness of the proposed algorithm on validation data sets that include thermal noise, different domain shapes and external loadings, and discretizations substantially different from the ones used for training.
翻訳日:2021-08-15 11:32:55 公開日:2021-08-04
# (参考訳) 姿勢推定におけるセンサ融合のためのLSTMフレームワークの増分学習 [全文訳有]

Incremental learning of LSTM framework for sensor fusion in attitude estimation ( http://arxiv.org/abs/2108.03173v1 )

ライセンス: CC BY 4.0
Parag Narkhede, Rahee Walambe, Shashi Poddar, Ketan Kotecha(参考訳) 本稿では,Long-Short Term Memory (LSTM) ネットワークの漸進的学習による3次元空間における物体の姿勢推定手法を提案する。 ジャイロスコープ、加速度計、磁力計は、姿勢推定の用途で広く使われているセンサはほとんどない。 従来, 拡張カルマンフィルタや補完フィルタなどのマルチセンサ融合法は, これらのセンサを融合させるために用いられてきた。 しかし、これらの手法は現実の状況における運動の不確実性、予測不可能性、動的性質を考慮に入れた限界を示す。 本稿では、慣性センサデータをLSTMネットワークに供給し、次に段階的に更新し、実行時に発生する動作の動的変化を組み込む。 提案フレームワークのロバスト性および効率性を,市販慣性測定ユニットから収集したデータセット上で実証した。 提案フレームワークは,高度に動的な環境であっても,従来の手法と比較して,結果を著しく改善する。 LSTMフレームワークベースの姿勢推定アプローチは、リアルタイムアプリケーションのための標準AIサポート処理モジュールにデプロイすることができる。

This paper presents a novel method for attitude estimation of an object in 3D space by incremental learning of the Long-Short Term Memory (LSTM) network. Gyroscope, accelerometer, and magnetometer are few widely used sensors in attitude estimation applications. Traditionally, multi-sensor fusion methods such as the Extended Kalman Filter and Complementary Filter are employed to fuse the measurements from these sensors. However, these methods exhibit limitations in accounting for the uncertainty, unpredictability, and dynamic nature of the motion in real-world situations. In this paper, the inertial sensors data are fed to the LSTM network which are then updated incrementally to incorporate the dynamic changes in motion occurring in the run time. The robustness and efficiency of the proposed framework is demonstrated on the dataset collected from a commercially available inertial measurement unit. The proposed framework offers a significant improvement in the results compared to the traditional method, even in the case of a highly dynamic environment. The LSTM framework-based attitude estimation approach can be deployed on a standard AI-supported processing module for real-time applications.
翻訳日:2021-08-10 03:07:53 公開日:2021-08-04
# (参考訳) 確率的ディープモデル参照適応制御 [全文訳有]

Stochastic Deep Model Reference Adaptive Control ( http://arxiv.org/abs/2108.03120v1 )

ライセンス: CC BY 4.0
Girish Joshi, Girish Chowdhary(参考訳) 本稿では,確率的ディープニューラルネットワークを用いたモデル参照適応制御を提案する。 我々は,本研究「深層モデル参照適応制御」に基づいて,不確実性を表現するためにベイジアン深層ニューラルネットワーク(dnn)を用いて制御能力を拡張する。 確率的深層モデル参照適応制御はリアプノフ法を用いてdnnモデルの出力層重みをリアルタイムに適応させ、データ駆動教師付き学習アルゴリズムは内部層パラメータを更新する。 この非同期ネットワーク更新は、学習ベースのリアルタイムフィードバックコントローラでバウンダリ性とトラッキング性能を保証する。 DNN学習に対するベイズ的アプローチは、データの過度な適合を避け、予測に対する信頼区間を提供するのに役立つ。 制御器の確率的性質は「励起の誘導持続性」を保証し、システム信号全体の収束につながった。

In this paper, we present a Stochastic Deep Neural Network-based Model Reference Adaptive Control. Building on our work "Deep Model Reference Adaptive Control", we extend the controller capability by using Bayesian deep neural networks (DNN) to represent uncertainties and model non-linearities. Stochastic Deep Model Reference Adaptive Control uses a Lyapunov-based method to adapt the output-layer weights of the DNN model in real-time, while a data-driven supervised learning algorithm is used to update the inner-layers parameters. This asynchronous network update ensures boundedness and guaranteed tracking performance with a learning-based real-time feedback controller. A Bayesian approach to DNN learning helped avoid over-fitting the data and provide confidence intervals over the predictions. The controller's stochastic nature also ensured "Induced Persistency of excitation," leading to convergence of the overall system signal.
翻訳日:2021-08-10 02:55:42 公開日:2021-08-04
# 音声特徴量を用いた音声認識における教師なし領域適応

Unsupervised Domain Adaptation in Speech Recognition using Phonetic Features ( http://arxiv.org/abs/2108.02850v1 )

ライセンス: Link先を確認
Rupam Ojha, C Chandra Sekhar(参考訳) 自動音声認識は、チャネル変動のように音声入力にいくつかの可変性源が存在するため、パターン認識において難しい問題であり、入力はクリーンかノイズか、話者のアクセントや性別のばらつきが異なる可能性がある。 結果として、特定のソースドメインのモデルをトレーニングし、別のターゲットドメインでテストする音声認識では、ドメイン適応が重要である。 本稿では,音声特徴量を用いた音声認識において,教師なし性に基づくドメイン適応を実現する手法を提案する。 実験はTIMITデータセット上で行われ、提案手法を用いて音素誤り率を大幅に低下させる。

Automatic speech recognition is a difficult problem in pattern recognition because several sources of variability exist in the speech input like the channel variations, the input might be clean or noisy, the speakers may have different accent and variations in the gender, etc. As a result, domain adaptation is important in speech recognition where we train the model for a particular source domain and test it on a different target domain. In this paper, we propose a technique to perform unsupervised gender-based domain adaptation in speech recognition using phonetic features. The experiments are performed on the TIMIT dataset and there is a considerable decrease in the phoneme error rate using the proposed approach.
翻訳日:2021-08-09 14:21:13 公開日:2021-08-04
# GTSNET(Generalized Tensor Summation Compressive Sensing Network) : 圧縮センシング操作の学習を容易にする

Generalized Tensor Summation Compressive Sensing Network (GTSNET): An Easy to Learn Compressive Sensing Operation ( http://arxiv.org/abs/2108.03167v1 )

ライセンス: Link先を確認
Mehmet Yamac, Ugur Akpinar, Erdem Sahin, Serkan Kiranyaz, Moncef Gabbouj(参考訳) CS文献では、圧縮された情報を最大レベルで保存する測定行列の発見と、圧縮された情報の再構成アルゴリズムの発見の2つのグループに分けられる。 従来のCS設定では、測定行列をランダム行列として選択し、最適化に基づく反復解を用いて信号を復元する。 しかし、大きな信号を扱う場合、特に反復最適化に基づく解の場合、ランダム行列を使うことは困難である。 最近のディープラーニングベースのソリューションは、リカバリをスピードアップしながら、復元精度を向上しますが、それでも共同で測定マトリックス全体を学習することは難しいプロセスです。 本研究では,任意のテンソル数の和として表現することで,CS行列の可分多線形学習を導入する。 CS演算を1つのテンソル乗算として設定した場合、モデルは学習ベースで分離可能なCSに還元されるが、密度の高いCS行列は複数のテンソルの和として近似して学習することができる。 どちらのケースも、画像、マルチスペクトル画像、ビデオなど、2次元または多次元の信号のcsで使用できる。 構造的CS行列は、構造的テンソル和表現を伴う多線形可分学習セットで容易に近似および学習することができる。 したがって、学習可能な一般化テンソル和CS演算は、分離可能CS、非分離可能CS(従来のベクトル行列乗算)、構造CS、多次元信号のCSを含むほとんどのCSセットアップをカプセル化する。 グレースケール画像とrgb画像の両方において、提案されたスキームは最先端のソリューション、特に低い測定率を上回っている。 パフォーマンス向上は、テンソルからグレースケール画像のテンソル表現の和に制限されるが、rgbの場合では重要になる。

In CS literature, the efforts can be divided into two groups: finding a measurement matrix that preserves the compressed information at the maximum level, and finding a reconstruction algorithm for the compressed information. In the traditional CS setup, the measurement matrices are selected as random matrices, and optimization-based iterative solutions are used to recover the signals. However, when we handle large signals, using random matrices become cumbersome especially when it comes to iterative optimization-based solutions. Even though recent deep learning-based solutions boost the reconstruction accuracy performance while speeding up the recovery, still jointly learning the whole measurement matrix is a difficult process. In this work, we introduce a separable multi-linear learning of the CS matrix by representing it as the summation of arbitrary number of tensors. For a special case where the CS operation is set as a single tensor multiplication, the model is reduced to the learning-based separable CS; while a dense CS matrix can be approximated and learned as the summation of multiple tensors. Both cases can be used in CS of two or multi-dimensional signals e.g., images, multi-spectral images, videos, etc. Structural CS matrices can also be easily approximated and learned in our multi-linear separable learning setup with structural tensor sum representation. Hence, our learnable generalized tensor summation CS operation encapsulates most CS setups including separable CS, non-separable CS (traditional vector-matrix multiplication), structural CS, and CS of the multi-dimensional signals. For both gray-scale and RGB images, the proposed scheme surpasses most state-of-the-art solutions, especially in lower measurement rates. Although the performance gain remains limited from tensor to the sum of tensor representation for gray-scale images, it becomes significant in the RGB case.
翻訳日:2021-08-09 14:20:58 公開日:2021-08-04
# (参考訳) 癌組織表現の対立学習 [全文訳有]

Adversarial learning of cancer tissue representations ( http://arxiv.org/abs/2108.02223v1 )

ライセンス: CC BY 4.0
Adalberto Claudio Quiros, Nicolas Coudray, Anna Yeaton, Wisuwat Sunhem, Roderick Murray-Smith, Aristotelis Tsirigos, Ke Yuan(参考訳) 病理組織像の深層学習に基づく解析は, 腫瘍進展, 腫瘍微小環境, その基盤となる生物学的過程の理解を推し進める上で有望であることを示している。 これまでのところ、これらのアプローチはアノテーションに関連する情報を抽出することに重点を置いている。 本研究では,組織構造自体からどの程度の情報を学べるかを問う。 手動のアノテーションを必要とせずに,癌組織の特徴表現を抽出する逆学習モデルを提案する。 これらの表現は乳癌,大腸癌,肺がんの3種類の形態学的特徴を同定することができる。 1) 潜伏空間における形態的特徴の分離, 2) 潜伏表現を用いて組織型をロジスティック回帰で分類し, AUCの0.97と85%の精度で教師付き深層モデルに匹敵する精度でAUCを分類する能力, 3) マルチ・インスタンス・ラーニング(MIL)を用いて全スライド画像(WSI)における腫瘍の存在を予測し,AUCの0.98と94%の精度を達成する能力によって支持される。 以上の結果から,本モデルは実際の組織標本の特異な表現型の特徴を捉え,腫瘍の進展と微小環境をより深く理解し,最終的に病理組織学的分類を改良し,診断と治療を行った。 https://github.com/A dalbertoCq/Adversari al-learning-of-cance r-tissue-representat ions

Deep learning based analysis of histopathology images shows promise in advancing the understanding of tumor progression, tumor micro-environment, and their underpinning biological processes. So far, these approaches have focused on extracting information associated with annotations. In this work, we ask how much information can be learned from the tissue architecture itself. We present an adversarial learning model to extract feature representations of cancer tissue, without the need for manual annotations. We show that these representations are able to identify a variety of morphological characteristics across three cancer types: Breast, colon, and lung. This is supported by 1) the separation of morphologic characteristics in the latent space; 2) the ability to classify tissue type with logistic regression using latent representations, with an AUC of 0.97 and 85% accuracy, comparable to supervised deep models; 3) the ability to predict the presence of tumor in Whole Slide Images (WSIs) using multiple instance learning (MIL), achieving an AUC of 0.98 and 94% accuracy. Our results show that our model captures distinct phenotypic characteristics of real tissue samples, paving the way for further understanding of tumor progression and tumor micro-environment, and ultimately refining histopathological classification for diagnosis and treatment. The code and pretrained models are available at: https://github.com/A dalbertoCq/Adversari al-learning-of-cance r-tissue-representat ions
翻訳日:2021-08-07 02:05:00 公開日:2021-08-04
# (参考訳) テラバイトスケール教師付きマウス腎臓の3dトレーニングとベンチマークデータセット

Terabyte-scale supervised 3D training and benchmarking dataset of the mouse kidney ( http://arxiv.org/abs/2108.02226v1 )

ライセンス: CC BY-SA 4.0
Willy Kuo, Diego Rossinelli, Georg Schulz, Roland H. Wenger, Simone Hieber, Bert M\"uller, Vartan Kurtcuoglu(参考訳) 3Dバイオメディカル画像のセグメンテーションに使用される機械学習アルゴリズムのパフォーマンスは、2D写真の分類に使用されるアルゴリズムよりも遅れている。 これは、最先端のイメージング設備、アノテーションのためのドメインエキスパート、大規模な計算および個人リソースを必要とする、高ボリュームで高品質なトレーニングデータセットの欠如によって説明できる。 この研究で提示されたHR-キドニーデータセットは、全マウス腎臓の1.7TBの人工物補正シンクロトロン放射によるX線位相コントラストマイクロトモグラフィ画像と、現在利用可能なバイオメディカルデータセットよりも1-2桁大きくなった33729グロメリリのセグメンテーションを提供することによって、このギャップを橋渡しする。 さらにデータセットには、基礎となる生データ、腎血管と尿管管の古典的な分割、真の3d手動アノテーションが含まれている。 提供されるデータは、小さなトレーニングデータセットが課している制限を取り除くことによって、バイオメディカルイメージ分析のための機械学習の破壊の可能性を開く。

The performance of machine learning algorithms used for the segmentation of 3D biomedical images lags behind that of the algorithms employed in the classification of 2D photos. This may be explained by the comparative lack of high-volume, high-quality training datasets, which require state-of-the art imaging facilities, domain experts for annotation and large computational and personal resources to create. The HR-Kidney dataset presented in this work bridges this gap by providing 1.7 TB of artefact-corrected synchrotron radiation-based X-ray phase-contrast microtomography images of whole mouse kidneys and validated segmentations of 33 729 glomeruli, which represents a 1-2 orders of magnitude increase over currently available biomedical datasets. The dataset further contains the underlying raw data, classical segmentations of renal vasculature and uriniferous tubules, as well as true 3D manual annotations. By removing limits currently imposed by small training datasets, the provided data open up the possibility for disruptions in machine learning for biomedical image analysis.
翻訳日:2021-08-07 01:50:16 公開日:2021-08-04
# (参考訳) 画像誘導介入における機械学習が2D/3Dレジストレーションに及ぼす影響 : システムレビューと展望

The Impact of Machine Learning on 2D/3D Registration for Image-guided Interventions: A Systematic Review and Perspective ( http://arxiv.org/abs/2108.02238v1 )

ライセンス: CC BY 4.0
Mathias Unberath, Cong Gao, Yicheng Hu, Max Judish, Russell H Taylor, Mehran Armand, Robert Grupp(参考訳) 画像ベースのナビゲーションは、最小侵襲手術の次のフロンティアと考えられている。 画像に基づくナビゲーションは再現性、安全、高精度の手術へのアクセスを増加させ、許容できるコストと労力で行うことができると信じられている。 これは、画像ベースの技術が特別な機器の必要性を回避し、現代のワークフローとシームレスに統合するためである。 さらに、画像ベースのナビゲーションが、複合現実環境と自律的なロボットワークフローを実現する上で大きな役割を果たすことが期待される。 画像誘導の重要な要素は、2D/3D登録であり、ボリューム画像やツールモデルなどの3D構造と、その2D画像(蛍光顕微鏡や内視鏡)の間の空間的関係を推定する技術である。 画像ベース2D/3D登録は成熟した技術であるが、ベンチからベッドサイドへの遷移は、最適化目標の脆さ、ハイパーパラメータの選択と初期化、不整合や複数のオブジェクトの難しさ、単一ビューのパフォーマンスの制限など、よく知られた課題によって抑制されている。 これらの課題が現在続いている理由の1つは、一般的な2D/3D登録問題の複雑さ、可変性、高次元性を考慮すると、解析的解が不十分である可能性が高いことである。 望まれる関数マッピングを指定するのではなく、高度に表現力のあるパラメトリックモデルを用いて近似することで、2D/3D登録における悪名高い課題を解決することができる。 本稿では,機械学習が2d/3d登録に与える影響を概観し,本技術の導入による最近の進歩を体系的に要約する。 これらの洞察に基づいて、私たちは最も差し迫ったニーズ、重大なオープン問題、そして考えられる次のステップについて、私たちの視点を提供します。

Image-based navigation is widely considered the next frontier of minimally invasive surgery. It is believed that image-based navigation will increase the access to reproducible, safe, and high-precision surgery as it may then be performed at acceptable costs and effort. This is because image-based techniques avoid the need of specialized equipment and seamlessly integrate with contemporary workflows. Further, it is expected that image-based navigation will play a major role in enabling mixed reality environments and autonomous, robotic workflows. A critical component of image guidance is 2D/3D registration, a technique to estimate the spatial relationships between 3D structures, e.g., volumetric imagery or tool models, and 2D images thereof, such as fluoroscopy or endoscopy. While image-based 2D/3D registration is a mature technique, its transition from the bench to the bedside has been restrained by well-known challenges, including brittleness of the optimization objective, hyperparameter selection, and initialization, difficulties around inconsistencies or multiple objects, and limited single-view performance. One reason these challenges persist today is that analytical solutions are likely inadequate considering the complexity, variability, and high-dimensionality of generic 2D/3D registration problems. The recent advent of machine learning-based approaches to imaging problems that, rather than specifying the desired functional mapping, approximate it using highly expressive parametric models holds promise for solving some of the notorious challenges in 2D/3D registration. In this manuscript, we review the impact of machine learning on 2D/3D registration to systematically summarize the recent advances made by introduction of this novel technology. Grounded in these insights, we then offer our perspective on the most pressing needs, significant open problems, and possible next steps.
翻訳日:2021-08-07 01:49:17 公開日:2021-08-04
# (参考訳) ディープマルチモーダルウェアラブルに基づく感情認識のための注意クロスモーダル接続 [全文訳有]

Attentive Cross-modal Connections for Deep Multimodal Wearable-based Emotion Recognition ( http://arxiv.org/abs/2108.02241v1 )

ライセンス: CC BY-SA 4.0
Anubhav Bhatti, Behnam Behinaein, Dirk Rodenburg, Paul Hungler, Ali Etemad(参考訳) 人間の感情の分類は、ヒューマンマシンシステムの設計と改善において重要な役割を果たす。 心電図(ECG)や心電図(EDA)などの個々の生体信号が機械学習手法による感情認識に広く用いられているが、マルチモーダルアプローチは一般的に抽出された特徴や最終分類/回帰結果を融合して性能を高める。 マルチモーダル学習を強化するために,各モーダルの学習に責任を負う畳み込みニューラルネットワーク間で情報を共有する,新しい注意型相互モーダル接続を提案する。 具体的には、EDAとECGの中間表現を共有して感情分類を改善し、共有情報に注意重みを適用し、より効果的なマルチモーダル埋め込みを学習する。 提案する感情分類手法の最適な構成を特定するため,wesadデータセット上で実験を行った。 実験の結果,提案手法は強いマルチモーダル表現を学習し,多くのベースライン法より優れていることがわかった。

Classification of human emotions can play an essential role in the design and improvement of human-machine systems. While individual biological signals such as Electrocardiogram (ECG) and Electrodermal Activity (EDA) have been widely used for emotion recognition with machine learning methods, multimodal approaches generally fuse extracted features or final classification/regre ssion results to boost performance. To enhance multimodal learning, we present a novel attentive cross-modal connection to share information between convolutional neural networks responsible for learning individual modalities. Specifically, these connections improve emotion classification by sharing intermediate representations among EDA and ECG and apply attention weights to the shared information, thus learning more effective multimodal embeddings. We perform experiments on the WESAD dataset to identify the best configuration of the proposed method for emotion classification. Our experiments show that the proposed approach is capable of learning strong multimodal representations and outperforms a number of baselines methods.
翻訳日:2021-08-07 01:47:59 公開日:2021-08-04
# (参考訳) 限られた測定値下での屋内定位:半教師・伝達学習によるクロス環境ジョイントアプローチ [全文訳有]

Indoor Localization Under Limited Measurements: A Cross-Environment Joint Semi-Supervised and Transfer Learning Approach ( http://arxiv.org/abs/2108.02257v1 )

ライセンス: CC BY 4.0
Mohamed I. AlHajri, Raed M. Shubair, Marwa Chafii(参考訳) 屋内ローカライズのための高精度な深層学習手法の開発は、モデルトレーニングを行うための所望の環境において十分なデータ測定が得られないことによってしばしば妨げられる。 そこで本研究では,データに制約のあるリッチデータ環境から得られたモデルを,データに制約のある環境に適切な方法で転送するための半教師付き・移動学習技術を用いて,ラベル付き評価の不十分さを補う,クロス環境アプローチを提案する。 これは、環境間の類似性を生かした一連の操作によって実現され、望まれる環境の非競合データモデルトレーニングを強化する。 数値実験により,提案手法は従来の畳み込みニューラルネットワーク(CNN)よりも優れた性能を示し,局所化精度は最大43%向上した。 さらに、データ測定の40%に過ぎず、従来の手法であるCNNの局所化精度を75%で再現し、データ不整合を補正するクロス環境手法を提案する。

The development of highly accurate deep learning methods for indoor localization is often hindered by the unavailability of sufficient data measurements in the desired environment to perform model training. To overcome the challenge of collecting costly measurements, this paper proposes a cross-environment approach that compensates for insufficient labelled measurements via a joint semi-supervised and transfer learning technique to transfer, in an appropriate manner, the model obtained from a rich-data environment to the desired environment for which data is limited. This is achieved via a sequence of operations that exploit the similarity across environments to enhance unlabelled data model training of the desired environment. Numerical experiments demonstrate that the proposed cross-environment approach outperforms the conventional method, convolutional neural network (CNN), with a significant increase in localization accuracy, up to 43%. Moreover, with only 40% data measurements, the proposed cross-environment approach compensates for data inadequacy and replicates the localization accuracy of the conventional method, CNN, which uses 75% data measurements.
翻訳日:2021-08-07 01:36:49 公開日:2021-08-04
# (参考訳) グラフリンク予測によるCOVID-19ワクチン誤情報の自動検出 [全文訳有]

Automatic Detection of COVID-19 Vaccine Misinformation with Graph Link Prediction ( http://arxiv.org/abs/2108.02314v1 )

ライセンス: CC BY 4.0
Maxwell A. Weinzierl, Sanda M. Harabagiu(参考訳) 新型コロナウイルスのパンデミック(COVID-19)との戦いにおいて、ワクチンの効力に対する大きな希望が、最近成功している。 しかし、新型コロナウイルスワクチンに関するソーシャルメディアの誤報に曝露されたワクチンの難しさは大きなハードルとなった。 そのため, ソーシャルメディア上での新型コロナウイルスワクチンの誤情報を拡散する場所や, 接種介入を適切なタイミングで, 適切な場所で行うことができるような, どのような誤報が議論されているかを自動的に検出することが重要である。 本稿は、新型コロナウイルス(covid-19)ワクチンに関する会話の量が最も多いソーシャルメディアプラットフォームであるtwitter上で、ワクチンに関する誤った情報を自動検出することである。 CoVaxLiesは、新しい偽情報検出方法が開発された新型コロナウイルスワクチンに関するいくつかの誤情報ターゲットに関連するツイートのデータセットである。 本手法は,誤情報検出をグラフリンク予測問題として用いた誤情報知識グラフにCoVaxLiesを整理する。 本稿では,複数の知識埋め込み手法によって提供されるリンクスコアリング機能を生かした誤情報検出手法を提案する。 実験により,現在広く使用されている分類法と比較して,本手法の優位性を示した。

Enormous hope in the efficacy of vaccines became recently a successful reality in the fight against the COVID-19 pandemic. However, vaccine hesitancy, fueled by exposure to social media misinformation about COVID-19 vaccines became a major hurdle. Therefore, it is essential to automatically detect where misinformation about COVID-19 vaccines on social media is spread and what kind of misinformation is discussed, such that inoculation interventions can be delivered at the right time and in the right place, in addition to interventions designed to address vaccine hesitancy. This paper is addressing the first step in tackling hesitancy against COVID-19 vaccines, namely the automatic detection of misinformation about the vaccines on Twitter, the social media platform that has the highest volume of conversations about COVID-19 and its vaccines. We present CoVaxLies, a new dataset of tweets judged relevant to several misinformation targets about COVID-19 vaccines on which a novel method of detecting misinformation was developed. Our method organizes CoVaxLies in a Misinformation Knowledge Graph as it casts misinformation detection as a graph link prediction problem. The misinformation detection method detailed in this paper takes advantage of the link scoring functions provided by several knowledge embedding methods. The experimental results demonstrate the superiority of this method when compared with classification-based methods, widely used currently.
翻訳日:2021-08-07 01:27:51 公開日:2021-08-04
# 胸部X線撮影における肺結節の非教師的検出

Unsupervised Detection of Lung Nodules in Chest Radiography Using Generative Adversarial Networks ( http://arxiv.org/abs/2108.02233v1 )

ライセンス: Link先を確認
Nitish Bhatt, David Ramon Prados, Nedim Hodzic, Christos Karanassios, and H.R. Tizhoosh(参考訳) 肺結節は通常胸部x線写真で見逃される。 放射線検査における肺結節の非教師的異常検出手法であるP-AnoGANを提案する。 P-AnoGANは、プログレッシブGANと畳み込みエンコーダ-デコーダ-エンコーダパイプラインを利用して、高速異常検出生成対向ネットワーク(f-AnoGAN)を変更する。 モデルトレーニングは、インディアナ大学胸部x線コレクションから抽出された、ラベルなしの健康な肺パッチのみを使用する。 ケストX線14と日本放射線技術学会のデータセットから抽出した健康的および不健康なパッチを用いて,外的検証と検査を行う。 本モデルでは,roc-auc 91.17%,87.89%で肺結節を含むパッチをロバストに同定した。 これらの結果は, 放射線検査における肺結節検出などの課題に対して, 教師なしの方法が有用であることを示している。

Lung nodules are commonly missed in chest radiographs. We propose and evaluate P-AnoGAN, an unsupervised anomaly detection approach for lung nodules in radiographs. P-AnoGAN modifies the fast anomaly detection generative adversarial network (f-AnoGAN) by utilizing a progressive GAN and a convolutional encoder-decoder-enco der pipeline. Model training uses only unlabelled healthy lung patches extracted from the Indiana University Chest X-Ray Collection. External validation and testing are performed using healthy and unhealthy patches extracted from the ChestX-ray14 and Japanese Society for Radiological Technology datasets, respectively. Our model robustly identifies patches containing lung nodules in external validation and test data with ROC-AUC of 91.17% and 87.89%, respectively. These results show unsupervised methods may be useful in challenging tasks such as lung nodule detection in radiographs.
翻訳日:2021-08-06 15:00:06 公開日:2021-08-04
# Spartus:時空間空間を爆発させるFPGAベースのLSTM加速器

Spartus: A 9.4 TOp/s FPGA-based LSTM Accelerator Exploiting Spatio-temporal Sparsity ( http://arxiv.org/abs/2108.02297v1 )

ライセンス: Link先を確認
Chang Gao, Tobi Delbruck, Shih-Chii Liu(参考訳) Long Short-Term Memory (LSTM) は音声認識などの時系列データを含むタスクに頻繁に使用される。 しかし、LSTMネットワークがメモリバウンドアルゴリズムとなるため、ハードウェア上にこれらのネットワークをデプロイして高いスループットと低レイテンシを実現することは困難である。 lstm加速器での以前の作業では、重量空間のスパーシティまたは時間的スパーシティを利用した。 本稿では,超低レイテンシ推定を実現するために,時空間スパース性を利用した新しい加速器「spartus」を提案する。 提案手法はcbtd (column-balanced target dropout) であり, 作業負荷バランスに有利な構造的スパース重み行列を導出する。 TIMIT電話認識タスクでトレーニングされたLSTMネットワークに対して、無視できる精度差で最大96%の重量幅を実現した。 従来の DeltaGRU を LSTM ネットワークに拡張して DeltaLSTM を生成する。 これにより、重み付けメモリアクセスと関連する演算を同時に保存できる。 Spartus は Xilinx Zynq-7100 FPGA 上で実装された。 Spartus上で動作する1024のニューロンからなる単一のDeltaLSTMレイヤのサンプル毎のレイテンシは1対1である。 spartusは9.4 top/sの効率的なバッチ1スループットと1.1 top/jエネルギー効率を達成した。

Long Short-Term Memory (LSTM) recurrent networks are frequently used for tasks involving time sequential data such as speech recognition. However, it is difficult to deploy these networks on hardware to achieve high throughput and low latency because the fully-connected structure makes LSTM networks a memory-bounded algorithm. Previous work in LSTM accelerators either exploited weight spatial sparsity or temporal sparsity. In this paper, we present a new accelerator called "Spartus" that exploits spatio-temporal sparsity to achieve ultra-low latency inference. The spatial sparsity was induced using our proposed pruning method called Column-Balanced Targeted Dropout (CBTD) that leads to structured sparse weight matrices benefiting workload balance. It achieved up to 96% weight sparsity with negligible accuracy difference for an LSTM network trained on a TIMIT phone recognition task. To induce temporal sparsity in LSTM, we create the DeltaLSTM by extending the previous DeltaGRU method to the LSTM network. This combined sparsity saves on weight memory access and associated arithmetic operations simultaneously. Spartus was implemented on a Xilinx Zynq-7100 FPGA. The per-sample latency for a single DeltaLSTM layer of 1024 neurons running on Spartus is 1 us. Spartus achieved 9.4 TOp/s effective batch-1 throughput and 1.1 TOp/J energy efficiency, which are respectively 4X and 7X higher than the previous state-of-the-art.
翻訳日:2021-08-06 14:59:51 公開日:2021-08-04
# Few-Shotオブジェクト検出のための動的関連学習

Dynamic Relevance Learning for Few-Shot Object Detection ( http://arxiv.org/abs/2108.02235v1 )

ライセンス: Link先を確認
Weijie Liu, Chong Wang*, Haohe Li, Shenghao Yu, Song Chen, Xulun Ye and Jiafei Wu(参考訳) 高価なバウンディングボックスアノテーションは、オブジェクト検出タスクの開発を制限する。 そのため,被写体検出の難易度が高い課題に注目する必要がある。 検出器は、いくつかのトレーニングサンプルだけで、新しいクラスのオブジェクトを認識する必要がある。 近年,メタ学習に基づく一般的な手法の多くが,メタR-CNNシリーズなどの有望なパフォーマンスを実現している。 しかし、クエリ画像の検出を毎回ガイドするための注意として、サポートデータの単一のカテゴリのみが使用される。 互いとの関係は未発表のままである。 さらに、最近の多くの研究は、サポートデータとクエリイメージを、それらの関係を考慮せずに独立したブランチとして扱う。 この問題を解決するために,クエリ画像上のすべてのサポート画像と関心領域(RoI)の関係を利用して動的グラフ畳み込みネットワーク(GCN)を構築する動的関連学習モデルを提案する。 このGCNの出力を用いてベース検出器の予測分布を調整することにより,提案したモデルにより,クラス表現を暗黙的に改善することができる。 パスカルVOCとMS-COCOデータセットの総合実験を行った。 提案モデルでは,より一般化された特徴の学習の有効性を示す総合的な性能が得られた。 私たちのコードはhttps://github.com/l iuweijie19980216/DRL -for-FSODで公開されています。

Expensive bounding-box annotations have limited the development of object detection task. Thus, it is necessary to focus on more challenging task of few-shot object detection. It requires the detector to recognize objects of novel classes with only a few training samples. Nowadays, many existing popular methods based on meta-learning have achieved promising performance, such as Meta R-CNN series. However, only a single category of support data is used as the attention to guide the detecting of query images each time. Their relevance to each other remains unexploited. Moreover, a lot of recent works treat the support data and query images as independent branch without considering the relationship between them. To address this issue, we propose a dynamic relevance learning model, which utilizes the relationship between all support images and Region of Interest (RoI) on the query images to construct a dynamic graph convolutional network (GCN). By adjusting the prediction distribution of the base detector using the output of this GCN, the proposed model can guide the detector to improve the class representation implicitly. Comprehensive experiments have been conducted on Pascal VOC and MS-COCO dataset. The proposed model achieves the best overall performance, which shows its effectiveness of learning more generalized features. Our code is available at https://github.com/l iuweijie19980216/DRL -for-FSOD.
翻訳日:2021-08-06 14:51:13 公開日:2021-08-04
# BEANNA: ニューラルネットワークアクセラレーションのためのバイナリ可能なアーキテクチャ

BEANNA: A Binary-Enabled Architecture for Neural Network Acceleration ( http://arxiv.org/abs/2108.02313v1 )

ライセンス: Link先を確認
Caleb Terrill, Fred Chu(参考訳) 現代のハードウェアデザインのトレンドは、機械学習やコンピュータビジョンのような計算集約的なタスクのための特別なハードウェアアクセラレーションへとシフトしている。 これらの複雑なワークロードは商用GPUによって加速できるが、モバイルデバイスや組み込みデバイスの厳しいメモリ、スループット、電力制約を満たす必要がある場合、ドメイン固有のハードウェアははるかに最適である。 本稿では,浮動小数点層と2値層の両方を処理可能なニューラルネットワークハードウェアアクセラレータであるbeanna(neural network acceleration)のためのバイナリ対応アーキテクチャを提案し,評価する。 16x16 systolic array ベースの行列乗算器と浮動小数点とバイナリ乗算加算の両方を計算する処理要素を使うことで、BEANNAは高精度浮動小数点とバイナリニューラルネットワーク層をシームレスに切り替える。 100mhzのクロック速度で動作し、高精度モードでは52.8gbps/秒、バイナリモードでは820gbps/秒のピークスループットを達成している。 BEANNAの評価は,浮動小数点外層と二層隠れ層とのハイブリッドネットワークと浮動小数点層のみのネットワークを比較して行った。 beannaによるハイブリッドネットワークの高速化は、194%のスループット向上、68%のメモリ使用量減少、66%のエネルギー消費削減を達成し、mnistデータセットの0.23%の分類精度低下のコストを犠牲にした。

Modern hardware design trends have shifted towards specialized hardware acceleration for computationally intensive tasks like machine learning and computer vision. While these complex workloads can be accelerated by commercial GPUs, domain-specific hardware is far more optimal when needing to meet the stringent memory, throughput, and power constraints of mobile and embedded devices. This paper proposes and evaluates a Binary-Enabled Architecture for Neural Network Acceleration (BEANNA), a neural network hardware accelerator capable of processing both floating point and binary network layers. Through the use of a novel 16x16 systolic array based matrix multiplier with processing elements that compute both floating point and binary multiply-adds, BEANNA seamlessly switches between high precision floating point and binary neural network layers. Running at a clock speed of 100MHz, BEANNA achieves a peak throughput of 52.8 GigaOps/second when operating in high precision mode, and 820 GigaOps/second when operating in binary mode. Evaluation of BEANNA was performed by comparing a hybrid network with floating point outer layers and binary hidden layers to a network with only floating point layers. The hybrid network accelerated using BEANNA achieved a 194% throughput increase, a 68% memory usage decrease, and a 66% energy consumption decrease per inference, all this at the cost of a mere 0.23% classification accuracy decrease on the MNIST dataset.
翻訳日:2021-08-06 14:48:54 公開日:2021-08-04
# VBridge: 医療モデルのための特徴、説明、データ間のドットを接続する

VBridge: Connecting the Dots Between Features, Explanations, and Data for Healthcare Models ( http://arxiv.org/abs/2108.02550v1 )

ライセンス: Link先を確認
Furui Cheng, Dongyu Liu, Fan Du, Yanna Lin, Alexandra Zytek, Haomin Li, Huamin Qu, Kalyan Veeramachaneni(参考訳) 機械学習(ml)は、臨床予測タスクを解決するために、電子健康記録(ehrs)にますます適用される。 多くのMLモデルは有望に機能するが、モデルの透明性と解釈可能性に関する問題は臨床実践における導入を制限する。 既存の説明可能なML技術を臨床環境で直接利用するのは難しい。 17年間の臨床経験を持つ6人の臨床医との文献調査とコラボレーションを通じて,臨床医のml特徴への不慣れ,文脈情報の欠如,コホートレベルのエビデンスの必要性という3つの課題を明らかにした。 反復的な設計プロセスの後、私たちはさらに、臨床医の意思決定ワークフローにMLの説明をシームレスに組み込むビジュアル分析ツールであるVBridgeを設計し、開発しました。 このシステムには、コントリビューションベースの特徴説明の新しい階層的な表示と、MLの特徴、説明、データの間の点を接続するリッチなインタラクションが含まれている。 2つのケーススタディと4人の臨床医とのエキスパートインタビューを通じてvbridgeの有効性を実証し,患者の状況記録とモデル説明を視覚的に関連付けることで,臨床医がモデル予測をより理解し,活用できることを示した。 さらに,臨床的意思決定を支援するための今後のMLツール開発における設計上の意味の一覧を導出した。

Machine learning (ML) is increasingly applied to Electronic Health Records (EHRs) to solve clinical prediction tasks. Although many ML models perform promisingly, issues with model transparency and interpretability limit their adoption in clinical practice. Directly using existing explainable ML techniques in clinical settings can be challenging. Through literature surveys and collaborations with six clinicians with an average of 17 years of clinical experience, we identified three key challenges, including clinicians' unfamiliarity with ML features, lack of contextual information, and the need for cohort-level evidence. Following an iterative design process, we further designed and developed VBridge, a visual analytics tool that seamlessly incorporates ML explanations into clinicians' decision-making workflow. The system includes a novel hierarchical display of contribution-based feature explanations and enriched interactions that connect the dots between ML features, explanations, and data. We demonstrated the effectiveness of VBridge through two case studies and expert interviews with four clinicians, showing that visually associating model explanations with patients' situational records can help clinicians better interpret and use model predictions when making clinician decisions. We further derived a list of design implications for developing future explainable ML tools to support clinical decision-making.
翻訳日:2021-08-06 14:48:08 公開日:2021-08-04
# 解釈可能なマルチモーダル深層学習によるパンキャンサ積分ヒストロジー-ゲノム解析

Pan-Cancer Integrative Histology-Genomic Analysis via Interpretable Multimodal Deep Learning ( http://arxiv.org/abs/2108.02278v1 )

ライセンス: Link先を確認
Richard J. Chen, Ming Y. Lu, Drew F. K. Williamson, Tiffany Y. Chen, Jana Lipkova, Muhammad Shaban, Maha Shady, Mane Williams, Bumjin Joo, Zahra Noor, Faisal Mahmood(参考訳) 深層学習に基づく計算病理学の急速に発展する分野は、スライド画像全体から客観的な予後モデルを開発することを約束している。 しかし、ほとんどの予後モデルは、組織学またはゲノム学のみに基づいており、ヒストロジーとゲノミクスがどのように統合され、共同画像-オミック予後モデルを開発するかについては触れていない。 さらに、このような予後を管理するこれらのモデルから説明可能な形態学的および分子的記述子を同定することが興味深い。 われわれは多モード深層学習を用いて,14種類のがん患者5,720名を対象に,ギガピクセル全体の画像,RNA配列の多量性,コピー数の変化,突然変異データを統合した。 我々の解釈可能、弱教師付き、マルチモーダルディープラーニングアルゴリズムは、これらの不均質なモダリティを融合して結果を予測することができ、マルチモーダルな解釈可能性によって貧弱で好ましい結果と共生するこれらのモダリティから予測的特徴を見つけることができる。 組織学スライドと分子プロファイルだけで訓練した単型深層学習モデルと比較し,14例中9例におけるリスク階層化のパフォーマンス向上を実証した。 さらに,全ての癌型にまたがる予後予測に寄与する形態学的および分子マーカーを解析した。 疾患の14種類の癌と患者レベルの患者の予後に関する形態学的および分子的相関を含むすべての分析データは、さらなる探索と予後のバイオマーカー発見を可能にする対話的オープンアクセスデータベース(http://pancancer.ma hmoodlab.org)に提示される。 これらのモデルが予後不良であることを示すため、wsisの高注意形態学的領域を更に分析し、腫瘍浸潤リンパ球の存在が14種類のがんタイプ中9種類で良好な癌予後と相関することを示した。

The rapidly emerging field of deep learning-based computational pathology has demonstrated promise in developing objective prognostic models from histology whole slide images. However, most prognostic models are either based on histology or genomics alone and do not address how histology and genomics can be integrated to develop joint image-omic prognostic models. Additionally identifying explainable morphological and molecular descriptors from these models that govern such prognosis is of interest. We used multimodal deep learning to integrate gigapixel whole slide pathology images, RNA-seq abundance, copy number variation, and mutation data from 5,720 patients across 14 major cancer types. Our interpretable, weakly-supervised, multimodal deep learning algorithm is able to fuse these heterogeneous modalities for predicting outcomes and discover prognostic features from these modalities that corroborate with poor and favorable outcomes via multimodal interpretability. We compared our model with unimodal deep learning models trained on histology slides and molecular profiles alone, and demonstrate performance increase in risk stratification on 9 out of 14 cancers. In addition, we analyze morphologic and molecular markers responsible for prognostic predictions across all cancer types. All analyzed data, including morphological and molecular correlates of patient prognosis across the 14 cancer types at a disease and patient level are presented in an interactive open-access database (http://pancancer.ma hmoodlab.org) to allow for further exploration and prognostic biomarker discovery. To validate that these model explanations are prognostic, we further analyzed high attention morphological regions in WSIs, which indicates that tumor-infiltrating lymphocyte presence corroborates with favorable cancer prognosis on 9 out of 14 cancer types studied.
翻訳日:2021-08-06 14:47:30 公開日:2021-08-04
# 教師なし修復学習のための最適輸送

Optimal Transport for Unsupervised Restoration Learning ( http://arxiv.org/abs/2108.02574v1 )

ライセンス: Link先を確認
Wei Wang, Fei Wen, Zeyu Yan, Rendong Ying, and Peilin Liu(参考訳) 近年, 教師なしの復元学習が盛んに行われている。 しかし、既存の手法は信号および/または分解モデルに対するいくつかの仮定に依存しており、実際の性能は制限されている。 劣化モデルに関する事前の知識を必要とせずに教師なし復元学習の最適基準を構築する方法は、まだ未解決の問題である。 そこで本研究では, 最適輸送理論に基づく教師なし修復学習の基準を提案する。 この基準は、例えば、知覚的再構成を行いながら、信号の情報をほぼ最大に保存するなど、好ましい特性を有する。 さらに, 実際の実装では, 緩和未拘束定式化が用いられるが, 理論上の緩和定式化は, 元の制約定式化と同じ解を持つことを示す。 リアルな写真、顕微鏡、深度、生の深度画像を含む実世界のデータに関する実験は、提案手法が教師付き手法(例えば、教師付き手法のPSNRに近づき、知覚品質が良くなるなど)と好適に比較できることを示した。 特に,空間相関ノイズや現実的な顕微鏡画像に対して,提案手法は知覚品質の向上だけでなく,教師付き手法よりもPSNRが高い。 さらに, 複雑な雑音を伴う厳密な条件, 例えば生深度画像において, 顕著な優位性を示す。

Recently, much progress has been made in unsupervised restoration learning. However, existing methods more or less rely on some assumptions on the signal and/or degradation model, which limits their practical performance. How to construct an optimal criterion for unsupervised restoration learning without any prior knowledge on the degradation model is still an open question. Toward answering this question, this work proposes a criterion for unsupervised restoration learning based on the optimal transport theory. This criterion has favorable properties, e.g., approximately maximal preservation of the information of the signal, whilst achieving perceptual reconstruction. Furthermore, though a relaxed unconstrained formulation is used in practical implementation, we show that the relaxed formulation in theory has the same solution as the original constrained formulation. Experiments on synthetic and real-world data, including realistic photographic, microscopy, depth, and raw depth images, demonstrate that the proposed method even compares favorably with supervised methods, e.g., approaching the PSNR of supervised methods while having better perceptual quality. Particularly, for spatially correlated noise and realistic microscopy images, the proposed method not only achieves better perceptual quality but also has higher PSNR than supervised methods. Besides, it shows remarkable superiority in harsh practical conditions with complex noise, e.g., raw depth images.
翻訳日:2021-08-06 14:45:06 公開日:2021-08-04
# ブール合成アンサンブルを用いた臨床ノートからのUMLS概念抽出に関する実証的研究

An Empirical Study of UMLS Concept Extraction from Clinical Notes using Boolean Combination Ensembles ( http://arxiv.org/abs/2108.02255v1 )

ライセンス: Link先を確認
Greg M. Silverman, Raymond L. Finzel, Michael V. Heinz, Jake Vasilakes, Jacob C. Solinsky, Reed McEwan, Benjamin C. Knoll, Christopher J. Tignanelli, Hongfang Liu, Hua Xu, Xiaoqian Jiang, Genevieve B. Melton, Serguei VS Pakhomov(参考訳) 本研究の目的は,複数のコーパスにまたがる複数の自然言語処理(nlp)システムからのアノテーション出力を結合するブール演算子の挙動を調査し,umls(unified medical language system)メタセサウルス概念の集約によるフィルタリングがumls概念の固有エンティティ認識(ner)に対するシステム性能に与える影響を評価することである。 2010 i2b2 VA チャレンジセット (31,161 アノテーション)、Multi-source Integrated Platform for Answering Clinical Questions (MiPACQ) コーパス (17,457 アノテーション)、Fairview Health Services corpus (44,530 アノテーション)。 UMLSの概念マッチングでは,MIPACQコーパスのブールアンサンブルが個々のシステムよりも高い性能を示す傾向を示した。 近似グリッド探索の使用は、精度-リコールトレードオフの最適化に役立ち、最適なアンサンブルを選択するためのヒューリスティックのセットを提供することができる。

Our objective in this study is to investigate the behavior of Boolean operators on combining annotation output from multiple Natural Language Processing (NLP) systems across multiple corpora and to assess how filtering by aggregation of Unified Medical Language System (UMLS) Metathesaurus concepts affects system performance for Named Entity Recognition (NER) of UMLS concepts. We used three corpora annotated for UMLS concepts: 2010 i2b2 VA challenge set (31,161 annotations), Multi-source Integrated Platform for Answering Clinical Questions (MiPACQ) corpus (17,457 annotations including UMLS concept unique identifiers), and Fairview Health Services corpus (44,530 annotations). Our results showed that for UMLS concept matching, Boolean ensembling of the MiPACQ corpus trended towards higher performance over individual systems. Use of an approximate grid-search can help optimize the precision-recall tradeoff and can provide a set of heuristics for choosing an optimal set of ensembles.
翻訳日:2021-08-06 14:44:43 公開日:2021-08-04
# 手話認識のためのマルチブランチアテンションネットワーク

Multi-Branch with Attention Network for Hand-Based Person Recognition ( http://arxiv.org/abs/2108.02234v1 )

ライセンス: Link先を確認
Nathanael L. Baisa, Bryan Williams, Hossein Rahmani, Plamen Angelov, Sue Black(参考訳) 本稿では,手画像が性的虐待などの重大犯罪の場合にのみ使用可能な情報である場合が多いため,犯罪捜査を目的とした新たな手元人物認識手法を提案する。 提案手法であるMulti-Branch with Attention Network (MBA-Net)は,チャネルと空間の両方の注意モジュールをブランチに組み込んで,グローバルな(注意を払わずに)ブランチを組み込んで,識別的特徴学習のためのグローバルな構造情報を取得する。 注意モジュールは、無関係な背景を抑えながら、手画像の関連する特徴に焦点を当てる。 画素シャッフルと等価なアテンション機構の弱点を克服するため,相対的な位置エンコーディングを空間アテンションモジュールに統合し,画素の空間位置を捉える。 2つの大規模多民族・公用ハンドデータセットの大規模な評価は,提案手法が既存の手による識別手法を超越して,最先端の性能を実現することを示す。

In this paper, we propose a novel hand-based person recognition method for the purpose of criminal investigations since the hand image is often the only available information in cases of serious crime such as sexual abuse. Our proposed method, Multi-Branch with Attention Network (MBA-Net), incorporates both channel and spatial attention modules in branches in addition to a global (without attention) branch to capture global structural information for discriminative feature learning. The attention modules focus on the relevant features of the hand image while suppressing the irrelevant backgrounds. In order to overcome the weakness of the attention mechanisms, equivariant to pixel shuffling, we integrate relative positional encodings into the spatial attention module to capture the spatial positions of pixels. Extensive evaluations on two large multi-ethnic and publicly available hand datasets demonstrate that our proposed method achieves state-of-the-art performance, surpassing the existing hand-based identification methods.
翻訳日:2021-08-06 14:43:45 公開日:2021-08-04
# トランスフォーマによる少数ショットセマンティクスセグメンテーションの促進

Boosting Few-shot Semantic Segmentation with Transformers ( http://arxiv.org/abs/2108.02266v1 )

ライセンス: Link先を確認
Guolei Sun, Yun Liu, Jingyun Liang, Luc Van Gool(参考訳) 完全教師付きセマンティックセグメンテーション法は十分な完全ラベル付きデータを必要とするため、未確認クラスに一般化できないため、少数ショットセグメンテーションは多くの研究の注目を集めている。 従来のアートは、クエリイメージの予測を行う前に共同で処理されるサポートとクエリイメージから特徴を抽出する。 プロセス全体は畳み込みニューラルネットワーク(CNN)に基づいており、ローカル情報のみを使用するという問題に繋がる。 本稿では,TRFSを用いたFew-shot Semantic segmentation法を提案する。 具体的には,グローバル・エンハンスメント・モジュール (GEM) とローカル・エンハンスメント・モジュール (LEM) の2つのモジュールからなる。 GEMはグローバル情報を活用するためにトランスフォーマーブロックを採用し、LEMは従来の畳み込みを利用してクエリやサポート機能を通じてローカル情報を利用する。 GEMとLEMは相補的であり、クエリイメージのセグメント化のためのより良い特徴表現を学ぶのに役立つ。 PASCAL-5iとCOCOデータセットの大規模な実験により,本手法が新たな最先端性能を実現し,その有効性を示した。

Due to the fact that fully supervised semantic segmentation methods require sufficient fully-labeled data to work well and can not generalize to unseen classes, few-shot segmentation has attracted lots of research attention. Previous arts extract features from support and query images, which are processed jointly before making predictions on query images. The whole process is based on convolutional neural networks (CNN), leading to the problem that only local information is used. In this paper, we propose a TRansformer-based Few-shot Semantic segmentation method (TRFS). Specifically, our model consists of two modules: Global Enhancement Module (GEM) and Local Enhancement Module (LEM). GEM adopts transformer blocks to exploit global information, while LEM utilizes conventional convolutions to exploit local information, across query and support features. Both GEM and LEM are complementary, helping to learn better feature representations for segmenting query images. Extensive experiments on PASCAL-5i and COCO datasets show that our approach achieves new state-of-the-art performance, demonstrating its effectiveness.
翻訳日:2021-08-06 14:43:27 公開日:2021-08-04
# 公平でai対応のヒッグス粒子崩壊データセット

A FAIR and AI-ready Higgs Boson Decay Dataset ( http://arxiv.org/abs/2108.02214v1 )

ライセンス: Link先を確認
Yifan Chen, E. A. Huerta, Javier Duarte, Philip Harris, Daniel S. Katz, Mark S. Neubauer, Daniel Diaz, Farouk Mokhtar, Raghav Kansal, Sang Eon Park, Volodymyr V. Kindratenko, Zhizhen Zhao and Roger Rusack(参考訳) 人間や機械による膨大な科学データセットの再利用を可能にするために、研究者は、データや人工知能(ai)モデルのファインダビリティ、アクセシビリティ、相互運用性、再利用性(fair)の原則に従う科学データセットの作成を目指している。 この記事では、あるデータセットがそれぞれのFAIR原則を満たすかどうかを評価するための、ドメインに依存しないステップバイステップアセスメントガイドを提供します。 次に、CERN Large Hadron ColliderのCMS Collaborationによって生成されたオープンなシミュレーションデータセットのFAIRnessを評価するために、このガイドを使用する方法を示す。 このデータセットはヒッグス粒子崩壊とクォークとグルーオンの背景で構成され、CERN Open Data Portalを通じて利用できる。 また、利用可能な他のツールを使用して、このデータセットのFAIRネスを評価し、FAIRコミュニティのメンバーからのフィードバックを取り入れて結果を検証する。 この記事では、その要素の可視化を含むデータセットの理解と探索を容易にするために、jupyterノートブックを添付します。 この研究は、高エネルギー粒子物理学データセットとAIモデルにおけるFAIRnessの作成と定量化に科学者を導くための一連の論文の中で、最初のものである。

To enable the reusability of massive scientific datasets by humans and machines, researchers aim to create scientific datasets that adhere to the principles of findability, accessibility, interoperability, and reusability (FAIR) for data and artificial intelligence (AI) models. This article provides a domain-agnostic, step-by-step assessment guide to evaluate whether or not a given dataset meets each FAIR principle. We then demonstrate how to use this guide to evaluate the FAIRness of an open simulated dataset produced by the CMS Collaboration at the CERN Large Hadron Collider. This dataset consists of Higgs boson decays and quark and gluon background, and is available through the CERN Open Data Portal. We also use other available tools to assess the FAIRness of this dataset, and incorporate feedback from members of the FAIR community to validate our results. This article is accompanied by a Jupyter notebook to facilitate an understanding and exploration of the dataset, including visualization of its elements. This study marks the first in a planned series of articles that will guide scientists in the creation and quantification of FAIRness in high energy particle physics datasets and AI models.
翻訳日:2021-08-06 14:33:35 公開日:2021-08-04
# ニューラルネットワークのアーキテクチャを成長させる

Growing an architecture for a neural network ( http://arxiv.org/abs/2108.02231v1 )

ライセンス: Link先を確認
Sergey Khashin, Ekaterina Shemyakova(参考訳) 本稿では,新しいアーキテクチャ検索アルゴリズムを提案する。 このアルゴリズムはプルーニング接続とニューロンの追加を交互に行い、層状アーキテクチャのみに制限されない。 ここでのアーキテクチャは、(いくつかのバイアスとアクティベーション関数とともに)重みを持つ任意の向きのグラフなので、そのようなネットワークに階層構造は存在しないかもしれない。 このアルゴリズムは、与えられたエラーに留まることの複雑さを最小化する。 画像上の前の点から次の点の明るさ予測問題について,本アルゴリズムを実証する。 2つ目のテスト問題は、白黒画像の明るさを定義する二変量関数の近似である。 最適化されたネットワークは、どちらの場合もニューラルネットワークアーキテクチャの標準ソリューションよりも大幅に優れています。

We propose a new kind of automatic architecture search algorithm. The algorithm alternates pruning connections and adding neurons, and it is not restricted to layered architectures only. Here architecture is an arbitrary oriented graph with some weights (along with some biases and an activation function), so there may be no layered structure in such a network. The algorithm minimizes the complexity of staying within a given error. We demonstrate our algorithm on the brightness prediction problem of the next point through the previous points on an image. Our second test problem is the approximation of the bivariate function defining the brightness of a black and white image. Our optimized networks significantly outperform the standard solution for neural network architectures in both cases.
翻訳日:2021-08-06 14:32:49 公開日:2021-08-04
# 部分的未知コスト関数を持つ学習型mpcの後悔解析

Regret Analysis of Learning-Based MPC with Partially-Unknown Cost Function ( http://arxiv.org/abs/2108.02307v1 )

ライセンス: Link先を確認
Ilgin Dogan, Zuo-Jun Max Shen, and Anil Aswani(参考訳) 探索/探索のトレードオフは、データ駆動および適応制御において固有の課題である。 このトレードオフは, 有限マルコフ連鎖に対する強化学習 (RL) や線形制御系に対する強化学習 (RL) に対して研究されているが, 非線形制御系の学習ベース制御にはあまり研究されていない。 非線形設定における重要な理論的課題は、線形の場合とは異なり、与えられたコストとシステムパラメータのセットに対する最適制御器の明示的なキャラクタリゼーションがないことである。 本稿では, 最適制御動作の基準として, 全システムパラメータの完全な知識を有する有限ホリゾン oracle コントローラの利用を提案する。 まず、このoracleの有限ホライゾンコントローラに関して、新たな後悔の概念を提案することができます。 第二に、このoracleの有限ホライゾンコントローラに関して、少ない後悔(すなわち、二乗根の後悔)を達成するための学習ベースのポリシーの開発を可能にします。 このポリシーは学習ベースモデル予測制御(LBMPC)の文脈で開発されている。 提案手法は, MPC法と最適化理論の手法を用いて, 閉ループ安定性を保証し, 後悔度を低くするために, 有限試料濃度境界を統計的に解析し, 制御理論解析を行う。 我々は,コスト関数が部分的には知られていない環境で,我々の政策の後悔度を低く示す加熱,換気,空調(HVAC)システムのモデルに関する数値実験で結論付けた。

The exploration/exploita tion trade-off is an inherent challenge in data-driven and adaptive control. Though this trade-off has been studied for multi-armed bandits, reinforcement learning (RL) for finite Markov chains, and RL for linear control systems; it is less well-studied for learning-based control of nonlinear control systems. A significant theoretical challenge in the nonlinear setting is that, unlike the linear case, there is no explicit characterization of an optimal controller for a given set of cost and system parameters. We propose in this paper the use of a finite-horizon oracle controller with perfect knowledge of all system parameters as a reference for optimal control actions. First, this allows us to propose a new regret notion with respect to this oracle finite-horizon controller. Second, this allows us to develop learning-based policies that we prove achieve low regret (i.e., square-root regret up to a log-squared factor) with respect to this oracle finite-horizon controller. This policy is developed in the context of learning-based model predictive control (LBMPC). We conduct a statistical analysis to prove finite sample concentration bounds for the estimation step of our policy, and then we perform a control-theoretic analysis using techniques from MPC- and optimization-theory to show this policy ensures closed-loop stability and achieves low regret. We conclude with numerical experiments on a model of heating, ventilation, and air-conditioning (HVAC) systems that show the low regret of our policy in a setting where the cost function is partially-unknown to the controller.
翻訳日:2021-08-06 14:32:40 公開日:2021-08-04
# 機械学習による脳卒中後症候群の予測

Predicting Post-Concussion Syndrome Outcomes with Machine Learning ( http://arxiv.org/abs/2108.02570v1 )

ライセンス: Link先を確認
Minhong Kim(参考訳) 本稿では, 持続性後けいれん症候群(pcs)患者の予後予測に機械学習モデルを用いた。 患者は、研究の2~3ヶ月前に脳卒中を患っていた。 評価データを活用することによって、機械学習モデルは、患者が4~5ヶ月後にPCSを継続するかどうかを予測することを目的とした。 ランダム森林分類器は85%の精度で最高性能を達成し、受信機動作特性曲線(AUC)の面積は0.94である。 PCSの結果を予測する要因は,外傷後ストレス障害(PTSD),不公平感,自己評価予後,外傷後重症度であった。 本研究では,機械学習モデルがpcsの結果を高精度に予測できることを示す。 さらなる研究により、永続的なPCS患者を支援するために、機械学習モデルが医療環境に実装される可能性がある。

In this paper, machine learning models are used to predict outcomes for patients with persistent post-concussion syndrome (PCS). Patients had sustained a concussion at an average of two to three months before the study. By utilizing assessed data, the machine learning models aimed to predict whether or not a patient would continue to have PCS after four to five months. The random forest classifier achieved the highest performance with an 85% accuracy and an area under the receiver operating characteristic curve (AUC) of 0.94. Factors found to be predictive of PCS outcome were Post-Traumatic Stress Disorder (PTSD), perceived injustice, self-rated prognosis, and symptom severity post-injury. The results of this study demonstrate that machine learning models can predict PCS outcomes with high accuracy. With further research, machine learning models may be implemented in healthcare settings to help patients with persistent PCS.
翻訳日:2021-08-06 14:31:33 公開日:2021-08-04
# 深部マルチタスクマイニングcalabi-yaau 4-folds

Deep multi-task mining Calabi-Yau four-folds ( http://arxiv.org/abs/2108.02221v1 )

ライセンス: Link先を確認
Harold Erbin, Riccardo Finotello, Robin Schneider and Mohamed Tamaazousti(参考訳) 我々は、深層学習を用いてカラビ・ヤウ多様体の接空間コホモロジーの次元を計算するための初期の努力を継続する。 本稿では、射影空間の積の完全交叉として構築されたすべてのカラビ・ヤウ四次元多様体のデータセットを考える。 最先端のコンピュータビジョンアーキテクチャにインスパイアされたニューラルネットワークを用いることで、初期のベンチマークを改善し、全ての4つの非自明なホッジ数値を同時にマルチタスクアーキテクチャを使って学習できることを実証する。 30%(80%)のトレーニング率で、$h^{(1,1)}$で100%、$h^{(2,1)}$ (100%)で97%、$h^{(3,1)}$で81%(96%)、$h^{(2,2)}$で49%(83%)の精度に達する。 オイラー数は計算が容易であり、指数計算から生じる線形制約を考慮に入れると100%の精度が得られる。

We continue earlier efforts in computing the dimensions of tangent space cohomologies of Calabi-Yau manifolds using deep learning. In this paper, we consider the dataset of all Calabi-Yau four-folds constructed as complete intersections in products of projective spaces. Employing neural networks inspired by state-of-the-art computer vision architectures, we improve earlier benchmarks and demonstrate that all four non-trivial Hodge numbers can be learned at the same time using a multi-task architecture. With 30% (80%) training ratio, we reach an accuracy of 100% for $h^{(1,1)}$ and 97% for $h^{(2,1)}$ (100% for both), 81% (96%) for $h^{(3,1)}$, and 49% (83%) for $h^{(2,2)}$. Assuming that the Euler number is known, as it is easy to compute, and taking into account the linear constraint arising from index computations, we get 100% total accuracy.
翻訳日:2021-08-06 14:29:30 公開日:2021-08-04
# 時系列における複素系の高次元ベイズ最適化アルゴリズム

High dimensional Bayesian Optimization Algorithm for Complex System in Time Series ( http://arxiv.org/abs/2108.02289v1 )

ライセンス: Link先を確認
Yuyang Chen, Kaiming Bi, Chih-Hang J. Wu, David Ben-Arieh, Ashesh Sinha(参考訳) 現在、時系列モデルを用いた高次元大域的最適化問題は工学分野から多くの注目を集めている。 ベイジアン最適化は,提案以来,グローバル最適化問題の解法として急速に普及し,有望なアプローチとなっている。 しかし、標準ベイズ最適化アルゴリズムは、モデルが高次元であるときの大域的最適解を解くには不十分である。 そこで本研究では,次元削減と異なる次元補充戦略を考慮したハイ次元ベイズ最適化アルゴリズムを提案する。 ベイズ最適化アルゴリズムに関する既存の文献の多くは、取得関数を最適化するサンプリング戦略について論じていない。 本研究では,取得関数を最適化しつつ,マルチアームバンディットとランダム検索の両方に基づく新しいサンプリング手法を提案する。 さらに,モデルの時間依存特性や次元依存特性に基づいて,提案アルゴリズムは次元を均等に低減することができる。 そこで本研究では,5つの異なる次元補充戦略を論じ,比較した。 最後に、最適解の最終精度を高めるために、提案アルゴリズムでは、最終段階における一連のアダムに基づくステップに基づく局所探索を追加する。 提案するベイズ最適化アルゴリズムは,時系列最適制御モデルを用いた高次元大域的最適化問題に対して,優れた性能を持つ合理的解が得られることを示した。

At present, high-dimensional global optimization problems with time-series models have received much attention from engineering fields. Since it was proposed, Bayesian optimization has quickly become a popular and promising approach for solving global optimization problems. However, the standard Bayesian optimization algorithm is insufficient to solving the global optimal solution when the model is high-dimensional. Hence, this paper presents a novel high dimensional Bayesian optimization algorithm by considering dimension reduction and different dimension fill-in strategies. Most existing literature about Bayesian optimization algorithms did not discuss the sampling strategies to optimize the acquisition function. This study proposed a new sampling method based on both the multi-armed bandit and random search methods while optimizing the acquisition function. Besides, based on the time-dependent or dimension-dependent characteristics of the model, the proposed algorithm can reduce the dimension evenly. Then, five different dimension fill-in strategies were discussed and compared in this study. Finally, to increase the final accuracy of the optimal solution, the proposed algorithm adds a local search based on a series of Adam-based steps at the final stage. Our computational experiments demonstrated that the proposed Bayesian optimization algorithm could achieve reasonable solutions with excellent performances for high dimensional global optimization problems with a time-series optimal control model.
翻訳日:2021-08-06 14:29:08 公開日:2021-08-04
# 機械学習の分類手法とポートフォリオ割り当て:市場効率の検討

Machine Learning Classification Methods and Portfolio Allocation: An Examination of Market Efficiency ( http://arxiv.org/abs/2108.02283v1 )

ライセンス: Link先を確認
Yang Bai and Kuntara Pukthuanthong(参考訳) 我々は,OOS(Out-of-sample)予測可能性を通じて市場効率を評価する新しい枠組みを設計する。 我々は,アセット価格問題を機械学習分類問題とし,帰納状態を予測するための分類モデルを構築した。 予測に基づくポートフォリオは、OOS経済の大きな伸びで市場を上回った。 予測精度を直接測定する。 各モデルに対して,3.34億戻り状態予測の精度をテストするために,二項テストの新たな適用を導入する。 実験の結果,我々のモデルは過去の情報から有用なコンテンツを抽出し,将来のリターン状態を予測できることがわかった。 OOS予測可能性と機械学習モデルに関するユニークな経済的な洞察を提供する。

We design a novel framework to examine market efficiency through out-of-sample (OOS) predictability. We frame the asset pricing problem as a machine learning classification problem and construct classification models to predict return states. The prediction-based portfolios beat the market with significant OOS economic gains. We measure prediction accuracies directly. For each model, we introduce a novel application of binomial test to test the accuracy of 3.34 million return state predictions. The tests show that our models can extract useful contents from historical information to predict future return states. We provide unique economic insights about OOS predictability and machine learning models.
翻訳日:2021-08-06 14:28:10 公開日:2021-08-04
# (参考訳) 変分アクター臨界アルゴリズム [全文訳有]

Variational Actor-Critic Algorithms ( http://arxiv.org/abs/2108.01215v2 )

ライセンス: CC BY 4.0
Yuhua Zhu, Lexing Ying(参考訳) 本稿では,値関数とポリシーの両方に対する変分定式化に基づく変分的アクタ-批判的アルゴリズムのクラスを提案する。 変分定式化の目的関数は、値関数を最大化する部分とベルマン残基を最小化する部分の2つの部分からなる。 値関数とポリシ更新を併用したバニラ勾配降下に加えて,収束を高速化するために,クリッピング法とフリップ法という2つの変種を提案する。 また,ベルマン残差の原因子が十分大きい場合には,アルゴリズムの不動点が最適方針に近いことも証明する。

We introduce a class of variational actor-critic algorithms based on a variational formulation over both the value function and the policy. The objective function of the variational formulation consists of two parts: one for maximizing the value function and the other for minimizing the Bellman residual. Besides the vanilla gradient descent with both the value function and the policy updates, we propose two variants, the clipping method and the flipping method, in order to speed up the convergence. We also prove that, when the prefactor of the Bellman residual is sufficiently large, the fixed point of the algorithm is close to the optimal policy.
翻訳日:2021-08-06 12:48:45 公開日:2021-08-04
# PyEuroVoc: EuroVoc記述子を用いた多言語法的文書分類ツール

PyEuroVoc: A Tool for Multilingual Legal Document Classification with EuroVoc Descriptors ( http://arxiv.org/abs/2108.01139v2 )

ライセンス: Link先を確認
Andrei-Marius Avram, Vasile Pais, Dan Tufis(参考訳) EuroVocは欧州連合の機関の立法文書を整理するために作られた多言語シソーラスである。 特殊性の異なるレベルにある何千ものカテゴリを含み、記述者はおよそ30の言語で法的文書によって標的にされている。 本研究では,現代トランスフォーマーに基づく事前学習型言語モデルを用いて,22言語を対象としたEuroVoc分類のための統一フレームワークを提案する。 我々は、トレーニングされたモデルの性能を広範囲に研究し、同じデータセット上で、同様のツールであるJEXによって得られた結果が大幅に改善されたことを示す。 コードと微調整されたモデルは、トレーニングされたモデルの重みをロードし、新しいドキュメントを分類するプロセスを容易にするプログラムインターフェイスとともに、オープンソース化された。

EuroVoc is a multilingual thesaurus that was built for organizing the legislative documentary of the European Union institutions. It contains thousands of categories at different levels of specificity and its descriptors are targeted by legal texts in almost thirty languages. In this work we propose a unified framework for EuroVoc classification on 22 languages by fine-tuning modern Transformer-based pretrained language models. We study extensively the performance of our trained models and show that they significantly improve the results obtained by a similar tool - JEX - on the same dataset. The code and the fine-tuned models were open sourced, together with a programmatic interface that eases the process of loading the weights of a trained model and of classifying a new document.
翻訳日:2021-08-06 11:31:18 公開日:2021-08-04
# (参考訳) 敵攻撃に対するドメイン適応のロバスト性について [全文訳有]

On the Robustness of Domain Adaption to Adversarial Attacks ( http://arxiv.org/abs/2108.01807v1 )

ライセンス: CC0 1.0
Liyuan Zhang, Yuhang Zhou, Lei Zhang(参考訳) 最先端のディープニューラルネットワーク(DNN)は、教師なしドメイン適応(UDA)において優れた性能を示すことが証明されている。 しかし、近年の研究では、dnnが敵のサンプルに攻撃される場合、元の画像に小さな外乱を追加するだけでこれらの攻撃が実行されることが示されている。 これに焦点を当てた作業はたくさんありますが、私たちが知る限り、教師なしドメイン適応モデルの堅牢性に関する体系的な研究はありません。 そこで,敵攻撃に対する教師なしドメイン適応の堅牢性について論じる。 ドメイン適応における敵攻撃と防御の様々な設定をベンチマークし、擬似ラベルに基づくクロスドメイン攻撃手法を提案する。 最も重要なことは、異なるデータセット、モデル、攻撃方法、防御方法の影響を分析します。 直接的に、私たちの研究は、教師なしのドメイン適応モデルの限定的な堅牢性を証明するものであり、攻撃に対するモデルの堅牢性を改善するために、コミュニティがもっと注意を払うことを期待しています。

State-of-the-art deep neural networks (DNNs) have been proved to have excellent performance on unsupervised domain adaption (UDA). However, recent work shows that DNNs perform poorly when being attacked by adversarial samples, where these attacks are implemented by simply adding small disturbances to the original images. Although plenty of work has focused on this, as far as we know, there is no systematic research on the robustness of unsupervised domain adaption model. Hence, we discuss the robustness of unsupervised domain adaption against adversarial attacking for the first time. We benchmark various settings of adversarial attack and defense in domain adaption, and propose a cross domain attack method based on pseudo label. Most importantly, we analyze the impact of different datasets, models, attack methods and defense methods. Directly, our work proves the limited robustness of unsupervised domain adaptation model, and we hope our work may facilitate the community to pay more attention to improve the robustness of the model against attacking.
翻訳日:2021-08-05 23:25:19 公開日:2021-08-04
# (参考訳) グラフの深層学習色数と斜め数 [全文訳有]

Deep Learning Chromatic and Clique Numbers of Graphs ( http://arxiv.org/abs/2108.01810v1 )

ライセンス: CC BY 4.0
Jason Van Hulse, Joshua S. Friedman(参考訳) ディープニューラルネットワークは、様々なアプリケーション領域にまたがる幅広い問題に適用され、大きな成功を収めている。 近年,特に組合せ最適化問題の研究は,機械学習コミュニティに大きな関心を寄せている。 本研究では,グラフ理論で遭遇する古典的なnp完全組合せ最適化問題を表現する,グラフの彩色数と最大クランクサイズを予測するディープラーニングモデルを開発した。 ニューラルネットワークは、複雑なドメイン固有の特徴工学とは対照的に、グラフの最も基本的な表現である隣接行列を用いて訓練される。 実験の結果,ディープニューラルネットワーク,特に畳み込みニューラルネットワークは,この問題に対して高い性能が得られることがわかった。

Deep neural networks have been applied to a wide range of problems across different application domains with great success. Recently, research into combinatorial optimization problems in particular has generated much interest in the machine learning community. In this work, we develop deep learning models to predict the chromatic number and maximum clique size of graphs, both of which represent classical NP-complete combinatorial optimization problems encountered in graph theory. The neural networks are trained using the most basic representation of the graph, the adjacency matrix, as opposed to undergoing complex domain-specific feature engineering. The experimental results show that deep neural networks, and in particular convolutional neural networks, obtain strong performance on this problem.
翻訳日:2021-08-05 23:12:12 公開日:2021-08-04
# (参考訳) 絵柄のポーズ推定のための伝達学習 [全文訳有]

Transfer Learning for Pose Estimation of Illustrated Characters ( http://arxiv.org/abs/2108.01819v1 )

ライセンス: CC BY 4.0
Shuhong Chen, Matthias Zwicker(参考訳) 人間のポーズ情報は、アクティビティ認識やモーショントラッキングなど、下流の多くの画像処理タスクにおいて重要な要素である。 同様に、イラストレイテッドキャラクタドメインのポーズ推定器は、参照ポーズ検索や自動キャラクタアニメーションといった、補助的なコンテンツ作成タスクのための貴重な事前情報を提供する。 しかし、現代のデータ駆動技術は、自然画像のポーズ推定性能を大幅に向上させたが、イラストレーションの作業はほとんど行われていない。 我々の研究では、ドメイン固有およびタスク固有のソースモデルから効率的に移行学習することで、このドメインギャップを橋渡しします。 さらに,既存のポーズ推定データセットのアップグレードと拡張を行い,分類とセグメンテーションサブタスクのための2つの新しいデータセットを導入する。 次に, 提案手法を応用し, ポーズガイド付挿絵検索の新たな課題を解決する。 すべてのデータ、モデル、コードは公開される予定だ。

Human pose information is a critical component in many downstream image processing tasks, such as activity recognition and motion tracking. Likewise, a pose estimator for the illustrated character domain would provide a valuable prior for assistive content creation tasks, such as reference pose retrieval and automatic character animation. But while modern data-driven techniques have substantially improved pose estimation performance on natural images, little work has been done for illustrations. In our work, we bridge this domain gap by efficiently transfer-learning from both domain-specific and task-specific source models. Additionally, we upgrade and expand an existing illustrated pose estimation dataset, and introduce two new datasets for classification and segmentation subtasks. We then apply the resultant state-of-the-art character pose estimator to solve the novel task of pose-guided illustration retrieval. All data, models, and code will be made publicly available.
翻訳日:2021-08-05 23:02:14 公開日:2021-08-04
# (参考訳) 逆学習と転移正規化を伴う網膜血管分節に対する教師なしドメイン適応 [全文訳有]

Unsupervised Domain Adaptation for Retinal Vessel Segmentation with Adversarial Learning and Transfer Normalization ( http://arxiv.org/abs/2108.01821v1 )

ライセンス: CC BY 4.0
Wei Feng, Lie Ju, Lin Wang, Kaimin Song, Xin Wang, Xin Zhao, Qingyi Tao, and Zongyuan Ge(参考訳) 各種心血管疾患および眼科疾患のスクリーニング、診断、治療において網膜血管分画は重要な役割を担っている。 近年,深層学習に基づく網膜血管セグメンテーションアルゴリズムが目覚ましい性能を達成している。 しかし、ドメインシフトの問題により、トレーニングデータとは異なる新しいデータに適用された場合、これらのアルゴリズムの性能は劣化することが多い。 テストドメインごとに新しいデータを手動でラベリングするのは、しばしば時間と労力のかかる作業です。 本研究では,エントロピーベースの逆学習および伝達正規化層を用いて,網膜血管セグメンテーションにおける非教師なし領域適応を探索し,領域をまたいでうまく一般化し,対象領域のアノテーションを必要としないセグメンテーションネットワークを訓練する。 具体的には、まず、ターゲット領域におけるエントロピー最小化の目的を達成しつつ、ソースドメインとターゲットドメイン間の分布差を低減するために、エントロピーに基づく対向学習戦略を開発する。 さらに、ディープネットワークの転送性をさらに向上するために、新しい転送正規化層を提案する。 ドメインの分散ギャップを補うために、各ドメインの特徴を別々に正規化する。 さらに、ドメイン間でより転送可能な機能チャネルを適応的に選択することで、ネットワークの一般化性能をさらに向上させる。 提案手法は,3つの標準基底画像データセットと超広視野基底画像データセットについて広範な実験を行い,本手法が他の最先端手法と比較して大きな性能向上をもたらすことを示した。

Retinal vessel segmentation plays a key role in computer-aided screening, diagnosis, and treatment of various cardiovascular and ophthalmic diseases. Recently, deep learning-based retinal vessel segmentation algorithms have achieved remarkable performance. However, due to the domain shift problem, the performance of these algorithms often degrades when they are applied to new data that is different from the training data. Manually labeling new data for each test domain is often a time-consuming and laborious task. In this work, we explore unsupervised domain adaptation in retinal vessel segmentation by using entropy-based adversarial learning and transfer normalization layer to train a segmentation network, which generalizes well across domains and requires no annotation of the target domain. Specifically, first, an entropy-based adversarial learning strategy is developed to reduce the distribution discrepancy between the source and target domains while also achieving the objective of entropy minimization on the target domain. In addition, a new transfer normalization layer is proposed to further boost the transferability of the deep network. It normalizes the features of each domain separately to compensate for the domain distribution gap. Besides, it also adaptively selects those feature channels that are more transferable between domains, thus further enhancing the generalization performance of the network. We conducted extensive experiments on three regular fundus image datasets and an ultra-widefield fundus image dataset, and the results show that our approach yields significant performance gains compared to other state-of-the-art methods.
翻訳日:2021-08-05 22:45:07 公開日:2021-08-04
# (参考訳) 人物画像合成における注意と流れの融合 [全文訳有]

Combining Attention with Flow for Person Image Synthesis ( http://arxiv.org/abs/2108.01823v1 )

ライセンス: CC BY 4.0
Yurui Ren, Yubo Wu, Thomas H. Li, Shan Liu, Ge Li(参考訳) ポーズ誘導型人物画像合成は、基準画像から対象ポーズに変換することにより、人物画像の合成を目標とする。 本稿では,一般的な空間変換ブロックに相補的な利点があることを示す。 本稿では,注目操作とフローベース操作を組み合わせた新しいモデルを提案する。 本モデルでは,アテンション操作を利用して正確なターゲット構造を生成するだけでなく,フローベース操作を用いてリアルなソーステクスチャをサンプリングする。 客観的かつ主観的な実験は、我々のモデルの優越性を実証する。 一方,包括的アブレーション研究は仮説を検証し,提案するモジュールの有効性を示す。 また,ポートレート画像編集タスクのさらなる実験により,提案手法の汎用性が示された。

Pose-guided person image synthesis aims to synthesize person images by transforming reference images into target poses. In this paper, we observe that the commonly used spatial transformation blocks have complementary advantages. We propose a novel model by combining the attention operation with the flow-based operation. Our model not only takes the advantage of the attention operation to generate accurate target structures but also uses the flow-based operation to sample realistic source textures. Both objective and subjective experiments demonstrate the superiority of our model. Meanwhile, comprehensive ablation studies verify our hypotheses and show the efficacy of the proposed modules. Besides, additional experiments on the portrait image editing task demonstrate the versatility of the proposed combination.
翻訳日:2021-08-05 22:25:23 公開日:2021-08-04
# (参考訳) セマンティック空間における創発的離散通信 [全文訳有]

Emergent Discrete Communication in SemanticSpaces ( http://arxiv.org/abs/2108.01828v1 )

ライセンス: CC BY 4.0
Mycal Tucker, Huao Li, Siddharth Agrawal, Dana Hughes, Katia Sycara, Michael Lewis, Julie Shah(参考訳) 強化学習設定で訓練された神経エージェントは、個別のトークンを介して自分自身でコミュニケーションを学習し、エージェントが単独ではできないことをチームとして達成する。 しかし、1ホットベクトルを離散的な通信トークンとして使うという現在の標準は、エージェントがゼロショット理解のようなより望ましいコミュニケーションの側面を得るのを妨げている。 自然言語処理からの単語埋め込み技術に着想を得て,学習された連続空間から導出される離散トークンを介して通信可能なニューラルエージェントアーキテクチャを提案する。 決定論的枠組みでは、我々の手法が幅広いシナリオで通信を最適化するのに対し、一方のホットトークンは制限された仮定の下でのみ最適であることを示す。 セルフプレイ実験では、トレーニングされたエージェントがトークンを意味的に測定可能な方法でクラスタ化する方法を学習し、他のテクニックが失敗するノイズの多い環境で通信できることを確認します。 最後に,本手法を用いたエージェントは,新規なヒューマンコミュニケーションに効果的に反応し,人間はラベルなしの創発的エージェントコミュニケーションを理解でき,一方のホットなコミュニケーションよりも優れていることを実証する。

Neural agents trained in reinforcement learning settings can learn to communicate among themselves via discrete tokens, accomplishing as a team what agents would be unable to do alone. However, the current standard of using one-hot vectors as discrete communication tokens prevents agents from acquiring more desirable aspects of communication such as zero-shot understanding. Inspired by word embedding techniques from natural language processing, we propose neural agent architectures that enables them to communicate via discrete tokens derived from a learned, continuous space. We show in a decision theoretic framework that our technique optimizes communication over a wide range of scenarios, whereas one-hot tokens are only optimal under restrictive assumptions. In self-play experiments, we validate that our trained agents learn to cluster tokens in semantically-meaning ful ways, allowing them communicate in noisy environments where other techniques fail. Lastly, we demonstrate both that agents using our method can effectively respond to novel human communication and that humans can understand unlabeled emergent agent communication, outperforming the use of one-hot communication.
翻訳日:2021-08-05 22:13:41 公開日:2021-08-04
# (参考訳) オフライン分散マルチエージェント強化学習 [全文訳有]

Offline Decentralized Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2108.01832v1 )

ライセンス: CC BY 4.0
Jiechuan Jiang and Zongqing Lu(参考訳) 多くの実世界のマルチエージェント協調タスクでは、高いコストとリスクのため、エージェントは環境と対話できず、学習中に経験を収集するが、オフラインデータセットから学ぶ必要がある。 しかし、データセットから計算された遷移確率は他のエージェントの学習ポリシーによって引き起こされる遷移確率とは大きく異なり、値推定に大きな誤差が生じる。 さらに、エージェントのデータセットの経験分布は多様な行動ポリシーによって大きく変化し、エージェント間の価値推定に大きな違いをもたらす可能性がある。 その結果、エージェントは非協調的な準最適ポリシーを学ぶことになる。 本稿では,遷移確率を変化させるために値偏差と遷移正規化を利用するmabcqを提案する。 値偏差は高値次状態の遷移確率を楽観的に増加させ、遷移正規化は次の状態のバイアス付き遷移確率を正規化する。 共にエージェントに、潜在的に最適かつ協調したポリシーを発見するよう促す。 数学的には、修正後の非定常遷移確率の下でのq-learningの収束を証明する。 MABCQは, エージェント間の値推定値の差を小さくし, ベースラインを大幅に上回ることを示す。

In many real-world multi-agent cooperative tasks, due to high cost and risk, agents cannot interact with the environment and collect experiences during learning, but have to learn from offline datasets. However, the transition probabilities calculated from the dataset can be much different from the transition probabilities induced by the learned policies of other agents, creating large errors in value estimates. Moreover, the experience distributions of agents' datasets may vary wildly due to diverse behavior policies, causing large difference in value estimates between agents. Consequently, agents will learn uncoordinated suboptimal policies. In this paper, we propose MABCQ, which exploits value deviation and transition normalization to modify the transition probabilities. Value deviation optimistically increases the transition probabilities of high-value next states, and transition normalization normalizes the biased transition probabilities of next states. They together encourage agents to discover potential optimal and coordinated policies. Mathematically, we prove the convergence of Q-learning under the non-stationary transition probabilities after modification. Empirically, we show that MABCQ greatly outperforms baselines and reduces the difference in value estimates between agents.
翻訳日:2021-08-05 21:52:29 公開日:2021-08-04
# (参考訳) モデルベース対向モデリング [全文訳有]

Model-Based Opponent Modeling ( http://arxiv.org/abs/2108.01843v1 )

ライセンス: CC BY 4.0
Xiaopeng Yu, Jiechuan Jiang, Haobin Jiang, and Zongqing Lu(参考訳) エージェントがマルチエージェント環境と対話する場合、これまで見られなかったさまざまな相手に対処することは困難である。 相手の行動、目標、信念をモデル化することは、エージェントが異なる相手に適応するようにポリシーを調整するのに役立つ。 また、同時に学習している相手や推論できる相手も考慮しておくことも重要である。 しかし、既存の作業は通常、上記のタイプの相手の1つに対処する。 本稿では,あらゆる種類の対戦相手に対応するための環境モデルを用いたモデルベース対戦相手モデリング(mbom)を提案する。 MBOMは環境モデルにおける再帰的推論プロセスをシミュレートし、対立する政策を改善する一連のセットを想像する。 MBOMは、相手ポリシーを効果的かつ正確に表現するために、相手の実際の行動と類似性に応じて、想定された相手ポリシーをさらに混合する。 実証的に、mbomは、競争的および協調的環境において、既存の方法よりも効果的な適応を達成し、それぞれ異なるタイプの対戦相手、すなわち固定政策、na\"ive learner、推論学習者とをそれぞれ達成している。

When one agent interacts with a multi-agent environment, it is challenging to deal with various opponents unseen before. Modeling the behaviors, goals, or beliefs of opponents could help the agent adjust its policy to adapt to different opponents. In addition, it is also important to consider opponents who are learning simultaneously or capable of reasoning. However, existing work usually tackles only one of the aforementioned types of opponent. In this paper, we propose model-based opponent modeling (MBOM), which employs the environment model to adapt to all kinds of opponent. MBOM simulates the recursive reasoning process in the environment model and imagines a set of improving opponent policies. To effectively and accurately represent the opponent policy, MBOM further mixes the imagined opponent policies according to the similarity with the real behaviors of opponents. Empirically, we show that MBOM achieves more effective adaptation than existing methods in competitive and cooperative environments, respectively with different types of opponent, i.e., fixed policy, na\"ive learner, and reasoning learner.
翻訳日:2021-08-05 21:17:10 公開日:2021-08-04
# (参考訳) 性能予測を用いた効率的なニューラルアーキテクチャ探索 [全文訳有]

Efficient Neural Architecture Search with Performance Prediction ( http://arxiv.org/abs/2108.01854v1 )

ライセンス: CC BY 4.0
Ibrahim Alshubaily(参考訳) ニューラルネットワークは、人間や他の機械学習モデルによって認識できないほど複雑なパターンを抽出する驚くべき能力を持つ強力なモデルである。 ニューラルネットワークは、大きな学習能力を持つエンドツーエンドシステムをトレーニングできるモデルの最初のクラスである。 しかしながら、人間の経験と長い試行錯誤を必要とするニューラルネットワークを設計する上で、依然として難しい課題があります。 ソリューションとして、ニューラルアーキテクチャ検索を使用して、目の前のタスクに最適なネットワークアーキテクチャを見つけることができます。 既存のNASアルゴリズムは、スクラッチから完全にトレーニングすることで新しいアーキテクチャの適合性を評価し、高性能コンピュータ上で動作しても、計算コストが禁じられる。 本稿では,サンプルアーキテクチャの評価を高速化するために,エンドツーエンドのオフライン性能予測器を提案する。 指標項-学習曲線予測、ニューラルネットワーク検索、強化学習。

Neural networks are powerful models that have a remarkable ability to extract patterns that are too complex to be noticed by humans or other machine learning models. Neural networks are the first class of models that can train end-to-end systems with large learning capacities. However, we still have the difficult challenge of designing the neural network, which requires human experience and a long process of trial and error. As a solution, we can use a neural architecture search to find the best network architecture for the task at hand. Existing NAS algorithms generally evaluate the fitness of a new architecture by fully training from scratch, resulting in the prohibitive computational cost, even if operated on high-performance computers. In this paper, an end-to-end offline performance predictor is proposed to accelerate the evaluation of sampled architectures. Index Terms- Learning Curve Prediction, Neural Architecture Search, Reinforcement Learning.
翻訳日:2021-08-05 21:02:12 公開日:2021-08-04
# (参考訳) 低リソース合成コード混合hinglishテキストの品質評価 [全文訳有]

Quality Evaluation of the Low-Resource Synthetically Generated Code-Mixed Hinglish Text ( http://arxiv.org/abs/2108.01861v1 )

ライセンス: CC BY 4.0
Vivek Srivastava and Mayank Singh(参考訳) この共有タスクでは、コード混合テキスト生成システムの品質に影響を及ぼす要因について、参加チームが調査する。 コードミキシングされたヒングリッシュ文を2つの異なるアプローチで合成し,人間のアノテータを用いて生成品質を評価する。 合成Hinglishデータセットにおける品質評価予測とアノテータの不一致予測という2つのサブタスクを提案する。 提案したサブタスクは、コードミックステキストの品質と人間の知覚に影響を与える要因の推論と説明を行う。

In this shared task, we seek the participating teams to investigate the factors influencing the quality of the code-mixed text generation systems. We synthetically generate code-mixed Hinglish sentences using two distinct approaches and employ human annotators to rate the generation quality. We propose two subtasks, quality rating prediction and annotators' disagreement prediction of the synthetic Hinglish dataset. The proposed subtasks will put forward the reasoning and explanation of the factors influencing the quality and human perception of the code-mixed text.
翻訳日:2021-08-05 20:56:53 公開日:2021-08-04
# (参考訳) 自己一貫性深層学習による動的システムの構築と時系列予測 [全文訳有]

Reconstructing a dynamical system and forecasting time series by self-consistent deep learning ( http://arxiv.org/abs/2108.01862v1 )

ライセンス: CC BY 4.0
Zhe Wang and Claude Guet(参考訳) ノイズの多い決定論的時系列に対して、教師なしフィルタリング、状態空間再構成、基礎となる微分方程式の同定、予測を提供する自己一貫性の深層学習フレームワークを導入する。 信号の事前情報がなければ、時系列を状態空間に埋め込む(決定論的構造、すなわち、決定論的構造)。 誘引者は明らかにされる。 解軌跡の進化が未知の力学系によって記述されるという仮定の下で、確率的外乱をフィルタリングする。 ディープニューラルネットワークを用いて, 埋め込み関数, 解軌跡, 動的システムを構築する。 ニューラルネットワークの軌道の微分可能性を利用することで、神経力学系を局所的に定義し、数値解法で勾配を伝播する必要性を緩和する。 ガウス雑音にマスキングされたカオス時系列について,提案手法のフィルタリング能力と予測能力を示す。

We introduce a self-consistent deep-learning framework which, for a noisy deterministic time series, provides unsupervised filtering, state-space reconstruction, identification of the underlying differential equations and forecasting. Without a priori information on the signal, we embed the time series in a state space, where deterministic structures, i.e. attractors, are revealed. Under the assumption that the evolution of solution trajectories is described by an unknown dynamical system, we filter out stochastic outliers. The embedding function, the solution trajectories and the dynamical systems are constructed using deep neural networks, respectively. By exploiting the differentiability of the neural solution trajectory, the neural dynamical system is defined locally at each time, mitigating the need for propagating gradients through numerical solvers. On a chaotic time series masked by additive Gaussian noise, we demonstrate the filtering ability and the predictive power of the proposed framework.
翻訳日:2021-08-05 20:50:02 公開日:2021-08-04
# (参考訳) データ駆動指導によるタスク非依存スキルの学習 [全文訳有]

Learning Task Agnostic Skills with Data-driven Guidance ( http://arxiv.org/abs/2108.01869v1 )

ライセンス: CC BY 4.0
Even Klemsdal, Sverre Herland, Abdulmajid Murad(参考訳) 強化学習における自律性を高めるために、エージェントは手動で設計された報酬関数に頼ることなく有用な行動を学ぶ必要がある。 そのために,タスクに依存しない目的を用いてエージェントが利用できる固有の選択肢を学習するために,スキル発見手法が用いられている。 しかし、タスク固有の報酬のガイダンスがなければ、複雑な空間や高次元空間におけるスキル発見の制約が不足しているため、創発的行動は一般的に役に立たない。 本稿では,学習状態投影法を用いて,専門家参加状態のサブセットに対してスキル発見を導く枠組みを提案する。 各種強化学習(RL)タスクに本手法を適用し,このような投影がより有用な行動をもたらすことを示す。

To increase autonomy in reinforcement learning, agents need to learn useful behaviours without reliance on manually designed reward functions. To that end, skill discovery methods have been used to learn the intrinsic options available to an agent using task-agnostic objectives. However, without the guidance of task-specific rewards, emergent behaviours are generally useless due to the under-constrained problem of skill discovery in complex and high-dimensional spaces. This paper proposes a framework for guiding the skill discovery towards the subset of expert-visited states using a learned state projection. We apply our method in various reinforcement learning (RL) tasks and show that such a projection results in more useful behaviours.
翻訳日:2021-08-05 20:37:22 公開日:2021-08-04
# (参考訳) 要約エクスプローラ:テキスト要約における芸術の状態を可視化する [全文訳有]

Summary Explorer: Visualizing the State of the Art in Text Summarization ( http://arxiv.org/abs/2108.01879v1 )

ライセンス: CC BY 4.0
Shahbaz Syed, Tariq Yousef, Khalid Al-Khatib, Stefan J\"anicke, Martin Potthast(参考訳) 本稿では,3つのベンチマークデータセットに対して,55-最先端の単一文書要約手法の出力をコンパイルし,定性評価中にそれらを視覚的に探索することにより,テキスト要約システムの手動検査を支援する新しいツールであるSlide Explorerを紹介する。 ツールの基本設計は3つのよく知られた要約品質基準(カバレッジ、忠実度、位置バイアス)を、カスタマイズされた視覚化に基づいたガイド付きアセスメントにカプセル化したものである。 このツールは、ローカルに要約モデルをデバッグするための既存のアプローチを補完し、改善する。 このツールはhttps://tldr.webis.d e/で入手できる。

This paper introduces Summary Explorer, a new tool to support the manual inspection of text summarization systems by compiling the outputs of 55~state-of-the-art single document summarization approaches on three benchmark datasets, and visually exploring them during a qualitative assessment. The underlying design of the tool considers three well-known summary quality criteria (coverage, faithfulness, and position bias), encapsulated in a guided assessment based on tailored visualizations. The tool complements existing approaches for locally debugging summarization models and improves upon them. The tool is available at https://tldr.webis.d e/
翻訳日:2021-08-05 20:24:58 公開日:2021-08-04
# (参考訳) uavを用いたマルチレゾリューション意味セグメンテーションのための適応経路計画 [全文訳有]

Adaptive Path Planning for UAV-based Multi-Resolution Semantic Segmentation ( http://arxiv.org/abs/2108.01884v1 )

ライセンス: CC BY 4.0
Felix Stache and Jonas Westheider and Federico Magistri and Marija Popovi\'c and Cyrill Stachniss(参考訳) 本稿では,無人航空機(UAV)を用いた地形の正確なセマンティックセグメンテーションのための適応経路計画の問題に対処する。 地形モニタリングやリモートセンシングにおけるUAVの利用は、高モビリティ、低コスト、柔軟な展開のために急速に勢いを増している。 しかし、飛行時間の制限により、大きな環境で取得したデータの価値を最大化するミッションを計画することが重要な課題である。 そこで本研究では,uav経路を応用して地形上の領域に必要となる高分解能な意味セグメンテーションを得るオンライン計画手法を提案する。 これにより,最大分解能で網羅的なマッピングにエネルギーを浪費することなく,低高度で綿密な検査を行うことができる。 我々のアプローチの重要な特徴は、UAV高度とセマンティックセグメンテーションの精度の関係をキャプチャするディープラーニングベースのアーキテクチャの新しい精度モデルである。 本研究は,実世界フィールドデータを用いた精密農業における作物・雑草セグメンテーションの適用について評価する。

In this paper, we address the problem of adaptive path planning for accurate semantic segmentation of terrain using unmanned aerial vehicles (UAVs). The usage of UAVs for terrain monitoring and remote sensing is rapidly gaining momentum due to their high mobility, low cost, and flexible deployment. However, a key challenge is planning missions to maximize the value of acquired data in large environments given flight time limitations. To address this, we propose an online planning algorithm which adapts the UAV paths to obtain high-resolution semantic segmentations necessary in areas on the terrain with fine details as they are detected in incoming images. This enables us to perform close inspections at low altitudes only where required, without wasting energy on exhaustive mapping at maximum resolution. A key feature of our approach is a new accuracy model for deep learning-based architectures that captures the relationship between UAV altitude and semantic segmentation accuracy. We evaluate our approach on the application of crop/weed segmentation in precision agriculture using real-world field data.
翻訳日:2021-08-05 20:12:18 公開日:2021-08-04
# (参考訳) トレーニングなしで同じ知覚制御アーキテクチャを用いた2つのアタリパドルゲームにおけるハイパフォーマンス [全文訳有]

High Performance Across Two Atari Paddle Games Using the Same Perceptual Control Architecture Without Training ( http://arxiv.org/abs/2108.01895v1 )

ライセンス: CC BY 4.0
Tauseef Gulrez and Warren Mansell(参考訳) 深部強化学習 (DRL) には, 大きなサンプルと長時間のトレーニング時間が必要である。 しかし、コンピュータゲームのような新しいタスクにおいて正確な指示プログラムが提供されると、人間は長い期間の訓練を必要とすることは滅多にない。 pct(perceptual control theory)を用いて,アーケード学習環境(ale)を用いたビデオゲーム学習において,トレーニングサンプルやトレーニング時間の不要な,単純な閉ループモデルを構築した。 このモデルは、環境からの入力を階層的に整理された知覚信号に解析するようにプログラムされ、参照信号から各知覚変数の入力信号を減算して動的エラー信号を計算し、この誤差を低減する。 2つの異なるatariパドルゲームであるbreakoutとpongで同じモデルをテストし、少なくともdrlパラダイム以上のパフォーマンスを達成し、優れた人間のパフォーマンスに近づいた。 本研究は,単純な仮定に基づく知覚制御モデルが学習なしではうまく機能することを示す。 結論として,より心理的機能に類似した学習の役割を規定した。

Deep reinforcement learning (DRL) requires large samples and a long training time to operate optimally. Yet humans rarely require long periods training to perform well on novel tasks, such as computer games, once they are provided with an accurate program of instructions. We used perceptual control theory (PCT) to construct a simple closed-loop model which requires no training samples and training time within a video game study using the Arcade Learning Environment (ALE). The model was programmed to parse inputs from the environment into hierarchically organised perceptual signals, and it computed a dynamic error signal by subtracting the incoming signal for each perceptual variable from a reference signal to drive output signals to reduce this error. We tested the same model across two different Atari paddle games Breakout and Pong to achieve performance at least as high as DRL paradigms, and close to good human performance. Our study shows that perceptual control models, based on simple assumptions, can perform well without learning. We conclude by specifying a parsimonious role of learning that may be more similar to psychological functioning.
翻訳日:2021-08-05 20:01:53 公開日:2021-08-04
# (参考訳) 回帰によるジェネリックニューラルアーキテクチャ検索 [全文訳有]

Generic Neural Architecture Search via Regression ( http://arxiv.org/abs/2108.01899v1 )

ライセンス: CC BY 4.0
Yuhong Li, Cong Hao, Pan Li, Jinjun Xiong, Deming Chen(参考訳) 既存のニューラルアーキテクチャサーチ(NAS)アルゴリズムは、コンピュータビジョンにおける画像分類などの下流タスクに特化している。 しかし、コンピュータビジョンにおけるResNetや自然言語処理におけるLSTMのような顕著なニューラルネットワークアーキテクチャは、一般的に入力データからパターンを抽出し、異なる下流タスクでうまく機能することを示している。 優れたニューラルアーキテクチャの評価と探索のために、特定のダウンストリームタスクのパフォーマンスを使う必要がありますか? 下流タスクに非依存でありながら、NASを効果的かつ効率的に実行できますか? 本研究は,ジェネリックNAS(GenNAS)と呼ばれる新規で汎用的なNASフレームワークを提案することにより,上記の2つの疑問に肯定的に答え,最先端NASソリューションの改善を試みる。 GenNASはタスク固有のラベルを使用せず、代わりにアーキテクチャ評価のために手動で設計された合成信号ベースに \textit{regression} を採用する。 このような自己教師あり回帰タスクは、入力信号パターンをキャプチャして変換するアーキテクチャの固有能力を効果的に評価し、トレーニングサンプルをより十分な使用を可能にする。 次に,ダウンストリームタスク固有ラベルを用いた合成信号の組み合わせを最適化する自動タスク探索を提案し,gennaの性能をさらに向上させる。 我々はまた、すべての検索空間においてGenNASの汎用性とエンドツーエンドNAS性能を徹底的に評価する。

Most existing neural architecture search (NAS) algorithms are dedicated to the downstream tasks, e.g., image classification in computer vision. However, extensive experiments have shown that, prominent neural architectures, such as ResNet in computer vision and LSTM in natural language processing, are generally good at extracting patterns from the input data and perform well on different downstream tasks. These observations inspire us to ask: Is it necessary to use the performance of specific downstream tasks to evaluate and search for good neural architectures? Can we perform NAS effectively and efficiently while being agnostic to the downstream task? In this work, we attempt to affirmatively answer the above two questions and improve the state-of-the-art NAS solution by proposing a novel and generic NAS framework, termed Generic NAS (GenNAS). GenNAS does not use task-specific labels but instead adopts \textit{regression} on a set of manually designed synthetic signal bases for architecture evaluation. Such a self-supervised regression task can effectively evaluate the intrinsic power of an architecture to capture and transform the input signal patterns, and allow more sufficient usage of training samples. We then propose an automatic task search to optimize the combination of synthetic signals using limited downstream-task-spec ific labels, further improving the performance of GenNAS. We also thoroughly evaluate GenNAS's generality and end-to-end NAS performance on all search spaces, which outperforms almost all existing works with significant speedup.
翻訳日:2021-08-05 19:54:38 公開日:2021-08-04
# (参考訳) テキスト分類に配慮したtextcnn [全文訳有]

TextCNN with Attention for Text Classification ( http://arxiv.org/abs/2108.01921v1 )

ライセンス: CC BY 4.0
Ibrahim Alshubaily(参考訳) テキストコンテンツの大部分は構造化されていないため、自動分類は多くのアプリケーションにとって重要なタスクとなっている。 テキスト分類の目標は、テキスト文書を1つ以上の予め定義されたカテゴリに自動的に分類することである。 近年,Kimによる文分類のための畳み込みニューラルネットワークなど,テキスト分類のためのシンプルなアーキテクチャが提案されている。 本稿では,その性能を高めるために注意機構をネットワークに取り入れ,語彙選択のためのワードランクを提案し,ネットワーク埋め込みパラメータを削減し,最小精度の損失でトレーニングを高速化する。 また、提案する20newsのtextcnn精度を94.79から96.88に増やすことで、wordrankを使用することで、埋め込み層のパラメータ数を大幅に削減でき、精度の低下も少ない。 語彙選択にWordRankを使用することで、パラメータの数を7.9Mから1.5Mに5倍以上減らすことができ、精度は1.2%しか低下しない。

The vast majority of textual content is unstructured, making automated classification an important task for many applications. The goal of text classification is to automatically classify text documents into one or more predefined categories. Recently proposed simple architectures for text classification such as Convolutional Neural Networks for Sentence Classification by Kim, Yoon showed promising results. In this paper, we propose incorporating an attention mechanism into the network to boost its performance, we also propose WordRank for vocabulary selection to reduce the network embedding parameters and speed up training with minimum accuracy loss. By adopting the proposed ideas TextCNN accuracy on 20News increased from 94.79 to 96.88, moreover, the number of parameters for the embedding layer can be reduced substantially with little accuracy loss by using WordRank. By using WordRank for vocabulary selection we can reduce the number of parameters by more than 5x from 7.9M to 1.5M, and the accuracy will only decrease by 1.2%.
翻訳日:2021-08-05 19:31:18 公開日:2021-08-04
# (参考訳) 言語モデルをクエリする方法? [全文訳有]

How to Query Language Models? ( http://arxiv.org/abs/2108.01928v1 )

ライセンス: CC BY 4.0
Leonard Adolphs, Shehzaad Dhuliawala, Thomas Hofmann(参考訳) 大規模な事前学習言語モデル(LM)は言語だけでなく、事実や常識の知識を回復することができる。 マスクベースのlmsに格納されている知識にアクセスするには、clozeスタイルの質問を使って、モデルに空白を埋め込ませることができます。 構造化知識ベースに対する柔軟性の優位性は、特定の情報を必要とする適切なクエリを見つけるのに欠点がある。 質問を曖昧にするために人間の行動にインスパイアされた我々は、例によってLMを問うことを提案する。 neuerは誰のためにプレーするのか? 「『ロナルド・プレイズ・フォー・ポルトガル』など他の主題を用いてその関係を示す戦略が成功した。」 原題は「Who do Neuer play for? この手法をLAMAプローブに適用し,T-RExデータに対するBERTの最大37.8%の改善を実現した。 例はモデルのコンテキストを通じて提供され、微調整も追加のフォワードパスも必要としない。 これは、lmsが以前想定されていたよりも事実的で常識的な知識を持っていることを示唆している。

Large pre-trained language models (LMs) are capable of not only recovering linguistic but also factual and commonsense knowledge. To access the knowledge stored in mask-based LMs, we can use cloze-style questions and let the model fill in the blank. The flexibility advantage over structured knowledge bases comes with the drawback of finding the right query for a certain information need. Inspired by human behavior to disambiguate a question, we propose to query LMs by example. To clarify the ambivalent question "Who does Neuer play for?", a successful strategy is to demonstrate the relation using another subject, e.g., "Ronaldo plays for Portugal. Who does Neuer play for?". We apply this approach of querying by example to the LAMA probe and obtain substantial improvements of up to 37.8% for BERT-large on the T-REx data when providing only 10 demonstrations--even outperforming a baseline that queries the model with up to 40 paraphrases of the question. The examples are provided through the model's context and thus require neither fine-tuning nor an additional forward pass. This suggests that LMs contain more factual and commonsense knowledge than previously assumed--if we query the model in the right way.
翻訳日:2021-08-05 19:27:15 公開日:2021-08-04
# (参考訳) ログ解析のないログベース異常検出 [全文訳有]

Log-based Anomaly Detection Without Log Parsing ( http://arxiv.org/abs/2108.01955v1 )

ライセンス: CC BY 4.0
Van-Hoang Le and Hongyu Zhang(参考訳) ソフトウェアシステムはしばしばトラブルシューティングのためにシステムログに重要なランタイム情報を記録する。 ログデータを使用してシステム異常を検出するための機械学習モデルを構築する研究が数多く行われている。 実験の結果,1) oov (out-of-vocabulary) ワード, 2) 意味的誤解によって,既存のログに基づく異常検出手法はログ解析の誤りに大きく影響していることがわかった。 ログ解析エラーにより、異常検出のための重要な情報が失われる可能性がある。 既存の手法の限界に対処するために,ログ解析を必要としない新しいログベースの異常検出手法であるNeuralLogを提案する。 NeuralLogは生ログメッセージの意味を抽出し、意味ベクトルとして表現する。 これらの表現ベクトルは、ログシーケンスからコンテキスト情報をキャプチャできるtransformerベースの分類モデルを通じて異常を検出するために使用される。 実験の結果,提案手法はログメッセージの意味を効果的に理解し,正確な異常検出結果が得られることがわかった。 全体として、NeuralLogは4つの公開データセットで0.95以上のF1スコアを獲得し、既存のアプローチを上回っている。

Software systems often record important runtime information in system logs for troubleshooting purposes. There have been many studies that use log data to construct machine learning models for detecting system anomalies. Through our empirical study, we find that existing log-based anomaly detection approaches are significantly affected by log parsing errors that are introduced by 1) OOV (out-of-vocabulary) words, and 2) semantic misunderstandings. The log parsing errors could cause the loss of important information for anomaly detection. To address the limitations of existing methods, we propose NeuralLog, a novel log-based anomaly detection approach that does not require log parsing. NeuralLog extracts the semantic meaning of raw log messages and represents them as semantic vectors. These representation vectors are then used to detect anomalies through a Transformer-based classification model, which can capture the contextual information from log sequences. Our experimental results show that the proposed approach can effectively understand the semantic meaning of log messages and achieve accurate anomaly detection results. Overall, NeuralLog achieves F1-scores greater than 0.95 on four public datasets, outperforming the existing approaches.
翻訳日:2021-08-05 19:08:03 公開日:2021-08-04
# (参考訳) 教師なし3次元行動表現学習のためのスケルトンクラウドカラー化 [全文訳有]

Skeleton Cloud Colorization for Unsupervised 3D Action Representation Learning ( http://arxiv.org/abs/2108.01959v1 )

ライセンス: CC BY 4.0
Siyuan Yang, Jun Liu, Shijian Lu, Meng Hwa Er, Alex C. Kot(参考訳) 骨格に基づく人間の行動認識は近年注目を集めている。 しかし、既存の作品のほとんどが教師付き学習に焦点を合わせており、多くの注釈付きアクションシーケンスを収集するのにしばしば費用がかかる。 骨格行動認識のための教師なし表現学習について検討し、ラベルのない骨格配列データから骨格表現を学習できる新しい骨格雲カラー化手法を設計する。 具体的には、スケルトンアクションシーケンスを3dスケルトンクラウドとして表現し、元の(注釈なし)スケルトンシーケンスの時間順序と空間順序に従って雲の各点を着色する。 色付きスケルトン点雲を活用することで、スケルトン関節の人工色ラベルから空間的特徴を効果的に学習できる自動エンコーダフレームワークを設計する。 我々は,非教師付き,半教師付き,完全教師付きの設定を含む,異なる構成で訓練されたアクション分類器を用いて,スケルトンクラウドのカラー化手法を評価する。 NTU RGB+DおよびNW-UCLAデータセットの大規模な実験により、提案手法は既存の教師なしおよび半教師付き3D動作認識法を大きなマージンで上回り、教師付き3D動作認識における競合性能も達成することを示した。

Skeleton-based human action recognition has attracted increasing attention in recent years. However, most of the existing works focus on supervised learning which requiring a large number of annotated action sequences that are often expensive to collect. We investigate unsupervised representation learning for skeleton action recognition, and design a novel skeleton cloud colorization technique that is capable of learning skeleton representations from unlabeled skeleton sequence data. Specifically, we represent a skeleton action sequence as a 3D skeleton cloud and colorize each point in the cloud according to its temporal and spatial orders in the original (unannotated) skeleton sequence. Leveraging the colorized skeleton point cloud, we design an auto-encoder framework that can learn spatial-temporal features from the artificial color labels of skeleton joints effectively. We evaluate our skeleton cloud colorization approach with action classifiers trained under different configurations, including unsupervised, semi-supervised and fully-supervised settings. Extensive experiments on NTU RGB+D and NW-UCLA datasets show that the proposed method outperforms existing unsupervised and semi-supervised 3D action recognition methods by large margins, and it achieves competitive performance in supervised 3D action recognition as well.
翻訳日:2021-08-05 18:38:32 公開日:2021-08-04
# (参考訳) 3次元から2次元へのオルタナティブトレーニングと幾何学的制約によるビデオからの深度とエゴ運動の自己教師付き学習 [全文訳有]

Self-Supervised Learning of Depth and Ego-Motion from Video by Alternative Training and Geometric Constraints from 3D to 2D ( http://arxiv.org/abs/2108.01980v1 )

ライセンス: CC0 1.0
Jiaojiao Fang, Guizhong Liu(参考訳) ラベルなし単眼ビデオからの深度とエゴモーションの自己教師付き学習は、有望な結果を得て、広く注目を集めている。 既存のほとんどの手法は、構造移動(SFM)の原理に基づいて、隣接するフレームの光度整合性によって深度とポーズのネットワークを共同で訓練する。 しかし,深度とポーズネットワークの結合関係は学習性能に大きく影響を与え,特にポーズ学習において,再投影関係はあいまいさに敏感である。 本稿では,各タスクを代替訓練し,エピポーラ幾何制約を反復的最接近点(icp)ベースの点雲マッチングプロセスに組み込むことにより,補助課題を伴わない深層学習性能の向上を目標とする。 深層ネットワークとポーズネットワークを共同で訓練するのとは違って,両タスクの相互依存を,相互に活用し,各損失を交互にトレーニングし,他方を固定する,という考え方である。 また,ログスケールの3次元構造的一貫性の損失も設計し,トレーニング中の奥行き値の低減に重点を置いています。 最適化を容易にするため、ポーズ学習のためのICPベースの学習プロセスに、エピポーラ幾何学をさらに取り入れる。 様々なベンチマークデータセットに関する広範囲な実験は、最先端の自己教師付き手法よりもアルゴリズムが優れていることを示している。

Self-supervised learning of depth and ego-motion from unlabeled monocular video has acquired promising results and drawn extensive attention. Most existing methods jointly train the depth and pose networks by photometric consistency of adjacent frames based on the principle of structure-from-motio n (SFM). However, the coupling relationship of the depth and pose networks seriously influences the learning performance, and the re-projection relations is sensitive to scale ambiguity, especially for pose learning. In this paper, we aim to improve the depth-pose learning performance without the auxiliary tasks and address the above issues by alternative training each task and incorporating the epipolar geometric constraints into the Iterative Closest Point (ICP) based point clouds match process. Distinct from jointly training the depth and pose networks, our key idea is to better utilize the mutual dependency of these two tasks by alternatively training each network with respective losses while fixing the other. We also design a log-scale 3D structural consistency loss to put more emphasis on the smaller depth values during training. To makes the optimization easier, we further incorporate the epipolar geometry into the ICP based learning process for pose learning. Extensive experiments on various benchmarks datasets indicate the superiority of our algorithm over the state-of-the-art self-supervised methods.
翻訳日:2021-08-05 18:22:19 公開日:2021-08-04
# (参考訳) co-tuning と stochastic normalization を用いた肺音の分類 [全文訳有]

Lung Sound Classification Using Co-tuning and Stochastic Normalization ( http://arxiv.org/abs/2108.01991v1 )

ライセンス: CC BY 4.0
Truc Nguyen, Franz Pernkopf(参考訳) 本稿では, 術前トレーニングしたResNetモデルを用いて, 冒険的な肺音と呼吸器疾患の分類を行う。 事前学習モデルの知識は,バニラファインチューニング,コチューニング,確率正規化,コチューニングと確率正規化の組み合わせを用いて伝達される。 さらに, 時間領域と時間周波数領域のデータの増大は, ICBHIと多チャンネル肺音データセットのクラス不均衡を考慮に入れている。 さらに、ICBHIデータセット上の記録装置特性の変動を考慮するためにスペクトル補正を適用した。 実験で提案したシステムは, 両データセットの異常な肺音と呼吸器疾患に対して, 最先端の肺音分類システムよりも優れていた。

In this paper, we use pre-trained ResNet models as backbone architectures for classification of adventitious lung sounds and respiratory diseases. The knowledge of the pre-trained model is transferred by using vanilla fine-tuning, co-tuning, stochastic normalization and the combination of the co-tuning and stochastic normalization techniques. Furthermore, data augmentation in both time domain and time-frequency domain is used to account for the class imbalance of the ICBHI and our multi-channel lung sound dataset. Additionally, we apply spectrum correction to consider the variations of the recording device properties on the ICBHI dataset. Empirically, our proposed systems mostly outperform all state-of-the-art lung sound classification systems for the adventitious lung sounds and respiratory diseases of both datasets.
翻訳日:2021-08-05 18:05:18 公開日:2021-08-04
# (参考訳) 段木と非対称性標識DAG

Staged trees and asymmetry-labeled DAGs ( http://arxiv.org/abs/2108.01994v1 )

ライセンス: CC BY 4.0
Gherardo Varando, Federico Carli, Manuele Leonelli(参考訳) ベイズネットワーク(英: Bayesian network)は、グラフのトポロジーを用いて、興味のある変数間の対称的な条件独立を表現できる確率的グラフィカルモデルのクラスである。 これらはステージ木と呼ばれるより一般的なモデルの特別な場合と見なすことができ、任意の種類の非対称条件独立を表現できる。 ここでは,これら2つのモデル間の関係を定式化し,条件付き独立性を直感的に読み取るために使用可能な,ステージ付きツリーの最小ベイズネットワーク表現を導入する。 さらに、非対称ラベル有向非巡回グラフと呼ばれる新しいラベル付きグラフを定義し、その辺は任意の2つの確率変数の間に存在する依存型を表すためにラベル付けされる。 様々なデータセットが方法論を説明するために使用され、非対称構造をより柔軟にエンコードし表現するモデルを構築する必要性を強調している。

Bayesian networks are a widely-used class of probabilistic graphical models capable of representing symmetric conditional independence between variables of interest using the topology of the underlying graph. They can be seen as a special case of the much more general class of models called staged trees, which can represent any type of non-symmetric conditional independence. Here we formalize the relationship between these two models and introduce a minimal Bayesian network representation of the staged tree, which can be used to read conditional independences in an intuitive way. Furthermore, we define a new labeled graph, termed asymmetry-labeled directed acyclic graph, whose edges are labeled to denote the type of dependence existing between any two random variables. Various datasets are used to illustrate the methodology, highlighting the need to construct models which more flexibly encode and represent non-symmetric structures.
翻訳日:2021-08-05 17:37:29 公開日:2021-08-04
# (参考訳) 単一ラベルレギュレータによる多層金不斉損失補正 [全文訳有]

Multi-Label Gold Asymmetric Loss Correction with Single-Label Regulators ( http://arxiv.org/abs/2108.02032v1 )

ライセンス: CC BY 4.0
Cosmin Octavian Pene, Amirmasoud Ghiassi, Taraneh Younesian, Robert Birke, Lydia Y.Chen(参考訳) マルチラベル学習は、画像が複数のラベルを含むマルチクラス分類の新たな拡張である。 クリーンで完全なラベル付きデータセットをマルチラベル学習で取得するのは非常に高価であるだけでなく、実際のラベルの多くは、自動的または非専門的なアノテーション技術のために破損または欠落している。 ノイズラベルデータにより予測性能が大幅に低下する。 本稿では,シングルラベルレギュレータ(galc-slr)を用いた,ノイズラベルに対してロバストな新しい非対称損失補正を提案する。 galc-slrは、単一ラベルのサンプルを用いてノイズ混乱行列を推定し、ノイズラベルへの過剰フィットを避けるために推定混乱行列を介して非対称損失補正を構築する。 その結果,MS-COCOのリアルタイムデータセットの平均精度は28.67%向上し,非対称データの一般化が向上し,予測性能が向上した。

Multi-label learning is an emerging extension of the multi-class classification where an image contains multiple labels. Not only acquiring a clean and fully labeled dataset in multi-label learning is extremely expensive, but also many of the actual labels are corrupted or missing due to the automated or non-expert annotation techniques. Noisy label data decrease the prediction performance drastically. In this paper, we propose a novel Gold Asymmetric Loss Correction with Single-Label Regulators (GALC-SLR) that operates robust against noisy labels. GALC-SLR estimates the noise confusion matrix using single-label samples, then constructs an asymmetric loss correction via estimated confusion matrix to avoid overfitting to the noisy labels. Empirical results show that our method outperforms the state-of-the-art original asymmetric loss multi-label classifier under all corruption levels, showing mean average precision improvement up to 28.67% on a real world dataset of MS-COCO, yielding a better generalization of the unseen data and increased prediction performance.
翻訳日:2021-08-05 17:36:31 公開日:2021-08-04
# (参考訳) Dyn-ASR:音声によるコンパクト多言語音声認識とアクセント同定 [全文訳有]

Dyn-ASR: Compact, Multilingual Speech Recognition via Spoken Language and Accent Identification ( http://arxiv.org/abs/2108.02034v1 )

ライセンス: CC BY 4.0
Sangeeta Ghangam, Daniel Whitenack, Joshua Nemecek(参考訳) エッジデバイス上で自動音声認識(ASR)を実行するのは、特に複数の言語をサポートする必要のあるシナリオにおいて、リソースの制約のために簡単ではない。 エッジデバイス上での多言語音声認識を実現するための新しい手法を提案する。 このアプローチでは、言語識別とアクセント識別の両方を使用して、特定のアクセントに対して微調整された複数の単言語ASRモデルの1つを選択する。 認識性能とリソース使用量の両方の最初の結果は、他のソリューションが消費するメモリの12分の1以下を使用したアプローチで有望である。

Running automatic speech recognition (ASR) on edge devices is non-trivial due to resource constraints, especially in scenarios that require supporting multiple languages. We propose a new approach to enable multilingual speech recognition on edge devices. This approach uses both language identification and accent identification to select one of multiple monolingual ASR models on-the-fly, each fine-tuned for a particular accent. Initial results for both recognition performance and resource usage are promising with our approach using less than 1/12th of the memory consumed by other solutions.
翻訳日:2021-08-05 17:23:10 公開日:2021-08-04
# (参考訳) 学習可能なプロンプトチューニング:テキスト分類のためのプロンプトバーバリザに知識を組み込む [全文訳有]

Knowledgeable Prompt-tuning: Incorporating Knowledge into Prompt Verbalizer for Text Classification ( http://arxiv.org/abs/2108.02035v1 )

ライセンス: CC BY 4.0
Shengding Hu, Ning Ding, Huadong Wang, Zhiyuan Liu, Juanzi Li and Maosong Sun(参考訳) 事前学習された言語モデル(plm)をタスク固有のプロンプトでチューニングすることは、テキスト分類に有望なアプローチである。 特に以前の研究では、プロンプトチューニングは、追加の分類器を持つジェネリックな微調整メソッドよりも、低データシナリオにおいて著しく優れていることが示されている。 プロンプトチューニングの基本的な考え方は、テキスト、すなわちテンプレートを入力に挿入し、分類問題をマスク付き言語モデリング問題に変換することである。 動詞化子は、通常、勾配降下によって手作りまたは探索されるが、範囲が不足し、かなりのバイアスと高いばらつきをもたらす可能性がある。 本研究は,外部知識を動詞化器に取り入れ,kpt( knowledgeable prompt-tuning)を形成し,プロンプトチューニングの改善と安定化に焦点をあてる。 具体的には、外部知識ベース(kbs)を用いて動詞のラベル語空間を拡大し、拡大ラベル語空間で予測する前にplm自体で拡張ラベル語空間を洗練する。 ゼロと少数ショットのテキスト分類タスクに関する大規模な実験は、知識のあるプロンプトチューニングの有効性を示す。

Tuning pre-trained language models (PLMs) with task-specific prompts has been a promising approach for text classification. Particularly, previous studies suggest that prompt-tuning has remarkable superiority in the low-data scenario over the generic fine-tuning methods with extra classifiers. The core idea of prompt-tuning is to insert text pieces, i.e., template, to the input and transform a classification problem into a masked language modeling problem, where a crucial step is to construct a projection, i.e., verbalizer, between a label space and a label word space. A verbalizer is usually handcrafted or searched by gradient descent, which may lack coverage and bring considerable bias and high variances to the results. In this work, we focus on incorporating external knowledge into the verbalizer, forming a knowledgeable prompt-tuning (KPT), to improve and stabilize prompt-tuning. Specifically, we expand the label word space of the verbalizer using external knowledge bases (KBs) and refine the expanded label word space with the PLM itself before predicting with the expanded label word space. Extensive experiments on zero and few-shot text classification tasks demonstrate the effectiveness of knowledgeable prompt-tuning.
翻訳日:2021-08-05 17:14:02 公開日:2021-08-04
# (参考訳) 科学的openieのためのマルチラウンド解析に基づくマルチワードルール [全文訳有]

Multi-Round Parsing-based Multiword Rules for Scientific OpenIE ( http://arxiv.org/abs/2108.02074v1 )

ライセンス: CC BY 4.0
Joseph Kuebler and Lingbo Tong and Meng Jiang(参考訳) 科学文献における情報抽出(IE)は多くの下流業務を促進してきた。 OpenIEは、関係スキーマを必要としないが、主題とオブジェクトの関係を記述するリレーショナルフレーズを識別するが、科学におけるIEのトレンドトピックである。 主題、オブジェクト、関係はしばしばマルチワード表現であり、非常に限定的あるいは訓練データなしで与えられた表現の境界を特定する方法の課題をもたらす。 本稿では,専門家のアノテーションを必要とせず,任意の科学的データセットに適用可能な依存関係解析に基づく構造化情報抽出規則を提案する。 その結果,提案手法の有効性が示された。 否定的な結果も議論する。

Information extraction (IE) in scientific literature has facilitated many down-stream tasks. OpenIE, which does not require any relation schema but identifies a relational phrase to describe the relationship between a subject and an object, is being a trending topic of IE in sciences. The subjects, objects, and relations are often multiword expressions, which brings challenges for methods to identify the boundaries of the expressions given very limited or even no training data. In this work, we present a set of rules for extracting structured information based on dependency parsing that can be applied to any scientific dataset requiring no expert's annotation. Results on novel datasets show the effectiveness of the proposed method. We discuss negative results as well.
翻訳日:2021-08-05 16:58:49 公開日:2021-08-04
# (参考訳) 高次元不均衡産業データのオートエンコーダモデル [全文訳有]

Auto-encoder based Model for High-dimensional Imbalanced Industrial Data ( http://arxiv.org/abs/2108.02083v1 )

ライセンス: CC BY 4.0
Chao Zhang1, Sthitie Bom(参考訳) iotデバイスの普及に伴い、分散コントロールシステムはこれまでにない頻度でより多くのセンサーを捕捉し、処理している。 これらの新しいデータは、ボリュームとノベルティのため、データ駆動技術なしでは効果的に消費できない。 ディープラーニングは、特にソフトセンサーモデリングにおいて、これらのデータを分析するための有望な技術として登場しつつある。 複雑なデータの強力な表現能力と、アーキテクチャの観点から提供される柔軟性は、産業環境でのアクティブな応用研究のトピックとなります。 しかし, ソフトセンシングにおける深層学習の応用は, 相変わらず, ノイズや不完全な大規模産業データにアクセスできないため, 工場制御システムに広く組み込まれていない。 したがって、ほとんどの研究論文で発表された結果は、産業環境における様々なデータに適用しても容易には再現できない。 ここでは,公開オープンソフトセンサデータよりもはるかに大きく,より複雑である製造データセットを提供する。 さらに、データセットはシーゲート工場のアクティブなサービスであり、実際のデータの複雑でノイズの多い性質を反映するため、匿名化は必要なだけである。 分散重み付き多頭自動エンコーダ分類モデルを導入し,高次元・高度不均衡データに適用する。 高度に不均衡なデータを扱うために重み付けやサンプリング手法を使用するのに加えて、モデルは出力教師付き表現学習とマルチタスク重み付けを利用して同時に複数の出力を予測する。

With the proliferation of IoT devices, the distributed control systems are now capturing and processing more sensors at higher frequency than ever before. These new data, due to their volume and novelty, cannot be effectively consumed without the help of data-driven techniques. Deep learning is emerging as a promising technique to analyze these data, particularly in soft sensor modeling. The strong representational capabilities of complex data and the flexibility it offers from an architectural perspective make it a topic of active applied research in industrial settings. However, the successful applications of deep learning in soft sensing are still not widely integrated in factory control systems, because most of the research on soft sensing do not have access to large scale industrial data which are varied, noisy and incomplete. The results published in most research papers are therefore not easily reproduced when applied to the variety of data in industrial settings. Here we provide manufacturing data sets that are much larger and more complex than public open soft sensor data. Moreover, the data sets are from Seagate factories on active service with only necessary anonymization, so that they reflect the complex and noisy nature of real-world data. We introduce a variance weighted multi-headed auto-encoder classification model that fits well into the high-dimensional and highly imbalanced data. Besides the use of weighting or sampling methods to handle the highly imbalanced data, the model also simultaneously predicts multiple outputs by exploiting output-supervised representation learning and multi-task weighting.
翻訳日:2021-08-05 16:45:56 公開日:2021-08-04
# (参考訳) 共分散検出のための自由ランチ:コンテキスト調整 [全文訳有]

Free Lunch for Co-Saliency Detection: Context Adjustment ( http://arxiv.org/abs/2108.02093v1 )

ライセンス: CC BY 4.0
Lingdong Kong, Prakhar Ganesh, Tan Wang, Junhao Liu, Yao Chen, Le Zhang(参考訳) トレーニングとテストの間には、確かに矛盾があるのです。 高品質な共存検出データセットの構築には、時間と労働集約的なピクセルレベルのラベル付けが伴うため、最近の研究では、トレーニングのためにセマンティックセグメンテーションやサリエンシ検出データセットに頼らざるを得なくなった。 しかし、適切な共存性の欠如と、これらのデータセットに複数の前景オブジェクトがないことは、モデルによって学習された急激な変動と固有のバイアスを引き起こす可能性がある。 そこで本研究では,コンテキスト調整による対実的トレーニングの概念を導入し,市販のサリエンシ検出データセットからの画像を利用して新しいサンプルを合成する,"コストフリー"グループカットペースト(GCP)手順を提案する。 GCPに続いて、コンテキスト調整トレーニングと呼ばれる新しいデータセットを収集します。 データセットの2つの変種、すなわちCATとCAT+はそれぞれ16,750と33,500の画像で構成されている。 すべての画像は自動的に高品質のマスクでアノテートされる。 副産物として、他の関連する作業を促進するために、オブジェクトカテゴリやエッジ情報も提供される。 データセットの優越性を示すため,最先端モデルを用いた広範な実験を行った。 CAT/CAT+の規模、多様性、品質が、この分野の研究者に利益をもたらすことを期待しています。 datasetとbenchmark toolkitは、私たちのプロジェクトページからアクセスできます。

We unveil a long-standing problem in the prevailing co-saliency detection systems: there is indeed inconsistency between training and testing. Constructing a high-quality co-saliency detection dataset involves time-consuming and labor-intensive pixel-level labeling, which has forced most recent works to rely instead on semantic segmentation or saliency detection datasets for training. However, the lack of proper co-saliency and the absence of multiple foreground objects in these datasets can lead to spurious variations and inherent biases learned by models. To tackle this, we introduce the idea of counterfactual training through context adjustment, and propose a "cost-free" group-cut-paste (GCP) procedure to leverage images from off-the-shelf saliency detection datasets and synthesize new samples. Following GCP, we collect a novel dataset called Context Adjustment Training. The two variants of our dataset, i.e., CAT and CAT+, consist of 16,750 and 33,500 images, respectively. All images are automatically annotated with high-quality masks. As a side-product, object categories, as well as edge information, are also provided to facilitate other related works. Extensive experiments with state-of-the-art models are conducted to demonstrate the superiority of our dataset. We hope that the scale, diversity, and quality of CAT/CAT+ can benefit researchers in this area and beyond. The dataset and benchmark toolkit will be accessible through our project page.
翻訳日:2021-08-05 16:32:48 公開日:2021-08-04
# (参考訳) Human-In-The-Loop Document Layout Analysis [全文訳有]

Human-In-The-Loop Document Layout Analysis ( http://arxiv.org/abs/2108.02095v1 )

ライセンス: CC BY 4.0
Xingjiao Wu, Tianlong Ma, Xin Li, Qin Chen, Liang He(参考訳) 文書レイアウト分析(DLA)は、文書イメージを異なるタイプの領域に分割することを目的としている。 DLAは文書コンテンツ理解と情報抽出システムにおいて重要な役割を果たす。 効果的なトレーニングに少ないデータを使用する方法を模索することは、DLAの開発に寄与する。 DLAにおけるHuman-in-the-loop(HI TL)協調インテリジェンスについて検討する。 我々のアプローチは、HITLが知識に基づいて少量のデータを追加することによって、未知の問題から学習するようにモデルを推し進めたという事実に着想を得た。 HITLは、信頼度を用いてキーサンプルを選択する。 しかし、鍵サンプルを見つけるために自信を使うことは、DLAタスクには適していない。 エージェントの協調によって高レベルのタスク(意味的セグメンテーション)のキーサンプルをより正確に見つけ、コストを効果的に削減するキーサンプル選択法を提案する。 選択後、これらのキーサンプルはアクティブなラベル付けのために人間に渡され、ラベル付きサンプルでモデルが更新される。 そこで我々は、強化学習から学習システムを再考し、サンプルベースのエージェント更新戦略を設計し、エージェントが新しいサンプルを受け入れる能力を効果的に改善した。 ラベル付きデータの10%を使用することで、DSSE-200(77.1%から86.3%)とCS-150(88.0%から95.6%)の2つのベンチマークで大幅に改善された。

Document layout analysis (DLA) aims to divide a document image into different types of regions. DLA plays an important role in the document content understanding and information extraction systems. Exploring a method that can use less data for effective training contributes to the development of DLA. We consider a Human-in-the-loop (HITL) collaborative intelligence in the DLA. Our approach was inspired by the fact that the HITL push the model to learn from the unknown problems by adding a small amount of data based on knowledge. The HITL select key samples by using confidence. However, using confidence to find key samples is not suitable for DLA tasks. We propose the Key Samples Selection (KSS) method to find key samples in high-level tasks (semantic segmentation) more accurately through agent collaboration, effectively reducing costs. Once selected, these key samples are passed to human beings for active labeling, then the model will be updated with the labeled samples. Hence, we revisited the learning system from reinforcement learning and designed a sample-based agent update strategy, which effectively improves the agent's ability to accept new samples. It achieves significant improvement results in two benchmarks (DSSE-200 (from 77.1% to 86.3%) and CS-150 (from 88.0% to 95.6%)) by using 10% of labeled data.
翻訳日:2021-08-05 16:17:11 公開日:2021-08-04
# (参考訳) 将来を包含する政策勾配 [全文訳有]

Policy Gradients Incorporating the Future ( http://arxiv.org/abs/2108.02096v1 )

ライセンス: CC BY 4.0
David Venuto, Elaine Lau, Doina Precup, Ofir Nachum(参考訳) 未来についての推論 -- 現在の意思決定が将来の成果にどのように影響するかを理解する -- は、特に高度に確率的あるいは部分的に観察可能な環境において、強化学習(RL)における中心的な課題の1つである。 未来を直接予測することは難しいが、本研究ではエージェントがそれを明示的に予測することなく「未来を見渡す」ことができる方法を紹介する。 そこで本稿では,エージェントが過去の経験を積んだトレーニング中に,その情報に過度に依存するエージェントを避けるために,情報ボトルネックを強制しながら,その時点での‘emph{actually}’の発生を観察することを提案する。 これにより、エージェントは、現在に加えて、将来の軌道力学に関するリッチで有用な情報を利用することができる。 本手法は将来性(pgif)を組み込んだポリシー勾配であり,実装が容易で汎用性があり,事実上任意のポリシー勾配アルゴリズムに適用可能である。 提案手法を市販のRLアルゴリズムに適用し,オンラインおよびオフラインのRLドメインや疎逆・部分観測可能な環境において,PGIFがより高速に高い報酬を得られることを示す。

Reasoning about the future -- understanding how decisions in the present time affect outcomes in the future -- is one of the central challenges for reinforcement learning (RL), especially in highly-stochastic or partially observable environments. While predicting the future directly is hard, in this work we introduce a method that allows an agent to "look into the future" without explicitly predicting it. Namely, we propose to allow an agent, during its training on past experience, to observe what \emph{actually} happened in the future at that time, while enforcing an information bottleneck to avoid the agent overly relying on this privileged information. This gives our agent the opportunity to utilize rich and useful information about the future trajectory dynamics in addition to the present. Our method, Policy Gradients Incorporating the Future (PGIF), is easy to implement and versatile, being applicable to virtually any policy gradient algorithm. We apply our proposed method to a number of off-the-shelf RL algorithms and show that PGIF is able to achieve higher reward faster in a variety of online and offline RL domains, as well as sparse-reward and partially observable environments.
翻訳日:2021-08-05 15:55:50 公開日:2021-08-04
# (参考訳) Wasserstein分布ロバスト推定器の統計的解析 [全文訳有]

Statistical Analysis of Wasserstein Distributionally Robust Estimators ( http://arxiv.org/abs/2108.02120v1 )

ライセンス: CC BY 4.0
Jose Blanchet and Karthyek Murthy and Viet Anh Nguyen(参考訳) データ駆動の最適化と学習問題において,分極分布に頑健な定式化を実行する統計的手法を検討する。 限定標本からの学習における分布的不確実性を認め、min-maxの定式化は、未知の共変量のデータを探索するために、敵対的内部プレイヤーを導入する。 得られた分布ロバスト最適化(DRO)の定式化は、ワッサーシュタインDROの定式化(我々の主焦点)を含むもので、最適な輸送現象を用いて規定される。 これらの無限次元のmin-max問題は、有限次元の二重再構成によってどのようにアプローチできるかを説明すると、チュートリアルは主成分、すなわち、敵の予算のサイズを最適に選択するための一般的なレシピを説明する。 これは、未知の人口リスク最小化器を含む最小の信頼領域に関する調査から生じる最適輸送予測定式化の限界挙動を研究することによって達成される。 ちなみに、この体系的な処方は、高次元統計学の特定の例におけるものと一致し、次元の呪いのない誤り境界をもたらす。 この条件付きでdro推定器の中央極限定理を提示し、不確実性定量化に有用な両立信頼領域を構築するためのレシピを提供する。 チュートリアルの残りの部分は、min-maxの定式化によって選択されたオプティマイザの性質に関する洞察と、最適輸送射影のさらなる応用に費やされている。

We consider statistical methods which invoke a min-max distributionally robust formulation to extract good out-of-sample performance in data-driven optimization and learning problems. Acknowledging the distributional uncertainty in learning from limited samples, the min-max formulations introduce an adversarial inner player to explore unseen covariate data. The resulting Distributionally Robust Optimization (DRO) formulations, which include Wasserstein DRO formulations (our main focus), are specified using optimal transportation phenomena. Upon describing how these infinite-dimensional min-max problems can be approached via a finite-dimensional dual reformulation, the tutorial moves into its main component, namely, explaining a generic recipe for optimally selecting the size of the adversary's budget. This is achieved by studying the limit behavior of an optimal transport projection formulation arising from an inquiry on the smallest confidence region that includes the unknown population risk minimizer. Incidentally, this systematic prescription coincides with those in specific examples in high-dimensional statistics and results in error bounds that are free from the curse of dimensions. Equipped with this prescription, we present a central limit theorem for the DRO estimator and provide a recipe for constructing compatible confidence regions that are useful for uncertainty quantification. The rest of the tutorial is devoted to insights into the nature of the optimizers selected by the min-max formulations and additional applications of optimal transport projections.
翻訳日:2021-08-05 15:33:04 公開日:2021-08-04
# (参考訳) radar --under the radar -- auditing fairness in ml for humanitarian mapping [全文訳有]

Under the Radar -- Auditing Fairness in ML for Humanitarian Mapping ( http://arxiv.org/abs/2108.02137v1 )

ライセンス: CC BY 4.0
Lukas Kondmann, Xiao Xiang Zhu(参考訳) 空間から機械学習による人道的マッピングは、政策立案者が必要な人をタイムリーに正確に識別するのに役立つ。 しかし、アルゴリズム的意思決定の公平性と透明性に関する最近の懸念は、これらの手法を実際に適用するための重要な障害となっている。 本稿では,空間からの人道的マッピングアプローチが予測に偏りを生じやすいかを検討する。 我々は,インドにおける村レベルの貧困と電力率を,線形回帰とランダム林を用いた夜間灯火(ntls)に基づいてマッピングし,その予測が計画されたカスや部族社会に対する偏見を体系的に示すかどうかを分析した。 そこで我々は,正当性スコアマッチングに基づく正当性評価のための因果的アプローチを設計する。 これにより、コミュニティ内の村を合成の偽物と比較することができる。 以上の結果から,貧困は体系的に過大評価され,系統的に過小評価されていることが示唆された。 この効果は、貧困が過小評価され、電化が過大評価される予定のキャストに対して反対の方向を持つ。 これらの結果は、公正な問題が政策目標を妥協する人道的マッピングにおける様々な応用に対する警告サインである。

Humanitarian mapping from space with machine learning helps policy-makers to timely and accurately identify people in need. However, recent concerns around fairness and transparency of algorithmic decision-making are a significant obstacle for applying these methods in practice. In this paper, we study if humanitarian mapping approaches from space are prone to bias in their predictions. We map village-level poverty and electricity rates in India based on nighttime lights (NTLs) with linear regression and random forest and analyze if the predictions systematically show prejudice against scheduled caste or tribe communities. To achieve this, we design a causal approach to measure counterfactual fairness based on propensity score matching. This allows to compare villages within a community of interest to synthetic counterfactuals. Our findings indicate that poverty is systematically overestimated and electricity systematically underestimated for scheduled tribes in comparison to a synthetic counterfactual group of villages. The effects have the opposite direction for scheduled castes where poverty is underestimated and electrification overestimated. These results are a warning sign for a variety of applications in humanitarian mapping where fairness issues would compromise policy goals.
翻訳日:2021-08-05 14:55:08 公開日:2021-08-04
# (参考訳) 非可聴音と深層学習を用いたスマートフォンの広帯域手指認識 [全文訳有]

Pervasive Hand Gesture Recognition for Smartphones using Non-audible Sound and Deep Learning ( http://arxiv.org/abs/2108.02148v1 )

ライセンス: CC BY 4.0
Ahmed Ibrahim, Ayman El-Refai, Sara Ahmed, Mariam Aboul-Ela, Hesham M. Eraqi, Mohamed Moustafa(参考訳) 近年のユビキタス技術の急速な発展により、新しい革新的な機能を提供し、新しい人間とコンピュータの相互作用の研究を刺激する新しい普及手法が実践されている。 本稿では,スマートフォン内蔵スピーカーとマイクを用いた手動ジェスチャー認識手法を提案する。 提案システムは、スマートフォンのステレオスピーカーから超音波ソナー信号(可聴音)を出力し、スマートフォンのマイクから受信し、ハンドジェスチャ認識のための畳み込みニューラルネットワーク(CNN)を介して処理する。 検出精度を向上させるためにデータ拡張法を提案し、3つのデュアルチャネル入力融合法を比較した。 第1の方法は、デュアルチャネルオーディオを単一入力スペクトログラム画像としてマージする。 第2の方法は、二重チャネル分光器を結合することで早期融合を採用する。 第3の方法は、2つの対流入力枝を2つの二重チャネルスペクトログラムごとに処理し、出力を最終層にマージすることで遅延融合を採用する。 実験結果は,公開データセットに提示された6つのジェスチャーに対して,ベースラインとして93.58\%の精度で有望な検出精度を示す。

Due to the mass advancement in ubiquitous technologies nowadays, new pervasive methods have come into the practice to provide new innovative features and stimulate the research on new human-computer interactions. This paper presents a hand gesture recognition method that utilizes the smartphone's built-in speakers and microphones. The proposed system emits an ultrasonic sonar-based signal (inaudible sound) from the smartphone's stereo speakers, which is then received by the smartphone's microphone and processed via a Convolutional Neural Network (CNN) for Hand Gesture Recognition. Data augmentation techniques are proposed to improve the detection accuracy and three dual-channel input fusion methods are compared. The first method merges the dual-channel audio as a single input spectrogram image. The second method adopts early fusion by concatenating the dual-channel spectrograms. The third method adopts late fusion by having two convectional input branches processing each of the dual-channel spectrograms and then the outputs are merged by the last layers. Our experimental results demonstrate a promising detection accuracy for the six gestures presented in our publicly available dataset with an accuracy of 93.58\% as a baseline.
翻訳日:2021-08-05 14:44:04 公開日:2021-08-04
# (参考訳) 正規化流を伴うマルチ注釈医用画像のアレエータ的不確かさ定量化の改善 [全文訳有]

Improving Aleatoric Uncertainty Quantification in Multi-Annotated Medical ImageSegmentation with Normalizing Flows ( http://arxiv.org/abs/2108.02155v1 )

ライセンス: CC BY 4.0
M.M.A. Valiuddin, C.G.A. Viviers, R.J.G. van Sloun, P.H.N. de With, F. van der Sommen(参考訳) 医療画像セグメンテーションの応用における不確実性の定量化は、しばしば重要な意思決定と結びついているため不可欠である。 イメージセグメンテーションアーキテクチャにおける不確実性を定量化するための計算の試みがなされている。 入力画像に条件付けられた密度分割モデルを学ぶ。 この分野の典型的な研究は、これらの学習密度が厳密にガウス的であることを制限している。 本稿では,学習密度をより複雑にし,より正確な不確かさのモデル化を容易にするノーマライズフロー(nfs)を導入することで,より柔軟な手法を提案する。 この仮説を確率的u-netを採用し、nfで後方密度を増強することで証明し、より表現力を高める。 LIDC-IDRIとKvasir-SEGセグメンテーションデータセットの定性および定量的(GEDとIoU)評価は,それぞれ明らかに改善されている。 これは、アレエータ的不確かさの定量化と、最大で14%の予測性能の増加で明らかである。 この結果は、密度モデリングによってセグメンテーションの曖昧さを捉えようとするアーキテクチャにおいて、より柔軟な密度モデルが真剣に検討されるべきことを強く示唆している。 この改良されたモデリングの利点は、アノテーションとセグメンテーションに対する人間の信頼を高め、実際にこの技術を積極的に採用することを可能にします。

Quantifying uncertainty in medical image segmentation applications is essential, as it is often connected to vital decision-making. Compelling attempts have been made in quantifying the uncertainty in image segmentation architectures, e.g. to learn a density segmentation model conditioned on the input image. Typical work in this field restricts these learnt densities to be strictly Gaussian. In this paper, we propose to use a more flexible approach by introducing Normalizing Flows (NFs), which enables the learnt densities to be more complex and facilitate more accurate modeling for uncertainty. We prove this hypothesis by adopting the Probabilistic U-Net and augmenting the posterior density with an NF, allowing it to be more expressive. Our qualitative as well as quantitative (GED and IoU) evaluations on the multi-annotated and single-annotated LIDC-IDRI and Kvasir-SEG segmentation datasets, respectively, show a clear improvement. This is mostly apparent in the quantification of aleatoric uncertainty and the increased predictive performance of up to 14 percent. This result strongly indicates that a more flexible density model should be seriously considered in architectures that attempt to capture segmentation ambiguity through density modeling. The benefit of this improved modeling will increase human confidence in annotation and segmentation, and enable eager adoption of the technology in practice.
翻訳日:2021-08-05 14:35:58 公開日:2021-08-04
# (参考訳) 言語モデリングのためのカリキュラム学習 [全文訳有]

Curriculum learning for language modeling ( http://arxiv.org/abs/2108.02170v1 )

ライセンス: CC0 1.0
Daniel Campos(参考訳) elmoやbertといった言語モデルは、さまざまな下流タスクの言語理解コンポーネントとして機能する、自然言語の堅牢な表現を提供してきた。curriculum learningは、代わりに構造化されたトレーニングレジームを使用する方法であり、コンピュータビジョンや機械翻訳で活用され、モデルのトレーニング速度とモデルパフォーマンスが向上している。 自然言語処理コミュニティにとって言語モデルは変革的であることが証明されているが、これらのモデルは高価でエネルギー集約的で訓練が難しいことが証明されている。 本研究では,カリキュラム学習が言語モデル事前学習に与える影響について検討し,GLUEベンチマーク上での伝達性能を評価する。 様々な訓練方法や実験にもかかわらず、カリキュラム学習手法が言語モデル訓練を改善するという説得力のある証拠は見つからない。

Language Models like ELMo and BERT have provided robust representations of natural language, which serve as the language understanding component for a diverse range of downstream tasks.Curriculum learning is a method that employs a structured training regime instead, which has been leveraged in computer vision and machine translation to improve model training speed and model performance. While language models have proven transformational for the natural language processing community, these models have proven expensive, energy-intensive, and challenging to train. In this work, we explore the effect of curriculum learning on language model pretraining using various linguistically motivated curricula and evaluate transfer performance on the GLUE Benchmark. Despite a broad variety of training methodologies and experiments we do not find compelling evidence that curriculum learning methods improve language model training.
翻訳日:2021-08-05 14:26:17 公開日:2021-08-04
# (参考訳) 生物学的に妥当なパーサー [全文訳有]

A Biologically Plausible Parser ( http://arxiv.org/abs/2108.02189v1 )

ライセンス: CC BY-SA 4.0
Daniel Mitropolsky and Michael J. Collins and Christos H. Papadimitriou(参考訳) 本稿では,最近提案された認知機能計算フレームワークであるアセンブリ計算によって実装された,生物学的に可算なニューロンとシナプスによって活性化される英語のパーサーについて述べる。 この装置は、合理的に非自明な文を正しく解析できることを実証する。 実験では、英語の単純な文を伴っているが、この構文解析器は、我々が実装したものを超えて、言語の大部分を包含するいくつかの方向まで拡張可能であることを示唆する。 例えば、パーサーの簡単なロシア語版を提示し、再帰、埋め込み、ポリセミーの扱い方について議論する。

We describe a parser of English effectuated by biologically plausible neurons and synapses, and implemented through the Assembly Calculus, a recently proposed computational framework for cognitive function. We demonstrate that this device is capable of correctly parsing reasonably nontrivial sentences. While our experiments entail rather simple sentences in English, our results suggest that the parser can be extended beyond what we have implemented, to several directions encompassing much of language. For example, we present a simple Russian version of the parser, and discuss how to handle recursion, embedding, and polysemy.
翻訳日:2021-08-05 14:17:22 公開日:2021-08-04
# (参考訳) 順序付き画像注意によるコヒーレントなビジュアルストーリーテリングに向けて [全文訳有]

Towards Coherent Visual Storytelling with Ordered Image Attention ( http://arxiv.org/abs/2108.02180v1 )

ライセンス: CC BY 4.0
Tom Braude, Idan Schwartz, Alexander Schwing, Ariel Shamir(参考訳) 視覚的なストーリーテリングの問題、すなわち、与えられた画像列のストーリーを生成する問題に対処する。 ストーリーの各文は対応するイメージを記述する必要があるが、コヒーレントなストーリーは一貫性を持ち、未来と過去のイメージの両方に関連付ける必要がある。 そこで我々はoia(ordered image attention)を開発した。 OIAは、シーケンスの他の画像における文対応画像と重要な領域間の相互作用をモデル化する。 重要なオブジェクトを強調するために、メッセージパッシングのようなアルゴリズムは、それらのオブジェクトの表現を順序対応で収集する。 ストーリーの文章を生成するために,重要画像注意ベクトルをイメージ・センス・アテンション(isa)で強調する。 さらに,反復性などの共通言語的誤りを緩和するために,適応的前置法を導入する。 得られた結果は,VISTデータセット上でのMETEORスコアを1%改善した。 さらに、人間による広範な研究により、コヒーレンシーの改善が検証され、OIAとISAが生成したストーリーがより焦点を合わせ、共有可能、イメージグラウンド化されていることを示す。

We address the problem of visual storytelling, i.e., generating a story for a given sequence of images. While each sentence of the story should describe a corresponding image, a coherent story also needs to be consistent and relate to both future and past images. To achieve this we develop ordered image attention (OIA). OIA models interactions between the sentence-correspondi ng image and important regions in other images of the sequence. To highlight the important objects, a message-passing-like algorithm collects representations of those objects in an order-aware manner. To generate the story's sentences, we then highlight important image attention vectors with an Image-Sentence Attention (ISA). Further, to alleviate common linguistic mistakes like repetitiveness, we introduce an adaptive prior. The obtained results improve the METEOR score on the VIST dataset by 1%. In addition, an extensive human study verifies coherency improvements and shows that OIA and ISA generated stories are more focused, shareable, and image-grounded.
翻訳日:2021-08-05 13:49:58 公開日:2021-08-04
# スパース連続分布とフェンシェルヤング損失

Sparse Continuous Distributions and Fenchel-Young Losses ( http://arxiv.org/abs/2108.01988v1 )

ライセンス: Link先を確認
Andr\'e F. T. Martins, Marcos Treviso, Ant\'onio Farinhas, Pedro M. Q. Aguiar, M\'ario A. T. Figueiredo, Mathieu Blondel and Vlad Niculae(参考訳) 指数族は機械学習において広く用いられ、連続および離散領域(例えば、ガウス、ディリクレ、ポアソン、ソフトマックス変換によるカテゴリー分布など)における多くの分布を含む。 それぞれの家庭の分布には一定の支持がある。 対照的に、有限領域に対しては、ソフトマックスのスパース代替(例えば)に関する最近の研究がある。 sparsemax, $\alpha$-entmax, and fusedmax)と対応する損失は異なるサポートを持つ。 第一に、$\Omega$-regularized prediction map と Fenchel-Young loss を任意の領域に拡張する。 線形パラメトリズド族に対しては、フェンチェル・ヤング損失の最小化は統計量のモーメントマッチングと等価であり、指数関数族の基本特性を一般化していることを示す。 例えば、$\omega$ がパラメータ $\alpha$ の tsallis negentropy であるとき、特定の場合として $\alpha$-entmax と sparsemax (\alpha$ = 2) を含む「変形した指数関数族」を得る。 連続領域の二次エネルギー関数に対して、結果として得られる密度は$\beta$-Gaussianであり、これは特にガウス、双重、三重、エパネチニコフの密度を含む楕円分布の例であり、分散、ツァリスエントロピー、フェンチェル・ヨンの損失に対する閉形式表現を導出する。 もし$\omega$ が総変動あるいはソボレフ正則化であるとき、私たちはfusedmaxの連続バージョンを得る。 最後に、$\alpha \in \{1, 4/3, 3/2, 2\}$ に対する効率的な勾配バックプロパゲーションアルゴリズムを導出した連続領域アテンション機構を導入する。 それらを用いて,注意に基づく音声分類と視覚的質問応答のための分散連続分布を実証し,時間間隔やコンパクトな領域への出席を可能にした。

Exponential families are widely used in machine learning; they include many distributions in continuous and discrete domains (e.g., Gaussian, Dirichlet, Poisson, and categorical distributions via the softmax transformation). Distributions in each of these families have fixed support. In contrast, for finite domains, there has been recent works on sparse alternatives to softmax (e.g. sparsemax, $\alpha$-entmax, and fusedmax) and corresponding losses, which have varying support. This paper expands that line of work in several directions: first, it extends $\Omega$-regularized prediction maps and Fenchel-Young losses to arbitrary domains (possibly countably infinite or continuous). For linearly parametrized families, we show that minimization of Fenchel-Young losses is equivalent to moment matching of the statistics, generalizing a fundamental property of exponential families. When $\Omega$ is a Tsallis negentropy with parameter $\alpha$, we obtain "deformed exponential families," which include $\alpha$-entmax and sparsemax ($\alpha$ = 2) as particular cases. For quadratic energy functions in continuous domains, the resulting densities are $\beta$-Gaussians, an instance of elliptical distributions that contain as particular cases the Gaussian, biweight, triweight and Epanechnikov densities, and for which we derive closed-form expressions for the variance, Tsallis entropy, and Fenchel-Young loss. When $\Omega$ is a total variation or Sobolev regularizer, we obtain a continuous version of the fusedmax. Finally, we introduce continuous-domain attention mechanisms, deriving efficient gradient backpropagation algorithms for $\alpha \in \{1, 4/3, 3/2, 2\}$. Using them, we demonstrate our sparse continuous distributions for attention-based audio classification and visual question answering, showing that they allow attending to time intervals and compact regions.
翻訳日:2021-08-05 13:27:47 公開日:2021-08-04
# 畳み込みニューラルネットワークを用いた効果的な葉の認識

An Effective Leaf Recognition Using Convolutional Neural Networks Based Features ( http://arxiv.org/abs/2108.01808v1 )

ライセンス: Link先を確認
Boi M. Quach, Dinh V. Cuong, Nhung Pham, Dang Huynh, Binh T. Nguyen(参考訳) 世界の植物生息地の減少には、植物多様性を保全するための協力的な努力が必要である。 植物種分類はこの環境問題に対処するために重要である。 近年,植物分類学に関する研究が著しく増えている。 新たなアプローチによる認識性能の向上を試みる研究者もいれば、フレームワークの計算最適化に注力する研究者もいる。 さらに、いくつかの研究は、精度の面で大幅に向上するために、機能抽出に没頭している。 本稿では,葉の認識に有効な手法を提案する。 提案手法では,葉を前処理して精製したカラー画像,静脈画像,xy投影ヒストグラム,手作り形状,テクスチャ特徴,フーリエディスクリプタを抽出する。 これらの属性は、サポートベクトルマシン(SVM)モデルを使用して異なる葉を分類する前に、ニューラルネットワークベースのエンコーダによってより良い表現に変換される。 総じて,フラビアリーフデータセット上で最新の結果が得られ,ランダムな10倍のクロスバリデーション条件下でテストセット上で99.58\%の精度を達成し,従来の手法をバイパスした。 また、葉の分類問題において研究コミュニティに貢献するために、コード\footnote{Scriptsは \url{https://github.com/d inhvietcuong1996/Lea fRecognition}}で利用可能です。

There is a warning light for the loss of plant habitats worldwide that entails concerted efforts to conserve plant biodiversity. Thus, plant species classification is of crucial importance to address this environmental challenge. In recent years, there is a considerable increase in the number of studies related to plant taxonomy. While some researchers try to improve their recognition performance using novel approaches, others concentrate on computational optimization for their framework. In addition, a few studies are diving into feature extraction to gain significantly in terms of accuracy. In this paper, we propose an effective method for the leaf recognition problem. In our proposed approach, a leaf goes through some pre-processing to extract its refined color image, vein image, xy-projection histogram, handcrafted shape, texture features, and Fourier descriptors. These attributes are then transformed into a better representation by neural network-based encoders before a support vector machine (SVM) model is utilized to classify different leaves. Overall, our approach performs a state-of-the-art result on the Flavia leaf dataset, achieving the accuracy of 99.58\% on test sets under random 10-fold cross-validation and bypassing the previous methods. We also release our codes\footnote{Scripts are available at \url{https://github.com/d inhvietcuong1996/Lea fRecognition}} for contributing to the research community in the leaf classification problem.
翻訳日:2021-08-05 13:27:10 公開日:2021-08-04
# 視聴覚トランスフォーマーを用いたオンラインビデオキャプションにおける遅延の最適化

Optimizing Latency for Online Video CaptioningUsing Audio-Visual Transformers ( http://arxiv.org/abs/2108.02147v1 )

ライセンス: Link先を確認
Chiori Hori, Takaaki Hori, Jonathan Le Roux(参考訳) ビデオキャプションは、シーンを理解し、自然言語でイベントを記述するのに不可欠な技術である。 リアルタイムモニタリングに適用するには,イベントを正確に記述するだけでなく,可能な限り早くキャプションを生成する必要がある。 このような機能を実現するには低遅延キャプションが必要であるが、このオンラインビデオキャプションの研究領域はまだ追求されていない。 本稿では,レイテンシとキャプション品質のトレードオフに基づいて,各キャプションの出力タイミングを最適化する手法を提案する。 オーディオ視覚変換器は、すべてのビデオフレームのごく一部しか使用せず、すべてのフレームが与えられる事前訓練されたトランスフォーマーの出力を模倣するように訓練される。 また、cnnベースのタイミング検出器を訓練して、二つのトランスフォーマによって生成されたキャプションが十分に近接する適切な出力タイミングを検出する。 共同で訓練されたトランスフォーマーとタイミング検出器により、イベントが発生し、いつ予測できるか、イベントトリガーされたビデオクリップの初期段階でキャプションを生成することができる。 ActivityNet Captionsデータセットを用いた実験では,ビデオクリップ全体を用いて,事前学習したトランスフォーマーが付与した上限のキャプション品質の94%を,当初から28%のフレームで達成できた。

Video captioning is an essential technology to understand scenes and describe events in natural language. To apply it to real-time monitoring, a system needs not only to describe events accurately but also to produce the captions as soon as possible. Low-latency captioning is needed to realize such functionality, but this research area for online video captioning has not been pursued yet. This paper proposes a novel approach to optimize each caption's output timing based on a trade-off between latency and caption quality. An audio-visual Trans-former is trained to generate ground-truth captions using only a small portion of all video frames, and to mimic outputs of a pre-trained Transformer to which all the frames are given. A CNN-based timing detector is also trained to detect a proper output timing, where the captions generated by the two Trans-formers become sufficiently close to each other. With the jointly trained Transformer and timing detector, a caption can be generated in the early stages of an event-triggered video clip, as soon as an event happens or when it can be forecasted. Experiments with the ActivityNet Captions dataset show that our approach achieves 94% of the caption quality of the upper bound given by the pre-trained Transformer using the entire video clips, using only 28% of frames from the beginning.
翻訳日:2021-08-05 13:26:25 公開日:2021-08-04
# 幾何学的特徴とニューラルネットワーク分類器を用いた署名検証

Signature Verification using Geometrical Features and Artificial Neural Network Classifier ( http://arxiv.org/abs/2108.02029v1 )

ライセンス: Link先を確認
Anamika Jain, Satish Kumar Singh, Krishna Pratap Singh(参考訳) 署名検証はコンピュータビジョンの分野で研究されている分野の1つである。 多くの金融および法務機関は、署名認証をアクセス制御および認証として使用している。 署名画像はテクスチャに富んでいないが、重要な幾何学的情報を持っている。 この研究を通じて,単純かつ効果的であるシグネチャ検証手法を提案する。 本稿では,シグネチャ画像(中心,孤立点,連結成分など)の幾何学的特徴と,それらの幾何学的特徴に基づいてシグネチャ画像を分類する人工ニューラルネットワーク(ann)分類器のパワーを用いて,シグネチャ画像の分類を行う。 提案手法の有効性を検証するため,本論文では,bhsig260(ベンガル語とヒンディー語の2つの地域言語のイメージを含む)が公開されている。 mcyt 100データセットではeer(equal error rate)が低く,bhsig260データセットでは精度が高かった。

Signature verification has been one of the major researched areas in the field of computer vision. Many financial and legal organizations use signature verification as access control and authentication. Signature images are not rich in texture; however, they have much vital geometrical information. Through this work, we have proposed a signature verification methodology that is simple yet effective. The technique presented in this paper harnesses the geometrical features of a signature image like center, isolated points, connected components, etc., and with the power of Artificial Neural Network (ANN) classifier, classifies the signature image based on their geometrical features. Publicly available dataset MCYT, BHSig260 (contains the image of two regional languages Bengali and Hindi) has been used in this paper to test the effectiveness of the proposed method. We have received a lower Equal Error Rate (EER) on MCYT 100 dataset and higher accuracy on the BHSig260 dataset.
翻訳日:2021-08-05 13:26:01 公開日:2021-08-04
# PARADISE:多言語シーケンス対シーケンス事前学習のための並列データ爆発

PARADISE: Exploiting Parallel Data for Multilingual Sequence-to-Sequence Pretraining ( http://arxiv.org/abs/2108.01887v1 )

ライセンス: Link先を確認
Machel Reid, Mikel Artetxe(参考訳) 多言語列列列プレトレーニングの成功にもかかわらず、既存のほとんどのアプローチは単言語コーパスに依存しており、並列データに含まれる強い言語間信号を使用しない。 本稿では,PARADISE(PARAllel & Denoising Integration in Sequence-to-Sequence Model)を提案する。PARADISE(PARAllel & Denoising Integration in Sequence-to-Sequence Model)は,ノイズシーケンス中の単語を多言語辞書で置き換えることによって,これらのモデルを訓練するための従来の認知目標を拡張し,(ii)元のシーケンスを復元する代わりに,並列コーパスで参照翻訳を予測する。 機械翻訳と言語間自然言語推論の実験では,並列データから事前学習への統合により,平均2.0 BLEU点と6.7 の精度が向上し,計算コストのごく一部でいくつかの人気モデルと競合する結果を得た。

Despite the success of multilingual sequence-to-sequence pretraining, most existing approaches rely on monolingual corpora, and do not make use of the strong cross-lingual signal contained in parallel data. In this paper, we present PARADISE (PARAllel & Denoising Integration in SEquence-to-sequence models), which extends the conventional denoising objective used to train these models by (i) replacing words in the noised sequence according to a multilingual dictionary, and (ii) predicting the reference translation according to a parallel corpus instead of recovering the original sequence. Our experiments on machine translation and cross-lingual natural language inference show an average improvement of 2.0 BLEU points and 6.7 accuracy points from integrating parallel data into pretraining, respectively, obtaining results that are competitive with several popular models at a fraction of their computational cost.
翻訳日:2021-08-05 13:25:46 公開日:2021-08-04
# クラスタリングによる個人化フェデレーション学習:非IID心拍変動データ応用

Personalized Federated Learning with Clustering: Non-IID Heart Rate Variability Data Application ( http://arxiv.org/abs/2108.01903v1 )

ライセンス: Link先を確認
Joo Hun Yoo, Ha Min Son, Hyejun Jeong, Eun-Hye Jang, Ah Young Kim, Han Young Yu, Hong Jin Jeon, Tai-Myoung Chung(参考訳) 大規模データセットに複雑な関係を見出す能力があるため、機械学習技術は様々な分野に適用されているが、データの所有権とプライバシに関する規制が強化され、医療データへの適用が難しくなっている。 これを踏まえて、フェデレートラーニング(Federated Learning)は、機密を侵害することなくプライベートデータをトレーニングするソリューションとして最近提案されている。 このプライバシーの保護は、患者データが高度に機密である医療の分野で特に魅力的である。 しかし、独立分散データの仮定は医療データには非現実的であることが多くの研究で示されている。 本稿では,心拍変動から主要な抑うつ性障害の重症度を予測するために,階層的クラスタリングに基づくflプロセスであるパーソナライズされたフェデレーションクラスタモデルを提案する。 クライアントがよりパーソナライズされたモデルを受信できるようにすることで、非IIDデータによる問題に対処し、重大度予測の精度の向上を示す。 このパフォーマンス向上は、既存のフェデレーション学習シナリオの多くでパーソナライズされたフェデレーションクラスタモデルを使用するのに十分である。

While machine learning techniques are being applied to various fields for their exceptional ability to find complex relations in large datasets, the strengthening of regulations on data ownership and privacy is causing increasing difficulty in its application to medical data. In light of this, Federated Learning has recently been proposed as a solution to train on private data without breach of confidentiality. This conservation of privacy is particularly appealing in the field of healthcare, where patient data is highly confidential. However, many studies have shown that its assumption of Independent and Identically Distributed data is unrealistic for medical data. In this paper, we propose Personalized Federated Cluster Models, a hierarchical clustering-based FL process, to predict Major Depressive Disorder severity from Heart Rate Variability. By allowing clients to receive more personalized model, we address problems caused by non-IID data, showing an accuracy increase in severity prediction. This increase in performance may be sufficient to use Personalized Federated Cluster Models in many existing Federated Learning scenarios.
翻訳日:2021-08-05 13:25:25 公開日:2021-08-04
# mrcpy:minimaxリスク分類のためのライブラリ

MRCpy: A Library for Minimax Risk Classifiers ( http://arxiv.org/abs/2108.01952v1 )

ライセンス: Link先を確認
Kartheek Bondugula, Santiago Mazuelas and Aritz P\'erez(参考訳) 教師付き分類のための既存のライブラリは、経験的リスク最小化に基づいて、代理損失を利用する手法を実装している。 MRCpyライブラリは,ロバストリスク最小化に基づいて,0-1-lossを利用できるMRCを実装している。 このような手法は、期待される損失に厳密な境界を与えることのできる分類方法の多様体を生み出す。 MRCpyは、MRCの異なる変種に対する統一インターフェースを提供し、人気のあるPythonライブラリの標準に従っている。 上述のライブラリはまた、L1正規化ロジスティック回帰、ゼロワン逆数、最大エントロピーマシンなどのMRCとして見られるような一般的なテクニックの実装も提供する。 さらに、MRCpyはFourier、ReLU、しきい値といった最近の機能マッピングを実装している。 このライブラリは、共同作業者やユーザを支援するオブジェクト指向アプローチで設計されている。

Existing libraries for supervised classification implement techniques that are based on empirical risk minimization and utilize surrogate losses. We present MRCpy library that implements minimax risk classifiers (MRCs) that are based on robust risk minimization and can utilize 0-1-loss. Such techniques give rise to a manifold of classification methods that can provide tight bounds on the expected loss. MRCpy provides a unified interface for different variants of MRCs and follows the standards of popular Python libraries. The presented library also provides implementation for popular techniques that can be seen as MRCs such as L1-regularized logistic regression, zero-one adversarial, and maximum entropy machines. In addition, MRCpy implements recent feature mappings such as Fourier, ReLU, and threshold features. The library is designed with an object-oriented approach that facilitates collaborators and users.
翻訳日:2021-08-05 13:25:05 公開日:2021-08-04
# 網膜基底画像に対する半弱教師付きコントラスト表現学習

Semi-weakly Supervised Contrastive Representation Learning for Retinal Fundus Images ( http://arxiv.org/abs/2108.02122v1 )

ライセンス: Link先を確認
Boon Peng Yap, Beng Koon Ng(参考訳) 医用画像の転送可能表現の学習における弱ラベルの価値について検討する。 手ラベルデータセットと比較すると、弱いラベルや不正確ラベルは大幅に低価格で大量に取得でき、深層ニューラルネットワークのようなデータ格納モデルに有用なトレーニング信号を提供することができる。 弱ラベルを擬似ラベルの形で検討し,半弱強調画像を用いた表現学習のための半弱教師付きコントラスト学習(SWCL)フレームワークを提案する。 具体的には、画像レベルのさまざまなアノテーションからなる小さなデータセットから、ラベルなしの大きなデータセットへラベルを伝達する半教師付きモデルを訓練する。 伝播ラベルを用いて,マルチラベルコントラスト学習目的の事前学習と定式化のためのパッチレベルデータセットを作成し,各パッチにエンコードされた位置固有の特徴をキャプチャする。 SWCLの3つの疾患分類タスクと2つの解剖学的構造セグメンテーションタスクを網羅し,SWCLの転写学習性能を実証的に検証した。 実験結果から,非常に低いデータ構造下では,改良されたアーキテクチャを事前訓練する大規模イメージネットが非常に強力なベースラインであり,近年では,強い不変制約のため,セグメンテーションタスクに干渉する自己教師手法が提案されている。 本手法は,imagenet プリトレーニングでギャップを縮めつつ,従来の自己教師付き手法と標準クロスエントロピー訓練を全て越えている。

We explore the value of weak labels in learning transferable representations for medical images. Compared to hand-labeled datasets, weak or inexact labels can be acquired in large quantities at significantly lower cost and can provide useful training signals for data-hungry models such as deep neural networks. We consider weak labels in the form of pseudo-labels and propose a semi-weakly supervised contrastive learning (SWCL) framework for representation learning using semi-weakly annotated images. Specifically, we train a semi-supervised model to propagate labels from a small dataset consisting of diverse image-level annotations to a large unlabeled dataset. Using the propagated labels, we generate a patch-level dataset for pretraining and formulate a multi-label contrastive learning objective to capture position-specific features encoded in each patch. We empirically validate the transfer learning performance of SWCL on seven public retinal fundus datasets, covering three disease classification tasks and two anatomical structure segmentation tasks. Our experiment results suggest that, under very low data regime, large-scale ImageNet pretraining on improved architecture remains a very strong baseline, and recently proposed self-supervised methods falter in segmentation tasks, possibly due to the strong invariant constraint imposed. Our method surpasses all prior self-supervised methods and standard cross-entropy training, while closing the gaps with ImageNet pretraining.
翻訳日:2021-08-05 13:24:52 公開日:2021-08-04
# リスク条件付き神経運動計画

Risk Conditioned Neural Motion Planning ( http://arxiv.org/abs/2108.01851v1 )

ライセンス: Link先を確認
Xin Huang, Meng Feng, Ashkan Jasour, Guy Rosman, Brian Williams(参考訳) リスクバウンドモーションプランニングは、安全クリティカルなタスクにとって重要かつ困難な問題である。 既存の数学的プログラミング手法はマルコフ決定過程の文脈で理論的な保証を提供するが、より大きな問題を解決するためのスケーラビリティが欠けているか、保守的な計画を作成する。 深層強化学習の最近の進歩は,関数近似器としての学習ポリシーネットワークによるスケーラビリティを向上させる。 本稿では,リスク批判者を通じて計画の実行リスクを見積もるソフトアクタ批評家モデルの拡張を提案し,政策ネットワークの損失関数に余剰リスク項を追加することにより,リスクバウンドポリシーを効率的に作成する。 我々は、保守的な計画につながる各段階における即時リスクの総和を通じてそれを近似するのとは対照的に、実行リスクを正確に定義する。 提案モデルでは,リスク境界の連続スペクトルを条件とし,ユーザがエージェントのリスク回避レベルをオンザフライで調整できる。 一連の実験を通じて,最先端の数学的プログラミングベースラインと比較し,計算時間と計画品質の両面でモデルの利点を示し,非線形ダイナミクスやより大きな状態空間など,より複雑なシナリオでその性能を検証する。

Risk-bounded motion planning is an important yet difficult problem for safety-critical tasks. While existing mathematical programming methods offer theoretical guarantees in the context of constrained Markov decision processes, they either lack scalability in solving larger problems or produce conservative plans. Recent advances in deep reinforcement learning improve scalability by learning policy networks as function approximators. In this paper, we propose an extension of soft actor critic model to estimate the execution risk of a plan through a risk critic and produce risk-bounded policies efficiently by adding an extra risk term in the loss function of the policy network. We define the execution risk in an accurate form, as opposed to approximating it through a summation of immediate risks at each time step that leads to conservative plans. Our proposed model is conditioned on a continuous spectrum of risk bounds, allowing the user to adjust the risk-averse level of the agent on the fly. Through a set of experiments, we show the advantage of our model in terms of both computational time and plan quality, compared to a state-of-the-art mathematical programming baseline, and validate its performance in more complicated scenarios, including nonlinear dynamics and larger state space.
翻訳日:2021-08-05 13:24:26 公開日:2021-08-04
# MIT Supercloud Dataset

The MIT Supercloud Dataset ( http://arxiv.org/abs/2108.02037v1 )

ライセンス: Link先を確認
Siddharth Samsi, Matthew L Weiss, David Bestor, Baolin Li, Michael Jones, Albert Reuther, Daniel Edelman, William Arcand, Chansup Byun, John Holodnack, Matthew Hubbell, Jeremy Kepner, Anna Klein, Joseph McDonald, Adam Michaleas, Peter Michaleas, Lauren Milechin, Julia Mullen, Charles Yee, Benjamin Price, Andrew Prout, Antonio Rosa, Allan Vanterpool, Lindsey McEvoy, Anson Cheng, Devesh Tiwari, Vijay Gadepally(参考訳) 人工知能(AI)と機械学習(ML)ワークロードは、従来のハイパフォーマンスコンピューティング(HPC)センターと商用クラウドシステムにおいて、計算ワークロードのますます大きなシェアを占めている。 これにより、HPCクラスタと商用クラウドのデプロイメントアプローチが変更され、リソース使用の最適化、新しいAIフレームワークのアロケーションとデプロイへのアプローチ、迅速なプロトタイピングとデプロイメントを可能にするJupyterノートブックなどの機能に新たな焦点が当てられた。 これらの変更により、改善されたスケジューリングポリシーの開発、リソース利用の非効率性、エネルギー/電力消費、障害予測、ポリシー違反の特定を目標として、クラスタ/データセンタの運用をよりよく理解する必要がある。 本稿では,大規模なHPCとデータセンタ/クラウド操作の分析において,革新的なAI/MLアプローチの育成を目的とした,MIT Supercloud Datasetを紹介する。 我々は、ジョブ毎のCPUおよびGPU使用率、メモリ使用率、ファイルシステムログ、物理モニタリングデータを含む、MIT Supercloudシステムから詳細な監視ログを提供する。 本稿では,データセットの詳細,収集手法,データ可用性について論じ,このデータを用いて開発されている潜在的な課題について論じる。 datasets and future challenge announcementsはhttps://dcc.mit.edu. com/で入手できる。

Artificial intelligence (AI) and Machine learning (ML) workloads are an increasingly larger share of the compute workloads in traditional High-Performance Computing (HPC) centers and commercial cloud systems. This has led to changes in deployment approaches of HPC clusters and the commercial cloud, as well as a new focus on approaches to optimized resource usage, allocations and deployment of new AI frame- works, and capabilities such as Jupyter notebooks to enable rapid prototyping and deployment. With these changes, there is a need to better understand cluster/datacenter operations with the goal of developing improved scheduling policies, identifying inefficiencies in resource utilization, energy/power consumption, failure prediction, and identifying policy violations. In this paper we introduce the MIT Supercloud Dataset which aims to foster innovative AI/ML approaches to the analysis of large scale HPC and datacenter/cloud operations. We provide detailed monitoring logs from the MIT Supercloud system, which include CPU and GPU usage by jobs, memory usage, file system logs, and physical monitoring data. This paper discusses the details of the dataset, collection methodology, data availability, and discusses potential challenge problems being developed using this data. Datasets and future challenge announcements will be available via https://dcc.mit.edu.
翻訳日:2021-08-05 13:23:43 公開日:2021-08-04
# crowdreにおける視覚ビデオの利用の可能性: フィードバックの源としての動画コメント

The Potential of Using Vision Videos for CrowdRE: Video Comments as a Source of Feedback ( http://arxiv.org/abs/2108.02076v1 )

ライセンス: Link先を確認
Oliver Karras, Eklekta Kristo, Jil Kl\"under(参考訳) ビジョンビデオは、フォーカスグループのような要求工学(re)プラクティスにおけるフィードバックと議論を刺激するために確立される。 さまざまな研究者が、ソーシャルメディアプラットフォーム上でビジョンビデオを使用することで、これらのメリットをクラウドベースのRE(CrowdRE)に移行した。 しかし、今のところ、CrowdREにビジョンビデオを使う可能性について詳しく調べる研究はほとんどない。 本稿では,特にフィードバックの源としてビデオコメントに着目して,その可能性を分析し,評価する。 ケーススタディでは、YouTubeのビジョンビデオに対する4505のコメントを分析した。 4日間で2660人の視聴者から2770人のコメントが寄せられた。 これは、ビデオが4年間で受け取ったコメントの50%以上である。 これらのコメントのごく一部だけがREに関連するが、関連するコメントは、機能要求や問題報告などのユーザからのフィードバックの典型的な意図やトピックに対処する。 一般的なユーザフィードバックのカテゴリ以外にも,これまでのユーザフィードバックの分析では示されていなかったトピックの安全性に対処するコメントが300以上あった。 自動分析により,ビデオコメントの分類における3つの機械学習アルゴリズムの性能を比較した。 違いはあるものの、アルゴリズムはビデオのコメントをうまく分類した。 これらの結果から,CrowdREにおける視覚ビデオの利用は大きな可能性を秘めていると結論付けた。 このケーススタディの予備的な性質にもかかわらず、私たちはビジョンビデオが利害関係者を積極的に参加させ、多くのビデオコメントを貴重なフィードバック源として求めていることを楽観的に見ている。

Vision videos are established for soliciting feedback and stimulating discussions in requirements engineering (RE) practices, such as focus groups. Different researchers motivated the transfer of these benefits into crowd-based RE (CrowdRE) by using vision videos on social media platforms. So far, however, little research explored the potential of using vision videos for CrowdRE in detail. In this paper, we analyze and assess this potential, in particular, focusing on video comments as a source of feedback. In a case study, we analyzed 4505 comments on a vision video from YouTube. We found that the video solicited 2770 comments from 2660 viewers in four days. This is more than 50% of all comments the video received in four years. Even though only a certain fraction of these comments are relevant to RE, the relevant comments address typical intentions and topics of user feedback, such as feature request or problem report. Besides the typical user feedback categories, we found more than 300 comments that address the topic safety, which has not appeared in previous analyses of user feedback. In an automated analysis, we compared the performance of three machine learning algorithms on classifying the video comments. Despite certain differences, the algorithms classified the video comments well. Based on these findings, we conclude that the use of vision videos for CrowdRE has a large potential. Despite the preliminary nature of the case study, we are optimistic that vision videos can motivate stakeholders to actively participate in a crowd and solicit numerous of video comments as a valuable source of feedback.
翻訳日:2021-08-05 13:23:21 公開日:2021-08-04
# CriteoTBベンチマークMLPerf DLRMモデルのためのランダムオフセットブロック埋め込みアレイ(ROBE) : 1000$\times$圧縮と2.7$\times$高速推論

Random Offset Block Embedding Array (ROBE) for CriteoTB Benchmark MLPerf DLRM Model : 1000$\times$ Compression and 2.7$\times$ Faster Inference ( http://arxiv.org/abs/2108.02191v1 )

ライセンス: Link先を確認
Aditya Desai, Li Chou, Anshumali Shrivastava(参考訳) 推薦データのためのディープラーニングは、近年で最も広く普及し、挑戦的なAIワークロードのひとつだ。 最先端のレコメンデーションモデルはgpt-3やswitch transformerに匹敵する最大のモデルの1つである。 ディープラーニングレコメンデーションモデル(DLRM)の課題は、それぞれのカテゴリ値に密着した埋め込みを学習することにある。 これらのインダストリアルスケールモデルへの埋め込みテーブルは、数百テラバイトにも及ぶ。 このような大規模モデルは、通信オーバーヘッドの制限やトレーニングや推論時間の短縮など、エンジニアリング上の課題を数多く抱えています。 これらのうち、推論時間が遅いことはユーザエクスペリエンスに直接影響します。 DLRMのモデル圧縮は勢いを増しており、最近コミュニティは印象的な圧縮結果を示している。 本稿では,メモリ使用量を大幅に削減し,精度を維持しつつ実行速度を向上させる埋め込みテーブルに代わる低メモリとして,ランダムオフセットブロック埋め込みアレイ(robe)を提案する。 ROBEは、キャッシュパフォーマンスとランダム化ハッシュのばらつきの両方を改善するための、単純な基本的なアプローチである。 DLRMモデルと同じ精度で、1000ドル以上のメモリを使わずに、うまくトレーニングできることを実証した。 1000\times$圧縮モデルは、直接エンジニアリングなしでより高速な推論をもたらす。 特に,1つのGPU上でサイズ100MBのROBE Arrayを用いてDLRMモデルをトレーニングし,公式のMLPerf CriteoTBベンチマークのDLRMモデルである100GBのAUCを約2.7\times$ (170\%)改善しながら,0.8025以上のAUCを実現することを示す。

Deep learning for recommendation data is the one of the most pervasive and challenging AI workload in recent times. State-of-the-art recommendation models are one of the largest models rivalling the likes of GPT-3 and Switch Transformer. Challenges in deep learning recommendation models (DLRM) stem from learning dense embeddings for each of the categorical values. These embedding tables in industrial scale models can be as large as hundreds of terabytes. Such large models lead to a plethora of engineering challenges, not to mention prohibitive communication overheads, and slower training and inference times. Of these, slower inference time directly impacts user experience. Model compression for DLRM is gaining traction and the community has recently shown impressive compression results. In this paper, we present Random Offset Block Embedding Array (ROBE) as a low memory alternative to embedding tables which provide orders of magnitude reduction in memory usage while maintaining accuracy and boosting execution speed. ROBE is a simple fundamental approach in improving both cache performance and the variance of randomized hashing, which could be of independent interest in itself. We demonstrate that we can successfully train DLRM models with same accuracy while using $1000 \times$ less memory. A $1000\times$ compressed model directly results in faster inference without any engineering. In particular, we show that we can train DLRM model using ROBE Array of size 100MB on a single GPU to achieve AUC of 0.8025 or higher as required by official MLPerf CriteoTB benchmark DLRM model of 100GB while achieving about $2.7\times$ (170\%) improvement in inference throughput.
翻訳日:2021-08-05 13:23:00 公開日:2021-08-04
# 深い模倣学習を実践的に見る

A Pragmatic Look at Deep Imitation Learning ( http://arxiv.org/abs/2108.01867v1 )

ライセンス: Link先を確認
Kai Arulkumaran, Dan Ogawa Lillrank(参考訳) gail(generative adversarial imitation learning)アルゴリズムの導入は、ディープニューラルネットワークを用いたスケーラブルな模倣学習手法の開発を促した。 GAILの目的は、1)専門家の政策の状態分布に一致すること、2)学習された政策の状態分布を解析すること、3)エントロピーの最大化である。 理論上はモチベーションが高いが、実際にはGAILは適用が困難であり、少なくとも対人訓練の不安定さのためである。 本稿では,gailと関連する模倣学習アルゴリズムについて実用的考察を行う。 我々は,様々なアルゴリズムを統一的な実験環境に実装し,自動的にチューニングし,競合する手法間で公正な評価を行う。 以上の結果から,非敵的手法を検討することが主な推奨事項である。 さらに,模倣学習目標の共通要素について議論し,今後の研究に期待できる道筋を示す。

The introduction of the generative adversarial imitation learning (GAIL) algorithm has spurred the development of scalable imitation learning approaches using deep neural networks. The GAIL objective can be thought of as 1) matching the expert policy's state distribution; 2) penalising the learned policy's state distribution; and 3) maximising entropy. While theoretically motivated, in practice GAIL can be difficult to apply, not least due to the instabilities of adversarial training. In this paper, we take a pragmatic look at GAIL and related imitation learning algorithms. We implement and automatically tune a range of algorithms in a unified experimental setup, presenting a fair evaluation between the competing methods. From our results, our primary recommendation is to consider non-adversarial methods. Furthermore, we discuss the common components of imitation learning objectives, and present promising avenues for future research.
翻訳日:2021-08-05 13:22:29 公開日:2021-08-04
# PDE-GCN:部分微分方程式によるグラフニューラルネットワークの新しいアーキテクチャ

PDE-GCN: Novel Architectures for Graph Neural Networks Motivated by Partial Differential Equations ( http://arxiv.org/abs/2108.01938v1 )

ライセンス: Link先を確認
Moshe Eliasof, Eldad Haber, Eran Treister(参考訳) グラフニューラルネットワークは、コンピュータビジョン、計算生物学、化学など、グラフによって自然に説明される様々な分野において、ますますゴーツーアプローチになりつつある。 しかし、従来の畳み込みニューラルネットワークとは異なり、ディープグラフネットワークは必ずしも浅いグラフネットワークよりも優れたパフォーマンスをもたらすわけではない。 この行動は通常、過度に滑らかな現象に由来する。 本研究では,この動作を設計によって制御するアーキテクチャのファミリを提案する。 我々のネットワークは、多様体上の偏微分方程式(pdes)を解く数値解法に動機付けられており、その挙動は同様の解析によって説明できる。 さらに,大規模な実験を用いてPDEを動機とするネットワークを一般化し,様々な分野の様々な問題に対して有効であることを示す。 私たちのアーキテクチャは、通常、異なるアーキテクチャを使ってアプローチされる問題に対して、現在の最先端の結果と良く、あるいは同等に得られます。

Graph neural networks are increasingly becoming the go-to approach in various fields such as computer vision, computational biology and chemistry, where data are naturally explained by graphs. However, unlike traditional convolutional neural networks, deep graph networks do not necessarily yield better performance than shallow graph networks. This behavior usually stems from the over-smoothing phenomenon. In this work, we propose a family of architectures to control this behavior by design. Our networks are motivated by numerical methods for solving Partial Differential Equations (PDEs) on manifolds, and as such, their behavior can be explained by similar analysis. Moreover, as we demonstrate using an extensive set of experiments, our PDE-motivated networks can generalize and be effective for various types of problems from different fields. Our architectures obtain better or on par with the current state-of-the-art results for problems that are typically approached using different architectures.
翻訳日:2021-08-05 13:22:15 公開日:2021-08-04
# 学習障壁証明書: トレーニング時間違反ゼロの安全強化学習に向けて

Learning Barrier Certificates: Towards Safe Reinforcement Learning with Zero Training-time Violations ( http://arxiv.org/abs/2108.01846v1 )

ライセンス: Link先を確認
Yuping Luo, Tengyu Ma(参考訳) 実世界で強化学習アルゴリズムを展開する際には、トレーニング時の安全違反が大きな懸念事項となっている。 本稿では,動的モデルやオフラインデータに関する知識を必要とせず,安全だが自明な初期方針しか与えられていない課題設定において,トレーニング時間安全違反ゼロの安全なrlアルゴリズムの可能性について検討する。 本論文では,バリア証明書,ダイナミクスモデル,ポリシを反復的に学習するアルゴリズムであるsafe rl(crabs)を提案する。 障壁証明書は、敵対的な訓練を通じて学習され、学習力学モデルの校正を前提としたポリシーの安全性を保証する。 また、より大規模な認定地域を奨励し、より良い探索を可能にする定期化用語も追加します。 経験的シミュレーションは、2-4次元の状態空間しか持たない単純な環境、特に安全境界付近の地域をハイリワードポリシーが訪問しなければならない場合、安全違反がゼロであることを示します。 先行手法では,これらの課題に対して適切な報酬を得るために数百の違反が必要となるが,提案手法ではゼロ違反を伴わない。

Training-time safety violations have been a major concern when we deploy reinforcement learning algorithms in the real world. This paper explores the possibility of safe RL algorithms with zero training-time safety violations in the challenging setting where we are only given a safe but trivial-reward initial policy without any prior knowledge of the dynamics model and additional offline data. We propose an algorithm, Co-trained Barrier Certificate for Safe RL (CRABS), which iteratively learns barrier certificates, dynamics models, and policies. The barrier certificates, learned via adversarial training, ensure the policy's safety assuming calibrated learned dynamics model. We also add a regularization term to encourage larger certified regions to enable better exploration. Empirical simulations show that zero safety violations are already challenging for a suite of simple environments with only 2-4 dimensional state space, especially if high-reward policies have to visit regions near the safety boundary. Prior methods require hundreds of violations to achieve decent rewards on these tasks, whereas our proposed algorithms incur zero violations.
翻訳日:2021-08-05 13:21:40 公開日:2021-08-04
# 複数の制約付き連続最適化によるテキスト生成制御

Controlled Text Generation as Continuous Optimization with Multiple Constraints ( http://arxiv.org/abs/2108.01850v1 )

ライセンス: Link先を確認
Sachin Kumar, Eric Malmi, Aliaksei Severyn, Yulia Tsvetkov(参考訳) 大規模言語モデルの事前学習がテキスト生成の最先端に迫る中、最近の研究は、モデルが生成するテキストの属性の制御に転換した。 微調整による事前学習モデルの修正は依然として一般的なアプローチであるが、計算コストが大きく、適切なデータがないため実現不可能である。 代替として、事前訓練されたモデルから制御可能な推論を行うための、柔軟でモジュラーなアルゴリズム MuCoCO を提案する。 復号処理を最適化問題として定式化し、最適化に微分可能な制約として容易に組み込めるように制御する。 この離散最適化を連続的な最適化に緩和することで、ラグランジュ乗算器と勾配双日光に基づく手法を用いて所望のテキストを生成する。 我々は,複数の文レベル属性を用いた制御可能な機械翻訳とスタイル変換のアプローチを評価し,ベースラインに対する大幅な改善を観察する。

As large-scale language model pretraining pushes the state-of-the-art in text generation, recent work has turned to controlling attributes of the text such models generate. While modifying the pretrained models via fine-tuning remains the popular approach, it incurs a significant computational cost and can be infeasible due to lack of appropriate data. As an alternative, we propose MuCoCO -- a flexible and modular algorithm for controllable inference from pretrained models. We formulate the decoding process as an optimization problem which allows for multiple attributes we aim to control to be easily incorporated as differentiable constraints to the optimization. By relaxing this discrete optimization to a continuous one, we make use of Lagrangian multipliers and gradient-descent based techniques to generate the desired text. We evaluate our approach on controllable machine translation and style transfer with multiple sentence-level attributes and observe significant improvements over baselines.
翻訳日:2021-08-05 13:21:22 公開日:2021-08-04
# ペトリネットにおける非循環・循環反転計算

Acyclic and Cyclic Reversing Computations in Petri Nets ( http://arxiv.org/abs/2108.02167v1 )

ライセンス: Link先を確認
Kamila Barylska, Anna Gogoli\'nska(参考訳) 可逆計算は、計算中の任意の時点において逆順に実行することで、実行された操作の任意のシーケンスを無効にすることができる、従来の計算形式である。 低消費電力計算の機会を提供すると同時に、様々なアプリケーションに必須または適しているため、注目を集めている。 近年,可逆計算を組み込んだペトリネットの一種であるReversing Petri Nets (RPNs) を,従来のペトリネットの拡張である境界付きColoured Petri Nets (CPNs) に変換する構造的手法を提案している。 RPNでは3つの逆転意味論が可能である: バックトラック(最近実行されたアクションの逆転)、因果逆転(すべての効果が無効になった場合にのみ作用が逆転できる)、因果逆転(以前に実行されたアクションは逆転できる)。 本稿では,RPNからCPNへの変換を正当性の公式な証明で拡張する。 さらに, RPNへのサイクル導入の可能性についても論じる。 RPNで許容されるサイクルの種類を分析し、現在のセマンティクスとの整合性を確保する。 RPNのサイクルに関連する最も興味深いケースは因果意味論において発生し、依存関係の様々な解釈が逆転中に異なるネットの振る舞いをもたらす。 依存の3つの定義を提示し、議論する。

Reversible computations constitute an unconventional form of computing where any sequence of performed operations can be undone by executing in reverse order at any point during a computation. It has been attracting increasing attention as it provides opportunities for low-power computation, being at the same time essential or eligible in various applications. In recent work, we have proposed a structural way of translating Reversing Petri Nets (RPNs) - a type of Petri nets that embeds reversible computation, to bounded Coloured Petri Nets (CPNs) - an extension of traditional Petri Nets, where tokens carry data values. Three reversing semantics are possible in RPNs: backtracking (reversing of the lately executed action), causal reversing (action can be reversed only when all its effects have been undone) and out of causal reversing (any previously performed action can be reversed). In this paper, we extend the RPN to CPN translation with formal proofs of correctness. Moreover, the possibility of introduction of cycles to RPNs is discussed. We analyze which type of cycles could be allowed in RPNs to ensure consistency with the current semantics. It emerged that the most interesting case related to cycles in RPNs occurs in causal semantics, where various interpretations of dependency result in different net's behaviour during reversing. Three definitions of dependence are presented and discussed.
翻訳日:2021-08-05 13:21:07 公開日:2021-08-04
# 部分的ビデオコピー検出における映像類似性とアライメント学習

Video Similarity and Alignment Learning on Partial Video Copy Detection ( http://arxiv.org/abs/2108.01817v1 )

ライセンス: Link先を確認
Zhen Han, Xiangteng He, Mingqian Tang and Yiliang Lv(参考訳) 既存のビデオコピー検出法は、一般に、キーフレーム間の空間的類似性に基づいてビデオの類似度を測定し、時間次元における遅延的類似度を無視し、ビデオの類似度を空間的情報に偏らせる。 統合ビデオ類似性をエンドツーエンドにモデル化する方法はあるが、詳細な部分アライメント情報が失われ、コピーセグメントのローカライゼーションが不可能になる。 そこで本稿では,空間的類似性,時間的類似性,部分的アライメントを共同でモデル化するvsal(video similarity and alignment learning)手法を提案する。 空間的類似度バイアスを軽減するために,フレームレベルの空間的類似度から予測されるマスクマップと時間的類似度をモデル化する。 部分コピーをさらに局所化するために、ステップマップは、時空間類似マップ上の現在の部分アライメントの延長方向を示す要素が空間類似性から学習される。 マスクマップから得られたスタートポイントは、ステップマップの指示に従って、部分的最適アライメントに拡張される。 類似性とアライメント学習戦略により、VSALはVCDBコアデータセット上で最先端のF1スコアを達成する。 さらに、FIVR-200kデータセットにセグメントレベルのアノテーションを追加することで、部分的なビデオコピー検出とローカライゼーションの新たなベンチマークを構築し、VSALが最高のパフォーマンスを達成し、より困難な状況下での有効性を検証する。 私たちのプロジェクトはhttps://pvcd-vsal.gi thub.io/vsal/で公開されている。

Existing video copy detection methods generally measure video similarity based on spatial similarities between key frames, neglecting the latent similarity in temporal dimension, so that the video similarity is biased towards spatial information. There are methods modeling unified video similarity in an end-to-end way, but losing detailed partial alignment information, which causes the incapability of copy segments localization. To address the above issues, we propose the Video Similarity and Alignment Learning (VSAL) approach, which jointly models spatial similarity, temporal similarity and partial alignment. To mitigate the spatial similarity bias, we model the temporal similarity as the mask map predicted from frame-level spatial similarity, where each element indicates the probability of frame pair lying right on the partial alignments. To further localize partial copies, the step map is learned from the spatial similarity where the elements indicate extending directions of the current partial alignments on the spatial-temporal similarity map. Obtained from the mask map, the start points extend out into partial optimal alignments following instructions of the step map. With the similarity and alignment learning strategy, VSAL achieves the state-of-the-art F1-score on VCDB core dataset. Furthermore, we construct a new benchmark of partial video copy detection and localization by adding new segment-level annotations for FIVR-200k dataset, where VSAL also achieves the best performance, verifying its effectiveness in more challenging situations. Our project is publicly available at https://pvcd-vsal.gi thub.io/vsal/.
翻訳日:2021-08-05 13:20:01 公開日:2021-08-04
# specialize and fuse: 意味セグメンテーションのためのピラミッド型出力表現

Specialize and Fuse: Pyramidal Output Representation for Semantic Segmentation ( http://arxiv.org/abs/2108.01866v1 )

ライセンス: Link先を確認
Chi-Wei Hsiao, Cheng Sun, Hwann-Tzong Chen, Min Sun(参考訳) セマンティクスセグメンテーションのための"特殊化と融合"のプロセスにparsimonyを保証するために,新しいピラミッド型出力表現を提案する。 ピラミッド的な「出力」表現は粗大なレベルで構成され、各レベルは異なるクラス分布(例えば、粗大なレベルでのクラスよりも多くのもの)において「特殊化」される。 2種類のピラミッド出力(すなわち、ユニティとセマンティックピラミッド)は、最終セマンティック出力に「融合」され、そこでは、ユニティピラミッドはユニティセルを示す(すなわち、そのようなセル内の全てのピクセルは同じセマンティックラベルを共有する)。 このプロセスは、最終的な意味出力を構築するために、比較的少数のセル(例えば草の大きなセル)のラベルを予測することによって、パシモニーを保証する。 アウトプット」表現に加えて、異なるレベルから「機能」表現を集約するために、粒度から粒度までのコンテキストモジュールを設計します。 本手法における各キーモジュールの有効性を包括的アブレーション研究により検証した。 最後に,ade20k,coco-stuff,p ascal-contextという,広く使用されている3つのセマンティクスセグメンテーションデータセットにおいて,最先端のパフォーマンスを実現する。

We present a novel pyramidal output representation to ensure parsimony with our "specialize and fuse" process for semantic segmentation. A pyramidal "output" representation consists of coarse-to-fine levels, where each level is "specialize" in a different class distribution (e.g., more stuff than things classes at coarser levels). Two types of pyramidal outputs (i.e., unity and semantic pyramid) are "fused" into the final semantic output, where the unity pyramid indicates unity-cells (i.e., all pixels in such cell share the same semantic label). The process ensures parsimony by predicting a relatively small number of labels for unity-cells (e.g., a large cell of grass) to build the final semantic output. In addition to the "output" representation, we design a coarse-to-fine contextual module to aggregate the "features" representation from different levels. We validate the effectiveness of each key module in our method through comprehensive ablation studies. Finally, our approach achieves state-of-the-art performance on three widely-used semantic segmentation datasets -- ADE20K, COCO-Stuff, and Pascal-Context.
翻訳日:2021-08-05 13:19:32 公開日:2021-08-04
# FPB: 人物再同定のための特徴ピラミッドブランチ

FPB: Feature Pyramid Branch for Person Re-Identification ( http://arxiv.org/abs/2108.01901v1 )

ライセンス: Link先を確認
Suofei Zhang, Zirui Yin, Xiofu Wu, Kun Wang, Quan Zhou, Bin Kang(参考訳) ハイパフォーマンスな人物再識別(Re-ID)は、世界的シルエットと歩行者の詳細の両方に焦点を合わせる必要がある。 このような代表的特徴を抽出するための効果的な方法は、複数の分岐を持つ深いモデルを活用することである。 しかしながら、バックボーン構造の重複によって実装されるほとんどのマルチブランチベースの手法は、通常、計算コストが大幅に増加する。 本稿では,異なる階層のネットワークから特徴を抽出し,それらを双方向のピラミッド構造に集約する,軽量な特徴ピラミッドブランチ(FPB)を提案する。 注意モジュールと我々の提案した直交正規化により,FPBは1.5M未満の余剰パラメータのみを導入し,バックボーンネットワークの性能を著しく向上させる。 標準ベンチマークデータセットの大規模な実験結果から,提案したFPBベースモデルは,明らかなマージンとモデル複雑性の低減とともに,最先端の手法よりも優れていることが示された。 FPBは、一般的な物体検出手法から特徴ピラミッドネットワーク(FPN)の概念を借用している。 我々の知る限り、これはRe-IDタスクにおける類似構造の最初の成功であり、関連するブランチとしてのピラミッドネットワークが関連する機能埋め込みモデルにおける潜在的構造であることを実証的に証明している。 ソースコードはhttps://github.com/a nocodetest1/FPB.gitで公開されている。

High performance person Re-Identification (Re-ID) requires the model to focus on both global silhouette and local details of pedestrian. To extract such more representative features, an effective way is to exploit deep models with multiple branches. However, most multi-branch based methods implemented by duplication of part backbone structure normally lead to severe increase of computational cost. In this paper, we propose a lightweight Feature Pyramid Branch (FPB) to extract features from different layers of networks and aggregate them in a bidirectional pyramid structure. Cooperated by attention modules and our proposed cross orthogonality regularization, FPB significantly prompts the performance of backbone network by only introducing less than 1.5M extra parameters. Extensive experimental results on standard benchmark datasets demonstrate that our proposed FPB based model outperforms state-of-the-art methods with obvious margin as well as much less model complexity. FPB borrows the idea of the Feature Pyramid Network (FPN) from prevailing object detection methods. To our best knowledge, it is the first successful application of similar structure in person Re-ID tasks, which empirically proves that pyramid network as affiliated branch could be a potential structure in related feature embedding models. The source code is publicly available at https://github.com/a nocodetest1/FPB.git.
翻訳日:2021-08-05 13:19:08 公開日:2021-08-04
# 急激な長距離伝搬による内部映像の塗装

Internal Video Inpainting by Implicit Long-range Propagation ( http://arxiv.org/abs/2108.01912v1 )

ライセンス: Link先を確認
Hao Ouyang, Tengfei Wang, Qifeng Chen(参考訳) 本稿では,内部学習戦略を取り入れた映像インパインティングのための新しいフレームワークを提案する。 未知領域へのフレーム間コンテキスト伝搬に光学フローを用いる従来の手法とは異なり、畳み込みニューラルネットワークを既知の領域に適合させることで、暗黙的に実現可能であることを示す。 さらに,不明瞭な背景や長期閉塞を伴う難解なシーケンスを扱うために,高周波の詳細と時間的整合性を維持するために2つの正規化項を設計する。 DAVISデータセットの広範囲な実験により,提案手法は最先端の塗装品質を定量的に定性的に達成することを示した。 提案手法をさらに拡張し、4kビデオ中の1つのフレームに1つのオブジェクトマスクを付与するビデオからオブジェクトを削除することを学ぶ。

We propose a novel framework for video inpainting by adopting an internal learning strategy. Unlike previous methods that use optical flow for cross-frame context propagation to inpaint unknown regions, we show that this can be achieved implicitly by fitting a convolutional neural network to the known region. Moreover, to handle challenging sequences with ambiguous backgrounds or long-term occlusion, we design two regularization terms to preserve high-frequency details and long-term temporal consistency. Extensive experiments on the DAVIS dataset demonstrate that the proposed method achieves state-of-the-art inpainting quality quantitatively and qualitatively. We further extend the proposed method to another challenging task: learning to remove an object from a video giving a single object mask in only one frame in a 4K video.
翻訳日:2021-08-05 13:18:48 公開日:2021-08-04
# ガウス曲率正規化モデルの演算子分割法と表面平滑化とイメージングへの応用

An Operator-Splitting Method for the Gaussian Curvature Regularization Model with Applications in Surface Smoothing and Imaging ( http://arxiv.org/abs/2108.01914v1 )

ライセンス: Link先を確認
Hao Liu, Xue-Cheng Tai, Roland Glowinski(参考訳) ガウス曲率は、数学のモデリングで広く使われている曲面の重要な幾何学的性質である。 ガウス曲率の完全な非線形性のため、それに基づくモデルに対する効率的な数値法は文学では珍しくない。 本稿では,一般ガウス曲率モデルに対する演算子分割法を提案する。 本手法では, 2つの行列関数とベクトル値関数を導入することでガウス曲率の完全非線形性を微分作用素から分離する。 最適化問題は、時間依存PDEシステムの定常解の探索に変換される。 上述のPDEシステムは、演算子分割による時間離散化に適しており、各分数ステップで遭遇する部分確率は、閉形式解または効率的なアルゴリズムで解ける。 提案手法は, パラメータの選択, 効率, 性能に敏感ではなく, 表面平滑化および画像デノイジングに関する系統的実験によって実証されている。

Gaussian curvature is an important geometric property of surfaces, which has been used broadly in mathematical modeling. Due to the full nonlinearity of the Gaussian curvature, efficient numerical methods for models based on it are uncommon in literature. In this article, we propose an operator-splitting method for a general Gaussian curvature model. In our method, we decouple the full nonlinearity of Gaussian curvature from differential operators by introducing two matrix- and vector-valued functions. The optimization problem is then converted into the search for the steady state solution of a time dependent PDE system. The above PDE system is well-suited to time discretization by operator splitting, the sub-problems encountered at each fractional step having either a closed form solution or being solvable by efficient algorithms. The proposed method is not sensitive to the choice of parameters, its efficiency and performances being demonstrated via systematic experiments on surface smoothing and image denoising.
翻訳日:2021-08-05 13:18:32 公開日:2021-08-04
# 互換性のある組込みの学習

Learning Compatible Embeddings ( http://arxiv.org/abs/2108.01958v1 )

ライセンス: Link先を確認
Qiang Meng, Chixiang Zhang, Xiaoqiang Xu, Feng Zhou(参考訳) 新しいモデルをロールアウトする際の後方互換性の実現は、コストを大幅に削減したり、既存のギャラリーイメージをインプロダクションのビジュアル検索システムで再コーディングすることさえできる。 以前の関連作品は、通常、性能低下を引き起こすか互換性を保証しない、知識蒸留で使われる損失を利用する。 これらの課題に対処するために,クロスモデル互換性と,直接/前方/後方の両方のトレーニングに適用可能なLCE(Learning Compatible Embeddings)というフレームワークを提案する。 我々の互換性は、モデル間で直接または変換を介してクラスセンターを整列させ、新しいモデルのよりコンパクトなクラス内分布を制限することで達成される。 実験は、トレーニングデータセットの変更、損失関数、ネットワークアーキテクチャ、特徴次元などの広範なシナリオで実施され、LCEが精度の限界犠牲を伴うモデル互換性を効果的に実現できることを実証する。 コードはhttps://github.com/I rvingMeng/LCEで入手できる。

Achieving backward compatibility when rolling out new models can highly reduce costs or even bypass feature re-encoding of existing gallery images for in-production visual retrieval systems. Previous related works usually leverage losses used in knowledge distillation which can cause performance degradations or not guarantee compatibility. To address these issues, we propose a general framework called Learning Compatible Embeddings (LCE) which is applicable for both cross model compatibility and compatible training in direct/forward/backw ard manners. Our compatibility is achieved by aligning class centers between models directly or via a transformation, and restricting more compact intra-class distributions for the new model. Experiments are conducted in extensive scenarios such as changes of training dataset, loss functions, network architectures as well as feature dimensions, and demonstrate that LCE efficiently enables model compatibility with marginal sacrifices of accuracies. The code will be available at https://github.com/I rvingMeng/LCE.
翻訳日:2021-08-05 13:18:18 公開日:2021-08-04
# RGB-D Salient Object Detectionのためのクロスモーダリティ分散相互作用ネットワーク

Cross-modality Discrepant Interaction Network for RGB-D Salient Object Detection ( http://arxiv.org/abs/2108.01971v1 )

ライセンス: Link先を確認
Chen Zhang, Runmin Cong, Qinwei Lin, Lin Ma, Feng Li, Yao Zhao, Sam Kwong(参考訳) 深度マップの普及と普及は、新たな活力と活力をもたらし、RGB-D SODアルゴリズムの大量化が提案されており、主にRGB画像と深度マップのクロスモダリティ機能をよりよく統合する方法に焦点を当てている。 特徴エンコーダにおける相互モダリティ相互作用では、既存の手法ではRGBと深さモダリティを非差別的に扱うか、あるいはRGBブランチの補助情報としてDeep cuesのみを日常的に利用する。 それらと異なり、2つのモードの状態を再考し、異なるレイヤの特徴表現に応じて2つのモードの依存性を差分モデル化するRGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。 この目的のために、2つのコンポーネントは効果的な相互モダリティ相互作用を実装するように設計されている。 1) RGB誘起詳細拡張(RDE)モジュールはRGBモダリティを活用し、低レベルエンコーダステージにおける奥行き特性の詳細を強化する。 2) Depth-induced Semantic Enhancement (DSE)モジュールは,高レベルエンコーダのRGBブランチにオブジェクト位置と奥行き特徴の内部一貫性を伝達する。 さらに、マルチレベルエンコーダ機能を組み合わせて意味ブロックを構築するDense Decoding Reconstruction (DDR) 構造を設計し、特徴復号におけるスキップ接続をアップグレードする。 5つのベンチマークデータセットに関する広範囲な実験によって、我々のネットワークは定量的にも質的にも15ドルの最先端の手法よりも優れています。 私たちのコードは、https://rmcong.githu b.io/proj_CDINet.htm lで公開されています。

The popularity and promotion of depth maps have brought new vigor and vitality into salient object detection (SOD), and a mass of RGB-D SOD algorithms have been proposed, mainly concentrating on how to better integrate cross-modality features from RGB image and depth map. For the cross-modality interaction in feature encoder, existing methods either indiscriminately treat RGB and depth modalities, or only habitually utilize depth cues as auxiliary information of the RGB branch. Different from them, we reconsider the status of two modalities and propose a novel Cross-modality Discrepant Interaction Network (CDINet) for RGB-D SOD, which differentially models the dependence of two modalities according to the feature representations of different layers. To this end, two components are designed to implement the effective cross-modality interaction: 1) the RGB-induced Detail Enhancement (RDE) module leverages RGB modality to enhance the details of the depth features in low-level encoder stage. 2) the Depth-induced Semantic Enhancement (DSE) module transfers the object positioning and internal consistency of depth features to the RGB branch in high-level encoder stage. Furthermore, we also design a Dense Decoding Reconstruction (DDR) structure, which constructs a semantic block by combining multi-level encoder features to upgrade the skip connection in the feature decoding. Extensive experiments on five benchmark datasets demonstrate that our network outperforms $15$ state-of-the-art methods both quantitatively and qualitatively. Our code is publicly available at: https://rmcong.githu b.io/proj_CDINet.htm l.
翻訳日:2021-08-05 13:18:01 公開日:2021-08-04
# 人間のような異常を検知する:未ラベルビデオから異常事象を検出するホミニンフレームワーク

Sensing Anomalies like Humans: A Hominine Framework to Detect Abnormal Events from Unlabeled Videos ( http://arxiv.org/abs/2108.01975v1 )

ライセンス: Link先を確認
Siqi Wang, Guang Yu, Zhiping Cai, En Zhu, Xinwang Liu, Jianping Yin, Chengzhang Zhu(参考訳) ビデオ異常検出(VAD)は、ビデオ分析において常に重要なトピックである。 異常は稀であり、通常は半監督された設定で対処されるが、これは純粋な通常のビデオのトレーニングセットを必要とする。 手動ラベリングの浪費を避けるため、我々は人間が異常を感知する方法に触発され、教師なしとエンドツーエンドの両方のVODを可能にするホミニンフレームワークを提案する。 この枠組みは、2つの重要な観察に基づいている: 1) 人間の知覚は通常局所的、すなわち局所的である。 局所的な前景と、異常を感知する際のコンテキストに焦点を当てます。 そこで本研究では,前景を汎用知識でローカライズすることで,局所性意識を付加することを提案し,局所的文脈を活用するために地域的ローカライゼーション戦略を設計する。 2) 頻繁に発生する事象は, 人間の正規性の定義を形作り, 代理訓練パラダイムを考案する動機となる。 ディープニューラルネットワーク(DNN)をトレーニングして、ラベルのないビデオで代理的なタスクを学ぶ。 このように、トレーニング損失ギャップは、まれに見られる新しい事象を異常として自動的に現れる。 実装では,従来のDNNモデルと新しいDNNモデルの両方と同様に,様々なサロゲートタスクについて検討する。 一般的なVADベンチマークに対する広範囲な評価は、異なるサロゲートタスクやDNNモデルに対するフレームワークの適用性を正当化し、その驚くべき効果を証明している。

Video anomaly detection (VAD) has constantly been a vital topic in video analysis. As anomalies are often rare, it is typically addressed under a semi-supervised setup, which requires a training set with pure normal videos. To avoid exhausted manual labeling, we are inspired by how humans sense anomalies and propose a hominine framework that enables both unsupervised and end-to-end VAD. The framework is based on two key observations: 1) Human perception is usually local, i.e. focusing on local foreground and its context when sensing anomalies. Thus, we propose to impose locality-awareness by localizing foreground with generic knowledge, and a region localization strategy is designed to exploit local context. 2) Frequently-occurred events will mould humans' definition of normality, which motivates us to devise a surrogate training paradigm. It trains a deep neural network (DNN) to learn a surrogate task with unlabeled videos, and frequently-occurred events will play a dominant role in "moulding" the DNN. In this way, a training loss gap will automatically manifest rarely-seen novel events as anomalies. For implementation, we explore various surrogate tasks as well as both classic and emerging DNN models. Extensive evaluations on commonly-used VAD benchmarks justify the framework's applicability to different surrogate tasks or DNN models, and demonstrate its astonishing effectiveness: It not only outperforms existing unsupervised solutions by a wide margin (8% to 10% AUROC gain), but also achieves comparable or even superior performance to state-of-the-art semi-supervised counterparts.
翻訳日:2021-08-05 13:17:30 公開日:2021-08-04
# 効率的なポーズ推定のためのオンライン知識蒸留

Online Knowledge Distillation for Efficient Pose Estimation ( http://arxiv.org/abs/2108.02092v1 )

ライセンス: Link先を確認
Zheng Li, Jingwen Ye, Mingli Song, Ying Huang, Zhigeng Pan(参考訳) 既存の人間のポーズ推定手法では、正確な予測には重い計算資源を必要とする。 正確かつ軽量なポーズ推定器を得るための有望な技術は知識蒸留であり、強力な教師モデルからよりパラメータの低い学生モデルにポーズ知識を蒸留する。 しかし、既存のポーズ蒸留は知識伝達を行うための重い事前訓練された推定器に依存しており、複雑な2段階の学習手順を必要とする。 本研究では,人間のポーズ構造知識を1段階的に蒸留し,蒸留効率を保証する新たなオンライン知識蒸留フレームワークokdhpについて検討する。 具体的には、OKDHPは単一のマルチブランチネットワークをトレーニングし、予測されたヒートマップをそれぞれ取得し、ターゲットのヒートマップとして特徴集約ユニット(FAU)によって組み立て、各ブランチを逆向きに教える。 熱マップを単に平均化する代わりに、異なる受容場を持つ複数の並列変換からなるFAUは、マルチスケール情報を活用し、高品質なターゲット熱マップを得る。 具体的には、KL(Kulback-Leibler)の画素分割を利用して、ターゲットのヒートマップと予測値との差を最小限に抑え、学生ネットワークが暗黙のキーポイント関係を学習できるようにする。 さらに、異なる圧縮速度で学生ネットワークをカスタマイズするために、不均衡なOKDHPスキームが導入された。 提案手法の有効性は,MPIIとCOCOの2つの共通ベンチマークデータセットに対する広範な実験により実証された。

Existing state-of-the-art human pose estimation methods require heavy computational resources for accurate predictions. One promising technique to obtain an accurate yet lightweight pose estimator is knowledge distillation, which distills the pose knowledge from a powerful teacher model to a less-parameterized student model. However, existing pose distillation works rely on a heavy pre-trained estimator to perform knowledge transfer and require a complex two-stage learning procedure. In this work, we investigate a novel Online Knowledge Distillation framework by distilling Human Pose structure knowledge in a one-stage manner to guarantee the distillation efficiency, termed OKDHP. Specifically, OKDHP trains a single multi-branch network and acquires the predicted heatmaps from each, which are then assembled by a Feature Aggregation Unit (FAU) as the target heatmaps to teach each branch in reverse. Instead of simply averaging the heatmaps, FAU which consists of multiple parallel transformations with different receptive fields, leverages the multi-scale information, thus obtains target heatmaps with higher-quality. Specifically, the pixel-wise Kullback-Leibler (KL) divergence is utilized to minimize the discrepancy between the target heatmaps and the predicted ones, which enables the student network to learn the implicit keypoint relationship. Besides, an unbalanced OKDHP scheme is introduced to customize the student networks with different compression rates. The effectiveness of our approach is demonstrated by extensive experiments on two common benchmark datasets, MPII and COCO.
翻訳日:2021-08-05 13:17:03 公開日:2021-08-04
# 3次元点雲上の教師なし表現学習のための点判別学習

Point Discriminative Learning for Unsupervised Representation Learning on 3D Point Clouds ( http://arxiv.org/abs/2108.02104v1 )

ライセンス: Link先を確認
Fayao Liu, Guosheng Lin, Chuan-Sheng Foo(参考訳) 最近、ディープラーニングはポイントクラウド分析タスクで大きな進歩を遂げた。 よい表現を学ぶことはこれらのタスクにとって非常に重要です。 現在のほとんどの方法は、トレーニングのために大量のラベル付きデータに依存している。 本稿では,局所的および大域的な幾何学的特徴を学習できる3次元点雲上の教師なし表現学習のための点判別学習手法を提案する。 我々は,中間層に新しい点識別損失を課し,バックボーンネットワークで生成されたグローバルレベル点特徴を付与することでこれを達成する。 この点判別損失は、形状曲面に属する点と一致し、ランダムにサンプリングされた雑音点と矛盾する特徴を強制する。 提案手法は,バックボーンネットワークにおけるエンコーダの教師なしトレーニングのための追加適応モジュールとポイント整合モジュールを追加することで,設計上は単純である。 トレーニングが完了すると、これらの2つのモジュールは、下流タスクの分類器またはデコーダの教師付きトレーニング中に破棄される。 本研究では,3次元オブジェクトの分類,3次元部分分割,形状再構成に関する広範囲な実験を行った。 定量的および定性的な結果から,本手法は強力な表現を学習し,新たな最先端性能を実現する。

Recently deep learning has achieved significant progress on point cloud analysis tasks. Learning good representations is of vital importance to these tasks. Most current methods rely on massive labelled data for training. We here propose a point discriminative learning method for unsupervised representation learning on 3D point clouds, which can learn local and global geometry features. We achieve this by imposing a novel point discrimination loss on the middle level and global level point features produced in the backbone network. This point discrimination loss enforces the features to be consistent with points belonging to the shape surface and inconsistent with randomly sampled noisy points. Our method is simple in design, which works by adding an extra adaptation module and a point consistency module for unsupervised training of the encoder in the backbone network. Once trained, these two modules can be discarded during supervised training of the classifier or decoder for down-stream tasks. We conduct extensive experiments on 3D object classification, 3D part segmentation and shape reconstruction in various unsupervised and transfer settings. Both quantitative and qualitative results show that our method learns powerful representations and achieves new state-of-the-art performance.
翻訳日:2021-08-05 13:16:37 公開日:2021-08-04
# グローバル局所スペクトルから形状を生成するための学習

Learning to generate shape from global-local spectra ( http://arxiv.org/abs/2108.02161v1 )

ライセンス: Link先を確認
Marco Pegoraro (1), Riccardo Marin (2), Umberto Castellani (1), Simone Melzi (2), Emanuele Rodol\`a (2) ((1) University of Verona, (2) Sapienza University of Rome)(参考訳) 本稿では,3次元形状生成のための新しい学習ベースのパイプラインを提案する。 本手法は,ラプラシアン作用素の固有値からのみ対象物の完全な3次元幾何学的構造を復元することを目的とした,いわゆる形状-スペクトルパラダイムの最近の進歩の上に構築する。 学習戦略の設計において、スペクトルは自然であり、形状の可変性をエンコードするために表現を使用する準備ができていると考える。 したがって、スペクトルを3次元埋め込みに直接マッピングする単純なデコーダのみのアーキテクチャを提案し、特に、大域スペクトルと局所スペクトルの情報を結合し、後者は多様体ラプラシアンの局所化変種から得られる。 この組み合わせは、全形状とその局所部分の関係を捉え、より正確な幾何学的詳細の生成と、形状合成および新しい編集アプリケーションにおける意味制御の改善をもたらす。 提案手法の既存手法と代替手法との比較により,提案手法の改善を確認した。

In this work, we present a new learning-based pipeline for the generation of 3D shapes. We build our method on top of recent advances on the so called shape-from-spectrum paradigm, which aims at recovering the full 3D geometric structure of an object only from the eigenvalues of its Laplacian operator. In designing our learning strategy, we consider the spectrum as a natural and ready to use representation to encode variability of the shapes. Therefore, we propose a simple decoder-only architecture that directly maps spectra to 3D embeddings; in particular, we combine information from global and local spectra, the latter being obtained from localized variants of the manifold Laplacian. This combination captures the relations between the full shape and its local parts, leading to more accurate generation of geometric details and an improved semantic control in shape synthesis and novel editing applications. Our results confirm the improvement of the proposed approach in comparison to existing and alternative methods.
翻訳日:2021-08-05 13:16:21 公開日:2021-08-04
# マルチレベル特徴最適化による自己教師付きビデオ表現学習の強化

Enhancing Self-supervised Video Representation Learning via Multi-level Feature Optimization ( http://arxiv.org/abs/2108.02183v1 )

ライセンス: Link先を確認
Rui Qian, Yuxi Li, Huabin Liu, John See, Shuangrui Ding, Xian Liu, Dian Li, Weiyao Lin(参考訳) 自己教師付きビデオ表現学習の要点は、ラベルのないビデオから一般的な機能を構築することだ。 しかし、最近の作品は、主に高レベルセマンティクスと無視された低レベル表現とそれらの時間的関係に焦点を当てており、これは一般的なビデオ理解に不可欠である。 そこで本稿では,学習ビデオ表現の一般化と時間モデリング能力を向上させるマルチレベル機能最適化フレームワークを提案する。 具体的には、naiveおよびprototypepical contrastive learningから得られたハイレベルな特徴を用いて分布グラフを構築し、低レベルおよび中レベル特徴学習のプロセスを導く。 また,多レベル機能から簡易な時間モデリングモジュールを考案し,動きパターン学習を強化した。 実験により、グラフ制約と時間モデリングによるマルチレベル特徴の最適化により、映像理解における表現能力が大幅に向上することを示す。

The crux of self-supervised video representation learning is to build general features from unlabeled videos. However, most recent works have mainly focused on high-level semantics and neglected lower-level representations and their temporal relationship which are crucial for general video understanding. To address these challenges, this paper proposes a multi-level feature optimization framework to improve the generalization and temporal modeling ability of learned video representations. Concretely, high-level features obtained from naive and prototypical contrastive learning are utilized to build distribution graphs, guiding the process of low-level and mid-level feature learning. We also devise a simple temporal modeling module from multi-level features to enhance motion pattern learning. Experiments demonstrate that multi-level feature optimization with the graph constraint and temporal modeling can greatly improve the representation ability in video understanding.
翻訳日:2021-08-05 13:16:05 公開日:2021-08-04
# FedJAX: JAXによるフェデレーション学習シミュレーション

FedJAX: Federated learning simulation with JAX ( http://arxiv.org/abs/2108.02117v1 )

ライセンス: Link先を確認
Jae Hun Ro, Ananda Theertha Suresh, Ke Wu(参考訳) フェデレーション学習は、分散データ間のトレーニングを可能にする機械学習技術である。 近年,プライバシやセキュリティに対する懸念が高まり,連合学習が研究の活発な領域となっている。 これを踏まえて、さまざまなオープンソースフェデレーション学習ライブラリが開発され、リリースされている。 我々は、JAXベースのフェデレーション学習シミュレーション用のオープンソースライブラリであるFedJAXを紹介します。 フェデレーション学習アルゴリズムを実装するための単純なプリミティブ、事前パッケージされたデータセット、モデルとアルゴリズム、高速なシミュレーション速度により、federatedアルゴリズムの開発と評価を研究者にとって迅速かつ容易にすることを目指している。 ベンチマークの結果、FedJAXは、EMNISTデータセット上のフェデレーション平均化を数分で、Stack Overflowデータセットを約1時間でトレーニングし、TPUを使って標準のハイパーパラメーターでトレーニングすることができることがわかった。

Federated learning is a machine learning technique that enables training across decentralized data. Recently, federated learning has become an active area of research due to the increased concerns over privacy and security. In light of this, a variety of open source federated learning libraries have been developed and released. We introduce FedJAX, a JAX-based open source library for federated learning simulations that emphasizes ease-of-use in research. With its simple primitives for implementing federated learning algorithms, prepackaged datasets, models and algorithms, and fast simulation speed, FedJAX aims to make developing and evaluating federated algorithms faster and easier for researchers. Our benchmark results show that FedJAX can be used to train models with federated averaging on the EMNIST dataset in a few minutes and the Stack Overflow dataset in roughly an hour with standard hyperparmeters using TPUs.
翻訳日:2021-08-05 13:15:10 公開日:2021-08-04
# 制限領域における中核安定委員会

Core-Stable Committees under Restricted Domains ( http://arxiv.org/abs/2108.01987v1 )

ライセンス: Link先を確認
Grzegorz Pierczy\'nski and Piotr Skowron(参考訳) 我々は委員会選挙の設定について検討し、そこでは個人が利用可能な対象の特定の大きさのサブセットをまとめて選択する必要がある。 このモデルは、政治選挙、参加予算、施設配置など、多くの実生活シナリオに関係している。 私たちはコア – 比例、安定性、公正という古典的な概念 – に重点を置いています。 投票者インターバル、候補インターバル、シングルピーク、シングルクロスといった制限された領域では、コアは空でなく多項式時間で見つけることができることを示す。 厳密なトップモノトニックな選好のためにコアが空であることを示すが、コアの非空性を保証するこのクラスの緩和を導入する。 アルゴリズムはランダム化モデルと離散モデルの両方で動作する。 また、古典的既知の比例規則は、我々が検討する最も制限のある領域(特に1d-ユークリッドの選好)においても、コアから委員会を返さないことを示した。 さらに、制限された領域のいくつかの性質に関するより良い洞察を与え、特にトップモノトニックな選好のクラスをより直感的に理解する構造的な結果もいくつか証明する。

We study the setting of committee elections, where a group of individuals needs to collectively select a given size subset of available objects. This model is relevant for a number of real-life scenarios including political elections, participatory budgeting, and facility-location. We focus on the core -- the classic notion of proportionality, stability and fairness. We show that for a number of restricted domains including voter-interval, candidate-interval, single-peaked, and single-crossing preferences the core is non-empty and can be found in polynomial time. We show that the core might be empty for strict top-monotonic preferences, yet we introduce a relaxation of this class, which guarantees non-emptiness of the core. Our algorithms work both in the randomized and discrete models. We also show that the classic known proportional rules do not return committees from the core even for the most restrictive domains among those we consider (in particular for 1D-Euclidean preferences). We additionally prove a number of structural results that give better insights into the nature of some of the restricted domains, and which in particular give a better intuitive understanding of the class of top-monotonic preferences.
翻訳日:2021-08-05 13:14:56 公開日:2021-08-04
# 特徴空間補間によるASR誤りと音声の拡散の判別の改善

Improving Distinction between ASR Errors and Speech Disfluencies with Feature Space Interpolation ( http://arxiv.org/abs/2108.01812v1 )

ライセンス: Link先を確認
Seongmin Park, Dongchan Shin, Sangyoun Paik, Subong Choi, Alena Kazakova, Jihwa Lee(参考訳) 微調整事前訓練言語モデル(LM)は,後処理における自動音声認識(ASR)エラー検出において一般的な手法である。 誤り検出システムは、LMが捉えた統計的言語アーチタイプを利用することが多いが、事前訓練された知識はエラー検出性能を阻害することがある。 例えば、音声の不均一性の存在は、処理後システムをasrエラーとして正確な転写をタグ付けする不均一性に混乱させる可能性がある。 このような混乱は、エラー検出と拡散検出タスクの両方が統計的に不可能な位置にあるトークンを識別しようとするために起こる。 本稿では,既存のlmベースasrエラー検出システムを改善するための手法を提案する。 提案手法はテキスト特徴空間で一般的なミックスアップ方式を採用し,任意のブラックボックスASR出力で利用することができる。 提案手法の有効性を示すため,従来のASRシステムとエンドツーエンドのASRシステム(英語と韓国語の両方)と5種類の音声コーパスを用いた後処理実験を行った。 提案手法は,asrエラー検出f1スコアを改良し,asrエラーとして誤検出された不正解析回数を減少させる。 最後に,半教師付きASRトレーニングにおいて,結果のLMを直接利用する手法を提案する。

Fine-tuning pretrained language models (LMs) is a popular approach to automatic speech recognition (ASR) error detection during post-processing. While error detection systems often take advantage of statistical language archetypes captured by LMs, at times the pretrained knowledge can hinder error detection performance. For instance, presence of speech disfluencies might confuse the post-processing system into tagging disfluent but accurate transcriptions as ASR errors. Such confusion occurs because both error detection and disfluency detection tasks attempt to identify tokens at statistically unlikely positions. This paper proposes a scheme to improve existing LM-based ASR error detection systems, both in terms of detection scores and resilience to such distracting auxiliary tasks. Our approach adopts the popular mixup method in text feature space and can be utilized with any black-box ASR output. To demonstrate the effectiveness of our method, we conduct post-processing experiments with both traditional and end-to-end ASR systems (both for English and Korean languages) with 5 different speech corpora. We find that our method improves both ASR error detection F 1 scores and reduces the number of correctly transcribed disfluencies wrongly detected as ASR errors. Finally, we suggest methods to utilize resulting LMs directly in semi-supervised ASR training.
翻訳日:2021-08-05 13:14:38 公開日:2021-08-04
# 確率的下行性老化と活性スリットサドル

Stochastic Subgradient Descent Escapes Active Strict Saddles ( http://arxiv.org/abs/2108.02072v1 )

ライセンス: Link先を確認
Pascal Bianchi, Walid Hachem and Sholom Schechtman(参考訳) 非スムース確率最適化では、davis と drusvyatskiy によって最近 active strict saddles と呼ばれる臨界点への確率的劣次降 (sgd) の非収束性を確立する。 そのような点は、函数 $f$ が二階負曲率の方向を持つ多様体 $M$ 上にある。 この多様体の外では、クラーク部分微分$f$のノルムは下界である。 $f$の条件が2つ必要です。 最初の仮定はverdier stratification conditionであり、これは人気のあるwhitney stratificationの改良である。 これはbolte \emph{et.al.}の射影公式の強化版を確立することができる。 ホイットニーの階層化関数には 独立した関心があります 2つ目の仮定は、角度条件と呼ばれ、反復体の距離を$M$に制御することができる。 f$ が弱凸であるとき、我々の仮定は一般的である。 したがって、定義可能な弱凸函数のクラスにおいて、SGDは局所最小化に収束する。

In non-smooth stochastic optimization, we establish the non-convergence of the stochastic subgradient descent (SGD) to the critical points recently called active strict saddles by Davis and Drusvyatskiy. Such points lie on a manifold $M$ where the function $f$ has a direction of second-order negative curvature. Off this manifold, the norm of the Clarke subdifferential of $f$ is lower-bounded. We require two conditions on $f$. The first assumption is a Verdier stratification condition, which is a refinement of the popular Whitney stratification. It allows us to establish a reinforced version of the projection formula of Bolte \emph{et.al.} for Whitney stratifiable functions, and which is of independent interest. The second assumption, termed the angle condition, allows to control the distance of the iterates to $M$. When $f$ is weakly convex, our assumptions are generic. Consequently, generically in the class of definable weakly convex functions, the SGD converges to a local minimizer.
翻訳日:2021-08-05 13:14:18 公開日:2021-08-04
# 単一写真からのニューラルシーンのデコレーション

Neural Scene Decoration from a Single Photograph ( http://arxiv.org/abs/2108.01806v1 )

ライセンス: Link先を確認
Hong-Wing Pang, Yingshu Chen, Binh-Son Hua, Sai-Kit Yeung(参考訳) 屋内シーンの家具化とレンダリングは、インテリアデザインの退屈な作業である。アーティストは空間を観察し、概念デザインを作成し、3Dモデルを構築し、レンダリングを実行する必要がある。 本稿では,生成モデルを用いた領域固有画像合成の新しい問題,すなわちニューラルシーンの装飾について紹介する。 空の屋内空間の写真が与えられた場合、我々は、完全に装飾された同じ空間の新たなイメージを合成することを目指している。 ニューラルシーンの装飾は、概念的だが現実的なインテリアデザインを効率よく生成するために、伝統的な多段階および時間を要するパイプラインをバイパスするために、実際に適用することができる。 本論文では,ニューラルネットワークを用いて,入力された写真を撮影し,所望の調度品や装飾品の画像を直接生成する。 このネットワークには,初期点に基づくオブジェクトレイアウトをリアルな写真に変換する,新たなイメージジェネレータが含まれている。 提案手法の性能は,従来の画像翻訳において,定性的かつ定量的に構築されたベースラインよりも優れていることを示すことで実証する。 ユーザスタディでは、生成した設計の妥当性と審美性をさらに検証する。

Furnishing and rendering an indoor scene is a common but tedious task for interior design: an artist needs to observe the space, create a conceptual design, build a 3D model, and perform rendering. In this paper, we introduce a new problem of domain-specific image synthesis using generative modeling, namely neural scene decoration. Given a photograph of an empty indoor space, we aim to synthesize a new image of the same space that is fully furnished and decorated. Neural scene decoration can be applied in practice to efficiently generate conceptual but realistic interior designs, bypassing the traditional multi-step and time-consuming pipeline. Our attempt to neural scene decoration in this paper is a generative adversarial neural network that takes the input photograph and directly produce the image of the desired furnishing and decorations. Our network contains a novel image generator that transforms an initial point-based object layout into a realistic photograph. We demonstrate the performance of our proposed method by showing that it outperforms the baselines built upon previous works on image translations both qualitatively and quantitatively. Our user study further validates the plausibility and aesthetics in the generated designs.
翻訳日:2021-08-05 13:14:04 公開日:2021-08-04
# 周波数領域におけるチェッカーボードアーチファクトの特性を用いたCNN生成画像の普遍的検出

A universal detector of CNN-generated images using properties of checkerboard artifacts in the frequency domain ( http://arxiv.org/abs/2108.01892v1 )

ライセンス: Link先を確認
Miki Tanaka, Sayaka Shiota, Hitoshi Kiya(参考訳) CNNを用いて生成した画像を検出するための新しいユニバーサル検出器を提案する。 本稿では,cnn生成画像におけるチェッカーボードアーティファクトの特性を考察し,その特性に応じて画像のスペクトルを増大させる。 次に、拡張スペクトルを用いて分類器を訓練し、クエリ画像がcnn生成のものか否かを判定する。 さらに, 本手法の性能向上のために, スペクトルを強調した検出器と従来型の検出器のアンサンブルを提案する。 実験で提案したアンサンブルは, ある条件下での最先端手法より優れることを示した。

We propose a novel universal detector for detecting images generated by using CNNs. In this paper, properties of checkerboard artifacts in CNN-generated images are considered, and the spectrum of images is enhanced in accordance with the properties. Next, a classifier is trained by using the enhanced spectrums to judge a query image to be a CNN-generated ones or not. In addition, an ensemble of the proposed detector with emphasized spectrums and a conventional detector is proposed to improve the performance of these methods. In an experiment, the proposed ensemble is demonstrated to outperform a state-of-the-art method under some conditions.
翻訳日:2021-08-05 13:13:45 公開日:2021-08-04
# 病変を有するラットMRIにおける自動半球分割法

Automatic hemisphere segmentation in rodent MRI with lesions ( http://arxiv.org/abs/2108.01941v1 )

ライセンス: Link先を確認
Juan Miguel Valverde, Artem Shatillo, Riccardo de Feo, Jussi Tohka(参考訳) 我々は、磁気共鳴(MR)画像において脳半球を分画する最初の完全自動手法である畳み込みニューラルネットワークであるMedicDeepLabv3+を提案する。 MedicDeepLabv3+は、高度なデコーダで最先端のDeepLabv3+を改善し、空間的注意層と追加のスキップ接続を組み込むことで、より正確なセグメンテーションを実現する。 MedicDeepLabv3+は、バイアスフィールド補正やテンプレートへの登録などのMRイメージ前処理を必要とせず、1秒未満でセグメンテーションを生成し、利用可能なリソースに基づいてGPUメモリ要求を調整することができる。 723 MR MR 画像の大規模なデータセットを用いて,私たちの MedicDeepLabv3+,最先端の2つの畳み込みニューラルネットワーク (DeepLabv3+, UNet) と,頭蓋骨切断性 MR 画像 (Demon, RATS, RBET) 用に特別に設計された3つのアプローチを評価した。 私たちの実験では、medicdeeplabv3+は他の方法よりも優れており、脳と対側半球の領域では平均サイコロ係数0.952と0.944が得られた。 さらに,gpuメモリとトレーニングデータを3つのイメージに制限したものの,medicdeeplabv3+では十分なセグメンテーションを提供していた。 以上の結果から,結節性神経画像研究において,ヒトの作業量を減少させる能力を実証し,複数のシナリオにおいて優れた結果を得た。

We present MedicDeepLabv3+, a convolutional neural network that is the first completely automatic method to segment brain hemispheres in magnetic resonance (MR) images of rodents with lesions. MedicDeepLabv3+ improves the state-of-the-art DeepLabv3+ with an advanced decoder, incorporating spatial attention layers and additional skip connections that, as we show in our experiments, lead to more precise segmentations. MedicDeepLabv3+ requires no MR image preprocessing, such as bias-field correction or registration to a template, produces segmentations in less than a second, and its GPU memory requirements can be adjusted based on the available resources. Using a large dataset of 723 MR rat brain images, we evaluated our MedicDeepLabv3+, two state-of-the-art convolutional neural networks (DeepLabv3+, UNet) and three approaches that were specifically designed for skull-stripping rodent MR images (Demon, RATS and RBET). In our experiments, MedicDeepLabv3+ outperformed the other methods, yielding an average Dice coefficient of 0.952 and 0.944 in the brain and contralateral hemisphere regions. Additionally, we show that despite limiting the GPU memory and the training data to only three images, our MedicDeepLabv3+ also provided satisfactory segmentations. In conclusion, our method, publicly available at https://github.com/j mlipman/MedicDeepLab v3Plus, yielded excellent results in multiple scenarios, demonstrating its capability to reduce human workload in rodent neuroimaging studies.
翻訳日:2021-08-05 13:13:34 公開日:2021-08-04
# ICECAP: エンティティを意識した画像キャプチャ

ICECAP: Information Concentrated Entity-aware Image Captioning ( http://arxiv.org/abs/2108.02050v1 )

ライセンス: Link先を確認
Anwen Hu, Shizhe Chen, Qin Jin(参考訳) 現在の画像キャプションシステムのほとんどは、一般的な画像コンテンツの記述に焦点を当てており、正確な名前付きエンティティや具体的なイベントといったイメージを深く理解するための背景知識を欠いている。 本稿では,関連ニュース記事を活用して,対象画像の背景知識を提供することによって,情報キャプションを生成するエンティティ対応ニュースキャプションタスクに焦点を当てる。 しかし、ニュース記事の長さによって、以前の作品では粗い記事や文レベルのニュース記事しか使われておらず、関連イベントを精巧化し、名前付きエンティティを正しく選ぶには細粒度が不十分である。 これらの制約を克服するために,文レベルから単語レベルまで,対応するニュース記事内の関連するテキスト情報に徐々に集中する情報集中型エンティティ対応ニュース画像キャプション(ICECAP)モデルを提案する。 本モデルでは,まず,クロスモダリティ検索モデルを用いて関連文に粗い集中を生じさせ,その後文内の関連単語にさらに集中してキャプションを生成する。 breakingnews と goodnews データセットの両方について広範な実験を行い,提案手法の有効性を実証した。 ICECAPのコードはhttps://github.com/H AWLYQ/ICECAPで公開されている。

Most current image captioning systems focus on describing general image content, and lack background knowledge to deeply understand the image, such as exact named entities or concrete events. In this work, we focus on the entity-aware news image captioning task which aims to generate informative captions by leveraging the associated news articles to provide background knowledge about the target image. However, due to the length of news articles, previous works only employ news articles at the coarse article or sentence level, which are not fine-grained enough to refine relevant events and choose named entities accurately. To overcome these limitations, we propose an Information Concentrated Entity-aware news image CAPtioning (ICECAP) model, which progressively concentrates on relevant textual information within the corresponding news article from the sentence level to the word level. Our model first creates coarse concentration on relevant sentences using a cross-modality retrieval model and then generates captions by further concentrating on relevant words within the sentences. Extensive experiments on both BreakingNews and GoodNews datasets demonstrate the effectiveness of our proposed method, which outperforms other state-of-the-arts. The code of ICECAP is publicly available at https://github.com/H AWLYQ/ICECAP.
翻訳日:2021-08-05 13:12:35 公開日:2021-08-04
# 質問制御型テキスト認識画像キャプション

Question-controlled Text-aware Image Captioning ( http://arxiv.org/abs/2108.02059v1 )

ライセンス: Link先を確認
Anwen Hu, Shizhe Chen, Qin Jin(参考訳) 複数のシーンテキストを持つ画像では、異なる人々が異なるテキスト情報に興味を持っているかもしれない。 現在のテキスト認識画像キャプションモデルでは,様々な情報ニーズに応じて特徴的なキャプションを生成できない。 パーソナライズされたテキスト対応キャプションの生成方法を探るため,質問制御型テキスト対応画像キャプション(Qc-TextCap)という,新たな課題を定義した。 質問を制御信号として扱うと、このタスクは、質問を理解し、関連するシーンテキストを見つけ、それらを人間の言語で流用するオブジェクトと一緒に記述するモデルを必要とする。 既存の2つのテキスト対応キャプションデータセットに基づいて、タスクをサポートするために、 controltextcaps と controlvizwiz という2つのデータセットを自動的に構築する。 本稿では,GQAM(Geometry and Question Aware Model)を提案する。 GQAMはまず、空間的関係を考慮した領域レベルのオブジェクト特徴と領域レベルのシーンテキスト特徴を融合するために、幾何学的インフォームドビジュアルエンコーダを適用した。 次に,質問誘導エンコーダを設計し,質問毎に最も関連性の高い視覚的特徴を選択する。 最後に、GQAMはマルチモーダルデコーダを備えたパーソナライズされたテキスト認識キャプションを生成する。 2つのデータセットのベースラインを慎重に設計するよりも,キャプション性能と質問応答性が向上する。 質問を制御信号として扱うことで、我々のモデルは最先端のテキスト認識キャプションモデルよりも情報的で多様なキャプションを生成する。 私たちのコードとデータセットはhttps://github.com/H AWLYQ/Qc-TextCapで公開されています。

For an image with multiple scene texts, different people may be interested in different text information. Current text-aware image captioning models are not able to generate distinctive captions according to various information needs. To explore how to generate personalized text-aware captions, we define a new challenging task, namely Question-controlled Text-aware Image Captioning (Qc-TextCap). With questions as control signals, this task requires models to understand questions, find related scene texts and describe them together with objects fluently in human language. Based on two existing text-aware captioning datasets, we automatically construct two datasets, ControlTextCaps and ControlVizWiz to support the task. We propose a novel Geometry and Question Aware Model (GQAM). GQAM first applies a Geometry-informed Visual Encoder to fuse region-level object features and region-level scene text features with considering spatial relationships. Then, we design a Question-guided Encoder to select the most relevant visual features for each question. Finally, GQAM generates a personalized text-aware caption with a Multimodal Decoder. Our model achieves better captioning performance and question answering ability than carefully designed baselines on both two datasets. With questions as control signals, our model generates more informative and diverse captions than the state-of-the-art text-aware captioning model. Our code and datasets are publicly available at https://github.com/H AWLYQ/Qc-TextCap.
翻訳日:2021-08-05 13:12:12 公開日:2021-08-04
# ビデオ圧縮アーチファクト低減のための再帰融合と変形可能な時空間アテンション

Recursive Fusion and Deformable Spatiotemporal Attention for Video Compression Artifact Reduction ( http://arxiv.org/abs/2108.02110v1 )

ライセンス: Link先を確認
Minyi Zhao, Yi Xu, Shuigeng Zhou(参考訳) 低品質の圧縮ビデオから高品質な映像を復元するために、多くのディープラーニングベースのアルゴリズムが提案されている。 そのうちのいくつかは、隣接するフレームの時空間情報を探索することで、各フレームの欠落の詳細を復元する。 しかし、これらの手法は通常、狭い時間範囲に悩まされるため、隣接するフレームの外のいくつかの有用な詳細を見逃してしまうことがある。 本稿では, アーティファクトの除去を促進するために, 長期間の時間的依存性をモデル化するための再帰核融合 (RF) モジュールを提案する。 具体的には、RFは現在の基準フレームとそれ以前の隠れ状態の両方を利用し、時空間補正をより良く行う。 一方, 移動物体の境界領域のような人工物に富む領域の復元に, モデルがより多くの労力を費やすように, 効率的かつ効果的な変形可能な時空間注意モジュールを設計する。 本手法は,MFQE 2.0データセットの忠実度と知覚的効果の両面で,既存の手法よりも優れていることを示す。 コードはhttps://github.com/z haominyiz/RFDA-PyTor chで入手できる。

A number of deep learning based algorithms have been proposed to recover high-quality videos from low-quality compressed ones. Among them, some restore the missing details of each frame via exploring the spatiotemporal information of neighboring frames. However, these methods usually suffer from a narrow temporal scope, thus may miss some useful details from some frames outside the neighboring ones. In this paper, to boost artifact removal, on the one hand, we propose a Recursive Fusion (RF) module to model the temporal dependency within a long temporal range. Specifically, RF utilizes both the current reference frames and the preceding hidden state to conduct better spatiotemporal compensation. On the other hand, we design an efficient and effective Deformable Spatiotemporal Attention (DSTA) module such that the model can pay more effort on restoring the artifact-rich areas like the boundary area of a moving object. Extensive experiments show that our method outperforms the existing ones on the MFQE 2.0 dataset in terms of both fidelity and perceptual effect. Code is available at https://github.com/z haominyiz/RFDA-PyTor ch.
翻訳日:2021-08-05 13:11:49 公開日:2021-08-04
# 3次元誘導による深部ポートレート照明の強化

Deep Portrait Lighting Enhancement with 3D Guidance ( http://arxiv.org/abs/2108.02121v1 )

ライセンス: Link先を確認
Fangzhou Han, Can Wang, Hao Du and Jing Liao(参考訳) 画像照明強化のためのディープラーニング手法の最近のブレークスルーにもかかわらず、3d顔情報はモデルで無視されているため、ポートレートに適用すると劣る。 そこで本稿では,3次元顔指導に基づくポートレートライティングエンハンスメントのための深層学習フレームワークを提案する。 私たちの枠組みは2つの段階からなる。 第1段階では、入力された悪い照明画像からネットワークにより補正された照明パラメータを予測し、3次元の変形可能なモデルと微分可能なレンダラーを補助する。 予測された照明パラメータにより、微分可能なレンダラは、補正されたシェーディングとテクスチャで顔画像をレンダリングし、第2段で画像照明の強化を学ぶための3dガイダンスとなる。 入力と誘導の長距離相関をよりよく活用するため,第2段階では,新しいトランスフォーマアーキテクチャを用いた画像から画像への変換ネットワークを設計し,照明効果を自動生成する。 ffhqデータセットとin-the-wild画像を用いた実験の結果,提案手法が定量的指標と視覚品質の両面で最先端手法よりも優れていることがわかった。 私たちはデータセットをhttps://cassiepython .github.io/egsr/inde x.htmlで公開します。

Despite recent breakthroughs in deep learning methods for image lighting enhancement, they are inferior when applied to portraits because 3D facial information is ignored in their models. To address this, we present a novel deep learning framework for portrait lighting enhancement based on 3D facial guidance. Our framework consists of two stages. In the first stage, corrected lighting parameters are predicted by a network from the input bad lighting image, with the assistance of a 3D morphable model and a differentiable renderer. Given the predicted lighting parameter, the differentiable renderer renders a face image with corrected shading and texture, which serves as the 3D guidance for learning image lighting enhancement in the second stage. To better exploit the long-range correlations between the input and the guidance, in the second stage, we design an image-to-image translation network with a novel transformer architecture, which automatically produces a lighting-enhanced result. Experimental results on the FFHQ dataset and in-the-wild images show that the proposed method outperforms state-of-the-art methods in terms of both quantitative metrics and visual quality. We will publish our dataset along with more results on https://cassiepython .github.io/egsr/inde x.html.
翻訳日:2021-08-05 13:11:29 公開日:2021-08-04
# 極低照度撮影のための物理ベースノイズモデリング

Physics-based Noise Modeling for Extreme Low-light Photography ( http://arxiv.org/abs/2108.02158v1 )

ライセンス: Link先を確認
Kaixuan Wei, Ying Fu, Yinqiang Zheng and Jiaolong Yang(参考訳) 極端な低照度環境での可視性を高めることは難しい課題です。 ほぼ無光条件下では、SNRが著しく低いため、既存の画像復調法は容易に分解できる。 本稿では,cmosフォトセンサの撮像パイプラインにおけるノイズ統計を体系的に検討し,実際のノイズ構造を正確に特徴付ける包括的ノイズモデルを定式化する。 本モデルでは,既存手法にほとんど見落とされないデジタルカメラのノイズ源を考察するが,暗黒域での生計測には大きな影響を及ぼす。 複雑なノイズ構造を物理的解釈で異なる統計分布に分離する方法を提供する。 さらに,我々のノイズモデルを用いて,学習に基づく低照度復調アルゴリズムのリアルなトレーニングデータを合成することができる。 この点に関して、近年、深層畳み込みニューラルネットワークで有望な結果が示されているが、この成功は訓練のための豊富なノイズの多いクリーンイメージペアに大きく依存している。 トレーニングされたモデルを新しいデバイスからの画像に一般化することも問題となる。 さまざまなデバイスをカバーするこの研究で新たに収集されたデータセットを含む、複数の低照度denoisingデータセットに関する大規模な実験は、提案したノイズ生成モデルでトレーニングされたディープニューラルネットワークが驚くほど高い精度に達することを示しています。 その結果は、ペア化された実データによるトレーニングに匹敵する、あるいは時折優れ、現実世界の極低照度写真に新たな扉を開く。

Enhancing the visibility in extreme low-light environments is a challenging task. Under nearly lightless condition, existing image denoising methods could easily break down due to significantly low SNR. In this paper, we systematically study the noise statistics in the imaging pipeline of CMOS photosensors, and formulate a comprehensive noise model that can accurately characterize the real noise structures. Our novel model considers the noise sources caused by digital camera electronics which are largely overlooked by existing methods yet have significant influence on raw measurement in the dark. It provides a way to decouple the intricate noise structure into different statistical distributions with physical interpretations. Moreover, our noise model can be used to synthesize realistic training data for learning-based low-light denoising algorithms. In this regard, although promising results have been shown recently with deep convolutional neural networks, the success heavily depends on abundant noisy clean image pairs for training, which are tremendously difficult to obtain in practice. Generalizing their trained models to images from new devices is also problematic. Extensive experiments on multiple low-light denoising datasets -- including a newly collected one in this work covering various devices -- show that a deep neural network trained with our proposed noise formation model can reach surprisingly-high accuracy. The results are on par with or sometimes even outperform training with paired real data, opening a new door to real-world extreme low-light photography.
翻訳日:2021-08-05 13:11:10 公開日:2021-08-04
# アルツハイマー病のマルチモーダル診断におけるGLA-GAN(Globally and Locally Aware GAN)を用いたPETのクロスモーダル翻訳

MRI to PET Cross-Modality Translation using Globally and Locally Aware GAN (GLA-GAN) for Multi-Modal Diagnosis of Alzheimer's Disease ( http://arxiv.org/abs/2108.02160v1 )

ライセンス: Link先を確認
Apoorva Sikka, Skand, Jitender Singh Virk, Deepti R. Bathula(参考訳) 医療画像データセットは本質的に高い次元を持ち、大きな変動性と低いサンプルサイズを持つため、ディープラーニングアルゴリズムの有効性が制限される。 近年,現実像を合成できるGAN(Generative Adversarial Network)が,標準データ拡張手法の代替として大きな可能性を示している。 本研究は, フルオロデオキシグルコース—(FDG)ポジトロン・エミッション・トモグラフィー~(PET)スキャンを生成モデルを用いた構造磁気共鳴ー(MR)画像から合成し, アルツハイマー病(AD)のマルチモーダル診断を容易にすることに焦点を当てた。 具体的には,グローバルな構造的整合性と局所的細部への忠実さを両立させるマルチパスアーキテクチャにより,グローバルかつ局所的に認識された画像間変換GAN(GLA-GAN)を提案する。 さらに, ボクセルレベルの強度, マルチスケール構造類似度 (MS-SSIM) と領域間類似度 (ROI) を基準とし, 復元誤差を低減し, 異なるスケールにおける構造整合性を強制し, ADに対する地域感度の変化を知覚する。 その結果,GLA-GANは画像品質が向上した合成FDG-PETスキャンを生成するだけでなく,最先端モデルと比較してAD診断の改善に優れた臨床効果が得られた。 最後に、この特定のモダリティ生成タスクと密接に関連しているGANの内部ユニットの一部を解釈しようと試みる。

Medical imaging datasets are inherently high dimensional with large variability and low sample sizes that limit the effectiveness of deep learning algorithms. Recently, generative adversarial networks (GANs) with the ability to synthesize realist images have shown great potential as an alternative to standard data augmentation techniques. Our work focuses on cross-modality synthesis of fluorodeoxyglucose~( FDG) Positron Emission Tomography~(PET) scans from structural Magnetic Resonance~(MR) images using generative models to facilitate multi-modal diagnosis of Alzheimer's disease (AD). Specifically, we propose a novel end-to-end, globally and locally aware image-to-image translation GAN (GLA-GAN) with a multi-path architecture that enforces both global structural integrity and fidelity to local details. We further supplement the standard adversarial loss with voxel-level intensity, multi-scale structural similarity (MS-SSIM) and region-of-interest (ROI) based loss components that reduce reconstruction error, enforce structural consistency at different scales and perceive variation in regional sensitivity to AD respectively. Experimental results demonstrate that our GLA-GAN not only generates synthesized FDG-PET scans with enhanced image quality but also superior clinical utility in improving AD diagnosis compared to state-of-the-art models. Finally, we attempt to interpret some of the internal units of the GAN that are closely related to this specific cross-modality generation task.
翻訳日:2021-08-05 13:10:46 公開日:2021-08-04
# 初期脳波バースト検出のためのマルチスケール分解によるランダム畳み込みカーネル

Random Convolution Kernels with Multi-Scale Decomposition for Preterm EEG Inter-burst Detection ( http://arxiv.org/abs/2108.02039v1 )

ライセンス: Link先を確認
Christopher Lundy (1 and 2) and John M. O'Toole (1 and 2) ((1) Irish Centre for Maternal and Child Health Research (INFANT), University College Cork, Ireland, (2) Department of Paediatrics and Child Health, University College Cork, Ireland)(参考訳) ランダム畳み込みカーネルを持つ線形分類器は、設計やドメイン知識を必要としない計算効率の良い手法である。 ディープニューラルネットワークとは異なり、ネットワークアーキテクチャを手作りする必要はない。カーネルはランダムに生成され、線形分類器のみがトレーニングを必要とする。 最近提案されたRandOm Convolutional KErnel Transforms (ROCKET) は、時系列データセットの範囲で高い精度を示している。 本稿では,高周波数成分と低周波数成分を併用したマルチスケール方式を提案する。 本手法は,妊娠30週齢36名から得られた初期脳波のコホートにおけるバースト間検出に応用する。 1万個のランダムカーネルの畳み込みによる2つの特徴はリッジ回帰を用いて結合される。 提案手法は,マルチスケールで0.859 (0.815 - 0.874) のマシューズ相関係数 (mcc) を,スケールのない0.841 (0.807 - 0.865) に対してp<0.001。 提案手法は,深層領域知識を用いた既存の機能ベース機械学習手法に遅れをきたすが,学習が高速であり,汎用的および生物医学的時系列分類のための性能の初期基準閾値を迅速に設定できる。

Linear classifiers with random convolution kernels are computationally efficient methods that need no design or domain knowledge. Unlike deep neural networks, there is no need to hand-craft a network architecture; the kernels are randomly generated and only the linear classifier needs training. A recently proposed method, RandOm Convolutional KErnel Transforms (ROCKETs), has shown high accuracy across a range of time-series data sets. Here we propose a multi-scale version of this method, using both high- and low-frequency components. We apply our methods to inter-burst detection in a cohort of preterm EEG recorded from 36 neonates <30 weeks gestational age. Two features from the convolution of 10,000 random kernels are combined using ridge regression. The proposed multi-scale ROCKET method out-performs the method without scale: median (interquartile range, IQR) Matthews correlation coefficient (MCC) of 0.859 (0.815 to 0.874) for multi-scale versus 0.841 (0.807 to 0.865) without scale, p<0.001. The proposed method lags behind an existing feature-based machine learning method developed with deep domain knowledge, but is fast to train and can quickly set an initial baseline threshold of performance for generic and biomedical time-series classification.
翻訳日:2021-08-05 13:09:16 公開日:2021-08-04
# 学習線形ニューラルネットワークにおける勾配降下の収束

Convergence of gradient descent for learning linear neural networks ( http://arxiv.org/abs/2108.02040v1 )

ライセンス: Link先を確認
Gabin Maxime Nguegnang, Holger Rauhut, Ulrich Terstiege(参考訳) 本研究では,深層線形ニューラルネットワークの学習のための勾配降下の収束特性,すなわち深層行列因子分解について,関連する勾配流れの事前解析を拡張して検討する。 ステップサイズ勾配勾配の適切な条件下では, 損失関数の臨界点, すなわち本論文の平方損失に収束することを示す。 さらに,初期化のほとんど全ての場合,勾配降下は2層の場合,大域的最小値に収束することを示す。 3層以上の層の場合、勾配降下は、ある固定されたランクの多様体行列上の大域的最小値に収束する。

We study the convergence properties of gradient descent for training deep linear neural networks, i.e., deep matrix factorizations, by extending a previous analysis for the related gradient flow. We show that under suitable conditions on the step sizes gradient descent converges to a critical point of the loss function, i.e., the square loss in this article. Furthermore, we demonstrate that for almost all initializations gradient descent converges to a global minimum in the case of two layers. In the case of three or more layers we show that gradient descent converges to a global minimum on the manifold matrices of some fixed rank, where the rank cannot be determined a priori.
翻訳日:2021-08-05 13:08:54 公開日:2021-08-04
# マルス・エクスプレス熱消費パターンにおける異常値の発見

Discovering outliers in the Mars Express thermal power consumption patterns ( http://arxiv.org/abs/2108.02067v1 )

ライセンス: Link先を確認
Matej Petkovi\'c, Luke Lucas, Toma\v{z} Stepi\v{s}nik, Pan\v{c}e Panov, Nikola Simidjievski, Dragi Kocev(参考訳) マーズ・エクスプレス(MEX)は2004年から火星を周回している。 オペレーターはその振る舞いを常に監視し、衛星が地球に送信している量の測定パターンから散発的な偏差(異常値)を扱う必要がある。 本稿では,MEXの熱サブシステムの電力消費パターンを解析し,宇宙船の温度を所望のレベルで維持する。 消費は一定ではないが、短期的には概ね周期的であり、火星の1つの軌道に対応する期間である。 長期記憶ニューラルネットワークを用いて、消費パターンが予想以上に不規則であることを示し、そのような不規則性の検出に成功し、将来のMEXにおける自動異常検出の可能性を開く。

The Mars Express (MEX) spacecraft has been orbiting Mars since 2004. The operators need to constantly monitor its behavior and handle sporadic deviations (outliers) from the expected patterns of measurements of quantities that the satellite is sending to Earth. In this paper, we analyze the patterns of the electrical power consumption of MEX's thermal subsystem, that maintains the spacecraft's temperature at the desired level. The consumption is not constant, but should be roughly periodic in the short term, with the period that corresponds to one orbit around Mars. By using long short-term memory neural networks, we show that the consumption pattern is more irregular than expected, and successfully detect such irregularities, opening possibility for automatic outlier detection on MEX in the future.
翻訳日:2021-08-05 13:08:41 公開日:2021-08-04
# ハイパーパラメータフリーで説明可能な全グラフ埋め込み

Hyperparameter-free and Explainable Whole Graph Embedding ( http://arxiv.org/abs/2108.02113v1 )

ライセンス: Link先を確認
Hao Wang, Yue Deng, Linyuan L\"u, Guanrong Chen(参考訳) 多くの実世界の複雑系はグラフとして記述できる。 スパーシティの低い大規模グラフの場合、ノードの隣接ベクトルは長くスパースな表現であり、nodal特徴における既存の機械学習手法の実用化を制限している。 実際、グラフ埋め込み(グラフ表現学習)は、グラフの最も基本的な情報を保持しながら、各ノードまたはグラフ全体の低次元表現ベクトルを学習しようとする。 様々な機械学習手法が低次元ベクトルを効率的に処理できるため、グラフ埋め込みは近年多くの注目を集めている。 しかし、ほとんどのノード埋め込みやグラフ埋め込みメソッドは、より洗練された方法論、ハイパーパラメータ最適化、説明可能性の低下といった問題に苦しんでいる。 本稿では、DHC(Degree, H-index, Coreness)定理とShannon Entropy(E)を組み合わせ、超パラメータフリーで拡張可能で説明可能な全グラフ埋め込み法を提案する。 新しい全体グラフ埋め込みスキームは、分子ネットワーク、社会ネットワーク、脳ネットワークを用いて、教師付き分類学習タスクの下での単純さと品質のトレードオフを得ることができる。 さらに,提案手法は低次元グラフ可視化において優れた性能を示す。 この新しい手法は、グラフの分類、予測、低次元グラフの可視化を探求する有望な可能性を持つグラフの埋め込みに対して、全体的に単純で、ハイパーパラメータフリーで、拡張可能で、説明可能である。

Many real-world complex systems can be described as graphs. For a large-scale graph with low sparsity, a node's adjacency vector is a long and sparse representation, limiting the practical utilization of existing machine learning methods on nodal features. In practice, graph embedding (graph representation learning) attempts to learn a lower-dimensional representation vector for each node or the whole graph while maintaining the most basic information of graph. Since various machine learning methods can efficiently process lower-dimensional vectors, graph embedding has recently attracted a lot of attention. However, most node embedding or whole graph embedding methods suffer from the problem of having more sophisticated methodology, hyperparameter optimization, and low explainability. This paper proposes a hyperparameter-free, extensible, and explainable whole graph embedding method, combining the DHC (Degree, H-index and Coreness) theorem and Shannon Entropy (E), abbreviated as DHC-E. The new whole graph embedding scheme can obtain a trade-off between the simplicity and the quality under some supervised classification learning tasks, using molecular, social, and brain networks. In addition, the proposed approach has a good performance in lower-dimensional graph visualization. The new methodology is overall simple, hyperparameter-free, extensible, and explainable for whole graph embedding with promising potential for exploring graph classification, prediction, and lower-dimensional graph visualization.
翻訳日:2021-08-05 13:08:30 公開日:2021-08-04
# 並列化逆カリキュラム生成

Parallelized Reverse Curriculum Generation ( http://arxiv.org/abs/2108.02128v1 )

ライセンス: Link先を確認
Zih-Yun Chiu, Yi-Lin Tuan, Hung-yi Lee, Li-Chen Fu(参考訳) 強化学習(rl)では、エージェントがスパース報酬のために特定の一連のアクションを必要とするタスクをマスターすることは困難である。 この問題を解決するために、逆カリキュラム生成(RCG)は、エージェントが学習するカリキュラムを自動的に生成する逆拡張アプローチを提供する。 より具体的には、rcgはトレーニングが進むにつれてゴールの近傍から距離への初期状態分布に適応する。 しかし、各イテレーションで生成された初期状態分布は偏りがあり、ポリシーが過剰に適合するか、逆拡大率を低下させる。 アクター・クリティック(AC)に基づくRLアルゴリズムのためのRCGのトレーニング中、この一般化と緩やかな収束はACペア間の密結合によって引き起こされる可能性がある。 そこで本稿では,複数のACペアを同時に訓練し,定期的に批判を交換する並列化手法を提案する。 我々は,提案手法がRCGの性能と収束性を向上し,初期状態分布に適応した他のACベースRLアルゴリズムにも適用可能であることを実証的に実証した。

For reinforcement learning (RL), it is challenging for an agent to master a task that requires a specific series of actions due to sparse rewards. To solve this problem, reverse curriculum generation (RCG) provides a reverse expansion approach that automatically generates a curriculum for the agent to learn. More specifically, RCG adapts the initial state distribution from the neighborhood of a goal to a distance as training proceeds. However, the initial state distribution generated for each iteration might be biased, thus making the policy overfit or slowing down the reverse expansion rate. While training RCG for actor-critic (AC) based RL algorithms, this poor generalization and slow convergence might be induced by the tight coupling between an AC pair. Therefore, we propose a parallelized approach that simultaneously trains multiple AC pairs and periodically exchanges their critics. We empirically demonstrate that this proposed approach can improve RCG in performance and convergence, and it can also be applied to other AC based RL algorithms with adapted initial state distribution.
翻訳日:2021-08-05 13:08:07 公開日:2021-08-04
# 安全とプライバシ保護による共用によるフェデレーション学習

Secure and Privacy-Preserving Federated Learning via Co-Utility ( http://arxiv.org/abs/2108.01913v1 )

ライセンス: Link先を確認
Josep Domingo-Ferrer, Alberto Blanco-Justicia, Jes\'us Manj\'on and David S\'anchez(参考訳) エッジデバイスのパワーをしばしば活用するフェデレーション学習の分散した性質は、プライバシとセキュリティに対する攻撃に対して脆弱である。 ピアにとってのプライバシリスクは、彼女がプライベートデータで計算したモデル更新が、モデルマネージャに送信されると、それらのプライベートデータに関する情報が漏洩する可能性があることだ。 さらに明らかなのはセキュリティ攻撃で、1人または複数の悪意のある仲間が学習プロセスを混乱させ、誤ったモデルを学ぶために間違ったモデル更新を返す。 本稿では,ビザンチン攻撃や毒殺攻撃に対するセキュリティだけでなく,参加者にプライバシを提供するフェデレート学習フレームワークを構築する。 私たちのフレームワークは、リンク不能な匿名性を通じて参加者に強力なプライバシを提供するプロトコルと、共用性プロパティに基づいて合理的に持続可能なプロトコルで構成されています。 言い換えれば、提案されたプロトコルから逸脱することに関心を持つ合理的な当事者はいない。 我々は,共同利用の概念を活用し,プロトコルを遵守するためのインセンティブを提供する分散型共同利用評価管理システムを構築する。 差分プライバシによるプライバシ保護とは違って,我々のアプローチでは,モデル更新の価値を保ち,従ってプレーンなフェデレーション学習の精度を保ち,更新集約によるプライバシ保護とは異なり,同型暗号化に基づく手法に比べて計算オーバーヘッドを大幅に低減しつつ,悪いモデル更新を検出する能力を維持している。

The decentralized nature of federated learning, that often leverages the power of edge devices, makes it vulnerable to attacks against privacy and security. The privacy risk for a peer is that the model update she computes on her private data may, when sent to the model manager, leak information on those private data. Even more obvious are security attacks, whereby one or several malicious peers return wrong model updates in order to disrupt the learning process and lead to a wrong model being learned. In this paper we build a federated learning framework that offers privacy to the participating peers as well as security against Byzantine and poisoning attacks. Our framework consists of several protocols that provide strong privacy to the participating peers via unlinkable anonymity and that are rationally sustainable based on the co-utility property. In other words, no rational party is interested in deviating from the proposed protocols. We leverage the notion of co-utility to build a decentralized co-utile reputation management system that provides incentives for parties to adhere to the protocols. Unlike privacy protection via differential privacy, our approach preserves the values of model updates and hence the accuracy of plain federated learning; unlike privacy protection via update aggregation, our approach preserves the ability to detect bad model updates while substantially reducing the computational overhead compared to methods based on homomorphic encryption.
翻訳日:2021-08-05 13:07:35 公開日:2021-08-04
# インタラクションデータを用いたインタラクティブメディアによるエンゲージメント予測

Using Interaction Data to Predict Engagement with Interactive Media ( http://arxiv.org/abs/2108.01949v1 )

ライセンス: Link先を確認
Jonathan Carlton, Andy Brown, Caroline Jay, and John Keane(参考訳) メディアは従来の線形物語からパーソナライズされた体験へと進化し、個々のオーディエンスメンバーに情報(またはそれがどのように提示されるか)を制御する。 このメディアによる観客エンゲージメントの計測と理解は,(1)コンテンツにエンゲージメントがどのように関与しているかのポストホックな理解が,プロダクションチームが経験から学び,将来のプロダクションを改善するのに役立つこと,(2)コンテンツオンザフライで適応することでユーザエクスペリエンスを高めるために,リアルタイムなエンゲージメント尺度が使用される可能性があること,の2つの点で重要である。 エンゲージメントは通常、ユーザのサンプルに自己報告を求めることで測定される。 しかし、いくつかのドメインでは、相互作用データはエンゲージメントを推測するために使われてきた。 幸いなことに、インタラクティブメディアの性質は、従来のメディアよりもずっとリッチなインタラクションデータを容易にします。 本稿では,対話型テレビ番組とのインタラクションから得られたデータを用いて,エンゲージメントのモデル化と予測を行う。 経験とイベント間の間隔に費やされた時間を含む時間的メトリクスが、エンゲージメントの予測であることがわかった。 その結果,対話データを用いて体験の前後におけるユーザのエンゲージメントを推測し,提案手法がユーザの好みや反応をよりよく理解する上で有効であることが示された。

Media is evolving from traditional linear narratives to personalised experiences, where control over information (or how it is presented) is given to individual audience members. Measuring and understanding audience engagement with this media is important in at least two ways: (1) a post-hoc understanding of how engaged audiences are with the content will help production teams learn from experience and improve future productions; (2), this type of media has potential for real-time measures of engagement to be used to enhance the user experience by adapting content on-the-fly. Engagement is typically measured by asking samples of users to self-report, which is time consuming and expensive. In some domains, however, interaction data have been used to infer engagement. Fortuitously, the nature of interactive media facilitates a much richer set of interaction data than traditional media; our research aims to understand if these data can be used to infer audience engagement. In this paper, we report a study using data captured from audience interactions with an interactive TV show to model and predict engagement. We find that temporal metrics, including overall time spent on the experience and the interval between events, are predictive of engagement. The results demonstrate that interaction data can be used to infer users' engagement during and after an experience, and the proposed techniques are relevant to better understand audience preference and responses.
翻訳日:2021-08-05 13:07:10 公開日:2021-08-04
# 脳異常のマイクロ波イメージングのためのグラフ注意ネットワーク

Graph Attention Network For Microwave Imaging of Brain Anomaly ( http://arxiv.org/abs/2108.01965v1 )

ライセンス: Link先を確認
A. Al-Saffar, L. Guo, A. Abbosh(参考訳) これまでに、多くの学習されたモデルがマイクロ波イメージング問題に使われてきた。 しかし、これらのモデルはイメージング幾何に従わない。 画像アレイの物理的セットアップをネットワークの構造に焼き込むことは常に困難であり、結果として実用的ではないデータ集約型モデルが生まれる。 この研究はマイクロ波イメージングアレイのグラフ定式化を推し進めた。 提案されたアーキテクチャは物理的な設定を認識し、対称性を組み込むことができ、結果としてデータ要求が少なくなる。 グラフ畳み込みとアテンション機構は、マルチスタティックアレイに対応する完全連結グラフのケースを扱うためにデプロイされる。 この問題のグラフ処理は, マイクロ波イメージングによる脳の異常局在を実験的に検討した。

So far, numerous learned models have been pressed to use in microwave imaging problems. These models however, are oblivious to the imaging geometry. It has always been hard to bake the physical setup of the imaging array into the structure of the network, resulting in a data-intensive models that are not practical. This work put forward a graph formulation of the microwave imaging array. The architectures proposed is made cognizant of the physical setup, allowing it to incorporate the symmetries, resulting in a less data requirements. Graph convolution and attention mechanism is deployed to handle the cases of fully-connected graphs corresponding to multi-static arrays. The graph-treatment of the problem is evaluated on experimental setup in context of brain anomaly localization with microwave imaging.
翻訳日:2021-08-05 13:06:46 公開日:2021-08-04
# 高次元量子ダイナミクスのための時空ニューラルネットワーク

Spacetime Neural Network for High Dimensional Quantum Dynamics ( http://arxiv.org/abs/2108.02200v1 )

ライセンス: Link先を確認
Jiangran Wang, Zhuo Chen, Di Luo, Zhizhen Zhao, Vera Mikyoung Hur, Bryan K. Clark(参考訳) 量子力学を高次元schr\"{o}dinger方程式から解くために,二階最適化を用いた時空ニューラルネットワーク法を開発した。 標準の反復1次最適化と時間依存変分原理とは対照的に,提案手法は暗黙的中点法を用いて,最適化後に全ての空間値と時間値の解を同時生成する。 自己正規化された自己回帰型時空ニューラルネットワーク構築を用いたシュルンディンガー方程式で本手法を実証する。 異なる高次元微分方程式を解くための今後の研究について述べる。

We develop a spacetime neural network method with second order optimization for solving quantum dynamics from the high dimensional Schr\"{o}dinger equation. In contrast to the standard iterative first order optimization and the time-dependent variational principle, our approach utilizes the implicit mid-point method and generates the solution for all spatial and temporal values simultaneously after optimization. We demonstrate the method in the Schr\"{o}dinger equation with a self-normalized autoregressive spacetime neural network construction. Future explorations for solving different high dimensional differential equations are discussed.
翻訳日:2021-08-05 13:06:35 公開日:2021-08-04
# (参考訳) WeaSuL:Weakly Supervised Dialogue Policy Learning: Reward Estimation for Multi-turn Dialogue [全文訳有]

WeaSuL: Weakly Supervised Dialogue Policy Learning: Reward Estimation for Multi-turn Dialogue ( http://arxiv.org/abs/2108.01487v2 )

ライセンス: CC BY-SA 4.0
Anant Khandelwal(参考訳) マルチターン設定におけるインテリジェントな対話システムは,高品質な応答を生成するだけでなく,対話の長期的成功につながる可能性のある応答を生成する必要がある。 しかし,現在のアプローチでは応答品質は向上したが,対話データに現れる訓練信号は見過ごされている。 これらの信号を利用して、弱い教師付きトレーニングデータを生成し、ダイアログポリシーと報奨推定器を学習し、成功(リワード)会話の今後の方向性を予測するためのアクション(応答の生成)を行う。 エージェントとユーザとの対話(教師付き学習目的のエージェントに似てモデル化された)をシミュレートし、互いに対話する。 エージェントは動的ブロッキングを使用して、ランク付けされた多様な応答と探索-探索を生成し、トップK応答の中から選択する。 それぞれの擬似状態-作用対は、セマンティック関連、セマンティックコヒーレンス、一貫性フローの3つの品質モジュールで評価される(弱いアノテーションとして機能する)。 2つのベンチマークによる実証研究は、我々のモデルが応答品質を著しく上回り、自動評価と人的判断の両方で会話を成功させることを示す。

An intelligent dialogue system in a multi-turn setting should not only generate the responses which are of good quality, but it should also generate the responses which can lead to long-term success of the dialogue. Although, the current approaches improved the response quality, but they over-look the training signals present in the dialogue data. We can leverage these signals to generate the weakly supervised training data for learning dialog policy and reward estimator, and make the policy take actions (generates responses) which can foresee the future direction for a successful (rewarding) conversation. We simulate the dialogue between an agent and a user (modelled similar to an agent with supervised learning objective) to interact with each other. The agent uses dynamic blocking to generate ranked diverse responses and exploration-exploita tion to select among the Top-K responses. Each simulated state-action pair is evaluated (works as a weak annotation) with three quality modules: Semantic Relevant, Semantic Coherence and Consistent Flow. Empirical studies with two benchmarks indicate that our model can significantly out-perform the response quality and lead to a successful conversation on both automatic evaluation and human judgement.
翻訳日:2021-08-05 11:30:51 公開日:2021-08-04
# (参考訳) 軽度医用画像分割術におけるマスク再留置術

Recurrent Mask Refinement for Few-Shot Medical Image Segmentation ( http://arxiv.org/abs/2108.00622v2 )

ライセンス: CC BY 4.0
Hao Tang, Xingwei Liu, Shanlin Sun, Xiangyi Yan, and Xiaohui Xie(参考訳) 深層畳み込みニューラルネットワークは医用画像セグメンテーションで大きな成功を収めているが、通常、トレーニングのために手動アノテーションを備えた大きなデータセットを必要とし、目に見えないクラスに一般化するのは難しい。 わずかにラベル付き例から新しいクラスを学ぶことで、これらの課題に対処するチャンスは、ほとんどない。 本研究では, プロトタイプネットワークに基づく医療画像分割のための新しいフレームワークを提案する。 我々のイノベーションは、2つの重要なモジュールの設計にある: 1)前景と背景領域の間の局所的な関係の特徴を捉えるために相関を利用するコンテキスト関係エンコーダ(cre)、2)コンテキスト関係の変化を捉え、反復的にセグメンテーションマスクを洗練するためにcreとプロトタイプネットワークを繰り返し使用する反復マスクリファインメントモジュールである。 2つの腹部CTデータセットと1つの腹部MRIデータセットを用いた実験により、提案手法は、それぞれDSCの平均16.32%、8.45%、および6.24%で最先端の方法よりも大幅に改善された。 コードは公開されている。

Although having achieved great success in medical image segmentation, deep convolutional neural networks usually require a large dataset with manual annotations for training and are difficult to generalize to unseen classes. Few-shot learning has the potential to address these challenges by learning new classes from only a few labeled examples. In this work, we propose a new framework for few-shot medical image segmentation based on prototypical networks. Our innovation lies in the design of two key modules: 1) a context relation encoder (CRE) that uses correlation to capture local relation features between foreground and background regions; and 2) a recurrent mask refinement module that repeatedly uses the CRE and a prototypical network to recapture the change of context relationship and refine the segmentation mask iteratively. Experiments on two abdomen CT datasets and an abdomen MRI dataset show the proposed method obtains substantial improvement over the state-of-the-art methods by an average of 16.32%, 8.45% and 6.24% in terms of DSC, respectively. Code is publicly available.
翻訳日:2021-08-05 10:57:48 公開日:2021-08-04
# (参考訳) evo-vit: ダイナミックビジョントランスフォーマーのための低速トークン進化 [全文訳有]

Evo-ViT: Slow-Fast Token Evolution for Dynamic Vision Transformer ( http://arxiv.org/abs/2108.01390v2 )

ライセンス: CC0 1.0
Yifan Xu, Zhijie Zhang, Mengdan Zhang, Kekai Sheng, Ke Li, Weiming Dong, Liqing Zhang, Changsheng Xu, Xing Sun(参考訳) ビジョン・トランスフォーマーは最近爆発的な人気を得たが、計算コストは依然として深刻な問題である。 視覚トランスフォーマーの最近の効率的な設計は、2つのパイプライン、すなわち局所空間前置および非構造トークンプラニングに基づく構造的圧縮に従う。 しかし、トークンプルーニングは局所的な空間的事前に欠かせない空間構造を破る。 2つのパイプラインの利点を生かすために、この研究は、各インスタンスのインフォーマティブなトークンを動的に識別し、完全な空間構造と情報フローを維持しながら、トレーニングと推論の複雑さを縮小することを目指している。 この目的を達成するために,視覚変換器の自己モチベーションの遅いトークン進化手法であるEvo-ViTを提案する。 具体的には,視覚トランスフォーマー特有のグローバルクラスの注意を生かして,非構造化インスタンス単位のトークン選択を行う。 そこで我々は,最終予測にほとんど寄与しない情報トークンとプレースホルダトークンを更新することを提案する。 情報の流れと空間構造を保証する低速な更新機構のおかげで、evo-vitはトレーニングプロセスの初期段階から、フラット構造とディープナロー構造のバニラトランスフォーマを加速することができる。 実験により,提案手法は画像分類において同等の性能を維持しつつ,視覚変換器の計算コストを大幅に削減できることを示した。 例えば,0.4%のtop-1精度を犠牲にしながら,60%以上のスループットでdeitを高速化する。

Vision transformers have recently received explosive popularity, but the huge computational cost is still a severe issue. Recent efficient designs for vision transformers follow two pipelines, namely, structural compression based on local spatial prior and non-structural token pruning. However, token pruning breaks the spatial structure that is indispensable for local spatial prior. To take advantage of both two pipelines, this work seeks to dynamically identify uninformative tokens for each instance and trim down both the training and inference complexity while maintaining complete spatial structure and information flow. To achieve this goal, we propose Evo-ViT, a self-motivated slow-fast token evolution method for vision transformers. Specifically, we conduct unstructured instance-wise token selection by taking advantage of the global class attention that is unique to vision transformers. Then, we propose to update informative tokens and placeholder tokens that contribute little to the final prediction with different computational priorities, namely, slow-fast updating. Thanks to the slow-fast updating mechanism that guarantees information flow and spatial structure, our Evo-ViT can accelerate vanilla transformers of both flat and deep-narrow structures from the very beginning of the training process. Experimental results demonstrate that the proposed method can significantly reduce the computational costs of vision transformers while maintaining comparable performance on image classification. For example, our method accelerates DeiTS by over 60% throughput while only sacrificing 0.4% top-1 accuracy.
翻訳日:2021-08-05 10:56:51 公開日:2021-08-04
# (参考訳) 音声における助詞の自動認識 [全文訳有]

Automatic recognition of suprasegmentals in speech ( http://arxiv.org/abs/2108.01122v2 )

ライセンス: CC BY 4.0
Jiahong Yuan, Neville Ryant, Xingyu Cai, Kenneth Church, Mark Liberman(参考訳) 自動音声認識に成功しているCTCを用いた微調整wav2vec 2.0による上顎骨の自動認識の改善の試みを報告する。 本手法は,音節,音調,ピッチアクセントの自動認識における最先端性の向上を実証する。 声調最終音や声調音節を認識単位としてセグメント情報を利用することで、マンダリン音調認識を大幅に改善することができる。 言語モデルは、音節を認識単位として使用する場合に役立つが、音調が認識単位である場合には役に立たない。 最後に、mandarin tone recognitionは、wav2vec 2.0の微調整における2つのタスクを組み合わせることで、英語音素認識の恩恵を受けることができる。

This study reports our efforts to improve automatic recognition of suprasegmentals by fine-tuning wav2vec 2.0 with CTC, a method that has been successful in automatic speech recognition. We demonstrate that the method can improve the state-of-the-art on automatic recognition of syllables, tones, and pitch accents. Utilizing segmental information, by employing tonal finals or tonal syllables as recognition units, can significantly improve Mandarin tone recognition. Language models are helpful when tonal syllables are used as recognition units, but not helpful when tones are recognition units. Finally, Mandarin tone recognition can benefit from English phoneme recognition by combining the two tasks in fine-tuning wav2vec 2.0.
翻訳日:2021-08-05 10:40:32 公開日:2021-08-04
# Greedy Networkが拡大

Greedy Network Enlarging ( http://arxiv.org/abs/2108.00177v2 )

ライセンス: Link先を確認
Chuanjian Liu, Kai Han, An Xiao, Yiping Deng, Wei Zhang, Chunjing Xu, Yunhe Wang(参考訳) 近年の深層畳み込みニューラルネットワークの研究は、アーキテクチャ設計の単純なパラダイム、すなわち、よりMACの多いモデルが、EfficientNetやRegNetのようなより精度の高いモデルを提示している。 これらの研究は、サンプリングと統計的手法により1つの統一規則でモデルのすべての段階を拡大しようとする。 しかし、いくつかのネットワークアーキテクチャはMACやアキュラシーに類似しているが、異なる段階の計算に対するアロケーションは、かなり異なる。 本稿では,ステージレベルの幅,深さ,解像度を改良し,CNNモデルの容量を拡大することを提案する。 最上位のCNNが上位のCNNの適切なサブコンポーネントであるという仮定の下で,計算のリアルタイム化に基づく強欲なネットワーク拡大手法を提案する。 異なる段階の計算をステップバイステップで修正することで、拡張されたネットワークはMACの最適な割り当てと利用を提供する。 EfficientNetでは,本手法が元のスケーリング手法の性能を一貫して上回っている。 特に,本手法をGhostNetに適用することにより,600Mと4.4BのMACで,最先端の80.9%と84.3%のImageNet Top-1アキュラシーを実現する。

Recent studies on deep convolutional neural networks present a simple paradigm of architecture design, i.e., models with more MACs typically achieve better accuracy, such as EfficientNet and RegNet. These works try to enlarge all the stages in the model with one unified rule by sampling and statistical methods. However, we observe that some network architectures have similar MACs and accuracies, but their allocations on computations for different stages are quite different. In this paper, we propose to enlarge the capacity of CNN models by improving their width, depth and resolution on stage level. Under the assumption that the top-performing smaller CNNs are a proper subcomponent of the top-performing larger CNNs, we propose an greedy network enlarging method based on the reallocation of computations. With step-by-step modifying the computations on different stages, the enlarged network will be equipped with optimal allocation and utilization of MACs. On EfficientNet, our method consistently outperforms the performance of the original scaling method. In particular, with application of our method on GhostNet, we achieve state-of-the-art 80.9% and 84.3% ImageNet top-1 accuracies under the setting of 600M and 4.4B MACs, respectively.
翻訳日:2021-08-05 10:26:36 公開日:2021-08-04
# 昇降型適応グラフウェーブレットを用いたスペクトルグラフ畳み込みネットワーク

Spectral Graph Convolutional Networks With Lifting-based Adaptive Graph Wavelets ( http://arxiv.org/abs/2108.01660v2 )

ライセンス: Link先を確認
Mingxing Xu, Wenrui Dai, Chenglin Li, Junni Zou, Hongkai Xiong and Pascal Frossard(参考訳) スペクトルグラフ畳み込みネットワーク(SGCN)は、確立されたグラフ信号処理フレームワークのプリズムを通じて、その解釈可能性から、グラフ表現学習において注目を集めている。 しかし、既存のSGCNは、手前のグラフやタスク上の信号に適応できない厳密な変換を持つグラフ畳み込みの実装に限られている。 本稿では,適応グラフウェーブレットを用いたグラフ畳み込みを実装した新しいスペクトルグラフ畳み込みネットワークを提案する。 具体的には、適応グラフウェーブレットをニューラルネットワークパラメータ化昇降構造で学習し、グラフ構造とノードの特徴を共同で考慮するために、構造認識注意型昇降操作が開発される。 拡散ウェーブレットに基づき,非二部グラフ分割による構造的情報損失の軽減を図る。 設計により、結果のウェーブレット変換の局所性と空間性が保証され、大小のグラフに対する昇降構造のスケーラビリティが保証される。 さらに,学習したウェーブレットを用いてスパースグラフ表現を学習し,その拡張性と解釈性を向上し,局所的で効率的でスケーラブルなスペクトルグラフ畳み込みを実現する。 学習したグラフ表現がノードの置換に不変であることを保証するため、ネットワークの入力時にレイヤを使用し、そのローカルなトポロジ情報に基づいてノードを並べ替える。 ベンチマーク引用およびバイオインフォマティクスグラフデータセットにおけるノードレベルおよびグラフレベルの表現学習タスクにおける提案ネットワークを評価する。 大規模な実験は、既存のSGCNよりも精度、効率、スケーラビリティの点で提案されたネットワークの優位性を実証している。

Spectral graph convolutional networks (SGCNs) have been attracting increasing attention in graph representation learning partly due to their interpretability through the prism of the established graph signal processing framework. However, existing SGCNs are limited in implementing graph convolutions with rigid transforms that could not adapt to signals residing on graphs and tasks at hand. In this paper, we propose a novel class of spectral graph convolutional networks that implement graph convolutions with adaptive graph wavelets. Specifically, the adaptive graph wavelets are learned with neural network-parameterize d lifting structures, where structure-aware attention-based lifting operations are developed to jointly consider graph structures and node features. We propose to lift based on diffusion wavelets to alleviate the structural information loss induced by partitioning non-bipartite graphs. By design, the locality and sparsity of the resulting wavelet transform as well as the scalability of the lifting structure for large and varying-size graphs are guaranteed. We further derive a soft-thresholding filtering operation by learning sparse graph representations in terms of the learned wavelets, which improves the scalability and interpretablity, and yield a localized, efficient and scalable spectral graph convolution. To ensure that the learned graph representations are invariant to node permutations, a layer is employed at the input of the networks to reorder the nodes according to their local topology information. We evaluate the proposed networks in both node-level and graph-level representation learning tasks on benchmark citation and bioinformatics graph datasets. Extensive experiments demonstrate the superiority of the proposed networks over existing SGCNs in terms of accuracy, efficiency and scalability.
翻訳日:2021-08-05 10:26:15 公開日:2021-08-04
# pro-uigan:オクルードサムネイルによる進行性顔面幻覚

Pro-UIGAN: Progressive Face Hallucination from Occluded Thumbnails ( http://arxiv.org/abs/2108.00602v2 )

ライセンス: Link先を確認
Yang Zhang, Xin Yu, Xiaobo Lu, Ping Liu(参考訳) 本稿では,隠蔽サムネイルから高分解能顔(HR)を幻覚させる作業について検討する。 本稿では,多段階のプログレッシブアップサンプリングとインペインティングによる生成的敵ネットワーク,pro-uiganを提案する。 Pro-UIGAN は,(1) 低分解能 (LR) 顔の顔形状を推定し,(2) 推定した先行画像に基づいて非閉塞なHR顔画像を取得する。 我々の多段階幻覚ネットワークは、密閉されたLR面を粗い方法で超解像し、塗布することにより、望ましくないぼかしやアーティファクトを著しく低減する。 具体的には,入力面とそのランドマーク特徴をそれぞれクエリとキーとして定式化した,顔先行推定のための新しいクロスモーダルトランスフォーマーモジュールを設計した。 このようなデザインは、入力された顔とランドマークにまたがる共同機能学習を奨励し、深い特徴対応を注意して発見する。 これにより、顔の外観特徴と顔の形状を相互に促進して学習する。 広範な実験により,我々の親uiganは,他の最先端(sota)手法と比較して,下級タスク,すなわち顔のアライメント,顔解析,顔認識,表情分類において優れた性能を達成できることを示した。

In this paper, we study the task of hallucinating an authentic high-resolution (HR) face from an occluded thumbnail. We propose a multi-stage Progressive Upsampling and Inpainting Generative Adversarial Network, dubbed Pro-UIGAN, which exploits facial geometry priors to replenish and upsample (8*) the occluded and tiny faces (16*16 pixels). Pro-UIGAN iteratively (1) estimates facial geometry priors for low-resolution (LR) faces and (2) acquires non-occluded HR face images under the guidance of the estimated priors. Our multi-stage hallucination network super-resolves and inpaints occluded LR faces in a coarse-to-fine manner, thus reducing unwanted blurriness and artifacts significantly. Specifically, we design a novel cross-modal transformer module for facial priors estimation, in which an input face and its landmark features are formulated as queries and keys, respectively. Such a design encourages joint feature learning across the input facial and landmark features, and deep feature correspondences will be discovered by attention. Thus, facial appearance features and facial geometry priors are learned in a mutual promotion manner. Extensive experiments demonstrate that our Pro-UIGAN achieves visually pleasing HR faces, reaching superior performance in downstream tasks, i.e., face alignment, face parsing, face recognition and expression classification, compared with other state-of-the-art (SotA) methods.
翻訳日:2021-08-05 10:25:51 公開日:2021-08-04
# I2V-GAN:赤外線可視光ビデオ翻訳

I2V-GAN: Unpaired Infrared-to-Visible Video Translation ( http://arxiv.org/abs/2108.00913v2 )

ライセンス: Link先を確認
Shuang Li, Bingfeng Han, Zhenjie Yu, Chi Harold Liu, Kai Chen, Shuigen Wang(参考訳) 人間の視覚はしばしば複雑な環境要因、特に夜間視覚のシナリオに影響される。 したがって、赤外線カメラは周囲の環境の赤外線を検知することで視覚効果を高めるためにしばしば利用されるが、詳細な意味情報の欠如により赤外線映像は望ましくない。 この場合、赤外線領域から可視光領域への効果的な映像から映像への変換は、赤外線領域と可視領域の間の内在的な大きなギャップを克服することによって強く必要となる。 この課題に対処するために、不対向赤外線ビデオによって微細で時空間的に一貫した可視光ビデオを生成する赤外線可視(I2V)ビデオ変換法I2V-GANを提案する。 技術的には,1) 実物に近い合成フレームを生成するための対角的制約,2) 効果的なコンテント変換とスタイル保存のために導入された知覚的損失に対する循環的整合性,3) 空間空間と時間空間の両方におけるコンテントと運動の整合性を高めるためのドメイン内および領域内における相似性制約,である。 さらに、現在公開されている赤外線と可視光のデータセットは、主にオブジェクトの検出や追跡に使われており、ビデオタスクには適さない不連続画像で構成されているものもある。 そこで我々は,IRVI と呼ばれる I2V ビデオ翻訳のための新しいデータセットを提供する。 具体的には、車両と監視シーンの12連続のビデオクリップがあり、赤外線と可視光の両方を24352フレームに分割することができる。 包括的な実験により、I2V-GANは、より高い流速とより微細なセマンティックディテールを持つI2Vビデオの翻訳において、比較したSOTA法よりも優れていることが示された。 コードとIRVIデータセットはhttps://github.com/B IT-DA/I2V-GANで公開されている。

Human vision is often adversely affected by complex environmental factors, especially in night vision scenarios. Thus, infrared cameras are often leveraged to help enhance the visual effects via detecting infrared radiation in the surrounding environment, but the infrared videos are undesirable due to the lack of detailed semantic information. In such a case, an effective video-to-video translation method from the infrared domain to the visible light counterpart is strongly needed by overcoming the intrinsic huge gap between infrared and visible fields. To address this challenging problem, we propose an infrared-to-visible (I2V) video translation method I2V-GAN to generate fine-grained and spatial-temporal consistent visible light videos by given unpaired infrared videos. Technically, our model capitalizes on three types of constraints: 1)adversarial constraint to generate synthetic frames that are similar to the real ones, 2)cyclic consistency with the introduced perceptual loss for effective content conversion as well as style preservation, and 3)similarity constraints across and within domains to enhance the content and motion consistency in both spatial and temporal spaces at a fine-grained level. Furthermore, the current public available infrared and visible light datasets are mainly used for object detection or tracking, and some are composed of discontinuous images which are not suitable for video tasks. Thus, we provide a new dataset for I2V video translation, which is named IRVI. Specifically, it has 12 consecutive video clips of vehicle and monitoring scenes, and both infrared and visible light videos could be apart into 24352 frames. Comprehensive experiments validate that I2V-GAN is superior to the compared SOTA methods in the translation of I2V videos with higher fluency and finer semantic details. The code and IRVI dataset are available at https://github.com/B IT-DA/I2V-GAN.
翻訳日:2021-08-05 10:25:18 公開日:2021-08-04
# 脳信号による人間の読み理解

Understanding Human Reading Comprehension with Brain Signals ( http://arxiv.org/abs/2108.01360v2 )

ライセンス: Link先を確認
Ziyi Ye, Xiaohui Xie, Yiqun Liu, Zhihong Wang, Xuesong Chen, Min Zhang, Shaoping Ma(参考訳) 読解は、多くの人間の脳活動を伴う複雑な認知過程である。 多くの研究が読解過程における読解パターンと注意割当機構を研究している。 しかし、人間の脳が理解している時に何が起こるかは分かっておらず、情報取得性能を高めるために、この情報を暗黙のフィードバックとして活用する方法も分かっていない。 脳波などの脳イメージング技術の進歩により、ほぼリアルタイムで高精度な脳信号を収集することができる。 神経イメージング技術を用いて,脳活動の理解度を調査するための実験室ベースのユーザスタディを慎重に設計する。 本研究は,ユーザの情報ニーズを満足できる内容や,不可能な内容など,さまざまなタイプのコンテンツによって神経応答が変化することを示す。 本研究は, 認知的負荷, 意味論的理解, 推論処理などの認知活動が, 読解時のマイクロスケールにおいて, 神経反応の基盤となることを示唆する。 認知活動におけるこれらの検出可能な違いに着想を得て,脳波の特徴に基づく教師あり学習モデルを構築した。 その結果,脳信号による性能向上が期待できることがわかった。 これらの結果から,脳信号は読解時の人間とコンピュータの相互作用を高める上で有用なフィードバックであることが示唆された。

Reading comprehension is a complex cognitive process involving many human brain activities. Plenty of works have studied the reading patterns and attention allocation mechanisms in the reading process. However, little is known about what happens in human brain during reading comprehension and how we can utilize this information as implicit feedback to facilitate information acquisition performance. With the advances in brain imaging techniques such as EEG, it is possible to collect high-precision brain signals in almost real time. With neuroimaging techniques, we carefully design a lab-based user study to investigate brain activities during reading comprehension. Our findings show that neural responses vary with different types of contents, i.e., contents that can satisfy users' information needs and contents that cannot. We suggest that various cognitive activities, e.g., cognitive loading, semantic-thematic understanding, and inferential processing, at the micro-time scale during reading comprehension underpin these neural responses. Inspired by these detectable differences in cognitive activities, we construct supervised learning models based on EEG features for two reading comprehension tasks: answer sentence classification and answer extraction. Results show that it is feasible to improve their performance with brain signals. These findings imply that brain signals are valuable feedback for enhancing human-computer interactions during reading comprehension.
翻訳日:2021-08-05 10:24:47 公開日:2021-08-04
# プラズモン誘起透過における非線形波動の学習

Learning Nonlinear Waves in Plasmon-induced Transparency ( http://arxiv.org/abs/2108.01508v2 )

ライセンス: Link先を確認
Jiaxi Cheng and Siliu Xu(参考訳) プラズモン誘起透過(pit)は、非線形波などの領域で重要な現象を見つける複雑な非線形ダイナミクスを示す。 しかし、そのような非線形解はシュリンガー方程式のパラメータと異なるポテンシャルの選択に敏感に依存する。 この複雑さにもかかわらず、機械学習コミュニティは回帰による複雑なデータセットの予測において顕著な効率性を開発した。 本稿では, プラズモン誘起透過性メタマテリアルシステムにおける非線形ソリトンの複雑な伝播を予測するために, 誘導モデルの解析的, 数値的アプローチを必要とせず, 応用ポテンシャルを持つrecurrent neural network (rnn) 手法を検討する。 本手法は,与えられた初期条件とポテンシャルのみから非線形ソリトンの伝播予測に成功していることを示す。 長い短期記憶(LSTM)人工ニューラルネットワークによるシミュレーションと予測の結果の顕著な一致を実証する。 この研究で提示されたフレームワークは、シュル=オディンガー型方程式、例えばコールド原子系や非線形ファイバー光学における非線形ダイナミクスを用いた量子システムや非線形波におけるrnnの応用に対する新たな展望を開く。

Plasmon-induced transparency (PIT) displays complex nonlinear dynamics that find critical phenomena in areas such as nonlinear waves. However, such a nonlinear solution depends sensitively on the selection of parameters and different potentials in the Schr\"odinger equation. Despite this complexity, the machine learning community has developed remarkable efficiencies in predicting complicated datasets by regression. Here, we consider a recurrent neural network (RNN) approach to predict the complex propagation of nonlinear solitons in plasmon-induced transparency metamaterial systems with applied potentials bypassing the need for analytical and numerical approaches of a guiding model. We demonstrate the success of this scheme on the prediction of the propagation of the nonlinear solitons solely from a given initial condition and potential. We prove the prominent agreement of results in simulation and prediction by long short-term memory (LSTM) artificial neural networks. The framework presented in this work opens up a new perspective for the application of RNN in quantum systems and nonlinear waves using Schr\"odinger-type equations, for example, the nonlinear dynamics in cold-atom systems and nonlinear fiber optics.
翻訳日:2021-08-05 10:24:27 公開日:2021-08-04
# 深層学習に基づく脆弱性検出器のロバスト化に向けて

Towards Making Deep Learning-based Vulnerability Detectors Robust ( http://arxiv.org/abs/2108.00669v2 )

ライセンス: Link先を確認
Zhen Li, Jing Tang, Deqing Zou, Qian Chen, Shouhuai Xu, Chao Zhang, Yichen Li, Hai Jin(参考訳) ソースコードのソフトウェア脆弱性を自動的に検出することは重要な問題であり、多くの注目を集めている。 特に、ディープラーニングベースの脆弱性検出(DLベースの脆弱性検出)は、人間の専門家が脆弱性の特徴やパターンを定義する必要がないため、魅力的である。 しかし、そのような検出器の堅牢性は不明である。 本稿では,DLベースの検出器が,攻撃と呼ばれる単純なコード変換に対して堅牢ではないことを示すことによって,この側面における研究を開始する。 このような攻撃に対してDLベースの検出器を堅牢化するための第一歩として、(i)特徴学習と分類器学習を分離することに焦点を当てたZigZagと呼ばれる革新的なフレームワークを提案し、(ii)頑健な特徴や頑健な分類器に収束するまで、ZigZagスタイルの戦略を反復的に洗練させる。 実験の結果、zigzagフレームワークはdlベースの検出器のロバスト性を大幅に改善できることがわかった。

Automatically detecting software vulnerabilities in source code is an important problem that has attracted much attention. In particular, deep learning-based vulnerability detectors, or DL-based detectors, are attractive because they do not need human experts to define features or patterns of vulnerabilities. However, such detectors' robustness is unclear. In this paper, we initiate the study in this aspect by demonstrating that DL-based detectors are not robust against simple code transformations, dubbed attacks in this paper, as these transformations may be leveraged for malicious purposes. As a first step towards making DL-based detectors robust against such attacks, we propose an innovative framework, dubbed ZigZag, which is centered at (i) decoupling feature learning and classifier learning and (ii) using a ZigZag-style strategy to iteratively refine them until they converge to robust features and robust classifiers. Experimental results show that the ZigZag framework can substantially improve the robustness of DL-based detectors.
翻訳日:2021-08-05 10:24:09 公開日:2021-08-04