このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20210730となっている論文です。

PDF登録状況(公開日: 20210730)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) JVMのためのモンテカルロ木探索の拡張性とモジュール設計と実装 [全文訳有]

An Extensible and Modular Design and Implementation of Monte Carlo Tree Search for the JVM ( http://arxiv.org/abs/2108.10061v1 )

ライセンス: CC BY 4.0
Larkin Liu, Jun Tao Luo(参考訳) モンテカルロ木探索(mcts)の柔軟な実装は、ドメイン固有の知識と他の探索アルゴリズムとのハイブリダイゼーションを組み合わせることで、複雑な計画における問題の解決策を見つけるのに有効である。 mctreesearch4jは、オブジェクト指向プログラミングの主要な設計原則に従い、標準JVMライブラリとして書かれたMCTS実装である。 我々は,mctsライブラリがマルコフ決定プロセスやターンベースの敵ゲームに柔軟に対応できるキークラスの抽象化を定義する。 このライブラリはクラス継承とジェネリック型付けを利用して独自のアルゴリズム定義を標準化することで,モジュール性と拡張性を備えるように設計されている。 我々は,MCTS実装の設計により,様々なマルコフ決定プロセス(MDP)領域にまたがるユニークなヒューリスティックやカスタマイズが容易であることを示した。 加えて、実装は標準のMDPに対して合理的に性能が高く正確である。 さらに、mctreesearch4jの実装を通じて、MCTSアルゴリズムの異なる種類のニュアンスについて論じる。

Flexible implementations of Monte Carlo Tree Search (MCTS), combined with domain specific knowledge and hybridization with other search algorithms, can be powerful for finding the solutions to problems in complex planning. We introduce mctreesearch4j, an MCTS implementation written as a standard JVM library following key design principles of object oriented programming. We define key class abstractions allowing the MCTS library to flexibly adapt to any well defined Markov Decision Process or turn-based adversarial game. Furthermore, our library is designed to be modular and extensible, utilizing class inheritance and generic typing to standardize custom algorithm definitions. We demonstrate that the design of the MCTS implementation provides ease of adaptation for unique heuristics and customization across varying Markov Decision Process (MDP) domains. In addition, the implementation is reasonably performant and accurate for standard MDP's. In addition, via the implementation of mctreesearch4j, the nuances of different types of MCTS algorithms are discussed.
翻訳日:2021-08-29 16:13:47 公開日:2021-07-30
# (参考訳) リアルタイムAIを活用した教室ツールREACTのデモ [全文訳有]

Demonstrating REACT: a Real-time Educational AI-powered Classroom Tool ( http://arxiv.org/abs/2108.07693v1 )

ライセンス: CC BY 4.0
Ajay Kulkarni and Olga Gkountouna(参考訳) 本稿では,教育者の意思決定プロセスを支援するためにEDM技術を用いたリアルタイムAIを活用した新しい授業ツールREACTを紹介する。 REACTはユーザフレンドリなグラフィカルインターフェースを備えたデータ駆動ツールである。 学生のパフォーマンスデータを分析し、コンテキストベースのアラートとコース計画のための教育者へのレコメンデーションを提供する。 さらに、モデルに依存しない説明を組み込んで、意思決定のプロセスに説明可能性と解釈可能性をもたらす。 本稿では,実世界のデータセットを用いたツールのユースケースシナリオを示し,そのアーキテクチャとユーザインタフェースの設計について述べる。 本実験は,クラス内活動における生徒のパフォーマンス(不正確な応答やヒントなど)に基づく凝集的クラスタリングに着目したものである。 同様の強みと弱みを持つ学生集団の形成は、教師がリスクの高い学生を特定したり、学習グループを作ったり、異なる強みを持つ学生同士の指導を奨励することで、コースプランニングを改善するのに役立つかもしれない。

We present a demonstration of REACT, a new Real-time Educational AI-powered Classroom Tool that employs EDM techniques for supporting the decision-making process of educators. REACT is a data-driven tool with a user-friendly graphical interface. It analyzes students' performance data and provides context-based alerts as well as recommendations to educators for course planning. Furthermore, it incorporates model-agnostic explanations for bringing explainability and interpretability in the process of decision making. This paper demonstrates a use case scenario of our proposed tool using a real-world dataset and presents the design of its architecture and user interface. This demonstration focuses on the agglomerative clustering of students based on their performance (i.e., incorrect responses and hints used) during an in-class activity. This formation of clusters of students with similar strengths and weaknesses may help educators to improve their course planning by identifying at-risk students, forming study groups, or encouraging tutoring between students of different strengths.
翻訳日:2021-08-22 16:35:49 公開日:2021-07-30
# (参考訳) LinkedIn検索システムのためのディープ自然言語処理 [全文訳有]

Deep Natural Language Processing for LinkedIn Search Systems ( http://arxiv.org/abs/2108.08252v1 )

ライセンス: CC BY 4.0
Weiwei Guo, Xiaowei Liu, Sida Wang, Michaeel Kazi, Zhoutong Fu, Huiji Gao, Jun Jia, Liang Zhang, Bo Long(参考訳) 多くの検索システムは、検索クエリ、ユーザプロファイル、ドキュメントなど、大量の自然言語データを扱うので、ディープラーニングベースの自然言語処理技術(deep nlp)が役に立ちます。 本稿では,検索エンジンにおける5つの代表的なタスクにディープNLP技術を適用するための総合的研究を紹介する。 5つのタスクのモデル設計と実験を通じて,(1)ディープNLPが検索システムで役に立つ/役に立たない,という3つの重要な質問に対する回答を見つけることができる。 (2)レイテンシの課題への対処方法? (3)モデルの堅牢性を確保するには? この作業はLinkedIn検索の既存の取り組みに基づいており、商用検索エンジンで大規模にテストされている。 私たちの経験は、業界や研究コミュニティに有用な洞察を与えることができると信じています。

Many search systems work with large amounts of natural language data, e.g., search queries, user profiles and documents, where deep learning based natural language processing techniques (deep NLP) can be of great help. In this paper, we introduce a comprehensive study of applying deep NLP techniques to five representative tasks in search engines. Through the model design and experiments of the five tasks, readers can find answers to three important questions: (1) When is deep NLP helpful/not helpful in search systems? (2) How to address latency challenges? (3) How to ensure model robustness? This work builds on existing efforts of LinkedIn search, and is tested at scale on a commercial search engine. We believe our experiences can provide useful insights for the industry and research communities.
翻訳日:2021-08-22 16:28:43 公開日:2021-07-30
# (参考訳) モバイルエッジコンピューティングのための分散ディープラーニング:コミュニケーション効率と信頼性に関する調査 [全文訳有]

Decentralized Deep Learning for Mobile Edge Computing: A Survey on Communication Efficiency and Trustworthiness ( http://arxiv.org/abs/2108.03980v1 )

ライセンス: CC BY 4.0
Yuwei Sun, Hideya Ochiai, Hiroshi Esaki(参考訳) 5Gのより広範なカバレッジとレイテンシ削減のためのより良いソリューションは、モバイルエッジコンピューティング(MEC)技術の組み合わせを必要とする。 分散ディープラーニング(ddl)は、数百万のエッジスマートデバイスのプライバシ保護データ処理への有望なソリューションであり、クライアントの生データを開示することなく、ローカルモデルのネットワーク内で連合学習を利用する。 特に、取引や個人医療記録の機密データが慎重に管理されている金融や医療などの業界では、DDLは顧客データのプライバシー保護を図りながら、現地モデルの性能向上を図るため、これらの機関間の協力を促進している。 本稿では,DDLの技術的基礎を,分散学習を通じて社会の多くの歩みに役立てるために実証する。 さらに,コミュニケーション効率と信頼性という新たな視点から,ddlの最近の課題と最も関連するソリューションを総合的に概観する。

A wider coverage and a better solution to latency reduction in 5G necessitates its combination with mobile edge computing (MEC) technology. Decentralized deep learning (DDL) as a promising solution to privacy-preserving data processing for millions of edge smart devices, it leverages federated learning within the networking of local models, without disclosing a client's raw data. Especially, in industries such as finance and healthcare where sensitive data of transactions and personal medical records is cautiously maintained, DDL facilitates the collaboration among these institutes to improve the performance of local models, while protecting data privacy of participating clients. In this survey paper, we demonstrate technical fundamentals of DDL for benefiting many walks of society through decentralized learning. Furthermore, we offer a comprehensive overview of recent challenges of DDL and the most relevant solutions from novel perspectives of communication efficiency and trustworthiness.
翻訳日:2021-08-15 12:12:56 公開日:2021-07-30
# 冗長性による依存型ニューラルネットワーク -冗長アーキテクチャの比較-

Dependable Neural Networks Through Redundancy, A Comparison of Redundant Architectures ( http://arxiv.org/abs/2108.02565v1 )

ライセンス: Link先を確認
Hans Dermot Doran, Gianluca Ielpo, David Ganz, Michael Zapke(参考訳) エッジAIが、特に業界において、現実世界のアプリケーションの増加を見出したことで、AIを使用した機能的に安全なアプリケーションに関する疑問が提起され始めている。 本稿では,ニューラルネットワークの信頼性の高い動作を実現するための課題について考察する。 ロックステップソリューションを検討する前に,一般的な実装用語における依存性の問題について議論する。 2つの類似したニューラルネットワークが正確に同時に結果を生成し、プラットフォーム間の同期が必要となるのは、必ずしも当然のことではありません。 この直観を裏付ける予備的な測定を行い、ロックステップニューラルネットワークエンジンの実装にいくつかの取り組みを導入する。

With edge-AI finding an increasing number of real-world applications, especially in industry, the question of functionally safe applications using AI has begun to be asked. In this body of work, we explore the issue of achieving dependable operation of neural networks. We discuss the issue of dependability in general implementation terms before examining lockstep solutions. We intuit that it is not necessarily a given that two similar neural networks generate results at precisely the same time and that synchronization between the platforms will be required. We perform some preliminary measurements that may support this intuition and introduce some work in implementing lockstep neural network engines.
翻訳日:2021-08-08 11:07:15 公開日:2021-07-30
# (参考訳) 多状態部分観測可能なrestless banditのインデクサビリティとロールアウトポリシ [全文訳有]

Indexability and Rollout Policy for Multi-State Partially Observable Restless Bandits ( http://arxiv.org/abs/2108.00892v1 )

ライセンス: CC BY 4.0
Rahul Meshram and Kesav Kaza(参考訳) 部分的に観測可能な状態のrestless multi-armed banditsは、通信システム、情報年齢、レコメンデーションシステムに応用されている。 本稿では,多状態部分観測可能なrestless banditモデルについて検討する。 我々は、意思決定者にとって観測可能な情報に基づく3つの異なるモデルを考える -- 1) バンドイットの動作から情報を見ることができない 2) バンドイットの完全な情報は、バンドイット上の1つのアクションに対してのみ観測可能であり、固定された再起動状態、すなわち、他のすべての状態からその状態へ遷移する。 構造的特性を発達させる。 また,model 2 と 3 のしきい値型ポリシーとインデクシング可能性を示す。 我々はモンテカルロ(MC)のロールアウトポリシーを提示する。 モデル2の場合、ウィットルインデックスの計算に使用します。 我々は,MCロールアウトポリシーにおける水平長および軌道数の観点から,値関数に束縛された濃度を求める。 モデル3の明示的な指数式を導出する。 最後に,モデル1のモンテカルロロールアウトポリシについて,インデクサビリティを示すことが難しい場合に説明する。 本稿では, 筋電図ポリシ, モンテカルロロールアウトポリシ, ウィトル指数ポリシを用いた数値例を示す。 モンテカルロのロールアウト政策はミオピックにとって良い競争政策である。

Restless multi-armed bandits with partially observable states has applications in communication systems, age of information and recommendation systems. In this paper, we study multi-state partially observable restless bandit models. We consider three different models based on information observable to decision maker -- 1) no information is observable from actions of a bandit 2) perfect information from bandit is observable only for one action on bandit, there is a fixed restart state, i.e., transition occurs from all other states to that state 3) perfect state information is available to decision maker for both actions on a bandit and there are two restart state for two actions. We develop the structural properties. We also show a threshold type policy and indexability for model 2 and 3. We present Monte Carlo (MC) rollout policy. We use it for whittle index computation in case of model 2. We obtain the concentration bound on value function in terms of horizon length and number of trajectories for MC rollout policy. We derive explicit index formula for model 3. We finally describe Monte Carlo rollout policy for model 1 when it is difficult to show indexability. We demonstrate the numerical examples using myopic policy, Monte Carlo rollout policy and Whittle index policy. We observe that Monte Carlo rollout policy is good competitive policy to myopic.
翻訳日:2021-08-05 07:05:13 公開日:2021-07-30
# (参考訳) 運動画像脳波データ分類のためのSPAに基づくマニフォールド学習フレームワーク [全文訳有]

A SPA-based Manifold Learning Framework for Motor Imagery EEG Data Classification ( http://arxiv.org/abs/2108.00865v1 )

ライセンス: CC BY 4.0
Xiangyun Li, Peng Chen, Zhanpeng Bao(参考訳) 脳波信号(EEG)は、特に被検体の数が限られている場合に高い分類精度を達成する非定常的、確率的、高非線形の生体電気信号である。 頻繁なソリューションとして、多層ニューラルネットワークに基づく分類器は、大きなトレーニングデータセットと注意深いチューニングなしで実装する必要がある。 本稿では,低次元幾何学的構造を発見し,運動画像(MI)タスクから2種類の脳波データを分類するための多様体学習フレームワークを提案する。 特徴抽出のために、前処理された脳波信号から共通空間パターン(csp)によって実装される。 分類のための特徴の近傍では、データの支持に対する局所近似が得られ、次に最も近い支持を持つクラスに特徴が割り当てられる。 局所近似のために球面を用いて球面近似(SPA)分類器を作成し、この多様体法により抽出した特徴を分類する。 本手法は,2008年のbciコンペティションデータにおいて高い精度を実現し,miタスクの復号精度を著しく向上し,小規模サンプルデータセットに対して強い堅牢性を示すことを示す。 オンライン脳コンピュータインタフェース(BCI)システムのための2パラメータ分類器のチューニングはシンプルで効率的である。

The electroencephalograp hy (EEG) signal is a non-stationary, stochastic, and highly non-linear bioelectric signal for which achieving high classification accuracy is challenging, especially when the number of subjects is limited. As frequently used solution, classifiers based on multilayer neural networks has to be implemented without large training data sets and careful tuning. This paper proposes a manifold learning framework to classify two types of EEG data from motor imagery (MI) tasks by discovering lower dimensional geometric structures. For feature extraction, it is implemented by Common Spatial Pattern (CSP) from the preprocessed EEG signals. In the neighborhoods of the features for classification, the local approximation to the support of the data is obtained, and then the features are assigned to the classes with the closest support. A spherical approximation (SPA) classifier is created using spherelets for local approximation, and the extracted features are classified with this manifold-based method. The SPA classifier achieves high accuracy in the 2008 BCI competition data, and the analysis shows that this method can significantly improve the decoding accuracy of MI tasks and exhibit strong robustness for small sample datasets. It would be simple and efficient to tune the two-parameters classifier for the online brain-computer interface(BCI)system .
翻訳日:2021-08-05 06:48:30 公開日:2021-07-30
# (参考訳) 熱帯ポリヘドラを用いたRELU網の検証

Validation of RELU nets with tropical polyhedra ( http://arxiv.org/abs/2108.00893v1 )

ライセンス: CC BY 4.0
Eric Goubault, S\'ebastien Palumby, Sylvie Putot, Louis Rustenholtz, Sriram Sankaranarayanan(参考訳) 本稿では,ニューラルネットワークのロバスト性,仕様の遵守,ニューラルネットワークフィードバックシステムの到達可能性解析などの応用における基本的原理であるフィードフォワードニューラルネットワークのレンジ解析問題について検討する。 我々のアプローチは、特定の困難を呈するReLUフィードフォワードニューラルネットに焦点をあてる:デリバティブを利用するアプローチは一般的には適用されず、ニューロン活性化のパターンの数は小さなネットワークでもかなり大きくなり、凸近似は概して粗い。 本稿では,古典的プログラム検証における類似の困難に対処するのに非常に成功した集合ベース手法と抽象解釈を用いる。 本稿では,熱帯ポリヘドラを用いたReLUフィードフォワードニューラルネットワークの抽象化手法を提案する。 熱帯ポリヘドラは,線形計算による精度の低下を抑えつつ,ReLU活性化関数を効率的に抽象化できることを示す。 本稿では、ReLUネットワークと熱帯有理関数の接続が、ReLUニューラルネットワークのレンジ解析にどのように役立つかを示す。

This paper studies the problem of range analysis for feedforward neural networks, which is a basic primitive for applications such as robustness of neural networks, compliance to specifications and reachability analysis of neural-network feedback systems. Our approach focuses on ReLU (rectified linear unit) feedforward neural nets that present specific difficulties: approaches that exploit derivatives do not apply in general, the number of patterns of neuron activations can be quite large even for small networks, and convex approximations are generally too coarse. In this paper, we employ set-based methods and abstract interpretation that have been very successful in coping with similar difficulties in classical program verification. We present an approach that abstracts ReLU feedforward neural networks using tropical polyhedra. We show that tropical polyhedra can efficiently abstract ReLU activation function, while being able to control the loss of precision due to linear computations. We show how the connection between ReLU networks and tropical rational functions can provide approaches for range analysis of ReLU neural networks.
翻訳日:2021-08-05 06:40:22 公開日:2021-07-30
# (参考訳) WLV-RIT at GermEval 2021: Multitask Learning with Transformers to Detect Toxic, Engaging, and Fact-Claiming Comments [全文訳有]

WLV-RIT at GermEval 2021: Multitask Learning with Transformers to Detect Toxic, Engaging, and Fact-Claiming Comments ( http://arxiv.org/abs/2108.00057v1 )

ライセンス: CC BY 4.0
Skye Morgan, Tharindu Ranasinghe, Marcos Zampieri(参考訳) 本稿では,ソーシャルメディア上での有毒・エンゲージメント・事実主張の識別について述べる。 germeval-2021の主催者が利用可能なデータセットを使用し、3000以上の手動で注釈付きfacebookコメントをドイツ語で記述した。 3つのタスクの関連性を考慮し,大規模な事前学習型トランスフォーマーモデルとマルチタスク学習を用いて問題にアプローチした。 この結果から,マルチタスク学習は3つのタスクすべてにおいて,より一般的な単一タスク学習手法よりも優れた性能を達成できることが示唆された。 我々は、WLV-RITというチーム名でGermEval-2021にベストシステムを提出する。

This paper addresses the identification of toxic, engaging, and fact-claiming comments on social media. We used the dataset made available by the organizers of the GermEval-2021 shared task containing over 3,000 manually annotated Facebook comments in German. Considering the relatedness of the three tasks, we approached the problem using large pre-trained transformer models and multitask learning. Our results indicate that multitask learning achieves performance superior to the more common single task learning approach in all three tasks. We submit our best systems to GermEval-2021 under the team name WLV-RIT.
翻訳日:2021-08-05 06:39:21 公開日:2021-07-30
# (参考訳) DySMHO: 移動水平最適化による動的システムのGoverning方程式のデータ駆動発見

DySMHO: Data-Driven Discovery of Governing Equations for Dynamical Systems via Moving Horizon Optimization ( http://arxiv.org/abs/2108.00069v1 )

ライセンス: CC BY 4.0
Fernando Lejarza and Michael Baldea(参考訳) 物理現象と化学現象を支える統治法を明らかにすることは、科学と工学のシステムを理解し、最終的に制御する重要なステップである。 本研究では、大規模雑音データから微分方程式の形で法則を識別するスケーラブルな機械学習フレームワークである移動水平最適化(DySMHO)による動的システムの発見を紹介する。 DySMHOは、基底関数の大きな辞書から基礎となる支配方程式を逐次学習する新しい移動地平線動的最適化戦略で構成されている。 DySMHOのシーケンシャルな性質は、非関係基底関数の除去に統計的議論を活用することを可能にし、オーバーフィッティングを回避し、支配方程式の正確で同相な形式を復元する。 標準非線形力学系の例は、DySMHOが規則を正確に回復でき、高いレベルの測定ノイズに頑健であり、多重時間スケール力学のような課題に対処できることを示すために用いられる。

Discovering the governing laws underpinning physical and chemical phenomena is a key step towards understanding and ultimately controlling systems in science and engineering. We introduce Discovery of Dynamical Systems via Moving Horizon Optimization (DySMHO), a scalable machine learning framework for identifying governing laws in the form of differential equations from large-scale noisy experimental data sets. DySMHO consists of a novel moving horizon dynamic optimization strategy that sequentially learns the underlying governing equations from a large dictionary of basis functions. The sequential nature of DySMHO allows leveraging statistical arguments for eliminating irrelevant basis functions, avoiding overfitting to recover accurate and parsimonious forms of the governing equations. Canonical nonlinear dynamical system examples are used to demonstrate that DySMHO can accurately recover the governing laws, is robust to high levels of measurement noise and that it can handle challenges such as multiple time scale dynamics.
翻訳日:2021-08-05 06:28:52 公開日:2021-07-30
# (参考訳) データ不均衡の基礎とデータ民主主義の解決策 [全文訳有]

Foundations of data imbalance and solutions for a data democracy ( http://arxiv.org/abs/2108.00071v1 )

ライセンス: CC BY 4.0
Ajay Kulkarni, Deri Chong, Feras A. Batarseh(参考訳) 不均衡なデータを扱うことが、データセットの分類を行う上で一般的な問題である。 多くの場合、この問題は意思決定やポリシーの実行においてバイアスに寄与します。 したがって、データ(またはクラス不均衡)の不均衡を引き起こす要因を理解することが不可欠である。 このような隠れバイアスと不均衡は、データの暴行とデータ民主主義への大きな挑戦につながる可能性がある。 この章では、クラス不均衡の程度と概念の複雑さという2つの重要な統計要素が解決されます。 さらに,これらのシナリオに適した統計指標を実生活データセット(自動車保険請求)上で論じ,実施する。 最終的に、ランダムなオーバーサンプリング、ランダムなアンダーサンプリング、合成マイノリティなオーバーサンプリング技術、Tomekリンクなどの一般的なデータレベルメソッドがPythonで実装され、そのパフォーマンスが比較される。

Dealing with imbalanced data is a prevalent problem while performing classification on the datasets. Many times, this problem contributes to bias while making decisions or implementing policies. Thus, it is vital to understand the factors which cause imbalance in the data (or class imbalance). Such hidden biases and imbalances can lead to data tyranny and a major challenge to a data democracy. In this chapter, two essential statistical elements are resolved: the degree of class imbalance and the complexity of the concept; solving such issues helps in building the foundations of a data democracy. Furthermore, statistical measures which are appropriate in these scenarios are discussed and implemented on a real-life dataset (car insurance claims). In the end, popular data-level methods such as random oversampling, random undersampling, synthetic minority oversampling technique, Tomek link, and others are implemented in Python, and their performance is compared.
翻訳日:2021-08-05 06:27:53 公開日:2021-07-30
# (参考訳) 心エコー図による大動脈狭窄の分類と診断のための新しい半教師付き学習ベンチマーク

A New Semi-supervised Learning Benchmark for Classifying View and Diagnosing Aortic Stenosis from Echocardiograms ( http://arxiv.org/abs/2108.00080v1 )

ライセンス: CC BY 4.0
Zhe Huang, Gary Long, Benjamin Wessler, Michael C. Hughes(参考訳) 半教師付き画像分類はラベル付き限られたデータから学習のかなりの進歩を示しているが、近年の進歩は臨床応用には至っていない。 心臓疾患,特に大動脈狭窄のタイムリーな診断を改善するために,心エコー(心電図)の解釈に関連する2つの課題に対する半監督的アプローチを評価するためのベンチマークデータセットを開発した。 そこで,MixMatchと呼ばれる最先端の手法は,大量のラベル付き画像から学習し,ラベル付き画像のみよりも優れたパフォーマンスを実現するため,大量のラベル付き画像から学習することで,両タスクにおいて有望な精度向上を実現する。 さらに患者レベルの診断予測を追求し,その多くが無関係な多彩なビュータイプのイメージを数百枚集めて,一貫性のある予測を行う必要がある。 臨床関連ビューと予測される画像から診断予測を優先し、診断タスクから診断タスクへ知識を伝達する新たな手法により、患者レベルの最高のパフォーマンスが達成される。 われわれはTfts Medical Echocardiogram Dataset and Evaluation frameworkを発売し,臨床応用のためのマルチタスク半教師あり学習のさらなる改善を期待する。

Semi-supervised image classification has shown substantial progress in learning from limited labeled data, but recent advances remain largely untested for clinical applications. Motivated by the urgent need to improve timely diagnosis of life-threatening heart conditions, especially aortic stenosis, we develop a benchmark dataset to assess semi-supervised approaches to two tasks relevant to cardiac ultrasound (echocardiogram) interpretation: view classification and disease severity classification. We find that a state-of-the-art method called MixMatch achieves promising gains in heldout accuracy on both tasks, learning from a large volume of truly unlabeled images as well as a labeled set collected at great expense to achieve better performance than is possible with the labeled set alone. We further pursue patient-level diagnosis prediction, which requires aggregating across hundreds of images of diverse view types, most of which are irrelevant, to make a coherent prediction. The best patient-level performance is achieved by new methods that prioritize diagnosis predictions from images that are predicted to be clinically-relevant views and transfer knowledge from the view task to the diagnosis task. We hope our released Tufts Medical Echocardiogram Dataset and evaluation framework inspire further improvements in multi-task semi-supervised learning for clinical applications.
翻訳日:2021-08-05 06:15:57 公開日:2021-07-30
# (参考訳) 2030年までの音声認識の歴史 [全文訳有]

The History of Speech Recognition to the Year 2030 ( http://arxiv.org/abs/2108.00084v1 )

ライセンス: CC BY 4.0
Awni Hannun(参考訳) 2010年から2020年までの10年間は、音声認識が大幅に改善された。 例えば、音声検索クエリの実行、テキストメッセージの送信、Amazon AlexaやAppleのSiriといった音声アシスタントとの対話などだ。 2010年以前は、ほとんどの人が音声認識をほとんど使わなかった。 過去10年における音声認識の状況の変化を考えると、今後10年で何が期待できるだろうか? 私は2030年までに音声認識研究と応用の現状を予測しようとしている。 一般的な音声認識の精度の変化は、過去10年ほど劇的なものではないが、私たちより先進的な音声技術の進歩は、エキサイティングな10年を告げる。

The decade from 2010 to 2020 saw remarkable improvements in automatic speech recognition. Many people now use speech recognition on a daily basis, for example to perform voice search queries, send text messages, and interact with voice assistants like Amazon Alexa and Siri by Apple. Before 2010 most people rarely used speech recognition. Given the remarkable changes in the state of speech recognition over the previous decade, what can we expect over the coming decade? I attempt to forecast the state of speech recognition research and applications by the year 2030. While the changes to general speech recognition accuracy will not be as dramatic as in the previous decade, I suggest we have an exciting decade of progress in speech technology ahead of us.
翻訳日:2021-08-05 06:14:52 公開日:2021-07-30
# (参考訳) 可変場を有する2次チャネルアテンションを用いた熱画像超解像 [全文訳有]

Thermal Image Super-Resolution Using Second-Order Channel Attention with Varying Receptive Fields ( http://arxiv.org/abs/2108.00094v1 )

ライセンス: CC BY 4.0
Nolan B. Gutierrez, William J. Beksi(参考訳) 熱画像は、電磁スペクトルの遠赤外線範囲をモデル化し、可視光がなくても有意義な情報を提供する。 しかし、可視連続体からの放射を示す画像とは異なり、赤外線画像は本質的にハードウェアの制約により解像度が低い。 熱画像の復元は、安全、捜索、救助、および軍事活動を含むアプリケーションにとって重要である。 本稿では,熱画像の効率的な再構成システムを提案する。 具体的には,ネットワークのrfsを増加させることで計算コストが高まる,レセプティブフィールド(rfs)の対比に効果的に対応する方法を検討する。 この目的のために,様々な受容場ネットワーク (avrfn) に深い注意を向ける。 我々は、異なるRFから抽出された高次情報をゲート畳み込み層に供給し、RFをダイレーションレートでパラメータ化する。 このようにして、拡張率はより少ないパラメータを使用するように調整できるため、avrfnの有効性が増す。 実験の結果, 競合する熱画像の超解像法と比較すると, 技術の現状は改善した。

Thermal images model the long-infrared range of the electromagnetic spectrum and provide meaningful information even when there is no visible illumination. Yet, unlike imagery that represents radiation from the visible continuum, infrared images are inherently low-resolution due to hardware constraints. The restoration of thermal images is critical for applications that involve safety, search and rescue, and military operations. In this paper, we introduce a system to efficiently reconstruct thermal images. Specifically, we explore how to effectively attend to contrasting receptive fields (RFs) where increasing the RFs of a network can be computationally expensive. For this purpose, we introduce a deep attention to varying receptive fields network (AVRFN). We supply a gated convolutional layer with higher-order information extracted from disparate RFs, whereby an RF is parameterized by a dilation rate. In this way, the dilation rate can be tuned to use fewer parameters thus increasing the efficacy of AVRFN. Our experimental results show an improvement over the state of the art when compared against competing thermal image super-resolution methods.
翻訳日:2021-08-05 06:05:45 公開日:2021-07-30
# (参考訳) Deep Feature Tracker: Deep Convolutional Neural Networksの新しいアプリケーション [全文訳有]

Deep Feature Tracker: A Novel Application for Deep Convolutional Neural Networks ( http://arxiv.org/abs/2108.00105v1 )

ライセンス: CC BY-SA 4.0
Mostafa Parchami, Saif Iftekar Sayed(参考訳) 機能トラッキングは、視覚計測、拡張現実、ターゲットトラッキングなど、多くのアプリケーションのビルディングブロックである。 残念なことに、最先端の視覚ベースの追跡アルゴリズムは、そのような環境の性質がもたらす課題のために、手術画像では失敗する。 そこで本論文では,特徴の追跡法を学習し,そのような信頼性の高い特徴を追跡のために検出する方法を学習できる,新しい統合型深層学習手法を提案する。 提案するDeep-PTと呼ばれるネットワークは、ディープラーニングの観点から相互相関をシミュレートする畳み込みニューラルネットワークであるトラッカーネットワークと、トラッカーの中間層を出力して検出された点の特徴を検出し、追跡可能性を予測する2つの完全連結ネットワークで構成されている。 トラッカーの能力に基づいて特徴を検出する能力は,提案手法とこの分野で使用されているアルゴリズムを区別し,シーンのダイナミックスに対するアルゴリズムの堅牢性を向上させる。 ネットワークは、特徴追跡データセットのための特別なデータセットがないため、複数のデータセットを使用してトレーニングされ、deep-ptの精度と最近のピクセル追跡アルゴリズムを比較するために広範囲な比較が行われる。 実験が示すように、提案されたディープアーキテクチャは、最先端のメソッドを追跡し、どのように追跡するかを意図的に学習する。

Feature tracking is the building block of many applications such as visual odometry, augmented reality, and target tracking. Unfortunately, the state-of-the-art vision-based tracking algorithms fail in surgical images due to the challenges imposed by the nature of such environments. In this paper, we proposed a novel and unified deep learning-based approach that can learn how to track features reliably as well as learn how to detect such reliable features for tracking purposes. The proposed network dubbed as Deep-PT, consists of a tracker network which is a convolutional neural network simulating cross-correlation in terms of deep learning and two fully connected networks that operate on the output of intermediate layers of the tracker to detect features and predict trackability of the detected points. The ability to detect features based on the capabilities of the tracker distinguishes the proposed method from previous algorithms used in this area and improves the robustness of the algorithms against dynamics of the scene. The network is trained using multiple datasets due to the lack of specialized dataset for feature tracking datasets and extensive comparisons are conducted to compare the accuracy of Deep-PT against recent pixel tracking algorithms. As the experiments suggest, the proposed deep architecture deliberately learns what to track and how to track and outperforms the state-of-the-art methods.
翻訳日:2021-08-05 05:55:21 公開日:2021-07-30
# (参考訳) 統合統計的反復型デュアルエネルギーCTの初期化とプロトン療法への応用 [全文訳有]

A Machine-learning Based Initialization for Joint Statistical Iterative Dual-energy CT with Application to Proton Therapy ( http://arxiv.org/abs/2108.00109v1 )

ライセンス: CC BY 4.0
Tao Ge, Maria Medrano, Rui Liao, David G. Politte, Jeffrey F. Williamson, Joseph A. O'Sullivan(参考訳) デュアルエネルギーCT(DECT)は、過去数十年間、より情報的で正確な画像を生成するために広く研究されてきた。 例えば、Dual-Energy Alternating Minimization (DEAM)アルゴリズムは、実験3mmコリメートファントムデータから陽子停止パワーマッピングを推定する際のサブパーセンテージの不確実性を実現する。 しかし, 反復DECTアルゴリズムの経過時間は, 収束速度が低く, ヘリカルCTスキャナーの異常な形状のため, 臨床的には受け入れられない。 CNNに基づく初期化手法を導入し、反復DECTアルゴリズムの計算時間を短縮する。 DEAMは、この研究における反復DECTアルゴリズムの例である。 本手法は, 脂肪, 扁桃, 筋肉組織に対する評価精度を大幅に向上させ, 鑑別画像を生成する。 また、DEAMの経過時間を約5倍に短縮し、シミュレーションデータと実データの両方で同じ目的関数値に達する。

Dual-energy CT (DECT) has been widely investigated to generate more informative and more accurate images in the past decades. For example, Dual-Energy Alternating Minimization (DEAM) algorithm achieves sub-percentage uncertainty in estimating proton stopping-power mappings from experimental 3-mm collimated phantom data. However, elapsed time of iterative DECT algorithms is not clinically acceptable, due to their low convergence rate and the tremendous geometry of modern helical CT scanners. A CNN-based initialization method is introduced to reduce the computational time of iterative DECT algorithms. DEAM is used as an example of iterative DECT algorithms in this work. The simulation results show that our method generates denoised images with greatly improved estimation accuracy for adipose, tonsils, and muscle tissue. Also, it reduces elapsed time by approximately 5-fold for DEAM to reach the same objective function value for both simulated and real data.
翻訳日:2021-08-05 05:45:26 公開日:2021-07-30
# マルチアームバンドアルゴリズムを用いたEコマースにおけるコンテンツ推薦の適応的最適化

Adaptively Optimize Content Recommendation Using Multi Armed Bandit Algorithms in E-commerce ( http://arxiv.org/abs/2108.01440v1 )

ライセンス: Link先を確認
Ding Xiang, Becky West, Jiaqi Wang, Xiquan Cui, Jinzhou Huang(参考訳) 電子商取引サイトは、買い物の摩擦を減らし、顧客満足度を高めるために、利用者に最もタイムリーな情報を提供することを目指している。 適応最適化アルゴリズムの一種であるマルチ武装バンドモデル(MAB)は、そのような目的のために可能なアプローチを提供する。 本稿では,3つの古典的MABアルゴリズム,epsilon-greedy,Thom pson sample (TS),Upper confidence bound 1 (UCB1) を用いて動的コンテンツレコメンデーションを解析し,これらのアルゴリズムを内部で開発して実世界のeコマースユースケースを解決する。 まず,非定常報酬分布を用いたシミュレーション購入データセットを用いて3つのmabアルゴリズムを解析し,トラヒック割り当てのダイナミクスとアルゴリズムの累積報酬について検討した。 第2に、3つのMABアルゴリズムの累積報酬と、実際のA/Bテストデータセットを用いた1000以上の試行を比較する。 競合するレコメンデーションの成功率の差が大きいほど、MABアルゴリズムはより累積的な報奨が得られることがわかった。 さらに、TSは異なるテストシナリオ下での平均累積報酬が最も高いことを示している。 第3に,eコマースにおける遅延報酬問題を克服し,アプリホームページ上でオンラインコンテンツの最適化を可能にするバッチ更新MABアルゴリズムを開発した。 最先端比較では、バッチ更新MABアルゴリズム、サードパーティMABソリューション、デフォルトビジネスロジック間の実A/Bテストを行う。 その結果、バッチ更新されたmabアルゴリズムは、外部mabサービスに比べて2.9%、相対クリックスルー率(ctr)が1.4%、相対変換率(cvr)が16.1%、さらに相対ctrが2.9%、相対cvrが1.4%増加した。

E-commerce sites strive to provide users the most timely relevant information in order to reduce shopping frictions and increase customer satisfaction. Multi armed bandit models (MAB) as a type of adaptive optimization algorithms provide possible approaches for such purposes. In this paper, we analyze using three classic MAB algorithms, epsilon-greedy, Thompson sampling (TS), and upper confidence bound 1 (UCB1) for dynamic content recommendations, and walk through the process of developing these algorithms internally to solve a real world e-commerce use case. First, we analyze the three MAB algorithms using simulated purchasing datasets with non-stationary reward distributions to simulate the possible time-varying customer preferences, where the traffic allocation dynamics and the accumulative rewards of different algorithms are studied. Second, we compare the accumulative rewards of the three MAB algorithms with more than 1,000 trials using actual historical A/B test datasets. We find that the larger difference between the success rates of competing recommendations the more accumulative rewards the MAB algorithms can achieve. In addition, we find that TS shows the highest average accumulative rewards under different testing scenarios. Third, we develop a batch-updated MAB algorithm to overcome the delayed reward issue in e-commerce and enable an online content optimization on our App homepage. For a state-of-the-art comparison, a real A/B test among our batch-updated MAB algorithm, a third-party MAB solution, and the default business logic are conducted. The result shows that our batch-updated MAB algorithm outperforms the counterparts and achieves 6.13% relative click-through rate (CTR) increase and 16.1% relative conversion rate (CVR) increase compared to the default experience, and 2.9% relative CTR increase and 1.4% relative CVR increase compared to the external MAB service.
翻訳日:2021-08-04 14:05:13 公開日:2021-07-30
# MTVR:ビデオの多言語モーメント検索

MTVR: Multilingual Moment Retrieval in Videos ( http://arxiv.org/abs/2108.00061v1 )

ライセンス: Link先を確認
Jie Lei, Tamara L. Berg, Mohit Bansal(参考訳) 大規模な多言語ビデオモーメント検索データセットであるmTVRを導入し、21.8Kのテレビ番組ビデオクリップから218Kの英語と中国語のクエリを含む。 データセットは、人気のTVRデータセット(英語)を中国語クエリと字幕のペアで拡張することで収集される。 既存のモーメント検索データセットと比較して、mTVRは多言語で大きく、多様なアノテーションが付属している。 さらに,エンコーダパラメータの共有と言語近傍の制約を通じて,両言語からデータを学習し,操作する多言語モーメント検索モデルであるmxmlを提案する。 本研究では,新たに収集したmtvrデータセットにおけるmxmlの有効性を実証する。 さらに,詳細なデータセット解析とモデルアブレーションも提供する。 データとコードはhttps://github.com/j ayleicn/mTVRetrieval で公開されている。

We introduce mTVR, a large-scale multilingual video moment retrieval dataset, containing 218K English and Chinese queries from 21.8K TV show video clips. The dataset is collected by extending the popular TVR dataset (in English) with paired Chinese queries and subtitles. Compared to existing moment retrieval datasets, mTVR is multilingual, larger, and comes with diverse annotations. We further propose mXML, a multilingual moment retrieval model that learns and operates on data from both languages, via encoder parameter sharing and language neighborhood constraints. We demonstrate the effectiveness of mXML on the newly collected MTVR dataset, where mXML outperforms strong monolingual baselines while using fewer parameters. In addition, we also provide detailed dataset analyses and model ablations. Data and code are publicly available at https://github.com/j ayleicn/mTVRetrieval
翻訳日:2021-08-03 15:42:21 公開日:2021-07-30
# テンソルトレイン密度推定

Tensor-Train Density Estimation ( http://arxiv.org/abs/2108.00089v1 )

ライセンス: Link先を確認
Georgii S. Novikov, Maxim E. Panov, Ivan V. Oseledets(参考訳) サンプルから確率密度関数を推定することは統計学と機械学習の中心的な問題の一つである。 現代のニューラルネットワークベースのモデルは高次元分布を学習するが、ハイパーパラメータ選択に問題があるため、トレーニングや推論中に不安定になりがちである。 密度推定(TTDE)のための高効率テンソルトレインモデルを提案する。 このような密度パラメトリゼーションは、正確なサンプリング、累積および限界密度関数の計算、分割関数を可能にする。 また、非常に直感的なハイパーパラメータを持つ。 我々は,リーマン最適化に基づくTTDEの非逆法訓練手法を開発した。 実験結果から,提案手法の高密度推定およびサンプリング作業における競合性能を示す一方,TTDEはトレーニング速度において競合よりも優れていた。

Estimation of probability density function from samples is one of the central problems in statistics and machine learning. Modern neural network-based models can learn high dimensional distributions but have problems with hyperparameter selection and are often prone to instabilities during training and inference. We propose a new efficient tensor train-based model for density estimation (TTDE). Such density parametrization allows exact sampling, calculation of cumulative and marginal density functions, and partition function. It also has very intuitive hyperparameters. We develop an efficient non-adversarial training procedure for TTDE based on the Riemannian optimization. Experimental results demonstrate the competitive performance of the proposed method in density estimation and sampling tasks, while TTDE significantly outperforms competitors in training speed.
翻訳日:2021-08-03 15:41:43 公開日:2021-07-30
# ガウス過程状態空間モデルにおけるアクティブラーニング

Active Learning in Gaussian Process State Space Model ( http://arxiv.org/abs/2108.00819v1 )

ライセンス: Link先を確認
Hon Sum Alec Yu, Dingling Yao, Christoph Zimmer, Marc Toussaint, Duy Nguyen-Tuong(参考訳) ガウス過程状態空間モデル(GPSSM)におけるアクティブラーニングについて検討する。 我々の課題は、GPSSMによって基礎となる力学を最適に学べるように入力を決定することで、潜伏状態を通して積極的にシステムを操ることである。 最も情報性の高い入力が選択されるためには、相互情報をアクティブな学習基準として採用する。 特に,潜在状態が与えられたgpssmの相互情報の近似に2つのアプローチを提案する。 提案手法は、状態空間モデルで表される非線形力学を積極的に学習する物理系で評価される。

We investigate active learning in Gaussian Process state-space models (GPSSM). Our problem is to actively steer the system through latent states by determining its inputs such that the underlying dynamics can be optimally learned by a GPSSM. In order that the most informative inputs are selected, we employ mutual information as our active learning criterion. In particular, we present two approaches for the approximation of mutual information for the GPSSM given latent states. The proposed approaches are evaluated in several physical systems where we actively learn the underlying non-linear dynamics represented by the state-space model.
翻訳日:2021-08-03 15:41:31 公開日:2021-07-30
# 会話エージェントのための言語モデルにおける連続的エンティティ学習に向けて

Towards Continual Entity Learning in Language Models for Conversational Agents ( http://arxiv.org/abs/2108.00082v1 )

ライセンス: Link先を確認
Ravi Teja Gadde, Ivan Bulyko(参考訳) 多様なコーパスで訓練されたニューラル言語モデル(LM)は、これまで見られたエンティティでうまく機能することが知られているが、場所名、曲名、ショッピングアイテムなどの動的に変化するエンティティでこれらのモデルを更新するには、スクラッチから再トレーニングし、それらのエンティティを含む全文を集める必要がある。 我々はエンティティ対応言語モデル(EALM)を導入し、エンティティのカタログに基づいて訓練されたエンティティモデルを事前訓練されたLMに組み込むことでこの問題に対処することを目指している。 統合言語モデルでは,文コンテキストに応じて,エンティティモデルからの情報を事前学習したLMに適応的に付加する。 我々のエンティティモデルは、事前訓練されたLMとは独立して更新することができ、事前訓練されたLMのさらなるトレーニングをすることなく、最終的なLMによって出力されるエンティティの分布に影響を与えることができる。 タスク指向の対話データセット、特に長い尾の発話において、新しいエンティティ(ある程度)に継続的に適応する能力において、大きなパープレキシティ向上を示す。

Neural language models (LM) trained on diverse corpora are known to work well on previously seen entities, however, updating these models with dynamically changing entities such as place names, song titles and shopping items requires re-training from scratch and collecting full sentences containing these entities. We aim to address this issue, by introducing entity-aware language models (EALM), where we integrate entity models trained on catalogues of entities into the pre-trained LMs. Our combined language model adaptively adds information from the entity models into the pre-trained LM depending on the sentence context. Our entity models can be updated independently of the pre-trained LM, enabling us to influence the distribution of entities output by the final LM, without any further training of the pre-trained LM. We show significant perplexity improvements on task-oriented dialogue datasets, especially on long-tailed utterances, with an ability to continually adapt to new entities (to an extent).
翻訳日:2021-08-03 15:40:00 公開日:2021-07-30
# ニューラルネットワークのためのソフトキャリブレーション目標

Soft Calibration Objectives for Neural Networks ( http://arxiv.org/abs/2108.00106v1 )

ライセンス: Link先を確認
Archit Karandikar, Nicholas Cain, Dustin Tran, Balaji Lakshminarayanan, Jonathon Shlens, Michael C. Mozer, Becca Roelofs(参考訳) 最適決定は、分類器がその経験的精度と一致する不確実性推定を生成することを要求する。 しかし、ディープニューラルネットワークは、しばしばその予測に自信を欠くか、過剰である。 その結果、トレーニングとポストホックの両方において予測不確実性の校正を改善する方法が開発された。 本研究では,一般的なキャリブレーションエラー推定器のソフト(連続)バージョンに基づくキャリブレーション改善のための相異なる損失を提案する。 トレーニングに組み込むと、これらのソフトキャリブレーション損失は、1%未満の精度で、複数のデータセットにまたがる最先端の単一モデルECEを実現する。 例えば,CIFAR-100のクロスエントロピーベースラインに対する精度の0.7%の低下と引き換えに,ECEの82%の低下(ポストホック再スケールECEの70%)を観測した。 ポストトレーニングを組み込んだ場合,ソフトバイニングによるキャリブレーション誤差は温度スケーリングにより改善され,一般的な校正法である。 全体として、損失とデータセット間の実験は、キャリブレーションに敏感な手順を用いることで、クロスエントロピーロスとポストホックなリカバリ法を使用する標準的なプラクティスよりも、データセットシフト時の不確実性推定が向上することを示している。

Optimal decision making requires that classifiers produce uncertainty estimates consistent with their empirical accuracy. However, deep neural networks are often under- or over-confident in their predictions. Consequently, methods have been developed to improve the calibration of their predictive uncertainty both during training and post-hoc. In this work, we propose differentiable losses to improve calibration based on a soft (continuous) version of the binning operation underlying popular calibration-error estimators. When incorporated into training, these soft calibration losses achieve state-of-the-art single-model ECE across multiple datasets with less than 1% decrease in accuracy. For instance, we observe an 82% reduction in ECE (70% relative to the post-hoc rescaled ECE) in exchange for a 0.7% relative decrease in accuracy relative to the cross entropy baseline on CIFAR-100. When incorporated post-training, the soft-binning-based calibration error objective improves upon temperature scaling, a popular recalibration method. Overall, experiments across losses and datasets demonstrate that using calibration-sensitiv e procedures yield better uncertainty estimates under dataset shift than the standard practice of using a cross entropy loss and post-hoc recalibration methods.
翻訳日:2021-08-03 15:36:25 公開日:2021-07-30
# ゼロショット学習のための視覚トランスフォーマによる多頭セルフアテンション

Multi-Head Self-Attention via Vision Transformer for Zero-Shot Learning ( http://arxiv.org/abs/2108.00045v1 )

ライセンス: Link先を確認
Faisal Alamri and Anjan Dutta(参考訳) Zero-Shot Learning (ZSL) は、未確認のオブジェクトクラスを認識することを目的としている。 既存のzslの作業は、主に事前訓練された視覚機能に依存しており、画像上の明示的な属性ローカライズ機構を欠いている。 本研究では,ZSLの問題設定における注意に基づくモデルを提案し,未知のクラス認識に有用な属性を学習する。 本手法では,視覚変換器に適応したアテンション機構を用いて,画像の小さなパッチ分割による識別特性の取得と学習を行う。 3つの人気のあるzslベンチマーク(すなわち、awa2、cub、sun)で実験を行い、提案手法の有効性を示す3つのデータセットすべてにおいて、最先端の調和平均結果を新たに設定した。

Zero-Shot Learning (ZSL) aims to recognise unseen object classes, which are not observed during the training phase. The existing body of works on ZSL mostly relies on pretrained visual features and lacks the explicit attribute localisation mechanism on images. In this work, we propose an attention-based model in the problem settings of ZSL to learn attributes useful for unseen class recognition. Our method uses an attention mechanism adapted from Vision Transformer to capture and learn discriminative attributes by splitting images into small patches. We conduct experiments on three popular ZSL benchmarks (i.e., AWA2, CUB and SUN) and set new state-of-the-art harmonic mean results {on all the three datasets}, which illustrate the effectiveness of our proposed method.
翻訳日:2021-08-03 15:34:51 公開日:2021-07-30
# デバイアスシーン表現のためのオブジェクト指向コントラスト学習

Object-aware Contrastive Learning for Debiased Scene Representation ( http://arxiv.org/abs/2108.00049v1 )

ライセンス: Link先を確認
Sangwoo Mo, Hyunwoo Kang, Kihyuk Sohn, Chun-Liang Li, Jinwoo Shin(参考訳) 対照的な自己教師型学習は、異なるデータ拡張に対する不変性を強制することにより、ラベルのない画像から視覚表現を学習する際、印象的な結果を示した。 しかし、学習された表現は、異なるオブジェクトやオブジェクト、背景のスプリアスなシーン相関に文脈的に偏りがちであり、下流タスクの一般化を損なう可能性がある。 この問題に対処するために、まず(a)自己監督的な方法でオブジェクトをローカライズし、次に(b)推論対象位置を考慮した適切なデータ拡張を通じてシーン相関をデビアスする新しいオブジェクト認識コントラスト学習フレームワークを開発する。 例えば, 画像中の最も識別性の高い領域(例えばオブジェクト)を, 対照的に訓練されたモデルを用いた他の画像と比較し, コントラクティブなクラスアクティベーションマップ(ContraCAM)を提案する。 我々はさらにContraCAMを改良し、反復的精錬法により複数の物体と全形状を検出する。 b) コントラCAM, オブジェクト認識型乱作, 背景混合に基づく2つのデータ拡張を導入し, コントラスト学習における文脈バイアスと背景バイアスを低減した。 実験では,マルチオブジェクト画像でトレーニングしたり,背景(および分布)シフト画像で評価した場合に,表現学習フレームワークの有効性を示す。

Contrastive self-supervised learning has shown impressive results in learning visual representations from unlabeled images by enforcing invariance against different data augmentations. However, the learned representations are often contextually biased to the spurious scene correlations of different objects or object and background, which may harm their generalization on the downstream tasks. To tackle the issue, we develop a novel object-aware contrastive learning framework that first (a) localizes objects in a self-supervised manner and then (b) debias scene correlations via appropriate data augmentations considering the inferred object locations. For (a), we propose the contrastive class activation map (ContraCAM), which finds the most discriminative regions (e.g., objects) in the image compared to the other images using the contrastively trained models. We further improve the ContraCAM to detect multiple objects and entire shapes via an iterative refinement procedure. For (b), we introduce two data augmentations based on ContraCAM, object-aware random crop and background mixup, which reduce contextual and background biases during contrastive self-supervised learning, respectively. Our experiments demonstrate the effectiveness of our representation learning framework, particularly when trained under multi-object images or evaluated under the background (and distribution) shifted images.
翻訳日:2021-08-03 15:34:36 公開日:2021-07-30
# 文書クラスタリングに有効なスパース球形k平均

Efficient Sparse Spherical k-Means for Document Clustering ( http://arxiv.org/abs/2108.00895v1 )

ライセンス: Link先を確認
Johannes Knittel, Steffen Koch, Thomas Ertl(参考訳) 球面k-Meansは、多くの設定で合理的に機能し、計算効率が良いため、文書コレクションのクラスタリングに頻繁に使用される。 しかし、時間複雑性はクラスタ数kとともに直線的に増加し、コレクションのサイズに応じて k のより大きな値に対するアルゴリズムの適合性が制限される。 ユークリッド k-平均アルゴリズムを対象とする最適化は、余弦距離が計量ではないため、ほとんど適用されない。 そこで本研究では,k-Means に対する球面 k-Means のスケーラビリティを向上させるための効率的なインデックス構造を提案する。

Spherical k-Means is frequently used to cluster document collections because it performs reasonably well in many settings and is computationally efficient. However, the time complexity increases linearly with the number of clusters k, which limits the suitability of the algorithm for larger values of k depending on the size of the collection. Optimizations targeted at the Euclidean k-Means algorithm largely do not apply because the cosine distance is not a metric. We therefore propose an efficient indexing structure to improve the scalability of Spherical k-Means with respect to k. Our approach exploits the sparsity of the input vectors and the convergence behavior of k-Means to reduce the number of comparisons on each iteration significantly.
翻訳日:2021-08-03 15:30:57 公開日:2021-07-30
# トランスフォーマー言語モデルのための構造指導

Structural Guidance for Transformer Language Models ( http://arxiv.org/abs/2108.00104v1 )

ライセンス: Link先を確認
Peng Qian, Tahira Naseem, Roger Levy, Ram\'on Fernandez Astudillo(参考訳) 大量のテキストデータに基づいて事前訓練されたトランスフォーマーベースの言語モデルは、汎用的な伝達可能な言語表現の学習に成功している。 本稿では,トランスフォーマー言語モデルにおける構造的ガイダンスが,非常に大量のデータに対する事前学習に頼ることなく,より人間的な体系的言語一般化につながるかを検討する。 私たちは2つの一般的な考えを探求する。 生成構文解析」の概念は、同じシーケンスモデリングタスクの一部としてインクリメンタル構文解析と単語シーケンスを共同でモデル化する。 構造スキャフォールド」という概念は、漸進的選挙区解析を別々に予測する構造損失を通じて言語モデルの表現を導く。 提案したモデルは,BLLIPデータセットの1400万トンと4600万トンサブセットに基づいて,バニラトランスフォーマー言語モデルベースラインとともに訓練し,SGテストスイートおよびサイズBLiMP上でのモデルの構文一般化性能を評価する。 2つのベンチマークによる実験結果から、生成的構造的監督がデータ集中事前学習を必要とせず、トランスフォーマー言語モデルにおいてより堅牢で人間的な言語的一般化を誘導できるという確証が得られた。

Transformer-based language models pre-trained on large amounts of text data have proven remarkably successful in learning generic transferable linguistic representations. Here we study whether structural guidance leads to more human-like systematic linguistic generalization in Transformer language models without resorting to pre-training on very large amounts of data. We explore two general ideas. The "Generative Parsing" idea jointly models the incremental parse and word sequence as part of the same sequence modeling task. The "Structural Scaffold" idea guides the language model's representation via additional structure loss that separately predicts the incremental constituency parse. We train the proposed models along with a vanilla Transformer language model baseline on a 14 million-token and a 46 million-token subset of the BLLIP dataset, and evaluate models' syntactic generalization performances on SG Test Suites and sized BLiMP. Experiment results across two benchmarks suggest converging evidence that generative structural supervisions can induce more robust and humanlike linguistic generalization in Transformer language models without the need for data intensive pre-training.
翻訳日:2021-08-03 15:24:28 公開日:2021-07-30
# 変分オートエンコーダを用いた気象場合成制御

Controlling Weather Field Synthesis Using Variational Autoencoders ( http://arxiv.org/abs/2108.00048v1 )

ライセンス: Link先を確認
Dario Augusto Borges Oliveira, Jorge Guevara Diaz, Bianca Zadrozny, Campbell Watson(参考訳) 気候変動の影響の1つは、極度の気候変動の頻度が観測されないほど増加することである。 これはweatherforecastやジェネレーションアルゴリズムにとって課題であり、過去のデータから学ぶことはできるが、正確なシナリオを作成するためにしばしば未確認のバイアスを埋め込む必要がある。 この論文は、変動型オートエンコーダを用いて、気候データを既知の分布にどのようにマッピングするかを調査し、より極端な気候シナリオに向けて気象場の合成を制御する。 西南インド諸島のモンスーンに影響を受けた降水データセットを用いて実験を行ったところ、およそ安定した日数と調査の容易さが得られた。 我々は,複合気象データを既知の分布にマッピングした結果,気象場合成の効率的な制御がより極端なシナリオに向けられることを示した。

One of the consequences of climate change is anobserved increase in the frequency of extreme cli-mate events. That poses a challenge for weatherforecast and generation algorithms, which learnfrom historical data but should embed an often un-certain bias to create correct scenarios. This paperinvestigates how mapping climate data to a knowndistribution using variational autoencoders mighthelp explore such biases and control the synthesisof weather fields towards more extreme climatescenarios. We experimented using a monsoon-affected precipitation dataset from southwest In-dia, which should give a roughly stable pattern ofrainy days and ease our investigation. We reportcompelling results showing that mapping complexweather data to a known distribution implementsan efficient control for weather field synthesis to-wards more (or less) extreme scenarios.
翻訳日:2021-08-03 15:23:37 公開日:2021-07-30
# 人間と深部畳み込みニューラルネットワークにおける物体認識の比較 - 視線追跡による研究

Comparing object recognition in humans and deep convolutional neural networks -- An eye tracking study ( http://arxiv.org/abs/2108.00107v1 )

ライセンス: Link先を確認
Leonard E. van Dyck, Roland Kwitt, Sebastian J. Denzler, Walter R. Gruber(参考訳) deep convolutional neural networks (dcnns) とventral visual pathwayは、オブジェクト認識などの視覚課題において、アーキテクチャ的および機能的な類似性を持つ。 最近の知見は、階層的なカスケードは、作用行動と基盤となる活性化の両方の観点から比較できることを示している。 しかし,これらの手法は情報処理の空間的優先性において重要な違いを無視する。 概念実証実験では、視線追跡と塩分濃度マップを用いて、人間の観察者(N = 45)と3つのフィードフォワードDCNNを比較した。 この結果から,両可視化法において,洞察に富む比較のために考慮すべき解像度が根本的に異なることが明らかとなった。 さらに,生物学的に妥当な受容野サイズを持つvNetを用いたDCNNは,標準的なResNetアーキテクチャと対比して,人間の視聴行動との一致度が高いことを示す。 本研究では,人間およびdnnにおける空間的物体認識優先度の合意と,カテゴリ,異性,覚醒,ヴァレンスなどの画像固有の要因が直接関連していること,難易度や一般画像特性などの他の指標が関与しないことを見いだした。 このアプローチにより,生物学とコンピュータビジョン研究の交わりに新たな視点を開こうとする。

Deep convolutional neural networks (DCNNs) and the ventral visual pathway share vast architectural and functional similarities in visual challenges such as object recognition. Recent insights have demonstrated that both hierarchical cascades can be compared in terms of both exerted behavior and underlying activation. However, these approaches ignore key differences in spatial priorities of information processing. In this proof-of-concept study, we demonstrate a comparison of human observers (N = 45) and three feedforward DCNNs through eye tracking and saliency maps. The results reveal fundamentally different resolutions in both visualization methods that need to be considered for an insightful comparison. Moreover, we provide evidence that a DCNN with biologically plausible receptive field sizes called vNet reveals higher agreement with human viewing behavior as contrasted with a standard ResNet architecture. We find that image-specific factors such as category, animacy, arousal, and valence have a direct link to the agreement of spatial object recognition priorities in humans and DCNNs, while other measures such as difficulty and general image properties do not. With this approach, we try to open up new perspectives at the intersection of biological and computer vision research.
翻訳日:2021-08-03 15:23:23 公開日:2021-07-30
# 補間分解を用いたプルーニングニューラルネットワーク

Pruning Neural Networks with Interpolative Decompositions ( http://arxiv.org/abs/2108.00065v1 )

ライセンス: Link先を確認
Jerry Chee, Megan Renz, Anil Damle, Chris De Sa(参考訳) 本稿では,この問題を構造的低ランク行列近似としてキャッシングするニューラルネットワークプルーニングの原理的手法を提案する。 本手法は,ネットワーク層の活性化出力を近似するために補間分解と呼ばれる行列分解手法の新たな応用を用いる。 この技術は、層内のニューロンまたはチャネルを選択し、補正補間行列を次の層に伝播させ、微調整前に最小限の劣化を伴う密閉ネットワークをもたらす。 まず、プリミティブのセットを構築して、1つの完全に接続されたあるいは畳み込み層をプルークし、それからこれらプリミティブを深く多層ネットワークをプルークする方法を実証する。 単一の隠れ層を完全接続したネットワークを刈り取るための理論的保証を提供する。 CIFAR-10上のFashion MNIST上の1層と2層の隠蔽層ネットワークからVGGおよびResNetsへの複数のアプリケーションにおける最先端技術と比較して,補間分解によるプルーニングは強い実験結果が得られる。 特に,CIFAR-10上のVGG-16を用いて93.62$\pm$0.36%の精度を実現し,FLOPSを51%削減した。 これはフルサイズモデルから0.02%上昇する。

We introduce a principled approach to neural network pruning that casts the problem as a structured low-rank matrix approximation. Our method uses a novel application of a matrix factorization technique called the interpolative decomposition to approximate the activation output of a network layer. This technique selects neurons or channels in the layer and propagates a corrective interpolation matrix to the next layer, resulting in a dense, pruned network with minimal degradation before fine tuning. We demonstrate how to prune a neural network by first building a set of primitives to prune a single fully connected or convolution layer and then composing these primitives to prune deep multi-layer networks. Theoretical guarantees are provided for pruning a single hidden layer fully connected network. Pruning with interpolative decompositions achieves strong empirical results compared to the state-of-the-art on multiple applications from one and two hidden layer networks on Fashion MNIST to VGG and ResNets on CIFAR-10. Notably, we achieve an accuracy of 93.62 $\pm$ 0.36% using VGG-16 on CIFAR-10, with a 51% FLOPS reduction. This gains 0.02% from the full-sized model.
翻訳日:2021-08-03 15:13:17 公開日:2021-07-30
# スナップブルメッシュを用いた3次元地図の手続き生成

Procedural Generation of 3D Maps with Snappable Meshes ( http://arxiv.org/abs/2108.00056v1 )

ライセンス: Link先を確認
Rafael C. e Silva, Nuno Fachada, Diogo de Andrade, N\'elio C\'odices(参考訳) 本稿では,デザイナーが指定した視覚制約に基づいて一組のメッシュを用いて3dマップを手続き的に生成する手法を提案する。 提案されたアプローチはサイズやレイアウトの制限を回避し、生成したマップのルックアンドフィールをデザイナコントロールし、マップのナビゲーション可能性に関する即時フィードバックを提供する。 ゲームエンジンUnityで開発された手法のプロトタイプ実装について論じ、いくつかのケーススタディを分析した。 これには、メソッドが使われたマルチプレイヤーゲームと、様々なパラメータ化と生成メソッドを強調する多くの例が含まれている。 我々は、この手法はデザイナーフレンドリーであり、3dレベルの設計における地図合成手法やプロトタイピングシステムとして、品質マップの扉を開けたり、完全な人間ベースのアプローチの時間の一部でレベル作成を行うことができると主張している。

In this paper we present a technique for procedurally generating 3D maps using a set of premade meshes which snap together based on designer-specified visual constraints. The proposed approach avoids size and layout limitations, offering the designer control over the look and feel of the generated maps, as well as immediate feedback on a given map's navigability. A prototype implementation of the method, developed in the Unity game engine, is discussed, and a number of case studies are analyzed. These include a multiplayer game where the method was used, together with a number of illustrative examples which highlight various parameterizations and generation methods. We argue that the technique is designer-friendly and can be used as a map composition method and/or as a prototyping system in 3D level design, opening the door for quality map and level creation in a fraction of the time of a fully human-based approach.
翻訳日:2021-08-03 15:04:26 公開日:2021-07-30
# 雑音量子ドットデバイスのロバスト自動チューニングに向けて

Toward Robust Autotuning of Noisy Quantum Dot Devices ( http://arxiv.org/abs/2108.00043v1 )

ライセンス: Link先を確認
Joshua Ziegler, Thomas McJunkin, E. S. Joseph, Sandesh S. Kalantre, Benjamin Harpt, D. E. Savage, M. G. Lagally, M. A. Eriksson, Jacob M. Taylor, Justyna P. Zwolak(参考訳) 量子ドット(QD)デバイスに対する現在の自動チューニングアプローチは、いくつかの成功を見せながら、データの信頼性の評価を欠いている。 これにより、ノイズの多いデータが自律システムによって処理される場合、予期せぬ障害が発生する。 本稿では、機械学習(ml)状態分類器とデータ品質制御モジュールを組み合わせた、qdデバイスのロバストな自動チューニングのためのフレームワークを提案する。 データ品質管理モジュールは ``gatekeeper'' システムとして動作し、信頼できるデータのみが状態分類器によって処理されることを保証する。 データ品質の低下は、デバイスの再校正または終了をもたらす。 両MLシステムの学習には,QD実験の典型的な合成ノイズを取り入れてQDシミュレーションを強化する。 本研究では, 状態分類器の訓練における合成雑音の影響が性能を著しく改善し, 実験データ上での精度は95.1(7) %であることを確認した。 次に,データ品質の低下に伴う状態分類器の性能低下を示すことによって,データ品質制御モジュールの機能を検証する。 ノイズの多いQDデバイスの自律的チューニングのための,堅牢で柔軟なMLフレームワークを構築した。

The current autotuning approaches for quantum dot (QD) devices, while showing some success, lack an assessment of data reliability. This leads to unexpected failures when noisy data is processed by an autonomous system. In this work, we propose a framework for robust autotuning of QD devices that combines a machine learning (ML) state classifier with a data quality control module. The data quality control module acts as a ``gatekeeper'' system, ensuring that only reliable data is processed by the state classifier. Lower data quality results in either device recalibration or termination. To train both ML systems, we enhance the QD simulation by incorporating synthetic noise typical of QD experiments. We confirm that the inclusion of synthetic noise in the training of the state classifier significantly improves the performance, resulting in an accuracy of 95.1(7) % when tested on experimental data. We then validate the functionality of the data quality control module by showing the state classifier performance deteriorates with decreasing data quality, as expected. Our results establish a robust and flexible ML framework for autonomous tuning of noisy QD devices.
翻訳日:2021-08-03 15:03:16 公開日:2021-07-30
# リカレントニューラルネットワークトレーニングのための直交群上の座標降下

Coordinate descent on the orthogonal group for recurrent neural network training ( http://arxiv.org/abs/2108.00051v1 )

ライセンス: Link先を確認
Estelle Massart and Vinayak Abrol(参考訳) 本稿では,直交群における確率的リーマン座標降下を用いたニューラルネットワーク学習を提案する。 アルゴリズムはリカレント行列の2列を順次回転させ、与えられた行列による乗算として効率的に実装できる演算を行う。 各繰り返しにおいて座標が一意にランダムに選択された場合、損失関数の標準仮定に基づく提案アルゴリズムの収束、段階化、最小化の証明を行う。 さらに,リカレントニューラルネットワークトレーニングにおけるリーマン勾配が,ほぼスパース構造を持つことを数値的に証明した。 この観測を利用して,ガウス・サウスウェル則に依存する提案アルゴリズムのより高速な変種を提案する。 提案アルゴリズムの有効性を示すために, ベンチマーク繰り返しニューラルネットワークトレーニング問題の実験を行った。

We propose to use stochastic Riemannian coordinate descent on the orthogonal group for recurrent neural network training. The algorithm rotates successively two columns of the recurrent matrix, an operation that can be efficiently implemented as a multiplication by a Givens matrix. In the case when the coordinate is selected uniformly at random at each iteration, we prove the convergence of the proposed algorithm under standard assumptions on the loss function, stepsize and minibatch noise. In addition, we numerically demonstrate that the Riemannian gradient in recurrent neural network training has an approximately sparse structure. Leveraging this observation, we propose a faster variant of the proposed algorithm that relies on the Gauss-Southwell rule. Experiments on a benchmark recurrent neural network training problem are presented to demonstrate the effectiveness of the proposed algorithm.
翻訳日:2021-08-03 15:02:59 公開日:2021-07-30
# PPG信号からの血圧予測のための深層学習手法

A Deep Learning Approach to Predict Blood Pressure from PPG Signals ( http://arxiv.org/abs/2108.00099v1 )

ライセンス: Link先を確認
Ali Tazarv, Marco Levorato(参考訳) 血圧 (bp) は、身体の生命機能(生命維持)の状態を示す4つの主要なバイタルサインの1つである。 BPはフィグマノメーター(sphygmomanometer)を用いて継続的にモニタリングすることは困難である。 血圧(特に日常設定の場合)。 しかし、光胸腺造影(PPG)など、容易かつ連続的に取得できる他の健康信号は、大動脈圧波形と類似している。 これらの類似性に基づき、近年、BPをPPG信号から予測する方法が提案されている。 これらの結果をもとに,3層深層ニューラルネットワークを用いてppg信号に基づいてbpを推定する,パーソナライズドデータ駆動手法を提案する。 提案モデルでは,従来の研究と異なり,PPG信号を時間領域で解析し,この特定のアプリケーションで最も重要な特徴を自動的に抽出し,Long-Short-Term-Mem ory (LSTM)と呼ばれるリカレントニューラルネットワークのバリエーションを用いて,抽出した特徴を時間領域に関連するBP値にマッピングする。 2つの病院標準データセットの実験結果, 絶対誤差平均値, 絶対誤差標準偏差は, 収縮期および拡張期BP値よりも優れていた。

Blood Pressure (BP) is one of the four primary vital signs indicating the status of the body's vital (life-sustaining) functions. BP is difficult to continuously monitor using a sphygmomanometer (i.e. a blood pressure cuff), especially in everyday-setting. However, other health signals which can be easily and continuously acquired, such as photoplethysmography (PPG), show some similarities with the Aortic Pressure waveform. Based on these similarities, in recent years several methods were proposed to predict BP from the PPG signal. Building on these results, we propose an advanced personalized data-driven approach that uses a three-layer deep neural network to estimate BP based on PPG signals. Different from previous work, the proposed model analyzes the PPG signal in time-domain and automatically extracts the most critical features for this specific application, then uses a variation of recurrent neural networks called Long-Short-Term-Memo ry (LSTM) to map the extracted features to the BP value associated with that time window. Experimental results on two separate standard hospital datasets, yielded absolute errors mean and absolute error standard deviation for systolic and diastolic BP values outperforming prior works.
翻訳日:2021-08-03 15:02:26 公開日:2021-07-30
# 未知形式における異常検出のためのニューラルネットワーク解析器からの文法抽出

Extracting Grammars from a Neural Network Parser for Anomaly Detection in Unknown Formats ( http://arxiv.org/abs/2108.00103v1 )

ライセンス: Link先を確認
Alexander Grushin and Walt Woods(参考訳) 強化学習は、最近promiseを、未知の形式で文を解析するために人工ニューラルネットワークをトレーニングするテクニックとして示した。 このアプローチの重要な側面は、形式を記述する文法を明示的に推論するのではなく、ニューラルネットワークは文のコーパス上で様々なパースアクション(例えば2つのトークンをマージするなど)を行うことを学び、結果のパース構造の推定頻度に基づいて総報酬を最大化することである。 与えられた選択は(総報酬で表されるように)パースの最適性を変化させるが、構文解析に失敗することはないため、学習プロセスは異なるアクションの選択をより容易に探索することができる。 第一に、ニューラルネットワークは、構文解析中に使用する文法のプロダクションルールを提供していない;第二に、このニューラルネットワークは、任意の文を解析できるため、訓練文の形式、すなわち異常である形式から逸脱した文を直接識別することはできない。 本稿では、ニューラルネットワークから生成規則を抽出するための手順を提示し、これらの規則を用いて、与えられた文が名目か異常であるかをトレーニングデータで観察された構造と比較することにより、これらの制限に対処する。 後者の場合、異常の位置を特定する試みが行われる。 さらに、高エントロピー情報を含むフォーマットを扱うための2つのパス機構を示す。 人工フォーマットのアプローチを実証的に評価し,有効性を示すとともに,限界を特定する。 パーサ学習をさらに改善し、規則抽出と異常検出を活用することで、良性または悪意のある共通のエラーを実用的なフォーマットで理解し始めるかもしれない。

Reinforcement learning has recently shown promise as a technique for training an artificial neural network to parse sentences in some unknown format. A key aspect of this approach is that rather than explicitly inferring a grammar that describes the format, the neural network learns to perform various parsing actions (such as merging two tokens) over a corpus of sentences, with the goal of maximizing the total reward, which is roughly based on the estimated frequency of the resulting parse structures. This can allow the learning process to more easily explore different action choices, since a given choice may change the optimality of the parse (as expressed by the total reward), but will not result in the failure to parse a sentence. However, the approach also exhibits limitations: first, the neural network does not provide production rules for the grammar that it uses during parsing; second, because this neural network can successfully parse any sentence, it cannot be directly used to identify sentences that deviate from the format of the training sentences, i.e., that are anomalous. In this paper, we address these limitations by presenting procedures for extracting production rules from the neural network, and for using these rules to determine whether a given sentence is nominal or anomalous, when compared to structures observed within training data. In the latter case, an attempt is made to identify the location of the anomaly. Additionally, a two pass mechanism is presented for dealing with formats containing high-entropy information. We empirically evaluate the approach on artificial formats, demonstrating effectiveness, but also identifying limitations. By further improving parser learning, and leveraging rule extraction and anomaly detection, one might begin to understand common errors, either benign or malicious, in practical formats.
翻訳日:2021-08-03 15:02:06 公開日:2021-07-30
# 大規模データ同化問題に対する物理インフォームド機械学習手法

Physics-Informed Machine Learning Method for Large-Scale Data Assimilation Problems ( http://arxiv.org/abs/2108.00037v1 )

ライセンス: Link先を確認
Yu-Hong Yeung (1), David A. Barajas-Solano (1), Alexandre M. Tartakovsky (1 and 2) ((1) Physical and Computational Sciences Directorate, Pacific Northwest National Laboratory, (2) Department of Civil and Environmental Engineering, University of Illinois Urbana-Champaign)(参考訳) 本研究では,大規模データ同化とパラメータ推定のための物理インフォームド機械学習手法を開発し,ハンフォードサイトの2次元定常地下流れモデルにおける透過率と水理ヘッドの推定に応用する。 本研究では,未知のフラックス (Neumann) と様々なヘッド (Dirichlet) 境界条件を持つ地下流れをモデル化するための物理インフォームド条件付きKarhunen-Lo\'{e}ve展開法(PICKLE)を拡張した。 我々は,ピクルス法が標準最大後方法 (map) 法に匹敵する精度を示すが,大規模問題ではmap法よりはるかに高速であることを示す。 どちらの方法もメッシュを使って計算領域を識別する。 MAPでは、パラメータと状態はメッシュ上で離散化されるため、MAPパラメータ推定問題のサイズはメッシュサイズに直接依存する。 ピクルでは、メッシュは支配方程式の残差を評価するために使用され、パラメータと状態は、パラメータと状態フィールドの滑らかさによって制御されるパラメータの数で、メッシュサイズではなく、切断された条件付きkarhunen-lo\'{e}ve展開によって近似される。 検討された例では、PICKLEの計算コストが($N_{FV}^{1.15}$として)ほぼ直線的に増加するのに対して、MAPの計算コストは$N_{FV}^{3.28}$ほど速くなることを示した。 1つのディリクレ境界条件(すなわち1つの河川ステージ)で訓練された場合、PICKLE法はディリクレ境界条件(すなわち河川ステージ)の任意の値に対して、油圧ヘッドの正確な推定値を提供する。

We develop a physics-informed machine learning approach for large-scale data assimilation and parameter estimation and apply it for estimating transmissivity and hydraulic head in the two-dimensional steady-state subsurface flow model of the Hanford Site given synthetic measurements of said variables. In our approach, we extend the physics-informed conditional Karhunen-Lo\'{e}ve expansion (PICKLE) method for modeling subsurface flow with unknown flux (Neumann) and varying head (Dirichlet) boundary conditions. We demonstrate that the PICKLE method is comparable in accuracy with the standard maximum a posteriori (MAP) method, but is significantly faster than MAP for large-scale problems. Both methods use a mesh to discretize the computational domain. In MAP, the parameters and states are discretized on the mesh; therefore, the size of the MAP parameter estimation problem directly depends on the mesh size. In PICKLE, the mesh is used to evaluate the residuals of the governing equation, while the parameters and states are approximated by the truncated conditional Karhunen-Lo\'{e}ve expansions with the number of parameters controlled by the smoothness of the parameter and state fields, and not by the mesh size. For a considered example, we demonstrate that the computational cost of PICKLE increases near linearly (as $N_{FV}^{1.15}$) with the number of grid points $N_{FV}$, while that of MAP increases much faster as $N_{FV}^{3.28}$. We demonstrated that once trained for one set of Dirichlet boundary conditions (i.e., one river stage), the PICKLE method provides accurate estimates of the hydraulic head for any value of the Dirichlet boundary conditions (i.e., for any river stage).
翻訳日:2021-08-03 14:57:14 公開日:2021-07-30
# $\mathbb{S}^2$上の関数データの振幅平均

Amplitude Mean of Functional Data on $\mathbb{S}^2$ ( http://arxiv.org/abs/2107.13721v2 )

ライセンス: Link先を確認
Zhengwu Zhang and Bayan Saparbayeva(参考訳) 近年, 主流値関数型データ解析 (FDA) は, 非線型多様体上で観測される軌跡や縦方向のデータの増加による研究の活発な領域となっている。 このようなデータ分析の課題は、無限次元や非線形性、時間領域や位相変動性など、多くの側面から生じている。 本稿では,不規則な時間ゆらぎや関数の再パラメータ化に不変な$\mathbb{S}^2$上の多様体値関数の振幅部分について検討する。 $\mathbb{S}^2$ のよい幾何を利用して、関数の時間的アライメント、測地およびサンプル平均計算のための効率的で正確なツールセットを開発する。 これらのツールの核心は、注意深く導出された勾配降下アルゴリズムに依存している。 本研究は, 大規模シミュレーションと実データによる競合相手に対するこれらのツールの利点を示し, メインフォールド評価FDAの位相変動と組み合わせるのではなく, 関数の振幅部分を考えることの重要性を示した。

Mainfold-valued functional data analysis (FDA) recently becomes an active area of research motivated by the raising availability of trajectories or longitudinal data observed on non-linear manifolds. The challenges of analyzing such data comes from many aspects, including infinite dimensionality and nonlinearity, as well as time domain or phase variability. In this paper, we study the amplitude part of manifold-valued functions on $\mathbb{S}^2$, which is invariant to random time warping or re-parameterization of the function. Utilizing the nice geometry of $\mathbb{S}^2$, we develop a set of efficient and accurate tools for temporal alignment of functions, geodesic and sample mean calculation. At the heart of these tools, they rely on gradient descent algorithms with carefully derived gradients. We show the advantages of these newly developed tools over its competitors with extensive simulations and real data, and demonstrate the importance of considering the amplitude part of functions instead of mixing it with phase variability in mainfold-valued FDA.
翻訳日:2021-08-03 09:09:23 公開日:2021-07-30
# (参考訳) 連続性から編集可能性:連続画像によるGANの反転 [全文訳有]

From Continuity to Editability: Inverting GANs with Consecutive Images ( http://arxiv.org/abs/2107.13812v2 )

ライセンス: CC BY 4.0
Yangyang Xu, Yong Du, Wenpeng Xiao, Xuemiao Xu and Shengfeng He(参考訳) 既存の GAN の逆変換法は、逆符号が高忠実度再構成を達成できるか、編集能力を維持することができるというパラドックスに固定されている。 そのうちの1つだけでは、実際の画像編集は実現できない。 本稿では,この逆転過程に連続した画像(映像フレームやポーズの異なる人物)を導入することで,このパラドックスを解消する。 私たちのソリューションの背景にある理論的根拠は、連続した画像の連続性が固有の編集可能な方向につながるということです。 この独立性は、2つのユニークな目的のために使用される: 1) 共同逆転過程を規則化し、各逆転したコードは一方から意味的にアクセスでき、編集可能なドメインで固定される; 2) 逆転したコードの忠実度を他の画像の補体で最大化するように、画像間コヒーレンスを強制する。 大規模な実験により,本手法は,実画像データセットと合成データセットの両方において,再現精度と編集性において,最先端の手法を著しく上回ることを示した。 さらに,本手法は,映像ベースGAN変換の最初のサポートと,連続画像からの教師なしセマンティックトランスファーの興味深い応用を提供する。 ソースコードは \url{https://github.com/c nnlstm/invertinggans _with_consecutiveimg s} で見ることができる。

Existing GAN inversion methods are stuck in a paradox that the inverted codes can either achieve high-fidelity reconstruction, or retain the editing capability. Having only one of them clearly cannot realize real image editing. In this paper, we resolve this paradox by introducing consecutive images (\eg, video frames or the same person with different poses) into the inversion process. The rationale behind our solution is that the continuity of consecutive images leads to inherent editable directions. This inborn property is used for two unique purposes: 1) regularizing the joint inversion process, such that each of the inverted code is semantically accessible from one of the other and fastened in a editable domain; 2) enforcing inter-image coherence, such that the fidelity of each inverted code can be maximized with the complement of other images. Extensive experiments demonstrate that our alternative significantly outperforms state-of-the-art methods in terms of reconstruction fidelity and editability on both the real image dataset and synthesis dataset. Furthermore, our method provides the first support of video-based GAN inversion, and an interesting application of unsupervised semantic transfer from consecutive images. Source code can be found at: \url{https://github.com/c nnlstm/InvertingGANs _with_ConsecutiveImg s}.
翻訳日:2021-08-02 21:52:36 公開日:2021-07-30
# (参考訳) 自律走行のためのリアルタイムストリーミング知覚システム [全文訳有]

Real-time Streaming Perception System for Autonomous Driving ( http://arxiv.org/abs/2107.14388v1 )

ライセンス: CC BY 4.0
Yongxiang Gu, Qianlei Wang, Xiaolin Qin(参考訳) 現在、多くのディープラーニング技術が、将来性のある結果で自動運転のあらゆる側面に適用されている。 その中でも、オブジェクト検出は、自律エージェントが環境を知覚し、(再)作用できる能力を向上させるための鍵である。 しかし、従来の視覚に基づく物体検出器は、リアルタイム運転シナリオ下では満足な性能を達成できない。 そこで,本稿では,検出のみのトラックに対して,ストリーミング知覚チャレンジ(cvpr 2021における自律運転)の2位となるリアルタイムスチーム知覚システムを提案する。 絶対的なパフォーマンスに重点を置いている従来のオブジェクト検出の課題とは異なり、ストリーミング認識タスクでは、リアルタイムの自律運転に不可欠な精度とレイテンシのバランスを達成する必要がある。 我々はYOLOv5を基本フレームワークとして採用し、データ拡張、Bag-of-Freebies、Transformerを採用し、ストリーミングオブジェクト検出性能を無視できる余分な推論コストで向上させる。 Argoverse-HDテストセットでは,必要なハードウェアで33.2ストリーミングAP(オーガナイザが検証した34.6ストリーミングAP)を実現する。 そのパフォーマンスは13.6(ホストチーム)の固定ベースラインを大幅に上回り、アプリケーションの潜在性を示している。

Nowadays, plenty of deep learning technologies are being applied to all aspects of autonomous driving with promising results. Among them, object detection is the key to improve the ability of an autonomous agent to perceive its environment so that it can (re)act. However, previous vision-based object detectors cannot achieve satisfactory performance under real-time driving scenarios. To remedy this, we present the real-time steaming perception system in this paper, which is also the 2nd Place solution of Streaming Perception Challenge (Workshop on Autonomous Driving at CVPR 2021) for the detection-only track. Unlike traditional object detection challenges, which focus mainly on the absolute performance, streaming perception task requires achieving a balance of accuracy and latency, which is crucial for real-time autonomous driving. We adopt YOLOv5 as our basic framework, data augmentation, Bag-of-Freebies, and Transformer are adopted to improve streaming object detection performance with negligible extra inference cost. On the Argoverse-HD test set, our method achieves 33.2 streaming AP (34.6 streaming AP verified by the organizer) under the required hardware. Its performance significantly surpasses the fixed baseline of 13.6 (host team), demonstrating the potentiality of application.
翻訳日:2021-08-02 19:19:29 公開日:2021-07-30
# (参考訳) 機械翻訳の難易度評価 [全文訳有]

Difficulty-Aware Machine Translation Evaluation ( http://arxiv.org/abs/2107.14402v1 )

ライセンス: CC BY 4.0
Runzhe Zhan, Xuebo Liu, Derek F. Wong, Lidia S. Chao(参考訳) 機械翻訳(MT)システムによる高品質な翻訳結果は,現在でも自動評価において大きな課題となっている。 現在のmt評価は各文の構成要素に同じ注意を払っているが、実世界の試験(例えば大学試験)の質問は困難さと重み付けが異なる。 本稿では,翻訳難易度を考慮に入れて評価次元を拡大する,新しい難易度対応mt評価指標を提案する。 ほとんどのMTシステムでは予測できない翻訳は難しいものとして扱われ、最終的なスコア関数において大きな重みが割り当てられ、逆に扱われる。 WMT19の英独共同作業における実験結果から,提案手法は人的相関の点から,一般的なMT指標よりも優れていた。 特に,提案手法は,すべてのMTシステムが非常に競争力がある場合でも良好に動作し,既存の測定値の区別に失敗する。 ソースコードはhttps://github.com/N LP2CT/Difficulty-Awa re-MT-Evaluationで無償公開されている。

The high-quality translation results produced by machine translation (MT) systems still pose a huge challenge for automatic evaluation. Current MT evaluation pays the same attention to each sentence component, while the questions of real-world examinations (e.g., university examinations) have different difficulties and weightings. In this paper, we propose a novel difficulty-aware MT evaluation metric, expanding the evaluation dimension by taking translation difficulty into consideration. A translation that fails to be predicted by most MT systems will be treated as a difficult one and assigned a large weight in the final score function, and conversely. Experimental results on the WMT19 English-German Metrics shared tasks show that our proposed method outperforms commonly used MT metrics in terms of human correlation. In particular, our proposed method performs well even when all the MT systems are very competitive, which is when most existing metrics fail to distinguish between them. The source code is freely available at https://github.com/N LP2CT/Difficulty-Awa re-MT-Evaluation.
翻訳日:2021-08-02 19:09:14 公開日:2021-07-30
# (参考訳) リアルタイムaiを活用した教育ダッシュボード(raed)がインストラクタへの指導に与える影響の理解に向けて [全文訳有]

Towards Understanding the Impact of Real-Time AI-Powered Educational Dashboards (RAED) on Providing Guidance to Instructors ( http://arxiv.org/abs/2107.14414v1 )

ライセンス: CC BY 4.0
Ajay Kulkarni(参考訳) この継続的な研究の目的は、インストラクターのための意思決定支援ツールとしてリアルタイムAI駆動教育ダッシュボード(RAED)を構築し、意思決定を行いながらその影響を測定することである。 AIの現在の開発は、教育ダッシュボードと組み合わせてAI駆動にすることができる。 したがって、aiは、生徒のパフォーマンスに基づいて推奨を提供するのに役立つ。 AIを利用した教育ダッシュボードは、リアルタイムの学生活動を追跡するインストラクターを支援することもできる。 この進行中の研究では、当社の目標は、aiコンポーネントの開発と、raedの既存の設計コンポーネントの改善です。 さらに,インストラクタへの影響を研究する実験を行い,意思決定をしながら指導するために必要な信頼度を理解する。 本稿では,現在進行中の研究と今後の方向性について概説する。

The objectives of this ongoing research are to build Real-Time AI-Powered Educational Dashboard (RAED) as a decision support tool for instructors, and to measure its impact on them while making decisions. Current developments in AI can be combined with the educational dashboards to make them AI-Powered. Thus, AI can help in providing recommendations based on the students' performances. AI-Powered educational dashboards can also assist instructors in tracking real-time student activities. In this ongoing research, our aim is to develop the AI component as well as improve the existing design component of the RAED. Further, we will conduct experiments to study its impact on instructors, and understand how much they trust RAED to guide them while making decisions. This paper elaborates on the ongoing research and future direction.
翻訳日:2021-08-02 19:00:36 公開日:2021-07-30
# (参考訳) usc: オープンソースのウズベク音声コーパスと初期音声認識実験 [全文訳有]

USC: An Open-Source Uzbek Speech Corpus and Initial Speech Recognition Experiments ( http://arxiv.org/abs/2107.14419v1 )

ライセンス: CC BY 4.0
Muhammadjon Musaev, Saida Mussakhojayeva, Ilyos Khujayorov, Yerbolat Khassanov, Mannon Ochilov, Huseyin Atakan Varol(参考訳) 本稿では,ウズベク語用音声コーパスを無償で提供し,ディープニューラルネットワーク隠れマルコフモデル(DNN-HMM)とエンド・ツー・エンド(E2E)アーキテクチャを用いて,予備的自動音声認識(ASR)結果を報告する。 ウズベク語音声コーパス (usc) は958の異なる話者で構成され、105時間の録音音声を収録している。 私たちの知る限りでは、これはASRタスク専用の初のオープンソースのウズベク語コーパスです。 高品質を保証するため、USCはネイティブスピーカーによって手動でチェックされている。 まず,uscの設計と開発手順を説明し,その後に実施したasr実験について詳細に説明する。 実験の結果,USC for ASRの適用性について有望な結果が得られた。 具体的には、検証セットとテストセットで18.1%と17.4%の単語誤り率を達成した。 実験再現性を実現するために、USCデータセット、トレーニング済みモデル、トレーニングレシピをGitHubリポジトリで共有しています。

We present a freely available speech corpus for the Uzbek language and report preliminary automatic speech recognition (ASR) results using both the deep neural network hidden Markov model (DNN-HMM) and end-to-end (E2E) architectures. The Uzbek speech corpus (USC) comprises 958 different speakers with a total of 105 hours of transcribed audio recordings. To the best of our knowledge, this is the first open-source Uzbek speech corpus dedicated to the ASR task. To ensure high quality, the USC has been manually checked by native speakers. We first describe the design and development procedures of the USC, and then explain the conducted ASR experiments in detail. The experimental results demonstrate promising results for the applicability of the USC for ASR. Specifically, 18.1% and 17.4% word error rates were achieved on the validation and test sets, respectively. To enable experiment reproducibility, we share the USC dataset, pre-trained models, and training recipes in our GitHub repository.
翻訳日:2021-08-02 18:55:20 公開日:2021-07-30
# (参考訳) 簡潔相互作用グラフと識別的シーン表現による社会的関係推論の強化 [全文訳有]

Enhancing Social Relation Inference with Concise Interaction Graph and Discriminative Scene Representation ( http://arxiv.org/abs/2107.14425v1 )

ライセンス: CC BY 4.0
Xiaotian Yu, Hanling Yi, Yi Yu, Ling Xing, Shiliang Zhang, Xiaoyu Wang(参考訳) 近年,画像に基づく社会的関係推論問題に対する研究の関心が高まっている。 既存の作品は、主に人間の相互作用の複雑なグラフを作成したり、人や物の前景や背景情報を学習することで社会的関係を分類する。 総合的な場面は、ダイニングルーム、遊び場、オフィスといった画像の中の場所の機能を指す。 本稿では,画像上での人間の理解を模倣することにより,人物の対話的特徴と全体像の識別的特徴を簡潔に学習する, \textbf{PR}actical \textbf{I}nference in \textbf{S}ocial r\textbf{E}lation (PRISE)を提案する。 技術的には、簡単な高速なリレーショナルグラフ畳み込みネットワークを開発し、1つの画像中のすべての人の対話的特徴を捉える。 全体像の特徴を学習するために,画像シーン分類に基づくコントラスト学習タスクを精巧に設計する。 社会的関係推論の性能をさらに向上させるために,約240万枚の未ラベル画像からなる大規模データセットを収集,配布する。 PRISEはPIPAデータセットにおけるドメイン分類の6.8$\%の改善を達成し,新しい学習フレームワークが最先端の手法を著しく上回っていることを示す。

There has been a recent surge of research interest in attacking the problem of social relation inference based on images. Existing works classify social relations mainly by creating complicated graphs of human interactions, or learning the foreground and/or background information of persons and objects, but ignore holistic scene context. The holistic scene refers to the functionality of a place in images, such as dinning room, playground and office. In this paper, by mimicking human understanding on images, we propose an approach of \textbf{PR}actical \textbf{I}nference in \textbf{S}ocial r\textbf{E}lation (PRISE), which concisely learns interactive features of persons and discriminative features of holistic scenes. Technically, we develop a simple and fast relational graph convolutional network to capture interactive features of all persons in one image. To learn the holistic scene feature, we elaborately design a contrastive learning task based on image scene classification. To further boost the performance in social relation inference, we collect and distribute a new large-scale dataset, which consists of about 240 thousand unlabeled images. The extensive experimental results show that our novel learning framework significantly beats the state-of-the-art methods, e.g., PRISE achieves 6.8$\%$ improvement for domain classification in PIPA dataset.
翻訳日:2021-08-02 18:45:56 公開日:2021-07-30
# (参考訳) 単一画像深部デフォーカス推定とその応用 [全文訳有]

Single image deep defocus estimation and its applications ( http://arxiv.org/abs/2107.14443v1 )

ライセンス: CC BY 4.0
Fernando J. Galetto and Guang Deng(参考訳) 深度情報は、多くの画像処理アプリケーションで有用である。 しかし、撮影は2次元撮像センサに3次元シーンを投影する工程であるため、奥行き情報は画像に埋め込まれている。 画像から深度情報を抽出することは難しい作業である。 導出原理は、デフォーカスによるぼかしのレベルが物体と焦点面の間の距離と関連しているということである。 この原理と、ガウスのぼかしがデフォーカスのぼかしに良いモデルであるという仮定に基づいて、空間的に変化するデフォーカスのぼかしをガウスのぼかし分類問題として推定する問題を定式化する。 画像パッチを20段階のぼやけの1つに分類するために,深層ニューラルネットワークを訓練することでこの問題を解決した。 我々は、よく知られたネットワークモデルのトレーニングとテストに使用される、サイズ32x32の50万以上のイメージパッチのデータセットを作成しました。 メモリ要求が低く,精度が高いため,MobileNetV2 がこのアプリケーションに適していることがわかった。 トレーニングされたモデルは、反復重み付きガイドフィルタを適用して改善するパッチのぼかしを決定するために使用される。 その結果、各ピクセルのぼやけた程度の情報を運ぶデフォーカスマップとなる。 提案手法を最先端技術と比較し,適応型画像強調,デフォーカス拡大,マルチフォーカス画像融合に応用できることを実証した。

The depth information is useful in many image processing applications. However, since taking a picture is a process of projection of a 3D scene onto a 2D imaging sensor, the depth information is embedded in the image. Extracting the depth information from the image is a challenging task. A guiding principle is that the level of blurriness due to defocus is related to the distance between the object and the focal plane. Based on this principle and the widely used assumption that Gaussian blur is a good model for defocus blur, we formulate the problem of estimating the spatially varying defocus blurriness as a Gaussian blur classification problem. We solved the problem by training a deep neural network to classify image patches into one of the 20 levels of blurriness. We have created a dataset of more than 500000 image patches of size 32x32 which are used to train and test several well-known network models. We find that MobileNetV2 is suitable for this application due to its low memory requirement and high accuracy. The trained model is used to determine the patch blurriness which is then refined by applying an iterative weighted guided filter. The result is a defocus map that carries the information of the degree of blurriness for each pixel. We compare the proposed method with state-of-the-art techniques and we demonstrate its successful applications in adaptive image enhancement, defocus magnification, and multi-focus image fusion.
翻訳日:2021-08-02 18:31:07 公開日:2021-07-30
# (参考訳) 深層および複雑cnnの効率的な刈り取りのための同一フィルタ冗長性操作 [全文訳有]

Manipulating Identical Filter Redundancy for Efficient Pruning on Deep and Complicated CNN ( http://arxiv.org/abs/2107.14444v1 )

ライセンス: CC BY 4.0
Xiaohan Ding, Tianxiang Hao, Jungong Han, Yuchen Guo, Guiguang Ding(参考訳) 畳み込みニューラルネットワーク(CNN)における冗長性の存在は、許容可能な性能低下を伴うフィルタ/チャネルの除去を可能にする。 しかし、cnnの訓練の目的は、通常、冗長性に注意を払わずに精度関連損失関数を最小化することであり、冗長性を全てのフィルタにランダムに分散させることで、どのフィルタも削除することで情報損失と精度低下を引き起こし、次の微調整ステップを必要としない。 本稿では,ネットワークプルーニングを容易にするために,トレーニング中の冗長性を操作することを提案する。 そこで本研究では,Centripetal SGD (C-SGD) を新たに提案し,フィルタが重複により純粋に冗長になり,ネットワークを損なうことがないことを示す。 CIFARとImageNetに示されているように、C-SGDは、既存の方法と比較して冗長性がより組織化されているため、パフォーマンスが向上する。 効率性はまた、C-SGDは通常のSGDと同じ速度であり、微調整を必要とせず、非常に深いCNNでも全ての層で同時に実行できるため、C-SGDを特徴付ける。 さらに、C-SGDはCNNの精度を向上させるために、最初に同じアーキテクチャでモデルをトレーニングするが、より広い層は元の幅に絞る。

The existence of redundancy in Convolutional Neural Networks (CNNs) enables us to remove some filters/channels with acceptable performance drops. However, the training objective of CNNs usually tends to minimize an accuracy-related loss function without any attention paid to the redundancy, making the redundancy distribute randomly on all the filters, such that removing any of them may trigger information loss and accuracy drop, necessitating a following finetuning step for recovery. In this paper, we propose to manipulate the redundancy during training to facilitate network pruning. To this end, we propose a novel Centripetal SGD (C-SGD) to make some filters identical, resulting in ideal redundancy patterns, as such filters become purely redundant due to their duplicates; hence removing them does not harm the network. As shown on CIFAR and ImageNet, C-SGD delivers better performance because the redundancy is better organized, compared to the existing methods. The efficiency also characterizes C-SGD because it is as fast as regular SGD, requires no finetuning, and can be conducted simultaneously on all the layers even in very deep CNNs. Besides, C-SGD can improve the accuracy of CNNs by first training a model with the same architecture but wider layers then squeezing it into the original width.
翻訳日:2021-08-02 18:07:37 公開日:2021-07-30
# (参考訳) Synth-by-Reg (SbR):ペア画像の合成ベース登録のためのコントラスト学習 [全文訳有]

Synth-by-Reg (SbR): Contrastive learning for synthesis-based registration of paired images ( http://arxiv.org/abs/2107.14449v1 )

ライセンス: CC BY 4.0
Adri\`a Casamitjana, Matteo Mancini, Juan Eugenio Iglesias(参考訳) 非線形モダリティ間登録は、アライメントに適したプロキシである客観的関数が欠如しているため、しばしば困難である。 本稿では,この問題をより簡単なモダリティ内タスクに変換するための合成/登録手法を提案する。 完全に整合したトレーニングデータを必要としない領域間の弱教師付き画像翻訳のための登録損失を導入する。 この損失は、凍結重み付き登録されたU-Netを利用して、合成CNNを所望の翻訳に向けて駆動する。 この損失を、コントラスト学習に基づく制約を保存する構造で補うことで、過度な適合によるぼやけやコンテンツシフトを防止する。 本手法は3次元組織再構成における重要なステップであるMRIスライスへのヒストロジカルセクションの登録に適用する。 2つの異なる公開データセットの結果は、相互情報に基づく登録(ランドマークエラーの13%削減)と、cyclegan (11%削減)のような合成ベースのアルゴリズムによる改善を示し、ラベル監督のある登録cnnと比較できる。

Nonlinear inter-modality registration is often challenging due to the lack of objective functions that are good proxies for alignment. Here we propose a synthesis-by-registr ation method to convert this problem into an easier intra-modality task. We introduce a registration loss for weakly supervised image translation between domains that does not require perfectly aligned training data. This loss capitalises on a registration U-Net with frozen weights, to drive a synthesis CNN towards the desired translation. We complement this loss with a structure preserving constraint based on contrastive learning, which prevents blurring and content shifts due to overfitting. We apply this method to the registration of histological sections to MRI slices, a key step in 3D histology reconstruction. Results on two different public datasets show improvements over registration based on mutual information (13% reduction in landmark error) and synthesis-based algorithms such as CycleGAN (11% reduction), and are comparable to a registration CNN with label supervision.
翻訳日:2021-08-02 17:31:10 公開日:2021-07-30
# (参考訳) ネットワークアーキテクチャによる最大エントロピー [全文訳有]

Maximum Entropy Dueling Network Architecture ( http://arxiv.org/abs/2107.14457v1 )

ライセンス: CC BY 4.0
Alireza Nadali and Mohammad Mehdi Ebadzadeh(参考訳) 近年,価値関数推定と表現を中心に強化学習のための深層構造が数多く提案されている。 これらの手法はアタリ2600藩で大成功を収めた。 本稿では、Dueling Networksに基づくアーキテクチャの改善を提案し、このアーキテクチャには2つの別々の推定器があり、一方は状態値関数と他方は状態優位関数である。 最大エントロピーに基づくこの改善は、atariドメインにおける元のネットワークや他の価値ベースのアーキテクチャよりも優れたポリシー評価を示している。

In recent years, there have been many deep structures for Reinforcement Learning, mainly for value function estimation and representations. These methods achieved great success in Atari 2600 domain. In this paper, we propose an improved architecture based upon Dueling Networks, in this architecture, there are two separate estimators, one approximate the state value function and the other, state advantage function. This improvement based on Maximum Entropy, shows better policy evaluation compared to the original network and other value-based architectures in Atari domain.
翻訳日:2021-08-02 17:19:22 公開日:2021-07-30
# (参考訳) OpenForensics:多面フォージェリ検出とセグメンテーションのための大規模チェアリングデータセット [全文訳有]

OpenForensics: Large-Scale Challenging Dataset For Multi-Face Forgery Detection And Segmentation In-The-Wild ( http://arxiv.org/abs/2107.14480v1 )

ライセンス: CC BY 4.0
Trung-Nghia Le and Huy H. Nguyen and Junichi Yamagishi and Isao Echizen(参考訳) ディープフェイクメディアの普及は、公共および関連当局の間で懸念が高まっている。 ソーシャルメディアにおける偽顔対策の整備が不可欠となっている。 本稿では,マルチフェイス偽造検出とセグメンテーションの2つの対策を包括的に検討する。 制約のない自然の場面で、複数の人間の顔に偽の顔を置くことは、従来のディープフェイク認識タスクよりもはるかに難しい。 これらの新しいタスクを促進するために、私たちは、顔の偽造検出とセグメンテーション、すなわちopenforensicsのために明示的に顔にリッチなアノテーションで設計された、高いレベルの課題を提起する最初の大規模データセットを作成しました。 豊富なアノテーションによって、私たちのOpenForensicsデータセットは、ディープフェイク防止と一般的な人間の顔検出の両方の研究に大きな可能性を秘めています。 さまざまなシナリオで新たに構築したデータセット上で,最先端のインスタンス検出とセグメンテーション手法を広範囲に評価することにより,これらのタスクのベンチマークも開発した。 データセット、ベンチマーク結果、コード、補足資料は、プロジェクトのページで公開されます。

The proliferation of deepfake media is raising concerns among the public and relevant authorities. It has become essential to develop countermeasures against forged faces in social media. This paper presents a comprehensive study on two new countermeasure tasks: multi-face forgery detection and segmentation in-the-wild. Localizing forged faces among multiple human faces in unrestricted natural scenes is far more challenging than the traditional deepfake recognition task. To promote these new tasks, we have created the first large-scale dataset posing a high level of challenges that is designed with face-wise rich annotations explicitly for face forgery detection and segmentation, namely OpenForensics. With its rich annotations, our OpenForensics dataset has great potentials for research in both deepfake prevention and general human face detection. We have also developed a suite of benchmarks for these tasks by conducting an extensive evaluation of state-of-the-art instance detection and segmentation methods on our newly constructed dataset in various scenarios. The dataset, benchmark results, codes, and supplementary materials will be publicly available on our project page: https://sites.google .com/view/ltnghia/re search/openforensics
翻訳日:2021-08-02 17:08:37 公開日:2021-07-30
# (参考訳) モーダル論理と構成論理を応用したラベリングシステム

Refining Labelled Systems for Modal and Constructive Logics with Applications ( http://arxiv.org/abs/2107.14487v1 )

ライセンス: CC BY 4.0
Tim Lyon(参考訳) この論文は、モーダル論理および/または構成論理のリレーショナルセマンティクスを2つの証明論的パラダイム(ラベル付きと入れ子付きシークエント計算)を接続して「経済的な」証明システムに変換する手段として機能する「構造的洗練の方法」を導入する。 ラベル付きシークエントの定式化は、論理学の大規模なクラスに対して、望ましい証明理論的性質を持つカットフリーな計算を自動生成することに成功した。 これらの性質にもかかわらず、ラベル付きシステムは関連する論理のセマンティクスを明示的に組み込んだ複雑な構文を用いており、そのようなシステムは典型的にはサブフォーミュラ特性を高いレベルで侵害する。 対照的に、ネストされたシークエント計算はより単純な構文を採用し、サブフォーミュラ特性の厳密な読み取りに固執するので、そのようなシステムは自動推論アルゴリズムの設計に有用である。 しかし、ネストシークエントパラダイムの欠点は、そのような計算の自動化に関する一般的な理論(ラベル付きセッティングの場合のように)が本質的に欠落していることであり、ネスト系の構築とそれらの性質の確認はケースバイケースで行うのが普通である。 改質法は、2つのパラダイムを実りある方法で結合し、ラベリングされたシステムをネストされた(またはリベリングされた)システムに変換し、前者の特性を変換プロセスを通して保持する。 改良の方法とその応用を実証するために,文法論理,一階直観論理,非直観的STIT論理について考察する。 改良されたラベル付き計算は、デオン性STIT論理に対する最初の証明探索アルゴリズムを提供するために使われる。 さらに、クラス内の全ての論理が有効なリンドン補間特性を持つことを示すため、文法論理に洗練されたラベル付き計算を用いる。

This thesis introduces the "method of structural refinement", which serves as a means of transforming the relational semantics of a modal and/or constructive logic into an 'economical' proof system by connecting two proof-theoretic paradigms: labelled and nested sequent calculi. The formalism of labelled sequents has been successful in that cut-free calculi in possession of desirable proof-theoretic properties can be automatically generated for large classes of logics. Despite these qualities, labelled systems make use of a complicated syntax that explicitly incorporates the semantics of the associated logic, and such systems typically violate the subformula property to a high degree. By contrast, nested sequent calculi employ a simpler syntax and adhere to a strict reading of the subformula property, making such systems useful in the design of automated reasoning algorithms. However, the downside of the nested sequent paradigm is that a general theory concerning the automated construction of such calculi (as in the labelled setting) is essentially absent, meaning that the construction of nested systems and the confirmation of their properties is usually done on a case-by-case basis. The refinement method connects both paradigms in a fruitful way, by transforming labelled systems into nested (or, refined labelled) systems with the properties of the former preserved throughout the transformation process. To demonstrate the method of refinement and some of its applications, we consider grammar logics, first-order intuitionistic logics, and deontic STIT logics. The introduced refined labelled calculi will be used to provide the first proof-search algorithms for deontic STIT logics. Furthermore, we employ our refined labelled calculi for grammar logics to show that every logic in the class possesses the effective Lyndon interpolation property.
翻訳日:2021-08-02 16:49:18 公開日:2021-07-30
# (参考訳) 最小編集アルブレッセンス問題とそのグラフコレクション圧縮への応用 [extended version] [全文訳有]

The Minimum Edit Arborescence Problem and Its Use in Compressing Graph Collections [Extended Version] ( http://arxiv.org/abs/2107.14525v1 )

ライセンス: CC BY 4.0
Lucas Gnecco, Nicolas Boria, S\'ebastien Bougleux, Florian Yger, David B. Blumenthal(参考訳) オブジェクトの集合内の最小スパン・アルブレッセンスの推論は、多くのアプリケーション固有の教師なし学習タスクに変換される一般的な問題である。 我々は、コレクション内のデータ間の編集パスに依存する編集アーボラッセンスと呼ばれる統一的で汎用的な構造と、内部編集パスのコストの総和を最小化する編集アーボラッセンスを求めるMin Edit Arborescence Problemを導入する。 適切なコスト関数を使用することで、この汎用フレームワークは様々な問題をモデル化することができる。 特に,編集コストを節約するエンコーディングサイズを導入することで,ラベル付きグラフのコレクションを効率的に圧縮する方法として使用できることを示す。 各種グラフデータセットの実験と標準圧縮ツールとの比較により,本手法の可能性を示す。

The inference of minimum spanning arborescences within a set of objects is a general problem which translates into numerous application-specific unsupervised learning tasks. We introduce a unified and generic structure called edit arborescence that relies on edit paths between data in a collection, as well as the Min Edit Arborescence Problem, which asks for an edit arborescence that minimizes the sum of costs of its inner edit paths. Through the use of suitable cost functions, this generic framework allows to model a variety of problems. In particular, we show that by introducing encoding size preserving edit costs, it can be used as an efficient method for compressing collections of labeled graphs. Experiments on various graph datasets, with comparisons to standard compression tools, show the potential of our method.
翻訳日:2021-08-02 16:47:38 公開日:2021-07-30
# (参考訳) 血管セグメンテーションにおけるトポロジカル類似度指数と損失関数 [全文訳有]

Topological Similarity Index and Loss Function for Blood Vessel Segmentation ( http://arxiv.org/abs/2107.14531v1 )

ライセンス: CC BY 4.0
R. J. Ara\'ujo, J. S. Cardoso, H. P. Oliveira(参考訳) 血管のセグメンテーションは、日常臨床における関連性から、コンピュータビジョンで最も研究されているトピックの1つである。 この分野の進化にもかかわらず、特に深層学習の夜明け以降は、重要な課題はまだ解決されていない。 そのうちの1つは、血管樹のトポロジ的特性の整合性に関するものであり、最も優れた手法は、壊れた部分のようなミスを直接罰し、非連結木で予測することができない。 これは血管木のようなグラフのような構造に特に関係しており、セグメンテーションタスクに続く特徴的ステップを危険に晒している。 本稿では,基底真理の参照として予測されるセグメンテーションの位相的一貫性を捉える類似性指標を提案する。 また、形態的閉鎖演算子に基づく新しい損失関数を設計し、より位相的に一貫性のあるマスクを生成するディープニューラルネットワークモデルを学習する方法を示す。 我々の実験は、よく知られた網膜ベンチマークと冠動脈造影データベースをターゲットにしている。

Blood vessel segmentation is one of the most studied topics in computer vision, due to its relevance in daily clinical practice. Despite the evolution the field has been facing, especially after the dawn of deep learning, important challenges are still not solved. One of them concerns the consistency of the topological properties of the vascular trees, given that the best performing methodologies do not directly penalize mistakes such as broken segments and end up producing predictions with disconnected trees. This is particularly relevant in graph-like structures, such as blood vessel trees, given that it puts at risk the characterization steps that follow the segmentation task. In this paper, we propose a similarity index which captures the topological consistency of the predicted segmentations having as reference the ground truth. We also design a novel loss function based on the morphological closing operator and show how it allows to learn deep neural network models which produce more topologically coherent masks. Our experiments target well known retinal benchmarks and a coronary angiogram database.
翻訳日:2021-08-02 16:29:10 公開日:2021-07-30
# (参考訳) shadow art再訪:差別化可能なレンダリングベースのアプローチ [全文訳有]

Shadow Art Revisited: A Differentiable Rendering Based Approach ( http://arxiv.org/abs/2107.14539v1 )

ライセンス: CC BY 4.0
Kaustubh Sadekar, Ashish Tiwari, Shanmuganathan Raman(参考訳) 近年の学習に基づく手法は視覚関連の応用に優れていることが観察されているが、芸術効果を生み出す可能性はあまり調査されていない。 シャドウアート(シャドウアート、Shadow Art)は、3D彫刻で作られた2Dの影が芸術効果を生み出す、ユニークな彫刻芸術である。 本研究では,異なるレンダリングに基づく最適化フレームワークを用いて影芸術を再考し,影(バイナリ)画像とそれに対応する投影情報から3次元彫刻を得る。 具体的には,voxelによる形状最適化とメッシュベースの微分可能レンダラについて論じる。 シェードアート彫刻の生成に微分可能レンダリングを用いるという選択は、画像データのみから基礎となる3次元幾何学を学習する能力に起因し、3次元地上真実への依存を減らすことができる。 定性的・定量的な結果から,影像のセットを入力として,現代美術作品に見られるような複雑な3d彫刻を生成できる可能性が示唆された。 さらに,顔の影を映し出す3D彫刻の製作,アニメーション映画キャラクタの製作,基礎となる形状をスケッチベースで再現するフレームワークの適用性を実証した。

While recent learning based methods have been observed to be superior for several vision-related applications, their potential in generating artistic effects has not been explored much. One such interesting application is Shadow Art - a unique form of sculptural art where 2D shadows cast by a 3D sculpture produce artistic effects. In this work, we revisit shadow art using differentiable rendering based optimization frameworks to obtain the 3D sculpture from a set of shadow (binary) images and their corresponding projection information. Specifically, we discuss shape optimization through voxel as well as mesh-based differentiable renderers. Our choice of using differentiable rendering for generating shadow art sculptures can be attributed to its ability to learn the underlying 3D geometry solely from image data, thus reducing the dependence on 3D ground truth. The qualitative and quantitative results demonstrate the potential of the proposed framework in generating complex 3D sculptures that go beyond those seen in contemporary art pieces using just a set of shadow images as input. Further, we demonstrate the generation of 3D sculptures to cast shadows of faces, animated movie characters, and applicability of the framework to sketch-based 3D reconstruction of underlying shapes.
翻訳日:2021-08-02 16:10:48 公開日:2021-07-30
# (参考訳) 反復的, 深部, 教師なし合成開口ソナー画像分割 [全文訳有]

Iterative, Deep, and Unsupervised Synthetic Aperture Sonar Image Segmentation ( http://arxiv.org/abs/2107.14563v1 )

ライセンス: CC BY 4.0
Yung-Chen Sun, Isaac D. Gerg, Vishal Monga(参考訳) 深層学習は人工開口ソナー(SAS)画像における海底環境の意味的セグメンテーションに日常的に使われていない。 異常なトレーニングデータ、特に全ての画像のピクセルレベルのラベルは、複雑な物流(例えばダイバーサーベイ、チェイスボート、精度の高い位置情報)のためにSAS画像には利用できない。 多くの手作りの特徴に基づくアルゴリズムが、教師なしの方法でSASを分割するために提案されている。 しかし,これらの手法の特徴抽出ステップが固定されているため,改善の余地は残されている。 本研究では,SAS画像セグメンテーションのための深い特徴を学習するための,新しい反復的教師なしアルゴリズムを提案する。 提案するアルゴリズムは,クラスタリングスーパーピクセルと畳み込みニューラルネットワーク(cnn)のパラメータを交互に更新することにより,画像分割のための特徴抽出を最適化する。 現実的なベンチマークデータセット上で,本手法の有効性を示す。 提案手法の性能は,SAS画像セグメンテーションにおける現在の最先端手法よりもかなり優れていることを示す。

Deep learning has not been routinely employed for semantic segmentation of seabed environment for synthetic aperture sonar (SAS) imagery due to the implicit need of abundant training data such methods necessitate. Abundant training data, specifically pixel-level labels for all images, is usually not available for SAS imagery due to the complex logistics (e.g., diver survey, chase boat, precision position information) needed for obtaining accurate ground-truth. Many hand-crafted feature based algorithms have been proposed to segment SAS in an unsupervised fashion. However, there is still room for improvement as the feature extraction step of these methods is fixed. In this work, we present a new iterative unsupervised algorithm for learning deep features for SAS image segmentation. Our proposed algorithm alternates between clustering superpixels and updating the parameters of a convolutional neural network (CNN) so that the feature extraction for image segmentation can be optimized. We demonstrate the efficacy of our method on a realistic benchmark dataset. Our results show that the performance of our proposed method is considerably better than current state-of-the-art methods in SAS image segmentation.
翻訳日:2021-08-02 15:59:51 公開日:2021-07-30
# (参考訳) 聞こえますか? 超音波トリガーによるバックドア攻撃 [全文訳有]

Can You Hear It? Backdoor Attacks via Ultrasonic Triggers ( http://arxiv.org/abs/2107.14569v1 )

ライセンス: CC BY 4.0
Stefanos Koffas, Jing Xu, Mauro Conti, Stjepan Picek(参考訳) 深層ニューラルネットワークは、複雑なデータ関係をモデル化する能力があるため、多くの現実世界アプリケーションにとって強力な選択肢である。 しかし、そのようなニューラルネットワークは、トレーニングに非常に費用がかかるため、トレーニングプロセスを第三者にアウトソースするか、トレーニング済みのニューラルネットワークを使用するのが一般的である。 残念なことに、そのようなプラクティスは、ニューラルネットワークをバックドア攻撃であるさまざまな攻撃に対して脆弱にする。 このような攻撃において、モデルを訓練する第三者は、悪意を持ってモデルに隠れた振る舞いを注入する可能性がある。 それでも、特定の入力(トリガーと呼ばれる)がニューラルネットワークに供給されると、ネットワークは間違った結果に応答する。 本研究では,無聴トリガーを注入する音声認識システムに対するバックドア攻撃の選択肢について検討する。 そうすることで、バックドア攻撃を正当なユーザの検出に困難にし、潜在的により危険なものにします。 我々は,データセットと3つのニューラルネットワークの2つのバージョンについて実験を行い,トリガーの持続時間,位置,タイプに関する攻撃性能について検討する。 結果から,裏口攻撃を展開し,100%攻撃成功率に達するには1%未満のデータが十分であることが示唆された。 さらに、トリガーは可聴性がなく、信号の持続時間に関して制限がないが、短い非連続的なトリガーであっても、非常に成功した攻撃が引き起こされることを観測した。

Deep neural networks represent a powerful option for many real-world applications due to their ability to model even complex data relations. However, such neural networks can also be prohibitively expensive to train, making it common to either outsource the training process to third parties or use pretrained neural networks. Unfortunately, such practices make neural networks vulnerable to various attacks, where one attack is the backdoor attack. In such an attack, the third party training the model may maliciously inject hidden behaviors into the model. Still, if a particular input (called trigger) is fed into a neural network, the network will respond with a wrong result. In this work, we explore the option of backdoor attacks to automatic speech recognition systems where we inject inaudible triggers. By doing so, we make the backdoor attack challenging to detect for legitimate users, and thus, potentially more dangerous. We conduct experiments on two versions of datasets and three neural networks and explore the performance of our attack concerning the duration, position, and type of the trigger. Our results indicate that less than 1% of poisoned data is sufficient to deploy a backdoor attack and reach a 100% attack success rate. What is more, while the trigger is inaudible, making it without limitations with respect to the duration of the signal, we observed that even short, non-continuous triggers result in highly successful attacks.
翻訳日:2021-08-02 15:51:29 公開日:2021-07-30
# (参考訳) Product1M: クロスモーダル事前トレーニングによるインスタンスレベル製品検索を弱める [全文訳有]

Product1M: Towards Weakly Supervised Instance-Level Product Retrieval via Cross-modal Pretraining ( http://arxiv.org/abs/2107.14572v1 )

ライセンス: CC BY 4.0
Xunlin Zhan, Yangxin Wu, Xiao Dong, Yunchao Wei, Minlong Lu, Yichi Zhang, Hang Xu, Xiaodan Liang(参考訳) 現在、eコマースに対する顧客の要求はより多様化しており、製品検索業界にさらに複雑化をもたらしている。 従来の手法は, 単一モード入力か, 教師付き画像レベルの製品検索を行うかのいずれかであり, 弱い注釈付きマルチモーダルデータが存在する実生活シナリオに対応できない。 本稿では,細粒度製品カテゴリ間のマルチモーダル・インスタンスレベルの製品検索を弱に制御することを目的とした,より現実的な設定について検討する。 この課題の研究を促進するために,実世界のインスタンスレベルの検索のために,最も大規模なマルチモーダル化粧品データセットであるProduct1Mを寄贈する。 注目すべきは、Product1Mには100万枚以上のイメージキャプチャーペアが含まれており、多種類の化粧品ブランドを含む単製品と多製品という2つのサンプルタイプで構成されている。 優れた多様性に加えて、Product1Mには、細かなカテゴリ、複雑な組み合わせ、ファジィ対応など、現実のシーンをうまく模倣するいくつかの魅力的な特徴がある。 さらに, マルチモーダル変換器によるマルチモーダル入力間のシナジーを自己教師付きで捕捉し, マスク付きマルチモーダル学習による識別インスタンス特徴と, クロスモーダルコントラスト事前学習により生成し, 複数SOTAのクロスモーダルベースラインを上回った, ケースレベルのProdUct Retrieval (CAPTURE) のためのクロスモーダルコントラスト製品変換器 (Cross-modal ContrAstive Product Transformer) を提案する。 広範なアブレーション研究により,本モデルの有効性と一般化能が実証された。

Nowadays, customer's demands for E-commerce are more diversified, which introduces more complications to the product retrieval industry. Previous methods are either subject to single-modal input or perform supervised image-level product retrieval, thus fail to accommodate real-life scenarios where enormous weakly annotated multi-modal data are present. In this paper, we investigate a more realistic setting that aims to perform weakly-supervised multi-modal instance-level product retrieval among fine-grained product categories. To promote the study of this challenging task, we contribute Product1M, one of the largest multi-modal cosmetic datasets for real-world instance-level retrieval. Notably, Product1M contains over 1 million image-caption pairs and consists of two sample types, i.e., single-product and multi-product samples, which encompass a wide variety of cosmetics brands. In addition to the great diversity, Product1M enjoys several appealing characteristics including fine-grained categories, complex combinations, and fuzzy correspondence that well mimic the real-world scenes. Moreover, we propose a novel model named Cross-modal contrAstive Product Transformer for instance-level prodUct REtrieval (CAPTURE), that excels in capturing the potential synergy between multi-modal inputs via a hybrid-stream transformer in a self-supervised manner.CAPTURE generates discriminative instance features via masked multi-modal learning as well as cross-modal contrastive pretraining and it outperforms several SOTA cross-modal baselines. Extensive ablation studies well demonstrate the effectiveness and the generalization capacity of our model.
翻訳日:2021-08-02 15:34:39 公開日:2021-07-30
# (参考訳) ニューラルネットワークを用いた自律走行車のモデル予測制御 [全文訳有]

Neural Network Based Model Predictive Control for an Autonomous Vehicle ( http://arxiv.org/abs/2107.14573v1 )

ライセンス: CC BY 4.0
Maria Luiza Costa Vianna, Eric Goubault, Sylvie Putot(参考訳) 自律走行車制御のためのモデル予測コントローラ(MPC)の代替として,学習ベースコントローラについて検討した。 我々は、シンプルながら代表的な自転車モデル実験に集中する。 教師あり学習と強化学習による学習を比較した。 また,ニューラルネットワークアーキテクチャについて検討し,性能のよい小さなネットを得る。 本研究の目的は,リアルタイムプラットフォームに組み込み,形式的手法による検証が可能なコントローラの開発である。

We study learning based controllers as a replacement for model predictive controllers (MPC) for the control of autonomous vehicles. We concentrate for the experiments on the simple yet representative bicycle model. We compare training by supervised learning and by reinforcement learning. We also discuss the neural net architectures so as to obtain small nets with the best performances. This work aims at producing controllers that can both be embedded on real-time platforms and amenable to verification by formal methods techniques.
翻訳日:2021-08-02 15:18:52 公開日:2021-07-30
# (参考訳) ニューラルDP差分プライベートニューラルネットワークの設計 [全文訳有]

NeuralDP Differentially private neural networks by design ( http://arxiv.org/abs/2107.14582v1 )

ライセンス: CC BY 4.0
Moritz Knolle, Dmitrii Usynin, Alexander Ziller, Marcus R. Makowski, Daniel Rueckert, Georgios Kaissis(参考訳) ディープニューラルネットワークのトレーニングに対する差分プライバシーの適用は、個人に対して厳格なプライバシ保証を提供しながら、大規模な(分散化された)機密データの使用を可能にするという約束を果たす。 ニューラルネットワークの差分プライベートトレーニングの主なアプローチはdp-sgdであり、境界感度の方法としてノルムベースの勾配クリッピングに依存する。 本稿では,差動プライバシの処理後特性によって差動プライベートネットワークが形成されるニューラルネットワーク内のレイヤの活性化を民営化する手法であるneuraldpを提案する。 そこで我々は,本手法がdp-sgdと比較してプライバシー利用上のトレードオフを大幅に改善することを示す2つのデータセット(mnistおよびppd)を実験的に検証した。

The application of differential privacy to the training of deep neural networks holds the promise of allowing large-scale (decentralized) use of sensitive data while providing rigorous privacy guarantees to the individual. The predominant approach to differentially private training of neural networks is DP-SGD, which relies on norm-based gradient clipping as a method for bounding sensitivity, followed by the addition of appropriately calibrated Gaussian noise. In this work we propose NeuralDP, a technique for privatising activations of some layer within a neural network, which by the post-processing properties of differential privacy yields a differentially private network. We experimentally demonstrate on two datasets (MNIST and Pediatric Pneumonia Dataset (PPD)) that our method offers substantially improved privacy-utility trade-offs compared to DP-SGD.
翻訳日:2021-08-02 15:09:52 公開日:2021-07-30
# (参考訳) 誰がトマス・ベイズを恐れてる? [全文訳有]

Who's Afraid of Thomas Bayes? ( http://arxiv.org/abs/2107.14601v1 )

ライセンス: CC BY-SA 4.0
Erick Galinkin(参考訳) 多くの場合、ニューラルネットワークはテストデータでうまく機能するが、分散データに対する自信を過大評価する傾向がある。 これによりベイズニューラルネットワークが採用され、不確実性を捉え、モデルの信頼性をより正確に反映する。 機械学習のセキュリティ研究者にとって、これはモデルベイジアンがモデルのセキュリティにどのように影響するかという自然な疑問を提起する。 本研究では,ベイジアン主義とセキュリティの2つの尺度,モデルプライバシと敵対的ロバストネスの相互作用を考察する。 ベイズ型ニューラルネットワークは,一般のメンバシップ推論攻撃に対して脆弱であるが,少なくとも非ベイズ型ニューラルネットワークと同等の堅牢性を示す。

In many cases, neural networks perform well on test data, but tend to overestimate their confidence on out-of-distribution data. This has led to adoption of Bayesian neural networks, which better capture uncertainty and therefore more accurately reflect the model's confidence. For machine learning security researchers, this raises the natural question of how making a model Bayesian affects the security of the model. In this work, we explore the interplay between Bayesianism and two measures of security: model privacy and adversarial robustness. We demonstrate that Bayesian neural networks are more vulnerable to membership inference attacks in general, but are at least as robust as their non-Bayesian counterparts to adversarial examples.
翻訳日:2021-08-02 15:00:35 公開日:2021-07-30
# (参考訳) 科学における不一致の測定

Measuring Disagreement in Science ( http://arxiv.org/abs/2107.14641v1 )

ライセンス: CC BY 4.0
Wout S. Lamers (1), Kevin Boyack (2), Vincent Larivi\`ere (3), Cassidy R. Sugimoto (4), Nees Jan van Eck (1), Ludo Waltman (1), Dakota Murray (4) ((1) Centre for Science and Technology Studies, Leiden University, Leiden, Netherlands, (2) SciTech Strategies, Inc., Albuquerque, NM, USA, (3) \'Ecole de biblioth\'economie et des sciences de l'information, Universit\'e de Montr\'eal, Canada, (4) School of Informatics, Computing, and Engineering, Indiana University Bloomington, IN, USA)(参考訳) 診断は科学的進歩に不可欠である。 しかし、科学における意見の相違の程度、時間の経過とともに進化し、それが起こる分野はほとんど不明である。 科学論文の膨大なコレクションを活用して,400万以上の学術論文にまたがる不一致の引用の事例を識別する手法を開発した。 この手法を用いて,2000~2015年における科学分野間の不一致の指標を構築した。 ブラックボックステキスト分類法とは対照的に,我々のフレームワークは透明で容易に解釈できる。 我々は、社会科学に高い意見の相違、物理学と数学に低い意見の相違の相違を明らかにした。 しかし、詳細な学際分析により、サブフィールド間の異質性が示され、地域学際文化の重要性と不一致の認識的特徴が明らかになった。 論文レベルの分析は、科学における不一致の顕著なエピソードを明らかにし、いかに方法論的アーティファクトが科学的テクストの分析を組み合わせるかを説明している。 これらの発見は、意見の不一致のより広範な理解に寄与し、科学的進歩の根底にある重要な過程を理解するための将来の研究の基礎を確立する。

Disagreement is essential to scientific progress. However, the extent of disagreement in science, its evolution over time, and the fields in which it happens, remains largely unknown. Leveraging a massive collection of scientific texts, we develop a cue-phrase based approach to identify instances of disagreement citations across more than four million scientific articles. Using this method, we construct an indicator of disagreement across scientific fields over the 2000-2015 period. In contrast with black-box text classification methods, our framework is transparent and easily interpretable. We reveal a disciplinary spectrum of disagreement, with higher disagreement in the social sciences and lower disagreement in physics and mathematics. However, detailed disciplinary analysis demonstrates heterogeneity across sub-fields, revealing the importance of local disciplinary cultures and epistemic characteristics of disagreement. Paper-level analysis reveals notable episodes of disagreement in science, and illustrates how methodological artefacts can confound analyses of scientific texts. These findings contribute to a broader understanding of disagreement and establish a foundation for future research to understanding key processes underlying scientific progress.
翻訳日:2021-08-02 14:52:16 公開日:2021-07-30
# (参考訳) DadaGP:シーケンスモデルのためのTokenized GuitarProのデータセット [全文訳有]

DadaGP: A Dataset of Tokenized GuitarPro Songs for Sequence Models ( http://arxiv.org/abs/2107.14653v1 )

ライセンス: CC BY 4.0
Pedro Sarmento, Adarsh Kumar, CJ Carr, Zack Zukowski, Mathieu Barthet, Yi-Hsuan Yang(参考訳) デジタル時代のルネッサンスと急成長を起源とするタブラチュアは、ピッチではなく楽器の指の明示的な表現を提供する、一般的に使用される音楽表記システムである。 GuitarProは、音楽の練習、学習、作曲のための曲の編集と共有を可能にする、広く使われている表形式とソフトウェアとして確立されている。 本稿では,739種類の音楽ジャンルをカバーするギタープロ形式の26,181曲からなる新たなシンボリック・ミュージック・データセットdadagpと,トランスフォーマなどの生成シーケンスモデルに適したトークン化されたフォーマットを提案する。 トークン化されたフォーマットは、しばしばシンボリック音楽生成モデルで使用されるイベントベースのMIDIエンコーディングにインスパイアされている。 データセットは、GuitarProファイルをトークンとバックに変換するエンコーダ/デコーダでリリースされる。 本稿では,DadaGPを用いてトランスフォーマーモデルを用いてGuitarProフォーマットで新しい曲を生成するユースケースについて述べる。 データセットの他の関連するユースケース(guitar-bass transcription, music style transfer, artist/genre classification)と倫理的意味合いについて論じる。 DadaGPは、GuitarProスコアジェネレータのトレーニング、カスタムデータによる微調整モデルの作成、新しいスタイルの音楽作成、AIによる曲書きアプリ、人間とAIの即興性などを可能にする。

Originating in the Renaissance and burgeoning in the digital era, tablatures are a commonly used music notation system which provides explicit representations of instrument fingerings rather than pitches. GuitarPro has established itself as a widely used tablature format and software enabling musicians to edit and share songs for musical practice, learning, and composition. In this work, we present DadaGP, a new symbolic music dataset comprising 26,181 song scores in the GuitarPro format covering 739 musical genres, along with an accompanying tokenized format well-suited for generative sequence models such as the Transformer. The tokenized format is inspired by event-based MIDI encodings, often used in symbolic music generation models. The dataset is released with an encoder/decoder which converts GuitarPro files to tokens and back. We present results of a use case in which DadaGP is used to train a Transformer-based model to generate new songs in GuitarPro format. We discuss other relevant use cases for the dataset (guitar-bass transcription, music style transfer and artist/genre classification) as well as ethical implications. DadaGP opens up the possibility to train GuitarPro score generators, fine-tune models on custom data, create new styles of music, AI-powered songwriting apps, and human-AI improvisation.
翻訳日:2021-08-02 14:51:10 公開日:2021-07-30
# (参考訳) TOF-Stereo核融合に基づく高分解能深度マップ [全文訳有]

High-Resolution Depth Maps Based on TOF-Stereo Fusion ( http://arxiv.org/abs/2107.14688v1 )

ライセンス: CC BY 4.0
Vineet Gandhi, Jan Cech and Radu Horaud(参考訳) レンジセンサーとカラーカメラの組み合わせは、ロボットのナビゲーション、意味認識、操作、テレプレゼンスに非常に有用である。 レンジデータとカラーデータを組み合わせるいくつかの手法が研究され、様々なロボット応用に成功している。 これらのシステムの多くは、現在のレンジセンサーの解像度がカラーカメラの解像度よりもはるかに少ないため、レンジセンサとカラーカメラの間のレンジデータと解像度ミスマッチのノイズに悩まされている。 高分解能深度マップはステレオマッチングを使って得られるが、弱い/繰り返しテクスチャー化されたシーンの正確な深度マップを構築するのに失敗する場合が多い。 距離センサはテクスチャの有無に関わらず粗い奥行き情報を提供する。 tof(time-of-flight)カメラとステレオカメラペアで構成される校正システムを使用することで、それぞれのセンサーの弱点を克服するデータ融合が可能になる。 ステレオ画像対に投影されたTOFデータを初期対応集合として利用する,効率的なシード成長アルゴリズムに基づく新しいTOFステレオ融合法を提案する。 これらの初期「種子」は、画像類似度スコアと低解像度レンジデータから計算された粗い深さ先行値を組み合わせたベイズモデルに基づいて伝播される。 全体的な結果は、目の前のカラーカメラの解像度の密度と正確な深度マップである。 提案手法は2次元画像に基づくステレオアルゴリズムよりも優れており,その結果は市販のカラーレンジセンサ,例えばkinectよりも高い解像度を示す。 さらに、このアルゴリズムは単一のcpu上でリアルタイム性能を示す可能性がある。

The combination of range sensors with color cameras can be very useful for robot navigation, semantic perception, manipulation, and telepresence. Several methods of combining range- and color-data have been investigated and successfully used in various robotic applications. Most of these systems suffer from the problems of noise in the range-data and resolution mismatch between the range sensor and the color cameras, since the resolution of current range sensors is much less than the resolution of color cameras. High-resolution depth maps can be obtained using stereo matching, but this often fails to construct accurate depth maps of weakly/repetitively textured scenes, or if the scene exhibits complex self-occlusions. Range sensors provide coarse depth information regardless of presence/absence of texture. The use of a calibrated system, composed of a time-of-flight (TOF) camera and of a stereoscopic camera pair, allows data fusion thus overcoming the weaknesses of both individual sensors. We propose a novel TOF-stereo fusion method based on an efficient seed-growing algorithm which uses the TOF data projected onto the stereo image pair as an initial set of correspondences. These initial "seeds" are then propagated based on a Bayesian model which combines an image similarity score with rough depth priors computed from the low-resolution range data. The overall result is a dense and accurate depth map at the resolution of the color cameras at hand. We show that the proposed algorithm outperforms 2D image-based stereo algorithms and that the results are of higher resolution than off-the-shelf color-range sensors, e.g., Kinect. Moreover, the algorithm potentially exhibits real-time performance on a single CPU.
翻訳日:2021-08-02 14:36:22 公開日:2021-07-30
# (参考訳) 宇宙から貧困を見れば、いくら調整できるのか? [全文訳有]

Seeing poverty from space, how much can it be tuned? ( http://arxiv.org/abs/2107.14700v1 )

ライセンス: CC BY 4.0
Tomas Sako, Arturo Jr M. Martinez(参考訳) 2015年に国連が持続可能な開発目標(sdg)を策定して以来、多くの大学、ngo、その他の組織が、世界の進歩を監視するツールの開発を試みてきた。 地球観測技術、データサイエンス、人工知能の出現といった分野の進歩によって、多くの研究チームがSDGターゲットの実装の脆弱性を強調し、追跡するための革新的なツールを開発してきた。 本稿では, 組織的関連がなく, 共通ハードウェア, 公開データセット, クラウドベースのコンピューティングサービスのみを備えた個人が, 特定の農業生態学環境における地域貧困レベルを予測するための機械学習に基づくアプローチの予測改善に寄与できることを実証する。 このアプローチは、ディープラーニングによる貧困のマッピングに関する過去5年間のいくつかの先駆的な取り組みに基づいて、特定の文脈における貧困の発生と特徴を結びつけるために、現場から衛星画像と「地底」データを処理している。 このアプローチでは、モデル化結果の最適化と精度向上のために、新たなオブジェクト識別手法を採用している。 このプロジェクトの主な目的は、市民科学者、学生、組織が他の分野の手法を複製できるように、無料で利用可能なリソースを使用することで、コストを可能な限り低くすることであった。 さらに、簡易化のため、使用する入力データはほんの一握りのソース(地球観測と人口頭数のみを含む)から派生した。 このプロジェクトの結果は、ソーシャルネットワーク、携帯電話プロバイダー、その他のソースからの独自データの統合によって、さらに強化される可能性がある。

Since the United Nations launched the Sustainable Development Goals (SDG) in 2015, numerous universities, NGOs and other organizations have attempted to develop tools for monitoring worldwide progress in achieving them. Led by advancements in the fields of earth observation techniques, data sciences and the emergence of artificial intelligence, a number of research teams have developed innovative tools for highlighting areas of vulnerability and tracking the implementation of SDG targets. In this paper we demonstrate that individuals with no organizational affiliation and equipped only with common hardware, publicly available datasets and cloud-based computing services can participate in the improvement of predicting machine-learning-bas ed approaches to predicting local poverty levels in a given agro-ecological environment. The approach builds upon several pioneering efforts over the last five years related to mapping poverty by deep learning to process satellite imagery and "ground-truth" data from the field to link features with incidence of poverty in a particular context. The approach employs new methods for object identification in order to optimize the modeled results and achieve significantly high accuracy. A key goal of the project was to intentionally keep costs as low as possible - by using freely available resources - so that citizen scientists, students and organizations could replicate the method in other areas of interest. Moreover, for simplicity, the input data used were derived from just a handful of sources (involving only earth observation and population headcounts). The results of the project could therefore certainly be strengthened further through the integration of proprietary data from social networks, mobile phone providers, and other sources.
翻訳日:2021-08-02 14:23:11 公開日:2021-07-30
# (参考訳) 説明生成による気候科学の自動クレームレビュー [全文訳有]

Automatic Claim Review for Climate Science via Explanation Generation ( http://arxiv.org/abs/2107.14740v1 )

ライセンス: CC BY 4.0
Shraey Bhatia, Jey Han Lau, Timothy Baldwin(参考訳) 人間による気候変動に関する科学的なコミュニティはユニゾンがある。 それにもかかわらず、webには気候変動懐疑論に関する主張が溢れており、事実チェックの必要性は高まっているが、同時に事実チェックの説明と正当化を提供している。 科学者や専門家は、これらの主張に対して手書きのフィードバックを提供することで、この問題に対処しようとしています。 本稿では,外部知識から抽出したサポートパスを付加したデコーダの融合処理において,オープンドメイン質問応答に使用されるアプローチを展開させることにより,クレームの予測精度ラベルに対する説明の自動生成を試みている。 私たちは、異なる知識ソース、レトリバー、レトリバーの深さで実験し、少数の高品質な手作業による説明でさえ、良い説明を生み出すのに役立つことを証明します。

There is unison is the scientific community about human induced climate change. Despite this, we see the web awash with claims around climate change scepticism, thus driving the need for fact checking them but at the same time providing an explanation and justification for the fact check. Scientists and experts have been trying to address it by providing manually written feedback for these claims. In this paper, we try to aid them by automating generating explanation for a predicted veracity label for a claim by deploying the approach used in open domain question answering of a fusion in decoder augmented with retrieved supporting passages from an external knowledge. We experiment with different knowledge sources, retrievers, retriever depths and demonstrate that even a small number of high quality manually written explanations can help us in generating good explanations.
翻訳日:2021-08-02 14:16:06 公開日:2021-07-30
# (参考訳) グローバル$TGV$最小化によるコア外表面再構成 [全文訳有]

Out-of-Core Surface Reconstruction via Global $TGV$ Minimization ( http://arxiv.org/abs/2107.14790v1 )

ライセンス: CC BY 4.0
Nikolai Poliarnyi(参考訳) 本稿では,一組のアライメント深度マップから表面再構成のためのコア外変分法を提案する。 入力深度マップは、通常の写真や/または地上のLIDAR点雲から再構成されるはずである。 当社のアプローチは, 可視性に基づくノイズフィルタリング特性とGPUフレンドリ性により, 全一般化変分最小化(TGV$)による表面再構成に基づいている。 我々の主な貢献は、スケールの多様性を伴う任意の大きさの現実世界のシーンを扱える、この数値アルゴリズムのコア外OpenCL加速適応である。

We present an out-of-core variational approach for surface reconstruction from a set of aligned depth maps. Input depth maps are supposed to be reconstructed from regular photos or/and can be a representation of terrestrial LIDAR point clouds. Our approach is based on surface reconstruction via total generalized variation minimization ($TGV$) because of its strong visibility-based noise-filtering properties and GPU-friendliness. Our main contribution is an out-of-core OpenCL-accelerated adaptation of this numerical algorithm which can handle arbitrarily large real-world scenes with scale diversity.
翻訳日:2021-08-02 14:00:53 公開日:2021-07-30
# (参考訳) 強化メタ学習による超音速グライダーの適応的アプローチ位相誘導 [全文訳有]

Adaptive Approach Phase Guidance for a Hypersonic Glider via Reinforcement Meta Learning ( http://arxiv.org/abs/2107.14764v1 )

ライセンス: CC BY 4.0
Brian Gaudet, Kris Drozd, Ryan Meltzer, Roberto Furfaro(参考訳) 我々は強化メタ学習を用いて、滑空超音速車両の接近位相に適した適応誘導システムを最適化する。 適応性は、空力係数パラメータの摂動、アクチュエータ故障シナリオ、センサノイズを含む、オフ・ノーミナルな飛行条件を最適化することで達成される。 システムは、直接観察を、指示された銀行の角度と攻撃率の角度にマッピングする。 これらの観測には、平行航法を用いて定式化された速度場追跡誤差が含まれるが、地球の曲率を考慮した長い軌道上での動作に適応している。 トラッキングエラーの最小化は、車両の速度ベクトルと一致した目標位置への視界の湾曲した空間線を維持する。 最適化された誘導システムは、加熱速度、負荷、動的圧力の制約を満たしながら、指定された終端速度で高い精度で車両を目標位置に導く軌道を誘導する。 最適化時に経験しない飛行条件をテストすることにより,誘導システムの適応性を示す。 次に、誘導系の性能を最適軌道を追跡する線形二次規制器の性能と比較する。

We use Reinforcement Meta Learning to optimize an adaptive guidance system suitable for the approach phase of a gliding hypersonic vehicle. Adaptability is achieved by optimizing over a range of off-nominal flight conditions including perturbation of aerodynamic coefficient parameters, actuator failure scenarios, and sensor noise. The system maps observations directly to commanded bank angle and angle of attack rates. These observations include a velocity field tracking error formulated using parallel navigation, but adapted to work over long trajectories where the Earth's curvature must be taken into account. Minimizing the tracking error keeps the curved space line of sight to the target location aligned with the vehicle's velocity vector. The optimized guidance system will then induce trajectories that bring the vehicle to the target location with a high degree of accuracy at the designated terminal speed, while satisfying heating rate, load, and dynamic pressure constraints. We demonstrate the adaptability of the guidance system by testing over flight conditions that were not experienced during optimization. The guidance system's performance is then compared to that of a linear quadratic regulator tracking an optimal trajectory.
翻訳日:2021-08-02 13:44:35 公開日:2021-07-30
# 外周誘導協調適応による注視推定の一般化

Generalizing Gaze Estimation with Outlier-guided Collaborative Adaptation ( http://arxiv.org/abs/2107.13780v2 )

ライセンス: Link先を確認
Yunfei Liu, Ruicong Liu, Haofei Wang, Feng Lu(参考訳) ディープニューラルネットワークは外観に基づく視線推定精度を大幅に改善した。 しかし、訓練されたモデルを新しいドメイン(例えば、見えない環境や人)に一般化する場合、まだ不十分なパフォーマンスに苦しむ。 本稿では,外乱の誘導と協調して学習するネットワークの集合体であるPnP-GAを提案する。 提案手法では対象領域の基底ラベルを必要としないため,既存の視線推定ネットワークをpnp-gaに直接接続し,アルゴリズムを新たな領域に一般化することができる。 PnP-GAは、ETH-to-MPII、ETH-to-EyeDiap、Gaze360-to-MPII、Gaze360-to-EyeDiapの4つの視線領域適応タスクでテストする。 実験の結果,pnp-gaフレームワークの性能改善は36.9%,31.6%,19.4%,11 .8%であった。 提案するフレームワークは、視線領域適応タスクにおける最先端のドメイン適応アプローチよりも優れている。

Deep neural networks have significantly improved appearance-based gaze estimation accuracy. However, it still suffers from unsatisfactory performance when generalizing the trained model to new domains, e.g., unseen environments or persons. In this paper, we propose a plug-and-play gaze adaptation framework (PnP-GA), which is an ensemble of networks that learn collaboratively with the guidance of outliers. Since our proposed framework does not require ground-truth labels in the target domain, the existing gaze estimation networks can be directly plugged into PnP-GA and generalize the algorithms to new domains. We test PnP-GA on four gaze domain adaptation tasks, ETH-to-MPII, ETH-to-EyeDiap, Gaze360-to-MPII, and Gaze360-to-EyeDiap. The experimental results demonstrate that the PnP-GA framework achieves considerable performance improvements of 36.9%, 31.6%, 19.4%, and 11.8% over the baseline system. The proposed framework also outperforms the state-of-the-art domain adaptation approaches on gaze domain adaptation tasks.
翻訳日:2021-08-02 13:13:07 公開日:2021-07-30
# 競合制御

Competitive Control ( http://arxiv.org/abs/2107.13657v2 )

ライセンス: Link先を確認
Gautam Goel and Babak Hassibi(参考訳) 我々は競争分析の観点から制御を考える。 学習に基づく制御に関するこれまでの多くの研究とは異なり、特定のクラスから選択された最高のコントローラに対する後悔を最小限に抑えることに重点を置いている。 この設定における自然なパフォーマンス指標は競合比であり、これはオンラインコントローラが負担するコストとオフラインの最適コントローラが負担するコストの比率である。 頑健な制御から演算子理論手法を用いることで、有限水平および無限水平両方の最適競合比を持つ制御器の計算効率の良い状態空間記述を導出する。 我々は,モデル予測制御(MPC)を用いて非線形システムに競争制御を拡張し,MPC設定の標準的な$H_2$と$H_{\infty}$コントローラを大幅に上回ることを示す数値実験を行った。

We consider control from the perspective of competitive analysis. Unlike much prior work on learning-based control, which focuses on minimizing regret against the best controller selected in hindsight from some specific class, we focus on designing an online controller which competes against a clairvoyant offline optimal controller. A natural performance metric in this setting is competitive ratio, which is the ratio between the cost incurred by the online controller and the cost incurred by the offline optimal controller. Using operator-theoretic techniques from robust control, we derive a computationally efficient state-space description of the the controller with optimal competitive ratio in both finite-horizon and infinite-horizon settings. We extend competitive control to nonlinear systems using Model Predictive Control (MPC) and present numerical experiments which show that our competitive controller can significantly outperform standard $H_2$ and $H_{\infty}$ controllers in the MPC setting.
翻訳日:2021-08-02 13:12:50 公開日:2021-07-30
# 超アプリケーション環境における不正検出のための関係グラフニューラルネットワーク

Relational Graph Neural Networks for Fraud Detection in a Super-App environment ( http://arxiv.org/abs/2107.13673v2 )

ライセンス: Link先を確認
Jaime D. Acevedo-Viloria, Luisa Roa, Soji Adeshina, Cesar Charalla Olazo, Andr\'es Rodr\'iguez-Rey, Jose Alberto Ramos, Alejandro Correa-Bahnsen(参考訳) 大規模なデジタルプラットフォームは、さまざまなタイプのユーザインタラクションをキャプチャする環境を作成し、これらの関係は不正検出問題に対する新たな情報源を提供する。 本稿では,スーパーアプリケーションの金融サービスにおける不正行為防止のための関係グラフ畳み込みネットワーク手法の枠組みを提案する。 この目的のために,我々はこのフレームワークを,ユーザ,デバイス,クレジットカードの異なる異種グラフに適用し,最終的にグラフニューラルネットワークの解釈可能性アルゴリズムを用いて,ユーザの分類タスクに最も重要な関係性を決定する。 以上の結果から,スーパーアプリの代替データと,それらの高い接続性にあるインタラクションを利用するモデルを考えると,さらに価値が増すことが示され,より優れた意思決定や不正検出戦略に活用できることを示す。

Large digital platforms create environments where different types of user interactions are captured, these relationships offer a novel source of information for fraud detection problems. In this paper we propose a framework of relational graph convolutional networks methods for fraudulent behaviour prevention in the financial services of a Super-App. To this end, we apply the framework on different heterogeneous graphs of users, devices, and credit cards; and finally use an interpretability algorithm for graph neural networks to determine the most important relations to the classification task of the users. Our results show that there is an added value when considering models that take advantage of the alternative data of the Super-App and the interactions found in their high connectivity, further proofing how they can leverage that into better decisions and fraud detection strategies.
翻訳日:2021-08-02 13:12:33 公開日:2021-07-30
# trusted-maximizers entropy search によるベイズ最適化

Trusted-Maximizers Entropy Search for Efficient Bayesian Optimization ( http://arxiv.org/abs/2107.14465v1 )

ライセンス: Link先を確認
Quoc Phong Nguyen, Zhaoxuan Wu, Bryan Kian Hsiang Low, Patrick Jaillet(参考訳) 情報ベースベイズ最適化(bo)アルゴリズムはブラックボックス目的関数の最適化において最先端の性能を達成している。 しかし、通常はいくつかの近似や仮定(BOのパフォーマンスに対する効果を明確に理解せずに)を単純化することや、バッチBOへの一般化は、特にバッチサイズが増大するにつれて計算が困難になる。 そこで本稿では,これらの課題を緩和するために,信頼度最大化器の有限集合上の情報ゲインに入力クエリがどの程度寄与するか,すなわち,目的関数のガウス過程の後方信念からサンプリングされた最適化関数の入力を計測する,信頼度最大化エントロピー探索(tes)獲得関数を提案する。 TESを評価するには、サンプリングによる確率的近似と予測伝播による決定論的近似のいずれかが必要であり、どちらも合成ベンチマーク目的関数と畳み込みニューラルネットワークのハイパーパラメータチューニングや「物理的に実現可能な」顔を合成してブラックボックスの顔認識システムを騙すような実世界の最適化問題を用いて調査および実証的に評価されている。 TESはいずれの近似でもバッチ変種に自然に一般化できるが、後者は我々の実験ではもっと大きなバッチサイズにスケールできる。

Information-based Bayesian optimization (BO) algorithms have achieved state-of-the-art performance in optimizing a black-box objective function. However, they usually require several approximations or simplifying assumptions (without clearly understanding their effects on the BO performance) and/or their generalization to batch BO is computationally unwieldy, especially with an increasing batch size. To alleviate these issues, this paper presents a novel trusted-maximizers entropy search (TES) acquisition function: It measures how much an input query contributes to the information gain on the maximizer over a finite set of trusted maximizers, i.e., inputs optimizing functions that are sampled from the Gaussian process posterior belief of the objective function. Evaluating TES requires either only a stochastic approximation with sampling or a deterministic approximation with expectation propagation, both of which are investigated and empirically evaluated using synthetic benchmark objective functions and real-world optimization problems, e.g., hyperparameter tuning of a convolutional neural network and synthesizing 'physically realizable' faces to fool a black-box face recognition system. Though TES can naturally be generalized to a batch variant with either approximation, the latter is amenable to be scaled to a much larger batch size in our experiments.
翻訳日:2021-08-02 13:12:20 公開日:2021-07-30
# ManiSkill: 汎用的なマニピュレーションスキルのための実証から学ぶベンチマーク

ManiSkill: Learning-from-Demons trations Benchmark for Generalizable Manipulation Skills ( http://arxiv.org/abs/2107.14483v1 )

ライセンス: Link先を確認
Tongzhou Mu, Zhan Ling, Fanbo Xiang, Derek Yang, Xuanlin Li, Stone Tao, Zhiao Huang, Zhiwei Jia, Hao Su(参考訳) 汎用的な操作スキルの習得は、無限のシーンとオブジェクトのバリエーションを持つ環境でタスク自動化を実現するための中心となる。 しかし、既存のロボット学習環境は3Dアセットのスケールと多様性の両方に制限されており、新しい物体に対するエージェントの一般化能力を訓練し評価することは困難である。 本研究では,オブジェクトレベルの一般化に焦点をあて,視覚的入力(ポイントクラウドとイメージ)を用いたオブジェクト操作のための大規模学習証明ベンチマークであるSAPIEN Manipulation Skill Benchmark(ManiSkill) を提案する。 ManiSkillは、リッチで多様な調音オブジェクトセットを利用することで、オブジェクトレベルのバリエーションをサポートし、各タスクは、単一のカテゴリのオブジェクトに対する操作の学習のために慎重に設計されている。 maniskill と高品質のデモンストレーションを組み合わせることで,学習から学習へのアプローチを促進し,一般的なベースラインアルゴリズムで評価を行う。 ManiSkillは、ロボット学習コミュニティに対して、汎用的なオブジェクト操作スキルの学習をさらに促進できると考えている。

Learning generalizable manipulation skills is central for robots to achieve task automation in environments with endless scene and object variations. However, existing robot learning environments are limited in both scale and diversity of 3D assets (especially of articulated objects), making it difficult to train and evaluate the generalization ability of agents over novel objects. In this work, we focus on object-level generalization and propose SAPIEN Manipulation Skill Benchmark (abbreviated as ManiSkill), a large-scale learning-from-demons trations benchmark for articulated object manipulation with visual input (point cloud and image). ManiSkill supports object-level variations by utilizing a rich and diverse set of articulated objects, and each task is carefully designed for learning manipulations on a single category of objects. We equip ManiSkill with high-quality demonstrations to facilitate learning-from-demons trations approaches and perform evaluations on common baseline algorithms. We believe ManiSkill can encourage the robot learning community to explore more on learning generalizable object manipulation skills.
翻訳日:2021-08-02 13:11:56 公開日:2021-07-30
# perceiver io: 構造化入力と出力のための汎用アーキテクチャ

Perceiver IO: A General Architecture for Structured Inputs & Outputs ( http://arxiv.org/abs/2107.14795v1 )

ライセンス: Link先を確認
Andrew Jaegle and Sebastian Borgeaud and Jean-Baptiste Alayrac and Carl Doersch and Catalin Ionescu and David Ding and Skanda Koppula and Andrew Brock and Evan Shelhamer and Olivier H\'enaff and Matthew M. Botvinick and Andrew Zisserman and Oriol Vinyals and Jo\~ao Carreira(参考訳) 最近提案されたPerceiverモデルは、いくつかの領域(画像、オーディオ、マルチモーダル、ポイントクラウド)で良い結果を得ると同時に、入力サイズで計算とメモリで線形にスケールする。 Perceiverは多くの種類の入力をサポートしているが、クラススコアのような非常に単純な出力しか生成できない。 Perceiver IOは、任意のサイズとセマンティクスの出力を生成するために、モデルの潜在空間を柔軟に問い合わせることを学ぶことで、オリジナルの魅力を犠牲にすることなく、この制限を克服する。 Perceiver IOは依然としてモデル深さをデータサイズから切り離し、データサイズと線形にスケールするが、現在では入力サイズと出力サイズの両方でスケールしている。 完全なperceiver ioモデルでは、自然言語や視覚理解、starcraft ii、マルチタスクやマルチモーダルドメインなど、高度に構造化された出力空間を持つタスクで強い結果が得られる。 強調されているように、Perceiver IOは入力トークン化を必要とせず、GLUE言語ベンチマーク上のTransformerベースのBERTベースラインと一致し、シンテル光フロー推定における最先端のパフォーマンスを達成する。

The recently-proposed Perceiver model obtains good results on several domains (images, audio, multimodal, point clouds) while scaling linearly in compute and memory with the input size. While the Perceiver supports many kinds of inputs, it can only produce very simple outputs such as class scores. Perceiver IO overcomes this limitation without sacrificing the original's appealing properties by learning to flexibly query the model's latent space to produce outputs of arbitrary size and semantics. Perceiver IO still decouples model depth from data size and still scales linearly with data size, but now with respect to both input and output sizes. The full Perceiver IO model achieves strong results on tasks with highly structured output spaces, such as natural language and visual understanding, StarCraft II, and multi-task and multi-modal domains. As highlights, Perceiver IO matches a Transformer-based BERT baseline on the GLUE language benchmark without the need for input tokenization and achieves state-of-the-art performance on Sintel optical flow estimation.
翻訳日:2021-08-02 13:11:38 公開日:2021-07-30
# emailsum: 抽象電子メールスレッドの要約

EmailSum: Abstractive Email Thread Summarization ( http://arxiv.org/abs/2107.14691v1 )

ライセンス: Link先を確認
Shiyue Zhang, Asli Celikyilmaz, Jianfeng Gao, Mohit Bansal(参考訳) 近年,会話スレッド(食事,オンラインディスカッションなど)の要約という課題への関心が高まっている。 このような要約は、長いテキストの分析に役立ち、意思決定を素早く追いつき、作業やコミュニケーションの効率を向上します。 スレッド要約の研究を助長するために,多種多様なトピックに対して2549個のメールスレッド(それぞれ3~10個のメールを含む)からなる,人間の注釈付き短文(<30語)と長文(<100語)の要約を含む抽象的メールスレッド要約(EmailSum)データセットを開発した。 我々は,抽出・抽象的手法,単一文書・階層モデル,伝達・半教師あり学習など,様々な要約手法を探索し,短短・長短の要約生成タスクで人的評価を行うための総合的な実証的研究を行った。 提案手法では,送信者の意図を理解し,送信者と受信者の役割を識別するなど,現在の抽象要約モデルの課題を明らかにする。 さらに,このメールスレッド要約タスクにおいて,広範に使用されている自動評価指標(ROUGE,BERTScore)が人間の判断と弱い相関があることが判明した。 そこで我々は,人的評価の重要性と,コミュニティによるより良い指標の開発を強調した。 私たちのコードと要約データは、https://github.com/z hangshiyue/emailsumで入手できます。

Recent years have brought about an interest in the challenging task of summarizing conversation threads (meetings, online discussions, etc.). Such summaries help analysis of the long text to quickly catch up with the decisions made and thus improve our work or communication efficiency. To spur research in thread summarization, we have developed an abstractive Email Thread Summarization (EmailSum) dataset, which contains human-annotated short (<30 words) and long (<100 words) summaries of 2549 email threads (each containing 3 to 10 emails) over a wide variety of topics. We perform a comprehensive empirical study to explore different summarization techniques (including extractive and abstractive methods, single-document and hierarchical models, as well as transfer and semisupervised learning) and conduct human evaluations on both short and long summary generation tasks. Our results reveal the key challenges of current abstractive summarization models in this task, such as understanding the sender's intent and identifying the roles of sender and receiver. Furthermore, we find that widely used automatic evaluation metrics (ROUGE, BERTScore) are weakly correlated with human judgments on this email thread summarization task. Hence, we emphasize the importance of human evaluation and the development of better metrics by the community. Our code and summary data have been made available at: https://github.com/Z hangShiyue/EmailSum
翻訳日:2021-08-02 13:11:17 公開日:2021-07-30
# ChrEnTranslate: 品質推定と修正フィードバックを備えたチェロキー英語機械翻訳デモ

ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality Estimation and Corrective Feedback ( http://arxiv.org/abs/2107.14800v1 )

ライセンス: Link先を確認
Shiyue Zhang, Benjamin Frey, Mohit Bansal(参考訳) ChrEnTranslateは、英語と絶滅危惧言語であるチェロキー語を翻訳するオンライン機械翻訳実証システムである。 統計モデルとニューラル翻訳モデルの両方をサポートし、信頼性をユーザに知らせる品質推定、専門家と一般ユーザのための2つのユーザフィードバックインターフェース、モノリンガルデータのための人間の翻訳を収集する入力、単語のアライメントの可視化、チェロキー英語辞典からの関連用語を提供する。 定量的評価は, バックボーン翻訳モデルが最先端の翻訳性能を達成し, 品質推定はbleuと人間の判断とよく相関することを示した。 216個の専門家フィードバックを解析することにより、NMTはSMTよりコピーが少ないため、現在のモデルでは、ソース文の断片を翻訳できるが、大きな誤りを犯すことができる。 トレーニングセットとリトレーニングモデルにこれら216のエキスパート修正並列テキストを追加すると、同等あるいはわずかにパフォーマンスが向上し、ループ内学習の可能性を示す。 私たちのコードはhttps://github.com/Z hangShiyue/ChrEnTran slateで、データはhttps://github.com/Z hangShiyue/ChrEnで公開されています。

We introduce ChrEnTranslate, an online machine translation demonstration system for translation between English and an endangered language Cherokee. It supports both statistical and neural translation models as well as provides quality estimation to inform users of reliability, two user feedback interfaces for experts and common users respectively, example inputs to collect human translations for monolingual data, word alignment visualization, and relevant terms from the Cherokee-English dictionary. The quantitative evaluation demonstrates that our backbone translation models achieve state-of-the-art translation performance and our quality estimation well correlates with both BLEU and human judgment. By analyzing 216 pieces of expert feedback, we find that NMT is preferable because it copies less than SMT, and, in general, current models can translate fragments of the source sentence but make major mistakes. When we add these 216 expert-corrected parallel texts into the training set and retrain models, equal or slightly better performance is observed, which demonstrates indicates the potential of human-in-the-loop learning. Our online demo is at https://chren.cs.unc .edu/; our code is open-sourced at https://github.com/Z hangShiyue/ChrEnTran slate; and our data is available at https://github.com/Z hangShiyue/ChrEn.
翻訳日:2021-08-02 13:10:53 公開日:2021-07-30
# Regression Networksによるパワフルで解釈可能なモデルの作成

Creating Powerful and Interpretable Models withRegression Networks ( http://arxiv.org/abs/2107.14417v1 )

ライセンス: Link先を確認
Lachlan O'Neill, Simon Angus, Satya Borgohain, Nader Chmait, David L. Dowe(参考訳) 分野が発展するにつれて、機械学習の研究は、これらのネットワークの解釈可能性に拘わらず、より強力なニューラルネットワークの構築にますます焦点が当てられている。 このような「ブラックボックスモデル」は最先端の結果をもたらすが、なぜ特定の決定や予測を行うのかは理解できない。 時には受け入れられるが、そうでない場合も多い。 本稿では,ニューラルネットワークのパワーと回帰解析の理解可能性を組み合わせた,新しいアーキテクチャである回帰ネットワークを提案する。 これらを結合するためのいくつかの方法は文献に存在しているが、我々のアーキテクチャは相互作用を考慮してこれらのアプローチを一般化し、解釈可能性を禁ずることなく密集したニューラルネットワークのパワーを提供する。 これらのモデルが,高密度ニューラルネットワークのパワーと一致するように,いくつかのベンチマークデータセット上での解釈可能なモデルの最先端性能を上回ることを示した。 最後に、これらの手法を畳み込みや繰り返しニューラルネットワークなどの他のニューラルネットワークに一般化する方法について議論する。

As the discipline has evolved, research in machine learning has been focused more and more on creating more powerful neural networks, without regard for the interpretability of these networks. Such "black-box models" yield state-of-the-art results, but we cannot understand why they make a particular decision or prediction. Sometimes this is acceptable, but often it is not. We propose a novel architecture, Regression Networks, which combines the power of neural networks with the understandability of regression analysis. While some methods for combining these exist in the literature, our architecture generalizes these approaches by taking interactions into account, offering the power of a dense neural network without forsaking interpretability. We demonstrate that the models exceed the state-of-the-art performance of interpretable models on several benchmark datasets, matching the power of a dense neural network. Finally, we discuss how these techniques can be generalized to other neural architectures, such as convolutional and recurrent neural networks.
翻訳日:2021-08-02 13:10:10 公開日:2021-07-30
# DQ-SGD:通信効率の良い分散学習のためのSGDの動的量子化

DQ-SGD: Dynamic Quantization in SGD for Communication-Effici ent Distributed Learning ( http://arxiv.org/abs/2107.14575v1 )

ライセンス: Link先を確認
Guangfeng Yan, Shao-Lun Huang, Tian Lan and Linqi Song(参考訳) グラディエント量子化は、分散学習における通信コストを低減する新しい手法である。 既存の勾配量子化アルゴリズムは、しばしば工学的ヒューリスティックスや経験的観察に依存し、動的に勾配を量子化する体系的なアプローチを欠いている。 本稿では,通信コストと収束誤差のトレードオフを探索することにより,各勾配降下ステップの量子化スキームを動的に調整できる新しい動的量子化SGD(DQ-SGD)フレームワークを提案する。 量子化スキームと損失関数の制限された族に対する収束誤差を、場合によっては上界できつく導出する。 収束誤差制約下での通信コストを最小化してDQ-SGDアルゴリズムを設計する。 最後に,AG-News,CIFAR-10,CI FAR-100データセット上での大規模自然言語処理とコンピュータビジョンタスクの広範な実験を通じて,我々の量子化方式が,他の最先端の勾配量子化手法よりも通信コストと学習性能とのトレードオフを良くすることを示した。

Gradient quantization is an emerging technique in reducing communication costs in distributed learning. Existing gradient quantization algorithms often rely on engineering heuristics or empirical observations, lacking a systematic approach to dynamically quantize gradients. This paper addresses this issue by proposing a novel dynamically quantized SGD (DQ-SGD) framework, enabling us to dynamically adjust the quantization scheme for each gradient descent step by exploring the trade-off between communication cost and convergence error. We derive an upper bound, tight in some cases, of the convergence error for a restricted family of quantization schemes and loss functions. We design our DQ-SGD algorithm via minimizing the communication cost under the convergence error constraints. Finally, through extensive experiments on large-scale natural language processing and computer vision tasks on AG-News, CIFAR-10, and CIFAR-100 datasets, we demonstrate that our quantization scheme achieves better tradeoffs between the communication cost and learning performance than other state-of-the-art gradient quantization methods.
翻訳日:2021-08-02 13:09:53 公開日:2021-07-30
# クラスタリングのための分布自由最適間隔

Distribution free optimality intervals for clustering ( http://arxiv.org/abs/2107.14442v1 )

ライセンス: Link先を確認
Marina Meil\u{a}, Hanyu Zhang(参考訳) 本稿では,クラスタリングアルゴリズムのouputを検証する問題に対処する。 データ$\mathcal{D}$とパーティション$\mathcal{C}$を$K$クラスタにすれば、得られたクラスタがデータに対して正しい、あるいは有意義なものであると言えますか? 本稿では,K-平均歪みなどの損失関数に関して,クラスタリング$\mathcal{C}$が有意義であると考えられるパラダイムを紹介し,安定である。 小さな摂動まで良いクラスタリングしかありません さらに、クラスタリング$\mathcal{C}$に対して、ほぼ最適性および安定性の推論後保証を得るための一般的な方法を提案する。 この方法は凸緩和が存在する様々なクラスタリング基準(損失関数とも呼ばれる)に対してインスタンス化することができる。 保証を得ることは凸最適化問題の解決につながる。 本手法は,現実のデータセット上でk平均と正規化カットクラスタリング基準の保証を得ることにより,実用的妥当性を示す。 また、漸近不安定性は有限標本不安定性w.h.p.を示し、サンプルからの集団クラスター性についての推測を可能にする。 保証は、いかなる分布的仮定にも依存しないが、安定したクラスタリングを許容するデータセット $\mathcal{d}$ に依存する。

We address the problem of validating the ouput of clustering algorithms. Given data $\mathcal{D}$ and a partition $\mathcal{C}$ of these data into $K$ clusters, when can we say that the clusters obtained are correct or meaningful for the data? This paper introduces a paradigm in which a clustering $\mathcal{C}$ is considered meaningful if it is good with respect to a loss function such as the K-means distortion, and stable, i.e. the only good clustering up to small perturbations. Furthermore, we present a generic method to obtain post-inference guarantees of near-optimality and stability for a clustering $\mathcal{C}$. The method can be instantiated for a variety of clustering criteria (also called loss functions) for which convex relaxations exist. Obtaining the guarantees amounts to solving a convex optimization problem. We demonstrate the practical relevance of this method by obtaining guarantees for the K-means and the Normalized Cut clustering criteria on realistic data sets. We also prove that asymptotic instability implies finite sample instability w.h.p., allowing inferences about the population clusterability from a sample. The guarantees do not depend on any distributional assumptions, but they depend on the data set $\mathcal{D}$ admitting a stable clustering.
翻訳日:2021-08-02 13:09:30 公開日:2021-07-30
# T-SVDNet:マルチソースドメイン適応のための高次プロトタイプ相関探索

T-SVDNet: Exploring High-Order Prototypical Correlations for Multi-Source Domain Adaptation ( http://arxiv.org/abs/2107.14447v1 )

ライセンス: Link先を確認
Ruihuang Li, Xu Jia, Jianzhong He, Shuaijun Chen, Qinghua Hu(参考訳) 既存のドメイン適応手法のほとんどは1つのソースドメインからの適応にフォーカスしているが、実際には、ターゲットドメインのパフォーマンスを改善するために活用できる関連するソースが多数存在する。 本稿では,T-SVD(Tensor Singular Value Decomposition)をニューラルネットワークのトレーニングパイプラインに組み込んだマルチソースドメイン適応(MDA)の課題に対処する,T-SVDNetという新しいアプローチを提案する。 全体として、複数のドメインとカテゴリ間の高次相関は、ドメインギャップを埋めるため、完全に検討されている。 具体的には、原型類似性行列群を積み重ねたテンソルにTLR(Tensor-Low-Rank) 制約を課し、異なる領域にまたがる一貫性のあるデータ構造を捉える。 さらに,ノイズ源データによる負の伝達を避けるために,不確かさ推定の結果に基づいて,異なる源領域とサンプルに重みを適応的に割り当てる新しい不確実性認識重み付け戦略を提案する。 MDAの課題に対処する上で,我々のモデルが最先端の手法よりも優れていることを示す。

Most existing domain adaptation methods focus on adaptation from only one source domain, however, in practice there are a number of relevant sources that could be leveraged to help improve performance on target domain. We propose a novel approach named T-SVDNet to address the task of Multi-source Domain Adaptation (MDA), which is featured by incorporating Tensor Singular Value Decomposition (T-SVD) into a neural network's training pipeline. Overall, high-order correlations among multiple domains and categories are fully explored so as to better bridge the domain gap. Specifically, we impose Tensor-Low-Rank (TLR) constraint on a tensor obtained by stacking up a group of prototypical similarity matrices, aiming at capturing consistent data structure across different domains. Furthermore, to avoid negative transfer brought by noisy source data, we propose a novel uncertainty-aware weighting strategy to adaptively assign weights to different source domains and samples based on the result of uncertainty estimation. Extensive experiments conducted on public benchmarks demonstrate the superiority of our model in addressing the task of MDA compared to state-of-the-art methods.
翻訳日:2021-08-02 13:09:05 公開日:2021-07-30
# 深層学習者が考えを変える: アクティブラーニングのための学習ダイナミクス

When Deep Learners Change Their Mind: Learning Dynamics for Active Learning ( http://arxiv.org/abs/2107.14707v1 )

ライセンス: Link先を確認
Javad Zolfaghari Bengar, Bogdan Raducanu, Joost van de Weijer(参考訳) アクティブラーニングは、学習アルゴリズムの最大のパフォーマンス改善をもたらす注釈付きサンプルを選択することを目的としている。 多くの手法がサンプルの情報量を測定し、サンプルのネットワーク予測の確実性に基づいてこの問題にアプローチしている。 しかし、ニューラルネットワークが予測に過度に自信を持っていることはよく知られているので、サンプル情報を評価するには信頼できない情報源である。 本稿では,新しい情報量に基づくアクティブラーニング手法を提案する。 我々の測度はニューラルネットワークの学習力学から導かれる。 より正確には、アルゴリズムのトレーニング中にラベルなしのデータプールのラベル割り当てを追跡する。 ネットワークがネットワークのトレーニング中に同一のラベルを常に標本に割り当てる場合と、割り当てられたラベルが頻繁に変化する場合とでは高い場合とで、ラベル分散と呼ばれるメトリクスを用いて学習ダイナミクスをキャプチャする。 ラベル分散はネットワークの不確実性を予測する有望な予測因子であり,ラベル分散に基づくアクティブ学習アルゴリズムが優れた結果を得るという2つのベンチマークデータセットを示す。

Active learning aims to select samples to be annotated that yield the largest performance improvement for the learning algorithm. Many methods approach this problem by measuring the informativeness of samples and do this based on the certainty of the network predictions for samples. However, it is well-known that neural networks are overly confident about their prediction and are therefore an untrustworthy source to assess sample informativeness. In this paper, we propose a new informativeness-base d active learning method. Our measure is derived from the learning dynamics of a neural network. More precisely we track the label assignment of the unlabeled data pool during the training of the algorithm. We capture the learning dynamics with a metric called label-dispersion, which is low when the network consistently assigns the same label to the sample during the training of the network and high when the assigned label changes frequently. We show that label-dispersion is a promising predictor of the uncertainty of the network, and show on two benchmark datasets that an active learning algorithm based on label-dispersion obtains excellent results.
翻訳日:2021-08-02 13:08:43 公開日:2021-07-30
# 蒸留信号のない小型自己監督コントラストモデルの有効性について

On the Efficacy of Small Self-Supervised Contrastive Models without Distillation Signals ( http://arxiv.org/abs/2107.14762v1 )

ライセンス: Link先を確認
Haizhou Shi, Youcai Zhang, Siliang Tang, Wenjie Zhu, Yaqian Li, Yandong Guo, Yueting Zhuang(参考訳) 自己教師付きコントラスト学習のパラダイムの下では、小さなモデルは非常に良くないという意見の一致である。 既存の手法は通常、知識を知識蒸留によって小さなものに移すために大きなオフ・ザ・シェルフモデルを採用する。 その効果にもかかわらず、蒸留ベースの方法は、大規模なモデルをデプロイする膨大な計算コストのため、リソース制限されたシナリオには適さないかもしれない。 本稿では, 蒸留信号のない自己監督型小型モデルの学習課題について検討する。 まず、小モデルの表現空間を評価し、2つの非無視的な観察を行う: (i)小モデルは、その限られた能力にもかかわらず過度に適合することなく、プリテキストタスクを完了させることができる; (ii)小モデルは、オーバークラスタリングの問題を普遍的に抱える。 次に,過剰クラスタ化現象を緩和すると考えられる複数の仮定を検証する。 最後に, 検証された手法を組み合わせることで, 5つの小アーキテクチャのベースラインをかなりのマージンで改善し, 蒸留信号がなくても, 小型の自己教師付きコントラストモデルの訓練が実現可能であることを示す。

It is a consensus that small models perform quite poorly under the paradigm of self-supervised contrastive learning. Existing methods usually adopt a large off-the-shelf model to transfer knowledge to the small one via knowledge distillation. Despite their effectiveness, distillation-based methods may not be suitable for some resource-restricted scenarios due to the huge computational expenses of deploying a large model. In this paper, we study the issue of training self-supervised small models without distillation signals. We first evaluate the representation spaces of the small models and make two non-negligible observations: (i) small models can complete the pretext task without overfitting despite its limited capacity; (ii) small models universally suffer the problem of over-clustering. Then we verify multiple assumptions that are considered to alleviate the over-clustering phenomenon. Finally, we combine the validated techniques and improve the baseline of five small architectures with considerable margins, which indicates that training small self-supervised contrastive models is feasible even without distillation signals.
翻訳日:2021-08-02 13:08:28 公開日:2021-07-30
# ランダムベクトル関数型ニューラルネットワークによる短期負荷予測のためのアンサンブル深層学習

Random vector functional link neural network based ensemble deep learning for short-term load forecasting ( http://arxiv.org/abs/2107.14385v1 )

ライセンス: Link先を確認
Ruobin Gao, Liang Du, P.N. Suganthan, Qin Zhou, Kum Fai Yuen(参考訳) 電力負荷予測は電力システムの計画と維持に不可欠である。 しかし、その不安定で非線形な特性は将来の需要予測に重大な困難をもたらす。 本稿では,電力負荷予測のための新しいアンサンブル深部ランダムベクトル汎関数リンク(edrvfl)ネットワークを提案する。 隠れた層の重みはランダムに初期化され、トレーニングプロセス中に固定される。 隠れたレイヤは、深い表現学習を強制するために積み重ねられる。 そして、各層の出力をアンサンブルすることで予測を生成する。 さらに,経験的ウェーブレット変換(EWT)によるランダム拡張機能の拡張も提案する。 生の負荷データは、EWTによってウォーキングフォワード形式で分解され、分解プロセスに将来のデータ漏洩問題を生じさせない。 最後に、生データを含むEWTによって生成された全てのサブシリーズを、予測のためにEDRVFLに入力する。 提案モデルは、2020年のオーストラリアのエネルギー市場運営者による20の公的な時系列で評価されている。 シミュレーションの結果,3つの誤差指標および電力負荷予測タスクに関する統計的テストにおいて,11種類の予測手法よりも優れた性能を示した。

Electricity load forecasting is crucial for the power systems' planning and maintenance. However, its un-stationary and non-linear characteristics impose significant difficulties in anticipating future demand. This paper proposes a novel ensemble deep Random Vector Functional Link (edRVFL) network for electricity load forecasting. The weights of hidden layers are randomly initialized and kept fixed during the training process. The hidden layers are stacked to enforce deep representation learning. Then, the model generates the forecasts by ensembling the outputs of each layer. Moreover, we also propose to augment the random enhancement features by empirical wavelet transformation (EWT). The raw load data is decomposed by EWT in a walk-forward fashion, not introducing future data leakage problems in the decomposition process. Finally, all the sub-series generated by the EWT, including raw data, are fed into the edRVFL for forecasting purposes. The proposed model is evaluated on twenty publicly available time series from the Australian Energy Market Operator of the year 2020. The simulation results demonstrate the proposed model's superior performance over eleven forecasting methods in three error metrics and statistical tests on electricity load forecasting tasks.
翻訳日:2021-08-02 13:08:00 公開日:2021-07-30
# 競合型マルチエージェント強化学習における戦略的効率的探索

Strategically Efficient Exploration in Competitive Multi-agent Reinforcement Learning ( http://arxiv.org/abs/2107.14698v1 )

ライセンス: Link先を確認
Robert Loftin, Aadirupa Saha, Sam Devlin, Katja Hofmann(参考訳) 高サンプル複雑性は、特にマルチエージェントシステムにおいて強化学習(rl)の適用の障壁となっている。 多くの研究が、不確実性の下での最適化原理に基づく探索機構は、単一エージェントタスクにおけるRLのサンプル効率を著しく向上することを示した。 本研究は,非協調的マルチエージェント環境における楽観的な探索の役割を理解することを目的とする。 ゼロサムゲームにおいては、楽観的な探索は、双方のプレイヤーの協力によってのみ到達できるため、学習者が戦略的プレーとは無関係な状態空間のサンプリング部分を無駄にすることができることを示す。 この問題に対処するため、マルコフゲームにおいて戦略的に効率的な探索という形式的概念を導入し、これを有限マルコフゲームのための戦略的に効率的な2つの学習アルゴリズムの開発に利用する。 これらの手法は, 楽観的な手法よりも, はるかにサンプル効率がよいことを示す。

High sample complexity remains a barrier to the application of reinforcement learning (RL), particularly in multi-agent systems. A large body of work has demonstrated that exploration mechanisms based on the principle of optimism under uncertainty can significantly improve the sample efficiency of RL in single agent tasks. This work seeks to understand the role of optimistic exploration in non-cooperative multi-agent settings. We will show that, in zero-sum games, optimistic exploration can cause the learner to waste time sampling parts of the state space that are irrelevant to strategic play, as they can only be reached through cooperation between both players. To address this issue, we introduce a formal notion of strategically efficient exploration in Markov games, and use this to develop two strategically efficient learning algorithms for finite Markov games. We demonstrate that these methods can be significantly more sample efficient than their optimistic counterparts.
翻訳日:2021-08-02 13:07:44 公開日:2021-07-30
# 頑健な侵入検知のためのグラフニューラルネットワークの可能性

Unveiling the potential of Graph Neural Networks for robust Intrusion Detection ( http://arxiv.org/abs/2107.14756v1 )

ライセンス: Link先を確認
David Pujol-Perich, Jos\'e Su\'arez-Varela, Albert Cabellos-Aparicio, Pere Barlet-Ros(参考訳) ここ数年、深刻な経済・プライバシー被害による攻撃の波が増加しており、正確なネットワーク侵入検知システム(NIDS)の必要性が高まっている。 近年,このようなシステム構築のための機械学習(ml)技術(意思決定木,ニューラルネットワーク)の利用が提案されている。 しかし、既存のMLベースのNIDSは、実際のネットワークに適用性を制限する共通の敵攻撃に対して、ほとんど堅牢ではない。 これらの解の根本的な問題は、フローを独立して扱い、分類することである。 対照的に,本稿では,個々のフローの特徴だけでなく,フロー間の関係(例えば,それらが共有するソース/デスティネーションホスト)を捉えることにより,攻撃の構造的パターンに注目することの重要性を論じる。 この目的のために、フローレコードとその関係を保持するグラフ表現を使用し、そのようなグラフ構造化情報を処理するのに適した新しいグラフニューラルネットワーク(GNN)モデルを提案する。 評価において,提案したGNNモデルがCIC-IDS2017データセットの最先端結果を達成することを示す。 さらに,パケットサイズや時間間隔を意図的に変更し,検出を回避する2つの共通敵攻撃による解の堅牢性を評価する。 その結果,我々のモデルでは,従来の実験と同等の精度を維持しつつ,最新のML手法では攻撃時の50%の精度(F1スコア)を低下させることができた。 この前例のない堅牢性は、グラフとして構造化された攻撃の流れパターンを学習するGNNモデルによって主に引き起こされる。

The last few years have seen an increasing wave of attacks with serious economic and privacy damages, which evinces the need for accurate Network Intrusion Detection Systems (NIDS). Recent works propose the use of Machine Learning (ML) techniques for building such systems (e.g., decision trees, neural networks). However, existing ML-based NIDS are barely robust to common adversarial attacks, which limits their applicability to real networks. A fundamental problem of these solutions is that they treat and classify flows independently. In contrast, in this paper we argue the importance of focusing on the structural patterns of attacks, by capturing not only the individual flow features, but also the relations between different flows (e.g., the source/destination hosts they share). To this end, we use a graph representation that keeps flow records and their relationships, and propose a novel Graph Neural Network (GNN) model tailored to process and learn from such graph-structured information. In our evaluation, we first show that the proposed GNN model achieves state-of-the-art results in the well-known CIC-IDS2017 dataset. Moreover, we assess the robustness of our solution under two common adversarial attacks, that intentionally modify the packet size and inter-arrival times to avoid detection. The results show that our model is able to maintain the same level of accuracy as in previous experiments, while state-of-the-art ML techniques degrade up to 50% their accuracy (F1-score) under these attacks. This unprecedented level of robustness is mainly induced by the capability of our GNN model to learn flow patterns of attacks structured as graphs.
翻訳日:2021-08-02 13:07:30 公開日:2021-07-30
# 暗黙のフィードバックから解き明かすペアワイズランキング

Debiased Explainable Pairwise Ranking from Implicit Feedback ( http://arxiv.org/abs/2107.14768v1 )

ライセンス: Link先を確認
Khalil Damak, Sami Khenissi, Olfa Nasraoui(参考訳) 推薦システムにおける最近の研究は、予測精度に加えて、偏見と透明性に特に関心を持つ公正の重要性を強調している。 本稿では,従来,予測精度においてポイントワイズモデルよりも優れており,暗黙的なフィードバックも処理可能であったベイジアンパーソナライズランキング(bayesian personal ranking, bpr)について述べる。 具体的には、BPRの2つの制限に対処する:(1)BPRは、そのアウトプットを説明しないブラックボックスモデルであり、ユーザのレコメンデーションに対する信頼を制限し、アナリストがモデルのアウトプットを精査する能力、(2)BPRは、ミス・ノー・アット・ランダム(MNAR)データであるため、露出バイアスに弱い。 この露出バイアスは、レコメンダシステムによって過小評価されるリスクがあるため、通常、最も人気のあるアイテムに対して不公平になる。 本稿では,まず,新しい説明可能損失関数と,それに対応する行列因子化ベースモデルである説明可能ベイズ型パーソナライズランキング(ebpr)を提案し,項目ベース説明とともにレコメンデーションを生成する。 そして、理論的に説明可能性から生じる追加の露光バイアスを定量化し、その基礎として、理想的なEBPR損失に対する非偏光推定器を提案する。 その結果は、偏見と説明可能なユーザの好みの両方を適切に捉えたランキングモデルになる。 最後に,提案するモデルの利点を示す3つの実世界のデータセットについて実証研究を行った。

Recent work in recommender systems has emphasized the importance of fairness, with a particular interest in bias and transparency, in addition to predictive accuracy. In this paper, we focus on the state of the art pairwise ranking model, Bayesian Personalized Ranking (BPR), which has previously been found to outperform pointwise models in predictive accuracy, while also being able to handle implicit feedback. Specifically, we address two limitations of BPR: (1) BPR is a black box model that does not explain its outputs, thus limiting the user's trust in the recommendations, and the analyst's ability to scrutinize a model's outputs; and (2) BPR is vulnerable to exposure bias due to the data being Missing Not At Random (MNAR). This exposure bias usually translates into an unfairness against the least popular items because they risk being under-exposed by the recommender system. In this work, we first propose a novel explainable loss function and a corresponding Matrix Factorization-based model called Explainable Bayesian Personalized Ranking (EBPR) that generates recommendations along with item-based explanations. Then, we theoretically quantify additional exposure bias resulting from the explainability, and use it as a basis to propose an unbiased estimator for the ideal EBPR loss. The result is a ranking model that aptly captures both debiased and explainable user preferences. Finally, we perform an empirical study on three real-world datasets that demonstrate the advantages of our proposed models.
翻訳日:2021-08-02 13:07:05 公開日:2021-07-30
# 適応型多要素モデルと金融市場

The Adaptive Multi-Factor Model and the Financial Market ( http://arxiv.org/abs/2107.14410v1 )

ライセンス: Link先を確認
Liao Zhu(参考訳) 現代の技術の進化は金融市場に大きな影響を与えている。 為替取引資金のような構成要素の導入やアルゴリズム取引のような先進技術の広範な利用により、データのブームが起こり、より深い洞察を得る機会が増えた。 しかし、伝統的な統計方法は、常に金融データの高次元、高相関、時間的な本能に苦しむ。 この論文では,これらの困難を強調する手法の開発に焦点をあてる。 提案手法では,より解釈可能なモデル,より明確な説明,より良い予測を行うことができる。

Modern evolvements of the technologies have been leading to a profound influence on the financial market. The introduction of constituents like Exchange-Traded Funds, and the wide-use of advanced technologies such as algorithmic trading, results in a boom of the data which provides more opportunities to reveal deeper insights. However, traditional statistical methods always suffer from the high-dimensional, high-correlation, and time-varying instinct of the financial data. In this dissertation, we focus on developing techniques to stress these difficulties. With the proposed methodologies, we can have more interpretable models, clearer explanations, and better predictions.
翻訳日:2021-08-02 13:06:13 公開日:2021-07-30
# ゼロサムマルコフゲームにおける一般関数近似に向けて

Towards General Function Approximation in Zero-Sum Markov Games ( http://arxiv.org/abs/2107.14702v1 )

ライセンス: Link先を確認
Baihe Huang and Jason D. Lee and Zhaoran Wang and Zhuoran Yang(参考訳) 本稿では,同時移動を伴う2プレイヤーゼロサム有限ホライゾンマルコフゲームについて考察する。 この研究は、値関数やモデルが一般的な関数クラスによってパラメータ化される困難な設定に焦点を当てている。 疎結合と {coordinated} 設定の両方の効率的なアルゴリズムが開発されている。 エージェントが1人のプレイヤーを制御し、任意の相手と対戦する {decoupled} 設定において、新しいモデルフリーアルゴリズムを提案する。 サンプル複雑性は、マルコフゲームにおける関数クラスの新しい次元であるミニマックスエルダー次元によって支配される。 特別な場合として、この手法は、報奨関数と遷移核が$d$次元の線形特徴でパラメータ化されている場合の後悔における$\sqrt{d}$ factorによって最先端アルゴリズムを改善する。 双方のプレイヤーがエージェントによって制御される {coordinated} の設定では、モデルベースアルゴリズムとモデルフリーアルゴリズムを提案する。 モデルに基づくアルゴリズムでは、サンプルの複雑さはマルコフゲームへのウィットネスランクの一般化によって制限できることを示す。 モデルなしのアルゴリズムは、$\sqrt{K}$-regret上界を楽しみ、$K$はエピソードの数である。 我々のアルゴリズムは新しい楽観主義の手法に基づいている。

This paper considers two-player zero-sum finite-horizon Markov games with simultaneous moves. The study focuses on the challenging settings where the value function or the model is parameterized by general function classes. Provably efficient algorithms for both decoupled and {coordinated} settings are developed. In the {decoupled} setting where the agent controls a single player and plays against an arbitrary opponent, we propose a new model-free algorithm. The sample complexity is governed by the Minimax Eluder dimension -- a new dimension of the function class in Markov games. As a special case, this method improves the state-of-the-art algorithm by a $\sqrt{d}$ factor in the regret when the reward function and transition kernel are parameterized with $d$-dimensional linear features. In the {coordinated} setting where both players are controlled by the agent, we propose a model-based algorithm and a model-free algorithm. In the model-based algorithm, we prove that sample complexity can be bounded by a generalization of Witness rank to Markov games. The model-free algorithm enjoys a $\sqrt{K}$-regret upper bound where $K$ is the number of episodes. Our algorithms are based on new techniques of alternate optimism.
翻訳日:2021-08-02 13:06:04 公開日:2021-07-30
# 非スペシャリストは、挑戦的なモダリティにおいて高品質な金標準ラベルを提供できるか?

Can non-specialists provide high quality gold standard labels in challenging modalities? ( http://arxiv.org/abs/2107.14682v1 )

ライセンス: Link先を確認
Samuel Budd, Thomas Day, John Simpson, Karen Lloyd, Jacqueline Matthew, Emily Skelton, Reza Razavi, Bernhard Kainz(参考訳) おそらくそうです。 -- Supervised Deep Learningは、多くのコンピュータビジョンタスクのパフォーマンススコアを支配し、最先端技術を定義する。 しかし、医学画像解析は自然画像応用に遅れを取っている。 多くの理由の1つは、研究者が利用できる十分な注釈付き医療画像データがないことである。 研究者が最初に話したことの1つは、これらのデータを確実かつ正確に解釈し、ラベル付けするために、かなりの専門知識が必要です。 医用画像のエキスパートアノテーション間では,サーバ間およびサーバ内変動が顕著である。 それでも、初心者アノテータが臨床ディープラーニングモデルで有用なアノテーションを提供できないという仮定は広く支持されている。 本研究は、この仮定に挑戦し、複雑な医用画像データセットのアノテーションを取得するために、最小限の訓練を受けた初心者のラベル付け作業員を使うことの意味を検討する。 胎児超音波検査における先天性心疾患(hypoplastic left heart syndrome)検出のための訓練されたディープラーニングセグメンテーションモデルの性能に対する、初心者用アノテーションの使用時間とコストの影響、金標準のエキスパート用アノテーションに対する初心者用アノテーションの生性能、および下流効果について検討した。

Probably yes. -- Supervised Deep Learning dominates performance scores for many computer vision tasks and defines the state-of-the-art. However, medical image analysis lags behind natural image applications. One of the many reasons is the lack of well annotated medical image data available to researchers. One of the first things researchers are told is that we require significant expertise to reliably and accurately interpret and label such data. We see significant inter- and intra-observer variability between expert annotations of medical images. Still, it is a widely held assumption that novice annotators are unable to provide useful annotations for use by clinical Deep Learning models. In this work we challenge this assumption and examine the implications of using a minimally trained novice labelling workforce to acquire annotations for a complex medical image dataset. We study the time and cost implications of using novice annotators, the raw performance of novice annotators compared to gold-standard expert annotators, and the downstream effects on a trained Deep Learning segmentation model's performance for detecting a specific congenital heart disease (hypoplastic left heart syndrome) in fetal ultrasound imaging.
翻訳日:2021-08-02 13:05:44 公開日:2021-07-30
# ドメインに依存しないテキストの自動読み出し, 解釈, 抽出による科学文献のレビュー

An automated domain-independent text reading, interpreting and extracting approach for reviewing the scientific literature ( http://arxiv.org/abs/2107.14638v1 )

ライセンス: Link先を確認
Amauri J Paula(参考訳) 記事のコーパスから分類的および数値的パラメータを自動的に認識し抽出できる機械学習(ML)自然言語処理(NLP)アプローチを提案する。 アプローチ(a.RIX)は、ニューロンネットワーク(NN)、潜在意味分析(LSA)、ネイブ・ベイズ分類器(NBC)などのMLモデルと、正規表現(REGEX)を用いたパターン認識モデルとの共用/交換可能な利用で動作する。 a.RIXエンジンの効率を実証するため、天然物(NP)を扱う7,873の科学論文コーパスが処理された。 このエンジンは、(i)活性分子が抽出される植物種、(ii)活性分子が作用する微生物種、(iii)これらの微生物に対して最小抑制濃度(MIC)の値を自動抽出する。 パラメータは、POS(Part-of-speech tagging)と名前付きエンティティ認識(NER)アプローチなしで抽出される。 テキストアノテーションを必要とせずに)、そしてモデルトレーニングは教師なしのアプローチで実行される。 このように、A.RIXは本質的にあらゆる科学分野の論文に利用できる。 最後に、特にテキストの構造、テキストの意味論、潜在知識が機械学習モデルによってキャプチャされる分野において、現在使われている記事レビュープロセスが時代遅れになる可能性がある。

It is presented here a machine learning-based (ML) natural language processing (NLP) approach capable to automatically recognize and extract categorical and numerical parameters from a corpus of articles. The approach (named a.RIX) operates with a concomitant/intercha ngeable use of ML models such as neuron networks (NNs), latent semantic analysis (LSA) and naive-Bayes classifiers (NBC), and a pattern recognition model using regular expression (REGEX). To demonstrate the efficiency of the a.RIX engine, it was processed a corpus of 7,873 scientific articles dealing with natural products (NPs). The engine automatically extracts categorical and numerical parameters such as (i) the plant species from which active molecules are extracted, (ii) the microorganisms species for which active molecules can act against, and (iii) the values of minimum inhibitory concentration (MIC) against these microorganisms. The parameters are extracted without part-of-speech tagging (POS) and named entity recognition (NER) approaches (i.e. without the need of text annotation), and the models training is performed with unsupervised approaches. In this way, a.RIX can be essentially used on articles from any scientific field. Finally, it has a potential to make obsolete the currently used articles reviewing process in some areas, specially those in which texts structure, text semantics and latent knowledge is captured by machine learning models.
翻訳日:2021-08-02 13:05:02 公開日:2021-07-30
# 多言語テキスト書き換えにおける普遍性に向けて

Towards Universality in Multilingual Text Rewriting ( http://arxiv.org/abs/2107.14749v1 )

ライセンス: Link先を確認
Xavier Garcia, Noah Constant, Mandy Guo, Orhan Firat(参考訳) 本研究では,任意の言語でテキストの書き直しが可能で,スタイルや言語など多種多様な属性を表現できると同時に,元のセマンティクスを可能な限り保存できるモデルであるユニバーサルリライターを構築するための第一歩を踏み出した。 教師なし翻訳における最先端の成果の獲得に加えて,英語の見習いのみを用いて英語以外の言語でゼロショットの感情伝達を行う能力も示す。 次に、言語と感情を共同で調整するなど、モデルが複数の属性を同時に変更できることを示します。 最後に,本モデルはゼロショット形式性に敏感な翻訳を行うことができることを示す。

In this work, we take the first steps towards building a universal rewriter: a model capable of rewriting text in any language to exhibit a wide variety of attributes, including styles and languages, while preserving as much of the original semantics as possible. In addition to obtaining state-of-the-art results on unsupervised translation, we also demonstrate the ability to do zero-shot sentiment transfer in non-English languages using only English exemplars for sentiment. We then show that our model is able to modify multiple attributes at once, for example adjusting both language and sentiment jointly. Finally, we show that our model is capable of performing zero-shot formality-sensitive translation.
翻訳日:2021-08-02 13:04:34 公開日:2021-07-30
# 自律運転システムのための脳にインスパイアされた深層模倣学習

Brain-Inspired Deep Imitation Learning for Autonomous Driving Systems ( http://arxiv.org/abs/2107.14654v1 )

ライセンス: Link先を確認
Hasan Bayarov Ahmedov, Dewei Yi, Jie Sui(参考訳) 自動運転は学術と産業の両方から大きな注目を集めている。 自動運転を実現するために、deep imitation learning(dil)は人間の運転データから複雑なマッピングを自動的に学習することで、手動で運転ポリシーを設計するよりも自律運転システムを改善するため、最も有望なソリューションの1つとして扱われる。 しかし、既存のDILメソッドは、ソースドメインのデータに基づいてトレーニングされたネットワークがターゲットドメインのデータに対して不十分な一般化をもたらすため、ドメイン間でうまく一般化できない。 本研究では,人間の脳機能の証拠に基づいて,ニューラルネットワークの一般化能力を向上し,様々なシナリオにおいて自律運転システムがうまく機能するように,脳にインスパイアされた新しい深層模倣法を提案する。 特に、ヒトは脳の両側の構造的および機能的非対称性から有益である強い一般化能力を持っている。 そこで我々は,人間のニューラルネットワークの非対称性に基づいて,ディープニューラルネットワークにおけるデュアルニューラルネットワークポリシー(NCP)アーキテクチャを設計する。 実験の結果,脳にインスパイアされた手法は,見えないデータを扱う場合の一般化に関する既存の手法よりも優れていた。 私たちのソースコードと事前訓練済みモデルは、https://github.com/I ntenzo21/Brain-Inspi red-Deep-Imitation-L earning-for-Autonomo us-Driving-Systems}{https://github.com/I ntenzo21/Brain-Inspi red-Deep-Imitation-f or-Autonomous-Drivin g-Systemsで利用可能です。

Autonomous driving has attracted great attention from both academics and industries. To realise autonomous driving, Deep Imitation Learning (DIL) is treated as one of the most promising solutions, because it improves autonomous driving systems by automatically learning a complex mapping from human driving data, compared to manually designing the driving policy. However, existing DIL methods cannot generalise well across domains, that is, a network trained on the data of source domain gives rise to poor generalisation on the data of target domain. In the present study, we propose a novel brain-inspired deep imitation method that builds on the evidence from human brain functions, to improve the generalisation ability of deep neural networks so that autonomous driving systems can perform well in various scenarios. Specifically, humans have a strong generalisation ability which is beneficial from the structural and functional asymmetry of the two sides of the brain. Here, we design dual Neural Circuit Policy (NCP) architectures in deep neural networks based on the asymmetry of human neural networks. Experimental results demonstrate that our brain-inspired method outperforms existing methods regarding generalisation when dealing with unseen data. Our source codes and pretrained models are available at https://github.com/I ntenzo21/Brain-Inspi red-Deep-Imitation-L earning-for-Autonomo us-Driving-Systems}{https://github.com/I ntenzo21/Brain-Inspi red-Deep-Imitation-L earning-for-Autonomo us-Driving-Systems.
翻訳日:2021-08-02 13:04:21 公開日:2021-07-30
# 低照度物体検出技術の探求

Exploring Low-light Object Detection Techniques ( http://arxiv.org/abs/2107.14382v1 )

ライセンス: Link先を確認
Winston Chen, Tejas Shah(参考訳) 低照度環境下でコンピュータビジョンシステムによって取得された画像は、高ノイズ、低照度、反射率、コントラストといった複数の特性を持ち、物体検出タスクを困難にする。 様々なピクセル操作技術やディープニューラルネットワークを使って画像を強化するために、多くの作業が行われており、一部は照明の改善に重点を置いているが、一部はノイズ低減に重点を置いている。 同様に、オブジェクト検出ニューラルネットワークモデルでもかなりの研究が行われている。 まず,画像品質よりも正確な特徴検索が重要である物体検出課題に対して,どの画像強調アルゴリズムがより適しているかを検討する。 具体的には,基本ヒストグラム等化技術と画像翻訳技術について検討する。 2)第2フェーズでは,拡張画像に適用可能なさまざまな物体検出モデルについて検討する。 我々は,すべての結果を比較し,平均精度(mAP)を計算し,今後の研究の方向性を示す。

Images acquired by computer vision systems under low light conditions have multiple characteristics like high noise, lousy illumination, reflectance, and bad contrast, which make object detection tasks difficult. Much work has been done to enhance images using various pixel manipulation techniques, as well as deep neural networks - some focused on improving the illumination, while some on reducing the noise. Similarly, considerable research has been done in object detection neural network models. In our work, we break down the problem into two phases: 1)First, we explore which image enhancement algorithm is more suited for object detection tasks, where accurate feature retrieval is more important than good image quality. Specifically, we look at basic histogram equalization techniques and unpaired image translation techniques. 2)In the second phase, we explore different object detection models that can be applied to the enhanced image. We conclude by comparing all results, calculating mean average precisions (mAP), and giving some directions for future work.
翻訳日:2021-08-02 13:03:09 公開日:2021-07-30
# マルチビューからホロウ3dへ:3次元物体検出のための幻覚的ホロウ3d r-cnn

From Multi-View to Hollow-3D: Hallucinated Hollow-3D R-CNN for 3D Object Detection ( http://arxiv.org/abs/2107.14391v1 )

ライセンス: Link先を確認
Jiajun Deng, Wengang Zhou, Yanyong Zhang, and Houqiang Li(参考訳) 正確な距離センシングを伴う新たなデータモダルとして、LiDAR点雲は3Dシーン理解に大いに期待されている。 しかし、点雲は常に3D空間に分散しており、非構造化ストレージであるため、効果的な3Dオブジェクト検出のためにそれらを表現することは困難である。 そこで本研究では,点雲を中空3次元データとみなし,Halucinated Hollow-3D R-CNN ("\text{H}^2$3D R-CNN") という新しいアーキテクチャを提案する。 本稿では,まず,視点ビューと鳥眼ビューに点雲を逐次投影することで,多視点特徴を抽出する。 そこで我々は,新しい多視点融合ブロックにより3次元表現を幻覚させる。 最後に、新たな階層型voxelroiプーリング操作を備えたボックスリファインメントモジュールを介して3dオブジェクトを検出する。 提案した$\text{H}^2$3D R-CNNは、視点ビューと効率的なフレームワークによる鳥眼ビューの相補的な情報を完全に活用するための新しいアングルを提供する。 我々は、パブリックなKITTIデータセットとWaymo Open Datasetに対するアプローチを評価した。 実験により,本手法が最先端のアルゴリズムよりも有効性および効率性に優れていることを示した。 コードは \url{https://github.com/d jiajunustc/h-23d_r-c nn} で入手できる。

As an emerging data modal with precise distance sensing, LiDAR point clouds have been placed great expectations on 3D scene understanding. However, point clouds are always sparsely distributed in the 3D space, and with unstructured storage, which makes it difficult to represent them for effective 3D object detection. To this end, in this work, we regard point clouds as hollow-3D data and propose a new architecture, namely Hallucinated Hollow-3D R-CNN ($\text{H}^2$3D R-CNN), to address the problem of 3D object detection. In our approach, we first extract the multi-view features by sequentially projecting the point clouds into the perspective view and the bird-eye view. Then, we hallucinate the 3D representation by a novel bilaterally guided multi-view fusion block. Finally, the 3D objects are detected via a box refinement module with a novel Hierarchical Voxel RoI Pooling operation. The proposed $\text{H}^2$3D R-CNN provides a new angle to take full advantage of complementary information in the perspective view and the bird-eye view with an efficient framework. We evaluate our approach on the public KITTI Dataset and Waymo Open Dataset. Extensive experiments demonstrate the superiority of our method over the state-of-the-art algorithms with respect to both effectiveness and efficiency. The code will be made available at \url{https://github.com/d jiajunustc/H-23D_R-C NN}.
翻訳日:2021-08-02 13:02:56 公開日:2021-07-30
# 顔行動単位認識のための自己監督型地域・時間補助課題

Self-Supervised Regional and Temporal Auxiliary Tasks for Facial Action Unit Recognition ( http://arxiv.org/abs/2107.14399v1 )

ライセンス: Link先を確認
Jingwei Yan and Jingjing Wang and Qiang Li and Chunmao Wang and Shiliang Pu(参考訳) 自動顔動作ユニット(AU)認識は手動アノテーションが不足しているため難しい課題である。 この問題を軽減するため、多数の未ラベルデータを活用する様々な手法の活用に多くの努力が注がれている。 しかし、地域特性や関係特性など、AUの特異性に関する多くの側面は、以前の研究では十分に解明されていない。 そこで我々は,AUプロパティを考慮し,制限付きアノテーションとモデル性能のギャップをラベルなしデータを介して自己管理的に埋める2つの補助的AU関連タスクを提案する。 具体的には、AU関係埋め込みによる地域特徴の識別を強化するために、ランダムに収穫されたAUパッチを復元するRoIの塗装タスクを設計する。 一方, 顔筋の動的変化を活用し, 運動情報を大域的特徴表現にエンコードするために, 単一画像に基づく光フロー推定タスクが提案されている。 これら2つの自己教師付き補助タスクに基づいて, 局所的特徴, 相互関係, 運動手がかりをバックボーンネットワークにおいて, 提案する局所的および時間的補助タスク学習(rtatl)フレームワークを用いてよりよく捉えることができる。 BP4D と DISFA の大規模実験により,本手法の優位性を実証し,新しい最先端性能を実現する。

Automatic facial action unit (AU) recognition is a challenging task due to the scarcity of manual annotations. To alleviate this problem, a large amount of efforts has been dedicated to exploiting various methods which leverage numerous unlabeled data. However, many aspects with regard to some unique properties of AUs, such as the regional and relational characteristics, are not sufficiently explored in previous works. Motivated by this, we take the AU properties into consideration and propose two auxiliary AU related tasks to bridge the gap between limited annotations and the model performance in a self-supervised manner via the unlabeled data. Specifically, to enhance the discrimination of regional features with AU relation embedding, we design a task of RoI inpainting to recover the randomly cropped AU patches. Meanwhile, a single image based optical flow estimation task is proposed to leverage the dynamic change of facial muscles and encode the motion information into the global feature representation. Based on these two self-supervised auxiliary tasks, local features, mutual relation and motion cues of AUs are better captured in the backbone network with the proposed regional and temporal based auxiliary task learning (RTATL) framework. Extensive experiments on BP4D and DISFA demonstrate the superiority of our method and new state-of-the-art performances are achieved.
翻訳日:2021-08-02 13:02:32 公開日:2021-07-30
# 高分解能セマンティックセグメンテーションのための動的ニューラルネットワーク表現デコーダ

Dynamic Neural Representational Decoders for High-Resolution Semantic Segmentation ( http://arxiv.org/abs/2107.14428v1 )

ライセンス: Link先を確認
Bowen Zhang, Yifan Liu, Zhi Tian, Chunhua Shen(参考訳) セマンティックセグメンテーションは、与えられた画像に対してピクセル単位の予測を必要とする。 通常、セグメンテーションネットワークの出力解像度はCNNバックボーンのダウンサンプリング操作により大幅に低下する。 以前の手法では、空間分解能を回復するためにデコーダのアップサンプリングを用いる。 様々なデコーダが文学で設計された。 本稿では,動的ニューラルネットワーク表現デコーダ(dynamic neural representational decoder, nrd)と呼ばれる新しいデコーダを提案する。 本研究では、エンコーダ出力上の各位置が意味ラベルの局所パッチに対応するため、これらのラベルの局所パッチをコンパクトニューラルネットワークで表現する。 このニューラル表現により、デコーダは意味ラベル空間の前の滑らかさを活用できるため、デコーダをより効率的にします。 さらに、これらの神経表現は動的に生成され、エンコーダネットワークの出力に条件付けされる。 所望のセマンティクスラベルを効率的に神経表現から復号することができ、その結果、高分解能セマンティクスセグメンテーションが予測される。 提案するデコーダは,DeeplabV3+のデコーダを30%の計算複雑性で上回り,15%しか計算できない拡張エンコーダを用いた手法と競合する性能が得られることを示す。 都市景観,ADE20K,PASCALコンテキストデータセットの実験により,提案手法の有効性と有効性を示した。

Semantic segmentation requires per-pixel prediction for a given image. Typically, the output resolution of a segmentation network is severely reduced due to the downsampling operations in the CNN backbone. Most previous methods employ upsampling decoders to recover the spatial resolution. Various decoders were designed in the literature. Here, we propose a novel decoder, termed dynamic neural representational decoder (NRD), which is simple yet significantly more efficient. As each location on the encoder's output corresponds to a local patch of the semantic labels, in this work, we represent these local patches of labels with compact neural networks. This neural representation enables our decoder to leverage the smoothness prior in the semantic label space, and thus makes our decoder more efficient. Furthermore, these neural representations are dynamically generated and conditioned on the outputs of the encoder networks. The desired semantic labels can be efficiently decoded from the neural representations, resulting in high-resolution semantic segmentation predictions. We empirically show that our proposed decoder can outperform the decoder in DeeplabV3+ with only 30% computational complexity, and achieve competitive performance with the methods using dilated encoders with only 15% computation. Experiments on the Cityscapes, ADE20K, and PASCAL Context datasets demonstrate the effectiveness and efficiency of our proposed method.
翻訳日:2021-08-02 13:02:10 公開日:2021-07-30
# DPT:視覚認識のための変形可能なパッチベース変換器

DPT: Deformable Patch-based Transformer for Visual Recognition ( http://arxiv.org/abs/2107.14467v1 )

ライセンス: Link先を確認
Zhiyang Chen, Yousong Zhu, Chaoyang Zhao, Guosheng Hu, Wei Zeng, Jinqiao Wang, Ming Tang(参考訳) Transformerはコンピュータビジョンにおいて大きな成功を収め、画像にパッチを分割する方法は依然として問題である。 既存のメソッドは通常固定サイズのパッチを埋め込んでおり、オブジェクトのセマンティクスを破壊する可能性がある。 この問題に対処するため,我々は,予め定義された固定パッチではなく,異なる位置とスケールのパッチに適応的に分割することを学習する,新しいdeformable patch (depatch)モジュールを提案する。 このようにして、本手法はパッチのセマンティクスを十分に保存することができる。 depatchモジュールはプラグアンドプレイモジュールとして動作し、さまざまなトランスフォーマーに容易に組み込んでエンドツーエンドのトレーニングを実現することができる。 本稿では,このデパッチ埋め込みトランスをDPT(Deformable Patch-based Transformer)と呼び,画像分類と物体検出におけるDPTの広範な評価を行う。 その結果、dptはimagenet分類で81.9%、retinanetで43.7%、mscocoオブジェクト検出でマスクr-cnnで44.3%のtop-1精度を達成できることがわかった。 コードはhttps://github.com/C ASIA-IVA-Lab/DPTで公開されている。

Transformer has achieved great success in computer vision, while how to split patches in an image remains a problem. Existing methods usually use a fixed-size patch embedding which might destroy the semantics of objects. To address this problem, we propose a new Deformable Patch (DePatch) module which learns to adaptively split the images into patches with different positions and scales in a data-driven way rather than using predefined fixed patches. In this way, our method can well preserve the semantics in patches. The DePatch module can work as a plug-and-play module, which can easily be incorporated into different transformers to achieve an end-to-end training. We term this DePatch-embedded transformer as Deformable Patch-based Transformer (DPT) and conduct extensive evaluations of DPT on image classification and object detection. Results show DPT can achieve 81.9% top-1 accuracy on ImageNet classification, and 43.7% box mAP with RetinaNet, 44.3% with Mask R-CNN on MSCOCO object detection. Code has been made available at: https://github.com/C ASIA-IVA-Lab/DPT .
翻訳日:2021-08-02 13:01:48 公開日:2021-07-30
# ハイブリッド制約半教師付き学習による3DUSの医療機器セグメンテーション

Medical Instrument Segmentation in 3D US by Hybrid Constrained Semi-Supervised Learning ( http://arxiv.org/abs/2107.14476v1 )

ライセンス: Link先を確認
Hongxu Yang, Caifeng Shan, R. Arthur Bouwman, Lukas R. C. Dekker, Alexander F. Kolen and Peter H. N. de With(参考訳) 3次元超音波による医療機器のセグメンテーションは画像誘導介入に不可欠である。 しかし、楽器のセグメンテーションのために成功したディープニューラルネットワークを訓練するには、大量のラベル付き画像が必要である。 本稿では,3次元usにおける計測セグメント化のための半教師付き学習(ssl)フレームワークを提案する。 SSL学習を実現するためにDual-UNetが提案されている。 Dual-UNetは、不確実性とコンテキスト制約からなる新しいハイブリッド損失関数を使用してラベルのないデータを活用する。 具体的には、不確実性制約は、UNetの予測の不確実性推定を利用して、SSLトレーニングのためのラベルのない情報を改善する。 さらに、文脈制約は、ボクセル方向の不確実性推定の補完情報として使用される訓練画像の文脈情報を利用する。 複数のvivoデータセットとin-vivoデータセットの広範な実験により、提案手法が約68.6%-69.1%のサイススコアと約1秒の推論時間を達成していることが示された。 ボリュームごとに これらの結果は最先端のSSLメソッドよりも優れており、推論時間は教師付きアプローチに匹敵する。

Medical instrument segmentation in 3D ultrasound is essential for image-guided intervention. However, to train a successful deep neural network for instrument segmentation, a large number of labeled images are required, which is expensive and time-consuming to obtain. In this article, we propose a semi-supervised learning (SSL) framework for instrument segmentation in 3D US, which requires much less annotation effort than the existing methods. To achieve the SSL learning, a Dual-UNet is proposed to segment the instrument. The Dual-UNet leverages unlabeled data using a novel hybrid loss function, consisting of uncertainty and contextual constraints. Specifically, the uncertainty constraints leverage the uncertainty estimation of the predictions of the UNet, and therefore improve the unlabeled information for SSL training. In addition, contextual constraints exploit the contextual information of the training images, which are used as the complementary information for voxel-wise uncertainty estimation. Extensive experiments on multiple ex-vivo and in-vivo datasets show that our proposed method achieves Dice score of about 68.6%-69.1% and the inference time of about 1 sec. per volume. These results are better than the state-of-the-art SSL methods and the inference time is comparable to the supervised approaches.
翻訳日:2021-08-02 13:01:22 公開日:2021-07-30
# Pix2Point: スパースポイントクラウドと最適輸送を用いた屋外3D学習

Pix2Point: Learning Outdoor 3D Using Sparse Point Clouds and Optimal Transport ( http://arxiv.org/abs/2107.14498v1 )

ライセンス: Link先を確認
R\'emy Leroy, Pauline Trouv\'e-Peloux, Fr\'ed\'eric Champagnat, Bertrand Le Saux, Marcela Carvalho(参考訳) 良質な再現とシーンの理解は3次元推定法に依存する。 3D情報は通常ステレオフォトグラム法で得られるが,近年,深層学習によって単眼深度推定の優れた結果が得られた。 これらの結果を達成するには、十分に大きくてリッチなトレーニングデータセットを構築する必要がある。 本稿では, スパース基底トラスデータセットを用いて, 単分子データから屋外3次元点雲を学習する問題に対処する。 我々は、単眼の3Dポイントクラウド予測のためのディープラーニングベースのアプローチであるPix2Pointを提案し、完全かつ挑戦的な屋外シーンに対処できる。 提案手法は, 2次元3次元ハイブリッドニューラルネットワークアーキテクチャと, 点雲間の最適輸送分散の教師付きエンドツーエンド化に依存する。 スパース・ポイント・クラウドでトレーニングすると,より効率的な単分子深度法よりも3次元屋外シーンのカバレッジが向上することを示す。

Good quality reconstruction and comprehension of a scene rely on 3D estimation methods. The 3D information was usually obtained from images by stereo-photogrammetr y, but deep learning has recently provided us with excellent results for monocular depth estimation. Building up a sufficiently large and rich training dataset to achieve these results requires onerous processing. In this paper, we address the problem of learning outdoor 3D point cloud from monocular data using a sparse ground-truth dataset. We propose Pix2Point, a deep learning-based approach for monocular 3D point cloud prediction, able to deal with complete and challenging outdoor scenes. Our method relies on a 2D-3D hybrid neural network architecture, and a supervised end-to-end minimisation of an optimal transport divergence between point clouds. We show that, when trained on sparse point clouds, our simple promising approach achieves a better coverage of 3D outdoor scenes than efficient monocular depth methods.
翻訳日:2021-08-02 13:01:01 公開日:2021-07-30
# フーリエ級数展開に基づく同変畳み込みのフィルタパラメトリゼーション

Fourier Series Expansion Based Filter Parametrization for Equivariant Convolutions ( http://arxiv.org/abs/2107.14519v1 )

ライセンス: Link先を確認
Qi Xie and Qian Zhao and Zongben Xu and Deyu Meng(参考訳) 等変畳み込みは多くの種類のコンピュータビジョンタスクに非常に役立つことが示されている。 近年, 2次元フィルタパラメトリゼーション手法が等変畳み込みの設計において重要な役割を担っている。 しかし、現在のフィルタパラメトリゼーション法には、フィルタ表現の精度問題に最も重大な問題があるという明らかな欠点がある。 本稿では,2次元フィルタに対する古典的フーリエ級数展開を改良し,フィルタパラメトリゼーションのための新しい原子基底関数セットを提案する。 提案したフィルタパラメトリゼーション法は, フィルタが回転しない場合, 誤差ゼロの2次元フィルタを微妙に表現するだけでなく, フィルタが回転する場合, フェンス効果による品質劣化を著しく軽減する。 そこで我々は,F-Conv というフィルタパラメトリゼーション法に基づく新しい同変畳み込み法を構築した。 提案するf-convの同値性は連続領域において完全であることが証明され、離散化の後にのみ近似となる。 実験の結果,提案手法の優位性を示した。 特に、回転同変畳み込み法を超解像タスクに適用し、f-convは局所画像特徴における回転対称性を忠実に保存する本質的な能力を反映して、前回のフィルタパラメトリゼーションベース法を明らかに上回っている。

It has been shown that equivariant convolution is very helpful for many types of computer vision tasks. Recently, the 2D filter parametrization technique plays an important role when designing equivariant convolutions. However, the current filter parametrization method still has its evident drawbacks, where the most critical one lies in the accuracy problem of filter representation. Against this issue, in this paper we modify the classical Fourier series expansion for 2D filters, and propose a new set of atomic basis functions for filter parametrization. The proposed filter parametrization method not only finely represents 2D filters with zero error when the filter is not rotated, but also substantially alleviates the fence-effect-caused quality degradation when the filter is rotated. Accordingly, we construct a new equivariant convolution method based on the proposed filter parametrization method, named F-Conv. We prove that the equivariance of the proposed F-Conv is exact in the continuous domain, which becomes approximate only after discretization. Extensive experiments show the superiority of the proposed method. Particularly, we adopt rotation equivariant convolution methods to image super-resolution task, and F-Conv evidently outperforms previous filter parametrization based method in this task, reflecting its intrinsic capability of faithfully preserving rotation symmetries in local image features.
翻訳日:2021-08-02 13:00:45 公開日:2021-07-30
# マルチタスク学習を用いた映画による感情認識

Recognizing Emotions evoked by Movies using Multitask Learning ( http://arxiv.org/abs/2107.14529v1 )

ライセンス: Link先を確認
Hassan Hayat, Carles Ventura, Agata Lapedriza(参考訳) 映画における感情的影響を理解することは、感情的映画分析、ランキング、索引付けにおいて重要である。 誘発感情を認識する方法は通常、人間の注釈付きデータに基づいて訓練される。 具体的には、視聴者はビデオクリップを見て、ビデオを見ながら経験した感情を手動でアノテートしなければならない。 次に、一般的なプラクティスは、平均スコアまたは過半数投票を計算して、異なるアノテーションを集約し、これらのアノテーションをトレーニングし、テストすることです。 この手順により、ビデオ毎に単一の集約された誘発感情アノテーションが得られる。 しかし、ビデオを見ながら経験した感情は主観的であり、異なる個人は異なる感情を経験する。 本稿では,ビデオによって誘発される感情を異なる方法でモデル化する: 集約された価値をモデル化する代わりに,複数タスク学習アプローチを用いて,各視聴者が経験した感情と集約された価値を共同でモデル化する。 具体的には,シングルタスク(st)アーキテクチャとマルチタスク(mt)アーキテクチャの2つのディープラーニングアーキテクチャを提案する。 その結果,MT手法は,アノテーションを直接訓練した手法と比較して,各ビューアと集約アノテーションをより正確にモデル化できることがわかった。 さらに,本手法はCOGNIMUSEベンチマークの最先端結果よりも優れている。

Understanding the emotional impact of movies has become important for affective movie analysis, ranking, and indexing. Methods for recognizing evoked emotions are usually trained on human annotated data. Concretely, viewers watch video clips and have to manually annotate the emotions they experienced while watching the videos. Then, the common practice is to aggregate the different annotations, by computing average scores or majority voting, and train and test models on these aggregated annotations. With this procedure a single aggregated evoked emotion annotation is obtained per each video. However, emotions experienced while watching a video are subjective: different individuals might experience different emotions. In this paper, we model the emotions evoked by videos in a different manner: instead of modeling the aggregated value we jointly model the emotions experienced by each viewer and the aggregated value using a multi-task learning approach. Concretely, we propose two deep learning architectures: a Single-Task (ST) architecture and a Multi-Task (MT) architecture. Our results show that the MT approach can more accurately model each viewer and the aggregated annotation when compared to methods that are directly trained on the aggregated annotations. Furthermore, our approach outperforms the current state-of-the-art results on the COGNIMUSE benchmark.
翻訳日:2021-08-02 13:00:19 公開日:2021-07-30
# モバイルarのためのインスタントビジュアルオドメトリ初期化

Instant Visual Odometry Initialization for Mobile AR ( http://arxiv.org/abs/2107.14659v1 )

ライセンス: Link先を確認
Alejo Concha, Michael Burri, Jes\'us Briales, Christian Forster and Luc Oth(参考訳) モバイルarアプリケーションは、世界ロック効果を即座に表示する高速初期化の恩恵を受ける。 しかし、標準的な視覚計測またはSLAMアルゴリズムは、動きパララックスを初期化するために要求する(図1参照)。 本稿では,運動視差を伴わずに瞬時に初期化する6自由度単眼視覚オドメトリを提案する。 我々の主な貢献は1dofの翻訳量から5dofの相対回転と翻訳方向を推定するポーズ推定器である。 単一の視覚のみの環境ではスケールは観測できないが、(物理的に正確ではないとしても)軌道全体にわたって一貫したスケールを推定することが最重要である。 本手法では,回転のみの動作では奥行き誤差がユーザには認識できないという事実を利用する。 しかし、ユーザーがデバイスを翻訳し始めると、深さが知覚可能になり、一貫したスケールを推定できる。 提案アルゴリズムは2つのモード間で自然に遷移する。 公開データセットと合成データの両方で、コントリビューションの広範な検証を行っています。 提案手法は,低パララックス構成の文献で用いられる6自由度姿勢推定の古典的アプローチに勝ることを示す。 本研究では,実データを用いた相対ポーズ問題のためのデータセットをリリースし,相対ポーズ問題に対する今後のソリューションとの比較を容易にする。 当社のソリューションは,InstagramやFacebookなどのプラットフォーム上でのワールドロックされたARエフェクトにおいて,フルオドメトリあるいはサポート対象のSLAMシステム(ARKit, ARCore)の事前SLAMコンポーネントとして使用されています。

Mobile AR applications benefit from fast initialization to display world-locked effects instantly. However, standard visual odometry or SLAM algorithms require motion parallax to initialize (see Figure 1) and, therefore, suffer from delayed initialization. In this paper, we present a 6-DoF monocular visual odometry that initializes instantly and without motion parallax. Our main contribution is a pose estimator that decouples estimating the 5-DoF relative rotation and translation direction from the 1-DoF translation magnitude. While scale is not observable in a monocular vision-only setting, it is still paramount to estimate a consistent scale over the whole trajectory (even if not physically accurate) to avoid AR effects moving erroneously along depth. In our approach, we leverage the fact that depth errors are not perceivable to the user during rotation-only motion. However, as the user starts translating the device, depth becomes perceivable and so does the capability to estimate consistent scale. Our proposed algorithm naturally transitions between these two modes. We perform extensive validations of our contributions with both a publicly available dataset and synthetic data. We show that the proposed pose estimator outperforms the classical approaches for 6-DoF pose estimation used in the literature in low-parallax configurations. We release a dataset for the relative pose problem using real data to facilitate the comparison with future solutions for the relative pose problem. Our solution is either used as a full odometry or as a preSLAM component of any supported SLAM system (ARKit, ARCore) in world-locked AR effects on platforms such as Instagram and Facebook.
翻訳日:2021-08-02 12:59:40 公開日:2021-07-30
# sparse-to-dense特徴マッチング:3次元意味セグメンテーションのためのドメイン適応におけるドメイン内およびドメイン間クロスモーダル学習

Sparse-to-dense Feature Matching: Intra and Inter domain Cross-modal Learning in Domain Adaptation for 3D Semantic Segmentation ( http://arxiv.org/abs/2107.14724v1 )

ライセンス: Link先を確認
Duo Peng, Yinjie Lei, Wen Li, Pingping Zhang and Yulan Guo(参考訳) 新しいドメインにおけるアノテーションの欠如に直面する場合、ドメイン適応は成功に不可欠である。 3Dポイントクラウド上でのラベリングプロセスの膨大な時間消費として、3Dセマンティックセグメンテーションのドメイン適応は非常に期待できる。 マルチモーダルデータセットの増加に伴い、大量の2D画像が3Dポイントクラウド以外にアクセス可能である。 そこで本研究では,領域内および領域間クロスモーダル学習による3次元領域適応のための2次元データをさらに活用することを提案する。 ドメイン内クロスモーダル学習については、既存のほとんどの研究は、高密度の2Dピクセルワイドな特徴とスパース3Dポイントワイドな特徴を同一サイズにサンプリングし、多くの有用な2D特徴を放棄している。 この問題に対処するために,dscml(dynamic sparse-to-dense cross modal learning)を提案する。 ドメイン間クロスモーダル学習では,高次モーダル相補性向上を目的とした意味内容の異なる2次元および3次元データに対して,クロスモーダル適応学習(CMAL)をさらに進める。 我々は、昼夜、国間、データセットを含む様々なマルチモダリティドメイン適応設定の下でモデルを評価することにより、すべての設定において、ユニモダリティおよびマルチモダリティドメイン適応法に対して大きな改善をもたらす。

Domain adaptation is critical for success when confronting with the lack of annotations in a new domain. As the huge time consumption of labeling process on 3D point cloud, domain adaptation for 3D semantic segmentation is of great expectation. With the rise of multi-modal datasets, large amount of 2D images are accessible besides 3D point clouds. In light of this, we propose to further leverage 2D data for 3D domain adaptation by intra and inter domain cross modal learning. As for intra-domain cross modal learning, most existing works sample the dense 2D pixel-wise features into the same size with sparse 3D point-wise features, resulting in the abandon of numerous useful 2D features. To address this problem, we propose Dynamic sparse-to-dense Cross Modal Learning (DsCML) to increase the sufficiency of multi-modality information interaction for domain adaptation. For inter-domain cross modal learning, we further advance Cross Modal Adversarial Learning (CMAL) on 2D and 3D data which contains different semantic content aiming to promote high-level modal complementarity. We evaluate our model under various multi-modality domain adaptation settings including day-to-night, country-to-country and dataset-to-dataset, brings large improvements over both uni-modal and multi-modal domain adaptation methods on all settings.
翻訳日:2021-08-02 12:59:15 公開日:2021-07-30
# CTR予測におけるSparse Group Lassoを用いたニューラルネットワークの適応最適化

Adaptive Optimizers with Sparse Group Lasso for Neural Networks in CTR Prediction ( http://arxiv.org/abs/2107.14432v1 )

ライセンス: Link先を確認
Yun Yue, Yongchao Liu, Suo Tong, Minghao Li, Zhen Zhang, Chunyang Wen, Huanjun Bao, Lihong Gu, Jinjie Gu, Yixiang Mu(参考訳) 我々は,momentum,adagrad,ad am,amsgrad,adahessia nなど,ディープラーニングにおける適応オプティマイザ群にsparse group lassoのレギュラライザを追加する新しいフレームワークを開発し,それに従ってgroup momentum,group adagrad,group adam,group amsgrad,group adahessianなどと呼ばれる新しいクラスのオプティマイザを作成する。 原始双対法に基づく確率凸設定において理論的に証明された収束保証を確立する。 我々は,最先端のディープラーニングモデルを用いた3つの大規模実世界広告クリックデータセットにおける新しいオプティマイザの正規化効果を評価する。 実験結果から, 初期最適化手法と大切削方式を用いた後処理法を比較すると, モデルの性能は同一の空間レベルで有意に向上できることがわかった。 さらに, ダイオードプルーニングを伴わない場合と比較して, 提案手法は極めて高いスパルシティーを達成でき, 優れた性能, 高い競合性能が得られる。

We develop a novel framework that adds the regularizers of the sparse group lasso to a family of adaptive optimizers in deep learning, such as Momentum, Adagrad, Adam, AMSGrad, AdaHessian, and create a new class of optimizers, which are named Group Momentum, Group Adagrad, Group Adam, Group AMSGrad and Group AdaHessian, etc., accordingly. We establish theoretically proven convergence guarantees in the stochastic convex settings, based on primal-dual methods. We evaluate the regularized effect of our new optimizers on three large-scale real-world ad click datasets with state-of-the-art deep learning models. The experimental results reveal that compared with the original optimizers with the post-processing procedure which uses the magnitude pruning method, the performance of the models can be significantly improved on the same sparsity level. Furthermore, in comparison to the cases without magnitude pruning, our methods can achieve extremely high sparsity with significantly better or highly competitive performance.
翻訳日:2021-08-02 12:58:22 公開日:2021-07-30
# コンセプトドリフトのための小さな機械学習

Tiny Machine Learning for Concept Drift ( http://arxiv.org/abs/2107.14759v1 )

ライセンス: Link先を確認
Simone Disabato and Manuel Roveri(参考訳) Tiny Machine Learning (TML)は、組み込みシステムとIoTユニットで動作可能な機械学習およびディープラーニング技術を設計することを目的としている新しい研究分野である。 興味深いことに、関連する文献は主に、機械学習モデルとディープラーニングモデルの推論フェーズの計算とメモリ需要の削減に焦点を当てている。 同時に、トレーニングは通常、クラウドまたはエッジコンピューティングシステム(より大きなメモリと計算要求のため)で実行されると仮定される。 この仮定は、データを生成するプロセスが概念ドリフト(例えば、周期性や季節性の影響、センサーやアクチュエータに影響を及ぼす障害や機能不全、あるいはユーザの振る舞いの変化)によって影響を受ける場合、tmlソリューションが時代遅れになる可能性がある。 本稿では,ディープラーニング特徴抽出器をベースとしたTiny Machine Learning for Concept Drift(TML-CD)ソリューションと,データ生成プロセスに影響を与える概念ドリフトに対処可能なハイブリッド適応モジュールを統合したk-nearest neighbors分類器を紹介する。 この適応モジュールは、TML-CDの知識ベースを(受動的に)継続的に更新し、同時に変更検出テストを使用して(アクティブな方法で)変更を検査し、廃れた知識を取り除き、概念のドリフトに迅速に適応する。 画像と音声のベンチマークによる実験結果から,TML-CDを市販マイクロコントローラユニット3台に移植することで,現実の広汎なシステムにおける提案手法の有効性が示された。

Tiny Machine Learning (TML) is a new research area whose goal is to design machine and deep learning techniques able to operate in Embedded Systems and IoT units, hence satisfying the severe technological constraints on memory, computation, and energy characterizing these pervasive devices. Interestingly, the related literature mainly focused on reducing the computational and memory demand of the inference phase of machine and deep learning models. At the same time, the training is typically assumed to be carried out in Cloud or edge computing systems (due to the larger memory and computational requirements). This assumption results in TML solutions that might become obsolete when the process generating the data is affected by concept drift (e.g., due to periodicity or seasonality effect, faults or malfunctioning affecting sensors or actuators, or changes in the users' behavior), a common situation in real-world application scenarios. For the first time in the literature, this paper introduces a Tiny Machine Learning for Concept Drift (TML-CD) solution based on deep learning feature extractors and a k-nearest neighbors classifier integrating a hybrid adaptation module able to deal with concept drift affecting the data-generating process. This adaptation module continuously updates (in a passive way) the knowledge base of TML-CD and, at the same time, employs a Change Detection Test to inspect for changes (in an active way) to quickly adapt to concept drift by removing the obsolete knowledge. Experimental results on both image and audio benchmarks show the effectiveness of the proposed solution, whilst the porting of TML-CD on three off-the-shelf micro-controller units shows the feasibility of what is proposed in real-world pervasive systems.
翻訳日:2021-08-02 12:58:00 公開日:2021-07-30
# Marginal Product Basis システムを用いた多次元関数データ解析

Efficient Multidimensional Functional Data Analysis Using Marginal Product Basis Systems ( http://arxiv.org/abs/2107.14728v1 )

ライセンス: Link先を確認
William Consagra, Arun Venkataraman, Xing Qiu(参考訳) ニューロイメージングや統計学などの領域から得られた現代のデータセットは、しばしばテンソル値データのランダムなサンプルとして現れ、基礎となる滑らかな多次元ランダム関数のノイズの多い観測として理解することができる。 関数型データ分析の伝統的な技法の多くは次元性の呪いに悩まされ、ドメインの次元が大きくなるにつれてすぐに魅力を増す。 本稿では,呪文の複数の表現に対して無害なテンソルのランダムなサンプルから多次元連続表現を学習するためのフレームワークを提案する。 これらの表現は乗法的に分離可能と定義され、多次元関数主成分分析と類似した$l^{2}$の最適性基準に従ってデータに適合する。 得られた推定問題は、注意深く定義された観測データの還元変換のテンソル分解によって効率よく解けることを示す。 正規化と次元の縮小の両立について論じる。 シミュレーション実験により,提案手法の競合手法に対する利点を実証した。 我々は、ニューロイメージングにおける真のデータ応用で結論付ける。

Modern datasets, from areas such as neuroimaging and geostatistics, often come in the form of a random sample of tensor-valued data which can be understood as noisy observations of an underlying smooth multidimensional random function. Many of the traditional techniques from functional data analysis are plagued by the curse of dimensionality and quickly become intractable as the dimension of the domain increases. In this paper, we propose a framework for learning multidimensional continuous representations from a random sample of tensors that is immune to several manifestations of the curse. These representations are defined to be multiplicatively separable and adapted to the data according to an $L^{2}$ optimality criteria, analogous to a multidimensional functional principal components analysis. We show that the resulting estimation problem can be solved efficiently by the tensor decomposition of a carefully defined reduction transformation of the observed data. The incorporation of both regularization and dimensionality reduction is discussed. The advantages of the proposed method over competing methods are demonstrated in a simulation study. We conclude with a real data application in neuroimaging.
翻訳日:2021-08-02 12:57:31 公開日:2021-07-30
# DarkLighter:UAV追跡の暗さを明るくする

DarkLighter: Light Up the Darkness for UAV Tracking ( http://arxiv.org/abs/2107.14389v1 )

ライセンス: Link先を確認
Junjie Ye, Changhong Fu, Guangze Zheng, Ziang Cao, Bowen Li(参考訳) 近年、生物の視覚システムを模倣することを目的とした畳み込みニューラルネットワーク(CNN)ベースのトラッカーの急速な進化と将来的な性能を目撃している。 しかし、現在のCNNベースのトラッカーは、既存のトレーニングセットに欠けている低照度シーンに対して、ほとんど一般化できない。 無人航空機(UAV)トラッキングベースのアプリケーションで頻繁に発生する識別不能な夜間シナリオでは、最先端のSOTAトラッカーの堅牢性は著しく低下する。 そこで本研究では,暗いところでの空中追跡を容易にするため,低照度画像エンハンサーdarlighterを提案する。 ライトウェイトマップ推定ネットワーク、すなわちme-netを訓練し、照明マップとノイズマップを共同で効率的に推定する。 いくつかのSOTAトラッカーで多数のUAVダークトラッキングシーンで実験が行われた。 排気評価は、高効率でDarkLighterの信頼性と普遍性を示す。 さらに、DarkLighterは一般的なUAVシステムにも実装されている。 夜間の実際のテストでは、実用性と信頼性が検証されている。

Recent years have witnessed the fast evolution and promising performance of the convolutional neural network (CNN)-based trackers, which aim at imitating biological visual systems. However, current CNN-based trackers can hardly generalize well to low-light scenes that are commonly lacked in the existing training set. In indistinguishable night scenarios frequently encountered in unmanned aerial vehicle (UAV) tracking-based applications, the robustness of the state-of-the-art (SOTA) trackers drops significantly. To facilitate aerial tracking in the dark through a general fashion, this work proposes a low-light image enhancer namely DarkLighter, which dedicates to alleviate the impact of poor illumination and noise iteratively. A lightweight map estimation network, i.e., ME-Net, is trained to efficiently estimate illumination maps and noise maps jointly. Experiments are conducted with several SOTA trackers on numerous UAV dark tracking scenes. Exhaustive evaluations demonstrate the reliability and universality of DarkLighter, with high efficiency. Moreover, DarkLighter has further been implemented on a typical UAV system. Real-world tests at night scenes have verified its practicability and dependability.
翻訳日:2021-08-02 12:56:55 公開日:2021-07-30
# SNE-RoadSeg+:depth-Normal TranslationとDeep Supervisionによる自由空間検出

SNE-RoadSeg+: Rethinking Depth-Normal Translation and Deep Supervision for Freespace Detection ( http://arxiv.org/abs/2107.14599v1 )

ライセンス: Link先を確認
Hengli Wang, Rui Fan, Peide Cai, Ming Liu(参考訳) 自由空間検出は自律運転知覚の基本的な構成要素である。 近年,この課題に対してディープ畳み込みニューラルネットワーク(DCNN)が優れた性能を発揮している。 特に,表面正規推定器(SNE)とデータ融合DCNN(RoadSeg)に基づく提案手法であるSNE-RoadSegは,自由空間検出において優れた性能を示した。 しかし、SNE-RoadSegは計算集約的であり、リアルタイムに実行することは困難である。 本稿では,SNE-RoadSegのアップグレード版であるSNE-RoadSeg+を紹介する。 SNE-RoadSeg+は,1) より正確な表面正規推定を行うモジュールであるSNE+と,2) 深層監視を用いて精度と効率のトレードオフを大幅に最小化できるデータ融合DCNNであるRoadSeg+から構成される。 広範な実験結果から,sne+が表面正常推定に有効であること,およびsne-roadseg+が他の自由空間検出法よりも優れた性能を示すことができた。 具体的には、我々のSNE-RoadSeg+はリアルタイムに動作し、一方、KITTIロードベンチマークにおける最先端のパフォーマンスを達成する。 私たちのプロジェクトページはhttps://www.sne-road seg.site/sne-roadseg -plusです。

Freespace detection is a fundamental component of autonomous driving perception. Recently, deep convolutional neural networks (DCNNs) have achieved impressive performance for this task. In particular, SNE-RoadSeg, our previously proposed method based on a surface normal estimator (SNE) and a data-fusion DCNN (RoadSeg), has achieved impressive performance in freespace detection. However, SNE-RoadSeg is computationally intensive, and it is difficult to execute in real time. To address this problem, we introduce SNE-RoadSeg+, an upgraded version of SNE-RoadSeg. SNE-RoadSeg+ consists of 1) SNE+, a module for more accurate surface normal estimation, and 2) RoadSeg+, a data-fusion DCNN that can greatly minimize the trade-off between accuracy and efficiency with the use of deep supervision. Extensive experimental results have demonstrated the effectiveness of our SNE+ for surface normal estimation and the superior performance of our SNE-RoadSeg+ over all other freespace detection approaches. Specifically, our SNE-RoadSeg+ runs in real time, and meanwhile, achieves the state-of-the-art performance on the KITTI road benchmark. Our project page is at https://www.sne-road seg.site/sne-roadseg -plus.
翻訳日:2021-08-02 12:56:39 公開日:2021-07-30
# 正確なループクロージャ検出のための自動語彙とグラフ検証

Automatic Vocabulary and Graph Verification for Accurate Loop Closure Detection ( http://arxiv.org/abs/2107.14611v1 )

ライセンス: Link先を確認
Haosong Yue and Jinyu Miao and Weihai Chen and Wei Wang and Fanghong Guo and Zhengguo Li(参考訳) 長期同時局所化とマッピングにおける事前訪問場所の局所化 ループ閉鎖検出(LCD)は蓄積した不整合を補正する重要な手法である。 最も効率的かつ効率的なソリューションの1つとして、Bag-of-Words (BoW) は機能と関連付け、ループを検出する視覚語彙を構築している。 語彙をオフラインで構築するほとんどの既存のアプローチは、試行錯誤によって語彙のスケールを決定する。 さらに,bow-based法では視覚特徴の位置を無視するため,知覚的エイリアスによりアルゴリズムの精度が低下する。 これらの欠点を克服するために,ノードのradiiと特徴記述子のドリフトの比較に基づく自然収束基準を提案する。 さらに,単語の幾何学的位置が複雑性の無視できる増加に関与し,LCDの精度を大幅に向上させることができるように,候補ループを検証する新しいトポロジカルグラフ検証手法を提案する。 様々な公開データセットにおける実験といくつかの最先端アルゴリズムとの比較により,提案手法の性能が検証された。

Localizing pre-visited places during long-term simultaneous localization and mapping, i.e. loop closure detection (LCD), is a crucial technique to correct accumulated inconsistencies. As one of the most effective and efficient solutions, Bag-of-Words (BoW) builds a visual vocabulary to associate features and then detect loops. Most existing approaches that build vocabularies off-line determine scales of the vocabulary by trial-and-error, which often results in unreasonable feature association. Moreover, the accuracy of the algorithm usually declines due to perceptual aliasing, as the BoW-based method ignores the positions of visual features. To overcome these disadvantages, we propose a natural convergence criterion based on the comparison between the radii of nodes and the drifts of feature descriptors, which is then utilized to build the optimal vocabulary automatically. Furthermore, we present a novel topological graph verification method for validating candidate loops so that geometrical positions of the words can be involved with a negligible increase in complexity, which can significantly improve the accuracy of LCD. Experiments on various public datasets and comparisons against several state-of-the-art algorithms verify the performance of our proposed approach.
翻訳日:2021-08-02 12:56:17 公開日:2021-07-30
# 楽しいニューラルビデオポートレート

Relightable Neural Video Portrait ( http://arxiv.org/abs/2107.14735v1 )

ライセンス: Link先を確認
Youjia Wang, Taotao Zhou, Minzhang Li, Teng Xu, Minye Wu, Lan Xu, Jingyi Yu(参考訳) Photo-realistic Face Video portrait Reenactmentは、バーチャルプロダクションと多くのVR/AR体験に役立つ。 ポートレートは高いリアリズムと目標環境との整合性を維持する必要があるため、課題は残る。 本稿では,任意の背景と照明条件を持つターゲット俳優の肖像映像に,頭部のポーズと表情をソースアクターから転送する,再生可能なニューラルビデオポートレート,同時リライティングと再現方式を提案する。 提案手法は, 4次元反射場学習, モデルベース顔認識, ターゲット認識ニューラルレンダリングを組み合わせた。 具体的には,ハイクオリティなolat画像セットとアルファマットを合成するレンダリング・ビデオ翻訳ネットワークを採用する。 次に,信頼性の高い明示的な制御を可能にするための意味認識型顔正規化スキームと,高品質な反射場推論のためのコンテンツ,セグメンテーション,時間情報を同時にエンコードするマルチフレームマルチタスク学習戦略を設計する。 訓練後,本手法により,対象パフォーマーの写実的かつ制御可能な映像画像編集が可能となる。 ソースビデオ入力に同一のハイブリッド顔キャプチャおよび正規化スキームを適用して信頼性の高い顔ポーズ及び表情編集を行い、一方、明快なアルファおよびolat出力により高品質なリライトおよび背景編集が可能となる。 再現と再現を同時に行うことで、様々なバーチャルプロダクションおよびビデオリライトアプリケーションにおけるリアリズムを改善することができる。

Photo-realistic facial video portrait reenactment benefits virtual production and numerous VR/AR experiences. The task remains challenging as the portrait should maintain high realism and consistency with the target environment. In this paper, we present a relightable neural video portrait, a simultaneous relighting and reenactment scheme that transfers the head pose and facial expressions from a source actor to a portrait video of a target actor with arbitrary new backgrounds and lighting conditions. Our approach combines 4D reflectance field learning, model-based facial performance capture and target-aware neural rendering. Specifically, we adopt a rendering-to-video translation network to first synthesize high-quality OLAT imagesets and alpha mattes from hybrid facial performance capture results. We then design a semantic-aware facial normalization scheme to enable reliable explicit control as well as a multi-frame multi-task learning strategy to encode content, segmentation and temporal information simultaneously for high-quality reflectance field inference. After training, our approach further enables photo-realistic and controllable video portrait editing of the target performer. Reliable face poses and expression editing is obtained by applying the same hybrid facial capture and normalization scheme to the source video input, while our explicit alpha and OLAT output enable high-quality relit and background editing. With the ability to achieve simultaneous relighting and reenactment, we are able to improve the realism in a variety of virtual production and video rewrite applications.
翻訳日:2021-08-02 12:55:58 公開日:2021-07-30
# M/EEGにおける線型リーマン接空間モデルパラメータの解釈について

On the interpretation of linear Riemannian tangent space model parameters in M/EEG ( http://arxiv.org/abs/2107.14398v1 )

ライセンス: Link先を確認
Reinmar J. Kobler, Jun-Ichiro Hirayama, Lea Hehenberger Catarina Lopes-Dias, Gernot R. M\"uller-Putz, Motoaki Kawanabe(参考訳) リーマンタンジェント空間法は、脳磁図(MEG)と脳波(EEG)に基づく脳-コンピュータインタフェースやバイオマーカー開発における最先端のパフォーマンスを提供する。 バイオマーカー開発に特に関係する1つの制限は、確立されたコンポーネントベースの手法と比較して限定的なモデル解釈可能性である。 本稿では,線形接空間モデルのパラメータを解釈可能なパターンに変換する手法を提案する。 典型的な仮定を用いて,本手法が潜在源の真のパターンを同定し,対象信号の符号化を行うことを示す。 シミュレーションと2つの実際のMEGおよびEEGデータセットにおいて、提案手法の有効性を実証し、モデル仮定に違反した場合の挙動を考察する。 その結果, リーマン接空間法は観測点パターンの違いに頑健であることが確認された。 このロバスト性は関連するパターンにも転移することがわかった。

Riemannian tangent space methods offer state-of-the-art performance in magnetoencephalograp hy (MEG) and electroencephalograp hy (EEG) based applications such as brain-computer interfaces and biomarker development. One limitation, particularly relevant for biomarker development, is limited model interpretability compared to established component-based methods. Here, we propose a method to transform the parameters of linear tangent space models into interpretable patterns. Using typical assumptions, we show that this approach identifies the true patterns of latent sources, encoding a target signal. In simulations and two real MEG and EEG datasets, we demonstrate the validity of the proposed approach and investigate its behavior when the model assumptions are violated. Our results confirm that Riemannian tangent space methods are robust to differences in the source patterns across observations. We found that this robustness property also transfers to the associated patterns.
翻訳日:2021-08-02 12:54:56 公開日:2021-07-30
# ディファレンシャルプライバシと差分推定子を用いた敵対的ストリーミングの枠組み

A Framework for Adversarial Streaming via Differential Privacy and Difference Estimators ( http://arxiv.org/abs/2107.14527v1 )

ライセンス: Link先を確認
Idan Attias, Edith Cohen, Moshe Shechner, Uri Stemmer(参考訳) ストリーミングアルゴリズムは、限られたメモリ量で大規模なデータストリームを処理するアルゴリズムである。 古典的なストリーミングアルゴリズムは、入力ストリームが予め固定されていると仮定して動作する。 近年,適応的相手によって入力ストリームが選択された場合でも,証明可能な保証を提供するストリーミングアルゴリズムの研究への関心が高まっている。 このようなストリーミングアルゴリズムは逆ロバストであると言われている。 本稿では,Hassidimらが最近提案した2つのフレームワークをハイブリッドした,逆ストリーミングのための新しいフレームワークを提案する。 (2020年)、ウッドラフと周(2021年)。 最近提案されたフレームワークは、それぞれ独自の強みと弱みを持つ、まったく異なるアイデアに依存している。 これら2つのフレームワーク(非自明な方法で)を、ターンタイルストリームの優れたパフォーマンスを得るために、両方のアプローチから得られる単一のハイブリッドフレームワークに組み合わせます。

Streaming algorithms are algorithms for processing large data streams, using only a limited amount of memory. Classical streaming algorithms operate under the assumption that the input stream is fixed in advance. Recently, there is a growing interest in studying streaming algorithms that provide provable guarantees even when the input stream is chosen by an adaptive adversary. Such streaming algorithms are said to be {\em adversarially-robust }. We propose a novel framework for adversarial streaming that hybrids two recently suggested frameworks by Hassidim et al. (2020) and by Woodruff and Zhou (2021). These recently suggested frameworks rely on very different ideas, each with its own strengths and weaknesses. We combine these two frameworks (in a non-trivial way) into a single hybrid framework that gains from both approaches to obtain superior performances for turnstile streams.
翻訳日:2021-08-02 12:54:41 公開日:2021-07-30
# 機械学習を用いた射出成形プロセスのサロゲートモデリング

Surrogate Modelling for Injection Molding Processes using Machine Learning ( http://arxiv.org/abs/2107.14574v1 )

ライセンス: Link先を確認
Arsenii Uglov, Sergei Nikolaev, Sergei Belov, Daniil Padalitsa, Tatiana Greenkina, Marco San Biagio, Fabio Cacciatori(参考訳) 射出成形は複雑なプラスチックのモデリングにおいて最も一般的な製造方法の一つである。 技術プロセスの高速な数値シミュレーションにより、新しい製品の設計サイクルがより高速で安価になる。 本研究では,モルドフローシミュレーションプロジェクトからのデータ抽出と,機械学習モデルを用いた三次元表面上の充填時間と偏向分布の予測を含むデータ処理パイプラインのベースラインを提案する。 本稿では, 形状の特定の点に達するまでの時間に大きく影響するインジェクタゲートパラメータの情報と, 偏向予測のための幾何学的特徴を含む特徴量工学のためのアルゴリズムを提案する。 本稿では,mseおよびrmseメトリクスのベースライン値を提供するため,ベースライン機械学習モデルの提案と評価を行う。 最後に,提案手法の実行時間を計測し,モルドフローソフトウェアによるシミュレーション時間を大幅に超えることを示した。平均時間と中央値の総時間はそれぞれ約17倍,14倍の速度で,すべての解析段階の時間を比較して偏向予測を行う。 本ソリューションは,Fiat Chrysler AutomobilesとIllogic SRLの管理委員会が承認したプロトタイプWebアプリケーションに実装されている。 このサロゲートモデリング手法の有望な応用の1つとして、射出成形プロセス(ゲート配置の最適化を意味する)の技術パラメータを最適化するタスクにおいて、訓練されたモデルが高速な目的関数として使用されることを想定する。

Injection molding is one of the most popular manufacturing methods for the modeling of complex plastic objects. Faster numerical simulation of the technological process would allow for faster and cheaper design cycles of new products. In this work, we propose a baseline for a data processing pipeline that includes the extraction of data from Moldflow simulation projects and the prediction of the fill time and deflection distributions over 3-dimensional surfaces using machine learning models. We propose algorithms for engineering of features, including information of injector gates parameters that will mostly affect the time for plastic to reach the particular point of the form for fill time prediction, and geometrical features for deflection prediction. We propose and evaluate baseline machine learning models for fill time and deflection distribution prediction and provide baseline values of MSE and RMSE metrics. Finally, we measure the execution time of our solution and show that it significantly exceeds the time of simulation with Moldflow software: approximately 17 times and 14 times faster for mean and median total times respectively, comparing the times of all analysis stages for deflection prediction. Our solution has been implemented in a prototype web application that was approved by the management board of Fiat Chrysler Automobiles and Illogic SRL. As one of the promising applications of this surrogate modelling approach, we envision the use of trained models as a fast objective function in the task of optimization of technological parameters of the injection molding process (meaning optimal placement of gates), which could significantly aid engineers in this task, or even automate it.
翻訳日:2021-08-02 12:54:28 公開日:2021-07-30
# 機械学習のための原子と材料の分散表現

Distributed Representations of Atoms and Materials for Machine Learning ( http://arxiv.org/abs/2107.14664v1 )

ライセンス: Link先を確認
Luis M. Antunes, Ricardo Grau-Crespo, Keith T. Butler(参考訳) 機械学習の利用は、計算材料科学でますます一般的になりつつある。 材料化学の効果的なモデルを構築するには、有用な原子とその化合物の機械による表現が必要である。 化合物の分散表現は、原子の分散表現のプール操作によって、化学式のみから導出する。 これらの複合表現は、形成エネルギーとバンドギャップの予測のような10の異なるタスクで評価され、構造を利用する既存のベンチマークと競合し、組成のみを利用できる場合にも優れていることが判明した。 最後に,材料構造データベースにおける情報量の増大を利用する,SkipAtomという原子の分散表現を学習するための新しいアプローチを提案する。

The use of machine learning is becoming increasingly common in computational materials science. To build effective models of the chemistry of materials, useful machine-based representations of atoms and their compounds are required. We derive distributed representations of compounds from their chemical formulas only, via pooling operations of distributed representations of atoms. These compound representations are evaluated on ten different tasks, such as the prediction of formation energy and band gap, and are found to be competitive with existing benchmarks that make use of structure, and even superior in cases where only composition is available. Finally, we introduce a new approach for learning distributed representations of atoms, named SkipAtom, which makes use of the growing information in materials structure databases.
翻訳日:2021-08-02 12:53:59 公開日:2021-07-30
# データサイエンス駆動によるAmazon、Apple、Google、Microsoft株の短期分析

A data-science-driven short-term analysis of Amazon, Apple, Google, and Microsoft stocks ( http://arxiv.org/abs/2107.14695v1 )

ライセンス: Link先を確認
Shubham Ekapure, Nuruddin Jiruwala, Sohan Patnaik, Indranil SenGupta(参考訳) 本稿では,技術分析と機械/深層学習に基づく分析を組み合わせることで,トレンド分類モデルを構築する。 本論文の目的は,短期市場の動きを把握し,その基盤となる確率モデルを改善することである。 また,本論文で示した分析は,emph{model-independent}方式で実施することができる。 我々は、現在の株式市場データの価格動向に依存する短期予測を行うデータサイエンス駆動手法を実行する。 分析に基づいて、3つの異なるラベルがデータセットに対して生成される:$+1$(購入信号)、$0$(保有信号)、または$1$(販売信号)。 我々は、Amazon、Apple、Google、Microsoftの4大株価の詳細な分析を提案する。 我々は,トレンドに応じてデータセットをラベル付けする様々な技術指標を実装し,トレンド推定のために様々なモデルを訓練する。 出力の統計的分析と分類結果が得られる。

In this paper, we implement a combination of technical analysis and machine/deep learning-based analysis to build a trend classification model. The goal of the paper is to apprehend short-term market movement, and incorporate it to improve the underlying stochastic model. Also, the analysis presented in this paper can be implemented in a \emph{model-independent} fashion. We execute a data-science-driven technique that makes short-term forecasts dependent on the price trends of current stock market data. Based on the analysis, three different labels are generated for a data set: $+1$ (buy signal), $0$ (hold signal), or $-1$ (sell signal). We propose a detailed analysis of four major stocks- Amazon, Apple, Google, and Microsoft. We implement various technical indicators to label the data set according to the trend and train various models for trend estimation. Statistical analysis of the outputs and classification results are obtained.
翻訳日:2021-08-02 12:53:48 公開日:2021-07-30
# グラフに対する共通変数ミニマックス定理

A common variable minimax theorem for graphs ( http://arxiv.org/abs/2107.14747v1 )

ライセンス: Link先を確認
Ronald R. Coifman, Nicholas F. Marshall, Stefan Steinerberger(参考訳) {\mathcal{g} = \{g_1 = (v, e_1), \dots, g_m = (v, e_m)\}$ を共通の頂点集合上で定義される$m$ グラフの集合とするが、異なる辺集合は $e_1, \dots, e_m$ である。 直交的に、函数 $f : V \rightarrow \mathbb{R}$ は $G_k = (V,E_k)$ if $f(u) \sim f(v)$ if $(u, v) \in E_k$ に対して滑らかである。 我々は、$\mathcal{g}$ においてすべてのグラフに対して滑らかである非コンスタント函数が存在するかどうかの理解の問題と、それが存在すればそれを見つける方法について検討する。

Let $\mathcal{G} = \{G_1 = (V, E_1), \dots, G_m = (V, E_m)\}$ be a collection of $m$ graphs defined on a common set of vertices $V$ but with different edge sets $E_1, \dots, E_m$. Informally, a function $f :V \rightarrow \mathbb{R}$ is smooth with respect to $G_k = (V,E_k)$ if $f(u) \sim f(v)$ whenever $(u, v) \in E_k$. We study the problem of understanding whether there exists a nonconstant function that is smooth with respect to all graphs in $\mathcal{G}$, simultaneously, and how to find it if it exists.
翻訳日:2021-08-02 12:53:33 公開日:2021-07-30
# 生成逆数ネットワークによる合成フローベース暗号攻撃生成

Synthetic flow-based cryptomining attack generation through Generative Adversarial Networks ( http://arxiv.org/abs/2107.14776v1 )

ライセンス: Link先を確認
Alberto Mozo, \'Angel Gonz\'alez-Prieto, Antonio Pastor, Sandra G\'omez-Canaval, Edgar Talavera(参考訳) インターネットにおけるサイバー攻撃の増加により、フローベースのデータセットは、ネットワークベースの侵入検知システム(IDS)で動作する機械学習(ML)コンポーネントのパフォーマンス向上に不可欠である。 攻撃解析における既存のネットワークトラヒックデータ不足を克服するために,近年の研究では,合成フロー型ネットワークトラヒック生成のための生成型逆ネットワーク (gans) を提案する。 データプライバシは、そのようなネットワークデータを処理する際に、ますます強力な要件として現れており、これは、合成データが実際のデータを完全に置き換えることのできるソリューションを見つけることを示唆している。 GANトレーニングの不収束のため、既存のソリューションでは、IDS MLコンポーネントのトレーニングにおいて、実際のデータを完全に置換できる高品質の完全合成データを生成することはできない。 そのため、データ拡張コンポーネントとしてのみ動作する合成データとリアルを混在させ、実際のデータを使用するとプライバシー侵害が発生する。 そこで本研究では,ganが生成する合成データの品質を,実データとmlタスクに使用する際の性能の両方について,新しい決定論的手法を提案する。 副産物として、ganトレーニング中に最適な実行ジェネレータを選択するためにこれらのメトリクスを使用するヒューリスティックを示し、停止基準に導く。 同じMLタスクで異なる種類の合成データを使用する場合に、最も優れたGANを選択するために、さらなるヒューリスティックを提案する。 本稿では,Wasserstein GANの拡張版を用いて,合成暗号攻撃トラフィックと通常のトラフィックフローに基づくデータを生成することで,提案手法の有効性を示す。 生成した合成ネットワークトラフィックは、MLベースの暗号検出器のトレーニングにおいて、実データが使用されないため、MLベースの暗号検出器のトレーニングにおいて、同様の性能を取得し、プライバシー侵害を回避することができることを示す。

Due to the growing rise of cyber attacks in the Internet, flow-based data sets are crucial to increase the performance of the Machine Learning (ML) components that run in network-based intrusion detection systems (IDS). To overcome the existing network traffic data shortage in attack analysis, recent works propose Generative Adversarial Networks (GANs) for synthetic flow-based network traffic generation. Data privacy is appearing more and more as a strong requirement when processing such network data, which suggests to find solutions where synthetic data can fully replace real data. Because of the ill-convergence of the GAN training, none of the existing solutions can generate high-quality fully synthetic data that can totally substitute real data in the training of IDS ML components. Therefore, they mix real with synthetic data, which acts only as data augmentation components, leading to privacy breaches as real data is used. In sharp contrast, in this work we propose a novel deterministic way to measure the quality of the synthetic data produced by a GAN both with respect to the real data and to its performance when used for ML tasks. As a byproduct, we present a heuristic that uses these metrics for selecting the best performing generator during GAN training, leading to a stopping criterion. An additional heuristic is proposed to select the best performing GANs when different types of synthetic data are to be used in the same ML task. We demonstrate the adequacy of our proposal by generating synthetic cryptomining attack traffic and normal traffic flow-based data using an enhanced version of a Wasserstein GAN. We show that the generated synthetic network traffic can completely replace real data when training a ML-based cryptomining detector, obtaining similar performance and avoiding privacy violations, since real data is not used in the training of the ML-based detector.
翻訳日:2021-08-02 12:53:13 公開日:2021-07-30
# データ駆動型時間領域誘導分極モデル

Data-driven modeling of time-domain induced polarization ( http://arxiv.org/abs/2107.14796v1 )

ライセンス: Link先を確認
Charles L. B\'erub\'e and Pierre B\'erub\'e(参考訳) 本稿では,変動オートエンコーダ(VAE)を用いた時間領域誘導分極(IP)現象のデータ駆動モデルを提案する。 VAEは、低次元表現として広範なデータセットをエンコードする潜在統計分布を学習することを目的としたベイズニューラルネットワークである。 カナダ,米国,カザフスタンの各地域で1600,319のip減衰曲線を収集し,深いvaeを訓練するためにそれらをコンパイルした。 提案するディープラーニングアプローチは、厳密な教師なしとデータ駆動であり、手作業による処理やIPデータの真実のラベル付けは不要である。 さらに、当社のVAEアプローチは、経験的Cole-ColeおよびDebye分解モデル、単純なパワーローモデル、その他の高度なメカニスティックモデルによるIPパラメトリゼーションの落とし穴を回避する。 本研究では,(1)代表合成データ生成法,(2)教師なしベイズ雑音推定法,(3)信号対雑音比の定量的評価法,(4)自動異常検出法,の4つのipデータのモデル化と処理方法を示す。 また,IPコンパイルの潜在表現を解釈し,その1次元とIP崩壊の平均電荷性との間に強い相関関係を示す。 最後に,VAE潜時空間次元の異なる実験を行い,1つの実数値スカラーパラメータがIPデータコンパイルを符号化するのに十分な情報を含んでいることを示す。 この新たな発見は、複数の自由パラメータで支配される数学的モデルを用いた時間領域IPデータのモデリングが曖昧であることを示し、一方、平均電荷率のみのモデリングは正当化されている。 ジオロケーションからの新しいipデータに対して、準備されたモデルの実装は、応用地球物理学コミュニティのためにオープンソースのpythonコードとして利用可能です。

We present a novel approach for data-driven modeling of the time-domain induced polarization (IP) phenomenon using variational autoencoders (VAE). VAEs are Bayesian neural networks that aim to learn a latent statistical distribution to encode extensive data sets as lower dimension representations. We collected 1 600 319 IP decay curves in various regions of Canada, the United States and Kazakhstan, and compiled them to train a deep VAE. The proposed deep learning approach is strictly unsupervised and data-driven: it does not require manual processing or ground truth labeling of IP data. Moreover, our VAE approach avoids the pitfalls of IP parametrization with the empirical Cole-Cole and Debye decomposition models, simple power-law models, or other sophisticated mechanistic models. We demonstrate four applications of VAEs to model and process IP data: (1) representative synthetic data generation, (2) unsupervised Bayesian denoising and data uncertainty estimation, (3) quantitative evaluation of the signal-to-noise ratio, and (4) automated outlier detection. We also interpret the IP compilation's latent representation and reveal a strong correlation between its first dimension and the average chargeability of IP decays. Finally, we experiment with varying VAE latent space dimensions and demonstrate that a single real-valued scalar parameter contains sufficient information to encode our extensive IP data compilation. This new finding suggests that modeling time-domain IP data using mathematical models governed by more than one free parameter is ambiguous, whereas modeling only the average chargeability is justified. A pre-trained implementation of our model -- readily applicable to new IP data from any geolocation -- is available as open-source Python code for the applied geophysics community.
翻訳日:2021-08-02 12:52:43 公開日:2021-07-30
# 自動運転安全概念の統一化とデータ駆動合成に向けて

Towards the Unification and Data-Driven Synthesis of Autonomous Vehicle Safety Concepts ( http://arxiv.org/abs/2107.14412v1 )

ライセンス: Link先を確認
Andrea Bajcsy, Karen Leung, Edward Schmerling, Marco Pavone(参考訳) 安全クリティカルな自動運転車(AV)が近日中に私たちの社会に普及するにつれて、信頼されたAV配備のための多くの安全概念が産業や学界で最近提案されている。 しかし、「適切な」安全概念に同意することは、いまだ明白な課題である。 本稿では、既存の安全概念を比較するための統一的な数学的枠組みとしてハミルトン・ヤコビ(HJ)リーチビリティ(HJ)を用いることを提唱し、データ駆動方式でモデリング前提を拡張する方法を提案する。 具体的には、(i)既存の主要な安全概念をHJリーチビリティフレームワークに組み込むことにより、モデリングの仮定を比較・対比するための共通言語を可能にすることを示し、(ii)HJリーチビリティは、データ駆動の文脈において、安全の2つの重要な側面、すなわち責任とコンテキスト依存性を効果的に推論するための帰納的バイアスとして機能することを示します。

As safety-critical autonomous vehicles (AVs) will soon become pervasive in our society, a number of safety concepts for trusted AV deployment have been recently proposed throughout industry and academia. Yet, agreeing upon an "appropriate" safety concept is still an elusive task. In this paper, we advocate for the use of Hamilton Jacobi (HJ) reachability as a unifying mathematical framework for comparing existing safety concepts, and propose ways to expand its modeling premises in a data-driven fashion. Specifically, we show that (i) existing predominant safety concepts can be embedded in the HJ reachability framework, thereby enabling a common language for comparing and contrasting modeling assumptions, and (ii) HJ reachability can serve as an inductive bias to effectively reason, in a data-driven context, about two critical, yet often overlooked aspects of safety: responsibility and context-dependency.
翻訳日:2021-08-02 12:51:21 公開日:2021-07-30
# グラフニューラルネットワークとアーティストの類似性

Artist Similarity with Graph Neural Networks ( http://arxiv.org/abs/2107.14541v1 )

ライセンス: Link先を確認
Filip Korzeniowski, Sergio Oramas, Fabien Gouyon(参考訳) アーティストの類似性は、大規模な音楽コレクションの発見の組織化、理解、そしてその後の促進に重要な役割を果たしている。 本稿では,三重項損失を学習したグラフニューラルネットワークを用いてアーティスト間の類似性を計算するためのハイブリッドアプローチを提案する。 グラフニューラルネットワークアーキテクチャを使う斬新な方法は、アーティスト接続のグラフのトポロジーとコンテンツの特徴を組み合わせることで、アーティストを類似性をエンコードするベクトル空間に埋め込むことである。 提案手法を評価するために,AllMusicのアーティスト類似性を含む新たなOLGAデータセットとAtlassianBrainzのコンテンツ特徴をコンパイルする。 17,673人のアーティストを抱えるこのデータセットは、これまでで最大の学術的アーティストの類似性データセットだ。 さらに、より大規模なプロプライエタリなデータセットを実験することで、このアプローチのスケーラビリティを示す。 その結果,音楽の類似性に対する現在の最先端手法よりも,提案手法の優位性を示す。 最後に、OLGAデータセットがアーティストの類似性に関するデータ駆動モデルの研究を促進することを期待する。

Artist similarity plays an important role in organizing, understanding, and subsequently, facilitating discovery in large collections of music. In this paper, we present a hybrid approach to computing similarity between artists using graph neural networks trained with triplet loss. The novelty of using a graph neural network architecture is to combine the topology of a graph of artist connections with content features to embed artists into a vector space that encodes similarity. To evaluate the proposed method, we compile the new OLGA dataset, which contains artist similarities from AllMusic, together with content features from AcousticBrainz. With 17,673 artists, this is the largest academic artist similarity dataset that includes content-based features to date. Moreover, we also showcase the scalability of our approach by experimenting with a much larger proprietary dataset. Results show the superiority of the proposed approach over current state-of-the-art methods for music similarity. Finally, we hope that the OLGA dataset will facilitate research on data-driven models for artist similarity.
翻訳日:2021-08-02 12:51:01 公開日:2021-07-30
# InterSPEECH COVID-19 における COVID-19 Identification ResNet (CIdeR) の評価

Evaluating the COVID-19 Identification ResNet (CIdeR) on the INTERSPEECH COVID-19 from Audio Challenges ( http://arxiv.org/abs/2107.14549v1 )

ライセンス: Link先を確認
Alican Akman, Harry Coppock, Alexander Gaskell, Panagiotis Tzirakis, Lyn Jones, Bj\"orn W. Schuller(参考訳) 我々は,最近のcovid-19識別 resnet (cider) を横断的に調査し,cough と speech audio の2つの難問である compare と dicova について報告した。 CIdeRは、個人が新型コロナウイルス陽性であるか、あるいは新型コロナウイルス陰性であるかを、クラウドソーシングされたデータセットからの音声記録と呼吸に基づいて分類するために設計された、エンドツーエンドのディープラーニングニューラルネットワークである。 本研究は,InterSPEECH 2021,ComParE,DiCOVAの2成分性COVID-19診断におけるCIdeRの可能性を示すものである。 CIdeRは、いくつかのベースラインで大幅に改善されている。

We report on cross-running the recent COVID-19 Identification ResNet (CIdeR) on the two Interspeech 2021 COVID-19 diagnosis from cough and speech audio challenges: ComParE and DiCOVA. CIdeR is an end-to-end deep learning neural network originally designed to classify whether an individual is COVID-positive or COVID-negative based on coughing and breathing audio recordings from a published crowdsourced dataset. In the current study, we demonstrate the potential of CIdeR at binary COVID-19 diagnosis from both the COVID-19 Cough and Speech Sub-Challenges of INTERSPEECH 2021, ComParE and DiCOVA. CIdeR achieves significant improvements over several baselines.
翻訳日:2021-08-02 12:50:45 公開日:2021-07-30
# より良い道路のためのセンシングとマッピング: 開発途上国の道路状況を特定するために連合学習とデジタル双子の実装の最初の計画 -- スリランカ

Sensing and Mapping for Better Roads: Initial Plan for Using Federated Learning and Implementing a Digital Twin to Identify the Road Conditions in a Developing Country -- Sri Lanka ( http://arxiv.org/abs/2107.14551v1 )

ライセンス: Link先を確認
Thilanka Munasinghe, HR Pasindu(参考訳) 本研究では,sri lankaのような発展途上国が,クラウドソースデータ収集を用いた道路条件検出のためのフェデレーション学習などのプライバシー対応機械学習技術を活用する方法を提案し,スリランカの全国道路システムのためのデジタルツインの実装を提案する。 スリランカのような発展途上国は、先進国と比べてスマートロードシステムやスマートシティの実装に遅れを取っている。 提案した研究は、国連持続可能な開発目標 (SDG) 9: "Build Resilient Infrastructure, promotee Inclusive and Sustainable Industrialization and Foster Innovation" と一致する。 提案研究は,スマートフォン端末を用いたクラウドソースデータ収集のための定期的な旅行を行う政府と民間の車両が,道路状況を特定し,路面の穴や表面の凹凸(粗さ)などを検知する方法について論じる。 我々は,生成したデータを格納したエッジデバイスにマシンラーニングインテリジェンスを近づけるモバイルエッジコンピューティング(mec)技術について検討し,道路状況の検出と改善のためのフェデレーション学習の応用方法を示す。 本研究の第2フェーズでは,スリランカにおける道路システムのためのディジタルツインの実装を計画している。 提案する道路システムのためのディジタルツインにおいて,専用システムと非デジケートシステムの両方が提供するデータを利用する。 本稿の執筆時点で、私たちの知る限り、スリランカの道路やその他のインフラシステム向けに実装されたDigital Twinシステムは存在しない。 提案されたDigital Twinは、スリランカにおけるこのようなシステムの最初の実装の1つである。 このパイロットプロジェクトから学んだ教訓は、同じ道をたどり、データ駆動の意思決定をしたい他の途上国に利益をもたらすだろう。

We propose how a developing country like Sri Lanka can benefit from privacy-enabled machine learning techniques such as Federated Learning to detect road conditions using crowd-sourced data collection and proposed the idea of implementing a Digital Twin for the national road system in Sri Lanka. Developing countries such as Sri Lanka are far behind in implementing smart road systems and smart cities compared to the developed countries. The proposed work discussed in this paper matches the UN Sustainable Development Goal (SDG) 9: "Build Resilient Infrastructure, Promote Inclusive and Sustainable Industrialization and Foster Innovation". Our proposed work discusses how the government and private sector vehicles that conduct routine trips to collect crowd-sourced data using smartphone devices to identify the road conditions and detect where the potholes, surface unevenness (roughness), and other major distresses are located on the roads. We explore Mobile Edge Computing (MEC) techniques that can bring machine learning intelligence closer to the edge devices where produced data is stored and show how the applications of Federated Learning can be made to detect and improve road conditions. During the second phase of this study, we plan to implement a Digital Twin for the road system in Sri Lanka. We intend to use data provided by both Dedicated and Non-Dedicated systems in the proposed Digital Twin for the road system. As of writing this paper, and best to our knowledge, there is no Digital Twin system implemented for roads and other infrastructure systems in Sri Lanka. The proposed Digital Twin will be one of the first implementations of such systems in Sri Lanka. Lessons learned from this pilot project will benefit other developing countries who wish to follow the same path and make data-driven decisions.
翻訳日:2021-08-02 12:50:27 公開日:2021-07-30
# TASK3 DCASE2021 チャレンジ:圧縮励起残差CNNを用いた音事象の定位と検出

TASK3 DCASE2021 Challenge: Sound event localization and detection using squeeze-excitation residual CNNs ( http://arxiv.org/abs/2107.14561v1 )

ライセンス: Link先を確認
Javier Naranjo-Alcazar, Sergi Perez-Castanos, Pedro Zuccarello, Francesc J. Ferri, Maximo Cobos(参考訳) 音声イベントの局所化・検出(seld)は、音声クリップ内の音声イベントの時間的検出と局所化(到着推定の方向)を目的とした自動リスニングの分野における問題である。 この問題に関連するデータセットに存在するデータ量のため、ディープラーニングに基づくソリューションは、最先端の最先端にある。 ほとんどのソリューションは、畳み込み再帰ネットワークによって処理されるオーディオ(微分スペクトログラム)の2次元表現に基づいている。 本提案の動機は,ネットワークの畳み込み部におけるスクイーズ励起手法と,システムの性能改善について検討することにある。 この研究は、昨年同じチームが行ったものに基づいています。 今年、この手法がそれぞれのデータセットをどのように改善するかを研究することが決定された(昨年、MICデータセットのみが研究された)。 この修正は,MICデータセットを用いたベースラインと比較して,システム性能の向上を示す。

Sound event localisation and detection (SELD) is a problem in the field of automatic listening that aims at the temporal detection and localisation (direction of arrival estimation) of sound events within an audio clip, usually of long duration. Due to the amount of data present in the datasets related to this problem, solutions based on deep learning have positioned themselves at the top of the state of the art. Most solutions are based on 2D representations of the audio (different spectrograms) that are processed by a convolutional-recurr ent network. The motivation of this submission is to study the squeeze-excitation technique in the convolutional part of the network and how it improves the performance of the system. This study is based on the one carried out by the same team last year. This year, it has been decided to study how this technique improves each of the datasets (last year only the MIC dataset was studied). This modification shows an improvement in the performance of the system compared to the baseline using MIC dataset.
翻訳日:2021-08-02 12:49:54 公開日:2021-07-30
# 音声スポーフィング対策の実践的攻撃

Practical Attacks on Voice Spoofing Countermeasures ( http://arxiv.org/abs/2107.14642v1 )

ライセンス: Link先を確認
Andre Kassis and Urs Hengartner(参考訳) 音声認証は、銀行取引やコールセンターの会話など、セキュリティクリティカルなオペレーションにおいて不可欠な部分となっている。 自動話者認証システム(ASV)の攻撃に対する脆弱性は、ボナフィドとスプーフ音声を区別することを目的とした対策(CM)の開発を促した。 asvとcmsは共に今日の音声認証プラットフォームを形成し、不可避なアクセス制御機構として宣伝されている。 我々はcmsに対する最初の実用的な攻撃を開発し、悪意のある俳優が音声サンプルを効率的に作成して音声認証を最も厳格な形でバイパスする方法を示す。 これまでの研究は主に、被害者の声の中で発言を起こさないASVに対する非攻撃的攻撃や敵対的戦略に焦点を当ててきた。 私たちの攻撃による被害は、被害者のような音を発生させるため、はるかに深刻です。 さらに、cmsに対する既存の敵対的な攻撃は、機能空間におけるスプーフ音声を誤って最適化し、asvの存在を考慮しないため、現実的な設定では失敗する合成音声が劣る。 我々は、これらの障害を、我々の重要な技術的貢献によって排除する: 時間領域内で直接、統合されたASV/CMデプロイメントに対する高度な敵攻撃を実施できる新しい共同損失機能。 我々の敵は最先端認証プラットフォームに対するブラックボックス成功率(最大93.57\%)を達成している。 最後に,cmsにおける音声バイオメトリックスの利用の増加を考慮し,cmsに対する最初のターゲット・オーバーテレフォニーネットワーク攻撃を行い,いくつかの課題を回避し,様々な潜在的な脅威を可能にした。 弊社の結果は、攻撃者がこれらの対策を回避し、ユーザにとってもっとも価値のあるリソースにアクセスできるようにするという真の脅威に鑑み、現代の音声認証システムのセキュリティに疑問を投げかけるものである。

Voice authentication has become an integral part in security-critical operations, such as bank transactions and call center conversations. The vulnerability of automatic speaker verification systems (ASVs) to spoofing attacks instigated the development of countermeasures (CMs), whose task is to tell apart bonafide and spoofed speech. Together, ASVs and CMs form today's voice authentication platforms, advertised as an impregnable access control mechanism. We develop the first practical attack on CMs, and show how a malicious actor may efficiently craft audio samples to bypass voice authentication in its strictest form. Previous works have primarily focused on non-proactive attacks or adversarial strategies against ASVs that do not produce speech in the victim's voice. The repercussions of our attacks are far more severe, as the samples we generate sound like the victim, eliminating any chance of plausible deniability. Moreover, the few existing adversarial attacks against CMs mistakenly optimize spoofed speech in the feature space and do not take into account the existence of ASVs, resulting in inferior synthetic audio that fails in realistic settings. We eliminate these obstacles through our key technical contribution: a novel joint loss function that enables mounting advanced adversarial attacks against combined ASV/CM deployments directly in the time domain. Our adversarials achieve concerning black-box success rates against state-of-the-art authentication platforms (up to 93.57\%). Finally, we perform the first targeted, over-telephony-netwo rk attack on CMs, bypassing several challenges and enabling various potential threats, given the increased use of voice biometrics in call centers. Our results call into question the security of modern voice authentication systems in light of the real threat of attackers bypassing these measures to gain access to users' most valuable resources.
翻訳日:2021-08-02 12:49:40 公開日:2021-07-30
# タスク1A DCASE 2021:圧縮励起法と低複雑さ制約を用いたミスマッチデバイスによる音響シーン分類

Task 1A DCASE 2021: Acoustic Scene Classification with mismatch-devices using squeeze-excitation technique and low-complexity constraint ( http://arxiv.org/abs/2107.14658v1 )

ライセンス: Link先を確認
Javier Naranjo-Alcazar, Sergi Perez-Castanos, Maximo Cobos, Francesc J. Ferri, Pedro Zuccarello(参考訳) 音響シーン分類(ASC)は、機械聴取の分野で最も一般的な問題の一つである。 この問題の目的は、オーディオデータのみを用いて、あらかじめ定義されたシーンの1つにオーディオクリップを分類することである。 この問題はDCASEの異なるエディションで長年にわたって大きく進歩してきた。 通常、異なるアプローチでこの問題に取り組むことができるいくつかのサブタスクがあります。 本報告で提示されるサブタスクは、モデルの複雑さに制約されたASC問題に対応し、また、ミスマッチデバイス(リアルおよびシミュレート)として知られる異なるデバイスから音声を録音する。 このレポートで提示された作業は、前年にチームが実施した調査ラインに従っている。 具体的には,ガマモントンフィルタバンクを用いた音声の二次元表現と,圧縮励起を用いた畳み込みニューラルネットワークという2つのステップに基づくシステムを提案する。 提示されたシステムは、ベースラインを約17ポイント上回る。

Acoustic scene classification (ASC) is one of the most popular problems in the field of machine listening. The objective of this problem is to classify an audio clip into one of the predefined scenes using only the audio data. This problem has considerably progressed over the years in the different editions of DCASE. It usually has several subtasks that allow to tackle this problem with different approaches. The subtask presented in this report corresponds to a ASC problem that is constrained by the complexity of the model as well as having audio recorded from different devices, known as mismatch devices (real and simulated). The work presented in this report follows the research line carried out by the team in previous years. Specifically, a system based on two steps is proposed: a two-dimensional representation of the audio using the Gamamtone filter bank and a convolutional neural network using squeeze-excitation techniques. The presented system outperforms the baseline by about 17 percentage points.
翻訳日:2021-08-02 12:49:10 公開日:2021-07-30
# PDEの数値アルゴリズムとニューラルネットワークの接続

Connections between Numerical Algorithms for PDEs and Neural Networks ( http://arxiv.org/abs/2107.14742v1 )

ライセンス: Link先を確認
Tobias Alt, Karl Schrader, Matthias Augustin, Pascal Peter, Joachim Weickert(参考訳) 偏微分方程式(PDE)の数値アルゴリズムとニューラルアーキテクチャの多数の構造的関係について検討する。 私たちのゴールは、豊富な数学的基礎をPDEの世界からニューラルネットワークに移すことです。 構造的な洞察に加えて、結果のアーキテクチャの具体的な例と実験的な評価も提供します。 1d における一般化された非線形拡散の例を用いて,明示的なスキーム,その加速戦略,暗黙的スキーム,マルチグリッドアプローチを考える。 これらの概念を残留ネットワーク、リカレントニューラルネットワーク、u-netアーキテクチャに接続する。 本研究は,安定性を保証し,数値的な観点からニューラルネットワークにおけるスキップ接続の有効性を正当化するための,対称的残差ネットワーク設計を刺激する。 さらに,偏微分方程式モデルの効率的な解法を学習するために,マルチグリッド手法を実装したu-netアーキテクチャを提案する。 実験により、提案アーキテクチャはトレーニング可能なパラメータの半分を節約し、同じモデルの複雑さで標準的なパラメータより優れた性能を発揮することが示された。 我々の考察は、一般的なニューラルアーキテクチャの成功を説明する基礎となり、数学的に確立された新しいニューラルビルディングブロックを開発するための青写真を提供する。

We investigate numerous structural connections between numerical algorithms for partial differential equations (PDEs) and neural architectures. Our goal is to transfer the rich set of mathematical foundations from the world of PDEs to neural networks. Besides structural insights we provide concrete examples and experimental evaluations of the resulting architectures. Using the example of generalised nonlinear diffusion in 1D, we consider explicit schemes, acceleration strategies thereof, implicit schemes, and multigrid approaches. We connect these concepts to residual networks, recurrent neural networks, and U-net architectures. Our findings inspire a symmetric residual network design with provable stability guarantees and justify the effectiveness of skip connections in neural networks from a numerical perspective. Moreover, we present U-net architectures that implement multigrid techniques for learning efficient solutions of partial differential equation models, and motivate uncommon design choices such as trainable nonmonotone activation functions. Experimental evaluations show that the proposed architectures save half of the trainable parameters and can thus outperform standard ones with the same model complexity. Our considerations serve as a basis for explaining the success of popular neural architectures and provide a blueprint for developing new mathematically well-founded neural building blocks.
翻訳日:2021-08-02 12:48:55 公開日:2021-07-30
# 疎低ランク近似計算のための反復座標降下アルゴリズム

An iterative coordinate descent algorithm to compute sparse low-rank approximations ( http://arxiv.org/abs/2107.14608v1 )

ライセンス: Link先を確認
Cristian Rusu(参考訳) 本稿では,与えられたデータ行列からスパース主成分を数個構築する新しいアルゴリズムについて述べる。 このアプローチはデータの共分散行列を明示的に作成するものではなく、いくつかの主成分の近似特異値分解を構築するためのkogbetliantzアルゴリズムの拡張と見なすことができる。 本稿では,文献から各種データセット上のスパース主成分を復元するアルゴリズムの性能を示し,分類応用のための次元性低減を行う。

In this paper, we describe a new algorithm to build a few sparse principal components from a given data matrix. Our approach does not explicitly create the covariance matrix of the data and can be viewed as an extension of the Kogbetliantz algorithm to build an approximate singular value decomposition for a few principal components. We show the performance of the proposed algorithm to recover sparse principal components on various datasets from the literature and perform dimensionality reduction for classification applications.
翻訳日:2021-08-02 12:48:15 公開日:2021-07-30