このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20201029となっている論文です。

PDF登録状況(公開日: 20201029)

TitleAuthorsAbstract論文公表日・翻訳日
# 粒子生成と紫外線遮断を伴うマルチタイムシュロディンガー方程式の一貫性証明

Consistency Proof for Multi-Time Schrodinger Equations with Particle Creation and Ultraviolet Cut-Off ( http://arxiv.org/abs/2001.05920v2 )

ライセンス: Link先を確認
Sascha Lill, Lukas Nickel, Roderich Tumulka(参考訳) 量子状態ベクトルの相対論的粒子配置表現として自然に生じるマルチ時間波動関数に対して、シュリンガー方程式のアナログは、時間変数ごとに1つの方程式からなる。 このことは、そのようなPDEのシステムの一貫性をどうやって証明するかという問題に繋がる。 この問題は、波動関数の異なるセクターが異なる時間変数を持つため、粒子生成を持つ理論ではより困難になる。 Petrat and Tumulka (2014) はそのようなモデルの例を示し、その一貫性について非厳密な議論を行った。 ここでは、多時間進化方程式の生成と消滅の項に紫外線遮断を導入した後に、この議論の厳密なバージョンを示す。 これらの方程式は結合pdesの無限系を形成し、ディラック方程式に基づいているが(一部はカットオフのため)完全に相対論的ではない。 この系に対する滑らかな解の存在と一意性は、適切なヒルベルト空間の密度部分空間に対応するあるクラスからのすべての初期波動関数に対して証明する。

For multi-time wave functions, which naturally arise as the relativistic particle-position representation of the quantum state vector, the analog of the Schr\"odinger equation consists of several equations, one for each time variable. This leads to the question of how to prove the consistency of such a system of PDEs. The question becomes more difficult for theories with particle creation, as then different sectors of the wave function have different numbers of time variables. Petrat and Tumulka (2014) gave an example of such a model and a non-rigorous argument for its consistency. We give here a rigorous version of the argument after introducing an ultraviolet cut-off into the creation and annihilation terms of the multi-time evolution equations. These equations form an infinite system of coupled PDEs; they are based on the Dirac equation but are not fully relativistic (in part because of the cut-off). We prove the existence and uniqueness of a smooth solution to this system for every initial wave function from a certain class that corresponds to a dense subspace in the appropriate Hilbert space.
翻訳日:2023-01-11 01:14:15 公開日:2020-10-29
# 言語モデルによる非ノミティブテキスト生成の削減

Reducing Non-Normative Text Generation from Language Models ( http://arxiv.org/abs/2001.08764v2 )

ライセンス: Link先を確認
Xiangyu Peng, Siyan Li, Spencer Frazier, Mark Riedl(参考訳) GPT-2のような大規模なトランスフォーマーベースの言語モデルは、インターネットから取り除かれた様々なコーパスで事前訓練されている。 したがって、それらは非ノルミティブテキスト(すなわち社会的規範に違反している)を生成する傾向がある。 本稿では、ポリシー勾配強化学習技術と規範テキスト分類器を用いて、報酬と罰則値を生成するGPT-2の微調整手法を提案する。 本手法を5つのデータセット上で自動および人間参加実験を用いて評価する。 規範テキスト分類器は、規範テキストおよび非規範テキストの金本位人間の判断と比較して81〜90%精度が高い。 我々の規範的微調整技術はデータセットによって非ノルマ的テキストを27~61%削減することができる。

Large-scale, transformer-based language models such as GPT-2 are pretrained on diverse corpora scraped from the internet. Consequently, they are prone to generating non-normative text (i.e. in violation of social norms). We introduce a technique for fine-tuning GPT-2, using a policy gradient reinforcement learning technique and a normative text classifier to produce reward and punishment values. We evaluate our technique on five data sets using automated and human participant experiments. The normative text classifier is 81-90% accurate when compared to gold-standard human judgments of normative and non-normative generated text. Our normative fine-tuning technique is able to reduce non-normative text by 27-61%, depending on the data set.
翻訳日:2023-01-07 13:06:01 公開日:2020-10-29
# 教師付き量子学習の統計的限界

Statistical Limits of Supervised Quantum Learning ( http://arxiv.org/abs/2001.10477v3 )

ライセンス: Link先を確認
Carlo Ciliberto, Andrea Rocchetto, Alessandro Rudi, Leonard Wossnig(参考訳) 統計的学習理論の枠組み内では、学習者が目標の精度に達するのに必要なサンプルの最小数を制限することができる。 精度のバウンドを考慮に入れれば、教師付き学習のための量子機械学習アルゴリズム(統計的保証が利用可能である)は、入力次元における多対数ランタイムを達成できない。 問題に対するさらなる仮定がなければ、教師付き学習のための量子機械学習アルゴリズムは、たとえデータへの量子アクセスが自然に利用可能であっても、効率的な古典的アルゴリズムよりも多項式のスピードアップを最大にすることができると結論づける。

Within the framework of statistical learning theory it is possible to bound the minimum number of samples required by a learner to reach a target accuracy. We show that if the bound on the accuracy is taken into account, quantum machine learning algorithms for supervised learning---for which statistical guarantees are available---cannot achieve polylogarithmic runtimes in the input dimension. We conclude that, when no further assumptions on the problem are made, quantum machine learning algorithms for supervised learning can have at most polynomial speedups over efficient classical algorithms, even in cases where quantum access to the data is naturally available.
翻訳日:2023-01-06 02:26:13 公開日:2020-10-29
# トップダウン制御ネットワークによるマルチタスク学習

Multi-Task Learning by a Top-Down Control Network ( http://arxiv.org/abs/2002.03335v3 )

ライセンス: Link先を確認
Hila Levi, Shimon Ullman(参考訳) 汎用ビジョンシステムによって実行されるタスクの範囲が拡大するにつれて、単一ネットワーク上で複数のタスクを正確かつ効率的に実行することが重要かつ未解決の課題となっている。 最近のコンピュータビジョンのアプローチでは、ネットワークの分岐や、タスク固有ベクトルによるネットワーク特徴マップのチャネルワイズ変調によってこの問題に対処している。 本稿では,専用トップダウン制御ネットワークを用いて,選択したタスクや画像内容,空間位置に依存する方法で,主認識ネットワーク内の全ユニットのアクティベーションを変更する新しいアーキテクチャを提案する。 提案手法の有効性は,4つのデータセットに対する代替的最先端手法よりも有意に向上した。 さらに,タスク選択性,タスク数の拡大,解釈可能性という面でのメリットを実証する。

As the range of tasks performed by a general vision system expands, executing multiple tasks accurately and efficiently in a single network has become an important and still open problem. Recent computer vision approaches address this problem by branching networks, or by a channel-wise modulation of the network feature-maps with task specific vectors. We present a novel architecture that uses a dedicated top-down control network to modify the activation of all the units in the main recognition network in a manner that depends on the selected task, image content, and spatial location. We show the effectiveness of our scheme by achieving significantly better results than alternative state-of-the-art approaches on four datasets. We further demonstrate our advantages in terms of task selectivity, scaling the number of tasks and interpretability.
翻訳日:2023-01-02 14:06:44 公開日:2020-10-29
# パラメトリックモーダル回帰のための暗黙的関数学習手法

An implicit function learning approach for parametric modal regression ( http://arxiv.org/abs/2002.06195v2 )

ライセンス: Link先を確認
Yangchen Pan, Ehsan Imani, Martha White, Amir-massoud Farahmand(参考訳) 入力が与えられた対象の条件分布がマルチモーダルであるような多値関数の場合--標準回帰アプローチは条件平均を提供するため必ずしも望ましいとは限らない。 モーダル回帰アルゴリズムは、代わりに条件モードを見つけることでこの問題に対処する。 しかしながら、ほとんどが非パラメトリックなアプローチであるため、スケールアップが難しい場合がある。 さらに、ニューラルネットワークのようなパラメトリック近似器は、入力とターゲットの間の複雑な関係の学習を容易にする。 本研究では,パラメトリックモーダル回帰アルゴリズムを提案する。 我々は暗黙の関数定理を用いて目的を定め、入力や目標に対する合同関数を学習する。 我々の手法が生み出すいくつかの 人工的な問題を実証し i)多値関数を学習し、条件モードを生成する。 (ii)高次元入力によくスケールし、 iii) は特定のユニモーダル問題、特に高周波関数に対してより効果的である。 本手法は実世界のモーダル回帰問題と2つの正規回帰データセットにおいて競合することを示す。

For multi-valued functions---such as when the conditional distribution on targets given the inputs is multi-modal---standard regression approaches are not always desirable because they provide the conditional mean. Modal regression algorithms address this issue by instead finding the conditional mode(s). Most, however, are nonparametric approaches and so can be difficult to scale. Further, parametric approximators, like neural networks, facilitate learning complex relationships between inputs and targets. In this work, we propose a parametric modal regression algorithm. We use the implicit function theorem to develop an objective, for learning a joint function over inputs and targets. We empirically demonstrate on several synthetic problems that our method (i) can learn multi-valued functions and produce the conditional modes, (ii) scales well to high-dimensional inputs, and (iii) can even be more effective for certain uni-modal problems, particularly for high-frequency functions. We demonstrate that our method is competitive in a real-world modal regression problem and two regular regression datasets.
翻訳日:2023-01-01 04:15:13 公開日:2020-10-29
# 局所的コントラスト説明を伴うグローバル透明モデル学習

Learning Global Transparent Models Consistent with Local Contrastive Explanations ( http://arxiv.org/abs/2002.08247v4 )

ライセンス: Link先を確認
Tejaswini Pedapati, Avinash Balakrishnan, Karthikeyan Shanmugam and Amit Dhurandhar(参考訳) ブラックボックスモデル(ニューラルネットワークなど)の局所的なコントラスト/カントリーファクチュアルな説明を生産する、リッチで成長中の文献がある。 これらの方法では、入力に対して、説明は、元の入力とほとんど特徴の異なるコントラストポイントの形で行われ、異なるクラスに横たわる。 他の作品は、実際のラベルを使ったデータやブラックボックスモデルの予測に基づいて、決定木やルールリストのようなグローバルに解釈可能なモデルを構築しようとする。 これらの解釈可能なグローバルモデルは有用であるが、特定のブラックボックスからの局所的な説明とは一致しないかもしれない。 ブラックボックスモデルの局所的(対照的な)説明と同時に正確で整合性のある透明なグローバルモデルを作成することができるか? 我々は,ブラックボックスモデルの局所的説明と予測がプロキシグローバル透過モデルと一致しているかどうかを定量化する自然局所的一貫性指標を導入する。 重要な洞察に基づいて,ブラックボックスモデルのスパースな局所的対比説明からカスタムブール機能を作成し,それらに基づいてグローバルに透過的なモデルを学習し,そのモデルが他の既知の戦略よりも高い局所的一貫性を持ちながら,元のデータへのアクセスでトレーニングされたモデルと性能が近いことを実証的に示す,新たな手法を提案する。

There is a rich and growing literature on producing local contrastive/counterfactual explanations for black-box models (e.g. neural networks). In these methods, for an input, an explanation is in the form of a contrast point differing in very few features from the original input and lying in a different class. Other works try to build globally interpretable models like decision trees and rule lists based on the data using actual labels or based on the black-box models predictions. Although these interpretable global models can be useful, they may not be consistent with local explanations from a specific black-box of choice. In this work, we explore the question: Can we produce a transparent global model that is simultaneously accurate and consistent with the local (contrastive) explanations of the black-box model? We introduce a natural local consistency metric that quantifies if the local explanations and predictions of the black-box model are also consistent with the proxy global transparent model. Based on a key insight we propose a novel method where we create custom boolean features from sparse local contrastive explanations of the black-box model and then train a globally transparent model on just these, and showcase empirically that such models have higher local consistency compared with other known strategies, while still being close in performance to models that are trained with access to the original data.
翻訳日:2022-12-30 12:51:42 公開日:2020-10-29
# 中国独特の言語現象

Unique Chinese Linguistic Phenomena ( http://arxiv.org/abs/2004.00499v3 )

ライセンス: Link先を確認
Shengbin Jia(参考訳) 言語学は、一般性、安定性、国籍の固有の特徴を持ち、抽出戦略の定式化に影響を及ぼし、関係抽出に組み込むべきである。 中国のオープンリレーション抽出は、中国語の言語学が複雑であるため操作が難しく、英語の方法は中国語のそれと互換性がないため、確立されていない。 中国語と英語の言語学の多様性は主に形態学と文法に反映されている。

Linguistics holds unique characteristics of generality, stability, and nationality, which will affect the formulation of extraction strategies and should be incorporated into the relation extraction. Chinese open relation extraction is not well-established, because of the complexity of Chinese linguistics makes it harder to operate, and the methods for English are not compatible with that for Chinese. The diversities between Chinese and English linguistics are mainly reflected in morphology and syntax.
翻訳日:2022-12-29 09:10:10 公開日:2020-10-29
# 箱から外へ:入力出力観測からアクセス可能な深い情報ネットワークを抽出する

Forgetting Outside the Box: Scrubbing Deep Networks of Information Accessible from Input-Output Observations ( http://arxiv.org/abs/2003.02960v3 )

ライセンス: Link先を確認
Aditya Golatkar, Alessandro Achille, Stefano Soatto(参考訳) 本稿では,学習した深層ネットワークからトレーニングデータのコホートへの依存性を除去する手法について述べる。これにより,従来の手法を異なる読み出し関数に改良・一般化し,ネットワークのアクティベーションを忘れないように拡張することができる。 本稿では,入力出力動作のみを観測するブラックボックスネットワークから,忘れられたコホートに関するクエリ毎にどれだけの情報を抽出するかという新たな境界を導入する。 提案手法は,線形化モデルの微分方程式から導出される決定論的部分と,損失景観の幾何学に適応した雑音を加えることで情報破壊を確実にする確率的部分とを有する。 我々は,ニューラルタンジェントカーネルにインスパイアされたDNNのアクティベーションとウェイトダイナミクスの接続を利用して,アクティベーションの情報を計算する。

We describe a procedure for removing dependency on a cohort of training data from a trained deep network that improves upon and generalizes previous methods to different readout functions and can be extended to ensure forgetting in the activations of the network. We introduce a new bound on how much information can be extracted per query about the forgotten cohort from a black-box network for which only the input-output behavior is observed. The proposed forgetting procedure has a deterministic part derived from the differential equations of a linearized version of the model, and a stochastic part that ensures information destruction by adding noise tailored to the geometry of the loss landscape. We exploit the connections between the activation and weight dynamics of a DNN inspired by Neural Tangent Kernels to compute the information in the activations.
翻訳日:2022-12-26 06:14:06 公開日:2020-10-29
# ニューラルネットワーク(ANN)ベースのプロセッサにおけるエッジ検出の熱力学的コスト

Thermodynamic Cost of Edge Detection in Artificial Neural Network(ANN)-Based Processors ( http://arxiv.org/abs/2003.08196v2 )

ライセンス: Link先を確認
Se\c{c}kin Bar{\i}\c{s}{\i}k and \.Ilke Ercan(参考訳) アーキテクチャに基づく熱散逸分析により、与えられたプロセッサの非効率性の基本的な源を明らかにすることができ、そのため、実装に使用される技術ベースに依存しない、より散逸の少ない計算スキームを設計するためのロードマップを提供する。 本研究では,エッジ検出タスクの実行を訓練したニューラルネットワーク(ANN)ベースのプロセッサにおいて,エネルギー散逸に対するアーキテクチャレベルのコントリビューションについて検討する。 ANNのトレーニングと情報処理のコストを64ピクセルのバイナリ画像を用いた従来のアーキテクチャやアルゴリズムと比較する。 この結果から,von neumann アーキテクチャに基づく汎用プロセッサ上での特定タスク用に訓練された ann ネットワークの固有効率の利点が明らかになった。 また,提案した性能改善をセルアレイプロセッサ(CAP)と比較し,専用プロセッサの消散量の低減を図示した。 最後に,入力データ構造の結果として散逸の変化を計算し,情報処理のエネルギーコストに対するランダム性の影響を示す。 その結果,様々なプロセッサを対象としたタスクベース基本エネルギー効率解析の比較の基礎が得られ,プロセッサのアーキテクチャレベル記述や計算物理に基づく熱力学的コスト計算の研究に寄与した。

Architecture-based heat dissipation analyses allow us to reveal fundamental sources of inefficiency in a given processor and thereby provide us with road-maps to design less dissipative computing schemes independent of technology-base used to implement them. In this work, we study architectural-level contributions to energy dissipation in an Artificial Neural Network (ANN)-based processor that is trained to perform edge-detection task. We compare the training and information processing cost of ANN to that of conventional architectures and algorithms using 64-pixel binary image. Our results reveal the inherent efficiency advantages of an ANN network trained for specific tasks over general-purpose processors based on von Neumann architecture. We also compare the proposed performance improvements to that of Cellular Array Processors (CAPs) and illustrate the reduction in dissipation for special purpose processors. Lastly, we calculate the change in dissipation as a result of input data structure and show the effect of randomness on energetic cost of information processing. The results we obtained provide a basis for comparison for task-based fundamental energy efficiency analyses for a range of processors and therefore contribute to the study of architecture-level descriptions of processors and thermodynamic cost calculations based on physics of computation.
翻訳日:2022-12-22 10:06:44 公開日:2020-10-29
# グラフ構造はマルチホップ質問応答に必要か?

Is Graph Structure Necessary for Multi-hop Question Answering? ( http://arxiv.org/abs/2004.03096v2 )

ライセンス: Link先を確認
Nan Shao, Yiming Cui, Ting Liu, Shijin Wang, Guoping Hu(参考訳) 近年,多くのNLP研究分野において,テキストをグラフ構造としてモデル化し,グラフニューラルネットワークを導入しようとしている。 本稿では,マルチホップ質問応答にグラフ構造が必要であるかを検討する。 分析はHotpotQAを中心に行われる。 我々は,事前学習モデルの適切な利用により,複数質問応答にグラフ構造が不要であることを示すために,強固なベースラインモデルを構築した。 グラフ構造と隣接行列はともにタスク関連の事前知識であり,グラフアテンションは自己アテンションの特別な場合と考えることができる。 実験と可視化分析により、グラフアテンションまたはグラフ構造全体を自己アテンションまたはトランスフォーマーに置き換えることができることを示した。

Recently, attempting to model texts as graph structure and introducing graph neural networks to deal with it has become a trend in many NLP research areas. In this paper, we investigate whether the graph structure is necessary for multi-hop question answering. Our analysis is centered on HotpotQA. We construct a strong baseline model to establish that, with the proper use of pre-trained models, graph structure may not be necessary for multi-hop question answering. We point out that both graph structure and adjacency matrix are task-related prior knowledge, and graph-attention can be considered as a special case of self-attention. Experiments and visualized analysis demonstrate that graph-attention or the entire graph structure can be replaced by self-attention or Transformers.
翻訳日:2022-12-15 23:38:34 公開日:2020-10-29
# データ同化によるCovid19の疫学的モデリング手法

An Epidemiological Modelling Approach for Covid19 via Data Assimilation ( http://arxiv.org/abs/2004.12130v3 )

ライセンス: Link先を確認
Philip Nadler, Shuo Wang, Rossella Arcucci, Xian Yang, Yike Guo(参考訳) 2019-nCovの世界的なパンデミックは、世界の隔離措置の将来の社会的・経済的コストを軽減するために、政策介入の評価を必要とする。 本稿では,変動データ同化による新しいデータをリアルタイムに組み込んだ予測・政策評価のための疫学モデルを提案する。 我々は中国、米国、イタリアの感染率を分析し、議論する。 特に,中国の都市における流行に関連する変数に適合するsirモデルであるsatrモデルを開発した。 新たな観測が可能になったときに更新を行うモデル結果を比較し,議論する。 ハイブリッドデータ同化手法を適用し、初期条件に頑健な結果を与える。 モデルを用いて感染数を推定し,疾患の透過率や回復率などのパラメータを推定する。 モデルのパラメータ化は控えめで拡張可能であり、追加のデータと興味のあるパラメータを組み込むことができる。 これにより、スケーラビリティとモデルの他の場所への拡張、あるいは新しいデータソースの適応が可能になる。

The global pandemic of the 2019-nCov requires the evaluation of policy interventions to mitigate future social and economic costs of quarantine measures worldwide. We propose an epidemiological model for forecasting and policy evaluation which incorporates new data in real-time through variational data assimilation. We analyze and discuss infection rates in China, the US and Italy. In particular, we develop a custom compartmental SIR model fit to variables related to the epidemic in Chinese cities, named SITR model. We compare and discuss model results which conducts updates as new observations become available. A hybrid data assimilation approach is applied to make results robust to initial conditions. We use the model to do inference on infection numbers as well as parameters such as the disease transmissibility rate or the rate of recovery. The parameterisation of the model is parsimonious and extendable, allowing for the incorporation of additional data and parameters of interest. This allows for scalability and the extension of the model to other locations or the adaption of novel data sources.
翻訳日:2022-12-09 21:35:15 公開日:2020-10-29
# IntelliCode Compose: Transformerを使ったコード生成

IntelliCode Compose: Code Generation Using Transformer ( http://arxiv.org/abs/2005.08025v2 )

ライセンス: Link先を確認
Alexey Svyatkovskiy, Shao Kun Deng, Shengyu Fu, Neel Sundaresan(参考訳) 統合開発環境(ide)を通じたソフトウェア開発では、コード補完は最も広く使われている機能の1つです。 それでも,統合開発環境の大部分は,メソッドやAPI,あるいは引数の補完のみをサポートする。 本稿では,任意のタイプのコードトークンのシーケンスを予測し,構文的に正しいコード行全体を生成可能な汎用多言語コード補完ツールであるIntelliCode Compose $-$を紹介する。 Pythonの12億行のソースコード、$C\#$、JavaScript、TypeScriptでトレーニングされた最先端の生成変換モデルを活用する。 IntelliCode ComposeはクラウドベースのWebサービスとしてデプロイされる。 クライアントサイドのツリーベースのキャッシング、ビームサーチデコーダの効率的な並列実装、およびvisual studio code ideとazure notebookの編集時間補完提案要件を満たすためにグラフの最適化を利用する。 我々の最良のモデルは、平均編集類似度が86.7 %$で、Pythonプログラミング言語のパープリケーションが1.82である。

In software development through integrated development environments (IDEs), code completion is one of the most widely used features. Nevertheless, majority of integrated development environments only support completion of methods and APIs, or arguments. In this paper, we introduce IntelliCode Compose $-$ a general-purpose multilingual code completion tool which is capable of predicting sequences of code tokens of arbitrary types, generating up to entire lines of syntactically correct code. It leverages state-of-the-art generative transformer model trained on 1.2 billion lines of source code in Python, $C\#$, JavaScript and TypeScript programming languages. IntelliCode Compose is deployed as a cloud-based web service. It makes use of client-side tree-based caching, efficient parallel implementation of the beam search decoder, and compute graph optimizations to meet edit-time completion suggestion requirements in the Visual Studio Code IDE and Azure Notebook. Our best model yields an average edit similarity of $86.7\%$ and a perplexity of 1.82 for Python programming language.
翻訳日:2022-12-02 13:32:15 公開日:2020-10-29
# InterFaceGAN: GANsが学習した不整形顔表現の解釈

InterFaceGAN: Interpreting the Disentangled Face Representation Learned by GANs ( http://arxiv.org/abs/2005.09635v2 )

ライセンス: Link先を確認
Yujun Shen, Ceyuan Yang, Xiaoou Tang, Bolei Zhou(参考訳) generative adversarial networks (gans) は顔合成において大きな進歩を遂げているが、ganが潜在表現で学んだことを十分に理解せず、ランダムなコードをフォトリアリスティックな画像にマッピングしている。 本研究では,現在最先端のGANモデルで学習されている不整合顔表現を解釈するInterFaceGANというフレームワークを提案し,潜在空間で符号化された顔意味論の特性について検討する。 まず、ganは潜在空間のある線型部分空間で様々な意味を学習する。 これらの部分空間を識別した後、モデルを再トレーニングすることなく、対応する顔属性を現実的に操作できる。 次に、異なる意味論間の相関に関する詳細な研究を行い、サブスペース射影を通してそれらをよりうまく分離し、属性操作をより正確に制御する。 メガネの性別、年齢、表情、存在を操作できるだけでなく、顔のポーズを変え、ガンが誤って作った人工物を修正することもできる。 さらに,詳細な顔識別分析と層別分析を行い,編集結果の定量的評価を行った。 最後に,本手法を実顔編集に適用し,InterFaceGANが確立した合成データに基づいて,GAN逆変換手法とフィードフォワードモデルを明示的に訓練する。 広範囲な実験結果から, 顔の合成を自発的に行うと, 不連続で制御可能な顔表現が得られることが示唆された。

Although Generative Adversarial Networks (GANs) have made significant progress in face synthesis, there lacks enough understanding of what GANs have learned in the latent representation to map a random code to a photo-realistic image. In this work, we propose a framework called InterFaceGAN to interpret the disentangled face representation learned by the state-of-the-art GAN models and study the properties of the facial semantics encoded in the latent space. We first find that GANs learn various semantics in some linear subspaces of the latent space. After identifying these subspaces, we can realistically manipulate the corresponding facial attributes without retraining the model. We then conduct a detailed study on the correlation between different semantics and manage to better disentangle them via subspace projection, resulting in more precise control of the attribute manipulation. Besides manipulating the gender, age, expression, and presence of eyeglasses, we can even alter the face pose and fix the artifacts accidentally made by GANs. Furthermore, we perform an in-depth face identity analysis and a layer-wise analysis to evaluate the editing results quantitatively. Finally, we apply our approach to real face editing by employing GAN inversion approaches and explicitly training feed-forward models based on the synthetic data established by InterFaceGAN. Extensive experimental results suggest that learning to synthesize faces spontaneously brings a disentangled and controllable face representation.
翻訳日:2022-12-01 23:31:44 公開日:2020-10-29
# 自動音声認識のための雑音学習の改善

Improved Noisy Student Training for Automatic Speech Recognition ( http://arxiv.org/abs/2005.09629v2 )

ライセンス: Link先を確認
Daniel S. Park, Yu Zhang, Ye Jia, Wei Han, Chung-Cheng Chiu, Bo Li, Yonghui Wu and Quoc V. Le(参考訳) 近年,深層ネットワークの画像分類性能を著しく向上させるため,半教師付き学習手法「ノイズの多い学生訓練」が提案されている。 ノイズのある学生トレーニングは、ネットワークパフォーマンスを改善するために強化を利用する反復的な自己学習手法である。 本研究は,ノイズの多い学生の学習を自動音声認識に適応・改善し,(適応)仕様を補足手法として活用する。 自己学習イテレーション間で生成されたデータをフィルタリング、バランス、拡張する効果的な方法を見つけます。 これにより、教師付き集合としてlibrispeechのclean 100hサブセットとラベル付き集合として残り(860h)のみを用いることで、クリーン/ノイジーlibrispeechテストセットにおける単語誤り率(wers)4.2%/8.6%を得ることができる。 さらに、librilightのunlab-60kサブセットをlibrispeech 960hのラベルなしセットとして使用することで、クリーン/ノイジーlibrispeechテストセットでwers 1.7%/3.4%を達成することができる。 これにより、LibriSpeech 100h (4.74%/12.20%)とLibriSpeech (1.9%/4.1%)で達成された、最先端のクリーン/ノイズテストWERを改善することができる。

Recently, a semi-supervised learning method known as "noisy student training" has been shown to improve image classification performance of deep networks significantly. Noisy student training is an iterative self-training method that leverages augmentation to improve network performance. In this work, we adapt and improve noisy student training for automatic speech recognition, employing (adaptive) SpecAugment as the augmentation method. We find effective methods to filter, balance and augment the data generated in between self-training iterations. By doing so, we are able to obtain word error rates (WERs) 4.2%/8.6% on the clean/noisy LibriSpeech test sets by only using the clean 100h subset of LibriSpeech as the supervised set and the rest (860h) as the unlabeled set. Furthermore, we are able to achieve WERs 1.7%/3.4% on the clean/noisy LibriSpeech test sets by using the unlab-60k subset of LibriLight as the unlabeled set for LibriSpeech 960h. We are thus able to improve upon the previous state-of-the-art clean/noisy test WERs achieved on LibriSpeech 100h (4.74%/12.20%) and LibriSpeech (1.9%/4.1%).
翻訳日:2022-12-01 14:42:16 公開日:2020-10-29
# SNRに基づく教師の音声強調手法

SNR-Based Teachers-Student Technique for Speech Enhancement ( http://arxiv.org/abs/2005.14441v2 )

ライセンス: Link先を確認
Xiang Hao, Xiangdong Su, Zhiyu Wang, Qiang Zhang, Huali Xu and Guanglai Gao(参考訳) 高信号対雑音比(SNR)と低SNRの両条件で頑健な性能を実現するための音声強調手法は非常に困難である。 本稿では,SNRベースの教師支援技術と時間領域U-Netを統合し,この問題に対処する手法を提案する。 具体的には、複数の教師モデルと学生モデルから構成される。 まず,教師が互いに一致しない複数の小範囲のSNRで教師モデルを訓練し,特定のSNR範囲内で適切に音声強調を行うようにした。 そこで我々は,学生モデルの訓練を訓練データのSNRに従って監督するために,異なる教師モデルを選択する。 最終的に、学生モデルは高SNRと低SNRの両方で音声強調を行うことができる。 提案手法を評価するために,公開データセットに基づいて,-20dBから20dBまでのSNRを持つデータセットを構築した。 本手法の有効性を実験的に分析し,提案手法をいくつかの最先端手法と比較した。

It is very challenging for speech enhancement methods to achieves robust performance under both high signal-to-noise ratio (SNR) and low SNR simultaneously. In this paper, we propose a method that integrates an SNR-based teachers-student technique and time-domain U-Net to deal with this problem. Specifically, this method consists of multiple teacher models and a student model. We first train the teacher models under multiple small-range SNRs that do not coincide with each other so that they can perform speech enhancement well within the specific SNR range. Then, we choose different teacher models to supervise the training of the student model according to the SNR of the training data. Eventually, the student model can perform speech enhancement under both high SNR and low SNR. To evaluate the proposed method, we constructed a dataset with an SNR ranging from -20dB to 20dB based on the public dataset. We experimentally analyzed the effectiveness of the SNR-based teachers-student technique and compared the proposed method with several state-of-the-art methods.
翻訳日:2022-11-26 23:51:37 公開日:2020-10-29
# 音声強調のためのサブバンド知識蒸留フレームワーク

Sub-Band Knowledge Distillation Framework for Speech Enhancement ( http://arxiv.org/abs/2005.14435v2 )

ライセンス: Link先を確認
Xiang Hao, Shixue Wen, Xiangdong Su, Yun Liu, Guanglai Gao and Xiaofei Li(参考訳) 単一チャンネル音声強調では、広帯域スペクトル特徴に基づく手法が広く研究されている。 しかし、非フルバンドスペクトルの特徴に注意を払う方法はわずかである。 本稿では,単チャンネル音声強調のためのサブバンドスペクトルマッピングに基づく知識蒸留フレームワークについて検討する。 具体的には、全周波数帯を複数のサブバンドに分割し、各サブバンドのエリートレベルサブバンド拡張モデル(教師モデル)を事前学習する。 これらの教師モデルは、独自のサブバンドの処理に特化している。 次に,教師モデルの指導のもと,すべてのサブバンドで機能する一般サブバンド拡張モデル(student model)を訓練する。 モデルパラメータの数と計算複雑性を増大させることなく、学生モデルの性能がさらに向上する。 提案手法を評価するため,オープンソースデータセット上で多数の実験を行った。 最終実験の結果,エリートレベルの教師モデルの指導により,生徒モデルの性能が劇的に向上し,パラメータの少ないフルバンドモデルを上回ることがわかった。

In single-channel speech enhancement, methods based on full-band spectral features have been widely studied. However, only a few methods pay attention to non-full-band spectral features. In this paper, we explore a knowledge distillation framework based on sub-band spectral mapping for single-channel speech enhancement. Specifically, we divide the full frequency band into multiple sub-bands and pre-train an elite-level sub-band enhancement model (teacher model) for each sub-band. These teacher models are dedicated to processing their own sub-bands. Next, under the teacher models' guidance, we train a general sub-band enhancement model (student model) that works for all sub-bands. Without increasing the number of model parameters and computational complexity, the student model's performance is further improved. To evaluate our proposed method, we conducted a large number of experiments on an open-source data set. The final experimental results show that the guidance from the elite-level teacher models dramatically improves the student model's performance, which exceeds the full-band model by employing fewer parameters.
翻訳日:2022-11-26 23:39:01 公開日:2020-10-29
# 機械学習における自動微分の数学的モデル

A mathematical model for automatic differentiation in machine learning ( http://arxiv.org/abs/2006.02080v2 )

ライセンス: Link先を確認
Jerome Bolte (TSE), Edouard Pauwels (IRIT-ADRIA)(参考訳) 今日実装されている自動微分は、現代の機械学習のニーズに適応した単純な数学的モデルを持っていない。 本研究では,実際に実施されているプログラムの微分と非滑らか関数の微分の関係を明らかにする。 この目的のために、簡単な関数のクラス、非滑らかな計算を提供し、それらを確率近似法に適用する方法を示す。 また,アルゴリズムの微分によって創造された臨界点の問題を証明し,通常手法がそれらの点を確率1で回避する方法を示す。

Automatic differentiation, as implemented today, does not have a simple mathematical model adapted to the needs of modern machine learning. In this work we articulate the relationships between differentiation of programs as implemented in practice and differentiation of nonsmooth functions. To this end we provide a simple class of functions, a nonsmooth calculus, and show how they apply to stochastic approximation methods. We also evidence the issue of artificial critical points created by algorithmic differentiation and show how usual methods avoid these points with probability one.
翻訳日:2022-11-25 17:35:01 公開日:2020-10-29
# センチネル2衛星画像からのグローバルな人的定住地マッピングのための畳み込みニューラルネットワーク

Convolutional Neural Networks for Global Human Settlements Mapping from Sentinel-2 Satellite Imagery ( http://arxiv.org/abs/2006.03267v2 )

ライセンス: Link先を確認
Christina Corbane, Vasileios Syrris, Filip Sabo, Panagiotis Politis, Michele Melchiorri, Martino Pesaresi, Pierre Soille, Thomas Kemper(参考訳) Spatially consistent and up-to-date maps of human settlements are crucial for addressing policies related to urbanization and sustainability, especially in the era of an increasingly urbanized world.The availability of open and free Sentinel-2 data of the Copernicus Earth Observation program offers a new opportunity for wall-to-wall mapping of human settlements at a global scale.This paper presents a deep-learning-based framework for a fully automated extraction of built-up areas at a spatial resolution of 10 m from a global composite of Sentinel-2 imagery.A multi-neuro modeling methodology building on a simple Convolution Neural Networks architecture for pixel-wise image classification of built-up areas is developed.The core features of the proposed model are the image patch of size 5 x 5 pixels adequate for describing built-up areas from Sentinel-2 imagery and the lightweight topology with a total number of 1,448,578 trainable parameters and 4 2D convolutional layers and 2 flattened layers.The deployment of the model on the global Sentinel-2 image composite provides the most detailed and complete map reporting about built-up areas for reference year 2018. 世界中の277のサイトをカバーする建物フットプリントの独立した参照データセットによる結果の検証は,提案フレームワークが生成するビルトアップ層の信頼性とモデルロバスト性を確立する。

Spatially consistent and up-to-date maps of human settlements are crucial for addressing policies related to urbanization and sustainability, especially in the era of an increasingly urbanized world.The availability of open and free Sentinel-2 data of the Copernicus Earth Observation program offers a new opportunity for wall-to-wall mapping of human settlements at a global scale.This paper presents a deep-learning-based framework for a fully automated extraction of built-up areas at a spatial resolution of 10 m from a global composite of Sentinel-2 imagery.A multi-neuro modeling methodology building on a simple Convolution Neural Networks architecture for pixel-wise image classification of built-up areas is developed.The core features of the proposed model are the image patch of size 5 x 5 pixels adequate for describing built-up areas from Sentinel-2 imagery and the lightweight topology with a total number of 1,448,578 trainable parameters and 4 2D convolutional layers and 2 flattened layers.The deployment of the model on the global Sentinel-2 image composite provides the most detailed and complete map reporting about built-up areas for reference year 2018. The validation of the results with an independent reference data-set of building footprints covering 277 sites across the world establishes the reliability of the built-up layer produced by the proposed framework and the model robustness.
翻訳日:2022-11-25 03:45:07 公開日:2020-10-29
# 知識を外挿する学習:グラフ外リンク予測のトランスダクティブ・ショット

Learning to Extrapolate Knowledge: Transductive Few-shot Out-of-Graph Link Prediction ( http://arxiv.org/abs/2006.06648v3 )

ライセンス: Link先を確認
Jinheon Baek, Dong Bok Lee, Sung Ju Hwang(参考訳) 知識グラフ構築や薬物と薬物の相互作用予測などの実用的なグラフ問題は、多関係グラフを扱う必要がある。 しかし、グラフニューラルネットワーク(GNN)による実世界のマルチリレーショナルグラフの扱いは、新しいエンティティ(ノード)が時間とともに現れるため、進化する性質のため、しばしば困難である。 さらに、新しく現れたエンティティにはリンクがほとんどないことが多く、学習がさらに困難になる。 この課題に動機づけられたのが, グラフ外リンク予測の現実的問題であり, 観測ノードと未認識ノード間のリンクを, 従来の知識外リンク予測タスクのように予測するだけでなく, ノード毎のエッジ数がわずかである未認識ノード間も予測する。 本稿では,グラフ補間ネットワーク(GEN)と呼ばれる新しいメタ学習フレームワークを用いて,この問題に対処する。 genメタは、インダクティブ推論のためのノード埋め込みネットワーク(見当たらない)と、トランスダクティブ推論のためのリンク予測ネットワーク(見当たらない)の両方を学習する。 トランスダクティブリンク予測のために,我々はさらに,未知のエンティティ間のリンク予測の不確かさをモデル化する確率的埋め込み層を提案する。 ナレッジグラフの完成と薬物と薬物の相互作用予測のために,複数のベンチマークデータセットでモデルを検証する。 その結果,本モデルはグラフ外リンク予測タスクのベースラインを有意に上回っていることがわかった。

Many practical graph problems, such as knowledge graph construction and drug-drug interaction prediction, require to handle multi-relational graphs. However, handling real-world multi-relational graphs with Graph Neural Networks (GNNs) is often challenging due to their evolving nature, as new entities (nodes) can emerge over time. Moreover, newly emerged entities often have few links, which makes the learning even more difficult. Motivated by this challenge, we introduce a realistic problem of few-shot out-of-graph link prediction, where we not only predict the links between the seen and unseen nodes as in a conventional out-of-knowledge link prediction task but also between the unseen nodes, with only few edges per node. We tackle this problem with a novel transductive meta-learning framework which we refer to as Graph Extrapolation Networks (GEN). GEN meta-learns both the node embedding network for inductive inference (seen-to-unseen) and the link prediction network for transductive inference (unseen-to-unseen). For transductive link prediction, we further propose a stochastic embedding layer to model uncertainty in the link prediction between unseen entities. We validate our model on multiple benchmark datasets for knowledge graph completion and drug-drug interaction prediction. The results show that our model significantly outperforms relevant baselines for out-of-graph link prediction tasks.
翻訳日:2022-11-22 12:41:10 公開日:2020-10-29
# スパースと連続的注意機構

Sparse and Continuous Attention Mechanisms ( http://arxiv.org/abs/2006.07214v3 )

ライセンス: Link先を確認
Andr\'e F. T. Martins, Ant\'onio Farinhas, Marcos Treviso, Vlad Niculae, Pedro M. Q. Aguiar, M\'ario A. T. Figueiredo(参考訳) 指数族は機械学習において広く用いられ、連続および離散領域(例えば、ガウス、ディリクレ、ポアソン、ソフトマックス変換によるカテゴリー分布など)における多くの分布を含む。 それぞれの家庭の分布には一定の支持がある。 対照的に、有限領域に対しては、様々な支持を持ち、無関係な圏にゼロ確率を割り当てることのできるソフトマックス(例えば、スパースマックスやアルファエントマックス)のスパース代替案に関する最近の研究がある。 まず, α-entmax を連続領域に拡張し, tsallis 統計と変形した指数関数族との関係を明らかにする。 第2に, {1,2} のアルファに対する効率的な勾配バックプロパゲーションアルゴリズムを導出した連続領域アテンション機構を導入する。 注意に基づくテキスト分類、機械翻訳、視覚的質問応答の実験は、1Dと2Dにおける継続的な注意の使用を示し、時間間隔やコンパクトな領域への参加を可能にする。

Exponential families are widely used in machine learning; they include many distributions in continuous and discrete domains (e.g., Gaussian, Dirichlet, Poisson, and categorical distributions via the softmax transformation). Distributions in each of these families have fixed support. In contrast, for finite domains, there has been recent work on sparse alternatives to softmax (e.g. sparsemax and alpha-entmax), which have varying support, being able to assign zero probability to irrelevant categories. This paper expands that work in two directions: first, we extend alpha-entmax to continuous domains, revealing a link with Tsallis statistics and deformed exponential families. Second, we introduce continuous-domain attention mechanisms, deriving efficient gradient backpropagation algorithms for alpha in {1,2}. Experiments on attention-based text classification, machine translation, and visual question answering illustrate the use of continuous attention in 1D and 2D, showing that it allows attending to time intervals and compact regions.
翻訳日:2022-11-22 01:56:26 公開日:2020-10-29
# Bias No more: 敵対的盗賊とMDPに対する高確率データ依存的後悔境界

Bias no more: high-probability data-dependent regret bounds for adversarial bandits and MDPs ( http://arxiv.org/abs/2006.08040v2 )

ライセンス: Link先を確認
Chung-Wei Lee, Haipeng Luo, Chen-Yu Wei, Mengxiao Zhang(参考訳) 我々は,適応的相手に対する盗聴フィードバックを用いたオンライン学習において,高い確率的後悔境界を得るための新しいアプローチを開発した。 既存のアプローチでは、楽観的で偏りのある損失推定器を慎重に構築する必要があるが、我々のアプローチは標準的な偏見のない推定器を使い、対数的に均質な自己調和障壁と強化されたフリードマンの不等式によって、単純な学習率のスケジュールに依存する。 単純さに加えて、我々のアプローチにはいくつかの利点がある。 第一に、得られた高い確率の後悔の限界はデータ依存であり、neu (2015) が求めたオープンな問題を解決する最悪の場合の限界よりもずっと小さい可能性がある。 第2に、bartlett et al. (2008) と abernethy and rakhlin (2009) の別のオープン問題を解くことにより、我々のアプローチは、逆線形バンドイットに縛られる高い確率性後悔を持つ、最初の汎用的かつ効率的なアルゴリズムへと導かれる。 最後に,本手法は,対向的マルコフ決定過程の学習にも適用可能であり,この問題に対して高い確率の低損失境界を持つ最初のアルゴリズムを提供する。

We develop a new approach to obtaining high probability regret bounds for online learning with bandit feedback against an adaptive adversary. While existing approaches all require carefully constructing optimistic and biased loss estimators, our approach uses standard unbiased estimators and relies on a simple increasing learning rate schedule, together with the help of logarithmically homogeneous self-concordant barriers and a strengthened Freedman's inequality. Besides its simplicity, our approach enjoys several advantages. First, the obtained high-probability regret bounds are data-dependent and could be much smaller than the worst-case bounds, which resolves an open problem asked by Neu (2015). Second, resolving another open problem of Bartlett et al. (2008) and Abernethy and Rakhlin (2009), our approach leads to the first general and efficient algorithm with a high-probability regret bound for adversarial linear bandits, while previous methods are either inefficient or only applicable to specific action sets. Finally, our approach can also be applied to learning adversarial Markov Decision Processes and provides the first algorithm with a high-probability small-loss bound for this problem.
翻訳日:2022-11-21 10:09:53 公開日:2020-10-29
# Sinkhorn Divergenceによるより高速なワッサースタイン距離推定

Faster Wasserstein Distance Estimation with the Sinkhorn Divergence ( http://arxiv.org/abs/2006.08172v2 )

ライセンス: Link先を確認
Lenaic Chizat (LMO), Pierre Roussillon (DMA), Flavien L\'eger (DMA), Fran\c{c}ois-Xavier Vialard (Univ Gustave Eiffel), Gabriel Peyr\'e (DMA)(参考訳) 正方形ワッサーシュタイン距離は、非パラメトリックな設定における確率分布を比較する自然な量である。 この量は、例えばSinkhornのアルゴリズムを用いて、$\epsilon$-accuracy のエントロピー正規化を加えることで、$\epsilon$-accuracy に解決できる離散的な最適輸送問題によって定義されるプラグイン推定器で推定される。 本研究は,エントロピー正規化に基づくが,デバイアス項を含むシンクホーン分岐を用いて推定する手法を提案する。 滑らかな密度では、この推定器はサンプルの複雑さに匹敵するが、より高い正規化レベル、すなわち$\epsilon^{1/2}$を許容する。 我々の理論解析は、ランダムにサンプリングされた密度と一様格子上の決定論的離散化の両方の場合をカバーする。 また, ガウス密度に特に満足する近似誤差の正則性条件下で, 統計的および計算効率の保証が向上した, シンクホーン分岐のリチャードソン外挿に基づく推定器の提案と解析を行った。 数値実験により提案した推定器の効率性を実証した。

The squared Wasserstein distance is a natural quantity to compare probability distributions in a non-parametric setting. This quantity is usually estimated with the plug-in estimator, defined via a discrete optimal transport problem which can be solved to $\epsilon$-accuracy by adding an entropic regularization of order $\epsilon$ and using for instance Sinkhorn's algorithm. In this work, we propose instead to estimate it with the Sinkhorn divergence, which is also built on entropic regularization but includes debiasing terms. We show that, for smooth densities, this estimator has a comparable sample complexity but allows higher regularization levels, of order $\epsilon^{1/2}$, which leads to improved computational complexity bounds and a strong speedup in practice. Our theoretical analysis covers the case of both randomly sampled densities and deterministic discretizations on uniform grids. We also propose and analyze an estimator based on Richardson extrapolation of the Sinkhorn divergence which enjoys improved statistical and computational efficiency guarantees, under a condition on the regularity of the approximation error, which is in particular satisfied for Gaussian densities. We finally demonstrate the efficiency of the proposed estimators with numerical experiments.
翻訳日:2022-11-21 05:01:39 公開日:2020-10-29
# 潜在空間エネルギーに基づく事前モデル学習

Learning Latent Space Energy-Based Prior Model ( http://arxiv.org/abs/2006.08205v2 )

ライセンス: Link先を確認
Bo Pang, Tian Han, Erik Nijkamp, Song-Chun Zhu, Ying Nian Wu(参考訳) 我々は,発電機モデルの潜在空間におけるエネルギーベースモデル(ebm)の学習を提案し,ebmは発電機モデルのトップダウンネットワーク上にある先行モデルとして機能する。 潜伏空間 EBM とトップダウンネットワークの両方は、潜伏ベクトルの前と後の両方の分布から短周期のMCMCサンプリングを伴って、最大確率で共同で学習することができる。 潜時空間の低次元性とトップダウンネットワークの表現性のため、潜時空間における単純なebmはデータの正則性を効果的に捉えることができ、潜時空間におけるmcmcサンプリングは効率的でよく混合される。 学習したモデルが画像やテキストの生成や異常検出において強い性能を示すことを示す。 1ページのコードは補足資料で見ることができる。

We propose to learn energy-based model (EBM) in the latent space of a generator model, so that the EBM serves as a prior model that stands on the top-down network of the generator model. Both the latent space EBM and the top-down network can be learned jointly by maximum likelihood, which involves short-run MCMC sampling from both the prior and posterior distributions of the latent vector. Due to the low dimensionality of the latent space and the expressiveness of the top-down network, a simple EBM in latent space can capture regularities in the data effectively, and MCMC sampling in latent space is efficient and mixes well. We show that the learned model exhibits strong performances in terms of image and text generation and anomaly detection. The one-page code can be found in supplementary materials.
翻訳日:2022-11-21 02:57:49 公開日:2020-10-29
# 安定不変量集合をもつ学習ダイナミクスモデル

Learning Dynamics Models with Stable Invariant Sets ( http://arxiv.org/abs/2006.08935v2 )

ライセンス: Link先を確認
Naoya Takeishi and Yoshinobu Kawahara(参考訳) 不変性と安定性は力学系の研究において不可欠な概念であり、安定不変量集合を持つ力学モデルを学ぶことは非常に興味深い。 しかし、既存の方法は平衡の安定性にしか対応できない。 本稿では,リミットサイクルやラインアトラクターといった一般クラスの安定な不変集合を動的モデルが確実に持つことを保証する手法を提案する。 まず,manek と kolter (2019) によるアプローチから始めて,学習可能なリアプノフ関数を用いて平衡に関するモデルを安定させる。 一般集合に対して射影を導入することで一般化する。 to-be安定な不変集合を解析的に指定することの難しさを解決するため、そのような集合を潜在空間における原始形状(例えば球面)として定義し、元の空間と潜在空間の間の変換を学ぶことを提案する。 これにより、投影を容易に計算できると同時に、変換のためにさまざまな可逆ニューラルネットワークを使用してモデルの柔軟性を維持することができます。 本研究は,提案手法の有効性と長期予測の有用性を示す実験結果である。

Invariance and stability are essential notions in dynamical systems study, and thus it is of great interest to learn a dynamics model with a stable invariant set. However, existing methods can only handle the stability of an equilibrium. In this paper, we propose a method to ensure that a dynamics model has a stable invariant set of general classes such as limit cycles and line attractors. We start with the approach by Manek and Kolter (2019), where they use a learnable Lyapunov function to make a model stable with regard to an equilibrium. We generalize it for general sets by introducing projection onto them. To resolve the difficulty of specifying a to-be stable invariant set analytically, we propose defining such a set as a primitive shape (e.g., sphere) in a latent space and learning the transformation between the original and latent spaces. It enables us to compute the projection easily, and at the same time, we can maintain the model's flexibility using various invertible neural networks for the transformation. We present experimental results that show the validity of the proposed method and the usefulness for long-term prediction.
翻訳日:2022-11-20 20:04:07 公開日:2020-10-29
# 凸正則化器の反復正則化

Iterative regularization for convex regularizers ( http://arxiv.org/abs/2006.09859v2 )

ライセンス: Link先を確認
Cesare Molinari and Mathurin Massias and Lorenzo Rosasco and Silvia Villa(参考訳) バイアスが凸であるが必ずしも強い凸ではない線形モデルに対する反復正則化について検討する。 最短ケース決定性雑音の存在下での収束を解析し, 2次元勾配に基づく手法の安定性特性を特徴付ける。 主な例として,頑健なスパースリカバリ問題に対する結果の専門化と説明を行う。 我々の分析の鍵は、正規化理論の考えと誤りの存在下での最適化の組み合わせである。 理論的な結果は、最先端のパフォーマンスをかなりの計算速度で達成できることを示す実験によって補完される。

We study iterative regularization for linear models, when the bias is convex but not necessarily strongly convex. We characterize the stability properties of a primal-dual gradient based approach, analyzing its convergence in the presence of worst case deterministic noise. As a main example, we specialize and illustrate the results for the problem of robust sparse recovery. Key to our analysis is a combination of ideas from regularization theory and optimization in the presence of errors. Theoretical results are complemented by experiments showing that state-of-the-art performances can be achieved with considerable computational speed-ups.
翻訳日:2022-11-19 19:43:42 公開日:2020-10-29
# 社会的に公正なk平均クラスタリング

Socially Fair k-Means Clustering ( http://arxiv.org/abs/2006.10085v2 )

ライセンス: Link先を確認
Mehrdad Ghadiri, Samira Samadi, Santosh Vempala(参考訳) k-meansクラスタリングアルゴリズム(lloydのヒューリスティック)は、様々な科学データに対して用いられており、データサブグループ(例えば、人口統計グループ)にとって不利な結果をもたらす可能性がある。 このような偏りのあるクラスタリングは、リソース割り当てのような人間中心のアプリケーションに有害な影響をもたらす可能性がある。 異なるグループに対して等価なコストを提供するクラスタセンタを選択するための、公正なk-meansの目的とアルゴリズムを提案する。 このアルゴリズムであるFair-Lloydは、ロイドのk平均に対するヒューリスティックの修正であり、その単純さ、効率、安定性を継承している。 ベンチマークデータセットと比較すると、Fair-Lloydは、すべてのグループが出力kクラスタリングにおいて同等のコストを持つことを保証するとともに、実行時間の無視できる増加を招き、k-meansが現在使われている場合にも実行可能なフェアオプションであることを示す。

We show that the popular k-means clustering algorithm (Lloyd's heuristic), used for a variety of scientific data, can result in outcomes that are unfavorable to subgroups of data (e.g., demographic groups). Such biased clusterings can have deleterious implications for human-centric applications such as resource allocation. We present a fair k-means objective and algorithm to choose cluster centers that provide equitable costs for different groups. The algorithm, Fair-Lloyd, is a modification of Lloyd's heuristic for k-means, inheriting its simplicity, efficiency, and stability. In comparison with standard Lloyd's, we find that on benchmark datasets, Fair-Lloyd exhibits unbiased performance by ensuring that all groups have equal costs in the output k-clustering, while incurring a negligible increase in running time, thus making it a viable fair option wherever k-means is currently used.
翻訳日:2022-11-19 19:08:55 公開日:2020-10-29
# 大規模分子データを用いた自己監督グラフ変換器

Self-Supervised Graph Transformer on Large-Scale Molecular Data ( http://arxiv.org/abs/2007.02835v2 )

ライセンス: Link先を確認
Yu Rong, Yatao Bian, Tingyang Xu, Weiyang Xie, Ying Wei, Wenbing Huang, Junzhou Huang(参考訳) 分子の情報表現の獲得は、AIによる薬物の設計と発見において重要な前提条件である。 近年、抽象分子をグラフとして研究し、分子表現学習にグラフニューラルネットワーク(gnns)を採用している。 しかしながら, 実シナリオにおけるGNNの使用には, 1) 教師付きトレーニングのためのラベル付き分子の不足, (2) 新合成分子への一般化能力の低下, の2つの問題がある。 両者に対処するため,グラフ表現の「自己超越mEssage passing tRansformer」を表す新しいフレームワーク「GROVER」を提案する。 ノード、エッジ、グラフレベルで注意深く設計された自己教師ありタスクにより、groverは巨大なラベルなしの分子データから分子の構造的および意味的な情報を学ぶことができる。 このような複雑な情報をエンコードするために、groverはメッセージパッシングネットワークをtransformerスタイルのアーキテクチャに統合し、より表現力に富んだ分子エンコーダのクラスを提供する。 GROVERの柔軟性により、監督を必要とせず、大規模な分子データセット上で効率的にトレーニングできるため、上記の2つの問題に免疫が与えられる。 最大のgnnであり、分子表現学習で最大のトレーニングデータセットである1000万個の未標識分子で1億のパラメータを持つgroverを事前トレーニングします。 次に,事前学習したグローバーを分子特性予測に活用し,タスク特異的な微調整を行い,11の難解なベンチマークにおいて,現在の手法からの大幅な改善(平均6%以上)を観測した。 私たちが得た洞察は、よく設計された自己超越的損失と、主に表現力のある事前学習モデルが、パフォーマンス向上の大きな可能性を享受しているということです。

How to obtain informative representations of molecules is a crucial prerequisite in AI-driven drug design and discovery. Recent researches abstract molecules as graphs and employ Graph Neural Networks (GNNs) for molecular representation learning. Nevertheless, two issues impede the usage of GNNs in real scenarios: (1) insufficient labeled molecules for supervised training; (2) poor generalization capability to new-synthesized molecules. To address them both, we propose a novel framework, GROVER, which stands for Graph Representation frOm self-superVised mEssage passing tRansformer. With carefully designed self-supervised tasks in node-, edge- and graph-level, GROVER can learn rich structural and semantic information of molecules from enormous unlabelled molecular data. Rather, to encode such complex information, GROVER integrates Message Passing Networks into the Transformer-style architecture to deliver a class of more expressive encoders of molecules. The flexibility of GROVER allows it to be trained efficiently on large-scale molecular dataset without requiring any supervision, thus being immunized to the two issues mentioned above. We pre-train GROVER with 100 million parameters on 10 million unlabelled molecules -- the biggest GNN and the largest training dataset in molecular representation learning. We then leverage the pre-trained GROVER for molecular property prediction followed by task-specific fine-tuning, where we observe a huge improvement (more than 6% on average) from current state-of-the-art methods on 11 challenging benchmarks. The insights we gained are that well-designed self-supervision losses and largely-expressive pre-trained models enjoy the significant potential on performance boosting.
翻訳日:2022-11-19 14:36:51 公開日:2020-10-29
# 推論レイヤによる深層アーキテクチャの理解

Understanding Deep Architectures with Reasoning Layer ( http://arxiv.org/abs/2006.13401v2 )

ライセンス: Link先を確認
Xinshi Chen, Yufei Zhang, Christoph Reisinger, Le Song(参考訳) 近年,より高度な学習課題を扱うために,ディープラーニングモデルと推論を組み合わせることへの関心が高まっている。 多くの場合、推論タスクは反復アルゴリズムによって解くことができる。 このアルゴリズムは頻繁に展開され、ディープアーキテクチャの特殊な層として使われ、他の神経コンポーネントとエンドツーエンドでトレーニングすることができる。 このようなハイブリッドなディープアーキテクチャは多くの経験的成功をもたらしたが、そのようなアーキテクチャの理論的基盤、特にアルゴリズム層と他のニューラルネットワーク層との相互作用は、ほとんど解明されていない。 本稿では,このようなハイブリッドな深層アーキテクチャを理解するための最初のステップとして,収束,安定性,感度といったアルゴリズム層の性質が,エンドツーエンドモデルの近似および一般化能力と密接な関係にあることを示す。 さらに,様々な条件下での実験的な観測結果と密接に一致し,推論層を用いた深層アーキテクチャ設計に有用なガイドラインを提供できることを示唆した。

Recently, there has been a surge of interest in combining deep learning models with reasoning in order to handle more sophisticated learning tasks. In many cases, a reasoning task can be solved by an iterative algorithm. This algorithm is often unrolled, and used as a specialized layer in the deep architecture, which can be trained end-to-end with other neural components. Although such hybrid deep architectures have led to many empirical successes, the theoretical foundation of such architectures, especially the interplay between algorithm layers and other neural layers, remains largely unexplored. In this paper, we take an initial step towards an understanding of such hybrid deep architectures by showing that properties of the algorithm layers, such as convergence, stability, and sensitivity, are intimately related to the approximation and generalization abilities of the end-to-end model. Furthermore, our analysis matches closely our experimental observations under various conditions, suggesting that our theory can provide useful guidelines for designing deep architectures with reasoning layers.
翻訳日:2022-11-17 09:16:16 公開日:2020-10-29
# DNNグラフ演算子のデバイス配置のための効率的なアルゴリズム

Efficient Algorithms for Device Placement of DNN Graph Operators ( http://arxiv.org/abs/2006.16423v2 )

ライセンス: Link先を確認
Jakub Tarnawski, Amar Phanishayee, Nikhil R. Devanur, Divya Mahajan, Fanny Nina Paravecino(参考訳) 現代の機械学習ワークロードは、実行に非常にコストがかかる複雑な構造を持つ大規模なモデルを使用する。 複雑なモデルを実行するデバイスは、cpuに加えてハードウェアアクセラレータとして提供されるドメイン固有のアクセラレータが急増するにつれて、ますます異様になっています。 これらの傾向は、ワークロードを複数のデバイスに分散させる必要がある。 近年の研究では、ニューラルネットワークの計算グラフを複数のデバイスに分割するモデル並列性によって大きな利益が得られることが示されている。 特に、この形式の並列性は、サンプルのストリームを供給し、DNNのトレーニングと推論のための高いスループットをもたらすデバイスのパイプラインを前提としている。 しかし、そのような設定(大規模なモデルと複数の異種デバイス)には、デバイス間でMLワークロードを分割する自動化アルゴリズムとツールチェーンが必要です。 本稿では,DNN演算子のデバイス配置のコアとなる構造的最適化問題を,特に現代のパイプライン環境において,推論とトレーニングの両方のために同定し,分離する。 そして、この問題を最適に解くアルゴリズムを提供する。 いくつかの現代のDNN計算グラフを用いて,本手法の適用性と有効性を示す。

Modern machine learning workloads use large models, with complex structures, that are very expensive to execute. The devices that execute complex models are becoming increasingly heterogeneous as we see a flourishing of domain-specific accelerators being offered as hardware accelerators in addition to CPUs. These trends necessitate distributing the workload across multiple devices. Recent work has shown that significant gains can be obtained with model parallelism, i.e, partitioning a neural network's computational graph onto multiple devices. In particular, this form of parallelism assumes a pipeline of devices, which is fed a stream of samples and yields high throughput for training and inference of DNNs. However, for such settings (large models and multiple heterogeneous devices), we require automated algorithms and toolchains that can partition the ML workload across devices. In this paper, we identify and isolate the structured optimization problem at the core of device placement of DNN operators, for both inference and training, especially in modern pipelined settings. We then provide algorithms that solve this problem to optimality. We demonstrate the applicability and efficiency of our approaches using several contemporary DNN computation graphs.
翻訳日:2022-11-15 14:21:43 公開日:2020-10-29
# フィードフォワード完全接続深層ネットワークにおける情報理論下限

Information Theoretic Lower Bounds for Feed-Forward Fully-Connected Deep Networks ( http://arxiv.org/abs/2007.00796v2 )

ライセンス: Link先を確認
Xiaochen Yang and Jean Honorio(参考訳) 本稿では,パラメータの正確な回復と,情報理論的なツールを用いて,バイナリ分類のためのフィードフォワード完全連結ニューラルネットワークの正の過剰リスクに対するサンプル複雑性の低減について検討する。 これらの下限を,二元出力に基づいて入力が生成され,隠れ層に対する重みパラメータによってネットワークがパラメトリ化される逆データ生成プロセスによって特徴付けられる生成ネットワークの存在によって証明する。 パラメータの正確な回復のためのサンプルの複雑さは$\omega(d r \log(r) + p )$であり、正の過剰なリスクは$\omega(r \log(r) + p )$であり、ここで$p$は入力の次元、$r$は重み行列のランクを反映し、$d$は隠れた層の数である。 我々の知る限りでは、私たちの結果は最初の情報理論の下限である。

In this paper, we study the sample complexity lower bounds for the exact recovery of parameters and for a positive excess risk of a feed-forward, fully-connected neural network for binary classification, using information-theoretic tools. We prove these lower bounds by the existence of a generative network characterized by a backwards data generating process, where the input is generated based on the binary output, and the network is parametrized by weight parameters for the hidden layers. The sample complexity lower bound for the exact recovery of parameters is $\Omega(d r \log(r) + p )$ and for a positive excess risk is $\Omega(r \log(r) + p )$, where $p$ is the dimension of the input, $r$ reflects the rank of the weight matrices and $d$ is the number of hidden layers. To the best of our knowledge, our results are the first information theoretic lower bounds.
翻訳日:2022-11-14 22:17:31 公開日:2020-10-29
# ラベルのないデータがすべて平等であるとは限らない: 半教師付き学習における重み付け学習

Not All Unlabeled Data are Equal: Learning to Weight Data in Semi-supervised Learning ( http://arxiv.org/abs/2007.01293v2 )

ライセンス: Link先を確認
Zhongzheng Ren, Raymond A. Yeh, Alexander G. Schwing(参考訳) 既存の半教師付き学習(ssl)アルゴリズムは、ラベル付き例とラベルなし例の損失のバランスをとるために単一の重みを用いる。 しかし、ラベルのないデータがすべて等しいわけではない。 本稿では,ラベルのない例ごとに異なる重みをどう使うかを検討する。 以前の作業で行われているように、これらすべての重みのマニュアルチューニングはもはや不可能です。 代わりに、1つのトレーニング例に対するモデルの依存性の測定値である影響関数に基づいてアルゴリズムによって重み付けを調整します。 アプローチを効率的にするために,影響関数の高速かつ効果的な近似法を提案する。 本手法は,半教師付き画像および言語分類タスクにおける最先端手法よりも優れていることを示す。

Existing semi-supervised learning (SSL) algorithms use a single weight to balance the loss of labeled and unlabeled examples, i.e., all unlabeled examples are equally weighted. But not all unlabeled data are equal. In this paper we study how to use a different weight for every unlabeled example. Manual tuning of all those weights -- as done in prior work -- is no longer possible. Instead, we adjust those weights via an algorithm based on the influence function, a measure of a model's dependency on one training example. To make the approach efficient, we propose a fast and effective approximation of the influence function. We demonstrate that this technique outperforms state-of-the-art methods on semi-supervised image and language classification tasks.
翻訳日:2022-11-14 12:57:24 公開日:2020-10-29
# RATT: 連続した画像キャプションのための過渡的タスクへの繰り返しの注意

RATT: Recurrent Attention to Transient Tasks for Continual Image Captioning ( http://arxiv.org/abs/2007.06271v2 )

ライセンス: Link先を確認
Riccardo Del Chiaro, Bart{\l}omiej Twardowski, Andrew D. Bagdanov, Joost van de Weijer(参考訳) 連続学習の研究は、フィードフォワード分類ネットワークにおける壊滅的な忘れを緩和するための様々なアプローチにつながった。 これまで、画像キャプションなどの問題に適用された繰り返しモデルの継続的な学習にはほとんど注目されていなかった。 本稿では,画像キャプションのためのLSTMベースモデルの連続学習を体系的に検討する。 本稿では,連続的なイメージキャプションタスクにおける語彙の過渡的な性質を明確化するための注意に基づくアプローチを提案する。 提案手法をRATT(Recurrent Attention to Transient Tasks)と呼び,重み付けの偏りと知識の蒸留に基づく連続学習アプローチを連続学習問題に適用する方法を示す。 我々は,MS-COCOとFlickr30データセットを用いて定義した2つの連続学習ベンチマークに対して,インクリメンタルな画像キャプション問題に適用する。 その結果,過去の学習課題を忘れることなく,逐次5つのキャプションタスクを学習できることがわかった。

Research on continual learning has led to a variety of approaches to mitigating catastrophic forgetting in feed-forward classification networks. Until now surprisingly little attention has been focused on continual learning of recurrent models applied to problems like image captioning. In this paper we take a systematic look at continual learning of LSTM-based models for image captioning. We propose an attention-based approach that explicitly accommodates the transient nature of vocabularies in continual image captioning tasks -- i.e. that task vocabularies are not disjoint. We call our method Recurrent Attention to Transient Tasks (RATT), and also show how to adapt continual learning approaches based on weight egularization and knowledge distillation to recurrent continual learning problems. We apply our approaches to incremental image captioning problem on two new continual learning benchmarks we define using the MS-COCO and Flickr30 datasets. Our results demonstrate that RATT is able to sequentially learn five captioning tasks while incurring no forgetting of previously learned ones.
翻訳日:2022-11-10 23:12:53 公開日:2020-10-29
# BoxE: 知識ベース完成のためのボックス埋め込みモデル

BoxE: A Box Embedding Model for Knowledge Base Completion ( http://arxiv.org/abs/2007.06267v2 )

ライセンス: Link先を確認
Ralph Abboud, \.Ismail \.Ilkan Ceylan, Thomas Lukasiewicz, Tommaso Salvatori(参考訳) 知識ベース補完(KBC)は、知識ベース(KB)に存在する情報を利用して、行方不明の事実を自動的に推測することを目的としている。 KBCの有望なアプローチは、知識を潜在空間に埋め込み、学習された埋め込みから予測することである。 しかしながら、既存の埋め込みモデルは、(1)理論的非表現性、(2)顕著な推論パターン(例えば階層)のサポートの欠如、(3)高次関係に対するKBCのサポートの欠如、(4)論理規則を組み込むサポートの欠如、の2つの制限の少なくとも1つに該当する。 本稿では,これらの制約を全て同時に解決する,boxeと呼ばれる時空間翻訳埋め込みモデルを提案する。 BoxEは、エンティティをポイントとして、そして関係を、空間的に基本的な論理的性質を特徴づける超矩形(またはボックス)の集合として埋め込む。 この一見単純な抽象化は、多くの望ましい論理特性の自然なエンコーディングを提供する完全表現型モデルをもたらす。 boxeは、個々の推論パターンを超えて、ルール言語のリッチクラスからルールをキャプチャし、注入することができる。 設計上、BoxEは自然に高アリティKBに適用される。 我々は、詳細な実験分析を行い、BoxEがベンチマーク知識グラフとより一般的なKBの両方で最先端のパフォーマンスを達成できることを示し、論理ルールの統合のパワーを実証的に示す。

Knowledge base completion (KBC) aims to automatically infer missing facts by exploiting information already present in a knowledge base (KB). A promising approach for KBC is to embed knowledge into latent spaces and make predictions from learned embeddings. However, existing embedding models are subject to at least one of the following limitations: (1) theoretical inexpressivity, (2) lack of support for prominent inference patterns (e.g., hierarchies), (3) lack of support for KBC over higher-arity relations, and (4) lack of support for incorporating logical rules. Here, we propose a spatio-translational embedding model, called BoxE, that simultaneously addresses all these limitations. BoxE embeds entities as points, and relations as a set of hyper-rectangles (or boxes), which spatially characterize basic logical properties. This seemingly simple abstraction yields a fully expressive model offering a natural encoding for many desired logical properties. BoxE can both capture and inject rules from rich classes of rule languages, going well beyond individual inference patterns. By design, BoxE naturally applies to higher-arity KBs. We conduct a detailed experimental analysis, and show that BoxE achieves state-of-the-art performance, both on benchmark knowledge graphs and on more general KBs, and we empirically show the power of integrating logical rules.
翻訳日:2022-11-10 22:47:12 公開日:2020-10-29
# COBE: ナラティブなインストラクショナルビデオからコンテキスト化されたオブジェクト埋め込み

COBE: Contextualized Object Embeddings from Narrated Instructional Video ( http://arxiv.org/abs/2007.07306v2 )

ライセンス: Link先を確認
Gedas Bertasius, Lorenzo Torresani(参考訳) 現実世界の多くの物体は、視覚的な外観の劇的な変化をもたらす。 例えば、トマトは赤または緑、スライスまたは刻んだもの、新鮮なもの、揚げ物、液体または固体である。 これらの異なる状態のトマトを正確に認識するために単一の検出器を訓練することは難しい。 一方、文脈的な手がかり(例えば、ナイフ、切削板、ストレーカー、パンなど)は、しばしば、シーンにおける物体の出現方法の強い示唆である。 このような文脈的手がかりを認識することは、オブジェクト検出の精度の向上やオブジェクトの状態の決定だけでなく、その機能的特性の理解や、現在進行中のヒューマン・オブジェクト間インタラクションの推測にも有用である。 現実の世界におけるオブジェクトの状態とそのコンテキストを認識するための完全に教師ありのアプローチは、残念ながら、長い尾の付いた、オープンで拡張されたデータの分散によって損なわれています。 本課題では,手動でラベル付けされたデータに頼る代わりに,自動書き起こされた指導ビデオのナレーションからコンテキスト適応オブジェクト埋め込み(COBE)を学習するための新しいフレームワークを提案する。 言語の意味的・構成的構造を視覚的検知器を訓練し,オブジェクトとその関連するナレーションの文脈的単語埋め込みを予測する。 これにより、概念が意味言語メトリックに関連づけられるオブジェクト表現の学習が可能になる。 実験の結果,検出器は多種多様なコンテキストオブジェクト情報を予測し,少数ショットおよびゼロショット学習の設定において極めて有効であることがわかった。

Many objects in the real world undergo dramatic variations in visual appearance. For example, a tomato may be red or green, sliced or chopped, fresh or fried, liquid or solid. Training a single detector to accurately recognize tomatoes in all these different states is challenging. On the other hand, contextual cues (e.g., the presence of a knife, a cutting board, a strainer or a pan) are often strongly indicative of how the object appears in the scene. Recognizing such contextual cues is useful not only to improve the accuracy of object detection or to determine the state of the object, but also to understand its functional properties and to infer ongoing or upcoming human-object interactions. A fully-supervised approach to recognizing object states and their contexts in the real-world is unfortunately marred by the long-tailed, open-ended distribution of the data, which would effectively require massive amounts of annotations to capture the appearance of objects in all their different forms. Instead of relying on manually-labeled data for this task, we propose a new framework for learning Contextualized OBject Embeddings (COBE) from automatically-transcribed narrations of instructional videos. We leverage the semantic and compositional structure of language by training a visual detector to predict a contextualized word embedding of the object and its associated narration. This enables the learning of an object representation where concepts relate according to a semantic language metric. Our experiments show that our detector learns to predict a rich variety of contextual object information, and that it is highly effective in the settings of few-shot and zero-shot learning.
翻訳日:2022-11-10 15:10:50 公開日:2020-10-29
# スケーラブル無線資源管理のためのグラフニューラルネットワーク:アーキテクチャ設計と理論的解析

Graph Neural Networks for Scalable Radio Resource Management: Architecture Design and Theoretical Analysis ( http://arxiv.org/abs/2007.07632v2 )

ライセンス: Link先を確認
Yifei Shen, Yuanming Shi, Jun Zhang, Khaled B. Letaief(参考訳) 深層学習は、無線ネットワークにおける無線リソース管理の課題を解決するための破壊的な技術として最近登場した。 しかしながら、既存の作品で採用されているニューラルネットワークアーキテクチャは、スケーラビリティの低下、一般化、解釈可能性の欠如に苦しむ。 スケーラビリティと一般化を改善するための長年のアプローチは、ターゲットタスクの構造をニューラルネットワークアーキテクチャに組み込むことである。 本稿では,グラフニューラルネットワーク(GNN)を用いて,効率的なニューラルネットワーク設計と理論的解析を支援する大規模無線リソース管理の課題を解決することを提案する。 具体的には,まず,普遍的置換同分散性を楽しむグラフ最適化問題として,無線資源管理問題を定式化できることを実証する。 次に、 \emph{message passing graph neural networks} (mpgnns) と呼ばれるニューラルネットワークのクラスを識別する。 それらは置換同分散特性を満足するだけでなく,高い計算効率を享受しながら大規模問題に一般化できることを示した。 解釈性および理論的保証のために,MPGNNと分散最適化アルゴリズムのクラスとの等価性を証明し,MPGNNに基づく手法の性能と一般化を解析する。 電力制御とビームフォーミングを2つの例とする大規模なシミュレーションにより、提案手法は、未ラベルのサンプルを用いて教師なしの方法で訓練され、ドメイン固有の知識を伴わずに古典的な最適化に基づくアルゴリズムよりも優れていることを示した。 提案手法はスケーラビリティが高く,1つのGPU上で1,000ドルのトランシーバペアを6ミリ秒以内で行う干渉チャネルにおけるビームフォーミング問題を解くことができる。

Deep learning has recently emerged as a disruptive technology to solve challenging radio resource management problems in wireless networks. However, the neural network architectures adopted by existing works suffer from poor scalability, generalization, and lack of interpretability. A long-standing approach to improve scalability and generalization is to incorporate the structures of the target task into the neural network architecture. In this paper, we propose to apply graph neural networks (GNNs) to solve large-scale radio resource management problems, supported by effective neural network architecture design and theoretical analysis. Specifically, we first demonstrate that radio resource management problems can be formulated as graph optimization problems that enjoy a universal permutation equivariance property. We then identify a class of neural networks, named \emph{message passing graph neural networks} (MPGNNs). It is demonstrated that they not only satisfy the permutation equivariance property, but also can generalize to large-scale problems while enjoying a high computational efficiency. For interpretablity and theoretical guarantees, we prove the equivalence between MPGNNs and a class of distributed optimization algorithms, which is then used to analyze the performance and generalization of MPGNN-based methods. Extensive simulations, with power control and beamforming as two examples, will demonstrate that the proposed method, trained in an unsupervised manner with unlabeled samples, matches or even outperforms classic optimization-based algorithms without domain-specific knowledge. Remarkably, the proposed method is highly scalable and can solve the beamforming problem in an interference channel with $1000$ transceiver pairs within $6$ milliseconds on a single GPU.
翻訳日:2022-11-10 06:49:30 公開日:2020-10-29
# 限定目標ラベルデータによる多重音源適応の一理論

A Theory of Multiple-Source Adaptation with Limited Target Labeled Data ( http://arxiv.org/abs/2007.09762v2 )

ライセンス: Link先を確認
Yishay Mansour and Mehryar Mohri and Jae Ro and Ananda Theertha Suresh and Ke Wu(参考訳) 本稿では,学習者が限られた量のラベル付き対象データにしかアクセスできないが,学習者が大量のラベル付きデータを複数のソースドメインから取り除く場合の共通シナリオにおいて,マルチソース領域適応問題に関する理論的・アルゴリズム的な研究を行う。 モデル選択のアイデアに基づく新しいアルゴリズム群は、このシナリオにおいて非常に好ましい保証から恩恵を受け、いくつかの代替手法に影響を与える理論上の障害について議論する。 また,実効性を示すアルゴリズムを用いたいくつかの実験結果について報告する。

We present a theoretical and algorithmic study of the multiple-source domain adaptation problem in the common scenario where the learner has access only to a limited amount of labeled target data, but where the learner has at disposal a large amount of labeled data from multiple source domains. We show that a new family of algorithms based on model selection ideas benefits from very favorable guarantees in this scenario and discuss some theoretical obstacles affecting some alternative techniques. We also report the results of several experiments with our algorithms that demonstrate their practical effectiveness.
翻訳日:2022-11-08 23:58:38 公開日:2020-10-29
# YOLOpeds:スマートカメラアプリケーションのための効率的なリアルタイムワンショットペデストリアン検出

YOLOpeds: Efficient Real-Time Single-Shot Pedestrian Detection for Smart Camera Applications ( http://arxiv.org/abs/2007.13404v2 )

ライセンス: Link先を確認
Christos Kyrkou(参考訳) ディープラーニングベースのオブジェクト検出器は、ビデオ監視、自動運転、ロボットとドローン、スマートファクトリー、健康監視など、さまざまなマシンビジョンアプリケーションにおいて、スマートカメラシステムの能力を高めることができる。 歩行者検出は、これらすべてのアプリケーションにおいて重要な役割を担い、ディープラーニングを使用して正確な最先端検出器を構築することができる。 しかし、そのような複雑なパラダイムは容易にはスケールせず、従来はリソースに制約のあるスマートカメラでオンデバイス処理に実装されておらず、リアルタイム監視や堅牢性が不可欠である状況において大きな利点がある。 効率的なニューラルネットワークは、モバイルアプリケーションやオンデバイスエクスペリエンスを有効にするだけでなく、プライバシやセキュリティの重要な実現手段として、ユーザが評価対象のサーバにデータを送信しなくても、ニューラルネットワークのメリットを享受することができる。 この研究は、スマートカメラアプリケーションにおけるディープラーニングに基づく歩行者検出の効率的な展開のために、精度と速度の良好なトレードオフを達成するという課題に対処する。 分離可能な畳み込みに基づいて計算効率の高いアーキテクチャを導入し,マルチスケール特徴融合と層間密結合の統合により,パラメータ数と演算数を削減しつつ表現能力を向上させることを提案する。 特に、この作品の貢献は以下のとおりである。 1)マルチスケール機能操作を組み合わせた効率的なバックボーン 2) ローカライゼーションを改善するためのより精巧な損失関数。 3) 320x320画像上のPETS2009監視データセットを用いて, YOLOpedsと呼ばれるアンカーレス検出手法の評価を行った。 全体として、yolopedsは毎秒30フレーム以上のリアルタイム持続操作を提供し、既存のディープラーニングモデルよりも86%高い精度で検出できる。

Deep Learning-based object detectors can enhance the capabilities of smart camera systems in a wide spectrum of machine vision applications including video surveillance, autonomous driving, robots and drones, smart factory, and health monitoring. Pedestrian detection plays a key role in all these applications and deep learning can be used to construct accurate state-of-the-art detectors. However, such complex paradigms do not scale easily and are not traditionally implemented in resource-constrained smart cameras for on-device processing which offers significant advantages in situations when real-time monitoring and robustness are vital. Efficient neural networks can not only enable mobile applications and on-device experiences but can also be a key enabler of privacy and security allowing a user to gain the benefits of neural networks without needing to send their data to the server to be evaluated. This work addresses the challenge of achieving a good trade-off between accuracy and speed for efficient deployment of deep-learning-based pedestrian detection in smart camera applications. A computationally efficient architecture is introduced based on separable convolutions and proposes integrating dense connections across layers and multi-scale feature fusion to improve representational capacity while decreasing the number of parameters and operations. In particular, the contributions of this work are the following: 1) An efficient backbone combining multi-scale feature operations, 2) a more elaborate loss function for improved localization, 3) an anchor-less approach for detection, The proposed approach called YOLOpeds is evaluated using the PETS2009 surveillance dataset on 320x320 images. Overall, YOLOpeds provides real-time sustained operation of over 30 frames per second with detection rates in the range of 86% outperforming existing deep learning models.
翻訳日:2022-11-06 08:47:29 公開日:2020-10-29
# UAV搭載ビジュアルオブジェクト追跡のための3次元環境の統合

Integration of the 3D Environment for UAV Onboard Visual Object Tracking ( http://arxiv.org/abs/2008.02834v3 )

ライセンス: Link先を確認
St\'ephane Vujasinovi\'c, Stefan Becker, Timo Breuer, Sebastian Bullinger, Norbert Scherer-Negenborn, Michael Arens(参考訳) 無人航空機(UAV)からの単一の視覚的物体追跡は、物体の閉塞、小型物体、背景のぼやけ、突然のカメラの動きといった根本的な課題を引き起こす。 これらの課題に対処するために,観測シーンの3次元構造を検出・追跡アルゴリズムに統合する。 我々は,モデルフリーのビジュアルオブジェクトトラッカ,スパースな3d再構成,状態推定器を組み合わせたパイプラインを導入する。 シーンの3次元再構成を画像ベースのstructure-from-motion(sfm)コンポーネントで計算し、追跡中に対応する3次元シーンで状態推定器を活用できるようにする。 画像空間ではなく3次元空間における目標の位置を表現することで、自我運動中の追跡を安定させ、咬合、背景クラッタ、小型物体の取り扱いを改善する。 低高度斜視でUAVから取得した原型画像列に対するアプローチについて検討した。 この目的のために,既存のデータセットを視覚オブジェクト追跡に適用し,観察したシーンを3dで再構成した。 実験の結果,提案手法は画像空間に基づく状態推定の手法と同様に,平易な視覚的手がかりを用いた手法よりも優れていた。 当社のアプローチは,トラフィック監視やビデオ監視,ナビゲーションなどに有用だと考えています。

Single visual object tracking from an unmanned aerial vehicle (UAV) poses fundamental challenges such as object occlusion, small-scale objects, background clutter, and abrupt camera motion. To tackle these difficulties, we propose to integrate the 3D structure of the observed scene into a detection-by-tracking algorithm. We introduce a pipeline that combines a model-free visual object tracker, a sparse 3D reconstruction, and a state estimator. The 3D reconstruction of the scene is computed with an image-based Structure-from-Motion (SfM) component that enables us to leverage a state estimator in the corresponding 3D scene during tracking. By representing the position of the target in 3D space rather than in image space, we stabilize the tracking during ego-motion and improve the handling of occlusions, background clutter, and small-scale objects. We evaluated our approach on prototypical image sequences, captured from a UAV with low-altitude oblique views. For this purpose, we adapted an existing dataset for visual object tracking and reconstructed the observed scene in 3D. The experimental results demonstrate that the proposed approach outperforms methods using plain visual cues as well as approaches leveraging image-space-based state estimations. We believe that our approach can be beneficial for traffic monitoring, video surveillance, and navigation.
翻訳日:2022-11-02 07:28:43 公開日:2020-10-29
# マルコフ鎖に束縛された行列チャーノフとその共起行列への応用

A Matrix Chernoff Bound for Markov Chains and Its Application to Co-occurrence Matrices ( http://arxiv.org/abs/2008.02464v2 )

ライセンス: Link先を確認
Jiezhong Qiu, Chi Wang, Ben Liao, Richard Peng, Jie Tang(参考訳) 正則な(周期的かつ既約な)有限マルコフ連鎖を介してサンプリングされた行列値確率変数の和に対するチェルノフ型有界性を証明する。 特に、正規マルコフ連鎖上のランダムウォークとその状態空間上のエルミート行列値関数を考える。 この結果はサンプル平均行列の極限固有値のテール分布上の指数関数的に減少する。 我々の証明は行列展開器(正規無向グラフ)のチャーノフ境界 [Garg et al. STOC '18] とマルコフ連鎖のスカラーチェルノフ-ホーフディング境界 [Chung et al. STACS '12] に基づいている。 マルコフ連鎖に結合した我々の行列Chernoffは、機械学習において一般的かつ重要なデータ信号であるシーケンシャルデータに対する共起統計の挙動を解析するために応用できる。 n$ の状態と混合時間 $\tau$ の正規マルコフ連鎖が与えられると、誤差が $\epsilon$ となる共起行列の推定値を達成するためには、長さ $o(\tau (\log{(n)}+\log{(\tau)})/\epsilon^2)$ の軌道が必要である。 我々はいくつかの実験を行い, 実験結果は理論解析による指数関数的に速い収束率と一致した。 この結果は,共起行列の収束率とグラフ表現学習における最初のサンプル複雑性解析に最初の限界を与える。

We prove a Chernoff-type bound for sums of matrix-valued random variables sampled via a regular (aperiodic and irreducible) finite Markov chain. Specially, consider a random walk on a regular Markov chain and a Hermitian matrix-valued function on its state space. Our result gives exponentially decreasing bounds on the tail distributions of the extreme eigenvalues of the sample mean matrix. Our proof is based on the matrix expander (regular undirected graph) Chernoff bound [Garg et al. STOC '18] and scalar Chernoff-Hoeffding bounds for Markov chains [Chung et al. STACS '12]. Our matrix Chernoff bound for Markov chains can be applied to analyze the behavior of co-occurrence statistics for sequential data, which have been common and important data signals in machine learning. We show that given a regular Markov chain with $n$ states and mixing time $\tau$, we need a trajectory of length $O(\tau (\log{(n)}+\log{(\tau)})/\epsilon^2)$ to achieve an estimator of the co-occurrence matrix with error bound $\epsilon$. We conduct several experiments and the experimental results are consistent with the exponentially fast convergence rate from theoretical analysis. Our result gives the first bound on the convergence rate of the co-occurrence matrix and the first sample complexity analysis in graph representation learning.
翻訳日:2022-11-02 06:52:55 公開日:2020-10-29
# ReaktoroとFiredrakeを用いた異種多孔質媒体の高速反応性輸送シミュレーション

Accelerated reactive transport simulations in heterogeneous porous media using Reaktoro and Firedrake ( http://arxiv.org/abs/2009.01194v2 )

ライセンス: Link先を確認
Svetlana Kyas, Diego Volpatto, Martin O. Saar, and Allan M. M. Leal(参考訳) 本稿では,leal et al. (2020) で導入されたオンデマンド機械学習 (odml) アルゴリズムの性能を,異種多孔質媒質中の異なる反応性輸送問題に適用した場合に検討する。 ODMLは、反応性輸送シミュレーションにおける計算コストの高い地球化学反応計算を高速化するために考案された。 ODMLアルゴリズムはこれらの計算を1~3桁高速化することを示した。 このような加速は反応輸送シミュレーション全体を著しく加速させる。 数値実験は、reaktoro (leal, 2015)とfiredrake (rathgeber et al., 2016)の2つのオープンソースソフトウェアパッケージの結合を実装して行われる。

This work investigates the performance of the on-demand machine learning (ODML) algorithm introduced in Leal et al. (2020) when applied to different reactive transport problems in heterogeneous porous media. ODML was devised to accelerate the computationally expensive geochemical reaction calculations in reactive transport simulations. We demonstrate that the ODML algorithm speeds up these calculations by one to three orders of magnitude. Such acceleration, in turn, significantly accelerates the entire reactive transport simulation. The numerical experiments are performed by implementing the coupling of two open-source software packages: Reaktoro (Leal, 2015) and Firedrake (Rathgeber et al., 2016).
翻訳日:2022-10-28 04:26:36 公開日:2020-10-29
# 弱ラベル音響イベント検出のためのマルチタスク学習

Multi-Task Learning for Interpretable Weakly Labelled Sound Event Detection ( http://arxiv.org/abs/2008.07085v2 )

ライセンス: Link先を確認
Soham Deshmukh, Bhiksha Raj, Rita Singh(参考訳) 近年,音事象検出 (SED) の規模が拡大し,MIL (Multiple Instance Learning) 問題として定式化され,難解な遅延学習が注目されている。 本稿では,従来のMIL設定を含むWeakly Labelled Audioデータから学習するマルチタスク学習(MTL)フレームワークを提案する。 提案手法の実用性を示すため,入力時間周波数表現(T-F)を補助タスクとして用いる。 選択した補助タスクは内部のT-F表現を消音し、ノイズの多い記録下でのSED性能を向上させる。 第2の貢献は,2段階のアテンションプール機構の導入です。 2段階の注意機構を持つことにより、SED性能を損なうことなく、より優れたT-Fレベル情報を保持する。 第1ステップと第2ステップの注意重みの可視化は、T-Fドメインにおけるオーディオイベントのローカライズに役立つ。 提案フレームワークを評価するために,dcase 2019タスク1の音響シーンデータを,dcase 2018タスク2のイベントデータを0,10,20dbのsnr以下でリミックスすることで,マルチクラス弱ラベルsed問題を発生させる。 提案された全フレームワークは、既存のベンチマークモデル、特に0, 10, 20 dB SNRのベンチマークモデルよりも22.3 %, 12.8 %, 5.9% 改善されている。 補助課題と2段階の注意プーリングのsed性能向上への寄与を判定するためにアブレーション研究を行った。 コードは公開されています

Weakly Labelled learning has garnered lot of attention in recent years due to its potential to scale Sound Event Detection (SED) and is formulated as Multiple Instance Learning (MIL) problem. This paper proposes a Multi-Task Learning (MTL) framework for learning from Weakly Labelled Audio data which encompasses the traditional MIL setup. To show the utility of proposed framework, we use the input TimeFrequency representation (T-F) reconstruction as the auxiliary task. We show that the chosen auxiliary task de-noises internal T-F representation and improves SED performance under noisy recordings. Our second contribution is introducing two step Attention Pooling mechanism. By having 2-steps in attention mechanism, the network retains better T-F level information without compromising SED performance. The visualisation of first step and second step attention weights helps in localising the audio-event in T-F domain. For evaluating the proposed framework, we remix the DCASE 2019 task 1 acoustic scene data with DCASE 2018 Task 2 sounds event data under 0, 10 and 20 db SNR resulting in a multi-class Weakly labelled SED problem. The proposed total framework outperforms existing benchmark models over all SNRs, specifically 22.3 %, 12.8 %, 5.9 % improvement over benchmark model on 0, 10 and 20 dB SNR respectively. We carry out ablation study to determine the contribution of each auxiliary task and 2-step Attention Pooling to the SED performance improvement. The code is publicly released
翻訳日:2022-10-28 03:27:22 公開日:2020-10-29
# 強化学習タスクのための構成可能仕様言語

A Composable Specification Language for Reinforcement Learning Tasks ( http://arxiv.org/abs/2008.09293v2 )

ライセンス: Link先を確認
Kishor Jothimurugan, Rajeev Alur and Osbert Bastani(参考訳) 強化学習はロボットタスクの制御方針を学ぶための有望なアプローチである。 しかし、ユーザーがタスク全体をエンコードする報酬関数を設計する必要があるため、複雑なタスク(例えば、複数の目的と安全性の制約)を特定するのは困難である。 さらに、ユーザは学習アルゴリズムの収束を確実にするために、報酬を手作業で形作る必要があります。 本稿では,複雑な制御タスクを指定する言語と,言語仕様を報酬関数にコンパイルし,報酬形成を自動的に行うアルゴリズムを提案する。 我々は、SPECTRLと呼ばれるツールにアプローチを実装し、最先端のベースラインよりも優れていることを示す。

Reinforcement learning is a promising approach for learning control policies for robot tasks. However, specifying complex tasks (e.g., with multiple objectives and safety constraints) can be challenging, since the user must design a reward function that encodes the entire task. Furthermore, the user often needs to manually shape the reward to ensure convergence of the learning algorithm. We propose a language for specifying complex control tasks, along with an algorithm that compiles specifications in our language into a reward function and automatically performs reward shaping. We implement our approach in a tool called SPECTRL, and show that it outperforms several state-of-the-art baselines.
翻訳日:2022-10-26 20:43:41 公開日:2020-10-29
# 距離符号化: グラフ表現学習のためのより強力なニューラルネットワークの設計

Distance Encoding: Design Provably More Powerful Neural Networks for Graph Representation Learning ( http://arxiv.org/abs/2009.00142v4 )

ライセンス: Link先を確認
Pan Li, Yanbang Wang, Hongwei Wang, Jure Leskovec(参考訳) グラフ内のノードの集合の表現の学習は、ノード・ロール発見からリンク予測や分子分類に至るまで、アプリケーションにとって不可欠である。 グラフニューラルネットワーク(GNN)はグラフ表現学習において大きな成功を収めている。 しかしながら、GNN の表現力は 1-Weisfeiler-Lehman (WL) テストによって制限されるため、GNN はグラフ部分構造に対して、実際には非常に異なる表現を生成する。 高次wlテストの模倣によって最近提案されたより強力なgnnは、グラフ全体の表現にのみ焦点を合わせ、基礎となるグラフのスパーシティを活用できないため、計算効率に欠ける。 本稿では,距離符号化(DE)と呼ばれる構造関連特徴の一般クラスを提案し,数学的に解析する。 DEはGNNがノードの集合を表現するのを補助し、1-WLテストよりも厳密な表現力を提供する。 DEは、表現が学習されるノードセットとグラフ内の各ノードの間の距離をキャプチャする。 距離deをキャプチャし、最短経路距離や一般ページランクスコアなどの様々なグラフ距離尺度を適用できるようにする。 本稿では,DES(1)を追加ノードとして,(2)をGNNにおけるメッセージアグリゲーションのコントローラとして使用する2つの方法を提案する。 どちらのアプローチも、計算効率とスケーラビリティをもたらす基礎となるグラフのスパース構造を利用することができる。 また、deは従来のgnnが常に失敗するほぼすべての正規グラフに埋め込まれたノードセットを区別できることも証明します。 我々は,構造的役割予測,リンク予測,三角形予測という,6つの実ネットワーク上の3つのタスクについてdeを評価する。 以上の結果から,本モデルでは精度が最大15\%,aurocでgnnを上回った。 さらに,本モデルは,上記のタスク用に設計された他の最先端手法を著しく上回っている。

Learning representations of sets of nodes in a graph is crucial for applications ranging from node-role discovery to link prediction and molecule classification. Graph Neural Networks (GNNs) have achieved great success in graph representation learning. However, expressive power of GNNs is limited by the 1-Weisfeiler-Lehman (WL) test and thus GNNs generate identical representations for graph substructures that may in fact be very different. More powerful GNNs, proposed recently by mimicking higher-order-WL tests, only focus on representing entire graphs and they are computationally inefficient as they cannot utilize sparsity of the underlying graph. Here we propose and mathematically analyze a general class of structure-related features, termed Distance Encoding (DE). DE assists GNNs in representing any set of nodes, while providing strictly more expressive power than the 1-WL test. DE captures the distance between the node set whose representation is to be learned and each node in the graph. To capture the distance DE can apply various graph-distance measures such as shortest path distance or generalized PageRank scores. We propose two ways for GNNs to use DEs (1) as extra node features, and (2) as controllers of message aggregation in GNNs. Both approaches can utilize the sparse structure of the underlying graph, which leads to computational efficiency and scalability. We also prove that DE can distinguish node sets embedded in almost all regular graphs where traditional GNNs always fail. We evaluate DE on three tasks over six real networks: structural role prediction, link prediction, and triangle prediction. Results show that our models outperform GNNs without DE by up-to 15\% in accuracy and AUROC. Furthermore, our models also significantly outperform other state-of-the-art methods especially designed for the above tasks.
翻訳日:2022-10-23 06:54:26 公開日:2020-10-29
# 物理的に組込み型計画問題:強化学習の新たな課題

Physically Embedded Planning Problems: New Challenges for Reinforcement Learning ( http://arxiv.org/abs/2009.05524v2 )

ライセンス: Link先を確認
Mehdi Mirza, Andrew Jaegle, Jonathan J. Hunt, Arthur Guez, Saran Tunyasuvunakool, Alistair Muldal, Th\'eophane Weber, Peter Karkus, S\'ebastien Racani\`ere, Lars Buesing, Timothy Lillicrap, Nicolas Heess(参考訳) 深層強化学習(rl)における最近の研究は、go, chess, shogiなどの挑戦的なゲームを習得できるアルゴリズムを生み出している。 これらの研究において、RLエージェントはゲームの自然な状態を直接観察し、その動作でその状態を直接制御する。 しかし、人間がそのようなゲームをするときは、動きを理由づけるだけでなく、物理的な環境と相互作用する。 彼らは、目の前の物理的なボードを見てゲームの状態を理解し、それをタッチときめ細かいモーターコントロールで操作することで修正する。 抽象的な目標を持つ複雑な物理システムをマスターすることは、人工知能にとって重要な課題だが、既存のRLアルゴリズムには及ばない。 この目標に向かって進歩を促すために、私たちは物理的に埋め込まれた計画の問題を紹介し、それらを公開します。 物理エンジンに挑戦的な象徴的タスク(sokoban、tic-tac-toe、go)を組み込んで、知覚、推論、運動制御を必要とする一連のタスクを長時間の地平線上で生成します。 既存のRLアルゴリズムはこれらのタスクのシンボリックバージョンに対処できるが、物理的に組み込まれた最も単純なタスクをマスターするのに苦労している。 これらの課題に対する解の空間を特徴付けるための第一歩として,事前学習された専門家ゲームプレイヤを用いて,RLエージェントのポリシーに抽象空間のヒントを提供しながら,完全な感覚運動制御タスクで学習する強力なベースラインを導入する。 結果として得られたエージェントは、多くのタスクを解決し、抽象的な計画と具体化された制御の間のギャップを埋めるメソッドの必要性を強調する。 動画はhttps://youtu.be/RwHiHlym_1k。

Recent work in deep reinforcement learning (RL) has produced algorithms capable of mastering challenging games such as Go, chess, or shogi. In these works the RL agent directly observes the natural state of the game and controls that state directly with its actions. However, when humans play such games, they do not just reason about the moves but also interact with their physical environment. They understand the state of the game by looking at the physical board in front of them and modify it by manipulating pieces using touch and fine-grained motor control. Mastering complicated physical systems with abstract goals is a central challenge for artificial intelligence, but it remains out of reach for existing RL algorithms. To encourage progress towards this goal we introduce a set of physically embedded planning problems and make them publicly available. We embed challenging symbolic tasks (Sokoban, tic-tac-toe, and Go) in a physics engine to produce a set of tasks that require perception, reasoning, and motor control over long time horizons. Although existing RL algorithms can tackle the symbolic versions of these tasks, we find that they struggle to master even the simplest of their physically embedded counterparts. As a first step towards characterizing the space of solution to these tasks, we introduce a strong baseline that uses a pre-trained expert game player to provide hints in the abstract space to an RL agent's policy while training it on the full sensorimotor control task. The resulting agent solves many of the tasks, underlining the need for methods that bridge the gap between abstract planning and embodied control. See illustrating video at https://youtu.be/RwHiHlym_1k.
翻訳日:2022-10-19 20:48:09 公開日:2020-10-29
# 模倣学習による自己回帰的知識蒸留

Autoregressive Knowledge Distillation through Imitation Learning ( http://arxiv.org/abs/2009.07253v2 )

ライセンス: Link先を確認
Alexander Lin, Jeremy Wohlwend, Howard Chen, and Tao Lei(参考訳) 自然言語生成タスクにおける自己回帰モデルの性能は、深い自己認識アーキテクチャの採用により劇的に向上した。 しかし、これらの上昇は推論速度を妨げ、最先端のモデルが現実の時間に敏感な環境でのデプロイを困難にしている。 知識蒸留に関する模倣学習の視点によって駆動される自己回帰モデルのための圧縮手法を開発した。 このアルゴリズムは露出バイアス問題に対処するために設計されている。 翻訳や要約などの原型言語生成タスクでは,シーケンスレベルの知識蒸留など,他の蒸留アルゴリズムよりも一貫して優れている。 また,本手法を訓練した学生は,スクラッチからトレーニングした生徒よりも1.4~4.8BLEU/ROUGEポイント高く,教師モデルと比較して推論速度を最大14倍に向上させた。

The performance of autoregressive models on natural language generation tasks has dramatically improved due to the adoption of deep, self-attentive architectures. However, these gains have come at the cost of hindering inference speed, making state-of-the-art models cumbersome to deploy in real-world, time-sensitive settings. We develop a compression technique for autoregressive models that is driven by an imitation learning perspective on knowledge distillation. The algorithm is designed to address the exposure bias problem. On prototypical language generation tasks such as translation and summarization, our method consistently outperforms other distillation algorithms, such as sequence-level knowledge distillation. Student models trained with our method attain 1.4 to 4.8 BLEU/ROUGE points higher than those trained from scratch, while increasing inference speed by up to 14 times in comparison to the teacher model.
翻訳日:2022-10-18 05:31:51 公開日:2020-10-29
# GLUCOSE: ジェネラライズド・コネマライズド・ストーリーの解説

GLUCOSE: GeneraLized and COntextualized Story Explanations ( http://arxiv.org/abs/2009.07758v2 )

ライセンス: Link先を確認
Nasrin Mostafazadeh, Aditya Kalyanpur, Lori Moon, David Buchanan, Lauren Berkowitz, Or Biran, Jennifer Chu-Carroll(参考訳) 人間が読むか聞くとき、彼らは暗黙の常識的推論を行い、何が起きたのか、なぜ起きたのかを理解する。 同様のメンタルモデルを構築することができるAIシステムへのステップとして、暗黙のコモンセンス因果的知識の大規模データセットであるGLUCOSEを紹介します。 GLUCOSEを構築するために、我々は認知心理学に基づいて10次元の因果説明を識別し、出来事、状態、モチベーション、感情に焦点をあてた。 各GLUCOSEエントリには、そのステートメントから一般化された推論ルールと組み合わせたストーリー固有の因果文が含まれている。 本稿では2つの具体的な貢献について述べる。 まず,我々は,半構造化テンプレートを用いて因果説明を導出するグルコースデータを大規模にクラウドソーシングするプラットフォームを提案する。 このプラットフォームを用いて,日常の状況に関する暗黙の常識的知識をキャプチャする,約670万の特定の文と一般的なルールを収集した。 第2に,既存の知識資源や事前学習言語モデルでは,GLUCOSEの豊富な推論内容は含まないか,容易に予測できないことを示す。 しかし、最先端のニューラルモデルがこの知識に基づいて訓練されると、人間のメンタルモデルにマッチする見えないストーリーに対して常識的な推論を始めることができる。

When humans read or listen, they make implicit commonsense inferences that frame their understanding of what happened and why. As a step toward AI systems that can build similar mental models, we introduce GLUCOSE, a large-scale dataset of implicit commonsense causal knowledge, encoded as causal mini-theories about the world, each grounded in a narrative context. To construct GLUCOSE, we drew on cognitive psychology to identify ten dimensions of causal explanation, focusing on events, states, motivations, and emotions. Each GLUCOSE entry includes a story-specific causal statement paired with an inference rule generalized from the statement. This paper details two concrete contributions. First, we present our platform for effectively crowdsourcing GLUCOSE data at scale, which uses semi-structured templates to elicit causal explanations. Using this platform, we collected a total of ~670K specific statements and general rules that capture implicit commonsense knowledge about everyday situations. Second, we show that existing knowledge resources and pretrained language models do not include or readily predict GLUCOSE's rich inferential content. However, when state-of-the-art neural models are trained on this knowledge, they can start to make commonsense inferences on unseen stories that match humans' mental models.
翻訳日:2022-10-17 23:01:59 公開日:2020-10-29
# ビデオベースリアルタイム位置追跡装置

Video based real-time positional tracker ( http://arxiv.org/abs/2009.08276v3 )

ライセンス: Link先を確認
David Albarrac\'in, Jes\'us Hormigo, Jos\'e David Fern\'andez(参考訳) 本研究では,映像を入力として,周囲環境に対する物体の位置をリアルタイムで追跡するシステムを提案する。 使用するニューラルネットワークは、私たちの自動生成装置から得られる100%合成データセットでトレーニングされます。 この位置追跡装置は、1〜n台のビデオカメラが好きな場所に配置されている。 システムは、カメラによって形成される重なり合う行列を理解することによって、より広い世界に対する追跡対象の位置を返すので、これらを現実世界の座標に外挿することができる。 ほとんどの場合、既存のGPSシステムよりも高い更新率と位置決め精度を実現しています。

We propose a system that uses video as the input to track the position of objects relative to their surrounding environment in real-time. The neural network employed is trained on a 100% synthetic dataset coming from our own automated generator. The positional tracker relies on a range of 1 to n video cameras placed around an arena of choice. The system returns the positions of the tracked objects relative to the broader world by understanding the overlapping matrices formed by the cameras and therefore these can be extrapolated into real world coordinates. In most cases, we achieve a higher update rate and positioning precision than any of the existing GPS-based systems, in particular for indoor objects or those occluded from clear sky.
翻訳日:2022-10-17 11:48:37 公開日:2020-10-29
# リニア依存正規化による医用画像分類のためのドメイン一般化

Domain Generalization for Medical Imaging Classification with Linear-Dependency Regularization ( http://arxiv.org/abs/2009.12829v3 )

ライセンス: Link先を確認
Haoliang Li, YuFei Wang, Renjie Wan, Shiqi Wang, Tie-Qiang Li, Alex C. Kot(参考訳) 近年,深層ニューラルネットワークを用いた医用画像分類の分野で大きな進歩が見られる。 しかし、最近の先進的なモデルでは、十分に大きなデータセットと代表的なデータセットにアクセスする必要がある。 特定の分布(例えば、特定のデバイスベンダーまたは患者集団によって取得されたデータ)のデータ上の訓練されたディープニューラルネットワークは、別の分布でデータに一般化できない可能性があるため、限られたデータセットでトレーニングされたディープニューラルネットワークは、一般化能力の欠如である。 本稿では,医用画像分類分野におけるディープニューラルネットワークの一般化能力向上のための,単純かつ効果的なアプローチを提案する。 医用画像の領域可変性がある程度コンパクトであることから,新しい線形依存正規化項による変分符号化により代表的特徴空間を学習し,異なる領域から収集した医用データ間で共有可能な情報を取得することを提案する。 結果として、トレーニングされたニューラルネットワークは、"unseen"医療データに対するより優れた一般化能力を備えることが期待される。 2つの難解な医用画像分類タスクの実験結果から,本手法は最先端のベースラインと比較して,より優れたクロスドメイン一般化を実現することができた。

Recently, we have witnessed great progress in the field of medical imaging classification by adopting deep neural networks. However, the recent advanced models still require accessing sufficiently large and representative datasets for training, which is often unfeasible in clinically realistic environments. When trained on limited datasets, the deep neural network is lack of generalization capability, as the trained deep neural network on data within a certain distribution (e.g. the data captured by a certain device vendor or patient population) may not be able to generalize to the data with another distribution. In this paper, we introduce a simple but effective approach to improve the generalization capability of deep neural networks in the field of medical imaging classification. Motivated by the observation that the domain variability of the medical images is to some extent compact, we propose to learn a representative feature space through variational encoding with a novel linear-dependency regularization term to capture the shareable information among medical data collected from different domains. As a result, the trained neural network is expected to equip with better generalization capability to the "unseen" medical data. Experimental results on two challenging medical imaging classification tasks indicate that our method can achieve better cross-domain generalization capability compared with state-of-the-art baselines.
翻訳日:2022-10-14 03:36:18 公開日:2020-10-29
# 非凸最適化のためのクリッピングアルゴリズムの改良

Improved Analysis of Clipping Algorithms for Non-convex Optimization ( http://arxiv.org/abs/2010.02519v2 )

ライセンス: Link先を確認
Bohang Zhang and Jikai Jin and Cong Fang and Liwei Wang(参考訳) 勾配クリッピングは、爆発する勾配問題を緩和する実用性のために、ディープニューラルネットワークのトレーニングで一般的に使用される。 原文(投稿日:2019/09/19)へのリンク 最近、klipped (stochastic)gradient (gd)は$(l_0, l_1)$-smoothnessと呼ばれる新しい仮定を導入することで、vanilla gd/sgdよりも高速に収束することを示した。 しかし、問題依存パラメータの反復複雑性は悲観的であり、クリッピングの理論的正当化と運動量加速度などの他の重要なテクニックが組み合わさっている。 本稿では,クリッピングアルゴリズムの研究のための一般的な枠組みを提示することにより,ギャップを埋める。 決定論的および確率的設定におけるフレームワークの収束解析を行い,既存の下限と比較することにより,結果の厳密性を示す。 以上の結果から,景観の非平滑な地域でもクリッピングの効率は低下しないことが明らかとなった。 実験は、深層学習におけるクリッピングに基づく手法の優位性を確認する。

Gradient clipping is commonly used in training deep neural networks partly due to its practicability in relieving the exploding gradient problem. Recently, \citet{zhang2019gradient} show that clipped (stochastic) Gradient Descent (GD) converges faster than vanilla GD/SGD via introducing a new assumption called $(L_0, L_1)$-smoothness, which characterizes the violent fluctuation of gradients typically encountered in deep neural networks. However, their iteration complexities on the problem-dependent parameters are rather pessimistic, and theoretical justification of clipping combined with other crucial techniques, e.g. momentum acceleration, are still lacking. In this paper, we bridge the gap by presenting a general framework to study the clipping algorithms, which also takes momentum methods into consideration. We provide convergence analysis of the framework in both deterministic and stochastic setting, and demonstrate the tightness of our results by comparing them with existing lower bounds. Our results imply that the efficiency of clipping methods will not degenerate even in highly non-smooth regions of the landscape. Experiments confirm the superiority of clipping-based methods in deep learning tasks.
翻訳日:2022-10-10 21:14:06 公開日:2020-10-29
# 事前訓練された言語モデル胚学:アルバートの誕生

Pretrained Language Model Embryology: The Birth of ALBERT ( http://arxiv.org/abs/2010.02480v2 )

ライセンス: Link先を確認
Cheng-Han Chiang, Sung-Feng Huang and Hung-yi Lee(参考訳) 事前訓練言語モデル(LM)の行動は十分に検討されているが、事前訓練中に起こったことはめったに研究されていない。 そこで我々は,ランダムに初期化されたパラメータの集合から,事前学習された言語モデルの胚学と呼ばれる強弱言語モデルへの発達過程について検討する。 以上の結果から,albertは,学習速度の異なる音声(pos)のトークンを,事前学習中に再構成し,予測する。 また,言語知識や世界知識は,事前学習やダウンストリームタスクのパフォーマンス向上により,一般的には改善されないことがわかった。 これらの結果から,事前学習時の事前学習モデルの知識は様々であり,事前学習段階の増大は必ずしもモデルに包括的知識を与えるものではないことが示唆された。 結果をhttps://github.com/d223302/albert-embryologyで再現するために、ソースコードと事前トレーニングされたモデルを提供します。

While behaviors of pretrained language models (LMs) have been thoroughly examined, what happened during pretraining is rarely studied. We thus investigate the developmental process from a set of randomly initialized parameters to a totipotent language model, which we refer to as the embryology of a pretrained language model. Our results show that ALBERT learns to reconstruct and predict tokens of different parts of speech (POS) in different learning speeds during pretraining. We also find that linguistic knowledge and world knowledge do not generally improve as pretraining proceeds, nor do downstream tasks' performance. These findings suggest that knowledge of a pretrained model varies during pretraining, and having more pretrain steps does not necessarily provide a model with more comprehensive knowledge. We will provide source codes and pretrained models to reproduce our results at https://github.com/d223302/albert-embryology.
翻訳日:2022-10-10 06:38:26 公開日:2020-10-29
# トランスフォーマティブテキスト生成におけるアフリカ系アメリカ人の語尾英語の検討

Investigating African-American Vernacular English in Transformer-Based Text Generation ( http://arxiv.org/abs/2010.02510v2 )

ライセンス: Link先を確認
Sophie Groenwold, Lily Ou, Aesha Parekh, Samhita Honnavalli, Sharon Levy, Diba Mirza, William Yang Wang(参考訳) ソーシャルメディアの成長は、伝統的に口頭でのみ用いられてきたアフリカ系アメリカ人の英語(aave)の使用を奨励している。 しかし、nlpモデルは歴史的にスタンダード・アメリカン・イングリッシュ(sae)のような支配的な英語の品種を使って開発されてきた。 AAVE テキスト上での GPT-2 の性能について検討し,AAVE/SAE ツイートペアのデータセットを作成し,各ペアに対して構文構造と AAVE あるいは SAE 固有の言語を分離する。 我々は,各サンプルとその GPT-2 生成テキストを事前学習した感情分類器を用いて評価し,AAVE テキストはSAE よりも負の感情の分類が多くなる一方,GPT-2 の使用は両感情の出現を一般的に増加させることがわかった。 さらに、GPT-2で生成されたAAVEおよびSAEテキストの人間による評価を行い、文脈的厳密さと全体的な品質を比較する。

The growth of social media has encouraged the written use of African American Vernacular English (AAVE), which has traditionally been used only in oral contexts. However, NLP models have historically been developed using dominant English varieties, such as Standard American English (SAE), due to text corpora availability. We investigate the performance of GPT-2 on AAVE text by creating a dataset of intent-equivalent parallel AAVE/SAE tweet pairs, thereby isolating syntactic structure and AAVE- or SAE-specific language for each pair. We evaluate each sample and its GPT-2 generated text with pretrained sentiment classifiers and find that while AAVE text results in more classifications of negative sentiment than SAE, the use of GPT-2 generally increases occurrences of positive sentiment for both. Additionally, we conduct human evaluation of AAVE and SAE text generated with GPT-2 to compare contextual rigor and overall quality.
翻訳日:2022-10-10 05:09:18 公開日:2020-10-29
# 合成デモグラフィック単語埋め込み

Compositional Demographic Word Embeddings ( http://arxiv.org/abs/2010.02986v2 )

ライセンス: Link先を確認
Charles Welch, Jonathan K. Kummerfeld, Ver\'onica P\'erez-Rosas, Rada Mihalcea(参考訳) 単語の埋め込みは通常、多くの個人からのテキストを含むコーパスから派生し、個々のパーソナライズされた表現よりも汎用的な表現につながる。 パーソナライズされた埋め込みは、言語モデルのパフォーマンスやその他の言語処理タスクを改善するのに有用であるが、それは、大量の縦データを持つ人々に対してのみ計算できる。 本研究では,ユーザ(性別,年齢,位置,宗教など)に対して,全体的あるいは部分的な人口統計情報から構成的に派生した,人口統計学的単語表現を用いたパーソナライズド単語埋め込み方式を提案する。 その結果,言語モデルと単語関連性という2つの課題において,人口統計学的に認識された単語表現が汎用的な単語表現よりも優れていることを示す。 利用可能な属性の数とそれらの相対的有効性の間のトレードオフをさらに検討し、それらを使用する倫理的意味について論じる。

Word embeddings are usually derived from corpora containing text from many individuals, thus leading to general purpose representations rather than individually personalized representations. While personalized embeddings can be useful to improve language model performance and other language processing tasks, they can only be computed for people with a large amount of longitudinal data, which is not the case for new users. We propose a new form of personalized word embeddings that use demographic-specific word representations derived compositionally from full or partial demographic information for a user (i.e., gender, age, location, religion). We show that the resulting demographic-aware word representations outperform generic word representations on two tasks for English: language modeling and word associations. We further explore the trade-off between the number of available attributes and their relative effectiveness and discuss the ethical implications of using them.
翻訳日:2022-10-10 05:01:26 公開日:2020-10-29
# 確率的ボックス埋め込みにおける局所識別性の向上

Improving Local Identifiability in Probabilistic Box Embeddings ( http://arxiv.org/abs/2010.04831v2 )

ライセンス: Link先を確認
Shib Sankar Dasgupta, Michael Boratko, Dongxu Zhang, Luke Vilnis, Xiang Lorraine Li, Andrew McCallum(参考訳) 幾何学的埋め込みは、封じ込めによって過渡的非対称関係を表現する自然能力に注目されている。 対象を n-次元超矩形で表現するボックス埋め込みは、そのような埋め込みの特に有望な例であり、交叉の下で閉ざされ、体積が容易に計算できるので、校正された確率分布を自然に表現することができる。 しかし、幾何学的埋め込みの利点は局所的識別可能性の問題ももたらし、パラメータの近傍全体が学習を妨げる等価な損失をもたらす。 以前の研究では、ボックスパラメータ上のガウス畳み込みに対する近似を用いてこれらの問題に対処していたが、この交叉演算は勾配の空間性も増大させた。 本研究では,空間が依然として交叉の操作の下で閉じているように選択された min および max Gumbel 分布のボックスパラメータをモデル化する。 予測交叉体積の計算には,全てのパラメータが関与し,このようなモデルの学習能力を大幅に向上させることを示す。

Geometric embeddings have recently received attention for their natural ability to represent transitive asymmetric relations via containment. Box embeddings, where objects are represented by n-dimensional hyperrectangles, are a particularly promising example of such an embedding as they are closed under intersection and their volume can be calculated easily, allowing them to naturally represent calibrated probability distributions. The benefits of geometric embeddings also introduce a problem of local identifiability, however, where whole neighborhoods of parameters result in equivalent loss which impedes learning. Prior work addressed some of these issues by using an approximation to Gaussian convolution over the box parameters, however, this intersection operation also increases the sparsity of the gradient. In this work, we model the box parameters with min and max Gumbel distributions, which were chosen such that space is still closed under the operation of the intersection. The calculation of the expected intersection volume involves all parameters, and we demonstrate experimentally that this drastically improves the ability of such models to learn.
翻訳日:2022-10-09 04:03:22 公開日:2020-10-29
# 新型コロナウイルス予防とコントロールのためのIoTプラットフォーム:調査

IoT Platform for COVID-19 Prevention and Control: A Survey ( http://arxiv.org/abs/2010.08056v2 )

ライセンス: Link先を確認
Yudi Dong and Yu-Dong Yao(参考訳) 重症急性呼吸器症候群2型(SARS-CoV-2)の世界的な感染により、新型コロナウイルス感染症(COVID-19)は前例のないパンデミックに発展した。 現在、医薬品やワクチンは使用できないため、新型コロナウイルスは公衆衛生、人間社会、世界経済に大きな影響を与える。 新型コロナウイルス(covid-19)のパンデミックから学んだ教訓の1つは、新しい感染症の予防と制御のための非薬剤的介入を伴う長期的なシステムの実現が望ましいことだ。 IoT(Internet of Things)プラットフォームは、ユビキタスなセンシング能力とシームレスな接続性のために、この目標を達成するために使用されることが好ましい。 iotテクノロジは、より便利でインテリジェントなコミュニティを構築することを目的として、スマートホーム、スマートホーム、スマートシティを通じて私たちの生活を変えています。 本稿では,IoTを疫病予防制御システムに組み込む方法について述べる。 具体的には、新型コロナウイルスの症状診断、Quantine Monitoring、Contact Tracing & Social Distancing、COVID-19 Outbreak Forecasting、SARS-CoV-2 Mutation Trackingといった5つの介入を含む、系統的かつインテリジェントなCOVID-19予防とコントロールに使用できる、霧と雲を組み合わせたIoTプラットフォームを実証する。 我々は、現在の新型コロナウイルスのパンデミックや将来の伝染病に対するIoTの能力を示すために、これらの5つの介入の最先端の文献を調査し、レビューする。

As a result of the worldwide transmission of severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2), coronavirus disease 2019 (COVID-19) has evolved into an unprecedented pandemic. Currently, with unavailable pharmaceutical treatments and vaccines, this novel coronavirus results in a great impact on public health, human society, and global economy, which is likely to last for many years. One of the lessons learned from the COVID-19 pandemic is that a long-term system with non-pharmaceutical interventions for preventing and controlling new infectious diseases is desirable to be implemented. Internet of things (IoT) platform is preferred to be utilized to achieve this goal, due to its ubiquitous sensing ability and seamless connectivity. IoT technology is changing our lives through smart healthcare, smart home, and smart city, which aims to build a more convenient and intelligent community. This paper presents how the IoT could be incorporated into the epidemic prevention and control system. Specifically, we demonstrate a potential fog-cloud combined IoT platform that can be used in the systematic and intelligent COVID-19 prevention and control, which involves five interventions including COVID-19 Symptom Diagnosis, Quarantine Monitoring, Contact Tracing & Social Distancing, COVID-19 Outbreak Forecasting, and SARS-CoV-2 Mutation Tracking. We investigate and review the state-of-the-art literatures of these five interventions to present the capabilities of IoT in countering against the current COVID-19 pandemic or future infectious disease epidemics.
翻訳日:2022-10-07 05:12:24 公開日:2020-10-29
# 付加的摂動を超えた普遍的敵攻撃の一般化

Generalizing Universal Adversarial Attacks Beyond Additive Perturbations ( http://arxiv.org/abs/2010.07788v2 )

ライセンス: Link先を確認
Yanghao Zhang, Wenjie Ruan, Fu Wang, Xiaowei Huang(参考訳) 前回の研究では、人間の目に見えない摂動を持つ大量の入力画像に対して、普遍的な敵対攻撃がディープニューラルネットワークを騙すことが示されている。 しかし、現在の普遍的敵攻撃法は加法摂動に基づいており、入力画像に摂動を直接付加した場合に誤分類を引き起こす。 本稿では,非加法的摂動(例えば空間変換)によって,普遍的な逆攻撃も達成できることを初めて示す。 さらに,加法摂動と非加法摂動を一体化するために,加法摂動,非加法摂動,あるいは両者の組み合わせによって攻撃を開始することができるGUAPと呼ばれる,統一的で柔軟な普遍的敵攻撃フレームワークを提案する。 CIFAR-10とImageNetデータセットに対して、GoogleLeNet、VGG16/19、ResNet101/152、DenseNet121を含む6つのディープニューラルネットワークモデルによる大規模な実験が行われた。 実証実験により、GUAPはCIFAR-10とImageNetのデータセットに対する攻撃率を最大90.9%、99.24%まで向上できることが示された。 実験を再現するためのコードはhttps://github.com/TrustAI/GUAP.comで公開されている。

The previous study has shown that universal adversarial attacks can fool deep neural networks over a large set of input images with a single human-invisible perturbation. However, current methods for universal adversarial attacks are based on additive perturbation, which cause misclassification when the perturbation is directly added to the input images. In this paper, for the first time, we show that a universal adversarial attack can also be achieved via non-additive perturbation (e.g., spatial transformation). More importantly, to unify both additive and non-additive perturbations, we propose a novel unified yet flexible framework for universal adversarial attacks, called GUAP, which is able to initiate attacks by additive perturbation, non-additive perturbation, or the combination of both. Extensive experiments are conducted on CIFAR-10 and ImageNet datasets with six deep neural network models including GoogleLeNet, VGG16/19, ResNet101/152, and DenseNet121. The empirical experiments demonstrate that GUAP can obtain up to 90.9% and 99.24% successful attack rates on CIFAR-10 and ImageNet datasets, leading to over 15% and 19% improvements respectively than current state-of-the-art universal adversarial attacks. The code for reproducing the experiments in this paper is available at https://github.com/TrustAI/GUAP.
翻訳日:2022-10-07 03:43:18 公開日:2020-10-29
# 人間の行動認識のためのグリッドベース表現

A Grid-based Representation for Human Action Recognition ( http://arxiv.org/abs/2010.08841v2 )

ライセンス: Link先を確認
Soufiane Lamghari, Guillaume-Alexandre Bilodeau, Nicolas Saunier(参考訳) ビデオにおけるヒューマンアクション認識(HAR)はコンピュータビジョンにおける基本的な研究課題である。 主に視覚的な観察に基づく人間の行動を理解するために構成される。 近年では、特にディープラーニングモデルの出現によって、harは大きな進歩を遂げている。 しかしながら、既存のアクション認識のアプローチのほとんどは、このタスクに必ずしも関連しない情報に依存しており、時間的情報を融合する方法に制限されている。 本稿では,代表的なポーズ特徴に着目した行動の最も識別的な出現情報を,新しいコンパクトグリッド表現に効率的にエンコードする新しいヒューマンアクション認識法を提案する。 我々のGRAR(Grid-based Representation for Action Recognition)法は,クラス内外見の違いやオクルージョンの問題にもかかわらず,我々のモデルが人間の行動を正確に認識できることを,いくつかのベンチマークデータセットで検証した。

Human action recognition (HAR) in videos is a fundamental research topic in computer vision. It consists mainly in understanding actions performed by humans based on a sequence of visual observations. In recent years, HAR have witnessed significant progress, especially with the emergence of deep learning models. However, most of existing approaches for action recognition rely on information that is not always relevant for this task, and are limited in the way they fuse the temporal information. In this paper, we propose a novel method for human action recognition that encodes efficiently the most discriminative appearance information of an action with explicit attention on representative pose features, into a new compact grid representation. Our GRAR (Grid-based Representation for Action Recognition) method is tested on several benchmark datasets demonstrating that our model can accurately recognize human actions, despite intra-class appearance variations and occlusion challenges.
翻訳日:2022-10-06 12:06:54 公開日:2020-10-29
# VarGrad: 変分推論のための低変数勾配推定器

VarGrad: A Low-Variance Gradient Estimator for Variational Inference ( http://arxiv.org/abs/2010.10436v2 )

ライセンス: Link先を確認
Lorenz Richter, Ayman Boustati, Nikolas N\"usken, Francisco J. R. Ruiz, \"Omer Deniz Akyildiz(参考訳) 我々は,残余制御変数を持つスコア関数法に基づいて,ELBOの非バイアス勾配推定器の特性を変動推論のために解析する。 この勾配推定器は、正後と変分近似の間の対数比の分散として定義される新しい損失を用いて得られることを示し、$\textit{log-variance loss}$と呼ぶ。 ある条件下では、対数分散損失の勾配は(負の)ELBOの勾配と等しい。 この勾配推定器は、ログ分散損失との関係から$\textit{vargrad}$と呼ばれるが、特定の設定においてスコア関数法よりもばらつきが低く、残差の制御変数係数が最適値に近いことを理論的に示している。 我々は、VarGradが離散VAE上の他の最先端推定器と比較して、計算トレードオフに対して好ましいばらつきを提供していることを実証的に示す。

We analyse the properties of an unbiased gradient estimator of the ELBO for variational inference, based on the score function method with leave-one-out control variates. We show that this gradient estimator can be obtained using a new loss, defined as the variance of the log-ratio between the exact posterior and the variational approximation, which we call the $\textit{log-variance loss}$. Under certain conditions, the gradient of the log-variance loss equals the gradient of the (negative) ELBO. We show theoretically that this gradient estimator, which we call $\textit{VarGrad}$ due to its connection to the log-variance loss, exhibits lower variance than the score function method in certain settings, and that the leave-one-out control variate coefficients are close to the optimal ones. We empirically demonstrate that VarGrad offers a favourable variance versus computation trade-off compared to other state-of-the-art estimators on a discrete VAE.
翻訳日:2022-10-05 06:47:37 公開日:2020-10-29
# 階層時系列の整合におけるモデル選択

Model selection in reconciling hierarchical time series ( http://arxiv.org/abs/2010.10742v2 )

ライセンス: Link先を確認
Mahdi Abolghasemi, Rob J Hyndman, Evangelos Spiliotis, Christoph Bergmeir(参考訳) モデル選択は時系列予測アプリケーションの精度向上に有効な戦略であることが証明されている。 しかし、階層的時系列を扱う場合、最も適切な予測モデルを選択すること以外は、各時系列に対して生成したベース予測を整合化して整合性を確保するための適切な方法を選択する必要がある。 最小トレースのような階層的予測手法は、理論上も経験上もベース予測の整合性において強く支持されているが、それでも最も正確な結果が得られず、他の手法よりも優れている状況がある。 本稿では,最も適切な階層予測手法を動的に選択し,コヒーレンスとともに予測精度を向上する手法を提案する。 この手法は、条件付き階層予測と呼ばれ、機械学習の分類法に基づいており、様々な選択肢を考慮して検討された階層ごとに選択を行うための主要な指標として時系列特徴を用いる。 その結果, 条件付き階層予測は, 特に下位階層レベルでは, 標準手法よりもはるかに正確な予測を導くことが示唆された。

Model selection has been proven an effective strategy for improving accuracy in time series forecasting applications. However, when dealing with hierarchical time series, apart from selecting the most appropriate forecasting model, forecasters have also to select a suitable method for reconciling the base forecasts produced for each series to make sure they are coherent. Although some hierarchical forecasting methods like minimum trace are strongly supported both theoretically and empirically for reconciling the base forecasts, there are still circumstances under which they might not produce the most accurate results, being outperformed by other methods. In this paper we propose an approach for dynamically selecting the most appropriate hierarchical forecasting method and succeeding better forecasting accuracy along with coherence. The approach, to be called conditional hierarchical forecasting, is based on Machine Learning classification methods and uses time series features as leading indicators for performing the selection for each hierarchy examined considering a variety of alternatives. Our results suggest that conditional hierarchical forecasting leads to significantly more accurate forecasts than standard approaches, especially at lower hierarchical levels.
翻訳日:2022-10-04 23:06:33 公開日:2020-10-29
# 分布自由相関型SQ学習のための多項式法

The Polynomial Method is Universal for Distribution-Free Correlational SQ Learning ( http://arxiv.org/abs/2010.11925v2 )

ライセンス: Link先を確認
Aravind Gollakota, Sushrut Karmalkar, Adam Klivans(参考訳) PACおよび非依存モデルにおけるブール関数クラスに対する分布自由学習の問題点を考察する。 近年のmalachとshalev-shwartz(2020)によるdnf公式を学習するための最初の密接な相関 sq (csq) 下限を与え、任意の関数クラスのしきい値や近似次数の下限が、pacや非依存学習のcsq下限を直接含んでいることを示した。 これらの結果は,PACや不可知学習のためのSQモデルにおいて,閾値上の上限や近似次数を用いた正の値と一致する。 これらの結果の多くは、フェルドマンとシェルストフの初期の作品に暗黙のものであった。

We consider the problem of distribution-free learning for Boolean function classes in the PAC and agnostic models. Generalizing a recent beautiful work of Malach and Shalev-Shwartz (2020) who gave the first tight correlational SQ (CSQ) lower bounds for learning DNF formulas, we show that lower bounds on the threshold or approximate degree of any function class directly imply CSQ lower bounds for PAC or agnostic learning respectively. These match corresponding positive results using upper bounds on the threshold or approximate degree in the SQ model for PAC or agnostic learning. Many of these results were implicit in earlier works of Feldman and Sherstov.
翻訳日:2022-10-04 08:21:04 公開日:2020-10-29
# ラベルアウェアニューラルタンジェント核:より良い一般化と局所弾性を目指して

Label-Aware Neural Tangent Kernel: Toward Better Generalization and Local Elasticity ( http://arxiv.org/abs/2010.11775v2 )

ライセンス: Link先を確認
Shuxiao Chen, Hangfeng He, Weijie J. Su(参考訳) トレーニングオーバーパラメータニューラルネットワーク(nns)のダイナミクスをモデル化する一般的なアプローチとして、ニューラルネットワーク(ntk)は、一般化能力において現実世界のnnに遅れをとっていることが知られている。 このパフォーマンスギャップは、NTKの \textit{label agnostic} の性質によるもので、NNs~\citep{he2019local} のように \textit{locally elastic} ではないカーネルを描画する。 本稿では,NTKにおけるこのギャップを減らすために,emph{label-awareness}の観点から新しいアプローチを提案する。 具体的には、Hoeffding分解を用いてラベル依存の複雑さを増大させるラベル認識部分とラベル認識部分の階層の重ね合わせである2つのラベル認識カーネルを提案する。 理論的および実証的証拠から,提案するカーネルで訓練されたモデルが一般化能力と局所弾性性の観点からnnsをシミュレートするのに役立つことを示した。

As a popular approach to modeling the dynamics of training overparametrized neural networks (NNs), the neural tangent kernels (NTK) are known to fall behind real-world NNs in generalization ability. This performance gap is in part due to the \textit{label agnostic} nature of the NTK, which renders the resulting kernel not as \textit{locally elastic} as NNs~\citep{he2019local}. In this paper, we introduce a novel approach from the perspective of \emph{label-awareness} to reduce this gap for the NTK. Specifically, we propose two label-aware kernels that are each a superimposition of a label-agnostic part and a hierarchy of label-aware parts with increasing complexity of label dependence, using the Hoeffding decomposition. Through both theoretical and empirical evidence, we show that the models trained with the proposed kernels better simulate NNs in terms of generalization ability and local elasticity.
翻訳日:2022-10-04 05:39:50 公開日:2020-10-29
# オンライン制御のための幾何学的探索

Geometric Exploration for Online Control ( http://arxiv.org/abs/2010.13178v2 )

ライセンス: Link先を確認
Orestis Plevrakis and Elad Hazan(参考訳) 一般凸コストの下での線形力学系の制御について検討する。 目的は、全ての安定化線形力学制御器を含む外乱フィードバック制御器のクラスに対する後悔を最小限にすることである。 本研究では,最初に既知のコスト関数の場合について考察し,n^3\sqrt{t}$-regret で最初の多項式時間アルゴリズムを設計し,ここでは$n$ は状態の次元と制御入力の次元である。 $\sqrt{T}$-horizonDependency は最適であり、以前の最もよく知られた$T^{2/3}$の有界を改善する。 当社のアルゴリズムの主な構成要素は,新しい幾何学的探索戦略である。ポリシー空間において,バリュセントリックスパンナーのシーケンスを適応的に構築する。 次に,Stochastic Bandit Convex Optimization を基に構築した $poly(n)\sqrt{T}$-regret を用いた最初の多項式時間アルゴリズムを提案する。

We study the control of an \emph{unknown} linear dynamical system under general convex costs. The objective is minimizing regret vs. the class of disturbance-feedback-controllers, which encompasses all stabilizing linear-dynamical-controllers. In this work, we first consider the case of known cost functions, for which we design the first polynomial-time algorithm with $n^3\sqrt{T}$-regret, where $n$ is the dimension of the state plus the dimension of control input. The $\sqrt{T}$-horizon dependence is optimal, and improves upon the previous best known bound of $T^{2/3}$. The main component of our algorithm is a novel geometric exploration strategy: we adaptively construct a sequence of barycentric spanners in the policy space. Second, we consider the case of bandit feedback, for which we give the first polynomial-time algorithm with $poly(n)\sqrt{T}$-regret, building on Stochastic Bandit Convex Optimization.
翻訳日:2022-10-03 04:30:25 公開日:2020-10-29
# 動作中の変圧器:大規模音声認識のための変圧器ベース音響モデルの比較研究

Transformer in action: a comparative study of transformer-based acoustic models for large scale speech recognition applications ( http://arxiv.org/abs/2010.14665v2 )

ライセンス: Link先を確認
Yongqiang Wang, Yangyang Shi, Frank Zhang, Chunyang Wu, Julian Chan, Ching-Feng Yeh, Alex Xiao(参考訳) 本稿では,変圧器とそのストリーム可能な変種 Emformer を用いた大規模音声認識への応用について要約する。 インダストリアルスケールタスクにおけるトランスフォーマーベース音響モデルとLSTMモデルとの比較を行った。 具体的には,低レイテンシタスクにおけるLSTMと中遅延タスクにおけるLCBLSTMを比較した。 低レイテンシ音声アシスタントタスクでは、Emformerは24%から26%の相対的な単語エラー率削減(WERR)を受ける。 中程度のレイテンシのシナリオでは、CBLSTMと同じようなモデルサイズとレイテンシを比較すると、Emformerはビデオキャプションデータセットの4つの言語にわたる重要なWERRを取得し、リアルタイムな要因を2~3倍削減する。

In this paper, we summarize the application of transformer and its streamable variant, Emformer based acoustic model for large scale speech recognition applications. We compare the transformer based acoustic models with their LSTM counterparts on industrial scale tasks. Specifically, we compare Emformer with latency-controlled BLSTM (LCBLSTM) on medium latency tasks and LSTM on low latency tasks. On a low latency voice assistant task, Emformer gets 24% to 26% relative word error rate reductions (WERRs). For medium latency scenarios, comparing with LCBLSTM with similar model size and latency, Emformer gets significant WERR across four languages in video captioning datasets with 2-3 times inference real-time factors reduction.
翻訳日:2022-10-02 12:34:14 公開日:2020-10-29
# 野生の言語id:1000言語webテキストコーパスへの予期せぬ挑戦

Language ID in the Wild: Unexpected Challenges on the Path to a Thousand-Language Web Text Corpus ( http://arxiv.org/abs/2010.14571v2 )

ライセンス: Link先を確認
Isaac Caswell, Theresa Breiner, Daan van Esch, Ankur Bapna(参考訳) 大きなテキストコーパスは、様々な自然言語処理(nlp)タスクにとってますます重要であり、自動言語識別(langid)は、これらのデータセットを多言語コンテキストで収集するために必要なコア技術である。 LangIDは主に文献で解決されたように扱われており、1,366言語で90%以上の平均F1を達成すると報告されている。 テストセットに匹敵する品質の1,629言語でLangIDモデルをトレーニングするが、これらのモデルを用いて作成したWebクロールテキストコーパスの人手によるLangID精度は、多くの低リソース言語では5%程度に過ぎず、より堅牢な評価の必要性が示唆されている。 さらなる分析により、ドメインミスマッチ、クラス不均衡、言語の類似性、不十分な表現モデルから生じる様々なエラーモードが明らかになった。 ワードリストに基づくチューナブル精度フィルタ(約500言語でキュレートされたリストを出力する)とトランスフォーマーベースの半教師付きラングIDモデルにより、中央値のデータセット精度を5.5%から71.2%に向上させる。 これらの技術により、500以上の言語で100K以上の比較的クリーンな文をカバーする初期データセットを作成でき、1000言語以上のWebテキストコーパスへの道を歩むことができる。

Large text corpora are increasingly important for a wide variety of Natural Language Processing (NLP) tasks, and automatic language identification (LangID) is a core technology needed to collect such datasets in a multilingual context. LangID is largely treated as solved in the literature, with models reported that achieve over 90% average F1 on as many as 1,366 languages. We train LangID models on up to 1,629 languages with comparable quality on held-out test sets, but find that human-judged LangID accuracy for web-crawl text corpora created using these models is only around 5% for many lower-resource languages, suggesting a need for more robust evaluation. Further analysis revealed a variety of error modes, arising from domain mismatch, class imbalance, language similarity, and insufficiently expressive models. We propose two classes of techniques to mitigate these errors: wordlist-based tunable-precision filters (for which we release curated lists in about 500 languages) and transformer-based semi-supervised LangID models, which increase median dataset precision from 5.5% to 71.2%. These techniques enable us to create an initial data set covering 100K or more relatively clean sentences in each of 500+ languages, paving the way towards a 1,000-language web text corpus.
翻訳日:2022-10-02 11:14:04 公開日:2020-10-29
# 分類beatsレグレッション:アノテーションのないトレーニングサンプルに基づくグレイスケール顕微鏡画像からの細胞の数え上げ

Classification Beats Regression: Counting of Cells from Greyscale Microscopic Images based on Annotation-free Training Samples ( http://arxiv.org/abs/2010.14782v2 )

ライセンス: Link先を確認
Xin Ding, Qiong Zhang, William J. Welch(参考訳) 現代の手法では、顕微鏡画像からの細胞の計数を回帰問題として定式化し、多かれ少なかれ高価な手作業による訓練画像(例えば、細胞のセントロイドを示すドット注釈や細胞の輪郭を識別するセグメンテーションマスク)に依存する。 本研究では,分類指向畳み込みニューラルネットワーク(CNN)に基づく教師あり学習フレームワークを提案する。 本稿では, セルカウントタスクを画像分類問題として定式化し, セルカウントをクラスラベルとして扱う。 この定式化は、試験段階の細胞数の一部がトレーニングデータに現れない場合にその限界を有する。 また、細胞数間の順序関係は利用されない。 これらの制約に対処するために,未確認の細胞数に対する画像の合成を行う,単純だが効果的なデータ拡張法を提案する。 また,未知の細胞数の影響を緩やかに抑えるだけでなく,正規情報を用いて予測精度を向上させるアンサンブル手法を提案する。 このフレームワークは多くの現代の細胞カウント法より優れており、カナダ統計学会第47回年次大会(SSC)のデータ解析コンペティション(Case Study 1: Counting Cells From Microscopic Images https://ssc.ca/en/case-study/case-study-1-counting-cells-microscopic-images)で優勝している。 私たちのコードはhttps://github.com/anno2020/CellCount_TinyBBBC005で利用可能です。

Modern methods often formulate the counting of cells from microscopic images as a regression problem and more or less rely on expensive, manually annotated training images (e.g., dot annotations indicating the centroids of cells or segmentation masks identifying the contours of cells). This work proposes a supervised learning framework based on classification-oriented convolutional neural networks (CNNs) to count cells from greyscale microscopic images without using annotated training images. In this framework, we formulate the cell counting task as an image classification problem, where the cell counts are taken as class labels. This formulation has its limitation when some cell counts in the test stage do not appear in the training data. Moreover, the ordinal relation among cell counts is not utilized. To deal with these limitations, we propose a simple but effective data augmentation (DA) method to synthesize images for the unseen cell counts. We also introduce an ensemble method, which can not only moderate the influence of unseen cell counts but also utilize the ordinal information to improve the prediction accuracy. This framework outperforms many modern cell counting methods and won the data analysis competition (Case Study 1: Counting Cells From Microscopic Images https://ssc.ca/en/case-study/case-study-1-counting-cells-microscopic-images) of the 47th Annual Meeting of the Statistical Society of Canada (SSC). Our code is available at https://github.com/anno2020/CellCount_TinyBBBC005.
翻訳日:2022-10-02 06:05:27 公開日:2020-10-29
# 生成モデルを用いた移動可能な普遍的対向摂動

Transferable Universal Adversarial Perturbations Using Generative Models ( http://arxiv.org/abs/2010.14919v2 )

ライセンス: Link先を確認
Atiye Sadat Hashemi, Andreas B\"ar, Saeed Mozaffari, and Tim Fingscheidt(参考訳) ディープニューラルネットワークは、逆境の摂動に弱い傾向があり、自然画像を追加することで、信頼度の高い各モデルを騙すことができる。 近年,universal adversarial perturbation(uaps)とも呼ばれる画像非依存摂動の存在が発見された。 しかし、既存のUAPは未知のターゲットモデルに適用される場合、十分に高い騙し率を欠いている。 本稿では,より転送可能なUAPを生成するための新しい深層学習手法を提案する。 我々は、ImageNetデータセットを用いて、摂動発生器といくつかの事前訓練されたネットワーク、いわゆるソースモデルを用いてUAPを生成する。 第1層における様々なモデルアーキテクチャの類似した特徴表現のため、ソースモデルのそれぞれの第1層においてのみ、逆エネルギーに焦点をあてた損失定式化を提案する。 これは、生成されたUAPを他のターゲットモデルに転送する可能性をサポートします。 さらに、生成したUAPを実験的に分析し、これらの摂動が異なるターゲットモデルに対して非常によく一般化されていることを示す。 ファッシングレートとモデル移行可能性の両方において,現在の技術水準を上回ることで,提案手法の優越性を示すことができる。 生成した非ターゲットUPAを用いて、ソースモデル(最先端:82.16%)で平均93.36%の偽造率を得る。 深部ResNet-152上でのUAPの生成により,VGG-16およびVGG-19ターゲットモデルにおけるカットエッジ法に比べて,約12%の絶対的不正率の利点が得られる。

Deep neural networks tend to be vulnerable to adversarial perturbations, which by adding to a natural image can fool a respective model with high confidence. Recently, the existence of image-agnostic perturbations, also known as universal adversarial perturbations (UAPs), were discovered. However, existing UAPs still lack a sufficiently high fooling rate, when being applied to an unknown target model. In this paper, we propose a novel deep learning technique for generating more transferable UAPs. We utilize a perturbation generator and some given pretrained networks so-called source models to generate UAPs using the ImageNet dataset. Due to the similar feature representation of various model architectures in the first layer, we propose a loss formulation that focuses on the adversarial energy only in the respective first layer of the source models. This supports the transferability of our generated UAPs to any other target model. We further empirically analyze our generated UAPs and demonstrate that these perturbations generalize very well towards different target models. Surpassing the current state of the art in both, fooling rate and model-transferability, we can show the superiority of our proposed approach. Using our generated non-targeted UAPs, we obtain an average fooling rate of 93.36% on the source models (state of the art: 82.16%). Generating our UAPs on the deep ResNet-152, we obtain about a 12% absolute fooling rate advantage vs. cutting-edge methods on VGG-16 and VGG-19 target models.
翻訳日:2022-10-02 05:28:52 公開日:2020-10-29
# ニューラルネットワークにおける乗法関係の推定

Estimating Multiplicative Relations in Neural Networks ( http://arxiv.org/abs/2010.15003v2 )

ライセンス: Link先を確認
Bhaavan Goel(参考訳) 普遍近似定理は、浅いニューラルネットワークが任意の関数を近似できることを示している。 各層におけるニューロンへの入力は、前の層ニューロンの重み付け和であり、活性化が適用される。 これらの活性化関数は、出力が入力データの線形結合であるときに非常によく機能する。 入力データの産物を含む関数を学習しようとすると、ニューラルネットワークは関数を近似するためにデータに過度に適合する傾向がある。 本稿では、対数関数の特性を用いて、積を線形表現に変換し、バックプロパゲーションを用いて学習できるアクティベーション関数のペアを提案する。 いくつかの複雑な算術関数に対してこのアプローチを一般化し、トレーニングセットとの不整合分布の精度をテストする。

Universal approximation theorem suggests that a shallow neural network can approximate any function. The input to neurons at each layer is a weighted sum of previous layer neurons and then an activation is applied. These activation functions perform very well when the output is a linear combination of input data. When trying to learn a function which involves product of input data, the neural networks tend to overfit the data to approximate the function. In this paper we will use properties of logarithmic functions to propose a pair of activation functions which can translate products into linear expression and learn using backpropagation. We will try to generalize this approach for some complex arithmetic functions and test the accuracy on a disjoint distribution with the training set.
翻訳日:2022-10-02 04:37:06 公開日:2020-10-29
# 創発的コミュニケーションにおける非自明な構成性の測定

Measuring non-trivial compositionality in emergent communication ( http://arxiv.org/abs/2010.15058v2 )

ライセンス: Link先を確認
Tomasz Korbak and Julian Zubek and Joanna R\k{a}czaszek-Leonardi(参考訳) 構成性は創発的なコミュニケーションと言語進化における重要な説明的目標である。 通信の計算モデルの大半は、単純な構成性という非常に基本的な構成性の出現である。 合成プロトコルは、複素信号(例えば、青い円)の意味が、その成分の意味の交わり(例えば、青い物体の集合と円の集合の交わり)に沸騰するときに、自明に構成的である。 プロトコルが非自明な合成(ntc)であるとは、複素信号(例えば最大のリンゴ)の意味が構成成分の意味のより複雑な関数であるときに言う。 本稿では,創発的コミュニケーションに使用される構成性の指標について概説し,その多くがNTCの検出に失敗したこと,すなわち,非自明な構成性の障害を合成性の失敗として扱うこと,を実験的に示す。 一つの例外はツリー再構成エラーであり、構成性の形式的説明によって動機づけられたメトリクスである。 これらの結果は,NTCの出現のモデル化の進展を阻害する可能性のある緊急コミュニケーション研究の重要な限界を強調した。

Compositionality is an important explanatory target in emergent communication and language evolution. The vast majority of computational models of communication account for the emergence of only a very basic form of compositionality: trivial compositionality. A compositional protocol is trivially compositional if the meaning of a complex signal (e.g. blue circle) boils down to the intersection of meanings of its constituents (e.g. the intersection of the set of blue objects and the set of circles). A protocol is non-trivially compositional (NTC) if the meaning of a complex signal (e.g. biggest apple) is a more complex function of the meanings of their constituents. In this paper, we review several metrics of compositionality used in emergent communication and experimentally show that most of them fail to detect NTC - i.e. they treat non-trivial compositionality as a failure of compositionality. The one exception is tree reconstruction error, a metric motivated by formal accounts of compositionality. These results emphasise important limitations of emergent communication research that could hamper progress on modelling the emergence of NTC.
翻訳日:2022-10-02 04:28:57 公開日:2020-10-29
# GANs & Reels:Generative Adversarial Networkを用いたアイルランドの音楽制作

GANs & Reels: Creating Irish Music using a Generative Adversarial Network ( http://arxiv.org/abs/2010.15772v1 )

ライセンス: Link先を確認
Antonina Kolokolova, Mitchell Billard, Robert Bishop, Moustafa Elsisy, Zachary Northcott, Laura Graves, Vineel Nagisetty, Heather Patey(参考訳) 本稿では,繰り返し成分を含まない生成逆ネットワークを用いたアルゴリズムによるメロディ生成手法を提案する。 音楽生成は、リカレントニューラルネットワークを使用して成功し、モデルが真正な鳴き声を生成するのに役立つシーケンス情報を学ぶ。 ここでは,拡張畳み込みとタワーを用いたDC-GANアーキテクチャを用いて,逐次情報を空間画像情報として捉え,アイルランドの伝統的なリールのような固定長メロディ形式の長距離依存性を学習する。

In this paper we present a method for algorithmic melody generation using a generative adversarial network without recurrent components. Music generation has been successfully done using recurrent neural networks, where the model learns sequence information that can help create authentic sounding melodies. Here, we use DC-GAN architecture with dilated convolutions and towers to capture sequential information as spatial image information, and learn long-range dependencies in fixed-length melody forms such as Irish traditional reel.
翻訳日:2022-10-02 00:10:54 公開日:2020-10-29
# 音声からのCOVID-19検出のための声門血流動態の解釈

Interpreting glottal flow dynamics for detecting COVID-19 from voice ( http://arxiv.org/abs/2010.16318v1 )

ライセンス: Link先を確認
Soham Deshmukh, Mahmoud Al Ismail, Rita Singh(参考訳) 新型コロナウイルスの病原性では、呼吸機能の障害はしばしば重要な症状の1つである。 これらのケースでは、声帯の振動は非同期であり、非対称であり、発声中はより制限される。 本稿では,声道内における声門流波形(GFW)の動態を解析し,音声からのCOVID-19検出において最も重要な特徴を同定する手法を提案する。 新型コロナウイルス患者では直接測定することは困難であるため、録音された音声信号から推測し、物理モデルを用いて計算したGFWと比較する。 通常の声では、物理モデルが正規性の仮定の下での発声を説明するために構築されるため、両者の違いは最小限にすべきである。 より大きな差異は、物理的モデルの正しさに寄与する生体物理因子の異常を引き起こし、それらの意義を間接的に明らかにする。 提案手法は,2つのGFWの差分における時間空間の異常を検出するCNNベースの2ステップアテンションモデルを用いて,その可能性を識別的特徴として推定する。 本手法の有効性は、新型コロナウイルス陽性および陰性被験者の臨床試験データセットを用いて示される。

In the pathogenesis of COVID-19, impairment of respiratory functions is often one of the key symptoms. Studies show that in these cases, voice production is also adversely affected -- vocal fold oscillations are asynchronous, asymmetrical and more restricted during phonation. This paper proposes a method that analyzes the differential dynamics of the glottal flow waveform (GFW) during voice production to identify features in them that are most significant for the detection of COVID-19 from voice. Since it is hard to measure this directly in COVID-19 patients, we infer it from recorded speech signals and compare it to the GFW computed from physical model of phonation. For normal voices, the difference between the two should be minimal, since physical models are constructed to explain phonation under assumptions of normalcy. Greater differences implicate anomalies in the bio-physical factors that contribute to the correctness of the physical model, revealing their significance indirectly. Our proposed method uses a CNN-based 2-step attention model that locates anomalies in time-feature space in the difference of the two GFWs, allowing us to infer their potential as discriminative features for classification. The viability of this method is demonstrated using a clinically curated dataset of COVID-19 positive and negative subjects.
翻訳日:2022-10-02 00:10:21 公開日:2020-10-29
# 部分群に基づく rank-1 格子準モンテカルロ

Subgroup-based Rank-1 Lattice Quasi-Monte Carlo ( http://arxiv.org/abs/2011.06446v1 )

ライセンス: Link先を確認
Yueming Lyu, Yuan Yuan and Ivor W. Tsang(参考訳) 準モンテカルロ(qmc)は、積分近似、ベイズ推論、シミュレーションのためのサンプリング等にとって必須のツールである。 QMC領域において、ランク1格子はその単純な演算と点集合構成のよい性質のために重要である。 しかし、ランク1格子の生成ベクトルの構成は通常、徹底的なコンピュータ探索のために時間を要する。 この問題に対処するために,群論に基づく単純な閉形式ランク1格子構築法を提案する。 本手法は,より規則的な格子を生成するために,異なる対距離値の数を削減する。 理論的には、任意の非退化ランク1格子の最小ペアワイズ距離の下限と上限を証明できる。 実験により,本手法は,$l_1$-norm と $l_2$-norm の最小距離について,Korobov の網羅的探索と比較して,ほぼ最適なランク1格子を生成することができる。 さらに,本手法はベンチマーク統合テスト問題とカーネル近似問題において優れた近似性能が得られることを示す。

Quasi-Monte Carlo (QMC) is an essential tool for integral approximation, Bayesian inference, and sampling for simulation in science, etc. In the QMC area, the rank-1 lattice is important due to its simple operation, and nice properties for point set construction. However, the construction of the generating vector of the rank-1 lattice is usually time-consuming because of an exhaustive computer search. To address this issue, we propose a simple closed-form rank-1 lattice construction method based on group theory. Our method reduces the number of distinct pairwise distance values to generate a more regular lattice. We theoretically prove a lower and an upper bound of the minimum pairwise distance of any non-degenerate rank-1 lattice. Empirically, our methods can generate a near-optimal rank-1 lattice compared with the Korobov exhaustive search regarding the $l_1$-norm and $l_2$-norm minimum distance. Moreover, experimental results show that our method achieves superior approximation performance on benchmark integration test problems and kernel approximation problems.
翻訳日:2022-10-02 00:09:59 公開日:2020-10-29
# 線形ガウス力学系に対する難読化の基本限界:情報理論的アプローチ

Fundamental Limits of Obfuscation for Linear Gaussian Dynamical Systems: An Information-Theoretic Approach ( http://arxiv.org/abs/2011.00718v1 )

ライセンス: Link先を確認
Song Fang and Quanyan Zhu(参考訳) 本稿では,情報理論による線形ガウス力学系に対するプライバシー歪みトレードオフの観点から,難読化の基本的限界について検討する。 特に,プライバシマスクの出力にプライバシマスクを追加する場合の基本的なプライバシゆがみトレードオフをキャプチャする分析式を得るとともに,プライバシマスクを最適に設計する方法を明確に示す。

In this paper, we study the fundamental limits of obfuscation in terms of privacy-distortion tradeoffs for linear Gaussian dynamical systems via an information-theoretic approach. Particularly, we obtain analytical formulas that capture the fundamental privacy-distortion tradeoffs when privacy masks are to be added to the outputs of the dynamical systems, while indicating explicitly how to design the privacy masks in an optimal way: The privacy masks should be colored Gaussian with power spectra shaped specifically based upon the system and noise properties.
翻訳日:2022-10-02 00:09:43 公開日:2020-10-29
# インテリジェント車における自己認識:異常検出のための特徴に基づく動的ベイズモデル

Self-awareness in intelligent vehicles: Feature based dynamic Bayesian models for abnormality detection ( http://arxiv.org/abs/2010.15441v1 )

ライセンス: Link先を確認
Divya Thekke Kanapram, Pablo Marin-Plaza, Lucio Marcenaro, David Martin, Arturo de la Escalera and Carlo Regazzoni(参考訳) 近年のインテリジェント・トランスポーテーション・システムの発展は、エージェントの自己認識の発展を必要とする。 機械学習を集中的に使用する以前は、すべての変数をチェックして、追跡するのが非常に難しい巨大なネスト状態を生成することで、異常検出を手動でプログラムしていた。 本研究は, 自律走行車において, エージェントの周囲の異常な状況を検出することを目的とした, 自己認識の新たな手法を提案する。 車両からの複数センサ時系列データは、将来の状態予測や動的異常の検出に使用されるデータ駆動型動的ベイズネットワーク(dbn)モデルの開発に使用される。 さらに,共同作業における協調的異常検出が可能な初期レベル集団認識モデルを提案する。 GNGアルゴリズムはDBNモデルの離散ノード変数を学習し、確率的遷移リンクはノード変数を接続する。 マルコフジャンプ粒子フィルタ(MJPF)を用いて将来の状態を予測し、学習したDBNをフィルタパラメータとして使用して車両が誤動作している可能性を検知する。 本稿では,自律走行車両の実際の実験から得られたデータを用いて,スイッチングdbnモデルのセットを学習し,テストする。

The evolution of Intelligent Transportation Systems in recent times necessitates the development of self-awareness in agents. Before the intensive use of Machine Learning, the detection of abnormalities was manually programmed by checking every variable and creating huge nested conditions that are very difficult to track. This paper aims to introduce a novel method to develop self-awareness in autonomous vehicles that mainly focuses on detecting abnormal situations around the considered agents. Multi-sensory time-series data from the vehicles are used to develop the data-driven Dynamic Bayesian Network (DBN) models used for future state prediction and the detection of dynamic abnormalities. Moreover, an initial level collective awareness model that can perform joint anomaly detection in co-operative tasks is proposed. The GNG algorithm learns the DBN models' discrete node variables; probabilistic transition links connect the node variables. A Markov Jump Particle Filter (MJPF) is applied to predict future states and detect when the vehicle is potentially misbehaving using learned DBNs as filter parameters. In this paper, datasets from real experiments of autonomous vehicles performing various tasks used to learn and test a set of switching DBN models.
翻訳日:2022-10-02 00:05:08 公開日:2020-10-29
# SLOPEと準球形OSCARのための厳密解パスアルゴリズム

An Exact Solution Path Algorithm for SLOPE and Quasi-Spherical OSCAR ( http://arxiv.org/abs/2010.15511v1 )

ライセンス: Link先を確認
Shunichi Nomura(参考訳) SLOPE(Sorted $L_1$ Penalization estimator)は、高次元回帰における絶対係数の正則化手法である。 単調性制約の下で正規化重みを$\lambda$で任意に設定することで、SLOPEは様々な特徴選択とクラスタリング特性を持つことができる。 ウェイトチューニングでは、選択された特徴とそのクラスタはチューニングパラメータに非常に敏感である。 さらに, グリッド探索法では, 網羅的な変化追跡が困難である。 本研究では,微調整正規化重みの勾配に対する解の完全かつ正確な経路を提供する解経路アルゴリズムを提案する。 SLOPEの簡単な最適条件が導出され、解経路の次の分裂点を特定するために使用される。 そこで本研究では,正則化シーケンス$\lambda$ for feature clusteringを新たに設計し,これを準球面および八角形縮退法,回帰法(QS-OSCAR)と呼ぶ。 QS-OSCARは球面と最もよく似た正規化項の輪郭面で設計されている。 いくつかの正規化シーケンス設計のうち、疎度とクラスタリング性能はシミュレーション研究によって比較される。 数値観測により,QS-OSCARは他の設計よりも効率的に特徴クラスタリングを行うことが示された。

Sorted $L_1$ penalization estimator (SLOPE) is a regularization technique for sorted absolute coefficients in high-dimensional regression. By arbitrarily setting its regularization weights $\lambda$ under the monotonicity constraint, SLOPE can have various feature selection and clustering properties. On weight tuning, the selected features and their clusters are very sensitive to the tuning parameters. Moreover, the exhaustive tracking of their changes is difficult using grid search methods. This study presents a solution path algorithm that provides the complete and exact path of solutions for SLOPE in fine-tuning regularization weights. A simple optimality condition for SLOPE is derived and used to specify the next splitting point of the solution path. This study also proposes a new design of a regularization sequence $\lambda$ for feature clustering, which is called the quasi-spherical and octagonal shrinkage and clustering algorithm for regression (QS-OSCAR). QS-OSCAR is designed with a contour surface of the regularization terms most similar to a sphere. Among several regularization sequence designs, sparsity and clustering performance are compared through simulation studies. The numerical observations show that QS-OSCAR performs feature clustering more efficiently than other designs.
翻訳日:2022-10-02 00:04:34 公開日:2020-10-29
# マルチラベル深層ニューラルネットワークを用いた新しいスキームを用いたラマン分光法の複合混合物の同定

Identification of complex mixtures for Raman spectroscopy using a novel scheme based on a new multi-label deep neural network ( http://arxiv.org/abs/2010.15654v1 )

ライセンス: Link先を確認
Liangrui Pan, Pronthep Pipitsunthonsan, Chalongrat Daengngam, Mitchai Chongcheawchamnan(参考訳) 蛍光と付加的な白色雑音によるノイズ環境と複雑なスペクトル指紋により、複雑な混合物質の同定はラマン分光法において大きな課題である。 本稿では,定数ウェーブレット変換(CWT)と複雑な混合物を分類するためのディープネットワークに基づく新しいスキームを提案する。 このスキームはまず、雑音ラマンスペクトルをCWTを用いた2次元スケールマップに変換する。 次に、多ラベルディープニューラルネットワークモデル(MDNN)を材料分類に適用する。 提案モデルでは,グローバル平均プール層を用いて特徴抽出を高速化し,特徴グラフを拡張する。 Sigmoid関数はモデルの最後の層で実装される。 MDNNモデルは、パームオイル中の物質から調製した試料から採取したデータを用いて、訓練、検証、および試験を行った。 トレーニングと検証プロセスの間、データの不均衡を克服し、Ramanスペクトルの多様性を強化するためにデータ拡張が適用される。 実験結果から,MDNNモデルは,ハミング損失,1エラー,カバレッジ,ランキング損失,平均精度,F1マクロ平均化,F1マイクロ平均化の観点から,従来提案されていたディープニューラルネットワークモデルよりも優れていたことがわかった。 本モデルから得られた平均検出時間は5.31秒であり,従来提案したモデルよりもはるかに高速である。

With noisy environment caused by fluoresence and additive white noise as well as complicated spectrum fingerprints, the identification of complex mixture materials remains a major challenge in Raman spectroscopy application. In this paper, we propose a new scheme based on a constant wavelet transform (CWT) and a deep network for classifying complex mixture. The scheme first transforms the noisy Raman spectrum to a two-dimensional scale map using CWT. A multi-label deep neural network model (MDNN) is then applied for classifying material. The proposed model accelerates the feature extraction and expands the feature graph using the global averaging pooling layer. The Sigmoid function is implemented in the last layer of the model. The MDNN model was trained, validated and tested with data collected from the samples prepared from substances in palm oil. During training and validating process, data augmentation is applied to overcome the imbalance of data and enrich the diversity of Raman spectra. From the test results, it is found that the MDNN model outperforms previously proposed deep neural network models in terms of Hamming loss, one error, coverage, ranking loss, average precision, F1 macro averaging and F1 micro averaging, respectively. The average detection time obtained from our model is 5.31 s, which is much faster than the detection time of the previously proposed models.
翻訳日:2022-10-02 00:04:16 公開日:2020-10-29
# ネットワーク埋め込み法による化学動力学系の遷移状態の同定

Identifying Transition States of Chemical Kinetic Systems using Network Embedding Techniques ( http://arxiv.org/abs/2010.15760v1 )

ライセンス: Link先を確認
Paula Mercurio, Di Liu(参考訳) ネットワーク上の特徴学習のためのランダムウォークサンプリング法を用いて,有向グラフの低次元ノード埋め込みを生成し,確率的化学反応系の遷移状態の同定を行う手法を開発した。 我々は,既存のランダムウォークに基づくネットワーク埋め込み手法で採用されている目的関数を修正して,有向グラフと隣接度が異なるグラフを扱うようにした。 勾配上昇による最適化により、重み付きグラフ頂点を各ノードの近傍を保持しながら低次元ベクトル空間 Rd に埋め込む。 次に, 化学反応, 特にエントロピー系における遷移状態の同定に関するいくつかの例を通して, 本手法の有効性を示す。

Using random walk sampling methods for feature learning on networks, we develop a method for generating low-dimensional node embeddings for directed graphs and identifying transition states of stochastic chemical reacting systems. We modified objective functions adopted in existing random walk based network embedding methods to handle directed graphs and neighbors of different degrees. Through optimization via gradient ascent, we embed the weighted graph vertices into a low-dimensional vector space Rd while preserving the neighborhood of each node. We then demonstrate the effectiveness of the method on dimension reduction through several examples regarding identification of transition states of chemical reactions, especially for entropic systems.
翻訳日:2022-10-02 00:03:41 公開日:2020-10-29
# ハニー暗号化方式における文脈的に類似したデコイメッセージを生成するための差分プライバシーと自然言語処理

Differential Privacy and Natural Language Processing to Generate Contextually Similar Decoy Messages in Honey Encryption Scheme ( http://arxiv.org/abs/2010.15985v1 )

ライセンス: Link先を確認
Kunjal Panchal(参考訳) Honey Encryptionは、弱いパスワード、OPP、PIN、クレジットカード番号など、低いミニエントロピーキーを使ってメッセージを暗号化するアプローチである。 暗号文は、不正なキー数で復号されると「Honey message」と呼ばれる可塑性だが粗悪な平文を生成する。 しかし、デコイ平文の生成に使われている現在の技術は、人間の言語を完全にモデル化するものではない。 言葉のぎこちないランダムな並べ替えは、攻撃者を騙すには不十分である。それは、攻撃者が本物の情報源の何らかの情報を知っているかどうかに関わらず、受け入れられて納得できない。 本稿では,非数値的な情報的メッセージである平文に焦点をあてる。 攻撃者を騙して、デコイメッセージが実際に特定のソースからのものであると信じるためには、言語の経験的および文脈的特性をキャプチャする必要があります。 つまり、実際のメッセージの構造を明らかにすることなく、実メッセージと偽メッセージの間に言語的な違いはない。 私はこの問題を解決するために自然言語処理と一般化された微分プライバシーを使用します。 主に、キーワード抽出、文脈分類、単語のバッグ、単語埋め込み、テキスト処理のための変換器、テキスト文書のプライバシーをモデル化する機械学習手法に注目します。 そして、このアプローチのセキュリティをe-differential privacyで証明します。

Honey Encryption is an approach to encrypt the messages using low min-entropy keys, such as weak passwords, OTPs, PINs, credit card numbers. The ciphertext is produces, when decrypted with any number of incorrect keys, produces plausible-looking but bogus plaintext called "honey messages". But the current techniques used in producing the decoy plaintexts do not model human language entirely. A gibberish, random assortment of words is not enough to fool an attacker; that will not be acceptable and convincing, whether or not the attacker knows some information of the genuine source. In this paper, I focus on the plaintexts which are some non-numeric informative messages. In order to fool the attacker into believing that the decoy message can actually be from a certain source, we need to capture the empirical and contextual properties of the language. That is, there should be no linguistic difference between real and fake message, without revealing the structure of the real message. I employ natural language processing and generalized differential privacy to solve this problem. Mainly I focus on machine learning methods like keyword extraction, context classification, bags-of-words, word embeddings, transformers for text processing to model privacy for text documents. Then I prove the security of this approach with e-differential privacy.
翻訳日:2022-10-01 23:56:39 公開日:2020-10-29
# 1st ARIEL Machine Learning Challengeから学んだ教訓:ステラースポット用トランジット型外惑星光曲線の修正

Lessons Learned from the 1st ARIEL Machine Learning Challenge: Correcting Transiting Exoplanet Light Curves for Stellar Spots ( http://arxiv.org/abs/2010.15996v1 )

ライセンス: Link先を確認
Nikolaos Nikolaou, Ingo P. Waldmann, Angelos Tsiaras, Mario Morvan, Billy Edwards, Kai Hou Yip, Giovanna Tinetti, Subhajit Sarkar, James M. Dawson, Vadim Borisov, Gjergji Kasneci, Matej Petkovic, Tomaz Stepisnik, Tarek Al-Ubaidi, Rachel Louise Bailey, Michael Granitzer, Sahib Julka, Roman Kern, Patrick Ofner, Stefan Wagner, Lukas Heppe, Mirko Bunse, Katharina Morik(参考訳) 過去10年間、太陽系外惑星の発見とキャラクタリゼーションの分野は急速に成長してきた。 しかし、いくつかの大きな課題は残っており、その多くが機械学習の方法論を使って対処できる。 例えば、太陽系外惑星を検知し、いくつかの特徴を推測する最も多産な方法であるトランジット光度計は、恒星点の存在に非常に敏感である。 文献における現在の実践は,スポットの効果を視覚的に識別し,手作業で修正するか,あるいは影響を受けたデータを破棄することである。 本稿では,恒星点の存在下での遷移光曲線からの遷移深度の効率的かつ正確な導出を完全に自動化する第一歩を探求する。 提案した手法と成果は、欧州宇宙機関(ESA)の次回のアリエルミッションのために組織された第1回機械学習チャレンジの文脈で得られた。 まず,arielのようなデータをシミュレートし,今後の課題を整理するためのベストプラクティスを特定しながら,課題の概要を示す。 最後に、上位5チームが獲得したソリューションを紹介し、コードを提供し、その意味について論じる。 成功したソリューションは、最小限の事前処理(ディープニューラルネットワークとアンサンブル方式)で高度に非線形(生データ)モデルを構築するか、光曲線から有意義な統計値を得るための量で、優れた予測性能を持つ線形モデルを構築するかのいずれかである。

The last decade has witnessed a rapid growth of the field of exoplanet discovery and characterisation. However, several big challenges remain, many of which could be addressed using machine learning methodology. For instance, the most prolific method for detecting exoplanets and inferring several of their characteristics, transit photometry, is very sensitive to the presence of stellar spots. The current practice in the literature is to identify the effects of spots visually and correct for them manually or discard the affected data. This paper explores a first step towards fully automating the efficient and precise derivation of transit depths from transit light curves in the presence of stellar spots. The methods and results we present were obtained in the context of the 1st Machine Learning Challenge organized for the European Space Agency's upcoming Ariel mission. We first present the problem, the simulated Ariel-like data and outline the Challenge while identifying best practices for organizing similar challenges in the future. Finally, we present the solutions obtained by the top-5 winning teams, provide their code and discuss their implications. Successful solutions either construct highly non-linear (w.r.t. the raw data) models with minimal preprocessing -deep neural networks and ensemble methods- or amount to obtaining meaningful statistics from the light curves, constructing linear models on which yields comparably good predictive performance.
翻訳日:2022-10-01 23:56:18 公開日:2020-10-29
# 不均衡データにおけるROCの限界:LVAD死亡リスクスコアの評価

Limitations of ROC on Imbalanced Data: Evaluation of LVAD Mortality Risk Scores ( http://arxiv.org/abs/2010.16253v1 )

ライセンス: Link先を確認
Faezeh Movahedi, Rema Padman, James F. Antaki(参考訳) 目的: 本研究は, lvad死亡率90日間の2つの分類器の評価におけるrocの曖昧性を示す。 本稿では, lvad分類器のマイノリティクラス予測性能をより代表する補足指標として, 精密リコール曲線 (prc) についても紹介する。 背景: LVAD領域では、受信器動作特性(ROC)は分類器の性能の一般的な指標である。 しかし、ROCは、生存する患者の圧倒的多数、すなわち不均衡なデータのために、短期的な死亡を予測できる分類器の歪んだビューを提供することができる。 方法: 2006年~2016年(59歳, 女性146名, 男性654名)に連続流LVADを施行したInterMACSで記録した90日LVAD死亡率800例について, ROCとPRCを比較し, 死亡率を90日でわずか8パーセント(不均衡データ)とした。 2つの分類法はHeartMate Risk Score(HMRS)とRandom Forest(RF)である。 結果: ROCはRFとHRMSをそれぞれ0.77対0.63のエリアアンダーカーブ(AUC)でかなり良好な性能を示した。 これは、RF と HRMS のそれぞれ 0.43 対 0.16 の PRC に対して、それぞれ 0.43 対 0.16 である。 HRMSのPRCでは, 感度がわずかに上昇し, 精度は10%に低下した。 結論:ROCは、不均衡データに適用した場合、分類器やリスクスコアの過度に最適化された性能を表現できる。 PRCは、マイノリティクラスに焦点を当てた分類器のパフォーマンスに関するより良い洞察を提供する。

Objective: This study illustrates the ambiguity of ROC in evaluating two classifiers of 90-day LVAD mortality. This paper also introduces the precision recall curve (PRC) as a supplemental metric that is more representative of LVAD classifiers performance in predicting the minority class. Background: In the LVAD domain, the receiver operating characteristic (ROC) is a commonly applied metric of performance of classifiers. However, ROC can provide a distorted view of classifiers ability to predict short-term mortality due to the overwhelmingly greater proportion of patients who survive, i.e. imbalanced data. Methods: This study compared the ROC and PRC for the outcome of two classifiers for 90-day LVAD mortality for 800 patients (test group) recorded in INTERMACS who received a continuous-flow LVAD between 2006 and 2016 (mean age of 59 years; 146 females vs. 654 males) in which mortality rate is only %8 at 90-day (imbalanced data). The two classifiers were HeartMate Risk Score (HMRS) and a Random Forest (RF). Results: The ROC indicates fairly good performance of RF and HRMS classifiers with Area Under Curves (AUC) of 0.77 vs. 0.63, respectively. This is in contrast with their PRC with AUC of 0.43 vs. 0.16 for RF and HRMS, respectively. The PRC for HRMS showed the precision rapidly dropped to only 10% with slightly increasing sensitivity. Conclusion: The ROC can portray an overly-optimistic performance of a classifier or risk score when applied to imbalanced data. The PRC provides better insight about the performance of a classifier by focusing on the minority class.
翻訳日:2022-10-01 23:55:52 公開日:2020-10-29
# 電子健康記録の強化学習を用いた2型糖尿病患者のパーソナライズドマルチモルビディティ管理

Personalized Multimorbidity Management for Patients with Type 2 Diabetes Using Reinforcement Learning of Electronic Health Records ( http://arxiv.org/abs/2011.02287v1 )

ライセンス: Link先を確認
Hua Zheng, Ilya O. Ryzhov, Wei Xie, and Judy Zhong(参考訳) 慢性疾患は2型糖尿病の患者に多い。 我々は,糖尿病のパーソナライズと多疾患管理のための強化学習(Reinforcement Learning, RL)に基づく人工知能アルゴリズムを開発した。 本稿では,2009年から2017年にかけて,ニューヨーク大学ラングーン保健センターの2型糖尿病患者16,665人の振り返りコホートを用いて,血糖,血圧,心血管疾患(CVD)リスクを健康状態としてモデル化した。 我々は,個々の特徴と遭遇時の医療歴を用いて患者の累積健康成果を最適化する治療レジームを推奨するrl処方アルゴリズムを訓練した。 RLレコメンデーションは患者の独立したサブセットで評価された。 その結果,2型糖尿病に対するパーソナライズされた強化学習規範の枠組みは,臨床医の処方薬と高い一致を示し,血糖値,血圧,心血管疾患の発症リスクを著しく改善した。

Comorbid chronic conditions are common among people with type 2 diabetes. We developed an Artificial Intelligence algorithm, based on Reinforcement Learning (RL), for personalized diabetes and multi-morbidity management with strong potential to improve health outcomes relative to current clinical practice. In this paper, we modeled glycemia, blood pressure and cardiovascular disease (CVD) risk as health outcomes using a retrospective cohort of 16,665 patients with type 2 diabetes from New York University Langone Health ambulatory care electronic health records in 2009 to 2017. We trained a RL prescription algorithm that recommends a treatment regimen optimizing patients' cumulative health outcomes using their individual characteristics and medical history at each encounter. The RL recommendations were evaluated on an independent subset of patients. The results demonstrate that the proposed personalized reinforcement learning prescriptive framework for type 2 diabetes yielded high concordance with clinicians' prescriptions and substantial improvements in glycemia, blood pressure, cardiovascular disease risk outcomes.
翻訳日:2022-10-01 23:54:59 公開日:2020-10-29
# 2019年のラグビーワールドカップのグループとプレーオフのステージで、パフォーマンス指標が成功に貢献

Performance Indicators Contributing To Success At The Group And Play-Off Stages Of The 2019 Rugby World Cup ( http://arxiv.org/abs/2012.02099v1 )

ライセンス: Link先を確認
Rory Bunker and Kirsten Spencer(参考訳) 2019年ラグビーワールドカップのグループステージとプレーオフステージの成功に寄与したパフォーマンス指標は、非パラメトリック統計技術、ウィルコクソンの署名されたランクテスト、RIPPERと呼ばれる機械学習による決定ルール技術の両方を用いて、公式トーナメントウェブサイトから入手した公開データを用いて分析された。 統計的結果から,ボールキャリーの有効性(相手のゲインラインを貫通するボールキャリーの割合)と総メートルゲイン(キックm+キャリーm)は,トーナメントの両ステージでの成功に寄与し,グループステージにおける成功に寄与する指標(保持率,ボールキャリーの増加,パス数の増加,トラック数の増加,タックル数の減少)は,プレーオフステージの成功には寄与しなかった。 リッパーを用いた結果では,低球搬送率と低ラインアウト成功率がグループステージでの敗退に寄与し,低リンク数で勝利し,トーナメントのプレーオフステージでの勝利に十分な回数のゲインラインを担った。 その結果、チームが成功するために、グループステージからトーナメントのプレーオフステージにプレイ戦略を適用する必要があることが強調された。

Performance indicators that contributed to success at the group stage and play-off stages of the 2019 Rugby World Cup were analysed using publicly available data obtained from the official tournament website using both a non-parametric statistical technique, Wilcoxon's signed rank test, and a decision rules technique from machine learning called RIPPER. Our statistical results found that ball carry effectiveness (percentage of ball carries that penetrated the opposition gain-line) and total metres gained (kick metres plus carry metres) were found to contribute to success at both stages of the tournament and that indicators that contributed to success during the group stages (dominating possession, making more ball carries, making more passes, winning more rucks, and making less tackles) did not contribute to success at the play-off stage. Our results using RIPPER found that low ball carries and a low lineout success percentage jointly contributed to losing at the group stage, while winning a low number of rucks and carrying over the gain-line a sufficient number of times contributed to winning at the play-off stage of the tournament. The results emphasise the need for teams to adapt their playing strategies from the group stage to the play-off stage at tournament in order to be successful.
翻訳日:2022-10-01 23:54:43 公開日:2020-10-29
# 連続部分空間グラフ変換によるポイントクラウド属性圧縮

Point Cloud Attribute Compression via Successive Subspace Graph Transform ( http://arxiv.org/abs/2010.15302v1 )

ライセンス: Link先を確認
Yueru Chen, Yiting Shao, Jing Wang, Ge Li, C.-C. Jay Kuo(参考訳) 最近提案された逐次サブスペース学習(SSL)の原則に触発されて,本研究におけるポイントクラウド属性圧縮に対処する逐次サブスペースグラフ変換(SSGT)を開発した。 octree幾何構造はポイントクラウドを分割するために利用され、octreeの各ノードは一定の空間サイズを持つポイントクラウド部分空間を表す。 部分空間を記述するために自己ループ付き重み付きグラフを設計し、正規化グラフ Laplacian に基づいてグラフフーリエ変換を定義する。 変換は葉ノードからoctreeの根ノードへ再帰的に大点雲に適用され、表現された部分空間は最小の点雲から全点雲へと連続的に拡大される。 実験結果から,提案手法は従来の領域適応型Haar Transform (RAHT) 法よりもR-D性能がよいことがわかった。

Inspired by the recently proposed successive subspace learning (SSL) principles, we develop a successive subspace graph transform (SSGT) to address point cloud attribute compression in this work. The octree geometry structure is utilized to partition the point cloud, where every node of the octree represents a point cloud subspace with a certain spatial size. We design a weighted graph with self-loop to describe the subspace and define a graph Fourier transform based on the normalized graph Laplacian. The transforms are applied to large point clouds from the leaf nodes to the root node of the octree recursively, while the represented subspace is expanded from the smallest one to the whole point cloud successively. It is shown by experimental results that the proposed SSGT method offers better R-D performances than the previous Region Adaptive Haar Transform (RAHT) method.
翻訳日:2022-10-01 23:54:19 公開日:2020-10-29
# 知覚問題:gan生成偽顔画像検出のための非知覚的かつ転送可能なアンチフォレンシクスの探索

Perception Matters: Exploring Imperceptible and Transferable Anti-forensics for GAN-generated Fake Face Imagery Detection ( http://arxiv.org/abs/2010.15886v1 )

ライセンス: Link先を確認
Yongwei Wang, Xin Ding, Li Ding, Rabab Ward, Z. Jane Wang(参考訳) 近年、GAN(Generative Adversarial Network)は、実際の顔写真と知覚的に区別できない偽の顔画像を生成し、偽顔検出の研究を促進する。 偽の顔鑑定は高い検出精度を達成できるが、その反法学的な研究は少ない。 ここでは,敵の攻撃に基づくフェイク顔画像検出のための,さらに \textit{imperceptible} と \textit{transferable} の反forensicsについて検討する。 顔と背景の領域はしばしば滑らかであるため、小さな摂動であっても偽の顔画像に顕著な知覚障害を引き起こす可能性がある。 したがって、既存の敵攻撃を反法学的な方法として無効にする。 我々の摂動解析は、既存の攻撃を直接適用する際の知覚的劣化問題の直感的な原因を明らかにする。 そこで本研究では,視覚知覚を考慮した色領域変換において,画像アンチフォレンスに適する新しい攻撃法を提案する。 提案手法は, 深層学習と非深層学習に基づく法医学的検出を両立させ, 攻撃成功率を高め, 視覚的品質を著しく向上させる。 特に、敵が非受容性を制約とみなす場合、2つのベースライン攻撃に対する偽顔画像の平均攻撃成功率を約30%向上させることができる。 \textit{more imperceptible} と \textit{more transferable} この提案は、フェイク顔画像検出に新たなセキュリティ上の懸念を提起する。 我々は,公用コードの公開を行い,関連する法医学的応用において,反法学的なベンチマークとして提案手法をさらに探求できることを期待する。

Recently, generative adversarial networks (GANs) can generate photo-realistic fake facial images which are perceptually indistinguishable from real face photos, promoting research on fake face detection. Though fake face forensics can achieve high detection accuracy, their anti-forensic counterparts are less investigated. Here we explore more \textit{imperceptible} and \textit{transferable} anti-forensics for fake face imagery detection based on adversarial attacks. Since facial and background regions are often smooth, even small perturbation could cause noticeable perceptual impairment in fake face images. Therefore it makes existing adversarial attacks ineffective as an anti-forensic method. Our perturbation analysis reveals the intuitive reason of the perceptual degradation issue when directly applying existing attacks. We then propose a novel adversarial attack method, better suitable for image anti-forensics, in the transformed color domain by considering visual perception. Simple yet effective, the proposed method can fool both deep learning and non-deep learning based forensic detectors, achieving higher attack success rate and significantly improved visual quality. Specially, when adversaries consider imperceptibility as a constraint, the proposed anti-forensic method can improve the average attack success rate by around 30\% on fake face images over two baseline attacks. \textit{More imperceptible} and \textit{more transferable}, the proposed method raises new security concerns to fake face imagery detection. We have released our code for public use, and hopefully the proposed method can be further explored in related forensic applications as an anti-forensic benchmark.
翻訳日:2022-10-01 23:48:14 公開日:2020-10-29
# 逆摂動に対するロバスト化二元分類

Robustifying Binary Classification to Adversarial Perturbation ( http://arxiv.org/abs/2010.15391v1 )

ライセンス: Link先を確認
Fariborz Salehi, Babak Hassibi(参考訳) さまざまなアプリケーションにおける機械学習モデルの成功にもかかわらず、これらのモデルのほとんどは入力データに対する(小さな)摂動に対するレジリエンスを欠いている。 したがって、機械学習モデルを堅牢化する新しい方法は非常に不可欠であるように思える。 そこで本稿では,対向摂動を伴う二分分類の問題について考察する。 min-max最適化(adversarial perturbations の存在下で最悪の場合の損失を考慮)の解を調査するために、データ操作における敵の力を考慮した max-margin 分類器の一般化を導入する。 この分類器を "Robust Max-margin" (RM) 分類器と呼ぶ。 損失関数に関するいくつかの軽微な仮定の下で、勾配降下が(十分に小さいステップサイズで)RM分類器の方向に収束することを理論的に示す。 したがって、RM分類器は、対向摂動を伴う二項分類の様々な性能測定(一般化誤差など)を計算することができる。

Despite the enormous success of machine learning models in various applications, most of these models lack resilience to (even small) perturbations in their input data. Hence, new methods to robustify machine learning models seem very essential. To this end, in this paper we consider the problem of binary classification with adversarial perturbations. Investigating the solution to a min-max optimization (which considers the worst-case loss in the presence of adversarial perturbations) we introduce a generalization to the max-margin classifier which takes into account the power of the adversary in manipulating the data. We refer to this classifier as the "Robust Max-margin" (RM) classifier. Under some mild assumptions on the loss function, we theoretically show that the gradient descent iterates (with sufficiently small step size) converge to the RM classifier in its direction. Therefore, the RM classifier can be studied to compute various performance measures (e.g. generalization error) of binary classification with adversarial perturbations.
翻訳日:2022-10-01 23:47:21 公開日:2020-10-29
# 心拍変動パラメータを用いた機械学習による虚血性心疾患の同定

Identification of Ischemic Heart Disease by using machine learning technique based on parameters measuring Heart Rate Variability ( http://arxiv.org/abs/2010.15893v1 )

ライセンス: Link先を確認
Giulia Silveri, Marco Merlo, Luca Restivo, Beatrice De Paola, Aleksandar Miladinovi\'c, Milo\v{s} Aj\v{c}evi\'c, Gianfranco Sinagra, Agostino Accardo(参考訳) 心臓疾患の診断は、臨床データの適切な検査によって一般的に解決される困難な課題である。 近年,いくつかの機械学習アルゴリズムと同様に心拍変動解析(hrv)が診断プロセスにおいて有用であることが証明されている。 しかし、これまで虚血性心疾患(ihd)は、サイン、症状、逐次的心電図、冠動脈造影にのみ適用される人工神経回路(ann)に基づいて診断されてきたが、心電図から容易に得られる信号であるhrvから抽出されたパラメータを用いて、非侵襲的に同定できる可能性がある。 本研究では,243名の健常者(156名, ihd患者87名)の非侵襲的特徴(年齢, 性別, 左室射出率およびhrvから得られた15名)を入力ノード数と隠れノード数で異なる一連のアンの訓練と検証に用いた。 最良の結果は、7つの入力パラメータと7つの隠れノードを用いて得られ、それぞれ98.9%と82%の精度でトレーニングと検証データセットが得られた。

The diagnosis of heart diseases is a difficult task generally addressed by an appropriate examination of patients clinical data. Recently, the use of heart rate variability (HRV) analysis as well as of some machine learning algorithms, has proved to be a valuable support in the diagnosis process. However, till now, ischemic heart disease (IHD) has been diagnosed on the basis of Artificial Neural Networks (ANN) applied only to signs, symptoms and sequential ECG and coronary angiography, an invasive tool, while could be probably identified in a non-invasive way by using parameters extracted from HRV, a signal easily obtained from the ECG. In this study, 18 non-invasive features (age, gender, left ventricular ejection fraction and 15 obtained from HRV) of 243 subjects (156 normal subjects and 87 IHD patients) were used to train and validate a series of several ANN, different for number of input and hidden nodes. The best result was obtained using 7 input parameters and 7 hidden nodes with an accuracy of 98.9% and 82% for the training and validation dataset, respectively.
翻訳日:2022-10-01 23:46:20 公開日:2020-10-29
# トランスファーラーニングによるパーキンソン病患者のMI BCIモデルの分類精度の改善

Transfer Learning improves MI BCI models classification accuracy in Parkinson's disease patients ( http://arxiv.org/abs/2010.15899v1 )

ライセンス: Link先を確認
Aleksandar Miladinovi\'c, Milo\v{s} Aj\v{c}evi\'c, Pierpaolo Busan, Joanna Jarmolowska, Giulia Silveri, Susanna Mezzarobba, Piero Paolo Battaglini, Agostino Accardo(参考訳) 運動画像に基づくBCI(MI-BCI)神経リハビリテーションは、パーキンソン病患者の運動能力を改善し、障害症状を低減することができる。 このような患者の精度と時間的MI BCIキャリブレーションの課題を克服するために、高度な運動画像BCI法が必要である。 本研究では,セッション間移動学習に基づくマルチセッションFBCSP(msFBCSP)を提案し,その性能をシングルセッションFBSCPと比較した。 本研究の主な成果は, PD患者のシングルセッションFBCSPと比較してmsFBCSPの精度が有意に向上したことである(中値81.3%, 41.2-100.0%, 中値61.1%, 25.0-100.0%, p<0.001)。 そこで本研究では, PD患者に対するMI BCIの校正精度を大幅に向上させる, トランスファーラーニングに基づくマルチセッションベースFBCSPアプローチを提案する。

Motor-Imagery based BCI (MI-BCI) neurorehabilitation can improve locomotor ability and reduce the deficit symptoms in Parkinson's Disease patients. Advanced Motor-Imagery BCI methods are needed to overcome the accuracy and time-related MI BCI calibration challenges in such patients. In this study, we proposed a Multi-session FBCSP (msFBCSP) based on inter-session transfer learning and we investigated its performance compared to the single-session based FBSCP. The main result of this study is the significantly improved accuracy obtained by proposed msFBCSP compared to single-session FBCSP in PD patients (median 81.3%, range 41.2-100.0% vs median 61.1%, range 25.0-100.0%, respectively; p<0.001). In conclusion, this study proposes a transfer learning-based multi-session based FBCSP approach which allowed to significantly improve calibration accuracy in MI BCI performed on PD patients.
翻訳日:2022-10-01 23:45:57 公開日:2020-10-29
# 金属有機フレームワークポテンシャルエネルギー近似のためのグラフニューラルネットワーク

Graph Neural Network for Metal Organic Framework Potential Energy Approximation ( http://arxiv.org/abs/2010.15908v1 )

ライセンス: Link先を確認
Shehtab Zaman, Christopher Owen, Kenneth Chiu, Michael Lawler(参考訳) 金属-有機フレームワーク (MOF) は金属イオンと有機リンカーからなるナノ多孔質化合物である。 mofは、ガス分離、ガス浄化、電解触媒などの産業用途において重要な役割を果たす。 ポテンシャルエネルギーのような重要なMOF特性は、現在密度汎関数理論(DFT)のような技術によって計算されている。 DFTは正確な結果を提供するが、計算コストが高い。 本稿では,候補MOFのポテンシャルエネルギーを推定し,グラフニューラルネットワークを用いて2対の原子間相互作用に分解する機械学習手法を提案する。 このような手法により、候補MOFの高スループットスクリーニングが可能になる。 また、DFTを用いて、5万の空間構成と高品質なポテンシャルエネルギー値のデータベースを生成する。

Metal-organic frameworks (MOFs) are nanoporous compounds composed of metal ions and organic linkers. MOFs play an important role in industrial applications such as gas separation, gas purification, and electrolytic catalysis. Important MOF properties such as potential energy are currently computed via techniques such as density functional theory (DFT). Although DFT provides accurate results, it is computationally costly. We propose a machine learning approach for estimating the potential energy of candidate MOFs, decomposing it into separate pair-wise atomic interactions using a graph neural network. Such a technique will allow high-throughput screening of candidates MOFs. We also generate a database of 50,000 spatial configurations and high-quality potential energy values using DFT.
翻訳日:2022-10-01 23:45:37 公開日:2020-10-29
# メボグラフィ画像の客観的解析のための自動多パラメータアルゴリズム

An automated and multi-parametric algorithm for objective analysis of meibography images ( http://arxiv.org/abs/2010.15352v1 )

ライセンス: Link先を確認
Peng Xiao, Zhongzhou Luo, Yuqing Deng, Gengyuan Wang, and Jin Yuan(参考訳) メボグラフィー(Meibography)は、眼科医がメボミアン腺機能障害(MGD)の評価と診断を支援するために使用する非接触イメージング技術である。 筋電図画像の定性的解析は再現性と効率を低下させる可能性があり,マルチパラメトリック解析では,MGD進行中のマイボーム腺の微妙な変化を検出するために,より包括的な情報の提供が求められている。 本アルゴリズムの全アーキテクチャは,(1)利害領域としての足底結膜領域のセグメンテーション(ROI),(2)ROI内の腺のセグメンテーションと同定,(3)新たに定義された腺径変形指数(DI),腺のトルトゥシティ指数(TI),および腺信号指数(SI)を含む定量的多パラメータ分析の3段階に分けられる。 自動アルゴリズムの性能を評価するために、手動で定義された基底真理と15の典型的なマイボグラフィ画像のroiとmeibomian腺の両方の自動分割との間に、類似度指数(k)と偽陽性率(r_p)と偽陰性率(r_n)を含むセグメンテーション誤差を算出する。 このアルゴリズムの有効性は,典型的な明法図像の解析において実証される。

Meibography is a non-contact imaging technique used by ophthalmologists to assist in the evaluation and diagnosis of meibomian gland dysfunction (MGD). While artificial qualitative analysis of meibography images could lead to low repeatability and efficiency and multi-parametric analysis is demanding to offer more comprehensive information in discovering subtle changes of meibomian glands during MGD progression, we developed an automated and multi-parametric algorithm for objective and quantitative analysis of meibography images. The full architecture of the algorithm can be divided into three steps: (1) segmentation of the tarsal conjunctiva area as the region of interest (ROI); (2) segmentation and identification of glands within the ROI; and (3) quantitative multi-parametric analysis including newly defined gland diameter deformation index (DI), gland tortuosity index (TI), and glands signal index (SI). To evaluate the performance of the automated algorithm, the similarity index (k) and the segmentation error including the false positive rate (r_P) and the false negative rate (r_N) are calculated between the manually defined ground truth and the automatic segmentations of both the ROI and meibomian glands of 15 typical meibography images. The feasibility of the algorithm is demonstrated in analyzing typical meibograhy images.
翻訳日:2022-10-01 23:39:57 公開日:2020-10-29
# クロスエントロピーを超えて:ロバストで正確な分類のための高度に分離可能な特徴分布の学習

Beyond cross-entropy: learning highly separable feature distributions for robust and accurate classification ( http://arxiv.org/abs/2010.15487v1 )

ライセンス: Link先を確認
Arslan Ali, Andrea Migliorati, Tiziano Bianchi, Enrico Magli(参考訳) ディープラーニングは、画像分類を含むいくつかのアプリケーションで顕著な性能を示している。 しかし、深い分類器は敵の攻撃に対して非常に脆弱であることが知られており、入力の小さな摂動が容易に誤りを引き起こす可能性がある。 敵の攻撃に対してロバスト性を提供することは、特に多くのクラスを含む問題において、精度の低下を犠牲にするため、非常に困難なタスクである。 本研究では,最先端手法の分類精度を達成あるいは超えつつ,逆ロバスト性を提供する深層ロバストマルチクラス分類器を訓練するための新しい手法であるガウス型クラス条件単純化(gccs)損失を提案する。 他のフレームワークと異なり、提案手法は、クラスが線形分離可能であるような潜在空間内の対象分布への入力クラスのマッピングを学習する。 個々のサンプルに対するターゲットラベルの可能性を最大化する代わりに、目的関数はネットワークに高いクラス間分離をもたらす特徴分布を生成する。 分布の平均値は、各クラスが他のすべてのクラスから同じ距離にあるように、単純体の頂点に集中する。 提案手法に基づく潜在空間の正規化は、優れた分類精度をもたらし、本質的に、ターゲットと未ターゲットの両方の複数の敵攻撃に対して、挑戦的データセットに対する最先端のアプローチに頑健であることを示す。

Deep learning has shown outstanding performance in several applications including image classification. However, deep classifiers are known to be highly vulnerable to adversarial attacks, in that a minor perturbation of the input can easily lead to an error. Providing robustness to adversarial attacks is a very challenging task especially in problems involving a large number of classes, as it typically comes at the expense of an accuracy decrease. In this work, we propose the Gaussian class-conditional simplex (GCCS) loss: a novel approach for training deep robust multiclass classifiers that provides adversarial robustness while at the same time achieving or even surpassing the classification accuracy of state-of-the-art methods. Differently from other frameworks, the proposed method learns a mapping of the input classes onto target distributions in a latent space such that the classes are linearly separable. Instead of maximizing the likelihood of target labels for individual samples, our objective function pushes the network to produce feature distributions yielding high inter-class separation. The mean values of the distributions are centered on the vertices of a simplex such that each class is at the same distance from every other class. We show that the regularization of the latent space based on our approach yields excellent classification accuracy and inherently provides robustness to multiple adversarial attacks, both targeted and untargeted, outperforming state-of-the-art approaches over challenging datasets.
翻訳日:2022-10-01 23:39:28 公開日:2020-10-29
# 高速3次元画像超解法アルゴリズム

A Novel Fast 3D Single Image Super-Resolution Algorithm ( http://arxiv.org/abs/2010.15491v1 )

ライセンス: Link先を確認
Nwigbo Kenule Tuador, Duong Hung Pham, J\'er\^ome Michetti, Adrian Basarab, Denis Kouam\'e(参考訳) 本稿では,3次元画像超解像(SR)問題,すなわち高分解能ボリュームを低分解能画像から再構成する,新しい計算効率の手法を提案する。 主な貢献は、周波数領域の基底特性に基づいて、関連するデシメーションとぼやけ演算子を同時に扱う元の方法にある。 特に、提案された3次元デシメーション演算子の分解技術は、ティホノフ正則化の簡単な実装を可能にし、さらに、全変動などの他の正則化関数を考慮して、最先端アルゴリズムの計算コストを大幅に削減することができる。 数値実験により,提案手法は既存の3次元SR法よりも優れた性能を示した。

This paper introduces a novel computationally efficient method of solving the 3D single image super-resolution (SR) problem, i.e., reconstruction of a high-resolution volume from its low-resolution counterpart. The main contribution lies in the original way of handling simultaneously the associated decimation and blurring operators, based on their underlying properties in the frequency domain. In particular, the proposed decomposition technique of the 3D decimation operator allows a straightforward implementation for Tikhonov regularization, and can be further used to take into consideration other regularization functions such as the total variation, enabling the computational cost of state-of-the-art algorithms to be considerably decreased. Numerical experiments carried out showed that the proposed approach outperforms existing 3D SR methods.
翻訳日:2022-10-01 23:39:06 公開日:2020-10-29
# バイオインスパイアされた視覚センサによる夜間視覚障害の検出と回避

Night vision obstacle detection and avoidance based on Bio-Inspired Vision Sensors ( http://arxiv.org/abs/2010.15509v1 )

ライセンス: Link先を確認
Jawad N. Yasin, Sherif A.S. Mohamed, Mohammad-hashem Haghbayan, Jukka Heikkonen, Hannu Tenhunen, Muhammad Mehboob Yasin, Juha Plosila(参考訳) 無人車両は自律化に向けて、最先端の衝突回避システム(CAS)に大きく依存している。 しかし、従来のカメラが適切に機能するには照明条件が十分ではないため、特に夜間の障害物検出は依然として難しい課題である。 そこで,イベントベースカメラの強力な特性を活かし,低照度環境で障害物検出を行う。 イベントカメラは高出力時間レートで非同期にイベントをトリガーし、ダイナミックレンジは最大120ドル(約1万2000円)である。 このアルゴリズムはバックグラウンドアクティビティノイズをフィルタリングし、ロバストなハフ変換技術を用いてオブジェクトを抽出する。 LC-Harrisを用いて抽出した2次元特徴を三角測量することにより、検出対象の深さを算出する。 最後に,非同期適応衝突回避(AACA)アルゴリズムを有効回避に適用する。 質的評価は、イベントカメラと従来のカメラで比較される。

Moving towards autonomy, unmanned vehicles rely heavily on state-of-the-art collision avoidance systems (CAS). However, the detection of obstacles especially during night-time is still a challenging task since the lighting conditions are not sufficient for traditional cameras to function properly. Therefore, we exploit the powerful attributes of event-based cameras to perform obstacle detection in low lighting conditions. Event cameras trigger events asynchronously at high output temporal rate with high dynamic range of up to 120 $dB$. The algorithm filters background activity noise and extracts objects using robust Hough transform technique. The depth of each detected object is computed by triangulating 2D features extracted utilising LC-Harris. Finally, asynchronous adaptive collision avoidance (AACA) algorithm is applied for effective avoidance. Qualitative evaluation is compared using event-camera and traditional camera.
翻訳日:2022-10-01 23:38:54 公開日:2020-10-29
# 光コヒーレンス断層撮影画像生成とデノージングのための最大後方信号回復法

Maximum a posteriori signal recovery for optical coherence tomography angiography image generation and denoising ( http://arxiv.org/abs/2010.15682v1 )

ライセンス: Link先を確認
Lennart Husvogt (1 and 2), Stefan B. Ploner (1), Siyu Chen (2), Daniel Stromer (1, 2), Julia Schottenhamml (1), A. Yasin Alibhai (3), Eric Moult (2), Nadia K. Waheed (3), James G. Fujimoto (2) and Andreas Maier (1) ((1) Friedrich-Alexander-Universit\"at Erlangen-N\"urnberg Germany, (2) Massachusetts Institute of Technology USA, (3) Tufts School of Medicine USA)(参考訳) 光コヒーレンス断層撮影(optical coherence tomography angiography、オクター)は、画像網膜と網膜下血管に対する新しい、臨床的に有望なイメージングモードである。 繰り返し光コヒーレンストモグラフィー(OCT)スキャンに基づいて、時間とともに強度変化を観測し、OCTA画像データを計算する。 OCTAデータは、流速や患者の動きの変化によって生じるノイズやアーティファクトに起因している。 本稿では,ノイズの低減と画質の向上を図ったOCTAボリュームを生成するために,新しい逐次信号回復アルゴリズムを提案する。 このアルゴリズムは、確率的オクタ信号モデルと最大確率推定の以前の研究に基づいている。 正則化のための全変動最小化とウェーブレット縮小を用いた再構成結果を6つの共登録単オクターボリュームからマージしたオクターグ・真実ボリュームと比較した。 その結果,ピーク信号対雑音比と構造類似度は有意に改善した。 このアルゴリズムはオクタ画像生成とベイズ統計を結合し、新しいオクタ画像生成と分数化アルゴリズムに開発することができる。

Optical coherence tomography angiography (OCTA) is a novel and clinically promising imaging modality to image retinal and sub-retinal vasculature. Based on repeated optical coherence tomography (OCT) scans, intensity changes are observed over time and used to compute OCTA image data. OCTA data are prone to noise and artifacts caused by variations in flow speed and patient movement. We propose a novel iterative maximum a posteriori signal recovery algorithm in order to generate OCTA volumes with reduced noise and increased image quality. This algorithm is based on previous work on probabilistic OCTA signal models and maximum likelihood estimates. Reconstruction results using total variation minimization and wavelet shrinkage for regularization were compared against an OCTA ground truth volume, merged from six co-registered single OCTA volumes. The results show a significant improvement in peak signal-to-noise ratio and structural similarity. The presented algorithm brings together OCTA image generation and Bayesian statistics and can be developed into new OCTA image generation and denoising algorithms.
翻訳日:2022-10-01 23:37:43 公開日:2020-10-29
# 深層学習を用いた病理画像のインクマーカーセグメンテーション

Ink Marker Segmentation in Histopathology Images Using Deep Learning ( http://arxiv.org/abs/2010.15865v1 )

ライセンス: Link先を確認
Danial Maleki, Mehdi Afshari, Morteza Babaie, H.R. Tizhoosh(参考訳) 近年の機械ビジョンの進歩により、デジタル病理学は注目されている。 病理像は明らかに視覚情報に富んでいる。 組織ガラススライド画像は疾患診断に利用される。 研究者は、病理組織像を処理する多くの方法を研究し、迅速かつ信頼性の高い診断を容易にする。 画像の品質は、病理学者が興味のある領域を描写するために、ガラススライドがインクマークされているときに負の影響を受ける可能性がある。 例えば、最も大きな病理組織学データセットであるThe Cancer Genome Atlas (TCGA)では、デジタル化されたスライドの約12.%がインクマーキングによる手動の指示に影響を受けている。 新しい手法の設計と検証のためにこれらのオープンアクセススライド画像やその他のレポジトリを処理するためには, 組織画素とインク色画素との混同を避けるために, 画像のマーク領域を検出するアルゴリズムが不可欠である。 本研究では,病変パッチのインクマーク領域をディープネットワークで分割する手法を提案する。 79ドルのスライド画像と4,305ドルのパッチのデータセットが作成され、異なるネットワークがトレーニングされた。 最後に、EffiecentNet-B3を用いたFPNモデルで、バックボーンはF1スコアが94.53\%$の優れた構成であることが判明した。

Due to the recent advancements in machine vision, digital pathology has gained significant attention. Histopathology images are distinctly rich in visual information. The tissue glass slide images are utilized for disease diagnosis. Researchers study many methods to process histopathology images and facilitate fast and reliable diagnosis; therefore, the availability of high-quality slides becomes paramount. The quality of the images can be negatively affected when the glass slides are ink-marked by pathologists to delineate regions of interest. As an example, in one of the largest public histopathology datasets, The Cancer Genome Atlas (TCGA), approximately $12\%$ of the digitized slides are affected by manual delineations through ink markings. To process these open-access slide images and other repositories for the design and validation of new methods, an algorithm to detect the marked regions of the images is essential to avoid confusing tissue pixels with ink-colored pixels for computer methods. In this study, we propose to segment the ink-marked areas of pathology patches through a deep network. A dataset from $79$ whole slide images with $4,305$ patches was created and different networks were trained. Finally, the results showed an FPN model with the EffiecentNet-B3 as the backbone was found to be the superior configuration with an F1 score of $94.53\%$.
翻訳日:2022-10-01 23:37:04 公開日:2020-10-29
# GripNet: 異種グラフのためのスーパーグラフのグラフ情報伝搬

GripNet: Graph Information Propagation on Supergraph for Heterogeneous Graphs ( http://arxiv.org/abs/2010.15914v1 )

ライセンス: Link先を確認
Hao Xu, Shengqi Sang, Peizhen Bai, Laurence Yang and Haiping Lu(参考訳) 不均一グラフ表現学習は、異なるタイプのエンティティと関係性の低次元ベクトル表現を学習し、下流タスクを強化することを目的としている。 既存のメソッドは意味関係をキャプチャするが、ノード/エッジ属性を複雑な方法で間接的に利用するか、意味関係を考慮せずにノード/エッジ属性を直接利用する。 複数の畳み込み操作を伴う場合、スケーラビリティも劣る。 本稿では,これらの制約を克服するために,グラフ情報伝達ネットワーク(GripNet)フレームワークを提案する。 具体的には、スーパー頂点とスーパーエッジからなる新しいスーパーグラフデータ構造を導入する。 supervertex は意味論的に一貫性のある部分グラフである。 スーパーエッジは、2つのスーパー頂点間の情報伝達経路を定義する。 GripNetは、複数のレイヤを使用して定義されたパスに沿って情報を伝搬することで、関心の超頂点の新しい表現を学ぶ。 複数の大規模グラフを構築し、GripNetを競合する手法に対して評価し、リンク予測、ノード分類、データ統合においてその優位性を示す。

Heterogeneous graph representation learning aims to learn low-dimensional vector representations of different types of entities and relations to empower downstream tasks. Existing methods either capture semantic relationships but indirectly leverage node/edge attributes in a complex way, or leverage node/edge attributes directly without taking semantic relationships into account. When involving multiple convolution operations, they also have poor scalability. To overcome these limitations, this paper proposes a flexible and efficient Graph information propagation Network (GripNet) framework. Specifically, we introduce a new supergraph data structure consisting of supervertices and superedges. A supervertex is a semantically-coherent subgraph. A superedge defines an information propagation path between two supervertices. GripNet learns new representations for the supervertex of interest by propagating information along the defined path using multiple layers. We construct multiple large-scale graphs and evaluate GripNet against competing methods to show its superiority in link prediction, node classification, and data integration.
翻訳日:2022-10-01 23:29:45 公開日:2020-10-29
# アコーディオン:臨界学習レジーム同定による適応勾配通信

Accordion: Adaptive Gradient Communication via Critical Learning Regime Identification ( http://arxiv.org/abs/2010.16248v1 )

ライセンス: Link先を確認
Saurabh Agarwal, Hongyi Wang, Kangwook Lee, Shivaram Venkataraman, Dimitris Papailiopoulos(参考訳) 分散モデルトレーニングは、計算ノードにまたがる頻繁なモデル更新による通信ボトルネックに悩まされる。 これらのボトルネックを軽減するために、実践者はスパーシフィケーションや量子化、低ランク更新といった勾配圧縮技術を使用する。 通常、静的圧縮比を選択する必要があり、モデル精度とイテレーションごとのスピードアップの間のトレードオフのバランスを取る必要がある。 本研究では,高圧縮比の選択による性能劣化が基本的でないことを示す。 適応圧縮戦略は最終テスト精度を維持しながら通信を減少させることができる。 モデル性能に小さな勾配誤差が不可避な影響を与えうる臨界学習システムに関する最近の知見に触発されて,アコーディオンは単純で効果的な適応圧縮アルゴリズムを提案する。 アコーディオンは平均的に十分な圧縮速度を維持しているが、単純な勾配ノルム基準によって検出される臨界学習体制では常に過圧縮勾配を避ける。 分散環境における多数の機械学習タスクに関する広範な実験によれば、アコーディオンは非圧縮トレーニングと同様のモデルの精度を維持しつつ、最大5.5倍の圧縮と最大4.1倍のエンドツーエンドのスピードアップを実現している。 アコーディオンは通信ボトルネックを軽減するためのもうひとつの一般的な戦略であるバッチサイズの調整にも有効であることを示す。

Distributed model training suffers from communication bottlenecks due to frequent model updates transmitted across compute nodes. To alleviate these bottlenecks, practitioners use gradient compression techniques like sparsification, quantization, or low-rank updates. The techniques usually require choosing a static compression ratio, often requiring users to balance the trade-off between model accuracy and per-iteration speedup. In this work, we show that such performance degradation due to choosing a high compression ratio is not fundamental. An adaptive compression strategy can reduce communication while maintaining final test accuracy. Inspired by recent findings on critical learning regimes, in which small gradient errors can have irrecoverable impact on model performance, we propose Accordion a simple yet effective adaptive compression algorithm. While Accordion maintains a high enough compression rate on average, it avoids over-compressing gradients whenever in critical learning regimes, detected by a simple gradient-norm based criterion. Our extensive experimental study over a number of machine learning tasks in distributed environments indicates that Accordion, maintains similar model accuracy to uncompressed training, yet achieves up to 5.5x better compression and up to 4.1x end-to-end speedup over static approaches. We show that Accordion also works for adjusting the batch size, another popular strategy for alleviating communication bottlenecks.
翻訳日:2022-10-01 23:29:07 公開日:2020-10-29
# 通信システムにおける疎線形逆問題の解法:適応深さを用いた深層学習アプローチ

Solving Sparse Linear Inverse Problems in Communication Systems: A Deep Learning Approach With Adaptive Depth ( http://arxiv.org/abs/2010.15376v1 )

ライセンス: Link先を確認
Wei Chen, Bowen Zhang, Shi Jin, Bo Ai, Zhangdui Zhong(参考訳) ノイズリニア測定による疎信号回復問題は、無線通信の多くの領域に現れる。 近年,ディープラーニング(DL)に基づくアプローチは,ニューラルネットワークとして反復アルゴリズムを展開することによって,疎線形逆問題の解決に関心を寄せている。 通常、DLに関する研究は一定数のネットワーク層を仮定する。 しかし、コンバージェンスに必要なイテレーションの回数が、様々な間隔で変化する従来の反復アルゴリズムのキー文字を無視している。 予測勾配降下について検討することにより,既存のDL手法の欠点を一定の深さで明らかにする。 次に、各層で追加の停止スコアを含むエンドツーエンドのトレーニング可能なDLアーキテクチャを提案する。 そこで,提案手法では,レイヤ数を学習して出力を出力し,ネットワークの深さを推定フェーズの各タスクに対して動的に調整する。 大規模mtcおよび大規模mimoチャネル推定におけるランダムアクセスを含む合成データとアプリケーションの両方を用いて実験を行い,提案手法の有効性を示す。

Sparse signal recovery problems from noisy linear measurements appear in many areas of wireless communications. In recent years, deep learning (DL) based approaches have attracted interests of researchers to solve the sparse linear inverse problem by unfolding iterative algorithms as neural networks. Typically, research concerning DL assume a fixed number of network layers. However, it ignores a key character in traditional iterative algorithms, where the number of iterations required for convergence changes with varying sparsity levels. By investigating on the projected gradient descent, we unveil the drawbacks of the existing DL methods with fixed depth. Then we propose an end-to-end trainable DL architecture, which involves an extra halting score at each layer. Therefore, the proposed method learns how many layers to execute to emit an output, and the network depth is dynamically adjusted for each task in the inference phase. We conduct experiments using both synthetic data and applications including random access in massive MTC and massive MIMO channel estimation, and the results demonstrate the improved efficiency for the proposed approach.
翻訳日:2022-10-01 23:28:44 公開日:2020-10-29
# シミュレーションから実世界への捕食者・捕食者エージェントの学習フレームワーク

A Framework for Learning Predator-prey Agents from Simulation to Real World ( http://arxiv.org/abs/2010.15792v1 )

ライセンス: Link先を確認
Jiunhan Chen, Zhenyu Gao(参考訳) 本稿では,シミュレーションから実世界へ一般に実装可能な進化的捕食者獲物ロボットシステムを提案する。 カメラと赤外線センサをコントローラの入力として搭載したクローズドループロボットシステムを設計する。 捕食者と獲物は共に、期待される行動を学ぶために、NeuroEvolution of Augmenting Topologies (NEAT)によって進化する。 我々は,OpenAIのGym,Robot Operating System(ROS),Gazeboを統合したフレームワークを設計する。 このようなフレームワークでは、ユーザーはシミュレーションと現実世界の両方でロボットを操作する詳細を気にすることなく、アルゴリズムに焦点を当てる必要がある。 シミュレーション、実世界進化、ロバストネス分析を組み合わせることで、捕食者-捕食者のタスクの解決策を開発することができる。 ユーザのために、シミュレーションされた現実世界のソースコードとビデオがgithubで公開されている。

In this paper, we propose an evolutionary predatorprey robot system which can be generally implemented from simulation to the real world. We design the closed-loop robot system with camera and infrared sensors as inputs of controller. Both the predators and prey are co-evolved by NeuroEvolution of Augmenting Topologies (NEAT) to learn the expected behaviours. We design a framework that integrate Gym of OpenAI, Robot Operating System (ROS), Gazebo. In such a framework, users only need to focus on algorithms without being worried about the detail of manipulating robots in both simulation and the real world. Combining simulations, real-world evolution, and robustness analysis, it can be applied to develop the solutions for the predator-prey tasks. For the convenience of users, the source code and videos of the simulated and real world are published on Github.
翻訳日:2022-10-01 23:28:28 公開日:2020-10-29
# 時系列回帰の現代的戦略

Modern strategies for time series regression ( http://arxiv.org/abs/2010.15997v1 )

ライセンス: Link先を確認
Stephanie Clark, Rob J Hyndman, Dan Pagendam, Louise M Ryan(参考訳) 本稿では,予測変数のいくつかが時間によってインデックス付けされる時系列データを含む回帰分析の現代的アプローチについて論じる。 機械学習の文献で最近提案されている手法と同様に,古典的な統計手法についても論じる。 これらのアプローチは比較・対比され、現在利用可能なほとんどのアプローチに利点とデメリットがあることが分かるだろう。 この地域には方法論開発のための十分なスペースがある。 この研究の動機は、オーストラリア東部の帯水層における降雨量やその他の気候変数の関数として水位を予測することにある。

This paper discusses several modern approaches to regression analysis involving time series data where some of the predictor variables are also indexed by time. We discuss classical statistical approaches as well as methods that have been proposed recently in the machine learning literature. The approaches are compared and contrasted, and it will be seen that there are advantages and disadvantages to most currently available approaches. There is ample room for methodological developments in this area. The work is motivated by an application involving the prediction of water levels as a function of rainfall and other climate variables in an aquifer in eastern Australia.
翻訳日:2022-10-01 23:27:59 公開日:2020-10-29
# ディープラーニングと時間オートマトンを用いたハイブリッド生産システムのための新しい異常検出アルゴリズム

A Novel Anomaly Detection Algorithm for Hybrid Production Systems based on Deep Learning and Timed Automata ( http://arxiv.org/abs/2010.15415v1 )

ライセンス: Link先を確認
Nemanja Hranisavljevic and Oliver Niggemann and Alexander Maier(参考訳) ハイブリッドシステムにおける異常検出は、離散信号と連続信号の両方の時間的挙動と相互依存の分析を必要とするため、難しい課題である。 通常、人間のエンジニアが手作業で行うようなシステムの振る舞いをモデル化する必要がある。 観察から行動モデルを作成するために機械学習を使用することには、開発コストの低減やシステムに関する特定の知識に対する要件の低減といったメリットがある。 DAD:DeepAnomalyDetectionは,ハイブリッド生産システムにおける自動モデル学習と異常検出のための新しいアプローチである。 深層学習とタイムドオートマトンを組み合わせて、観察から行動モデルを作成する。 実数値入力からバイナリ特徴を抽出するディープ信条ネットの能力は、連続信号から離散信号への変換に使用される。 これらの信号は、元の離散信号と共に、同一の方法で処理される。 異常検出は、実際のおよび予測されたシステム挙動の比較によって行われる。 このアルゴリズムは実システムの2つを含む少数のデータセットに適用され、有望な結果を示している。

Performing anomaly detection in hybrid systems is a challenging task since it requires analysis of timing behavior and mutual dependencies of both discrete and continuous signals. Typically, it requires modeling system behavior, which is often accomplished manually by human engineers. Using machine learning for creating a behavioral model from observations has advantages, such as lower development costs and fewer requirements for specific knowledge about the system. The paper presents DAD:DeepAnomalyDetection, a new approach for automatic model learning and anomaly detection in hybrid production systems. It combines deep learning and timed automata for creating behavioral model from observations. The ability of deep belief nets to extract binary features from real-valued inputs is used for transformation of continuous to discrete signals. These signals, together with the original discrete signals are than handled in an identical way. Anomaly detection is performed by the comparison of actual and predicted system behavior. The algorithm has been applied to few data sets including two from real systems and has shown promising results.
翻訳日:2022-10-01 23:20:26 公開日:2020-10-29
# ニューラルネットワーク学習のための自己ペースデータ拡張

Self-paced Data Augmentation for Training Neural Networks ( http://arxiv.org/abs/2010.15434v1 )

ライセンス: Link先を確認
Tomoumi Takase, Ryo Karakida, Hideki Asoh(参考訳) データ拡張は機械学習に広く利用されているが、注意すべき要素がいくつかあるにもかかわらず、データ拡張を適用する効果的な方法が確立されていない。 そのような要因の1つは、データ拡張に適したサンプルを選択することを含むサンプル適合性である。 すべてのトレーニングサンプルにデータ拡張を適用する典型的な方法は、サンプル適合性を無視し、分類器の性能を低下させる可能性がある。 この問題に対処するため,ニューラルネットワークのトレーニングにおいて,データ拡張に適したサンプルを自動的に動的に選択するセルフペースト拡張(SPA)を提案する。 提案手法は,非効率なデータ拡張による一般化性能の劣化を軽減する。 提案するspa作業がカリキュラム学習に相対する2つの理由と,損失関数不安定の望ましい変化について考察する。 実験結果から,SPAは,特にトレーニングサンプル数が少ない場合,一般化性能を向上できることが示された。 さらに,提案手法は最先端のRandAugment法よりも優れている。

Data augmentation is widely used for machine learning; however, an effective method to apply data augmentation has not been established even though it includes several factors that should be tuned carefully. One such factor is sample suitability, which involves selecting samples that are suitable for data augmentation. A typical method that applies data augmentation to all training samples disregards sample suitability, which may reduce classifier performance. To address this problem, we propose the self-paced augmentation (SPA) to automatically and dynamically select suitable samples for data augmentation when training a neural network. The proposed method mitigates the deterioration of generalization performance caused by ineffective data augmentation. We discuss two reasons the proposed SPA works relative to curriculum learning and desirable changes to loss function instability. Experimental results demonstrate that the proposed SPA can improve the generalization performance, particularly when the number of training samples is small. In addition, the proposed SPA outperforms the state-of-the-art RandAugment method.
翻訳日:2022-10-01 23:19:58 公開日:2020-10-29
# 多層クラスタグラフ学習

Multilayer Clustered Graph Learning ( http://arxiv.org/abs/2010.15456v1 )

ライセンス: Link先を確認
Mireille El Gheche and Pascal Frossard(参考訳) 多層グラフは、データ内の複数のタイプの関係をモデル化するための数学的ツールとして魅力的である。 本稿では,個々のレイヤが提供する情報を適切に組み合わせて多層グラフを解析することを目的として,最終的にグラフデータ解析に不可欠なコミュニティやクラスタを識別する,特定の構造を保存する。 そこで我々は,観測層へのデータ忠実度項を含む最適化問題を解くことで,クラスタ化された代表グラフを学習し,スパースグラフとコミュニティ対応グラフの正規化を推し進める。 我々は、観測された層を代表グラフに適切に集約するために、データ忠実度項として対照的な損失を用いる。 正規化は「効果的な抵抗」と呼ばれるグラフスパーシフィケーションの尺度と、代表グラフラプラシアン行列の最初の数個の固有値がペナルティ化され、コミュニティの形成を好む。 提案する最適化問題は非凸だが完全微分可能であり, 投影勾配法を用いて解くことができる。 実験により,クラスタリング問題の解法として,最先端の多層グラフ学習アルゴリズムが大幅に改善された。

Multilayer graphs are appealing mathematical tools for modeling multiple types of relationship in the data. In this paper, we aim at analyzing multilayer graphs by properly combining the information provided by individual layers, while preserving the specific structure that allows us to eventually identify communities or clusters that are crucial in the analysis of graph data. To do so, we learn a clustered representative graph by solving an optimization problem that involves a data fidelity term to the observed layers, and a regularization pushing for a sparse and community-aware graph. We use the contrastive loss as a data fidelity term, in order to properly aggregate the observed layers into a representative graph. The regularization is based on a measure of graph sparsification called "effective resistance", coupled with a penalization of the first few eigenvalues of the representative graph Laplacian matrix to favor the formation of communities. The proposed optimization problem is nonconvex but fully differentiable, and thus can be solved via the projected gradient method. Experiments show that our method leads to a significant improvement w.r.t. state-of-the-art multilayer graph learning algorithms for solving clustering problems.
翻訳日:2022-10-01 23:19:44 公開日:2020-10-29
# FiGLearn: 最適移動を用いたフィルタとグラフ学習

FiGLearn: Filter and Graph Learning using Optimal Transport ( http://arxiv.org/abs/2010.15457v1 )

ライセンス: Link先を確認
Matthias Minder and Zahra Farsijani and Dhruti Shah and Mireille El Gheche and Pascal Frossard(参考訳) 多くのアプリケーションにおいて、データセットは未知のグラフ構造上に存在する観測信号の集合と見なすことができる。 これらの信号の一部は、グラフフィルタによってグラフトポロジー上でフィルタされたホワイトノイズと見なすことができる。 したがって、フィルタとグラフの知識は、基盤となるデータ生成プロセスとデータセットで発生する複雑な相互作用に関する貴重な情報を提供する。 そこで我々は,信号観測からグラフとその生成フィルタを共同学習するための新しいグラフ信号処理フレームワークを提案する。 我々は,信号観測の分布とフィルタ信号分布モデルとのワッサーシュタイン距離を最小化する新たな最適化問題を考案した。 提案手法は合成データを用いた最先端グラフ学習フレームワークよりも優れている。 次に,この手法を温度異常データセットに適用し,情報がほとんど得られなければ,このフレームワークが不足値の推測にどのように役立つかを示す。

In many applications, a dataset can be considered as a set of observed signals that live on an unknown underlying graph structure. Some of these signals may be seen as white noise that has been filtered on the graph topology by a graph filter. Hence, the knowledge of the filter and the graph provides valuable information about the underlying data generation process and the complex interactions that arise in the dataset. We hence introduce a novel graph signal processing framework for jointly learning the graph and its generating filter from signal observations. We cast a new optimisation problem that minimises the Wasserstein distance between the distribution of the signal observations and the filtered signal distribution model. Our proposed method outperforms state-of-the-art graph learning frameworks on synthetic data. We then apply our method to a temperature anomaly dataset, and further show how this framework can be used to infer missing values if only very little information is available.
翻訳日:2022-10-01 23:19:26 公開日:2020-10-29
# 強化学習における探索のオフライン対策はどのように振る舞うのか?

How do Offline Measures for Exploration in Reinforcement Learning behave? ( http://arxiv.org/abs/2010.15533v1 )

ライセンス: Link先を確認
Jakob J. Hollenstein, Sayantan Auddy, Matteo Saveriano, Erwan Renaudo, Justus Piater(参考訳) 強化学習エージェントの成功には十分な探索が不可欠である。 しかし、探索がアルゴリズムに依存しない方法で評価されることは滅多にない。 文献に記述されている3つのデータに基づくオフライン探索メトリクスの挙動を直感的な単純な分布で比較し、使用時に注意すべき問題を強調する。 第4の計量、一様相対エントロピーを提案し、k-nearest-neighborまたは最も近いneighbor-ratio estimatorを用いて実装し、実装の選択がこれらの測定に重大な影響を与えることを強調する。

Sufficient exploration is paramount for the success of a reinforcement learning agent. Yet, exploration is rarely assessed in an algorithm-independent way. We compare the behavior of three data-based, offline exploration metrics described in the literature on intuitive simple distributions and highlight problems to be aware of when using them. We propose a fourth metric,uniform relative entropy, and implement it using either a k-nearest-neighbor or a nearest-neighbor-ratio estimator, highlighting that the implementation choices have a profound impact on these measures.
翻訳日:2022-10-01 23:19:12 公開日:2020-10-29
# LSTMによるサイバー物理系のモデルベース異常検出

LSTM for Model-Based Anomaly Detection in Cyber-Physical Systems ( http://arxiv.org/abs/2010.15680v1 )

ライセンス: Link先を確認
Benedikt Eiteneuer and Oliver Niggemann(参考訳) 異常検出は、与えられたコンテキストにおけるシステムの通常の振る舞いとは異なるデータを検出するタスクである。 この問題を解決するために、データ駆動モデルは、現在または将来の観測を予測するために学べる。 異常な振る舞いはシステムの内部ダイナミクスに依存し、静的なコンテキストでは正常に見えることが多い。 この問題に対処するためには、モデルも状態に応じて動作する必要がある。 長期短期記憶(lstm)ニューラルネットワークは、時間依存の長さの異なる時系列を学習するのに特に有用であることが示されており、それゆえ、任意に複雑なサイバー物理システムの振る舞いを学ぶための興味深い汎用的アプローチである。 異常検出を行うために,モデル不確実性の推定を組み込むため,標準ノルム2誤差をわずかに修正する。 人工的および実データに対するアプローチを分析します。

Anomaly detection is the task of detecting data which differs from the normal behaviour of a system in a given context. In order to approach this problem, data-driven models can be learned to predict current or future observations. Oftentimes, anomalous behaviour depends on the internal dynamics of the system and looks normal in a static context. To address this problem, the model should also operate depending on state. Long Short-Term Memory (LSTM) neural networks have been shown to be particularly useful to learn time sequences with varying length of temporal dependencies and are therefore an interesting general purpose approach to learn the behaviour of arbitrarily complex Cyber-Physical Systems. In order to perform anomaly detection, we slightly modify the standard norm 2 error to incorporate an estimate of model uncertainty. We analyse the approach on artificial and real data.
翻訳日:2022-10-01 23:18:49 公開日:2020-10-29
# 3次元物体検出技術の概要

An Overview Of 3D Object Detection ( http://arxiv.org/abs/2010.15614v1 )

ライセンス: Link先を確認
Yilin Wang, Jiayi Ye(参考訳) point cloud 3dオブジェクト検出は最近大きな注目を集め、3dコンピュータビジョンコミュニティで活発な研究テーマとなっている。 しかし、点雲の複雑さのため、LiDAR(Light Detection and Ranging)で3Dオブジェクトを認識することは依然として課題である。 歩行者、サイクリスト、交通コーンなどの物体は、通常、非常にスパースな点で表されるため、ポイントクラウドのみを使用して検出が非常に複雑になる。 本稿では,RGBとポイントクラウドデータの両方を用いてマルチクラスオブジェクト認識を行うフレームワークを提案する。 既存の2D検出モデルを用いて、RGB画像上の関心領域(ROI)をローカライズし、続いてポイントクラウド内のピクセルマッピング戦略を行い、最終的に最初の2D境界ボックスを3D空間に持ち上げる。 我々は最近リリースされたnuScenesデータセットを使用し、大規模なデータセットには多くのデータフォーマットが含まれています。

Point cloud 3D object detection has recently received major attention and becomes an active research topic in 3D computer vision community. However, recognizing 3D objects in LiDAR (Light Detection and Ranging) is still a challenge due to the complexity of point clouds. Objects such as pedestrians, cyclists, or traffic cones are usually represented by quite sparse points, which makes the detection quite complex using only point cloud. In this project, we propose a framework that uses both RGB and point cloud data to perform multiclass object recognition. We use existing 2D detection models to localize the region of interest (ROI) on the RGB image, followed by a pixel mapping strategy in the point cloud, and finally, lift the initial 2D bounding box to 3D space. We use the recently released nuScenes dataset---a large-scale dataset contains many data formats---to training and evaluate our proposed architecture.
翻訳日:2022-10-01 23:14:10 公開日:2020-10-29
# コントラスト・アテンション・ネットワークによるフリーフォーム画像の描画

Free-Form Image Inpainting via Contrastive Attention Network ( http://arxiv.org/abs/2010.15643v1 )

ライセンス: Link先を確認
Xin Ma, Xiaoqiang Zhou, Huaibo Huang, Zhenhua Chai, Xiaolin Wei, Ran He(参考訳) ディープラーニングベースのイメージインペインティングアプローチの多くは、画像の欠落領域を埋めるためにautoencoderまたはその変種を採用する。 エンコーダは通常、高度な学習タスクを扱う上で重要である強力な表現空間を学ぶために使用される。 具体的には、画像の塗装タスクでは、任意の形状のマスクが複雑なパターンを形成する画像(フリーフォームマスク)のどこにでも現れる。 エンコーダはこの複雑な状況下でこのような強力な表現を捕捉することは困難である。 この問題に対処するために,ロバスト性と一般化を改善するために,自己教師付きシアム推論ネットワークを提案する。 フル解像度画像からコンテキストセマンティクスをエンコードし、より差別的な表現を得ることができる。 さらに,復元された領域と既知の領域をスムーズに結合可能な,新しいdaf(dual attention fusion module)を備えたマルチスケールデコーダを提案する。 このマルチスケールアーキテクチャは、エンコーダが学習した識別表現をレイヤごとにイメージ層にデコードするのに有用である。 このように、未知の領域は外部から内部まで自然に充填される。 顔と自然のデータセット (celeb-hq, pairs street view, places2, imagenet) を含む複数のデータセットにおける質的かつ定量的な実験により,提案手法が最先端の手法を上回って,高品質なインペインティング結果を生成することを実証した。

Most deep learning based image inpainting approaches adopt autoencoder or its variants to fill missing regions in images. Encoders are usually utilized to learn powerful representational spaces, which are important for dealing with sophisticated learning tasks. Specifically, in image inpainting tasks, masks with any shapes can appear anywhere in images (i.e., free-form masks) which form complex patterns. It is difficult for encoders to capture such powerful representations under this complex situation. To tackle this problem, we propose a self-supervised Siamese inference network to improve the robustness and generalization. It can encode contextual semantics from full resolution images and obtain more discriminative representations. we further propose a multi-scale decoder with a novel dual attention fusion module (DAF), which can combine both the restored and known regions in a smooth way. This multi-scale architecture is beneficial for decoding discriminative representations learned by encoders into images layer by layer. In this way, unknown regions will be filled naturally from outside to inside. Qualitative and quantitative experiments on multiple datasets, including facial and natural datasets (i.e., Celeb-HQ, Pairs Street View, Places2 and ImageNet), demonstrate that our proposed method outperforms state-of-the-art methods in generating high-quality inpainting results.
翻訳日:2022-10-01 23:13:55 公開日:2020-10-29
# 画像復元のための非対称協調型ディープインターリーブネットワークの学習

Learning Deep Interleaved Networks with Asymmetric Co-Attention for Image Restoration ( http://arxiv.org/abs/2010.15689v1 )

ライセンス: Link先を確認
Feng Li, Runmin Cong, Huihui Bai, Yifan He, Yao Zhao, and Ce Zhu(参考訳) 近年、畳み込みニューラルネットワーク(cnn)は、画像復元(ir)タスク(画像のスーパーレゾリューション、画像デブラリング、雨のストリーク除去、デハジングなど)において大きな成功を収めている。 しかし、既存のCNNベースのモデルは、最終予測のための低品質(LQ)入力空間から特徴表現を豊かにするシングルパスストリームとして一般的に実装されている。 本稿では、高品質な(本社)画像再構成のために、異なる状態の情報をどのように組み合わせるべきかを学習するディープインターリーブドネットワーク(DIN)を提案する。 提案したDINはマルチパスおよびマルチブランチパターンに従っており、複数の相互接続された分岐が異なる状態においてインターリーブおよびヒューズを行うことができる。 このように、浅い情報は深い代表的特徴予測を導き、特徴表現能力を高めることができる。 さらに,各インターリーブノードにアタッチして特徴依存性をモデル化する非対称コアテンション(asyca)を提案する。 このようなAsyCAは、異なる状態からの情報的特徴を適応的に強調できるだけでなく、ネットワークの識別能力も向上する。 提案したDINはエンドツーエンドで訓練でき、様々な赤外線タスクに適用できる。 公開ベンチマークと実世界のデータセットに関する包括的評価により,提案手法は定量的・定性的に最先端手法に好適であることが示された。

Recently, convolutional neural network (CNN) has demonstrated significant success for image restoration (IR) tasks (e.g., image super-resolution, image deblurring, rain streak removal, and dehazing). However, existing CNN based models are commonly implemented as a single-path stream to enrich feature representations from low-quality (LQ) input space for final predictions, which fail to fully incorporate preceding low-level contexts into later high-level features within networks, thereby producing inferior results. In this paper, we present a deep interleaved network (DIN) that learns how information at different states should be combined for high-quality (HQ) images reconstruction. The proposed DIN follows a multi-path and multi-branch pattern allowing multiple interconnected branches to interleave and fuse at different states. In this way, the shallow information can guide deep representative features prediction to enhance the feature expression ability. Furthermore, we propose asymmetric co-attention (AsyCA) which is attached at each interleaved node to model the feature dependencies. Such AsyCA can not only adaptively emphasize the informative features from different states, but also improves the discriminative ability of networks. Our presented DIN can be trained end-to-end and applied to various IR tasks. Comprehensive evaluations on public benchmarks and real-world datasets demonstrate that the proposed DIN perform favorably against the state-of-the-art methods quantitatively and qualitatively.
翻訳日:2022-10-01 23:13:32 公開日:2020-10-29
# relationnet++:transformerデコーダによるオブジェクト検出のためのブリッジビジュアル表現

RelationNet++: Bridging Visual Representations for Object Detection via Transformer Decoder ( http://arxiv.org/abs/2010.15831v1 )

ライセンス: Link先を確認
Cheng Chi and Fangyun Wei and Han Hu(参考訳) 既存のオブジェクト検出フレームワークは通常、単一のオブジェクト/部分表現、すなわちRetinaNetとFaster R-CNNのアンカー/プロポサル矩形ボックス、FCOSとRepPointsのセンターポイント、コーナーネットのコーナーポイント上に構築されている。 これらの異なる表現は、例えば、より優れた分類やより細かい局所化といった異なる側面で、フレームワークをうまく機能させるが、一般的には、異なる表現による異種または非グリッドの特徴抽出のため、これらの表現を単一のフレームワークで組み合わせて、それぞれの強みをうまく利用することは困難である。 本稿では,Transformer~\cite{vaswani2017attention} と同様のアテンションベースのデコーダモジュールを提案する。 他の表現は、バニラ検出器の主 \emph{query} 表現機能を強化するために \emph{key} インスタンスの集合として機能する。 デコーダモジュールの効率的な計算のために, \emph{key sampling} 法や \emph{shared location embedded} 法などの新しい手法が提案されている。 提案したモジュールは \emph{bridging visual representations} (BVR) と名付けられた。 我々は、他の表現をRetinaNet、Faster R-CNN、FCOS、ATSSなどの一般的なオブジェクト検出フレームワークにブリッジすることで、その広範な効果を実証する。 特に、強力なバックボーンを持つ最先端のフレームワークを2.0$ APで改善し、COCO test-devで52.7$ APに達した。 ネットワーク名はrelationnet++である。 コードはhttps://github.com/microsoft/relationnet2で入手できる。

Existing object detection frameworks are usually built on a single format of object/part representation, i.e., anchor/proposal rectangle boxes in RetinaNet and Faster R-CNN, center points in FCOS and RepPoints, and corner points in CornerNet. While these different representations usually drive the frameworks to perform well in different aspects, e.g., better classification or finer localization, it is in general difficult to combine these representations in a single framework to make good use of each strength, due to the heterogeneous or non-grid feature extraction by different representations. This paper presents an attention-based decoder module similar as that in Transformer~\cite{vaswani2017attention} to bridge other representations into a typical object detector built on a single representation format, in an end-to-end fashion. The other representations act as a set of \emph{key} instances to strengthen the main \emph{query} representation features in the vanilla detectors. Novel techniques are proposed towards efficient computation of the decoder module, including a \emph{key sampling} approach and a \emph{shared location embedding} approach. The proposed module is named \emph{bridging visual representations} (BVR). It can perform in-place and we demonstrate its broad effectiveness in bridging other representations into prevalent object detection frameworks, including RetinaNet, Faster R-CNN, FCOS and ATSS, where about $1.5\sim3.0$ AP improvements are achieved. In particular, we improve a state-of-the-art framework with a strong backbone by about $2.0$ AP, reaching $52.7$ AP on COCO test-dev. The resulting network is named RelationNet++. The code will be available at https://github.com/microsoft/RelationNet2.
翻訳日:2022-10-01 23:12:30 公開日:2020-10-29
# 手書き指文字列認識におけるエンドツーエンドアプローチの総合比較

A Comprehensive Comparison of End-to-End Approaches for Handwritten Digit String Recognition ( http://arxiv.org/abs/2010.15904v1 )

ライセンス: Link先を確認
Andre G. Hochuli, Alceu S. Britto Jr, David A. Saji, Jose M. Saavedra, Robert Sabourin, Luiz S. Oliveira(参考訳) 過去数十年にわたり、手書き文字文字列認識(HDSR)のためのほとんどのアプローチは、ヒューリスティックに支配される桁分割に頼っており、最終的な性能にかなりの制約を課している。 それらの多くは、各ピクセル列が潜在的なカット位置を持つセグメンテーションフリー戦略に基づいている。 最近、セグメンテーションフリー戦略は問題に別の視点を加え、有望な結果をもたらしている。 しかしながら、これらの戦略は、多数のタッチディジットを扱う場合のいくつかの制限を示している。 結果として生じるギャップを橋渡しするため,本論文では,桁の列を対象の列として扱うことができると仮定する。 そこで我々は,HDSR問題,特にオブジェクト検出に基づくもの(ヨロやRetinaNetなど)とシーケンス・ツー・シーケンス表現に基づくもの(CRNNなど)について,さまざまなエンドツーエンドアプローチを評価した。 この研究の主な貢献は、HDSRに関するICFHR 2014コンペティションのために提案されたTouching Pairデータセット、NIST SD19、および2つの現実世界データセット(CARとCVL)を含む、HDSRの評価に一般的に使用される5つのベンチマークに関する、上記の戦略の総合的な比較である。 以上の結果から,ヨーロモデルとセグメンテーションフリーモデルとの比較は,ヒューリスティックスモデルの存在を最小限に抑えるパイプラインが短いという利点があることがわかった。 NIST-SD19, CAR, CVLデータセットでそれぞれ97%, 96%, 84%の認識率を達成した。

Over the last decades, most approaches proposed for handwritten digit string recognition (HDSR) have resorted to digit segmentation, which is dominated by heuristics, thereby imposing substantial constraints on the final performance. Few of them have been based on segmentation-free strategies where each pixel column has a potential cut location. Recently, segmentation-free strategies has added another perspective to the problem, leading to promising results. However, these strategies still show some limitations when dealing with a large number of touching digits. To bridge the resulting gap, in this paper, we hypothesize that a string of digits can be approached as a sequence of objects. We thus evaluate different end-to-end approaches to solve the HDSR problem, particularly in two verticals: those based on object-detection (e.g., Yolo and RetinaNet) and those based on sequence-to-sequence representation (CRNN). The main contribution of this work lies in its provision of a comprehensive comparison with a critical analysis of the above mentioned strategies on five benchmarks commonly used to assess HDSR, including the challenging Touching Pair dataset, NIST SD19, and two real-world datasets (CAR and CVL) proposed for the ICFHR 2014 competition on HDSR. Our results show that the Yolo model compares favorably against segmentation-free models with the advantage of having a shorter pipeline that minimizes the presence of heuristics-based models. It achieved a 97%, 96%, and 84% recognition rate on the NIST-SD19, CAR, and CVL datasets, respectively.
翻訳日:2022-10-01 23:11:56 公開日:2020-10-29
# ボリューム・メディカル・イメージ・セグメンテーション:3次元粗大化フレームワークとその逆例

Volumetric Medical Image Segmentation: A 3D Deep Coarse-to-fine Framework and Its Adversarial Examples ( http://arxiv.org/abs/2010.16074v1 )

ライセンス: Link先を確認
Yingwei Li, Zhuotun Zhu, Yuyin Zhou, Yingda Xia, Wei Shen, Elliot K. Fishman, Alan L. Yuille(参考訳) 深層ニューラルネットワークは多くの2次元視覚タスクにおいて支配的な手法であるが、注釈付き3dデータの量と計算資源が限られているため、医用画像分割などの3dタスクに適用することは依然として困難である。 本章では,医用画像の分割に3D畳み込みニューラルネットワークを適用する戦略を再考することにより,これらの課題に効果的に取り組むために,新しい3Dベース粗大化フレームワークを提案する。 提案した3Dベースのフレームワークは、3つの軸すべてに沿って豊富な空間情報を活用できるため、2Dよりも大きなマージンで優れている。 さらに,提案フレームワークに対する敵攻撃の脅威を分析し,攻撃に対する防御方法を示す。 NIH膵臓データセット,JHMI膵臓データセット,JHMI病理嚢胞データセットの3つのデータセットについて実験を行った。 特に、nih pancreasのセグメンテーションデータセットでは、前回のベストを平均$2\%$で上回り、最悪のケースは$7\%$でほぼ$70\%$に改善され、臨床応用におけるフレームワークの信頼性が示されます。

Although deep neural networks have been a dominant method for many 2D vision tasks, it is still challenging to apply them to 3D tasks, such as medical image segmentation, due to the limited amount of annotated 3D data and limited computational resources. In this chapter, by rethinking the strategy to apply 3D Convolutional Neural Networks to segment medical images, we propose a novel 3D-based coarse-to-fine framework to efficiently tackle these challenges. The proposed 3D-based framework outperforms their 2D counterparts by a large margin since it can leverage the rich spatial information along all three axes. We further analyze the threat of adversarial attacks on the proposed framework and show how to defense against the attack. We conduct experiments on three datasets, the NIH pancreas dataset, the JHMI pancreas dataset and the JHMI pathological cyst dataset, where the first two and the last one contain healthy and pathological pancreases respectively, and achieve the current state-of-the-art in terms of Dice-Sorensen Coefficient (DSC) on all of them. Especially, on the NIH pancreas segmentation dataset, we outperform the previous best by an average of over $2\%$, and the worst case is improved by $7\%$ to reach almost $70\%$, which indicates the reliability of our framework in clinical applications.
翻訳日:2022-10-01 23:11:27 公開日:2020-10-29
# プロダクティブパフォーマンスのためのGPU上のシストリックコンピューティング

Systolic Computing on GPUs for Productive Performance ( http://arxiv.org/abs/2010.15884v1 )

ライセンス: Link先を確認
Hongbo Rong, Xiaochen Hao, Yun Liang, Lidong Xu, Hong H Jiang, Pradeep Dubey(参考訳) 我々は,gpu上で動作する高性能なソフトウェアsystolic arrayを生産的に構築する言語とコンパイラを提案する。 厳密な数学的基礎(一様再帰方程式と時空変換)に基づいて、我々の言語は高い抽象化レベルを持ち、幅広い応用範囲をカバーする。 プログラマは、データフローのプロジェクションを線形シストリック配列に計算し、プロジェクションの詳細な実装をコンパイラに委ねる。コンパイラは指定されたプロジェクションを実装し、リニアシストリック配列をsimd実行ユニットとgpuのベクターレジスタにマップする。 このようにして、生産性とパフォーマンスは同時に達成されます。 このアプローチはループ変換、データシャッフル、ベクターレジスタの割り当てを単一のフレームワークにうまく組み合わせます。 一方、他の多くの最適化も適用できる。コンパイラは効率的なコードを生成するために最適化を一緒に構成する。 我々はそのアプローチをIntel GPUに実装した。 これはgpu上のsystolic配列を生産的に構築できる最初のシステムである。 複数の射影、任意の射影方向、線形スケジュールを許容し、実際、ほとんどのシストリック配列を表現できる。 Intel GEN9.5 GPU上での1次元と2次元の畳み込み実験では、このアプローチの汎用性や、最適な候補を見つけるための様々なシストリック設計を表現する生産性が示されている。 当社のsystolic配列は、汎用simdハードウェア上で動作する純粋にソフトウェアですが、同じ畳み込みを実行するgpuの専用ハードウェアサンプラーと比較すると、最良の設計のいくつかは最大59\%高速です。 全体として、このアプローチはGPU上で生産的なハイパフォーマンスコンピューティングを約束する。

We propose a language and compiler to productively build high-performance {\it software systolic arrays} that run on GPUs. Based on a rigorous mathematical foundation (uniform recurrence equations and space-time transform), our language has a high abstraction level and covers a wide range of applications. A programmer {\it specifies} a projection of a dataflow compute onto a linear systolic array, while leaving the detailed implementation of the projection to a compiler; the compiler implements the specified projection and maps the linear systolic array to the SIMD execution units and vector registers of GPUs. In this way, both productivity and performance are achieved in the same time. This approach neatly combines loop transformations, data shuffling, and vector register allocation into a single framework. Meanwhile, many other optimizations can be applied as well; the compiler composes the optimizations together to generate efficient code. We implemented the approach on Intel GPUs. This is the first system that allows productive construction of systolic arrays on GPUs. We allow multiple projections, arbitrary projection directions and linear schedules, which can express most, if not all, systolic arrays in practice. Experiments with 1- and 2-D convolution on an Intel GEN9.5 GPU have demonstrated the generality of the approach, and its productivity in expressing various systolic designs for finding the best candidate. Although our systolic arrays are purely software running on generic SIMD hardware, compared with the GPU's specialized, hardware samplers that perform the same convolutions, some of our best designs are up to 59\% faster. Overall, this approach holds promise for productive high-performance computing on GPUs.
翻訳日:2022-10-01 23:11:00 公開日:2020-10-29
# RuREBus: e-Government ドメインからの連名エンティティ認識と関係抽出を事例として

RuREBus: a Case Study of Joint Named Entity Recognition and Relation Extraction from e-Government Domain ( http://arxiv.org/abs/2010.15939v1 )

ライセンス: Link先を確認
Vitaly Ivanin and Ekaterina Artemova and Tatiana Batura and Vladimir Ivanov and Veronika Sarkisyan and Elena Tutubalina and Ivan Smurov(参考訳) 本稿では、国家機関が発行する文書からなる新しいコーパスに対して、名前付きエンティティ認識(NER)や関係抽出(RE)などの情報抽出手法の適用例を示す。 このコーパスの主な課題は次のとおりである。 1)アノテーションスキームは、一般ドメインコーパスで使用されるものとは大きく異なり、 2) 文書は英語以外の言語で記述されている。 期待と異なり、最先端のトランスフォーマーベースのモデルは、シーケンシャルに接近する場合やエンドツーエンドの方法で両方のタスクに控えめな性能を示している。 我々の実験は, 大規模未ラベルコーパスの微調整が自動的に大きな改善をもたらすわけではないことを実証したので, 未ラベルテキストを活用するためのより高度な戦略が求められていると結論付けることができる。 本稿では,テキストアノテーションからベースライン開発,ベースラインの改良を目的とした共有タスクの設計に至るまで,開発パイプライン全体について述べる。 最終的に、現在のNERとRE技術は決して成熟しておらず、私たちのような課題を乗り越えていないことに気づきました。

We show-case an application of information extraction methods, such as named entity recognition (NER) and relation extraction (RE) to a novel corpus, consisting of documents, issued by a state agency. The main challenges of this corpus are: 1) the annotation scheme differs greatly from the one used for the general domain corpora, and 2) the documents are written in a language other than English. Unlike expectations, the state-of-the-art transformer-based models show modest performance for both tasks, either when approached sequentially, or in an end-to-end fashion. Our experiments have demonstrated that fine-tuning on a large unlabeled corpora does not automatically yield significant improvement and thus we may conclude that more sophisticated strategies of leveraging unlabelled texts are demanded. In this paper, we describe the whole developed pipeline, starting from text annotation, baseline development, and designing a shared task in hopes of improving the baseline. Eventually, we realize that the current NER and RE technologies are far from being mature and do not overcome so far challenges like ours.
翻訳日:2022-10-01 23:10:32 公開日:2020-10-29
# 事実か事実か? 文脈化オピニオンスパム検出

Fact or Factitious? Contextualized Opinion Spam Detection ( http://arxiv.org/abs/2010.15296v1 )

ライセンス: Link先を確認
Stefan Kennedy and Niall Walsh, Kirils Sloka, Jennifer Foster, Andrew McCarren(参考訳) 本稿では,偽のオンラインレビューと偽のオンラインレビューを検知する手法を解析的に比較する。 有効であることが判明した機械学習アプローチを多数適用し、テクスチャ化された埋め込みの微調整による独自のアプローチを導入する。 その結果,偽レビュー検出のためのコンテキスト埋め込みの可能性を示し,今後の研究の基盤となるものとなった。

In this paper we perform an analytic comparison of a number of techniques used to detect fake and deceptive online reviews. We apply a number machine learning approaches found to be effective, and introduce our own approach by fine-tuning state of the art contextualised embeddings. The results we obtain show the potential of contextualised embeddings for fake review detection, and lay the groundwork for future research in this area.
翻訳日:2022-10-01 23:03:39 公開日:2020-10-29
# コンピュータビジョンとディープラーニングを用いた関節損傷の自動定量化

Automatic joint damage quantification using computer vision and deep learning ( http://arxiv.org/abs/2010.15303v1 )

ライセンス: Link先を確認
Quang Tran and Jeffery R. Roesler(参考訳) ジョイント・ラベリングやスポーリングによる損傷(ジョイント・ダメージと呼ばれる損傷)は、コンクリート舗装の安全性や長期的な性能に影響を及ぼす可能性がある。 維持作業計画の策定、維持費の予測、コンクリート舗装工事の寿命の最大化等を支援するため、経時的共同被害の評価・定量化が重要である。 ディープラーニング(DL)アルゴリズムを用いたコンピュータビジョン技術を用いて,低コストカメラによる関節損傷の高精度,自律的,迅速定量化のためのフレームワークを提案する。 DLモデルは、関節損傷を伴うワニの263枚の画像の訓練に使用される。 訓練されたDLモデルは、一連のクエリ2D画像における画素ワイドカラーマスキング関節損傷に対して使用され、モーションアルゴリズムからオープンソース構造を用いて3D画像の再構成に使用される。 カラーしきい値を用いた別の損傷定量化アルゴリズムを適用し、3D再構成画像の表面積を検出し計算する。 この枠組みの有効性は,3つの許容関節と1つの許容関節を含む米国イリノイ州の4つの横収縮関節の関節損傷を視覚検査により検査することにより検証した。 その結果、フレームワークは76%のリコールと10%のエラーを達成した。

Joint raveled or spalled damage (henceforth called joint damage) can affect the safety and long-term performance of concrete pavements. It is important to assess and quantify the joint damage over time to assist in building action plans for maintenance, predicting maintenance costs, and maximize the concrete pavement service life. A framework for the accurate, autonomous, and rapid quantification of joint damage with a low-cost camera is proposed using a computer vision technique with a deep learning (DL) algorithm. The DL model is employed to train 263 images of sawcuts with joint damage. The trained DL model is used for pixel-wise color-masking joint damage in a series of query 2D images, which are used to reconstruct a 3D image using open-source structure from motion algorithm. Another damage quantification algorithm using a color threshold is applied to detect and compute the surface area of the damage in the 3D reconstructed image. The effectiveness of the framework was validated through inspecting joint damage at four transverse contraction joints in Illinois, USA, including three acceptable joints and one unacceptable joint by visual inspection. The results show the framework achieves 76% recall and 10% error.
翻訳日:2022-10-01 23:03:34 公開日:2020-10-29
# SAR-NAS:ニューラルアーキテクチャサーチによる骨格に基づく行動認識

SAR-NAS: Skeleton-based Action Recognition via Neural Architecture Searching ( http://arxiv.org/abs/2010.15336v1 )

ライセンス: Link先を確認
Haoyuan Zhang, Yonghong Hou, Pichao Wang, Zihui Guo, Wanqing Li(参考訳) 本稿では,骨格に基づく行動認識のためのニューラルネットワークアーキテクチャの自動設計について述べる。 具体的には、骨格ベースのアクションインスタンスをテンソルにエンコードし、正常細胞と還元細胞という2種類のネットワーク細胞を構築するための一連の操作を慎重に定義する。 最近開発されたDARTS (Differentiable Architecture Search) は、2種類のセル上に構築された効率的なネットワークアーキテクチャを探索するために採用されている。 すべての操作は、全体的な計算と検索スペースを減らすために2Dベースである。 挑戦的なNTU RGB+DとKinecticsデータセットの実験では、骨格に基づく行動認識のために開発されたネットワークのほとんどは、コンパクトで効率的なものではないことが確認されている。 提案手法は,最先端の手法に比べて比較,あるいはさらに優れた性能を実現することができるコンパクトネットワークを探索する手法を提供する。

This paper presents a study of automatic design of neural network architectures for skeleton-based action recognition. Specifically, we encode a skeleton-based action instance into a tensor and carefully define a set of operations to build two types of network cells: normal cells and reduction cells. The recently developed DARTS (Differentiable Architecture Search) is adopted to search for an effective network architecture that is built upon the two types of cells. All operations are 2D based in order to reduce the overall computation and search space. Experiments on the challenging NTU RGB+D and Kinectics datasets have verified that most of the networks developed to date for skeleton-based action recognition are likely not compact and efficient. The proposed method provides an approach to search for such a compact network that is able to achieve comparative or even better performance than the state-of-the-art methods.
翻訳日:2022-10-01 23:03:14 公開日:2020-10-29
# 分類・生成におけるインクリメンタルラーニングの協調手法

Collaborative Method for Incremental Learning on Classification and Generation ( http://arxiv.org/abs/2010.15378v1 )

ライセンス: Link先を確認
Byungju Kim, Jaeyoung Lee, Kyungsu Kim, Sungjin Kim and Junmo Kim(参考訳) 十分に訓練されたディープニューラルネットワークは、多くのタスクで顕著なパフォーマンスを示しているが、前回のデータ停止が提供された追加データで学習を始めると、すぐに何を学んだかを忘れてしまう。 本稿では,ニューラルネットワークを用いたインクリメンタルなクラス学習のための新しいアルゴリズム,Incrmental Class Learning with Attribute Sharing (ICLAS)を提案する。 また,その構成要素の一つとして,トレーニングデータに比較して多彩な画像を生成する生成モデルincGANを導入する。 データ不足の困難な環境下で、ICLASは段階的に分類と生成ネットワークを訓練する。 ICLASは両方のネットワークを訓練するため、アルゴリズムはインクリメンタルなクラス学習を複数回行うことができる。 mnistデータセットを用いた実験により,本アルゴリズムの利点を示す。

Although well-trained deep neural networks have shown remarkable performance on numerous tasks, they rapidly forget what they have learned as soon as they begin to learn with additional data with the previous data stop being provided. In this paper, we introduce a novel algorithm, Incremental Class Learning with Attribute Sharing (ICLAS), for incremental class learning with deep neural networks. As one of its component, we also introduce a generative model, incGAN, which can generate images with increased variety compared with the training data. Under challenging environment of data deficiency, ICLAS incrementally trains classification and the generation networks. Since ICLAS trains both networks, our algorithm can perform multiple times of incremental class learning. The experiments on MNIST dataset demonstrate the advantages of our algorithm.
翻訳日:2022-10-01 23:03:00 公開日:2020-10-29
# バイオインスパイア視覚センサの動的リソース・アウェア・コーナー検出

Dynamic Resource-aware Corner Detection for Bio-inspired Vision Sensors ( http://arxiv.org/abs/2010.15507v1 )

ライセンス: Link先を確認
Sherif A.S. Mohamed, Jawad N. Yasin, Mohammad-hashem Haghbayan, Antonio Miele, Jukka Heikkonen, Hannu Tenhunen, and Juha Plosila(参考訳) イベントベースのカメラは、低レイテンシと超低消費電力で輝度変化のみを送信する視覚デバイスである。 このような特徴により、イベントベースのカメラは、リソース制約されたシステムのローカライゼーションやオブジェクトトラッキングの分野で魅力的なものとなる。 このようなカメラで発生するイベントの数は膨大であるため、入ってくるイベントの選択とフィルタリングは、特徴の精度の向上と計算負荷の低減の両方から有益である。 本稿では,組込みシステム上でリアルタイムにイベントストリームから非同期コーナーを検出するアルゴリズムを提案する。 このアルゴリズムはThree Layer Filtering-Harris または TLF-Harris アルゴリズムと呼ばれる。 このアルゴリズムは、目的のイベントのフィルタリング戦略に基づいている。 1)入ってくるイベント、すなわちノイズを意図的に除去して精度を高めること 2)不必要なイベントを少ない精度の損失で破棄することにより、毎秒の入力イベントの点で一定のスループットを保ちながら、システムのリアルタイム性能を向上させる。 Harrisアルゴリズムの近似は、組み込みコンピューティングプラットフォーム上でシームレスなリアルタイムパフォーマンスを実現するために、その高品質な検出能力を低複雑さの実装で活用するために使用される。 提案アルゴリズムは, 近隣住民の最適なコーナー候補を選択することができ, 従来のハリススコアと比較して, 平均実行時間を59パーセント削減できる。 さらに,実時間性能ではefast,eharris,fa-harrisといった競合する手法を上回り,精度ではarc*を上回っている。

Event-based cameras are vision devices that transmit only brightness changes with low latency and ultra-low power consumption. Such characteristics make event-based cameras attractive in the field of localization and object tracking in resource-constrained systems. Since the number of generated events in such cameras is huge, the selection and filtering of the incoming events are beneficial from both increasing the accuracy of the features and reducing the computational load. In this paper, we present an algorithm to detect asynchronous corners from a stream of events in real-time on embedded systems. The algorithm is called the Three Layer Filtering-Harris or TLF-Harris algorithm. The algorithm is based on an events' filtering strategy whose purpose is 1) to increase the accuracy by deliberately eliminating some incoming events, i.e., noise, and 2) to improve the real-time performance of the system, i.e., preserving a constant throughput in terms of input events per second, by discarding unnecessary events with a limited accuracy loss. An approximation of the Harris algorithm, in turn, is used to exploit its high-quality detection capability with a low-complexity implementation to enable seamless real-time performance on embedded computing platforms. The proposed algorithm is capable of selecting the best corner candidate among neighbors and achieves an average execution time savings of 59 % compared with the conventional Harris score. Moreover, our approach outperforms the competing methods, such as eFAST, eHarris, and FA-Harris, in terms of real-time performance, and surpasses Arc* in terms of accuracy.
翻訳日:2022-10-01 23:02:27 公開日:2020-10-29
# デービスカメラのイベントライフタイムに基づく非同期コーナートラッキングアルゴリズム

Asynchronous Corner Tracking Algorithm based on Lifetime of Events for DAVIS Cameras ( http://arxiv.org/abs/2010.15510v1 )

ライセンス: Link先を確認
Sherif A.S. Mohamed, Jawad N. Yasin, Mohammad-Hashem Haghbayan, Antonio Miele, Jukka Heikkonen, Hannu Tenhunen, and Juha Plosila(参考訳) イベントカメラ、すなわち動的およびアクティブなピクセルビジョンセンサ(davis)は、シーンの強度変化をキャプチャし、非同期にイベントストリームを生成する。 このようなカメラの出力速度は、高ダイナミックな環境で毎秒最大1000万イベントに達することができる。 DAVISカメラは人間の眼を模倣する新しい視覚センサーを使用している。 高い出力率、高ダイナミックレンジ(hdr)、高画素帯域といった魅力的な特性は、高周波トラッキングを必要とするアプリケーションにとって理想的なソリューションである。 さらに、挑戦的な照明シナリオで動作するアプリケーションは、従来の60dBのカメラと比較して、イベントカメラの高HDR、すなわち140dBを利用することができる。 本稿では,DAVISカメラで撮影したイベントと強度画像の両方を利用した,非同期コーナー追跡手法を提案する。 harrisアルゴリズムは、キーフレーム、すなわちインテンシティ画像からフレームコーンなどの特徴を抽出するために使用される。 その後、マッチングアルゴリズムを使用してイベントストリームからイベントコーンを抽出する。 イベントは、次のキーフレームがキャプチャされるまで非同期トラッキングを実行するためにのみ使用される。 ランダム化ハフ変換アルゴリズムを用いて2次元平面を適合させることにより、抽出されたイベントコーナの速度と方向を計算するために、イベントコーナ周辺のウィンドウサイズ5x5ピクセル内の隣接イベントを用いる。 実験評価の結果,従来型カメラのブラインド時間,すなわち連続した2つの強度画像間において,抽出したコーナーの位置を100倍まで更新できることがわかった。

Event cameras, i.e., the Dynamic and Active-pixel Vision Sensor (DAVIS) ones, capture the intensity changes in the scene and generates a stream of events in an asynchronous fashion. The output rate of such cameras can reach up to 10 million events per second in high dynamic environments. DAVIS cameras use novel vision sensors that mimic human eyes. Their attractive attributes, such as high output rate, High Dynamic Range (HDR), and high pixel bandwidth, make them an ideal solution for applications that require high-frequency tracking. Moreover, applications that operate in challenging lighting scenarios can exploit the high HDR of event cameras, i.e., 140 dB compared to 60 dB of traditional cameras. In this paper, a novel asynchronous corner tracking method is proposed that uses both events and intensity images captured by a DAVIS camera. The Harris algorithm is used to extract features, i.e., frame-corners from keyframes, i.e., intensity images. Afterward, a matching algorithm is used to extract event-corners from the stream of events. Events are solely used to perform asynchronous tracking until the next keyframe is captured. Neighboring events, within a window size of 5x5 pixels around the event-corner, are used to calculate the velocity and direction of extracted event-corners by fitting the 2D planar using a randomized Hough transform algorithm. Experimental evaluation showed that our approach is able to update the location of the extracted corners up to 100 times during the blind time of traditional cameras, i.e., between two consecutive intensity images.
翻訳日:2022-10-01 23:02:05 公開日:2020-10-29
# 基本行列推定のためのエンドツーエンドネットワークアーキテクチャ

An End to End Network Architecture for Fundamental Matrix Estimation ( http://arxiv.org/abs/2010.15528v1 )

ライセンス: Link先を確認
Yesheng Zhang, Xu Zhao, Dahong Qian(参考訳) 本稿では,ステレオ画像から直接基本行列を推定する新しいエンドツーエンドネットワークアーキテクチャを提案する。 完全な作業パイプラインを確立するために、画像内の対応を見つけ、外乱の拒絶を行い、基本行列を計算する異なるディープニューラルネットワークをエンドツーエンドネットワークアーキテクチャに統合する。 ネットワークをうまくトレーニングし、基本行列の幾何学的性質を保存するために、新しい損失関数を導入する。 推定基本行列の精度をより合理的に評価するため,可視化結果と高度に整合した新しい評価指標を考案する。 屋外および屋内のデータセットで行った実験により、このネットワークは従来の手法や、様々なメトリクスに基づく従来のディープラーニング手法よりも優れており、大幅な性能向上を実現していることが示された。

In this paper, we present a novel end-to-end network architecture to estimate fundamental matrix directly from stereo images. To establish a complete working pipeline, different deep neural networks in charge of finding correspondences in images, performing outlier rejection and calculating fundamental matrix, are integrated into an end-to-end network architecture. To well train the network and preserve geometry properties of fundamental matrix, a new loss function is introduced. To evaluate the accuracy of estimated fundamental matrix more reasonably, we design a new evaluation metric which is highly consistent with visualization result. Experiments conducted on both outdoor and indoor data-sets show that this network outperforms traditional methods as well as previous deep learning based methods on various metrics and achieves significant performance improvements.
翻訳日:2022-10-01 23:01:42 公開日:2020-10-29
# グループ化と自己認識による誤ラベルデータの抑制

Suppressing Mislabeled Data via Grouping and Self-Attention ( http://arxiv.org/abs/2010.15603v1 )

ライセンス: Link先を確認
Xiaojiang Peng, Kai Wang, Zhaoyang Zeng, Qing Li, Jianfei Yang and Yu Qiao(参考訳) ディープネットワークは大規模クリーンデータに対して優れた結果を得るが、ノイズラベルから学習すると著しく劣化する。 誤ラベルデータの影響を抑えるため,本論文では,よりクリーンなサンプルに注意を払って,小さなグループでのサンプルインタラクションによる誤ラベルデータを減らすことを目的とした,概念的にシンプルで効率的なトレーニングブロック(AFM)を提案する。 具体的には、このプラグ・アンド・プレイ afm はまず \textit{group-to-attend} モジュールを利用してグループを構築し、グループ毎のサンプルに対して注意重みを割り当て、その後、注目重みを持つ \textit{mixup} モジュールを使用して巨大なノイズ抑制サンプルを補間する。 AFMはノイズロスト深層学習にいくつかの魅力的な利点がある。 (i)いかなる仮定や余分なクリーン部分集合にも依存しない。 (ii) 大量の補間により, 無用試料の比は, 従来の雑音比に比べて劇的に減少する。 (iii) \pxj{It は分類器との補間重みを協調的に最適化し、低注意重みによる誤ラベルデータの影響を抑える。 (iv)ミックスアップのリスク最小化を部分的に継承し、過剰フィッティングを緩和するとともに、ミックスアップビクタス分布から誤ラベルデータ周辺の特徴量ベクトルをサンプリングすることで改善する。 大規模な実験により、AFMは2つの挑戦的な実世界のノイズデータセットであるFood101NとCloting1Mに対して、最先端の結果が得られることが示された。 コードはhttps://github.com/kaiwang960112/AFMで入手できる。

Deep networks achieve excellent results on large-scale clean data but degrade significantly when learning from noisy labels. To suppressing the impact of mislabeled data, this paper proposes a conceptually simple yet efficient training block, termed as Attentive Feature Mixup (AFM), which allows paying more attention to clean samples and less to mislabeled ones via sample interactions in small groups. Specifically, this plug-and-play AFM first leverages a \textit{group-to-attend} module to construct groups and assign attention weights for group-wise samples, and then uses a \textit{mixup} module with the attention weights to interpolate massive noisy-suppressed samples. The AFM has several appealing benefits for noise-robust deep learning. (i) It does not rely on any assumptions and extra clean subset. (ii) With massive interpolations, the ratio of useless samples is reduced dramatically compared to the original noisy ratio. (iii) \pxj{It jointly optimizes the interpolation weights with classifiers, suppressing the influence of mislabeled data via low attention weights. (iv) It partially inherits the vicinal risk minimization of mixup to alleviate over-fitting while improves it by sampling fewer feature-target vectors around mislabeled data from the mixup vicinal distribution.} Extensive experiments demonstrate that AFM yields state-of-the-art results on two challenging real-world noisy datasets: Food101N and Clothing1M. The code will be available at https://github.com/kaiwang960112/AFM.
翻訳日:2022-10-01 23:01:28 公開日:2020-10-29
# 「この関係はどこへ向かっているのか?」--ナラティブテキストにおける関係軌跡の理解

"where is this relationship going?": Understanding Relationship Trajectories in Narrative Text ( http://arxiv.org/abs/2010.15313v1 )

ライセンス: Link先を確認
Keen You and Dan Goldwasser(参考訳) 2人の主人公を中心にした社会的相互作用を記述した物語を考えると、システムは基礎となる関係の軌跡について推測する。 具体的には,関係見通し予測MCQと解像度予測MCQの2つの評価課題を提案する。 関係見通し予測では、システムは相互作用を関係見通しにマッピングし、相互作用が関係をどのように変化させると見込まれるかをキャプチャする。 解決予測では、システムは与えられた関係の見通しを結果を説明する特定の解決に分類する。 これらの2つのタスクは、人々が異なる社会的状況をナビゲートするときによく考える2つの現実的な質問と並行して行われる。 これら2つのタスクによる人間関係の調査を容易にするために、日々の交流を文書化した1250のストーリーからなる新しいデータセット、Social Narrative Treeを構築した。 物語は、社会的相互作用に関して関係がどのように進化するかについての豊富な常識的知識を生み出すために織り交ぜられる様々な社会的要素を包含している。 言語モデルを用いてベースライン性能を確立し,その精度は人的性能よりも著しく低い。 その結果, 複雑な人間関係を理解するためには, モデルが構文的, 意味的シグナル以上のものを探す必要があることがわかった。

We examine a new commonsense reasoning task: given a narrative describing a social interaction that centers on two protagonists, systems make inferences about the underlying relationship trajectory. Specifically, we propose two evaluation tasks: Relationship Outlook Prediction MCQ and Resolution Prediction MCQ. In Relationship Outlook Prediction, a system maps an interaction to a relationship outlook that captures how the interaction is expected to change the relationship. In Resolution Prediction, a system attributes a given relationship outlook to a particular resolution that explains the outcome. These two tasks parallel two real-life questions that people frequently ponder upon as they navigate different social situations: "where is this relationship going?" and "how did we end up here?". To facilitate the investigation of human social relationships through these two tasks, we construct a new dataset, Social Narrative Tree, which consists of 1250 stories documenting a variety of daily social interactions. The narratives encode a multitude of social elements that interweave to give rise to rich commonsense knowledge of how relationships evolve with respect to social interactions. We establish baseline performances using language models and the accuracies are significantly lower than human performance. The results demonstrate that models need to look beyond syntactic and semantic signals to comprehend complex human relationships.
翻訳日:2022-10-01 22:54:37 公開日:2020-10-29
# 教師なし拡散検出のための自己学習と自己監視学習の組み合わせ

Combining Self-Training and Self-Supervised Learning for Unsupervised Disfluency Detection ( http://arxiv.org/abs/2010.15360v1 )

ライセンス: Link先を確認
Shaolei Wang, Zhongyuan Wang, Wanxiang Che, Ting Liu(参考訳) 既存のディフルエンシ検出のアプローチのほとんどは、実際に入手するのにコストがかかる人アノテーション付きコーパスに大きく依存している。 この問題を軽減するために、例えば、自己教師付き学習技術でいくつかの提案がなされているが、それでも人間の注釈付きコーパスが必要である。 本研究では,より安価で入手が容易なラベル付きテキストコーパスを扱うことが可能な教師なし学習パラダイムについて検討する。 私たちのモデルは,自己学習の考え方を拡張する半教師付き学習アプローチである,ノイズの多い学生トレーニングに関する最近の研究に基づいている。 一般的な英語Switchboardテストセットを用いた実験結果から,従来の文脈型単語埋め込み (BERT や ELECTRA など) を用いた最先端教師システムと比較して,本手法は競争性能が向上することが示された。

Most existing approaches to disfluency detection heavily rely on human-annotated corpora, which is expensive to obtain in practice. There have been several proposals to alleviate this issue with, for instance, self-supervised learning techniques, but they still require human-annotated corpora. In this work, we explore the unsupervised learning paradigm which can potentially work with unlabeled text corpora that are cheaper and easier to obtain. Our model builds upon the recent work on Noisy Student Training, a semi-supervised learning approach that extends the idea of self-training. Experimental results on the commonly used English Switchboard test set show that our approach achieves competitive performance compared to the previous state-of-the-art supervised systems using contextualized word embeddings (e.g. BERT and ELECTRA).
翻訳日:2022-10-01 22:54:14 公開日:2020-10-29
# tilde at wmt 2020: news task systems (英語)

Tilde at WMT 2020: News Task Systems ( http://arxiv.org/abs/2010.15423v1 )

ライセンス: Link先を確認
Rihards Kri\v{s}lauks, M\=arcis Pinnis(参考訳) 本稿では,TildeがWMT2020に投稿した英語とポーランド語の両方の方向のニュース翻訳タスクについて,制約付きトラックと制約なしトラックの両方で記述する。 マリアン機械翻訳ツールキットを用いて学習するサブワード単位ベースのトランスフォーマーモデルとして,前年からの提出を追従し,形態的動機付けによる基本システムを構築した。 さらに、異なる並列および単言語データ選択スキームを実験し、サンプル化バックトランスレーションを行った。 最終モデルはTransformerベースとTransformerビッグモデルのアンサンブルで、左右に並べ替えられる。

This paper describes Tilde's submission to the WMT2020 shared task on news translation for both directions of the English-Polish language pair in both the constrained and the unconstrained tracks. We follow our submissions from the previous years and build our baseline systems to be morphologically motivated sub-word unit-based Transformer base models that we train using the Marian machine translation toolkit. Additionally, we experiment with different parallel and monolingual data selection schemes, as well as sampled back-translation. Our final models are ensembles of Transformer base and Transformer big models that feature right-to-left re-ranking.
翻訳日:2022-10-01 22:53:47 公開日:2020-10-29
# memory attentive fusion:transformer-based sequence-to-sequence modelのための外部言語モデルの統合

Memory Attentive Fusion: External Language Model Integration for Transformer-based Sequence-to-Sequence Model ( http://arxiv.org/abs/2010.15437v1 )

ライセンス: Link先を確認
Mana Ihori, Ryo Masumura, Naoki Makishima, Tomohiro Tanaka, Akihiko Takashima, Shota Orihashi(参考訳) 本稿では,外部言語モデル(lm)をトランスフォーマティブ・シーケンス・ツー・シーケンス(seq2seq)モデルに統合する新しい融合手法を提案する。 ペアデータには基本的にseq2seqモデルのトレーニングが必要となるが、外部lmはペアデータのみを使用してトレーニングすることができる。 したがって、大量のペアデータを作成することが困難であるため、seq2seqモデルを構築するために外部lmに記憶された知識を活用することが重要である。 しかし、既存の融合手法では、lmはトランスフォーマーの代わりにリカレントニューラルネットワークベースのseq2seqモデルと統合されていると仮定している。 そこで本稿では,トランスのネットワーク構造を明示的に活用できる融合手法を提案する。 提案手法は {\bf memory attentive fusion} と呼ばれ、lm で記憶された知識を読み取るために、ソースターゲットの注意をマルチホップ方式で繰り返すトランスフォーマー型の注意機構を利用する。 2つのテキスト変換タスクにおける実験により,提案手法が従来の融合法よりも優れた性能を示す。

This paper presents a novel fusion method for integrating an external language model (LM) into the Transformer based sequence-to-sequence (seq2seq) model. While paired data are basically required to train the seq2seq model, the external LM can be trained with only unpaired data. Thus, it is important to leverage memorized knowledge in the external LM for building the seq2seq model, since it is hard to prepare a large amount of paired data. However, the existing fusion methods assume that the LM is integrated with recurrent neural network-based seq2seq models instead of the Transformer. Therefore, this paper proposes a fusion method that can explicitly utilize network structures in the Transformer. The proposed method, called {\bf memory attentive fusion}, leverages the Transformer-style attention mechanism that repeats source-target attention in a multi-hop manner for reading the memorized knowledge in the LM. Our experiments on two text-style conversion tasks demonstrate that the proposed method performs better than conventional fusion methods.
翻訳日:2022-10-01 22:53:39 公開日:2020-10-29
# 意味的拡張を伴うソーシャルメディアテキストに対する名前付きエンティティ認識

Named Entity Recognition for Social Media Texts with Semantic Augmentation ( http://arxiv.org/abs/2010.15458v1 )

ライセンス: Link先を確認
Yuyang Nie, Yuanhe Tian, Xiang Wan, Yan Song, and Bo Dai(参考訳) 名前付きエンティティ認識の既存のアプローチは、短いテキストや非公式なテキスト、特にユーザー生成のソーシャルメディアコンテンツで実行される場合、データのスパーシティの問題に苦しむ。 セマンティック拡張はこの問題を緩和する潜在的方法である。 リッチな意味情報は、事前訓練された単語の埋め込みで暗黙的に保存されているので、セマンティック拡張のための潜在的理想的なリソースである。 本稿では,NERの局所的(実行中のテキストから)と拡張的セマンティクスを考慮に入れたソーシャルメディアテキストに対するニューラルベースアプローチを提案する。 特に,大規模コーパスから拡張された意味情報を取得し,これら情報をエンコードし集約するための注意的意味拡張モジュールとゲートモジュールを提案する。 英語と中国語のソーシャルメディアプラットフォームから収集した3つのベンチマークデータセットで広範な実験を行い,この3つのデータセットすべてにおいて,これまでの研究よりも優れたアプローチを示す。

Existing approaches for named entity recognition suffer from data sparsity problems when conducted on short and informal texts, especially user-generated social media content. Semantic augmentation is a potential way to alleviate this problem. Given that rich semantic information is implicitly preserved in pre-trained word embeddings, they are potential ideal resources for semantic augmentation. In this paper, we propose a neural-based approach to NER for social media texts where both local (from running text) and augmented semantics are taken into account. In particular, we obtain the augmented semantic information from a large-scale corpus, and propose an attentive semantic augmentation module and a gate module to encode and aggregate such information, respectively. Extensive experiments are performed on three benchmark datasets collected from English and Chinese social media platforms, where the results demonstrate the superiority of our approach to previous studies across all three datasets.
翻訳日:2022-10-01 22:53:21 公開日:2020-10-29
# 構文情報の注意アンサンブルによる名前付きエンティティ認識の改善

Improving Named Entity Recognition with Attentive Ensemble of Syntactic Information ( http://arxiv.org/abs/2010.15466v1 )

ライセンス: Link先を確認
Yuyang Nie, Yuanhe Tian, Yan Song, Xiang Ao, and Xiang Wan(参考訳) 名前付きエンティティ認識(ner)は、センテンシャル構文やセマンティクスプロパティに非常に敏感であり、エンティティは、使用する方法に従って抽出され、実行中のテキストに置かれる。 そのような特性をモデル化するためには、NERタスクに有用な知識を提供するために既存のリソースを頼りにすることができる。 本稿では,提案したキー値メモリネットワーク,構文注意,およびこのような構文情報の符号化,重み付け,集約を行うゲート機構によって機能する,暗黙のアンサンブルを通じて,異なるタイプの構文情報を活用することにより,NERを改善する。 6つの英語と中国語のベンチマークデータセットにおける実験結果から,提案モデルの有効性が示唆された。

Named entity recognition (NER) is highly sensitive to sentential syntactic and semantic properties where entities may be extracted according to how they are used and placed in the running text. To model such properties, one could rely on existing resources to providing helpful knowledge to the NER task; some existing studies proved the effectiveness of doing so, and yet are limited in appropriately leveraging the knowledge such as distinguishing the important ones for particular context. In this paper, we improve NER by leveraging different types of syntactic information through attentive ensemble, which functionalizes by the proposed key-value memory networks, syntax attention, and the gate mechanism for encoding, weighting and aggregating such syntactic information, respectively. Experimental results on six English and Chinese benchmark datasets suggest the effectiveness of the proposed model and show that it outperforms previous studies on all experiment datasets.
翻訳日:2022-10-01 22:53:06 公開日:2020-10-29
# WMT20メトリクス共有タスクにおけるUnbabelの参加

Unbabel's Participation in the WMT20 Metrics Shared Task ( http://arxiv.org/abs/2010.15535v1 )

ライセンス: Link先を確認
Ricardo Rei, Craig Stewart, Catarina Farinha, Alon Lavie(参考訳) 我々は、メトリクスに関するwmt 2020共有タスクに対するunbabelチームの貢献について紹介する。 我々は、すべての言語ペアのセグメントレベル、ドキュメントレベル、システムレベルトラック、および'QE as a Metric'トラックに参加するつもりです。 そこで本研究では,前年度のテストセットを参考に,これらのトラックにおけるモデル結果について述べる。 我々は、複数の推定モデルを訓練して、異なる人間の生成した品質スコアと、直接評価から得られた相対的なランクで訓練された新しいランキングモデルを構築します。 また,セグメントレベルの予測を文書レベルのスコアに変換するための簡易な手法を提案する。 全体として、我々のシステムは以前のテストセットで全ての言語ペアに対して強い結果を得られる。

We present the contribution of the Unbabel team to the WMT 2020 Shared Task on Metrics. We intend to participate on the segment-level, document-level and system-level tracks on all language pairs, as well as the 'QE as a Metric' track. Accordingly, we illustrate results of our models in these tracks with reference to test sets from the previous year. Our submissions build upon the recently proposed COMET framework: We train several estimator models to regress on different human-generated quality scores and a novel ranking model trained on relative ranks obtained from Direct Assessments. We also propose a simple technique for converting segment-level predictions into a document-level score. Overall, our systems achieve strong results for all language pairs on previous test sets and in many cases set a new state-of-the-art.
翻訳日:2022-10-01 22:52:50 公開日:2020-10-29
# 誰に電話してもよろしいですか。 プライバシ法コンプライアンスのためのコールセンター文字のエンティティ認識

May I Ask Who's Calling? Named Entity Recognition on Call Center Transcripts for Privacy Law Compliance ( http://arxiv.org/abs/2010.15598v1 )

ライセンス: Link先を確認
Micaela Kaplan(参考訳) ユーザ生成テキストの新しいタイプであるコールセンター会話における名前付きエンティティ認識を用いて検討する。 これらの会話は、自然発話から会話自動音声認識の新たな問題、不正確な認識を含む問題、および騒がしいユーザー生成テキストからの他の一般的な問題とを組み合わせる。 新しいアノテーションと独自のコーパスを使用して、カスタムコンテキスト文字列の埋め込みをトレーニングし、BiLSTM-CRFを適用して、新しいタスクで最先端の結果とマッチングする。

We investigate using Named Entity Recognition on a new type of user-generated text: a call center conversation. These conversations combine problems from spontaneous speech with problems novel to conversational Automated Speech Recognition, including incorrect recognition, alongside other common problems from noisy user-generated text. Using our own corpus with new annotations, training custom contextual string embeddings, and applying a BiLSTM-CRF, we match state-of-the-art results on our novel task.
翻訳日:2022-10-01 22:52:37 公開日:2020-10-29
# コンテキストBERT:グローバルステートを用いた言語モデルの条件付け

Contextual BERT: Conditioning the Language Model Using a Global State ( http://arxiv.org/abs/2010.15778v1 )

ライセンス: Link先を確認
Timo I. Denk and Ana Peleteiro Ramallo(参考訳) BERTは人気のある言語モデルであり、主要な事前学習タスクは空白を埋めること、すなわち残りの単語に基づいて文から隠された単語を予測することである。 しかし、いくつかのアプリケーションでは、追加のコンテキストを持つことによって、ドメインや書き込みの時間を考慮して、モデルが正しい予測を行うのに役立つ。 これは、固定サイズのコンテキストに条件付けのためのグローバルステートを追加することで、BERTアーキテクチャを前進させる動機となります。 2つの新しいアプローチを示し、それを業界ユースケースに適用し、特定の顧客を前提とした、不足した記事でファッション衣装を完成させる。 文献による他の手法との比較により,本手法はパーソナライズを著しく向上させることが示された。

BERT is a popular language model whose main pre-training task is to fill in the blank, i.e., predicting a word that was masked out of a sentence, based on the remaining words. In some applications, however, having an additional context can help the model make the right prediction, e.g., by taking the domain or the time of writing into account. This motivates us to advance the BERT architecture by adding a global state for conditioning on a fixed-sized context. We present our two novel approaches and apply them to an industry use-case, where we complete fashion outfits with missing articles, conditioned on a specific customer. An experimental comparison to other methods from the literature shows that our methods improve personalization significantly.
翻訳日:2022-10-01 22:52:27 公開日:2020-10-29
# STEMシミュレーションにおける画像間変換のための生成逆ネットワークの探索

Exploring Generative Adversarial Networks for Image-to-Image Translation in STEM Simulation ( http://arxiv.org/abs/2010.15315v1 )

ライセンス: Link先を確認
Nick Lawrence, Mingren Shen, Ruiqi Yin, Cloris Feng, Dane Morgan(参考訳) 正確な走査透過電子顕微鏡(STEM)画像シミュレーション法を使用するには、多くの画像のシミュレーションに使用できないような計算時間を必要とする。 畳み込み法のような線形イメージングモデルに基づく他のシミュレーション手法ははるかに高速であるが、応用には不正確である。 本稿では,畳み込み法により生成されたSTEM画像を高精度なマルチスライス画像の予測に変換しようとする深層学習モデルについて検討する。 そして、その結果を回帰法と比較する。 ディープラーニングモデルを用いたGAN(Generative Adversarial Network)では,最適な結果が得られ,同一データセット上の従来の回帰モデルと同等の精度で処理できることがわかった。 このプロジェクトのコードとデータは、GitHubリポジトリhttps://github.com/uw-cmg/GAN-STEM-Conv2MultiSliceにある。

The use of accurate scanning transmission electron microscopy (STEM) image simulation methods require large computation times that can make their use infeasible for the simulation of many images. Other simulation methods based on linear imaging models, such as the convolution method, are much faster but are too inaccurate to be used in application. In this paper, we explore deep learning models that attempt to translate a STEM image produced by the convolution method to a prediction of the high accuracy multislice image. We then compare our results to those of regression methods. We find that using the deep learning model Generative Adversarial Network (GAN) provides us with the best results and performs at a similar accuracy level to previous regression models on the same dataset. Codes and data for this project can be found in this GitHub repository, https://github.com/uw-cmg/GAN-STEM-Conv2MultiSlice.
翻訳日:2022-10-01 22:46:14 公開日:2020-10-29
# 衛星画像からの教師なし特徴抽出による安全な交差点設計

Identifying safe intersection design through unsupervised feature extraction from satellite imagery ( http://arxiv.org/abs/2010.15343v1 )

ライセンス: Link先を確認
Jasper S. Wijnands, Haifeng Zhao, Kerry A. Nice, Jason Thompson, Katherine Scully, Jingqiu Guo, Mark Stevenson(参考訳) 世界保健機関(WHO)は、より安全な交差点の設計を、世界の道路トラウマを減らす重要な介入として挙げている。 本稿では,大国におけるすべての交差点の設計を,航空画像と深層学習に基づいて体系的に解析した最初の研究である。 およそ90万枚の衛星画像がオーストラリアのすべての交差点でダウンロードされ、道路インフラを強調したコンピュータビジョン技術がカスタマイズされた。 ディープオートエンコーダは、交差点のタイプ、サイズ、形状、レーンマーキング、および同様の設計をクラスタリングするために使用される複雑さなど、高いレベルの特徴を抽出した。 オーストラリアのテレマティクス・データセットは、6億6600万kmの走行中に収集された運転行動とインフラ設計を関連付けている。 これは、4方向以上の交差点でのより頻繁なハードアクセラレーションイベント(車両毎)、T区間での比較的低いハード減速頻度、ラウンドアバウンドにおける平均速度が一貫して低いことを示した。 全体として、ドメイン固有の特徴抽出により、より安全な運転行動につながるインフラストラクチャの改善の特定が可能になり、道路トラウマの低減が期待できる。

The World Health Organization has listed the design of safer intersections as a key intervention to reduce global road trauma. This article presents the first study to systematically analyze the design of all intersections in a large country, based on aerial imagery and deep learning. Approximately 900,000 satellite images were downloaded for all intersections in Australia and customized computer vision techniques emphasized the road infrastructure. A deep autoencoder extracted high-level features, including the intersection's type, size, shape, lane markings, and complexity, which were used to cluster similar designs. An Australian telematics data set linked infrastructure design to driving behaviors captured during 66 million kilometers of driving. This showed more frequent hard acceleration events (per vehicle) at four- than three-way intersections, relatively low hard deceleration frequencies at T-intersections, and consistently low average speeds on roundabouts. Overall, domain-specific feature extraction enabled the identification of infrastructure improvements that could result in safer driving behaviors, potentially reducing road trauma.
翻訳日:2022-10-01 22:45:58 公開日:2020-10-29
# FlatNet:レンズレス計測による光リアルなシーン再構築を目指して

FlatNet: Towards Photorealistic Scene Reconstruction from Lensless Measurements ( http://arxiv.org/abs/2010.15440v1 )

ライセンス: Link先を確認
Salman S. Khan, Varun Sundar, Vivek Boominathan, Ashok Veeraraghavan, and Kaushik Mitra(参考訳) レンズレスイメージングは、従来のカメラでかさばるレンズを駆使して超小型カメラを実現するための潜在的な解決策として登場した。 フォーカスレンズがなければ、レンズレスカメラは多重測定からシーンを復元するために計算アルゴリズムに依存する。 しかし、現在の反復最適化に基づく再構成アルゴリズムは、ノイズや知覚的に劣る画像を生成する。 本研究では,レンズレス再構成における画像品質の大幅な向上を図った非定位深層学習に基づく再構成手法を提案する。 当社のアプローチは$\textit{flatnet}$と呼ばれ、マスクベースのレンズレスカメラから高品質なフォトリアリスティック画像を再構成するための枠組みを作り上げています。 フラットネットは,(1)前方モデルの定式化における学習パラメータによる中間再構成の空間に計測をマッピングする反転段階と,(2)この中間再構成の知覚的品質を改善する知覚的拡張段階とからなる。 これらの段階はエンドツーエンドで一緒に訓練される。 2種類のレンズレスプロトタイプ(分離可能な前方モデルと、より一般的な分離不能なクロッピング畳み込みモデル)を用いて、実物および挑戦的なシーンを広範囲に実験することにより、高品質な再構成を示す。 私たちのエンドツーエンドのアプローチは高速で、フォトリアリスティックな再構築を実現し、他のマスクベースのレンズレスカメラにも容易に適用できます。

Lensless imaging has emerged as a potential solution towards realizing ultra-miniature cameras by eschewing the bulky lens in a traditional camera. Without a focusing lens, the lensless cameras rely on computational algorithms to recover the scenes from multiplexed measurements. However, the current iterative-optimization-based reconstruction algorithms produce noisier and perceptually poorer images. In this work, we propose a non-iterative deep learning based reconstruction approach that results in orders of magnitude improvement in image quality for lensless reconstructions. Our approach, called $\textit{FlatNet}$, lays down a framework for reconstructing high-quality photorealistic images from mask-based lensless cameras, where the camera's forward model formulation is known. FlatNet consists of two stages: (1) an inversion stage that maps the measurement into a space of intermediate reconstruction by learning parameters within the forward model formulation, and (2) a perceptual enhancement stage that improves the perceptual quality of this intermediate reconstruction. These stages are trained together in an end-to-end manner. We show high-quality reconstructions by performing extensive experiments on real and challenging scenes using two different types of lensless prototypes: one which uses a separable forward model and another, which uses a more general non-separable cropped-convolution model. Our end-to-end approach is fast, produces photorealistic reconstructions, and is easy to adopt for other mask-based lensless cameras.
翻訳日:2022-10-01 22:45:21 公開日:2020-10-29
# ビデオ物体検出のためのリカレントニューラルネットワーク

Recurrent Neural Networks for video object detection ( http://arxiv.org/abs/2010.15740v1 )

ライセンス: Link先を確認
Ahmad B Qasim, Arnd Pettirsch(参考訳) 画像中の物体検出には多くの科学的研究がある。 例えば、自律運転のような多くのアプリケーションでは、分類が必要な実際のデータはビデオである。 この研究は異なる方法、特にビデオ内のオブジェクトを検出するためにリカレントニューラルネットワークを使用するものを比較する。 我々は,異なるフレームの特徴マップをリカレントユニットに供給する特徴ベース手法と,リカレントユニットにクラス確率を持つバウンディングボックスをリカレントユニットに供給するボックスレベル手法と,フローネットワークを使用するメソッドとを区別する。 本研究は、時間的文脈をオブジェクト検出に含め、映像オブジェクト検出ネットワークの結論とガイドラインを述べるなど、比較手法の一般的な結果を示す。

There is lots of scientific work about object detection in images. For many applications like for example autonomous driving the actual data on which classification has to be done are videos. This work compares different methods, especially those which use Recurrent Neural Networks to detect objects in videos. We differ between feature-based methods, which feed feature maps of different frames into the recurrent units, box-level methods, which feed bounding boxes with class probabilities into the recurrent units and methods which use flow networks. This study indicates common outcomes of the compared methods like the benefit of including the temporal context into object detection and states conclusions and guidelines for video object detection networks.
翻訳日:2022-10-01 22:44:40 公開日:2020-10-29
# ディープニューラルネットワークにおける関連ニューロンの状態は、敵の攻撃を検出する指標となるか?

Can the state of relevant neurons in a deep neural networks serve as indicators for detecting adversarial attacks? ( http://arxiv.org/abs/2010.15974v1 )

ライセンス: Link先を確認
Roger Granda, Tinne Tuytelaars, Jose Oramas(参考訳) 本稿では,神経細胞のスパース集合の検査に基づく敵攻撃検出手法を提案する。 我々は、攻撃が入力に知覚不能な摂動をもたらし、これらの摂動が攻撃モデルによってモデル化された概念に関連するニューロンの状態を変えるという仮説に従う。 したがって、これらのニューロンの状態を監視することで、敵の攻撃を検出することができる。 本手法は,画像分類タスクに着目し,モデルによって予測されるクラスに関連するニューロンを特定する。 これらのスパースニューロンのより深い質的検査は、その状態が敵のサンプルの存在によって変化することを示している。 さらに, 実験結果から, 本手法は最先端の検知器と同等の精度で, 最先端のアタック法によって生成された敵のサンプルを認識できることを示した。

We present a method for adversarial attack detection based on the inspection of a sparse set of neurons. We follow the hypothesis that adversarial attacks introduce imperceptible perturbations in the input and that these perturbations change the state of neurons relevant for the concepts modelled by the attacked model. Therefore, monitoring the status of these neurons would enable the detection of adversarial attacks. Focusing on the image classification task, our method identifies neurons that are relevant for the classes predicted by the model. A deeper qualitative inspection of these sparse set of neurons indicates that their state changes in the presence of adversarial samples. Moreover, quantitative results from our empirical evaluation indicate that our method is capable of recognizing adversarial samples, produced by state-of-the-art attack methods, with comparable accuracy to that of state-of-the-art detectors.
翻訳日:2022-10-01 22:44:27 公開日:2020-10-29
# 深度・慣性センサを用いた人間行動認識のためのCNNを用いた多段Gated Average Fusion(MGAF)

CNN based Multistage Gated Average Fusion (MGAF) for Human Action Recognition Using Depth and Inertial Sensors ( http://arxiv.org/abs/2010.16073v1 )

ライセンス: Link先を確認
Zeeshan Ahmad and Naimul khan(参考訳) 畳み込みニューラルネットワーク(CNN)は、アーキテクチャのすべてのレイヤから機能を抽出し、融合するためのレバレッジを提供する。 しかし, 深度と慣性センサーを用いた人行動認識(HAR)では, 異なるCNN構造の層から中間的特徴を抽出し, 融合することはいまだ検討されていない。 本稿では,CNNのすべての層にアクセスする利点を最大限に活用するために,計算効率の良いGAF(Gated Average Fusion)ネットワークを用いて,CNNの全層から特徴を抽出し,融合する多段Gated Average Fusion(MGAF)ネットワークを提案する。 提案したMGAFの入力時に,深度センサと慣性センサのデータをそれぞれ,シーケンシャルフロントビュー画像 (SFI) と信号画像 (SI) と呼ばれる深度イメージに変換する。 これらのSFIは、深度データによって生成されたフロントビュー情報から形成される。 CNNは、両方の入力モードから特徴マップを抽出するために使用される。 GAFネットワークは抽出した特徴を効果的に融合させ、融合した特徴の次元性も維持する。 提案したMGAFネットワークは構造的拡張性があり、2つ以上のモダリティに展開できる。 3つの公開マルチモーダルHARデータセットの実験により、提案されたMGAFは、認識精度の点で深度慣性HARに対するアートフュージョン手法の以前の状態よりも、計算的にはるかに効率的であることを示した。 従来の技術に比べて計算コストを約50%削減しながら,平均1.5パーセントの精度向上を実現しています。

Convolutional Neural Network (CNN) provides leverage to extract and fuse features from all layers of its architecture. However, extracting and fusing intermediate features from different layers of CNN structure is still uninvestigated for Human Action Recognition (HAR) using depth and inertial sensors. To get maximum benefit of accessing all the CNN's layers, in this paper, we propose novel Multistage Gated Average Fusion (MGAF) network which extracts and fuses features from all layers of CNN using our novel and computationally efficient Gated Average Fusion (GAF) network, a decisive integral element of MGAF. At the input of the proposed MGAF, we transform the depth and inertial sensor data into depth images called sequential front view images (SFI) and signal images (SI) respectively. These SFI are formed from the front view information generated by depth data. CNN is employed to extract feature maps from both input modalities. GAF network fuses the extracted features effectively while preserving the dimensionality of fused feature as well. The proposed MGAF network has structural extensibility and can be unfolded to more than two modalities. Experiments on three publicly available multimodal HAR datasets demonstrate that the proposed MGAF outperforms the previous state of the art fusion methods for depth-inertial HAR in terms of recognition accuracy while being computationally much more efficient. We increase the accuracy by an average of 1.5 percent while reducing the computational cost by approximately 50 percent over the previous state of the art.
翻訳日:2022-10-01 22:43:55 公開日:2020-10-29
# 音声画像のセマンティックアライメントはいかなる事前分類課題にも依存しない

Speech-Image Semantic Alignment Does Not Depend on Any Prior Classification Tasks ( http://arxiv.org/abs/2010.15288v1 )

ライセンス: Link先を確認
Masood S. Mortazavi(参考訳) 意味的に整列した$(speech, image)$データセットは、"視覚的に接地した音声"を探索するために使用できる。 既存の調査の大部分では、画像信号の特徴は他のタスク(例えば、imagenetの分類)で"事前学習"されたニューラルネットワークを使用して抽出される。 さらに、事前学習されたネットワークは、意味的埋め込みの前に音声の特徴を抽出するために使われる。 事前訓練された初期化や事前訓練された特徴抽出による"トランスファーラーニング"がなければ、以前の結果は$speech \rightarrow image$と$image \rightarrow speech$クエリでのリコール率の低い傾向にある。 Choosing appropriate neural architectures for encoders in the speech and image branches and using large datasets, one can obtain competitive recall rates without any reliance on any pre-trained initialization or feature extraction: $(speech,image)$ semantic alignment and $speech \rightarrow image$ and $image \rightarrow speech$ retrieval are canonical tasks worthy of independent investigation of their own and allow one to explore other questions---e.g., the size of the audio embedder can be reduced significantly with little loss of recall rates in $speech \rightarrow image$ and $image \rightarrow speech$ queries.

Semantically-aligned $(speech, image)$ datasets can be used to explore "visually-grounded speech". In a majority of existing investigations, features of an image signal are extracted using neural networks "pre-trained" on other tasks (e.g., classification on ImageNet). In still others, pre-trained networks are used to extract audio features prior to semantic embedding. Without "transfer learning" through pre-trained initialization or pre-trained feature extraction, previous results have tended to show low rates of recall in $speech \rightarrow image$ and $image \rightarrow speech$ queries. Choosing appropriate neural architectures for encoders in the speech and image branches and using large datasets, one can obtain competitive recall rates without any reliance on any pre-trained initialization or feature extraction: $(speech,image)$ semantic alignment and $speech \rightarrow image$ and $image \rightarrow speech$ retrieval are canonical tasks worthy of independent investigation of their own and allow one to explore other questions---e.g., the size of the audio embedder can be reduced significantly with little loss of recall rates in $speech \rightarrow image$ and $image \rightarrow speech$ queries.
翻訳日:2022-10-01 22:43:27 公開日:2020-10-29
# 強化学習に基づく完全自律運転のためのパーソナライズされた離散車線切替開始学習

Learning Personalized Discretionary Lane-Change Initiation for Fully Autonomous Driving Based on Reinforcement Learning ( http://arxiv.org/abs/2010.15372v1 )

ライセンス: Link先を確認
Zhuoxi Liu, Zheng Wang, Bo Yang, Kimihiko Nakano(参考訳) 本稿では,人間とコンピュータのインタラクションを通じて,完全自律走行車両の識別的車線変更開始戦略を学習するための新しい手法を提案する。 人間の運転デモから学ぶ代わりに、交通状況、自動運転車の動作、車載ユーザーからのフィードバックから車線変更を開始する方法を学ぶために強化学習技術が使用される。 提案するオフラインアルゴリズムは,ユーザが肯定的なフィードバックを与えた場合の行動選択戦略に報いる。 また、多次元駆動シナリオはより現実的な車線変更トレードオフを表すと考えられる。 その結果,本手法により得られた車線変更開始モデルでは,個人の車線変更戦術を再現でき,カスタマイズされたモデル(平均精度86.1%)の性能は,非カスタマイズモデル(平均精度75.7%)よりもはるかに優れていることがわかった。 この方法では、完全な自動運転体験がなくても、ユーザのカスタマイズを継続的に改善できるため、自動運転車の高レベルの自律性が大幅に向上する。

In this article, the authors present a novel method to learn the personalized tactic of discretionary lane-change initiation for fully autonomous vehicles through human-computer interactions. Instead of learning from human-driving demonstrations, a reinforcement learning technique is employed to learn how to initiate lane changes from traffic context, the action of a self-driving vehicle, and in-vehicle user feedback. The proposed offline algorithm rewards the action-selection strategy when the user gives positive feedback and penalizes it when negative feedback. Also, a multi-dimensional driving scenario is considered to represent a more realistic lane-change trade-off. The results show that the lane-change initiation model obtained by this method can reproduce the personal lane-change tactic, and the performance of the customized models (average accuracy 86.1%) is much better than that of the non-customized models (average accuracy 75.7%). This method allows continuous improvement of customization for users during fully autonomous driving even without human-driving experience, which will significantly enhance the user acceptance of high-level autonomy of self-driving vehicles.
翻訳日:2022-10-01 22:37:18 公開日:2020-10-29
# 探査による空間座標の創発

Emergence of Spatial Coordinates via Exploration ( http://arxiv.org/abs/2010.15469v1 )

ライセンス: Link先を確認
Alban Laflaqui\`ere(参考訳) 空間知識は、高度な知覚能力と認知能力を開発するための基本的な構成要素である。 伝統的にロボット工学では、ユークリッド座標系(x,y,z)とエージェントの前方モデルが事前定義されている。 本研究では, 自律的に内部座標系を構築でき, 外部空間と同じ次元, 計量正則性を持つことを示す。

Spatial knowledge is a fundamental building block for the development of advanced perceptive and cognitive abilities. Traditionally, in robotics, the Euclidean (x,y,z) coordinate system and the agent's forward model are defined a priori. We show that a naive agent can autonomously build an internal coordinate system, with the same dimension and metric regularity as the external space, simply by learning to predict the outcome of sensorimotor transitions in a self-supervised way.
翻訳日:2022-10-01 22:37:00 公開日:2020-10-29
# 相互作用粒子の1次系の平均場方程式における学習相互作用核

Learning interaction kernels in mean-field equations of 1st-order systems of interacting particles ( http://arxiv.org/abs/2010.15694v1 )

ライセンス: Link先を確認
Quanjun Lang, Fei Lu(参考訳) 相互作用粒子の1次系に対する平均場方程式の相互作用核を学ぶための非パラメトリックアルゴリズムを提案する。 データは、解の離散的な時空観測から成っている。 正則化で最小二乗すると、アルゴリズムはデータ適応仮説空間上でカーネルを効率的に学習する。 主成分は平均場方程式の拡散過程の確率から導かれる確率的誤差汎関数である。 推定子は、再現された核ヒルベルト空間と L2 空間に微分可能性条件の下で収束し、数値積分子の順序に等しいという意味で最適である。 提案アルゴリズムは,3つの典型例について示す。1次線形カーネルによる意見力学,2次カーネルによる粒度メディアモデル,そして2次カーネルによる集合拡散である。

We introduce a nonparametric algorithm to learn interaction kernels of mean-field equations for 1st-order systems of interacting particles. The data consist of discrete space-time observations of the solution. By least squares with regularization, the algorithm learns the kernel on data-adaptive hypothesis spaces efficiently. A key ingredient is a probabilistic error functional derived from the likelihood of the mean-field equation's diffusion process. The estimator converges, in a reproducing kernel Hilbert space and an L2 space under an identifiability condition, at a rate optimal in the sense that it equals the numerical integrator's order. We demonstrate our algorithm on three typical examples: the opinion dynamics with a piecewise linear kernel, the granular media model with a quadratic kernel, and the aggregation-diffusion with a repulsive-attractive kernel.
翻訳日:2022-10-01 22:36:07 公開日:2020-10-29
# 非決定線形系としての過パラメータニューラルネットワーク

Over-parametrized neural networks as under-determined linear systems ( http://arxiv.org/abs/2010.15959v1 )

ライセンス: Link先を確認
Austin R. Benson, Anil Damle, Alex Townsend(参考訳) 我々は、単純なニューラルネットワークと未決定線形システムとの接続を描き、ニューラルネットワークの研究におけるいくつかの興味深い理論的疑問を包括的に探究する。 まず、そのようなネットワークがトレーニング損失をゼロにできるのは予想外であることを示す。 より具体的には、最後の線形層のみをトレーニングしてトレーニング損失をゼロにする、単一の隠れ層ニューラルネットワークの幅の低い境界を提供する。 私たちの低い境界は、隠れたレイヤの重みをトレーニングする既存の作業よりもデータセットのサイズでゆっくりと成長します。 第2に、一般的にreluアクティベーション関数に関連するカーネルには根本的な欠陥があることを示します -- パラメータの選択やトレーニング方法に関わらず、広く研究されているバイアスフリーモデルがトレーニング損失をゼロにすることは不可能です。 最後に,勾配降下解析により,特定の行列のスペクトル特性が初期反復行動と長期トレーニング行動の両方にどのように影響するかを明らかにする。 我々は,reluの落とし穴を回避し,任意の異なるデータ点のトレーニング損失をゼロにし,良好なスペクトル特性を実験的に示す新たな活性化関数を提案する。

We draw connections between simple neural networks and under-determined linear systems to comprehensively explore several interesting theoretical questions in the study of neural networks. First, we emphatically show that it is unsurprising such networks can achieve zero training loss. More specifically, we provide lower bounds on the width of a single hidden layer neural network such that only training the last linear layer suffices to reach zero training loss. Our lower bounds grow more slowly with data set size than existing work that trains the hidden layer weights. Second, we show that kernels typically associated with the ReLU activation function have fundamental flaws -- there are simple data sets where it is impossible for widely studied bias-free models to achieve zero training loss irrespective of how the parameters are chosen or trained. Lastly, our analysis of gradient descent clearly illustrates how spectral properties of certain matrices impact both the early iteration and long-term training behavior. We propose new activation functions that avoid the pitfalls of ReLU in that they admit zero training loss solutions for any set of distinct data points and experimentally exhibit favorable spectral properties.
翻訳日:2022-10-01 22:34:56 公開日:2020-10-29
# 豪華な最適化が宝くじに勝つ: 当選チケットの対数数だけで十分

Greedy Optimization Provably Wins the Lottery: Logarithmic Number of Winning Tickets is Enough ( http://arxiv.org/abs/2010.15969v1 )

ライセンス: Link先を確認
Mao Ye, Lemeng Wu, Qiang Liu(参考訳) ディープラーニングの大きな成功にもかかわらず、最近の研究は、大きなディープニューラルネットワークがしばしば非常に冗長であり、サイズを大幅に削減できることを示している。 しかし、精度低下の許容範囲が指定されているニューラルネットワークをどの程度実行できるかという理論的問題は、まだ未解決である。 本稿では, グリーディ最適化に基づくプルーニング手法を提案する。 提案手法は,prunedネットワークと元のネットワークとの差が指数関数的に速いw.r.t.ネットワークのサイズで減少する保証を,最も実用的な設定に適用できる弱い仮定下で有する。 本研究では,ResNet や MobilenetV2/V3 など,様々なネットワークアーキテクチャを ImageNet 上で刈り取る手法を実証的に改良する。

Despite the great success of deep learning, recent works show that large deep neural networks are often highly redundant and can be significantly reduced in size. However, the theoretical question of how much we can prune a neural network given a specified tolerance of accuracy drop is still open. This paper provides one answer to this question by proposing a greedy optimization based pruning method. The proposed method has the guarantee that the discrepancy between the pruned network and the original network decays with exponentially fast rate w.r.t. the size of the pruned network, under weak assumptions that apply for most practical settings. Empirically, our method improves prior arts on pruning various network architectures including ResNet, MobilenetV2/V3 on ImageNet.
翻訳日:2022-10-01 22:34:37 公開日:2020-10-29
# テキスト中の潜伏バイアスの発見:方法とピアレビューへの応用

Uncovering Latent Biases in Text: Method and Application to Peer Review ( http://arxiv.org/abs/2010.15300v1 )

ライセンス: Link先を確認
Emaad Manzoor, Nihar B. Shah(参考訳) 雇用率や人口サブグループ間の賃金といった数量の体系的な格差の定量化は、社会的偏見の存在を示唆する証拠となる。 しかし、異なるサブグループのメンバーのために書かれたテキストのバイアス(男性や非男性候補者の推薦文字など)は、広く報告されているが、定量化が難しいままである。 本稿では,サブグループメンバーシップ指標の可視性に起因するテキストのバイアスを定量化する新しい枠組みを提案する。 このバイアスを推定するために,非パラメトリック推定と推定手法を開発した。 次に,推定バイアスとサブグループメンバーシップ指標の可視性を因果的に関連付ける識別戦略を定式化し,アイデンティティハイディング政策変更前後の時間的観察を行った。 我々は、合成データや二次データに頼るのではなく、フレームワークを評価するために「根拠の真理」バイアスを推測できるアプリケーションを特定する。 具体的には,このフレームワークを用いて,評価された機械学習カンファレンス前後におけるピアレビューのテキストにおけるバイアスの定量化を行う。 本稿では,レビュー評価におけるバイアスの証拠を「根拠的真実」として示すとともに,レビュー評価にアクセスできることなく,レビューテキストからこれらのバイアスを的確に検出できることを示す。

Quantifying systematic disparities in numerical quantities such as employment rates and wages between population subgroups provides compelling evidence for the existence of societal biases. However, biases in the text written for members of different subgroups (such as in recommendation letters for male and non-male candidates), though widely reported anecdotally, remain challenging to quantify. In this work, we introduce a novel framework to quantify bias in text caused by the visibility of subgroup membership indicators. We develop a nonparametric estimation and inference procedure to estimate this bias. We then formalize an identification strategy to causally link the estimated bias to the visibility of subgroup membership indicators, provided observations from time periods both before and after an identity-hiding policy change. We identify an application wherein "ground truth" bias can be inferred to evaluate our framework, instead of relying on synthetic or secondary data. Specifically, we apply our framework to quantify biases in the text of peer reviews from a reputed machine learning conference before and after the conference adopted a double-blind reviewing policy. We show evidence of biases in the review ratings that serves as "ground truth", and show that our proposed framework accurately detects these biases from the review text without having access to the review ratings.
翻訳日:2022-10-01 22:27:43 公開日:2020-10-29
# Tベクトル:階層型変圧器モデルを用いた弱教師付き話者識別

T-vectors: Weakly Supervised Speaker Identification Using Hierarchical Transformer Model ( http://arxiv.org/abs/2010.16071v1 )

ライセンス: Link先を確認
Yanpei Shi, Mingjie Chen, Qiang Huang, Thomas Hain(参考訳) 録音中の話者の声がどこにあるかを知らずに複数の話者を特定することは難しい課題である。 本稿では,変換器エンコーダとメモリ機構を備えた階層型ネットワークを提案する。 提案モデルにはフレームレベルエンコーダとセグメントレベルエンコーダが含まれており,どちらもトランスフォーマーエンコーダブロックを使用している。 変換器構造におけるマルチヘッドアテンション機構は、入力発話が複数の話者を含む場合、話者特性をよりよく捉えることができる。 フレームレベルのエンコーダで使用されるメモリ機構は、長期的な話者機能をよりよくキャプチャするリカレント接続を構築することができる。 実験は、Switchboard Cellular part1(SWBC)とVoxceleb1データセットに基づく人工データセットで実施される。 さまざまなデータ構築シナリオ (Concat と Overlap) において、提案されたモデルは、4つの強いベースラインとのより良いパフォーマンス比較を示し、H-ベクターやS-ベクターと比較して13.3%と10.5%の改善を達成した。 メモリ機構の使用は、メモリ機構を使用しない場合と比較して10.6%と7.7%の改善に達する可能性がある。

Identifying multiple speakers without knowing where a speaker's voice is in a recording is a challenging task. This paper proposes a hierarchical network with transformer encoders and memory mechanism to address this problem. The proposed model contains a frame-level encoder and segment-level encoder, both of them make use of the transformer encoder block. The multi-head attention mechanism in the transformer structure could better capture different speaker properties when the input utterance contains multiple speakers. The memory mechanism used in the frame-level encoders can build a recurrent connection that better capture long-term speaker features. The experiments are conducted on artificial datasets based on the Switchboard Cellular part1 (SWBC) and Voxceleb1 datasets. In different data construction scenarios (Concat and Overlap), the proposed model shows better performance comparaing with four strong baselines, reaching 13.3% and 10.5% relative improvement compared with H-vectors and S-vectors. The use of memory mechanism could reach 10.6% and 7.7% relative improvement compared with not using memory mechanism.
翻訳日:2022-10-01 22:26:49 公開日:2020-10-29
# sea-net:糖尿病網膜症格付けのためのスクイーズ・アンド・エクスシジョン・アテンションネット

Sea-Net: Squeeze-And-Excitation Attention Net For Diabetic Retinopathy Grading ( http://arxiv.org/abs/2010.15344v1 )

ライセンス: Link先を確認
Ziyuan Zhao, Kartik Chopra, Zeng Zeng, Xiaoli Li(参考訳) 糖尿病は個人の最も一般的な病気の1つである。 \textit{Diabetic retinopathy} (DR) は糖尿病の合併症であり、失明を引き起こす可能性がある。 網膜画像に基づく自動DRグレーディングは、治療計画のための診断と予後に優れた価値を提供する。 しかし,重要度レベルの微妙な違いは,従来の手法では重要な特徴を捉えることが困難である。 この問題を軽減するため,シーネット(sea-net)と呼ばれるロバストなdrグレーティングのための新しいディープラーニングアーキテクチャを提案し,空間的注意とチャネル的注意を交互に実行し,相互に促進し,分類性能を向上させる。 さらに,クラス間距離をさらに最大化し,クラス内変動を低減するためにハイブリッド損失関数を提案する。 実験の結果,提案手法の有効性が示された。

Diabetes is one of the most common disease in individuals. \textit{Diabetic retinopathy} (DR) is a complication of diabetes, which could lead to blindness. Automatic DR grading based on retinal images provides a great diagnostic and prognostic value for treatment planning. However, the subtle differences among severity levels make it difficult to capture important features using conventional methods. To alleviate the problems, a new deep learning architecture for robust DR grading is proposed, referred to as SEA-Net, in which, spatial attention and channel attention are alternatively carried out and boosted with each other, improving the classification performance. In addition, a hybrid loss function is proposed to further maximize the inter-class distance and reduce the intra-class variability. Experimental results have shown the effectiveness of the proposed architecture.
翻訳日:2022-10-01 22:26:31 公開日:2020-10-29
# WaveTransform: 入力分解による逆例作成

WaveTransform: Crafting Adversarial Examples via Input Decomposition ( http://arxiv.org/abs/2010.15773v1 )

ライセンス: Link先を確認
Divyam Anshumaan, Akshay Agarwal, Mayank Vatsa, and Richa Singh(参考訳) 周波数スペクトルは、物体認識のためのユニークかつ識別的な特徴を学習する上で重要な役割を担っている。 画像に含まれる低周波情報と高周波情報は、深層学習を含む多くの表現学習技術によって抽出され、学習されている。 本研究は,低周波・高周波サブバンドに対応する対向雑音を別々に(あるいは組み合わせて)生成する,新たな対向攻撃のクラス「WaveTransform」を導入する。 周波数サブバンドはウェーブレット分解を用いて解析され、サブバンドは破損し、逆の例を構築するために使用される。 複数のデータベースとcnnモデルを用いて,提案するウェーブトランスフォーム攻撃の有効性を確認し,特定の周波数成分の重要性を分析する実験を行った。 提案する攻撃のロバスト性は,最近の防御アルゴリズムに対する伝達性と弾力性によって評価される。 実験により、提案攻撃は防衛アルゴリズムに対して有効であり、CNN間でも転送可能であることが示された。

Frequency spectrum has played a significant role in learning unique and discriminating features for object recognition. Both low and high frequency information present in images have been extracted and learnt by a host of representation learning techniques, including deep learning. Inspired by this observation, we introduce a novel class of adversarial attacks, namely `WaveTransform', that creates adversarial noise corresponding to low-frequency and high-frequency subbands, separately (or in combination). The frequency subbands are analyzed using wavelet decomposition; the subbands are corrupted and then used to construct an adversarial example. Experiments are performed using multiple databases and CNN models to establish the effectiveness of the proposed WaveTransform attack and analyze the importance of a particular frequency component. The robustness of the proposed attack is also evaluated through its transferability and resiliency against a recent adversarial defense algorithm. Experiments show that the proposed attack is effective against the defense algorithm and is also transferable across CNNs.
翻訳日:2022-10-01 22:26:19 公開日:2020-10-29
# 数値アソシエーションルールマイニングのためのSwarmインテリジェンスに基づくアルゴリズムの概要

A brief overview of swarm intelligence-based algorithms for numerical association rule mining ( http://arxiv.org/abs/2010.15524v1 )

ライセンス: Link先を確認
Iztok Fister Jr., Iztok Fister(参考訳) 数値アソシエーションルールマイニングはアソシエーションルールマイニングの一般的な変種であり、数値属性は離散化せずに扱われる。 これは、この問題に対処するアルゴリズムが、分類だけでなく、数値的な属性でも直接動作することを意味する。 最近まで、これらのアルゴリズムの大部分は確率論的自然に着想を得た人口ベースのパラダイムに基づいていた。 その結果、進化的および群知能に基づくアルゴリズムは、この問題に対処するための大きな効率性を示した。 これに合わせて、この章の主なミッションは、数値アソシエーションルールマイニングのための群知能に基づくアルゴリズムの歴史的概要と、観察された問題に対するこれらのアルゴリズムの主な特徴を提示することである。 本報告では,アルゴリズムの分類を応用された特徴に基づいて提案した。 課題は、将来的には、この論文を終えることです。

Numerical Association Rule Mining is a popular variant of Association Rule Mining, where numerical attributes are handled without discretization. This means that the algorithms for dealing with this problem can operate directly, not only with categorical, but also with numerical attributes. Until recently, a big portion of these algorithms were based on a stochastic nature-inspired population-based paradigm. As a result, evolutionary and swarm intelligence-based algorithms showed big efficiency for dealing with the problem. In line with this, the main mission of this chapter is to make a historical overview of swarm intelligence-based algorithms for Numerical Association Rule Mining, as well as to present the main features of these algorithms for the observed problem. A taxonomy of the algorithms was proposed on the basis of the applied features found in this overview. Challenges, waiting in the future, finish this paper.
翻訳日:2022-10-01 22:25:59 公開日:2020-10-29
# ロバスト集約による信頼グラフニューラルネットワーク

Reliable Graph Neural Networks via Robust Aggregation ( http://arxiv.org/abs/2010.15651v1 )

ライセンス: Link先を確認
Simon Geisler, Daniel Z\"ugner, Stephan G\"unnemann(参考訳) グラフ構造を対象とする摂動は、グラフニューラルネットワーク(gnn)のパフォーマンスを低下させる上で非常に効果的であることが証明されている。 この研究は、対向的に注入されたエッジをノードの近傍集約関数に追加のサンプルと見なすことができ、その結果、層上に蓄積された歪んだアグリゲーションが得られるという観察によって動機付けられている。 和や平均などの従来のGNNアグリゲーション関数は、1つの外れ値によって任意に歪めることができる。 本稿では,ロバスト統計の分野に動機づけられたロバスト集約関数を提案する。 提案手法は0.5の最大分解点を示し, ノードの対向エッジの分画が 50 % 未満である限り, 凝集のバイアスは有界であることを示す。 新しい集約関数であるsoft medoidは、medoidの完全に微分可能な一般化であり、エンドツーエンドのディープラーニングに適しています。 GNNをアグリゲーションで取得すると、Cora ML上の構造摂動に関して3(およびCiteseer上の5.5)および低次ノードに対する8)の因子によるロバスト性が向上する。

Perturbations targeting the graph structure have proven to be extremely effective in reducing the performance of Graph Neural Networks (GNNs), and traditional defenses such as adversarial training do not seem to be able to improve robustness. This work is motivated by the observation that adversarially injected edges effectively can be viewed as additional samples to a node's neighborhood aggregation function, which results in distorted aggregations accumulating over the layers. Conventional GNN aggregation functions, such as a sum or mean, can be distorted arbitrarily by a single outlier. We propose a robust aggregation function motivated by the field of robust statistics. Our approach exhibits the largest possible breakdown point of 0.5, which means that the bias of the aggregation is bounded as long as the fraction of adversarial edges of a node is less than 50\%. Our novel aggregation function, Soft Medoid, is a fully differentiable generalization of the Medoid and therefore lends itself well for end-to-end deep learning. Equipping a GNN with our aggregation improves the robustness with respect to structure perturbations on Cora ML by a factor of 3 (and 5.5 on Citeseer) and by a factor of 8 for low-degree nodes.
翻訳日:2022-10-01 22:19:27 公開日:2020-10-29
# タッカーラッパーを用いたテンソルネットワークによるテンソル完了

Tensor Completion via Tensor Networks with a Tucker Wrapper ( http://arxiv.org/abs/2010.15819v1 )

ライセンス: Link先を確認
Yunfeng Cai and Ping Li(参考訳) 近年,低ランクテンソル補修(LRTC)が注目されている。 テンソルランクの異なる概念(CP、タッカー、テンソルトレイン/リングなど)により、LRTCには様々な最適化に基づく数値法が提案されている。 しかし、テンソルネットワークに基づく手法はまだ提案されていない。 本稿では,タッカーラッパーを用いたテンソルネットワークによるLRTCの解法を提案する。 ここで「タッカーラッパー」とは、テンソルネットワークの最も外側の係数行列がすべて正則であることを意味する。 我々は、制約付き最適化問題ではなく、非線形方程式のシステムを解く問題としてLRTCを定式化する。 次に、未知の因子を更新するために2段階の最小二乗法が用いられる。 この手法の計算はテンソル行列乗法に支配され、効率的に行うことができる。 また、適切な仮定の下では、高い確率で、この方法が線形速度で正確な解に収束することが示される。 数値シミュレーションにより,提案アルゴリズムは最先端手法に匹敵することを示す。

In recent years, low-rank tensor completion (LRTC) has received considerable attention due to its applications in image/video inpainting, hyperspectral data recovery, etc. With different notions of tensor rank (e.g., CP, Tucker, tensor train/ring, etc.), various optimization based numerical methods are proposed to LRTC. However, tensor network based methods have not been proposed yet. In this paper, we propose to solve LRTC via tensor networks with a Tucker wrapper. Here by "Tucker wrapper" we mean that the outermost factor matrices of the tensor network are all orthonormal. We formulate LRTC as a problem of solving a system of nonlinear equations, rather than a constrained optimization problem. A two-level alternative least square method is then employed to update the unknown factors. The computation of the method is dominated by tensor matrix multiplications and can be efficiently performed. Also, under proper assumptions, it is shown that with high probability, the method converges to the exact solution at a linear rate. Numerical simulations show that the proposed algorithm is comparable with state-of-the-art methods.
翻訳日:2022-10-01 22:18:42 公開日:2020-10-29
# 深層学習に基づく金融チケット知的認識システム

Financial ticket intelligent recognition system based on deep learning ( http://arxiv.org/abs/2010.15356v1 )

ライセンス: Link先を確認
Fukang Tian, Haiyu Wu, and Bo Xu(参考訳) 金融券の発行(紙幣、請求書等)の急速な増加に直面すると、従来の手形による請求書の払い戻しや会計システムは、会計士の負担を増大させ、過大なマンパワーを消費している。 この問題を解決するために,本研究では,実践的な財務会計システムの基本要件であるアルゴリズムモデルの迅速な反復的更新と拡張性をサポートする,FFTRSの反復的自己学習フレームワークを提案する。 さらに, 簡易かつ効率的な金融チケット高速検知ネットワーク (FTFDNet) を設計し, 金融チケットのインテリジェントなデータウェアハウスを設計し, その効率と性能を向上させる。 現在、194種類のファイナンシャルチケットを認識でき、自動反復最適化機構を備えており、アプリケーション時間の増加に伴い、システムによってサポートされているチケットの種類が増加し続け、認識精度が向上する。 実験の結果、システムの平均認識精度は97.07%で、1つのチケットの平均実行時間は175.67msであった。 このシステムの実用的価値は、金融会計業務におけるディープラーニング技術のための有益な試みである商用アプリケーションでテストされている。

Facing the rapid growth in the issuance of financial tickets (or bills, invoices etc.), traditional manual invoice reimbursement and financial accounting system are imposing an increasing burden on financial accountants and consuming excessive manpower. To solve this problem, we proposes an iterative self-learning Framework of Financial Ticket intelligent Recognition System (FFTRS), which can support the fast iterative updating and extensibility of the algorithm model, which are the fundamental requirements for a practical financial accounting system. In addition, we designed a simple yet efficient Financial Ticket Faster Detection network (FTFDNet) and an intelligent data warehouse of financial ticket are designed to strengthen its efficiency and performance. At present, the system can recognize 194 kinds of financial tickets and has an automatic iterative optimization mechanism, which means, with the increase of application time, the types of tickets supported by the system will continue to increase, and the accuracy of recognition will continue to improve. Experimental results show that the average recognition accuracy of the system is 97.07%, and the average running time for a single ticket is 175.67ms. The practical value of the system has been tested in a commercial application, which makes a beneficial attempt for the deep learning technology in financial accounting work.
翻訳日:2022-10-01 22:17:50 公開日:2020-10-29
# 物体検出器スケールのブラックボックス最適化

Black-Box Optimization of Object Detector Scales ( http://arxiv.org/abs/2010.15823v1 )

ライセンス: Link先を確認
Mohandass Muthuraja and Octavio Arriaga and Paul Pl\"oger and Frank Kirchner and Matias Valdenegro-Toro(参考訳) オブジェクト検出器は、近年、高度なCNNアーキテクチャを使用して大幅に改善されている。 しかし、多くの検出器ハイパーパラメータは一般に手動で調整されるか、検出器の作者によって設定された値で使用される。 ハイパーパラメータの自動最適化は、CNNベースのオブジェクト検出器のハイパーパラメータの改善には研究されていない。 本研究では,ベイジアン最適化,SMAC,CMA-ESを用いて,より高速なR-CNNとSSDの事前/デフォルトボックススケールを調整するためのブラックボックス最適化手法を提案する。 入力画像サイズと事前ボックスアンカースケールを、より高速なr-cnnマップで調整することで、pascal voc 2007では2%、ssdでは3%増加した。 SSDを用いたCOCOデータセットでは、中規模および大規模オブジェクトではmAPが改善されているが、小オブジェクトではmAPが1%減少する。 我々はまた、調整すべき重要なハイパーパラメータを見つけるために回帰分析を行う。

Object detectors have improved considerably in the last years by using advanced CNN architectures. However, many detector hyper-parameters are generally manually tuned, or they are used with values set by the detector authors. Automatic Hyper-parameter optimization has not been explored in improving CNN-based object detectors hyper-parameters. In this work, we propose the use of Black-box optimization methods to tune the prior/default box scales in Faster R-CNN and SSD, using Bayesian Optimization, SMAC, and CMA-ES. We show that by tuning the input image size and prior box anchor scale on Faster R-CNN mAP increases by 2% on PASCAL VOC 2007, and by 3% with SSD. On the COCO dataset with SSD there are mAP improvement in the medium and large objects, but mAP decreases by 1% in small objects. We also perform a regression analysis to find the significant hyper-parameters to tune.
翻訳日:2022-10-01 22:17:07 公開日:2020-10-29
# ファジィクエリアテンションを用いたマルチエージェント軌道予測

Multi-agent Trajectory Prediction with Fuzzy Query Attention ( http://arxiv.org/abs/2010.15891v1 )

ライセンス: Link先を確認
Nitin Kamra, Hao Zhu, Dweep Trivedi, Ming Zhang, Yan Liu(参考訳) 複数のエージェントやエンティティを持つシーンの軌道予測は、交通予測や歩行者追跡、経路計画といった多くの領域において難しい問題である。 我々は,運動の帰納的バイアス,すなわち慣性,相対運動,意図,相互作用をモデル化する,この課題に対処するための一般的なアーキテクチャを提案する。 具体的には,多様な環境におけるエージェント間の相互作用を柔軟にモデル化する関係モデルを提案する。 人間の意思決定が自然にファジィであることはよく知られているので、我々のモデルの中心には、連続的な評価(ファジィ)決定を行い、対応する応答を学習することによって相互作用をモデル化する新しい注意機構がある。 我々のアーキテクチャは、人間の群衆軌跡、アメリカの高速道路交通、NBAスポーツデータ、物理データセットなど、さまざまな領域における最先端の予測モデルよりも大きなパフォーマンス向上を示す。 また、意思決定プロセスとモデルにおける利得の源を理解するために、改善と強化も提示する。

Trajectory prediction for scenes with multiple agents and entities is a challenging problem in numerous domains such as traffic prediction, pedestrian tracking and path planning. We present a general architecture to address this challenge which models the crucial inductive biases of motion, namely, inertia, relative motion, intents and interactions. Specifically, we propose a relational model to flexibly model interactions between agents in diverse environments. Since it is well-known that human decision making is fuzzy by nature, at the core of our model lies a novel attention mechanism which models interactions by making continuous-valued (fuzzy) decisions and learning the corresponding responses. Our architecture demonstrates significant performance gains over existing state-of-the-art predictive models in diverse domains such as human crowd trajectories, US freeway traffic, NBA sports data and physics datasets. We also present ablations and augmentations to understand the decision-making process and the source of gains in our model.
翻訳日:2022-10-01 22:16:52 公開日:2020-10-29
# ダイナミックSSD-GANによる小型ポリプの検出

Detecting small polyps using a Dynamic SSD-GAN ( http://arxiv.org/abs/2010.15937v1 )

ライセンス: Link先を確認
Daniel C. Ohrenstein, Patrick Brandao, Daniel Toth, Laurence Lovat, Danail Stoyanov and Peter Mountney(参考訳) 内視鏡検査は、癌に進展するポリープの喉、胃、腸を検査するために用いられる。 機械学習システムは、大腸内視鏡画像の処理とポリープの検出を訓練することができる。 しかし、これらのシステムは、画像に視覚的に小さいように見えるオブジェクトに対して、パフォーマンスが悪い傾向がある。 ここでは, 局所的提案ネットワークとしての単発検出器と, 逆学習型生成器を組み合わせることで, 視覚的に小さなポリプの検出を著しく改善できることを示す。 本論文で導入したダイナミックSSD-GANパイプラインは,従来のFCNベースラインに比べて12%の感度向上を実現した。

Endoscopic examinations are used to inspect the throat, stomach and bowel for polyps which could develop into cancer. Machine learning systems can be trained to process colonoscopy images and detect polyps. However, these systems tend to perform poorly on objects which appear visually small in the images. It is shown here that combining the single-shot detector as a region proposal network with an adversarially-trained generator to upsample small region proposals can significantly improve the detection of visually-small polyps. The Dynamic SSD-GAN pipeline introduced in this paper achieved a 12% increase in sensitivity on visually-small polyps compared to a conventional FCN baseline.
翻訳日:2022-10-01 22:16:37 公開日:2020-10-29
# 輪郭検出のためのリカレントニューラルネットワーク

Recurrent neural circuits for contour detection ( http://arxiv.org/abs/2010.15314v1 )

ライセンス: Link先を確認
Drew Linsley, Junkyung Kim, Alekh Ashok, and Thomas Serre(参考訳) 視覚皮質回路を近似するディープリカレントニューラルネットワークアーキテクチャを導入する。 このアーキテクチャは、私たちがgamma-netと呼ぶもので、最先端のフィードフォワードネットワークよりも良いサンプル効率で輪郭検出タスクを解き、またオリエンテーション・チルト錯覚として知られる古典的な知覚錯覚を示す。 この錯覚の修正は、高レベルオブジェクト境界輪郭よりも低レベルエッジを好むようにすることで、ガンマネット輪郭検出精度を大幅に低下させる。 全体的に、向き付けチルト錯覚は、生体視覚系が堅牢で効率的な輪郭検出を達成するのに役立つ神経回路の副産物であり、これらの回路を人工ニューラルネットワークに組み込むことでコンピュータビジョンを改善することができることを示唆している。

We introduce a deep recurrent neural network architecture that approximates visual cortical circuits. We show that this architecture, which we refer to as the gamma-net, learns to solve contour detection tasks with better sample efficiency than state-of-the-art feedforward networks, while also exhibiting a classic perceptual illusion, known as the orientation-tilt illusion. Correcting this illusion significantly reduces gamma-net contour detection accuracy by driving it to prefer low-level edges over high-level object boundary contours. Overall, our study suggests that the orientation-tilt illusion is a byproduct of neural circuits that help biological visual systems achieve robust and efficient contour detection, and that incorporating these circuits in artificial neural networks can improve computer vision.
翻訳日:2022-10-01 22:10:20 公開日:2020-10-29
# 分別データを用いた一般化マージン最大化器(GMM)の性能解析

The Performance Analysis of Generalized Margin Maximizer (GMM) on Separable Data ( http://arxiv.org/abs/2010.15379v1 )

ライセンス: Link先を確認
Fariborz Salehi, Ehsan Abbasi, Babak Hassibi(参考訳) 論理モデルは二項分類タスクによく使用される。 このようなモデルの成功は、しばしば最大形推定器との接続によるものである。 勾配降下アルゴリズムがロジスティック損失に適用されると、最大マージン分類器(ハードマージンSVM)に収束することが示されている。 Max-margin分類器の性能を最近分析した。 本稿では,これらの結果に触発されて,ロジスティックモデルの基本パラメータが特定の構造(スパース,ブロックスパース,ローランクなど)を持ち,より一般的な枠組み(「一般化マージン最大化器」と呼ばれる)を導入するような,より一般的な設定を提示・検討する。 古典的な最大値分類器はデータを線形に分離するためにパラメータベクトルの2$ノルムを最小化するが、GMMはパラメータベクトルの任意の凸関数を最小化する。 非線形方程式の解法を用いてGMMの性能を正確に解析する。 最大マージン分類器である$\ell_2$-gmm ($$) $\ell_1$-gmm ($2$) スパーシティを奨励する$\ell_1$-gmm ($3$) $\ell_{\infty}$-gmm パラメータベクトルがバイナリエントリを持つ場合によく使用される) という3つの特別なケースについて詳細な研究も行っています。 我々の理論結果は,パラメータ値,問題インスタンス,モデル構造など,幅広いシミュレーション結果によって検証される。

Logistic models are commonly used for binary classification tasks. The success of such models has often been attributed to their connection to maximum-likelihood estimators. It has been shown that gradient descent algorithm, when applied on the logistic loss, converges to the max-margin classifier (a.k.a. hard-margin SVM). The performance of the max-margin classifier has been recently analyzed. Inspired by these results, in this paper, we present and study a more general setting, where the underlying parameters of the logistic model possess certain structures (sparse, block-sparse, low-rank, etc.) and introduce a more general framework (which is referred to as "Generalized Margin Maximizer", GMM). While classical max-margin classifiers minimize the $2$-norm of the parameter vector subject to linearly separating the data, GMM minimizes any arbitrary convex function of the parameter vector. We provide a precise analysis of the performance of GMM via the solution of a system of nonlinear equations. We also provide a detailed study for three special cases: ($1$) $\ell_2$-GMM that is the max-margin classifier, ($2$) $\ell_1$-GMM which encourages sparsity, and ($3$) $\ell_{\infty}$-GMM which is often used when the parameter vector has binary entries. Our theoretical results are validated by extensive simulation results across a range of parameter values, problem instances, and model structures.
翻訳日:2022-10-01 22:09:44 公開日:2020-10-29
# リプシッツ値反復によるオフポリシィ区間推定

Off-Policy Interval Estimation with Lipschitz Value Iteration ( http://arxiv.org/abs/2010.15392v1 )

ライセンス: Link先を確認
Ziyang Tang, Yihao Feng, Na Zhang, Jian Peng, Qiang Liu(参考訳) オフ政治評価は、観察されたデータのみを使用して異なるポリシーや治療の効果を評価するための重要なツールを提供する。 医療診断や金融意思決定などの高額なシナリオに適用する場合は、従来の単一点推定だけでなく、期待される報酬の上下限をエンドユーザーに提供することが極めて重要であり、政策の貧弱化は非常にコストがかかる。 本研究では, 一般の連続した環境下での政治外評価のための区間境界を求める方法を提案する。 この考え方は、リプシッツ函数空間上の制約付き最適化問題を解くことにつながる観測と一致する全てのリプシッツ Q-函数の中で、期待される報酬の最大値と最小値を求めることである。 我々は,単調に区間を締め付けるリプシッツ値反復法を導入する。 本稿では,本手法の実用的有効性を示す。

Off-policy evaluation provides an essential tool for evaluating the effects of different policies or treatments using only observed data. When applied to high-stakes scenarios such as medical diagnosis or financial decision-making, it is crucial to provide provably correct upper and lower bounds of the expected reward, not just a classical single point estimate, to the end-users, as executing a poor policy can be very costly. In this work, we propose a provably correct method for obtaining interval bounds for off-policy evaluation in a general continuous setting. The idea is to search for the maximum and minimum values of the expected reward among all the Lipschitz Q-functions that are consistent with the observations, which amounts to solving a constrained optimization problem on a Lipschitz function space. We go on to introduce a Lipschitz value iteration method to monotonically tighten the interval, which is simple yet efficient and provably convergent. We demonstrate the practical efficiency of our method on a range of benchmarks.
翻訳日:2022-10-01 22:08:54 公開日:2020-10-29
# カーネルベースペアワイズ学習のロバスト性について

On the robustness of kernel-based pairwise learning ( http://arxiv.org/abs/2010.15527v1 )

ライセンス: Link先を確認
Patrick Gensler and Andreas Christmann(参考訳) カーネルベースペアワイズ学習の統計的ロバスト性に関する多くの結果が、入力空間と出力空間の仮定のもとに導出できることが示されている。 特に、x = x が与えられた y の条件分布上のモーメント条件や出力空間の有界性は必要ではない。 本研究では,影響関数の存在と有界性に関する結果を求め,カーネルベース推定器の質的ロバスト性を示す。 本稿では,Christmann and Zhou (2016) による結果を一般化し,予測関数が2つの議論を行えるようにし,ランキングなどの様々な状況に適用できることを示す。

It is shown that many results on the statistical robustness of kernel-based pairwise learning can be derived under basically no assumptions on the input and output spaces. In particular neither moment conditions on the conditional distribution of Y given X = x nor the boundedness of the output space is needed. We obtain results on the existence and boundedness of the influence function and show qualitative robustness of the kernel-based estimator. The present paper generalizes results by Christmann and Zhou (2016) by allowing the prediction function to take two arguments and can thus be applied in a variety of situations such as ranking.
翻訳日:2022-10-01 22:08:35 公開日:2020-10-29
# 学ぶべきでないことを教える

Teaching a GAN What Not to Learn ( http://arxiv.org/abs/2010.15639v1 )

ライセンス: Link先を確認
Siddarth Asokan and Chandra Sekhar Seelamantula(参考訳) generative adversarial networks (gans) は元々、目標分布に従うことを学習する教師なし生成モデルとして考えられていた。 ラベル付きデータを提供し、マルチクラス判別器を使用することで、教師付きおよび半教師付き学習フレームワークに対して、条件付きGAN、補助クラス化GAN(ACGAN)プロジェクトGANを運用する。 本稿では,異なる視点から監督されたgan問題にアプローチする。これはペルシャの有名な詩人ルミの哲学に動機づけられ,「理解する術は何を無視すべきかを知ることである」と述べている。 GANフレームワークでは、モデリングで学ばなければならないGANのポジティブなデータだけでなく、回避するために学ぶべき、いわゆるネガティブなサンプルも提示します。 この定式化により、識別器は、望ましくない生成サンプルをペナル化することで、基礎となるターゲット分布をより良く表現することができる。 本稿では,Rumi 設定における標準 GAN (SGAN) と最小二乗 GAN (LSGAN) の再構成について述べる。 この改定の利点は、MNIST、Fashion MNIST、CelebA、CIFAR-10データセットで実施された実験によって示される。 最後に,不均衡データセットで表現不足のクラスを学習する重要な問題に対処するために,提案手法の適用を検討する。 Rumiアプローチでは、より優れた一般化能力を持ちながら、標準のGANフレームワークよりもかなり低いFIDスコアが得られる。

Generative adversarial networks (GANs) were originally envisioned as unsupervised generative models that learn to follow a target distribution. Variants such as conditional GANs, auxiliary-classifier GANs (ACGANs) project GANs on to supervised and semi-supervised learning frameworks by providing labelled data and using multi-class discriminators. In this paper, we approach the supervised GAN problem from a different perspective, one that is motivated by the philosophy of the famous Persian poet Rumi who said, "The art of knowing is knowing what to ignore." In the GAN framework, we not only provide the GAN positive data that it must learn to model, but also present it with so-called negative samples that it must learn to avoid - we call this "The Rumi Framework." This formulation allows the discriminator to represent the underlying target distribution better by learning to penalize generated samples that are undesirable - we show that this capability accelerates the learning process of the generator. We present a reformulation of the standard GAN (SGAN) and least-squares GAN (LSGAN) within the Rumi setting. The advantage of the reformulation is demonstrated by means of experiments conducted on MNIST, Fashion MNIST, CelebA, and CIFAR-10 datasets. Finally, we consider an application of the proposed formulation to address the important problem of learning an under-represented class in an unbalanced dataset. The Rumi approach results in substantially lower FID scores than the standard GAN frameworks while possessing better generalization capability.
翻訳日:2022-10-01 22:08:05 公開日:2020-10-29
# 世界モデルを用いた低分散政策勾配推定

Low-Variance Policy Gradient Estimation with World Models ( http://arxiv.org/abs/2010.15622v1 )

ライセンス: Link先を確認
Michal Nauman and Floris Den Hengst(参考訳) 本稿では,学習世界モデル(wm)を用いて,政策勾配推定のばらつきを低減させる手法であるworld model policy gradient (wmpg)を提案する。 WMPGでは、WMはオンラインで訓練され、軌跡を想像するために使用される。 想像上の軌道は2つの方法で使用される。 まず、政策勾配の非置換推定器を算出する。 第二に、想像された軌跡の返却が情報ベースラインとして使用される。 複雑性が増大する環境(CartPole、LunarLander、Pong)において、提案手法をACとMACと比較し、WMPGがより優れたサンプル効率を持つことを示した。 これらの結果から,WMPGは環境の頑健な潜在表現を学習できる場合に,サンプル効率を高めることができると結論付けた。

In this paper, we propose World Model Policy Gradient (WMPG), an approach to reduce the variance of policy gradient estimates using learned world models (WM's). In WMPG, a WM is trained online and used to imagine trajectories. The imagined trajectories are used in two ways. Firstly, to calculate a without-replacement estimator of the policy gradient. Secondly, the return of the imagined trajectories is used as an informed baseline. We compare the proposed approach with AC and MAC on a set of environments of increasing complexity (CartPole, LunarLander and Pong) and find that WMPG has better sample efficiency. Based on these results, we conclude that WMPG can yield increased sample efficiency in cases where a robust latent representation of the environment can be learned.
翻訳日:2022-10-01 22:02:05 公開日:2020-10-29
# Retrieve, Program, Repeat: Alternate Meta-learningによる複雑な知識ベース質問応答

Retrieve, Program, Repeat: Complex Knowledge Base Question Answering via Alternate Meta-learning ( http://arxiv.org/abs/2010.15875v1 )

ライセンス: Link先を確認
Yuncheng Hua, Yuan-Fang Li, Gholamreza Haffari, Guilin Qi and Wei Wu(参考訳) 複雑な質問への回答に対する説得力のあるアプローチは、質問を一連のアクションに変換することである。 同様のトレーニング質問をテスト質問に使用すれば、メタラーニングによってプログラマは、潜在的な分布バイアスに素早く取り組むために、目に見えない質問に適応することができる。 しかし、これは同じような質問を手動でラベル付けして検索モデルを学ぶコストがかかる。 本稿では,プログラマと交互に検索モデルを自動的に学習する手法を提案する。 我々の知る限りでは、これはプログラマと共同で検索モデルをトレーニングする最初の試みである。 本システムは,知識ベースに対する複雑な質問応答を行う大規模タスクにおいて,最先端のパフォーマンスを実現する。 私たちはコードをhttps://github.com/devinjake/marlでリリースしました。

A compelling approach to complex question answering is to convert the question to a sequence of actions, which can then be executed on the knowledge base to yield the answer, aka the programmer-interpreter approach. Use similar training questions to the test question, meta-learning enables the programmer to adapt to unseen questions to tackle potential distributional biases quickly. However, this comes at the cost of manually labeling similar questions to learn a retrieval model, which is tedious and expensive. In this paper, we present a novel method that automatically learns a retrieval model alternately with the programmer from weak supervision, i.e., the system's performance with respect to the produced answers. To the best of our knowledge, this is the first attempt to train the retrieval model with the programmer jointly. Our system leads to state-of-the-art performance on a large-scale task for complex question answering over knowledge bases. We have released our code at https://github.com/DevinJake/MARL.
翻訳日:2022-10-01 22:00:44 公開日:2020-10-29
# メタ強化学習による難解な知識ベース質問応答

Few-Shot Complex Knowledge Base Question Answering via Meta Reinforcement Learning ( http://arxiv.org/abs/2010.15877v1 )

ライセンス: Link先を確認
Yuncheng Hua, Yuan-Fang Li, Gholamreza Haffari, Guilin Qi and Tongtong Wu(参考訳) 複雑な質問答え(CQA)は、知識ベース(KB)で複雑な自然言語の質問に答えることである。 しかしながら、従来のニューラルプログラム誘導(NPI)アプローチは、質問が異なるタイプを持つ場合、不均一なパフォーマンスを示し、本質的に異なる特徴を持つ。 本稿では,CQAにおけるプログラム誘導のためのメタ強化学習手法を提案する。 本手法は,学習データから得られた最も類似した質問に基づいて,メタ学習したプログラマを新しい質問に迅速かつ効果的に適用する。 メタ学習されたポリシーは、適切なプログラミングポリシーを学ぶのに使われ、サポートセットにおける同様の質問に対する試行的な軌道と報酬を利用する。 提案手法は,CQAデータセット(Saha et al., 2018)において,各サポートセットのトップ5検索質問に対して,5つのトライアルトラジェクトリのみを使用し,トレーニングセットのわずか1%から構築したタスクのメタトレーニングを行う。 コードをhttps://github.com/DevinJake/MRL-CQAでリリースしました。

Complex question-answering (CQA) involves answering complex natural-language questions on a knowledge base (KB). However, the conventional neural program induction (NPI) approach exhibits uneven performance when the questions have different types, harboring inherently different characteristics, e.g., difficulty level. This paper proposes a meta-reinforcement learning approach to program induction in CQA to tackle the potential distributional bias in questions. Our method quickly and effectively adapts the meta-learned programmer to new questions based on the most similar questions retrieved from the training data. The meta-learned policy is then used to learn a good programming policy, utilizing the trial trajectories and their rewards for similar questions in the support set. Our method achieves state-of-the-art performance on the CQA dataset (Saha et al., 2018) while using only five trial trajectories for the top-5 retrieved questions in each support set, and metatraining on tasks constructed from only 1% of the training set. We have released our code at https://github.com/DevinJake/MRL-CQA.
翻訳日:2022-10-01 22:00:29 公開日:2020-10-29
# less is more: 知識ベースよりもデータ効率のよい複雑な質問に答える

Less is More: Data-Efficient Complex Question Answering over Knowledge Bases ( http://arxiv.org/abs/2010.15881v1 )

ライセンス: Link先を確認
Yuncheng Hua, Yuan-Fang Li, Guilin Qi, Wei Wu, Jingyao Zhang, Daiqing Qi(参考訳) 質問応答は知識ベース(KB)から情報を得る効果的な方法である。 本稿では,ニューラルネットワークを用いた複雑な質問応答のためのデータ効率強化学習フレームワークNS-CQA(Neural-Symbolic Complex Question Answering)モデルを提案する。 我々のフレームワークはニューラルジェネレータとシンボリックエグゼキュータから構成されており、自然言語の質問を原始的な行動列に変換し、それを知識ベース上で実行して答えを計算する。 ニューラルネットワークの設計を単純化するだけでなく、モデル収束を加速するプリミティブなシンボリックアクションのセットを慎重に定式化します。 本稿では,デコーダの出力語彙を大幅に削減し,モデル一般化性を向上させるために,エンコーダデコーダアーキテクチャのコピーとマスキング機構を用いる。 我々は,ハイリワード有望なプログラムを格納するメモリバッファをモデルに装備する。 また,適応型報酬関数を提案する。 生成した試行とメモリバッファに格納された試行を比較して、カリキュラムに導かれた報酬ボーナス、すなわち近さと新しさを導出する。 スパース報酬問題を軽減するため、適応報酬と報酬ボーナスを組み合わせることで、スパース報酬を密集したフィードバックに再構成する。 また,データ効率を向上させるために,過去のハイリワードトライアルを思い出させると同時に,スプリアストライアルの模倣を避けるために,モデルに新たなトライアルの生成を促す。 我々のNS-CQAモデルは、最近の大規模複雑質問応答データセットCQAと、マルチホップ質問応答データセットWebQuestionsSPの2つのデータセットで評価されている。 どちらのデータセットでも、私たちのモデルは最先端のモデルよりも優れています。 特に、CQAでは、NS-CQAはより複雑度の高い質問に対して、全体のトレーニングサンプルの約1%しか使用していない。

Question answering is an effective method for obtaining information from knowledge bases (KB). In this paper, we propose the Neural-Symbolic Complex Question Answering (NS-CQA) model, a data-efficient reinforcement learning framework for complex question answering by using only a modest number of training samples. Our framework consists of a neural generator and a symbolic executor that, respectively, transforms a natural-language question into a sequence of primitive actions, and executes them over the knowledge base to compute the answer. We carefully formulate a set of primitive symbolic actions that allows us to not only simplify our neural network design but also accelerate model convergence. To reduce search space, we employ the copy and masking mechanisms in our encoder-decoder architecture to drastically reduce the decoder output vocabulary and improve model generalizability. We equip our model with a memory buffer that stores high-reward promising programs. Besides, we propose an adaptive reward function. By comparing the generated trial with the trials stored in the memory buffer, we derive the curriculum-guided reward bonus, i.e., the proximity and the novelty. To mitigate the sparse reward problem, we combine the adaptive reward and the reward bonus, reshaping the sparse reward into dense feedback. Also, we encourage the model to generate new trials to avoid imitating the spurious trials while making the model remember the past high-reward trials to improve data efficiency. Our NS-CQA model is evaluated on two datasets: CQA, a recent large-scale complex question answering dataset, and WebQuestionsSP, a multi-hop question answering dataset. On both datasets, our model outperforms the state-of-the-art models. Notably, on CQA, NS-CQA performs well on questions with higher complexity, while only using approximately 1% of the total training samples.
翻訳日:2022-10-01 22:00:08 公開日:2020-10-29
# 臨床テキストからの多発性硬化度分類

Multiple Sclerosis Severity Classification From Clinical Text ( http://arxiv.org/abs/2010.15316v1 )

ライセンス: Link先を確認
Alister D Costa, Stefan Denkovski, Michal Malyska, Sae Young Moon, Brandon Rufino, Zhen Yang, Taylor Killian, Marzyeh Ghassemi(参考訳) 多発性硬化症 (Multiple Sclerosis, MS) は、慢性、炎症性、変性性神経疾患であり、EDSS(Expanded Disability Status Scale)を用いて専門医が監視し、神経診断ノートの形で非構造化テキストに記録される。 EDSS測定には、全体的な「EDSS」スコアといくつかの機能サブスコアが含まれる。 通常、専門家の知識は、コンサルタントノートを解釈し、これらのスコアを生成するために必要となる。 以前のアプローチでは、限られたコンテキスト長のWord2Vec埋め込みとキーワード検索を使用して、コンサルティングノートが与えられたスコアを予測するが、スコアが明示されていないときに失敗することが多い。 本研究は,MIMIC以外の臨床データに基づいてトレーニングされた最初の公開トランスフォーマーモデルであるMS-BERTを提案する。 次に、MS-BERTを用いて埋め込みを生成し、EDSSと関数サブスコアを予測する分類器MSBCを提案する。 最後に,snorkelを用いて,msbcを他のモデルと組み合わせることで,ラベルなしのコンサルタントノートのスコアを生成する方法を検討した。 MSBCはすべてのメトリクスと予測タスクで最先端のパフォーマンスを達成し、Snorkelアンサンブルから生成されたモデルより優れている。 我々は,これまでの word2vec cnn およびルールベースアプローチに対する機能的サブスコアの予測のために,マクロf1 を 0.12 (to 0.88) に改善し,平均 0.29 (to 0.63) に改善した。

Multiple Sclerosis (MS) is a chronic, inflammatory and degenerative neurological disease, which is monitored by a specialist using the Expanded Disability Status Scale (EDSS) and recorded in unstructured text in the form of a neurology consult note. An EDSS measurement contains an overall "EDSS" score and several functional subscores. Typically, expert knowledge is required to interpret consult notes and generate these scores. Previous approaches used limited context length Word2Vec embeddings and keyword searches to predict scores given a consult note, but often failed when scores were not explicitly stated. In this work, we present MS-BERT, the first publicly available transformer model trained on real clinical data other than MIMIC. Next, we present MSBC, a classifier that applies MS-BERT to generate embeddings and predict EDSS and functional subscores. Lastly, we explore combining MSBC with other models through the use of Snorkel to generate scores for unlabelled consult notes. MSBC achieves state-of-the-art performance on all metrics and prediction tasks and outperforms the models generated from the Snorkel ensemble. We improve Macro-F1 by 0.12 (to 0.88) for predicting EDSS and on average by 0.29 (to 0.63) for predicting functional subscores over previous Word2Vec CNN and rule-based approaches.
翻訳日:2022-10-01 21:59:20 公開日:2020-10-29