このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。



PDF登録状況(公開日: 20220204)

# (参考訳) 識別情報データ拡張法によるテキスト分類タスクの公平性 [全文訳有]

Fairness for Text Classification Tasks with Identity Information Data Augmentation Methods ( http://arxiv.org/abs/2203.03541v1 )

ライセンス: CC BY 4.0
Mohit Wadhwa, Mohan Bhambhani, Ashvini Jindal, Uma Sawant, Ramanujam Madhavan(参考訳) テキストインスタンスで参照されるセンシティブなアイデンティティ属性が異なる場合、予測はどのように変化するのか? これらのメソッドは、与えられたトレーニングとテストセットインスタンスの偽物を生成することに完全に基づいています。 反事実インスタンスは一般的に、そのインスタンスに存在する識別用語を、同じ機密カテゴリに属する他の識別用語に置き換えることによって作成される。 したがって、これらの手法の有効性はアイデンティティペアの品質と包括性に大きく依存する。 本稿では,(1)前段階が単語埋め込みによるアイデンティティペアの包括的リストを作成する新しい方法,(2)前段階が3つの単純な操作(アイデンティティペア置換,アイデンティティ項盲点,アイデンティティペアスワップ)を適用してトレーニングインスタンスを強化するためのidペアリストを利用する2段階データ拡張プロセスを提案する。 2段階の増補プロセスが多様なアイデンティティペアと強化されたトレーニングセットにつながり、2つのよく知られたテキスト分類タスクにおいて、反事実的トークンベースの公平度メトリックスコアが改善されたことを実証的に示す。

Counterfactual fairness methods address the question: How would the prediction change if the sensitive identity attributes referenced in the text instance were different? These methods are entirely based on generating counterfactuals for the given training and test set instances. Counterfactual instances are commonly prepared by replacing sensitive identity terms, i.e., the identity terms present in the instance are replaced with other identity terms that fall under the same sensitive category. Therefore, the efficacy of these methods depends heavily on the quality and comprehensiveness of identity pairs. In this paper, we offer a two-step data augmentation process where (1) the former stage consists of a novel method for preparing a comprehensive list of identity pairs with word embeddings, and (2) the latter consists of leveraging prepared identity pairs list to enhance the training instances by applying three simple operations (namely identity pair replacement, identity term blindness, and identity pair swap). We empirically show that the two-stage augmentation process leads to diverse identity pairs and an enhanced training set, with an improved counterfactual token-based fairness metric score on two well-known text classification tasks.
翻訳日:2022-03-13 17:30:28 公開日:2022-02-04
# 環境損失を考慮した自動運転車の行動クローニング

Enhanced Behavioral Cloning with Environmental Losses for Self-Driving Vehicles ( http://arxiv.org/abs/2202.09271v1 )

ライセンス: Link先を確認
Nelson Fernandez Pinto and Thomas Gilles(参考訳) 学習パスプランナーは、人間の運転行動と迅速な推論をモデル化する能力から研究の関心を集めている。 行動クローニングに関する最近の研究は、複雑な運転シナリオを扱うのに専門家観察の単純な模倣は不十分であることを示している。 さらに、乾燥可能な地域の外に着陸する予測は、潜在的に危険な状況を引き起こす可能性がある。 本稿では,経路計画におけるリスクの高い社会的相互作用のモデル化を考慮し,社会損失と道路損失という一連の損失関数を提案する。 これらの損失は、非乾燥領域を取り囲む反発スカラー場として作用する。 これらの地域の近傍に上陸する予測は、バックプロパゲーションによって最小限に抑えられる訓練コストが高い。 この方法論は、従来の教師付き学習セットアップに追加の環境フィードバックを提供する。 このアプローチを大規模都市運転データセットで検証した。 その結果、エージェントは、より優れた安全性指標を示しながら、人間の運転を模倣することを学びます。 さらに,提案手法は,安全でない運転例を人工的に生成することなく,推論に肯定的な影響を与える。 説明可能性の研究は、得られた利点は、従来の行動のクローニングと比較して、エージェントの決定における非乾燥領域の関連性が高いことを示唆している。

Learned path planners have attracted research interest due to their ability to model human driving behavior and rapid inference. Recent works on behavioral cloning show that simple imitation of expert observations is not sufficient to handle complex driving scenarios. Besides, predictions that land outside drivable areas can lead to potentially dangerous situations. This paper proposes a set of loss functions, namely Social loss and Road loss, which account for modelling risky social interactions in path planning. These losses act as a repulsive scalar field that surrounds non-drivable areas. Predictions that land near these regions incur in a higher training cost, which is minimized using backpropagation. This methodology provides additional environment feedback to the traditional supervised learning set up. We validated this approach on a large-scale urban driving dataset. The results show the agent learns to imitate human driving while exhibiting better safety metrics. Furthermore, the proposed methodology has positive effects on inference without the need to artificially generate unsafe driving examples. The explanability study suggests that the benefits obtained are associated with a higher relevance of non-drivable areas in the agent's decisions compared to classical behavioral cloning.
翻訳日:2022-02-27 17:36:37 公開日:2022-02-04
# (参考訳) 関係性人工知能 [全文訳有]

Relational Artificial Intelligence ( http://arxiv.org/abs/2202.07446v1 )

ライセンス: CC BY 4.0
Virginia Dignum(参考訳) 人工知能の影響は基礎研究や技術開発に限らず、これらのシステムが社会にどのように導入され、日常的に使用されるかに大きく依存している。 aiは伝統的に合理的な意思決定、理解、そしてあらゆる面におけるaiの社会的影響を形作るには、関係論的視点が必要です。 計算アルゴリズムが人間の介入、洞察、感情から独立して意思決定を駆動するAIに対する合理的なアプローチは、偏見と排除をもたらし、裸の社会的脆弱性と不正確さを生じさせる。 物事のリレーショナルな性質に焦点を当てたリレーショナルアプローチは、AIの倫理的、法的、社会的、文化的、環境的な影響を扱うために必要である。 aiに対するリレーショナルなアプローチは、客観的な推論と合理的な推論は、意思決定が行われる状況のダイナミクスに依存しており、倫理的な問題を解決する代わりに、aiの設計と使用の焦点が倫理的な質問に向けられなければならないため、必ずしも「正しい」方法をもたらすとは限らないと認識している。 このポジションペーパーでは、AIの現在の概念化に関する一般的な議論に続いて、ガバナンスに対する既存のアプローチの概要とAIの開発と利用について述べます。 次に、私は、aiの社会パラダイムの基盤となるべきもの、そしてそれがリレーショナル、フェミニスト、非西洋の哲学、特にubuntu哲学にどのように組み込まれるべきかを考察します。

The impact of Artificial Intelligence does not depend only on fundamental research and technological developments, but for a large part on how these systems are introduced into society and used in everyday situations. Even though AI is traditionally associated with rational decision making, understanding and shaping the societal impact of AI in all its facets requires a relational perspective. A rational approach to AI, where computational algorithms drive decision making independent of human intervention, insights and emotions, has shown to result in bias and exclusion, laying bare societal vulnerabilities and insecurities. A relational approach, that focus on the relational nature of things, is needed to deal with the ethical, legal, societal, cultural, and environmental implications of AI. A relational approach to AI recognises that objective and rational reasoning cannot does not always result in the 'right' way to proceed because what is 'right' depends on the dynamics of the situation in which the decision is taken, and that rather than solving ethical problems the focus of design and use of AI must be on asking the ethical question. In this position paper, I start with a general discussion of current conceptualisations of AI followed by an overview of existing approaches to governance and responsible development and use of AI. Then, I reflect over what should be the bases of a social paradigm for AI and how this should be embedded in relational, feminist and non-Western philosophies, in particular the Ubuntu philosophy.
翻訳日:2022-02-20 17:52:35 公開日:2022-02-04
# 予算付き広告キャンペーンにおける最適散布率推定とペイシング

Optimal Spend Rate Estimation and Pacing for Ad Campaigns with Budgets ( http://arxiv.org/abs/2202.05881v1 )

ライセンス: Link先を確認
Bhuvesh Kumar, Jamie Morgenstern, and Okke Schrijvers(参考訳) オンライン広告プラットフォームは、予算制約によってコンバージョン数を最大化しようとする広告主に予算管理ツールを提供する。 インプレッションの量、変換率、価格が時間とともに変化するにつれて、これらの予算管理システムは支出計画(予算の最適配分を見つけるために)を学び、支出計画に従うペーシングアルゴリズムを実行する。 本稿では、時間によって異なる印象と競争の2つのモデルについて考察する。 a)各エピソードに定常性を示すが,各エピソードは次のエピソードと任意に異なることができるエピソディクスモデル,及び b)価格と価値の分布が時間とともにゆっくりと変化するモデル 本稿では,支出計画の正確性と,その結果のエンドツーエンドの予算管理システムの両方について,最初の学習理論的保証を示す。 主な結果が4つあります 1) エピソディック設定では、各エピソードから与えられた$n$ のサンプルを高い確率で与えると、$|\widehat{\rho}_e - \rho_e| \leq \tilde{o}(\frac{1}{n^{1/3}})$ ここで$\rho_e$ はエピソードの最適な支出率、$\widehat{\rho}_e$ はアルゴリズムからの見積もりである。 2)BalseiroとGur(2017)のアルゴリズムを拡張して、様々な近似的な支出率で運用し、その結果得られた最適支出率推定とエピソード設定のためのオンラインペイシングアルゴリズムの組み合わせが、歴史的なサンプル数$n$とラウンド数$T$の減少を後悔していることを示す。 3)非等方的だが緩やかに変化する分布に対して、同じアプローチが最適入札戦略を、分布の変化率に依存する要因まで近似することを示す。 4)我々のアルゴリズムが,様々な設定で静的支出計画と非ペーシングの両方を上回っていることを示す実験を行った。

Online ad platforms offer budget management tools for advertisers that aim to maximize the number of conversions given a budget constraint. As the volume of impressions, conversion rates and prices vary over time, these budget management systems learn a spend plan (to find the optimal distribution of budget over time) and run a pacing algorithm which follows the spend plan. This paper considers two models for impressions and competition that varies with time: a) an episodic model which exhibits stationarity in each episode, but each episode can be arbitrarily different from the next, and b) a model where the distributions of prices and values change slowly over time. We present the first learning theoretic guarantees on both the accuracy of spend plans and the resulting end-to-end budget management system. We present four main results: 1) for the episodic setting we give sample complexity bounds for the spend rate prediction problem: given $n$ samples from each episode, with high probability we have $|\widehat{\rho}_e - \rho_e| \leq \tilde{O}(\frac{1}{n^{1/3}})$ where $\rho_e$ is the optimal spend rate for the episode, $\widehat{\rho}_e$ is the estimate from our algorithm, 2) we extend the algorithm of Balseiro and Gur (2017) to operate on varying, approximate spend rates and show that the resulting combined system of optimal spend rate estimation and online pacing algorithm for episodic settings has regret that vanishes in number of historic samples $n$ and the number of rounds $T$, 3) for non-episodic but slowly-changing distributions we show that the same approach approximates the optimal bidding strategy up to a factor dependent on the rate-of-change of the distributions and 4) we provide experiments showing that our algorithm outperforms both static spend plans and non-pacing across a wide variety of settings.
翻訳日:2022-02-20 16:30:27 公開日:2022-02-04
# (参考訳) 構造化予測問題アーカイブ [全文訳有]

Structured Prediction Problem Archive ( http://arxiv.org/abs/2202.03574v1 )

ライセンス: CC BY 4.0
Paul Swoboda, Andrea Hornakova, Paul Roetzer, Ahmed Abbas(参考訳) 構造化予測問題は、機械学習の基本的なツールの1つである。 数値解のアルゴリズム開発を容易にするために,多数のデータセットを多種多様な問題クラスに対して読みやすい形式で一箇所に集める。 データセットへのアーカイブリンク、考慮された問題と問題フォーマットの説明、サイズ、インスタンス数などの問題特性の簡単な要約を提供する。 参考までに、論文で提案されているアルゴリズムの非排他的選択も提案する。 この中央リポジトリによって、確立した作業に対するベンチマークや比較がより簡単になることを期待しています。 アーカイブに含まれる興味深い新しいデータセットとアルゴリズムの提出を歓迎します。

Structured prediction problems are one of the fundamental tools in machine learning. In order to facilitate algorithm development for their numerical solution, we collect in one place a large number of datasets in easy to read formats for a diverse set of problem classes. We provide archival links to datasets, description of the considered problems and problem formats, and a short summary of problem characteristics including size, number of instances etc. For reference we also give a non-exhaustive selection of algorithms proposed in the literature for their solution. We hope that this central repository will make benchmarking and comparison to established works easier. We welcome submission of interesting new datasets and algorithms for inclusion in our archive.
翻訳日:2022-02-13 21:39:16 公開日:2022-02-04
# (参考訳) クラス不均衡学習のためのオーバーサンプリングをやめる - 批判的レビュー [全文訳有]

Stop Oversampling for Class Imbalance Learning: A Critical Review ( http://arxiv.org/abs/2202.03579v1 )

ライセンス: CC BY 4.0
Ahmad B. Hassanat, Ahmad S. Tarawneh, Ghada A. Altarawneh(参考訳) 過去20年間、不均衡なデータセットから学ぶという課題を克服するために、オーバーサンプリングが用いられてきた。 この課題を解決する多くのアプローチが文献に提示されている。 一方、オーバーサンプリングは懸念事項である。 つまり、架空のデータに基づいてトレーニングされたモデルは、現実世界の問題に当てはまると劇的に失敗する可能性がある。 オーバーサンプリングアプローチの根本的な難しさは、実生個体数を考えると、合成標本が真のマイノリティクラスに属していないことである。 結果として、これらのサンプルをマイノリティを表すふりをして分類器を訓練すると、モデルが現実世界で使われているときに誤った予測が生じる可能性がある。 本稿では,多数のオーバーサンプリング手法を分析し,多数のサンプルを隠蔽し,オーバーサンプリングプロセスによって生成されたものと比較した新しいオーバーサンプリング評価システムを考案した。 評価システムに基づいて,これらすべての手法を,不正に生成された比較例に基づいて分類した。 70以上のオーバーサンプリング手法と3つの非バランスな実世界のデータセットを用いた実験により、調査されたオーバーサンプリング手法が多数派である可能性が最も高いマイノリティサンプルを生成することが明らかとなった。 データや手法が手元にある場合、クラス不均衡データから学習するにはオーバーサンプリングが信頼できないため、現実世界のアプリケーションでは避けるべきである。

For the last two decades, oversampling has been employed to overcome the challenge of learning from imbalanced datasets. Many approaches to solving this challenge have been offered in the literature. Oversampling, on the other hand, is a concern. That is, models trained on fictitious data may fail spectacularly when put to real-world problems. The fundamental difficulty with oversampling approaches is that, given a real-life population, the synthesized samples may not truly belong to the minority class. As a result, training a classifier on these samples while pretending they represent minority may result in incorrect predictions when the model is used in the real world. We analyzed a large number of oversampling methods in this paper and devised a new oversampling evaluation system based on hiding a number of majority examples and comparing them to those generated by the oversampling process. Based on our evaluation system, we ranked all these methods based on their incorrectly generated examples for comparison. Our experiments using more than 70 oversampling methods and three imbalanced real-world datasets reveal that all oversampling methods studied generate minority samples that are most likely to be majority. Given data and methods in hand, we argue that oversampling in its current forms and methodologies is unreliable for learning from class imbalanced data and should be avoided in real-world applications.
翻訳日:2022-02-13 21:02:11 公開日:2022-02-04
# (参考訳) AI対応システム構築の6次元 [全文訳有]

The 6-Ds of Creating AI-Enabled Systems ( http://arxiv.org/abs/2202.03172v1 )

ライセンス: CC BY 4.0
John Piorkowski(参考訳) 私たちは現在の人工知能(AI)春の10周年を迎え、過去のAIのハイプサイクルと同様に、AI冬の織り込みの脅威に直面する。 AIの冬は、死の技術的谷をナビゲートする非効果的なアプローチのために起こった。 6-Dフレームワークは、この挑戦をうまくナビゲートするためのエンドツーエンドフレームワークを提供する。 6-Dフレームワークは、潜在的なAIソリューションを特定するために問題分解から始まり、AI対応システムのデプロイに関する考慮で終わる。 本論文では,6次元フレームワークの各コンポーネントと精密医療利用事例について述べる。

We are entering our tenth year of the current Artificial Intelligence (AI) spring, and, as with previous AI hype cycles, the threat of an AI winter looms. AI winters occurred because of ineffective approaches towards navigating the technology valley of death. The 6-D framework provides an end-to-end framework to successfully navigate this challenge. The 6-D framework starts with problem decomposition to identify potential AI solutions, and ends with considerations for deployment of AI-enabled systems. Each component of the 6-D framework and a precision medicine use case is described in this paper.
翻訳日:2022-02-13 20:29:38 公開日:2022-02-04
# (参考訳) MetODSに関する談話:メタ強化学習のためのメタ最適化動的シナプス [全文訳有]

A Discourse on MetODS: Meta-Optimized Dynamical Synapses for Meta-Reinforcement Learning ( http://arxiv.org/abs/2202.02363v1 )

ライセンス: CC BY 4.0
Mathieu Chalvidal, Thomas Serre, Rufin VanRullen(参考訳) 近年のメタ強化学習研究は、新しい文脈における関連する経験を素早く同化し、その政策を適宜適応するために、エージェントに対するmnemonic controlの重要性を強調している。 しかし、過去の経験からフレキシブルな行動適応を支援する計算メカニズムは未解決のままである。 本研究では,脳科学に着想を得たメタ最適化動的シナプスモデルであるmetods(meta-optimize d dynamical synapses)を提案する。 本研究では,政策空間における強力な制御ルールを学習するモデルとして,メトドスの理論的解釈を開発し,強固な強化学習プログラムが自発的に出現することを示す。 さらに,MetODS合成プロセスを管理するメタパラメータを効率的に最適化するフォーマリズムを提案する。 複数の実験や領域において、MetODSは従来のメタ強化学習手法よりも優れているか好適である。 エージェントはワンショット学習を行い、最適な探索・探索戦略にアプローチし、ナビゲーション原則を目に見えない環境に一般化し、適応的なモーターポリシーを学習する強力な能力を示す。

Recent meta-reinforcement learning work has emphasized the importance of mnemonic control for agents to quickly assimilate relevant experience in new contexts and suitably adapt their policy. However, what computational mechanisms support flexible behavioral adaptation from past experience remains an open question. Inspired by neuroscience, we propose MetODS (for Meta-Optimized Dynamical Synapses), a broadly applicable model of meta-reinforcement learning which leverages fast synaptic dynamics influenced by action-reward feedback. We develop a theoretical interpretation of MetODS as a model learning powerful control rules in the policy space and demonstrate empirically that robust reinforcement learning programs emerge spontaneously from them. We further propose a formalism which efficiently optimizes the meta-parameters governing MetODS synaptic processes. In multiple experiments and domains, MetODS outperforms or compares favorably with previous meta-reinforcement learning approaches. Our agents can perform one-shot learning, approaches optimal exploration/exploita tion strategies, generalize navigation principles to unseen environments and demonstrate a strong ability to learn adaptive motor policies.
翻訳日:2022-02-13 20:24:19 公開日:2022-02-04
# (参考訳) 自己監督型医用画像分割のための境界認識情報最大化 [全文訳有]

Boundary-aware Information Maximization for Self-supervised Medical Image Segmentation ( http://arxiv.org/abs/2202.02371v1 )

ライセンス: CC BY 4.0
Jizong Peng, Ping Wang, Marco Pedersoli, Christian Desrosiers(参考訳) 教師なし事前学習は、ラベル付きデータに制限された様々な下流タスクを強化する効果的な方法として証明されている。 様々な方法のうち、対照学習は正対と負対を構築して判別表現を学ぶ。 しかし、セグメンテーションタスクの合理的なペアを教師なしの方法で構築するのは簡単ではない。 本研究では,コントラスト学習の欠点を回避するための,教師なし事前学習フレームワークを提案する。 相互情報最大化と境界対応学習を用いた事前学習タスクとしての教師なしオーバーセグメンテーションの2つの原則から構成した。 2つのベンチマーク・メディカルセグメンテーションデータセットにおける実験結果から,アノテート画像の少ない場合のセグメンテーション性能向上効果が示された。

Unsupervised pre-training has been proven as an effective approach to boost various downstream tasks given limited labeled data. Among various methods, contrastive learning learns a discriminative representation by constructing positive and negative pairs. However, it is not trivial to build reasonable pairs for a segmentation task in an unsupervised way. In this work, we propose a novel unsupervised pre-training framework that avoids the drawback of contrastive learning. Our framework consists of two principles: unsupervised over-segmentation as a pre-train task using mutual information maximization and boundary-aware preserving learning. Experimental results on two benchmark medical segmentation datasets reveal our method's effectiveness in improving segmentation performance when few annotated images are available.
翻訳日:2022-02-13 19:59:06 公開日:2022-02-04
# (参考訳) 大規模不均一グラフ表現学習を用いたコードレビュー勧告 [全文訳有]

Using Large-scale Heterogeneous Graph Representation Learning for Code Review Recommendations ( http://arxiv.org/abs/2202.02385v1 )

ライセンス: CC BY 4.0
Jiyang Zhang, Chandra Maddila, Ram Bairi, Christian Bird, Ujjwal Raizada, Apoorva Agrawal, Yamini Jhawar, Kim Herzig, Arie van Deursen(参考訳) コードレビューは、成熟したソフトウェア開発プロセスにとって不可欠な部分であり、コード変更の最良のレビュアーを特定することは、ソフトウェアエンジニアリングコミュニティで広く受け入れられている問題である。 専門知識や理解に欠けたレビュアーを選択することは、開発を遅らせたり、より多くの欠陥をもたらす可能性がある。 現在、ほとんどのレビュアレコメンデーションシステムは、主に履歴ファイルの変更とレビュー情報に依存しており、過去にファイルを変更したりレビューしたりした人は、将来レビューする最も適している。 これらのアプローチは、資格のあるレビュアーを識別し、推奨することができるが、必要な専門知識を持ち、単に変更したファイルとやりとりしたことがないレビュアーには盲目である可能性がある。 これを解決するために、私たちは、豊富なエンティティ(開発者、リポジトリ、ファイル、プルリクエスト、ワーク-イムなど)と、現代のソースコード管理システムにおけるそれらの関係から構築された社会技術的グラフを活用する、レビュアーレコメンデーションのための新しいアプローチであるCoRALを紹介します。 このグラフにはグラフ畳み込みニューラルネットワークを使用し、332リポジトリ上で2年半の歴史をトレーニングしています。 我々は,コラルがレビュアー選択のマニュアル履歴を極めてうまくモデル化できることを示した。 さらに,広範囲にわたるユーザ調査の結果から,従来のレビュアーのレビュアー推薦が欠落している関連および資格のあるレビュアーを特定し,レビュアーの審査プロセスへの参加を希望することを示す。 最後に、"古典的な"レビュアーのレコメンデーションシステムはより小さな(開発者の観点から)ソフトウェアプロジェクトではパフォーマンスが向上し、coralはより大きなプロジェクトでは優れていることが分かり、"これらをすべて支配するモデルは存在しない"ことを示唆した。

Code review is an integral part of any mature software development process, and identifying the best reviewer for a code change is a well accepted problem within the software engineering community. Selecting a reviewer who lacks expertise and understanding can slow development or result in more defects. To date, most reviewer recommendation systems rely primarily on historical file change and review information; those who changed or reviewed a file in the past are the best positioned to review in the future. We posit that while these approaches are able to identify and suggest qualified reviewers, they may be blind to reviewers who have the needed expertise and have simply never interacted with the changed files before. To address this, we present CORAL, a novel approach to reviewer recommendation that leverages a socio-technical graph built from the rich set of entities (developers, repositories, files, pull requests, work-items, etc.) and their relationships in modern source code management systems. We employ a graph convolutional neural network on this graph and train it on two and a half years of history on 332 repositories. We show that CORAL is able to model the manual history of reviewer selection remarkably well. Further, based on an extensive user study, we demonstrate that this approach identifies relevant and qualified reviewers who traditional reviewer recommenders miss, and that these developers desire to be included in the review process. Finally, we find that "classical" reviewer recommendation systems perform better on smaller (in terms of developers) software projects while CORAL excels on larger projects, suggesting that there is "no one model to rule them all."
翻訳日:2022-02-13 19:29:48 公開日:2022-02-04
# (参考訳) 多変量時系列からの深い動的有効接続推定 [全文訳有]

Deep Dynamic Effective Connectivity Estimation from Multivariate Time Series ( http://arxiv.org/abs/2202.02393v1 )

ライセンス: CC BY 4.0
Usman Mahmood, Zening Fu, Vince Calhoun, Sergey Plis(参考訳) 近年、グラフニューラルネットワーク(GNN)のようなグラフとしてデータを表現する手法は、分類とリンク予測の問題を解決するためにデータ表現と構造を学ぶのに成功している。 このような手法の応用は広く多様であるが、現在の研究の多くは静的グラフの仮定に依存している。 この仮定は、基盤となる接続構造が非定常であり、ほとんど観測されない多くの非常にダイナミックなシステムでは成立しない。 このような状況で静的モデルを使用することで、サブ最適性能が得られる。 対照的に、時間を伴うグラフ構造の変化のモデリングは、アプリケーションが分類を超えたシステムに関する情報を提供することができる。 このタイプの作業の多くは効果的な接続を学ばず、無向グラフを生成するノード間の相互相関に重点を置いている。 無向グラフは神経科学を含む多くの分野において重要な相互作用の方向を捉えることができない。 このギャップを埋めるために,下流分類・予測タスクによって引き起こされる解釈可能な有向および動的グラフを学習する新しいモデルであるdecennt(neural network training)による動的有効接続推定法を開発した。 DECENNTは5つの異なるタスクに対して最先端(SOTA)メソッドを上回り、解釈可能なタスク固有の動的グラフを推論する。 機能的神経画像データから推定された動的グラフは、既存の文献とよく一致し、追加情報を提供する。 さらに、DECENNTの時間的注意モジュールは、多変量時系列データから予測下流タスクに不可欠な時間間隔を特定する。

Recently, methods that represent data as a graph, such as graph neural networks (GNNs) have been successfully used to learn data representations and structures to solve classification and link prediction problems. The applications of such methods are vast and diverse, but most of the current work relies on the assumption of a static graph. This assumption does not hold for many highly dynamic systems, where the underlying connectivity structure is non-stationary and is mostly unobserved. Using a static model in these situations may result in sub-optimal performance. In contrast, modeling changes in graph structure with time can provide information about the system whose applications go beyond classification. Most work of this type does not learn effective connectivity and focuses on cross-correlation between nodes to generate undirected graphs. An undirected graph is unable to capture direction of an interaction which is vital in many fields, including neuroscience. To bridge this gap, we developed dynamic effective connectivity estimation via neural network training (DECENNT), a novel model to learn an interpretable directed and dynamic graph induced by the downstream classification/predi ction task. DECENNT outperforms state-of-the-art (SOTA) methods on five different tasks and infers interpretable task-specific dynamic graphs. The dynamic graphs inferred from functional neuroimaging data align well with the existing literature and provide additional information. Additionally, the temporal attention module of DECENNT identifies time-intervals crucial for predictive downstream task from multivariate time series data.
翻訳日:2022-02-13 19:13:22 公開日:2022-02-04
# (参考訳) BAM: アダプティブメモリを備えたベイズ [全文訳有]

BAM: Bayes with Adaptive Memory ( http://arxiv.org/abs/2202.02405v1 )

ライセンス: CC BY 4.0
Josue Nassar and Jennifer Brennan and Ben Evans and Kendall Lowrey(参考訳) ベイズの定理によるオンライン学習は、新しいデータをエージェントの現在の信念に継続的に組み込むことを可能にする。 しかし、ベイズ法を非定常環境に適用すると適応が遅くなり、誤ったパラメータ値に自信を持って収束する状態推定が得られる。 しかし、この「偽造」の単純なメカニズムは、多くの現実世界の環境が同様の状態を再考するという事実を説明できない。 我々は,エージェントが記憶すべき過去と記憶すべき過去を選択できるようにすることで,過去の経験を生かした新しいフレームワーク bayes with adaptive memory (bam) を提案する。 我々は,BAMが非定常環境におけるベイズ更新規則を一般化することを実証した。 さまざまな実験を通じて、常に変化する世界でBAMが継続的に適応できることを示します。

Online learning via Bayes' theorem allows new data to be continuously integrated into an agent's current beliefs. However, a naive application of Bayesian methods in non-stationary environments leads to slow adaptation and results in state estimates that may converge confidently to the wrong parameter value. A common solution when learning in changing environments is to discard/downweight past data; however, this simple mechanism of "forgetting" fails to account for the fact that many real-world environments involve revisiting similar states. We propose a new framework, Bayes with Adaptive Memory (BAM), that takes advantage of past experience by allowing the agent to choose which past observations to remember and which to forget. We demonstrate that BAM generalizes many popular Bayesian update rules for non-stationary environments. Through a variety of experiments, we demonstrate the ability of BAM to continuously adapt in an ever-changing world.
翻訳日:2022-02-13 18:32:50 公開日:2022-02-04
# (参考訳) 速度の異なる人間の操作動作の分類におけるラベリング技術の影響 [全文訳有]

The influence of labeling techniques in classifying human manipulation movement of different speed ( http://arxiv.org/abs/2202.02426v1 )

ライセンス: CC BY 4.0
Sadique Adnan Siddiqui, Lisa Gutzeit, Frank Kirchner(参考訳) 本研究では,マーカーを用いたモーションキャプチャシステムを用いて記録されたデータに対する人間の動きの分類に対するラベル付け手法の影響について検討する。 データセットは2つの異なるアプローチでラベル付けされ、1つは動画データに基づいており、もう1つはモーションキャプチャシステムで記録された動き軌跡に基づいている。 データセットは2つの異なるアプローチでラベル付けされ、1つは動画データに基づいており、もう1つはモーションキャプチャシステムで記録された動き軌跡に基づいている。 データは、3つの異なる速度(低速、正常、高速)で単純な腕の動きからなる積み重ねシナリオを実行する1人の参加者から記録された。 k-nearest neighbor,random forest,extreme gradient boosting classifier,convoluti onal neural networks (cnn),long short-term memory networks (lstm),およびcnn-lstmネットワークの組み合わせを含む機械学習アルゴリズムは,これらのアーム動作の認識における性能を比較する。 モデルは、低速および正常な速度運動セグメントで実行される動作を訓練し、速いペースの人間の動きからなる動作を一般化した。 トラジェクトリーを用いてラベル付けされた正常なペーストデータに基づいてトレーニングされたモデルは全て、実験ビデオを用いてトレーニングされたモデルと比較して、テストデータに対する精度が約20%向上することが観察された。

In this work, we investigate the influence of labeling methods on the classification of human movements on data recorded using a marker-based motion capture system. The dataset is labeled using two different approaches, one based on video data of the movements, the other based on the movement trajectories recorded using the motion capture system. The dataset is labeled using two different approaches, one based on video data of the movements, the other based on the movement trajectories recorded using the motion capture system. The data was recorded from one participant performing a stacking scenario comprising simple arm movements at three different speeds (slow, normal, fast). Machine learning algorithms that include k-Nearest Neighbor, Random Forest, Extreme Gradient Boosting classifier, Convolutional Neural networks (CNN), Long Short-Term Memory networks (LSTM), and a combination of CNN-LSTM networks are compared on their performance in recognition of these arm movements. The models were trained on actions performed on slow and normal speed movements segments and generalized on actions consisting of fast-paced human movement. It was observed that all the models trained on normal-paced data labeled using trajectories have almost 20% improvement in accuracy on test data in comparison to the models trained on data labeled using videos of the performed experiments.
翻訳日:2022-02-13 18:14:33 公開日:2022-02-04
# (参考訳) インクリメンタルストリーミングレコメンデーションのための軽量組成埋め込み [全文訳有]

Lightweight Compositional Embeddings for Incremental Streaming Recommendation ( http://arxiv.org/abs/2202.02427v1 )

ライセンス: CC BY 4.0
Mengyue Hang, Tobias Schnabel, Longqi Yang, Jennifer Neville(参考訳) グラフベースのレコメンデータシステムにおけるほとんどの作業は、テストノード(ユーザとアイテム)に関するすべての情報がトレーニング時に前もって利用可能となるような {\em static} 設定を考慮する。 しかし、この静的な設定は、データが新しいエッジとノードのストリームとして継続的に入ってくる現実世界の多くのアプリケーションにとってほとんど意味がなく、最新の状態を反映するためにはモデル予測を漸進的に更新する必要がある。 ストリームで新たに利用可能なデータを完全に活用するには、最近のグラフベースのレコメンデーションモデルを繰り返し再トレーニングする必要がある。 本稿では,グラフベースのストリーミングレコメンデーション設定について検討し,低計算コストでインクリメンタルな更新をサポートする合成レコメンデーションモデルであるlightweight compositional embedded (lce)を提案する。 ノードの完全な集合に対する明示的な埋め込みを学ぶ代わりに、LCEはノードのサブセットのみに対する明示的な埋め込みを学び、グラフ内の相互作用に基づいた合成関数を通して他のノードを暗黙的に表現する。 これは、1つのノードタイプ(例えばアイテム)が静的表現により適している場合に、ストリーミンググラフデータを有効に活用する手段を提供する。 本稿では,LCEと大規模ユーザ・イテム推薦データセットの競合ベースラインのセットを比較し,ストリーミング環境下でのインタラクションを比較検討する。 その結果,LCEの性能が向上し,代替グラフモデルよりもパラメータが少なく,ほぼスカイラインの性能が得られることが示された。

Most work in graph-based recommender systems considers a {\em static} setting where all information about test nodes (i.e., users and items) is available upfront at training time. However, this static setting makes little sense for many real-world applications where data comes in continuously as a stream of new edges and nodes, and one has to update model predictions incrementally to reflect the latest state. To fully capitalize on the newly available data in the stream, recent graph-based recommendation models would need to be repeatedly retrained, which is infeasible in practice. In this paper, we study the graph-based streaming recommendation setting and propose a compositional recommendation model -- Lightweight Compositional Embedding (LCE) -- that supports incremental updates under low computational cost. Instead of learning explicit embeddings for the full set of nodes, LCE learns explicit embeddings for only a subset of nodes and represents the other nodes {\em implicitly}, through a composition function based on their interactions in the graph. This provides an effective, yet efficient, means to leverage streaming graph data when one node type (e.g., items) is more amenable to static representation. We conduct an extensive empirical study to compare LCE to a set of competitive baselines on three large-scale user-item recommendation datasets with interactions under a streaming setting. The results demonstrate the superior performance of LCE, showing that it achieves nearly skyline performance with significantly fewer parameters than alternative graph-based models.
翻訳日:2022-02-13 18:03:32 公開日:2022-02-04
# (参考訳) Bモード超音波画像における解釈型深層学習法による頸動脈動脈プラークの成層化 [全文訳有]

Stratification of carotid atheromatous plaque using interpretable deep learning methods on B-mode ultrasound images ( http://arxiv.org/abs/2202.02428v1 )

ライセンス: CC BY 4.0
Theofanis Ganitidis, Maria Athanasiou, Kalliopi Dalakleidi, Nikos Melanitis, Spyretta Golemati, Konstantina S Nikita(参考訳) 頸動脈硬化は虚血性脳卒中の主要な原因であり、毎年死亡率と障害率が高い。 このような症例の早期診断は、臨床医がより効果的な治療戦略を適用できるため、非常に重要である。 本稿では,頸動脈動脈プラークのリスク評価と成層化のための,頸動脈超音波画像の解釈可能な分類手法を提案する。 症状クラスと無症状クラス(16対58)の患者間の高度にバランスのとれた分布に対処するために、原型と再サンプリングされたデータセットを用いた2段階のコストに敏感な学習戦略とともに、サブサンプリングアプローチに基づくアンサンブル学習方式が適用された。 畳み込みニューラルネットワーク(cnns)は、アンサンブルの基本モデルを構築するために利用された。 画像から特徴を自動的に抽出するために6層深層cnnを使用し、2つの完全連結層を分類した。 得られた結果 (roc曲線 (auc): 73%, 感度: 75%, 特異度: 70%) は, 提案手法が許容される識別性能を達成したことを示している。 Finally, interpretability methods were applied on the model's predictions in order to reveal insights on the model's decision process as well as to enable the identification of novel image biomarkers for the stratification of patients with carotid atheromatous plaque.Clinical Relevance-The integration of interpretability methods with deep learning strategies can facilitate the identification of novel ultrasound image biomarkers for the stratification of patients with carotid atheromatous plaque.

Carotid atherosclerosis is the major cause of ischemic stroke resulting in significant rates of mortality and disability annually. Early diagnosis of such cases is of great importance, since it enables clinicians to apply a more effective treatment strategy. This paper introduces an interpretable classification approach of carotid ultrasound images for the risk assessment and stratification of patients with carotid atheromatous plaque. To address the highly imbalanced distribution of patients between the symptomatic and asymptomatic classes (16 vs 58, respectively), an ensemble learning scheme based on a sub-sampling approach was applied along with a two-phase, cost-sensitive strategy of learning, that uses the original and a resampled data set. Convolutional Neural Networks (CNNs) were utilized for building the primary models of the ensemble. A six-layer deep CNN was used to automatically extract features from the images, followed by a classification stage of two fully connected layers. The obtained results (Area Under the ROC Curve (AUC): 73%, sensitivity: 75%, specificity: 70%) indicate that the proposed approach achieved acceptable discrimination performance. Finally, interpretability methods were applied on the model's predictions in order to reveal insights on the model's decision process as well as to enable the identification of novel image biomarkers for the stratification of patients with carotid atheromatous plaque.Clinical Relevance-The integration of interpretability methods with deep learning strategies can facilitate the identification of novel ultrasound image biomarkers for the stratification of patients with carotid atheromatous plaque.
翻訳日:2022-02-13 17:46:48 公開日:2022-02-04
# (参考訳) 逆モデルニューラルネットワークの検証 [全文訳有]

Verifying Inverse Model Neural Networks ( http://arxiv.org/abs/2202.02429v1 )

ライセンス: CC BY 4.0
Chelsea Sidrane, Sydney Katz, Anthony Corso, Mykel J. Kochenderfer(参考訳) 逆問題は、航空宇宙工学から医用イメージングまで、様々な物理領域に存在する。 目標は、一連の観測から基礎となる状態を推測することである。 観測を生んだ前方モデルが非線形で確率的であれば、逆問題の解決は非常に困難である。 ニューラルネットワークは、ノイズの多いデータからトレーニング可能な逆問題に対して魅力的なソリューションであり、一度トレーニングすれば計算効率が向上する。 しかし、逆モデルニューラルネットワークには正確性の保証が組み込まれていないため、安全性と精度クリティカルなコンテキストでの使用には信頼性が低い。 本研究では,逆モデルニューラルネットワークの正当性を検証する手法を提案する。 提案手法は, 線形制約を持つ非線形確率フォワードモデルをオーバー近似し, オーバー近似フォワードモデルとニューラルネットワーク逆モデルの両方を混合整数プログラムとして符号化する。 この検証手順を実世界の航空機用燃料ゲージのケーススタディで実証する。 逆モデルニューラルネットワークを検証し、従って信頼する能力は、航空宇宙から医学まで、幅広い文脈で使用することができる。

Inverse problems exist in a wide variety of physical domains from aerospace engineering to medical imaging. The goal is to infer the underlying state from a set of observations. When the forward model that produced the observations is nonlinear and stochastic, solving the inverse problem is very challenging. Neural networks are an appealing solution for solving inverse problems as they can be trained from noisy data and once trained are computationally efficient to run. However, inverse model neural networks do not have guarantees of correctness built-in, which makes them unreliable for use in safety and accuracy-critical contexts. In this work we introduce a method for verifying the correctness of inverse model neural networks. Our approach is to overapproximate a nonlinear, stochastic forward model with piecewise linear constraints and encode both the overapproximate forward model and the neural network inverse model as a mixed-integer program. We demonstrate this verification procedure on a real-world airplane fuel gauge case study. The ability to verify and consequently trust inverse model neural networks allows their use in a wide variety of contexts, from aerospace to medicine.
翻訳日:2022-02-13 17:39:12 公開日:2022-02-04
# 異種多孔質材料の機械学習

Machine Learning in Heterogeneous Porous Materials ( http://arxiv.org/abs/2202.04137v1 )

ライセンス: Link先を確認
Marta D'Elia, Hang Deng, Cedric Fraces, Krishna Garikipati, Lori Graham-Brady, Amanda Howard, George Karniadakis, Vahid Keshavarzzadeh, Robert M. Kirby, Nathan Kutz, Chunhui Li, Xing Liu, Hannah Lu, Pania Newell, Daniel O'Malley, Masa Prodanovic, Gowri Srinivasan, Alexandre Tartakovsky, Daniel M. Tartakovsky, Hamdi Tchelepi, Bozo Vazic, Hari Viswanathan, Hongkyu Yoon, Piotr Zarzycki(参考訳) 異種多孔質材料における機械学習の研究」は、異種材料、機械学習(ml)、応用数学の分野の専門家とともに、応用数学、多孔質メディア、物質科学の国際科学コミュニティを結集させ、mlが材料研究を前進させる方法を特定させた。 mlおよび材料研究の範囲内で、ワークショップの目的は、各コミュニティにおける最先端の議論、クロストークの促進、多分野共同研究の促進、課題と機会の特定である。 その結果, 材料特性の予測におけるML, 新規材料の発見と設計, 多孔質・破断媒体のML, 時間依存現象のML, MLによる多種多孔質材料のマルチスケールモデリング, 構成法則と新しい支配方程式の発見の4つの話題が明らかになった。 このワークショップは、National Academies of Sciences, Engineering and Medicineと全米理論・応用力学委員会が主催するAmeriMech Symposiumシリーズの一部であった。

The "Workshop on Machine learning in heterogeneous porous materials" brought together international scientific communities of applied mathematics, porous media, and material sciences with experts in the areas of heterogeneous materials, machine learning (ML) and applied mathematics to identify how ML can advance materials research. Within the scope of ML and materials research, the goal of the workshop was to discuss the state-of-the-art in each community, promote crosstalk and accelerate multi-disciplinary collaborative research, and identify challenges and opportunities. As the end result, four topic areas were identified: ML in predicting materials properties, and discovery and design of novel materials, ML in porous and fractured media and time-dependent phenomena, Multi-scale modeling in heterogeneous porous materials via ML, and Discovery of materials constitutive laws and new governing equations. This workshop was part of the AmeriMech Symposium series sponsored by the National Academies of Sciences, Engineering and Medicine and the U.S. National Committee on Theoretical and Applied Mechanics.
翻訳日:2022-02-13 14:39:30 公開日:2022-02-04
# 製造制約を考慮したシート切削測地最適化のための深層学習プラットフォームの開発

Development of a deep learning platform for optimising sheet stamping geometries subject to manufacturing constraints ( http://arxiv.org/abs/2202.03422v1 )

ライセンス: Link先を確認
Hamid Reza Attar, Alistair Foster, Nan Li(参考訳) 最新のシートプレス加工は, 剛性と重量比が高い複雑な形状構造部品の効率的な製造を可能にするが, 欠陥を生じさせる可能性がある。 スタンプ処理のためのコンポーネント設計を支援するため,本論文では,3次元コンポーネントジオメトリを最適化する新しいディープラーニングプラットフォームを提案する。 このプラットフォームは、複数の幾何パラメータ化スキーマから任意のジオメトリを最適化できる非パラメトリックモデリングアプローチを採用している。 このアプローチは、2つのニューラルネットワークの相互作用を特徴とする。 1)幾何発生器及び 2)製造性能評価装置。 生成器は、異なるクラスのジオメトリに対する連続3次元符号付き距離場(sdfs)を予測し、各sdfは潜在ベクトル上で条件付けされる。 各SDFのゼロレベル集合は、暗黙的に生成された幾何を表す。 新規な生成器のトレーニング戦略を導入し、シートスタンプアプリケーション用に調整された新しい損失関数を含む。 これらの戦略は、局所的な特徴が密接な高品質で大規模なコンポーネントのジオメトリーを、初めて微分可能な生成を可能にする。 エバリュエータは、これらの生成したジオメトリの2次元射影を、サンプリング後の物理的(例えばひずみ)分布にマッピングする。 これらの分布に基づいて製造制約を課し、最適化のための新しい目的関数を定式化する。 新しい勾配に基づく最適化手法を用いて、潜伏ベクトル、すなわちジオメトリーを反復的に更新し、この目的関数を最小化し、製造制約を満たす。 熱間プレス加工における板薄化制約を受ける最適化ボックスジオメトリに基づくケーススタディを提示・検討した。 その結果,表現的幾何変化は達成可能であり,これらの変化は切削性能によって引き起こされることがわかった。

The latest sheet stamping processes enable efficient manufacturing of complex shape structural components that have high stiffness to weight ratios, but these processes can introduce defects. To assist component design for stamping processes, this paper presents a novel deep-learning-based platform for optimising 3D component geometries. The platform adopts a non-parametric modelling approach that is capable of optimising arbitrary geometries from multiple geometric parameterisation schema. This approach features the interaction of two neural networks: 1) a geometry generator and 2) a manufacturing performance evaluator. The generator predicts continuous 3D signed distance fields (SDFs) for geometries of different classes, and each SDF is conditioned on a latent vector. The zero-level-set of each SDF implicitly represents a generated geometry. Novel training strategies for the generator are introduced and include a new loss function which is tailored for sheet stamping applications. These strategies enable the differentiable generation of high quality, large scale component geometries with tight local features for the first time. The evaluator maps a 2D projection of these generated geometries to their post-stamping physical (e.g., strain) distributions. Manufacturing constraints are imposed based on these distributions and are used to formulate a novel objective function for optimisation. A new gradient-based optimisation technique is employed to iteratively update the latent vectors, and therefore geometries, to minimise this objective function and thus meet the manufacturing constraints. Case studies based on optimising box geometries subject to a sheet thinning constraint for a hot stamping process are presented and discussed. The results show that expressive geometric changes are achievable, and that these changes are driven by stamping performance.
翻訳日:2022-02-09 15:26:54 公開日:2022-02-04
# モバイル通知のためのオフライン強化学習

Offline Reinforcement Learning for Mobile Notifications ( http://arxiv.org/abs/2202.03867v1 )

ライセンス: Link先を確認
Yiping Yuan, Ajith Muralidharan, Preetam Nandy, Miao Cheng, Prakruthi Prabhakar(参考訳) モバイル通知システムは、オンラインプラットフォームにおけるユーザエンゲージメントの推進と維持に重要な役割を果たしている。 これらは、よりシーケンシャルで長期的なフィードバックを考慮した機械学習実践者にとって興味深い推奨システムである。 通知システムにおけるほとんどの機械学習アプリケーションは、応答予測モデルに基づいて構築されており、通知決定に短期的影響と長期的影響の両方を関連付けようとしている。 しかし、ユーザエクスペリエンスは通知のシーケンスに依存し、単一の通知に対する影響は必ずしも正確ではない。 本稿では,強化学習は,通知システムの性能とイテレーション速度の面で,優れたフレームワークであると主張する。 ユーザエンゲージメントを駆動するためのシーケンシャルな通知決定を最適化するオフライン強化学習フレームワークを提案する。 本稿では,ポリシーをオフラインで評価し,学習ハイパーパラメータをチューニングするために使用できる,重要度サンプリングポリシー評価手法について述べる。 通知エコシステムを近似するシミュレーションを通じて,強化学習モデリング手法の一環として,オフライン評価手法の性能とメリットを実証する。 最後に、プロダクションシステムのオンライン探索を通じてデータを収集し、オフラインのダブルディープqネットワークをトレーニングし、オンラインのポリシーを成功させます。 また,これらのポリシーを大規模レコメンデーションシステムに導入することで得られる実践的考察と成果についても論じる。

Mobile notification systems have taken a major role in driving and maintaining user engagement for online platforms. They are interesting recommender systems to machine learning practitioners with more sequential and long-term feedback considerations. Most machine learning applications in notification systems are built around response-prediction models, trying to attribute both short-term impact and long-term impact to a notification decision. However, a user's experience depends on a sequence of notifications and attributing impact to a single notification is not always accurate, if not impossible. In this paper, we argue that reinforcement learning is a better framework for notification systems in terms of performance and iteration speed. We propose an offline reinforcement learning framework to optimize sequential notification decisions for driving user engagement. We describe a state-marginalized importance sampling policy evaluation approach, which can be used to evaluate the policy offline and tune learning hyperparameters. Through simulations that approximate the notifications ecosystem, we demonstrate the performance and benefits of the offline evaluation approach as a part of the reinforcement learning modeling approach. Finally, we collect data through online exploration in the production system, train an offline Double Deep Q-Network and launch a successful policy online. We also discuss the practical considerations and results obtained by deploying these policies for a large-scale recommendation system use-case.
翻訳日:2022-02-09 15:22:41 公開日:2022-02-04
# Chebyshev近似を用いたグラフ上の畳み込みニューラルネットワークの再検討

Convolutional Neural Networks on Graphs with Chebyshev Approximation, Revisited ( http://arxiv.org/abs/2202.03580v1 )

ライセンス: Link先を確認
Mingguo He, Zhewei Wei, Ji-Rong Wen(参考訳) スペクトル畳み込みネットワークの設計は、グラフ学習において難しい問題である。 初期の試みの一つであるChebNetは、チェビシェフ多項式を用いたスペクトル畳み込みを近似している。 GCNはChebNetを単純化し、最初の2つのChebyshev多項式のみを使用しながら、実世界のデータセットでそれより優れている。 GPR-GNNとBernNetは、モノミールとベルンシュタインの基底がスペクトル畳み込みの学習においてチェビシェフ基底よりも優れていることを示した。 このような結論は近似理論の分野では直感的ではなく、チェビシェフ多項式が函数を近似するための最適収束率を達成することが証明される。 本稿では,チェビシェフ多項式を用いたスペクトル畳み込みの近似問題を再検討する。 我々は,ChebNetが解析フィルタ関数を近似することで学習した不正な係数が,過度に適合することを示す。 次に,チェビシェフ補間に基づく新しいGNNモデルであるChebNetIIを提案する。 我々は、chebnetiiが任意のグラフスペクトルフィルタを学習し、全教師ありノード分類タスクにおいて優れた性能が得られることを示すために、広範な実験を行った。

Designing spectral convolutional networks is a challenging problem in graph learning. ChebNet, one of the early attempts, approximates the spectral convolution using Chebyshev polynomials. GCN simplifies ChebNet by utilizing only the first two Chebyshev polynomials while still outperforming it on real-world datasets. GPR-GNN and BernNet demonstrate that the Monomial and Bernstein bases also outperform the Chebyshev basis in terms of learning the spectral convolution. Such conclusions are counter-intuitive in the field of approximation theory, where it is established that the Chebyshev polynomial achieves the optimum convergent rate for approximating a function. In this paper, we revisit the problem of approximating the spectral convolution with Chebyshev polynomials. We show that ChebNet's inferior performance is primarily due to illegal coefficients learnt by ChebNet approximating analytic filter functions, which leads to over-fitting. We then propose ChebNetII, a new GNN model based on Chebyshev interpolation, which enhances the original Chebyshev polynomial approximation while reducing the Runge phenomena. We conducted an extensive experimental study to demonstrate that ChebNetII can learn arbitrary graph spectrum filters and achieve superior performance in both full- and semi-supervised node classification tasks.
翻訳日:2022-02-09 13:45:24 公開日:2022-02-04
# 複素および複複素値ニューラルネットワークに関する一考察

A note on the complex and bicomplex valued neural networks ( http://arxiv.org/abs/2202.02354v1 )

ライセンス: Link先を確認
Daniel Alpay and Kamal Diki and Mihaela Vajiac(参考訳) 本稿では,複素多値ニューラルネットワーク(cmvnn)に対するパーセプトロン収束アルゴリズムの証明を最初に記述する。 我々の主要な目標は、複複素多値ニューラルネットワーク(bmvnns)のパーセプトロン収束アルゴリズムを定式化し、証明することと、双複素代数に基づくニューラルネットワークの理論における他の重要な結果を証明することである。

In this paper we first write a proof of the perceptron convergence algorithm for the complex multivalued neural networks (CMVNNs). Our primary goal is to formulate and prove the perceptron convergence algorithm for the bicomplex multivalued neural networks (BMVNNs) and other important results in the theory of neural networks based on a bicomplex algebra.
翻訳日:2022-02-08 18:50:02 公開日:2022-02-04
# ユニバーサルコインベッティングによるサイド情報を用いたパラメータフリーオンライン線形最適化

Parameter-free Online Linear Optimization with Side Information via Universal Coin Betting ( http://arxiv.org/abs/2202.02406v1 )

ライセンス: Link先を確認
J. Jon Ryu, Alankrita Bhatt, Young-Han Kim(参考訳) パラメータフリーオンライン線形最適化アルゴリズムのクラスは、ある側情報に適応することで、逆列の構造を利用する。 これらのアルゴリズムは、オンライン線形最適化のためのコインベッティングアルゴリズムと、シーケンシャルサイド情報をコインベッティングに組み込む情報理論におけるユニバーサル圧縮技術に適応するためのOlabona と P{\'a}l (2016) の還元手法を組み合わせたものである。 具体的な例としては、辺情報が木構造を持ち、固定次数や可変次マルコフの場合を含む、逆数列の前のシンボルの量子化値からなる。 willems, shtarkov, tjalkens (1995) の文脈木重み付け手法を改良することにより, 提案アルゴリズムを改良し, 与えられた最大次数の木構造側情報を含む全ての適応アルゴリズムに対して, 最適性能を計算効率良く達成する。

A class of parameter-free online linear optimization algorithms is proposed that harnesses the structure of an adversarial sequence by adapting to some side information. These algorithms combine the reduction technique of Orabona and P{\'a}l (2016) for adapting coin betting algorithms for online linear optimization with universal compression techniques in information theory for incorporating sequential side information to coin betting. Concrete examples are studied in which the side information has a tree structure and consists of quantized values of the previous symbols of the adversarial sequence, including fixed-order and variable-order Markov cases. By modifying the context-tree weighting technique of Willems, Shtarkov, and Tjalkens (1995), the proposed algorithm is further refined to achieve the best performance over all adaptive algorithms with tree-structured side information of a given maximum order in a computationally efficient manner.
翻訳日:2022-02-08 18:49:56 公開日:2022-02-04
# サービスレート未知の待ち行列システムにおける最適割当規則の離散集合の学習

Learning a Discrete Set of Optimal Allocation Rules in Queueing Systems with Unknown Service Rates ( http://arxiv.org/abs/2202.02419v1 )

ライセンス: Link先を確認
Saghar Adler, Mehrdad Moharrami and Vijay Subramanian(参考訳) サービスレートが不明な古典的erlang-bブロッキングシステム(m/m/k/k$待ち行列システム)の学習に基づく入場制御について検討した。 ジョブが到着するたびに、ディスパッチはジョブを利用可能なサーバに割り当てるか、ブロックするかを決定する。 各サービスされたジョブはディスペンサーに一定の報酬を与えるが、結果としてサービスの単位時間当たりのコストも生じる。 本研究の目的は,到着時刻と到着時のシステム状態に基いて,発送者の長期平均報酬を最大化する発送ポリシーを設計することであり,要点として,発送者は発送時刻も発送時刻も監視しない。 パラメトリック学習問題 a'la self-tuning adaptive control として学習ベースのディスパッチスキームを開発した。 本問題では,適応型制御文献とは別物であるalways explore(always explore)とnever admit(immediately terminate learning(immediately terminate learning)の間で,同一の制御スイッチが与えられる。 学習方式では,最大確率推定と確実性等価な制御を併用するが,学習が停滞しないよう,常に許容する方針を巧みに活用する。 すべてのサービスレートにおいて、提案されたポリシーが漸近的に最適なアクションを取ることを学ぶことを証明します。 さらに,本スキームに対する有限時間後悔保証も提示する。 一定の等価な最適制御ポリシーの極端なコントラストは、異なるパラメータ体系に対する後悔の限界に現れる学習の難しさにつながります。 この側面をシミュレーションで検討し、連続時間システムに関する質問をフォローアップして分析する。

We study learning-based admission control for a classical Erlang-B blocking system with unknown service rate, i.e., an $M/M/k/k$ queueing system. At every job arrival, a dispatcher decides to assign the job to an available server or to block it. Every served job yields a fixed reward for the dispatcher, but it also results in a cost per unit time of service. Our goal is to design a dispatching policy that maximizes the long-term average reward for the dispatcher based on observing the arrival times and the state of the system at each arrival; critically, the dispatcher observes neither the service times nor departure times. We develop our learning-based dispatch scheme as a parametric learning problem a'la self-tuning adaptive control. In our problem, certainty equivalent control switches between an always admit policy (always explore) and a never admit policy (immediately terminate learning), which is distinct from the adaptive control literature. Our learning scheme then uses maximum likelihood estimation followed by certainty equivalent control but with judicious use of the always admit policy so that learning doesn't stall. We prove that for all service rates, the proposed policy asymptotically learns to take the optimal action. Further, we also present finite-time regret guarantees for our scheme. The extreme contrast in the certainty equivalent optimal control policies leads to difficulties in learning that show up in our regret bounds for different parameter regimes. We explore this aspect in our simulations and also follow-up sampling related questions for our continuous-time system.
翻訳日:2022-02-08 18:49:38 公開日:2022-02-04
# 分散学習のための情報理論一般化境界の改良

Improved Information Theoretic Generalization Bounds for Distributed and Federated Learning ( http://arxiv.org/abs/2202.02423v1 )

ライセンス: Link先を確認
L. P. Barnes, Alex Dytso, and H. V. Poor(参考訳) ネットワーク環境における統計的学習問題に対する予測一般化誤差に対する情報理論的境界について考察する。 この設定では、それぞれ独自のデータセットを持つ$k$ノードがあり、各ノードのモデルは最終的な集中型モデルに集約されなければならない。 モデルの平均化だけでなく,より複雑なマルチラウンドアルゴリズムも検討する。 bregman divergence や lipschitz continuous loss のような様々な問題に対して期待された一般化誤差を上限とし、ノード数に対する 1/k$ の依存度の向上を示す。 これらの"ノード単位"境界は、トレーニングデータセットと各ノードのトレーニングされた重み付けの相互情報の観点から、各ノードに通信やプライバシの制約があることに固有の一般化特性を記述する上で有用である。

We consider information-theoreti c bounds on expected generalization error for statistical learning problems in a networked setting. In this setting, there are $K$ nodes, each with its own independent dataset, and the models from each node have to be aggregated into a final centralized model. We consider both simple averaging of the models as well as more complicated multi-round algorithms. We give upper bounds on the expected generalization error for a variety of problems, such as those with Bregman divergence or Lipschitz continuous losses, that demonstrate an improved dependence of $1/K$ on the number of nodes. These "per node" bounds are in terms of the mutual information between the training dataset and the trained weights at each node, and are therefore useful in describing the generalization properties inherent to having communication or privacy constraints at each node.
翻訳日:2022-02-08 18:49:11 公開日:2022-02-04
# COVID-19分類のための周波数コムと機械学習による呼吸分析

Frequency comb and machine learning-based breath analysis for COVID-19 classification ( http://arxiv.org/abs/2202.02321v1 )

ライセンス: Link先を確認
Qizhong Liang, Ya-Chu Chan, Jutta Toscano, Kristen K. Bjorkman, Leslie A. Leinwand, Roy Parker, David J. Nesbitt, Jun Ye(参考訳) ヒトの呼吸には何百もの揮発性分子が含まれており、多様な疾患や生理・代謝状態の強力なスペクトル診断を提供することができる。 本研究は,各呼吸試料中の数万のスペクトル特性を同時に測定する頑健な分析手法と,非曖昧なバイナリ医療応答分類のための効率的かつ詳細な多変量データ解析手法を提案する。 超高次元入力データチャネルの解析と検証が可能な教師付き機械学習と、部品毎の感度で数万の異なる分子の特徴をリアルタイムに収集できる中赤外キャビティ・エンハンスド直接周波数コム分光(ce-dfcs)を組み合わせる。 本稿では,この方法のコロナウイルス病2019(COVID-19)の呼吸検出への応用について紹介する。 コロラド大学における170個の個別サンプルを用いて,受信特性曲線 0.849(4) の下でのクロスバリデーション領域を報告し,優れた予測性能を示した。 さらに, 喫煙や腹痛などの他の要因と同様に, 男女の呼吸に有意な差が認められた。 これらとともに、CE-DFCSの多様な生物学的状態と疾患状態の迅速かつ非侵襲的な検出に有用であることを示す。 周波数コム分光のユニークな性質は、正確なデータベースを構築するための正確なデジタルスペクトル指紋を確立し、同時に多重応答分類を行う手段を提供するのに役立つ。 予測パワーは、容易にスケーラブルなコムスペクトルカバレッジでさらに拡張することができる。

Human breath contains hundreds of volatile molecules that can provide powerful, non-intrusive spectral diagnosis of a diverse set of diseases and physiological/metabo lic states. To unleash this tremendous potential for medical science, we present a robust analytical method that simultaneously measures tens of thousands of spectral features in each breath sample, followed by efficient and detail-specific multivariate data analysis for unambiguous binary medical response classification. We combine mid-infrared cavity-enhanced direct frequency comb spectroscopy (CE-DFCS), capable of real-time collection of tens of thousands of distinct molecular features at parts-per-trillion sensitivity, with supervised machine learning, capable of analysis and verification of extremely high-dimensional input data channels. Here, we present the first application of this method to the breath detection of Coronavirus Disease 2019 (COVID-19). Using 170 individual samples at the University of Colorado, we report a cross-validated area under the Receiver-Operating-C haracteristics curve of 0.849(4), providing excellent prediction performance. Further, this method detected a significant difference between male and female breath as well as other variables such as smoking and abdominal pain. Together, these highlight the utility of CE-DFCS for rapid, non-invasive detection of diverse biological conditions and disease states. The unique properties of frequency comb spectroscopy thus help establish precise digital spectral fingerprints for building accurate databases and provide means for simultaneous multi-response classifications. The predictive power can be further enhanced with readily scalable comb spectral coverage.
翻訳日:2022-02-08 18:42:10 公開日:2022-02-04
# シンボリックオートマトン符号化目標に対するモデルフリー強化学習

Model-Free Reinforcement Learning for Symbolic Automata-encoded Objectives ( http://arxiv.org/abs/2202.02404v1 )

ライセンス: Link先を確認
Anand Balakrishnan, Stefan Jaksic, Edgar Aguilar Lozano, Dejan Nickovic, Jyotirmoy Deshmukh(参考訳) 強化学習(rl)は、不確定な環境におけるロボットの経路計画のための一般的なアプローチである。 しかしながら、rlエージェントのためにトレーニングされた制御ポリシーは、ユーザー定義のステートベースの報酬関数に依存する。 設計の悪い報酬は、最大限の報酬を得たが、望ましいタスク目標を満たせなかったり、安全でないポリシーにつながる可能性がある。 時間論理やオートマトンのような形式言語を使ってロボットの高レベルなタスク仕様を指定する例がいくつかある(マルコフの報酬の代わりに)。 ここでは、RL(推定報酬)を用いて学んだポリシーが高水準の形式仕様を満たすことを(確率的に)保証することを目的としている。 これらの技法の重要な欠点は、それらが推論する報酬が疎いことである:エージェントはタスクの完了時にのみ肯定的な報酬を受け取り、それ以外の報酬は受け取らない。 このことは自然にRLの収束性や高分散をもたらす。 本研究では,記号的オートマトンという形式的仕様を用いて,時間的時間的論理に基づく仕様とオートマトンの両方を一般化する手法を提案する。 さらに、シンボルオートマトンを用いることで、報酬面を経験的に形作る非スパースポテンシャルベースの報酬を定義することができ、RLの収束性が向上する。 また、我々の潜在的報酬戦略が、与えられた仕様の満足度を最大化するポリシーを得ることを可能にすることも示しています。

Reinforcement learning (RL) is a popular approach for robotic path planning in uncertain environments. However, the control policies trained for an RL agent crucially depend on user-defined, state-based reward functions. Poorly designed rewards can lead to policies that do get maximal rewards but fail to satisfy desired task objectives or are unsafe. There are several examples of the use of formal languages such as temporal logics and automata to specify high-level task specifications for robots (in lieu of Markovian rewards). Recent efforts have focused on inferring state-based rewards from formal specifications; here, the goal is to provide (probabilistic) guarantees that the policy learned using RL (with the inferred rewards) satisfies the high-level formal specification. A key drawback of several of these techniques is that the rewards that they infer are sparse: the agent receives positive rewards only upon completion of the task and no rewards otherwise. This naturally leads to poor convergence properties and high variance during RL. In this work, we propose using formal specifications in the form of symbolic automata: these serve as a generalization of both bounded-time temporal logic-based specifications as well as automata. Furthermore, our use of symbolic automata allows us to define non-sparse potential-based rewards which empirically shape the reward surface, leading to better convergence during RL. We also show that our potential-based rewarding strategy still allows us to obtain the policy that maximizes the satisfaction of the given specification.
翻訳日:2022-02-08 17:51:07 公開日:2022-02-04
# HENRI:インターネット上でのマルチパーティ間ネゴシエーションのための高効率ネゴシエーションベースロバストインタフェース

HENRI: High Efficiency Negotiation-based Robust Interface for Multi-party Multi-issue Negotiation over the Internet ( http://arxiv.org/abs/2202.02430v1 )

ライセンス: Link先を確認
Saurabh Deochake, Shashank Kanth, Subhadip Chakraborty, Suresh Sarode, Vidyasagar Potdar, Debajyoti Mukhopadhyay(参考訳) 本稿では,複数政党による多国間交渉を可能にする,本格的な交渉システムのための枠組みを提案する。 観測すべき交渉プロトコルに注目し、マルチスレッドの概念を用いて個々の問題に対する同時かつ独立した交渉のためのプラットフォームを提供する。 構成要素を詳述するエージェントのアーキテクチャを描いている。 この論文は、各党に関する複数の問題に対して階層的なパターンを定めている。 このシステムは、広告毎のタイム・トゥ・ライブカウンタ、非機能属性を考慮したユーティリティの改良、問題への重み付けを割り当てることによる課題の優先順位付けなどの機能強化も提供する。

This paper proposes a framework for a full fledged negotiation system that allows multi party multi issue negotiation. It focuses on the negotiation protocol to be observed and provides a platform for concurrent and independent negotiation on individual issues using the concept of multi threading. It depicts the architecture of an agent detailing its components. The paper sets forth a hierarchical pattern for the multiple issues concerning every party. The system also provides enhancements such as the time-to-live counters for every advertisement, refinement of utility considering non-functional attributes, prioritization of issues, by assigning weights to issues.
翻訳日:2022-02-08 17:50:43 公開日:2022-02-04
# 上昇モデリングのための一般化因果木

Generalized Causal Tree for Uplift Modeling ( http://arxiv.org/abs/2202.02416v1 )

ライセンス: Link先を確認
Preetam Nandy, Xiufan Yu, Wanjun Liu, Ye Tu, Kinjal Basu, Shaunak Chatterjee(参考訳) upliftモデリングは、マーケティングやポリシー作成からパーソナライズドレコメンデーションまで、さまざまなアプリケーションで不可欠です。 主な目的は、異種集団に対する最適な治療割り当てを学ぶことである。 既存の研究の第一線は、不均一な処理効果を持つコホートを特定するために決定木アルゴリズムの損失関数を変更する。 別の研究の行では、処理グループと制御グループの個別の処理効果を、既成の教師付き学習アルゴリズムを用いて推定する。 異種治療効果を直接モデル化する以前のアプローチは、実際は後者よりも優れていることが知られている。 しかし、既存のツリーベースの手法は、主に1つの処理と1つの制御ユースケースに限られている。 本稿では,複数の離散的かつ連続的な処理に対処する木に基づく手法の一般化を提案し,文献のこのギャップを埋める。 我々は,その望ましい統計特性からよく知られた因果木アルゴリズムの一般化に着目するが,この一般化手法は他の木に基づく手法にも適用できる。 他の方法と比較して,本手法の有効性を示すため,広範な実験を行った。

Uplift modeling is crucial in various applications ranging from marketing and policy-making to personalized recommendations. The main objective is to learn optimal treatment allocations for a heterogeneous population. A primary line of existing work modifies the loss function of the decision tree algorithm to identify cohorts with heterogeneous treatment effects. Another line of work estimates the individual treatment effects separately for the treatment group and the control group using off-the-shelf supervised learning algorithms. The former approach that directly models the heterogeneous treatment effect is known to outperform the latter in practice. However, the existing tree-based methods are mostly limited to a single treatment and a single control use case, except for a handful of extensions to multiple discrete treatments. In this paper, we fill this gap in the literature by proposing a generalization to the tree-based approaches to tackle multiple discrete and continuous-valued treatments. We focus on a generalization of the well-known causal tree algorithm due to its desirable statistical properties, but our generalization technique can be applied to other tree-based approaches as well. We perform extensive experiments to showcase the efficacy of our method when compared to other methods.
翻訳日:2022-02-08 17:49:39 公開日:2022-02-04
# 効率的なプライベート推論のための選択的ネットワーク線形化

Selective Network Linearization for Efficient Private Inference ( http://arxiv.org/abs/2202.02340v1 )

ライセンス: Link先を確認
Minsu Cho, Ameya Joshi, Siddharth Garg, Brandon Reagen, Chinmay Hegde(参考訳) プライベート推論(PI)は、暗号化されたセキュアなデータに直接推論を可能にする。 多くのプライバシー問題に対処すると約束されているが、極端なランタイムのために使用は限られている。 遅延がFLOPに支配される平文推論とは異なり、PI非線型関数(すなわちReLU)ではボトルネックとなる。 したがって、実用的なPIは、新しいReLU対応最適化を必要とする。 PIレイテンシを低減するために,予測精度を維持しつつReLUを選択的に線形化する勾配に基づくアルゴリズムを提案する。 いくつかの標準PIベンチマークでアルゴリズムを評価する。 その結果、最大4.25\%$の精度(50kのiso-relu数)または2.2\times$のレイテンシ(70\%のiso-accuracy)が現在の技術よりも低くなり、レイテンシー-精度の分野をまたいでparetoのフロンティアが前進した。 実験結果を補完するために,予測精度を維持しつつネットワーク線形化が可能か,いつ可能かを示す「no free lunch」定理を提案する。

Private inference (PI) enables inference directly on cryptographically secure data. While promising to address many privacy issues, it has seen limited use due to extreme runtimes. Unlike plaintext inference, where latency is dominated by FLOPs, in PI non-linear functions (namely ReLU) are the bottleneck. Thus, practical PI demands novel ReLU-aware optimizations. To reduce PI latency we propose a gradient-based algorithm that selectively linearizes ReLUs while maintaining prediction accuracy. We evaluate our algorithm on several standard PI benchmarks. The results demonstrate up to $4.25\%$ more accuracy (iso-ReLU count at 50K) or $2.2\times$ less latency (iso-accuracy at 70\%) than the current state of the art and advance the Pareto frontier across the latency-accuracy space. To complement empirical results, we present a "no free lunch" theorem that sheds light on how and when network linearization is possible while maintaining prediction accuracy.
翻訳日:2022-02-08 17:48:46 公開日:2022-02-04
# 継続的制御問題に対する解釈可能な高パフォーマンス政策の学習

Learning Interpretable, High-Performing Policies for Continuous Control Problems ( http://arxiv.org/abs/2202.02352v1 )

ライセンス: Link先を確認
Rohan Paleja, Yaru Niu, Andrew Silva, Chace Ritchie, Sugju Choi, Matthew Gombolay(参考訳) 強化学習(rl)における勾配に基づくアプローチは,継続的制御問題の学習方針において,大きな成功を収めている。 これらのアプローチのパフォーマンスは、自動運転やロボティクスのようなドメインでの実際の採用を保証しているが、これらのポリシーには解釈可能性がなく、安全クリティカルで法的に規制されたドメインでのデプロイ性が制限されている。 このようなドメインは高い性能を維持するための解釈可能かつ検証可能な制御ポリシーを必要とする。 本稿では,高パフォーマンスかつ解釈可能なポリシを生成するために,現代的な勾配に基づくRLアプローチによって最適化可能なツリーベースモデルであるICCTを提案する。 我々のアプローチの鍵は、疎い決定木のような表現で直接最適化できる手順である。 我々はICCTを6つの領域にわたるベースラインに対して検証し、ICCTは、ディープラーニングベースラインに対するポリシーパラメータの数を300ドルから600ドルに減らしつつ、自律運転シナリオにおいて最大33$\%の精度でベースラインを同等または上回る解釈可能なポリシー表現を学習できることを示した。

Gradient-based approaches in reinforcement learning (RL) have achieved tremendous success in learning policies for continuous control problems. While the performance of these approaches warrants real-world adoption in domains, such as in autonomous driving and robotics, these policies lack interpretability, limiting deployability in safety-critical and legally-regulated domains. Such domains require interpretable and verifiable control policies that maintain high performance. We propose Interpretable Continuous Control Trees (ICCTs), a tree-based model that can be optimized via modern, gradient-based, RL approaches to produce high-performing, interpretable policies. The key to our approach is a procedure for allowing direct optimization in a sparse decision-tree-like representation. We validate ICCTs against baselines across six domains, showing that ICCTs are capable of learning interpretable policy representations that parity or outperform baselines by up to 33$\%$ in autonomous driving scenarios while achieving a $300$x-$600$x reduction in the number of policy parameters against deep learning baselines.
翻訳日:2022-02-08 17:48:08 公開日:2022-02-04
# Marius++: 単一マシン上でのグラフニューラルネットワークの大規模トレーニング

Marius++: Large-Scale Training of Graph Neural Networks on a Single Machine ( http://arxiv.org/abs/2202.02365v1 )

ライセンス: Link先を確認
Roger Waleffe, Jason Mohoney, Theodoros Rekatsinas, Shivaram Venkataraman(参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データに対するMLの強力なモデルとして登場した。 しかし、数十億のエッジ入力でGNNを使用する場合、スケーラビリティは依然として大きな課題である。 トレーニングに使用されるミニバッチの作成は、各入力ノードのマルチホップ近傍からの情報を集約する最先端モデルとして、GNN層の数と指数関数的に増加する計算およびデータ移動コストを発生させる。 本稿では,資源効率を重視したGNNのスケーラブルなトレーニングに焦点を当てる。 コア外パイプラインによる単一マシンでのミニバッチトレーニングは、リソース不足のマルチGPUソリューションより優れていることを示す。 数十億のグラフ上でGNNをトレーニングするシステムであるMarius++を紹介する。 Marius++はGNNのディスク最適化トレーニングを提供し、一連のデータ組織とアルゴリズムによるコントリビューションを導入している。 1)トレーニングに必要なメモリフットプリントとエンドツーエンドの時間を最小化する。 2) ディスクベースのトレーニングで学んだモデルは、CPU/GPUの混合設定で完全にトレーニングされたモデルと同様の精度を示す。 我々は7つのベンチマーク(モデル、データセット)設定を使用して、pytorch幾何およびディープグラフライブラリに対するmarius++を評価し、1つのgpuを持つmarius++が、最大8つのgpuを使用する場合、これらのシステムと同じレベルのモデルの精度を最大8$\times$で達成できることを見出した。 これらの実験では、ディスクベースのトレーニングにより、marius++のデプロイメントは、競合システムよりも最大64$\times$の金銭的コストで済む。

Graph Neural Networks (GNNs) have emerged as a powerful model for ML over graph-structured data. Yet, scalability remains a major challenge for using GNNs over billion-edge inputs. The creation of mini-batches used for training incurs computational and data movement costs that grow exponentially with the number of GNN layers as state-of-the-art models aggregate information from the multi-hop neighborhood of each input node. In this paper, we focus on scalable training of GNNs with emphasis on resource efficiency. We show that out-of-core pipelined mini-batch training in a single machine outperforms resource-hungry multi-GPU solutions. We introduce Marius++, a system for training GNNs over billion-scale graphs. Marius++ provides disk-optimized training for GNNs and introduces a series of data organization and algorithmic contributions that 1) minimize the memory-footprint and end-to-end time required for training and 2) ensure that models learned with disk-based training exhibit accuracy similar to those fully trained in mixed CPU/GPU settings. We evaluate Marius++ against PyTorch Geometric and Deep Graph Library using seven benchmark (model, data set) settings and find that Marius++ with one GPU can achieve the same level of model accuracy up to 8$\times$ faster than these systems when they are using up to eight GPUs. For these experiments, disk-based training allows Marius++ deployments to be up to 64$\times$ cheaper in monetary cost than those of the competing systems.
翻訳日:2022-02-08 17:47:45 公開日:2022-02-04
# Bregman Plug-and-Play

Bregman Plug-and-Play Priors ( http://arxiv.org/abs/2202.02388v1 )

ライセンス: Link先を確認
Abdullah H. Al-Shabili, Xiaojian Xu, Ivan Selesnick, and Ulugbek S. Kamilov(参考訳) 過去数年間、ディープラーニングネットワークの統合や、逆問題解決のための最適化アルゴリズムに関する活動が急増している。 近年のプラグ・アンド・プレイ先行(PnP)やデノナイズ(RED)による正規化、深部展開といった研究は、様々なアプリケーションにおいてこのような統合の最先端性能を示している。 しかし、そのようなアルゴリズムを設計する現在のパラダイムは、射影および近距離作用素内の二次ノルムの使用により、本質的にユークリッド的である。 より一般的なブレグマン距離に基づく非ユークリッド設定を考慮し、この視点を広げることを提案する。 我々の新しいBregman Proximal Gradient Method variant of PnP (PnP-BPGM) and Bregman Steepest Descent variant of RED (RED-BSD)は、PnPとREDの伝統的な更新を二次ノルムからより一般的なBregman距離に置き換える。 PnP-BPGMの理論的収束結果を示し,ポアソン線形逆問題に対するアルゴリズムの有効性を示す。

The past few years have seen a surge of activity around integration of deep learning networks and optimization algorithms for solving inverse problems. Recent work on plug-and-play priors (PnP), regularization by denoising (RED), and deep unfolding has shown the state-of-the-art performance of such integration in a variety of applications. However, the current paradigm for designing such algorithms is inherently Euclidean, due to the usage of the quadratic norm within the projection and proximal operators. We propose to broaden this perspective by considering a non-Euclidean setting based on the more general Bregman distance. Our new Bregman Proximal Gradient Method variant of PnP (PnP-BPGM) and Bregman Steepest Descent variant of RED (RED-BSD) replace the traditional updates in PnP and RED from the quadratic norms to more general Bregman distance. We present a theoretical convergence result for PnP-BPGM and demonstrate the effectiveness of our algorithms on Poisson linear inverse problems.
翻訳日:2022-02-08 17:47:23 公開日:2022-02-04
# 完全自動ツリートポロジー推定と動脈・静脈分類

Fully Automated Tree Topology Estimation and Artery-Vein Classification ( http://arxiv.org/abs/2202.02382v1 )

ライセンス: Link先を確認
Aashis Khanal, Saeid Motevali, and Rolando Estrada(参考訳) 網膜血管トポロジー(網膜血管トポロジー)を抽出するための完全自動的手法として, 異なる血管が相互にどのように接続されているかを示す。 この接続性の決定は非常に難しいのは、船が2D画像で互いに交差し、真の経路を逸脱しているからだ。 我々は,網膜動脈-静脈分類における最先端の結果を得るために,抽出法の有用性を検証した。 提案手法は以下のとおりである。 まず,これまで開発した最先端のセグメンテーション法を用いて網膜血管のセグメンテーションを行った。 次に,抽出した血管から最初のグラフを推定し,最も可能性の高い血流を各エッジに割り当てる。 次に、グラフのエラーを修正するために、少数のハイレベル演算(HLO)を使用します。 これらのHLOには、隣接ノードの除去、エッジのエンドポイントのシフト、ブランチに対する推定血流方向の反転が含まれる。 与えられたグラフに対するhlo演算の最適な集合を見つけるために、新しいコスト関数を用いる。 最後に,枝に沿って動脈・静脈のラベルを伝播させることにより,血管構造が正しいことを示す。 実験が示すように、トポロジーベースの動脈標識は、複数のデータセットで最先端の結果を得た。 また,提案手法の異なる成分の重要性を検証するため,いくつかのアブレーション実験を行った。

We present a fully automatic technique for extracting the retinal vascular topology, i.e., how the different vessels are connected to each other, given a single color fundus image. Determining this connectivity is very challenging because vessels cross each other in a 2D image, obscuring their true paths. We validated the usefulness of our extraction method by using it to achieve state-of-the-art results in retinal artery-vein classification. Our proposed approach works as follows. We first segment the retinal vessels using our previously developed state-of-the-art segmentation method. Then, we estimate an initial graph from the extracted vessels and assign the most likely blood flow to each edge. We then use a handful of high-level operations (HLOs) to fix errors in the graph. These HLOs include detaching neighboring nodes, shifting the endpoints of an edge, and reversing the estimated blood flow direction for a branch. We use a novel cost function to find the optimal set of HLO operations for a given graph. Finally, we show that our extracted vascular structure is correct by propagating artery/vein labels along the branches. As our experiments show, our topology-based artery-vein labeling achieved state-of-the-art results on multiple datasets. We also performed several ablation studies to verify the importance of the different components of our proposed method.
翻訳日:2022-02-08 17:30:32 公開日:2022-02-04
# 再構成可能なロボットマニピュレータの適合剤

Malleable Agents for Re-Configurable Robotic Manipulators ( http://arxiv.org/abs/2202.02395v1 )

ライセンス: Link先を確認
Athindran Ramesh Kumar, Gurudutt Hosangadi(参考訳) 再構成可能なロボットは、多くの現実世界のタスクでより有用で柔軟性がある可能性がある。 このようなロボットを操作するための学習エージェントを設計するには、異なる構成に適応する必要がある。 深層強化学習はロボット操作において大きな成功を収めてきたが、ドメイン適応は現実世界のロボット工学に適用性を制限する重要な問題である。 関節で繋がった複数の剛体リンクを持つロボットアームに焦点を当てる。 最近の試みでは、ロボットアームのダイナミクスとセンサー/カメラのバリエーションにロバスト性を提供するため、ドメイン適応とsim2実数転送が行われた。 しかし、異なる数のリンクを持つロボットアームに適応する試みは、これまで行われていなかった。 本稿では,深部ニューラルネットワークにシーケンスニューラルネットワークを組み込んだRLエージェントを提案する。 さらに、ドメインのランダム化のための追加のツールにより、リンクの数/長さやダイナミクスノイズが異なる異なる構成に適応する。 2次元nリンクアーム上でシミュレーションを行い、ネットワークの効率的な転送と一般化の能力を示す。

Re-configurable robots potentially have more utility and flexibility for many real-world tasks. Designing a learning agent to operate such robots requires adapting to different configurations. While deep reinforcement learning has had immense success in robotic manipulation, domain adaptation is a significant problem that limits its applicability to real-world robotics. We focus on robotic arms with multiple rigid links connected by joints. Recent attempts have performed domain adaptation and Sim2Real transfer to provide robustness to robotic arm dynamics and sensor/camera variations. However, there have been no previous attempts to adapt to robotic arms with a varying number of links. We propose an RL agent with sequence neural networks embedded in the deep neural network to adapt to robotic arms that have a varying number of links. Further, with the additional tool of domain randomization, this agent adapts to different configurations with varying number/length of links and dynamics noise. We perform simulations on a 2D N-link arm to show the ability of our network to transfer and generalize efficiently.
翻訳日:2022-02-08 17:11:40 公開日:2022-02-04
# キーワードスポッティングにおける低消費電力化のための高速ネットワーク探索手法

A Fast Network Exploration Strategy to Profile Low Energy Consumption for Keyword Spotting ( http://arxiv.org/abs/2202.02361v1 )

ライセンス: Link先を確認
Arnab Neelim Mazumder, and Tinoosh Mohsenin(参考訳) 最近のキーワードスポッティングは、スマートデバイスをターゲットにした音声指向ユーザインタラクションの不可欠な部分である。 この範囲では、ニューラルネットワークはその柔軟性と精度のために広く使われている。 しかし、正確な要求とハードウェアの配置の両方に適切な構成を見つけるのは困難である。 本稿では,ネットワークフィルタのスケーリング($s$)とネットワーク層の量子化($q$)を考慮した回帰型ネットワーク探索手法を提案する。 fpga上で$\mathcal{nn}\scriptstyle\langle q,\,s\rangle \displaystyle$ on the fpgaを使って、デプロイされたネットワークのエネルギー消費をプロファイルし、ユーザが最もエネルギー効率の良いネットワーク構成を迅速に選択できるようにする。 我々のアクセラレータ設計はXilinx AC 701プラットフォーム上にデプロイされており、キーワードスポッティングの最近のハードウェア実装と比較して、それぞれエネルギー効率とエネルギー効率の改善が2.1$\times$と4$\times$である。

Keyword Spotting nowadays is an integral part of speech-oriented user interaction targeted for smart devices. To this extent, neural networks are extensively used for their flexibility and high accuracy. However, coming up with a suitable configuration for both accuracy requirements and hardware deployment is a challenge. We propose a regression-based network exploration technique that considers the scaling of the network filters ($s$) and quantization ($q$) of the network layers, leading to a friendly and energy-efficient configuration for FPGA hardware implementation. We experiment with different combinations of $\mathcal{NN}\scriptstyle\langle q,\,s\rangle \displaystyle$ on the FPGA to profile the energy consumption of the deployed network so that the user can choose the most energy-efficient network configuration promptly. Our accelerator design is deployed on the Xilinx AC 701 platform and has at least 2.1$\times$ and 4$\times$ improvements on energy and energy efficiency results, respectively, compared to recent hardware implementations for keyword spotting.
翻訳日:2022-02-08 17:05:01 公開日:2022-02-04
# 異なる音源からの自己申告技術的負債の自動識別

Automatic Identification of Self-Admitted Technical Debt from Different Sources ( http://arxiv.org/abs/2202.02387v1 )

ライセンス: Link先を確認
Yikun Li, Mohamed Soliman, Paris Avgeriou(参考訳) 技術的負債は、長期的利益(例えば、ソフトウェアの保守性と進化性)が短期的な目標のために取引される状況を記述するメタファーです。 技術的負債がソフトウェアアーティファクト(例えば、コードコメントや問題追跡システム)の開発者によって明示的に認められる場合、それはSelf-Admitted Technical Debt(SATD)と呼ばれる。 技術的負債はソースコードのコメント、イシュートラッキングシステム、プルリクエスト、コミットメッセージなど、さまざまなソースで認められる可能性がある。 しかし、異なるソースからsatdを識別するアプローチは提案されていない。 そこで本稿では,異なるソース(ソースコードコメント,イシュートラッカ,コミットメッセージ,プルリクエストなど)からsatを自動的に識別する手法を提案する。

Technical debt is a metaphor describing the situation that long-term benefits (e.g., maintainability and evolvability of software) are traded for short-term goals. When technical debt is admitted explicitly by developers in software artifacts (e.g., code comments or issue tracking systems), it is termed as Self-Admitted Technical Debt or SATD. Technical debt could be admitted in different sources, such as source code comments, issue tracking systems, pull requests, and commit messages. However, there is no approach proposed for identifying SATD from different sources. Thus, in this paper, we propose an approach for automatically identifying SATD from different sources (i.e., source code comments, issue trackers, commit messages, and pull requests).
翻訳日:2022-02-08 16:56:18 公開日:2022-02-04
# 国家安全保障のための知識入りインフォームAI

Knowledge-Integrated Informed AI for National Security ( http://arxiv.org/abs/2202.03188v1 )

ライセンス: Link先を確認
Anu K. Myne, Kevin J. Leahy, Ryan J. Soklaski(参考訳) 人工知能技術の現状は、何十年もさかのぼる豊富な歴史を持ち、今日の爆発的な復活の前の2つの落とし穴を含んでいる。 aiテクノロジは、ドメインや産業への影響によって、ますます主流になりつつあるが、いくつかの欠点や弱点、望ましくない効果を引き起こす可能性がある。 ai技術には多くのアプローチやバリエーションがあるが、彼らが獲得する知識の程度と、彼らが必要とするデータ量に基づいて、単に分類することができる。 現在では、データと知識の両方を活用する第3のカテゴリが登場し始めており、一部では"informed ai"と呼ばれている。 この第3のカテゴリは、活用可能な科学的およびドメイン固有の知識が豊富にあり、純粋なデータ駆動aiが真に望ましくない結果をもたらす、国家安全保障領域内のゲームチェンジャーになり得る。 本報告は、原則的および/または実践的な知識だけでなく、データを利用するaiアプローチを徹底的に探究した結果を共有し、これを「知識統合インフォームドai」と呼ぶ。 具体的には、ディープラーニングと強化学習パイプラインに統合された知識の照明例をレビューし、その性能向上に留意する。 また、知識統合された情報AIの亜種間の明らかな貿易空間と、将来の研究の方向性を示す観察的および顕著な問題についても論じる。 最も重要なことは、このレポートが、知識統合された情報AIの利点が、国家安全保障領域の恩恵にどのように貢献するかを示唆している。

The state of artificial intelligence technology has a rich history that dates back decades and includes two fall-outs before the explosive resurgence of today, which is credited largely to data-driven techniques. While AI technology has and continues to become increasingly mainstream with impact across domains and industries, it's not without several drawbacks, weaknesses, and potential to cause undesired effects. AI techniques are numerous with many approaches and variants, but they can be classified simply based on the degree of knowledge they capture and how much data they require; two broad categories emerge as prominent across AI to date: (1) techniques that are primarily, and often solely, data-driven while leveraging little to no knowledge and (2) techniques that primarily leverage knowledge and depend less on data. Now, a third category is starting to emerge that leverages both data and knowledge, that some refer to as "informed AI." This third category can be a game changer within the national security domain where there is ample scientific and domain-specific knowledge that stands ready to be leveraged, and where purely data-driven AI can lead to serious unwanted consequences. This report shares findings from a thorough exploration of AI approaches that exploit data as well as principled and/or practical knowledge, which we refer to as "knowledge-integrated informed AI." Specifically, we review illuminating examples of knowledge integrated in deep learning and reinforcement learning pipelines, taking note of the performance gains they provide. We also discuss an apparent trade space across variants of knowledge-integrated informed AI, along with observed and prominent issues that suggest worthwhile future research directions. Most importantly, this report suggests how the advantages of knowledge-integrated informed AI stand to benefit the national security domain.
翻訳日:2022-02-08 16:44:15 公開日:2022-02-04
# 反復的信念収縮の論理に関する条件論的考察

A Conditional Perspective on the Logic of Iterated Belief Contraction ( http://arxiv.org/abs/2202.03196v1 )

ライセンス: Link先を確認
Kai Sauerwald and Gabriele Kern-Isberner and Christoph Beierle(参考訳) 本稿では,条件付き信念を尊重する収縮の性質を特定することを目的として,収縮の反復原理を考える。 そこで,条件付き信念のダイナミクスを考慮した4つの反復原理を考察し,評価した。 これらすべての原則に対して、私たちは意味的特徴付けの定理を提供し、信念の変化と条件付き信念が、可能であればどのように制約されるかを強調した仮定による定式化を提供する。 最初のグループは、シンタクティックなダルウィッヒ・パールの仮定に類似している。 第2群として,chopra,ghose,meyer, wong,konieczny および pino p\'erez による収縮の反復のための意味的仮定を考察し,新しい構文対応子を提供する。 第三に、ジンとティールシャーによる独立状態の縮約類似体を提案する。 第4群については,nayakによる自然収縮と中等収縮を考える。 理論的には、契約条件、いわゆる契約条件を利用しており、さらに新しい仮定のいくつかを定式化するために$ \alpha $-equivalenceという新しい概念を提案し、採用する。

In this article, we consider iteration principles for contraction, with the goal of identifying properties for contractions that respect conditional beliefs. Therefore, we investigate and evaluate four groups of iteration principles for contraction which consider the dynamics of conditional beliefs. For all these principles, we provide semantic characterization theorems and provide formulations by postulates which highlight how the change of beliefs and of conditional beliefs is constrained, whenever that is possible. The first group is similar to the syntactic Darwiche-Pearl postulates. As a second group, we consider semantic postulates for iteration of contraction by Chopra, Ghose, Meyer and Wong, and by Konieczny and Pino P\'erez, respectively, and we provide novel syntactic counterparts. Third, we propose a contraction analogue of the independence condition by Jin and Thielscher. For the fourth group, we consider natural and moderate contraction by Nayak. Methodically, we make use of conditionals for contractions, so-called contractionals and furthermore, we propose and employ the novel notion of $ \alpha $-equivalence for formulating some of the new postulates.
翻訳日:2022-02-08 16:43:23 公開日:2022-02-04
# StandardSim:小売環境のための合成データセット

StandardSim: A Synthetic Dataset For Retail Environments ( http://arxiv.org/abs/2202.02418v1 )

ライセンス: Link先を確認
Cristina Mata, Nick Locascio, Mohammed Azeem Sheikh, Kenny Kihara and Dan Fischetti(参考訳) 自動チェックアウトシステムは、小売環境できめ細かいシーン理解を行うために、視覚と感覚の入力に依存している。 小売環境は、密集した、ユニークで類似した物体が多数存在するため、典型的な屋内シーンと比較して、独特の課題を呈する。 rgb入力のみを利用できる場合、特にインスタンスセグメンテーションのようなデータ格納タスクの場合、問題はさらに困難になる。 小売用データセットの欠如に対処するために,セマンティックセグメンテーション,インスタンスセグメンテーション,深さ推定,オブジェクト検出のためのアノテーションを備えた大規模フォトリアリスティック合成データセットであるStandardSimを提案する。 私たちのデータセットはシーン毎に複数のビューを提供し、マルチビュー表現学習を可能にします。 さらに,自動チェックアウトを中心とする新たなタスクであるチェンジ検出を導入し,時間の経過とともにオブジェクトのテイク,テイク,シフトのピクセルレベルでの分類を行う。 データセット上でセグメンテーションと深さ推定のために広く使われているモデルをベンチマークし、テストセットが現在の小規模データセットと比較して難しいベンチマークであり、トレーニングセットが自律チェックアウトタスクに重要な情報を提供することを示す。

Autonomous checkout systems rely on visual and sensory inputs to carry out fine-grained scene understanding in retail environments. Retail environments present unique challenges compared to typical indoor scenes owing to the vast number of densely packed, unique yet similar objects. The problem becomes even more difficult when only RGB input is available, especially for data-hungry tasks such as instance segmentation. To address the lack of datasets for retail, we present StandardSim, a large-scale photorealistic synthetic dataset featuring annotations for semantic segmentation, instance segmentation, depth estimation, and object detection. Our dataset provides multiple views per scene, enabling multi-view representation learning. Further, we introduce a novel task central to autonomous checkout called change detection, requiring pixel-level classification of takes, puts and shifts in objects over time. We benchmark widely-used models for segmentation and depth estimation on our dataset, show that our test set constitutes a difficult benchmark compared to current smaller-scale datasets and that our training set provides models with crucial information for autonomous checkout tasks.
翻訳日:2022-02-08 16:43:04 公開日:2022-02-04
# ニューラル微分方程式について

On Neural Differential Equations ( http://arxiv.org/abs/2202.02435v1 )

ライセンス: Link先を確認
Patrick Kidger(参考訳) 動的システムとディープラーニングの結合は、大きな関心事となっている。 特に、神経微分方程式 (neural differential equation, ndes) は、ニューラルネットワークと微分方程式が同じコインの両側であることを示す。 伝統的なパラメータ化微分方程式は特別な場合である。 残差ネットワークやリカレントネットワークなど、多くの一般的なニューラルネットワークアーキテクチャは離散化である。 NDEは生成問題、力学系、時系列(特に物理学、金融学、...)に対処するのに適しており、現代の機械学習と伝統的な数学的モデリングの両方に関心がある。 NDEは高容量関数近似、モデル空間への強い先行性、不規則なデータを扱う能力、メモリ効率、そして両サイドで利用可能な豊富な理論を提供する。 この博士論文は、この分野の詳細な調査を提供する。 トピックとしては、神経常微分方程式(例えば、物理系のハイブリッド・ニューラル・メカニック・モデリング)、神経制御微分方程式(例えば、不規則時系列の関数を学習する)、神経確率微分方程式(例えば、複雑な確率力学を表現することができる生成モデルを生成する)などがある。 NDEの数値的方法(可逆微分方程式解法、微分方程式によるバックプロパゲーション、ブラウン変換)、力学系の記号的回帰(正規化進化など)、深い暗黙的モデル(深い平衡モデル、微分可能な最適化など)。 この論文は、深層学習と力学系との結婚に関心のある人なら誰でも興味をそそられるものと期待しており、現在の芸術の状況に対する有用な参考となることを願っている。

The conjoining of dynamical systems and deep learning has become a topic of great interest. In particular, neural differential equations (NDEs) demonstrate that neural networks and differential equation are two sides of the same coin. Traditional parameterised differential equations are a special case. Many popular neural network architectures, such as residual networks and recurrent networks, are discretisations. NDEs are suitable for tackling generative problems, dynamical systems, and time series (particularly in physics, finance, ...) and are thus of interest to both modern machine learning and traditional mathematical modelling. NDEs offer high-capacity function approximation, strong priors on model space, the ability to handle irregular data, memory efficiency, and a wealth of available theory on both sides. This doctoral thesis provides an in-depth survey of the field. Topics include: neural ordinary differential equations (e.g. for hybrid neural/mechanistic modelling of physical systems); neural controlled differential equations (e.g. for learning functions of irregular time series); and neural stochastic differential equations (e.g. to produce generative models capable of representing complex stochastic dynamics, or sampling from complex high-dimensional distributions). Further topics include: numerical methods for NDEs (e.g. reversible differential equations solvers, backpropagation through differential equations, Brownian reconstruction); symbolic regression for dynamical systems (e.g. via regularised evolution); and deep implicit models (e.g. deep equilibrium models, differentiable optimisation). We anticipate this thesis will be of interest to anyone interested in the marriage of deep learning with dynamical systems, and hope it will provide a useful reference for the current state of the art.
翻訳日:2022-02-08 15:45:18 公開日:2022-02-04
# Pir\'a: 海に関する質問に答えるバイリンガルなポルトガル語と英語のデータセット

Pir\'a: A Bilingual Portuguese-English Dataset for Question-Answering about the Ocean ( http://arxiv.org/abs/2202.02398v1 )

ライセンス: Link先を確認
Andr\'e F. A. Paschoal, Paulo Pirozelli, Valdinei Freire, Karina V. Delgado, Sarajane M. Peres, Marcos M. Jos\'e, Fl\'avio Nakasato, Andr\'e S. Oliveira, Anarosa A. F. Brand\~ao, Anna H. R. Costa, Fabio G. Cozman(参考訳) 現在の自然言語処理の研究は、慎重に生産されたコーパスに大きく依存している。 一部の資源は中国語やフランス語などの言語に焦点を当てており、複数の言語を扱う資源はほとんどない。 本稿では,ポルトガル語と英語の両方で,海洋とブラジル沿岸に関する質問と回答のセットであるpir\'aデータセットについて述べる。 Pir\'aは、私たちの知る限りでは、ポルトガル語でテキストをサポートする最初のQAデータセットであり、おそらく、この言語を含む最初のバイリンガルなQAデータセットです。 Pir\'aデータセットは、両方の言語で適切にキュレートされた質問/回答セット(QA)からなる。 qaセットはブラジル沿岸に関する抽象と、海洋に関する国連報告の抜粋という2つのコーパスに基づいて手作業で作成された。 QAデータセットは、データセットコントリビュータによるピアレビュープロセスで検証された。 我々はpir\'aの利点と限界について論じる。この新しいリソースはnlpにおける質問処理、情報検索、機械翻訳といった一連のタスクをサポートすることができる。

Current research in natural language processing is highly dependent on carefully produced corpora. Most existing resources focus on English; some resources focus on languages such as Chinese and French; few resources deal with more than one language. This paper presents the Pir\'a dataset, a large set of questions and answers about the ocean and the Brazilian coast both in Portuguese and English. Pir\'a is, to the best of our knowledge, the first QA dataset with supporting texts in Portuguese, and, perhaps more importantly, the first bilingual QA dataset that includes this language. The Pir\'a dataset consists of 2261 properly curated question/answer (QA) sets in both languages. The QA sets were manually created based on two corpora: abstracts related to the Brazilian coast and excerpts of United Nation reports about the ocean. The QA sets were validated in a peer-review process with the dataset contributors. We discuss some of the advantages as well as limitations of Pir\'a, as this new resource can support a set of tasks in NLP such as question-answering, information retrieval, and machine translation.
翻訳日:2022-02-08 15:44:35 公開日:2022-02-04
# 潜在空間表現を用いた分布シフトの発見

Discovering Distribution Shifts using Latent Space Representations ( http://arxiv.org/abs/2202.02339v1 )

ライセンス: Link先を確認
Leo Betthauser, Urszula Chajewska, Maurice Diesendruck, Rohith Pesala(参考訳) 表現学習の急速な進歩は、埋め込みモデルの普及と、モデル選択と実用的な応用に関する課題につながった。 新たな候補データセットに対するモデルの一般化可能性や一般化の失敗が、下流タスクのパフォーマンスの低下につながる可能性があると評価するのは簡単ではない。 分布シフトは一般化可能性の低下の原因の1つであり、実際に検出することがしばしば困難である。 本稿では,空間幾何学を用いて分布変化を検出するための非パラメトリックフレームワークを提案し,2つのテストを指定する。 最初のテストは、参照データセットと候補データセットを比較するための、理解不能なパフォーマンス基準によって決定される堅牢性境界を確立することでシフトを検出する。 2つ目のテストは、2つのデータセットの複数のサブサンプルを非分布と非分布に分類し、シフトを検出する。 評価において、どちらのテストも合成データと実世界のデータセットの両方において、様々なシフトシナリオでモデルに影響を及ぼす分散シフトを検出する。

Rapid progress in representation learning has led to a proliferation of embedding models, and to associated challenges of model selection and practical application. It is non-trivial to assess a model's generalizability to new, candidate datasets and failure to generalize may lead to poor performance on downstream tasks. Distribution shifts are one cause of reduced generalizability, and are often difficult to detect in practice. In this paper, we use the embedding space geometry to propose a non-parametric framework for detecting distribution shifts, and specify two tests. The first test detects shifts by establishing a robustness boundary, determined by an intelligible performance criterion, for comparing reference and candidate datasets. The second test detects shifts by featurizing and classifying multiple subsamples of two datasets as in-distribution and out-of-distribution. In evaluation, both tests detect model-impacting distribution shifts, in various shift scenarios, for both synthetic and real-world datasets.
翻訳日:2022-02-08 15:40:37 公開日:2022-02-04
# 再現可能な深層学習モデルの訓練に向けて

Towards Training Reproducible Deep Learning Models ( http://arxiv.org/abs/2202.02326v1 )

ライセンス: Link先を確認
Boyuan Chen, Mingzhi Wen, Yong Shi, Dayi Lin, Gopi Krishnan Rajbahadur, Zhen Ming (Jack) Jiang(参考訳) 再現性は人工知能(AI)、特にディープラーニング(DL)分野における関心が高まっている。 DLモデルを再現できることは、トレーニング、テスト、デバッグ、監査といったさまざまなタスクと密接に結びついているので、AIベースのシステムにとって極めて重要です。 しかし、DLモデルは、ソフトウェアにおけるランダム性(例:DLアルゴリズム)やハードウェアにおける非決定性(例:GPU)などの問題により、再現が困難である。 上記の問題のいくつかを緩和するための様々なプラクティスがある。 しかし、それらの多くは侵入的すぎるか、特定の使用状況でしか機能しない。 本稿では,再現可能なdlモデルの学習のための体系的アプローチを提案する。 提案手法は,(1)2つのドメインに対するDLモデルの再現性を徹底的に評価する一般的な基準,(2)ソフトウェア関連ランダム性を緩和するレコード・アンド・リプレイ技術と,(2)ハードウェア関連非決定性を制御するプロファイル・アンド・パッチ技術を活用する統一フレームワーク,(3)DLモデルに対する再現性トレーニングプロセスの理論的および緩和戦略を説明する再現性ガイドラインを含む。 事例研究の結果,我々は6つのオープンソースモデルと1つの商用dlモデルを再現することに成功した。

Reproducibility is an increasing concern in Artificial Intelligence (AI), particularly in the area of Deep Learning (DL). Being able to reproduce DL models is crucial for AI-based systems, as it is closely tied to various tasks like training, testing, debugging, and auditing. However, DL models are challenging to be reproduced due to issues like randomness in the software (e.g., DL algorithms) and non-determinism in the hardware (e.g., GPU). There are various practices to mitigate some of the aforementioned issues. However, many of them are either too intrusive or can only work for a specific usage context. In this paper, we propose a systematic approach to training reproducible DL models. Our approach includes three main parts: (1) a set of general criteria to thoroughly evaluate the reproducibility of DL models for two different domains, (2) a unified framework which leverages a record-and-replay technique to mitigate software-related randomness and a profile-and-patch technique to control hardware-related non-determinism, and (3) a reproducibility guideline which explains the rationales and the mitigation strategies on conducting a reproducible training process for DL models. Case study results show our approach can successfully reproduce six open source and one commercial DL models.
翻訳日:2022-02-08 15:11:03 公開日:2022-02-04
# 特徴重要度法が欠陥分類器の解釈に及ぼす影響

The impact of feature importance methods on the interpretation of defect classifiers ( http://arxiv.org/abs/2202.02389v1 )

ライセンス: Link先を確認
Gopi Krishnan Rajbahadur, Shaowei Wang, Yasutaka Kamei, Ahmed E. Hassan(参考訳) 分類器特異性(CS)と分類器非依存性(CA)の特徴的重要度法(CA)は、欠陥分類器から特徴的重要性のランクを導出するために、先行研究によって広く用いられている。 しかし、異なる特徴重要度法は、同じデータセットと分類器であっても、異なる特徴重要度を計算する可能性が高い。 したがって、これらの交換可能な特徴重要メソッドの使用は、異なる方法の間に強い一致がない限り、結論不安定につながる可能性がある。 そこで本稿では,18のソフトウェアプロジェクトと6つの一般的な分類器のケーススタディを通して,研究対象の分類器に関連する特徴的重要度の間の一致度を評価する。 私たちはそれを見つけました 1) ca と cs 法による計算された特徴量ランクは必ずしも互いに強く一致しない。 2)ca法で計算された特徴重要度ランクは,与えられたデータセットと分類器の上位1位と上位3位で報告される特徴を含む強い一致を示し,一般のcs法でも特徴重要度が著しく異なる。 このような発見は、複製された研究における結論の安定性に関する懸念を引き起こす。 さらに,一般的に使用される欠陥データセットは特徴的相互作用を伴っており,これらの特徴的相互作用はcs法(ca法ではない)の特徴的重要度を計算した。 CFSのような単純な手法であっても,これらの特徴相互作用の除去は,CA法とCS法の計算された特徴重要ランクの一致を改善することを実証する。 本研究は,先進的特徴相互作用除去法がCS手法の計算的特徴重要度に与える影響を調査するために,将来の研究のモデル解釈と方向性を行う際の利害関係者や実践者に対するガイドラインを提供する。

Classifier specific (CS) and classifier agnostic (CA) feature importance methods are widely used (often interchangeably) by prior studies to derive feature importance ranks from a defect classifier. However, different feature importance methods are likely to compute different feature importance ranks even for the same dataset and classifier. Hence such interchangeable use of feature importance methods can lead to conclusion instabilities unless there is a strong agreement among different methods. Therefore, in this paper, we evaluate the agreement between the feature importance ranks associated with the studied classifiers through a case study of 18 software projects and six commonly used classifiers. We find that: 1) The computed feature importance ranks by CA and CS methods do not always strongly agree with each other. 2) The computed feature importance ranks by the studied CA methods exhibit a strong agreement including the features reported at top-1 and top-3 ranks for a given dataset and classifier, while even the commonly used CS methods yield vastly different feature importance ranks. Such findings raise concerns about the stability of conclusions across replicated studies. We further observe that the commonly used defect datasets are rife with feature interactions and these feature interactions impact the computed feature importance ranks of the CS methods (not the CA methods). We demonstrate that removing these feature interactions, even with simple methods like CFS improves agreement between the computed feature importance ranks of CA and CS methods. In light of our findings, we provide guidelines for stakeholders and practitioners when performing model interpretation and directions for future research, e.g., future research is needed to investigate the impact of advanced feature interaction removal methods on computed feature importance ranks of different CS methods.
翻訳日:2022-02-08 15:10:28 公開日:2022-02-04
# ロジスティックバンディットにおける後悔最小化のための実験的設計手法

An Experimental Design Approach for Regret Minimization in Logistic Bandits ( http://arxiv.org/abs/2202.02407v1 )

ライセンス: Link先を確認
Blake Mason, Kwang-Sung Jun, Lalit Jain(参考訳) 本研究では,ロジスティックバンディットの最小化問題について考察する。 ロジスティックバンディットの主な課題は、未知のパラメータ $\theta_{\ast}$ のノルムで指数関数的に極大にスケール可能な、潜在的に大きな問題依存定数 $\kappa$ への依存を減らすことである。 Abeille et al. (2021) は、この最悪のケース依存を取り除くために、ロジスティック関数の自己一致を適用し、例えば$O(d\log^2(\kappa)\sqrt{\dot\mu T}\log(|\mathcal{X}|))$$d$は次元、$T$は時間軸、$\dot\mu$はベストアームの分散を提供する。 この作業は、$O(\sqrt{d \dot\mu T\log(|\mathcal{X}|)})$のミニマックス後悔を実現する実験的な設計手順を用いることで、固定アーム設定におけるこの境界を改善する。 私たちの後悔は、実際により厳密な例(すなわちギャップ)を、ロジスティックな盗賊の中で初めて従属的後悔とみなす。 また,後悔の下位の項を劇的に減少させ,いくつかのインスタンスに対して$\kappa$ から$\log^2(\kappa)$ への下位の項依存性を置換できる新しいウォームアップサンプリングアルゴリズムを提案する。 最後に、ロジスティック・バンディット問題に対するmleのバイアスの影響について論じ、mleが使用される限り、$d^2$低次の後悔(cf.、リニア・バンディットは$d$)が改善されない可能性がある例と、バイアス補正された推定器が$d$に近いものにどのように使われるかを示す。

In this work we consider the problem of regret minimization for logistic bandits. The main challenge of logistic bandits is reducing the dependence on a potentially large problem dependent constant $\kappa$ that can at worst scale exponentially with the norm of the unknown parameter $\theta_{\ast}$. Abeille et al. (2021) have applied self-concordance of the logistic function to remove this worst-case dependence providing regret guarantees like $O(d\log^2(\kappa)\sqrt{\dot\mu T}\log(|\mathcal{X}|))$ where $d$ is the dimensionality, $T$ is the time horizon, and $\dot\mu$ is the variance of the best-arm. This work improves upon this bound in the fixed arm setting by employing an experimental design procedure that achieves a minimax regret of $O(\sqrt{d \dot\mu T\log(|\mathcal{X}|)})$. Our regret bound in fact takes a tighter instance (i.e., gap) dependent regret bound for the first time in logistic bandits. We also propose a new warmup sampling algorithm that can dramatically reduce the lower order term in the regret in general and prove that it can replace the lower order term dependency on $\kappa$ to $\log^2(\kappa)$ for some instances. Finally, we discuss the impact of the bias of the MLE on the logistic bandit problem, providing an example where $d^2$ lower order regret (cf., it is $d$ for linear bandits) may not be improved as long as the MLE is used and how bias-corrected estimators may be used to make it closer to $d$.
翻訳日:2022-02-08 14:37:21 公開日:2022-02-04
# TransFollower: 変圧器による車列追従軌道予測

TransFollower: Long-Sequence Car-Following Trajectory Prediction through Transformer ( http://arxiv.org/abs/2202.03183v1 )

ライセンス: Link先を確認
Meixin Zhu, Simon S. Du, Xuesong Wang, Hao (Frank) Yang, Ziyuan Pu, Yinhai Wang(参考訳) カーフォロー(Car-following)とは、後続の車両(FV)が、前方の車両の動作に応じて加速を調整することにより、自身とリード車両(LV)の間の安全な距離を保とうとする制御過程を指す。 対応する車両追従モデルでは、交通の流れの中である車両が別の車両にどのように従うかを記述し、微視的交通シミュレーションとインテリジェントな車両開発の基礎となる。 カーフォローモデルの主な動機の1つは、人間のドライバーの縦方向の運転軌跡を再現することである。 過去の運転状況に対する将来の行動の長期的依存をモデル化するために,注意に基づくトランスフォーマーモデルに基づく車列追従軌道予測モデルを開発した。 このモデルはエンコーダ-デコーダアーキテクチャの一般的な形式に従う。 エンコーダは、履歴速度とスペーシングデータを入力として、マルチヘッドセルフアテンションを用いて、履歴駆動コンテキストの混合表現を形成する。 デコーダは、将来のLV速度プロファイルを入力として、予測された将来のFV速度プロファイルを生成方法で出力する(自動回帰方式ではなく、複合エラーを回避する)。 エンコーダとデコーダとの相互接続により、デコーダは、将来のfv速度の予測が得られる履歴駆動と将来のlv速度との接続を構築することを学ぶ。 上海博物学運転研究会(SH-NDS)から抽出した112,597台の実車追跡イベントを用いて,我々のモデルを訓練・試験した。 その結果、モデルが従来のインテリジェントドライバモデル(IDM)、完全に接続されたニューラルネットワークモデル、長期短期メモリ(LSTM)ベースのモデルよりも長周期軌道予測精度が高いことがわかった。 また、モデルがどのように予測を導出するかを説明するために、自己注意と横断熱マップを可視化した。

Car-following refers to a control process in which the following vehicle (FV) tries to keep a safe distance between itself and the lead vehicle (LV) by adjusting its acceleration in response to the actions of the vehicle ahead. The corresponding car-following models, which describe how one vehicle follows another vehicle in the traffic flow, form the cornerstone for microscopic traffic simulation and intelligent vehicle development. One major motivation of car-following models is to replicate human drivers' longitudinal driving trajectories. To model the long-term dependency of future actions on historical driving situations, we developed a long-sequence car-following trajectory prediction model based on the attention-based Transformer model. The model follows a general format of encoder-decoder architecture. The encoder takes historical speed and spacing data as inputs and forms a mixed representation of historical driving context using multi-head self-attention. The decoder takes the future LV speed profile as input and outputs the predicted future FV speed profile in a generative way (instead of an auto-regressive way, avoiding compounding errors). Through cross-attention between encoder and decoder, the decoder learns to build a connection between historical driving and future LV speed, based on which a prediction of future FV speed can be obtained. We train and test our model with 112,597 real-world car-following events extracted from the Shanghai Naturalistic Driving Study (SH-NDS). Results show that the model outperforms the traditional intelligent driver model (IDM), a fully connected neural network model, and a long short-term memory (LSTM) based model in terms of long-sequence trajectory prediction accuracy. We also visualized the self-attention and cross-attention heatmaps to explain how the model derives its predictions.
翻訳日:2022-02-08 14:12:22 公開日:2022-02-04
# ニューラルロジックアナロジー学習

Neural Logic Analogy Learning ( http://arxiv.org/abs/2202.02436v1 )

ライセンス: Link先を確認
Yujia Fan and Yongfeng Zhang(参考訳) 文字文字列アナロジーは人間にとって簡単と思われるが、機械にとって非常に難しい重要なアナロジー学習タスクである。 文字文字列アナロジーの解法の主な考え方は、アナロジー構造を抽出しアナロジー写像を構築するためのヒューリスティックな規則を設計することである。 しかし、一つの重要な問題は、アナロジーの微妙さを完全に記述できる包括的で網羅的なアナロジー構造を構築することが難しいことである。 この問題により、現在のアプローチでは複雑な文字列類似の問題に対処できない。 本稿では,アナロジー問題を解くために,微分可能な論理推論によって駆動される動的ニューラルネットワークであるneural logic analogy learning(noan)を提案する。 各アナロジー問題は論理変数と基本論理演算(and, or, not)からなる論理式に変換される。 より具体的には、Noanはベクトル埋め込みとして論理変数を学び、ニューラルモジュールとして各論理演算を学習する。 このようにモデルでは、入力文字列の内部論理構造をキャプチャするために、ニューラルネットワークと論理推論を統合する計算グラフを構築する。 そして、アナロジー学習問題は論理表現の真偽評価問題となる。 実験により、私たちの機械学習ベースのNoanアプローチは、標準文字文字列類似ベンチマークデータセットの最先端アプローチよりも優れています。

Letter-string analogy is an important analogy learning task which seems to be easy for humans but very challenging for machines. The main idea behind current approaches to solving letter-string analogies is to design heuristic rules for extracting analogy structures and constructing analogy mappings. However, one key problem is that it is difficult to build a comprehensive and exhaustive set of analogy structures which can fully describe the subtlety of analogies. This problem makes current approaches unable to handle complicated letter-string analogy problems. In this paper, we propose Neural logic analogy learning (Noan), which is a dynamic neural architecture driven by differentiable logic reasoning to solve analogy problems. Each analogy problem is converted into logical expressions consisting of logical variables and basic logical operations (AND, OR, and NOT). More specifically, Noan learns the logical variables as vector embeddings and learns each logical operation as a neural module. In this way, the model builds computational graph integrating neural network with logical reasoning to capture the internal logical structure of the input letter strings. The analogy learning problem then becomes a True/False evaluation problem of the logical expressions. Experiments show that our machine learning-based Noan approach outperforms state-of-the-art approaches on standard letter-string analogy benchmark datasets.
翻訳日:2022-02-08 14:11:26 公開日:2022-02-04
# 政策勾配推定のための時間差アプローチ

A Temporal-Difference Approach to Policy Gradient Estimation ( http://arxiv.org/abs/2202.02396v1 )

ライセンス: Link先を確認
Samuele Tosatto, Andrew Patterson, Martha White, A. Rupam Mahmood(参考訳) ポリシー勾配定理(sutton et al., 2000)は、対象ポリシーの下で累積ディスカウントされた状態分布を用いて勾配を近似することを定めている。 この定理に基づくほとんどのアルゴリズムは、実際にはこの仮定を破り、貧弱な解への収束を引き起こす分布シフトを導入する。 本稿では,特定のサンプリング戦略を必要とせず,開始状態から方針勾配を再構築する新しい手法を提案する。 この形式の政策勾配計算は、勾配批判の観点で単純化することができ、新しい勾配のベルマン方程式によって再帰的に推定することができる。 オフ・ポリシー・データ・ストリームからの勾配批判者の時間変化更新を用いて,分布シフト問題をモデルフリーで回避する最初の推定器を開発した。 我々は, ある実現可能性条件下では, サンプリング戦略によらず, 推定値が不偏であることを証明した。 本手法は,非政治サンプルの存在下で,優れたバイアス分散トレードオフと性能を実現することを実証的に示す。

The policy gradient theorem (Sutton et al., 2000) prescribes the usage of a cumulative discounted state distribution under the target policy to approximate the gradient. Most algorithms based on this theorem, in practice, break this assumption, introducing a distribution shift that can cause the convergence to poor solutions. In this paper, we propose a new approach of reconstructing the policy gradient from the start state without requiring a particular sampling strategy. The policy gradient calculation in this form can be simplified in terms of a gradient critic, which can be recursively estimated due to a new Bellman equation of gradients. By using temporal-difference updates of the gradient critic from an off-policy data stream, we develop the first estimator that sidesteps the distribution shift issue in a model-free way. We prove that, under certain realizability conditions, our estimator is unbiased regardless of the sampling strategy. We empirically show that our technique achieves a superior bias-variance trade-off and performance in presence of off-policy samples.
翻訳日:2022-02-08 14:07:30 公開日:2022-02-04
# 非定常時間系列の深層学習改善のための自己適応型予測法

Self-Adaptive Forecasting for Improved Deep Learning on Non-Stationary Time-Series ( http://arxiv.org/abs/2202.02403v1 )

ライセンス: Link先を確認
Sercan O. Arik, Nathanael C. Yoder and Tomas Pfister(参考訳) 現実世界の時系列データセットは、予測のための標準的な教師付き学習の仮定にしばしば違反する -- 彼らの分布は時間とともに進化し、従来のトレーニングとモデル選択手順を最適にします。 本稿では,非定常時系列データを用いた予測タスクの性能向上のために,時系列予測モデルのトレーニングを変更するための自己適応予測(SAF)手法を提案する。 saf は 'backcasting' に基づいた予測に先立って自己適応ステージ、すなわちマスクされた入力を後方に予測する。 これはテスト時間トレーニングの一種で、予測タスクを実行する前に、テストサンプルに自己教師付き学習問題を生成する。 この方法では, 符号化表現を進化する分布に効率的に適応させることにより, 優れた一般化が可能となる。 SAFは、リカレントニューラルネットワークやアテンションベースのアーキテクチャなど、任意の標準エンコーダベースの時系列アーキテクチャと統合することができる。 医療や金融など、時系列データの非定常性が悪名高い領域における合成および実世界のデータセットについて、safによる予測精度向上のメリットを実証する。

Real-world time-series datasets often violate the assumptions of standard supervised learning for forecasting -- their distributions evolve over time, rendering the conventional training and model selection procedures suboptimal. In this paper, we propose a novel method, Self-Adaptive Forecasting (SAF), to modify the training of time-series forecasting models to improve their performance on forecasting tasks with such non-stationary time-series data. SAF integrates a self-adaptation stage prior to forecasting based on `backcasting', i.e. predicting masked inputs backward in time. This is a form of test-time training that creates a self-supervised learning problem on test samples before performing the prediction task. In this way, our method enables efficient adaptation of encoded representations to evolving distributions, leading to superior generalization. SAF can be integrated with any canonical encoder-decoder based time-series architecture such as recurrent neural networks or attention-based architectures. On synthetic and real-world datasets in domains where time-series data are known to be notoriously non-stationary, such as healthcare and finance, we demonstrate a significant benefit of SAF in improving forecasting accuracy.
翻訳日:2022-02-08 14:07:13 公開日:2022-02-04
# SMODICE: 状態整合によるVersatile Offline Imitation Learning

SMODICE: Versatile Offline Imitation Learning via State Occupancy Matching ( http://arxiv.org/abs/2202.02433v1 )

ライセンス: Link先を確認
Yecheng Jason Ma, Andrew Shen, Dinesh Jayaraman, Osbert Bastani(参考訳) 本研究では,オフライン模倣学習(IL)のための新しいアルゴリズムSMODICE(State Matching Offline Distribution Correction Estimation)を提案する。 smodice の目標は,fenchel duality の応用による単純な最適化手順と,表型mdp における解析解の存在を示す。 専門家のアクションにアクセスする必要がないため、SMODICEは3つのオフラインIL設定に効果的に適用できる。 (i)観察からの模倣(ifo) (ii)動力学又は形態学的に不整合な専門家のifo (iii)実例に基づく強化学習は,状態占有者マッチング問題として定式化できることを示す。 グリッドワールド環境と高次元オフラインベンチマークの両方でSMODICEを広範囲に評価する。 以上の結果から,SMODICEは3つの問題設定に対して有効であり,先行技術よりも優れていたことが示唆された。

We propose State Matching Offline DIstribution Correction Estimation (SMODICE), a novel and versatile algorithm for offline imitation learning (IL) via state-occupancy matching. We show that the SMODICE objective admits a simple optimization procedure through an application of Fenchel duality and an analytic solution in tabular MDPs. Without requiring access to expert actions, SMODICE can be effectively applied to three offline IL settings: (i) imitation from observations (IfO), (ii) IfO with dynamics or morphologically mismatched expert, and (iii) example-based reinforcement learning, which we show can be formulated as a state-occupancy matching problem. We extensively evaluate SMODICE on both gridworld environments as well as on high-dimensional offline benchmarks. Our results demonstrate that SMODICE is effective for all three problem settings and significantly outperforms prior state-of-art.
翻訳日:2022-02-08 14:06:53 公開日:2022-02-04
# JARVix at SemEval-2022 Task 2: 知っておくべきことは何か? ゼロ・ワンショット学習による慣用性検出

JARVix at SemEval-2022 Task 2: It Takes One to Know One? Idiomaticity Detection using Zero and One Shot Learning ( http://arxiv.org/abs/2202.02394v1 )

ライセンス: Link先を確認
Ashwin Pathak, Raj Shah, Vaibhav Kumar, Yash Jakhotiya(参考訳) 大規模言語モデルは、テキスト表現の構成性をキャプチャすることで、様々な自然言語処理タスクで成功している。 その大きな成功にもかかわらず、これらのベクトル表現は慣用的多語表現(mwes)の意味を捉えられなかった。 本稿では,二項分類を用いた慣用的表現の検出に焦点をあてる。 私たちは英語とポルトガル語のmwesのリテラルと慣用的な使用からなるデータセットを使用します。 その後、ゼロショットとワンショットの2つの異なる設定で分類を行い、与えられた文がイディオムを含むか否かを判定する。 このタスクのNショット分類は、トレーニングセットとテストセットの間の共通イディオムの数によって定義される。 本稿では,複数の大規模言語モデルを両設定で訓練し,ゼロショット設定で0.73のf1スコア(macro),ワンショット設定で0.85のf1スコア(macro)を達成する。 私たちの作業の実装はhttps://github.com/a shwinpathak20/Idioma ticity_Detection_Usi ng_Few_Shot_Learning で確認できます。

Large Language Models have been successful in a wide variety of Natural Language Processing tasks by capturing the compositionality of the text representations. In spite of their great success, these vector representations fail to capture meaning of idiomatic multi-word expressions (MWEs). In this paper, we focus on the detection of idiomatic expressions by using binary classification. We use a dataset consisting of the literal and idiomatic usage of MWEs in English and Portuguese. Thereafter, we perform the classification in two different settings: zero shot and one shot, to determine if a given sentence contains an idiom or not. N shot classification for this task is defined by N number of common idioms between the training and testing sets. In this paper, we train multiple Large Language Models in both the settings and achieve an F1 score (macro) of 0.73 for the zero shot setting and an F1 score (macro) of 0.85 for the one shot setting. An implementation of our work can be found at https://github.com/a shwinpathak20/Idioma ticity_Detection_Usi ng_Few_Shot_Learning .
翻訳日:2022-02-08 13:42:49 公開日:2022-02-04
# トランスフォーマーと生体医学的背景知識の表現

Transformers and the representation of biomedical background knowledge ( http://arxiv.org/abs/2202.02432v1 )

ライセンス: Link先を確認
Oskar Wysocki (1,2), Zili Zhou (1,2), Paul O'Regan (2), Deborah Ferreira (1), Magdalena Wysocka (2), D\'onal Landers (2), Andr\'e Freitas (1,2,3) ((1) Department of Computer Science, The University of Manchester, (2) digital Experimental Cancer Medicine Team, Cancer Biomarker Centre, CRUK Manchester Institute, University of Manchester, (3) Idiap Research Institute)(参考訳) BioBERTとBioMegatronは、一般公開されたバイオメディカルコーパスに基づいて、バイオメディカルドメイン向けに適合したトランスフォーマーモデルである。 そのため、大規模な生物学的知識をエンコードする可能性がある。 本研究は、これらのモデルにおける生物学的知識の符号化と表現、および癌精密医学における推論支援の潜在的有用性、すなわちゲノム改変の臨床的意義の解釈について検討する。 我々は、異なるトランスフォーマーベースラインのパフォーマンスを比較し、異なるエンティティのエンコーディングの一貫性を決定するためにプローブを使用し、クラスタリング手法を使用して、遺伝子、変異体、薬物、疾患に対する埋め込みの内部特性を比較し、対比する。 これらのモデルは生物学的知識をエンコードしているが、特定のタスクの微調整では失われるものもある。 最後に,データセット内のバイアスや不均衡に関してモデルがどのように振る舞うかを分析する。

BioBERT and BioMegatron are Transformers models adapted for the biomedical domain based on publicly available biomedical corpora. As such, they have the potential to encode large-scale biological knowledge. We investigate the encoding and representation of biological knowledge in these models, and its potential utility to support inference in cancer precision medicine - namely, the interpretation of the clinical significance of genomic alterations. We compare the performance of different transformer baselines; we use probing to determine the consistency of encodings for distinct entities; and we use clustering methods to compare and contrast the internal properties of the embeddings for genes, variants, drugs and diseases. We show that these models do indeed encode biological knowledge, although some of this is lost in fine-tuning for specific tasks. Finally, we analyse how the models behave with regard to biases and imbalances in the dataset.
翻訳日:2022-02-08 13:42:34 公開日:2022-02-04
# OMLT:最適化と機械学習ツールキット

OMLT: Optimization & Machine Learning Toolkit ( http://arxiv.org/abs/2202.02414v1 )

ライセンス: Link先を確認
Francesco Ceccon, Jordan Jalving, Joshua Haddad, Alexander Thebelt, Calvin Tsay, Carl D. Laird, Ruth Misener(参考訳) 最適化と機械学習ツールキット(OMLT)は、ニューラルネットワークと勾配ブーストツリーサロゲートモデルを組み込んだオープンソースのソフトウェアパッケージで、機械学習を用いてトレーニングされた。 我々は、OMLTを可能とした最適化技術の進歩について論じ、OMLTが代数モデリング言語であるPyomoとシームレスに統合されていることを示す。 我々は,コンピュータ科学と工学の両方における意思決定問題を解決するためのomltの使い方を実証する。

The optimization and machine learning toolkit (OMLT) is an open-source software package incorporating neural network and gradient-boosted tree surrogate models, which have been trained using machine learning, into larger optimization problems. We discuss the advances in optimization technology that made OMLT possible and show how OMLT seamlessly integrates with the algebraic modeling language Pyomo. We demonstrate how to use OMLT for solving decision-making problems in both computer science and engineering.
翻訳日:2022-02-08 13:42:19 公開日:2022-02-04
# 量子変分回路の最適化手法に関する実証的レビュー

An Empirical Review of Optimization Techniques for Quantum Variational Circuits ( http://arxiv.org/abs/2202.01389v2 )

ライセンス: Link先を確認
Owen Lockwood(参考訳) 量子変分回路(qvcs)は、短期と長期の両方の量子ハードウェアの最も強力な用途の1つとしてしばしば主張される。 これらの回路を最適化するための標準的なアプローチは、最適化ステップごとに新しいパラメータを計算する古典的なシステムに依存している。 しかし、この過程は、指数関数的に拡大する複素ヒルベルト空間、バレン高原、および予測可能な全ての量子ハードウェアに存在する雑音の両方において極めて困難である。 様々な最適化アルゴリズムが実際に用いられているが、理論的あるいは経験的なモチベーションが欠如していることが多い。 この目的のために、様々な最適化タスクにおいて、多くの共通勾配と勾配のないオプティマイザのポテンシャルを実証的に評価する。 これらのタスクには古典的および量子的データに基づく最適化ルーチンが含まれる。 評価は無騒音シミュレーションと無騒音シミュレーションの両方で行った。 多数の問題とオプティマイザは、現在不足しているQVCのオプティマイザを選択するための強力な実証的なガイダンスをもたらす。

Quantum Variational Circuits (QVCs) are often claimed as one of the most potent uses of both near term and long term quantum hardware. The standard approaches to optimizing these circuits rely on a classical system to compute the new parameters at every optimization step. However, this process can be extremely challenging both in terms of navigating the exponentially scaling complex Hilbert space, barren plateaus, and the noise present in all foreseeable quantum hardware. Although a variety of optimization algorithms are employed in practice, there is often a lack of theoretical or empirical motivations for this choice. To this end we empirically evaluate the potential of many common gradient and gradient free optimizers on a variety of optimization tasks. These tasks include both classical and quantum data based optimization routines. Our evaluations were conducted in both noise free and noisy simulations. The large number of problems and optimizers yields strong empirical guidance for choosing optimizers for QVCs that is currently lacking.
翻訳日:2022-02-08 12:02:32 公開日:2022-02-04
# (参考訳) 時間制約学習

Time-Constrained Learning ( http://arxiv.org/abs/2202.01913v1 )

ライセンス: CC BY 4.0
Sergio Filho, Eduardo Laber, Pedro Lazera, Marco Molinaro(参考訳) 巨大なラベル付きデータセット${\cal D}$と、与えられた学習者を${\cal D}$でトレーニングする限られた時間を持つシナリオを考えてみましょう。 データセット全体を使用できない可能性があるため、どのように進めるべきなのか? この性質の疑問は、時間制約学習タスク(tcl: time-constrained learning task)の定義を動機付けている。 未知のディストリビューションからサンプリングされたデータセット ${\cal d}$ 学習者 ${\cal l}$ と時間制限 $t$ が与えられた場合、目標は最大$t$ 単位を最大で取得すること 最大精度の分類モデル w.r.t. - $\mu$ は、データセット ${\cal d}$ を使って${\cal l}$ で構築できるもののうち、${\cal d}$ で構築されることである。 本稿では,機械教育の原理に基づくTCLタスクのアルゴリズムTCTを提案する。 実験では,5種類の学習者および20個のデータセットを用いて,TCTが一貫したアルゴリズムよりも優れており,第1は[Dasgupta et al., ICML 19]で提案されたブラックボックス学習者のための教師であり,第2はTCL設定のためのランダムサンプリングの自然な適応であることを示す。 また,ttcを確率的勾配降下訓練と比較した。 私たちの研究は主に実用的ですが、TCTの取り除かれたバージョンが保証されていることも示しています。 合理的な仮定では、アルゴリズムが一定の精度を達成するのに要する時間は、同じ精度を達成するのにバッチ教師(一組のサンプルを送る)の時間よりもはるかに大きく、ある場合にはほぼ指数関数的に優れている。

Consider a scenario in which we have a huge labeled dataset ${\cal D}$ and a limited time to train some given learner using ${\cal D}$. Since we may not be able to use the whole dataset, how should we proceed? Questions of this nature motivate the definition of the Time-Constrained Learning Task (TCL): Given a dataset ${\cal D}$ sampled from an unknown distribution $\mu$, a learner ${\cal L}$ and a time limit $T$, the goal is to obtain in at most $T$ units of time the classification model with highest possible accuracy w.r.t. to $\mu$, among those that can be built by ${\cal L}$ using the dataset ${\cal D}$. We propose TCT, an algorithm for the TCL task designed based that on principles from Machine Teaching. We present an experimental study involving 5 different Learners and 20 datasets where we show that TCT consistently outperforms two other algorithms: the first is a Teacher for black-box learners proposed in [Dasgupta et al., ICML 19] and the second is a natural adaptation of random sampling for the TCL setting. We also compare TCT with Stochastic Gradient Descent training -- our method is again consistently better. While our work is primarily practical, we also show that a stripped-down version of TCT has provable guarantees. Under reasonable assumptions, the time our algorithm takes to achieve a certain accuracy is never much bigger than the time it takes the batch teacher (which sends a single batch of examples) to achieve similar accuracy, and in some case it is almost exponentially better.
翻訳日:2022-02-08 01:41:56 公開日:2022-02-04
# (参考訳) コンテクストバンディット問題を解決するためのtsetlinマシン [全文訳有]

Tsetlin Machine for Solving Contextual Bandit Problems ( http://arxiv.org/abs/2202.01914v1 )

ライセンス: CC BY-SA 4.0
Raihan Seraj, Jivitesh Sharma, Ole-Christoffer Granmo(参考訳) 本稿では,命題論理を用いた複雑なパターン認識課題を解決するtsetlinマシンを用いた解釈可能なコンテキストバンディットアルゴリズムを提案する。 提案した帯域学習アルゴリズムは、簡単なビット操作に依存し、計算と解釈を単純化する。 次に、その非パラメトリックな性質から、Tsetlin Machineを用いてトンプソンサンプリングを行うメカニズムを提案する。 実験結果から,ベースコンテクストバンディット学習者としてのtsetlinマシンは,9つのデータセットのうち8つにおいて,他の人気ベース学習者よりも優れていた。 さらに,文脈をモデル化する命題表現に基づいて,学習者の解釈可能性を分析し,腕の選択方法を検討する。

This paper introduces an interpretable contextual bandit algorithm using Tsetlin Machines, which solves complex pattern recognition tasks using propositional logic. The proposed bandit learning algorithm relies on straightforward bit manipulation, thus simplifying computation and interpretation. We then present a mechanism for performing Thompson sampling with Tsetlin Machine, given its non-parametric nature. Our empirical analysis shows that Tsetlin Machine as a base contextual bandit learner outperforms other popular base learners on eight out of nine datasets. We further analyze the interpretability of our learner, investigating how arms are selected based on propositional expressions that model the context.
翻訳日:2022-02-08 01:40:10 公開日:2022-02-04
# (参考訳) RaspberryPiとPiEEGによる脳コンピューターインタフェース制御ロボット [全文訳有]

Brain-Computer-Inter face controlled robot via RaspberryPi and PiEEG ( http://arxiv.org/abs/2202.01936v1 )

ライセンス: CC0 1.0
Ildar Rakhmatulin, Sebastian Volkl(参考訳) 本稿では,オープンソースのソフトウェアと,脳波信号の読み出しに使用可能なシングルボードコンピュータraspberry piファミリ用のシールドボードを提案する。 脳波信号を読み、それらをフーリエ級数に分解する機構について記述し、点滅によるLEDと玩具ロボットの制御例を示した。 最後に, 近い将来の脳-コンピューターインタフェースの展望について検討し, リアルタイム脳波信号を用いた外部機械物体の制御方法について検討した。

This paper presents Open-source software and a developed shield board for the Raspberry Pi family of single-board computers that can be used to read EEG signals. We have described the mechanism for reading EEG signals and decomposing them into a Fourier series and provided examples of controlling LEDs and a toy robot by blinking. Finally, we discussed the prospects of the brain-computer interface for the near future and considered various methods for controlling external mechanical objects using real-time EEG signals.
翻訳日:2022-02-08 01:22:19 公開日:2022-02-04
# (参考訳) PSO-PINN: 粒子群最適化を用いた物理インフォームニューラルネットワーク [全文訳有]

PSO-PINN: Physics-Informed Neural Networks Trained with Particle Swarm Optimization ( http://arxiv.org/abs/2202.01943v1 )

ライセンス: CC BY-SA 4.0
Caio Davi and Ulisses Braga-Neto(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、最近、偏微分方程式モデルに基づく幅広い工学的および科学的問題におけるディープラーニングの有望な応用として登場した。 しかし, 勾配降下によるPINNトレーニングは, 勾配流力学における病理と剛性を示すことを示す証拠がある。 本稿では,ハイブリッド粒子群最適化と勾配降下法を用いて,PINNの訓練を行う。 結果として得られるPSO-PINNアルゴリズムは、標準勾配降下で訓練されたPINNの望ましくない振る舞いを緩和するだけでなく、定量化された不確実性を伴う堅牢な予測を可能にするPINNにアンサンブルアプローチを示す。 Poisson, advection, Burgers 方程式を用いた実験の結果, PSO-PINN はアダム勾配勾配で訓練されたベースライン PINN よりも一貫して優れていた。

Physics-informed neural networks (PINNs) have recently emerged as a promising application of deep learning in a wide range of engineering and scientific problems based on partial differential equation models. However, evidence shows that PINN training by gradient descent displays pathologies and stiffness in gradient flow dynamics. In this paper, we propose the use of a hybrid particle swarm optimization and gradient descent approach to train PINNs. The resulting PSO-PINN algorithm not only mitigates the undesired behaviors of PINNs trained with standard gradient descent, but also presents an ensemble approach to PINN that affords the possibility of robust predictions with quantified uncertainty. Experimental results using the Poisson, advection, and Burgers equations show that PSO-PINN consistently outperforms a baseline PINN trained with Adam gradient descent.
翻訳日:2022-02-08 01:18:18 公開日:2022-02-04
# (参考訳) ハイブリッドニューラルコード変調:設計と訓練方法 [全文訳有]

Hybrid Neural Coded Modulation: Design and Training Methods ( http://arxiv.org/abs/2202.01972v1 )

ライセンス: CC BY 4.0
Sung Hoon Lim, Jiyong Han, Wonjong Noh, Yujae Song, Sang-Woon Jeon(参考訳) 内部符号と外部符号を組み合わせたハイブリッド符号変調方式を提案する。 外符号は、効率的なソフトデコード機能(低密度パリティチェック(LDPC)符号など)を持つ任意の標準のバイナリコードである。 内部コードはディープニューラルネットワーク(dnn)を使用して設計され、チャネル符号化されたビットを受け取り、変調されたシンボルを出力する。 DNNを訓練するために,一般化された相互情報にインスパイアされた損失関数を提案する。 得られた星座は5G標準LDPC符号で変調順序16,64の従来の2次振幅変調(QAM)に基づく符号化方式よりも優れていた。

We propose a hybrid coded modulation scheme which composes of inner and outer codes. The outer-code can be any standard binary linear code with efficient soft decoding capability (e.g. low-density parity-check (LDPC) codes). The inner code is designed using a deep neural network (DNN) which takes the channel coded bits and outputs modulated symbols. For training the DNN, we propose to use a loss function that is inspired by the generalized mutual information. The resulting constellations are shown to outperform the conventional quadrature amplitude modulation (QAM) based coding scheme for modulation order 16 and 64 with 5G standard LDPC codes.
翻訳日:2022-02-08 01:08:37 公開日:2022-02-04
# (参考訳) 効率的なポイントクラウドセグメンテーションのための投影型ポイントコンボリューション [全文訳有]

Projection-based Point Convolution for Efficient Point Cloud Segmentation ( http://arxiv.org/abs/2202.01991v1 )

ライセンス: CC BY 4.0
Pyunghwan Ahn, Juyoung Yang, Eojindl Yi, Chanho Lee, and Junmo Kim(参考訳) ポイントクラウドの理解は、3Dスキャンデバイスの開発と大規模3Dデータの蓄積によって、最近大きな関心を集めている。 ほとんどのポイントクラウド処理アルゴリズムは、ポイントベースまたはvoxelベースのメソッドに分類されるが、どちらも処理時間やメモリに厳しい制限がある。 これらの制約を克服するために,2次元畳み込みと多層パーセプトロン(MLP)を成分とする点畳み込みモジュールである投影型点畳み込み(PPConv)を提案する。 ppconvでは、ポイント機能はポイントブランチとプロジェクションブランチの2つのブランチで処理される。 ポイントブランチはMPPで構成され、プロジェクションブランチはポイント特徴を2D特徴写像に変換し、2D畳み込みを適用する。 PPConvはポイントベースやボクセルベースの畳み込みを使わないため、高速なクラウド処理では利点がある。 学習可能なプロジェクションと効果的な機能融合戦略を組み合わせると、PPConvはPointNet++に基づいたシンプルなアーキテクチャであっても、最先端の手法よりも優れた効率を達成する。 推定時間とセグメンテーション性能のトレードオフの観点から,PPConvの効率を実証する。 S3DISとShapeNetPartの実験結果から,PPConvは比較した手法の中で最も効率的であることがわかった。 コードはgithub.com/pahn04/PP Convで入手できる。

Understanding point cloud has recently gained huge interests following the development of 3D scanning devices and the accumulation of large-scale 3D data. Most point cloud processing algorithms can be classified as either point-based or voxel-based methods, both of which have severe limitations in processing time or memory, or both. To overcome these limitations, we propose Projection-based Point Convolution (PPConv), a point convolutional module that uses 2D convolutions and multi-layer perceptrons (MLPs) as its components. In PPConv, point features are processed through two branches: point branch and projection branch. Point branch consists of MLPs, while projection branch transforms point features into a 2D feature map and then apply 2D convolutions. As PPConv does not use point-based or voxel-based convolutions, it has advantages in fast point cloud processing. When combined with a learnable projection and effective feature fusion strategy, PPConv achieves superior efficiency compared to state-of-the-art methods, even with a simple architecture based on PointNet++. We demonstrate the efficiency of PPConv in terms of the trade-off between inference time and segmentation performance. The experimental results on S3DIS and ShapeNetPart show that PPConv is the most efficient method among the compared ones. The code is available at github.com/pahn04/PP Conv.
翻訳日:2022-02-08 00:57:04 公開日:2022-02-04
# (参考訳) ディープニューラルネットワークを用いたクロスモダリティマルチアトラスセグメンテーション [全文訳有]

Cross-Modality Multi-Atlas Segmentation Using Deep Neural Networks ( http://arxiv.org/abs/2202.02000v1 )

ライセンス: CC BY 4.0
Wangbin Ding, Lei Li, Xiahai Zhuang, Liqin Huang(参考訳) マルチアトラスセグメンテーション(MAS)は医用画像セグメンテーションのための有望なフレームワークである。 一般に、MAS法は複数のアトラス、すなわち対応するラベルを持つ医療画像を対象画像に登録し、変換されたアトラスラベルを組み合わせてラベル融合スキームを介してターゲットセグメンテーションを生成することができる。 多くの従来のMAS法では、ターゲット画像と同じモダリティのアトラスを用いていた。 しかし、同じモダリティを持つアトラスの数は、多くの臨床応用において制限または欠落する可能性がある。 さらに、従来のmas法は登録やラベルの融合手続きの計算の負担に苦しんでいる。 本研究では,あるモダリティから利用可能なアトラスを用いて,対象画像を他のモダリティから分割する,新しいモダリティMASフレームワークを設計する。 このフレームワークの計算効率を高めるために、画像登録とラベル融合はよく設計されたディープニューラルネットワークによって達成される。 atlas-to-target画像登録のために、異なるモダリティの画像を効率的に整列できる双方向登録ネットワーク(biregnet)を提案する。 ラベル融合のための類似度推定ネットワーク(simnet)の設計を行い,対象画像との類似度を測定し,各アトラスの融合重みを推定する。 SimNetは、類似度推定のためのマルチスケール情報を学び、ラベル融合の性能を向上させる。 MM-WHSデータセットとCHAOSデータセットの左室および肝セグメンテーションタスクで評価した。 その結果,本フレームワークは登録とラベル融合の両面において相互モダリティMASに有効であることがわかった。 原稿が受け入れられたら、コードは \url{https://github.com/N anYoMy/cmmas} で公開される。

Multi-atlas segmentation (MAS) is a promising framework for medical image segmentation. Generally, MAS methods register multiple atlases, i.e., medical images with corresponding labels, to a target image; and the transformed atlas labels can be combined to generate target segmentation via label fusion schemes. Many conventional MAS methods employed the atlases from the same modality as the target image. However, the number of atlases with the same modality may be limited or even missing in many clinical applications. Besides, conventional MAS methods suffer from the computational burden of registration or label fusion procedures. In this work, we design a novel cross-modality MAS framework, which uses available atlases from a certain modality to segment a target image from another modality. To boost the computational efficiency of the framework, both the image registration and label fusion are achieved by well-designed deep neural networks. For the atlas-to-target image registration, we propose a bi-directional registration network (BiRegNet), which can efficiently align images from different modalities. For the label fusion, we design a similarity estimation network (SimNet), which estimates the fusion weight of each atlas by measuring its similarity to the target image. SimNet can learn multi-scale information for similarity estimation to improve the performance of label fusion. The proposed framework was evaluated by the left ventricle and liver segmentation tasks on the MM-WHS and CHAOS datasets, respectively. Results have shown that the framework is effective for cross-modality MAS in both registration and label fusion. The code will be released publicly on \url{https://github.com/N anYoMy/cmmas} once the manuscript is accepted.
翻訳日:2022-02-08 00:34:54 公開日:2022-02-04
# (参考訳) 生産品質予測のための機械学習モデルへの専門知識の取り込みと組み入れ [全文訳有]

Capturing and incorporating expert knowledge into machine learning models for quality prediction in manufacturing ( http://arxiv.org/abs/2202.02003v1 )

ライセンス: CC BY 4.0
Patrick Link, Miltiadis Poursanidis, Jochen Schmid, Rebekka Zache, Martin von Kurnatowski, Uwe Teicher, Steffen Ihlenfeldt(参考訳) デジタル化の増大により、製造プロセスの分析と最適化に機械学習の方法が利用できる。 機械学習の主な応用は品質予測モデルの構築であり、文書化のために、あるいはプロセスオペレーターの支援システムとして、あるいは適応プロセス制御として使用できる。 このような機械学習モデルの品質は、一般的にトレーニングに使用されるデータ量と品質に大きく依存します。 製造において、生産開始前の利用可能なデータセットのサイズはしばしば制限される。 データとは対照的に、専門家の知識は一般的に製造で利用できる。 そこで本研究では,学習対象の入出力関係の形状に関する事前知識を活用し,小型データセット上での機械学習手法を用いた品質予測モデルを構築するための一般的な手法を提案する。 提案手法は,5つのプロセス変数の関数として表面粗さを予測するために,125ドルのデータポイントを持つブラッシングプロセスに適用する。 小データセットに対する従来の機械学習手法とは対照的に,提案手法は,関係するプロセススペシャリストが規定するすべての専門知識に厳密に準拠する予測モデルを生成する。 特に、モデルのトレーニングにおけるプロセスエキスパートの直接的な関与は、非常に明確な解釈と拡張によって、モデルの高い受け入れにつながります。 提案手法のもう1つの利点は、従来の機械学習手法とは対照的に、時間がかかり、しばしばヒューリスティックなハイパーパラメータチューニングやモデル選択ステップを伴わないことである。

Increasing digitalization enables the use of machine learning methods for analyzing and optimizing manufacturing processes. A main application of machine learning is the construction of quality prediction models, which can be used, among other things, for documentation purposes, as assistance systems for process operators, or for adaptive process control. The quality of such machine learning models typically strongly depends on the amount and the quality of data used for training. In manufacturing, the size of available datasets before start of production is often limited. In contrast to data, expert knowledge commonly is available in manufacturing. Therefore, this study introduces a general methodology for building quality prediction models with machine learning methods on small datasets by integrating shape expert knowledge, that is, prior knowledge about the shape of the input-output relationship to be learned. The proposed methodology is applied to a brushing process with $125$ data points for predicting the surface roughness as a function of five process variables. As opposed to conventional machine learning methods for small datasets, the proposed methodology produces prediction models that strictly comply with all the expert knowledge specified by the involved process specialists. In particular, the direct involvement of process experts in the training of the models leads to a very clear interpretation and, by extension, to a high acceptance of the models. Another merit of the proposed methodology is that, in contrast to most conventional machine learning methods, it involves no time-consuming and often heuristic hyperparameter tuning or model selection step.
翻訳日:2022-02-07 23:57:37 公開日:2022-02-04
# (参考訳) BC-Z:ロボット模倣学習によるゼロショットタスク一般化 [全文訳有]

BC-Z: Zero-Shot Task Generalization with Robotic Imitation Learning ( http://arxiv.org/abs/2202.02005v1 )

ライセンス: CC BY 4.0
Eric Jang, Alex Irpan, Mohi Khansari, Daniel Kappler, Frederik Ebert, Corey Lynch, Sergey Levine, Chelsea Finn(参考訳) 本稿では,視覚に基づくロボット操作システムを新しいタスクに一般化する,ロボット学習における長年の課題である課題について検討する。 模倣学習の観点からこの課題にアプローチし,収集したデータのスケールアップと拡大が,そのような一般化をいかに促進できるかを検討する。 そこで本研究では,対話型かつ柔軟な模倣学習システムを開発し,実演と介入の両方から学習し,そのタスクを伝達するさまざまな形態の情報,例えば自然言語の予め訓練された埋め込みやタスクを実行する人間の映像を条件付ける。 実ロボット上のデータ収集を100以上の異なるタスクにスケールすると、このシステムは平均成功率44%で24の非認識操作タスクを実行でき、ロボットによるタスクのデモンストレーションは行われない。

In this paper, we study the problem of enabling a vision-based robotic manipulation system to generalize to novel tasks, a long-standing challenge in robot learning. We approach the challenge from an imitation learning perspective, aiming to study how scaling and broadening the data collected can facilitate such generalization. To that end, we develop an interactive and flexible imitation learning system that can learn from both demonstrations and interventions and can be conditioned on different forms of information that convey the task, including pre-trained embeddings of natural language or videos of humans performing the task. When scaling data collection on a real robot to more than 100 distinct tasks, we find that this system can perform 24 unseen manipulation tasks with an average success rate of 44%, without any robot demonstrations for those tasks.
翻訳日:2022-02-07 23:41:55 公開日:2022-02-04
# (参考訳) wing上の5gネットワーク:uavベースの統合アクセスとバックホールへの深い強化学習アプローチ [全文訳有]

5G Network on Wings: A Deep Reinforcement Learning Approach to UAV-based Integrated Access and Backhaul ( http://arxiv.org/abs/2202.02006v1 )

ライセンス: CC BY 4.0
Hongyi Zhang, Jingya Li, Zhiqiang Qi, Xingqin Lin, Anders Aronsson, Jan Bosch, Helena Holmstr\"om Olsson(参考訳) 高速で信頼性の高い無線通信は、人間の生活において重要な需要となっている。 自然災害が襲うと、従来の無線ネットワークを利用することで、ユビキタスな接続が困難になる。 この文脈において、無人航空機(uav)ベースの航空ネットワークは、ミッションクリティカル(mc)シナリオにおける高速で柔軟で信頼性の高い無線通信の代替手段を提供する。 移動性、フレキシブルなデプロイメント、迅速な再設定といったユニークな特徴により、緊急時に地上のユーザにオンデマンド通信を提供するために、ドローンは簡単に位置を動的に変更できる。 その結果、UAV基地局(UAV-BS)の使用は、MCシナリオにおける迅速な接続を提供するための適切なアプローチとして検討されている。 本稿では,静的環境と動的環境の両方において,UAV-BSの制御方法を検討する。 本研究では,自然災害によってマクロbsが破壊され,iab(integrated access and backhaul)技術を用いてuav-bsが展開される状況を調査し,災害地域のユーザへのカバレッジを提供する。 本稿では,データ収集システム,シグナリング手順,機械学習の応用について述べる。 UAV-BSのアクセスとバックホールアンテナの傾斜と3次元配置を協調的に最適化するディープ強化学習アルゴリズムを開発した。 評価の結果,提案アルゴリズムは,地上のMCユーザを満足できるように自律的にUAV-BSをナビゲートし,設定することができることがわかった。

Fast and reliable wireless communication has become a critical demand in human life. When natural disasters strike, providing ubiquitous connectivity becomes challenging by using traditional wireless networks. In this context, unmanned aerial vehicle (UAV) based aerial networks offer a promising alternative for fast, flexible, and reliable wireless communications in mission-critical (MC) scenarios. Due to the unique characteristics such as mobility, flexible deployment, and rapid reconfiguration, drones can readily change location dynamically to provide on-demand communications to users on the ground in emergency scenarios. As a result, the usage of UAV base stations (UAV-BSs) has been considered as an appropriate approach for providing rapid connection in MC scenarios. In this paper, we study how to control a UAV-BS in both static and dynamic environments. We investigate a situation in which a macro BS is destroyed as a result of a natural disaster and a UAV-BS is deployed using integrated access and backhaul (IAB) technology to provide coverage for users in the disaster area. We present a data collection system, signaling procedures and machine learning applications for this use case. A deep reinforcement learning algorithm is developed to jointly optimize the tilt of the access and backhaul antennas of the UAV-BS as well as its three-dimensional placement. Evaluation results show that the proposed algorithm can autonomously navigate and configure the UAV-BS to satisfactorily serve the MC users on the ground.
翻訳日:2022-02-07 23:17:17 公開日:2022-02-04
# (参考訳) 学術出版物における自動生成テキスト検出のためのベンチマークコーパス [全文訳有]

A Benchmark Corpus for the Detection of Automatically Generated Text in Academic Publications ( http://arxiv.org/abs/2202.02013v1 )

ライセンス: CC BY 4.0
Vijini Liyanage, Davide Buscaldi, Adeline Nazarenko(参考訳) ニューラルネットワークモデルに基づく自動テキスト生成は、生成されたテキストを人間が書いたテキストとほとんど区別できないパフォーマンスレベルを達成した。 テキスト生成が様々なアプリケーションに持つ価値にもかかわらず、悪意のあるタスクにも使える。 このような実践の拡散は学術出版の質に対する脅威である。 本稿では, 人工的に生成した研究内容からなる2つのデータセット, 完全合成データセットと部分テキスト置換データセットを提案する。 第1のケースでは、コンテンツはオリジナルの論文から短いプロンプトを抽出した後、GPT-2モデルで完全に生成される。 部分的あるいはハイブリッドなデータセットは、いくつかの抽象文をArxiv-NLPモデルによって生成される文に置き換えることで生成される。 BLEU や ROUGE などの流速指標を用いて,生成したテキストと整列した原文を比較し,データセットの品質を評価する。 人工的なテキストが自然に見えるほど、それらを検出するのが難しくなり、ベンチマークが良くなる。 また,最先端の分類モデルを用いて,生成テキストとオリジナルテキストを区別する作業の難しさを評価する。

Automatic text generation based on neural language models has achieved performance levels that make the generated text almost indistinguishable from those written by humans. Despite the value that text generation can have in various applications, it can also be employed for malicious tasks. The diffusion of such practices represent a threat to the quality of academic publishing. To address these problems, we propose in this paper two datasets comprised of artificially generated research content: a completely synthetic dataset and a partial text substitution dataset. In the first case, the content is completely generated by the GPT-2 model after a short prompt extracted from original papers. The partial or hybrid dataset is created by replacing several sentences of abstracts with sentences that are generated by the Arxiv-NLP model. We evaluate the quality of the datasets comparing the generated texts to aligned original texts using fluency metrics such as BLEU and ROUGE. The more natural the artificial texts seem, the more difficult they are to detect and the better is the benchmark. We also evaluate the difficulty of the task of distinguishing original from generated text by using state-of-the-art classification models.
翻訳日:2022-02-07 22:54:12 公開日:2022-02-04
# (参考訳) 画像再構成のための画像間MLPミキサ [全文訳有]

Image-to-Image MLP-mixer for Image Reconstruction ( http://arxiv.org/abs/2202.02018v1 )

ライセンス: CC BY 4.0
Youssef Mansour, Kang Lin, Reinhard Heckel(参考訳) ニューラルネットワークは、ノイズ除去や圧縮センシングなどの画像再構成問題に対して、非常に効果的なツールである。 現在、画像再構成のためのニューラルネットワークは、ほとんど完全に畳み込みである。 最も一般的なアーキテクチャは、マルチ解像度アーキテクチャを備えた畳み込みネットワークであるU-Netである。 本研究では,多層パーセプトロン(MLP)ミキサをベースとした単純なネットワークが,畳み込みやマルチレゾリューションアーキテクチャを使わずに,最先端の画像再構成性能を実現することを示し,トレーニングセットとネットワークサイズが適度に大きいことを仮定する。 オリジナルのMLPミキサーと同様に、画像から画像へのMLPミキサーは、線形変換されたイメージパッチで動作するMPPのみに基づいている。 元のMLPミキサーとは対照的に,画像パッチの相対位置を保って構造を組み込む。 これにより、自然画像に対して帰納的バイアスを課し、画像から画像へのMLPミキサーは、元のMLPミキサーよりも少ない例に基づいて画像の復調を学ぶことができる。 さらに、イメージ・ツー・イメージのMLPミキサーは、U-Netと同等の性能を達成するためにパラメータが少なく、元のMLPミキサーのように2次ではなく画像解像度で線形にスケールする。 イメージ・ツー・イメージのMLPミキサーは、デノイングの適度な量の例で訓練すれば、U-Netよりもわずかに優れる。 また、画像再構成のための視覚変換器やBM3Dのような古典的未訓練の手法よりも優れており、画像再構成問題に非常に効果的なツールである。

Neural networks are highly effective tools for image reconstruction problems such as denoising and compressive sensing. To date, neural networks for image reconstruction are almost exclusively convolutional. The most popular architecture is the U-Net, a convolutional network with a multi-resolution architecture. In this work, we show that a simple network based on the multi-layer perceptron (MLP)-mixer enables state-of-the art image reconstruction performance without convolutions and without a multi-resolution architecture, provided that the training set and the size of the network are moderately large. Similar to the original MLP-mixer, the image-to-image MLP-mixer is based exclusively on MLPs operating on linearly-transformed image patches. Contrary to the original MLP-mixer, we incorporate structure by retaining the relative positions of the image patches. This imposes an inductive bias towards natural images which enables the image-to-image MLP-mixer to learn to denoise images based on fewer examples than the original MLP-mixer. Moreover, the image-to-image MLP-mixer requires fewer parameters to achieve the same denoising performance than the U-Net and its parameters scale linearly in the image resolution instead of quadratically as for the original MLP-mixer. If trained on a moderate amount of examples for denoising, the image-to-image MLP-mixer outperforms the U-Net by a slight margin. It also outperforms the vision transformer tailored for image reconstruction and classical un-trained methods such as BM3D, making it a very effective tool for image reconstruction problems.
翻訳日:2022-02-07 22:39:15 公開日:2022-02-04
# (参考訳) マルチグラフ表現学習フレームワークによる都市域のプロファイリング [全文訳有]

Urban Region Profiling via A Multi-Graph Representation Learning Framework ( http://arxiv.org/abs/2202.02074v1 )

ライセンス: CC BY 4.0
Y. Luo, F. Chung, K. Chen(参考訳) 都市域のプロファイリングは都市分析に役立つ。 Although existing studies have made great efforts to learn urban region representation from multi-source urban data, there are still three limitations: (1) Most related methods focused merely on global-level inter-region relations while overlooking local-level geographical contextual signals and intra-region information; (2) Most previous works failed to develop an effective yet integrated fusion module which can deeply fuse multi-graph correlations; (3) State-of-the-art methods do not perform well in regions with high variance socioeconomic attributes. そこで,これらの課題に対処するために,地域プロファイリングのためのマルチグラフ代表学習フレームワークである region2vec を提案する。 具体的には、地域間関係のために人間のモビリティが符号化されている以外は、地理的文脈情報をキャプチャするための地理的地区を導入し、知識グラフによる地域内情報を表現するためにPOI側情報を採用している。 次に、グラフを使用して、地域間のアクセシビリティ、周辺、機能相関をキャプチャする。 複数グラフの識別特性を考えるため,エンコーダ・デコーダ・マルチグラフ融合モジュールが提案され,包括的表現を共同で学習する。 実世界のデータセットの実験によると、Rerea2Vecは3つのアプリケーションで使用でき、最先端のベースラインをすべて上回る。 特に、リージョン2vecは、高い分散社会学的特性を持つ地域での以前の研究よりも優れた性能を有する。

Urban region profiling can benefit urban analytics. Although existing studies have made great efforts to learn urban region representation from multi-source urban data, there are still three limitations: (1) Most related methods focused merely on global-level inter-region relations while overlooking local-level geographical contextual signals and intra-region information; (2) Most previous works failed to develop an effective yet integrated fusion module which can deeply fuse multi-graph correlations; (3) State-of-the-art methods do not perform well in regions with high variance socioeconomic attributes. To address these challenges, we propose a multi-graph representative learning framework, called Region2Vec, for urban region profiling. Specifically, except that human mobility is encoded for inter-region relations, geographic neighborhood is introduced for capturing geographical contextual information while POI side information is adopted for representing intra-region information by knowledge graph. Then, graphs are used to capture accessibility, vicinity, and functionality correlations among regions. To consider the discriminative properties of multiple graphs, an encoder-decoder multi-graph fusion module is further proposed to jointly learn comprehensive representations. Experiments on real-world datasets show that Region2Vec can be employed in three applications and outperforms all state-of-the-art baselines. Particularly, Region2Vec has better performance than previous studies in regions with high variance socioeconomic attributes.
翻訳日:2022-02-07 22:20:31 公開日:2022-02-04
# (参考訳) ニューラルアーキテクチャ探索における性能評価のノイズについて [全文訳有]

Heed the Noise in Performance Evaluations in Neural Architecture Search ( http://arxiv.org/abs/2202.02078v1 )

ライセンス: CC BY 4.0
Arkadiy Dushatskiy, Tanja Alderliesten, Peter A. N. Bosman(参考訳) ニューラルアーキテクチャサーチ(NAS)は最近、大きな関心事のトピックになっている。 しかし、NASには大きな影響がある可能性があり、ほとんど認識されていない:ノイズである。 ニューラルネットワークの初期化、トレーニング、選択されたトレイン/バリデーションデータセットの分割といった確率的要因のため、ニューラルネットワークアーキテクチャのパフォーマンス評価は、1つの学習実行に基づいて行われることが多い。 これはデータセットが小さい場合、特に大きな影響を与える可能性がある。 そこで本研究では,ランダムシードとクロスバリデーションの異なる複数のネットワークトレーニング実行におけるスコア平均化をアーキテクチャ評価で評価することにより,ノイズを低減することを提案する。 我々は,雑音低減レベルを変化させたnasの組合せ最適化定式化のための実験を行う。 私たちは、ネットワークトレーニングの実行において、各ノイズレベルに対して同じ計算予算を使用します。 進化的アルゴリズムを含む複数の検索アルゴリズムが検討されており、一般にnasでよく機能する。 医療画像セグメンテーションドメインの2つの公開データセットを使用しており、その領域ではデータセットが制限され、サンプル間のバラエティが高くなることが多い。 その結果,アーキテクチャ評価におけるノイズ低減は,すべての検索アルゴリズムによるより良いアーキテクチャの探索を可能にすることがわかった。

Neural Architecture Search (NAS) has recently become a topic of great interest. However, there is a potentially impactful issue within NAS that remains largely unrecognized: noise. Due to stochastic factors in neural network initialization, training, and the chosen train/validation dataset split, the performance evaluation of a neural network architecture, which is often based on a single learning run, is also stochastic. This may have a particularly large impact if a dataset is small. We therefore propose to reduce the noise by having architecture evaluations comprise averaging of scores over multiple network training runs using different random seeds and cross-validation. We perform experiments for a combinatorial optimization formulation of NAS in which we vary noise reduction levels. We use the same computational budget for each noise level in terms of network training runs, i.e., we allow less architecture evaluations when averaging over more training runs. Multiple search algorithms are considered, including evolutionary algorithms which generally perform well for NAS. We use two publicly available datasets from the medical image segmentation domain where datasets are often limited and variability among samples is often high. Our results show that reducing noise in architecture evaluations enables finding better architectures by all considered search algorithms.
翻訳日:2022-02-07 22:10:20 公開日:2022-02-04
# (参考訳) 一般特徴分布に対するロバスト線形回帰

Robust Linear Regression for General Feature Distribution ( http://arxiv.org/abs/2202.02080v1 )

ライセンス: CC0 1.0
Tom Norman, Nir Weinberger, Kfir Y. Levy(参考訳) 我々は,データ分布を知らないが,データサンプルの実現には不適当であるような,不利な敵によってデータが汚染されるような頑健な線形回帰について検討する。 このモデルは、これまで強い仮定で分析されてきた。 具体的には$\textbf{ (i)}$すべての先行研究は、特徴の共分散行列が正定値であると仮定し、$\textbf{ (ii)}$ ほとんどの場合、その特徴が中心的であると仮定する(つまりゼロ平均)。 さらに、以前のすべての著作は、例えば、特徴がガウス的であるか、汚職が対称分布であることを仮定するなど、追加の制限的な仮定を下している。 この研究では、これらの仮定を超えて、より一般的な仮定のセットの下で堅牢な回帰を調べる。 (i)$ 共分散行列を正定値または正半定値、$\textbf{ のいずれかとする。 (ii)$ 我々は必ずしもフィーチャが中心であることを仮定していない。 (iii)$ 特徴量と測定ノイズの有界性(準ガウス性)以上の仮定はしない。 これらの仮定の下で,この問題に対する自然なsgd変種を分析し,共分散行列が正定値である場合の収束速度が速いことを示す。 正の半定値の場合、特徴が中心となる場合、標準収束率を得ることができ、そうでなければ、敵対者は任意の学習者が任意に失敗する可能性がある。

We investigate robust linear regression where data may be contaminated by an oblivious adversary, i.e., an adversary than may know the data distribution but is otherwise oblivious to the realizations of the data samples. This model has been previously analyzed under strong assumptions. Concretely, $\textbf{(i)}$ all previous works assume that the covariance matrix of the features is positive definite; and $\textbf{(ii)}$ most of them assume that the features are centered (i.e. zero mean). Additionally, all previous works make additional restrictive assumption, e.g., assuming that the features are Gaussian or that the corruptions are symmetrically distributed. In this work we go beyond these assumptions and investigate robust regression under a more general set of assumptions: $\textbf{(i)}$ we allow the covariance matrix to be either positive definite or positive semi definite, $\textbf{(ii)}$ we do not necessarily assume that the features are centered, $\textbf{(iii)}$ we make no further assumption beyond boundedness (sub-Gaussianity) of features and measurement noise. Under these assumption we analyze a natural SGD variant for this problem and show that it enjoys a fast convergence rate when the covariance matrix is positive definite. In the positive semi definite case we show that there are two regimes: if the features are centered we can obtain a standard convergence rate; otherwise the adversary can cause any learner to fail arbitrarily.
翻訳日:2022-02-07 21:54:20 公開日:2022-02-04
# (参考訳) 言語モデルに対する時間的注意 [全文訳有]

Temporal Attention for Language Models ( http://arxiv.org/abs/2202.02093v1 )

ライセンス: CC BY 4.0
Guy D. Rosin and Kira Radinsky(参考訳) トランスフォーマーアーキテクチャに基づく事前訓練された言語モデルは、NLPにおいて大きな成功を収めている。 テキストトレーニングデータは、しばしばウェブから来るので、時間固有の情報でタグ付けされるが、ほとんどの言語モデルは、この情報を無視する。 テキストデータだけで訓練され、時間的に一般化する能力を制限する。 本稿では,トランスフォーマーアーキテクチャのキーコンポーネント,すなわち自己着脱機構を拡張し,時間認識自己着脱機構である時間的注意を提案する。 時間的注意は任意のトランスフォーマーモデルに適用でき、入力テキストに関連する時点を添付する必要がある。 変換器はこの時間情報をキャプチャし、時間固有の文脈化された単語表現を作成することができる。 提案手法をBERTに適用し,時間,サイズ,ジャンルによって異なる異なる言語(英語,ドイツ語,ラテン語)の3つのデータセットで実験する。 提案モデルでは,すべてのデータセットで最先端の結果が得られる。

Pretrained language models based on the transformer architecture have shown great success in NLP. Textual training data often comes from the web and is thus tagged with time-specific information, but most language models ignore this information. They are trained on the textual data alone, limiting their ability to generalize temporally. In this work, we extend the key component of the transformer architecture, i.e., the self-attention mechanism, and propose temporal attention - a time-aware self-attention mechanism. Temporal attention can be applied to any transformer model and requires the input texts to be accompanied with their relevant time points. It allows the transformer to capture this temporal information and create time-specific contextualized word representations. We leverage these representations for the task of semantic change detection; we apply our proposed mechanism to BERT and experiment on three datasets in different languages (English, German, and Latin) that also vary in time, size, and genre. Our proposed model achieves state-of-the-art results on all the datasets.
翻訳日:2022-02-07 21:53:14 公開日:2022-02-04
# (参考訳) ニューラルネットワークのための固定点符号合成 [全文訳有]

Fixed-Point Code Synthesis For Neural Networks ( http://arxiv.org/abs/2202.02095v1 )

ライセンス: CC BY 4.0
Hanane Benmaghnia, Matthieu Martel and Yassamine Seladji(参考訳) ここ数年、ニューラルネットワークは、ロボット、ロケット、自律走行車などの決定を下すために、安全クリティカルシステムを浸透させ始めている。 問題は、これらの重要なシステムがしばしば限られた計算資源を持っていることである。 多くの場合、彼らは多くの利点(適応性、小さなメモリデバイスとの互換性)のために固定点演算を使用します。この記事では、整数演算のみを使用して実装可能な固定点演算を使用して、すでにトレーニング済みのニューラルネットワークのフォーマット(精度)を調整する新しい技術を紹介します。 新しい最適化ニューラルネットワークは、ユーザが固定したしきい値まで精度を変更せずに、不動点数で出力を計算する。 解析中に決定された範囲[xmin,xmax]に属する入力ベクトルのしきい値の尊重を確実にする新しい最適化ニューラルネットワークに対して、固定点符号を合成する。 技術的な見地からすると、我々は浮動小数点ニューラルネットワークの予備分析を行い、最悪の場合を判定し、線形計画によって解決できる整数変数間の線形制約のシステムを生成する。 このシステムの解決策は、各ニューロンの新しい固定点形式である。 実験の結果,新しい固定点ニューラルネットワークが初期浮動小数点ニューラルネットワークと同一の振舞いを持つことを保証するため,本手法の有効性が示された。

Over the last few years, neural networks have started penetrating safety critical systems to take decisions in robots, rockets, autonomous driving car, etc. A problem is that these critical systems often have limited computing resources. Often, they use the fixed-point arithmetic for its many advantages (rapidity, compatibility with small memory devices.) In this article, a new technique is introduced to tune the formats (precision) of already trained neural networks using fixed-point arithmetic, which can be implemented using integer operations only. The new optimized neural network computes the output with fixed-point numbers without modifying the accuracy up to a threshold fixed by the user. A fixed-point code is synthesized for the new optimized neural network ensuring the respect of the threshold for any input vector belonging the range [xmin, xmax] determined during the analysis. From a technical point of view, we do a preliminary analysis of our floating neural network to determine the worst cases, then we generate a system of linear constraints among integer variables that we can solve by linear programming. The solution of this system is the new fixed-point format of each neuron. The experimental results obtained show the efficiency of our method which can ensure that the new fixed-point neural network has the same behavior as the initial floating-point neural network.
翻訳日:2022-02-07 21:38:44 公開日:2022-02-04
# (参考訳) 誘惑するか 誘惑しないのか? --治療効果推定における欠落データ

To Impute or not to Impute? -- Missing Data in Treatment Effect Estimation ( http://arxiv.org/abs/2202.02096v1 )

ライセンス: CC BY 4.0
Jeroen Berrevoets, Fergus Imrie, Trent Kyono, James Jordon, Mihaela van der Schaar(参考訳) データ不足は、治療効果を推定する際にノイズやバイアスを引き起こす実践シナリオにおけるシステム的な問題である。 これにより、不備のあるデータから処理効果を推定できる。 主な理由は、不足に関する標準的な仮定が、個人と結果以外に追加の変数や治療が存在するため不十分であるからである。 処理変数を持つことは、以前の作業で十分に調査されていない変数が欠落している理由に関して、さらなる複雑さをもたらす。 本研究では,MCM (Mixed Con founded missingness) と呼ばれる新しい欠損機構を同定し,欠損が治療選択を判断し,他の欠損が治療選択によって決定される。 MCMを仮定すると、全てのデータを因果的にインプットすることで、不均衡な推定を行うために必要な情報を効果的に除去するので、処理効果のモデルが貧弱になることが示される。 しかし、治療によって決定される欠如は、これらの人口の推計が偏る異なる亜集団で人口を分断するので、全く偏りのある推定に繋がるものではない。 私たちのソリューションは選択的計算であり、CMMからの洞察を使ってどの変数をインプットすべきか、どの変数をインプットすべきかを正確に知らせる。 各種学習者が選択的計算によってどのような恩恵を受けるかを実験的に示す。

Missing data is a systemic problem in practical scenarios that causes noise and bias when estimating treatment effects. This makes treatment effect estimation from data with missingness a particularly tricky endeavour. A key reason for this is that standard assumptions on missingness are rendered insufficient due to the presence of an additional variable, treatment, besides the individual and the outcome. Having a treatment variable introduces additional complexity with respect to why some variables are missing that is not fully explored by previous work. In our work we identify a new missingness mechanism, which we term mixed confounded missingness (MCM), where some missingness determines treatment selection and other missingness is determined by treatment selection. Given MCM, we show that naively imputing all data leads to poor performing treatment effects models, as the act of imputation effectively removes information necessary to provide unbiased estimates. However, no imputation at all also leads to biased estimates, as missingness determined by treatment divides the population in distinct subpopulations, where estimates across these populations will be biased. Our solution is selective imputation, where we use insights from MCM to inform precisely which variables should be imputed and which should not. We empirically demonstrate how various learners benefit from selective imputation compared to other solutions for missing data.
翻訳日:2022-02-07 21:18:04 公開日:2022-02-04
# (参考訳) 自己教師付き畳み込みニューラルネットワークによる音楽音声の類似性 [全文訳有]

Musical Audio Similarity with Self-supervised Convolutional Neural Networks ( http://arxiv.org/abs/2202.02112v1 )

ライセンス: CC BY-SA 4.0
Carl Thom\'e, Sebastian Piwell, Oscar Utterb\"ack(参考訳) 我々は、従来のフルテキスト検索の補完として、再生可能な音楽の抜粋でビデオプロデューサーが検索できる音楽類似検索エンジンを構築した。 本システムでは,三重項損失項と音楽変換を用いた自己教師型畳み込みニューラルネットワークの学習により,大規模な楽曲カタログにおける類似のトラックセグメントを提案する。 半構造化されたユーザインタビューでは、プロのビデオ制作者に検索体験の質を印象付けることができ、ユーザテストでは平均7.8/10のクエリトラックと類似性が認識される。 この検索ツールは、音楽やサウンドトラックビデオを簡単に見つけられるように、より自然な検索体験をもたらすと信じています。

We have built a music similarity search engine that lets video producers search by listenable music excerpts, as a complement to traditional full-text search. Our system suggests similar sounding track segments in a large music catalog by training a self-supervised convolutional neural network with triplet loss terms and musical transformations. Semi-structured user interviews demonstrate that we can successfully impress professional video producers with the quality of the search experience, and perceived similarities to query tracks averaged 7.8/10 in user testing. We believe this search tool will make for a more natural search experience that is easier to find music to soundtrack videos with.
翻訳日:2022-02-07 21:16:55 公開日:2022-02-04
# (参考訳) 畳み込みリカレントニューラルネットワークを用いたポリフォニックピッチ検出 [全文訳有]

Polyphonic pitch detection with convolutional recurrent neural networks ( http://arxiv.org/abs/2202.02115v1 )

ライセンス: CC BY-SA 4.0
Carl Thom\'e, Sven Ahlb\"ack(参考訳) 近年の音声認識(ASR)研究の方向性は,コンピュータビジョンにおける画像認識課題からのディープラーニングモデルの適用が有用であることを示している。 自動音楽書き起こし(AMT)はASRと表面的には似ているため、手法がしばしば事象のシンボリックシーケンス(例えば、単語や音符)への分光図の変換に依存しているため、深層学習もATTの恩恵を受けるべきである。 本研究では,ConvLSTMによるMIDIに音声をストリームするオンラインポリフォニックピッチ検出システムについて概説する。 楽器の音色をモデル化したり仮定したりすることなく, ベースーン, クラリネット, フルート, ホルン, オーボエのアンサンブル記録に83%のF測定を施し, 2007年MIREXマルチF0開発セットの最先端結果を得た。

Recent directions in automatic speech recognition (ASR) research have shown that applying deep learning models from image recognition challenges in computer vision is beneficial. As automatic music transcription (AMT) is superficially similar to ASR, in the sense that methods often rely on transforming spectrograms to symbolic sequences of events (e.g. words or notes), deep learning should benefit AMT as well. In this work, we outline an online polyphonic pitch detection system that streams audio to MIDI by ConvLSTMs. Our system achieves state-of-the-art results on the 2007 MIREX multi-F0 development set, with an F-measure of 83\% on the bassoon, clarinet, flute, horn and oboe ensemble recording without requiring any musical language modelling or assumptions of instrument timbre.
翻訳日:2022-02-07 21:09:08 公開日:2022-02-04
# (参考訳) OntoSeer - オントロジの品質を改善するための勧告システム [全文訳有]

OntoSeer -- A Recommendation System to Improve the Quality of Ontologies ( http://arxiv.org/abs/2202.02125v1 )

ライセンス: CC BY 4.0
Pramit Bhattacharyya, Raghava Mutharaju(参考訳) オントロジーの構築は時間を要するプロセスであるだけでなく、特に初心者や経験不足者にとっては混乱を招く。 オントロジー開発者は、オントロジーを構築する際にドメインエキスパートの助けを借りることができるが、様々な理由でいくつかのケースでは利用できない。 オントロジー開発者は、含めるべきクラス、プロパティ、および公理の選択に関するいくつかの疑問に対処しなければならない。 これとは別に、モジュール化や再利用性といった側面も考慮すべきです。 linked open vocabularies (lov) や bioportal といったリポジトリで公開されている何千ものオントロジや語彙の中から、オントロジの開発で再利用可能な用語(クラスやプロパティ)を知ることは困難である。 同様の問題は、利用可能な数種類のオントロジーデザインパターン(odps)の正しいセットを実装する際に存在する。 一般的に、オントロジー開発者はこれらの問題に対処する経験を生かし、経験の浅いものは難しい。 このギャップを埋めるために、オントロジー開発プロセスを監視し、開発中のオントロジーの品質を改善するためにリアルタイムで提案するOntoSeerというツールを提案する。 フォローすべき命名規則、再利用のための語彙、実装するODP、オントロジーに追加すべき公理などを提案することができる。 OntoSeerはProt\'eg\'eプラグインとして実装されている。

Building an ontology is not only a time-consuming process, but it is also confusing, especially for beginners and the inexperienced. Although ontology developers can take the help of domain experts in building an ontology, they are not readily available in several cases for a variety of reasons. Ontology developers have to grapple with several questions related to the choice of classes, properties, and the axioms that should be included. Apart from this, there are aspects such as modularity and reusability that should be taken care of. From among the thousands of publicly available ontologies and vocabularies in repositories such as Linked Open Vocabularies (LOV) and BioPortal, it is hard to know the terms (classes and properties) that can be reused in the development of an ontology. A similar problem exists in implementing the right set of ontology design patterns (ODPs) from among the several available. Generally, ontology developers make use of their experience in handling these issues, and the inexperienced ones have a hard time. In order to bridge this gap, we propose a tool named OntoSeer, that monitors the ontology development process and provides suggestions in real-time to improve the quality of the ontology under development. It can provide suggestions on the naming conventions to follow, vocabulary to reuse, ODPs to implement, and axioms to be added to the ontology. OntoSeer has been implemented as a Prot\'eg\'e plug-in.
翻訳日:2022-02-07 21:02:28 公開日:2022-02-04
# (参考訳) 機械学習アルゴリズムの解釈可能性手法と乳癌診断への応用 [全文訳有]

Interpretability methods of machine learning algorithms with applications in breast cancer diagnosis ( http://arxiv.org/abs/2202.02131v1 )

ライセンス: CC BY 4.0
Panagiota Karatza, Kalliopi V. Dalakleidi, Maria Athanasiou, Konstantina S. Nikita(参考訳) 乳がんの早期発見は、その社会経済的負担を軽減する強力な手段である。 人工知能(AI)の手法はこの目標に向けて顕著な成果を上げているが、その「ブラックボックス」の性質は臨床実践において広く採用されるのを妨げている。 AI誘導乳がん診断の必要性に対処するために、解釈可能性法を用いることができる。 本研究では、この目標に向けて、ランダムフォレスト(RF)、ニューラルネットワーク(NN)、ニューラルネットワーク(ENN)といったAI手法を使用し、グローバルサロゲート(GS)法、個人条件予測(ICE)プロット、シェープ値(SV)などの解釈可能性技術を用いて、その性能を説明・最適化した。 オープンなUCIリポジトリのウィスコンシン診断乳癌(WDBC)データセットは、AIアルゴリズムのトレーニングと評価に使用された。 乳がん診断の最良の成績はenn (96.6% 精度と roc 曲線下の 0.96 領域) によって達成され、その予測はice plots によって説明され、その決定は現在の医学的知識に準拠しており、乳がんの病態生理的メカニズムに関する新たな知見を得るのに利用できることが証明された。 gsモデルによる特徴の重要度に基づく特徴選択はrfの性能を改善し(精度96.49%から97.18%、roc曲線下の領域は0.09から0.097)、特徴の重要度に基づく特徴選択はnnの性能を改善した(精度94.6%から95.53%、roc曲線下の領域は0.094から0.095)。 同じデータセット上の他のアプローチと比較して,提案モデルでは解釈可能でありながら,アートパフォーマンスの状態を実証した。

Early detection of breast cancer is a powerful tool towards decreasing its socioeconomic burden. Although, artificial intelligence (AI) methods have shown remarkable results towards this goal, their "black box" nature hinders their wide adoption in clinical practice. To address the need for AI guided breast cancer diagnosis, interpretability methods can be utilized. In this study, we used AI methods, i.e., Random Forests (RF), Neural Networks (NN) and Ensembles of Neural Networks (ENN), towards this goal and explained and optimized their performance through interpretability techniques, such as the Global Surrogate (GS) method, the Individual Conditional Expectation (ICE) plots and the Shapley values (SV). The Wisconsin Diagnostic Breast Cancer (WDBC) dataset of the open UCI repository was used for the training and evaluation of the AI algorithms. The best performance for breast cancer diagnosis was achieved by the proposed ENN (96.6% accuracy and 0.96 area under the ROC curve), and its predictions were explained by ICE plots, proving that its decisions were compliant with current medical knowledge and can be further utilized to gain new insights in the pathophysiological mechanisms of breast cancer. Feature selection based on features' importance according to the GS model improved the performance of the RF (leading the accuracy from 96.49% to 97.18% and the area under the ROC curve from 0.96 to 0.97) and feature selection based on features' importance according to SV improved the performance of the NN (leading the accuracy from 94.6% to 95.53% and the area under the ROC curve from 0.94 to 0.95). Compared to other approaches on the same dataset, our proposed models demonstrated state of the art performance while being interpretable.
翻訳日:2022-02-07 20:51:08 公開日:2022-02-04
# (参考訳) 点クラウドマッチングのためのエッジ選択機能ウィービング [全文訳有]

Edge-Selective Feature Weaving for Point Cloud Matching ( http://arxiv.org/abs/2202.02149v1 )

ライセンス: CC BY 4.0
Rintaro Yanagi, Atsushi Hashimoto, Shusaku Sone, Naoya Chiba, Jiaxin Ma, and Yoshitaka Ushiku(参考訳) 本稿では、2つの3次元点雲の点を正確にマッチングする問題に取り組む。 従来の手法では,各点から深層学習に基づくアルゴリズムを用いて代表的特徴を抽出することで性能を向上させる。 一方,抽出した特徴量間の対応計算は深く検討されておらず,学習不可能なアルゴリズム(シンクホーンアルゴリズムなど)が頻繁に適用されている。 その結果、抽出した特徴を非学習可能なアルゴリズムに強制的に適合させることができる。 さらに,抽出した特徴は確率的に避けられない誤りを頻繁に含み,マッチング精度を劣化させる。 本稿では, 学習不能なアルゴリズムを用いる代わりに, 特徴抽出法と協調して最適化できる微分可能マッチングネットワークを提案する。 ネットワークはまず,各点雲の点を接続するエッジを持つグラフを構築し,共有セットエンコーダとエッジ選択相互接続という2つの主要コンポーネントを用いて識別エッジの特徴を抽出する。 これらの成分により、2つの点雲を対称的に考慮し、それぞれ識別的エッジ特徴を抽出することができる。 抽出した識別エッジ特徴を用いて、ネットワークはポイント間の対応を正確に計算できる。 実験の結果,提案ネットワークはポイントクラウドマッチングの性能を大幅に向上できることがわかった。 私たちのコードはhttps://github.com/y anarin/ESFWで利用可能です。

This paper tackles the problem of accurately matching the points of two 3D point clouds. Most conventional methods improve their performance by extracting representative features from each point via deep-learning-based algorithms. On the other hand, the correspondence calculation between the extracted features has not been examined in depth, and non-trainable algorithms (e.g. the Sinkhorn algorithm) are frequently applied. As a result, the extracted features may be forcibly fitted to a non-trainable algorithm. Furthermore, the extracted features frequently contain stochastically unavoidable errors, which degrades the matching accuracy. In this paper, instead of using a non-trainable algorithm, we propose a differentiable matching network that can be jointly optimized with the feature extraction procedure. Our network first constructs graphs with edges connecting the points of each point cloud and then extracts discriminative edge features by using two main components: a shared set-encoder and an edge-selective cross-concatenation. These components enable us to symmetrically consider two point clouds and to extract discriminative edge features, respectively. By using the extracted discriminative edge features, our network can accurately calculate the correspondence between points. Our experimental results show that the proposed network can significantly improve the performance of point cloud matching. Our code is available at https://github.com/y anarin/ESFW
翻訳日:2022-02-07 20:43:57 公開日:2022-02-04
# (参考訳) 背景変数のランダム選択によるコンファウンディングの補正 [全文訳有]

Correcting Confounding via Random Selection of Background Variables ( http://arxiv.org/abs/2202.02150v1 )

ライセンス: CC BY-SA 4.0
You-Lin Chen, Lenon Minorics, Dominik Janzing(参考訳) 対象変数Y,潜在的な因果ドライバX,および多数の背景特徴が与えられた場合,異なる背景特徴の選択に関して,Y上のXの回帰係数の安定性に基づいて因果関係を識別するための新しい基準を提案する。 この目的のために,係数の変動性を測定する統計Vを提案する。 我々は、背景の影響に対する対称性の仮定の下で、V が 0 に収束することは X が因果因子を含まない場合に限り証明する。 シミュレーションデータを用いた実験では、この手法は技術アルゴリズムの状態を上回ります。 さらに、実世界のデータに対する奨励的な結果も報告する。 我々のアプローチは、因果的洞察が環境をまたがる統計的関係のより優れた一般化を認め、文献からの既存のヒューリスティックなアプローチを正当化するという一般的な信念と一致している。

We propose a method to distinguish causal influence from hidden confounding in the following scenario: given a target variable Y, potential causal drivers X, and a large number of background features, we propose a novel criterion for identifying causal relationship based on the stability of regression coefficients of X on Y with respect to selecting different background features. To this end, we propose a statistic V measuring the coefficient's variability. We prove, subject to a symmetry assumption for the background influence, that V converges to zero if and only if X contains no causal drivers. In experiments with simulated data, the method outperforms state of the art algorithms. Further, we report encouraging results for real-world data. Our approach aligns with the general belief that causal insights admit better generalization of statistical associations across environments, and justifies similar existing heuristic approaches from the literature.
翻訳日:2022-02-07 20:30:17 公開日:2022-02-04
# (参考訳) 領域外一般化のためのソースデータ選択 [全文訳有]

Source data selection for out-of-domain generalization ( http://arxiv.org/abs/2202.02155v1 )

ライセンス: CC BY 4.0
Xinran Miao and Kris Sankaran(参考訳) ドメイン外一般化を行うモデルは、異種ソースデータから知識を借り、関連するが異なるターゲットタスクに適用する。 伝達学習は多くの応用においてこの一般化を達成するのに有効であることが証明されている。 しかしながら、ソースデータセットの貧弱な選択は、負の転送と呼ばれる現象であるターゲットの性能の低下につながる可能性がある。 利用可能なソースデータを完全に活用するために、本研究は、対象タスクに関するソースデータの選択を研究する。 本稿では,多帯域理論とランダム探索に基づく2つのソース選択手法を提案する。 シミュレーションデータと実データの両方について,徹底的な実証評価を行う。 また,提案手法は,サンプルのランダムな選択よりも優れた重み付けされたソースサブサンプルの存在の診断法と考えることもできる。

Models that perform out-of-domain generalization borrow knowledge from heterogeneous source data and apply it to a related but distinct target task. Transfer learning has proven effective for accomplishing this generalization in many applications. However, poor selection of a source dataset can lead to poor performance on the target, a phenomenon called negative transfer. In order to take full advantage of available source data, this work studies source data selection with respect to a target task. We propose two source selection methods that are based on the multi-bandit theory and random search, respectively. We conduct a thorough empirical evaluation on both simulated and real data. Our proposals can be also viewed as diagnostics for the existence of a reweighted source subsamples that perform better than the random selection of available samples.
翻訳日:2022-02-07 19:38:54 公開日:2022-02-04
# (参考訳) COIL: 学習された潜在空間における制約付き最適化 -- 有効なソリューションの学習表現 [全文訳有]

COIL: Constrained Optimization in Learned Latent Space -- Learning Representations for Valid Solutions ( http://arxiv.org/abs/2202.02163v1 )

ライセンス: CC BY-SA 4.0
Peter J Bentley, Soo Ling Lim, Adam Gaier and Linh Tran(参考訳) 制約付き最適化問題は、探索空間が、例えば、マルチモーダリティ、不連続性、詐欺といった、探索に適さない性質を持っているため、困難である。 このような困難に対処するために、新しい進化的アルゴリズムや特殊遺伝演算子の作成についてかなりの研究がなされている。 しかし, 探索空間を定義した表現を, 制約を満たす有効な解のみを許すように変更すれば, 最適化アルゴリズムの専門化を必要とせずに, 最適な解を求めるタスクをより実現可能である。 このような表現を学習するための変分オートエンコーダの利用を提案する。 本稿では, 遅延空間における制約付き最適化(COIL)を提案する。これは, VAEを用いて, 探索空間の有効領域から抽出されたサンプルからなるデータセットから, 学習された遅延表現を生成することで, 学習された表現によって定義される新しい空間における目的を見つけることができる。 本稿では,このアプローチの異なる制約型と異なる変数数に対する価値について検討する。 標準表現を用いた同一GAと比較すると,COILと学習遅延表現は制約を満たすことができ,最大2桁の精度で目標とする解を求めることができる。

Constrained optimization problems can be difficult because their search spaces have properties not conducive to search, e.g., multimodality, discontinuities, or deception. To address such difficulties, considerable research has been performed on creating novel evolutionary algorithms or specialized genetic operators. However, if the representation that defined the search space could be altered such that it only permitted valid solutions that satisfied the constraints, the task of finding the optimal would be made more feasible without any need for specialized optimization algorithms. We propose the use of a Variational Autoencoder to learn such representations. We present Constrained Optimization in Latent Space (COIL), which uses a VAE to generate a learned latent representation from a dataset comprising samples from the valid region of the search space according to a constraint, thus enabling the optimizer to find the objective in the new space defined by the learned representation. We investigate the value of this approach on different constraint types and for different numbers of variables. We show that, compared to an identical GA using a standard representation, COIL with its learned latent representation can satisfy constraints and find solutions with distance to objective up to two orders of magnitude closer.
翻訳日:2022-02-07 19:23:13 公開日:2022-02-04
# (参考訳) ニューラルマシン翻訳システムの生態的足跡 [全文訳有]

The Ecological Footprint of Neural Machine Translation Systems ( http://arxiv.org/abs/2202.02170v1 )

ライセンス: CC BY-SA 4.0
Dimitar Sherionov and Eva Vanmassenhove(参考訳) 過去10年間で、ディープラーニング(dl)は、機械翻訳(mt)を含むさまざまな分野の人工知能において大きな進歩をもたらした。 これらの進歩は、増大するデータ量と大規模なdlモデルを効率的に訓練できるハードウェアなしでは不可能である。 大量の計算コアと専用メモリのおかげで、グラフィック処理ユニット(gpu)は中央処理ユニット(cpu)よりもdlモデルでトレーニングや推論を行うための効果的なハードウェアソリューションである。 しかし、前者は強い力を持っている。 電力消費は経済的にも生態学的にも影響がある。 本章は神経mtシステムの生態的足跡に焦点を当てる。 ニューラルネットワークmtモデルのトレーニングと推論の間、電力のドレインから始まり、二酸化炭素排出量の観点から環境への影響に向かって移動します。 異なるアーキテクチャ (RNN と Transformer) と異なるGPU (コンシューマグレート NVidia 1080Ti とワークステーショングレード NVidia P100) を比較した。 次に、アイルランドとオランダのCO2排出量を算出する。 NMTモデルとその生態への影響は、一般的な家電と比較して、より明確な絵を描くことができる。 この章の最後の部分は、消費電力を減らす方法として、モデルのサイズと複雑さを減らす技術である量子化を分析します。 量子化されたモデルはCPU上で実行できるため、GPUに依存することなく電力効率の高い推論ソリューションを提供する。

Over the past decade, deep learning (DL) has led to significant advancements in various fields of artificial intelligence, including machine translation (MT). These advancements would not be possible without the ever-growing volumes of data and the hardware that allows large DL models to be trained efficiently. Due to the large amount of computing cores as well as dedicated memory, graphics processing units (GPUs) are a more effective hardware solution for training and inference with DL models than central processing units (CPUs). However, the former is very power demanding. The electrical power consumption has economical as well as ecological implications. This chapter focuses on the ecological footprint of neural MT systems. It starts from the power drain during the training of and the inference with neural MT models and moves towards the environment impact, in terms of carbon dioxide emissions. Different architectures (RNN and Transformer) and different GPUs (consumer-grate NVidia 1080Ti and workstation-grade NVidia P100) are compared. Then, the overall CO2 offload is calculated for Ireland and the Netherlands. The NMT models and their ecological impact are compared to common household appliances to draw a more clear picture. The last part of this chapter analyses quantization, a technique for reducing the size and complexity of models, as a way to reduce power consumption. As quantized models can run on CPUs, they present a power-efficient inference solution without depending on a GPU.
翻訳日:2022-02-07 19:05:27 公開日:2022-02-04
# (参考訳) 深部不均衡分類のためのトップK校正ヒンジ損失の確率的平滑化 [全文訳有]

Stochastic smoothing of the top-K calibrated hinge loss for deep imbalanced classification ( http://arxiv.org/abs/2202.02193v1 )

ライセンス: CC BY-SA 4.0
Camille Garcin, Maximilien Servajean, Alexis Joly, Joseph Salmon(参考訳) 現代の分類タスクでは、実際に遭遇するデータセットのサイズと同様に、ラベルの数が大きくなりつつある。 クラス数が増加するにつれて、クラスあいまいさとクラス不均衡は、高いトップ1精度を達成するためにますます問題になる。 一方、Top-Kメトリクス(K推測を可能にするメトリクス)は、特にパフォーマンスレポートで人気がある。 しかし、ディープラーニングに適したトップKの損失を提案することは、理論的にも実用的にも課題である。 本稿では,トップK校正損失の最近の進展に触発された確率的トップKヒンジ損失を紹介する。 本提案は,フレキシブルな"摂動オプティマイザ"フレームワーク上に構築したtop-kオペレータの平滑化に基づく。 バランスの取れたデータセットの場合、損失関数は極めてよく機能するが、最先端のtop-k損失関数よりも計算時間がかなり低いことが分かる。 さらに,不均衡ケースに対する損失の簡易な変種を提案する。 重み付きデータセットの実験では、損失関数は他のベースライン損失関数を大きく上回っています。

In modern classification tasks, the number of labels is getting larger and larger, as is the size of the datasets encountered in practice. As the number of classes increases, class ambiguity and class imbalance become more and more problematic to achieve high top-1 accuracy. Meanwhile, Top-K metrics (metrics allowing K guesses) have become popular, especially for performance reporting. Yet, proposing top-K losses tailored for deep learning remains a challenge, both theoretically and practically. In this paper we introduce a stochastic top-K hinge loss inspired by recent developments on top-K calibrated losses. Our proposal is based on the smoothing of the top-K operator building on the flexible "perturbed optimizer" framework. We show that our loss function performs very well in the case of balanced datasets, while benefiting from a significantly lower computational time than the state-of-the-art top-K loss function. In addition, we propose a simple variant of our loss for the imbalanced case. Experiments on a heavy-tailed dataset show that our loss function significantly outperforms other baseline loss functions.
翻訳日:2022-02-07 18:41:59 公開日:2022-02-04
# (参考訳) 半教師付きハードアテンションモデルを用いたビデオ暴力認識と位置推定 [全文訳有]

Video Violence Recognition and Localization using a Semi-Supervised Hard-Attention Model ( http://arxiv.org/abs/2202.02212v1 )

ライセンス: CC BY 4.0
Hamid Mohammadi, Ehsan Nazerfard(参考訳) 社会暴力や過激派活動が世界的に拡大する中で、自動暴力監視と監視システムを強化することで、コミュニティの安全と命を救うことができる。 人間の監視要員の疑わしい信頼性と監視カメラの増加により、自動化された人工知能ベースのソリューションが魅力的になる。 現在の最先端のディープラーニングアプローチによるビデオ暴力認識の精度とパフォーマンスの向上により、監視システムはより信頼性と拡張性が向上する。 深層強化学習法の主な貢献は,rwf,ホッケー,映画データセットにおける最先端の精度を実現しつつ,計算コストの高いプロセスや従来のソリューションで使用される入力機能を取り除きながら実現することである。 半教師付き学習手法による注意の集中化により,提案手法は乱暴な暴力の局所化が可能となり,暴力検出システムに対するエージェントの解釈性が向上した。

Empowering automated violence monitoring and surveillance systems amid the growing social violence and extremist activities worldwide could keep communities safe and save lives. The questionable reliability of human monitoring personnel and the increasing number of surveillance cameras makes automated artificial intelligence-based solutions compelling. Improving the current state-of-the-art deep learning approaches to video violence recognition to higher levels of accuracy and performance could enable surveillance systems to be more reliable and scalable. The main contribution of the proposed deep reinforcement learning method is to achieve state-of-the-art accuracy on RWF, Hockey, and Movies datasets while removing some of the computationally expensive processes and input features used in the previous solutions. The implementation of hard attention using a semi-supervised learning method made the proposed method capable of rough violence localization and added increased agent interpretability to the violence detection system.
翻訳日:2022-02-07 18:17:03 公開日:2022-02-04
# (参考訳) 深層学習を用いた配向・RSRPによる5Gシステムを越えたビーム管理 [全文訳有]

Beam Management with Orientation and RSRP using Deep Learning for Beyond 5G Systems ( http://arxiv.org/abs/2202.02247v1 )

ライセンス: CC BY 4.0
Khuong N. Nguyen, Anum Ali, Jianhua Mo, Boon Loong Ng, Vutha Va, and Jianzhong Charlie Zhang(参考訳) ビームマネージメント(bm)、すなわち適切な送受信ビームペアを見つけて維持するプロセスは、特に非常にダイナミックなシナリオでは困難である。 オンボードセンサーからの方向などのサイド情報により、ユーザ機器(ue)bmを補助することができる。 本研究では,慣性測定ユニット(IMU)から得られる配向情報を有効BMに用いる。 我々は、リカレントニューラルネットワーク(RNN)を用いて、基準信号受信電力(RSRP)と向き情報とを融合するデータ駆動戦略を用いる。 シミュレーションの結果,提案手法は従来のBMよりも優れた性能を示し,別の研究で粒子フィルタを用いた指向性BM戦略が得られた。 具体的には、UE方向が急速に変化すると平均RSRPを4.2dBまで向上させ、ビーム予測精度を最大34%向上させる。

Beam management (BM), i.e., the process of finding and maintaining a suitable transmit and receive beam pair, can be challenging, particularly in highly dynamic scenarios. Side-information, e.g., orientation, from on-board sensors can assist the user equipment (UE) BM. In this work, we use the orientation information coming from the inertial measurement unit (IMU) for effective BM. We use a data-driven strategy that fuses the reference signal received power (RSRP) with orientation information using a recurrent neural network (RNN). Simulation results show that the proposed strategy performs much better than the conventional BM and an orientation-assisted BM strategy that utilizes particle filter in another study. Specifically, the proposed data-driven strategy improves the beam-prediction accuracy up to 34% and increases mean RSRP by up to 4.2 dB when the UE orientation changes quickly.
翻訳日:2022-02-07 17:59:07 公開日:2022-02-04
# (参考訳) バックプロパゲーションニューラルツリー

Backpropagation Neural Tree ( http://arxiv.org/abs/2202.02248v1 )

ライセンス: CC BY 4.0
Varun Ojha and Giuseppe Nicosia(参考訳) 本稿では,確率的計算デンドリティック木であるバックプロパゲーションニューラルツリー(bneuralt)と呼ばれる新しいアルゴリズムを提案する。 BNeuralTは葉を通してランダムに繰り返し入力し、生物の樹状樹のように内部接続を通して樹状非線形性を課す。 bneuraltは樹状樹状細胞のような生物学的特性を考慮すれば、樹状細胞に類似した内部サブツリーを持つ単一の神経木モデルである。 BNeuralTアルゴリズムは、勾配降下(GD)、運動量GD、NesterovAcceled GD、Adagrad、RMSprop、Adamのような確率勾配降下最適化器を用いて訓練されたアドホックニューラルネットワーク木を生成する。 BNeuralTトレーニングには2つのフェーズがあり、それぞれが深度優先の探索方法で計算される:フォワードパスはニューラルツリーの出力をポストオーダートラバーサルで計算し、後方パスのエラーバックプロパゲーションはプレオーダートラバーサルで再帰的に実行される。 ニューラルトモデル(英語: bneuralt model)は、ニューラルネットワーク(nn)の最小部分集合と見なすことができる。 本アルゴリズムは,多種多様な機械学習問題(分類,回帰,パターン認識)において,複雑性と記述能力のバランスをとる,ハイパフォーマンスかつパシモニアスなモデルを生成する。

We propose a novel algorithm called Backpropagation Neural Tree (BNeuralT), which is a stochastic computational dendritic tree. BNeuralT takes random repeated inputs through its leaves and imposes dendritic nonlinearities through its internal connections like a biological dendritic tree would do. Considering the dendritic-tree like plausible biological properties, BNeuralT is a single neuron neural tree model with its internal sub-trees resembling dendritic nonlinearities. BNeuralT algorithm produces an ad hoc neural tree which is trained using a stochastic gradient descent optimizer like gradient descent (GD), momentum GD, Nesterov accelerated GD, Adagrad, RMSprop, or Adam. BNeuralT training has two phases, each computed in a depth-first search manner: the forward pass computes neural tree's output in a post-order traversal, while the error backpropagation during the backward pass is performed recursively in a pre-order traversal. A BNeuralT model can be considered a minimal subset of a neural network (NN), meaning it is a "thinned" NN whose complexity is lower than an ordinary NN. Our algorithm produces high-performing and parsimonious models balancing the complexity with descriptive ability on a wide variety of machine learning problems: classification, regression, and pattern recognition.
翻訳日:2022-02-07 17:46:32 公開日:2022-02-04
# (参考訳) ラベル付きシーケンスデータの分布差の検出と熱帯サイクロン衛星画像への応用

Detecting Distributional Differences in Labeled Sequence Data with Application to Tropical Cyclone Satellite Imagery ( http://arxiv.org/abs/2202.02253v1 )

ライセンス: CC BY 4.0
Trey McNeely, Galen Vincent, Ann B. Lee, Rafael Izbicki, and Kimberly M. Wood(参考訳) 私たちの目標は、熱帯サイクロン(tc)衛星画像における時空間パターンが、今後の急速な強度変化を示唆するかどうかを定量化することです。 そこで本研究では,時系列画像と連立イベントラベルの関連性に関する非パラメータテストを提案する。 我々は,イベントに先立つ画像の24時間系列とイベントに先立つ画像の分布に差があるかどうかを問う。 統計的検定を回帰問題として書き直すことで、ニューラルネットワークを利用して、急激な変化イベントへのリードアップを表すTC対流の構造的進化のモードを推測する。 近傍のシーケンス間の依存関係は、ラベル系列の限界分布を推定するブートストラップ手順によって処理される。 我々は,ラベル系列の分布がよく見積もられている限り,タイプIエラー制御が保証されていることを証明した。 提案手法は, 時間経過とともにコア対流の深層化や深層化を特徴とし, 高度化リスクの増大に伴う赤外線画像のアーチタイプを同定する経験的証拠を示す。 このような結果は、急速な強化の予測を改善する基盤となる。

Our goal is to quantify whether, and if so how, spatio-temporal patterns in tropical cyclone (TC) satellite imagery signal an upcoming rapid intensity change event. To address this question, we propose a new nonparametric test of association between a time series of images and a series of binary event labels. We ask whether there is a difference in distribution between (dependent but identically distributed) 24-h sequences of images preceding an event versus a non-event. By rewriting the statistical test as a regression problem, we leverage neural networks to infer modes of structural evolution of TC convection that are representative of the lead-up to rapid intensity change events. Dependencies between nearby sequences are handled by a bootstrap procedure that estimates the marginal distribution of the label series. We prove that type I error control is guaranteed as long as the distribution of the label series is well-estimated, which is made easier by the extensive historical data for binary TC event labels. We show empirical evidence that our proposed method identifies archetypes of infrared imagery associated with elevated rapid intensification risk, typically marked by deep or deepening core convection over time. Such results provide a foundation for improved forecasts of rapid intensification.
翻訳日:2022-02-07 17:43:12 公開日:2022-02-04
# (参考訳) 時系列の局所表現とグローバル表現の分離 [全文訳有]

Decoupling Local and Global Representations of Time Series ( http://arxiv.org/abs/2202.02262v1 )

ライセンス: CC BY 4.0
Sana Tonekaboni, Chun-Liang Li, Sercan Arik, Anna Goldenberg, Tomas Pfister(参考訳) 実世界の時系列データは、しばしばいくつかの変化源から生成される。 この可変性に寄与する要因を捉える学習表現は、基礎となる生成プロセスを通じてデータの理解を深め、下流の機械学習タスクのパフォーマンスを向上させる。 本稿では,時系列変動のグローバルおよび局所的要因の表現を学習するための新しい生成的手法を提案する。 各サンプルモデルの局所的な表現は、以前の確率過程で非定常であり、サンプルの全体的表現は時間に依存しない特性を符号化する。 表現間の疎結合を促進するため,両変数間の相互情報の最小化を図った反実正則化を導入する。 実験では,シミュレーションデータ上での真の局所的および大域的変動係数の回復に成功し,本手法を用いて学習した表現が実世界のデータセットにおけるダウンストリームタスクにおいて優れた性能をもたらすことを示す。 提案手法はデータモデリングに有用であり、実世界のデータの複雑さに対するより良い洞察をもたらすと信じている。

Real-world time series data are often generated from several sources of variation. Learning representations that capture the factors contributing to this variability enables a better understanding of the data via its underlying generative process and improves performance on downstream machine learning tasks. This paper proposes a novel generative approach for learning representations for the global and local factors of variation in time series. The local representation of each sample models non-stationarity over time with a stochastic process prior, and the global representation of the sample encodes the time-independent characteristics. To encourage decoupling between the representations, we introduce counterfactual regularization that minimizes the mutual information between the two variables. In experiments, we demonstrate successful recovery of the true local and global variability factors on simulated data, and show that representations learned using our method yield superior performance on downstream tasks on real-world datasets. We believe that the proposed way of defining representations is beneficial for data modelling and yields better insights into the complexity of real-world data.
翻訳日:2022-02-07 17:41:47 公開日:2022-02-04
# (参考訳) 離散化モンテカルロ--パラレル・イン・タイム粒子スムース

De-Sequentialized Monte Carlo: a parallel-in-time particle smoother ( http://arxiv.org/abs/2202.02264v1 )

ライセンス: CC BY 4.0
Adrien Corenflos and Nicolas Chopin and Simo S\"arkk\"a(参考訳) 粒子スムーダ(Particle smoother)は、状態空間モデルから観測された状態の結合分布を近似するために設計されたSMC(Sequential Monte Carlo)アルゴリズムである。 dsmc (de-sequentialized monte carlo) を提案する。これは並列アーキテクチャ上で$t$の観測を$\mathcal{o}(\log t)$時間で処理できる新しい粒子平滑化である。 これは標準粒子スムースラーと比較してよいが、その複雑さは$T$で線型である。 dsmc に対する$\mathcal{l}_p$ の収束結果が導出され、明示的な上界多項式は$t$ である。 次に、dSMCによって計算された滑らかな推定値のばらつきを低減する方法について論じる。 (i)アルゴリズムの初期化時に粒子をサンプリングするための優れた提案分布を設計すること。 (ii)dsmcで使用される粒子数を増加させるために遅延再サンプリングを用いる。 最後に、dSMCに基づく粒子ギブスサンプリングを設計し、並列ハードウェア上で$\mathcal{O}(\log(T))$コストで状態空間モデルでパラメータ推論を行うことができる。

Particle smoothers are SMC (Sequential Monte Carlo) algorithms designed to approximate the joint distribution of the states given observations from a state-space model. We propose dSMC (de-Sequentialized Monte Carlo), a new particle smoother that is able to process $T$ observations in $\mathcal{O}(\log T)$ time on parallel architecture. This compares favourably with standard particle smoothers, the complexity of which is linear in $T$. We derive $\mathcal{L}_p$ convergence results for dSMC, with an explicit upper bound, polynomial in $T$. We then discuss how to reduce the variance of the smoothing estimates computed by dSMC by (i) designing good proposal distributions for sampling the particles at the initialization of the algorithm, as well as by (ii) using lazy resampling to increase the number of particles used in dSMC. Finally, we design a particle Gibbs sampler based on dSMC, which is able to perform parameter inference in a state-space model at a $\mathcal{O}(\log(T))$ cost on parallel hardware.
翻訳日:2022-02-07 17:25:55 公開日:2022-02-04
# (参考訳) 会員推論のためのLTU攻撃装置 [全文訳有]

LTU Attacker for Membership Inference ( http://arxiv.org/abs/2202.02278v1 )

ライセンス: CC BY 4.0
Joseph Pedersen, Rafael Mu\~noz-G\'omez, Jiangnan Huang, Haozhe Sun, Wei-Wei Tu, Isabelle Guyon(参考訳) 本稿では,機械学習分類器(Defender Model)などの予測モデルをブラックボックスとホワイトボックスの両方でメンバシップ推論攻撃に対して,トレーナーとトレーニングモデルが一般公開される際に,防御する問題に対処する。 Defenderは、ユーティリティとプライバシという2つの目的を最適化することを目指している。 ユーティリティとプライバシの両方を、アタッカーと評価器を含む外部装置で評価する。 一方、ディフェンダートレーニングデータと同様に配布されるリザーブドデータは、有用性を評価するために使用され、一方、ディフェンダートレーニングデータと混合されたリザーブドデータは、メンバーシップ推論攻撃のロバスト性を評価するために使用される。 どちらの場合も、分類精度またはエラーレートが測定基準として用いられる: ユーティリティはデフェンダーモデルの分類精度で評価され、プライバシは、各サンプルの登録ラベルを除くすべてのデフェンダーおよびリザーブドデータにアクセス可能ないわゆる「リーブツーラベル」LTUアタックアタックの会員予測誤差で評価される。 特定の条件下では、LTU攻撃者でさえ、単純な攻撃戦略でプライバシー損失の低い境界を達成できることを証明し、プライバシーを保護するための具体的な条件、すなわち過度な適合を防ぎ、ある程度のランダム性を追加することを含む。 しかし、そのようなナイーブなLTU攻撃者は、文献で脆弱であることが知られているモデルのプライバシを攻撃できないことを示し、LTU攻撃者がプライバシーを評価する強力な手段となるための強力な攻撃戦略で知識を補完しなければならないことを示した。 qmnist と cifar-10 データセットを用いた実験により,プライバシ攻撃から保護するアルゴリズムにおけるオーバーフィッティング防止とランダム性の役割が検証された。

We address the problem of defending predictive models, such as machine learning classifiers (Defender models), against membership inference attacks, in both the black-box and white-box setting, when the trainer and the trained model are publicly released. The Defender aims at optimizing a dual objective: utility and privacy. Both utility and privacy are evaluated with an external apparatus including an Attacker and an Evaluator. On one hand, Reserved data, distributed similarly to the Defender training data, is used to evaluate Utility; on the other hand, Reserved data, mixed with Defender training data, is used to evaluate membership inference attack robustness. In both cases classification accuracy or error rate are used as the metric: Utility is evaluated with the classification accuracy of the Defender model; Privacy is evaluated with the membership prediction error of a so-called "Leave-Two-Unlabeled& quot; LTU Attacker, having access to all of the Defender and Reserved data, except for the membership label of one sample from each. We prove that, under certain conditions, even a "na\"ive" LTU Attacker can achieve lower bounds on privacy loss with simple attack strategies, leading to concrete necessary conditions to protect privacy, including: preventing over-fitting and adding some amount of randomness. However, we also show that such a na\"ive LTU Attacker can fail to attack the privacy of models known to be vulnerable in the literature, demonstrating that knowledge must be complemented with strong attack strategies to turn the LTU Attacker into a powerful means of evaluating privacy. Our experiments on the QMNIST and CIFAR-10 datasets validate our theoretical results and confirm the roles of over-fitting prevention and randomness in the algorithms to protect against privacy attacks.
翻訳日:2022-02-07 17:24:50 公開日:2022-02-04
# 溶融塩ループに対する複数アクチュエータ拘束強化アルゴリズムの数値実証

Numerical Demonstration of Multiple Actuator Constraint Enforcement Algorithm for a Molten Salt Loop ( http://arxiv.org/abs/2202.02094v1 )

ライセンス: Link先を確認
Akshay J. Dave, Haoyu Wang, Roberto Ponciroli, Richard B. Vilim(参考訳) 原子力発電所の自律運転のパラダイムを推し進めるために、データ駆動機械学習による制御のアプローチが求められている。 次世代原子炉設計の自律運転は安全性を高め、経済性を向上させることが期待されている。 しかし、利用されるアルゴリズムは、解釈可能、適応可能、堅牢である必要がある。 本研究では,自律運転時の最適制御の具体的問題に焦点をあてる。 溶融塩ループの自律制御に対する解釈可能かつ適応可能なデータ駆動機械学習アプローチを実証する。 解釈可能性に対処するために、状態空間表現におけるシステムダイナミクスの同定にデータ駆動アルゴリズムを用いる。 適応性に対処するために、制御アルゴリズムを利用して、定数と時間依存制約を課しながらアクチュエータのセットポイントを修正する。 この作業では堅牢性は対処されておらず、将来の作業の一部である。 提案手法を実証するために,負荷追従型過渡期における制約を強制するための介入を必要とする数値実験を設計した。

To advance the paradigm of autonomous operation for nuclear power plants, a data-driven machine learning approach to control is sought. Autonomous operation for next-generation reactor designs is anticipated to bolster safety and improve economics. However, any algorithms that are utilized need to be interpretable, adaptable, and robust. In this work, we focus on the specific problem of optimal control during autonomous operation. We will demonstrate an interpretable and adaptable data-driven machine learning approach to autonomous control of a molten salt loop. To address interpretability, we utilize a data-driven algorithm to identify system dynamics in state-space representation. To address adaptability, a control algorithm will be utilized to modify actuator setpoints while enforcing constant, and time-dependent constraints. Robustness is not addressed in this work, and is part of future work. To demonstrate the approach, we designed a numerical experiment requiring intervention to enforce constraints during a load-follow type transient.
翻訳日:2022-02-07 17:08:19 公開日:2022-02-04
# 機械学習による軌道力学の再発見

Rediscovering orbital mechanics with machine learning ( http://arxiv.org/abs/2202.02306v1 )

ライセンス: Link先を確認
Pablo Lemos, Niall Jeffrey, Miles Cranmer, Shirley Ho, Peter Battaglia(参考訳) 本稿では,機械学習を用いて実物系の制御方程式や隠れ特性を自動的に発見する手法を提案する。 私たちは、30年間の軌道データから、太陽系の太陽、惑星、そして大きな衛星のダイナミクスをシミュレートするために、グラフニューラルネットワークを訓練します。 次に,ニューラルネットワークによって暗黙的に学習された力法則の解析式を発見するために,記号回帰を用いて,ニュートンの重力法則と等価であることを示した。 要求された主要な仮定は、翻訳と回転の等分散であり、ニュートンの第2および第3の運動法則であった。 我々のアプローチは記号力法則の形式を正しく発見した。 さらに、我々の手法は惑星や衛星の質量や物理定数に関する仮定は必要としなかった。 彼らも我々の方法で正確に推測された。 もちろん、古典的な重力法則はアイザック・ニュートン以来知られているが、我々の手法が観測されたデータから未知の法則や隠れた性質を発見できるという検証に役立つ。 この研究は、科学的な発見を加速するための機械学習の可能性を実現するための重要なステップである。

We present an approach for using machine learning to automatically discover the governing equations and hidden properties of real physical systems from observations. We train a "graph neural network" to simulate the dynamics of our solar system's Sun, planets, and large moons from 30 years of trajectory data. We then use symbolic regression to discover an analytical expression for the force law implicitly learned by the neural network, which our results showed is equivalent to Newton's law of gravitation. The key assumptions that were required were translational and rotational equivariance, and Newton's second and third laws of motion. Our approach correctly discovered the form of the symbolic force law. Furthermore, our approach did not require any assumptions about the masses of planets and moons or physical constants. They, too, were accurately inferred through our methods. Though, of course, the classical law of gravitation has been known since Isaac Newton, our result serves as a validation that our method can discover unknown laws and hidden properties from observed data. More broadly this work represents a key step toward realizing the potential of machine learning for accelerating scientific discovery.
翻訳日:2022-02-07 17:08:05 公開日:2022-02-04
# (参考訳) EcoFlow: 低消費電力ニューラルネットワークアクセラレータのための効率的な畳み込みデータフロー [全文訳有]

EcoFlow: Efficient Convolutional Dataflows for Low-Power Neural Network Accelerators ( http://arxiv.org/abs/2202.02310v1 )

ライセンス: CC BY 4.0
Lois Orosa, Skanda Koppula, Yaman Umuroglu, Konstantinos Kanellopoulos, Juan Gomez-Luna, Michaela Blott, Kees Vissers, Onur Mutlu(参考訳) 拡張畳み込み畳み込みは現代の畳み込みニューラルネットワーク(CNN)で広く使われている。 これらのカーネルはcnnのトレーニングやイメージセグメンテーションや高解像度画像生成などのアプリケーションの推論に広く使われている。 これらのカーネルは人気を博しているが、メモリの強度、エクサスケールの計算要求、大きなエネルギー消費のために現在の計算システムを強調している。 空間構造に基づく低消費電力CNN推論アクセラレータは、これらの畳み込みカーネルの両方に最適化されていない。 拡張および転位した畳み込みは、下層の空間構造にマッピングされたときに大きなゼロパディングをもたらし、性能とエネルギー効率を著しく低下させる。 この問題に対処する既存のアプローチでは、直接畳み込みを計算するために使用される、単純で効率的でよく採用されたアーキテクチャに大きな設計変更が必要となる。 この課題に対処するため,我々は,拡張および変換された畳み込みのための新しいデータフローとマッピングアルゴリズムであるecoflowを提案する。 これらのアルゴリズムは、既存の低コストで小規模な空間アーキテクチャ上で効率的に実行されるように調整されており、既存のアクセラレーターのネットワークオンチップに最小限の変更を必要とする。 ecoflowは、注意深いデータフローオーケストレーションと空間アーキテクチャに合わせたデータマッピングを通じて、ゼロパディングを排除します。 ecoflowは、cnn推論に最適化されたアーキテクチャ上で、柔軟で高性能なトランスポーズと拡張畳み込みを可能にする。 我々は,CNNトレーニングワークロードとGANトレーニングワークロードにおけるEcoFlowの効率性を評価する。 新しいサイクル・アキュレート・シミュレータにおける実験は、エコフローが 1) エンドツーエンドのCNNトレーニング時間を7~85%削減し, 2) エンドツーエンドのganトレーニング性能は,最先端のcnn推論アクセラレータと比較して29~42%向上する。

Dilated and transposed convolutions are widely used in modern convolutional neural networks (CNNs). These kernels are used extensively during CNN training and inference of applications such as image segmentation and high-resolution image generation. Although these kernels have grown in popularity, they stress current compute systems due to their high memory intensity, exascale compute demands, and large energy consumption. We find that commonly-used low-power CNN inference accelerators based on spatial architectures are not optimized for both of these convolutional kernels. Dilated and transposed convolutions introduce significant zero padding when mapped to the underlying spatial architecture, significantly degrading performance and energy efficiency. Existing approaches that address this issue require significant design changes to the otherwise simple, efficient, and well-adopted architectures used to compute direct convolutions. To address this challenge, we propose EcoFlow, a new set of dataflows and mapping algorithms for dilated and transposed convolutions. These algorithms are tailored to execute efficiently on existing low-cost, small-scale spatial architectures and requires minimal changes to the network-on-chip of existing accelerators. EcoFlow eliminates zero padding through careful dataflow orchestration and data mapping tailored to the spatial architecture. EcoFlow enables flexible and high-performance transpose and dilated convolutions on architectures that are otherwise optimized for CNN inference. We evaluate the efficiency of EcoFlow on CNN training workloads and Generative Adversarial Network (GAN) training workloads. Experiments in our new cycle-accurate simulator show that EcoFlow 1) reduces end-to-end CNN training time between 7-85%, and 2) improves end-to-end GAN training performance between 29-42%, compared to state-of-the-art CNN inference accelerators.
翻訳日:2022-02-07 17:06:45 公開日:2022-02-04
# 小型データを用いたパーソナライズされたビジュアルエンコーディングモデルの構築

Personalized visual encoding model construction with small data ( http://arxiv.org/abs/2202.02245v1 )

ライセンス: Link先を確認
Zijin Gu, Keith Jamison, Mert Sabuncu, and Amy Kuceyeski(参考訳) 刺激に対する脳反応パターンを予測する符号化モデルは、ボトムアップ神経系の変動性と個人の行動や病理状態との関係を捉える1つの方法である。 しかし、最適な精度を得るためには、通常、大量のトレーニングデータが必要である。 本稿では,既存の符号化モデルを用いて,比較的少ない刺激応答データを持つ新規個体の符号化モデルを作成するための,パーソナライズされたアンサンブル符号化モデル手法を提案する。 その結果,特定の個人,すなわち約400個の画像応答ペアに対して,少量のデータで学習したアンサンブル符号化モデルが,同じ個人に対して約24,000個の画像応答ペアで訓練されたモデルと異なる精度が得られることが分かった。 重要なことに、パーソナライズされたアンサンブル符号化モデルは、画像-応答関係における個体間変動のパターンを保存する。 さらに、最近開発されたNeuroGenフレームワーク内でパーソナライズされたアンサンブル符号化モデルを用いて、特定の個体に対する特定の領域の活性化を最大化する最適刺激を生成する。 犬と人間の顔の画像に対する顔領域反応の個人差をアンサンブル符号化モデルを用いたニューロゲンを用いて再現した。 最後に, 提案手法は, 異なるスキャナーと実験的なセットアップを持つ新規個体における画像応答データの集合を検証することで, ドメインシフトに対して頑健であることを示す。 提案手法は, 従来収集した深層サンプルデータを用いて, 正確かつパーソナライズされた符号化モデルを作成し, その後, 異なる実験条件下でスキャンされた新規個体に対する最適な合成画像のパーソナライズを行う可能性を示す。

Encoding models that predict brain response patterns to stimuli are one way to capture this relationship between variability in bottom-up neural systems and individual's behavior or pathological state. However, they generally need a large amount of training data to achieve optimal accuracy. Here, we propose and test an alternative personalized ensemble encoding model approach to utilize existing encoding models, to create encoding models for novel individuals with relatively little stimuli-response data. We show that these personalized ensemble encoding models trained with small amounts of data for a specific individual, i.e. ~400 image-response pairs, achieve accuracy not different from models trained on ~24,000 image-response pairs for the same individual. Importantly, the personalized ensemble encoding models preserve patterns of inter-individual variability in the image-response relationship. Additionally, we use our personalized ensemble encoding model within the recently developed NeuroGen framework to generate optimal stimuli designed to maximize specific regions' activations for a specific individual. We show that the inter-individual differences in face area responses to images of dog vs human faces observed previously is replicated using NeuroGen with the ensemble encoding model. Finally, and most importantly, we show the proposed approach is robust against domain shift by validating on a prospectively collected set of image-response data in novel individuals with a different scanner and experimental setup. Our approach shows the potential to use previously collected, deeply sampled data to efficiently create accurate, personalized encoding models and, subsequently, personalized optimal synthetic images for new individuals scanned under different experimental conditions.
翻訳日:2022-02-07 16:11:40 公開日:2022-02-04
# 反復的自己知識蒸留 --ポットホール分類から細粒化・認識まで-

Iterative Self Knowledge Distillation -- From Pothole Classification to Fine-Grained and COVID Recognition ( http://arxiv.org/abs/2202.02265v1 )

ライセンス: Link先を確認
Kuan-Chuan Peng(参考訳) ポトホール分類は、自動車事故や修理法案からドライバーを救う道路検査車両にとって重要な課題となっている。 計算能力の制限と訓練エポック数の固定化を踏まえ,軽量ポットホール分類器を訓練するための反復自己知識蒸留(ISKD)を提案する。 知識蒸留における教師モデルと学生モデルの両方を改善するために設計され、ISKDは4つの軽量ネットワークアーキテクチャにまたがる3つのポットホール分類データセットに対して、最先端の自己知識蒸留法より優れている。 教師モデルと生徒モデルとの正確性の関係は,生徒モデルが中程度に訓練された教師モデルからメリットを享受できることを示す。 より優れた教師モデルがより優れた学生モデルを生み出すことを示唆し、その結果はISKDの設計を正当化する。 また, 総合分類, 細粒度分類, 医用画像アプリケーションに関連する6つの追加データセットに対するISKDの有効性を示すとともに, 教師モデルや余分な訓練可能なパラメータを必要とせずに, 汎用的なパフォーマンス促進装置として機能することを支援する。

Pothole classification has become an important task for road inspection vehicles to save drivers from potential car accidents and repair bills. Given the limited computational power and fixed number of training epochs, we propose iterative self knowledge distillation (ISKD) to train lightweight pothole classifiers. Designed to improve both the teacher and student models over time in knowledge distillation, ISKD outperforms the state-of-the-art self knowledge distillation method on three pothole classification datasets across four lightweight network architectures, which supports that self knowledge distillation should be done iteratively instead of just once. The accuracy relation between the teacher and student models shows that the student model can still benefit from a moderately trained teacher model. Implying that better teacher models generally produce better student models, our results justify the design of ISKD. In addition to pothole classification, we also demonstrate the efficacy of ISKD on six additional datasets associated with generic classification, fine-grained classification, and medical imaging application, which supports that ISKD can serve as a general-purpose performance booster without the need of a given teacher model and extra trainable parameters.
翻訳日:2022-02-07 16:11:12 公開日:2022-02-04
# マルチ患者頭蓋内記録における刺激駆動型神経活動パターンの同定

Identifying stimulus-driven neural activity patterns in multi-patient intracranial recordings ( http://arxiv.org/abs/2202.01933v1 )

ライセンス: Link先を確認
Jeremy R. Manning(参考訳) 刺激による神経活動パターンの同定は、認知の神経基盤を研究する上で重要である。 これは、電極の位置が患者によって異なる頭蓋内データセットでは特に困難である。 本章は,第一に,刺激駆動型神経活動パターンの同定における主な課題について概説する。 次に、頭蓋内記録に特有ないくつかの問題についての議論とともに、モダリティ特有の考慮とアプローチについて検討する。 このような背景から,多症例の頭蓋内記録における刺激駆動型神経活動パターンの同定とモデル化のための,様々な対象内および対象間アプローチを検討する。 これらのアプローチには、一般化線形モデル、多変量パターン解析、表現類似性解析、合同刺激-活動モデル、階層行列分解モデル、ガウス過程モデル、幾何アライメントモデル、オブジェクト間の相関、オブジェクト間の機能相関が含まれる。 最近の文献の例は、主要な概念を説明し、それぞれのアプローチに概念的直観を提供するのに役立つ。

Identifying stimulus-driven neural activity patterns is critical for studying the neural basis of cognition. This can be particularly challenging in intracranial datasets, where electrode locations typically vary across patients. This chapter first presents an overview of the major challenges to identifying stimulus-driven neural activity patterns in the general case. Next, we will review several modality-specific considerations and approaches, along with a discussion of several issues that are particular to intracranial recordings. Against this backdrop, we will consider a variety of within-subject and across-subject approaches to identifying and modeling stimulus-driven neural activity patterns in multi-patient intracranial recordings. These approaches include generalized linear models, multivariate pattern analysis, representational similarity analysis, joint stimulus-activity models, hierarchical matrix factorization models, Gaussian process models, geometric alignment models, inter-subject correlations, and inter-subject functional correlations. Examples from the recent literature serve to illustrate the major concepts and provide the conceptual intuitions for each approach.
翻訳日:2022-02-07 16:09:12 公開日:2022-02-04
# 事象関連電位脳-コンピュータインタフェースの線形判別解析をリマスターするブロック-トエプリッツ共分散行列の導入

Introducing Block-Toeplitz Covariance Matrices to Remaster Linear Discriminant Analysis for Event-related Potential Brain-computer Interfaces ( http://arxiv.org/abs/2202.02001v1 )

ライセンス: Link先を確認
Jan Sosulski and Michael Tangermann(参考訳) ノイズ多チャンネル脳波時系列データの共分散行列は高次元のため推定が困難である。 事象関連電位に基づく脳-コンピュータインタフェース(BCI)と分類のための線形判別分析(LDA)では、この問題に対処する技術の現状は縮小正規化によるものである。 本稿では,ldaの共分散行列に対してブロック-トエプリッツ構造を適用し,各チャネルの短時間窓における信号定常性の仮定を実装した新しい手法を提案する。 13の事象関連BCIプロトコルに基づいて収集された213人の被験者のデータから、結果として得られる「ToeplitzLDA」は、縮小正規化LDA(最大6AUCポイント)とリーマン分類アプローチ(最大2AUCポイント)と比較してバイナリ分類性能を著しく向上させた。 これは、教師なしのビジュアルスペルアプリケーションで記録されたデータに例示されるように、アプリケーションレベルのパフォーマンスを大幅に改善することを意味します。 LDAトレーニングの低メモリ化と時間的複雑さに加えて、ToeplitzLDAは20倍の時間次元拡張であってもほとんど不変であることが判明し、特徴抽出に関する専門知識の必要性が軽減された。

Covariance matrices of noisy multichannel electroencephalogram time series data are hard to estimate due to high dimensionality. In brain-computer interfaces (BCI) based on event-related potentials and a linear discriminant analysis (LDA) for classification, the state of the art to address this problem is by shrinkage regularization. We propose a novel idea to tackle this problem by enforcing a block-Toeplitz structure for the covariance matrix of the LDA, which implements an assumption of signal stationarity in short time windows for each channel. On data of 213 subjects collected under 13 event-related potential BCI protocols, the resulting 'ToeplitzLDA' significantly increases the binary classification performance compared to shrinkage regularized LDA (up to 6 AUC points) and Riemannian classification approaches (up to 2 AUC points). This translates to greatly improved application level performances, as exemplified on data recorded during an unsupervised visual speller application, where spelling errors could be reduced by 81% on average for 25 subjects. Aside from lower memory and time complexity for LDA training, ToeplitzLDA proved to be almost invariant even to a twenty-fold time dimensionality enlargement, which reduces the need of expert knowledge regarding feature extraction.
翻訳日:2022-02-07 16:08:28 公開日:2022-02-04
# トルコメディアにおけるクリックストリームデータのアンサンブルクラスタリングによるニュース消費に関するtwitterレファレンス行動

Twitter Referral Behaviours on News Consumption with Ensemble Clustering of Click-Stream Data in Turkish Media ( http://arxiv.org/abs/2202.02056v1 )

ライセンス: Link先を確認
Didem Makaroglu, Altan Cakir, Behcet Ugur Toreyin(参考訳) ウェブサイト上の人的活動によって生成される膨大な量のクリックストリームデータは、ニュースメディアのデジタル化後、ニュースルームによって読者の特徴を識別する重要な特徴となっている。 ストリーミングデータ、特に前例のないトラフィックを処理するために、弾力性のあるアーキテクチャを持つことが不可欠であり、読者に主に関連する記事の推薦など、より包括的な分析を可能にする。 クリックストリームデータの性質はウェブサイト内でも同様の論理を持っているが、広い視点から見れば人間の行動を認識するには固有の制限があるため、ニッチな領域では問題を制限する必要がある。 本研究は、組織ウェブサイトにおける匿名化読者のクリック活動を分析し、Twitterの紹介に追随するニュース消費パターンを識別するものである。 調査は、ログデータをニュースコンテンツにリンクすることで、Webジャーニーに留まらず、洞察を豊かにすることで、幅広い視点に展開されている。 混合型埋め込み戦略を用いたアンサンブルクラスタ分析手法を適用し、類似の読者グループや興味を時間と独立して見つける方法と比較した。 その結果,混合型データセットのクラスタリングの質は,一様多様体近似および投影(umap)により組込む場合の最適な内部検証スコアに接近し,コンセンサス関数を与えられたアンサンブルにおいて,コンセンサス関数を直接使用するのではなく,最も適用可能なハイパーパラメータ構成にアクセスするための鍵とする。 得られたクラスタの評価は、サンプルに繰り返し存在する特定のクラスタを強調し、ニュース組織に洞察を与え、時間とともに関心が変化するため、モデリング行動の劣化を克服する。

Click-stream data, which comes with a massive volume generated by the human activities on the websites, has become a prominent feature to identify readers' characteristics by the newsrooms after the digitization of the news outlets. It is essential to have elastic architectures to process the streaming data, particularly for unprecedented traffic, enabling conducting more comprehensive analyses such as recommending mostly related articles to the readers. Although the nature of click-stream data has a similar logic within the websites, it has inherent limitations to recognize human behaviors when looking from a broad perspective, which brings the need of limiting the problem in niche areas. This study investigates the anonymized readers' click activities in the organizations' websites to identify news consumption patterns following referrals from Twitter, who incidentally reach but propensity is mainly the routed news content. The investigation is widened to a broad perspective by linking the log data with news content to enrich the insights rather than sticking into the web journey. The methodologies on ensemble cluster analysis with mixed-type embedding strategies are applied and compared to find similar reader groups and interests independent from time. Our results demonstrate that the quality of clustering mixed-type data set approaches to optimal internal validation scores when embedded by Uniform Manifold Approximation and Projection (UMAP) and using consensus function as a key to access the most applicable hyper parameter configurations in the given ensemble rather than using consensus function results directly. Evaluation of the resulting clusters highlights specific clusters repeatedly present in the samples, which provide insights to the news organizations and overcome the degradation of the modeling behaviors due to the change in the interest over time.
翻訳日:2022-02-07 16:06:25 公開日:2022-02-04
# 基本領域投影によるグループ不変機械学習

Group invariant machine learning by fundamental domain projections ( http://arxiv.org/abs/2202.02164v1 )

ライセンス: Link先を確認
Benjamin Aslan, Daniel Platt, David Sheard(参考訳) 我々は幾何学的トポロジーの観点から教師付き群不変および同変機械学習のよく研究された問題にアプローチする。 本稿では,対称性群の軌道をパラメタライズする幾何学空間に入力データを投影する前処理ステップを用いた新しい手法を提案する。 この新しいデータは、任意の機械学習モデル(ニューラルネットワーク、ランダムフォレスト、サポートベクトルマシンなど)の入力となる。 実装が効率的である幾何学的投影を計算するためのアルゴリズムを提示し,いくつかの機械学習問題(クシー行列のホッジ数予測問題を含む)に対して,それぞれの場合において,文献中の他のものと比較して精度が向上することを示す。 幾何学的トポロジの観点からは、文学における他の多くのアプローチを含む群同変機械学習に対するいわゆる内在的アプローチを統一的に記述することも可能である。

We approach the well-studied problem of supervised group invariant and equivariant machine learning from the point of view of geometric topology. We propose a novel approach using a pre-processing step, which involves projecting the input data into a geometric space which parametrises the orbits of the symmetry group. This new data can then be the input for an arbitrary machine learning model (neural network, random forest, support-vector machine etc). We give an algorithm to compute the geometric projection, which is efficient to implement, and we illustrate our approach on some example machine learning problems (including the well-studied problem of predicting Hodge numbers of CICY matrices), in each case finding an improvement in accuracy versus others in the literature. The geometric topology viewpoint also allows us to give a unified description of so-called intrinsic approaches to group equivariant machine learning, which encompasses many other approaches in the literature.
翻訳日:2022-02-07 16:05:53 公開日:2022-02-04
# Dikaios: 属性推論攻撃によるアルゴリズムフェアネスのプライバシ監査

Dikaios: Privacy Auditing of Algorithmic Fairness via Attribute Inference Attacks ( http://arxiv.org/abs/2202.02242v1 )

ライセンス: Link先を確認
Jan Aalmoes, Vasisht Duddu, Antoine Boutet(参考訳) 機械学習(ML)モデルは、高度なアプリケーションにデプロイされている。 データセットで観察される機密属性のクラス不均衡のため、MLモデルは人種や性別などの機密属性によって識別される少数サブグループに対して不公平である。 In-processing Fairnessアルゴリズムは、モデル予測が機密属性に依存しないことを保証する。 さらに、MLモデルは属性推論攻撃に対して脆弱であり、敵は識別可能なモデル予測を利用して機密属性の値を特定することができる。 信頼に値するmlの重要な柱であるプライバシと公平性にもかかわらず、属性の漏洩に関してフェアネスアルゴリズムによってもたらされるプライバシリスクは研究されていない。 モデルビルダーがモデル設計のプライバシと公平性を考慮し、ブラックボックスフェアネスアルゴリズムを監査するための効果的な手段として属性推論攻撃を同定する。 モデルビルダーに対する公平性アルゴリズムのためのプライバシ監査ツールであるDikaiosを提案し, 適応予測しきい値を用いて, 機密属性のクラス不均衡を考慮に入れた, 新たな効果的な属性推論攻撃を利用した。 我々はDikaiosを評価し、5つのデータセット上で2つの処理内公平性アルゴリズムのプライバシー監査を行った。 適応予測しきい値を持つ属性推論攻撃は,前回の攻撃よりも有意に優れていた。 我々は、機密属性の異なる値間で区別不能な予測を保証するために、処理中の公平性アルゴリズムの限界を強調した。 実際、これらの内部処理フェアネススキームの属性プライバシリスクは、データセットのセンシティブな属性の割合に応じて非常に変動する。 属性のプライバシリスクに対する公平性メカニズムの予測不可能な影響は、モデルビルダーが考慮しなければならないその利用に対する重要な制限である。

Machine learning (ML) models have been deployed for high-stakes applications. Due to class imbalance in the sensitive attribute observed in the datasets, ML models are unfair on minority subgroups identified by a sensitive attribute, such as race and sex. In-processing fairness algorithms ensure model predictions are independent of sensitive attribute. Furthermore, ML models are vulnerable to attribute inference attacks where an adversary can identify the values of sensitive attribute by exploiting their distinguishable model predictions. Despite privacy and fairness being important pillars of trustworthy ML, the privacy risk introduced by fairness algorithms with respect to attribute leakage has not been studied. We identify attribute inference attacks as an effective measure for auditing blackbox fairness algorithms to enable model builder to account for privacy and fairness in the model design. We proposed Dikaios, a privacy auditing tool for fairness algorithms for model builders which leveraged a new effective attribute inference attack that account for the class imbalance in sensitive attributes through an adaptive prediction threshold. We evaluated Dikaios to perform a privacy audit of two in-processing fairness algorithms over five datasets. We show that our attribute inference attacks with adaptive prediction threshold significantly outperform prior attacks. We highlighted the limitations of in-processing fairness algorithms to ensure indistinguishable predictions across different values of sensitive attributes. Indeed, the attribute privacy risk of these in-processing fairness schemes is highly variable according to the proportion of the sensitive attributes in the dataset. This unpredictable effect of fairness mechanisms on the attribute privacy risk is an important limitation on their utilization which has to be accounted by the model builder.
翻訳日:2022-02-07 16:05:38 公開日:2022-02-04
# ヒルベルト空間におけるあるランダム作用素の反復の多項式収束

Polynomial convergence of iterations of certain random operators in Hilbert space ( http://arxiv.org/abs/2202.02266v1 )

ライセンス: Link先を確認
Soumyadip Ghosh, Yingdong Lu, Tomasz J. Nowicki(参考訳) 本研究では,SGD(Stochastic Gradient Descent)アルゴリズムにインスパイアされた,無限次元ヒルベルト空間上の作用素群のランダム反復列の収束について検討する。 多項式収束速度が初期状態に依存することを示す一方、ランダム性は最良の定数係数の選択においてのみ重要な役割を果たし、上界と下界の間のギャップを埋める。

We study the convergence of random iterative sequence of a family of operators on infinite dimensional Hilbert spaces, which are inspired by the Stochastic Gradient Descent (SGD) algorithm in the case of the noiseless regression, as studied in [1]. We demonstrate that its polynomial convergence rate depends on the initial state, while the randomness plays a role only in the choice of the best constant factor and we close the gap between the upper and lower bounds.
翻訳日:2022-02-07 16:05:13 公開日:2022-02-04
# AIOpsモデルの一貫した解釈に向けて

Towards a consistent interpretation of AIOps models ( http://arxiv.org/abs/2202.02298v1 )

ライセンス: Link先を確認
Yingzhe Lyu, Gopi Krishnan Rajbahadur, Dayi Lin, Boyuan Chen, Zhen Ming (Jack) Jiang(参考訳) AIOps(Artificial Intelligence for IT Operations)は、サービス障害の指標を特定するためのモデル解釈など、さまざまなタスクの組織で採用されている。 誤解を招く実践者を避けるために、aiopsモデルの解釈は一貫性を持たなければならない(つまり、同じタスク上の異なるaiopsモデルは、機能の重要性について互いに一致している)。 しかし、多くのAIOps研究は、解釈の一貫性に対するこれらの違反の影響は研究されていないが、モデルと準最適性能を解釈するなど、解釈の導出において機械学習コミュニティの確立した慣行に反する。 本稿では,aiopsモデル解釈の一貫性について,内部一貫性,外部一貫性,時間一貫性の3次元で検討する。 私たちは、Googleクラスタのジョブ障害の予測とBackblazeハードドライブ障害の2つのAIOpsタスクのケーススタディを行います。 学習者からのランダム性、ハイパーパラメータチューニング、データサンプリングは、一貫した解釈を生成するために制御されるべきである。 AUCが0.75を超えるAIOpsモデルは、低パフォーマンスモデルよりも一貫性のある解釈をもたらす。 最後に、スライディングウィンドウまたはフルヒストリーアプローチで構築されたAIOpsモデルは、データセット全体のトレンドと最も一貫性のある解釈を持つ。 本研究は、一貫したaiopsモデル解釈を導出するための有用なガイドラインを提供する。

Artificial Intelligence for IT Operations (AIOps) has been adopted in organizations in various tasks, including interpreting models to identify indicators of service failures. To avoid misleading practitioners, AIOps model interpretations should be consistent (i.e., different AIOps models on the same task agree with one another on feature importance). However, many AIOps studies violate established practices in the machine learning community when deriving interpretations, such as interpreting models with suboptimal performance, though the impact of such violations on the interpretation consistency has not been studied. In this paper, we investigate the consistency of AIOps model interpretation along three dimensions: internal consistency, external consistency, and time consistency. We conduct a case study on two AIOps tasks: predicting Google cluster job failures, and Backblaze hard drive failures. We find that the randomness from learners, hyperparameter tuning, and data sampling should be controlled to generate consistent interpretations. AIOps models with AUCs greater than 0.75 yield more consistent interpretation compared to low-performing models. Finally, AIOps models that are constructed with the Sliding Window or Full History approaches have the most consistent interpretation with the trends presented in the entire datasets. Our study provides valuable guidelines for practitioners to derive consistent AIOps model interpretation.
翻訳日:2022-02-07 16:05:05 公開日:2022-02-04
# ロバストな純四元数行列補完によるカラー画像インパインティング:誤差境界と重み付き損失

Color Image Inpainting via Robust Pure Quaternion Matrix Completion: Error Bound and Weighted Loss ( http://arxiv.org/abs/2202.02063v1 )

ライセンス: Link先を確認
Junren Chen and Michael K. Ng(参考訳) 本稿では,純四元行列完備問題としてカラーイメージインペインティングについて検討する。 文献では、四元数行列完備の理論的保証は確立されていない。 本研究の目的は,核標準と3つのチャネル間で重み付けされた二次的損失を組み合わせた新たな最小化問題を提案することである。 理論空白を埋めるために、四元数行列の新たな結果に依存する清浄な状態と腐敗した状態の両方の誤差を求める。 一般のガウスノイズは、全ての観測が破壊される堅牢な完了において考慮される。 誤差のバウンドに動機づけられ,二次損失のクロスチャネル重みによる非平衡・相関雑音を処理し,ノイズレベルの再バランスやノイズ相関の除去を主目的とする。 合成およびカラー画像データに関する広範な実験結果を示し, 理論的知見を確認し, 実証した。

In this paper, we study color image inpainting as a pure quaternion matrix completion problem. In the literature, the theoretical guarantee for quaternion matrix completion is not well-established. Our main aim is to propose a new minimization problem with an objective combining nuclear norm and a quadratic loss weighted among three channels. To fill the theoretical vacancy, we obtain the error bound in both clean and corrupted regimes, which relies on some new results of quaternion matrices. A general Gaussian noise is considered in robust completion where all observations are corrupted. Motivated by the error bound, we propose to handle unbalanced or correlated noise via a cross-channel weight in the quadratic loss, with the main purpose of rebalancing noise level, or removing noise correlation. Extensive experimental results on synthetic and color image data are presented to confirm and demonstrate our theoretical findings.
翻訳日:2022-02-07 16:04:44 公開日:2022-02-04
# NeAT: ニューラル適応トモグラフィ

NeAT: Neural Adaptive Tomography ( http://arxiv.org/abs/2202.02171v1 )

ライセンス: Link先を確認
Darius R\"uckert, Yuanhao Wang, Rui Li, Ramzi Idoughi, Wolfgang Heidrich(参考訳) 本稿では,マルチビュー逆レンダリングのための適応型階層型ニューラルレンダリングパイプラインNeATについて述べる。 適応的明示表現とニューラル特徴の組み合わせにより、既存のニューラル逆レンダリング法よりもはるかに優れた再現時間を実現する。 適応的明示表現は、空の空間カリングと複雑な領域のサンプルに集中させることにより効率を向上し、ニューラル特徴は3D再構成のためのニューラルレギュレータとして機能する。 NeATフレームワークは、不透明なオブジェクトの代わりに半透明なボリュームシーンのみで構成されるトモグラフィ設定のために特別に設計されている。 この設定では、quickは既存の最適化ベースのトモグラフィソルバの品質よりも大幅に高速である。

In this paper, we present Neural Adaptive Tomography (NeAT), the first adaptive, hierarchical neural rendering pipeline for multi-view inverse rendering. Through a combination of neural features with an adaptive explicit representation, we achieve reconstruction times far superior to existing neural inverse rendering methods. The adaptive explicit representation improves efficiency by facilitating empty space culling and concentrating samples in complex regions, while the neural features act as a neural regularizer for the 3D reconstruction. The NeAT framework is designed specifically for the tomographic setting, which consists only of semi-transparent volumetric scenes instead of opaque objects. In this setting, NeAT outperforms the quality of existing optimization-based tomography solvers while being substantially faster.
翻訳日:2022-02-07 16:03:15 公開日:2022-02-04
# 教師なし学習によるmu-mimoシステムのための低分解能位相シフト型ハイブリッドビームフォーミング

Unsupervised Learning Based Hybrid Beamforming with Low-Resolution Phase Shifters for MU-MIMO Systems ( http://arxiv.org/abs/2202.01946v1 )

ライセンス: Link先を確認
Chia-Ho Kuo, Hsin-Yuan Chang, Ronald Y. Chang, Wei-Ho Chung(参考訳) ミリ波(ミリ波)は第5世代(5G)と通信以上の重要な技術である。 mm波通信の大規模アンテナシステムではハイブリッドビームフォーミングが提案されている。 無限分解能位相シフタ(PS)に基づく既存のハイブリッドビームフォーミング設計は、ハードウェアコストと消費電力のために実用的ではない。 本論文では,マルチユーザマルチインプットマルチアウトプット(mu-mimo)システムにおいて,アナログプリコーダと低解像度pssを併用した教師なし学習方式を提案する。 我々は、アナログプリコーダとコンバインダの設計問題を位相分類問題に変換し、様々なPS解像度の解を生成することができる位相分類ネットワーク(PCNet)と呼ばれる汎用ニューラルネットワークアーキテクチャを提案する。 シミュレーションの結果,提案手法は高精細PS構成に対して,最先端のハイブリッドビームフォーミング設計と比較して,より優れた総和率と複雑性性能を示す。

Millimeter wave (mmWave) is a key technology for fifth-generation (5G) and beyond communications. Hybrid beamforming has been proposed for large-scale antenna systems in mmWave communications. Existing hybrid beamforming designs based on infinite-resolution phase shifters (PSs) are impractical due to hardware cost and power consumption. In this paper, we propose an unsupervised-learnin g-based scheme to jointly design the analog precoder and combiner with low-resolution PSs for multiuser multiple-input multiple-output (MU-MIMO) systems. We transform the analog precoder and combiner design problem into a phase classification problem and propose a generic neural network architecture, termed the phase classification network (PCNet), capable of producing solutions of various PS resolutions. Simulation results demonstrate the superior sum-rate and complexity performance of the proposed scheme, as compared to state-of-the-art hybrid beamforming designs for the most commonly used low-resolution PS configurations.
翻訳日:2022-02-07 16:02:04 公開日:2022-02-04
# 強磁性系の大域的・原子的特性の同時予測のためのマルチタスクグラフニューラルネットワーク

Multi-task graph neural networks for simultaneous prediction of global and atomic properties in ferromagnetic systems ( http://arxiv.org/abs/2202.01954v1 )

ライセンス: Link先を確認
Massimiliano Lupo Pasini, Pei Zhang, Samuel Temple Reeve, Jong Youl Choi(参考訳) マルチタスクグラフ畳み込みニューラルネットワークHydraGNNを導入し,大域的および原子的物性の同時予測と強磁性材料による実証を行った。 我々はHydraGNNを、固定体中心四角形(BCT)格子構造と固定体積を持つ鉄白金(FePt)のオープンソースab initio density functional theory(DFT)データセットで訓練し、混合エンタルピー(システムのグローバルな特徴)、原子電荷移動、原子磁気モーメントを構成範囲全体にわたって同時に予測する。 材料特性間の物理的相関を生かしたマルチタスク学習(mtl)とhydragnnは、少ない量のデータでも効果的なトレーニングを提供する。 さらに、シングルタスク学習(STL)に必要なように、3つではなく1つのアーキテクチャで実現されている。 hydragnnアーキテクチャの最初の畳み込み層は、すべての学習タスクで共有され、すべての材料特性に共通する特徴を抽出する。 以下の層は、異なる特性の特徴を判別し、結果が最終層の別々の頭部に供給され、予測を生成する。 数値計算の結果,HydraGNNは構成エントロピーと組成範囲全体の材料特性の関係を効果的に捉えていることがわかった。 全体として、同時MTL予測の精度はSTL予測の精度に匹敵する。 さらに,MTL用HydraGNNのトレーニングコストは,元のDFT計算よりもはるかに低く,また,各特性に対する個別STLモデルのトレーニングコストよりも低い。

We introduce a multi-tasking graph convolutional neural network, HydraGNN, to simultaneously predict both global and atomic physical properties and demonstrate with ferromagnetic materials. We train HydraGNN on an open-source ab initio density functional theory (DFT) dataset for iron-platinum (FePt) with a fixed body centered tetragonal (BCT) lattice structure and fixed volume to simultaneously predict the mixing enthalpy (a global feature of the system), the atomic charge transfer, and the atomic magnetic moment across configurations that span the entire compositional range. By taking advantage of underlying physical correlations between material properties, multi-task learning (MTL) with HydraGNN provides effective training even with modest amounts of data. Moreover, this is achieved with just one architecture instead of three, as required by single-task learning (STL). The first convolutional layers of the HydraGNN architecture are shared by all learning tasks and extract features common to all material properties. The following layers discriminate the features of the different properties, the results of which are fed to the separate heads of the final layer to produce predictions. Numerical results show that HydraGNN effectively captures the relation between the configurational entropy and the material properties over the entire compositional range. Overall, the accuracy of simultaneous MTL predictions is comparable to the accuracy of the STL predictions. In addition, the computational cost of training HydraGNN for MTL is much lower than the original DFT calculations and also lower than training separate STL models for each property.
翻訳日:2022-02-07 16:01:50 公開日:2022-02-04
# O-RANベースのネットワークスライシングにおける予測閉ループサービス自動化

Predictive Closed-Loop Service Automation in O-RAN based Network Slicing ( http://arxiv.org/abs/2202.01966v1 )

ライセンス: Link先を確認
Joseph Thaliath, Solmaz Niknam, Sukhdeep Singh, Rahul Banerji, Navrati Saxena, Harpreet S. Dhillon, Jeffrey H. Reed, Ali Kashif Bashir, Avinash Bhat and Abhishek Roy(参考訳) ネットワークスライシングは、同じインフラストラクチャ下でさまざまな業種に対してさまざまなサービスタイプを管理するための、カスタマイズされたアジャイルネットワークデプロイメントを提供する。 これらの分野の動的なサービス要件に対応し、サービスレベルアグリーメント(sla)で述べたqos(quality-of-servi ce)を満たすためには、専用の要素とリソースを通じてネットワークスライスを分離する必要がある。 さらに、これらのスライスに割り当てられたリソースを継続的に監視し、インテリジェントに管理する必要がある。 これにより、SLA違反の即時検出と修正が可能になり、クローズドループ方式で自動サービス保証をサポートする。 人間の介入を減らすことで、インテリジェントでクローズドループなリソース管理は柔軟なサービスを提供するコストを削減します。 ネットワーク内のリソース管理は(異なるプロバイダによって潜在的に管理される)、オープンで標準化されたインターフェースによってさらに促進される。 オープン無線アクセスネットワーク(O-RAN)はおそらく、前述のすべての機能、すなわちインテリジェンス、オープンおよび標準インターフェース、クローズドコントロールループを継承する最も有望なRANアーキテクチャである。 ここでは、SLA違反を防止するために、O-RANスライシングのためのクローズドループとインテリジェントなリソースプロビジョニングスキームを提供する。 リアリズムを維持するために、提案するクローズドループサービス自動化プロセスでリソース利用を最適化するための学習ソリューションをトレーニングするために、大規模オペレータの実世界のデータセットを使用する。 さらに、O-RAN要求を認識したデプロイメントアーキテクチャとそれに対応するフローについても論じる。

Network slicing provides introduces customized and agile network deployment for managing different service types for various verticals under the same infrastructure. To cater to the dynamic service requirements of these verticals and meet the required quality-of-service (QoS) mentioned in the service-level agreement (SLA), network slices need to be isolated through dedicated elements and resources. Additionally, allocated resources to these slices need to be continuously monitored and intelligently managed. This enables immediate detection and correction of any SLA violation to support automated service assurance in a closed-loop fashion. By reducing human intervention, intelligent and closed-loop resource management reduces the cost of offering flexible services. Resource management in a network shared among verticals (potentially administered by different providers), would be further facilitated through open and standardized interfaces. Open radio access network (O-RAN) is perhaps the most promising RAN architecture that inherits all the aforementioned features, namely intelligence, open and standard interfaces, and closed control loop. Inspired by this, in this article we provide a closed-loop and intelligent resource provisioning scheme for O-RAN slicing to prevent SLA violations. In order to maintain realism, a real-world dataset of a large operator is used to train a learning solution for optimizing resource utilization in the proposed closed-loop service automation process. Moreover, the deployment architecture and the corresponding flow that are cognizant of the O-RAN requirements are also discussed.
翻訳日:2022-02-07 16:01:21 公開日:2022-02-04
# マルチビルディングとマルチフロア屋内ローカライゼーションのための多出力ガウスプロセスベースデータ拡張

Multi-Output Gaussian Process-Based Data Augmentation for Multi-Building and Multi-Floor Indoor Localization ( http://arxiv.org/abs/2202.01980v1 )

ライセンス: Link先を確認
Zhe Tang, Sihao Li, Kyeong Soo Kim, Jeremy Smith(参考訳) RSSIに基づく位置フィンガープリントは、特にWi-Fi対応デバイスの普及や、近代的な建物におけるユビキタスWi-Fiアクセスの頻度を考えると、新しいインフラの設置や既存機器の変更を必要としないという利点から、主要な屋内位置決め技術となっている。 DNNのようなAI/ML技術を使用することで、位置指紋の精度が向上し、信頼性が向上する。 しかし、DNNの屋内ローカライゼーションへの応用は、トレーニングのために大量の事前処理および意図的にラベル付けされたデータに依存する。 Considering the difficulty of the data collection in an indoor environment, especially under the current epidemic situation of COVID-19, we investigate three different methods of RSSI data augmentation based on Multi-Output Gaussian Process (MOGP), i.e., by a single floor, by neighboring floors, and by a single building; unlike Single-Output Gaussian Process (SOGP), MOGP can take into account the correlation among RSSI observations from multiple Access Points (APs) deployed closely to each other (e.g., APs on the same floor of a building) by collectively handling them. The feasibility of the MOGP-based RSSI data augmentation is demonstrated through experiments based on the state-of-the-art RNN indoor localization model and the UJIIndoorLoc, i.e., the most popular publicly-available multi-building and multi-floor indoor localization database, where the RNN model trained with the UJIIndoorLoc database augmented by using the whole RSSI data of a building in fitting an MOGP model (i.e., by a single building) outperforms the other two augmentation methods as well as the RNN model trained with the original UJIIndoorLoc database, resulting in the mean three-dimensional positioning error of 8.42 m.

Location fingerprinting based on RSSI becomes a mainstream indoor localization technique due to its advantage of not requiring the installation of new infrastructure and the modification of existing devices, especially given the prevalence of Wi-Fi-enabled devices and the ubiquitous Wi-Fi access in modern buildings. The use of AI/ML technologies like DNNs makes location fingerprinting more accurate and reliable, especially for large-scale multi-building and multi-floor indoor localization. The application of DNNs for indoor localization, however, depends on a large amount of preprocessed and deliberately-labeled data for their training. Considering the difficulty of the data collection in an indoor environment, especially under the current epidemic situation of COVID-19, we investigate three different methods of RSSI data augmentation based on Multi-Output Gaussian Process (MOGP), i.e., by a single floor, by neighboring floors, and by a single building; unlike Single-Output Gaussian Process (SOGP), MOGP can take into account the correlation among RSSI observations from multiple Access Points (APs) deployed closely to each other (e.g., APs on the same floor of a building) by collectively handling them. The feasibility of the MOGP-based RSSI data augmentation is demonstrated through experiments based on the state-of-the-art RNN indoor localization model and the UJIIndoorLoc, i.e., the most popular publicly-available multi-building and multi-floor indoor localization database, where the RNN model trained with the UJIIndoorLoc database augmented by using the whole RSSI data of a building in fitting an MOGP model (i.e., by a single building) outperforms the other two augmentation methods as well as the RNN model trained with the original UJIIndoorLoc database, resulting in the mean three-dimensional positioning error of 8.42 m.
翻訳日:2022-02-07 16:00:56 公開日:2022-02-04
# (参考訳) マルチタスクの頭部ポーズ推定 [全文訳有]

Multi-task head pose estimation in-the-wild ( http://arxiv.org/abs/2202.02299v1 )

ライセンス: CC BY 4.0
Roberto Valle, Jos\'e Miguel Buenaposada and Luis Baumela(参考訳) 画像中の頭部ポーズ推定のための深層学習に基づくマルチタスク手法を提案する。 私たちは、顔のポーズ、アライメント、可視性の間の強い依存関係を利用するネットワークアーキテクチャとトレーニング戦略に貢献し、3つのタスクで最高のパフォーマンスモデルを作成します。 我々のアーキテクチャはエンコーダ・デコーダCNNであり、残差ブロックと横スキップ接続を持つ。 頭部姿勢推定とランドマークに基づく顔アライメントの組み合わせにより,前者のタスクの性能が著しく向上することを示す。 さらに、ボトルネック層、エンコーダの終端におけるポーズタスクの位置と、最終デコーダ層における可視性やアライメントなどの空間情報に依存するタスクの位置も、最終的なパフォーマンスの向上に寄与する。 実験では,提案モデルが顔ポーズと視認性タスクの最先端を上回った。 最終的なランドマーク回帰ステップを含めることで、最先端と同等の顔アライメント結果を生成する。

We present a deep learning-based multi-task approach for head pose estimation in images. We contribute with a network architecture and training strategy that harness the strong dependencies among face pose, alignment and visibility, to produce a top performing model for all three tasks. Our architecture is an encoder-decoder CNN with residual blocks and lateral skip connections. We show that the combination of head pose estimation and landmark-based face alignment significantly improve the performance of the former task. Further, the location of the pose task at the bottleneck layer, at the end of the encoder, and that of tasks depending on spatial information, such as visibility and alignment, in the final decoder layer, also contribute to increase the final performance. In the experiments conducted the proposed model outperforms the state-of-the-art in the face pose and visibility tasks. By including a final landmark regression step it also produces face alignment results on par with the state-of-the-art.
翻訳日:2022-02-07 15:59:31 公開日:2022-02-04
# 道路安全サービスにおけるスマートフォン型ハードブレーキイベント検出

Smartphone-based Hard-braking Event Detection at Scale for Road Safety Services ( http://arxiv.org/abs/2202.01934v1 )

ライセンス: Link先を確認
Luyang Liu, David Racz, Kara Vaillancourt, Julie Michelman, Matt Barnes, Stefan Mellem, Paul Eastham, Bradley Green, Charles Armstrong, Rishi Bal, Shawn O'Banion, Feng Guo(参考訳) 道路事故は世界第6位の障害調整生命年(DALY)の原因となっている。 交通安全研究における大きな課題の1つは、衝突の空間性であり、事故原因の微粒な理解と将来の衝突リスクをタイムリーに予測することは困難である。 ハードブレーキのイベントは、比較的高い頻度と組込み車両センサーによる検出の容易さのため、安全サロゲートとして広く使用されている。 車両に固定されたセンサの代替として,スマートフォンセンサから収集したキネマティクスデータを用いて,ハードブレーキイベントを検出するスケーラブルなアプローチを提案する。 われわれはTransformerをベースとした機械学習モデルをトレーニングし、Google Mapsでナビゲートしながらスマートフォンや車両のセンサーから、スマートフォンと車両のセンサーを同時に読み取る。 検出モデルは精度・リコール曲線(PR-AUC)の下で0.83ドル、GPS速度に基づくヒューリスティックモデルより3.8ドル、加速度計に基づくヒューリスティックモデルより166.6ドルと優れた性能を示す。 検出されたハードブレーキイベントは、公開データセットのクラッシュと強く相関しており、安全サロゲートとしての使用をサポートする。 さらに,モデルフェアネスと選択バイアス評価を行い,安全性のメリットが等しく共有されていることを保証する。 本手法は,道路網レベルでの安全ホットスポットの同定,新規ユーザインタフェースの安全性評価,交通安全向上のためのルーティングの利用など,多くの安全応用に有用である。

Road crashes are the sixth leading cause of lost disability-adjusted life-years (DALYs) worldwide. One major challenge in traffic safety research is the sparsity of crashes, which makes it difficult to achieve a fine-grain understanding of crash causations and predict future crash risk in a timely manner. Hard-braking events have been widely used as a safety surrogate due to their relatively high prevalence and ease of detection with embedded vehicle sensors. As an alternative to using sensors fixed in vehicles, this paper presents a scalable approach for detecting hard-braking events using the kinematics data collected from smartphone sensors. We train a Transformer-based machine learning model for hard-braking event detection using concurrent sensor readings from smartphones and vehicle sensors from drivers who connect their phone to the vehicle while navigating in Google Maps. The detection model shows superior performance with a $0.83$ Area under the Precision-Recall Curve (PR-AUC), which is $3.8\times$better than a GPS speed-based heuristic model, and $166.6\times$better than an accelerometer-based heuristic model. The detected hard-braking events are strongly correlated with crashes from publicly available datasets, supporting their use as a safety surrogate. In addition, we conduct model fairness and selection bias evaluation to ensure that the safety benefits are equally shared. The developed methodology can benefit many safety applications such as identifying safety hot spots at road network level, evaluating the safety of new user interfaces, as well as using routing to improve traffic safety.
翻訳日:2022-02-07 15:35:01 公開日:2022-02-04
# 低ランク近似を用いたニューラルフィッシャーカーネルからの学習表現

Learning Representation from Neural Fisher Kernel with Low-rank Approximation ( http://arxiv.org/abs/2202.01944v1 )

ライセンス: Link先を確認
Ruixiang Zhang, Shuangfei Zhai, Etai Littwin, Josh Susskind(参考訳) 本稿では,カーネルの観点からニューラルネットワークの表現について検討する。 まず,ニューラルネットワークに適用されるfisherカーネルであるneural fisher kernel(nfk)を定義する。 本研究では,教師付き学習モデルと教師なし学習モデルの両方に対してnfkを計算し,表現抽出のための統一的なツールとして利用できることを示す。 さらに,実用的なnfkは低位構造を示すことを示した。 次に,大規模データセットとネットワークにスケールするnfkの低ランク近似を計算する効率的なアルゴリズムを提案する。 教師なし生成モデルと教師付き学習モデルから導かれるNFKの低ランク近似により、データの高品質なコンパクト表現が生まれ、様々な機械学習タスクにおいて競合的な結果が得られることを示す。

In this paper, we study the representation of neural networks from the view of kernels. We first define the Neural Fisher Kernel (NFK), which is the Fisher Kernel applied to neural networks. We show that NFK can be computed for both supervised and unsupervised learning models, which can serve as a unified tool for representation extraction. Furthermore, we show that practical NFKs exhibit low-rank structures. We then propose an efficient algorithm that computes a low rank approximation of NFK, which scales to large datasets and networks. We show that the low-rank approximation of NFKs derived from unsupervised generative models and supervised learning models gives rise to high-quality compact representations of data, achieving competitive results on a variety of machine learning tasks.
翻訳日:2022-02-07 15:34:33 公開日:2022-02-04
# 過パラメータPAC-ベイズ学習のデミスティフィズ最適化と一般化

Demystify Optimization and Generalization of Over-parameterized PAC-Bayesian Learning ( http://arxiv.org/abs/2202.01958v1 )

ライセンス: Link先を確認
Wei Huang, Chunrui Liu, Yilan Chen, Tianyu Liu, and Richard Yi Da Xu(参考訳) PAC-Bayesianは、事前の知識を取り入れつつ、後部分布における仮説の重み付け平均としてトレーニングエラーを表現できる分析フレームワークである。 純粋な一般化境界解析ツールであるだけでなく、PAC-Bayesian境界は確率的ニューラルネットワークをトレーニングする目的関数にも組み込むことができ、教師付き学習のための厳密な一般化境界を数値的に提供する強力な関連フレームワークとなる。 簡単に言うと、我々はPAC-Bayesian境界から学習した確率論的ニューラルネットワークを {\it PAC-Bayesian Learning} と呼ぶ。 実験的な成功にもかかわらず、ニューラルネットワークに対するPAC-ベイズ学習の理論解析はめったに行われない。 本稿では,勾配勾配勾配法による過パラメータニューラルネットワークのトレーニングにPAC-Bayes学習を用いた新しい収束・一般化分析法を提案する。 広範確率論的ニューラルネットワークでは、PAC-Bayes学習を適用すると、その収束結果は、確率論的ニューラルタンジェントカーネル(PNTK)をカーネルとして使用する場合のカーネルリッジ回帰の解に一致することを示す。 この知見に基づき、ラデマッハ複雑性に基づく非確率ニューラルネットワークのバウンドよりも改善される一様pac-ベイズ一般化バウンドをさらに特徴付ける。 最後に,我々の理論的結果から得られた知見を抽出し,効率的なハイパーパラメータ選択のためのプロキシ尺度を提案する。

PAC-Bayesian is an analysis framework where the training error can be expressed as the weighted average of the hypotheses in the posterior distribution whilst incorporating the prior knowledge. In addition to being a pure generalization bound analysis tool, PAC-Bayesian bound can also be incorporated into an objective function to train a probabilistic neural network, making them a powerful and relevant framework that can numerically provide a tight generalization bound for supervised learning. For simplicity, we call probabilistic neural network learned using training objectives derived from PAC-Bayesian bounds as {\it PAC-Bayesian learning}. Despite their empirical success, the theoretical analysis of PAC-Bayesian learning for neural networks is rarely explored. This paper proposes a new class of convergence and generalization analysis for PAC-Bayes learning when it is used to train the over-parameterized neural networks by the gradient descent method. For a wide probabilistic neural network, we show that when PAC-Bayes learning is applied, the convergence result corresponds to solving a kernel ridge regression when the probabilistic neural tangent kernel (PNTK) is used as its kernel. Based on this finding, we further characterize the uniform PAC-Bayesian generalization bound which improves over the Rademacher complexity-based bound for non-probabilistic neural network. Finally, drawing the insight from our theoretical results, we propose a proxy measure for efficient hyperparameters selection, which is proven to be time-saving.
翻訳日:2022-02-07 15:34:21 公開日:2022-02-04
# プロダクトマッチングのための教師付きコントラスト学習

Supervised Contrastive Learning for Product Matching ( http://arxiv.org/abs/2202.02098v1 )

ライセンス: Link先を確認
Ralph Peeters, Christian Bizer(参考訳) 近年,コンピュータビジョンと情報検索の分野において,コントラスト学習が成功を収めている。 このポスターは、異なるeショップからの製品提供を使って、eコマースにおける製品マッチングのタスクに対比学習を適用する最初の作品です。 具体的には、教師付きコントラスト学習技術を用いてトランスフォーマーエンコーダを事前学習し、その後ペアワイズトレーニングデータを用いてマッチング問題を微調整する。 さらに,トレーニングデータに製品識別器を含まないユースケースに対して,コントラスト学習を適用可能なソース対応サンプリング戦略を提案する。 Abt-Buyでは、Amazon-Google 79.28(+ 3.7)に対して94.29(+3.24)のF1に達する。 WDCコンピュータのデータセットでは、トレーニングセットのサイズに応じて+0.8と+8.84 F1の改善点に達する。 データ拡張と自己教師付きコントラストプレトレーニングによるさらなる実験は、前者はより小さなトレーニングセットに役立ち、後者は固有のラベルノイズによってパフォーマンスが著しく低下することを示している。 したがって, 対照的な事前学習は, 明示的な監督が可能である製品マッチングのユースケースにおいて高い可能性を秘めている。

Contrastive learning has seen increasing success in the fields of computer vision and information retrieval in recent years. This poster is the first work that applies contrastive learning to the task of product matching in e-commerce using product offers from different e-shops. More specifically, we employ a supervised contrastive learning technique to pre-train a Transformer encoder which is afterwards fine-tuned for the matching problem using pair-wise training data. We further propose a source-aware sampling strategy which enables contrastive learning to be applied for use cases in which the training data does not contain product idenifiers. We show that applying supervised contrastive pre-training in combination with source-aware sampling significantly improves the state-of-the art performance on several widely used benchmark datasets: For Abt-Buy, we reach an F1 of 94.29 (+3.24 compared to the previous state-of-the-art), for Amazon-Google 79.28 (+ 3.7). For WDC Computers datasets, we reach improvements between +0.8 and +8.84 F1 depending on the training set size. Further experiments with data augmentation and self-supervised contrastive pre-training show, that the former can be helpful for smaller training sets while the latter leads to a significant decline in performance due to inherent label-noise. We thus conclude that contrastive pre-training has a high potential for product matching use cases in which explicit supervision is available.
翻訳日:2022-02-07 15:33:55 公開日:2022-02-04
# TIML:タスクインフォームド・メタラーニング

TIML: Task-Informed Meta-Learning for Agriculture ( http://arxiv.org/abs/2202.02124v1 )

ライセンス: Link先を確認
Gabriel Tseng and Hannah Kerner and David Rolnick(参考訳) ラベル付き農業用データセットは非常に空間的に不均衡である。 データスパース領域のアルゴリズムを開発する場合、データ豊富な領域からの移行学習を使用することが自然なアプローチである。 標準的な転送学習アプローチは直接入力と出力のみを利用するが、地理空間画像と農業データは、データポイントの空間座標や学習されるタスクのクラスといった、転送学習アルゴリズムを知らせるメタデータに富んでいる。 データスパース領域における農業コンテキストにおけるメタラーニングの利用を探求し,タスク固有のメタデータを活用したモデル非依存なメタラーニングの拡張であるtiml(task-informed meta-learning)を導入する。 TIMLを作物の種類分類と収量推定に適用し、TIMLはモデルアーキテクチャの多様性において、両方の文脈におけるベンチマークの範囲と比較して、性能を著しく向上させる。 農業のタスクに集中する一方で、timlは、ジオタグ付き画像の分類や種分布のモデリングなど、タスク固有のメタデータを備えたメタラーニング設定にメリットを提供することができます。

Labeled datasets for agriculture are extremely spatially imbalanced. When developing algorithms for data-sparse regions, a natural approach is to use transfer learning from data-rich regions. While standard transfer learning approaches typically leverage only direct inputs and outputs, geospatial imagery and agricultural data are rich in metadata that can inform transfer learning algorithms, such as the spatial coordinates of data-points or the class of task being learned. We build on previous work exploring the use of meta-learning for agricultural contexts in data-sparse regions and introduce task-informed meta-learning (TIML), an augmentation to model-agnostic meta-learning which takes advantage of task-specific metadata. We apply TIML to crop type classification and yield estimation, and find that TIML significantly improves performance compared to a range of benchmarks in both contexts, across a diversity of model architectures. While we focus on tasks from agriculture, TIML could offer benefits to any meta-learning setup with task-specific metadata, such as classification of geo-tagged images and species distribution modelling.
翻訳日:2022-02-07 15:33:34 公開日:2022-02-04
# 人工知能を用いたカメラトラップデータ処理のための適切なプラットフォームとワークフローの選択

Choosing an Appropriate Platform and Workflow for Processing Camera Trap Data using Artificial Intelligence ( http://arxiv.org/abs/2202.02283v1 )

ライセンス: Link先を確認
Juliana V\'elez, Paula J. Castiblanco-Camacho, Michael A. Tabak, Carl Chalmers, Paul Fergus and John Fieberg(参考訳) カメラトラップは、生態学者が野生生物種の分布、活動パターン、種間相互作用を研究する方法を変えてきた。 カメラトラップは種の監視に費用対効果があるが、データ処理に要する時間は測量効率を制限できる。 このように、カメラトラップデータを処理する人工知能(AI)、特にディープラーニング(DL)の可能性に大きな注目を集めている。 これらの用途にdlを使用すると、畳み込みニューラルネットワーク(cnns)のような訓練アルゴリズムが自動的にオブジェクトを検出し種を分類する。 cnnのトレーニングに関連する技術的な課題を克服するため、いくつかの研究コミュニティはdlを使いやすいインターフェイスに組み込むプラットフォームを開発した。 我々は、Wildlife Insights(WI)、MegaDetector(MD)、Machine Learning for Wildlife Image Classification(MLWIC 2)、Reserve AI(データ管理ツールやAI機能を含む)の4つのAIプラットフォームの主な特徴についてレビューする。 また、オープンソースのGitBookにRコードを提供し、ユーザーがモデルパフォーマンスを評価する方法を示し、AI出力を半自動化ワークフローに組み込む。 その結果,WIおよびMLWIC2の種分類は,通常,リコール値が低かった(画像中に存在する動物は正しく分類されなかったことが多い)。 しかし,一部の種ではwiとmlwic2の分類精度が高かった(分類を行った場合,その精度は概ね高かった)。 より広いカテゴリ(例えば "blank" や "animal" など)で画像を分類するMDも良好に動作する。 そこで, 画像処理を自動化するには, 種分類器が十分正確ではなかったが, 特定の種に対して高い信頼度を有する分類を受理し, ブランクを含む画像のフィルタリングを行うことにより, DLは効率の向上に有効であった。

Camera traps have transformed how ecologists study wildlife species distributions, activity patterns, and interspecific interactions. Although camera traps provide a cost-effective method for monitoring species, the time required for data processing can limit survey efficiency. Thus, the potential of Artificial Intelligence (AI), specifically Deep Learning (DL), to process camera-trap data has gained considerable attention. Using DL for these applications involves training algorithms, such as Convolutional Neural Networks (CNNs), to automatically detect objects and classify species. To overcome technical challenges associated with training CNNs, several research communities have recently developed platforms that incorporate DL in easy-to-use interfaces. We review key characteristics of four AI-powered platforms --Wildlife Insights (WI), MegaDetector (MD), Machine Learning for Wildlife Image Classification (MLWIC2), and Conservation AI-- including data management tools and AI features. We also provide R code in an open-source GitBook, to demonstrate how users can evaluate model performance, and incorporate AI output in semi-automated workflows. We found that species classifications from WI and MLWIC2 generally had low recall values (animals that were present in the images often were not classified to the correct species). Yet, the precision of WI and MLWIC2 classifications for some species was high (i.e., when classifications were made, they were generally accurate). MD, which classifies images using broader categories (e.g., "blank" or "animal"), also performed well. Thus, we conclude that, although species classifiers were not accurate enough to automate image processing, DL could be used to improve efficiencies by accepting classifications with high confidence values for certain species or by filtering images containing blanks.
翻訳日:2022-02-07 15:31:09 公開日:2022-02-04
# 連合学習のためのアグリゲーションサービス : 効率的でセキュアでレジリエントな実現

Aggregation Service for Federated Learning: An Efficient, Secure, and More Resilient Realization ( http://arxiv.org/abs/2202.01971v1 )

ライセンス: Link先を確認
Yifeng Zheng and Shangqi Lai and Yi Liu and Xingliang Yuan and Xun Yi and Cong Wang(参考訳) フェデレーション学習(federated learning)は、さまざまなソースからのリッチデータを活用して高品質なモデルをトレーニングする、というメリットを約束するパラダイムとして最近登場した。 モデル更新のみがローカルに計算され、グローバルモデルを生成するために集約のために共有される。 統合学習は、集中データによる学習とは対照的に、プライバシーの懸念を大幅に緩和するが、共有モデルのアップデートは依然としてプライバシーのリスクを生じさせる。 本稿では,学習手順全体を通じて個々のモデル更新を効率よく保護し,クラウドサーバがアグリゲーションを実行している間に,クライアントが不明瞭なモデル更新しか提供できないシステム設計を提案する。 当社のフェデレーション学習システムは、まず、ライトウェイトな暗号化とアグリゲーションをサポートし、将来のラウンドへの参加に影響を与えることなく、ドロップアウトクライアントに対するレジリエンスによって、以前の作業から離れます。 一方,先行研究では,暗号文領域における帯域幅効率の最適化や,積極的な敵対的クラウドサーバに対するセキュリティサポートを見落としている。 複数のベンチマークデータセット(MNIST, CIFAR-10, CelebA)に対する大規模な実験により,本システムは平文ベースラインに匹敵する精度を実現し, 実用的な性能を示した。

Federated learning has recently emerged as a paradigm promising the benefits of harnessing rich data from diverse sources to train high quality models, with the salient features that training datasets never leave local devices. Only model updates are locally computed and shared for aggregation to produce a global model. While federated learning greatly alleviates the privacy concerns as opposed to learning with centralized data, sharing model updates still poses privacy risks. In this paper, we present a system design which offers efficient protection of individual model updates throughout the learning procedure, allowing clients to only provide obscured model updates while a cloud server can still perform the aggregation. Our federated learning system first departs from prior works by supporting lightweight encryption and aggregation, and resilience against drop-out clients with no impact on their participation in future rounds. Meanwhile, prior work largely overlooks bandwidth efficiency optimization in the ciphertext domain and the support of security against an actively adversarial cloud server, which we also fully explore in this paper and provide effective and efficient mechanisms. Extensive experiments over several benchmark datasets (MNIST, CIFAR-10, and CelebA) show our system achieves accuracy comparable to the plaintext baseline, with practical performance.
翻訳日:2022-02-07 15:30:35 公開日:2022-02-04
# 機械学習を用いた課題追跡システムにおける自己申告技術的負債の特定

Identifying Self-Admitted Technical Debt in Issue Tracking Systems using Machine Learning ( http://arxiv.org/abs/2202.02180v1 )

ライセンス: Link先を確認
Yikun Li, Mohamed Soliman, Paris Avgeriou(参考訳) 技術的負債は、ソフトウェアの長期的な保守性と進化性を犠牲にして、短期的な利益のために実装される副最適ソリューションを示すメタファーです。 特別なタイプの技術的負債は、ソフトウェアエンジニア(例えばTODOコメントを使用する)によって明示的に認められ、これはSelf-Admitted Technical DebtまたはSATDと呼ばれる。 SATDを自動的に識別する作業のほとんどは、ソースコードのコメントに重点を置いている。 ソースコードのコメントに加えて、イシュートラッキングシステムはSATDのもう1つのリッチソースであることが示されているが、問題のSATDを自動的に識別するためのアプローチはない。 本稿ではまず,7つのオープンソースプロジェクト (camel, chromium, gerrit, hadoop, hbase, impala, thrift) から,2つの一般的なイシュートラッキングシステム (jira と google monorail) を使用して,4,200のイシュー(問題のセクションを23,180に分解する)を収集し,手作業で分析して,トレーニングデータセットを作成する。 次に,機械学習を用いた問題追跡システムにおけるSATDの自動識別手法を提案する。 私たちの発見は 1)F1スコアに関して,我々のアプローチはベースラインアプローチよりも広いマージンで優れている。 2)適切なデータセットから知識を伝達することで,アプローチの予測性能を向上させることができる。 3)抽出されたsatdキーワードは,直感的で,satdの型及び指標を示す可能性がある。 4) 異なる課題追跡システムを使用するプロジェクトは,同じ課題追跡システムを使用するプロジェクトに比べてSATDキーワードが少ない。 5)精度を上げるためには,少量のトレーニングデータが必要である。

Technical debt is a metaphor indicating sub-optimal solutions implemented for short-term benefits by sacrificing the long-term maintainability and evolvability of software. A special type of technical debt is explicitly admitted by software engineers (e.g. using a TODO comment); this is called Self-Admitted Technical Debt or SATD. Most work on automatically identifying SATD focuses on source code comments. In addition to source code comments, issue tracking systems have shown to be another rich source of SATD, but there are no approaches specifically for automatically identifying SATD in issues. In this paper, we first create a training dataset by collecting and manually analyzing 4,200 issues (that break down to 23,180 sections of issues) from seven open-source projects (i.e., Camel, Chromium, Gerrit, Hadoop, HBase, Impala, and Thrift) using two popular issue tracking systems (i.e., Jira and Google Monorail). We then propose and optimize an approach for automatically identifying SATD in issue tracking systems using machine learning. Our findings indicate that: 1) our approach outperforms baseline approaches by a wide margin with regard to the F1-score; 2) transferring knowledge from suitable datasets can improve the predictive performance of our approach; 3) extracted SATD keywords are intuitive and potentially indicating types and indicators of SATD; 4) projects using different issue tracking systems have less common SATD keywords compared to projects using the same issue tracking system; 5) a small amount of training data is needed to achieve good accuracy.
翻訳日:2022-02-07 15:29:32 公開日:2022-02-04
# (参考訳) Pixle: ピクセルの並べ替えに基づく高速で効果的なブラックボックス攻撃 [全文訳有]

Pixle: a fast and effective black-box attack based on rearranging pixels ( http://arxiv.org/abs/2202.02236v1 )

ライセンス: CC BY 4.0
Jary Pomponi, Simone Scardapane, Aurelio Uncini(参考訳) 近年の研究では、ニューラルネットワークはいくつかの種類の敵攻撃に弱いことがわかっており、入力サンプルは、モデルが敵のサンプルを誤分類する誤った予測を生成するように修正されている。 本稿では,攻撃モデルの内部構造や訓練手順を知らずに行うことが可能なブラックボックス攻撃に着目し,攻撃画像内の少数の画素を再構成することで,高い割合のサンプルを正しく攻撃できる新たな攻撃法を提案する。 我々の攻撃は、多数のデータセットやモデルに作用し、少数の反復が必要であり、元のサンプルと逆のサンプルの間の距離が人間の目では無視可能であることを実証する。

Recent research has found that neural networks are vulnerable to several types of adversarial attacks, where the input samples are modified in such a way that the model produces a wrong prediction that misclassifies the adversarial sample. In this paper we focus on black-box adversarial attacks, that can be performed without knowing the inner structure of the attacked model, nor the training procedure, and we propose a novel attack that is capable of correctly attacking a high percentage of samples by rearranging a small number of pixels within the attacked image. We demonstrate that our attack works on a large number of datasets and models, that it requires a small number of iterations, and that the distance between the original sample and the adversarial one is negligible to the human eye.
翻訳日:2022-02-07 15:26:57 公開日:2022-02-04
# 低照度復元画像の品質評価:主観的研究と教師なしモデル

Quality Assessment of Low Light Restored Images: A Subjective Study and an Unsupervised Model ( http://arxiv.org/abs/2202.02277v1 )

ライセンス: Link先を確認
Vignesh Kannan, Sameer Malik, Rajiv Soundararajan(参考訳) 復元された低照度画像の品質評価(QA)は、低照度復元(LLR)アルゴリズムをベンチマークし改善するための重要なツールである。 いくつかのLLRアルゴリズムが存在するが、復元された画像の主観的知覚ははるかに少ない。 低照度と高精細な画像ペアの取得と、トレーニングのための多数の人間の意見スコアの収集の課題は、教師なし(あるいは意見不明)の非参照(NR)QA法の設計を保証することである。 本研究は、低照度復元画像の主観的知覚とその教師なしNR QAについて研究する。 私たちの貢献は2倍です。 まず、様々なLLR手法を用いて復元された低光画像のデータセットを作成し、主観的なQA研究を行い、既存のQA手法の性能をベンチマークする。 次に、復元された低光画像から歪み認識特徴を抽出する自己教師付きコントラスト学習手法を提案する。 これらの機能は,画像品質アナライザを意識しない意見作成に効果的に使用できることを示す。 詳細な実験により,低照度復元画像の品質評価において,教師なしNRQAモデルが最先端の性能を達成することが明らかとなった。

The quality assessment (QA) of restored low light images is an important tool for benchmarking and improving low light restoration (LLR) algorithms. While several LLR algorithms exist, the subjective perception of the restored images has been much less studied. Challenges in capturing aligned low light and well-lit image pairs and collecting a large number of human opinion scores of quality for training, warrant the design of unsupervised (or opinion unaware) no-reference (NR) QA methods. This work studies the subjective perception of low light restored images and their unsupervised NR QA. Our contributions are two-fold. We first create a dataset of restored low light images using various LLR methods, conduct a subjective QA study and benchmark the performance of existing QA methods. We then present a self-supervised contrastive learning technique to extract distortion aware features from the restored low light images. We show that these features can be effectively used to build an opinion unaware image quality analyzer. Detailed experiments reveal that our unsupervised NR QA model achieves state-of-the-art performance among all such quality measures for low light restored images.
翻訳日:2022-02-07 15:13:26 公開日:2022-02-04
# 遠隔運転シナリオにおけるPQoSの強化学習フレームワーク

A Reinforcement Learning Framework for PQoS in a Teleoperated Driving Scenario ( http://arxiv.org/abs/2202.01949v1 )

ライセンス: Link先を確認
Federico Mason, Matteo Drago, Tommaso Zugno, Marco Giordani, Mate Boban and Michele Zorzi(参考訳) 近年,予測品質(PQoS)を念頭に設計された自律型ネットワークは,産業部門や自動車部門で運用されているアプリケーションに対して,予測外品質(QoS)の変化を予測し,それに応じて反応する手段として設計されている。 この文脈において、強化学習(RL)は正確な予測を行い、無線ネットワークの効率性と適応性を最適化するための有望なアプローチとして登場した。 本稿では、RLフレームワークのサポートによりPQoS機能を実装したRANレベルで実装された新しいエンティティの設計を提案する。 具体的には、QoS要求が満たされない場合、QoS推定を適切な対策に変換することができる学習エージェントの報酬関数の設計に焦点を当てる。 ns-3シミュレーションによって、他のベースラインソリューションと比較して、qosとqoe(quality of experience)のエンドユーザのパフォーマンスにおいて、当社のアプローチが最高のトレードオフを達成できることを実証した。

In recent years, autonomous networks have been designed with Predictive Quality of Service (PQoS) in mind, as a means for applications operating in the industrial and/or automotive sectors to predict unanticipated Quality of Service (QoS) changes and react accordingly. In this context, Reinforcement Learning (RL) has come out as a promising approach to perform accurate predictions, and optimize the efficiency and adaptability of wireless networks. Along these lines, in this paper we propose the design of a new entity, implemented at the RAN-level that, with the support of an RL framework, implements PQoS functionalities. Specifically, we focus on the design of the reward function of the learning agent, able to convert QoS estimates into appropriate countermeasures if QoS requirements are not satisfied. We demonstrate via ns-3 simulations that our approach achieves the best trade-off in terms of QoS and Quality of Experience (QoE) performance of end users in a teleoperated-driving -like scenario, compared to other baseline solutions.
翻訳日:2022-02-07 15:12:50 公開日:2022-02-04
# ナイジェリア証券取引所におけるタイプ2ファジィ論理に基づく予測システムの実装

Implementation of a Type-2 Fuzzy Logic Based Prediction System for the Nigerian Stock Exchange ( http://arxiv.org/abs/2202.02107v1 )

ライセンス: Link先を確認
Isobo Nelson Davies, Donald Ene, Ibiere Boma Cookey, Godwin Fred Lenu(参考訳) 株式市場は投資家にとって最も魅力的な場所の1つと見なすことができるが、取引決定の点でも非常に複雑である。 市場の不確実性と非線形性のため、市場予測はリスクの高いベンチャーである。 取引の適切な時間を決めることは、成功するトレーダーにとって鍵であり、大金を得るか、不注意な取引として記録される投資の損失に繋がる可能性がある。 本研究の目的は, 株式取引における意思決定の購入, 保持, 販売に関して, 一般に人間の行動の不確実性と複雑さを扱うファジィ論理型2を用いて, 株式市場の予測システムを開発することである。 提案システムは、フロントエンドとしてVB.NET言語、バックエンドとしてMicrosoft SQL Serverを用いて開発された。 この研究のために4つの異なる技術指標が選ばれた。 選択された指標は、相対強度指数、ウィリアム平均値、移動平均収束と分散、確率振動子である。 これらの指標はファジィシステムの入力変数として機能する。 MACDとSOは一次指標として、RSIとWAは二次指標として用いられる。 フィボナッチの再追跡比率は二次指標に採用され、取引決定の観点で支援と抵抗のレベルが決定された。 ファジィシステムへの入力変数は、三角形およびガウス構成関数を用いて、低、中、高にファジィ化される。 マムダニ型ファジィ推論規則は、各入力変数のトレーディングルールとファジィシステムを組み合わせたものである。 開発システムはナイジェリア証券取引所に上場している10社から収集したサンプルデータを用いて合計502回の試験を行った。 収集されたデータセットは、各セキュリティのオープン、ハイ、ロー、クローズ価格である。

Stock Market can be easily seen as one of the most attractive places for investors, but it is also very complex in terms of making trading decisions. Predicting the market is a risky venture because of the uncertainties and nonlinear nature of the market. Deciding on the right time to trade is key to every successful trader as it can lead to either a huge gain of money or totally a loss in investment that will be recorded as a careless trade. The aim of this research is to develop a prediction system for stock market using Fuzzy Logic Type2 which will handle these uncertainties and complexities of human behaviour in general when it comes to buy, hold or sell decision making in stock trading. The proposed system was developed using VB.NET programming language as frontend and Microsoft SQL Server as backend. A total of four different technical indicators were selected for this research. The selected indicators are the Relative Strength Index, William Average, Moving Average Convergence and Divergence, and Stochastic Oscillator. These indicators serve as input variable to the Fuzzy System. The MACD and SO are deployed as primary indicators, while the RSI and WA are used as secondary indicators. Fibonacci retracement ratio was adopted for the secondary indicators to determine their support and resistance level in terms of making trading decisions. The input variables to the Fuzzy System is fuzzified to Low, Medium, and High using the Triangular and Gaussian Membership Function. The Mamdani Type Fuzzy Inference rules were used for combining the trading rules for each input variable to the fuzzy system. The developed system was tested using sample data collected from ten different companies listed on the Nigerian Stock Exchange for a total of fifty two periods. The dataset collected are Opening, High, Low, and Closing prices of each security.
翻訳日:2022-02-07 15:12:31 公開日:2022-02-04
# 多項式カーネルの複素-実ランダム特性

Complex-to-Real Random Features for Polynomial Kernels ( http://arxiv.org/abs/2202.02031v1 )

ライセンス: Link先を確認
Jonas Wacker, Ruben Ohana, Maurizio Filippone(参考訳) カーネル法は、理論的な保証と競合的な経験的性能により、統計モデリングにおいてユビキタスである。 多項式核は、入力データの次元間の相互作用をモデル化する特徴写像として特に重要である。 しかし、明示的な特徴写像の構成時間は多項式次数と指数関数的にスケールし、カーネルトリックのナイーブな応用は大きなデータセットにはスケールしない。 本研究では, 中間複素ランダム射影を活用し, 実値のアナログよりも大きな分散率でカーネル推定を得られる多項式核の複素対実確率特徴を提案する。 結果として得られた機能は、実価値があり、簡単に構築でき、以下の利点がある。 1) 工事期間の短縮 2) 一般的に使用される次数に対する低いカーネル近似誤差 3) それらの分散に対する閉形式式を得ることができる。

Kernel methods are ubiquitous in statistical modeling due to their theoretical guarantees as well as their competitive empirical performance. Polynomial kernels are of particular importance as their feature maps model the interactions between the dimensions of the input data. However, the construction time of explicit feature maps scales exponentially with the polynomial degree and a naive application of the kernel trick does not scale to large datasets. In this work, we propose Complex-to-Real (CtR) random features for polynomial kernels that leverage intermediate complex random projections and can yield kernel estimates with much lower variances than their real-valued analogs. The resulting features are real-valued, simple to construct and have the following advantages over the state-of-the-art: 1) shorter construction times, 2) lower kernel approximation errors for commonly used degrees, 3) they enable us to obtain a closed-form expression for their variance.
翻訳日:2022-02-07 15:09:52 公開日:2022-02-04
# 機能混合

Functional Mixtures-of-Experts ( http://arxiv.org/abs/2202.02249v1 )

ライセンス: Link先を確認
Fa\"icel Chamroukhi, Nhat Thien Pham, Van H\`a Hoang, Geoffrey J. McLachlan(参考訳) 我々は, 観測対象が関数を含む場合, 通常は時系列の場合, クラスタリングや予測のために異種データの統計解析を行う。 我々は、ベクトル観測による予測とクラスタリングのためのデータの不均一性をモデル化するためのフレームワークとして、Mixtures-of-Experts (ME) を用いてモデリングを拡張した。 まず,機能的ME(FME)モデルの新たなファミリを提示する。このモデルでは,予測器が関数全体から潜在的にノイズの多い観測を行い,ペア予測器のデータ生成プロセスと実応答が未知の分割を表す隠れ離散変数によって制御され,標準のMEフレームワークが適応しない複雑な状況に導かれる。 第2に,ラスソ様正則化(lasso-like regularization)によるfmeモデルのスパースかつ解釈可能な関数表現,特に,連続基底関数の集合上に投影されたモデルの基本関数パラメータの導出について述べる。 そこで本研究では,lasso-like regularized maximum-likelihood parameter estimation strategyのための期待最大化アルゴリズムを開発した。 提案したFMEモデルとEM-Lassoアルゴリズムは,シミュレーションシナリオおよび2つの実データ集合への適用において研究され,得られた結果は,応答と関数予測器の複雑な非線形関係を正確に把握し,クラスタリングにおいてそれらの性能を示す。

We consider the statistical analysis of heterogeneous data for clustering and prediction purposes, in situations where the observations include functions, typically time series. We extend the modeling with Mixtures-of-Experts (ME), as a framework of choice in modeling heterogeneity in data for prediction and clustering with vectorial observations, to this functional data analysis context. We first present a new family of functional ME (FME) models, in which the predictors are potentially noisy observations, from entire functions, and the data generating process of the pair predictor and the real response, is governed by a hidden discrete variable representing an unknown partition, leading to complex situations to which the standard ME framework is not adapted. Second, we provide sparse and interpretable functional representations of the FME models, thanks to Lasso-like regularizations, notably on the derivatives of the underlying functional parameters of the model, projected onto a set of continuous basis functions. We develop dedicated expectation--maximiz ation algorithms for Lasso-like regularized maximum-likelihood parameter estimation strategies, to encourage sparse and interpretable solutions. The proposed FME models and the developed EM-Lasso algorithms are studied in simulated scenarios and in applications to two real data sets, and the obtained results demonstrate their performance in accurately capturing complex nonlinear relationships between the response and the functional predictor, and in clustering.
翻訳日:2022-02-07 15:09:38 公開日:2022-02-04
# グラフ結合型オシレータネットワーク

Graph-Coupled Oscillator Networks ( http://arxiv.org/abs/2202.02296v1 )

ライセンス: Link先を確認
T. Konstantin Rusch, Benjamin P. Chamberlain, James Rowbottom, Siddhartha Mishra, Michael M. Bronstein(参考訳) 本稿では,グラフの深層学習のための新しいフレームワークであるGraphCONを提案する。 これは、基礎となるグラフの隣接構造を介して結合された非線形強制および減衰振動子のネットワークをモデル化する常微分方程式(odes)の二階系の離散化に基づいている。 我々のフレームワークの柔軟性は、結合関数としての基本的なGNN層(例えば、畳み込みや注意)を許容し、そこから提案したODEのダイナミクスを介して、多層ディープニューラルネットワークを構築する。 我々は,gnnでよく見られる過飽和問題と基礎となるodeの定常状態の安定性を関連づけ,提案するodeに対してゼロディリクレエネルギー定常状態が安定ではないことを示す。 これは、提案されたフレームワークが過度な問題を軽減することを示している。 最後に,本手法は,様々なグラフベースの学習タスクにおける最先端技術に対する競争性能を提供することを示す。

We propose Graph-Coupled Oscillator Networks (GraphCON), a novel framework for deep learning on graphs. It is based on discretizations of a second-order system of ordinary differential equations (ODEs), which model a network of nonlinear forced and damped oscillators, coupled via the adjacency structure of the underlying graph. The flexibility of our framework permits any basic GNN layer (e.g. convolutional or attentional) as the coupling function, from which a multi-layer deep neural network is built up via the dynamics of the proposed ODEs. We relate the oversmoothing problem, commonly encountered in GNNs, to the stability of steady states of the underlying ODE and show that zero-Dirichlet energy steady states are not stable for our proposed ODEs. This demonstrates that the proposed framework mitigates the oversmoothing problem. Finally, we show that our approach offers competitive performance with respect to the state-of-the-art on a variety of graph-based learning tasks.
翻訳日:2022-02-07 15:09:13 公開日:2022-02-04
# ニューラル・デュアル・コントーリング

Neural Dual Contouring ( http://arxiv.org/abs/2202.01999v1 )

ライセンス: Link先を確認
Zhiqin Chen, Andrea Tagliasacchi, Thomas Funkhouser, Hao Zhang(参考訳) 本稿では,dual contouring(dc)に基づく新しいデータ駆動型メッシュ再構成手法であるneural dual contouring(ndc)を提案する。 従来のDCと同様に、グリッドセルごとに1つの頂点と1つのクワッドを生成し、シャープな特徴を再現するための自然で効率的な構造である。 しかし、難しい表面勾配に直接依存する手作りの関数で頂点の位置やエッジ交差を計算する代わりに、NDCはニューラルネットワークを使ってそれらを予測している。 結果として、NDCは符号付きまたは符号なし距離フィールド、バイナリボクセルグリッド、または点雲(通常の有無にかかわらず)からメッシュを生成するように訓練することができ、入力がシートまたは部分曲面を表す場合、開面を生成することができる。 5つの顕著なデータセットを用いた実験では、NDCがデータセットの1つでトレーニングされた場合、他のデータセットをうまく一般化する。 さらに、nccは、以前の学習した(神経マーチングキューブ、畳み込み型占有ネットワークなど)や伝統的な(ポアソンなど)手法と比較して、表面再構成精度、特徴保存、出力複雑性、三角形品質、推論時間も向上している。

We introduce neural dual contouring (NDC), a new data-driven approach to mesh reconstruction based on dual contouring (DC). Like traditional DC, it produces exactly one vertex per grid cell and one quad for each grid edge intersection, a natural and efficient structure for reproducing sharp features. However, rather than computing vertex locations and edge crossings with hand-crafted functions that depend directly on difficult-to-obtain surface gradients, NDC uses a neural network to predict them. As a result, NDC can be trained to produce meshes from signed or unsigned distance fields, binary voxel grids, or point clouds (with or without normals); and it can produce open surfaces in cases where the input represents a sheet or partial surface. During experiments with five prominent datasets, we find that NDC, when trained on one of the datasets, generalizes well to the others. Furthermore, NDC provides better surface reconstruction accuracy, feature preservation, output complexity, triangle quality, and inference time in comparison to previous learned (e.g., neural marching cubes, convolutional occupancy networks) and traditional (e.g., Poisson) methods.
翻訳日:2022-02-07 15:08:28 公開日:2022-02-04
# 識別から生成へ:生成トランスによる知識グラフの完成

From Discrimination to Generation: Knowledge Graph Completion with Generative Transformer ( http://arxiv.org/abs/2202.02113v1 )

ライセンス: Link先を確認
Xin Xie, Ningyu Zhang, Zhoubo Li, Shumin Deng, Hui Chen, Feiyu Xiong, Mosha Chen, Huajun Chen(参考訳) 知識グラフ補完は、三重項を欠いたKGの拡張の問題に対処することを目的としている。 本稿では,学習済み言語モデルを用いて知識グラフの完成度を逐次生成タスクに変換する手法であるgenkgcを提案する。 さらに,表現学習と高速推論を改善するために,関係誘導型デモンストレーションとエンティティ認識階層型復号を導入する。 3つのデータセットにおける実験結果から,本手法はベースラインよりも優れた,あるいは同等の性能を得ることができ,事前学習した言語モデルを用いた従来の手法よりも高速な推論速度が得られることが示された。 また、研究目的のために、新しい大規模中国の知識グラフデータセットAliopenKG500をリリースする。 コードとデータセットはhttps://github.com/z junlp/PromptKGC/tree /main/GenKGCで入手できる。

Knowledge graph completion aims to address the problem of extending a KG with missing triples. In this paper, we provide an approach GenKGC, which converts knowledge graph completion to sequence-to-sequence generation task with the pre-trained language model. We further introduce relation-guided demonstration and entity-aware hierarchical decoding for better representation learning and fast inference. Experimental results on three datasets show that our approach can obtain better or comparable performance than baselines and achieve faster inference speed compared with previous methods with pre-trained language models. We also release a new large-scale Chinese knowledge graph dataset AliopenKG500 for research purpose. Code and datasets are available in https://github.com/z junlp/PromptKGC/tree /main/GenKGC.
翻訳日:2022-02-07 15:06:11 公開日:2022-02-04
# the devil is in the labels: semantic segmentation from sentences

The devil is in the labels: Semantic segmentation from sentences ( http://arxiv.org/abs/2202.02002v1 )

ライセンス: Link先を確認
Wei Yin, Yifan Liu, Chunhua Shen, Anton van den Hengel, Baichuan Sun(参考訳) ゼロショット設定に適用した場合の最先端教師付き性能を実現するセマンティックセグメンテーションへのアプローチを提案する。 これにより、これらのデータセットをトレーニングすることなく、主要なセマンティクスセグメンテーションデータセットのそれぞれにおいて、教師付きメソッドと同等の結果が得られる。 これは各クラスラベルを、そのクラスを記述する短い段落のベクトル値埋め込みに置き換えることで実現される。 このアプローチの汎用性と単純さは、異なるドメインから複数のデータセットをマージすることを可能にする。 結果として得られた200万以上の画像の統合セマンティックセグメンテーションデータセットは、7つのベンチマークデータセット上の最先端の教師付きメソッドと同等のパフォーマンスを達成するモデルをトレーニングすることができる。 また,標準意味セグメンテーションデータセット上でモデルを微調整することにより,nyud-v2 と pascal-context の教師付きセグメンテーションをそれぞれ60%,65%miou で有意な改善が得られた。 言語埋め込みの密接さに基づいて、我々の手法は目に見えないラベルをセグメント化できる。 広汎な実験により、画像領域や未表示ラベルへの強力な一般化が示され、深度推定やインスタンスセグメンテーションを含む下流アプリケーションの性能改善が実現された。

We propose an approach to semantic segmentation that achieves state-of-the-art supervised performance when applied in a zero-shot setting. It thus achieves results equivalent to those of the supervised methods, on each of the major semantic segmentation datasets, without training on those datasets. This is achieved by replacing each class label with a vector-valued embedding of a short paragraph that describes the class. The generality and simplicity of this approach enables merging multiple datasets from different domains, each with varying class labels and semantics. The resulting merged semantic segmentation dataset of over 2 Million images enables training a model that achieves performance equal to that of state-of-the-art supervised methods on 7 benchmark datasets, despite not using any images therefrom. By fine-tuning the model on standard semantic segmentation datasets, we also achieve a significant improvement over the state-of-the-art supervised segmentation on NYUD-V2 and PASCAL-context at 60% and 65% mIoU, respectively. Based on the closeness of language embeddings, our method can even segment unseen labels. Extensive experiments demonstrate strong generalization to unseen image domains and unseen labels, and that the method enables impressive performance improvements in downstream applications, including depth estimation and instance segmentation.
翻訳日:2022-02-07 15:05:10 公開日:2022-02-04
# CGS-Net:大規模屋内位置認識のための色・幾何学・意味的特徴の集約

CGS-Net: Aggregating Colour, Geometry and Semantic Features for Large-Scale Indoor Place Recognition ( http://arxiv.org/abs/2202.02070v1 )

ライセンス: Link先を確認
Yuhang Ming, Xingrui Yang, Guofeng Zhang, Andrew Calway(参考訳) 低レベルな色彩と幾何学的特徴を高レベルな意味的特徴で集約した,大規模屋内位置認識へのアプローチについて述べる。 rgbポイントクラウドを取り込んで,5つの3次元kernel point convolutional(kpconv )層でローカルな特徴を抽出する,ディープラーニングネットワークを使用する。 具体的には、セマンティックセグメンテーションタスク上でKPConv層をトレーニングし、抽出したローカル機能がセマンティックに意味があることを保証する。 次に、5つのKPConvレイヤのフィーチャーマップを連結してNetVLADレイヤに入力し、グローバルなディスクリプタを生成する。 このアプローチは、100の異なる部屋から生成される3,608個の点雲からなるテストセットを用いて、scannetデータセットから派生した大規模屋内場所認識データセットを用いて、トレーニングおよび評価を行う。 従来の特徴量に基づく手法と最先端の3つのディープラーニング手法と比較すると、このアプローチは4つの手法すべてを大きく上回っており、例えばトップ3の平均リコール率は75%であり、最も近い手法では41%である。

We describe an approach to large-scale indoor place recognition that aggregates low-level colour and geometric features with high-level semantic features. We use a deep learning network that takes in RGB point clouds and extracts local features with five 3-D kernel point convolutional (KPConv) layers. We specifically train the KPConv layers on the semantic segmentation task to ensure that the extracted local features are semantically meaningful. Then, feature maps from all the five KPConv layers are concatenated together and fed into the NetVLAD layer to generate the global descriptors. The approach is trained and evaluated using a large-scale indoor place recognition dataset derived from the ScanNet dataset, with a test set comprising 3,608 point clouds generated from 100 different rooms. Comparison with a traditional feature based method and three state-of-the-art deep learning methods demonstrate that the approach significantly outperforms all four methods, achieving, for example, a top-3 average recall rate of 75% compared with 41% for the closest rival method.
翻訳日:2022-02-07 15:04:31 公開日:2022-02-04
# スタイルベースGANインバージョンのための特徴型エンコーダ

Feature-Style Encoder for Style-Based GAN Inversion ( http://arxiv.org/abs/2202.02183v1 )

ライセンス: Link先を確認
Xu Yao, Alasdair Newson, Yann Gousseau, Pierre Hellier(参考訳) GAN変換のための新しいアーキテクチャを提案し,これをFeature-Style encoderと呼ぶ。 スタイルエンコーダは得られた潜在符号を操作するための鍵であり、特徴エンコーダは最適な画像再構成に不可欠である。 本モデルは,事前学習型GANモデルの潜時空間からの実画像の正確な逆変換を実現し,既存の手法よりも知覚的品質と再構成誤差の低減を実現する。 エンコーダ構造のおかげで、モデルは高速で正確な画像編集を可能にする。 また,提案するエンコーダは,ビデオの反転や編集に特に適していることを示す。 我々は、異なるデータドメイン上で事前訓練されたスタイルベースのジェネレータの広範な実験を行う。 提案手法は,スタイルベース GAN インバージョンに対する最先端の手法であり,競合する手法よりも優れていた。 ソースコードはhttps://github.com/I nterDigitalInc/Featu reStyleEncoderで入手できる。

We propose a novel architecture for GAN inversion, which we call Feature-Style encoder. The style encoder is key for the manipulation of the obtained latent codes, while the feature encoder is crucial for optimal image reconstruction. Our model achieves accurate inversion of real images from the latent space of a pre-trained style-based GAN model, obtaining better perceptual quality and lower reconstruction error than existing methods. Thanks to its encoder structure, the model allows fast and accurate image editing. Additionally, we demonstrate that the proposed encoder is especially well-suited for inversion and editing on videos. We conduct extensive experiments for several style-based generators pre-trained on different data domains. Our proposed method yields state-of-the-art results for style-based GAN inversion, significantly outperforming competing approaches. Source codes are available at https://github.com/I nterDigitalInc/Featu reStyleEncoder .
翻訳日:2022-02-07 15:04:10 公開日:2022-02-04
# スケルトンベース行動認識のためのブートストラップ表現学習

Bootstrapped Representation Learning for Skeleton-Based Action Recognition ( http://arxiv.org/abs/2202.02232v1 )

ライセンス: Link先を確認
Olivier Moliner, Sangxia Huang, Kalle {\AA}str\"om(参考訳) 本研究では,3次元スケルトンに基づく行動認識のための自己教師あり表現学習について検討する。 骨格列データに基づく表現学習のためのBootstrap Your Own Latent(BYOL)を拡張し,2つの非対称変換パイプラインを含む新しいデータ拡張戦略を提案する。 また、異なるカメラで撮影された同じ動作の複数の視野角を利用するマルチビューポイントサンプリング手法も導入する。 半教師あり環境では、より広いネットワークからの知識蒸留によってさらに性能が向上し、ラベルなしのサンプルを再び活用できることを示す。 提案手法の性能を示すため,NTU-60およびNTU-120データセットについて広範な実験を行った。 本手法は, 線形評価と半教師付きベンチマークの両方において, 技術の現状を常に上回っている。

In this work, we study self-supervised representation learning for 3D skeleton-based action recognition. We extend Bootstrap Your Own Latent (BYOL) for representation learning on skeleton sequence data and propose a new data augmentation strategy including two asymmetric transformation pipelines. We also introduce a multi-viewpoint sampling method that leverages multiple viewing angles of the same action captured by different cameras. In the semi-supervised setting, we show that the performance can be further improved by knowledge distillation from wider networks, leveraging once more the unlabeled samples. We conduct extensive experiments on the NTU-60 and NTU-120 datasets to demonstrate the performance of our proposed method. Our method consistently outperforms the current state of the art on both linear evaluation and semi-supervised benchmarks.
翻訳日:2022-02-07 15:02:45 公開日:2022-02-04
# 骨格に基づく行動認識のためのTo-a-T時空間焦点に向けて

Towards To-a-T Spatio-Temporal Focus for Skeleton-Based Action Recognition ( http://arxiv.org/abs/2202.02314v1 )

ライセンス: Link先を確認
Lipeng Ke, Kuan-Chuan Peng, Siwei Lyu(参考訳) グラフ畳み込みネットワーク(GCN)は骨格に基づく行動認識のための高次動的依存をモデル化するために広く利用されている。 既存のほとんどのアプローチは、関節の空間的接続トポロジーと強度に高次の時空間的重要性を明示的に埋め込むものではなく、アクションシーケンスでいつどこでフォーカスするかを共同で学ぶための注意モジュールに直接的な目的を持たない。 これらの問題に対処するため,スケルトンをベースとした時空間勾配を利用した時空間的行動認識フレームワークTo-a-T Spatio-Temporal Focus (STF)を提案する。 まず,高次時空間ダイナミクスをモデル化するために,学習可能な勾配強化およびインスタンス依存隣接行列を持つstfモジュールを提案する。 第2に、勾配に基づく時空間的焦点に基づいて定義された3つの損失項を提案し、クラスを区別し、スタック化されたSTFモジュールを最適化する。 STFは、NTU RGB+D 60、NTU RGB+D 120、およびKineetics Skeleton 400データセットにおいて、さまざまなビュー、主題、設定、入力モダリティに関する15の設定において、最先端の手法よりも優れており、STFは、不足したデータやデータセットシフト設定の精度も向上している。

Graph Convolutional Networks (GCNs) have been widely used to model the high-order dynamic dependencies for skeleton-based action recognition. Most existing approaches do not explicitly embed the high-order spatio-temporal importance to joints' spatial connection topology and intensity, and they do not have direct objectives on their attention module to jointly learn when and where to focus on in the action sequence. To address these problems, we propose the To-a-T Spatio-Temporal Focus (STF), a skeleton-based action recognition framework that utilizes the spatio-temporal gradient to focus on relevant spatio-temporal features. We first propose the STF modules with learnable gradient-enforced and instance-dependent adjacency matrices to model the high-order spatio-temporal dynamics. Second, we propose three loss terms defined on the gradient-based spatio-temporal focus to explicitly guide the classifier when and where to look at, distinguish confusing classes, and optimize the stacked STF modules. STF outperforms the state-of-the-art methods on the NTU RGB+D 60, NTU RGB+D 120, and Kinetics Skeleton 400 datasets in all 15 settings over different views, subjects, setups, and input modalities, and STF also shows better accuracy on scarce data and dataset shifting settings.
翻訳日:2022-02-07 15:02:32 公開日:2022-02-04
# ダークネットフォーラムにおける追跡談話の影響

Tracking Discourse Influence in Darknet Forums ( http://arxiv.org/abs/2202.02081v1 )

ライセンス: Link先を確認
Christopher Akiki, Lukas Gienapp, Martin Potthast(参考訳) この技術報告は、2021年のAMoC(Advanced Modelling of Cyber Criminal Careers)ハッカソン(Hackathon)の課題に対処する取り組みを文書化しています。 我々の主な貢献は、意味的および時間的特徴の同時可視化であり、ダークネットのコミュニティ全体の談話にメッセージが与える潜在的な影響を説明する、新規性、超越性、共鳴の側面を通してダークネットサイバー犯罪に関する提供されたデータに対する洞察を生み出します。 このハッカソンで私たちが生成したコードとデータは、すべて公開されています。

This technical report documents our efforts in addressing the tasks set forth by the 2021 AMoC (Advanced Modelling of Cyber Criminal Careers) Hackathon. Our main contribution is a joint visualisation of semantic and temporal features, generating insight into the supplied data on darknet cybercrime through the aspects of novelty, transience, and resonance, which describe the potential impact a message might have on the overall discourse in darknet communities. All code and data produced by us as part of this hackathon is publicly available.
翻訳日:2022-02-07 15:02:04 公開日:2022-02-04
# (参考訳) 未確認または未特定の自然言語コマンドによる対話型モバイルアプリナビゲーション [全文訳有]

Interactive Mobile App Navigation with Uncertain or Under-specified Natural Language Commands ( http://arxiv.org/abs/2202.02312v1 )

ライセンス: CC BY 4.0
Andrea Burns, Deniz Arsan, Sanjna Agrawal, Ranjitha Kumar, Kate Saenko, Bryan A. Plummer(参考訳) モバイルアプリで自然言語クエリを完了させることを目標とする,新たなデータセットであるmotif(イテレーティブフィードバック)を,モバイルアプリタスクに導入する。 対話型質問応答、視覚常識推論、質問応答可能性予測における関連するタスクの現在のデータセットは、あいまいな自然言語要求の解決や多様なデジタルドメインでの運用に関する研究をサポートしない。 その結果、実際の質問応答や対話的なタスクの複雑さを捉えられない。 対照的にモチーフには、満足できない自然言語要求が含まれており、対話型視覚言語タスクでこの問題を調査する最初の仕事である。 MoTIFはまた、タスクの不確実性解決の研究を可能にする曖昧なクエリのフォローアップ質問も含んでいる。 タスク実現可能性予測を導入し、F1スコア61.1を得る初期モデルを提案する。 次に、データセットでタスク自動化をベンチマークし、現実的な言語要求のために以前の作業の適応がうまくいかないことを発見し、コマンドを接地アクションにマッピングするときの精度はわずか20.2%を得る。 私たちは、現在のモデル能力とアプリケーションで成功するために必要なものの間のギャップを埋める可能性のある、将来の作業のパフォーマンスを分析し、洞察を得る。

We introduce Mobile app Tasks with Iterative Feedback (MoTIF), a new dataset where the goal is to complete a natural language query in a mobile app. Current datasets for related tasks in interactive question answering, visual common sense reasoning, and question-answer plausibility prediction do not support research in resolving ambiguous natural language requests or operating in diverse digital domains. As a result, they fail to capture complexities of real question answering or interactive tasks. In contrast, MoTIF contains natural language requests that are not satisfiable, the first such work to investigate this issue for interactive vision-language tasks. MoTIF also contains follow up questions for ambiguous queries to enable research on task uncertainty resolution. We introduce task feasibility prediction and propose an initial model which obtains an F1 score of 61.1. We next benchmark task automation with our dataset and find adaptations of prior work perform poorly due to our realistic language requests, obtaining an accuracy of only 20.2% when mapping commands to grounded actions. We analyze performance and gain insight for future work that may bridge the gap between current model ability and what is needed for successful use in application.
翻訳日:2022-02-07 15:00:45 公開日:2022-02-04
# ロバストベクトル量子化可変オートエンコーダ

Robust Vector Quantized-Variationa l Autoencoder ( http://arxiv.org/abs/2202.01987v1 )

ライセンス: Link先を確認
Chieh-Hsin Lai, Dongmian Zou, Gilad Lerman(参考訳) 画像生成モデルは、トレーニングデータの分布を学習し、これらの分布からサンプリングしてサンプルを生成することができる。 しかし、トレーニングデータセットが外れ値で破損した場合、生成モデルは外れ値に類似した例を生成する可能性が高い。 実際、外れ値のごく一部は、Vector Quantized-Variationa l AutoEncoder (VQ-VAE)のような最先端の生成モデルを誘導し、外れ値から重要なモードを学ぶことができる。 この問題を軽減するために,ロバストVQ-VAE (RVQ-VAE) という,VQ-VAEに基づく堅牢な生成モデルを提案する。 堅牢性を達成するため、rvq-vaeは2つのコードブックをインリアーとアウトリアーに使用する。 コードブックに正しいコンポーネントを埋め込むことを確実にするため、各トレーニング時代のイナリアとイナリアのセットを反復的に更新します。 符号化されたデータポイントが正しいコードブックと一致していることを保証するために、重み付きユークリッド距離を用いて定量化を行い、その重みはコードブックの方向のばらつきによって決定される。 両コードブックは、エンコーダとデコーダと共に、復元損失と量子化損失に応じて共同で訓練される。 トレーニングデータポイントの大部分が破損しても,RVQ-VAEはインレーヤからサンプルを生成することができることを示す。

Image generative models can learn the distributions of the training data and consequently generate examples by sampling from these distributions. However, when the training dataset is corrupted with outliers, generative models will likely produce examples that are also similar to the outliers. In fact, a small portion of outliers may induce state-of-the-art generative models, such as Vector Quantized-Variationa l AutoEncoder (VQ-VAE), to learn a significant mode from the outliers. To mitigate this problem, we propose a robust generative model based on VQ-VAE, which we name Robust VQ-VAE (RVQ-VAE). In order to achieve robustness, RVQ-VAE uses two separate codebooks for the inliers and outliers. To ensure the codebooks embed the correct components, we iteratively update the sets of inliers and outliers during each training epoch. To ensure that the encoded data points are matched to the correct codebooks, we quantize using a weighted Euclidean distance, whose weights are determined by directional variances of the codebooks. Both codebooks, together with the encoder and decoder, are trained jointly according to the reconstruction loss and the quantization loss. We experimentally demonstrate that RVQ-VAE is able to generate examples from inliers even if a large portion of the training data points are corrupted.
翻訳日:2022-02-07 14:36:30 公開日:2022-02-04
# 異なる拡張層を持つ深部不変ネットワーク

Deep invariant networks with differentiable augmentation layers ( http://arxiv.org/abs/2202.02142v1 )

ライセンス: Link先を確認
C\'edric Rommel, Thomas Moreau and Alexandre Gramfort(参考訳) 特定のデータ変換に不変な学習システムの設計は、機械学習において重要である。 実践者は一般的に、ネットワークアーキテクチャの選択、例えば翻訳の畳み込みやデータ拡張の使用を通じて、トレーニングされたモデルに望ましい不変性を強制することができる。 しかし、ネットワークに真の不変性を持たせることは困難であり、データ不変性は常にpioriとして知られているとは限らない。 データ拡張ポリシーを学ぶための最先端の手法は、保持されたデータを必要とし、二段階最適化の問題に基づいている。 本研究では,学習データからのみ不変性を学習する方法を検討する。 ネットワーク上に直接構築された学習可能な拡張レイヤを用いて,本手法が極めて汎用的であることを示す。 あらゆる種類の微分可能拡張を組み込んで、コンピュータビジョン以外の幅広い学習問題に適用することができる。 両レベル最適化に基づく最新の自動データ拡張技術よりも,我々のアプローチがより簡単かつ高速にトレーニングできることを示す実証的な証拠を提示する。 実験により, 自動データ拡張によるモデルへの不変性はモデル表現性によって制限されるが, 提案手法により得られる不変性は設計上は不感であることがわかった。

Designing learning systems which are invariant to certain data transformations is critical in machine learning. Practitioners can typically enforce a desired invariance on the trained model through the choice of a network architecture, e.g. using convolutions for translations, or using data augmentation. Yet, enforcing true invariance in the network can be difficult, and data invariances are not always known a piori. State-of-the-art methods for learning data augmentation policies require held-out data and are based on bilevel optimization problems, which are complex to solve and often computationally demanding. In this work we investigate new ways of learning invariances only from the training data. Using learnable augmentation layers built directly in the network, we demonstrate that our method is very versatile. It can incorporate any type of differentiable augmentation and be applied to a broad class of learning problems beyond computer vision. We provide empirical evidence showing that our approach is easier and faster to train than modern automatic data augmentation techniques based on bilevel optimization, while achieving comparable results. Experiments show that while the invariances transferred to a model through automatic data augmentation are limited by the model expressivity, the invariance yielded by our approach is insensitive to it by design.
翻訳日:2022-02-07 14:36:06 公開日:2022-02-04
# $\mathcal{F}$-EBM: 関数データのエネルギーベース学習

$\mathcal{F}$-EBM: Energy Based Learning of Functional Data ( http://arxiv.org/abs/2202.01929v1 )

ライセンス: Link先を確認
Jen Ning Lim, Sebastian Vollmer, Lorenz Wolf, Andrew Duncan(参考訳) エネルギーベースモデル (EBMs) は有限次元空間上の密度をモデル化するための非常に効果的なアプローチであることが証明されている。 構成を通してモデルの構造にドメイン固有の選択と制約を組み込む能力は、ESMが物理学、生物学、コンピュータビジョンなど様々な分野の応用に魅力的な候補となる。 本研究では,有限個の点で評価された関数標本から関数の分布(曲線や曲面など)を学習できる新しいEMMのクラスを提案する。 機能的文脈において2つのユニークな課題が生じる。 まず、トレーニングデータは固定されたポイントセットに沿って評価されないことが多い。 第2に、オーバーフィッティングを軽減するために、評価ポイント間のモデルの振る舞いを制御するためのステップを取る必要がある。 提案する無限次元ebmは、ニューラルネットワークでパラメータ化されたエネルギー関数によってスペクトル重み付けされる潜在ガウス過程を用いる。 結果として得られたebmは、不規則にサンプリングされたトレーニングデータを利用することができ、任意の解像度で予測を出力できる。 我々は,Standard and Poor's 500 (S\&P) と UK National Grid から収集したデータを含む,幅広いデータセットをモデル化するための提案手法の有効性を実証する。

Energy-Based Models (EBMs) have proven to be a highly effective approach for modelling densities on finite-dimensional spaces. Their ability to incorporate domain-specific choices and constraints into the structure of the model through composition make EBMs an appealing candidate for applications in physics, biology and computer vision and various other fields. In this work, we present a novel class of EBM which is able to learn distributions of functions (such as curves or surfaces) from functional samples evaluated at finitely many points. Two unique challenges arise in the functional context. Firstly, training data is often not evaluated along a fixed set of points. Secondly, steps must be taken to control the behaviour of the model between evaluation points, to mitigate overfitting. The proposed infinite-dimensional EBM employs a latent Gaussian process, which is weighted spectrally by an energy function parameterised with a neural network. The resulting EBM has the ability to utilize irregularly sampled training data and can output predictions at any resolution, providing an effective approach to up-scaling functional data. We demonstrate the efficacy of our proposed approach for modelling a range of datasets, including data collected from Standard and Poor's 500 (S\&P) and UK National grid.
翻訳日:2022-02-07 14:35:38 公開日:2022-02-04
# 異種共変空間を用いたメタラーニングのための分布埋め込みネットワーク

Distribution Embedding Networks for Meta-Learning with Heterogeneous Covariate Spaces ( http://arxiv.org/abs/2202.01940v1 )

ライセンス: Link先を確認
Lang Liu and Mahdi Milani Fard and Sen Zhao(参考訳) メタラーニング手法を用いて,小さなデータを分類するための分散埋め込みネットワーク(DEN)を提案する。 画像認識タスクにフォーカスし、トレーニングとターゲットタスクを類似させる既存のメタラーニングアプローチとは異なり、denはトレーニングタスクの多種多様なセットでトレーニングされ、covariateの数と分布がトレーニングタスクと大きく異なるタスクに適用されるように設計されている。 DENのそのような特性は、共変量変換ブロック、次いで分布埋め込みブロック、そして分類ブロックの3ブロックアーキテクチャによって実現される。 本アーキテクチャでは,各タスクに対して,比較的少数のパラメータを持つ共変量変換ブロックのみを更新する必要のある,多様なタスクの事前学習後に,埋め込みブロックと分類ブロックを固定可能であることを示す理論的知見を提供する。 また,denの学習を容易にするために,二分分類訓練タスクを合成する手法を提案し,数値研究において,denが既存の手法よりも多くの合成課題や実課題において優れていることを示す。

We propose Distribution Embedding Networks (DEN) for classification with small data using meta-learning techniques. Unlike existing meta-learning approaches that focus on image recognition tasks and require the training and target tasks to be similar, DEN is specifically designed to be trained on a diverse set of training tasks and applied on tasks whose number and distribution of covariates differ vastly from its training tasks. Such property of DEN is enabled by its three-block architecture: a covariate transformation block followed by a distribution embedding block and then a classification block. We provide theoretical insights to show that this architecture allows the embedding and classification blocks to be fixed after pre-training on a diverse set of tasks; only the covariate transformation block with relatively few parameters needs to be updated for each new task. To facilitate the training of DEN, we also propose an approach to synthesize binary classification training tasks, and demonstrate that DEN outperforms existing methods in a number of synthetic and real tasks in numerical studies.
翻訳日:2022-02-07 14:35:18 公開日:2022-02-04
# 類似性クエリを用いたアクティブメトリック学習と分類

Active metric learning and classification using similarity queries ( http://arxiv.org/abs/2202.01953v1 )

ライセンス: Link先を確認
Namrata Nadagouda, Austin Xu and Mark A. Davenport(参考訳) アクティブラーニングは、最も有能なクエリを適応的に選択することで、ラベル効率のよいモデルをトレーニングするために一般的に使用される。 しかし、ほとんどのアクティブな学習戦略は、データの表現(例えば埋め込みやメートル法学習)を学習するか、データ上のタスク(例えば分類)でうまく機能するように設計されている。 しかし、多くの機械学習タスクは、表現学習とタスク固有の目標の組み合わせを含んでいる。 そこで本研究では,鍵となるコンポーネントが類似性を反映したデータの表現を学習している問題に対して適用可能な,新しい統合クエリフレームワークを提案する。 提案手法は, 類似性, 近接性(NN)クエリに基づいて, 組込み性の向上をもたらすサンプルを選択する。 クエリは参照とオブジェクトのセットで構成され、オラクルは参照に最も近いオブジェクト(すなわち、最も近いオブジェクト)を選択する。 要求されたクエリの数を減らすために、情報理論の基準に従って適応的に選択する。 提案手法の有効性を,多種多様な合成および実世界のデータセットを用いて,アクティブなメトリック学習とアクティブな分類という2つのタスクで実証する。 特に,最近開発された3重項選択手法を,深層学習環境において性能的に優れていることを示す。 さらに、分類において、最も情報性の高いNNクエリを選択するプロセスとして、クラスラベルを積極的に選択し、直接適用可能であることを示す。

Active learning is commonly used to train label-efficient models by adaptively selecting the most informative queries. However, most active learning strategies are designed to either learn a representation of the data (e.g., embedding or metric learning) or perform well on a task (e.g., classification) on the data. However, many machine learning tasks involve a combination of both representation learning and a task-specific goal. Motivated by this, we propose a novel unified query framework that can be applied to any problem in which a key component is learning a representation of the data that reflects similarity. Our approach builds on similarity or nearest neighbor (NN) queries which seek to select samples that result in improved embeddings. The queries consist of a reference and a set of objects, with an oracle selecting the object most similar (i.e., nearest) to the reference. In order to reduce the number of solicited queries, they are chosen adaptively according to an information theoretic criterion. We demonstrate the effectiveness of the proposed strategy on two tasks -- active metric learning and active classification -- using a variety of synthetic and real world datasets. In particular, we demonstrate that actively selected NN queries outperform recently developed active triplet selection methods in a deep metric learning setting. Further, we show that in classification, actively selecting class labels can be reformulated as a process of selecting the most informative NN query, allowing direct application of our method.
翻訳日:2022-02-07 14:35:01 公開日:2022-02-04
# ラベル雑音遷移行列の識別性

Identifiability of Label Noise Transition Matrix ( http://arxiv.org/abs/2202.02016v1 )

ライセンス: Link先を確認
Yang Liu(参考訳) 雑音遷移行列は雑音ラベルから学習する問題において中心的な役割を果たす。 他にも多くの理由があるが、既存のソリューションの多くはそれへのアクセスに依存している。 基底の真理ラベルを使わずに遷移行列を推定することは、重要かつ困難な課題である。 ラベルノイズ遷移が各インスタンスに依存する場合、インスタンス依存のノイズ遷移行列を識別する問題は大幅に困難になる。 インスタンス依存のノイズラベルから学習するためのソリューションを提案する最近の研究にもかかわらず、我々はそのような問題がいつ識別可能であり、それゆえ学習可能かの統一的な理解を欠いている。 本稿では,ノイズ遷移行列の識別可能性に寄与する主要な要因について述べる。 観察された経験的成功について説明できますか。 問題が特定できない場合、それを実現するために何ができるでしょうか? 本論の知見を文献に関連付けるとともに,実例依存ラベルノイズに対処するための効果的なソリューション開発のためのガイドラインの提供を期待する。

The noise transition matrix plays a central role in the problem of learning from noisy labels. Among many other reasons, a significant number of existing solutions rely on access to it. Estimating the transition matrix without using ground truth labels is a critical and challenging task. When label noise transition depends on each instance, the problem of identifying the instance-dependent noise transition matrix becomes substantially more challenging. Despite recent works proposing solutions for learning from instance-dependent noisy labels, we lack a unified understanding of when such a problem remains identifiable, and therefore learnable. This paper seeks to provide answers to a sequence of related questions: What are the primary factors that contribute to the identifiability of a noise transition matrix? Can we explain the observed empirical successes? When a problem is not identifiable, what can we do to make it so? We will relate our theoretical findings to the literature and hope to provide guidelines for developing effective solutions for battling instance-dependent label noise.
翻訳日:2022-02-07 14:34:37 公開日:2022-02-04
# SignSGD: BlindとByzantineの敵に対するフォールトトレランス

SignSGD: Fault-Tolerance to Blind and Byzantine Adversaries ( http://arxiv.org/abs/2202.02085v1 )

ライセンス: Link先を確認
Jason Akoun, Sebastien Meyer(参考訳) 成長を続けるモデルのトレーニングには、分散学習が不可欠になっている。 分散環境では、タスクは複数のデバイス間で共有される。 通常、学習プロセスはサーバによって監視される。 また、一部のデバイスは故意に故障する可能性があり、通常の分散sgdアルゴリズムでは、全科学的な敵から自らを守ることはできない。 したがって,フォールトトレラント勾配降下アルゴリズムを考案する必要がある。 我々は,デバイスとサーバ間の勾配信号の共有に依存するSignSGDアルゴリズムに基づく。 本稿では,SignSGDの収束率に関する理論上界を提供し,元の論文の結果を拡張する。 我々の理論的結果は、ビザンツの敵のような一般敵に対するSignSGDの収束率を推定する。 我々はこのアルゴリズムをビザンツの戦略と共に実装し、学習プロセスを潰そうとした。 それゆえ,我々は実験から経験的な観察を行い,理論を裏付ける。 私たちのコードはgithubで入手でき、実験は提供されたパラメータを使って再現可能です。

Distributed learning has become a necessity for training ever-growing models. In a distributed setting, the task is shared among several devices. Typically, the learning process is monitored by a server. Also, some of the devices can be faulty, deliberately or not, and the usual distributed SGD algorithm cannot defend itself from omniscient adversaries. Therefore, we need to devise a fault-tolerant gradient descent algorithm. We based our article on the SignSGD algorithm, which relies on the sharing of gradients signs between the devices and the server. We provide a theoretical upper bound for the convergence rate of SignSGD to extend the results of the original paper. Our theoretical results estimate the convergence rate of SignSGD against a proportion of general adversaries, such as Byzantine adversaries. We implemented the algorithm along with Byzantine strategies in order to try to crush the learning process. Therefore, we provide empirical observations from our experiments to support our theory. Our code is available on GitHub and our experiments are reproducible by using the provided parameters.
翻訳日:2022-02-07 14:33:51 公開日:2022-02-04
# エンド・ツー・エンド因果推論

Deep End-to-end Causal Inference ( http://arxiv.org/abs/2202.02195v1 )

ライセンス: Link先を確認
Tomas Geffner, Javier Antoran, Adam Foster, Wenbo Gong, Chao Ma, Emre Kiciman, Amit Sharma, Angus Lamb, Martin Kukla, Nick Pawlowski, Miltiadis Allamanis, Cheng Zhang(参考訳) 因果推論は、ビジネスエンゲージメント、医療、ポリシー作成などのドメイン間でのデータ駆動意思決定に不可欠である。 しかし、因果発見と推論の研究は別々に進化しており、2つの領域の組み合わせは自明ではない。 本研究では,観測データを取り込む単一フローベース手法であるDeep End-to-end Causal Inference (DECI)を開発し,条件平均処理効果(CATE)推定を含む因果探索と推論の両方を行う。 軽微な仮定の下で,DeCIが基底真理因果グラフを復元できることを理論的に保証する。 さらに,不均質な実世界の混合型データを欠落値で処理でき,連続的および離散的な処理決定が可能となった。 さらに,本手法の設計原理はDECを超越して一般化可能であり,既存の手法を用いて異なるECIフレームワークを構築できる汎用的なエンドツーエンド因果推論(ECI)レシピを提供する。 本研究は,合成データセットおよび他の因果機械学習ベンチマークデータセットにおける1000以上の実験において,因果発見および(c)ate推定の関連ベースラインと比較して,deciの優れた性能を示す。

Causal inference is essential for data-driven decision making across domains such as business engagement, medical treatment or policy making. However, research on causal discovery and inference has evolved separately, and the combination of the two domains is not trivial. In this work, we develop Deep End-to-end Causal Inference (DECI), a single flow-based method that takes in observational data and can perform both causal discovery and inference, including conditional average treatment effect (CATE) estimation. We provide a theoretical guarantee that DECI can recover the ground truth causal graph under mild assumptions. In addition, our method can handle heterogeneous, real-world, mixed-type data with missing values, allowing for both continuous and discrete treatment decisions. Moreover, the design principle of our method can generalize beyond DECI, providing a general End-to-end Causal Inference (ECI) recipe, which enables different ECI frameworks to be built using existing methods. Our results show the superior performance of DECI when compared to relevant baselines for both causal discovery and (C)ATE estimation in over a thousand experiments on both synthetic datasets and other causal machine learning benchmark datasets.
翻訳日:2022-02-07 14:33:37 公開日:2022-02-04
# 雑音ラベルの隣接一貫性による学習

Learning with Neighbor Consistency for Noisy Labels ( http://arxiv.org/abs/2202.02200v1 )

ライセンス: Link先を確認
Ahmet Iscen, Jack Valmadre, Anurag Arnab, Cordelia Schmid(参考訳) ディープラーニングの最近の進歩は、大容量モデルのトレーニングのために、大きなラベル付きデータセットに依存しています。 しかし、大規模なデータセットを時間とコスト効率で収集すると、しばしばラベルノイズが発生する。 本稿では,特徴空間におけるトレーニング例間の類似性を利用して,雑音ラベルから学習する手法を提案する。 複数のモデルまたは異なるステージを使用するトレーニングアルゴリズムと比較すると、我々のアプローチは単純で追加の正規化項の形式を取る。 これは、古典的な帰納的ラベル伝播アルゴリズムの帰納的バージョンとして解釈できる。 我々は,合成音(cifar-10,cifar-100) とリアル音(mini-webvision,wear s1m,mini-imagenet-re d)の両方を評価するデータセットの手法を徹底的に評価した。

Recent advances in deep learning have relied on large, labelled datasets to train high-capacity models. However, collecting large datasets in a time- and cost-efficient manner often results in label noise. We present a method for learning from noisy labels that leverages similarities between training examples in feature space, encouraging the prediction of each example to be similar to its nearest neighbours. Compared to training algorithms that use multiple models or distinct stages, our approach takes the form of a simple, additional regularization term. It can be interpreted as an inductive version of the classical, transductive label propagation algorithm. We thoroughly evaluate our method on datasets evaluating both synthetic (CIFAR-10, CIFAR-100) and realistic (mini-WebVision, Clothing1M, mini-ImageNet-Red) noise, and achieve competitive or state-of-the-art accuracies across all of them.
翻訳日:2022-02-07 14:33:15 公開日:2022-02-04
# 自動モバイルアプリユーザフィードバック回答生成のための事前学習型ニューラルネットワークモデル

Pre-Trained Neural Language Models for Automatic Mobile App User Feedback Answer Generation ( http://arxiv.org/abs/2202.02294v1 )

ライセンス: Link先を確認
Yue Cao, Fatemeh H. Fard(参考訳) 調査によると、モバイルアプリのユーザからのアプリストアへのフィードバックに対する開発者の回答は、アプリのスターレーティングを高めることができる。 アプリ開発者がユーザの問題に関連する回答を生成するのを助けるために、最近の研究では、回答を自動的に生成するモデルを開発している。 目的: アプリ応答生成モデルはディープニューラルネットワークを使用し、トレーニングデータを必要とする。 自然言語処理(NLP)で使用される事前学習ニューラルネットワークモデル(PTM)は、大規模コーパスから学んだ情報を教師なしの方法で活用し、必要なトレーニングデータの量を削減することができる。 本稿では,PTMを評価し,モバイルアプリのユーザフィードバックに対する応答を生成する。 方法: トランスフォーマーモデルをスクラッチからトレーニングし、2つのptmを微調整して生成した応答を評価し,現在のアプリケーション応答モデルであるrrgenと比較する。 また、トレーニングデータの異なる部分によるモデルの評価も行います。 結果: 自動測定で評価した大規模データセットの結果から, PTMはベースラインよりも低いスコアを得ることがわかった。 しかし,人間の評価では,PTMが投稿されたフィードバックに対してより関連性があり有意義な応答を得られることが確認されている。 さらに,トレーニングデータの量を1/3に減らすと,他のモデルに比べてPTMの性能は低下する。 結論: PTMはアプリレビューに対する反応を生成するのに役立ち、提供されるトレーニングデータの量に対してより堅牢なモデルです。 しかし、予測時間はRRGENの19倍である。 本研究は,モバイルアプリのユーザフィードバック分析にptmを適用するための新たな方法を提案する。 Index Terms-mobileアプリのユーザフィードバック分析、ニューラル事前学習言語モデル、自動回答生成

Studies show that developers' answers to the mobile app users' feedbacks on app stores can increase the apps' star rating. To help app developers generate answers that are related to the users' issues, recent studies develop models to generate the answers automatically. Aims: The app response generation models use deep neural networks and require training data. Pre-Trained neural language Models (PTM) used in Natural Language Processing (NLP) take advantage of the information they learned from a large corpora in an unsupervised manner, and can reduce the amount of required training data. In this paper, we evaluate PTMs to generate replies to the mobile app user feedbacks. Method: We train a Transformer model from scratch and fine-tune two PTMs to evaluate the generated responses, which are compared to RRGEN, a current app response model. We also evaluate the models with different portions of the training data. Results: The results on a large dataset evaluated by automatic metrics show that PTMs obtain lower scores than the baselines. However, our human evaluation confirms that PTMs can generate more relevant and meaningful responses to the posted feedbacks. Moreover, the performance of PTMs has less drop compared to other models when the amount of training data is reduced to 1/3. Conclusion: PTMs are useful in generating responses to app reviews and are more robust models to the amount of training data provided. However, the prediction time is 19X than RRGEN. This study can provide new avenues for research in adapting the PTMs for analyzing mobile app user feedbacks. Index Terms-mobile app user feedback analysis, neural pre-trained language models, automatic answer generation
翻訳日:2022-02-07 14:32:59 公開日:2022-02-04
# (参考訳) 視覚障害者が問う視覚質問に対する回答の接地 [全文訳有]

Grounding Answers for Visual Questions Asked by Visually Impaired People ( http://arxiv.org/abs/2202.01993v1 )

ライセンス: CC BY 4.0
Chongyan Chen, Samreen Anjum, Danna Gurari(参考訳) 視覚的な質問応答は、画像に関する質問に答えるタスクである。 VizWiz-VQA-Grounding データセットは視覚障害者の質問に答えを視覚的に根拠付ける最初のデータセットである。 データセットを分析し、それを5つのVQA-Groundingデータセットと比較し、類似点と異なる点を示す。 次に、SOTA VQAとVQA-Groundingモデルを評価し、現在のSOTAアルゴリズムは、その答えがどこにあるかの正確な視覚的証拠を識別できないことが多いことを示す。 これらのモデルは、視覚証拠が画像のごく一部を占める場合、品質の高い画像だけでなく、テキスト認識のスキルを必要とする視覚的な質問に対してしばしば苦労する。 データセット、評価サーバ、およびリーダーボードはすべて、以下のリンクで見ることができる。

Visual question answering is the task of answering questions about images. We introduce the VizWiz-VQA-Grounding dataset, the first dataset that visually grounds answers to visual questions asked by people with visual impairments. We analyze our dataset and compare it with five VQA-Grounding datasets to demonstrate what makes it similar and different. We then evaluate the SOTA VQA and VQA-Grounding models and demonstrate that current SOTA algorithms often fail to identify the correct visual evidence where the answer is located. These models regularly struggle when the visual evidence occupies a small fraction of the image, for images that are higher quality, as well as for visual questions that require skills in text recognition. The dataset, evaluation server, and leaderboard all can be found at the following link: https://vizwiz.org/t asks-and-datasets/an swer-grounding-for-v qa/.
翻訳日:2022-02-07 14:30:23 公開日:2022-02-04
# 複雑なデータの生成モデリング

Generative Modeling of Complex Data ( http://arxiv.org/abs/2202.02145v1 )

ライセンス: Link先を確認
Luca Canale, Nicolas Grislain, Gr\'egoire Lothe and Johan Leduc(参考訳) 近年、いくつかのモデルで合成表データセットを生成する能力が改善されている。 しかし、そのようなモデルは単純な列状テーブルの合成にフォーカスしており、複雑な構造を持つ現実のデータでは使用できない。 本稿では,より複雑なデータ構造を複合型とネスト型で合成する汎用フレームワークを提案する。 次に、構造体(型のマッピング)とリスト(型の繰り返しインスタンス)のための因果変換器で構築された実用的な実装を提案する。 標準ベンチマークデータセットの結果は、このような実装が機械学習ユーティリティと統計的類似性の両方において、現在の最先端モデルよりも一貫して優れていることを示している。 さらに、複数のネスティングとスパースデータを持つ2つの複雑な階層型データセットに対して、これまで手が届かなかった非常に強力な結果を示す。

In recent years, several models have improved the capacity to generate synthetic tabular datasets. However, such models focus on synthesizing simple columnar tables and are not useable on real-life data with complex structures. This paper puts forward a generic framework to synthesize more complex data structures with composite and nested types. It then proposes one practical implementation, built with causal transformers, for struct (mappings of types) and lists (repeated instances of a type). The results on standard benchmark datasets show that such implementation consistently outperforms current state-of-the-art models both in terms of machine learning utility and statistical similarity. Moreover, it shows very strong results on two complex hierarchical datasets with multiple nesting and sparse data, that were previously out of reach.
翻訳日:2022-02-07 14:07:24 公開日:2022-02-04
# ゼロショットアスペクトに基づく感性分析

Zero-Shot Aspect-Based Sentiment Analysis ( http://arxiv.org/abs/2202.01924v1 )

ライセンス: Link先を確認
Lei Shu, Jiahua Chen, Bing Liu, Hu Xu(参考訳) アスペクトベースの感情分析(ABSA)は通常、教師付きトレーニング/ファインチューニングのためにドメイン内のアノテートデータを必要とする。 ABSAを多くの新しいドメインに拡張することは大きな課題です。 本稿では,新たなドメインに対して注釈付きデータを用いることなく,ゼロショットABSAを実現する統一モデルを訓練することを目的とする。 本稿では,自然言語推論 (CORN) に基づくコントラッシブポストトレーニング手法を提案する。 後にABSAタスクはゼロショット転送のためにNLIにキャストできる。 我々は、アスペクト抽出(AE)、アスペクト感情分類(ASC)、エンド・ツー・エンドのアスペクトベース感情分析(E2E ABSA)など、ABSAタスクにおけるCORNを評価する。

Aspect-based sentiment analysis (ABSA) typically requires in-domain annotated data for supervised training/fine-tuning . It is a big challenge to scale ABSA to a large number of new domains. This paper aims to train a unified model that can perform zero-shot ABSA without using any annotated data for a new domain. We propose a method called contrastive post-training on review Natural Language Inference (CORN). Later ABSA tasks can be cast into NLI for zero-shot transfer. We evaluate CORN on ABSA tasks, ranging from aspect extraction (AE), aspect sentiment classification (ASC), to end-to-end aspect-based sentiment analysis (E2E ABSA), which show ABSA can be conducted without any human annotated ABSA data.
翻訳日:2022-02-07 14:07:11 公開日:2022-02-04
# 汎用視覚モデルのためのwebly教師付き概念拡張

Webly Supervised Concept Expansion for General Purpose Vision Models ( http://arxiv.org/abs/2202.02317v1 )

ライセンス: Link先を確認
Amita Kamath, Christopher Clark, Tanmay Gupta, Eric Kolve, Derek Hoiem, Aniruddha Kembhavi(参考訳) 汎用視覚(GPV)システムは、アーキテクチャの変更を必要とせず、幅広い視覚的タスクを解決するために設計されたモデルである。 今日、GPVは主に、大規模な完全に教師付きデータセットからスキルと概念を学ぶ。 GPVを数万のコンセプトにスケールするには、各スキルのそれぞれの概念を学ぶためにデータを取得する必要がある。 完全な教師付きデータセットからスキルを学び、Webイメージ検索結果から概念を学び、GPVの重要な特徴である、スキル間で視覚的知識を伝達する能力を活用する。 10k以上のビジュアル概念にまたがる1M以上のイメージのデータセットを使用して、既存のGPV(GPV-1とVL-T5)を3つのベンチマーク(5つのCOCOベースのデータセット(80のプライマリ概念)、OpenImagesとVisualGenomeリポジトリ(約500のコンセプト)とWeb派生データセット(10k+概念)でWebに教師付きされたコンセプト拡張を示す。 分類やローカライゼーションといったビジョンタスクから、qaやキャプションといったビジョン+言語タスク、人間とオブジェクトのインタラクション認識のようなよりニッチなタスクに至るまで、さまざまなタスクをサポートする新しいアーキテクチャであるgpv-2も提案します。 GPV-2はWebデータから大きな恩恵を受けており、これらのベンチマークでGPV-1とVL-T5を上回っている。

General purpose vision (GPV) systems are models that are designed to solve a wide array of visual tasks without requiring architectural changes. Today, GPVs primarily learn both skills and concepts from large fully supervised datasets. Scaling GPVs to tens of thousands of concepts by acquiring data to learn each concept for every skill quickly becomes prohibitive. This work presents an effective and inexpensive alternative: learn skills from fully supervised datasets, learn concepts from web image search results, and leverage a key characteristic of GPVs -- the ability to transfer visual knowledge across skills. We use a dataset of 1M+ images spanning 10k+ visual concepts to demonstrate webly-supervised concept expansion for two existing GPVs (GPV-1 and VL-T5) on 3 benchmarks - 5 COCO based datasets (80 primary concepts), a newly curated series of 5 datasets based on the OpenImages and VisualGenome repositories (~500 concepts) and the Web-derived dataset (10k+ concepts). We also propose a new architecture, GPV-2 that supports a variety of tasks -- from vision tasks like classification and localization to vision+language tasks like QA and captioning to more niche ones like human-object interaction recognition. GPV-2 benefits hugely from web data, outperforms GPV-1 and VL-T5 across these benchmarks, and does well in a 0-shot setting at action and attribute recognition.
翻訳日:2022-02-07 14:06:58 公開日:2022-02-04
# NMTにおけるデータスケーリングの法則:騒音と建築の影響

Data Scaling Laws in NMT: The Effect of Noise and Architecture ( http://arxiv.org/abs/2202.01994v1 )

ライセンス: Link先を確認
Yamini Bansal, Behrooz Ghorbani, Ankush Garg, Biao Zhang, Maxim Krikun, Colin Cherry, Behnam Neyshabur, Orhan Firat(参考訳) 本研究では,ニューラルマシン翻訳(nmt)のデータスケーリング特性に対するアーキテクチャ変化とデータ品質のトレーニングの影響について検討する。 まず,エンコーダ・デコーダ・トランスモデルの試験損失が,モデルサイズに依存したトレーニングサンプル数におけるパワー則としてスケールすることが確認された。 そして、トレーニング設定の側面を体系的に変化させ、それがデータスケーリング法則に与える影響を理解する。 特に,(1) アーキテクチャとタスク設定の変更: トランスフォーマ-LSTMハイブリッドとデコーダのみのトランスフォーマを言語モデリング損失と比較する(2) トレーニング分布におけるノイズレベル: フィルタリング実験を行い,iid合成ノイズを付加する。 これらすべてのケースにおいて、データスケーリング指数は最小限の影響を受けており、より多くのデータを追加することで、極端に悪いアーキテクチャやトレーニングデータの補償が可能になることを示唆している。 最後に、並列データの代わりにバックトランスレートデータを使用することで、スケーリング指数を著しく低下させることが分かる。

In this work, we study the effect of varying the architecture and training data quality on the data scaling properties of Neural Machine Translation (NMT). First, we establish that the test loss of encoder-decoder transformer models scales as a power law in the number of training samples, with a dependence on the model size. Then, we systematically vary aspects of the training setup to understand how they impact the data scaling laws. In particular, we change the following (1) Architecture and task setup: We compare to a transformer-LSTM hybrid, and a decoder-only transformer with a language modeling loss (2) Noise level in the training distribution: We experiment with filtering, and adding iid synthetic noise. In all the above cases, we find that the data scaling exponents are minimally impacted, suggesting that marginally worse architectures or training data can be compensated for by adding more data. Lastly, we find that using back-translated data instead of parallel data, can significantly degrade the scaling exponent.
翻訳日:2022-02-07 14:06:29 公開日:2022-02-04
# StonkBERT: 言語モデルは中規模株価変動を予測することができるか?

StonkBERT: Can Language Models Predict Medium-Run Stock Price Movements? ( http://arxiv.org/abs/2202.02268v1 )

ライセンス: Link先を確認
Stefan Pasch, Daniel Ehnes(参考訳) この質問に答えるために、bertを含むトランスフォーマーベースの言語モデルを、企業に関連するさまざまなテキストデータソースに微調整し、1年間の株価パフォーマンスを予測する。 私たちはニュース記事、ブログ、年次レポートという3種類のテキストデータを使っています。 これにより、基礎となるドキュメントの型に依存する言語モデルのパフォーマンスの程度を分析することができる。 トランスを用いたストックパフォーマンス分類器であるStonkBERTでは,従来の言語モデルと比較して予測精度が大幅に向上した。 最高性能はニュース記事をテキストソースとして達成した。 性能シミュレーションは、これらの分類精度の向上が平均以上の株式市場のリターンにも繋がることを示している。

To answer this question, we fine-tune transformer-based language models, including BERT, on different sources of company-related text data for a classification task to predict the one-year stock price performance. We use three different types of text data: News articles, blogs, and annual reports. This allows us to analyze to what extent the performance of language models is dependent on the type of the underlying document. StonkBERT, our transformer-based stock performance classifier, shows substantial improvement in predictive accuracy compared to traditional language models. The highest performance was achieved with news articles as text source. Performance simulations indicate that these improvements in classification accuracy also translate into above-average stock market returns.
翻訳日:2022-02-07 14:06:10 公開日:2022-02-04
# (参考訳) ExPoSe: ステートベースの探索とグラディエントベースのオンライン検索を組み合わせる [全文訳有]

ExPoSe: Combining State-Based Exploration with Gradient-Based Online Search ( http://arxiv.org/abs/2202.01461v2 )

ライセンス: CC BY 4.0
Dixant Mittal and Siddharth Aravindan and Wee Sun Lee(参考訳) ツリーベースのオンライン検索アルゴリズムは、軌道を反復的にシミュレートし、木構造で表される一連の状態のq値情報を更新する。 あるいは、ポリシー勾配に基づくオンライン検索アルゴリズムは、シミュレーションされた軌跡から得られた情報をポリシーのパラメータに直接更新し、有効であることが判明した。 木に基づく手法は、シミュレーションから木に存在する状態への更新を制限し、情報を近くの状態に補間しないが、ポリシー勾配探索法は明示的な探索を行わない。 本稿では,これら2つの手法の強みを組み合わせることで検索性能を向上させることができることを示す。 本改善の背景にある主要な理由を考察し,提案手法を探索的ポリシーグラディエント探索 (Exploratory Policy Gradient Search, ExPoSe) と名づけた簡易かつ効果的なオンライン検索手法を提案する。 疎グラフにおけるソコバンやハミルトニアンサイクル探索を含む複雑な計画問題に関する実験を行い,探索と政策勾配を組み合わせることでオンライン検索性能が向上することを示す。

A tree-based online search algorithm iteratively simulates trajectories and updates Q-value information on a set of states represented by a tree structure. Alternatively, policy gradient based online search algorithms update the information obtained from simulated trajectories directly onto the parameters of the policy and has been found to be effective. While tree-based methods limit the updates from simulations to the states that exist in the tree and do not interpolate the information to nearby states, policy gradient search methods do not do explicit exploration. In this paper, we show that it is possible to combine and leverage the strengths of these two methods for improved search performance. We examine the key reasons behind the improvement and propose a simple yet effective online search method, named Exploratory Policy Gradient Search (ExPoSe), that updates both the parameters of the policy as well as search information on the states in the trajectory. We conduct experiments on complex planning problems, which include Sokoban and Hamiltonian cycle search in sparse graphs and show that combining exploration with policy gradient improves online search performance.
翻訳日:2022-02-07 12:47:44 公開日:2022-02-04
# (参考訳) 説明可能な機械学習における不一致問題--実践者の視点から

The Disagreement Problem in Explainable Machine Learning: A Practitioner's Perspective ( http://arxiv.org/abs/2202.01602v2 )

ライセンス: CC BY 4.0
Satyapriya Krishna, Tessa Han, Alex Gu, Javin Pombra, Shahin Jabbari, Steven Wu, Himabindu Lakkaraju(参考訳) 様々なポストホックな説明法が、ハイテイクな設定で複雑なモデルを説明するためにますます活用されているため、これらの方法によって出力される説明が互いに相反するかどうか、実際にどのように解決されるのかについて、より深く理解することが重要である。 しかし、これらの批判的な疑問に答える研究はほとんど、あるいは全くない。 本稿では,説明可能な機械学習における不一致問題を紹介し,検討する。 より具体的には、説明間の不一致の概念を定式化し、そのような不一致が実際にどれだけ頻繁に起こるかを分析し、実践者がこれらの不一致を解決する方法について分析する。 そこで我々はまずデータサイエンティストとのインタビューを行い、同じモデル予測のための異なる手法による説明の相違について理解し、この理解を形式化する新しい定量的枠組みを導入する。 次に,このフレームワークを用いて4つの実世界のデータセット,6つの最先端のhoc説明法,8つの異なる予測モデルを用いた厳密な経験的分析を行い,様々な一般的な説明法によって生成された説明間の不一致の程度を測定する。 さらに、上記の不一致を解決する方法を理解するために、データサイエンティストとオンラインユーザスタディを実施している。 以上の結果から, 現状説明法は, それらが出力する説明法と矛盾することが多いことが示唆された。 また,実践者が説明を効果的に比較できる原則評価指標の開発の重要性も強調した。

As various post hoc explanation methods are increasingly being leveraged to explain complex models in high-stakes settings, it becomes critical to develop a deeper understanding of if and when the explanations output by these methods disagree with each other, and how such disagreements are resolved in practice. However, there is little to no research that provides answers to these critical questions. In this work, we introduce and study the disagreement problem in explainable machine learning. More specifically, we formalize the notion of disagreement between explanations, analyze how often such disagreements occur in practice, and how do practitioners resolve these disagreements. To this end, we first conduct interviews with data scientists to understand what constitutes disagreement between explanations generated by different methods for the same model prediction, and introduce a novel quantitative framework to formalize this understanding. We then leverage this framework to carry out a rigorous empirical analysis with four real-world datasets, six state-of-the-art post hoc explanation methods, and eight different predictive models, to measure the extent of disagreement between the explanations generated by various popular explanation methods. In addition, we carry out an online user study with data scientists to understand how they resolve the aforementioned disagreements. Our results indicate that state-of-the-art explanation methods often disagree in terms of the explanations they output. Our findings also underscore the importance of developing principled evaluation metrics that enable practitioners to effectively compare explanations.
翻訳日:2022-02-07 12:32:06 公開日:2022-02-04
# RipsNet: 点雲の永続的ホモロジーを高速かつ堅牢に推定するための汎用アーキテクチャ

RipsNet: a general architecture for fast and robust estimation of the persistent homology of point clouds ( http://arxiv.org/abs/2202.01725v2 )

ライセンス: Link先を確認
Thibault de Surrel, Felix Hensel, Mathieu Carri\`ere, Th\'eo Lacombe, Yuichi Ike, Hiroaki Kurihara, Marc Glisse, Fr\'ed\'eric Chazal(参考訳) トポロジカルデータ分析(TDA)から生じるパーシステンス図(PD)など、現代の機械学習アプリケーションにおけるトポロジカル記述子の使用は、様々な領域において大きな可能性を示している。 しかしながら、それらのアプリケーションにおける実用的利用は、そのような記述子を正確に計算するのに要する計算の複雑さと、低レベルのオフレイアの比率に対する感度の2つの大きな制限によって妨げられることが多い。 本研究では、点クラウド上に構築されたPDの(ベクトル化)推定をRipsNetと呼ぶニューラルネットワークアーキテクチャに委ねることで、これらの2つの負担をデータ駆動環境で回避することを提案する。 与えられたデータセットでトレーニングされると、ripsnetは一般化能力を持って、テストデータのトポロジカル記述子を非常に効率的に見積もることができる。 さらに,1-ワッサーシュタイン距離の点でRipsNetが入力摂動に頑健であることが証明された。これはハウスドルフ安定性のみを享受するPDの標準計算よりも大きく改善され,ノイズ条件下では精度良く計算されたPDよりも大幅に優れる。 合成データと実世界のデータの両方にRipsNetが使われていることを示す。 私たちのオープンソース実装はhttps://github.com/h ensel-f/ripsnetで公開されています。

The use of topological descriptors in modern machine learning applications, such as Persistence Diagrams (PDs) arising from Topological Data Analysis (TDA), has shown great potential in various domains. However, their practical use in applications is often hindered by two major limitations: the computational complexity required to compute such descriptors exactly, and their sensitivity to even low-level proportions of outliers. In this work, we propose to bypass these two burdens in a data-driven setting by entrusting the estimation of (vectorization of) PDs built on top of point clouds to a neural network architecture that we call RipsNet. Once trained on a given data set, RipsNet can estimate topological descriptors on test data very efficiently with generalization capacity. Furthermore, we prove that RipsNet is robust to input perturbations in terms of the 1-Wasserstein distance, a major improvement over the standard computation of PDs that only enjoys Hausdorff stability, yielding RipsNet to substantially outperform exactly-computed PDs in noisy settings. We showcase the use of RipsNet on both synthetic and real-world data. Our open-source implementation is publicly available at https://github.com/h ensel-f/ripsnet and will be included in the Gudhi library.
翻訳日:2022-02-07 12:29:56 公開日:2022-02-04
# 自動転送: 経路転送可能な表現への学習

Auto-Transfer: Learning to Route Transferrable Representations ( http://arxiv.org/abs/2202.01011v3 )

ライセンス: Link先を確認
Keerthiram Murugesan, Vijay Sadashivaiah, Ronny Luss, Karthikeyan Shanmugam, Pin-Yu Chen, Amit Dhurandhar(参考訳) 不均一なソースとターゲットネットワークとタスクの間の知識転送は、多くのアプリケーションで大量の品質ラベル付きデータを得るのが難しいため、近年多くの注目を集めている。 既存のアプローチでは、ターゲットのディープニューラルネットワーク(DNN)特徴表現を、制限可能なソースのDNN特徴表現に近いものに制限するのが一般的である。 本稿では,ターゲットモデルの作成に意味のある方法で組み合わされた,適切なターゲット表現へのソース表現の経路を自動学習する,新しい敵対的多腕バンディット手法を提案する。 ソースデータセットがImageNetであるCUB200、Stanford Dogs、MIT67、Stanford40の4つのベンチマーク(ターゲット)イメージデータセットに対して、最先端の知識伝達手法と比較して、5%以上の精度向上が見られる。 ターゲットネットワークが注目する重要な機能の個々の例を、(最も近い)競合相手と比較して異なるレイヤで示すことで、転送方式の良さを質的に分析する。 また、より小さなターゲットデータセットでは、他の方法よりも改善が進み、転送学習の恩恵を受ける小さなデータアプリケーションにとって効果的なツールとなることも観察しています。

Knowledge transfer between heterogeneous source and target networks and tasks has received a lot of attention in recent times as large amounts of quality labelled data can be difficult to obtain in many applications. Existing approaches typically constrain the target deep neural network (DNN) feature representations to be close to the source DNNs feature representations, which can be limiting. We, in this paper, propose a novel adversarial multi-armed bandit approach which automatically learns to route source representations to appropriate target representations following which they are combined in meaningful ways to produce accurate target models. We see upwards of 5% accuracy improvements compared with the state-of-the-art knowledge transfer methods on four benchmark (target) image datasets CUB200, Stanford Dogs, MIT67, and Stanford40 where the source dataset is ImageNet. We qualitatively analyze the goodness of our transfer scheme by showing individual examples of the important features our target network focuses on in different layers compared with the (closest) competitors. We also observe that our improvement over other methods is higher for smaller target datasets making it an effective tool for small data applications that may benefit from transfer learning.
翻訳日:2022-02-07 12:29:01 公開日:2022-02-04
# 構造因果関係問題による因果推論

Causal Inference Through the Structural Causal Marginal Problem ( http://arxiv.org/abs/2202.01300v2 )

ライセンス: Link先を確認
Luigi Gresele, Julius von K\"ugelgen, Jonas M. K\"ubler, Elke Kirschbaum, Bernhard Sch\"olkopf, Dominik Janzing(参考訳) 本稿では,複数のデータセットからの情報をマージする手法を提案する。 統計的辺縁問題に対する因果的再構成を考察する: 異なるが重なり合う変数の集合に対する境界構造因果モデル(SCM)の集合が与えられた場合、辺縁モデルと反実的に矛盾する結合SCMの集合を決定する。 応答関数の定式化による分類的SCMに対するこのアプローチの形式化と,それが許容する辺縁および関節SCMの空間を減少させることを示す。 その結果,追加データによる統計的手法とは対照的に,追加変数による新たな偽造可能性の方法が浮き彫りになった。

We introduce an approach to counterfactual inference based on merging information from multiple datasets. We consider a causal reformulation of the statistical marginal problem: given a collection of marginal structural causal models (SCMs) over distinct but overlapping sets of variables, determine the set of joint SCMs that are counterfactually consistent with the marginal ones. We formalise this approach for categorical SCMs using the response function formulation and show that it reduces the space of allowed marginal and joint SCMs. Our work thus highlights a new mode of falsifiability through additional variables, in contrast to the statistical one via additional data.
翻訳日:2022-02-07 12:28:39 公開日:2022-02-04
# 浅層ニューラルネットワークの非バス一般化境界

Non-Vacuous Generalisation Bounds for Shallow Neural Networks ( http://arxiv.org/abs/2202.01627v2 )

ライセンス: Link先を確認
Felix Biggs, Benjamin Guedj(参考訳) 我々は、単一の隠蔽層を持つ特定の浅いニューラルネットワーク、すなわち、$L_2$正規化データを持ち、Sigmoid型ガウス型エラー関数("erf")アクティベーションまたはガウス型エラー線形ユニット(GELU)アクティベーションを持つものに焦点を当てた。 これらのネットワークに対しては、pac-ベイズ理論を通じて新たな一般化境界を導出する。 MNIST と Fashion-MNIST にバニラ確率勾配勾配をトレーニングした場合,我々の限界は経験的でない。

We focus on a specific class of shallow neural networks with a single hidden layer, namely those with $L_2$-normalised data and either a sigmoid-shaped Gaussian error function ("erf") activation or a Gaussian Error Linear Unit (GELU) activation. For these networks, we derive new generalisation bounds through the PAC-Bayesian theory; unlike most existing such bounds they apply to neural networks with deterministic rather than randomised parameters. Our bounds are empirically non-vacuous when the network is trained with vanilla stochastic gradient descent on MNIST and Fashion-MNIST.
翻訳日:2022-02-07 12:28:26 公開日:2022-02-04
# VOS:仮想アウトリア合成で知らないことを学ぶ

VOS: Learning What You Don't Know by Virtual Outlier Synthesis ( http://arxiv.org/abs/2202.01197v3 )

ライセンス: Link先を確認
Xuefeng Du, Zhaoning Wang, Mu Cai, Yixuan Li(参考訳) 分散(ood)検出は、ニューラルネットワークの安全な展開における重要性から、近年多くの注目を集めている。 重要な課題の1つは、モデルは未知のデータからの監視信号が欠如しており、その結果、OODデータに対する過信的な予測を生成することができることである。 以前のアプローチでは、モデル正規化のために実際の外れたデータセットに依存している。 本稿では,トレーニング中にモデルの判断境界を有意義に定式化できる仮想外れ値の適応的合成によるood検出のための新しいフレームワークvosを提案する。 具体的には、VOSは、特徴空間で推定されるクラス条件分布の低線状領域から仮想外周をサンプリングする。 また,idデータ間の不確実性空間を対比的に形成し,不確実性データを合成する,新しい未知認識学習目標を提案する。 VOSはオブジェクト検出モデルと画像分類モデルの両方で最先端の性能を達成し、FPR95を以前の最良の手法と比較して最大7.87%削減した。 コードはhttps://github.com/d eeplearning-wisc/vos で入手できる。

Out-of-distribution (OOD) detection has received much attention lately due to its importance in the safe deployment of neural networks. One of the key challenges is that models lack supervision signals from unknown data, and as a result, can produce overconfident predictions on OOD data. Previous approaches rely on real outlier datasets for model regularization, which can be costly and sometimes infeasible to obtain in practice. In this paper, we present VOS, a novel framework for OOD detection by adaptively synthesizing virtual outliers that can meaningfully regularize the model's decision boundary during training. Specifically, VOS samples virtual outliers from the low-likelihood region of the class-conditional distribution estimated in the feature space. Alongside, we introduce a novel unknown-aware training objective, which contrastively shapes the uncertainty space between the ID data and synthesized outlier data. VOS achieves state-of-the-art performance on both object detection and image classification models, reducing the FPR95 by up to 7.87% compared to the previous best method. Code is available at https://github.com/d eeplearning-wisc/vos .
翻訳日:2022-02-07 12:28:11 公開日:2022-02-04
# メタマータスクによる逆ロバスト特徴の生物学的プラウザビリティの探索

Finding Biological Plausibility for Adversarially Robust Features via Metameric Tasks ( http://arxiv.org/abs/2202.00838v2 )

ライセンス: Link先を確認
Anne Harrington and Arturo Deza(参考訳) 近年の研究では、敵対的ロバストネットワークによって学習された表現は、画像操作による非ロバストネットワークよりも人間の知覚的整合性が高いことが示唆されている。 人間の視覚知覚に近づきつつあるにもかかわらず、堅牢なDNN表現の制約が人間の視覚に見られる生物学的制約と一致するかどうかは不明である。 ヒトの視覚は周囲のテクスチャベース/土着統計表現に依存しているようで、視覚探索タスクにおける群集やパフォーマンスなどの現象を説明することが示されている。 人間の視力と対向的にロバストな最適化/表現がどう比較されるかを理解するために,メタメカの識別タスクを用いて心理物理学実験を行い,非ロバストな表現と周辺視のテクスチャ合成モデル(テクスチャ合成モデル)を比較した。 その結果, 強靭な表現とテクスチャモデル画像の識別性は, 周辺より遠くに刺激が現れるにつれ, ほぼ性能に低下した。 さらに、ロバスト画像とテクスチャモデル画像のパフォーマンスは、参加者間で類似した傾向を示し、非ロバスト表現のパフォーマンスは視野で最小限に変化した。 これらの結果から,(1)非ロバスト表現よりも頑健な表現が周辺計算を捕捉し,(2)非ロバスト表現よりも頑健な表現が周辺計算を捉えることが示唆された。 より広義には, 局所的テクスチャ要約統計表現は, 対向的摂動に人間的不変性をもたらす可能性があり, DNNにそのような表現を組み込むことは, 対向的強靭性などの有用な性質を生じさせる可能性が示唆された。

Recent work suggests that representations learned by adversarially robust networks are more human perceptually-aligned than non-robust networks via image manipulations. Despite appearing closer to human visual perception, it is unclear if the constraints in robust DNN representations match biological constraints found in human vision. Human vision seems to rely on texture-based/summar y statistic representations in the periphery, which have been shown to explain phenomena such as crowding and performance on visual search tasks. To understand how adversarially robust optimizations/repres entations compare to human vision, we performed a psychophysics experiment using a set of metameric discrimination tasks where we evaluated how well human observers could distinguish between images synthesized to match adversarially robust representations compared to non-robust representations and a texture synthesis model of peripheral vision (Texforms). We found that the discriminability of robust representation and texture model images decreased to near chance performance as stimuli were presented farther in the periphery. Moreover, performance on robust and texture-model images showed similar trends within participants, while performance on non-robust representations changed minimally across the visual field. These results together suggest that (1) adversarially robust representations capture peripheral computation better than non-robust representations and (2) robust representations capture peripheral computation similar to current state-of-the-art texture peripheral vision models. More broadly, our findings support the idea that localized texture summary statistic representations may drive human invariance to adversarial perturbations and that the incorporation of such representations in DNNs could give rise to useful properties like adversarial robustness.
翻訳日:2022-02-07 12:27:53 公開日:2022-02-04
# トランスフォーマーは強力な治療効果を推定できるのか?

Can Transformers be Strong Treatment Effect Estimators? ( http://arxiv.org/abs/2202.01336v2 )

ライセンス: Link先を確認
Yi-Fan Zhang, Hanlin Zhang, Zachary C. Lipton, Li Erran Li, Eric P. Xing(参考訳) 本稿では,多種多様な治療効果推定(tee)問題に対処するために,トランスフォーマーアーキテクチャに基づく汎用フレームワークを開発した。 本手法は,共変数が表型である場合とシーケンス(例えばテキスト)からなる場合の両方に適用可能であり,離散的,連続的,構造化的,あるいはドセージ関連的な処理を処理できる。 トランスフォーマーはすでに、自然言語やコンピュータビジョンなどの多様な分野において支配的な手法として登場しているが、TransTEE(Process Effect Estimators)による実験では、これらの帰納バイアスが因果効果を推定するための研究で発生する推定問題やデータセットにも有効であることを示した。 さらに,共変量と治療の独立性を促進し,さらに選択バイアスに対処すべく,トランステータで訓練したプロペンサリティスコアネットワークを提案する。 広範な実験を通して、TransTEEは幅広いベンチマークや設定よりもパラメータ効率が良く、競争ベースラインを著しく上回ることを示す。

In this paper, we develop a general framework based on the Transformer architecture to address a variety of challenging treatment effect estimation (TEE) problems. Our methods are applicable both when covariates are tabular and when they consist of sequences (e.g., in text), and can handle discrete, continuous, structured, or dosage-associated treatments. While Transformers have already emerged as dominant methods for diverse domains, including natural language and computer vision, our experiments with Transformers as Treatment Effect Estimators (TransTEE) demonstrate that these inductive biases are also effective on the sorts of estimation problems and datasets that arise in research aimed at estimating causal effects. Moreover, we propose a propensity score network that is trained with TransTEE in an adversarial manner to promote independence between covariates and treatments to further address selection bias. Through extensive experiments, we show that TransTEE significantly outperforms competitive baselines with greater parameter efficiency over a wide range of benchmarks and settings.
翻訳日:2022-02-07 12:27:16 公開日:2022-02-04
# MFA:短時間発話によるテキスト独立話者検証のためのマルチスケール周波数チャネル注意TDNN

MFA: TDNN with Multi-scale Frequency-channel Attention for Text-independent Speaker Verification with Short Utterances ( http://arxiv.org/abs/2202.01624v2 )

ライセンス: Link先を確認
Tianchi Liu, Rohan Kumar Das, Kong Aik Lee, Haizhou Li(参考訳) 時間遅延ニューラルネットワーク(TDNN)は、テキストに依存しない話者検証に対するニューラルネットワークの最先端の1つである。 しかし、任意の局所周波数領域の話者特性を捉えるために、多数のフィルタを必要とする。 さらに、このようなシステムの性能は短い発話シナリオで劣化する可能性がある。 これらの問題に対処するために、畳み込みニューラルネットワークとTDNNからなる新しいデュアルパス設計により、話者を異なるスケールで特徴付けるマルチスケール周波数チャネルアテンション(MFA)を提案する。 我々は,提案したMFAをVoxCelebデータベース上で評価し,パラメータと計算複雑性を低減しつつ,MFAを用いたフレームワークが最先端の性能を実現することを観察した。 さらに, MFA機構は, 短時間の音声による話者検証に有効であることがわかった。

The time delay neural network (TDNN) represents one of the state-of-the-art of neural solutions to text-independent speaker verification. However, they require a large number of filters to capture the speaker characteristics at any local frequency region. In addition, the performance of such systems may degrade under short utterance scenarios. To address these issues, we propose a multi-scale frequency-channel attention (MFA), where we characterize speakers at different scales through a novel dual-path design which consists of a convolutional neural network and TDNN. We evaluate the proposed MFA on the VoxCeleb database and observe that the proposed framework with MFA can achieve state-of-the-art performance while reducing parameters and computation complexity. Further, the MFA mechanism is found to be effective for speaker verification with short test utterances.
翻訳日:2022-02-07 12:26:55 公開日:2022-02-04
# 拡張 -- 入射放射場を用いた適応サンプリング

Extension -- Adaptive Sampling with Implicit Radiance Field ( http://arxiv.org/abs/2202.00855v2 )

ライセンス: Link先を確認
Yuchi Huo(参考訳) 本稿では,モンテカルロ適応光野サンプリング・再構成における最先端の進歩を深層強化学習を用いて探究し,その拡張の可能性について述べる。

This paper aims to explore and summarize the state-of-the-art progress in Monte Carlo adaptive light field sampling and reconstruction using deep reinforcement learning, with possible extension to it.
翻訳日:2022-02-07 12:26:42 公開日:2022-02-04