このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220518となっている論文です。

PDF登録状況(公開日: 20220518)

TitleAuthorsAbstract論文公表日・翻訳日
# 状態推定のための学習選択型センサ融合

Learning Selective Sensor Fusion for States Estimation ( http://arxiv.org/abs/1912.13077v2 )

ライセンス: Link先を確認
Changhao Chen, Stefano Rosa, Chris Xiaoxuan Lu, Bing Wang, Niki Trigoni, Andrew Markham(参考訳) 自律走行車や移動ロボットシステムは通常、冗長性を提供する複数のセンサーを備えている。 異なるセンサーからの観測を統合することで、これらの移動エージェントは環境を認識し、位置や方向などのシステム状態を推定することができる。 マルチモーダル・オドメトリー推定とローカライゼーションのためのディープラーニングアプローチが注目されているが、実世界のノイズや不完全なセンサ観測を扱うために必要となる、堅牢なセンサー融合の問題に焦点を合わせることは稀である。 さらに、現在のディープオドメトリーモデルは解釈可能性の欠如に苦しんでいる。 そこで本稿では,モノクロ画像や慣性測定,深度画像,ライダーポイント雲などのセンサモダリティの有用なペアに適用可能な,エンドツーエンドの選択的センサ融合モジュールであるselectfusionを提案する。 私たちのモデルは、特定のモダリティやタスクに限定されない統一的なフレームワークです。 予測の間、ネットワークは異なるセンサモダリティから潜在特徴の信頼性を評価し、スケールとグローバルポーズの両方で軌道を推定することができる。 特に, 決定論的ソフトフュージョンと確率的ハードフュージョンの2つの融合モジュールを提案し, 自明な直接フュージョンと比較して, 新たな戦略を包括的に検討する。 提案手法は, 一般のデータセットと, 合成オクルージョン, ノイズ, 欠落データ, およびセンサ間の時間的不一致を呈する漸進的劣化データセットの両方において, 融合戦略を広範囲に評価し, 最も信頼性の高い機能に対応するための異なる融合戦略の有効性について検討した。

Autonomous vehicles and mobile robotic systems are typically equipped with multiple sensors to provide redundancy. By integrating the observations from different sensors, these mobile agents are able to perceive the environment and estimate system states, e.g. locations and orientations. Although deep learning approaches for multimodal odometry estimation and localization have gained traction, they rarely focus on the issue of robust sensor fusion - a necessary consideration to deal with noisy or incomplete sensor observations in the real world. Moreover, current deep odometry models suffer from a lack of interpretability. To this extent, we propose SelectFusion, an end-to-end selective sensor fusion module which can be applied to useful pairs of sensor modalities such as monocular images and inertial measurements, depth images and LIDAR point clouds. Our model is a uniform framework that is not restricted to specific modality or task. During prediction, the network is able to assess the reliability of the latent features from different sensor modalities and estimate trajectory both at scale and global pose. In particular, we propose two fusion modules - a deterministic soft fusion and a stochastic hard fusion, and offer a comprehensive study of the new strategies compared to trivial direct fusion. We extensively evaluate all fusion strategies in both public datasets and on progressively degraded datasets that present synthetic occlusions, noisy and missing data and time misalignment between sensors, and we investigate the effectiveness of the different fusion strategies in attending the most reliable features, which in itself, provides insights into the operation of the various models.
翻訳日:2023-01-17 02:34:17 公開日:2022-05-18
# soqal: 一貫性に基づく心臓信号のアクティブラーニングのための選択的オラクル質問

SoQal: Selective Oracle Questioning for Consistency Based Active Learning of Cardiac Signals ( http://arxiv.org/abs/2004.09557v3 )

ライセンス: Link先を確認
Dani Kiyasseh, Tingting Zhu, David A. Clifton(参考訳) 臨床設定はしばしば、豊富なラベル付きデータと限られたラベル付きデータによって特徴づけられる。 これは一般的に、注釈を提供するためのオークル(例えば医師)に置かれる高い負担によって引き起こされる。 この負担を軽減する1つの方法は、アクティブラーニング(AL)によって行われる。 (a)取得及び取得 b)インフォメーション・アン・ラベルド・インスタンスのアノテーション。 従来の作業はこれらの要素のいずれかを独立して扱うが、我々は両方に対処するALフレームワークを提案する。 本研究では,インスタンスとネットワークパラメータの両方を乱し,ネットワーク出力確率分布の変化を定量化するサブフレームワークであるbalc(bayesian active learning by consistency)を提案する。 アノテーションとしてSoQalというサブフレームワークを提案し、獲得した各未ラベルインスタンスに対して、オラクルからラベルを要求するか、代わりに擬似ラベルを付けるかを動的に決定する。 BALCはBALDのような最先端の獲得機能より優れており,SoQalはノイズの多いオラクルの存在下でもベースライン法より優れていることを示す。

Clinical settings are often characterized by abundant unlabelled data and limited labelled data. This is typically driven by the high burden placed on oracles (e.g., physicians) to provide annotations. One way to mitigate this burden is via active learning (AL) which involves the (a) acquisition and (b) annotation of informative unlabelled instances. Whereas previous work addresses either one of these elements independently, we propose an AL framework that addresses both. For acquisition, we propose Bayesian Active Learning by Consistency (BALC), a sub-framework which perturbs both instances and network parameters and quantifies changes in the network output probability distribution. For annotation, we propose SoQal, a sub-framework that dynamically determines whether, for each acquired unlabelled instance, to request a label from an oracle or to pseudo-label it instead. We show that BALC can outperform start-of-the-art acquisition functions such as BALD, and SoQal outperforms baseline methods even in the presence of a noisy oracle.
翻訳日:2022-12-11 17:52:48 公開日:2022-05-18
# 確率型FedAvgとNesterov加速型FedAvgの統一線形高速化解析

A Unified Linear Speedup Analysis of Stochastic FedAvg and Nesterov Accelerated FedAvg ( http://arxiv.org/abs/2007.05690v3 )

ライセンス: Link先を確認
Zhaonan Qu, Kaixiang Lin, Zhaojian Li, Jiayu Zhou, Zhengyuan Zhou(参考訳) フェデレーション学習(fl)は、相互に保持されたデータを共有せずに、一組の参加者デバイスから共同でモデルを学習する。 ネットワーク全体にわたる非i.i.d.データの特徴、低いデバイス参加、高い通信コスト、およびデータがプライベートであるという義務は、flアルゴリズムの収束を理解する上で困難をもたらす。 本稿では,federated averaging (federated averaging, fedavg) に着目し,その収束率を統一的かつ包括的に検討する。 FedAvgは近年、新たな文献によって研究されているが、FedAvgの収束が完全に均一なFL設定における参加デバイス数とどのようにスケールするかという体系的な研究は、FedAvgの大規模FLシステムにおけるパフォーマンスに光を当てる重要な問題である。 我々は,FedAvgの収束保証を,強凸滑らかで凸滑らかな問題,過パラメータ化された強凸滑らかな問題の下で確立する統一解析を提供することで,このギャップを埋める。 コンバージェンスレートと通信効率の異なるFedAvgは,それぞれのケースで線形スピードアップを楽しむことを示す。 完全参加を前提とした分散最適化による線形スピードアップの結果はあったが,fedavgの線形スピードアップを統計学的およびシステム的不均一性の両方下で確立した最初の例である。 強い凸問題と凸問題に対しては、凸設定におけるFedAvgの運動量変動に対する最初の線形高速化保証であるNesterovAccelered FedAvgアルゴリズムの収束率も特徴付ける。 様々な環境でのアルゴリズムの実証研究は、我々の理論的な結果を支持した。

Federated learning (FL) learns a model jointly from a set of participating devices without sharing each other's privately held data. The characteristics of non-i.i.d. data across the network, low device participation, high communication costs, and the mandate that data remain private bring challenges in understanding the convergence of FL algorithms, particularly with regards to how convergence scales with the number of participating devices. In this paper, we focus on Federated Averaging (FedAvg)--arguably the most popular and effective FL algorithm class in use today--and provide a unified and comprehensive study of its convergence rate. Although FedAvg has recently been studied by an emerging line of literature, a systematic study of how FedAvg's convergence scales with the number of participating devices in the fully heterogeneous FL setting is lacking--a crucial issue whose answer would shed light on the performance of FedAvg in large FL systems in practice. We fill this gap by providing a unified analysis that establishes convergence guarantees for FedAvg under strongly convex smooth, convex smooth problems, and overparameterized strongly convex smooth problems. We show that FedAvg enjoys linear speedup in each case, although with different convergence rates and communication efficiencies. While there have been linear speedup results from distributed optimization that assumes full participation, ours are the first to establish linear speedup for FedAvg under both statistical and system heterogeneity. For strongly convex and convex problems, we also characterize the corresponding convergence rates for the Nesterov accelerated FedAvg algorithm, which are the first linear speedup guarantees for momentum variants of FedAvg in convex settings. Empirical studies of the algorithms in various settings have supported our theoretical results.
翻訳日:2022-11-11 13:09:30 公開日:2022-05-18
# 適度に監督された学習:定義、枠組み、一般性

Moderately Supervised Learning: Definition, Framework and Generality ( http://arxiv.org/abs/2008.11945v3 )

ライセンス: Link先を確認
Yongquan Yang(参考訳) 教師付き学習は多くの人工知能(AI)アプリケーションで顕著な成功を収めた。 現在の文献では、トレーニングデータセットに用意されたラベルの特性を参照することにより、教師あり学習(SL)と弱教師あり学習(WSL)に分類される。 SLはトレーニングデータセットが理想的なラベルで割り当てられている状況、WSLはトレーニングデータセットが非理想的なラベルで割り当てられている状況に関する。 しかしながら、与えられたラベルから学習可能なターゲットへの変換の性質を考慮せずに、SLの定義は比較的抽象的であり、特定のSLタスクに対して適切なソリューションを構築する上で重要ないくつかの詳細を隠蔽する。 したがって、これらの詳細をより具体的に明らかにすることが望ましい。 本稿では、SLの分類を拡大し、SLの中心的な役割を担うサブタイプを調べることで、この目標を達成することを試みる。 具体的には、与えられたラベルから学習可能なターゲットへの変換の性質を考慮して、SLを3つのより狭いサブタイプに分類する。 得られたラベルが理想的な状況に配慮した中等教育学習(MSL)サブタイプに注目するが、アノテーションの単純さのため、与えられたラベルを学習可能なターゲットに変換するには注意深い設計が必要である。 定義, フレームワーク, 一般性の観点から, MSL を包括的に説明し, SL の定義の抽象性によってどのような詳細が隠されているかを明らかにする。 一方,本論文のプレゼンテーション全体は,AIアプリケーションエンジニアが数学者のビジョンから解決すべき問題を見るためのチュートリアルも確立している。

Learning with supervision has achieved remarkable success in numerous artificial intelligence (AI) applications. In the current literature, by referring to the properties of the labels prepared for the training data set, learning with supervision is categorized as supervised learning (SL) and weakly supervised learning (WSL). SL concerns the situation where the training data set is assigned with ideal labels, while WSL concerns the situation where the training data set is assigned with non-ideal labels. However, without considering the properties of the transformation from the given labels to learnable targets, the definition of SL is relatively abstract, which conceals some details that can be critical to building the appropriate solutions for specific SL tasks. Thus, it is desirable to reveal these details more concretely. This article attempts to achieve this goal by expanding the categorization of SL and investigating the sub-type that plays the central role in SL. More specifically, taking into consideration the properties of the transformation from the given labels to learnable targets, we firstly categorize SL into three narrower sub-types. Then we focus on the moderately supervised learning (MSL) sub-type that concerns the situation where the given labels are ideal, but due to the simplicity in annotation, careful designs are required to transform the given labels into learnable targets. From the perspectives of the definition, framework and generality, we comprehensively illustrate MSL and reveal what details are concealed by the abstractness of the definition of SL. At the meantime, the whole presentation of this paper as well establishes a tutorial for AI application engineers to refer to viewing a problem to be solved from the mathematicians' vision.
翻訳日:2022-10-24 07:35:18 公開日:2022-05-18
# 医学的深層学習--体系的メタレビュー

Medical Deep Learning -- A systematic Meta-Review ( http://arxiv.org/abs/2010.14881v5 )

ライセンス: Link先を確認
Jan Egger, Christina Gsaxner, Antonio Pepe, Kelsey L. Pomykala, Frederic Jonske, Manuel Kurz, Jianning Li, Jens Kleesiek(参考訳) ディープラーニング(DL)はここ数年、いくつかの科学分野に大きな影響を与えてきた。 例えば、画像処理と解析において、DLアルゴリズムは他の最先端の手法よりも優れていた。 さらに、DLは自動運転などのタスクで最先端の結果を提供し、以前の試みを抜いた。 例えば、オブジェクト認識やゲームでは、DLが人間よりも優れています。 DLは医療分野でも大きな可能性を秘めている。 大量の患者の記録やデータの収集,パーソナライズされた治療の傾向などにより,医療情報の自動的かつ信頼性の高い処理と分析が求められている。 患者データは、病院やプライベートプラクティスなどの臨床センターで収集されるだけでなく、モバイルヘルスケアアプリやオンラインウェブサイトからも収集される。 収集した患者データと最近のDL分野の成長は、研究努力の増大をもたらしている。 Q2/2020では、検索エンジンPubMedが「深層学習」という用語ですでに11,000件以上の結果を返しており、これらの出版物の約90%は過去3年間のものである。 しかし、PubMedは医療分野で最大の検索エンジンだが、すべての医療関連出版物をカバーしていない。 そのため、「医学的深層学習」の分野を概観することはほぼ不可能であり、医学的サブ分野の完全な概観を得ることがますます難しくなってきている。 それにもかかわらず、ここ数年で医療用dlに関するレビューや調査記事がいくつか出版されている。 それらは一般的に、特定の病態を含む医療画像の分析など、特定の医療シナリオに焦点を当てている。 本論文は,これらの調査を基礎として,医療用DLサーベイの高度かつ体系的なメタレビューを初めて提供することを目的とする。

Deep learning (DL) has remarkably impacted several different scientific disciplines over the last few years. E.g., in image processing and analysis, DL algorithms were able to outperform other cutting-edge methods. Additionally, DL has delivered state-of-the-art results in tasks like autonomous driving, outclassing previous attempts. There are even instances where DL outperformed humans, for example with object recognition and gaming. DL is also showing vast potential in the medical domain. With the collection of large quantities of patient records and data, and a trend towards personalized treatments, there is a great need for automated and reliable processing and analysis of health information. Patient data is not only collected in clinical centers, like hospitals and private practices, but also by mobile healthcare apps or online websites. The abundance of collected patient data and the recent growth in the DL field has resulted in a large increase in research efforts. In Q2/2020, the search engine PubMed returned already over 11,000 results for the search term 'deep learning', and around 90% of these publications are from the last three years. However, even though PubMed represents the largest search engine in the medical field, it does not cover all medical-related publications. Hence, a complete overview of the field of 'medical deep learning' is almost impossible to obtain and acquiring a full overview of medical sub-fields is becoming increasingly more difficult. Nevertheless, several review and survey articles about medical DL have been published within the last few years. They focus, in general, on specific medical scenarios, like the analysis of medical images containing specific pathologies. With these surveys as a foundation, the aim of this article is to provide the first high-level, systematic meta-review of medical DL surveys.
翻訳日:2022-10-02 05:13:56 公開日:2022-05-18
# (参考訳) ナレッジレビューによる知識の蒸留 [Re]

[Re] Distilling Knowledge via Knowledge Review ( http://arxiv.org/abs/2205.11246v1 )

ライセンス: CC BY 4.0
Apoorva Verma, Pranjal Gulati, Sarthak Gupta(参考訳) 本研究は,ChenらによるCVPR '21論文'Distilling Knowledge via Knowledge Review' において,実験結果を再現し,知識蒸留のためのレビューフレームワークの堅牢性を分析することを目的としている。 知識蒸留における従来の研究は、学生と教師の同一レベル間の接続経路のみを研究しており、クロスレベル接続経路は検討されていない。 chenらは、複数の教師層を使って単一の学生層をトレーニングするための新しい残差学習フレームワークを提案している。 彼らはまた、各レベルにまたがる特徴マップを凝縮する新しい融合モジュールと、異なるレベルに格納された特徴情報を比較してパフォーマンスを向上させるロス関数を設計した。 本研究は,学生モデル間での試験精度の向上を一貫して検証し,アブレーション研究と新しい実験によって導入された新しいモジュールの有効性について検討する。

This effort aims to reproduce the results of experiments and analyze the robustness of the review framework for knowledge distillation introduced in the CVPR '21 paper 'Distilling Knowledge via Knowledge Review' by Chen et al. Previous works in knowledge distillation only studied connections paths between the same levels of the student and the teacher, and cross-level connection paths had not been considered. Chen et al. propose a new residual learning framework to train a single student layer using multiple teacher layers. They also design a novel fusion module to condense feature maps across levels and a loss function to compare feature information stored across different levels to improve performance. In this work, we consistently verify the improvements in test accuracy across student models as reported in the original paper and study the effectiveness of the novel modules introduced by conducting ablation studies and new experiments.
翻訳日:2022-06-06 06:21:33 公開日:2022-05-18
# (参考訳) 医学研究におけるエージェントベースモデリング 健康経済学の例

Agent-Based modeling in Medical Research. Example in Health Economics ( http://arxiv.org/abs/2205.10131v1 )

ライセンス: CC BY 4.0
Philippe Saint-Pierre and Romain Demeulemeester and Nad\`ege Costa and Nicolas Savy(参考訳) 本章では医学研究分野におけるエージェント・ベース・モデリングの主流について述べる。 一般的な図は、進化モデルと呼ばれる進化モデルによって観察される患者(仮想または現実)のコホートで構成されている。 シナリオは、異なるモデルのパラメータを変更することで探すことができる。 本章では,仮想患者生成技術と実行モデルの例を紹介する。 これらのモデルの利点と欠点、および避けるべき落とし穴について議論する。 最後に、HIV治療に伴うコストに対する一般的な治療の浸透率の影響に関する医学・経済研究への応用について述べる。

This chapter presents the main lines of agent based modeling in the field of medical research. The general diagram consists of a cohort of patients (virtual or real) whose evolution is observed by means of so-called evolution models. Scenarios can then be explored by varying the parameters of the different models. This chapter presents techniques for virtual patient generation and examples of execution models. The advantages and disadvantages of these models are discussed as well as the pitfalls to be avoided. Finally, an application to the medico-economic study of the impact of the penetration rate of generic versions of treatments on the costs associated with HIV treatment is presented.
翻訳日:2022-06-06 06:13:45 公開日:2022-05-18
# 微視的車両軌跡データを用いた連続車線変更時の追従者に対する刺激効果の検討

Exploring the stimulative effect on following drivers in a consecutive lane-change using microscopic vehicle trajectory data ( http://arxiv.org/abs/2205.11252v1 )

ライセンス: Link先を確認
Ruifeng Gu(参考訳) 不適切な車線変更行動は、交通流の崩壊と様々な種類の衝突を引き起こす可能性がある。 本研究では,複数車両の車線変更行動と,連続する車線変更シナリオにおける追従者に対する刺激効果について検討する。 The microscopic trajectory data from the dataset are used for driving behavior analysis.Two discretionary lane-changing vehicle groups constitute a consecutive lane-changing scenario, and not only distance- and speed-related factors but also driving behaviors are taken into account to examine the impacts on the utility of following lane-changing vehicles.A random parameters logit model is developed to capture the driver psychological heterogeneity in the consecutive lane-changing situation.Furthermore, a lane-changing utility prediction model is established based on three supervised learning algorithms to detect the improper lane-changing decision. その結果,(1)車線変更後の車線変更行動は,車線変更後の車線変更車両に有意な悪影響を及ぼし,(2)連続する車線変更状況において刺激効果が存在し,その影響はドライバの心理的活動によって異様であり,(3)不適切な車線変更判断の検出には有用性予測モデルが有効であることが示された。

Improper lane-changing behaviors may result in breakdown of traffic flow and the occurrence of various types of collisions. This study investigates lane-changing behaviors of multiple vehicles and the stimulative effect on following drivers in a consecutive lane-changing scenario. The microscopic trajectory data from the dataset are used for driving behavior analysis.Two discretionary lane-changing vehicle groups constitute a consecutive lane-changing scenario, and not only distance- and speed-related factors but also driving behaviors are taken into account to examine the impacts on the utility of following lane-changing vehicles.A random parameters logit model is developed to capture the driver psychological heterogeneity in the consecutive lane-changing situation.Furthermore, a lane-changing utility prediction model is established based on three supervised learning algorithms to detect the improper lane-changing decision. Results indicate that (1) the consecutive lane-changing behaviors have a significant negative effect on the following lane-changing vehicles after lane-change; (2) the stimulative effect exists in a consecutive lane-change situation and its influence is heterogeneous due to different psychological activities of drivers; and (3) the utility prediction model can be used to detect an improper lane-changing decision.
翻訳日:2022-05-29 20:41:27 公開日:2022-05-18
# マトリックスファクトリゼーションのための高効率混合次元埋め込み

Efficient Mixed Dimension Embeddings for Matrix Factorization ( http://arxiv.org/abs/2205.11248v1 )

ライセンス: Link先を確認
Dmitrii Beloborodov, Andrei Zimovnov, Petr Molodyk, Dmitrii Kirillov (Yandex)(参考訳) 推薦システムの分野におけるニューラルネットワークアプローチの優位性にもかかわらず、行列因数分解や二次的損失といった単純な手法は、いくつかの理由からまだ業界で使われている。 これらのモデルは、最小の平方形を交互にトレーニングすることで、非常に並列に実装できるため、現実世界のデータセットから数十億のイベントを活用できる。 大規模レコメンダシステムでは,ユーザとアイテムの分布に厳格な人気があるため,パラメータ数とレアユーザとアイテムのオーバーフィットを低減すべく,スパースや混合次元,あるいは共有埋め込みの実装に多くの研究が集中している。 本稿では, 交互最小二乗法を用いて並列に最適化できる, 混合次元埋め込みを持つ2つの行列分解モデルを提案する。

Despite the prominence of neural network approaches in the field of recommender systems, simple methods such as matrix factorization with quadratic loss are still used in industry for several reasons. These models can be trained with alternating least squares, which makes them easy to implement in a massively parallel manner, thus making it possible to utilize billions of events from real-world datasets. Large-scale recommender systems need to account for severe popularity skew in the distributions of users and items, so a lot of research is focused on implementing sparse, mixed dimension or shared embeddings to reduce both the number of parameters and overfitting on rare users and items. In this paper we propose two matrix factorization models with mixed dimension embeddings, which can be optimized in a massively parallel fashion using the alternating least squares approach.
翻訳日:2022-05-29 20:24:08 公開日:2022-05-18
# 研究論文集のトピックセグメンテーション

Topic Segmentation of Research Article Collections ( http://arxiv.org/abs/2205.11249v1 )

ライセンス: Link先を確認
Erion \c{C}ano and Benjamin Roth(参考訳) 名前付きエンティティ認識やテキスト要約,キーワード生成といったタスクを実験するための重要なリソースであるため,Webから収集した研究論文の収集が近年一般的になっている。 実際、ある種の実験は、大きくてトポロジ的に構造化されたコレクションを必要とし、記録は別々の研究分野に割り当てられている。 残念ながら、現在公開されている研究論文のコレクションは、小さく、不均一で、構造化されていない。 本研究では,約700万の論文データレコードをクロールし,マルチトピックデータセットを作成する,論文データ収集のトピックセグメンテーションを行う。 データレコードから抽出されたトピックの分類を構築し、その分類から対応するトピックを各ドキュメントにアノテートする。 結果として、この新たに提案されたデータセットを、様々な分野の文書の異種コレクションとして、あるいは、一つの研究トピックの同種コレクションとして、2つのモードで使用することができる。

Collections of research article data harvested from the web have become common recently since they are important resources for experimenting on tasks such as named entity recognition, text summarization, or keyword generation. In fact, certain types of experiments require collections that are both large and topically structured, with records assigned to separate research disciplines. Unfortunately, the current collections of publicly available research articles are either small or heterogeneous and unstructured. In this work, we perform topic segmentation of a paper data collection that we crawled and produce a multitopic dataset of roughly seven million paper data records. We construct a taxonomy of topics extracted from the data records and then annotate each document with its corresponding topic from that taxonomy. As a result, it is possible to use this newly proposed dataset in two modalities: as a heterogeneous collection of documents from various disciplines or as a set of homogeneous collections, each from a single research topic.
翻訳日:2022-05-29 20:23:29 公開日:2022-05-18
# (参考訳) 分散化とインセンティブ付フェデレーション学習フレームワーク: 体系的文献レビュー

Decentral and Incentivized Federated Learning Frameworks: A Systematic Literature Review ( http://arxiv.org/abs/2205.07855v2 )

ライセンス: CC BY 4.0
Leon Witt, Mathis Heyer, Kentaroh Toyoda, Wojciech Samek and Dan Li(参考訳) フェデレーテッド・ラーニング(FL)の出現は、多数のIoT、モバイル、エッジデバイスの計算能力を各デバイスを離れることなく活用し、設計によるプライバシを確保する可能性を備えた、並列かつ機密の分散機械学習(ML)の新しいパラダイムに着火した。 しかし、既に信頼できるエンティティの小さなグループを超えて、大規模な採用に向けて、この新しいパラダイムを拡大するには、フェデレーション学習フレームワーク(flf)が必要となる。 (i)真に分散し、かつ (ii)参加者にインセンティブを与える必要がある。 これは、分散学習とインセンティブ学習の両方の領域における総合的なflfを分析する最初の体系的な文献である。 422の出版物が検索され、主要な12の科学データベースを検索した。 最終的に40項目が,詳細な検討のための体系的レビューとフィルタリングプロセスの後に残った。 より分散されたセキュアなAIの未来を導く大きな可能性を秘めているが、分析されたFLFはいずれもプロダクション対応ではない。 アプローチはユースケース、システム設計、問題解決、徹底といった点で大きく異なります。 我々は、flf間の差異を分類し、定量化し、現在の作品の限界を暴露し、この領域における研究の今後の方向性を導出するための体系的アプローチを初めて提供する。

The advent of Federated Learning (FL) has ignited a new paradigm for parallel and confidential decentralized Machine Learning (ML) with the potential of utilizing the computational power of a vast number of IoT, mobile and edge devices without data leaving the respective device, ensuring privacy by design. Yet, in order to scale this new paradigm beyond small groups of already entrusted entities towards mass adoption, the Federated Learning Framework (FLF) has to become (i) truly decentralized and (ii) participants have to be incentivized. This is the first systematic literature review analyzing holistic FLFs in the domain of both, decentralized and incentivized federated learning. 422 publications were retrieved, by querying 12 major scientific databases. Finally, 40 articles remained after a systematic review and filtering process for in-depth examination. Although having massive potential to direct the future of a more distributed and secure AI, none of the analyzed FLF is production-ready. The approaches vary heavily in terms of use-cases, system design, solved issues and thoroughness. We are the first to provide a systematic approach to classify and quantify differences between FLF, exposing limitations of current works and derive future directions for research in this novel domain.
翻訳日:2022-05-22 15:40:16 公開日:2022-05-18
# (参考訳) 近隣混合体験リプレイ:連続制御作業におけるサンプル効率改善のための局所凸補間

Neighborhood Mixup Experience Replay: Local Convex Interpolation for Improved Sample Efficiency in Continuous Control Tasks ( http://arxiv.org/abs/2205.09117v1 )

ライセンス: CC BY 4.0
Ryan Sander, Wilko Schwarting, Tim Seyde, Igor Gilitschenski, Sertac Karaman, Daniela Rus(参考訳) 深層強化学習エージェントの試料効率向上には,経験的再生が重要な役割を担っている。 近年,Mixup (Zhang et al., 2018) を用いた合成試料生成による試料効率の向上が提案されている。 NMER(Neighborhood Mixup Experience Replay)は、状態-作用空間における近傍の遷移を補間する幾何学的グラウンドのリプレイバッファである。 NMER は遷移多様体の局所線型近似を、ビシナル状態作用を持つ遷移間の混合のみを適用することによって保存する。 NMERの下では、ある遷移の状態行動隣人の集合は動的でエピソード非依存であり、その結果、エピソード間補間による政策の一般化を促進する。 我々はこのアプローチを,最近のオフポリシー深層強化学習アルゴリズムと組み合わせ,連続制御環境の評価を行う。 我々はNMERがベースラインリプレイバッファよりも平均94%(TD3)と29%(SAC)のサンプリング効率を向上させることを観察し、エージェントが過去の経験を効果的に再結合し、限られたデータから学習できるようにする。

Experience replay plays a crucial role in improving the sample efficiency of deep reinforcement learning agents. Recent advances in experience replay propose using Mixup (Zhang et al., 2018) to further improve sample efficiency via synthetic sample generation. We build upon this technique with Neighborhood Mixup Experience Replay (NMER), a geometrically-grounded replay buffer that interpolates transitions with their closest neighbors in state-action space. NMER preserves a locally linear approximation of the transition manifold by only applying Mixup between transitions with vicinal state-action features. Under NMER, a given transition's set of state action neighbors is dynamic and episode agnostic, in turn encouraging greater policy generalizability via inter-episode interpolation. We combine our approach with recent off-policy deep reinforcement learning algorithms and evaluate on continuous control environments. We observe that NMER improves sample efficiency by an average 94% (TD3) and 29% (SAC) over baseline replay buffers, enabling agents to effectively recombine previous experiences and learn from limited data.
翻訳日:2022-05-21 14:42:08 公開日:2022-05-18
# (参考訳) 連合学習: 応用,課題,今後の展望

Federated Learning: Applications, Challenges and Future Scopes ( http://arxiv.org/abs/2205.09513v1 )

ライセンス: CC BY 4.0
Subrato Bharati, M. Rubaiyat Hossain Mondal, Prajoy Podder, V. B. Surya Prasath(参考訳) フェデレーション・ラーニング(英語: federated learning、fl)は、中央アグリゲータが複数のクライアントの機械学習問題を解決する努力を調整するシステムである。 この設定により、プライバシを保護するためにトレーニングデータを分散することができる。 本研究の目的は、医療に焦点をあてたFLシステムの概要を提供することである。 flはフレームワーク、アーキテクチャ、アプリケーションに基づいてここで評価される。 FLは、中央アグリゲータサーバを介して、共有グローバルディープラーニング(DL)モデルを用いて、先述の問題を解決する。 本稿では,最近の展開を概観し,fl研究の急速な発展に触発された未解決問題の包括的リストを提供する。 FLの文脈では、セキュアなマルチパーティ計算、同型暗号化、微分プライバシー、確率勾配降下など、いくつかのプライバシ手法が述べられている。 さらに、水平および垂直のFLやフェデレーション・トランスファー・ラーニングなどの様々なFLクラスをレビューする。 flは無線通信、サービスレコメンデーション、インテリジェント医療診断システム、医療に応用されており、いずれも本稿で議論されている。 また,プライバシ保護,通信コスト,システム不均一性,信頼性の低いモデルアップロードなど,既存のfl課題の徹底的なレビューを行い,今後の研究動向について述べる。

Federated learning (FL) is a system in which a central aggregator coordinates the efforts of multiple clients to solve machine learning problems. This setting allows training data to be dispersed in order to protect privacy. The purpose of this paper is to provide an overview of FL systems with a focus on healthcare. FL is evaluated here based on its frameworks, architectures, and applications. It is shown here that FL solves the preceding issues with a shared global deep learning (DL) model via a central aggregator server. This paper examines recent developments and provides a comprehensive list of unresolved issues, inspired by the rapid growth of FL research. In the context of FL, several privacy methods are described, including secure multiparty computation, homomorphic encryption, differential privacy, and stochastic gradient descent. Furthermore, a review of various FL classes, such as horizontal and vertical FL and federated transfer learning, is provided. FL has applications in wireless communication, service recommendation, intelligent medical diagnosis systems, and healthcare, all of which are discussed in this paper. We also present a thorough review of existing FL challenges, such as privacy protection, communication cost, system heterogeneity, and unreliable model upload, followed by future research directions.
翻訳日:2022-05-21 14:17:14 公開日:2022-05-18
# (参考訳) ARM CPU上の二元CNNと三元CNNの高速行列乗算

Fast matrix multiplication for binary and ternary CNNs on ARM CPU ( http://arxiv.org/abs/2205.09120v1 )

ライセンス: CC BY 4.0
Anton Trusov, Elena Limonova, Dmitry Nikolaev, Vladimir V. Arlazarov(参考訳) 低ビット量子化ニューラルネットワークは、メモリと計算資源の両方の消費を著しく減少させるため、実用的な応用に大きな関心を持っている。 バイナリニューラルネットワークは、重みとアクティベーションに1ビットしか必要としないため、メモリと計算効率が良く、ブール論理とビットカウント演算を用いて計算できる。 3次重み、アクティベーション、二次重み、三次アクティベーションを持つQNNは、低ビット幅を維持しながら、BNNと比べて認識品質を向上させることを目的としている。 しかしながら、それらの効率的な実装は通常ASICやFPGAで検討されており、実際のタスクにおける適用性を制限している。 同時に、効率的な認識が最も求められている分野の1つは、彼らのCPUを使用したモバイルデバイスでの認識である。 しかしながら、TBNとTNNの高速実装は知られておらず、BNNの推論のためのdaBNNライブラリのみである。 本稿では,ARM アーキテクチャを持つモバイルデバイスに対して,三進,三進,二進の行列乗算を高速に行うアルゴリズムを提案する。 本アルゴリズムでは,3進重みを2ビット符号化と2進法で表現する。 これにより、ARM NEON SIMD拡張を用いて、128ビットで同時に計算できるブール論理演算に行列乗法を置き換えることができます。 行列乗算結果は16ビット整数レジスタに蓄積される。 また、左行列と右行列の値の特殊順序付けも使用します。 これらすべてにより、daBNNのアルゴリズムと比較して、負荷とストアの数を最小化しながら、行列製品を効率的に計算できる。 我々のアルゴリズムは、TNN、TBN、BNNの畳み込み層と完全に接続された層を推論するために利用できる。 ARM Cortex-A73 CPU上で実験的に評価し,その推論速度を実精度,8ビット,4ビットの量子化行列乗算の効率的な実装と比較した。

Low-bit quantized neural networks are of great interest in practical applications because they significantly reduce the consumption of both memory and computational resources. Binary neural networks are memory and computationally efficient as they require only one bit per weight and activation and can be computed using Boolean logic and bit count operations. QNNs with ternary weights and activations and binary weights and ternary activations aim to improve recognition quality compared to BNNs while preserving low bit-width. However, their efficient implementation is usually considered on ASICs and FPGAs, limiting their applicability in real-life tasks. At the same time, one of the areas where efficient recognition is most in demand is recognition on mobile devices using their CPUs. However, there are no known fast implementations of TBNs and TNN, only the daBNN library for BNNs inference. In this paper, we propose novel fast algorithms of ternary, ternary-binary, and binary matrix multiplication for mobile devices with ARM architecture. In our algorithms, ternary weights are represented using 2-bit encoding and binary - using one bit. It allows us to replace matrix multiplication with Boolean logic operations that can be computed on 128-bits simultaneously, using ARM NEON SIMD extension. The matrix multiplication results are accumulated in 16-bit integer registers. We also use special reordering of values in left and right matrices. All that allows us to efficiently compute a matrix product while minimizing the number of loads and stores compared to the algorithm from daBNN. Our algorithms can be used to implement inference of convolutional and fully connected layers of TNNs, TBNs, and BNNs. We evaluate them experimentally on ARM Cortex-A73 CPU and compare their inference speed to efficient implementations of full-precision, 8-bit, and 4-bit quantized matrix multiplications.
翻訳日:2022-05-21 13:28:33 公開日:2022-05-18
# (参考訳) DDXPlus: 医療自動診断のための新しいデータセット

DDXPlus: A new Dataset for Medical Automatic Diagnosis ( http://arxiv.org/abs/2205.09148v1 )

ライセンス: CC BY 4.0
Arsene Fansi Tchango, Zhi Wen, Rishab Goel, Joumana Ghosn(参考訳) 遠隔医療における医師の支援を目的とした,機械学習研究文献における自動診断(AD)と自動症状検出(ASD)システムへの関心が急速に高まっている。 これらのシステムは、患者と対話し、懸念に関連する証拠を収集し、基礎疾患に関する予測を行うように設計されている。 医師は最終的な決定を下す前に、証拠や予測を含む相互作用をレビューした。 近年の進歩にもかかわらず、ADおよびASDシステムの設計、すなわち鑑別診断において、医師と患者との相互作用が欠落している。 その欠如は、モデルがトレーニングすべきそのような情報を含むデータセットの欠如によるところが大きい。 そこで本研究では,各患者に対して,基礎的真理病理学とともに鑑別診断を含む大規模合成データセットを提案する。 さらに、このデータセットには、より多くの病理や、シントムや前兆が含まれる。 概念実証として,既存のadおよびasdシステムを拡張して微分診断を取り入れ,訓練信号における差分の利用が差分予測を学習する上で不可欠であることを実証的に証明する。 データセットはhttps://github.com/bruzwen/ddxplusで利用可能

There has been rapidly growing interests in Automatic Diagnosis (AD) and Automatic Symptom Detection (ASD) systems in the machine learning research literature, aiming to assist doctors in telemedicine services. These systems are designed to interact with patients, collect evidence relevant to their concerns, and make predictions about the underlying diseases. Doctors would review the interaction, including the evidence and the predictions, before making their final decisions. Despite the recent progress, an important piece of doctors' interactions with patients is missing in the design of AD and ASD systems, namely the differential diagnosis. Its absence is largely due to the lack of datasets that include such information for models to train on. In this work, we present a large-scale synthetic dataset that includes a differential diagnosis, along with the ground truth pathology, for each patient. In addition, this dataset includes more pathologies, as well as types of symtoms and antecedents. As a proof-of-concept, we extend several existing AD and ASD systems to incorporate differential diagnosis, and provide empirical evidence that using differentials in training signals is essential for such systems to learn to predict differentials. Dataset available at https://github.com/bruzwen/ddxplus
翻訳日:2022-05-21 13:11:44 公開日:2022-05-18
# (参考訳) 逆分布を用いたベイズニューラルネットワークのバックドア攻撃

Backdoor Attacks on Bayesian Neural Networks using Reverse Distribution ( http://arxiv.org/abs/2205.09167v1 )

ライセンス: CC BY 4.0
Zhixin Pan and Prabhat Mishra(参考訳) コストと市場への時間的制約のため、多くの業界は機械学習モデル(ML)のトレーニングプロセスを、ML-asa-Service(MLaaS)として知られるサードパーティのクラウドサービスプロバイダにアウトソースしている。 MLaaSは、極めて稀な(アタック・チョーゼン)シナリオでのみ誤った予測を生成するために、バックドアのMLモデルを提供する。 ベイズニューラルネットワーク(BNN)は本質的にバックドア攻撃に対して免疫を持ち、重量は不確実性を定量化するための限界分布として設計されている。 本稿では,効果的な学習と逆分布のターゲット利用に基づく新しいバックドア攻撃を提案する。 この論文は3つの重要な貢献をする。 1)我々の知る限りでは、これはBNNの堅牢性を効果的に破壊できる最初のバックドア攻撃である。 2)トリガーの起動時に元の分布をキャンセルするために逆分布を生成する。 (3)BNNにおける確率分布をマージする効率的な解を提案する。 各種ベンチマークデータセットによる実験結果から,提案した攻撃が100%の攻撃成功率(ASR)を達成可能であるのに対し,最先端攻撃のASRは60%以下であることがわかった。

Due to cost and time-to-market constraints, many industries outsource the training process of machine learning models (ML) to third-party cloud service providers, popularly known as ML-asa-Service (MLaaS). MLaaS creates opportunity for an adversary to provide users with backdoored ML models to produce incorrect predictions only in extremely rare (attacker-chosen) scenarios. Bayesian neural networks (BNN) are inherently immune against backdoor attacks since the weights are designed to be marginal distributions to quantify the uncertainty. In this paper, we propose a novel backdoor attack based on effective learning and targeted utilization of reverse distribution. This paper makes three important contributions. (1) To the best of our knowledge, this is the first backdoor attack that can effectively break the robustness of BNNs. (2) We produce reverse distributions to cancel the original distributions when the trigger is activated. (3) We propose an efficient solution for merging probability distributions in BNNs. Experimental results on diverse benchmark datasets demonstrate that our proposed attack can achieve the attack success rate (ASR) of 100%, while the ASR of the state-of-the-art attacks is lower than 60%.
翻訳日:2022-05-21 13:00:29 公開日:2022-05-18
# (参考訳) データ駆動学習と実用的推論から生じる色過修正

Color Overmodification Emerges from Data-Driven Learning and Pragmatic Reasoning ( http://arxiv.org/abs/2205.09172v1 )

ライセンス: CC BY 4.0
Fei Fang, Kunal Sinha, Noah D. Goodman, Christopher Potts, Elisa Kreiss(参考訳) 話者の指示表現は、実用的言語の使用の性質を照らすのに役立つ方法で、しばしばコミュニケーションの理想から逸脱する。 話者がコミュニケーションの目的に対して冗長な修飾子を使用する過度修飾のパターンは、この点において特に有益であることが証明されている。 これらのパターンは、話者が複雑な方法で露出する環境によって形成される可能性が高い。 残念ながら、人間の言語習得においてこれらの要因を体系的に操作することは不可能である。 本稿では,ニューラルネットワーク(NN)を学習エージェントとして活用することで,この制限に対処することを提案する。 NNのアーキテクチャを一定に保ちながら、これらのエージェントを訓練する環境を体系的に変化させることで、過度な修正は、頻度の低い環境特性や健全な環境特性に結びつくことを示す。 これらの知見は,実用的コミュニケーションの確率論的モデルにおいて自然に現れることを示す。

Speakers' referential expressions often depart from communicative ideals in ways that help illuminate the nature of pragmatic language use. Patterns of overmodification, in which a speaker uses a modifier that is redundant given their communicative goal, have proven especially informative in this regard. It seems likely that these patterns are shaped by the environment a speaker is exposed to in complex ways. Unfortunately, systematically manipulating these factors during human language acquisition is impossible. In this paper, we propose to address this limitation by adopting neural networks (NN) as learning agents. By systematically varying the environments in which these agents are trained, while keeping the NN architecture constant, we show that overmodification is more likely with environmental features that are infrequent or salient. We show that these findings emerge naturally in the context of a probabilistic model of pragmatic communication.
翻訳日:2022-05-21 12:48:04 公開日:2022-05-18
# (参考訳) PreQuEL: 先進的な機械翻訳出力の品質評価

PreQuEL: Quality Estimation of Machine Translation Outputs in Advance ( http://arxiv.org/abs/2205.09178v1 )

ライセンス: CC BY 4.0
Shachar Don-Yehiya, Leshem Choshen, Omri Abend(参考訳) 本稿では,PreQuEL,Pre-(Quality-Estimation) Learningを提案する。 PreQuELシステムは、実際の翻訳とは無関係に、与えられた文がどの程度翻訳されるかを予測し、翻訳品質が低い場合に不要なリソース割り当てを誘発する。 PreQuELは、特定のMTシステム(例えば、いくつかの産業サービス)に対して定義することができる。 理論的な観点から、PreQuELは、文章を機械翻訳しにくくする、ソーステキスト、トレースプロパティ、おそらく言語的特徴に焦点をあてる。 タスクのベースラインモデルを開発し,その性能を解析する。 また,データ拡張手法(並列コーパスから)を開発し,結果を大幅に改善する。 また,この拡張手法により,品質評価タスクの性能も向上することを示す。 本稿では,本モデルが感応する入力テキストの特性を,課題セットや異なる言語で検証することによって検討する。 本研究は, 構文的・意味的区別を意識し, 標準NLP機能の重要性を過度に強調し, 相関づけていると結論づける。

We present the task of PreQuEL, Pre-(Quality-Estimation) Learning. A PreQuEL system predicts how well a given sentence will be translated, without recourse to the actual translation, thus eschewing unnecessary resource allocation when translation quality is bound to be low. PreQuEL can be defined relative to a given MT system (e.g., some industry service) or generally relative to the state-of-the-art. From a theoretical perspective, PreQuEL places the focus on the source text, tracing properties, possibly linguistic features, that make a sentence harder to machine translate. We develop a baseline model for the task and analyze its performance. We also develop a data augmentation method (from parallel corpora), that improves results substantially. We show that this augmentation method can improve the performance of the Quality-Estimation task as well. We investigate the properties of the input text that our model is sensitive to, by testing it on challenge sets and different languages. We conclude that it is aware of syntactic and semantic distinctions, and correlates and even over-emphasizes the importance of standard NLP features.
翻訳日:2022-05-21 12:32:50 公開日:2022-05-18
# (参考訳) 電子イオン衝突装置におけるECCE追跡システムのAI支援最適化

AI-assisted Optimization of the ECCE Tracking System at the Electron Ion Collider ( http://arxiv.org/abs/2205.09185v1 )

ライセンス: CC BY 4.0
C. Fanelli, Z. Papandreou, K. Suresh, J. K. Adkins, Y. Akiba, A. Albataineh, M. Amaryan, I. C. Arsene, C. Ayerbe Gayoso, J. Bae, X. Bai, M.D. Baker, M. Bashkanov, R. Bellwied, F. Benmokhtar, V. Berdnikov, J. C. Bernauer, F. Bock, W. Boeglin, M. Borysova, E. Brash, P. Brindza, W. J. Briscoe, M. Brooks, S. Bueltmann, M. H. S. Bukhari, A. Bylinkin, R. Capobianco, W.-C. Chang, Y. Cheon, K. Chen, K.-F. Chen, K.-Y. Cheng, M. Chiu, T. Chujo, Z. Citron, E. Cline, E. Cohen, T. Cormier, Y. Corrales Morales, C. Cotton, J. Crafts, C. Crawford, S. Creekmore, C.Cuevas, J. Cunningham, G. David, C. T. Dean, M. Demarteau, S. Diehl, N. Doshita, R. Dupre, J. M. Durham, R. Dzhygadlo, R. Ehlers, L. El Fassi, A. Emmert, R. Ent, C. Fanelli, R. Fatemi, S. Fegan, M. Finger, M. Finger Jr., J. Frantz, M. Friedman, I. Friscic, D. Gangadharan, S. Gardner, K. Gates, F. Geurts, R. Gilman, D. Glazier, E. Glimos, Y. Goto, N. Grau, S. V. Greene, A. Q. Guo, L. Guo, S. K. Ha, J. Haggerty, T. Hayward, X. He, O. Hen, D. W. Higinbotham, M. Hoballah, T. Horn, A. Hoghmrtsyan, P.-h. J. Hsu, J. Huang, G. Huber, A. Hutson, K. Y. Hwang, C. Hyde, M. Inaba, T. Iwata, H.S. Jo, K. Joo, N. Kalantarians, G. Kalicy, K. Kawade, S. J. D. Kay, A. Kim, B. Kim, C. Kim, M. Kim, Y. Kim, Y. Kim, E. Kistenev, V. Klimenko, S. H. Ko, I. Korover, W. Korsch, G. Krintiras, S. Kuhn, C.-M. Kuo, T. Kutz, J. Lajoie, D. Lawrence, S. Lebedev, H. Lee, J. S. H. Lee, S. W. Lee, Y.-J. Lee, W. Li, W.B. Li, X. Li, X. Li, X. Li, X. Li, Y. T. Liang, S. Lim, C.-h. Lin, D. X. Lin, K. Liu, M. X. Liu, K. Livingston, N. Liyanage, W.J. Llope, C. Loizides, E. Long, R.-S. Lu, Z. Lu, W. Lynch, D. Marchand, M. Marcisovsky, P. Markowitz, H. Marukyan, P. McGaughey, M. Mihovilovic, R. G. Milner, A. Milov, Y. Miyachi, A. Mkrtchyan, P. Monaghan, R. Montgomery, D. Morrison, A. Movsisyan, H. Mkrtchyan, A. Mkrtchyan, C. Munoz Camacho, M. Murray, K. Nagai, J. Nagle, I. Nakagawa, C. Nattrass, D. Nguyen, S. Niccolai, R. Nouicer, G. Nukazuka, M. Nycz, V. A. Okorokov, S. Oresic, J.D. Osborn, C. O'Shaughnessy, S. Paganis, Z. Papandreou, S. F. Pate, M. Patel, C. Paus, G. Penman, M. G. Perdekamp, D. V. Perepelitsa, H. Periera da Costa, K. Peters, W. Phelps, E. Piasetzky, C. Pinkenburg, I. Prochazka, T. Protzman, M. L. Purschke, J. Putschke, J. R. Pybus, R. Rajput-Ghoshal, J. Rasson, B. Raue, K.F. Read, K. Roed, R. Reed, J. Reinhold, E. L. Renner, J. Richards, C. Riedl, T. Rinn, J. Roche, G. M. Roland, G. Ron, M. Rosati, C. Royon, J. Ryu, S. Salur, N. Santiesteban, R. Santos, M. Sarsour, J. Schambach, A. Schmidt, N. Schmidt, C. Schwarz, J. Schwiening, R. Seidl, A. Sickles, P. Simmerling, S. Sirca, D. Sharma, Z. Shi, T.-A. Shibata, C.-W. Shih, S. Shimizu, U. Shrestha, K. Slifer, K. Smith, D. Sokhan, R. Soltz, W. Sondheim, J. Song, J. Song, I. I. Strakovsky, P. Steinberg, P. Stepanov, J. Stevens, J. Strube, P. Sun, X. Sun, K. Suresh, V. Tadevosyan, W.-C. Tang, S. Tapia Araya, S. Tarafdar, L. Teodorescu, A. Timmins, L. Tomasek, N. Trotta, R. Trotta, T. S. Tveter, E. Umaka, A. Usman, H. W. van Hecke, C. Van Hulse, J. Velkovska, E. Voutier, P.K. Wang, Q. Wang, Y. Wang, Y. Wang, D. P. Watts, N. Wickramaarachchi, L. Weinstein, M. Williams, C.-P. Wong, L. Wood, M. H. Wood, C. Woody, B. Wyslouch, Z. Xiao, Y. Yamazaki, Y. Yang, Z. Ye, H. D. Yoo, M. Yurov, N. Zachariou, W.A. Zajc, W. Zha, J. Zhang, Y. Zhang, Y. X. Zhao, X. Zheng, P. Zhuang(参考訳) 電子イオン衝突型加速器(Electron-Ion Collider、EIC)は、宇宙の可視物質の構成要素を結合する「グル」の性質を研究する最先端の加速器である。 提案された実験は、約10年後にブルックヘイブン国立研究所で実現され、検出器の設計とR&Dは現在進行中である。 EICは、すでに設計と研究開発の段階から始まっている人工知能(AI)を活用する最初の大規模施設の1つである。 EIC Comprehensive Chromodynamics Experiment (ECCE) は1.5Tソレノイドに基づく検出器の設計を提案したコンソーシアムである。 EIC検出器の提案はECCEの設計がEIC検出器の基準設計として機能すると結論付けた。 本稿では,AIを用いたECCEトラッカーの総合最適化について述べる。 この作業はシミュレートされた検出器システムの複雑なパラメトリゼーションを必要とした。 提案手法は,検出器の性能をエンコードする複数の目的によって駆動される多次元設計空間における最適化問題に対処し,複数の機械的制約を満たした。 本稿では,ECCEトラッキングシステムにおいて得られた戦略と結果について述べる。 AI支援設計はシミュレーションフレームワークに非依存であり、他のサブ検出器やサブ検出器システムに拡張して、EIC検出器の性能をさらに最適化することができる。

The Electron-Ion Collider (EIC) is a cutting-edge accelerator facility that will study the nature of the "glue" that binds the building blocks of the visible matter in the universe. The proposed experiment will be realized at Brookhaven National Laboratory in approximately 10 years from now, with detector design and R&D currently ongoing. Notably, EIC is one of the first large-scale facilities to leverage Artificial Intelligence (AI) already starting from the design and R&D phases. The EIC Comprehensive Chromodynamics Experiment (ECCE) is a consortium that proposed a detector design based on a 1.5T solenoid. The EIC detector proposal review concluded that the ECCE design will serve as the reference design for an EIC detector. Herein we describe a comprehensive optimization of the ECCE tracker using AI. The work required a complex parametrization of the simulated detector system. Our approach dealt with an optimization problem in a multidimensional design space driven by multiple objectives that encode the detector performance, while satisfying several mechanical constraints. We describe our strategy and show results obtained for the ECCE tracking system. The AI-assisted design is agnostic to the simulation framework and can be extended to other sub-detectors or to a system of sub-detectors to further optimize the performance of the EIC detector.
翻訳日:2022-05-21 12:15:38 公開日:2022-05-18
# (参考訳) 工学系のハイブリッド機械学習モデリング -多相流モデリングケーススタディに基づく確率論的視点-

Hybrid Machine Learning Modeling of Engineering Systems -- A Probabilistic Perspective Tested on a Multiphase Flow Modeling Case Study ( http://arxiv.org/abs/2205.09196v1 )

ライセンス: CC BY 4.0
Timur Bikmukhametov and Johannes J\"aschke(参考訳) プロセスエンジニアリングシステムを安全かつ信頼性の高い方法で運用するために、予測モデルは意思決定にしばしば使用される。 多くの場合、これらはプロセスの正確な記述を目的とした機械的第一原理モデルである。 実際、これらのモデルのパラメータは、手元にあるプロセス条件に調整する必要がある。 実際には一般的である条件が変更されると、モデルは不正確になり、再調整する必要があります。 本稿では,2種類のベイズニューラルネットワークを用いて,第1原理モデルをチューニングして条件を処理できるハイブリッドモデリング機械学習フレームワークを提案する。 我々の手法は第一原理モデルパラメータの期待値を推定するだけでなく、これらの推定の不確実性を定量化する。 このようなハイブリッド機械学習モデリングのアプローチはまだ文献によく説明されていないので、本論文は物理システムのハイブリッド機械学習モデリングを考慮可能な追加の角度を提供すると信じている。 例えば, ニューラルネットワークのチューニングの有無に関わらず, 石油・ガス生産システムにおける管と坑井の流動挙動のモデル化に使用できるドリフト流束法に基づく3相定常モデルを構築した多相管流プロセスを選択する。 シミュレーション結果では,結果のハイブリッドモデルの不確実性推定が,よりよい運用判断にどのように役立つかを示す。

To operate process engineering systems in a safe and reliable manner, predictive models are often used in decision making. In many cases, these are mechanistic first principles models which aim to accurately describe the process. In practice, the parameters of these models need to be tuned to the process conditions at hand. If the conditions change, which is common in practice, the model becomes inaccurate and needs to be re-tuned. In this paper, we propose a hybrid modeling machine learning framework that allows tuning first principles models to process conditions using two different types of Bayesian Neural Networks. Our approach not only estimates the expected values of the first principles model parameters but also quantifies the uncertainty of these estimates. Such an approach of hybrid machine learning modeling is not yet well described in the literature, so we believe this paper will provide an additional angle at which hybrid machine learning modeling of physical systems can be considered. As an example, we choose a multiphase pipe flow process for which we constructed a three-phase steady state model based on the drift-flux approach which can be used for modeling of pipe and well flow behavior in oil and gas production systems with or without the neural network tuning. In the simulation results, we show how uncertainty estimates of the resulting hybrid models can be used to make better operation decisions.
翻訳日:2022-05-21 11:37:10 公開日:2022-05-18
# (参考訳) Torchhd:超次元コンピューティング研究をサポートするオープンソースのPythonライブラリ

Torchhd: An Open-Source Python Library to Support Hyperdimensional Computing Research ( http://arxiv.org/abs/2205.09208v1 )

ライセンス: CC BY 4.0
Mike Heddes, Igor Nunes, Pere Verg\'es, Dheyay Desai, Tony Givargis, Alexandru Nicolau(参考訳) hyperdimensional computing (hdc) は、高次元ランダムベクトル空間を利用する神経インスパイアされたコンピューティングフレームワークである。 HDCは、精度、効率、堅牢性のバランスをとる計算ソリューションを提供するために非常に並列化可能な演算を使用する。 これは組み込みシステムのようなリソース制限のシナリオで特に有用であることが証明されている。 この専門分野の研究を集約し、広めるための科学コミュニティのコミットメントは、その進歩に基礎的であった。 この取り組みに加えて、HDC用の高性能オープンソースPythonライブラリであるTorchhdを提案する。 TorchhdはHDCをよりアクセスしやすくし、研究とアプリケーション開発の効率的な基盤として機能することを目指している。 PyTorch上に構築された使いやすいライブラリには,最先端のHDC機能や,著名な出版物の明確なドキュメント,実装例などが含まれている。 公開されているコードとTorchhdの実装を比較すると、実験は104$\times$速く実行できる。 torchhdは、https://github.com/hyperdimensional-computing/torchhdで利用可能である。

Hyperdimensional Computing (HDC) is a neuro-inspired computing framework that exploits high-dimensional random vector spaces. HDC uses extremely parallelizable arithmetic to provide computational solutions that balance accuracy, efficiency and robustness. This has proven especially useful in resource-limited scenarios such as embedded systems. The commitment of the scientific community to aggregate and disseminate research in this particularly multidisciplinary field has been fundamental for its advancement. Adding to this effort, we propose Torchhd, a high-performance open-source Python library for HDC. Torchhd seeks to make HDC more accessible and serves as an efficient foundation for research and application development. The easy-to-use library builds on top of PyTorch and features state-of-the-art HDC functionality, clear documentation and implementation examples from notable publications. Comparing publicly available code with their Torchhd implementation shows that experiments can run up to 104$\times$ faster. Torchhd is available at: https://github.com/hyperdimensional-computing/torchhd
翻訳日:2022-05-21 11:17:08 公開日:2022-05-18
# (参考訳) 「申し訳ありません」:全体論的記述データセットを用いた言語モデルにおけるバイアスを見つける

"I'm sorry to hear that": finding bias in language models with a holistic descriptor dataset ( http://arxiv.org/abs/2205.09209v1 )

ライセンス: CC BY-SA 4.0
Eric Michael Smith, Melissa Hall Melanie Kambadur, Eleonora Presani, Adina Williams (Meta AI)(参考訳) 言語モデルの人気が高まるにつれて、既存の社会的危害の持続を避けるために、人口統計学的アイデンティティの可能なすべての指標に対するバイアスを計測し、対処すべきである。 現在、バイアスを測定するためのデータセットは数多く存在するが、人口統計学的な軸の範囲内で制限されており、モデルが示すバイアスの種類を前提とした事前設定されたバイアステストで一般的に使用される。 本研究では,13の異なる人口軸にまたがる600近い記述項からなる新たな包括的データセットHOLISTICBIASを提案する。 HOLISTICBIASは,参加プロセスを通じて生活経験のある専門家やコミュニティメンバーと会話した。 我々は、これらの記述子を一連のバイアス測定テンプレートで組み合わせて45万以上のユニークな文プロンプトを生成し、これらのプロンプトを使用して、複数の生成モデルにおける新しいバイアスの形式を探索、同定、縮小する。 当社のデータセットは,これまで測定できなかったバイアスを,言語モデルや攻撃性分類器で測定する上で,非常に有効であることを実証する。 データセットの追加と修正を招待し、NLPモデルのバイアスを評価するための、使いやすくより標準化された方法の基礎として役立てることを願っています。

As language models grow in popularity, their biases across all possible markers of demographic identity should be measured and addressed in order to avoid perpetuating existing societal harms. Many datasets for measuring bias currently exist, but they are restricted in their coverage of demographic axes, and are commonly used with preset bias tests that presuppose which types of biases the models exhibit. In this work, we present a new, more inclusive dataset, HOLISTICBIAS, which consists of nearly 600 descriptor terms across 13 different demographic axes. HOLISTICBIAS was assembled in conversation with experts and community members with lived experience through a participatory process. We use these descriptors combinatorially in a set of bias measurement templates to produce over 450,000 unique sentence prompts, and we use these prompts to explore, identify, and reduce novel forms of bias in several generative models. We demonstrate that our dataset is highly efficacious for measuring previously unmeasurable biases in token likelihoods and generations from language models, as well as in an offensiveness classifier. We will invite additions and amendments to the dataset, and we hope it will help serve as a basis for easy-to-use and more standardized methods for evaluating bias in NLP models.
翻訳日:2022-05-21 11:04:49 公開日:2022-05-18
# (参考訳) 確率的準ニュートン法の深層学習における効率性について

On the efficiency of Stochastic Quasi-Newton Methods for Deep Learning ( http://arxiv.org/abs/2205.09121v1 )

ライセンス: CC BY 4.0
Mahsa Yousefi, Angeles Martinez(参考訳) 大規模深層学習問題で発生する最適化問題では,一階法が一般的だが,深刻な欠陥がある。 このような欠点を減らすために、勾配情報のみを用いてヘッセン近似を構成する準ニュートン法のような二階法を適用することには近年関心が集まっている。 我々の研究の主な焦点は、ディープニューラルネットワークを訓練するための確率的準ニュートンアルゴリズムの振る舞いを研究することです。 我々は、BFGS(Broyden-Fletcher-Goldfarb-Shanno)とSR1(Symmetric Rank One)の2つの有名な準ニュートン更新の性能を分析した。 本研究は、両更新の実際の性能に関するギャップを埋め、より堅牢なBFGS更新または不確定なヘッセン近似を許容するより安価なSR1公式を用いることで、深層学習で見られる非凸損失関数における病理的サドル点のナビゲートに役立てることができるかどうかを解析する。 本稿では,バッチ正規化とネットワークアーキテクチャ,限られたメモリパラメータ,バッチサイズ,サンプリング戦略の種類などを含む広範な実験結果について述べる。 確率的準ニュートンオプティマイザは効率が良く、よく知られたAdamオプティマイザが多数のハイパーパラメータを最適に組み合わせて実行する場合でも性能が優れていることを示す。

While first-order methods are popular for solving optimization problems that arise in large-scale deep learning problems, they come with some acute deficiencies. To diminish such shortcomings, there has been recent interest in applying second-order methods such as quasi-Newton based methods which construct Hessians approximations using only gradient information. The main focus of our work is to study the behaviour of stochastic quasi-Newton algorithms for training deep neural networks. We have analyzed the performance of two well-known quasi-Newton updates, the limited memory Broyden-Fletcher-Goldfarb-Shanno (BFGS) and the Symmetric Rank One (SR1). This study fills a gap concerning the real performance of both updates and analyzes whether more efficient training is obtained when using the more robust BFGS update or the cheaper SR1 formula which allows for indefinite Hessian approximations and thus can potentially help to better navigate the pathological saddle points present in the non-convex loss functions found in deep learning. We present and discuss the results of an extensive experimental study which includes the effect of batch normalization and network's architecture, the limited memory parameter, the batch size and the type of sampling strategy. we show that stochastic quasi-Newton optimizers are efficient and able to outperform in some instances the well-known first-order Adam optimizer run with the optimal combination of its numerous hyperparameters.
翻訳日:2022-05-21 10:31:37 公開日:2022-05-18
# (参考訳) G$不変浅層ニューラルネットワークの分類

A Classification of $G$-invariant Shallow Neural Networks ( http://arxiv.org/abs/2205.09219v1 )

ライセンス: CC BY 4.0
Devanshu Agrawal, James Ostrowski(参考訳) ディープニューラルネットワーク(DNN)をグループ$G$に対して$G$不変なターゲット関数に適合させようとする場合、DNNも$G$不変であるように制約することは理にかなっている。 しかし、これを行うには多くの異なる方法があり、それによって"$g$-invariant neural architecture design"の問題を提起する: ある問題に対して最適な$g$-invariant architectureとは何か? 最適化問題自体を考える前に、我々は検索空間、その中のアーキテクチャ、それらの相互関係について理解する必要がある。 本稿では,この目標に向けて第一歩を踏み出す。任意の有限直交群 $g$ に対して relu アクティベーションを持つ,$g$-invariant single-hidden-layer または "shallow" neural network (g$-snn) アーキテクチャを分類する定理を証明する。 この証明は、隠れたニューロンに作用する$G$の符号付き置換表現に対する全ての$G$-SNNの対応に基づいている。 この分類は、$G$の最初のコホモロジークラスの観点から同等に与えられ、したがって位相的解釈が認められる。 コード実装に基づいて、いくつかのサンプルグループに対して$G$-SNNアーキテクチャを列挙し、それらの構造を視覚化する。 ニューラルネットワーク探索(NAS)で活用できる列挙型アーキテクチャ間のネットワーク準同型を描画する。 最後に、与えられたコホモロジー環の同値なコホモロジークラスに対応するアーキテクチャが、その重み行列が 0 であるときのみ関数空間に一致することを証明し、NAS の文脈におけるこの意味を議論する。

When trying to fit a deep neural network (DNN) to a $G$-invariant target function with respect to a group $G$, it only makes sense to constrain the DNN to be $G$-invariant as well. However, there can be many different ways to do this, thus raising the problem of "$G$-invariant neural architecture design": What is the optimal $G$-invariant architecture for a given problem? Before we can consider the optimization problem itself, we must understand the search space, the architectures in it, and how they relate to one another. In this paper, we take a first step towards this goal; we prove a theorem that gives a classification of all $G$-invariant single-hidden-layer or "shallow" neural network ($G$-SNN) architectures with ReLU activation for any finite orthogonal group $G$. The proof is based on a correspondence of every $G$-SNN to a signed permutation representation of $G$ acting on the hidden neurons. The classification is equivalently given in terms of the first cohomology classes of $G$, thus admitting a topological interpretation. Based on a code implementation, we enumerate the $G$-SNN architectures for some example groups $G$ and visualize their structure. We draw the network morphisms between the enumerated architectures that can be leveraged during neural architecture search (NAS). Finally, we prove that architectures corresponding to inequivalent cohomology classes in a given cohomology ring coincide in function space only when their weight matrices are zero, and we discuss the implications of this in the context of NAS.
翻訳日:2022-05-21 10:29:09 公開日:2022-05-18
# (参考訳) 反復検索生成推論による帰納木説明

Entailment Tree Explanations via Iterative Retrieval-Generation Reasoner ( http://arxiv.org/abs/2205.09224v1 )

ライセンス: CC BY 4.0
Danilo Ribeiro, Shen Wang, Xiaofei Ma, Rui Dong, Xiaokai Wei, Henry Zhu, Xinchi Chen, Zhiheng Huang, Peng Xu, Andrew Arnold, Dan Roth(参考訳) 大規模言語モデルは、様々な質問応答(QA)ベンチマークで高い性能を達成しているが、その出力の説明可能性はまだ明白である。 構造的説明はentailment treeと呼ばれ、最近QAシステムの答えを説明・検査する方法として提案されている。 このような関係木をよりよく生成するために,Iterative Retrieval-Generation Reasoner (IRGR) と呼ばれるアーキテクチャを提案する。 本モデルは,テキストの前提から段階的な説明を体系的に生成することにより,与えられた仮説を説明することができる。 IRGRモデルは、適切な前提を反復的に探索し、一度に1つの追加ステップを構築する。 従来の手法とは対照的に,本手法では生成ステップと前提条件の検索を組み合わせ,中間的な結論をモデルに活用し,ベースラインエンコーダ・デコーダモデルの入力サイズ制限を緩和する。 我々はentailmentbankデータセットを用いて実験を行い、前提検索とentailment tree生成に関する既存のベンチマークを上回り、全体の正確性が約300%向上した。

Large language models have achieved high performance on various question answering (QA) benchmarks, but the explainability of their output remains elusive. Structured explanations, called entailment trees, were recently suggested as a way to explain and inspect a QA system's answer. In order to better generate such entailment trees, we propose an architecture called Iterative Retrieval-Generation Reasoner (IRGR). Our model is able to explain a given hypothesis by systematically generating a step-by-step explanation from textual premises. The IRGR model iteratively searches for suitable premises, constructing a single entailment step at a time. Contrary to previous approaches, our method combines generation steps and retrieval of premises, allowing the model to leverage intermediate conclusions, and mitigating the input size limit of baseline encoder-decoder models. We conduct experiments using the EntailmentBank dataset, where we outperform existing benchmarks on premise retrieval and entailment tree generation, with around 300% gain in overall correctness.
翻訳日:2022-05-21 09:48:42 公開日:2022-05-18
# (参考訳) グラフフィルタリングによるスケーラブルなマルチビュークラスタリング

Scalable Multi-view Clustering with Graph Filtering ( http://arxiv.org/abs/2205.09228v1 )

ライセンス: CC BY 4.0
Liang Liu and Peng Chen and Guangchun Luo and Zhao Kang and Yonggang Luo and Sanchu Han(参考訳) 近年,マルチソースデータの爆発的増加に伴い,マルチビュークラスタリングが注目されている。 多くの既存マルチビュー手法は生の特徴空間で動作し、元の特徴表現の品質に大きく依存する。 さらに、特徴データ用に設計され、リッチなトポロジ構造情報を無視することが多い。 そこで本稿では,属性データとグラフデータの両方を異種特徴でクラスタリングする汎用フレームワークを提案する。 特徴と構造の間の相互作用を探索することができる。 具体的には,まず,高周波ノイズを除去してクラスタリングフレンドリなスムース表現を実現するために,グラフフィルタリング手法を適用した。 スケーラビリティの課題に対処するために,アンカーの品質を向上させるための新しいサンプリング戦略を開発した。 属性とグラフのベンチマークに関する大規模な実験は、最先端のアプローチに対する我々のアプローチの優位性を示している。

With the explosive growth of multi-source data, multi-view clustering has attracted great attention in recent years. Most existing multi-view methods operate in raw feature space and heavily depend on the quality of original feature representation. Moreover, they are often designed for feature data and ignore the rich topology structure information. Accordingly, in this paper, we propose a generic framework to cluster both attribute and graph data with heterogeneous features. It is capable of exploring the interplay between feature and structure. Specifically, we first adopt graph filtering technique to eliminate high-frequency noise to achieve a clustering-friendly smooth representation. To handle the scalability challenge, we develop a novel sampling strategy to improve the quality of anchors. Extensive experiments on attribute and graph benchmarks demonstrate the superiority of our approach with respect to state-of-the-art approaches.
翻訳日:2022-05-21 09:31:29 公開日:2022-05-18
# (参考訳) PromptDA: Prompt-based Few Shot Learnersのためのラベル誘導型データ拡張

PromptDA: Label-guided Data Augmentation for Prompt-based Few Shot Learners ( http://arxiv.org/abs/2205.09229v1 )

ライセンス: CC BY 4.0
Canyu Chen, Kai Shu(参考訳) 大規模事前学習型言語モデル(PLM)の最近の進歩は、タスク固有の微調整を伴う自然言語理解(NLU)タスクに顕著な進歩をもたらした。 しかし、直接の微調整plmは大量のラベル付きインスタンスに大きく依存しており、それらは高価で時間を要する。 PLMのプロンプトベースのチューニングは、少数のショットタスクで有用であることが証明されている。 数ショットのNLUのためのプロンプトベースチューニングの研究は、主に適切なラベル語を動詞化したり、PLMから意味を抽出するためのプロンプトテンプレートを生成することに焦点を当てている。 さらに、従来のデータ拡張手法は、少数のタスクで有用であることが確認されている。 しかし、現在、プロンプトベースのチューニングパラダイム用に設計されたデータ拡張メソッドは少ない。 そこで本研究では,素早いショット学習者を対象とした新たなデータ拡張法を提案する。 ラベルセマンティクスはプロンプトベースのチューニングに有効であるため,データ拡張のためにラベルセマンティクス情報を利用する新しいラベル誘導データ拡張手法であるPromptDAを提案する。 いくつかのショットテキスト分類タスクの実験結果から,言語理解においてラベルのセマンティクスとデータ拡張を効果的に活用することにより,提案手法が優れた性能を発揮することが示された。

Recent advances on large pre-trained language models (PLMs) lead impressive gains on natural language understanding (NLU) tasks with task-specific fine-tuning. However, direct fine-tuning PLMs heavily relies on large amount of labeled instances, which are expensive and time-consuming to obtain. Prompt-based tuning on PLMs has proven valuable for few shot tasks. Existing works studying prompt-based tuning for few-shot NLU mainly focus on deriving proper label words with a verbalizer or generating prompt templates for eliciting semantics from PLMs. In addition, conventional data augmentation methods have also been verified useful for few-shot tasks. However, there currently are few data augmentation methods designed for the prompt-based tuning paradigm. Therefore, we study a new problem of data augmentation for prompt-based few shot learners. Since label semantics are helpful in prompt-based tuning, we propose a novel label-guided data augmentation method PromptDA which exploits the enriched label semantic information for data augmentation. Experimental results on several few shot text classification tasks show that our proposed framework achieves superior performance by effectively leveraging label semantics and data augmentation in language understanding.
翻訳日:2022-05-21 09:21:21 公開日:2022-05-18
# (参考訳) アンダーサンプルグラフによる制約に基づく因果構造学習

Constraint-Based Causal Structure Learning from Undersampled Graphs ( http://arxiv.org/abs/2205.09235v1 )

ライセンス: CC BY 4.0
Mohammadsajad Abavisani, David Danks and Sergey Plis(参考訳) 時系列データから因果学習アルゴリズムによって推定されるグラフィカルな構造は、生成プロセスの因果時間スケールがデータの計測時間スケールと一致しない場合に、高い誤解を招く因果情報を提供できる。 この問題は最近認識されているが、実践者はそれに対応するリソースが限られており、彼らが知っているモデルを使い続ける必要がある。 既存の方法も (a)因果時間と測定時間の差が知られていること、又は (b)時間スケールの差が不明な場合、ごく少数の確率変数しか扱えないこと、又は (c) 先行知識に関する仮定が少なくても,変数のペアのみに適用する。 (d)非現実的に多くの解を返す。 本稿は4つの課題に対処する。 制約プログラミングと問題構造に関する理論的知見と、許容因果関係に関する事前情報を組み合わせる。 結果のシステムは、確率変数のかなり大きな集合(>100)にスケールし、時間スケールの差の正確な知識を必要とせず、エッジの誤同定とパラメトリック接続強度をサポートし、多くの可能な解の最適選択を提供する実践的なアプローチを提供する。 これらの改善の累積的な影響は、数桁の速度と情報性の獲得である。

Graphical structures estimated by causal learning algorithms from time series data can provide highly misleading causal information if the causal timescale of the generating process fails to match the measurement timescale of the data. Although this problem has been recently recognized, practitioners have limited resources to respond to it, and so must continue using models that they know are likely misleading. Existing methods either (a) require that the difference between causal and measurement timescales is known; or (b) can handle only very small number of random variables when the timescale difference is unknown; or (c) apply to only pairs of variables, though with fewer assumptions about prior knowledge; or (d) return impractically too many solutions. This paper addresses all four challenges. We combine constraint programming with both theoretical insights into the problem structure and prior information about admissible causal interactions. The resulting system provides a practical approach that scales to significantly larger sets (>100) of random variables, does not require precise knowledge of the timescale difference, supports edge misidentification and parametric connection strengths, and can provide the optimum choice among many possible solutions. The cumulative impact of these improvements is gain of multiple orders of magnitude in speed and informativeness.
翻訳日:2022-05-21 09:07:15 公開日:2022-05-18
# (参考訳) In-batch Balancing Regularizationによる神経検索の劣化

Debiasing Neural Retrieval via In-batch Balancing Regularization ( http://arxiv.org/abs/2205.09240v1 )

ライセンス: CC0 1.0
Yuantong Li, Xiaokai Wei, Zijian Wang, Shen Wang, Parminder Bhatia, Xiaofei Ma, Andrew Arnold(参考訳) 情報検索(IR)システムと頻繁に対話するが、IRモデルは様々な人口層に対する偏見と差別を示す。 処理中の公正ランキング法は、損失関数に公正関連正規化項を追加することにより、精度と公平性のトレードオフを提供する。 しかし、直接最適化するためにクリック確率とユーザのエンゲージメントに依存する直感的な客観的関数は存在しません。 本研究では,サブグループ間のランキング格差を軽減するために,IBBR(In-Batch Balancing Regularization)を提案する。 特に、微分可能な \textit{normed Pairwise Ranking Fairness} (nPRF) を開発し、nPRF 上の T-統計を部分群上の正規化として利用し、公正性を改善する。 MARCO Passage Retrievalデータセット上のBERTベースのニューラルローカと、人間による注釈のないクエリベンチマークであるcitep{rekabsaz2020neural}による実験結果から、我々のnPRFを用いたIBBR法は、ベースラインと比較してランキング性能の低下を最小限に抑えられることが示された。

People frequently interact with information retrieval (IR) systems, however, IR models exhibit biases and discrimination towards various demographics. The in-processing fair ranking methods provide a trade-offs between accuracy and fairness through adding a fairness-related regularization term in the loss function. However, there haven't been intuitive objective functions that depend on the click probability and user engagement to directly optimize towards this. In this work, we propose the In-Batch Balancing Regularization (IBBR) to mitigate the ranking disparity among subgroups. In particular, we develop a differentiable \textit{normed Pairwise Ranking Fairness} (nPRF) and leverage the T-statistics on top of nPRF over subgroups as a regularization to improve fairness. Empirical results with the BERT-based neural rankers on the MS MARCO Passage Retrieval dataset with the human-annotated non-gendered queries benchmark \citep{rekabsaz2020neural} show that our IBBR method with nPRF achieves significantly less bias with minimal degradation in ranking performance compared with the baseline.
翻訳日:2022-05-21 08:57:01 公開日:2022-05-18
# (参考訳) 連続性方程式の軌道近似のためのニューラルODE制御

Neural ODE Control for Trajectory Approximation of Continuity Equation ( http://arxiv.org/abs/2205.09241v1 )

ライセンス: CC BY 4.0
Karthik Elamvazhuthi, Bahman Gharesifard, Andrea Bertozzi, Stanley Osher(参考訳) 確率測度が流れによってどのように押し上げられるかを記述する神経常微分方程式(英語版)(odes)に対応する連続性方程式の制御可能性問題を考える。 制御連続性方程式は非常に強い制御性を持つことを示す。 特に、有界リプシッツベクトル場に対応する連続性方程式の与えられた解は、確率測度の集合上の軌道を定義する。 この軌道に対して、ニューラルなODEに対応する連続性方程式の解が任意にそれに近いように、ニューラルなODEに対して一回りのトレーニングウェイトが存在することを示す。 その結果、神経odeの連続性方程式は、ルベーグ測度に関して絶対連続であるコンパクトに支持された確率測度の集合に概ね制御可能であることが判明した。

We consider the controllability problem for the continuity equation, corresponding to neural ordinary differential equations (ODEs), which describes how a probability measure is pushedforward by the flow. We show that the controlled continuity equation has very strong controllability properties. Particularly, a given solution of the continuity equation corresponding to a bounded Lipschitz vector field defines a trajectory on the set of probability measures. For this trajectory, we show that there exist piecewise constant training weights for a neural ODE such that the solution of the continuity equation corresponding to the neural ODE is arbitrarily close to it. As a corollary to this result, we establish that the continuity equation of the neural ODE is approximately controllable on the set of compactly supported probability measures that are absolutely continuous with respect to the Lebesgue measure.
翻訳日:2022-05-21 08:45:20 公開日:2022-05-18
# (参考訳) 変圧器を用いた低データ環境向けプログラム合成

Transformer-based Program Synthesis for Low-Data Environments ( http://arxiv.org/abs/2205.09246v1 )

ライセンス: CC BY 4.0
Jack Roper(参考訳) 大規模な事前学習型トランスフォーマーモデル(GPT2/3, T5)の最近の進歩は、入力/出力の一連の例を満たすプログラムを生成するためにプログラム合成に使われている。 しかし、これらのモデルは長い水平および低データのタスクでは不十分であり、しばしばそれらが生成する言語のセマンティクスを理解していないように見える。 そこで本研究では,プログラム生成に属性付き文脈自由文法を用い,コンパイルや実行時属性,例えば型などのアノテートでアノテートできるように生成したプログラムを解析し,長期にわたってプログラムに関する情報を記憶可能にする手法について検討する。 まず、合成されたデータセットを効率的に作成でき、変換器モデルに十分なデータを提供して、いくつかの合成タスクをうまくこなせるようにする。 また,低データ環境では,モデルにプログラム属性へのアクセスを与えることが特に有効であり,トランスフォーマティブ生成プログラムの品質向上とエラー低減が期待できることがわかった。

Recent advancements in large pre-trained transformer models (GPT2/3, T5) have found use in program synthesis to generate programs that satisfy a set of input/output examples. However, these models perform poorly on long-horizon and low-data tasks, and often don't seem to understand the semantics of the languages they generate. We investigate an approach that tackles both of these issues, by using attributed context-free-grammars of programming languages to generate programs, and then analyzing generated programs so that they can be annotated with compile and runtime attributes, such as types, so that information about the program can be remembered during long-horizon generation. We firstly find that synthesized datasets can be made efficiently and can provide transformer models with enough data in order to perform well on some synthesis tasks. We also find that giving models access to program attributes is especially effective in low-data environments, and tends improve the quality and reduce errors of transformer-generated programs.
翻訳日:2022-05-21 08:31:59 公開日:2022-05-18
# スパイク列車による関係表現学習

Relational representation learning with spike trains ( http://arxiv.org/abs/2205.09140v1 )

ライセンス: Link先を確認
Dominik Dold(参考訳) リレーショナル表現学習は、例えば宇宙船の設計のための相互作用粒子、材料、産業プロジェクトなど、様々なシステムのモデリングの柔軟性から、近年関心が高まっている。 関係データを扱うための顕著な方法は知識グラフ埋め込みアルゴリズムであり、知識グラフの実体と関係は、その意味構造を維持しながら低次元ベクトル空間にマッピングされる。 近年,スパイキングニューラルネットワークの時間領域にグラフ要素をマッピングするグラフ埋め込み手法が提案されている。 しかし、それは1回だけスパイクするニューロンの集団を通してグラフ要素のエンコーディングに依存している。 ここでは,スパイクパターンの時間領域を完全に活用することで,グラフ要素あたりのニューロンを1つだけ必要としながら,スパイクトレインによる知識グラフの埋め込みを学習できるモデルを提案する。 この符号化方式は、スパイク時間に対する勾配を計算できる限り任意のスパイクニューロンモデルで実装することができる。 以上の結果から,リレーショナル知識をスパイクベースシステムに統合し,イベントベースコンピューティングとリレーショナルデータを統合することにより,パワフルでエネルギー効率の高い人工知能アプリケーションや推論システムを構築する可能性を示す。

Relational representation learning has lately received an increase in interest due to its flexibility in modeling a variety of systems like interacting particles, materials and industrial projects for, e.g., the design of spacecraft. A prominent method for dealing with relational data are knowledge graph embedding algorithms, where entities and relations of a knowledge graph are mapped to a low-dimensional vector space while preserving its semantic structure. Recently, a graph embedding method has been proposed that maps graph elements to the temporal domain of spiking neural networks. However, it relies on encoding graph elements through populations of neurons that only spike once. Here, we present a model that allows us to learn spike train-based embeddings of knowledge graphs, requiring only one neuron per graph element by fully utilizing the temporal domain of spike patterns. This coding scheme can be implemented with arbitrary spiking neuron models as long as gradients with respect to spike times can be calculated, which we demonstrate for the integrate-and-fire neuron model. In general, the presented results show how relational knowledge can be integrated into spike-based systems, opening up the possibility of merging event-based computing and relational data to build powerful and energy efficient artificial intelligence applications and reasoning systems.
翻訳日:2022-05-20 14:54:20 公開日:2022-05-18
# 時間的ダイナミクスの表現学習による実践的需要予測

Practical Skills Demand Forecasting via Representation Learning of Temporal Dynamics ( http://arxiv.org/abs/2205.09508v1 )

ライセンス: Link先を確認
Maysa M. Garcia de Macedo and Wyatt Clarke and Eli Lucherini and Tyler Baldwin and Dilermando Queiroz Neto and Rogerio de Paula and Subhro Das(参考訳) 急速な技術革新は、世界の労働力の多くを置き去りにする恐れがある。 今日の経済は、デジタル経済に参加する準備が整っていない労働者にとって、熟練労働者に対するホワイトホットな需要を減少させている。 長期資本配分の結果と数十億の労働者の生活満足度を測る、あらゆる国にとって危機と機会の瞬間である。 この瞬間を満たすためには、政府や市場は需要の変化にスキルの供給が反応する速度を早める方法を見つけなければならない。 労働市場のインテリジェンスをより完全かつ迅速に理解することは一つの道です。 本研究では,オンライン求人広告から収集したスキル需要データの価値を高めるため,時系列予測の有用性を検討する。 本稿では,一連の繰り返しニューラルネットワーク手法に基づいて,毎月10回のスキル要求観測を用いて,一発のマルチステップ予測を行うパイプラインを提案する。 我々は,多変量モデルと単変量モデルの性能を比較し,スキル間の相関が多変量モデルにどのように影響するかを分析し,情報技術産業における労働者のスキル選択に対する需要予測を示す。

Rapid technological innovation threatens to leave much of the global workforce behind. Today's economy juxtaposes white-hot demand for skilled labor against stagnant employment prospects for workers unprepared to participate in a digital economy. It is a moment of peril and opportunity for every country, with outcomes measured in long-term capital allocation and the life satisfaction of billions of workers. To meet the moment, governments and markets must find ways to quicken the rate at which the supply of skills reacts to changes in demand. More fully and quickly understanding labor market intelligence is one route. In this work, we explore the utility of time series forecasts to enhance the value of skill demand data gathered from online job advertisements. This paper presents a pipeline which makes one-shot multi-step forecasts into the future using a decade of monthly skill demand observations based on a set of recurrent neural network methods. We compare the performance of a multivariate model versus a univariate one, analyze how correlation between skills can influence multivariate model results, and present predictions of demand for a selection of skills practiced by workers in the information technology industry.
翻訳日:2022-05-20 14:53:05 公開日:2022-05-18
# 重力勾配テンソル成分とその組合せの確率的不確かさ解析

Stochastic uncertainty analysis of gravity gradient tensor components and their combinations ( http://arxiv.org/abs/2205.09159v1 )

ライセンス: Link先を確認
Pejman Shamsipour, Amin Aghaee, Tedd Kourkounakis, Shawn Hood(参考訳) フルテンソル重力(FTG)装置は、重力勾配テンソルの最大5つの独立した成分を提供する。 しかし, 重力逆転による地下密度モデル回復において, テンソル成分や成分の組み合わせがより重要であるという定量的理解は未だ得られていない。 これは主に異なるコンポーネントが異なるシナリオや目的に適している可能性があるためである。 異なる環境におけるこれらのコンポーネントの知識は、コンポーネントの組み合わせの最適な選択を選択するのに役立つ。 本研究では,重力勾配テンソル成分とその組み合わせの不確かさを評価するために確率的逆解析を適用することを提案する。 したがって、この方法は定量的なアプローチである。 ここでの適用方法は、コクリギングを用いた測地反転(ガウス過程回帰)の概念に基づいている。 コクリグ分散(gpの分散関数)は、重力勾配テンソル成分の識別に有用な指標である。 このアプローチはNew Foundデータセットに適用され、実世界のアプリケーションでその効果を実証する。

Full tensor gravity (FTG) devices provide up to five independent components of the gravity gradient tensor. However, we do not yet have a quantitative understanding of which tensor components or combinations of components are more important to recover a subsurface density model by gravity inversion. This is mainly because different components may be more appropriate in different scenarios or purposes. Knowledge of these components in different environments can aid with selection of optimal selection of component combinations. In this work, we propose to apply stochastic inversion to assess the uncertainty of gravity gradient tensor components and their combinations. The method is therefore a quantitative approach. The applied method here is based on the geostatistical inversion (Gaussian process regression) concept using cokriging. The cokriging variances (variance function of the GP) are found to be a useful indicator for distinguishing the gravity gradient tensor components. This approach is applied to the New Found dataset to demonstrate its effectiveness in real-world applications.
翻訳日:2022-05-20 14:37:47 公開日:2022-05-18
# 干渉応答下における分布一般化のための不変マッチング特性

An Invariant Matching Property for Distribution Generalization under Intervened Response ( http://arxiv.org/abs/2205.09162v1 )

ライセンス: Link先を確認
Kang Du and Yu Xiang(参考訳) 分布一般化のタスクは、見えない環境での応答の信頼できる予測を行うことである。 構造因果モデルは介入による分布変化のモデル化に有用であることが示されている。 基本不変性原理に動機づけられ、その予測因子が与える応答の条件分布は、環境間で同じである、としばしば仮定される。 しかし、この仮定は、応答がインターバルされたときに実践的な設定で違反する可能性がある。 本研究では,介入応答を伴うモデルのクラスについて検討する。 特定の特徴の推定値を追加の予測子として組み込むことにより、新しい不変性の形式を同定する。 効果的に、この不変性は一般化を可能にする決定論的線形マッチングを持つことと等価であることを示す。 線形マッチングの明示的な特徴付けを行い,様々な介入条件下でのシミュレーション結果を示す。

The task of distribution generalization concerns making reliable prediction of a response in unseen environments. The structural causal models are shown to be useful to model distribution changes through intervention. Motivated by the fundamental invariance principle, it is often assumed that the conditional distribution of the response given its predictors remains the same across environments. However, this assumption might be violated in practical settings when the response is intervened. In this work, we investigate a class of model with an intervened response. We identify a novel form of invariance by incorporating the estimates of certain features as additional predictors. Effectively, we show this invariance is equivalent to having a deterministic linear matching that makes the generalization possible. We provide an explicit characterization of the linear matching and present our simulation results under various intervention settings.
翻訳日:2022-05-20 14:37:32 公開日:2022-05-18
# セキュリティの誤った感覚? 機械学習による産業侵入検知の現状と課題

A False Sense of Security? Revisiting the State of Machine Learning-Based Industrial Intrusion Detection ( http://arxiv.org/abs/2205.09199v1 )

ライセンス: Link先を確認
Dominik Kus, Eric Wagner, Jan Pennekamp, Konrad Wolsing, Ina Berenice Fink, Markus Dahlmanns, Klaus Wehrle, Martin Henze(参考訳) anomaly-based intrusion detection(異常検知)は、期待されたシステムの動作をモデル化し、任意の逸脱に対して対応するアラームを発生させることで、産業用制御システムの新規または未知の攻撃を検出することを約束する。 しかしながら、これらのアプローチは通常、良心的なトラフィックだけでなく、攻撃についても訓練され、訓練に使用される同じタイプの攻撃に対して評価される。 したがって、未知の(訓練されていない)攻撃に対する実際の実世界のパフォーマンスはいまだに不明である。 逆に、機械学習に基づく侵入検出のほぼ完璧な検出率は、誤ったセキュリティ感覚を生み出す可能性がある。 この状況を評価し,機械学習による産業侵入検出の真の可能性を明らかにするため,未知の攻撃(訓練を除く)に対する文献からの複数のアプローチを検証し,評価手法を開発した。 その結果,未知の攻撃の検出効率が低下し,検出率は3.2%から14.7%に低下した。 今後は、未知の攻撃を検出する能力を明確にするために、機械学習ベースのアプローチに関するさらなる研究を推奨する。

Anomaly-based intrusion detection promises to detect novel or unknown attacks on industrial control systems by modeling expected system behavior and raising corresponding alarms for any deviations.As manually creating these behavioral models is tedious and error-prone, research focuses on machine learning to train them automatically, achieving detection rates upwards of 99%. However, these approaches are typically trained not only on benign traffic but also on attacks and then evaluated against the same type of attack used for training. Hence, their actual, real-world performance on unknown (not trained on) attacks remains unclear. In turn, the reported near-perfect detection rates of machine learning-based intrusion detection might create a false sense of security. To assess this situation and clarify the real potential of machine learning-based industrial intrusion detection, we develop an evaluation methodology and examine multiple approaches from literature for their performance on unknown attacks (excluded from training). Our results highlight an ineffectiveness in detecting unknown attacks, with detection rates dropping to between 3.2% and 14.7% for some types of attacks. Moving forward, we derive recommendations for further research on machine learning-based approaches to ensure clarity on their ability to detect unknown attacks.
翻訳日:2022-05-20 14:37:20 公開日:2022-05-18
# 条件付き生成逆ネットワークを用いた決定論的天気予報から広まるアンサンブルの計算

Computing the ensemble spread from deterministic weather predictions using conditional generative adversarial networks ( http://arxiv.org/abs/2205.09182v1 )

ライセンス: Link先を確認
R\"udiger Brecht and Alex Bihlo(参考訳) アンサンブル予測システムは天気予報のための貴重なツールである。 実際、決定論的制御予測のいくつかの摂動を実行してアンサンブル予測を得る。 しかし、アンサンブル予測は高い計算コストと関連付けられ、しばしばその品質を改善するための統計的後処理のステップが伴う。 本稿では,ディープラーニングに基づくアルゴリズムを用いて,決定論的制御予測のみを考慮したアンサンブル予測システムの統計的特性,すなわちアンサンブル拡散の学習を提案する。 したがって、訓練が終わると、将来のアンサンブル予測を得るためにはコストのかかるアンサンブル予測システムがもはや不要となり、アンサンブルの統計的性質は単一の決定論的予測から導き出すことができる。 従来のピクス2ピクセルアーキテクチャを3次元モデルに適応させ、また共用空間エンコーダデコーダモデルで実験し、500hPaの測地高度に対する数年の運用(アンサンブル)天気予報に対して訓練する。 その結果,訓練されたモデルでは,制御予測からのみ高精度なアンサンブルが得られることがわかった。

Ensemble prediction systems are an invaluable tool for weather forecasting. Practically, ensemble predictions are obtained by running several perturbations of the deterministic control forecast. However, ensemble prediction is associated with a high computational cost and often involves statistical post-processing steps to improve its quality. Here we propose to use deep-learning-based algorithms to learn the statistical properties of an ensemble prediction system, the ensemble spread, given only the deterministic control forecast. Thus, once trained, the costly ensemble prediction system will not be needed anymore to obtain future ensemble forecasts, and the statistical properties of the ensemble can be derived from a single deterministic forecast. We adapt the classical pix2pix architecture to a three-dimensional model and also experiment with a shared latent space encoder-decoder model, and train them against several years of operational (ensemble) weather forecasts for the 500 hPa geopotential height. The results demonstrate that the trained models indeed allow obtaining a highly accurate ensemble spread from the control forecast only.
翻訳日:2022-05-20 14:15:25 公開日:2022-05-18
# ERNIE-Search:Dense Passage Retrievalのためのセルフオンザフライ蒸留によるデュアルエンコーダによるクロスエンコーダのブリッジ

ERNIE-Search: Bridging Cross-Encoder with Dual-Encoder via Self On-the-fly Distillation for Dense Passage Retrieval ( http://arxiv.org/abs/2205.09153v1 )

ライセンス: Link先を確認
Yuxiang Lu, Yiding Liu, Jiaxiang Liu, Yunsheng Shi, Zhengjie Huang, Shikun Feng Yu Sun, Hao Tian, Hua Wu, Shuaiqiang Wang, Dawei Yin, Haifeng Wang(参考訳) 二重エンコーダのような事前学習言語モデル(PLM)に基づくニューラルレトリバーは、オープンドメイン質問応答(QA)のタスクにおいて有望な性能を達成した。 その効果は、クロスアーキテクチャの知識蒸留を取り入れることで、新たな最先端に到達できる。 しかし、既存の研究のほとんどは従来の蒸留法を直接適用しているだけである。 彼らは教師と生徒が異なる構造を持つ特定の状況を考えることができない。 本稿では,デュアルエンコーダのクロスアーキテクチャ蒸留を著しく向上させる新しい蒸留法を提案する。 我々の方法 1)バニラ二重エンコーダへの遅延相互作用(すなわちコルベール)を効果的に蒸留できる自己オンザフライ蒸留法の導入と, 2) カスケード蒸留工程を取り入れ, クロスエンコーダ教師による性能向上を図る。 提案手法が強いベースラインを上回り, オープンドメインQAベンチマークに新たな最先端技術を確立することを検証するため, 大規模な実験を行った。

Neural retrievers based on pre-trained language models (PLMs), such as dual-encoders, have achieved promising performance on the task of open-domain question answering (QA). Their effectiveness can further reach new state-of-the-arts by incorporating cross-architecture knowledge distillation. However, most of the existing studies just directly apply conventional distillation methods. They fail to consider the particular situation where the teacher and student have different structures. In this paper, we propose a novel distillation method that significantly advances cross-architecture distillation for dual-encoders. Our method 1) introduces a self on-the-fly distillation method that can effectively distill late interaction (i.e., ColBERT) to vanilla dual-encoder, and 2) incorporates a cascade distillation process to further improve the performance with a cross-encoder teacher. Extensive experiments are conducted to validate that our proposed solution outperforms strong baselines and establish a new state-of-the-art on open-domain QA benchmarks.
翻訳日:2022-05-20 14:12:37 公開日:2022-05-18
# 単一シーケンス予測としてのマルチホップ質問応答のモデル化

Modeling Multi-hop Question Answering as Single Sequence Prediction ( http://arxiv.org/abs/2205.09226v1 )

ライセンス: Link先を確認
Semih Yavuz, Kazuma Hashimoto, Yingbo Zhou, Nitish Shirish Keskar, Caiming Xiong(参考訳) Fusion-in-decoder (Fid) (Izacard and Grave, 2020) は、事前訓練されたトランスフォーマーによる経路検索を活用し、単一ホップQAで最先端の技術をプッシュする生成的質問応答モデルである。 しかし、マルチホップQAの複雑さは、生成的QAアプローチの有効性を妨げる。 本研究では,マルチホップ質問の解答を明示的にモデル化することにより,ただの回答生成を超えてタスクを拡張する,単純な生成手法(pathfid)を提案する。 助詞の階層的推論パスと主文,最後に事実的回答を線形化することにより,この問題を単一系列予測タスクとして位置づけた。 複数手掛かりによる複雑な推論を容易にするため,クロスパスインタラクションを符号化することで,複数の入力文書のフラットな統一表現をさらに拡張する。 PathFidは2つのマルチホップQAデータセット(HotpotQAとIIRC)に対して高いパフォーマンス向上をもたらすことを示した。 パフォーマンス向上に加えて、PathFidはより解釈可能なので、ベースラインのFidモデルと比較して、サポートパスや事実に忠実に根ざした回答が得られる。

Fusion-in-decoder (Fid) (Izacard and Grave, 2020) is a generative question answering (QA) model that leverages passage retrieval with a pre-trained transformer and pushed the state of the art on single-hop QA. However, the complexity of multi-hop QA hinders the effectiveness of the generative QA approach. In this work, we propose a simple generative approach (PathFid) that extends the task beyond just answer generation by explicitly modeling the reasoning process to resolve the answer for multi-hop questions. By linearizing the hierarchical reasoning path of supporting passages, their key sentences, and finally the factoid answer, we cast the problem as a single sequence prediction task. To facilitate complex reasoning with multiple clues, we further extend the unified flat representation of multiple input documents by encoding cross-passage interactions. Our extensive experiments demonstrate that PathFid leads to strong performance gains on two multi-hop QA datasets: HotpotQA and IIRC. Besides the performance gains, PathFid is more interpretable, which in turn yields answers that are more faithfully grounded to the supporting passages and facts compared to the baseline Fid model.
翻訳日:2022-05-20 14:12:20 公開日:2022-05-18
# MESH2IR:複雑な3次元シーンのためのニューラル音響インパルス応答発生装置

MESH2IR: Neural Acoustic Impulse Response Generator for Complex 3D Scenes ( http://arxiv.org/abs/2205.09248v1 )

ライセンス: Link先を確認
Anton Ratnarajah, Zhenyu Tang, Rohith Chandrashekar Aralikatti, Dinesh Manocha(参考訳) メッシュを用いた屋内3次元シーンに対する音響インパルス応答(IR)を生成するメッシュベースニューラルネットワーク(MESH2IR)を提案する。 IRはインタラクティブなアプリケーションやオーディオ処理において高品質な音体験を作り出すために使用される。 任意のトポロジ(2K - 3M三角形)で入力三角メッシュを処理できる。 本稿では,エネルギー崩壊緩和を利用したMESH2IRのトレーニング手法を提案する。 また,提案手法を用いて前処理した赤外線に対するMESH2IRのトレーニングは,IR生成の精度を著しく向上させることを示した。 3次元メッシュをグラフ畳み込みネットワークを用いて潜在空間に変換することにより,メッシュ空間の非線形性を低減する。 私たちのmesh2irは、cpu上の幾何学的音響アルゴリズムの200倍以上の速度で、所定の屋内3dシーン用にnvidia geforce rtx 2080 ti gpuで毎秒1万個のirsを生成することができます。 音響指標は音響環境の特徴付けに使用される。 我々は,MESH2IRから予測される赤外線の音響測定値が,10%未満の誤差で真実と一致することを示す。 また,音声の残響や音声分離といった音声・音声処理アプリケーションにおけるmesh2irの利点を強調する。 私たちの知る限りでは、私たちのアプローチは、与えられた3DシーンメッシュからリアルタイムにIRを予測する、最初のニューラルネットワークベースのアプローチです。

We propose a mesh-based neural network (MESH2IR) to generate acoustic impulse responses (IRs) for indoor 3D scenes represented using a mesh. The IRs are used to create a high-quality sound experience in interactive applications and audio processing. Our method can handle input triangular meshes with arbitrary topologies (2K - 3M triangles). We present a novel training technique to train MESH2IR using energy decay relief and highlight its benefits. We also show that training MESH2IR on IRs preprocessed using our proposed technique significantly improves the accuracy of IR generation. We reduce the non-linearity in the mesh space by transforming 3D scene meshes to latent space using a graph convolution network. Our MESH2IR is more than 200 times faster than a geometric acoustic algorithm on a CPU and can generate more than 10,000 IRs per second on an NVIDIA GeForce RTX 2080 Ti GPU for a given furnished indoor 3D scene. The acoustic metrics are used to characterize the acoustic environment. We show that the acoustic metrics of the IRs predicted from our MESH2IR match the ground truth with less than 10% error. We also highlight the benefits of MESH2IR on audio and speech processing applications such as speech dereverberation and speech separation. To the best of our knowledge, ours is the first neural-network-based approach to predict IRs from a given 3D scene mesh in real-time.
翻訳日:2022-05-20 14:06:39 公開日:2022-05-18
# 分離領域における模倣行動

Mimicking Behaviors in Separated Domains ( http://arxiv.org/abs/2205.09201v1 )

ライセンス: Link先を確認
Giuseppe De Giacomo, Dror Fried, Fabio Patrizi, Shufang Zhu(参考訳) システムを他のシステムから模倣する戦略を開発することは、コンピュータ科学の多くの領域で自然に発生する問題である。 本研究では,人工知能において有限トレース特性を表現するための形式的手法であるltlfの観点から,知的エージェントの文脈でこの問題を解釈する。 本モデルは,d_a と d_b の2つの分離ダイナミックドメインと,d_a の挙動 (トレース) の特性を d_b の挙動にマッピングして模倣する概念を定式化する ltlf 仕様から構成される。 目標は、D_Aのすべての振舞いをD_Bの振舞いにステップバイステップでマッピングして仕様を満たす戦略を合成することである。 簡単なものから完全なLTLfまで,いくつかの形式のマッピング仕様を検討し,それぞれに合成アルゴリズムと計算特性について検討する。

Devising a strategy to make a system mimicking behaviors from another system is a problem that naturally arises in many areas of Computer Science. In this work, we interpret this problem in the context of intelligent agents, from the perspective of LTLf, a formalism commonly used in AI for expressing finite-trace properties. Our model consists of two separated dynamic domains, D_A and D_B, and an LTLf specification that formalizes the notion of mimicking by mapping properties on behaviors (traces) of D_A into properties on behaviors of D_B. The goal is to synthesize a strategy that step-by-step maps every behavior of D_A into a behavior of D_B so that the specification is met. We consider several forms of mapping specifications, ranging from simple ones to full LTLf, and for each we study synthesis algorithms and computational properties.
翻訳日:2022-05-20 14:06:15 公開日:2022-05-18
# A2CはPPOの特殊な症例である

A2C is a special case of PPO ( http://arxiv.org/abs/2205.09123v1 )

ライセンス: Link先を確認
Shengyi Huang, Anssi Kanervisto, Antonin Raffin, Weixun Wang, Santiago Onta\~n\'on, Rousslan Fernand Julien Dossa(参考訳) アドバンテージアクタークリティカル (A2C) とPPO (Proximal Policy Optimization) は近年,ゲームAIの深層強化学習アルゴリズムとして人気がある。 一般的な理解では、A2CとPPOは別個のアルゴリズムであるため、PPOのクリップされた目的はA2Cの目的と大きく異なるように見える。 本稿では, A2C が PPO の特別な場合であることを示す。 理論的な正当化と疑似コード解析を行い,その理由を述べる。 我々の主張を検証するために、我々は \texttt{stable-baselines3} を用いて経験的な実験を行い、a2c と ppo が他の設定が制御されたときに \textit{exact} と同じモデルを生成することを示した。

Advantage Actor-critic (A2C) and Proximal Policy Optimization (PPO) are popular deep reinforcement learning algorithms used for game AI in recent years. A common understanding is that A2C and PPO are separate algorithms because PPO's clipped objective appears significantly different than A2C's objective. In this paper, however, we show A2C is a special case of PPO. We present theoretical justifications and pseudocode analysis to demonstrate why. To validate our claim, we conduct an empirical experiment using \texttt{Stable-baselines3}, showing A2C and PPO produce the \textit{exact} same models when other settings are controlled.
翻訳日:2022-05-20 13:55:49 公開日:2022-05-18
# order-$\textit{n}$tensor eigendecomposition による高次多重線形判別解析

High-Order Multilinear Discriminant Analysis via Order-$\textit{n}$ Tensor Eigendecomposition ( http://arxiv.org/abs/2205.09191v1 )

ライセンス: Link先を確認
Cagri Ozdemir, Randy C. Hoover, Kyle Caudle, and Karen Braman(参考訳) 高次元の高次データは、機械学習、コンピュータビジョン、ビデオ分析といった多くの分野で非常に重要である。 多次元配列(一般にテンソルと呼ばれる)は、データサンプルの自然な表現を維持しながら、高次データ構造の配置に使用される。 過去10年間で、高次データ分類のための古典線形判別分析をMDA(Multilinear discriminant analysis)と呼ぶように拡張する努力が続けられてきた。 既存のアプローチのほとんどは、Tucker分解と $\textit{n}$-mode tensor-matrix 積に基づいている。 本稿では,高次多重線形判別解析 (homlda) と呼ばれるテンソルベース多線形判別解析に対する新しいアプローチを提案する。 このアプローチは、次数-$\textit{n}$テンソルを次数-$\textit{n}$テンソルの積として記述できるテンソル分解に基づいており、伝統的な線形判別分析(LDA)への自然な拡張を持つ。 さらに、結果として生じるフレームワークであるHOMLDAは、特異点に近いクラス内散乱テンソルを生成する。 したがって、逆の計算を不正確に行うと、判別分析を歪めることがある。 この問題に対処するために,ロバスト高次多重線形識別分析(RHOMLDA)と呼ばれる改良手法を提案する。 複数のデータセットに対する実験結果から,提案手法は現在のタッカー分解に基づく教師あり学習法に対して,より優れた分類性能を提供することを示した。

Higher-order data with high dimensionality is of immense importance in many areas of machine learning, computer vision, and video analytics. Multidimensional arrays (commonly referred to as tensors) are used for arranging higher-order data structures while keeping the natural representation of the data samples. In the past decade, great efforts have been made to extend the classic linear discriminant analysis for higher-order data classification generally referred to as multilinear discriminant analysis (MDA). Most of the existing approaches are based on the Tucker decomposition and $\textit{n}$-mode tensor-matrix products. The current paper presents a new approach to tensor-based multilinear discriminant analysis referred to as High-Order Multilinear Discriminant Analysis (HOMLDA). This approach is based upon the tensor decomposition where an order-$\textit{n}$ tensor can be written as a product of order-$\textit{n}$ tensors and has a natural extension to traditional linear discriminant analysis (LDA). Furthermore, the resulting framework, HOMLDA, might produce a within-class scatter tensor that is close to singular. Thus, computing the inverse inaccurately may distort the discriminant analysis. To address this problem, an improved method referred to as Robust High-Order Multilinear Discriminant Analysis (RHOMLDA) is introduced. Experimental results on multiple data sets illustrate that our proposed approach provides improved classification performance with respect to the current Tucker decomposition-based supervised learning methods.
翻訳日:2022-05-20 13:55:35 公開日:2022-05-18
# 最適輸送によるリーマン計量学習

Riemannian Metric Learning via Optimal Transport ( http://arxiv.org/abs/2205.09244v1 )

ライセンス: Link先を確認
Christopher Scarvelis, Justin Solomon(参考訳) 共通リーマン多様体上の発展確率測度の断面的サンプルから計量テンソルを学習するための最適輸送ベースモデルを導入する。 我々は、計量を空間変動行列場として神経パラメトリ化し、バックプロパゲーションを用いてモデルの目的を効率的に最適化する。 この学習された計量を用いて、確率測度を非線形に補間し、多様体上の測地線を計算することができる。 また,本手法を用いて学習した指標により,ScRNAと鳥の移動データに対する軌道推定の精度が向上することを示した。

We introduce an optimal transport-based model for learning a metric tensor from cross-sectional samples of evolving probability measures on a common Riemannian manifold. We neurally parametrize the metric as a spatially-varying matrix field and efficiently optimize our model's objective using backpropagation. Using this learned metric, we can nonlinearly interpolate between probability measures and compute geodesics on the manifold. We show that metrics learned using our method improve the quality of trajectory inference on scRNA and bird migration data at the cost of little additional cross-sectional data.
翻訳日:2022-05-20 12:39:02 公開日:2022-05-18
# ハイブリッドソリューションとCarbon Tables APIによるメリットの創造のカーボンフィギュア

Carbon Figures of Merit Knowledge Creation with a Hybrid Solution and Carbon Tables API ( http://arxiv.org/abs/2205.09175v1 )

ライセンス: Link先を確認
Maira Gatti de Bayser(参考訳) 今日では、大気中や発電所の燃焼中にCO_2$分子を吸収または吸着できる物質の発見を加速するために、アルゴリズム、手法、プラットフォームが作成されている。 この本では、科学的なpdf文書の表から知識が作成され、知識グラフに格納されるので、非同期rest apiがカーボン・フィギュア・オブ・メリット・ナレッジ(carbon figures of merit knowledge)の作成を加速するために説明されています。 メリット知識創造ソリューションの数値は、ヒューリスティックスと機械学習が組み合わさったハイブリッドアプローチを採用している。 結果として、成熟した洗練された認知ツールを用いて知識を探索し、炭素の有益度に関してさらに多くのものを作成することができる。

Nowadays there are algorithms, methods, and platforms that are being created to accelerate the discovery of materials that are able to absorb or adsorb $CO_2$ molecules that are in the atmosphere or during the combustion in power plants, for instance. In this work an asynchronous REST API is described to accelerate the creation of Carbon figures of merit knowledge, called Carbon Tables, because the knowledge is created from tables in scientific PDF documents and stored in knowledge graphs. The figures of merit knowledge creation solution uses a hybrid approach, in which heuristics and machine learning are part of. As a result, one can search the knowledge with mature and sophisticated cognitive tools, and create more with regards to Carbon figures of merit.
翻訳日:2022-05-20 12:09:20 公開日:2022-05-18
# 検証集合を用いた身体エージェントモデル一般化の限界について

On the Limits of Evaluating Embodied Agent Model Generalization Using Validation Sets ( http://arxiv.org/abs/2205.09249v1 )

ライセンス: Link先を確認
Hyounghun Kim, Aishwarya Padmakumar, Di Jin, Mohit Bansal, Dilek Hakkani-Tur(参考訳) 自然言語ガイド付き具体化タスク補完は、自然言語の指示を理解し、エゴセントリックな視覚的観察と整合させ、望ましい変化を生み出すために環境内で実行する適切なアクションを選択する必要があるため、難しい問題である。 本研究では,より広い視野を効果的に活用し,次のステップでナビゲーションや操作を行うかを選択するモジュールを用いて,このタスクのためのトランスフォーマーモデルの拡張実験を行う。 提案したモジュールは改良され,実際に一般的なベンチマークデータセットであるALFREDの見知らぬ検証セット上での最先端のパフォーマンスが得られた。 しかし, ALFREDの未確認テストスプリットにおいて, 未確認検証セットを用いて選択した最良のモデルでは, 未確認検証セットの性能が未確認テストセットに一般化するかどうかの指標にはならない可能性が示唆された。 この結果は、機械学習タスクではより広範な現象かもしれないが、主にテスト分割の評価を制限するベンチマークでのみ顕著であり、モデルパフォーマンスのばらつきを考慮に入れたベンチマーク設計を修正する必要性を強調している。

Natural language guided embodied task completion is a challenging problem since it requires understanding natural language instructions, aligning them with egocentric visual observations, and choosing appropriate actions to execute in the environment to produce desired changes. We experiment with augmenting a transformer model for this task with modules that effectively utilize a wider field of view and learn to choose whether the next step requires a navigation or manipulation action. We observed that the proposed modules resulted in improved, and in fact state-of-the-art performance on an unseen validation set of a popular benchmark dataset, ALFRED. However, our best model selected using the unseen validation set underperforms on the unseen test split of ALFRED, indicating that performance on the unseen validation set may not in itself be a sufficient indicator of whether model improvements generalize to unseen test sets. We highlight this result as we believe it may be a wider phenomenon in machine learning tasks but primarily noticeable only in benchmarks that limit evaluations on test splits, and highlights the need to modify benchmark design to better account for variance in model performance.
翻訳日:2022-05-20 12:00:33 公開日:2022-05-18
# LeRaC: 学習率カリキュラム

LeRaC: Learning Rate Curriculum ( http://arxiv.org/abs/2205.09180v1 )

ライセンス: Link先を確認
Florinel-Alin Croitoru, Nicolae-Catalin Ristea, Radu Tudor Ionescu, Nicu Sebe(参考訳) ほとんどのカリキュラム学習方法は、データサンプルを難易度でソートするアプローチを必要とする。 本研究では,ニューラルネットワークの各層に異なる学習率を用いることで,初等訓練期間中にデータフリーのカリキュラムを作成する,LeRaC(Learning Rate Curriculum)と呼ばれる新しいカリキュラム学習手法を提案する。 より具体的には、leracは入力に近い神経層に高い学習率を割り当て、その層が入力から遠ざかるにつれて徐々に学習率を減少させる。 学習速度は、最初のトレーニングイテレーションで様々なペースで上昇し、全員が同じ値に達するまで上昇します。 この点から、ニューラルモデルは通常のように訓練される。 これにより、難易度によるサンプルのソートを必要とせず、任意のニューラルネットワークと互換性を持ち、アーキテクチャに関係なく高いパフォーマンスレベルを生成する、モデルレベルのカリキュラム学習戦略が生まれます。 コンピュータビジョン(CIFAR-10, CIFAR-100, Tiny ImageNet)、言語(BoolQ, QNLI, RTE)、音声(ESC-50, CREMA-D)の8つのデータセットについて総合的な実験を行い、様々な畳み込み(ResNet-18, Wide-ResNet-50, DenseNet-121)、再帰(LSTM)、トランスフォーマー(CvT, BERT, SepTr)アーキテクチャを考察した。 さらに,データフリーなカリキュラム学習手法であるsmoiseing (cbs) によるカリキュラムとの比較を行った。 CBSとは異なり、標準的なトレーニングシステムに対するパフォーマンス改善は、すべてのデータセットとモデルで一貫しています。 さらに、トレーニング時間という点ではCBSをはるかに上回りました(LeRaCの標準トレーニング体制には追加費用はありません)。

Most curriculum learning methods require an approach to sort the data samples by difficulty, which is often cumbersome to perform. In this work, we propose a novel curriculum learning approach termed Learning Rate Curriculum (LeRaC), which leverages the use of a different learning rate for each layer of a neural network to create a data-free curriculum during the initial training epochs. More specifically, LeRaC assigns higher learning rates to neural layers closer to the input, gradually decreasing the learning rates as the layers are placed farther away from the input. The learning rates increase at various paces during the first training iterations, until they all reach the same value. From this point on, the neural model is trained as usual. This creates a model-level curriculum learning strategy that does not require sorting the examples by difficulty and is compatible with any neural network, generating higher performance levels regardless of the architecture. We conduct comprehensive experiments on eight datasets from the computer vision (CIFAR-10, CIFAR-100, Tiny ImageNet), language (BoolQ, QNLI, RTE) and audio (ESC-50, CREMA-D) domains, considering various convolutional (ResNet-18, Wide-ResNet-50, DenseNet-121), recurrent (LSTM) and transformer (CvT, BERT, SepTr) architectures, comparing our approach with the conventional training regime. Moreover, we also compare with Curriculum by Smoothing (CBS), a state-of-the-art data-free curriculum learning approach. Unlike CBS, our performance improvements over the standard training regime are consistent across all datasets and models. Furthermore, we significantly surpass CBS in terms of training time (there is no additional cost over the standard training regime for LeRaC).
翻訳日:2022-05-20 11:59:49 公開日:2022-05-18
# (参考訳) 衛星画像セグメンテーションのための自己教師付きハードクラスタリングディープラーニングアルゴリズムK-textures

K-textures, a self supervised hard clustering deep learning algorithm for satellite images segmentation ( http://arxiv.org/abs/2205.08671v1 )

ライセンス: CC BY 4.0
Fabien H. Wagner, Ricardo Dalagnol, Alber H. S\'anchez, Mayumi C.M. Hirye, Samuel Favrichon, Jake H. Lee, Steffen Mauceri, Yan Yang and Sassan Saatchi(参考訳) k-meansアルゴリズムのような固定数のハードラベルにイメージを分割し、ディープラーニング技術のみに依存するディープラーニング自己教師ありアルゴリズムはまだ不足している。 そこで本研究では、4バンド画像(RGB-NIR)の自己教師付きセグメンテーションを提供するk-texturesアルゴリズムを提案する。 高解像度のプラネタリー衛星画像への応用例があげられる。 本アルゴリズムは,畳み込みニューラルネットワーク(cnn)と勾配降下を用いて離散探索が実現可能であることを示す。 モデルは、モデルで表現されるハードクラスタリングクラスを$k$個別のバイナリマスクとして検出し、それに関連する$k$独立に生成されたテクスチャは、元のイメージのシミュレーションである。 類似性損失は、Keras 'imagenet' 事前訓練されたVGG-16モデルの最後尾の畳み込みブロックから抽出された原画像とシミュレーション画像の特徴との平均2乗誤差である。 k-texturesモデルの主な進歩は次のとおりである。 このモデルは、ハードシグモイドアクティベーション関数を用いた新しい手法を用いて、離散二元マスクの生成を可能にする。 第二に、ハードクラスタリングクラスを提供する -- 各ピクセルは1つのクラスしか持たない。 最後に、各画素が独立に考慮されているk平均と比較すると、文脈情報も考慮され、各クラスは色チャンネルの類似した値だけでなくテクスチャにも関連付けられている。 本手法は,衛星画像分割のためのトレーニングサンプルの作成を容易にする。 モデルコードとウェイトはhttps://doi.org/10.5281/zenodo.6359859で利用可能である。

Deep learning self supervised algorithms that can segment an image in a fixed number of hard labels such as the k-means algorithm and only relying only on deep learning techniques are still lacking. Here, we introduce the k-textures algorithm which provides self supervised segmentation of a 4-band image (RGB-NIR) for a $k$ number of classes. An example of its application on high resolution Planet satellite imagery is given. Our algorithm shows that discrete search is feasible using convolutional neural networks (CNN) and gradient descent. The model detects $k$ hard clustering classes represented in the model as $k$ discrete binary masks and their associated $k$ independently generated textures, that combined are a simulation of the original image. The similarity loss is the mean squared error between the features of the original and the simulated image, both extracted from the penultimate convolutional block of Keras 'imagenet' pretrained VGG-16 model and a custom feature extractor made with Planet data. The main advances of the k-textures model are: first, the $k$ discrete binary masks are obtained inside the model using gradient descent. The model allows for the generation of discrete binary masks using a novel method using a hard sigmoid activation function. Second, it provides hard clustering classes -- each pixels has only one class. Finally, in comparison to k-means, where each pixel is considered independently, here, contextual information is also considered and each class is not associated only to a similar values in the color channels but to a texture. Our approach is designed to ease the production of training samples for satellite image segmentation. The model codes and weights are available at https://doi.org/10.5281/zenodo.6359859
翻訳日:2022-05-19 21:46:41 公開日:2022-05-18
# (参考訳) レールプロファイルマッチングの深層学習

Deep learning on rail profiles matching ( http://arxiv.org/abs/2205.08687v1 )

ライセンス: CC BY 4.0
Kunqi Wang(参考訳) 現場で測定されたレール断面プロファイルと設計されたプロファイルとを一致させるには、レールの摩耗を評価する必要がある。 これまでのところ、一致すべきレールプロファイルは、通常、大量のデータ、多様な断面形状、ハードウェアのエラー、そしてマッチングプロセス中のサイトの複雑な状況を解決するために、人間の経験の4つの特徴を持つ。 しかし、機能ポイントや機能ラインに基づいた従来のマッチングメソッドはもはや要件を満たせない。 そこで我々はまず,46386対のマニュアルマッチングデータからなるレールプロファイルマッチングデータセットを構築し,事前学習された畳み込みニューラルネットワーク(CNN)を用いて,レールプロファイルマッチングのための一般的な高精度手法を提案する。 深層学習に基づくこの新しい手法は,この問題に対して支配的なアプローチであることを約束している。 ソースコードはhttps://github.com/kunqi1994/deep-learning-on-rail-profile-matchingにある。

Matching the rail cross-section profiles measured on site with the designed profile is a must to evaluate the wear of the rail, which is very important for track maintenance and rail safety. So far, the measured rail profiles to be matched usually have four features, that is, large amount of data, diverse section shapes, hardware made errors, and human experience needs to be introduced to solve the complex situation on site during matching process. However, traditional matching methods based on feature points or feature lines could no longer meet the requirements. To this end, we first establish the rail profiles matching dataset composed of 46386 pairs of professional manual matched data, then propose a general high-precision method for rail profiles matching using pre-trained convolutional neural network (CNN). This new method based on deep learning is promising to be the dominant approach for this issue. Source code is at https://github.com/Kunqi1994/Deep-learning-on-rail-profile-matching.
翻訳日:2022-05-19 21:07:32 公開日:2022-05-18
# (参考訳) 解釈可能性評価尺度の可解性

The Solvability of Interpretability Evaluation Metrics ( http://arxiv.org/abs/2205.08696v1 )

ライセンス: CC BY 4.0
Yilun Zhou, Julie Shah(参考訳) 特徴属性法はニューラルネットワークの予測を説明するのに人気があり、モデル予測に大きな影響を与えるべきだという原則によって動機づけられた包括性や充足性などのメトリクスで評価されることが多い。 本稿では,これらの指標の興味深い性質,すなわち可解性を明らかにする。 具体的には、メートル法の説明を最適化し、ビームサーチを用いて解決する問題を定義できる。 このような可解性を考えると、なぜ他の説明器を開発してメトリクスで評価するのでしょうか。 本研究は,LIME や SHAP などの現行の選択肢と概ね同等あるいは好適であることを示す一連の調査を行い,モデル解釈可能性の目標を再考し,新しい手法提案のより良い評価に向けてのいくつかの方向を明らかにする。

Feature attribution methods are popular for explaining neural network predictions, and they are often evaluated on metrics such as comprehensiveness and sufficiency, which are motivated by the principle that more important features -- as judged by the explanation -- should have larger impacts on model prediction. In this paper, we highlight an intriguing property of these metrics: their solvability. Concretely, we can define the problem of optimizing an explanation for a metric and solve it using beam search. This brings up the obvious question: given such solvability, why do we still develop other explainers and then evaluate them on the metric? We present a series of investigations showing that this beam search explainer is generally comparable or favorable to current choices such as LIME and SHAP, suggest rethinking the goals of model interpretability, and identify several directions towards better evaluations of new method proposals.
翻訳日:2022-05-19 20:59:25 公開日:2022-05-18
# (参考訳) 強化学習による配電系統の電力負荷予測のための最適適応予測区間

Optimal Adaptive Prediction Intervals for Electricity Load Forecasting in Distribution Systems via Reinforcement Learning ( http://arxiv.org/abs/2205.08698v1 )

ライセンス: CC BY 4.0
Yufan Zhang, Honglin Wen, Qiuwei Wu, and Qian Ai(参考訳) 予測間隔は、分散システムにおける負荷の不確実性の定量化に有効なツールを提供する。 従来の中央のPIは歪んだ分布にうまく適応できず、オフラインのトレーニングスタイルは将来の負荷パターンの予期せぬ変化に対して脆弱である。 そこで本研究では,量子化に対する対称あるいは非対称の確率比対を適応的に決定することにより,オンラインかつ異なるデータ分布に適応する最適PI推定手法を提案する。 これは強化学習のオンライン学習能力を利用して、2つのオンラインタスク、すなわち確率比のペアと量子予測の適応的選択を統合する。 そのため、量子化されたPIの品質は最適確率比対の選択過程を導くことができ、PIの品質を向上させるために閉ループを形成する。 さらに、量子化予測の学習効率を向上させるために、オンライン量子化回帰プロセスにおいて優先的な経験再生戦略を提案する。 負荷とネット負荷の双方に関するケーススタディでは,オンライン中央PI法と比較して,提案手法がデータ分布に適応できることが示されている。 オフラインで訓練された手法と比較すると、優れた品質のPIが得られ、コンセプトドリフトに対してより堅牢である。

Prediction intervals offer an effective tool for quantifying the uncertainty of loads in distribution systems. The traditional central PIs cannot adapt well to skewed distributions, and their offline training fashion is vulnerable to unforeseen changes in future load patterns. Therefore, we propose an optimal PI estimation approach, which is online and adaptive to different data distributions by adaptively determining symmetric or asymmetric probability proportion pairs for quantiles. It relies on the online learning ability of reinforcement learning to integrate the two online tasks, i.e., the adaptive selection of probability proportion pairs and quantile predictions, both of which are modeled by neural networks. As such, the quality of quantiles-formed PI can guide the selection process of optimal probability proportion pairs, which forms a closed loop to improve the quality of PIs. Furthermore, to improve the learning efficiency of quantile forecasts, a prioritized experience replay strategy is proposed for online quantile regression processes. Case studies on both load and net load demonstrate that the proposed method can better adapt to data distribution compared with online central PIs method. Compared with offline-trained methods, it obtains PIs with better quality and is more robust against concept drift.
翻訳日:2022-05-19 20:43:01 公開日:2022-05-18
# (参考訳) semicurv:半教師付き曲線構造セグメンテーション

SemiCurv: Semi-Supervised Curvilinear Structure Segmentation ( http://arxiv.org/abs/2205.08706v1 )

ライセンス: CC BY 4.0
Xun Xu, Manh Cuong Nguyen, Yasin Yazici, Kangkang Lu, Hlaing Min, Chuan-Sheng Foo(参考訳) 線形構造分割に関する最近の研究は、主にバックボーンネットワークの設計と損失エンジニアリングに焦点を当てている。 高価で労働集約的なプロセスであるラベル付きデータ収集の課題は見過ごされている。 ラベル付きデータは入手に費用がかかるが、ラベルなしのデータはしばしば手に入る。 そこで本研究では,ラベル付けの負担を軽減するために,ラベル付きデータの活用が可能な半教師付き学習(SSL)フレームワークであるSemiCurvを提案する。 本フレームワークは,半教師付き方式でカービリナーセグメンテーションを定式化する際の2つの課題に対処する。 まず、一貫性に基づくSSLのパワーをフル活用するために、強いデータ拡張として幾何変換を導入し、また、異なる逆変換によってセグメント化予測を調整し、ピクセル単位での一貫性の計算を可能にする。 第二に、乱れのないデータに対する従来の平均二乗誤差(MSE)は、予測が崩壊する傾向にあり、この問題は深刻なクラス不均衡(特に背景画素の増大)で悪化する。 ラベルなしデータに対する自明な予測を避けるために,nペア一貫性の損失を提案する。 6つの線形セグメンテーションデータセット上で半曲線を評価し,ラベル付きデータの5%未満で,全教師付きデータセットと比較して95%近い性能が得られることを確認した。

Recent work on curvilinear structure segmentation has mostly focused on backbone network design and loss engineering. The challenge of collecting labelled data, an expensive and labor intensive process, has been overlooked. While labelled data is expensive to obtain, unlabelled data is often readily available. In this work, we propose SemiCurv, a semi-supervised learning (SSL) framework for curvilinear structure segmentation that is able to utilize such unlabelled data to reduce the labelling burden. Our framework addresses two key challenges in formulating curvilinear segmentation in a semi-supervised manner. First, to fully exploit the power of consistency based SSL, we introduce a geometric transformation as strong data augmentation and then align segmentation predictions via a differentiable inverse transformation to enable the computation of pixel-wise consistency. Second, the traditional mean square error (MSE) on unlabelled data is prone to collapsed predictions and this issue exacerbates with severe class imbalance (significantly more background pixels). We propose a N-pair consistency loss to avoid trivial predictions on unlabelled data. We evaluate SemiCurv on six curvilinear segmentation datasets, and find that with no more than 5% of the labelled data, it achieves close to 95% of the performance relative to its fully supervised counterpart.
翻訳日:2022-05-19 20:23:19 公開日:2022-05-18
# (参考訳) オンラインアルゴリズムのためのML予測のカスタマイズ

Customizing ML Predictions for Online Algorithms ( http://arxiv.org/abs/2205.08715v1 )

ライセンス: CC BY 4.0
Keerti Anand, Rong Ge, Debmalya Panigrahi(参考訳) 最近の一般的な研究のラインでは、典型的なインスタンスのパフォーマンスを改善するために、オンラインアルゴリズムの設計にMLアドバイスが組み込まれている。 これらの論文は、MLアルゴリズムをブラックボックスとして扱い、ML予測を活用するためにオンラインアルゴリズムを再設計する。 本稿では,オンラインアルゴリズムにより良い予測を提供するため,MLアルゴリズムを再設計できるだろうか? 本稿では,従来の賃貸代金問題において,ML損失関数に最適化ベンチマークを組み込むことで,性能が著しく向上する一方で,アドバイスが完全に間違っている場合の最悪の逆効果も維持できることを示す。 理論的境界と数値シミュレーションの両方を通してこの発見を支援する。

A popular line of recent research incorporates ML advice in the design of online algorithms to improve their performance in typical instances. These papers treat the ML algorithm as a black-box, and redesign online algorithms to take advantage of ML predictions. In this paper, we ask the complementary question: can we redesign ML algorithms to provide better predictions for online algorithms? We explore this question in the context of the classic rent-or-buy problem, and show that incorporating optimization benchmarks in ML loss functions leads to significantly better performance, while maintaining a worst-case adversarial result when the advice is completely wrong. We support this finding both through theoretical bounds and numerical simulations.
翻訳日:2022-05-19 19:59:35 公開日:2022-05-18
# (参考訳) no more pesky hyperparameters: rlのためのオフラインハイパーパラメータチューニング

No More Pesky Hyperparameters: Offline Hyperparameter Tuning for RL ( http://arxiv.org/abs/2205.08716v1 )

ライセンス: CC BY 4.0
Han Wang, Archit Sakhadeo, Adam White, James Bell, Vincent Liu, Xutong Zhao, Puer Liu, Tadashi Kozuno, Alona Fyshe, Martha White(参考訳) 強化学習(RL)エージェントの性能はハイパーパラメータの選択に敏感である。 しかし、ロボット工学や産業制御システムのような現実の環境では、異なるハイパーパラメータの設定を直接環境上でテストすることは、経済的に禁止され、危険であり、時間を要する可能性がある。 本稿では,リアルタイムに学習するRLエージェントのハイパーパラメータを完全に指定するために,オフラインログからハイパーパラメータをチューニングするための新しいアプローチを提案する。 この手法は、まずオフラインデータから環境のモデルを学び、それをキャリブレーションモデルと呼び、次にキャリブレーションモデルで学習をシミュレートし、期待できるハイパーパラメータを識別する。 この戦略を効果的にするためのいくつかの基準を特定し、これらの基準を満たすアプローチを開発する。 我々は,その方法が有効でいつ失敗するかを,様々な設定で実証的に調べる。

The performance of reinforcement learning (RL) agents is sensitive to the choice of hyperparameters. In real-world settings like robotics or industrial control systems, however, testing different hyperparameter configurations directly on the environment can be financially prohibitive, dangerous, or time consuming. We propose a new approach to tune hyperparameters from offline logs of data, to fully specify the hyperparameters for an RL agent that learns online in the real world. The approach is conceptually simple: we first learn a model of the environment from the offline data, which we call a calibration model, and then simulate learning in the calibration model to identify promising hyperparameters. We identify several criteria to make this strategy effective, and develop an approach that satisfies these criteria. We empirically investigate the method in a variety of settings to identify when it is effective and when it fails.
翻訳日:2022-05-19 19:31:14 公開日:2022-05-18
# (参考訳) 学習強化オンラインアルゴリズムへの回帰アプローチ

A Regression Approach to Learning-Augmented Online Algorithms ( http://arxiv.org/abs/2205.08717v1 )

ライセンス: CC BY 4.0
Keerti Anand, Rong Ge, Amit Kumar, Debmalya Panigrahi(参考訳) 学習強化オンラインアルゴリズムの新たな分野は、ML技術を用いて将来の入力パラメータを予測し、オンラインアルゴリズムの性能を向上させる。 これらのパラメータは一般に実数値関数であるため、回帰法を用いて予測を行うのが自然な方法である。 本稿では,この手法を導入し,(一般化)スキーレンタル,ビンパッキング,最小限のメースパンスケジューリングなどの古典的問題を捉える,一般的なオンライン検索フレームワークの文脈で検討する。 この回帰問題のサンプル複雑性についてほぼ厳密な境界を示し、その結果を不可知な設定に拡張する。 技術的観点からは、回帰問題に対する損失関数の設計にオンライン最適化ベンチマークを組み込むことが重要であり、したがって統計的誤差に標準的制約がある既製の回帰ツールの使用から逸脱することを示す。

The emerging field of learning-augmented online algorithms uses ML techniques to predict future input parameters and thereby improve the performance of online algorithms. Since these parameters are, in general, real-valued functions, a natural approach is to use regression techniques to make these predictions. We introduce this approach in this paper, and explore it in the context of a general online search framework that captures classic problems like (generalized) ski rental, bin packing, minimum makespan scheduling, etc. We show nearly tight bounds on the sample complexity of this regression problem, and extend our results to the agnostic setting. From a technical standpoint, we show that the key is to incorporate online optimization benchmarks in the design of the loss function for the regression problem, thereby diverging from the use of off-the-shelf regression tools with standard bounds on statistical error.
翻訳日:2022-05-19 19:30:14 公開日:2022-05-18
# (参考訳) TTAPS:セルフスーパービジョンを用いたプロトタイプのアライメントによるテスト時間適応

TTAPS: Test-Time Adaption by Aligning Prototypes using Self-Supervision ( http://arxiv.org/abs/2205.08731v1 )

ライセンス: CC BY 4.0
Alexander Bartler, Florian Bender, Felix Wiewel, Bin Yang(参考訳) 現在、ディープニューラルネットワークは多くのタスクで人間よりも優れています。 しかし、もし入力分布がトレーニングで使用されるものから遠ざかれば、その性能は著しく低下する。 最近発表された研究によると、モデルパラメータをテストサンプルに適用することで、この性能劣化を軽減できる。 そこで本研究では,自己教師付き学習アルゴリズムswavを改良し,単一のテストサンプルに適応する機能を追加する手法を提案する。 得られたSwaVのプロトタイプと得られたテスト時間損失を用いて、未確認試験サンプルと自己教師型学習プロトタイプの表現を整合させる。 ベンチマークデータセットCIFAR10-Cにおいて,本手法の有効性を示す。

Nowadays, deep neural networks outperform humans in many tasks. However, if the input distribution drifts away from the one used in training, their performance drops significantly. Recently published research has shown that adapting the model parameters to the test sample can mitigate this performance degradation. In this paper, we therefore propose a novel modification of the self-supervised training algorithm SwAV that adds the ability to adapt to single test samples. Using the provided prototypes of SwAV and our derived test-time loss, we align the representation of unseen test samples with the self-supervised learned prototypes. We show the success of our method on the common benchmark dataset CIFAR10-C.
翻訳日:2022-05-19 18:50:02 公開日:2022-05-18
# (参考訳) ペルシャの自然言語推論:メタラーニングアプローチ

Persian Natural Language Inference: A Meta-learning approach ( http://arxiv.org/abs/2205.08755v1 )

ライセンス: CC BY 4.0
Heydar Soudani, Mohammad Hassan Mojab, Hamid Beigy(参考訳) 他の言語からの情報を組み込むことで、低リソース言語でのタスクの結果を改善することができる。 低リソース言語のための機能的自然言語処理システムを構築する強力な方法は、多言語事前学習表現と言語間転送学習を組み合わせることである。 しかし一般に、共有表現はタスク間または言語間で別々に学習される。 本稿では,ペルシャの自然言語を推論するメタラーニング手法を提案する。 代わりに、メタラーニングは異なるタスク情報(ペルシア語のQAなど)または他の言語情報(英語の自然言語推論など)を使用する。 また,タスク強化戦略が付加的な高品質タスク形成に果たす役割についても検討する。 提案手法を4つの言語と補助課題を用いて評価する。 ベースラインアプローチと比較して、提案モデルは一貫して性能を上回り、精度を約6%向上させる。 また,ゼロショット評価とcca類似性を用いて,適切な初期パラメータを求める効果について検討した。

Incorporating information from other languages can improve the results of tasks in low-resource languages. A powerful method of building functional natural language processing systems for low-resource languages is to combine multilingual pre-trained representations with cross-lingual transfer learning. In general, however, shared representations are learned separately, either across tasks or across languages. This paper proposes a meta-learning approach for inferring natural language in Persian. Alternately, meta-learning uses different task information (such as QA in Persian) or other language information (such as natural language inference in English). Also, we investigate the role of task augmentation strategy for forming additional high-quality tasks. We evaluate the proposed method using four languages and an auxiliary task. Compared to the baseline approach, the proposed model consistently outperforms it, improving accuracy by roughly six percent. We also examine the effect of finding appropriate initial parameters using zero-shot evaluation and CCA similarity.
翻訳日:2022-05-19 18:31:36 公開日:2022-05-18
# (参考訳) クロスドメイン感情分類のためのグラフ適応意味伝達

Graph Adaptive Semantic Transfer for Cross-domain Sentiment Classification ( http://arxiv.org/abs/2205.08772v1 )

ライセンス: CC BY 4.0
Kai Zhang, Qi Liu, Zhenya Huang, Mingyue Cheng, Kun Zhang, Mengdi Zhang, Wei Wu, Enhong Chen(参考訳) クロスドメイン感情分類(CDSC)は、ソースドメインから学んだ伝達可能なセマンティクスを使用して、ラベルなしのターゲットドメインにおけるレビューの感情を予測することを目的としている。 このタスクにおける既存の研究は、グラフ構造に埋め込まれたリッチなドメイン不変セマンティクス(すなわち音声タグと依存関係)を無視しながら、文のシーケンスモデリングに注意を向けている。 言語理解の特徴を探求する重要な側面として、適応グラフ表現は近年、重要な役割を担っている。 そこで本論文では,CDSCのグラフ構造から不変な意味的特徴を学習する可能性を検討する。 具体的には、単語列と構文グラフの両方からドメイン不変の意味を学習できる適応型構文グラフ埋め込み法であるグラフ適応意味伝達(GAST)モデルを提案する。 具体的には、まずPOS-Transformerモジュールを立ち上げ、単語列と音声タグから逐次的意味的特徴を抽出する。 次に,hgat(hybrid graph attention)モジュールを設計し,その依存関係を考慮し,構文に基づく意味的特徴を生成する。 最後に,統合型aDaptive Strategy(IDS)を考案し,両モジュールの協調学習プロセスを導出する。 4つの公開データセットに対する大規模な実験は、GASTが最先端モデルに匹敵する効果を達成していることを示している。

Cross-domain sentiment classification (CDSC) aims to use the transferable semantics learned from the source domain to predict the sentiment of reviews in the unlabeled target domain. Existing studies in this task attach more attention to the sequence modeling of sentences while largely ignoring the rich domain-invariant semantics embedded in graph structures (i.e., the part-of-speech tags and dependency relations). As an important aspect of exploring characteristics of language comprehension, adaptive graph representations have played an essential role in recent years. To this end, in the paper, we aim to explore the possibility of learning invariant semantic features from graph-like structures in CDSC. Specifically, we present Graph Adaptive Semantic Transfer (GAST) model, an adaptive syntactic graph embedding method that is able to learn domain-invariant semantics from both word sequences and syntactic graphs. More specifically, we first raise a POS-Transformer module to extract sequential semantic features from the word sequences as well as the part-of-speech tags. Then, we design a Hybrid Graph Attention (HGAT) module to generate syntax-based semantic features by considering the transferable dependency relations. Finally, we devise an Integrated aDaptive Strategy (IDS) to guide the joint learning process of both modules. Extensive experiments on four public datasets indicate that GAST achieves comparable effectiveness to a range of state-of-the-art models.
翻訳日:2022-05-19 18:14:30 公開日:2022-05-18
# (参考訳) 知識グラフのためのエンティティアライメント:進歩、挑戦、実証研究

Entity Alignment For Knowledge Graphs: Progress, Challenges, and Empirical Studies ( http://arxiv.org/abs/2205.08777v1 )

ライセンス: CC BY-SA 4.0
Deepak Chaurasiya, Anil Surisetty, Nitish Kumar, Alok Singh, Vikrant Dey, Aakarsh Malhotra, Gaurav Dhama and Ankur Arora(参考訳) エンティティアライメント(EA)は、同じエンティティを参照するデータベースをまたいだエンティティを識別する。 近年,知識グラフに基づく埋め込み手法がEA技術を支配している。 このような方法は、エンティティを低次元空間にマッピングし、それらの類似性に基づいてそれらを調整する。 本稿では, EA方法論のコーパスが急速に成長する中で, 既存のEA手法を包括的に分析し, 適用範囲と限界について検討する。 さらに,その基礎となるアルゴリズムと,それらが組み込んだ情報に基づいて,実体表現を学習する手法を識別する。 産業データセットの課題に基づいて、4ドルの研究開発質問(RQ)を提示します。 これらのRQは、アルゴリズムを \textit{Hubness, Degree distribution, Non-isomorphic neighborhoodhood,} および \textit{Name bias} の観点から経験的に分析する。 1つのエンティティが他の多くのエンティティの最も近い近傍として現れるHubnessでは、様々なアルゴリズムの性能への影響を定量化するために$h$-scoreを定義します。 さらに、低名バイアスデータセットを作成することにより、ベンチマーク対象のオープンソースデータセットに存在する名前バイアスに依存するアルゴリズムのプレイフィールドのレベル付けを試みる。 さらに、埋め込みベースのEAメソッド14ドルでオープンソースリポジトリを作成し、EA分野におけるさらなる研究モチベーションを呼び起こすための分析を提示する。

Entity Alignment (EA) identifies entities across databases that refer to the same entity. Knowledge graph-based embedding methods have recently dominated EA techniques. Such methods map entities to a low-dimension space and align them based on their similarities. With the corpus of EA methodologies growing rapidly, this paper presents a comprehensive analysis of various existing EA methods, elaborating their applications and limitations. Further, we distinguish the methods based on their underlying algorithms and the information they incorporate to learn entity representations. Based on challenges in industrial datasets, we bring forward $4$ research questions (RQs). These RQs empirically analyse the algorithms from the perspective of \textit{Hubness, Degree distribution, Non-isomorphic neighbourhood,} and \textit{Name bias}. For Hubness, where one entity turns up as the nearest neighbour of many other entities, we define an $h$-score to quantify its effect on the performance of various algorithms. Additionally, we try to level the playing field for algorithms that rely primarily on name-bias existing in the benchmarking open-source datasets by creating a low name bias dataset. We further create an open-source repository for $14$ embedding-based EA methods and present the analysis for invoking further research motivations in the field of EA.
翻訳日:2022-05-19 17:55:56 公開日:2022-05-18
# (参考訳) 確率木と単一介入の価値

Probability trees and the value of a single intervention ( http://arxiv.org/abs/2205.08779v1 )

ライセンス: CC BY 4.0
Tue Herlau(参考訳) 統計因果関係の最も根本的な問題は、限られたデータから因果関係を決定することである。 過去の因果構造とベイズ的更新を組み合わせた確率木が解法として提案されている。 本研究では,単一の介入からの情報ゲインを定量化し,介入前に期待される情報ゲインと介入から期待されるゲインの両方が単純な表現を持つことを示す。 その結果,最も期待される利得への介入を簡単に選択できる能動的学習法が得られた。 我々の研究は、確率木とそのパラメータのベイズ推定が、高速因果帰納法に対する単純かつ実行可能なアプローチを提供する方法を示している。

The most fundamental problem in statistical causality is determining causal relationships from limited data. Probability trees, which combine prior causal structures with Bayesian updates, have been suggested as a possible solution. In this work, we quantify the information gain from a single intervention and show that both the anticipated information gain, prior to making an intervention, and the expected gain from an intervention have simple expressions. This results in an active-learning method that simply selects the intervention with the highest anticipated gain, which we illustrate through several examples. Our work demonstrates how probability trees, and Bayesian estimation of their parameters, offer a simple yet viable approach to fast causal induction.
翻訳日:2022-05-19 17:43:57 公開日:2022-05-18
# (参考訳) 深層学習におけるレグレックス:就業年齢判別における旧技術の役割

Regex in a Time of Deep Learning: The Role of an Old Technology in Age Discrimination Detection in Job Advertisements ( http://arxiv.org/abs/2205.08813v1 )

ライセンス: CC BY 4.0
Anna Pillar, Kyrill Poelmans, Martha Larson(参考訳) ディープラーニングは、公共の場で差別言語を検出するための大きな約束である。 しかし、求人広告における違法年齢差別を検出するため、regexアプローチは依然として強力なパフォーマーである。 本稿ではオランダにおける求人広告について検討する。 本稿では,レゲックスに基づく'古い'アプローチの利点を定性的に分析し,神経組込みがその限界にどのように対処できるかを検討する。

Deep learning holds great promise for detecting discriminatory language in the public sphere. However, for the detection of illegal age discrimination in job advertisements, regex approaches are still strong performers. In this paper, we investigate job advertisements in the Netherlands. We present a qualitative analysis of the benefits of the 'old' approach based on regexes and investigate how neural embeddings could address its limitations.
翻訳日:2022-05-19 17:36:31 公開日:2022-05-18
# (参考訳) property unlearning: プロパティ推論攻撃に対する防御戦略

Property Unlearning: A Defense Strategy Against Property Inference Attacks ( http://arxiv.org/abs/2205.08821v1 )

ライセンス: CC BY 4.0
Joshua Stock (1), Jens Wettlaufer (1), Daniel Demmler (1) and Hannes Federrath (1) ((1) Universit\"at Hamburg)(参考訳) 機械学習モデルのトレーニングでは、予測や分類タスクに実際に必要なものよりも、トレーニングデータに関する情報を保存したり、あるいは“学習”したりすることができる。 これは、トレーニングデータ自体にアクセスすることなく、与えられたモデルのトレーニングデータから統計的性質を抽出することを目的としたプロパティ推論攻撃によって悪用される。 これらの特性には、カメラモデルを特定するための画像の品質、製品のターゲットオーディエンスを明らかにする年齢分布、コンピュータネットワークにおけるマルウェア攻撃を洗練するためのホストタイプが含まれる。 この攻撃は、攻撃者がすべてのモデルパラメータ、すなわちホワイトボックスシナリオにアクセスする場合、特に正確である。 このような攻撃から防御することで、モデル所有者は、トレーニングデータ、関連するプロパティ、そして、彼らの知的財産がプライベートであることを保証することができる。 本稿では,ホワイトボックスプロパティ推論攻撃に対する効果的な防御機構であるプロパティアンラーニングについて,トレーニングデータ型やモデルタスク,プロパティ数とは無関係に紹介する。 プロパティアンラーニングは、対象モデルのトレーニングされた重みとバイアスを、敵が選択したプロパティを抽出できないように体系的に変更することで、プロパティ推論攻撃を緩和する。 表や画像データを含む3種類のデータセットと,2種類の人工ニューラルネットワークを用いて,特性学習を実証的に評価した。 その結果,プロパティアンラーニングは,プライバシ利用のトレードオフが良好で,プロパティ推論攻撃からマシンラーニングモデルを保護する上で効率的かつ信頼性が高いことがわかった。 さらに,この機構は複数の特性を解き放つのにも有効であることを示す。

During the training of machine learning models, they may store or "learn" more information about the training data than what is actually needed for the prediction or classification task. This is exploited by property inference attacks which aim at extracting statistical properties from the training data of a given model without having access to the training data itself. These properties may include the quality of pictures to identify the camera model, the age distribution to reveal the target audience of a product, or the included host types to refine a malware attack in computer networks. This attack is especially accurate when the attacker has access to all model parameters, i.e., in a white-box scenario. By defending against such attacks, model owners are able to ensure that their training data, associated properties, and thus their intellectual property stays private, even if they deliberately share their models, e.g., to train collaboratively, or if models are leaked. In this paper, we introduce property unlearning, an effective defense mechanism against white-box property inference attacks, independent of the training data type, model task, or number of properties. Property unlearning mitigates property inference attacks by systematically changing the trained weights and biases of a target model such that an adversary cannot extract chosen properties. We empirically evaluate property unlearning on three different data sets, including tabular and image data, and two types of artificial neural networks. Our results show that property unlearning is both efficient and reliable to protect machine learning models against property inference attacks, with a good privacy-utility trade-off. Furthermore, our approach indicates that this mechanism is also effective to unlearn multiple properties.
翻訳日:2022-05-19 17:29:50 公開日:2022-05-18
# (参考訳) QPベースとMPCベースのRLのギャップを埋める

Bridging the gap between QP-based and MPC-based RL ( http://arxiv.org/abs/2205.08856v1 )

ライセンス: CC BY-SA 4.0
Shambhuraj Sawant, Sebastien Gros(参考訳) 強化学習法は一般的にディープニューラルネットワークを用いてマルコフ決定プロセスの根底にある値関数とポリシーを近似する。 残念ながら、DNNベースのRLは、結果として生じるポリシーの説明可能性の欠如に悩まされている。 本稿では,最適化問題を用いて,二次プログラム (qps) の形式を用いて,方針関数と価値関数を近似する。 本稿では,QP の構造を線形 MPC スキームに類似させるシンプルなツールを提案する。 汎用的非構造化QPは学習に高い柔軟性を提供する一方、MPCスキームの構造を持つQPは、結果のポリシーの説明可能性を促進し、分析の方法も提供する。 学習中に前者と後者のトレードオフを継続的に調整できるツールを提案する。 本稿では,提案手法の動作と結果の構造をポイントマスタスクを用いて記述する。

Reinforcement learning methods typically use Deep Neural Networks to approximate the value functions and policies underlying a Markov Decision Process. Unfortunately, DNN-based RL suffers from a lack of explainability of the resulting policy. In this paper, we instead approximate the policy and value functions using an optimization problem, taking the form of Quadratic Programs (QPs). We propose simple tools to promote structures in the QP, pushing it to resemble a linear MPC scheme. A generic unstructured QP offers high flexibility for learning, while a QP having the structure of an MPC scheme promotes the explainability of the resulting policy, additionally provides ways for its analysis. The tools we propose allow for continuously adjusting the trade-off between the former and the latter during learning. We illustrate the workings of our proposed method with the resulting structure using a point-mass task.
翻訳日:2022-05-19 17:06:38 公開日:2022-05-18
# (参考訳) BFCAI at SemEval-2022 Task 6: Multi-Layer Perceptron for Sarcasm Detection in Arabic Texts (英語)

BFCAI at SemEval-2022 Task 6: Multi-Layer Perceptron for Sarcasm Detection in Arabic Texts ( http://arxiv.org/abs/2205.08868v1 )

ライセンス: CC BY 4.0
Nsrin Ashraf and Fathy Elkazaz and Mohamed Taha and Hamada Nayel and Tarek Elshishtawy(参考訳) 本稿では,iSarcasm共有タスクに送信されたシステムについて述べる。 iSarcasmの目的は、アラビア語と英語のテキストで皮肉な内容を特定することである。 我々のチームはアラビア語のiSarcasmに参加した。 アラビア文字の検出のために,多層機械学習に基づくモデルが提出されている。 このモデルでは、ベクトル空間 TF-IDF を特徴表現として用いている。 提出されたシステムは単純であり、外部のリソースは不要である。 テスト結果は有望な結果を示している。

This paper describes the systems submitted to iSarcasm shared task. The aim of iSarcasm is to identify the sarcastic contents in Arabic and English text. Our team participated in iSarcasm for the Arabic language. A multi-Layer machine learning based model has been submitted for Arabic sarcasm detection. In this model, a vector space TF-IDF has been used as for feature representation. The submitted system is simple and does not need any external resources. The test results show encouraging results.
翻訳日:2022-05-19 16:54:00 公開日:2022-05-18
# (参考訳) GeoPointGAN:ローカルラベル差分プライバシーを用いた合成空間データ

GeoPointGAN: Synthetic Spatial Data with Local Label Differential Privacy ( http://arxiv.org/abs/2205.08886v1 )

ライセンス: CC BY 4.0
Teddy Cunningham, Konstantin Klemmer, Hongkai Wen, Hakan Ferhatosmanoglu(参考訳) 合成データ生成は多くのデータ管理およびデータサイエンスアプリケーションにとって基本的なタスクである。 空間データは特に関心があり、その繊細な性質はしばしばプライバシーの懸念に繋がる。 geopointganは,高いユーティリティと強力な個人レベルのプライバシ保証を備えた合成空間的ポイントデータセットを生成する,新しいganベースのソリューションである。 GeoPointGANのアーキテクチャは、ランダムに生成された点を有意義な合成座標に投影し、顕微鏡的(ジャンクション、正方形など)とマクロ的(公園、湖など)の地形的特徴を捉える新しい点変換生成器を含んでいる。 従来のローカルディファレンシャルプライバシよりも実用的な,ラベル付きローカルディファレンシャルプライバシを通じて,当社のプライバシ保証を提供します。 我々は、このレベルのプライバシーをGeoPointGANにシームレスに統合し、識別器をポイントレベルに拡大し、トレーニングで使用される「リアル」および「フェイク」ポイントに関連するラベルを反転させるランダム化応答ベースのメカニズムを実装します。 大規模な実験により、GeoPointGANは、最も競争力のあるベースラインに比べて最大10倍向上した。 また、GeoPointGANを範囲、ホットスポット、施設位置クエリを用いて評価し、プライバシー保護クエリにおけるGeoPointGANの有効性を確認した。 以上の結果から,データのラベルを反転させることによって実現される一般化と正規化効果により,悪質なユーティリティコストがほとんどなく,高いプライバシレベルが達成されることが示されている。

Synthetic data generation is a fundamental task for many data management and data science applications. Spatial data is of particular interest, and its sensitive nature often leads to privacy concerns. We introduce GeoPointGAN, a novel GAN-based solution for generating synthetic spatial point datasets with high utility and strong individual level privacy guarantees. GeoPointGAN's architecture includes a novel point transformation generator that learns to project randomly generated point co-ordinates into meaningful synthetic co-ordinates that capture both microscopic (e.g., junctions, squares) and macroscopic (e.g., parks, lakes) geographic features. We provide our privacy guarantees through label local differential privacy, which is more practical than traditional local differential privacy. We seamlessly integrate this level of privacy into GeoPointGAN by augmenting the discriminator to the point level and implementing a randomized response-based mechanism that flips the labels associated with the 'real' and 'fake' points used in training. Extensive experiments show that GeoPointGAN significantly outperforms recent solutions, improving by up to 10 times compared to the most competitive baseline. We also evaluate GeoPointGAN using range, hotspot, and facility location queries, which confirm the practical effectiveness of GeoPointGAN for privacy-preserving querying. The results illustrate that a strong level of privacy is achieved with little-to-no adverse utility cost, which we explain through the generalization and regularization effects that are realized by flipping the labels of the data during training.
翻訳日:2022-05-19 16:49:59 公開日:2022-05-18
# (参考訳) 臨床応用型機械学習分類器の構築と特定疾患の特定のためのスケーラブルワークフロー

A Scalable Workflow to Build Machine Learning Classifiers with Clinician-in-the-Loop to Identify Patients in Specific Diseases ( http://arxiv.org/abs/2205.08891v1 )

ライセンス: CC BY 4.0
Jingqing Zhang, Atri Sharma, Luis Bolanos, Tong Li, Ashwani Tanwar, Vibhor Gupta, Yike Guo(参考訳) 臨床医は、EHR(Electronic Health Records)から疾患のある患者を識別するために、ICD(International Classification of Diseases)のような医療コーディングシステムに依存することがある。 しかし、細部や特異性の欠如やミスコーディングの可能性を考慮し、最近の研究では、icd符号は実際の臨床実践において特定の疾患に対して正確に患者を特徴付けることができないことがしばしば示唆されており、その結果、患者を研究や治験で見つけるために使用すると、高い失敗率と未コード患者への欠如につながる可能性がある。 大規模患者全員の手動検査は、コストが高く、遅いため実現不可能である。 本稿では,ERHの構造化データと非構造化テキストノートの両方をNLP,AutoML,Crician-in-the-Loop機構などの手法で活用し,特定の疾患,特に現在ICDコードで誤コードされたり見逃されたりしている患者を識別するためのスケーラブルなワークフローを提案する。 MIMIC-III データセットのケーススタディでは,Ovarian Cancer (0.901 vs 0.814), Lung Cancer (0.859 vs 0.828), Cancer Cachexia (0.862 vs 0.650), Lupus Nephritis (0.959 vs 0.855) の鑑別にゴールドテストサブセットのICDコードを用いた場合と比較して,F1 スコアより高い分類性能を示した。 また、非構造化ノートを利用するワークフローは、f1の増加(卵巣癌0.901対0.719、肺癌0.859対0.787、癌キャッシュキシア0.862対0.838、ループス腎炎0.959対0.785)でのみ構造化データを使用するベースラインを一貫して上回っている。 大規模なテストセットの実験では、提案されたワークフローにより、ICDコードによって誤コードされたり、見逃されたりした患者がより多く見つかることを示した。 また, 分類器の最もインパクトの高い特徴を臨床的に検証するために, 解釈可能性の研究も行われている。

Clinicians may rely on medical coding systems such as International Classification of Diseases (ICD) to identify patients with diseases from Electronic Health Records (EHRs). However, due to the lack of detail and specificity as well as a probability of miscoding, recent studies suggest the ICD codes often cannot characterise patients accurately for specific diseases in real clinical practice, and as a result, using them to find patients for studies or trials can result in high failure rates and missing out on uncoded patients. Manual inspection of all patients at scale is not feasible as it is highly costly and slow. This paper proposes a scalable workflow which leverages both structured data and unstructured textual notes from EHRs with techniques including NLP, AutoML and Clinician-in-the-Loop mechanism to build machine learning classifiers to identify patients at scale with given diseases, especially those who might currently be miscoded or missed by ICD codes. Case studies in the MIMIC-III dataset were conducted where the proposed workflow demonstrates a higher classification performance in terms of F1 scores compared to simply using ICD codes on gold testing subset to identify patients with Ovarian Cancer (0.901 vs 0.814), Lung Cancer (0.859 vs 0.828), Cancer Cachexia (0.862 vs 0.650), and Lupus Nephritis (0.959 vs 0.855). Also, the proposed workflow that leverages unstructured notes consistently outperforms the baseline that uses structured data only with an increase of F1 (Ovarian Cancer 0.901 vs 0.719, Lung Cancer 0.859 vs 0.787, Cancer Cachexia 0.862 vs 0.838 and Lupus Nephritis 0.959 vs 0.785). Experiments on the large testing set also demonstrate the proposed workflow can find more patients who are miscoded or missed by ICD codes. Moreover, interpretability studies are also conducted to clinically validate the top impact features of the classifiers.
翻訳日:2022-05-19 16:25:40 公開日:2022-05-18
# (参考訳) 生成逆数ネットワークと拡張時間的リターンスロットによる財務時系列データ拡張

Financial Time Series Data Augmentation with Generative Adversarial Networks and extended Intertemporal Return Plots ( http://arxiv.org/abs/2205.08924v1 )

ライセンス: CC BY 4.0
Justin Hellermann, Qinzhuan Qian, Ankit Shah(参考訳) データ拡張は、コンピュータビジョンにおける高パラメータ化モデルの予測と分類性能をサポートするための重要な正規化手法である。 しかし、時系列領域では、これらの手法は小さなサンプルサイズや非定常性の影響を緩和しているにもかかわらず、増大の点における正規化は等しく一般的ではない。 本稿では,データ拡張作業に最先端の画像ベース生成モデルを適用し,時系列の新しい画像表現である拡張時空間回帰プロット(XIRP)を導入する。 時系列を効果的に合成する能力とm4コンペティションのサブセットにおける予測結果の改善に関する増補技術の質を評価するため,複数の試験を行った。 さらに,特徴量に寄与する特徴量に対するShapley値によるデータセット特性とサンプリング結果の関係と,拡張データの最適比について検討する。 すべてのデータセットにおいて,本手法は,統計特性や頻度が異なる金融データセットの79%に対して,リターン予測誤差を7%削減する効果があることを実証する。

Data augmentation is a key regularization method to support the forecast and classification performance of highly parameterized models in computer vision. In the time series domain however, regularization in terms of augmentation is not equally common even though these methods have proven to mitigate effects from small sample size or non-stationarity. In this paper we apply state-of-the art image-based generative models for the task of data augmentation and introduce the extended intertemporal return plot (XIRP), a new image representation for time series. Multiple tests are conducted to assess the quality of the augmentation technique regarding its ability to synthesize time series effectively and improve forecast results on a subset of the M4 competition. We further investigate the relationship between data set characteristics and sampling results via Shapley values for feature attribution on the performance metrics and the optimal ratio of augmented data. Over all data sets, our approach proves to be effective in reducing the return forecast error by 7% on 79% of the financial data sets with varying statistical properties and frequencies.
翻訳日:2022-05-19 16:05:07 公開日:2022-05-18
# (参考訳) COVID-Net UV: 超音波映像によるCOVID-19感染自動診断のための時空間ニューラルネットワークアーキテクチャ

COVID-Net UV: An End-to-End Spatio-Temporal Deep Neural Network Architecture for Automated Diagnosis of COVID-19 Infection from Ultrasound Videos ( http://arxiv.org/abs/2205.08932v1 )

ライセンス: CC BY 4.0
Hilda Azimi, Ashkan Ebadi, Jessy Song, Pengcheng Xi, Alexander Wong(参考訳) ワクチン接種以外にも、新型コロナウイルスの感染拡大を緩和する効果的な方法として、公衆衛生の確保には、個人による迅速かつ正確な検査が必要である。 コンベックストランスデューサが捉えた肺ポインター超音波ビデオから、ウイルス感染を検出するために、エンド・ツー・エンドのハイブリッド時空間深部ニューラルネットワークアーキテクチャであるCOVID-Net UVを提案する。 COVID-Net UVは、空間的特徴を抽出する畳み込みニューラルネットワークと、時間的依存を学習するリカレントニューラルネットワークで構成される。 注意深いハイパーパラメータチューニングの後、ネットワークは平均94.44%の精度を達成し、新型コロナウイルスの患者には偽陰性のケースは発生しない。 COVID-Net UVの目標は、新型コロナウイルス(COVID-19)との戦いにおける最前線の診療医を支援すること。

Besides vaccination, as an effective way to mitigate the further spread of COVID-19, fast and accurate screening of individuals to test for the disease is yet necessary to ensure public health safety. We propose COVID-Net UV, an end-to-end hybrid spatio-temporal deep neural network architecture, to detect COVID-19 infection from lung point-of-care ultrasound videos captured by convex transducers. COVID-Net UV comprises a convolutional neural network that extracts spatial features and a recurrent neural network that learns temporal dependence. After careful hyperparameter tuning, the network achieves an average accuracy of 94.44% with no false-negative cases for COVID-19 cases. The goal with COVID-Net UV is to assist front-line clinicians in the fight against COVID-19 via accelerating the screening of lung point-of-care ultrasound videos and automatic detection of COVID-19 positive cases.
翻訳日:2022-05-19 15:49:49 公開日:2022-05-18
# (参考訳) CREATER:CTRによる事前学習とコントラストファインチューニングによる広告テキスト生成

CREATER: CTR-driven Advertising Text Generation with Controlled Pre-Training and Contrastive Fine-Tuning ( http://arxiv.org/abs/2205.08943v1 )

ライセンス: CC BY 4.0
Penghui Wei, Xuanhua Yang, Shaoguo Liu, Liang Wang, Bo Zheng(参考訳) 本稿では、広告のテキストを自動的に生成することに焦点を当て、そのテキストがユーザーの興味を捉えてクリックスルー率(ctr)を上げることを目的とする。 本稿では,CTRによる広告テキスト生成手法であるCREATERを提案し,高品質なユーザレビューに基づいて広告テキストを生成する。 CTRの目的を取り入れるために、我々のモデルはコントラスト学習を伴うオンラインA/Bテストデータから学習し、より高いCTRを得る広告テキストを生成することを奨励する。 低リソース問題を軽減するために,事前学習と微調整のギャップを減らした,カスタマイズされた自己指導型目標を設計する。 産業用データセットに関する実験は、createrが現在のアプローチを大きく上回っていることを示している。 主要な広告プラットフォームでオンラインにデプロイされ、コアオンラインメトリクスの上昇をもたらしている。

This paper focuses on automatically generating the text of an ad, and the goal is that the generated text can capture user interest for achieving higher click-through rate (CTR). We propose CREATER, a CTR-driven advertising text generation approach, to generate ad texts based on high-quality user reviews. To incorporate CTR objective, our model learns from online A/B test data with contrastive learning, which encourages the model to generate ad texts that obtain higher CTR. To alleviate the low-resource issue, we design a customized self-supervised objective reducing the gap between pre-training and fine-tuning. Experiments on industrial datasets show that CREATER significantly outperforms current approaches. It has been deployed online in a leading advertising platform and brings uplift on core online metrics.
翻訳日:2022-05-19 15:42:39 公開日:2022-05-18
# (参考訳) SoK:サイバー脅威検出における不正データの影響

SoK: The Impact of Unlabelled Data in Cyberthreat Detection ( http://arxiv.org/abs/2205.08944v1 )

ライセンス: CC BY-SA 4.0
Giovanni Apruzzese, Pavel Laskov, Aliya Tastemirova(参考訳) 近年,機械学習(ML)はサイバー脅威検出(CTD)の重要なパラダイムとなっている。 ctdタスクのための特別なアルゴリズムの開発にかなりの研究が費やされてきた。 しかし, mlに基づくctdの進歩は, ml検出器を訓練するためのラベル付きデータの大量集合を得ることの難しさによって妨げられている。 この問題の潜在的な解決策は、小さなラベル付きデータセットと大量の未ラベルデータを組み合わせた半教師付き学習(SsL)法である。 本稿では,ctdのためのsslに関する既存の作業の体系化,特に,そのようなシステムにおけるラベルなしデータの有用性の理解を目的としている。 そこで我々は,様々なCTDタスクにおけるラベル付けのコストを分析し,SsLの形式的コストモデルを開発する。 本研究では,SsL法の評価のための一連の要件を定式化し,非競合データの寄与を解明する。 我々は、現状をレビューし、以前の作業がそのような要件を満たしていないことを観察する。 この問題に対処するため,SsLにおける非ラベルデータの有効性を評価するためのフレームワークを提案する。 我々は、9つの公開データセット上の9つの既存のSsLメソッドのトレードオフを強調する最初のベンチマーク評価を実行することで、このフレームワークの応用を紹介する。 以上の結果から,非ラベルデータによっては小さいが統計的に有意な性能向上が得られることが確認された。 本稿では,CTDのSsLには改善の余地が多数あり,今後の研究の促進が期待できることを示す。

Machine learning (ML) has become an important paradigm for cyberthreat detection (CTD) in the recent years. A substantial research effort has been invested in the development of specialized algorithms for CTD tasks. From the operational perspective, however, the progress of ML-based CTD is hindered by the difficulty in obtaining the large sets of labelled data to train ML detectors. A potential solution to this problem are semisupervised learning (SsL) methods, which combine small labelled datasets with large amounts of unlabelled data. This paper is aimed at systematization of existing work on SsL for CTD and, in particular, on understanding the utility of unlabelled data in such systems. To this end, we analyze the cost of labelling in various CTD tasks and develop a formal cost model for SsL in this context. Building on this foundation, we formalize a set of requirements for evaluation of SsL methods, which elucidates the contribution of unlabelled data. We review the state-of-the-art and observe that no previous work meets such requirements. To address this problem, we propose a framework for assessing the benefits of unlabelled data in SsL. We showcase an application of this framework by performing the first benchmark evaluation that highlights the tradeoffs of 9 existing SsL methods on 9 public datasets. Our findings verify that, in some cases, unlabelled data provides a small, but statistically significant, performance gain. This paper highlights that SsL in CTD has a lot of room for improvement, which should stimulate future research in this field.
翻訳日:2022-05-19 15:28:49 公開日:2022-05-18
# (参考訳) 光リモートセンシング画像における局所物体検出のための軽量マルチスケールコンテキストネットワーク

A lightweight multi-scale context network for salient object detection in optical remote sensing images ( http://arxiv.org/abs/2205.08959v1 )

ライセンス: CC BY 4.0
Yuhan Lin, Han Sun, Ningzhong Liu, Yetong Bian, Jun Cen, Huiyu Zhou(参考訳) 光リモートセンシング画像(RSI)における、より劇的なマルチスケールの変動と、より複雑な前景と背景のため、光学RSIのためのサルエント物体検出(SOD)は大きな課題となる。 しかし、自然シーン画像(NSI)とは違い、光学RSI SODタスクに関する議論は依然として少ない。 本稿では,光RSIにおけるSODのためのマルチスケールコンテキストネットワークMSCNetを提案する。 具体的には,マルチスケールなコンテキスト情報を効果的に学習することにより,サルエントオブジェクトのスケール変動に対処するために,マルチスケールコンテキスト抽出モジュールが採用されている。 一方,複雑な背景から完全サルエント物体を正確に検出するために,多スケールのコンテキスト抽出モジュールからサルエント領域を徐々に集約・精製するための注意に基づくピラミッド特徴集約機構を設計する。 2つのベンチマークでの大規模な実験により、MSCNetは3.26万のパラメータで競争性能を達成した。 コードはhttps://github.com/NuaaYH/MSCNetで入手できる。

Due to the more dramatic multi-scale variations and more complicated foregrounds and backgrounds in optical remote sensing images (RSIs), the salient object detection (SOD) for optical RSIs becomes a huge challenge. However, different from natural scene images (NSIs), the discussion on the optical RSI SOD task still remains scarce. In this paper, we propose a multi-scale context network, namely MSCNet, for SOD in optical RSIs. Specifically, a multi-scale context extraction module is adopted to address the scale variation of salient objects by effectively learning multi-scale contextual information. Meanwhile, in order to accurately detect complete salient objects in complex backgrounds, we design an attention-based pyramid feature aggregation mechanism for gradually aggregating and refining the salient regions from the multi-scale context extraction module. Extensive experiments on two benchmarks demonstrate that MSCNet achieves competitive performance with only 3.26M parameters. The code will be available at https://github.com/NuaaYH/MSCNet.
翻訳日:2022-05-19 14:39:31 公開日:2022-05-18
# (参考訳) ロバスト画像認識のためのバイオインスピレーションモデルの提案

Empirical Advocacy of Bio-inspired Models for Robust Image Recognition ( http://arxiv.org/abs/2205.09037v1 )

ライセンス: CC BY 4.0
Harshitha Machiraju, Oh-Hyeon Choung, Michael H. Herzog, and Pascal Frossard(参考訳) 深層畳み込みニューラルネットワーク(dcnn)はコンピュータビジョンに革命をもたらし、しばしば人間の視覚システムの良いモデルとして主張されている。 しかし、現在DCNNには多くの欠点があり、人間の視覚のモデルとして利用できない。 人間の視覚システムの特徴を使用して、データ摂動に対するニューラルネットワークの堅牢性を改善するための継続的な試みがある。 バイオインスパイアされたモデルとその特性の詳細な分析を行う。 この目的のために、我々は、最も類似したベースラインDCNNモデルに対して、いくつかのバイオインスパイアされたモデルの堅牢性をベンチマークする。 バイオインスパイアされたモデルは、特別なデータ拡張を必要とせず、逆向きに堅牢である傾向がある。 さらに、バイオインスパイアされたモデルは、より現実世界の一般的な汚職の存在下で、敵対的に訓練されたモデルを上回ることがわかりました。 興味深いことに、他のDCNNモデルとは対照的に、バイオインスパイアされたモデルは低周波情報と中周波情報の両方を使用する傾向がある。 この周波数情報の組み合わせは、敵の摂動と共通の腐敗の両方に対して堅牢であることがわかった。

Deep convolutional neural networks (DCNNs) have revolutionized computer vision and are often advocated as good models of the human visual system. However, there are currently many shortcomings of DCNNs, which preclude them as a model of human vision. There are continuous attempts to use features of the human visual system to improve the robustness of neural networks to data perturbations. We provide a detailed analysis of such bio-inspired models and their properties. To this end, we benchmark the robustness of several bio-inspired models against their most comparable baseline DCNN models. We find that bio-inspired models tend to be adversarially robust without requiring any special data augmentation. Additionally, we find that bio-inspired models beat adversarially trained models in the presence of more real-world common corruptions. Interestingly, we also find that bio-inspired models tend to use both low and mid-frequency information, in contrast to other DCNN models. We find that this mix of frequency information makes them robust to both adversarial perturbations and common corruptions.
翻訳日:2022-05-19 14:25:20 公開日:2022-05-18
# (参考訳) 実世界における位置支援ビーム予測:gps位置の実際的有用性は?

Position Aided Beam Prediction in the Real World: How Useful GPS Locations Actually Are? ( http://arxiv.org/abs/2205.09054v1 )

ライセンス: CC BY 4.0
Jo\~ao Morais, Arash Behboodi, Hamed Pezeshki and Ahmed Alkhateeb(参考訳) ミリ波(mmWave)通信システムは受信信号の十分な出力を達成するために狭いビームに依存している。 これらのビームの調整は、通常、大きなトレーニングオーバーヘッドと関連付けられ、特にハイモービルアプリケーションにとって重要となる。 直観的には、最適なビーム選択は通信端末の位置の知識の恩恵を受けるので、mm波ビーム予測のオーバーヘッドを減らすために位置データを活用することへの関心が高まっている。 しかし、以前の研究は、現実世界の測定を正確に表現しない合成データのみを使用してこの問題を研究した。 本稿では,実世界の大規模データセットを用いて位置支援ビーム予測を行い,実際にどれだけのオーバーヘッドを節約できるかを考察する。 さらに,機械学習アルゴリズムの最適性能,実データにおける推論性能の低下要因,実際の通信システム性能の把握において機械学習メトリクスがより意味を持つかを分析する。

Millimeter-wave (mmWave) communication systems rely on narrow beams for achieving sufficient receive signal power. Adjusting these beams is typically associated with large training overhead, which becomes particularly critical for highly-mobile applications. Intuitively, since optimal beam selection can benefit from the knowledge of the positions of communication terminals, there has been increasing interest in leveraging position data to reduce the overhead in mmWave beam prediction. Prior work, however, studied this problem using only synthetic data that generally does not accurately represent real-world measurements. In this paper, we investigate position-aided beam prediction using a real-world large-scale dataset to derive insights into precisely how much overhead can be saved in practice. Furthermore, we analyze which machine learning algorithms perform best, what factors degrade inference performance in real data, and which machine learning metrics are more meaningful in capturing the actual communication system performance.
翻訳日:2022-05-19 14:19:06 公開日:2022-05-18
# VRAG:コンテンツベースのビデオ検索のためのリージョン注意グラフ

VRAG: Region Attention Graphs for Content-Based Video Retrieval ( http://arxiv.org/abs/2205.09068v1 )

ライセンス: Link先を確認
Kennard Ng, Ser-Nam Lim, Gim Hee Lee(参考訳) コンテンツベースのビデオ検索(CBVR)は、ビデオレコメンデーションやフィルタリングなどのアプリケーションのためのメディア共有プラットフォームで使用されている。 数十億ものビデオにスケールするデータベースを管理するには、その効率上、固定サイズの埋め込みを使用するビデオレベルのアプローチが望ましい。 本稿では,ビデオレベル手法の最先端技術を改善するビデオ領域アテンショングラフネットワーク(vrag)を提案する。 我々は、領域レベルの特徴を通してより細かい粒度でビデオを表現し、領域レベルの関係を通してビデオ時空間ダイナミクスを符号化する。 我々のVRAGは、自己意図とグラフ畳み込みの置換不変集約を通じて、意味的コンテンツに基づく領域間の関係をキャプチャする。 また,映像をショットに分割し,映像検索にショット埋め込みを使用することで,映像レベルの手法とフレームレベルの手法の性能差を低減できることを示す。 我々はVRAGを複数のビデオ検索タスクで評価し、ビデオレベルの検索のための新しい最先端技術を実現する。 さらに,ショットレベルのVRAGは,既存のビデオレベルの手法よりも高い検索精度を示し,フレームレベルの手法よりも高速な評価速度で性能が向上した。 最後に、私たちのコードは公開されます。

Content-based Video Retrieval (CBVR) is used on media-sharing platforms for applications such as video recommendation and filtering. To manage databases that scale to billions of videos, video-level approaches that use fixed-size embeddings are preferred due to their efficiency. In this paper, we introduce Video Region Attention Graph Networks (VRAG) that improves the state-of-the-art of video-level methods. We represent videos at a finer granularity via region-level features and encode video spatio-temporal dynamics through region-level relations. Our VRAG captures the relationships between regions based on their semantic content via self-attention and the permutation invariant aggregation of Graph Convolution. In addition, we show that the performance gap between video-level and frame-level methods can be reduced by segmenting videos into shots and using shot embeddings for video retrieval. We evaluate our VRAG over several video retrieval tasks and achieve a new state-of-the-art for video-level retrieval. Furthermore, our shot-level VRAG shows higher retrieval precision than other existing video-level methods, and closer performance to frame-level methods at faster evaluation speeds. Finally, our code will be made publicly available.
翻訳日:2022-05-19 14:08:23 公開日:2022-05-18
# graphcore ipusにおける秘密機械学習

Confidential Machine Learning within Graphcore IPUs ( http://arxiv.org/abs/2205.09005v1 )

ライセンス: Link先を確認
Kapil Vaswani, Stavros Volos, C\'edric Fournet, Antonio Nino Diaz, Ken Gordon, Balaji Vembu, Sam Webster, David Chisnall, Saurabh Kulkarni, Graham Cunningham, Richard Osbourne, Dan Wilkinson(参考訳) We present IPU Trusted Extensions (ITX)は、GraphcoreのAIアクセラレータにおける信頼性の高い実行環境を可能にする実験的なハードウェア拡張セットである。 ITXは、パフォーマンスのオーバーヘッドが低い場合に、強力な機密性と整合性を保証するAIワークロードの実行を可能にする。 ITXは、信頼できないホストからワークロードを分離し、IPU内以外は、そのデータとモデルを常に暗号化し続ける。 ITXには、認証機能を提供し、信頼できる実行をオーケストレーションするハードウェアのroot-of-trustと、PCIe帯域におけるコードとデータの認証暗号化のためのオンチッププログラマブル暗号エンジンが含まれている。 また、CPUベースのTEEを必要とせずに、マルチパーティトレーニングをサポートするコンパイラやランタイム拡張という形でITX用のソフトウェアを提示する。 ITXの実験的サポートは、TSMCの7nm技術ノードでタップアウトされたGraphcoreのGC200 IPUに含まれている。 標準的なDNNトレーニングワークロードを使用した開発ボード上での評価では、ITXは5%未満のパフォーマンスオーバーヘッドを追加し、AMD SEV-SNPに依存するCPUベースの機密コンピューティングシステムと比較して最大17倍のパフォーマンスを提供する。

We present IPU Trusted Extensions (ITX), a set of experimental hardware extensions that enable trusted execution environments in Graphcore's AI accelerators. ITX enables the execution of AI workloads with strong confidentiality and integrity guarantees at low performance overheads. ITX isolates workloads from untrusted hosts, and ensures their data and models remain encrypted at all times except within the IPU. ITX includes a hardware root-of-trust that provides attestation capabilities and orchestrates trusted execution, and on-chip programmable cryptographic engines for authenticated encryption of code and data at PCIe bandwidth. We also present software for ITX in the form of compiler and runtime extensions that support multi-party training without requiring a CPU-based TEE. Experimental support for ITX is included in Graphcore's GC200 IPU taped out at TSMC's 7nm technology node. Its evaluation on a development board using standard DNN training workloads suggests that ITX adds less than 5% performance overhead, and delivers up to 17x better performance compared to CPU-based confidential computing systems relying on AMD SEV-SNP.
翻訳日:2022-05-19 14:07:44 公開日:2022-05-18
# 依存型潜在クラスモデル

Dependent Latent Class Models ( http://arxiv.org/abs/2205.08677v1 )

ライセンス: Link先を確認
Jesse Bowers, Steve Culpepper(参考訳) 潜在クラスモデル(LCM)は多変量分類データをクラスタリングするために使用される(例えば、調査回答に基づくグループ参加者)。 伝統的なLCMは条件独立と呼ばれる資産を前提としている。 この仮定は制限的であり、モデルの誤特定と過剰パラメータ化に繋がる。 この問題に対処するため,我々は,条件依存を許容する Dependent Latent Class Model (DLCM) と呼ばれる新しいベイズモデルを開発した。 DLCMの識別可能性を検証する。 また,シミュレーションおよび実世界のアプリケーションにおけるDLCMの有効性を示す。 従来のLCMと比較して、DLCMは時系列、重なり合う項目、構造ゼロの応用に有効である。

Latent Class Models (LCMs) are used to cluster multivariate categorical data (e.g. group participants based on survey responses). Traditional LCMs assume a property called conditional independence. This assumption can be restrictive, leading to model misspecification and overparameterization. To combat this problem, we developed a novel Bayesian model called a Dependent Latent Class Model (DLCM), which permits conditional dependence. We verify identifiability of DLCMs. We also demonstrate the effectiveness of DLCMs in both simulations and real-world applications. Compared to traditional LCMs, DLCMs are effective in applications with time series, overlapping items, and structural zeroes.
翻訳日:2022-05-19 14:07:25 公開日:2022-05-18
# 正確なフェアネス:取引精度のない個人のフェアネスを改善する

Accurate Fairness: Improving Individual Fairness without Trading Accuracy ( http://arxiv.org/abs/2205.08704v1 )

ライセンス: Link先を確認
Xuran Li, Peng Wu, Jing Su(参考訳) 正確さと公正さは、信頼できる機械学習にとって重要な側面である。 しかし実際には、ある側面の強化は、必然的に他方を犠牲にする可能性がある。 本稿では,保護属性に関わらず,個人が正確かつ公平に扱われているかどうかを評価するために,新しい公正基準,正確な公正性を提案する。 さらに, 公平性の観点から機械学習モデルの信頼性を評価するために, 公正度指標, 公正度指標, フェアリコールスコア, フェアリコールスコア, およびfair-f1スコアを提案する。 したがって、真の偏見と偽公正という2つの側面のうちの1つだけを強化する副作用は、我々の基準と効果的に同一視できる。 次に、正確な公正トレーニングのための公平なシームズアプローチを示す。 私たちの知る限りでは、シャムのアプローチがバイアス緩和に適応するのはこれが初めてです。 典型的なフェアネスベンチマークを用いたケーススタディでは、我々のフェアシームのアプローチは平均して17.4%の個人フェアネス、11.5%のフェアF1スコア、そして4.7%の機械学習モデルの精度を最先端のバイアス緩和技術よりも向上させることができる。 最後に、当社のアプローチを適用して、実際のCtripデータセットによるサービスの差別を軽減し、同室で同じ価格(オリジナルモデルより20.7%高い)の異なる消費習慣を持つ平均97.9%の顧客にサービスを提供しています。

Accuracy and fairness are both crucial aspects for trustworthy machine learning. However, in practice, enhancing one aspect may sacrifice the other inevitably. We propose in this paper a new fairness criterion, accurate fairness, to assess whether an individual is treated both accurately and fairly regardless of protected attributes. We further propose new fairness metrics, fair-precision, fair-recall and fair-F1 score, to evaluate the reliability of a machine learning model from the perspective of accurate fairness. Thus, the side effects of enhancing just one of the two aspects, i.e., true bias and false fairness, can be effectively identified with our criterion. We then present a fair Siamese approach for accurate fairness training. To the best of our knowledge, this is the first time that a Siamese approach is adapted for bias mitigation. Case studies with typical fairness benchmarks demonstrate that our fair Siamese approach can, on average, promote the 17.4% higher individual fairness, the 11.5% higher fair-F1 score, and the 4.7% higher accuracy of a machine learning model than the state-of-the-art bias mitigation techniques. Finally, our approach is applied to mitigate the possible service discrimination with a real Ctrip dataset, by fairly serving on average 97.9% customers with different consumption habits who pay the same prices for the same rooms (20.7% more than original models).
翻訳日:2022-05-19 14:06:22 公開日:2022-05-18
# CARNet: 自律走行タスクにおける遅延ダイナミクス学習のための動的オートエンコーダ

CARNet: A Dynamic Autoencoder for Learning Latent Dynamics in Autonomous Driving Tasks ( http://arxiv.org/abs/2205.08712v1 )

ライセンス: Link先を確認
Andrey Pak, Hemanth Manjunatha, Dimitar Filev, Panagiotis Tsiotras(参考訳) 自動運転は自動車業界で多くの注目を集めており、しばしば交通の未来と見なされている。 広い範囲のセンサー(カメラ、前面レーダー、LiDAR、IMUなど)を備え、環境を連続的に認識できる車両が普及しつつある。 これらのセンサは、信頼性の高い自律運転に不可欠な高次元の時間相関データストリームを提供する。 自律運転システムは、様々なセンサから収集した情報を効果的に利用して、世界を抽象的に記述し、状況認識を維持する。 オートエンコーダのようなディープラーニングモデルは、受信データのストリームからコンパクトな潜在表現を学習できるため、その目的のために使用できる。 しかし、ほとんどのオートエンコーダモデルは、時間的相互依存を前提とせずに、データを独立に処理する。 したがって、アーキテクチャにおけるデータの時間的依存性を明示的に考慮したディープラーニングモデルが必要となる。 CARNetは、自動エンコーダとリカレントニューラルネットワークを組み合わせて現在の潜伏表現を学習し、また、自律運転の文脈における将来の潜伏表現を予測する、複合dynAmic AutoencodeRネットワークアーキテクチャである。 シミュレーションおよび実データを用いた模擬および強化学習設定において,提案モデルの有効性を示す。 その結果,提案モデルは,学習可能なパラメータが有意に少ないにもかかわらず,最先端モデルよりも優れていることがわかった。

Autonomous driving has received a lot of attention in the automotive industry and is often seen as the future of transportation. Passenger vehicles equipped with a wide array of sensors (e.g., cameras, front-facing radars, LiDARs, and IMUs) capable of continuous perception of the environment are becoming increasingly prevalent. These sensors provide a stream of high-dimensional, temporally correlated data that is essential for reliable autonomous driving. An autonomous driving system should effectively use the information collected from the various sensors in order to form an abstract description of the world and maintain situational awareness. Deep learning models, such as autoencoders, can be used for that purpose, as they can learn compact latent representations from a stream of incoming data. However, most autoencoder models process the data independently, without assuming any temporal interdependencies. Thus, there is a need for deep learning models that explicitly consider the temporal dependence of the data in their architecture. This work proposes CARNet, a Combined dynAmic autoencodeR NETwork architecture that utilizes an autoencoder combined with a recurrent neural network to learn the current latent representation and, in addition, also predict future latent representations in the context of autonomous driving. We demonstrate the efficacy of the proposed model in both imitation and reinforcement learning settings using both simulated and real datasets. Our results show that the proposed model outperforms the baseline state-of-the-art model, while having significantly fewer trainable parameters.
翻訳日:2022-05-19 14:05:58 公開日:2022-05-18
# スマートフォン内蔵センサデータを用いたユーザの社会的状況と身近な場所のオンデバイスモデリング

On-device modeling of user's social context and familiar places from smartphone-embedded sensor data ( http://arxiv.org/abs/2205.08790v1 )

ライセンス: Link先を確認
Mattia Giovanni Campana, Franca Delmastro(参考訳) コンテキストモデリングと認識は、モバイルおよびユビキタスコンピューティングアプリケーションがユーザの状況に適応できるようにする複雑なタスクを表す。 現在のソリューションは主に、集中型アーキテクチャで一般的に処理される限られたコンテキスト情報に重点を置いており、ユーザの個人情報をプライバシリークに暴露する可能性があり、パーソナライズ機能が欠落している。 これらの理由から、オンデバイスコンテキストモデリングと認識は、この分野における現在の研究トレンドを表している。 モバイル環境におけるユーザのコンテキストを特徴付ける異なる情報のうち、社会的相互作用や訪問場所は日常生活シナリオの特徴づけに大いに寄与している。 本稿では,モバイル端末上で直接egoネットワークに基づいて,ユーザの社会的コンテキストと位置情報をモデル化する新しい,教師なし,かつ軽量なアプローチを提案する。 このモデルに基づいて、スマートフォン内蔵センサーデータから高レベルで意味に富んだコンテキスト特徴を抽出することができる。 具体的には、ユーザーとデバイス間の物理的およびサイバー的社会的相互作用に関するデータを利用する。 位置情報のコンテキストに関しては,GPS座標と近接装置の両方の観点から,ユーザのコンテキストに対する特定の位置情報の親しみ度を生の位置情報データよりもモデル化することが重要と考えられる。 実世界の5つのデータセットを用いて,社会的および位置的エゴネットワークの構造を評価し,提案したモデルのセマンティックな評価と,モバイルコンピューティングの性能の観点からの複雑性評価を提供する。 最後に,3つの機械学習アルゴリズムによる日常的状況認識の性能を示すことで,抽出された特徴の関連性を実証し,aurocの3%,精度9%,再現率5%の改善を得た。

Context modeling and recognition represent complex tasks that allow mobile and ubiquitous computing applications to adapt to the user's situation. Current solutions mainly focus on limited context information generally processed on centralized architectures, potentially exposing users' personal data to privacy leakage, and missing personalization features. For these reasons on-device context modeling and recognition represent the current research trend in this area. Among the different information characterizing the user's context in mobile environments, social interactions and visited locations remarkably contribute to the characterization of daily life scenarios. In this paper we propose a novel, unsupervised and lightweight approach to model the user's social context and her locations based on ego networks directly on the user mobile device. Relying on this model, the system is able to extract high-level and semantic-rich context features from smartphone-embedded sensors data. Specifically, for the social context it exploits data related to both physical and cyber social interactions among users and their devices. As far as location context is concerned, we assume that it is more relevant to model the familiarity degree of a specific location for the user's context than the raw location data, both in terms of GPS coordinates and proximity devices. By using 5 real-world datasets, we assess the structure of the social and location ego networks, we provide a semantic evaluation of the proposed models and a complexity evaluation in terms of mobile computing performance. Finally, we demonstrate the relevance of the extracted features by showing the performance of 3 machine learning algorithms to recognize daily-life situations, obtaining an improvement of 3% of AUROC, 9% of Precision, and 5% in terms of Recall with respect to use only features related to physical context.
翻訳日:2022-05-19 14:05:06 公開日:2022-05-18
# ネットワーク内機械学習の自動化

Automating In-Network Machine Learning ( http://arxiv.org/abs/2205.08824v1 )

ライセンス: Link先を確認
Changgang Zheng, Mingyuan Zang, Xinpeng Hong, Riyad Bensoussane, Shay Vargaftik, Yaniv Ben-Itzhak, Noa Zilberman(参考訳) ネットワーク内機械学習を支援するためにプログラム可能なネットワークデバイスを使うことは、重要な研究の焦点となっている。 しかし、研究の大部分は限られた範囲であり、概念の証明やクローズドソースアルゴリズムの記述を提供する。 これまで、機械学習アルゴリズムをプログラム可能なネットワークデバイスにマッピングするための一般的なソリューションは提供されていない。 本稿では、トレーニングされた機械学習モデルをプログラマブルデバイスにマッピングするためのオープンソースのモジュラーフレームワークであるPlanterを紹介する。 Planterは幅広い機械学習モデルをサポートし、複数のターゲットをサポートし、容易に拡張できる。 planterの評価は、異なるマッピングアプローチを比較し、異常検出、金融取引、経験の質といったアプリケーションの実現可能性、パフォーマンス、リソース効率を示す。 その結果、プランターベースのインネットワーク機械学習アルゴリズムは、ラインレートで実行でき、レイテンシーに無視できる効果があり、標準スイッチング機能と共存し、精度の面でのトレードオフがないことがわかった。

Using programmable network devices to aid in-network machine learning has been the focus of significant research. However, most of the research was of a limited scope, providing a proof of concept or describing a closed-source algorithm. To date, no general solution has been provided for mapping machine learning algorithms to programmable network devices. In this paper, we present Planter, an open-source, modular framework for mapping trained machine learning models to programmable devices. Planter supports a wide range of machine learning models, multiple targets and can be easily extended. The evaluation of Planter compares different mapping approaches, and demonstrates the feasibility, performance, and resource efficiency for applications such as anomaly detection, financial transactions, and quality of experience. The results show that Planter-based in-network machine learning algorithms can run at line rate, have a negligible effect on latency, coexist with standard switching functionality, and have no or minor accuracy trade-offs.
翻訳日:2022-05-19 14:04:39 公開日:2022-05-18
# 臨床試験における機械学習の学際的公正性の検討

Multi-disciplinary fairness considerations in machine learning for clinical trials ( http://arxiv.org/abs/2205.08875v1 )

ライセンス: Link先を確認
Isabel Chien, Nina Deliu, Richard E. Turner, Adrian Weller, Sofia S. Villar, Niki Kilbertus(参考訳) 近年、医療改善のための機械学習の適用に対する関心は飛躍的に高まっているが、多くの障壁が医療実践への展開を妨げる。 顕著な懸念は、社会における定着したバイアスと既存の健康格差を悪化させる可能性があることである。 機械学習における公平性の領域は、これらのエクイティの問題に対処しようとするが、適切なアプローチはコンテキストに依存し、ドメイン固有の考慮を必要とする。 本研究は, 臨床試験, すなわち, 人体を用いた医療評価研究に焦点をあてる。 臨床試験は、複雑な倫理的、法的、規制的要件と高いコストのために、医療のための機械学習の比較的未熟な応用である。 本研究の目的は,機械学習の公平性が臨床研究や実践の文脈にどのように適合するかを,学際的に評価することである。 まず、現在行われている臨床試験の倫理的考察とガイドラインを見直し、機械学習におけるフェアネスの共通定義との関係を検討することから始める。 臨床試験における不公平な原因の可能性を検証し、具体的な例を示し、潜在的なバイアスを軽減するか、無注意で適用した場合に機械学習が果たす役割について議論する。 特に、機械学習を用いた適応型臨床試験に焦点が当てられている。 最後に、さらなる調査と開発を必要とする概念を強調し、臨床試験の設計にかかわるフェアネスに対する新しいアプローチを強調した。

While interest in the application of machine learning to improve healthcare has grown tremendously in recent years, a number of barriers prevent deployment in medical practice. A notable concern is the potential to exacerbate entrenched biases and existing health disparities in society. The area of fairness in machine learning seeks to address these issues of equity; however, appropriate approaches are context-dependent, necessitating domain-specific consideration. We focus on clinical trials, i.e., research studies conducted on humans to evaluate medical treatments. Clinical trials are a relatively under-explored application in machine learning for healthcare, in part due to complex ethical, legal, and regulatory requirements and high costs. Our aim is to provide a multi-disciplinary assessment of how fairness for machine learning fits into the context of clinical trials research and practice. We start by reviewing the current ethical considerations and guidelines for clinical trials and examine their relationship with common definitions of fairness in machine learning. We examine potential sources of unfairness in clinical trials, providing concrete examples, and discuss the role machine learning might play in either mitigating potential biases or exacerbating them when applied without care. Particular focus is given to adaptive clinical trials, which may employ machine learning. Finally, we highlight concepts that require further investigation and development, and emphasize new approaches to fairness that may be relevant to the design of clinical trials.
翻訳日:2022-05-19 14:04:23 公開日:2022-05-18
# 予測市場の価格解釈可能性:収束分析

Price Interpretability of Prediction Markets: A Convergence Analysis ( http://arxiv.org/abs/2205.08913v1 )

ライセンス: Link先を確認
Dian Yu, Jianjun Gao, Weiping Wu, Zizhuo Wang(参考訳) 予測市場は予測精度で知られている。 しかし、予測市場が情報をどのように集約するか、なぜこれほどうまく機能するのかについては、体系的な理解が不足している。 本研究は,既存の市場形成スキームを統一する多変量ユーティリティ(MU)に基づくメカニズムを提案する。 このメカニズムに基づき、市場メーカと繰り返し対話するリスク回避トレーダーの妙に富んだ市場での収束結果を導出する。 その結果,すべての市場参加者の公益事業が定義したパレート効率のよいフロンティアに富の分配の限界があることが示されている。 この結果の助けを借りて、異なる市場モデルに対する制限価格に関する解析的および数値的な結果を確立する。 指数的ユーティリティベース市場に対するエージェントの信念の幾何学的平均に制限価格が収束することを示す。 リスク尺度に基づく市場においては,コンバージェンス要件を満たしたリスク尺度ファミリを構築し,制限価格がエージェント信念の重み付け電力平均に収束可能であることを示す。 双曲的絶対リスク回避(HARA)ユーティリティに基づく市場においては,取引順序が集約重みに影響を与えるとしても,制限価格がエージェント信念のリスク調整された重み付きパワー平均であることが示されている。 さらに,原ユーティリティファミリーの下での限界価格の近似スキームを提案する。 数値実験により,近似法が収束価格の予測に有効であることを示す。

Prediction markets are long known for prediction accuracy. However, there is still a lack of systematic understanding of how prediction markets aggregate information and why they work so well. This work proposes a multivariate utility (MU)-based mechanism that unifies several existing prediction market-making schemes. Based on this mechanism, we derive convergence results for markets with myopic, risk-averse traders who repeatedly interact with the market maker. We show that the resulting limiting wealth distribution lies on the Pareto efficient frontier defined by all market participants' utilities. With the help of this result, we establish both analytical and numerical results for the limiting price for different market models. We show that the limiting price converges to the geometric mean of agents' beliefs for exponential utility-based markets. For risk measure-based markets, we construct a risk measure family that meets the convergence requirements and show that the limiting price can converge to a weighted power mean of agent beliefs. For markets based on hyperbolic absolute risk aversion (HARA) utilities, we show that the limiting price is also a risk-adjusted weighted power mean of agent beliefs, even though the trading order will affect the aggregation weights. We further propose an approximation scheme for the limiting price under the HARA utility family. We show through numerical experiments that our approximation scheme works well in predicting the convergent prices.
翻訳日:2022-05-19 14:04:01 公開日:2022-05-18
# シングルショット光ニューラルネットワーク

Single-Shot Optical Neural Network ( http://arxiv.org/abs/2205.09103v1 )

ライセンス: Link先を確認
Liane Bernstein, Alexander Sludds, Christopher Panuski, Sivan Trajtenberg-Mills, Ryan Hamerly, Dirk Englund(参考訳) ディープニューラルネットワーク(DNN)がますます複雑な問題を解決するように成長するにつれ、既存のデジタルプロセッサのレイテンシと消費電力が制限されるようになっている。 軽量なアナログ光学・電子ハードウェアは、高価な重み更新を省いてDNNに必要な計算資源を削減するために提案されているが、スケーラビリティは入力ベクトル長が数百ドル程度に制限されている。 本稿では,パッシブ光複写のための自由空間光学の利点と,入力ベクトルの大規模分布と,静的で再構成可能な重み付けと非線形性のための集積光エレクトロニクスを生かした,スケーラブルな単層重み付け型光プロセッサを提案する。 我々は,K = 1000$以上の最適化された近距離CMOS互換システムを提案し,その理論的総レイテンシ(\sim$10 ns),エネルギー消費(\sim$10 fJ/MAC),スループット(\sim$petaMAC/s)を計算した。 また、MNIST手書き桁データセットのシングルショットアナログ光符号化、複写、重み付けによるDNN分類精度を概念実証システムで実験的に検証し、ハードウェアやデータ前処理を再トレーニングすることなく94.7%(地上精度96.3%)を達成した。 最後に、精度が大幅に低下する前に、最大光帯域幅によって設定されるシステムのスループット上限($\sim$0.9 testac/s)を決定する。 この広帯域帯域と広帯域帯域の併用により、次世代DNNの高効率な計算が可能となる。

As deep neural networks (DNNs) grow to solve increasingly complex problems, they are becoming limited by the latency and power consumption of existing digital processors. 'Weight-stationary' analog optical and electronic hardware has been proposed to reduce the compute resources required by DNNs by eliminating expensive weight updates; however, with scalability limited to an input vector length $K$ of hundreds of elements. Here, we present a scalable, single-shot-per-layer weight-stationary optical processor that leverages the advantages of free-space optics for passive optical copying and large-scale distribution of an input vector and integrated optoelectronics for static, reconfigurable weighting and the nonlinearity. We propose an optimized near-term CMOS-compatible system with $K = 1,000$ and beyond, and we calculate its theoretical total latency ($\sim$10 ns), energy consumption ($\sim$10 fJ/MAC) and throughput ($\sim$petaMAC/s) per layer. We also experimentally test DNN classification accuracy with single-shot analog optical encoding, copying and weighting of the MNIST handwritten digit dataset in a proof-of-concept system, achieving 94.7% (similar to the ground truth accuracy of 96.3%) without retraining on the hardware or data preprocessing. Lastly, we determine the upper bound on throughput of our system ($\sim$0.9 exaMAC/s), set by the maximum optical bandwidth before significant loss of accuracy. This joint use of wide spectral and spatial bandwidths enables highly efficient computing for next-generation DNNs.
翻訳日:2022-05-19 14:01:09 公開日:2022-05-18
# 3次元ステガナシスレンズによる3次元逆向点雲に対するパッシブ防御

Passive Defense Against 3D Adversarial Point Clouds Through the Lens of 3D Steganalysis ( http://arxiv.org/abs/2205.08738v1 )

ライセンス: Link先を確認
Jiahao Zhu(参考訳) 現在、3dデータはコンピュータビジョンの分野では無視できない役割を担っている。 しかし、広範な研究により、深層ニューラルネットワーク(DNN)が点雲などの3Dデータを供給していることが証明されており、これはDNNを誤解し、不測の損失をもたらす可能性がある。 現在、3dの逆点雲は主に3つの方法で生成される(ポイントシフト、ポイント加算、ポイントドロップ)。 これらの点操作は良点雲の幾何学的性質と局所的相関を多かれ少なかれ変更する。 そこで本研究では,3次元ステガナリシス技術を用いて,このような敵の事例を防御することを提案する。 具体的には, ステガノグラフィーにおける著名な囚人問題から適応した敵攻撃・防衛モデルを導入し, 3次元攻撃・防衛の理解を深める。 次に,steg analysisの観点から,攻撃的防御と受動的防御という2つの重要だがあいまいな概念を再考する。 最も重要なことは、3次元ステガナリシスのレンズを通して3次元対向点雲検出器を設計することである。 我々の検出器は二重盲点であり、つまり、敵の攻撃手段と被害者モデルの正確な知識に依存していない。 悪意のある点雲を効果的に検出できるようにするため,点雲の1次および2次的な局所的記述に関する特徴を含む,64次元の判別特徴セットを作成する。 我々の知る限り、この研究は初めて3次元ステガナリシスを3次元対人防御に適用した。 広範な実験結果から,提案する3次元逆点検出装置は,複数の3次元逆点検出クラウド上で良好な検出性能を達成できることが判明した。

Nowadays, 3D data plays an indelible role in the computer vision field. However, extensive studies have proved that deep neural networks (DNNs) fed with 3D data, such as point clouds, are susceptible to adversarial examples, which aim to misguide DNNs and might bring immeasurable losses. Currently, 3D adversarial point clouds are chiefly generated in three fashions, i.e., point shifting, point adding, and point dropping. These point manipulations would modify geometrical properties and local correlations of benign point clouds more or less. Motivated by this basic fact, we propose to defend such adversarial examples with the aid of 3D steganalysis techniques. Specifically, we first introduce an adversarial attack and defense model adapted from the celebrated Prisoners' Problem in steganography to help us comprehend 3D adversarial attack and defense more generally. Then we rethink two significant but vague concepts in the field of adversarial example, namely, active defense and passive defense, from the perspective of steganalysis. Most importantly, we design a 3D adversarial point cloud detector through the lens of 3D steganalysis. Our detector is double-blind, that is to say, it does not rely on the exact knowledge of the adversarial attack means and victim models. To enable the detector to effectively detect malicious point clouds, we craft a 64-D discriminant feature set, including features related to first-order and second-order local descriptions of point clouds. To our knowledge, this work is the first to apply 3D steganalysis to 3D adversarial example defense. Extensive experimental results demonstrate that the proposed 3D adversarial point cloud detector can achieve good detection performance on multiple types of 3D adversarial point clouds.
翻訳日:2022-05-19 14:00:40 公開日:2022-05-18
# 児童福祉における予測システムを超えた新しい未来を想像する:影響のある利害関係者との質的研究

Imagining new futures beyond predictive systems in child welfare: A qualitative study with impacted stakeholders ( http://arxiv.org/abs/2205.08928v1 )

ライセンス: Link先を確認
Logan Stapleton, Min Hun Lee, Diana Qing, Marya Wright, Alexandra Chouldechova, Kenneth Holstein, Zhiwei Steven Wu, Haiyi Zhu(参考訳) 米国の児童福祉機関は、労働者の意思決定を支援するために政府の行政データを利用するデータ駆動予測技術(一般的に予測分析と呼ばれる)に目を向けている。 データ駆動予測リスクモデル(prm: data-driven prediction risk model)の現在の使用に対するステークホルダの懸念には,いくつかの先行作業が影響している。 本研究では,児童福祉制度の影響を受けている,あるいはprmに関する信念や関心事を理解し,児童福祉制度におけるデータや技術の新たな活用を想像するために,35人の利害関係者による7つのデザインワークショップを実施した。 対象者は,現在のPRMが児童福祉における既存の問題を持続的又は悪化させることを懸念した。 参加者は、影響のあるコミュニティをより良く支援するためにデータとデータ駆動ツールを使用する新しい方法を提案し、これらのツールの害を軽減するための道を提案しました。 参加者はまた、児童福祉の問題に対処するために、PRMの低技術または非技術代替案も提案した。 私たちの研究は、児童福祉機関を回避したり、反対したりする可能性のある、影響のあるコミュニティと研究者やデザイナーが連携して働く方法に光を当てています。

Child welfare agencies across the United States are turning to data-driven predictive technologies (commonly called predictive analytics) which use government administrative data to assist workers' decision-making. While some prior work has explored impacted stakeholders' concerns with current uses of data-driven predictive risk models (PRMs), less work has asked stakeholders whether such tools ought to be used in the first place. In this work, we conducted a set of seven design workshops with 35 stakeholders who have been impacted by the child welfare system or who work in it to understand their beliefs and concerns around PRMs, and to engage them in imagining new uses of data and technologies in the child welfare system. We found that participants worried current PRMs perpetuate or exacerbate existing problems in child welfare. Participants suggested new ways to use data and data-driven tools to better support impacted communities and suggested paths to mitigate possible harms of these tools. Participants also suggested low-tech or no-tech alternatives to PRMs to address problems in child welfare. Our study sheds light on how researchers and designers can work in solidarity with impacted communities, possibly to circumvent or oppose child welfare agencies.
翻訳日:2022-05-19 13:58:27 公開日:2022-05-18
# 高速ニューラルネットワークによる部分微分方程式の解法

Fast Neural Network based Solving of Partial Differential Equations ( http://arxiv.org/abs/2205.08978v1 )

ライセンス: Link先を確認
Jaroslaw Rzepecki, Chris Doran(参考訳) 本稿では,部分微分方程式(PDE)のクラスに対する解を見つけるためにニューラルネットワーク(NN)を用いる新しい手法を提案する。 提案手法は,近年のNeural Radiance Field Research (NeRFs) の進歩に基づいており,従来のPDEソリューションよりもはるかに高速に,NNをPDEソリューションに収束させることができる。

We present a novel method for using Neural Networks (NNs) for finding solutions to a class of Partial Differential Equations (PDEs). Our method builds on recent advances in Neural Radiance Field research (NeRFs) and allows for a NN to converge to a PDE solution much faster than classic Physically Informed Neural Network (PINNs) approaches.
翻訳日:2022-05-19 13:58:04 公開日:2022-05-18
# (参考訳) BodyMap: フルボディディエンス対応マップを学習する

BodyMap: Learning Full-Body Dense Correspondence Map ( http://arxiv.org/abs/2205.09111v1 )

ライセンス: CC BY 4.0
Anastasia Ianina, Nikolaos Sarafianos, Yuanlu Xu, Ignacio Rocco, Tony Tung(参考訳) 人間間の密接な対応は、内部表面マッチング、追跡、再構築といった全身理解の基本的な問題を解決するために使用できる強力な意味情報を持っている。 本稿では,3dテンプレートモデルの表面と被衣人の内被写体像との高精細かつ連続的な対応を得るための新しい枠組みであるbodymapを提案する。 書簡は手や髪などの細かな細部をカバーし、ゆったりした衣服などの体表面から遠く離れた領域を捉えている。 高密度表面対応の事前推定法 一 立体体を二次元紫外線空間に含まない部分に切断し、部分縫合に沿って不連続を生じさせるもの 二 体全体を表わすために一面を用いるが、体の詳細を取扱わないこと。 本稿では、連続体表面の微細な特徴を学習するビジョントランスフォーマーを用いた新しいネットワークアーキテクチャを提案する。 BodyMapは、DensePose-COCOなど、さまざまなメトリクスやデータセットに関する以前の作業よりも、大きなマージンで優れている。 さらに,多層密布対応,ニューラルレンダリング,新規ビュー合成,外観スワップなど,様々な応用例を示す。

Dense correspondence between humans carries powerful semantic information that can be utilized to solve fundamental problems for full-body understanding such as in-the-wild surface matching, tracking and reconstruction. In this paper we present BodyMap, a new framework for obtaining high-definition full-body and continuous dense correspondence between in-the-wild images of clothed humans and the surface of a 3D template model. The correspondences cover fine details such as hands and hair, while capturing regions far from the body surface, such as loose clothing. Prior methods for estimating such dense surface correspondence i) cut a 3D body into parts which are unwrapped to a 2D UV space, producing discontinuities along part seams, or ii) use a single surface for representing the whole body, but none handled body details. Here, we introduce a novel network architecture with Vision Transformers that learn fine-level features on a continuous body surface. BodyMap outperforms prior work on various metrics and datasets, including DensePose-COCO by a large margin. Furthermore, we show various applications ranging from multi-layer dense cloth correspondence, neural rendering with novel-view synthesis and appearance swapping.
翻訳日:2022-05-19 13:56:38 公開日:2022-05-18
# 時空間畳み込みLSTMによる予測誤差を用いた異常検出

Anomaly detection using prediction error with Spatio-Temporal Convolutional LSTM ( http://arxiv.org/abs/2205.08812v1 )

ライセンス: Link先を確認
Hanh Thi Minh Tran, David Hogg(参考訳) 本稿では,時空間畳み込み型long short-term memory (convlstm) を用いた,既存アーキテクチャによるシーケンス間予測と再構成のためのビデオ異常検出手法を提案する。 以前の異常検出の研究と同様に、異常は再構成や予測において空間的局所的な障害として生じる。 5つのベンチマークデータセットを用いた実験では,予測を用いることで再現性に優れた性能が得られた。 また、異なる長さの入出力シーケンスと比較した。 全体として、予測を用いた結果は、ベンチマークデータセットの最先端技術と同等です。

In this paper, we propose a novel method for video anomaly detection motivated by an existing architecture for sequence-to-sequence prediction and reconstruction using a spatio-temporal convolutional Long Short-Term Memory (convLSTM). As in previous work on anomaly detection, anomalies arise as spatially localised failures in reconstruction or prediction. In experiments with five benchmark datasets, we show that using prediction gives superior performance to using reconstruction. We also compare performance with different length input/output sequences. Overall, our results using prediction are comparable with the state of the art on the benchmark datasets.
翻訳日:2022-05-19 13:31:27 公開日:2022-05-18
# 弱教師付き病理組織像分割のためのトランスフォーマティブ・マルチインスタンス学習

Transformer based multiple instance learning for weakly supervised histopathology image segmentation ( http://arxiv.org/abs/2205.08878v1 )

ライセンス: Link先を確認
Ziniu Qian, Kailu Li, Maode Lai, Eric I-Chao Chang, Bingzheng Wei, Yubo Fan, Yan Xu(参考訳) 病理画像分割アルゴリズムはコンピュータ支援診断技術において重要な役割を担っている。 弱教師付きセグメンテーションアルゴリズムの開発は、医用画像アノテーションが時間がかかり、労働集約的であるという問題を緩和する。 弱教師付き学習のサブセットとして、多重インスタンス学習(MIL)がセグメンテーションに有効であることが証明されている。 しかし、MILのインスタンス間では関連する情報が不足しており、セグメンテーション性能のさらなる改善が制限されている。 本稿では,milフレームワークにトランスフォーマーを導入してグローバルあるいは長距離の依存関係をキャプチャする,組織病理画像における画素レベルセグメンテーションの弱い教師付き手法を提案する。 Transformerのマルチヘッド自己アテンションはインスタンス間の関係を確立し、インスタンスがMIL内で互いに独立しているという欠点を解決する。 また、弱い教師付きメソッドにおけるアノテーションの制限を克服し、階層的情報の利用性を高めるために、深い監督が導入された。 大腸癌データセットにおける最先端の結果は,他の弱教師付き手法と比較して,提案手法の優位性を示した。 医療画像における様々な応用へのアプローチの可能性を信じるべきである。

Hispathological image segmentation algorithms play a critical role in computer aided diagnosis technology. The development of weakly supervised segmentation algorithm alleviates the problem of medical image annotation that it is time-consuming and labor-intensive. As a subset of weakly supervised learning, Multiple Instance Learning (MIL) has been proven to be effective in segmentation. However, there is a lack of related information between instances in MIL, which limits the further improvement of segmentation performance. In this paper, we propose a novel weakly supervised method for pixel-level segmentation in histopathology images, which introduces Transformer into the MIL framework to capture global or long-range dependencies. The multi-head self-attention in the Transformer establishes the relationship between instances, which solves the shortcoming that instances are independent of each other in MIL. In addition, deep supervision is introduced to overcome the limitation of annotations in weakly supervised methods and make the better utilization of hierarchical information. The state-of-the-art results on the colon cancer dataset demonstrate the superiority of the proposed method compared with other weakly supervised methods. It is worth believing that there is a potential of our approach for various applications in medical images.
翻訳日:2022-05-19 13:31:20 公開日:2022-05-18
# 入射多面体表現を用いたリモートセンシング新しいビュー合成

Remote Sensing Novel View Synthesis with Implicit Multiplane Representations ( http://arxiv.org/abs/2205.08908v1 )

ライセンス: Link先を確認
Yongchang Wu, Zhengxia Zou, Zhenwei Shi(参考訳) リモートセンシングシーンの新しいビュー合成は、シーンの可視化、人間とコンピュータのインタラクション、および様々な下流アプリケーションにとって非常に重要である。 近年のコンピュータグラフィックスとフォトグラム技術の発展にもかかわらず、特にリモートセンシング画像では、その複雑さ、ビューの空間性、ビューパースペクティブなバリエーションが制限されているため、新しいビューの生成は依然として困難である。 本稿では,暗黙的ニューラル表現の最近の進歩を活用して,新しいリモートセンシングビュー合成手法を提案する。 リモートセンシング画像のオーバーヘッドと遠距離イメージングを考慮し,暗黙のマルチプレーン画像(MPI)表現とディープニューラルネットワークを組み合わせることで,3次元空間を表現する。 3Dシーンは、多視点入力制約を持つ微分可能な多面体レンダラーにより、自己監督最適化パラダイムの下で再構成される。 したがって、任意の新しいビューの画像は、再構成されたモデルに基づいて自由にレンダリングすることができる。 副産物として、所定の視点に対応する深度マップをレンダリング出力と共に生成することができる。 提案手法をImMPI(Imlicit Multiplane Images)と呼ぶ。 スパースビュー入力下での視点合成をさらに改善するために,リモートセンシングによる3dシーンの学習に基づく初期化を探索し,最適化プロセスを高速化するニューラルネットワークに基づく事前抽出器を提案する。 さらに,マルチビュー実世界のGoogle Earth画像を用いたリモートセンシングノベルビュー合成のための新しいデータセットを提案する。 広汎な実験は、再建精度、視覚的忠実度、時間効率の観点から、過去の最先端手法よりもImMPIの方が優れていることを示す。 アブレーション実験は,方法論設計の有効性も示唆する。 私たちのデータセットとコードはhttps://github.com/wyc-Chang/ImMPIで参照できます。

Novel view synthesis of remote sensing scenes is of great significance for scene visualization, human-computer interaction, and various downstream applications. Despite the recent advances in computer graphics and photogrammetry technology, generating novel views is still challenging particularly for remote sensing images due to its high complexity, view sparsity and limited view-perspective variations. In this paper, we propose a novel remote sensing view synthesis method by leveraging the recent advances in implicit neural representations. Considering the overhead and far depth imaging of remote sensing images, we represent the 3D space by combining implicit multiplane images (MPI) representation and deep neural networks. The 3D scene is reconstructed under a self-supervised optimization paradigm through a differentiable multiplane renderer with multi-view input constraints. Images from any novel views thus can be freely rendered on the basis of the reconstructed model. As a by-product, the depth maps corresponding to the given viewpoint can be generated along with the rendering output. We refer to our method as Implicit Multiplane Images (ImMPI). To further improve the view synthesis under sparse-view inputs, we explore the learning-based initialization of remote sensing 3D scenes and proposed a neural network based Prior extractor to accelerate the optimization process. In addition, we propose a new dataset for remote sensing novel view synthesis with multi-view real-world google earth images. Extensive experiments demonstrate the superiority of the ImMPI over previous state-of-the-art methods in terms of reconstruction accuracy, visual fidelity, and time efficiency. Ablation experiments also suggest the effectiveness of our methodology design. Our dataset and code can be found at https://github.com/wyc-Chang/ImMPI
翻訳日:2022-05-19 13:31:02 公開日:2022-05-18
# コーディネートネットワークにおけるトレーディング位置複雑度と深度

Trading Positional Complexity vs. Deepness in Coordinate Networks ( http://arxiv.org/abs/2205.08987v1 )

ライセンス: Link先を確認
Jianqiao Zheng, Sameera Ramasinghe, Xueqian Li, Simon Lucey(参考訳) 座標ベースのMLPは、フーリエ特徴の配列として座標位置を符号化することで、高周波情報の保存という観点で利益を得る。 これらの位置符号化の有効性の理論的根拠は、主にフーリエレンズを用いて研究されている。 本稿では,非フーリエ埋め込み関数が位置符号化に有効であることを示すことにより,この理解を深める。 さらに,それらの性能は,組込み行列の安定階数と組込み座標間の距離保存とのトレードオフによって決定されることを示した。 さらに,現在普及している位置のフーリエ特徴マッピングが,これらの条件を満たす特別な場合であることを示す。 したがって、シフト基底関数の観点から位置符号化を解析するためのより一般的な理論を提案する。 さらに、より複雑な位置符号化(モード数に指数関数的にスケールする)を採用するには、同等のパフォーマンスを達成するために、線形(深い)座標関数のみを必要とする、と論じている。 対意的に、ネットワーク深度に対する位置埋め込みの複雑さは、追加の埋め込みの複雑さにもかかわらず、現在の最先端技術よりも桁違いに高速であることを示す。 この目的のために、我々は必要な理論式を開発し、我々の理論的主張が実際に成り立つことを実証的に検証する。

It is well noted that coordinate-based MLPs benefit -- in terms of preserving high-frequency information -- through the encoding of coordinate positions as an array of Fourier features. Hitherto, the rationale for the effectiveness of these positional encodings has been mainly studied through a Fourier lens. In this paper, we strive to broaden this understanding by showing that alternative non-Fourier embedding functions can indeed be used for positional encoding. Moreover, we show that their performance is entirely determined by a trade-off between the stable rank of the embedded matrix and the distance preservation between embedded coordinates. We further establish that the now ubiquitous Fourier feature mapping of position is a special case that fulfills these conditions. Consequently, we present a more general theory to analyze positional encoding in terms of shifted basis functions. In addition, we argue that employing a more complex positional encoding -- that scales exponentially with the number of modes -- requires only a linear (rather than deep) coordinate function to achieve comparable performance. Counter-intuitively, we demonstrate that trading positional embedding complexity for network deepness is orders of magnitude faster than current state-of-the-art; despite the additional embedding complexity. To this end, we develop the necessary theoretical formulae and empirically verify that our theoretical claims hold in practice.
翻訳日:2022-05-19 13:30:38 公開日:2022-05-18
# グローバルコントラストマスク自動エンコーダは強力な病理表現学習者である

Global Contrast Masked Autoencoders Are Powerful Pathological Representation Learners ( http://arxiv.org/abs/2205.09048v1 )

ライセンス: Link先を確認
Hao Quan, Xingyu Li, Weixing Chen, Mingchen Zou, Ruijie Yang, Tingting Zheng, Ruiqun Qi, Xinghua Gao, Xiaoyu Cui(参考訳) ディープラーニングで表現される人工知能アルゴリズムは,デジタル全スライドスキャン技術に基づいて,計算病理学の分野で顕著な成果を上げている。 CT(CT)やMRI(MRI)などの他の医用画像と比較すると,病理像の注釈が難しいため,教師あり学習に使用できるデータセットが極めて少ない。 本研究では,自己教師付き学習(SSL)モデルであるGCMAE(Global Contrast Masked Autoencoders)を提案する。 Camelyon16およびNCTCRCデータセットを用いて,本モデルの性能評価を行った。 異なるデータセットで転送学習タスクを扱う場合、実験結果はGCMAEがMAEよりも線形分類精度が良く、それぞれ81.10%と89.22%に達することを示した。 本手法は,従来の最先端アルゴリズムを上回り,教師付き学習(nctcrcデータセットでは3.86%改善)を超越する。 本論文のソースコードはhttps://github.com/StarUniversus/gcmaeで公開されている。

Based on digital whole slide scanning technique, artificial intelligence algorithms represented by deep learning have achieved remarkable results in the field of computational pathology. Compared with other medical images such as Computed Tomography (CT) or Magnetic Resonance Imaging (MRI), pathological images are more difficult to annotate, thus there is an extreme lack of data sets that can be used for supervised learning. In this study, a self-supervised learning (SSL) model, Global Contrast Masked Autoencoders (GCMAE), is proposed, which has the ability to represent both global and local domain-specific features of whole slide image (WSI), as well as excellent cross-data transfer ability. The Camelyon16 and NCTCRC datasets are used to evaluate the performance of our model. When dealing with transfer learning tasks with different data sets, the experimental results show that GCMAE has better linear classification accuracy than MAE, which can reach 81.10% and 89.22% respectively. Our method outperforms the previous state-of-the-art algorithm and even surpass supervised learning (improved by 3.86% on NCTCRC data sets). The source code of this paper is publicly available at https://github.com/StarUniversus/gcmae
翻訳日:2022-05-19 13:30:16 公開日:2022-05-18
# Pseudo-labeled データの活用による直接音声合成の改善

Leveraging Pseudo-labeled Data to Improve Direct Speech-to-Speech Translation ( http://arxiv.org/abs/2205.08993v1 )

ライセンス: Link先を確認
Qianqian Dong, Fengpeng Yue, Tom Ko, Mingxuan Wang, Qibing Bai, Yu Zhang(参考訳) 近年,直接音声音声翻訳 (S2ST) が注目されている。 データ不足と複雑な音声音声マッピングのため、このタスクは非常に難しい。 本稿では,S2STにおける最近の成果を報告する。 まず、最初のトランスラトトロンよりも優れたs2stトランスフォーマーベースラインを構築する。 次に,疑似ラベルによる外部データを用いて,フィッシャー・イングリッシュ・ツー・スパニッシュテストセットにおける新たな最先端結果を得る。 実際、s2stに適用すると自明でない一般的なテクニックの組み合わせで擬似データを利用する。 さらに,構文的に類似した(スペイン語-英語)言語対と遠方の(英語-中国語)言語対に対するアプローチを評価した。 実装はhttps://github.com/fengpeng-yue/speech-to-speech-translationで利用可能です。

Direct Speech-to-speech translation (S2ST) has drawn more and more attention recently. The task is very challenging due to data scarcity and complex speech-to-speech mapping. In this paper, we report our recent achievements in S2ST. Firstly, we build a S2ST Transformer baseline which outperforms the original Translatotron. Secondly, we utilize the external data by pseudo-labeling and obtain a new state-of-the-art result on the Fisher English-to-Spanish test set. Indeed, we exploit the pseudo data with a combination of popular techniques which are not trivial when applied to S2ST. Moreover, we evaluate our approach on both syntactically similar (Spanish-English) and distant (English-Chinese) language pairs. Our implementation is available at https://github.com/fengpeng-yue/speech-to-speech-translation.
翻訳日:2022-05-19 13:28:30 公開日:2022-05-18
# revisiting pinns:生成的逆向性物理学に基づくニューラルネットワークと点重み付け法

Revisiting PINNs: Generative Adversarial Physics-informed Neural Networks and Point-weighting Method ( http://arxiv.org/abs/2205.08754v1 )

ライセンス: Link先を確認
Wensheng Li, Chao Zhang, Chuncheng Wang, Hanting Guan, Dacheng Tao(参考訳) 物理学に変形したニューラルネットワーク(pinns)は、偏微分方程式(pdes)を数値的に解くためのディープラーニングフレームワークを提供し、様々なpde問題で広く使われている。 しかし、PINNの適用には依然としていくつかの課題がある。 1)PINNのメカニズムは(少なくとも直接適用できない)、ネットワークを洗練させるために(通常非常に少ない)追加情報サンプルの小さなサイズを利用するのに適さない。 2) 複雑なPDEでは, PINNの訓練効率が低くなることが多い。 本稿では,pdesへの厳密解のごく小さなサイズのみを活用し,pinの性能を向上させるために,ga(generative adversarial)機構とpinnの構造を統合したga-pinn(generative adversarial physics-informed neural network)を提案する。 次に,adaboost法の重み付け戦略に触発されて,ピンの訓練効率を向上させるための点重み付け(pw)法を導入し,各訓練イテレーションで各サンプル点の重みを適応的に更新する。 数値実験により、GA-PINNは、多くの有名なPDEにおいてPINNよりも優れており、PW法は、PINNとGA-PINNの訓練効率も向上することが示された。

Physics-informed neural networks (PINNs) provide a deep learning framework for numerically solving partial differential equations (PDEs), and have been widely used in a variety of PDE problems. However, there still remain some challenges in the application of PINNs: 1) the mechanism of PINNs is unsuitable (at least cannot be directly applied) to exploiting a small size of (usually very few) extra informative samples to refine the networks; and 2) the efficiency of training PINNs often becomes low for some complicated PDEs. In this paper, we propose the generative adversarial physics-informed neural network (GA-PINN), which integrates the generative adversarial (GA) mechanism with the structure of PINNs, to improve the performance of PINNs by exploiting only a small size of exact solutions to the PDEs. Inspired from the weighting strategy of the Adaboost method, we then introduce a point-weighting (PW) method to improve the training efficiency of PINNs, where the weight of each sample point is adaptively updated at each training iteration. The numerical experiments show that GA-PINNs outperform PINNs in many well-known PDEs and the PW method also improves the efficiency of training PINNs and GA-PINNs.
翻訳日:2022-05-19 13:28:18 公開日:2022-05-18
# 連続時間切替力学系のためのマルコフ連鎖モンテカルロ

Markov Chain Monte Carlo for Continuous-Time Switching Dynamical Systems ( http://arxiv.org/abs/2205.08803v1 )

ライセンス: Link先を確認
Lukas K\"ohs and Bastian Alt and Heinz Koeppl(参考訳) 動的システムの切り替えは時系列データ解析のための表現力のあるモデルクラスである。 自然科学や工学の多くの分野と同様に、研究対象のシステムは時間とともに連続的に進化するが、マルコフジャンプ過程によって支配される確率微分方程式を切り替えることからなる連続時間モデル定式化を考えるのは自然である。 しかし、この種のモデルの推論は極めて困難であり、抽出可能な計算スキームは稀である。 本研究ではマルコフ・チェイン・モンテカルロ手法を用いた新しい推論アルゴリズムを提案する。 提示されたギブスサンプルは、正確な連続時間後処理から試料を効率的に得ることができる。 我々のフレームワークは自然にベイズパラメータの推定を可能にし、確率微分方程式モデルでしばしば固定される拡散共分散の推定も含んでいる。 モデル化の前提の下でフレームワークを評価し,既存の変分推論手法と比較する。

Switching dynamical systems are an expressive model class for the analysis of time-series data. As in many fields within the natural and engineering sciences, the systems under study typically evolve continuously in time, it is natural to consider continuous-time model formulations consisting of switching stochastic differential equations governed by an underlying Markov jump process. Inference in these types of models is however notoriously difficult, and tractable computational schemes are rare. In this work, we propose a novel inference algorithm utilizing a Markov Chain Monte Carlo approach. The presented Gibbs sampler allows to efficiently obtain samples from the exact continuous-time posterior processes. Our framework naturally enables Bayesian parameter estimation, and we also include an estimate for the diffusion covariance, which is oftentimes assumed fixed in stochastic differential equation models. We evaluate our framework under the modeling assumption and compare it against an existing variational inference approach.
翻訳日:2022-05-19 13:27:55 公開日:2022-05-18
# 世界価値関数:マルチタスク強化学習のための知識表現

World Value Functions: Knowledge Representation for Multitask Reinforcement Learning ( http://arxiv.org/abs/2205.08827v1 )

ライセンス: Link先を確認
Geraud Nangue Tasse, Steven James, Benjamin Rosman(参考訳) 人工知能におけるオープンな問題は、特定の世界で複数のタスクを解決する必要がある一般的なエージェントにとって十分な知識を学習し、表現する方法である。 本研究は,世界価値関数(WVF)を提案する。これは世界の熟達を伴う一般値関数の一種であり,与えられたタスクの解決方法だけでなく,他の目標達成タスクの解決方法も表している。 これを実現するため、エージェントに、終端遷移(タスク結果)を経験するすべての世界状態として定義された内部目標空間を割り当てる。 エージェントはタスク報酬を修正して、自身の報酬関数を定義することで、達成可能なすべての内部目標の達成方法と、現在のタスクでそれを行う価値を確実に学ぶことができる。 WVFの利点をいくつか示します。 エージェントの内部ゴール空間が状態空間全体である場合、学習されたWVFから遷移関数を推定できることを示し、学習した値関数を用いてエージェントを計画することができる。 さらに、同一世界のタスクに対して、任意のWVFを学習した事前訓練されたエージェントが、その報酬から直接新しいタスクのポリシーと価値関数を推測できることを示す。 最後に、長期的なエージェントにとって重要な特性は、新しいタスクを解決するために既存の知識を再利用できることです。 学習課題の知識表現としてWVFを用いることで、エージェントはゼロショットの論理的組み合わせを解くことができ、結果として、生涯を通して組み合わせてスキルの数が増加することを示す。

An open problem in artificial intelligence is how to learn and represent knowledge that is sufficient for a general agent that needs to solve multiple tasks in a given world. In this work we propose world value functions (WVFs), which are a type of general value function with mastery of the world - they represent not only how to solve a given task, but also how to solve any other goal-reaching task. To achieve this, we equip the agent with an internal goal space defined as all the world states where it experiences a terminal transition - a task outcome. The agent can then modify task rewards to define its own reward function, which provably drives it to learn how to achieve all achievable internal goals, and the value of doing so in the current task. We demonstrate a number of benefits of WVFs. When the agent's internal goal space is the entire state space, we demonstrate that the transition function can be inferred from the learned WVF, which allows the agent to plan using learned value functions. Additionally, we show that for tasks in the same world, a pretrained agent that has learned any WVF can then infer the policy and value function for any new task directly from its rewards. Finally, an important property for long-lived agents is the ability to reuse existing knowledge to solve new tasks. Using WVFs as the knowledge representation for learned tasks, we show that an agent is able to solve their logical combination zero-shot, resulting in a combinatorially increasing number of skills throughout their lifetime.
翻訳日:2022-05-19 13:27:40 公開日:2022-05-18
# 高分解能作物収量予測のための弱教師付き枠組み

A weakly supervised framework for high-resolution crop yield forecasts ( http://arxiv.org/abs/2205.09016v1 )

ライセンス: Link先を確認
Dilli R. Paudel, Diego Marcos, Allard de Wit, Hendrik Boogaard, Ioannis N. Athanasiadis(参考訳) 収量予測のための予測器入力とラベルデータは、常に同じ空間分解能で利用できるとは限らない。 本研究では,高分解能入力と低分解能ラベルを用いて両空間レベルの収量予測を行うディープラーニングフレームワークを提案する。 予測モデルは、低分解能作物地域からの弱い監督と収量統計によって調整される。 我々は、ヨーロッパにおける地域収量を、親国統計地域から5か国(ドイツ、スペイン、フランス、ハンガリー、イタリア)と2つの作物(ソフトコムギとジャガイモ)に分割して評価した。 弱教師付きモデルの性能を線形傾向モデルと勾配ブースト決定木(gbdt)と比較した。 高解像度の収穫予測は政策立案者や他の利害関係者にとって有用である。 弱教師付き深層学習法は、高解像度の収量データがない場合でも、そのような予測を生成する方法を提供する。

Predictor inputs and label data for crop yield forecasting are not always available at the same spatial resolution. We propose a deep learning framework that uses high resolution inputs and low resolution labels to produce crop yield forecasts for both spatial levels. The forecasting model is calibrated by weak supervision from low resolution crop area and yield statistics. We evaluated the framework by disaggregating regional yields in Europe from parent statistical regions to sub-regions for five countries (Germany, Spain, France, Hungary, Italy) and two crops (soft wheat and potatoes). Performance of weakly supervised models was compared with linear trend models and Gradient-Boosted Decision Trees (GBDT). Higher resolution crop yield forecasts are useful to policymakers and other stakeholders. Weakly supervised deep learning methods provide a way to produce such forecasts even in the absence of high resolution yield data.
翻訳日:2022-05-19 13:27:15 公開日:2022-05-18
# 運転窒素応答率予測のための潜在表現学習

Learning latent representations for operational nitrogen response rate prediction ( http://arxiv.org/abs/2205.09025v1 )

ライセンス: Link先を確認
Christos Pylianidis, Ioannis N. Athanasiadis(参考訳) 潜在表現の学習は、いくつかの分野における運用上の意思決定を支援する。 その利点は、過去に手動で実行されたデータにおける隠れたインタラクションの発見と自動処理である。 表現学習は地球と環境科学にも採用されている。 しかしながら、専門家の知識に基づく手作業による機能工学や、潜在空間を使用しないアルゴリズムの利用に依存するサブフィールドは依然として存在する。 これらの技術を利用すると、データ制約を課し、自動化を阻害するため、運用上の意思決定を阻害することができる。 本研究では,窒素応答率予測のケーススタディを採用し,表現学習が運用に有効かどうかを検討する。 窒素応答率予測のための基準ランダムフォレストモデルを用いて,多層パーセプトロン,オートエンコーダ,デュアルヘッドオートエンコーダを比較した。 予測を運用環境に近づけるために、将来の気象データがないと仮定し、エラーメトリクスとドメイン由来のエラー閾値を用いてモデルの評価を行っている。 その結果, 潜在表現の学習は, 基準モデルと同等で時として優れた性能を提供することにより, 操作的窒素応答率を予測することができることがわかった。

Learning latent representations has aided operational decision-making in several disciplines. Its advantages include uncovering hidden interactions in data and automating procedures which were performed manually in the past. Representation learning is also being adopted by earth and environmental sciences. However, there are still subfields that depend on manual feature engineering based on expert knowledge and the use of algorithms which do not utilize the latent space. Relying on those techniques can inhibit operational decision-making since they impose data constraints and inhibit automation. In this work, we adopt a case study for nitrogen response rate prediction and examine if representation learning can be used for operational use. We compare a Multilayer Perceptron, an Autoencoder, and a dual-head Autoencoder with a reference Random Forest model for nitrogen response rate prediction. To bring the predictions closer to an operational setting we assume absence of future weather data, and we are evaluating the models using error metrics and a domain-derived error threshold. The results show that learning latent representations can provide operational nitrogen response rate predictions by offering performance equal and sometimes better than the reference model.
翻訳日:2022-05-19 13:26:59 公開日:2022-05-18
# ゆっくり変化する逆帯域幅アルゴリズムは、割り振られたMDPにおそらく有効である

Slowly Changing Adversarial Bandit Algorithms are Provably Efficient for Discounted MDPs ( http://arxiv.org/abs/2205.09056v1 )

ライセンス: Link先を確認
Ian A. Kash, Lev Reyzin and Zishun Yu(参考訳) 強化学習(rl)は、長い計画ホーションと未知の遷移カーネルのさらなる困難を伴うバンディット問題を一般化する。 軽度な仮定の下では、徐々に変化する逆バンディットアルゴリズムは、逆バンディットのオプティマイズに近い後悔を享受し、非正規割引mdpのオプティマイズに近い(期待された)後悔を実現できる。 例えば(Even-Dar et al. 2009 Neu et al. 2010) では、例えば \expt~(Auer et al. 2002) は徐々に変化し、MDPのほぼ最適後悔を享受している。

Reinforcement learning (RL) generalizes bandit problems with additional difficulties on longer planning horzion and unknown transition kernel. We show that, under some mild assumptions, \textbf{any} slowly changing adversarial bandit algorithm enjoys near-optimal regret in adversarial bandits can achieve near-optimal (expected) regret in non-episodic discounted MDPs. The slowly changing property required by our generalization is mild, see e.g. (Even-Dar et al. 2009, Neu et al. 2010), we also show, for example, \expt~(Auer et al. 2002) is slowly changing and enjoys near-optimal regret in MDPs.
翻訳日:2022-05-19 13:26:16 公開日:2022-05-18
# 電気自動車用パルス・グライド駆動型適応クルーズ制御システム

A Pulse-and-Glide-driven Adaptive Cruise Control System for Electric Vehicle ( http://arxiv.org/abs/2205.08682v1 )

ライセンス: Link先を確認
Zhaofeng Tian, Liangkai Liu, Weisong Shi(参考訳) 車両のアダプティブクルーズ制御システム(acc)が現在よく開発されているため、自動車メーカーはこの技術を新世代のインテリジェントな車両に採用している。 パルス・アンド・グライド(Pulse-and-Glide、PnG)戦略は、従来の石油燃料車における燃料消費を減らすための効率的な運転戦略である。 しかし、最近の研究は、電気自動車(EV)におけるPnGの省エネ効果の検証やACCSへのPnGの埋め込みにはほとんど焦点を当てていない。 本稿では、PnG戦略をクルーズ制御(CC)と並列関数として活用し、インテリジェント遺伝的アルゴリズムと粒子群最適化(IGPSO)を用いてPnG動作のエネルギーコストを最適化することにより、PnGがEV上での省エネ戦略であることを検証したPGACCSモデルを提案する。 本稿では、PGACCSと再生ブレーキの性能を評価した再生ブレーキとACCSを用いたEVのシミュレーションモデルを構築し、PnGエネルギー性能を最適化し、再生ブレーキがPnGエネルギー性能に与える影響を評価する。 PnG最適化の結果、PGACCSのPnG運転は従来のACCSのCC運転と比較して28.3%のエネルギーコスト削減が可能となり、PnGがEVの効率的な省エネ戦略であり、PGACCSがEVにとって有望な選択肢であることを確認した。

As the adaptive cruise control system (ACCS) on vehicles is well-developed today, vehicle manufacturers have increasingly employed this technology in new-generation intelligent vehicles. Pulse-and-glide (PnG) strategy is an efficacious driving strategy to diminish fuel consumption in traditional oil-fueled vehicles. However, current studies rarely focus on the verification of the energy-saving effect of PnG on an electric vehicle (EV) and embedding PnG in ACCS. This paper proposes a pulse-and-glide-driven adaptive cruise control system (PGACCS) model which leverages PnG strategy as a parallel function with cruise control (CC) and verifies that PnG is an efficacious energy-saving strategy on EV by optimizing the energy cost of the PnG operation using Intelligent Genetic Algorithm and Particle Swarm Optimization (IGPSO). This paper builds up a simulation model of an EV with regenerative braking and ACCS based on which the performance of PGACCS and regenerative braking is evaluated; the PnG energy performance is optimized and the effect of regenerative braking on PnG energy performance is evaluated. As a result of PnG optimization, the PnG operation in the PGACCS could cut down 28.3% energy cost of the EV compared to the CC operation in the traditional ACCS which verifies that PnG is an effective energy-saving strategy for EV and PGACCS is a promising option for EV.
翻訳日:2022-05-19 13:26:04 公開日:2022-05-18
# RIS支援ミリ波MIMOシステムのための位置認識模倣環境に基づく深層強化学習

Deep Reinforcement Learning Based on Location-Aware Imitation Environment for RIS-Aided mmWave MIMO Systems ( http://arxiv.org/abs/2205.08788v1 )

ライセンス: Link先を確認
Wangyang Xu, Jiancheng An, Chongwen Huang, Lu Gan, and Chau Yuen(参考訳) 再構成可能なインテリジェントサーフェス (RIS) は、ハードウェアコストと省エネで無線通信の信号伝送品質を向上させるための有望なソリューションとして最近人気を集めている。 本レターは、ris支援mm波多重入力多重出力システムにおける関節ビームフォーミング設計のための位置認識模倣環境に基づく新しい深層強化学習(drl)アルゴリズムを提供する。 具体的には,ユーザの位置とmmwaveチャネルの幾何学的関係に基づいて,伝送環境を模倣するニューラルネットワークを設計する。 これに続いて、容易に利用可能な位置情報を用いて模倣環境と相互作用するDRLベースの新しい手法を開発した。 最後にシミュレーション結果から,提案アルゴリズムは既存のDRL手法と比較して過度な相互作用オーバヘッドを伴わずに,より堅牢な性能を提供することを示した。

Reconfigurable intelligent surface (RIS) has recently gained popularity as a promising solution for improving the signal transmission quality of wireless communications with less hardware cost and energy consumption. This letter offers a novel deep reinforcement learning (DRL) algorithm based on a location-aware imitation environment for the joint beamforming design in an RIS-aided mmWave multiple-input multiple-output system. Specifically, we design a neural network to imitate the transmission environment based on the geometric relationship between the user's location and the mmWave channel. Following this, a novel DRL-based method is developed that interacts with the imitation environment using the easily available location information. Finally, simulation results demonstrate that the proposed DRL-based algorithm provides more robust performance without excessive interaction overhead compared to the existing DRL-based approaches.
翻訳日:2022-05-19 13:25:21 公開日:2022-05-18
# tree-constrained pointer generatorを用いた文脈asrにおけるバイアス単語誤りの最小化

Minimising Biasing Word Errors for Contextual ASR with the Tree-Constrained Pointer Generator ( http://arxiv.org/abs/2205.09058v1 )

ライセンス: Link先を確認
Guangzhi Sun, Chao Zhang, Philip C Woodland(参考訳) 高評価長尾語における音声認識誤りの低減には文脈知識が不可欠である。 本稿では,木制約付きポインタ生成器(TCPGen)コンポーネントを提案する。このコンポーネントは,外部コンテキスト情報を用いて得られる長い単語のリストに対して,エンドツーエンドのASRモデルにバイアスを与える。 メモリ使用と計算コストのオーバーヘッドは少ないが、TCPGenは数千のバイアスワードをシンボルプレフィックスツリーに効率的に構造化し、ツリーと最終的なASR出力の間にニューラルショートカットを作成し、バイアスワードの認識を容易にする。 TCPGenを向上させるために,学習中の単語誤りを直接最適化する最小バイアス語誤り(MBWE)と,テスト中の言語モデル割引(BLMD)手法を提案する。 全ての文脈asrシステムは、公開librispeechオーディオブックコーパスと対話状態追跡課題(dstc)のデータを対話システムオントロジーから抽出したバイアスリストを用いて評価した。 tcpgenでは一貫性のある単語誤り率 (wer) が達成され, 認識誤り率の約40-%の偏りのある単語では特に有意であった。 MBWEとBLMDはTCPGenの有効性をさらに改善し、より重要なWER削減を実現した。 TCPGenはまた、バイアスリストの語彙外単語に対する大きなWER削減を伴うオーディオトレーニングセットにない単語のゼロショット学習も達成した。

Contextual knowledge is essential for reducing speech recognition errors on high-valued long-tail words. This paper proposes a novel tree-constrained pointer generator (TCPGen) component that enables end-to-end ASR models to bias towards a list of long-tail words obtained using external contextual information. With only a small overhead in memory use and computation cost, TCPGen can structure thousands of biasing words efficiently into a symbolic prefix-tree and creates a neural shortcut between the tree and the final ASR output to facilitate the recognition of the biasing words. To enhance TCPGen, we further propose a novel minimum biasing word error (MBWE) loss that directly optimises biasing word errors during training, along with a biasing-word-driven language model discounting (BLMD) method during the test. All contextual ASR systems were evaluated on the public Librispeech audiobook corpus and the data from the dialogue state tracking challenges (DSTC) with the biasing lists extracted from the dialogue-system ontology. Consistent word error rate (WER) reductions were achieved with TCPGen, which were particularly significant on the biasing words with around 40\% relative reductions in the recognition error rates. MBWE and BLMD further improved the effectiveness of TCPGen and achieved more significant WER reductions on the biasing words. TCPGen also achieved zero-shot learning of words not in the audio training set with large WER reductions on the out-of-vocabulary words in the biasing list.
翻訳日:2022-05-19 13:24:34 公開日:2022-05-18
# クリーンデータのないスペックル画像復元

Speckle Image Restoration without Clean Data ( http://arxiv.org/abs/2205.08833v1 )

ライセンス: Link先を確認
Tsung-Ming Tai, Yun-Jie Jhang, Wen-Jyi Hwang, Chau-Jern Cheng(参考訳) スペックルノイズは、デジタルホログラフィー、合成開口レーダー、光コヒーレンス断層撮影、超音波システムなどのコヒーレントイメージングシステムに固有の障害である。 これらのシステムは、通常、同じ関心対象の視野角あたりの単一の観測のみを生成し、観測間の統計値の活用を困難にしている。 クリーンなデータなしにスペックルノイズ除去を行うことができ、同じ視野角で複数のノイズを観測する必要のない新しい画像復元アルゴリズムを提案する。 提案手法は, 騒音分布を事前に知ることなく, 状況に適応することができる。 提案手法は,まず合成データセットを検証し,実世界のデジタルホログラフィーサンプルにも適用することにより,特にスペクトル画像に適していることを示す。 その結果, 定量的測定と視覚検査の両面において, 広く応用されたベースラインよりも優れていることがわかった。 提案手法は,清潔なデータを必要とせず,スペックルノイズ強度の異なるものに対して有望な結果を示す。

Speckle noise is an inherent disturbance in coherent imaging systems such as digital holography, synthetic aperture radar, optical coherence tomography, or ultrasound systems. These systems usually produce only single observation per view angle of the same interest object, imposing the difficulty to leverage the statistic among observations. We propose a novel image restoration algorithm that can perform speckle noise removal without clean data and does not require multiple noisy observations in the same view angle. Our proposed method can also be applied to the situation without knowing the noise distribution as prior. We demonstrate our method is especially well-suited for spectral images by first validating on the synthetic dataset, and also applied on real-world digital holography samples. The results are superior in both quantitative measurement and visual inspection compared to several widely applied baselines. Our method even shows promising results across different speckle noise strengths, without the clean data needed.
翻訳日:2022-05-19 13:23:32 公開日:2022-05-18
# 位置情報は必要なものすべて:ビデオから自己監督されたSVDEのための新しいパイプライン

Positional Information is All You Need: A Novel Pipeline for Self-Supervised SVDE from Videos ( http://arxiv.org/abs/2205.08851v1 )

ライセンス: Link先を確認
Juan Luis Gonzalez Bello, Jaeho Moon, and Munchurl Kim(参考訳) 近年,単眼映像からシーンの基盤となる3d構造を,完全に監視された方法で学ぶことに注目が集まっている。 このタスクの最も難しい側面の1つは、厳密な前提を破る際、独立して動くオブジェクトを扱うことである。 今回,映像からsvde(single view depth estimation)を学習するために,画素位置情報を活用できることを初めて示す。 移動物体(MO)マスクは、移動位置情報(SPI)によって誘導され、「SPIMO」マスクと呼ばれるもので、非常に堅牢であり、映像からSVDEをよりよく学習することができる。 さらに,深度離散化に最適な画素毎の量子化曲線を割り当てる適応量子化方式を導入する。 最後に, 移動物体の深さを自己監視する新しい手法として, 既存のブースティング技術を用いる。 これらの特徴により、パイプラインは移動対象に対して堅牢であり、たとえ小さなパッチでトレーニングされたとしても、高解像度の画像に対して優れた一般化を行うことができ、ビデオから学習する以前の研究よりも8.5倍少ないパラメータでSOTA(State-of-the-art)結果が得られる。 提案手法の有効性を示すKITTIとCityScapesについて広範な実験を行った。

Recently, much attention has been drawn to learning the underlying 3D structures of a scene from monocular videos in a fully self-supervised fashion. One of the most challenging aspects of this task is handling the independently moving objects as they break the rigid-scene assumption. For the first time, we show that pixel positional information can be exploited to learn SVDE (Single View Depth Estimation) from videos. Our proposed moving object (MO) masks, which are induced by shifted positional information (SPI) and referred to as `SPIMO' masks, are very robust and consistently remove the independently moving objects in the scenes, allowing for better learning of SVDE from videos. Additionally, we introduce a new adaptive quantization scheme that assigns the best per-pixel quantization curve for our depth discretization. Finally, we employ existing boosting techniques in a new way to further self-supervise the depth of the moving objects. With these features, our pipeline is robust against moving objects and generalizes well to high-resolution images, even when trained with small patches, yielding state-of-the-art (SOTA) results with almost 8.5x fewer parameters than the previous works that learn from videos. We present extensive experiments on KITTI and CityScapes that show the effectiveness of our method.
翻訳日:2022-05-19 13:23:16 公開日:2022-05-18
# pet合成のための3次元セグメンテーション誘導型生成逆ネットワーク

3D Segmentation Guided Style-based Generative Adversarial Networks for PET Synthesis ( http://arxiv.org/abs/2205.08887v1 )

ライセンス: Link先を確認
Yang Zhou, Zhiwen Yang, Hui Zhang, Eric I-Chao Chang, Yubo Fan, Yan Xu(参考訳) フルドースポジトロン・エミッション・トモグラフィ(pet)における放射性ハザードの可能性は依然として懸念されているが、低ドース画像の品質は臨床での使用には望ましくない。 そのため、低線量PET画像をフル線量に変換することは非常に興味深い。 ディープラーニング法に基づく先行研究は通常、再構築のための階層的特徴を直接抽出する。 それぞれの特徴の重要性が異なり、ニューラルネットワークによって小さな情報が取得できるように、異なる重み付けをすべきである。 さらに、興味のある領域における合成は、いくつかの応用において重要である。 本稿では,PET合成のための新しいセグメンテーション誘導スタイルベース生成対向ネットワーク(SGSGAN)を提案する。 1) より現実的なテクスチャを持つ画像を生成するために, 翻訳過程の階層的特徴を特に制御するスタイル変調を用いたスタイルベースジェネレータを提案する。 2) セグメンテーションタスクをGAN(Generative Adversarial Network)フレームワークに結合して翻訳性能を向上させるタスク駆動型戦略を採用する。 大規模な実験により、PET合成における全体的な枠組み、特に関心のある領域における優位性が示された。

Potential radioactive hazards in full-dose positron emission tomography (PET) imaging remain a concern, whereas the quality of low-dose images is never desirable for clinical use. So it is of great interest to translate low-dose PET images into full-dose. Previous studies based on deep learning methods usually directly extract hierarchical features for reconstruction. We notice that the importance of each feature is different and they should be weighted dissimilarly so that tiny information can be captured by the neural network. Furthermore, the synthesis on some regions of interest is important in some applications. Here we propose a novel segmentation guided style-based generative adversarial network (SGSGAN) for PET synthesis. (1) We put forward a style-based generator employing style modulation, which specifically controls the hierarchical features in the translation process, to generate images with more realistic textures. (2) We adopt a task-driven strategy that couples a segmentation task with a generative adversarial network (GAN) framework to improve the translation performance. Extensive experiments show the superiority of our overall framework in PET synthesis, especially on those regions of interest.
翻訳日:2022-05-19 13:22:38 公開日:2022-05-18
# (参考訳) エピソード記憶を用いた深層強化学習からの説明生成

Generating Explanations from Deep Reinforcement Learning Using Episodic Memory ( http://arxiv.org/abs/2205.08926v1 )

ライセンス: CC BY 4.0
Sam Blakeman, Denis Mareschal(参考訳) deep reinforcement learning(rl)は、報酬を最大化するために、順序決定にdeep neural network(dnn)を使用する。 多くのタスクにおいて、Deep RLポリシーによって生成された一連のアクションは、人間にとって長く、理解するのが困難である。 人間の説明の重要な要素は選択性であり、重要な決定と原因のみが記録される。 このような能力でディープRLエージェントを入力すれば、結果のポリシーが人間の視点で理解しやすくなり、将来のエージェントの学習を支援するための簡潔な命令セットが生成される。 この目的のために我々は、Deep RLエージェントとエピソードメモリシステムを使用して、ポリシー実行中の重要な決定を識別し、再記録する。 これらの決定は、アルゴリズムに依存しない方法でDeep RLエージェントの学習を高速化するためにも使用できる、短くて読みやすい説明を形成する。

Deep Reinforcement Learning (RL) involves the use of Deep Neural Networks (DNNs) to make sequential decisions in order to maximize reward. For many tasks the resulting sequence of actions produced by a Deep RL policy can be long and difficult to understand for humans. A crucial component of human explanations is selectivity, whereby only key decisions and causes are recounted. Imbuing Deep RL agents with such an ability would make their resulting policies easier to understand from a human perspective and generate a concise set of instructions to aid the learning of future agents. To this end we use a Deep RL agent with an episodic memory system to identify and recount key decisions during policy execution. We show that these decisions form a short, human readable explanation that can also be used to speed up the learning of naive Deep RL agents in an algorithm-independent manner.
翻訳日:2022-05-19 13:21:32 公開日:2022-05-18
# 自己監督型スタイル転送におけるソーシャルメディアコンテンツの利用

Exploiting Social Media Content for Self-Supervised Style Transfer ( http://arxiv.org/abs/2205.08814v1 )

ライセンス: Link先を確認
Dana Ruiter, Thomas Kleinbauer, Cristina Espa\~na-Bonet, Josef van Genabith, Dietrich Klakow(参考訳) スタイル転送に関する最近の研究は、教師なしニューラルネットワーク翻訳(UNMT)からインスピレーションを得ており、サイクル整合性損失、バックトランスレーション、デノナイズオートエンコーダを利用して大量の非並列データから学習している。 対照的に、UNMTよりも効率的に非並列データに隠された(ほぼ)並列インスタンスを利用する自己教師型NTT(SSNMT)は、スタイル転送のためにはまだ検討されていない。 本稿では,UNMT法でSSNMTを増強し,非並列なソーシャルメディア投稿におけるオーバシィ信号の同定と有効活用を行う,新しいセルフスーパービジョン・スタイル・トランスファー(3ST)モデルを提案する。 第3段階と最先端のsota(state-of-the-art)方式のトランスファーモデルを比較した。 3stは3つの主要な目標(流動性、コンテンツ保存、属性転送の精度)を最良で、テストタスク全体の平均パフォーマンスにおいて、自動的および人的評価で比較可能なsotaモデルとバランスをとることができることを示した。

Recent research on style transfer takes inspiration from unsupervised neural machine translation (UNMT), learning from large amounts of non-parallel data by exploiting cycle consistency loss, back-translation, and denoising autoencoders. By contrast, the use of self-supervised NMT (SSNMT), which leverages (near) parallel instances hidden in non-parallel data more efficiently than UNMT, has not yet been explored for style transfer. In this paper we present a novel Self-Supervised Style Transfer (3ST) model, which augments SSNMT with UNMT methods in order to identify and efficiently exploit supervisory signals in non-parallel social media posts. We compare 3ST with state-of-the-art (SOTA) style transfer models across civil rephrasing, formality and polarity tasks. We show that 3ST is able to balance the three major objectives (fluency, content preservation, attribute transfer accuracy) the best, outperforming SOTA models on averaged performance across their tested tasks in automatic and human evaluation.
翻訳日:2022-05-19 13:05:48 公開日:2022-05-18
# 談話レベルで知覚されるメタフォリシティの特徴:抽象性と感情性

Features of Perceived Metaphoricity on the Discourse Level: Abstractness and Emotionality ( http://arxiv.org/abs/2205.08939v1 )

ライセンス: Link先を確認
Prisca Piccirilli and Sabine Schulte im Walde(参考訳) メタファ言語の研究は、メタファ性に関して抽象性と感情性の関係を示してきた;しかし、先行研究は単語と文のレベルに限定されている。 本稿では,言論や表現の比喩性において,人間のアノテータが知覚するテキスト的・知覚的特徴について考察し,さらに2つの研究課題に対処する。 第一に、比喩的に知覚された言説は、文字通り知覚された言説と比較して抽象的で感情的か? 第二に、比喩的/抽象的/感情的文脈は同義的な代名詞よりも先行しているのか? クラウドソース・アノテータは,1000のコーパス抽出談話のデータセットを用いて,(1)より比喩的かよりリテラル的かという判断を下し,(2)その決定のきっかけとなった語彙用語を体系的に列挙した。 その結果,比喩的談話はリテラル談話よりも感情的であり,ある程度抽象的であることが示唆された。 しかし、前述した言説の比喩性と抽象性と感情性は、比喩的比喩的対リテラル表現の選択を誘発する役割を果たさないようである。 私たちのデータセットはhttps://www.ims.uni-stuttgart.de/data/discourse-met-litで利用可能です。

Research on metaphorical language has shown ties between abstractness and emotionality with regard to metaphoricity; prior work is however limited to the word and sentence levels, and up to date there is no empirical study establishing the extent to which this is also true on the discourse level. This paper explores which textual and perceptual features human annotators perceive as important for the metaphoricity of discourses and expressions, and addresses two research questions more specifically. First, is a metaphorically-perceived discourse more abstract and more emotional in comparison to a literally-perceived discourse? Second, is a metaphorical expression preceded by a more metaphorical/abstract/emotional context than a synonymous literal alternative? We used a dataset of 1,000 corpus-extracted discourses for which crowdsourced annotators (1) provided judgements on whether they perceived the discourses as more metaphorical or more literal, and (2) systematically listed lexical terms which triggered their decisions in (1). Our results indicate that metaphorical discourses are more emotional and to a certain extent more abstract than literal discourses. However, neither the metaphoricity nor the abstractness and emotionality of the preceding discourse seem to play a role in triggering the choice between synonymous metaphorical vs. literal expressions. Our dataset is available at https://www.ims.uni-stuttgart.de/data/discourse-met-lit.
翻訳日:2022-05-19 13:05:29 公開日:2022-05-18
# 効率的な半教師付き学習のためのルール自動生成

Automatic Rule Induction for Efficient Semi-Supervised Learning ( http://arxiv.org/abs/2205.09067v1 )

ライセンス: Link先を確認
Reid Pryzant, Ziyi Yang, Yichong Xu, Chenguang Zhu, Michael Zeng(参考訳) 半教師付き学習は、少量のラベル付きデータからNLPモデルを一般化できることを約束している。 一方、事前訓練されたトランスフォーマーモデルはブラックボックス相関エンジンとして機能するが、説明が難しく、時には確実に振る舞う。 本稿では,シンボル規則の自動発見と事前学習型トランスフォーマーモデルへの統合のための簡易かつ汎用的なフレームワークであるAutomatic Rule Injection (ARI) を用いて,これらの課題に対処することを提案する。 まず,少量のラベル付きデータに基づいて学習した低容量機械学習モデルから,弱い記号規則を抽出する。 次に,これらのルールを高容量事前学習トランスモデルに統合するために注意機構を用いる。 最後に、ルール強化システムは、ラベルなしデータの監視信号を強化するための自己学習フレームワークの一部となる。 これらのステップは、性能と解釈可能性を改善するために、様々な弱い監督と半教師付きNLPアルゴリズムの下に階層化することができる。 9つのシーケンス分類と関係抽出タスクによる実験により、ARIは手作業や計算オーバーヘッドを最小限にすることなく最先端の手法を改良できることが示唆された。

Semi-supervised learning has shown promise in allowing NLP models to generalize from small amounts of labeled data. Meanwhile, pretrained transformer models act as black-box correlation engines that are difficult to explain and sometimes behave unreliably. In this paper, we propose tackling both of these challenges via Automatic Rule Induction (ARI), a simple and general-purpose framework for the automatic discovery and integration of symbolic rules into pretrained transformer models. First, we extract weak symbolic rules from low-capacity machine learning models trained on small amounts of labeled data. Next, we use an attention mechanism to integrate these rules into high-capacity pretrained transformer models. Last, the rule-augmented system becomes part of a self-training framework to boost supervision signal on unlabeled data. These steps can be layered beneath a variety of existing weak supervision and semi-supervised NLP algorithms in order to improve performance and interpretability. Experiments across nine sequence classification and relation extraction tasks suggest that ARI can improve state-of-the-art methods with no manual effort and minimal computational overhead.
翻訳日:2022-05-19 13:04:58 公開日:2022-05-18
# starcraft 1と2の組合せ最適化における地形解析

Terrain Analysis in StarCraft 1 and 2 as Combinatorial Optimization ( http://arxiv.org/abs/2205.08683v1 )

ライセンス: Link先を確認
Florian Richoux(参考訳) リアルタイム戦略ゲームにおける地形解析は、空間的推論を可能にするために必要なステップである。 地形解析の目標は、地図のトポロジーと特性に関するデータを収集し処理し、定性的空間表現を持つことである。 starcraftゲームでは、地形解析に関する以前のすべての研究は、連結されたコンポーネント検出、ボロノイ図計算とプラニング、および領域マージに基づく鮮明な解析を提案している。 これらの手法はゲーム固有のライブラリとして実装されており、全ての地図と全ユーザーに対して同じ種類の分析しか提供できない。 本稿では,地形解析を組合せ最適化問題として考える方法を提案する。 本手法は,問題モデルにおける制約や目的関数を変化させることで,様々な種類の分析を可能にする。 また,本手法を実装し,starcraft 1とstarcraft 2の両方のマップを処理可能なライブラリtauntを提案する。 これにより、私たちのライブラリは、空間表現の異なるStarCraftボットの普遍的なツールになります。 私たちのライブラリは、スタークラフトをプレイする真の適応型AIの可能性を解き放ち、ボットの新たな波の出発点になると考えています。

Terrain analysis in Real-Time Strategy games is a necessary step to allow spacial reasoning. The goal of terrain analysis is to gather and process data about the map topology and properties to have a qualitative spatial representation. On StarCraft games, all previous works on terrain analysis propose a crisp analysis based on connected component detection, Voronoi diagram computation and pruning, and region merging. Those methods have been implemented as game-specific libraries, and they can only offer the same kind of analysis for all maps and all users. In this paper, we propose a way to consider terrain analysis as a combinatorial optimization problem. Our method allows different kinds of analysis by changing constraints or the objective function in the problem model. We also present a library, Taunt, implementing our method and able to handle both StarCraft 1 and StarCraft 2 maps. This makes our library a universal tool for StarCraft bots with different spatial representation needs. We believe our library unlocks the possibility to have real adaptive AIs playing StarCraft, and can be the starting point of a new wave of bots.
翻訳日:2022-05-19 13:04:42 公開日:2022-05-18
# 重なり関数とグルーピング関数に基づく$(o,g)$-granular variable precision fuzzy rough sets

$(O,G)$-granular variable precision fuzzy rough sets based on overlap and grouping functions ( http://arxiv.org/abs/2205.08719v1 )

ライセンス: Link先を確認
Wei Li, Bin Yang, Junsheng Qiao(参考訳) Bustinceらは重複関数と群化関数の概念を導入して以来、これらの2種類の集約関数は理論と応用の両方に大きな関心を集めている。 本稿では、まず、重なり関数とグループ化関数に基づいて、$(o,g)$-granular variable precision fuzzy rough sets ((o,g)$-gvpfrss for short)の描写を行う。 一方, 近似作用素を効率的に解くために, ファジィインジェクションと共加法を用いて, 上・下近似作用素の別の表現を与える。 さらに、建設手法の観点からすると、$(o,g)$-gvpfrs は多様なファジィ関係の下で表現される。 最後に、粒度の変動精度ファジィ粗集合 (GVPFRSs for short) に関するいくつかの結論は、いくつかの追加条件の下で$(O,G)$-GVPFRSsに拡張される。

Since Bustince et al. introduced the concepts of overlap and grouping functions, these two types of aggregation functions have attracted a lot of interest in both theory and applications. In this paper, the depiction of $(O,G)$-granular variable precision fuzzy rough sets ($(O,G)$-GVPFRSs for short) is first given based on overlap and grouping functions. Meanwhile, to work out the approximation operators efficiently, we give another expression of upper and lower approximation operators by means of fuzzy implications and co-implications. Furthermore, starting from the perspective of construction methods, $(O,G)$-GVPFRSs are represented under diverse fuzzy relations. Finally, some conclusions on the granular variable precision fuzzy rough sets (GVPFRSs for short) are extended to $(O,G)$-GVPFRSs under some additional conditions.
翻訳日:2022-05-19 13:04:24 公開日:2022-05-18
# ステレオ知識の選択的蒸留による単眼深度推定の学習

Learning Monocular Depth Estimation via Selective Distillation of Stereo Knowledge ( http://arxiv.org/abs/2205.08668v1 )

ライセンス: Link先を確認
Kyeongseob Song and Kuk-Jin Yoon(参考訳) 単眼深度推定は深層学習に基づいて広範囲に研究されてきたが、その精度と一般化能力はステレオ法よりもはるかに遅れている。 この問題に対処するため,近年の研究では,不均一マップを代用土木として蒸留することにより,単分子深度推定網を監督する研究が提案されている。 しかし, 本研究では, ステレオベースと単眼深度推定法の利点を考慮せずに, ステレオ知識を精査した。 本稿では,より信頼性の高いプロキシ管理を行うために,分散マップを選択的に蒸留することを提案する。 具体的には、まずデコーダ(MaskDecoder)を設計し、各画素のプロキシ不均一度マップと推定深度マップとを最適に選択するように訓練された2つのバイナリマスクを学習する。 その後、学習されたマスクは別のデコーダ(deepdecoder)に送られ、推定深さを強制してプロキシ格差マップのマスク領域のみから学習する。 さらに、Teacher-Studentモジュールは、SteleoNetの幾何学的知識をMonoNetに転送するように設計されている。 KITTIデータセット上での自己およびプロキシによる単分子深度推定に対して, 半教師付き手法のいくつかを超越した, 最先端の手法の有効性を検証した。

Monocular depth estimation has been extensively explored based on deep learning, yet its accuracy and generalization ability still lag far behind the stereo-based methods. To tackle this, a few recent studies have proposed to supervise the monocular depth estimation network by distilling disparity maps as proxy ground-truths. However, these studies naively distill the stereo knowledge without considering the comparative advantages of stereo-based and monocular depth estimation methods. In this paper, we propose to selectively distill the disparity maps for more reliable proxy supervision. Specifically, we first design a decoder (MaskDecoder) that learns two binary masks which are trained to choose optimally between the proxy disparity maps and the estimated depth maps for each pixel. The learned masks are then fed to another decoder (DepthDecoder) to enforce the estimated depths to learn from only the masked area in the proxy disparity maps. Additionally, a Teacher-Student module is designed to transfer the geometric knowledge of the StereoNet to the MonoNet. Extensive experiments validate our methods achieve state-of-the-art performance for self- and proxy-supervised monocular depth estimation on the KITTI dataset, even surpassing some of the semi-supervised methods.
翻訳日:2022-05-19 13:02:26 公開日:2022-05-18
# スパースmdd:2部マッチングのないエンドツーエンドマルチオブジェクト検出器のトレーニング

Sparse MDOD: Training End-to-End Multi-Object Detector without Bipartite Matching ( http://arxiv.org/abs/2205.08714v1 )

ライセンス: Link先を確認
Jaeyoung Yoo, Hojun Lee, Seunghyeon Seo, Inseop Chung, Nojun Kwak(参考訳) 最近のエンドツーエンドのマルチオブジェクト検出器は、非最大抑圧(NMS)を用いた重複境界ボックス除去などの手作りプロセスを取り除くことで、推論パイプラインを単純化している。 しかし、訓練では、検出器の出力から損失を計算するために二部マッチングが必要となる。 エンド・ツー・エンド法の指向性とは対照的に、2部マッチングは、エンド・ツー・エンド検出器の訓練を複雑でヒューリスティックで、依存させる。 本稿では,両部マッチングを伴わないエンドツーエンド多目的検出器の訓練手法を提案する。 この目的のために,混合モデルを用いた密度推定として,エンドツーエンドのマルチオブジェクト検出にアプローチする。 筆者らが提案するSparse Mixture Density Object Detector (Sparse MDOD) は,混合モデルを用いて境界箱の分布を推定する。 Sparse MDOD は正則化項,最大成分最大化(MCM)損失の最小化によって訓練され,重複予測が防止される。 トレーニング中は、二部マッチングのような追加の手順は不要であり、損失はネットワーク出力から直接計算される。 さらに、Sparse MDODは、MS-COCOの既存の検出器よりも優れています。

Recent end-to-end multi-object detectors simplify the inference pipeline by removing the hand-crafted process such as the duplicate bounding box removal using non-maximum suppression (NMS). However, in the training, they require bipartite matching to calculate the loss from the output of the detector. Contrary to the directivity of the end-to-end method, the bipartite matching makes the training of the end-to-end detector complex, heuristic, and reliant. In this paper, we aim to propose a method to train the end-to-end multi-object detector without bipartite matching. To this end, we approach end-to-end multi-object detection as a density estimation using a mixture model. Our proposed detector, called Sparse Mixture Density Object Detector (Sparse MDOD) estimates the distribution of bounding boxes using a mixture model. Sparse MDOD is trained by minimizing the negative log-likelihood and our proposed regularization term, maximum component maximization (MCM) loss that prevents duplicated predictions. During training, no additional procedure such as bipartite matching is needed, and the loss is directly computed from the network outputs. Moreover, our Sparse MDOD outperforms the existing detectors on MS-COCO, a renowned multi-object detection benchmark.
翻訳日:2022-05-19 13:02:01 公開日:2022-05-18
# randommix:複数の混合モードを持つ混合サンプルデータ拡張法

RandomMix: A mixed sample data augmentation method with multiple mixed modes ( http://arxiv.org/abs/2205.08728v1 )

ライセンス: Link先を確認
Xiaoliang Liu, Furao Shen, Jian Zhao, and Changhai Nie(参考訳) データ拡張は、ニューラルネットワークの一般化能力の向上と過剰フィッティングの防止に使用できる、非常に実用的な技術である。 近年,サンプルデータの混合化が注目され,大きな成功を収めている。 混合サンプルデータ拡張の性能を向上させるために,最近の一連の研究は,画像の高度領域の取得と解析に費やされ,画像混合を導くためにサリエンシー領域を用いている。 しかし、画像のサルエント情報を取得するには、多くの余分な計算が必要となる。 提案手法は,サリエンシ解析による性能向上と異なり,ニューラルネットワークの一般化能力と性能を向上させるために,主に混合サンプルの多様性を高める。 さらに、randommixはモデルの堅牢性を改善し、過剰な計算を必要とせず、トレーニングパイプラインへの挿入も容易である。 最後に、CIFAR-10/100、Tiny-ImageNet、ImageNet、Google Speech Commandsデータセットの実験は、RandomMixが他の最先端の混合サンプルデータ拡張方法よりも優れたパフォーマンスを達成することを示した。

Data augmentation is a very practical technique that can be used to improve the generalization ability of neural networks and prevent overfitting. Recently, mixed sample data augmentation has received a lot of attention and achieved great success. In order to enhance the performance of mixed sample data augmentation, a series of recent works are devoted to obtaining and analyzing the salient regions of the image, and using the saliency area to guide the image mixing. However, obtaining the salient information of an image requires a lot of extra calculations. Different from improving performance through saliency analysis, our proposed method RandomMix mainly increases the diversity of the mixed sample to enhance the generalization ability and performance of neural networks. Moreover, RandomMix can improve the robustness of the model, does not require too much additional calculation, and is easy to insert into the training pipeline. Finally, experiments on the CIFAR-10/100, Tiny-ImageNet, ImageNet, and Google Speech Commands datasets demonstrate that RandomMix achieves better performance than other state-of-the-art mixed sample data augmentation methods.
翻訳日:2022-05-19 13:01:39 公開日:2022-05-18
# 古代弓楽器研究のためのフォトグラム的アプローチの検証

Validation of a photogrammetric approach for the study of ancient bowed instruments ( http://arxiv.org/abs/2205.08745v1 )

ライセンス: Link先を確認
Phil\'emon Beghin, Anne-Emmanuelle Ceulemans, Paul Fisette, Fran\c{c}ois Glineur(参考訳) 古代のヴァイオリンは歴史を通じて減少してきた。 2次元スライスを用いて3次元メッシュを幾何学的に研究する,還元器と無還元器を区別する客観的フォトグラム法を提案する。 まず, 医用画像で得られた基準画像との比較により, フォトグラムメッシュの精度を検証する。 次に,光グラフメッシュからミニマの輪郭線やチャネルを自動的に抽出し,楽器間の差異をうまく強調できることを示す。

Some ancient violins have been reduced throughout their history. We propose an objective photogrammetric approach to differentiate between a reduced and an unreduced instrument, where a three-dimensional mesh is studied geometrically by examining 2D slices. First, we validate the accuracy of the photogrammetric mesh by the way of a comparison with reference images obtained with medical imaging. Then, we show how contour lines and channels of minima can be automatically extracted from the photogrammetric meshes, allowing to successfully highlight differences between instruments.
翻訳日:2022-05-19 13:01:18 公開日:2022-05-18
# 自律運転における幾何学的優先情報を用いた視覚的注意に基づく自己監督的絶対深度推定

Visual Attention-based Self-supervised Absolute Depth Estimation using Geometric Priors in Autonomous Driving ( http://arxiv.org/abs/2205.08780v1 )

ライセンス: Link先を確認
Jie Xiang, Yun Wang, Lifeng An, Haiyang Liu, Zijun Wang and Jian Liu(参考訳) 既存の単眼深度推定法は大きな進歩を遂げているが,ネットワークのモデリング能力の限界やスケールのあいまいさの問題により,単一の画像から正確な絶対深度マップを推定することは依然として困難である。 本稿では,空間的注意とチャネルの注意をすべてのステージに適用する,完全に視覚的注意に基づく奥行き(VADepth)ネットワークを提案する。 VADepthネットワークは、空間的およびチャネル的次元に沿った特徴の依存関係を長距離にわたって抽出することにより、重要な詳細を効果的に保存し、干渉特性を抑え、より正確な深さ推定のためにシーン構造をより正確に知覚することができる。 さらに,ジオメトリ・プリエントを用いて,スケール認識モデルトレーニングのためのスケール制約を形成する。 具体的には、画像の下部の長方形領域の画素に対応する接地点が取り付けられたカメラと平面との間の距離を用いて、新しいスケール認識損失を構築する。 KITTIデータセットを用いた実験結果から,本アーキテクチャは最先端の性能を実現し,提案手法は後処理なしで直接絶対深度を出力できることがわかった。 さらに, seasondepthデータセットを用いた実験では,複数の未知環境に対するモデルのロバスト性も実証した。

Although existing monocular depth estimation methods have made great progress, predicting an accurate absolute depth map from a single image is still challenging due to the limited modeling capacity of networks and the scale ambiguity issue. In this paper, we introduce a fully Visual Attention-based Depth (VADepth) network, where spatial attention and channel attention are applied to all stages. By continuously extracting the dependencies of features along the spatial and channel dimensions over a long distance, VADepth network can effectively preserve important details and suppress interfering features to better perceive the scene structure for more accurate depth estimates. In addition, we utilize geometric priors to form scale constraints for scale-aware model training. Specifically, we construct a novel scale-aware loss using the distance between the camera and a plane fitted by the ground points corresponding to the pixels of the rectangular area in the bottom middle of the image. Experimental results on the KITTI dataset show that this architecture achieves the state-of-the-art performance and our method can directly output absolute depth without post-processing. Moreover, our experiments on the SeasonDepth dataset also demonstrate the robustness of our model to multiple unseen environments.
翻訳日:2022-05-19 13:01:10 公開日:2022-05-18
# メタラーニングとトランスフォーマーに基づく関係モデリングを用いたクロスオブジェクト動作単位検出

Cross-subject Action Unit Detection with Meta Learning and Transformer-based Relation Modeling ( http://arxiv.org/abs/2205.08787v1 )

ライセンス: Link先を確認
Jiyuan Cao, Zhilei Liu, Yong Zhang(参考訳) 顔の動きから感情分析を行う上で,顔行動単位(AU)検出は重要な課題である。 異なる被験者の明らかな相違は、しばしばAUによる変化を誤解させ、結果として不正確な結果をもたらす。 しかし,既存の深層学習に基づくAU検出手法の多くは,異なる被験者の身元情報を考慮しなかった。 本稿では,同一性に起因した差異を排除するために,メタラーニングに基づくクロスサブジェクトau検出モデルを提案する。 さらに、複数のAUの潜伏関係を学習するために、トランスフォーマーに基づく関係学習モジュールを導入する。 具体的には,2つのサブタスクから構成される。 最初のサブタスクはメタラーニングに基づくAUローカルリージョン表現学習(MARL)であり、複数の被験者の共有情報を組み込んだローカルAUリージョンの識別表現を学習し、同一性に起因する差異を排除する。 第2のサブタスクは、第1のサブタスクのAUの局所領域表現を入力として使用した後、トランスフォーマーエンコーダアーキテクチャに基づいた関係学習を加えてAU関係をキャプチャする。 トレーニングプロセス全体がカスケードされます。 アブレーション研究と可視化により,我々のmarlは同一性に起因する差異を排除できることが示された。 その結果、bp4dとdisfaの2つのパブリックデータセットにおいて、この手法は最先端技術よりも優れており、f1スコアがそれぞれ1.3%と1.4%向上していることが分かった。

Facial Action Unit (AU) detection is a crucial task for emotion analysis from facial movements. The apparent differences of different subjects sometimes mislead changes brought by AUs, resulting in inaccurate results. However, most of the existing AU detection methods based on deep learning didn't consider the identity information of different subjects. The paper proposes a meta-learning-based cross-subject AU detection model to eliminate the identity-caused differences. Besides, a transformer-based relation learning module is introduced to learn the latent relations of multiple AUs. To be specific, our proposed work is composed of two sub-tasks. The first sub-task is meta-learning-based AU local region representation learning, called MARL, which learns discriminative representation of local AU regions that incorporates the shared information of multiple subjects and eliminates identity-caused differences. The second sub-task uses the local region representation of AU of the first sub-task as input, then adds relationship learning based on the transformer encoder architecture to capture AU relationships. The entire training process is cascaded. Ablation study and visualization show that our MARL can eliminate identity-caused differences, thus obtaining a robust and generalized AU discriminative embedding representation. Our results prove that on the two public datasets BP4D and DISFA, our method is superior to the state-of-the-art technology, and the F1 score is improved by 1.3% and 1.4%, respectively.
翻訳日:2022-05-19 13:00:50 公開日:2022-05-18
# PhoCaL:光干渉型オブジェクトを用いたカテゴリーレベルオブジェクト位置推定のためのマルチモーダルデータセット

PhoCaL: A Multi-Modal Dataset for Category-Level Object Pose Estimation with Photometrically Challenging Objects ( http://arxiv.org/abs/2205.08811v1 )

ライセンス: Link先を確認
Pengyuan Wang, HyunJun Jung, Yitong Li, Siyuan Shen, Rahul Parthasarathy Srikanth, Lorenzo Garattoni, Sven Meier, Nassir Navab, Benjamin Busam(参考訳) オブジェクトのポーズ推定はロボットアプリケーションや拡張現実にとって不可欠である。 インスタンスレベルの6Dオブジェクトのポーズ推定方法以外にも、カテゴリレベルのポーズと形状の推定は有望なトレンドとなっている。 そのため、適切に設計されたデータセットによって新しい研究分野をサポートする必要がある。 本稿では,PhoCaL と呼ばれる写真に挑戦するオブジェクトを用いたカテゴリレベルのオブジェクトポーズ推定のためのマルチモーダルデータセットを提案する。 phocalは、高反射率、透明、対称のオブジェクトを含む8つのカテゴリの家庭用オブジェクトの60の高品質な3dモデルで構成されている。 我々は,ロボット支援型マルチモーダル(RGB,深さ,偏光)データ取得およびアノテーションプロセスを開発した。 これにより、不透明なテクスチャ、光沢のある透明な物体、動きのぼやけがなく、完璧なカメラ同期のためのポーズのサブミリメートル精度が保証される。 我々のデータセットのベンチマークを作成するために,PhoCaLの挑戦的なシーンにおいて,最先端のRGB-DとモノクルのRGB手法を評価した。

Object pose estimation is crucial for robotic applications and augmented reality. Beyond instance level 6D object pose estimation methods, estimating category-level pose and shape has become a promising trend. As such, a new research field needs to be supported by well-designed datasets. To provide a benchmark with high-quality ground truth annotations to the community, we introduce a multimodal dataset for category-level object pose estimation with photometrically challenging objects termed PhoCaL. PhoCaL comprises 60 high quality 3D models of household objects over 8 categories including highly reflective, transparent and symmetric objects. We developed a novel robot-supported multi-modal (RGB, depth, polarisation) data acquisition and annotation process. It ensures sub-millimeter accuracy of the pose for opaque textured, shiny and transparent objects, no motion blur and perfect camera synchronisation. To set a benchmark for our dataset, state-of-the-art RGB-D and monocular RGB methods are evaluated on the challenging scenes of PhoCaL.
翻訳日:2022-05-19 13:00:26 公開日:2022-05-18
# (参考訳) すべてを統括する一つの説明 --アンサンブル一貫した説明

One Explanation to Rule them All -- Ensemble Consistent Explanations ( http://arxiv.org/abs/2205.08974v1 )

ライセンス: CC BY 4.0
Andr\'e Artelt, Stelios Vrachimis, Demetrios Eliades, Marios Polycarpou, Barbara Hammer(参考訳) 透明性は、現代のAIベースの意思決定システムの主要な要件である。 透明性を達成するための一般的なアプローチは、説明によるものだ。 単一意思決定システムでは様々な異なる説明が提案されている。 実際には、特に複雑なシステムにおいて、単一の決定のみの代わりに使用される決定の集合(すなわちアンサンブル)を持つことが多い。 Unfortunately, explanation methods for single decision making systems are not easily applicable to ensembles -- i.e. they would yield an ensemble of individual explanations which are not necessarily consistent, hence less useful and more difficult to understand than a single consistent explanation of all observed phenomena. We propose a novel concept for consistently explaining an ensemble of decisions locally with a single explanation -- we introduce a formal concept, as well as a specific implementation using counterfactual explanations.

Transparency is a major requirement of modern AI based decision making systems deployed in real world. A popular approach for achieving transparency is by means of explanations. A wide variety of different explanations have been proposed for single decision making systems. In practice it is often the case to have a set (i.e. ensemble) of decisions that are used instead of a single decision only, in particular in complex systems. Unfortunately, explanation methods for single decision making systems are not easily applicable to ensembles -- i.e. they would yield an ensemble of individual explanations which are not necessarily consistent, hence less useful and more difficult to understand than a single consistent explanation of all observed phenomena. We propose a novel concept for consistently explaining an ensemble of decisions locally with a single explanation -- we introduce a formal concept, as well as a specific implementation using counterfactual explanations.
翻訳日:2022-05-19 12:58:24 公開日:2022-05-18
# 長期連続予測のための周波数改善レジェンダメモリモデル

FiLM: Frequency improved Legendre Memory Model for Long-term Time Series Forecasting ( http://arxiv.org/abs/2205.08897v1 )

ライセンス: Link先を確認
Tian Zhou, Ziqing Ma, Xue wang, Qingsong Wen, Liang Sun, Tao Yao, Rong Jin(参考訳) 近年の研究では、長期連続予測のためのディープラーニングモデル(RNNやTransformerなど)の有望な性能を示している。 これらの研究は主に、長期予測のために歴史的情報を効果的に組み合わせたディープモデルの設計に焦点を当てている。 しかしながら、長期予測のために歴史的情報を効果的に表現する方法については、十分な注意が払われておらず、強力なディープラーニングモデルを活用する能力は限られている。 時系列表現の主な課題は、歴史的情報を正確に保存し、過去のノイズ信号の影響を減らすことでジレンマを処理する方法である。 この目的のために、略して \textbf{f}requency \textbf{i}mproved \textbf{l}egendre \textbf{m}emory model、または {\bf film} を設計する。 実験により,多変量および単変量長期予測において,提案したFiLMは有意なマージン(\textbf{19.2\%}, \textbf{22.6\%})で最先端モデルの精度を向上することが示された。 さらに、低ランク近似によって導入された次元減少は、計算効率を劇的に向上させる。 また,本研究で開発された表現モジュールを汎用的なプラグインとして使用することにより,長期予測のためのディープラーニングモジュールの性能向上を実証する。 コードも間もなくリリースされる

Recent studies have shown the promising performance of deep learning models (e.g., RNN and Transformer) for long-term time series forecasting. These studies mostly focus on designing deep models to effectively combine historical information for long-term forecasting. However, the question of how to effectively represent historical information for long-term forecasting has not received enough attention, limiting our capacity to exploit powerful deep learning models. The main challenge in time series representation is how to handle the dilemma between accurately preserving historical information and reducing the impact of noisy signals in the past. To this end, we design a \textbf{F}requency \textbf{i}mproved \textbf{L}egendre \textbf{M}emory model, or {\bf FiLM} for short: it introduces Legendre Polynomial projections to preserve historical information accurately and Fourier projections plus low-rank approximation to remove noisy signals. Our empirical studies show that the proposed FiLM improves the accuracy of state-of-the-art models by a significant margin (\textbf{19.2\%}, \textbf{22.6\%}) in multivariate and univariate long-term forecasting, respectively. In addition, dimensionality reduction introduced by low-rank approximation leads to a dramatic improvement in computational efficiency. We also demonstrate that the representation module developed in this work can be used as a general plug-in to improve the performance of most deep learning modules for long-term forecasting. Code will be released soon
翻訳日:2022-05-19 12:49:58 公開日:2022-05-18
# Maslowの破滅的な予測のハマー:ノードの再使用対ノードアクティベーション

Maslow's Hammer for Catastrophic Forgetting: Node Re-Use vs Node Activation ( http://arxiv.org/abs/2205.09029v1 )

ライセンス: Link先を確認
Sebastian Lee, Stefano Sarao Mannelli, Claudia Clopath, Sebastian Goldt, Andrew Saxe(参考訳) 継続学習 — 古いタスクのパフォーマンスを維持しながら、シークエンスで新しいタスクを学習する — は、人工知能ニューラルネットワークでは特に難しい。 驚くべきことに、学習したタスク間の相違によって忘れられる量は増加しないが、中間的な類似性体制では最悪のものと思われる。 本稿では,合成教師・教師の枠組みと実データ設定の両方を理論的に解析し,maslow's hammer hypothesis と命名する現象を説明する。 分析の結果、ノードのアクティベーションとノードの再使用との間のトレードオフの存在が明らかとなり、中間的な方法では最悪の事態に陥ります。 この理解を用いて、このトレードオフの観点から、破滅的な干渉に対する一般的なアルゴリズムの介入を再解釈し、それらが最も効果的である体制を特定する。

Continual learning - learning new tasks in sequence while maintaining performance on old tasks - remains particularly challenging for artificial neural networks. Surprisingly, the amount of forgetting does not increase with the dissimilarity between the learned tasks, but appears to be worst in an intermediate similarity regime. In this paper we theoretically analyse both a synthetic teacher-student framework and a real data setup to provide an explanation of this phenomenon that we name Maslow's hammer hypothesis. Our analysis reveals the presence of a trade-off between node activation and node re-use that results in worst forgetting in the intermediate regime. Using this understanding we reinterpret popular algorithmic interventions for catastrophic interference in terms of this trade-off, and identify the regimes in which they are most effective.
翻訳日:2022-05-19 12:49:29 公開日:2022-05-18
# 浅部単変量ReLUネットワークにおける線形領域の有効数について:収束保証と命令バイアス

On the Effective Number of Linear Regions in Shallow Univariate ReLU Networks: Convergence Guarantees and Implicit Bias ( http://arxiv.org/abs/2205.09072v1 )

ライセンス: Link先を確認
Itay Safran, Gal Vardi, Jason D. Lee(参考訳) 単変量ReLUニューラルネットワークにおける勾配流(GF)の動的および暗黙的偏りを2値分類条件で検討した。 ラベルが$r$のニューロンを持つ標的ネットワークの符号で決定され、ネットワークの初期化とデータセットのサンプリングの確率が高い場合、GFは完全なトレーニング精度を達成し、少なくとも$\mathcal{O}(r)$線形領域を持つネットワークに(適切に定義された)方向収束し、一般化境界を示唆する。 我々の結果は、標本サイズとは独立に、幅が$\tilde{\mathcal{O}}(r)$である、穏やかなオーバーパラメータ化をすでに維持できる。

We study the dynamics and implicit bias of gradient flow (GF) on univariate ReLU neural networks with a single hidden layer in a binary classification setting. We show that when the labels are determined by the sign of a target network with $r$ neurons, with high probability over the initialization of the network and the sampling of the dataset, GF converges in direction (suitably defined) to a network achieving perfect training accuracy and having at most $\mathcal{O}(r)$ linear regions, implying a generalization bound. Our result may already hold for mild over-parameterization, where the width is $\tilde{\mathcal{O}}(r)$ and independent of the sample size.
翻訳日:2022-05-19 12:49:14 公開日:2022-05-18
# Conformalized Online Learning: ホールドアウトセットのないオンライン校正

Conformalized Online Learning: Online Calibration Without a Holdout Set ( http://arxiv.org/abs/2205.09095v1 )

ライセンス: Link先を確認
Shai Feldman, Stephen Bates, Yaniv Romano(参考訳) 私たちは、オンライン環境で有効なカバレッジ保証を備えた不確実性セットを構築するためのフレームワークを開発します。 提案する手法は,任意のオンライン学習アルゴリズムと統合可能であるため,実装の労力と計算コストが最小限である。 既存の代替手段(共形推論にもとづくもの)に対する私たちのメソッドの重要な利点は、データをトレーニングとホールドアウトのキャリブレーションセットに分割する必要がないことです。 これにより、校正不確実性セットを構築するための最新の観測を利用して、予測モデルを完全にオンラインに適合させることができる。 そのため、既存の技術とは対照的である。 i) 構築した集合は、分布の新たな変化に迅速に適応でき、 (ii)この手順では、各時間ステップでモデルを再フィッティングする必要がなくなる。 合成および実世界のベンチマークデータセットを用いて,提案手法の有効性と提案手法の性能向上を実証する。 提案手法のさらなる柔軟性を示すために,従来の逐次キャリブレーション法では非現実的な計算やメモリ要求のために処理できない多重出力回帰問題に対して,有効間隔を構築する方法を示す。

We develop a framework for constructing uncertainty sets with a valid coverage guarantee in an online setting, in which the underlying data distribution can drastically -- and even adversarially -- shift over time. The technique we propose is highly flexible as it can be integrated with any online learning algorithm, requiring minimal implementation effort and computational cost. A key advantage of our method over existing alternatives -- which also build on conformal inference -- is that we do not need to split the data into training and holdout calibration sets. This allows us to fit the predictive model in a fully online manner, utilizing the most recent observation for constructing calibrated uncertainty sets. Consequently, and in contrast with existing techniques, (i) the sets we build can quickly adapt to new changes in the distribution; and (ii) our procedure does not require refitting the model at each time step. Using synthetic and real-world benchmark data sets, we demonstrate the validity of our theory and the improved performance of our proposal over existing techniques. To demonstrate the greater flexibility of the proposed method, we show how to construct valid intervals for a multiple-output regression problem that previous sequential calibration methods cannot handle due to impractical computational and memory requirements.
翻訳日:2022-05-19 12:48:58 公開日:2022-05-18
# ニューラルネットワークプルーニングによるハイパーパラメータ最適化

Hyperparameter Optimization with Neural Network Pruning ( http://arxiv.org/abs/2205.08695v1 )

ライセンス: Link先を確認
Kangil Lee, Junho Yim(参考訳) ディープラーニングモデルはハイパーパラメータに強く依存するため、たとえ長い時間を要するとしても、ディープラーニングモデルベースのアプリケーション開発にはハイパーパラメータ最適化が不可欠である。 ディープラーニングモデルを用いたサービス開発が徐々に競争力が高まっているため、多くの開発者は高速なハイパーパラメータ最適化アルゴリズムを強く要求している。 ハイパーパラメータ最適化アルゴリズムの高速化を実現するために、研究者はハイパーパラメータ最適化アルゴリズムの高速化に注力している。 しかし、ディープラーニングモデル自体の計算コストが高いため、ハイパーパラメータ最適化の膨大な時間消費は、深く処理されていない。 ベイズ最適化におけるサロゲートモデルの使用と同様に、この問題を解決するためには、ハイパーパラメータ最適化に使用するニューラルネットワーク(n_b)のプロキシモデルを検討する必要がある。 ニューラルネットワークプルーニングの主目的,すなわち高い計算コスト削減と性能維持に着想を得て,ニューラルネットワークプルーニングによって得られるニューラルネットワーク(N_P)がN_Bの優れたプロキシモデルになると仮定した。 CIFAR10, CFIAR100, TinyImageNetデータセットと3つの一般用ニューラルネットワークと3つの代表的ハイパーパラメータ最適化手法を用いて, 広範に実験を行った。 これらの実験により,N_Pが高速ハイパーパラメータ最適化のためのN_Bの優れたプロキシモデルであることが確認された。 提案されたハイパーパラメータ最適化フレームワークは、最大37%の時間を削減できる。

Since the deep learning model is highly dependent on hyperparameters, hyperparameter optimization is essential in developing deep learning model-based applications, even if it takes a long time. As service development using deep learning models has gradually become competitive, many developers highly demand rapid hyperparameter optimization algorithms. In order to keep pace with the needs of faster hyperparameter optimization algorithms, researchers are focusing on improving the speed of hyperparameter optimization algorithm. However, the huge time consumption of hyperparameter optimization due to the high computational cost of the deep learning model itself has not been dealt with in-depth. Like using surrogate model in Bayesian optimization, to solve this problem, it is necessary to consider proxy model for a neural network (N_B) to be used for hyperparameter optimization. Inspired by the main goal of neural network pruning, i.e., high computational cost reduction and performance preservation, we presumed that the neural network (N_P) obtained through neural network pruning would be a good proxy model of N_B. In order to verify our idea, we performed extensive experiments by using CIFAR10, CFIAR100, and TinyImageNet datasets and three generally-used neural networks and three representative hyperparameter optmization methods. Through these experiments, we verified that N_P can be a good proxy model of N_B for rapid hyperparameter optimization. The proposed hyperparameter optimization framework can reduce the amount of time up to 37%.
翻訳日:2022-05-19 12:48:38 公開日:2022-05-18
# 確率論的混合による複数画像補完

Pluralistic Image Completion with Probabilistic Mixture-of-Experts ( http://arxiv.org/abs/2205.09086v1 )

ライセンス: Link先を確認
Xiaobo Xia, Wenhao Yang, Jie Ren, Yewen Li, Yibing Zhan, Bo Han, Tongliang Liu(参考訳) 複数の画像補完は、視覚的に現実的で多様な結果を生成することに焦点を当てている。 以前の方法は、このタスクの実証的な成功を享受する。 しかし、それらの多元像完備化の制約は2つの側面から十分に解釈可能で満足できないと論じられている。 まず、視覚現実に対する制約は、画像補完の目的や冗長性に弱く相関することができる。 第二に、多様性の制約はタスクに依存しないように設計されているため、制約はうまく機能しない。 本稿では,この問題に対処するため,エンドツーエンドの確率的手法を提案する。 具体的には、画像補完における複雑な相互作用を表す統一確率グラフモデルを導入する。 画像補完の手順全体を数学的にいくつかのサブプロデューサに分割し、制約の効率的な適用を支援する。 相互作用がガウス混合モデル(gmm)によって確立される多元的結果に直接関連するサブ手続きを特定する。 GMMの固有のパラメータはタスク関連であり、トレーニング中に適応的に最適化され、プリミティブの数は、結果の多様性を便利に制御できる。 本手法の有効性を正式に確立し,包括的実験により実証する。

Pluralistic image completion focuses on generating both visually realistic and diverse results for image completion. Prior methods enjoy the empirical successes of this task. However, their used constraints for pluralistic image completion are argued to be not well interpretable and unsatisfactory from two aspects. First, the constraints for visual reality can be weakly correlated to the objective of image completion or even redundant. Second, the constraints for diversity are designed to be task-agnostic, which causes the constraints to not work well. In this paper, to address the issues, we propose an end-to-end probabilistic method. Specifically, we introduce a unified probabilistic graph model that represents the complex interactions in image completion. The entire procedure of image completion is then mathematically divided into several sub-procedures, which helps efficient enforcement of constraints. The sub-procedure directly related to pluralistic results is identified, where the interaction is established by a Gaussian mixture model (GMM). The inherent parameters of GMM are task-related, which are optimized adaptively during training, while the number of its primitives can control the diversity of results conveniently. We formally establish the effectiveness of our method and demonstrate it with comprehensive experiments.
翻訳日:2022-05-19 12:48:14 公開日:2022-05-18
# 時空間学習者としてのマスケオートエンコーダ

Masked Autoencoders As Spatiotemporal Learners ( http://arxiv.org/abs/2205.09113v1 )

ライセンス: Link先を確認
Christoph Feichtenhofer, Haoqi Fan, Yanghao Li, Kaiming He(参考訳) 本稿では,ビデオからの時空間表現学習のためのMasked Autoencoders(MAE)の概念的簡易拡張について検討する。 ビデオの時空パッチをランダムにマスクし、オートエンコーダを学習してピクセルに再構成します。 興味深いことに、我々のMAE法は、(パッチや位置埋め込みを除いて)時空にほとんど帰納バイアスのない強い表現を学習でき、時空に依存しないランダムマスキングが最善であることを示す。 最適なマスキング比は90%(画像上では75%)であり、この比はデータの冗長性に関連しているという仮説を裏付けるものである。 高いマスキング比は、例えば、壁時計時間に4倍以上のスピードアップをもたらす。 我々はバニラビジョントランスフォーマを用いたいくつかの挑戦的ビデオデータセットにおける競合結果について報告する。 我々はmaeが教師付き事前訓練を大きなマージンで上回ることを観察する。 さらに、実世界の未計算Instagramデータのトレーニング結果を奨励する。 本研究は,マスク付き自動符号化(BERT, MAEなど)の一般的な枠組みが,最小限のドメイン知識で表現学習を行うための統一手法であることを示す。

This paper studies a conceptually simple extension of Masked Autoencoders (MAE) to spatiotemporal representation learning from videos. We randomly mask out spacetime patches in videos and learn an autoencoder to reconstruct them in pixels. Interestingly, we show that our MAE method can learn strong representations with almost no inductive bias on spacetime (only except for patch and positional embeddings), and spacetime-agnostic random masking performs the best. We observe that the optimal masking ratio is as high as 90% (vs. 75% on images), supporting the hypothesis that this ratio is related to information redundancy of the data. A high masking ratio leads to a large speedup, e.g., > 4x in wall-clock time or even more. We report competitive results on several challenging video datasets using vanilla Vision Transformers. We observe that MAE can outperform supervised pre-training by large margins. We further report encouraging results of training on real-world, uncurated Instagram data. Our study suggests that the general framework of masked autoencoding (BERT, MAE, etc.) can be a unified methodology for representation learning with minimal domain knowledge.
翻訳日:2022-05-19 12:47:57 公開日:2022-05-18
# 多目的および多元情報ベイズ最適化によるフェアおよびグリーンハイパーパラメータ最適化

Fair and Green Hyperparameter Optimization via Multi-objective and Multiple Information Source Bayesian Optimization ( http://arxiv.org/abs/2205.08835v1 )

ライセンス: Link先を確認
Antonio Candelieri, Andrea Ponti, Francesco Archetti(参考訳) 最適な機械学習モデルを探す際の正確性にのみ焦点を合わせれば、データに含まれるバイアスを増幅し、不公平な予測と意思決定支援につながるというコンセンサスがある。 近年,精度と公平性が等しくパレート効率の良いトレードオフを提供する機械学習モデルを探索するために,多目的ハイパーパラメータ最適化が提案されている。 これらのアプローチは、フェアネスを意識した機械学習アルゴリズム -- 公正性のしきい値に制限された精度を最適化する -- よりも汎用性が高いことが証明された。 本稿では,多目的および複数情報ソースベイズ最適化に基づくFanG-HPO(Far and Green Hyperparameter Optimization, HPO)アプローチを提案する。 FanG-HPOは、大規模なデータセット(別名情報ソース)のサブセットを使用して、精度と公正性の双方の安価な近似と、パレート効率の良い機械学習モデルを効率的に識別するための多目的ベイズ最適化を得る。 実験では、2つのベンチマーク(フェアネス)データセットと2つの機械学習アルゴリズム(XGBoostとMulti-Layer Perceptron)を検討し、ベイズ最適化のための最先端プラットフォームであるBoTorchのマルチオブジェクトシングルソース最適化アルゴリズムを通じて、フェアネス対応機械学習アルゴリズムとハイパーパラメータ最適化の両方に対してFanG-HPOを評価する。

There is a consensus that focusing only on accuracy in searching for optimal machine learning models amplifies biases contained in the data, leading to unfair predictions and decision supports. Recently, multi-objective hyperparameter optimization has been proposed to search for machine learning models which offer equally Pareto-efficient trade-offs between accuracy and fairness. Although these approaches proved to be more versatile than fairness-aware machine learning algorithms -- which optimize accuracy constrained to some threshold on fairness -- they could drastically increase the energy consumption in the case of large datasets. In this paper we propose FanG-HPO, a Fair and Green Hyperparameter Optimization (HPO) approach based on both multi-objective and multiple information source Bayesian optimization. FanG-HPO uses subsets of the large dataset (aka information sources) to obtain cheap approximations of both accuracy and fairness, and multi-objective Bayesian Optimization to efficiently identify Pareto-efficient machine learning models. Experiments consider two benchmark (fairness) datasets and two machine learning algorithms (XGBoost and Multi-Layer Perceptron), and provide an assessment of FanG-HPO against both fairness-aware machine learning algorithms and hyperparameter optimization via a multi-objective single-source optimization algorithm in BoTorch, a state-of-the-art platform for Bayesian Optimization.
翻訳日:2022-05-19 12:46:40 公開日:2022-05-18
# カーネル化されたテイラー図

The Kernelized Taylor Diagram ( http://arxiv.org/abs/2205.08864v1 )

ライセンス: Link先を確認
Kristoffer Wickstr{\o}m and J. Emmanuel Johnson and Sigurd L{\o}kse and Gustau Camps-Valls and Karl {\O}yvind Mikalsen and Michael Kampffmeyer and Robert Jenssen(参考訳) 本稿では,データ集団間の類似性を可視化するグラフィカルフレームワークであるカーネル化Taylor図を提案する。 カーネル化されたテイラー図は、人口間の類似性を視覚化するために広く使われているテイラー図に基づいている。 しかし、テイラー図には非線形関係を捉えない、外れ値に対する感度などいくつかの制限がある。 このような制限に対処するために,カーネル化されたtaylorダイアグラムを提案する。 提案したカーネル化されたTaylor図は、データ分布の最小仮定で、集団間の類似性を可視化することができる。 カーネル化されたテイラー図は、最大平均誤差と、カーネルの平均誤差を単一の図形に埋め込んだもの、つまり、私たちの知る限りでは、この研究以前には考案されていなかった構造に関係している。 カーネル化されたtaylorダイアグラムは、データの可視化に有用なツールであると考えています。

This paper presents the kernelized Taylor diagram, a graphical framework for visualizing similarities between data populations. The kernelized Taylor diagram builds on the widely used Taylor diagram, which is used to visualize similarities between populations. However, the Taylor diagram has several limitations such as not capturing non-linear relationships and sensitivity to outliers. To address such limitations, we propose the kernelized Taylor diagram. Our proposed kernelized Taylor diagram is capable of visualizing similarities between populations with minimal assumptions of the data distributions. The kernelized Taylor diagram relates the maximum mean discrepancy and the kernel mean embedding in a single diagram, a construction that, to the best of our knowledge, have not been devised prior to this work. We believe that the kernelized Taylor diagram can be a valuable tool in data visualization.
翻訳日:2022-05-19 12:46:13 公開日:2022-05-18
# 非定常スパース性発見カーネルによる大規模データセットの厳密なガウス過程

Exact Gaussian Processes for Massive Datasets via Non-Stationary Sparsity-Discovering Kernels ( http://arxiv.org/abs/2205.09070v1 )

ライセンス: Link先を確認
Marcus M. Noack, Harinarayan Krishnan, Mark D. Risser, Kristofer G. Reyes(参考訳) ガウス過程(英: Gaussian Process、GP)は、科学と工学の応用における確率関数近似の卓越した数学的枠組みである。 この成功はGPの分析的トラクタビリティ、ロバスト性、非パラメトリック構造、不確実な定量化の自然な包含に起因する。 残念ながら、計算では$O(N^3)$、ストレージでは$O(N^2)$であるので、大規模なデータセットでは正確なGPの使用は違法に高価である。 この問題に対処する既存の方法はすべて、ある種の近似(通常、データセットのサブセットを考慮したり、共分散行列をよく構造化されスパース化する代表的擬似点を見つける)を用いる。 これらの近似手法は関数近似の不正確性をもたらし、しばしば表現力のあるカーネルの設計におけるユーザの柔軟性を制限する。 データポイントの幾何や構造によってスパースを誘導するのではなく、カーネルがスパース構造を誘導する代わりに、自然に発生するスパースを利用できるようにすることを提案する。 この論文の前提は、GPは最もネイティブな形で、しばしば自然に疎外されるが、一般的に使用されるカーネルは、この空間を利用できないことである。 中心となる概念である完全かつ同時にスパースgpsはカーネル定義に依存しており、非ゼロだけでなくゼロ共分散も学習しエンコードするのに十分な柔軟性を提供している。 この超フレキシブルでコンパクトで非定常なカーネルの原理は、HPCと制約付き最適化と組み合わせることで、500万のデータポイントを超えて正確にGPをスケールすることができる。

A Gaussian Process (GP) is a prominent mathematical framework for stochastic function approximation in science and engineering applications. This success is largely attributed to the GP's analytical tractability, robustness, non-parametric structure, and natural inclusion of uncertainty quantification. Unfortunately, the use of exact GPs is prohibitively expensive for large datasets due to their unfavorable numerical complexity of $O(N^3)$ in computation and $O(N^2)$ in storage. All existing methods addressing this issue utilize some form of approximation -- usually considering subsets of the full dataset or finding representative pseudo-points that render the covariance matrix well-structured and sparse. These approximate methods can lead to inaccuracies in function approximations and often limit the user's flexibility in designing expressive kernels. Instead of inducing sparsity via data-point geometry and structure, we propose to take advantage of naturally-occurring sparsity by allowing the kernel to discover -- instead of induce -- sparse structure. The premise of this paper is that GPs, in their most native form, are often naturally sparse, but commonly-used kernels do not allow us to exploit this sparsity. The core concept of exact, and at the same time sparse GPs relies on kernel definitions that provide enough flexibility to learn and encode not only non-zero but also zero covariances. This principle of ultra-flexible, compactly-supported, and non-stationary kernels, combined with HPC and constrained optimization, lets us scale exact GPs well beyond 5 million data points.
翻訳日:2022-05-19 12:43:14 公開日:2022-05-18
# 高速ノイズローバスト単画素イメージングのための深絞り直交基底パターン

Deep-learned orthogonal basis patterns for fast, noise-robust single-pixel imaging ( http://arxiv.org/abs/2205.08736v1 )

ライセンス: Link先を確認
Ritz Ann Aguilar, Damian Dailisan(参考訳) SPI(Single-Pixel Imaging)は、従来のカメラの概念を超越した斬新な手法であるが、リアルタイムアプリケーションでは計算コストが高く、遅い。 深層学習は、SPI再構成問題を解決する代替手法として提案されているが、SPIに使用する場合のパフォーマンスと生成ベースパターンの詳細な分析は限られている。 最大6.25%の圧縮比を持つ64x64画素画像に対して,SPIのための改良された深部畳み込みオートエンコーダネットワーク(DCAN)を提案する。 これらの正規化器でdcanを訓練することで、バイナリまたは非バイナリ、直交または非orthogonalパターンの組み合わせを持つ複数の測定ベースを学習することができる。 従来のspi再構成アルゴリズム(全変動最小化やフーリエ変換など)と比較して,復元品質,パターンの直交性,頑健性を比較した。 当社のDCANモデルは、リアルタイムイメージングのために十分な再現時間(フレームあたり約3ms)を保ちながら、ノイズに対して堅牢であるように訓練することができる。

Single-pixel imaging (SPI) is a novel, unconventional method that goes beyond the notion of traditional cameras but can be computationally expensive and slow for real-time applications. Deep learning has been proposed as an alternative approach for solving the SPI reconstruction problem, but a detailed analysis of its performance and generated basis patterns when used for SPI is limited. We present a modified deep convolutional autoencoder network (DCAN) for SPI on 64x64 pixel images with up to 6.25% compression ratio and apply binary and orthogonality regularizers during training. Training a DCAN with these regularizers allows it to learn multiple measurement bases that have combinations of binary or non-binary, and orthogonal or non-orthogonal patterns. We compare the reconstruction quality, orthogonality of the patterns, and robustness to noise of the resulting DCAN models to traditional SPI reconstruction algorithms (such as Total Variation minimization and Fourier Transform). Our DCAN models can be trained to be robust to noise while still having fast enough reconstruction times (~3 ms per frame) to be viable for real-time imaging.
翻訳日:2022-05-19 12:42:46 公開日:2022-05-18
# Hebbian Learning を用いたスカースデータを用いたCBIRの深部特徴

Deep Features for CBIR with Scarce Data using Hebbian Learning ( http://arxiv.org/abs/2205.08935v1 )

ライセンス: Link先を確認
Gabriele Lagani, Davide Bacciu, Claudio Gallicchio, Fabrizio Falchi, Claudio Gennaro, Giuseppe Amato(参考訳) Deep Neural Networks (DNN) から抽出された特徴は、CBIR (Content Based Image Retrieval) の文脈で非常に有効であることが証明されている。 近年の研究では、生物学的にインスパイアされた‘textit{Hebbian}学習アルゴリズムがDNNトレーニングの可能性を示している。 本研究では,CBIRタスクの特徴抽出器の開発において,そのようなアルゴリズムの性能について検討する。 具体的には、教師なし事前学習段階を画像データセット上でヘビアン学習を用いて実行し、第2に、教師付き確率勾配 Descent (SGD) トレーニングを用いてネットワークを微調整する。 教師なし事前学習段階において,非線形 Hebbian principal Component Analysis (HPCA) 学習規則を検討する。 教師あり微調整の段階では、ラベル付きサンプルの量はデータセット全体のほんの一部に過ぎないというサンプル効率のシナリオを想定する。 CIFAR10 と CIFAR100 データセットを用いて行った実験分析により,ラベル付きサンプルが少ない場合,Hebbian のアプローチは,様々な代替手法と比較して,関連する改善をもたらすことが示された。

Features extracted from Deep Neural Networks (DNNs) have proven to be very effective in the context of Content Based Image Retrieval (CBIR). In recent work, biologically inspired \textit{Hebbian} learning algorithms have shown promises for DNN training. In this contribution, we study the performance of such algorithms in the development of feature extractors for CBIR tasks. Specifically, we consider a semi-supervised learning strategy in two steps: first, an unsupervised pre-training stage is performed using Hebbian learning on the image dataset; second, the network is fine-tuned using supervised Stochastic Gradient Descent (SGD) training. For the unsupervised pre-training stage, we explore the nonlinear Hebbian Principal Component Analysis (HPCA) learning rule. For the supervised fine-tuning stage, we assume sample efficiency scenarios, in which the amount of labeled samples is just a small fraction of the whole dataset. Our experimental analysis, conducted on the CIFAR10 and CIFAR100 datasets shows that, when few labeled samples are available, our Hebbian approach provides relevant improvements compared to various alternative methods.
翻訳日:2022-05-19 12:42:22 公開日:2022-05-18
# 分散クランプ前処理による機械学習モデルの攻撃空間の制約

Constraining the Attack Space of Machine Learning Models with Distribution Clamping Preprocessing ( http://arxiv.org/abs/2205.08989v1 )

ライセンス: Link先を確認
Ryan Feng, Somesh Jha, Atul Prakash(参考訳) 前処理と外れ値検出技術はいずれもニューラルネットワークに適用され、さまざまな成功度で堅牢性を高めている。 本稿では,理想的なプリプロセッサ関数を任意の入力を受け取り,最も近い入出力に設定する関数として定式化する。 言い換えれば、任意の異常画素を検出して、新しい入力が分散しているようにセットする。 次に、パッチアタックの文脈でこの問題に対する緩和された解決策を説明します。 具体的には、分布外領域を指定するパッチアタックの制約をモデル化できることを実証する。 これらの制約により、入力の事前処理が成功し、CARLAオブジェクト検出の堅牢性が向上する。

Preprocessing and outlier detection techniques have both been applied to neural networks to increase robustness with varying degrees of success. In this paper, we formalize the ideal preprocessor function as one that would take any input and set it to the nearest in-distribution input. In other words, we detect any anomalous pixels and set them such that the new input is in-distribution. We then illustrate a relaxed solution to this problem in the context of patch attacks. Specifically, we demonstrate that we can model constraints on the patch attack that specify regions as out of distribution. With these constraints, we are able to preprocess inputs successfully, increasing robustness on CARLA object detection.
翻訳日:2022-05-19 12:42:02 公開日:2022-05-18
# 低音源シンハラ音声翻訳における語彙外問題へのデータ拡張

Data Augmentation to Address Out-of-Vocabulary Problem in Low-Resource Sinhala-English Neural Machine Translation ( http://arxiv.org/abs/2205.08722v1 )

ライセンス: Link先を確認
Aloka Fernando, Surangika Ranathunga(参考訳) Out-of-Vocabulary (OOV) はニューラルマシン翻訳(NMT)の問題である。 oovは、トレーニングデータに発生する頻度の低い単語、またはトレーニングデータに欠けている単語を指す。 これを軽減するために、単語またはフレーズベースのデータ拡張(DA)技術が使用されている。 しかし、既存のDA手法は、これらのOOVタイプの1つにのみ対応しており、構文的制約または意味的制約を考慮に入れている。 本稿では,(1)既存並列コーパスにおけるレアワードと,(2)バイリンガル辞書からの新たな単語を補完することにより,両種類のオーブを考慮した単語と句の置換に基づくda手法を提案する。 拡張中は,単語の構文的特徴と意味的特性の両方を,合成文の流布性を保証するために検討する。 この手法を低資源シンハラ英語対を用いて実験した。 我々は,DAにおける意味的制約のみを観察し,構文的制約を考慮した結果と同等であり,言語ツールサポートに欠ける低リソース言語に好適である。 さらに、構文的制約と意味的制約の両方を考慮することで、結果をさらに改善することができる。

Out-of-Vocabulary (OOV) is a problem for Neural Machine Translation (NMT). OOV refers to words with a low occurrence in the training data, or to those that are absent from the training data. To alleviate this, word or phrase-based Data Augmentation (DA) techniques have been used. However, existing DA techniques have addressed only one of these OOV types and limit to considering either syntactic constraints or semantic constraints. We present a word and phrase replacement-based DA technique that consider both types of OOV, by augmenting (1) rare words in the existing parallel corpus, and (2) new words from a bilingual dictionary. During augmentation, we consider both syntactic and semantic properties of the words to guarantee fluency in the synthetic sentences. This technique was experimented with low resource Sinhala-English language pair. We observe with only semantic constraints in the DA, the results are comparable with the scores obtained considering syntactic constraints, and is favourable for low-resourced languages that lacks linguistic tool support. Additionally, results can be further improved by considering both syntactic and semantic constraints.
翻訳日:2022-05-19 12:41:52 公開日:2022-05-18
# 重み付きコントラストプレトレーニングによる遠隔指導による関係抽出

Relation Extraction with Weighted Contrastive Pre-training on Distant Supervision ( http://arxiv.org/abs/2205.08770v1 )

ライセンス: Link先を確認
Zhen Wan, Fei Cheng, Qianying Liu, Zhuoyuan Mao, Haiyue Song, Sadao Kurohashi(参考訳) 遠隔監督におけるコントラスト事前訓練は,教師付き関係抽出タスクの改善に顕著な効果を示した。 しかし,既存の手法は,事前訓練段階における遠方監視の本質的な騒音を無視している。 本稿では,教師付きデータを用いて事前学習インスタンスの信頼性を推定し,ノイズの影響を明示的に低減する重み付きコントラスト学習手法を提案する。 3つの教師付きデータセットの実験結果から,2つの最先端非重み付きベースラインと比較して,提案手法の利点が示された。

Contrastive pre-training on distant supervision has shown remarkable effectiveness for improving supervised relation extraction tasks. However, the existing methods ignore the intrinsic noise of distant supervision during the pre-training stage. In this paper, we propose a weighted contrastive learning method by leveraging the supervised data to estimate the reliability of pre-training instances and explicitly reduce the effect of noise. Experimental results on three supervised datasets demonstrate the advantages of our proposed weighted contrastive learning approach, compared to two state-of-the-art non-weighted baselines.
翻訳日:2022-05-19 12:41:34 公開日:2022-05-18
# LogiGAN: 逆学習による論理推論学習

LogiGAN: Learning Logical Reasoning via Adversarial Pre-training ( http://arxiv.org/abs/2205.08794v1 )

ライセンス: Link先を確認
Xinyu Pi, Wanjun Zhong, Yan Gao, Nan Duan, Jian-Guang Lou(参考訳) 本稿では,言語モデルの論理的推論能力を向上させるための教師なし前学習フレームワークlogiganを提案する。 検出ヒューリスティックスによる大規模テキストコーパスにおける論理推論現象の自動同定により,マスキングアウト論理文の予測のために言語モデルを訓練する。 人間の学習におけるリフレクティブ思考の促進効果にインスパイアされ、逆生成検証アーキテクチャを用いて学習思考プロセスを類似的にシミュレートし、論理学習を支援する。 LogiGANが新しいGANアプローチを実装 (a)ジェネレータを文レベル生成率スコアラとして活用し、検証者とのスコアコンセンサスを達成する学習目標を達成することにより、シーケンシャルGANの非差別的課題を回避する。 b) 任意の目標長を持つ大規模事前訓練に対して計算可能である。 LogiGANで事前トレーニングされたベースおよび大規模言語モデルは、一般的な推論能力を必要とする12のデータセットに対して明らかなパフォーマンス改善を示し、広い推論における論理の基本的役割とLogiGANの有効性を明らかにしている。 LogiGANコンポーネントのアブレーション研究は、言語能力と論理能力の相対直交性を明らかにし、リフレクティブ思考のファシリテーション効果が機械学習にも一般化されることを示唆している。

We present LogiGAN, an unsupervised adversarial pre-training framework for improving logical reasoning abilities of language models. Upon automatic identifying logical reasoning phenomena in massive text corpus via detection heuristics, we train language models to predict the masked-out logical statements. Inspired by the facilitation effect of reflective thinking in human learning, we analogically simulate the learning-thinking process with an adversarial Generator-Verifier architecture to assist logic learning. LogiGAN implements a novel sequential GAN approach that (a) circumvents the non-differentiable challenge of the sequential GAN by leveraging the Generator as a sentence-level generative likelihood scorer with a learning objective of reaching scoring consensus with the Verifier; (b) is computationally feasible for large-scale pre-training with arbitrary target length. Both base and large size language models pre-trained with LogiGAN demonstrate obvious performance improvement on 12 datasets requiring general reasoning abilities, revealing the fundamental role of logic in broad reasoning, as well as the effectiveness of LogiGAN. Ablation studies on LogiGAN components reveal the relative orthogonality between linguistic and logic abilities and suggest that reflective thinking's facilitation effect might also generalize to machine learning.
翻訳日:2022-05-19 12:41:25 公開日:2022-05-18
# (参考訳) アウト・オブ・スコープ検出タスクにおけるインテントクラスのワンホット符号化へのディエンスベクターの活用

Exploring the Advantages of Dense-Vector to One-Hot Encoding of Intent Classes in Out-of-Scope Detection Tasks ( http://arxiv.org/abs/2205.09021v1 )

ライセンス: CC BY 4.0
Claudio Pinhanez, Paulo Cavalin(参考訳) 本研究は,OOS(Out-of-scope)入力の検出が必要な場合の意図の分類において,一般的なワンホット符号化方式の本質的な限界について検討する。 近年の研究では、意図クラスがドメイン固有知識に基づいて密ベクトルとして表される場合、OOS検出に顕著な改善があることが示されたが、この論文では、OOS空間の複雑さを表す1ホット符号化法に対する密ベクトルの利点により、そのような利得はよりありそうである、と論じている。 まず、高密度ベクトルエンコーディングがワンホットエンコーディング法よりもはるかにリッチなトポロジを持つOOS空間をいかに作成できるかを示す。 次に、4つの標準インテント分類データセットを用いて、インテントクラスの知識フリーでランダムに生成された密集したベクトルエンコーディングが、1つのホットエンコーディングよりも20%以上大きな利益をもたらすこと、そして、以前の1つのデータセットのドメイン知識ベースsomaを上回っていることを実証する。 そこで我々は,高密度ベクトル符号化を探索する新しいアルゴリズムを記述し,その使用の初期かつ有望な実験結果を示す。

This work explores the intrinsic limitations of the popular one-hot encoding method in classification of intents when detection of out-of-scope (OOS) inputs is required. Although recent work has shown that there can be significant improvements in OOS detection when the intent classes are represented as dense-vectors based on domain specific knowledge, we argue in this paper that such gains are more likely due to advantages of dense-vector to one-hot encoding methods in representing the complexity of the OOS space. We start by showing how dense-vector encodings can create OOS spaces with much richer topologies than one-hot encoding methods. We then demonstrate empirically, using four standard intent classification datasets, that knowledge-free, randomly generated dense-vector encodings of intent classes can yield massive, over 20% gains over one-hot encodings, and also outperform the previous, domain knowledge-based, SOTA of one of the datasets. We finish by describing a novel algorithm to search for good dense-vector encodings and present initial but promising experimental results of its use.
翻訳日:2022-05-19 12:39:51 公開日:2022-05-18
# Reliable Path ReasoningとRelation-Aware Heterogeneous Graph Transformerを用いたエンティティアライメント

Entity Alignment with Reliable Path Reasoning and Relation-Aware Heterogeneous Graph Transformer ( http://arxiv.org/abs/2205.08806v1 )

ライセンス: Link先を確認
Weishan Cai, Wenjun Ma, Jieyu Zhan, Yuncheng Jiang(参考訳) エンティティアライメント(EA)は、異なる知識グラフ(KG)から同じ意味を持つエンティティを求める学術と産業の両方で広く注目を集めている。 KGには、エンティティ間の実質的な多段階の関係パスがあり、エンティティの意味的関係を示す。 しかし、すべての自然経路がEA判断に役立っているわけではないため、既存の手法では経路情報を考えることは稀である。 本稿では,関係と経路構造情報を統合したより効果的なエンティティアライメントフレームワークであるrpr-rhgtを提案する。 印象的なことに,unrestricted path情報を用いた最初のアルゴリズムであるkgsの関係構造から,eaタスクに好適な経路を生成するための初期信頼性の高い経路推論アルゴリズムを開発した。 さらに, 実体近傍における不均一な特徴を効率的に捉えるために, KGsの関係と経路構造をモデル化する関係対応不均一グラフ変換器を設計した。 RPR-RHGTは11の最先端の手法を著しく上回り、Hits@1で最大8.62%のパフォーマンスベースラインを超えた。 また、トレーニングセットの異なる比率と難しいデータセットのベースラインよりもパフォーマンスが良いことも示しています。

Entity Alignment (EA) has attracted widespread attention in both academia and industry, which aims to seek entities with same meanings from different Knowledge Graphs (KGs). There are substantial multi-step relation paths between entities in KGs, indicating the semantic relations of entities. However, existing methods rarely consider path information because not all natural paths facilitate for EA judgment. In this paper, we propose a more effective entity alignment framework, RPR-RHGT, which integrates relation and path structure information, as well as the heterogeneous information in KGs. Impressively, an initial reliable path reasoning algorithm is developed to generate the paths favorable for EA task from the relation structures of KGs, which is the first algorithm in the literature to successfully use unrestricted path information. In addition, to efficiently capture heterogeneous features in entity neighborhoods, a relation-aware heterogeneous graph transformer is designed to model the relation and path structures of KGs. Extensive experiments on three well-known datasets show RPR-RHGT significantly outperforms 11 state-of-the-art methods, exceeding the best performing baseline up to 8.62% on Hits@1. We also show its better performance than the baselines on different ratios of training set, and harder datasets.
翻訳日:2022-05-19 12:16:47 公開日:2022-05-18
# メタラーニングスパース圧縮ネットワーク

Meta-Learning Sparse Compression Networks ( http://arxiv.org/abs/2205.08957v1 )

ライセンス: Link先を確認
Jonathan Richard Schwarz and Yee Whye Teh(参考訳) 近年のDeep Learningの研究は、座標空間から基礎となる連続信号への写像としてのデータ表現を再定義している。 このような関数がニューラルネットワークによって近似されると、より一般的な多次元配列表現に代わる魅力的な代替となる。 Inlicit Neural Representations (INRs) の最近の研究は、アーキテクチャ検索に注意を払って、JPEG(Dupont et al., 2021)のような既存の圧縮手法よりも優れた性能を発揮することを示した。 本稿では,このようなアイデアをスケーラブルにするための重要なステップを提案する。まず,最先端のネットワークスペーシフィケーション技術を用いて,圧縮を大幅に改善する。 第二に、一般的なメタラーニングアルゴリズムの内ループにスペーシフィケーションを適用可能な最初の方法を導入し、圧縮とINR学習の計算コストを大幅に改善した。 この形式主義の一般化により,画像,多様体,符号付き距離関数,3次元形状,シーンなどの多種多様なデータモダリティに関する結果が提示され,その中から新たな最先端の成果が得られた。

Recent work in Deep Learning has re-imagined the representation of data as functions mapping from a coordinate space to an underlying continuous signal. When such functions are approximated by neural networks this introduces a compelling alternative to the more common multi-dimensional array representation. Recent work on such Implicit Neural Representations (INRs) has shown that - following careful architecture search - INRs can outperform established compression methods such as JPEG (e.g. Dupont et al., 2021). In this paper, we propose crucial steps towards making such ideas scalable: Firstly, we employ stateof-the-art network sparsification techniques to drastically improve compression. Secondly, introduce the first method allowing for sparsification to be employed in the inner-loop of commonly used Meta-Learning algorithms, drastically improving both compression and the computational cost of learning INRs. The generality of this formalism allows us to present results on diverse data modalities such as images, manifolds, signed distance functions, 3D shapes and scenes, several of which establish new state-of-the-art results.
翻訳日:2022-05-19 12:16:23 公開日:2022-05-18
# ごくわずかなデータと正規化のないスクラッチから学習する大規模ニューラルネットワーク

Large Neural Networks Learning from Scratch with Very Few Data and without Regularization ( http://arxiv.org/abs/2205.08836v1 )

ライセンス: Link先を確認
Christoph Linse, Thomas Martinetz(参考訳) 最近の研究によると、ニューラルネットワークはトレーニングエラーゼロの過度にパラメータ化された状態でも一般化されている。 従来の機械学習の知恵に完全に反するため、これは驚きだ。 実験では,細粒度画像分類の領域において,これらの知見を強化する。 数百万の重みを持つ非常に大きな畳み込みニューラルネットワークは、ほんの一握りのトレーニングサンプルで学習し、画像拡張や明示的な正規化、事前トレーニングなしで学習する。 resnet018, resnet101, vgg19 のアーキテクチャを100以上のクラスで,caltech101, cub_200_2011, fgvcaircraft, flowers102, stanfordcars の複雑なベンチマークデータセットのサブセット上でトレーニングし,包括的比較研究を行い, cnn の実用的適用に示唆を与える。 最後に、重量1億4000万のvgg19は、クラス20のサンプルしか持たず、95%の精度で飛行機とバイクを区別することを学ぶ。

Recent findings have shown that Neural Networks generalize also in over-parametrized regimes with zero training error. This is surprising, since it is completely against traditional machine learning wisdom. In our empirical study we fortify these findings in the domain of fine-grained image classification. We show that very large Convolutional Neural Networks with millions of weights do learn with only a handful of training samples and without image augmentation, explicit regularization or pretraining. We train the architectures ResNet018, ResNet101 and VGG19 on subsets of the difficult benchmark datasets Caltech101, CUB_200_2011, FGVCAircraft, Flowers102 and StanfordCars with 100 classes and more, perform a comprehensive comparative study and draw implications for the practical application of CNNs. Finally, we show that VGG19 with 140 million weights learns to distinguish airplanes and motorbikes up to 95% accuracy with only 20 samples per class.
翻訳日:2022-05-19 12:16:04 公開日:2022-05-18
# It is't Sh! tposting、それは私のCATの投稿です

It Isn't Sh!tposting, It's My CAT Posting ( http://arxiv.org/abs/2205.08710v1 )

ライセンス: Link先を確認
Parthsarthi Rawat, Sayan Das, Jorge Aguirre, Akhil Daphara(参考訳) 本稿では,与えられた入力画像に対して笑えるキャプションを生成できる新しいアーキテクチャについて述べる。 アーキテクチャは2つのハーフ、すなわち画像キャプションと笑えるテキスト変換に分けられる。 この実装では、事前訓練されたCNNモデルであるVGG16からアーキテクチャが始まり、通常のキャプションを生成するためにLSTMに注意を向ける。 これらの通常のキャプションは、入力画像のコンテキストを維持しながら、このテキストを笑えるものに変換する、笑えるテキスト変換変換器に転送されます。 本論文は,CATNet を用いて字幕を生成することで,日常の利用者がより怠慢で笑わしい字幕を同時に生成することを支援することを目的としている。

In this paper, we describe a novel architecture which can generate hilarious captions for a given input image. The architecture is split into two halves, i.e. image captioning and hilarious text conversion. The architecture starts with a pre-trained CNN model, VGG16 in this implementation, and applies attention LSTM on it to generate normal caption. These normal captions then are fed forward to our hilarious text conversion transformer which converts this text into something hilarious while maintaining the context of the input image. The architecture can also be split into two halves and only the seq2seq transformer can be used to generate hilarious caption by inputting a sentence.This paper aims to help everyday user to be more lazy and hilarious at the same time by generating captions using CATNet.
翻訳日:2022-05-19 12:15:41 公開日:2022-05-18
# データ拡張による意味的パーシングにおけるリソースとプライバシ制約への対処

Addressing Resource and Privacy Constraints in Semantic Parsing Through Data Augmentation ( http://arxiv.org/abs/2205.08675v1 )

ライセンス: Link先を確認
Kevin Yang, Olivia Deng, Charles Chen, Richard Shin, Subhro Roy, Benjamin Van Durme(参考訳) 本研究では,(1)類似したデータセットやモデルが関連ドメインから欠如していること,(2)文法から直接有用な論理形式をサンプリングできないこと,(3)未ラベルの自然発話のプライバシー要件など,現実のシナリオで生じる可能性のある制約を取り入れた,低リソースなタスク指向のセマンティック解析のための新しいセットアップを提案する。 私たちの目標は、ユーザインタラクションを通じて収集された発話を用いて、低リソースのセマンティックパーサを改善することです。 この高度に挑戦的だが現実的な設定では、論理形式に対応する一連の構造化標準発話を生成し、対応する自然言語をシミュレートし、結果のペアをフィルタリングするデータ拡張アプローチを検討する。 複雑なsmcalflowカレンダーデータセット(andreas et al., 2020)上の低リソース設定では、top-1マッチにおけるデータ提供されていないベースラインに対する33%の相対的な改善が観察されます。

We introduce a novel setup for low-resource task-oriented semantic parsing which incorporates several constraints that may arise in real-world scenarios: (1) lack of similar datasets/models from a related domain, (2) inability to sample useful logical forms directly from a grammar, and (3) privacy requirements for unlabeled natural utterances. Our goal is to improve a low-resource semantic parser using utterances collected through user interactions. In this highly challenging but realistic setting, we investigate data augmentation approaches involving generating a set of structured canonical utterances corresponding to logical forms, before simulating corresponding natural language and filtering the resulting pairs. We find that such approaches are effective despite our restrictive setup: in a low-resource setting on the complex SMCalFlow calendaring dataset (Andreas et al., 2020), we observe 33% relative improvement over a non-data-augmented baseline in top-1 match.
翻訳日:2022-05-19 12:15:28 公開日:2022-05-18
# 生体医学的文の類似性に関する再現可能な実験的調査--文字列に基づく方法による研究

A reproducible experimental survey on biomedical sentence similarity: a string-based method sets the state of the art ( http://arxiv.org/abs/2205.08740v1 )

ライセンス: Link先を確認
Alicia Lara-Clares and Juan J. Lastra-D\'iaz and Ana Garcia-Serrano(参考訳) This registered report introduces the largest, and for the first time, reproducible experimental survey on biomedical sentence similarity with the following aims: (1) to elucidate the state of the art of the problem; (2) to solve some reproducibility problems preventing the evaluation of most of current methods; (3) to evaluate several unexplored sentence similarity methods; (4) to evaluate an unexplored benchmark, called Corpus-Transcriptional-Regulation; (5) to carry out a study on the impact of the pre-processing stages and Named Entity Recognition (NER) tools on the performance of the sentence similarity methods; and finally, (6) to bridge the lack of reproducibility resources for methods and experiments in this line of research. 我々の実験は、詳細な再現性プロトコルとデータセットを補足材料として提供し、実験の正確な再現を可能にする単一のソフトウェアプラットフォームに基づいています。 さらに,現在のオントロジに基づく方法の8つの変種と,pmc-biocコーパスのフルテキスト記事に基づいて学習された新しい事前学習単語埋め込みモデルとを併用した,新しい集約文字列に基づく文類似性手法liblockを導入する。 実験の結果,本手法は生物医学領域における文類似性タスクにおいて,本手法の新たな状態を設定し,オントロジー法を除くすべての手法を著しく上回っていることがわかった。 同様に,本実験では,前処理段階と NER ツールの選択が文類似性手法の性能に重大な影響を及ぼすことを確認した。 私たちはまた、現在のメソッドの欠点と制限を詳述し、現在のベンチマークを洗練する必要を警告します。 最後に、我々の新しい文字列ベースの手法は、ここで評価された最先端の機械学習モデル全てを大幅に上回っている。

This registered report introduces the largest, and for the first time, reproducible experimental survey on biomedical sentence similarity with the following aims: (1) to elucidate the state of the art of the problem; (2) to solve some reproducibility problems preventing the evaluation of most of current methods; (3) to evaluate several unexplored sentence similarity methods; (4) to evaluate an unexplored benchmark, called Corpus-Transcriptional-Regulation; (5) to carry out a study on the impact of the pre-processing stages and Named Entity Recognition (NER) tools on the performance of the sentence similarity methods; and finally, (6) to bridge the lack of reproducibility resources for methods and experiments in this line of research. Our experimental survey is based on a single software platform that is provided with a detailed reproducibility protocol and dataset as supplementary material to allow the exact replication of all our experiments. In addition, we introduce a new aggregated string-based sentence similarity method, called LiBlock, together with eight variants of current ontology-based methods and a new pre-trained word embedding model trained on the full-text articles in the PMC-BioC corpus. Our experiments show that our novel string-based measure sets the new state of the art on the sentence similarity task in the biomedical domain and significantly outperforms all the methods evaluated herein, except one ontology-based method. Likewise, our experiments confirm that the pre-processing stages, and the choice of the NER tool, have a significant impact on the performance of the sentence similarity methods. We also detail some drawbacks and limitations of current methods, and warn on the need of refining the current benchmarks. Finally, a noticeable finding is that our new string-based method significantly outperforms all state-of-the-art Machine Learning models evaluated herein.
翻訳日:2022-05-19 12:15:10 公開日:2022-05-18
# GPoeT-2: GPT-2 ベースのポエムジェネレータ

GPoeT-2: A GPT-2 Based Poem Generator ( http://arxiv.org/abs/2205.08847v1 )

ライセンス: Link先を確認
Kai-Ling Lo, Rami Ariss, Philipp Kurz(参考訳) このプロジェクトの目的は、構成・非構造化が可能な複雑な芸術形式であり、行間の意味を深く掘り下げるマシン・ジェネレーションの次の巻を製作することである。 gpoet-2は、アート自然言語モデル(例えば、pt-2)の状態を微調整して、aabbaの韻律スキームを持つ5行からなる、典型的にはユーモラスな構造化詩を生成する。 GPoeT-2は,前向きと逆向きの言語モデリングを併用した2段階生成システムにより,シードフレーズや後続制約のない韻律構造を踏襲しながら,多様なトピックのリメリを自由に生成することができる。自動生成プロセスに基づいて,構文的正しさ,語彙的多様性,主題連続性などの「良質な詩」を定量化するための,多種多様な評価指標を探索する。 最後に,人間の創造性を刺激する「優れた詩」指標を高く評価した94の分類済みリメリクのコレクションを提示する。

This project aims to produce the next volume of machine-generated poetry, a complex art form that can be structured and unstructured, and carries depth in the meaning between the lines. GPoeT-2 is based on fine-tuning a state of the art natural language model (i.e. GPT-2) to generate limericks, typically humorous structured poems consisting of five lines with a AABBA rhyming scheme. With a two-stage generation system utilizing both forward and reverse language modeling, GPoeT-2 is capable of freely generating limericks in diverse topics while following the rhyming structure without any seed phrase or a posteriori constraints.Based on the automated generation process, we explore a wide variety of evaluation metrics to quantify "good poetry," including syntactical correctness, lexical diversity, and subject continuity. Finally, we present a collection of 94 categorized limericks that rank highly on the explored "good poetry" metrics to provoke human creativity.
翻訳日:2022-05-19 12:13:33 公開日:2022-05-18
# Dialog Inpainting: ドキュメントをダイアログに変換する

Dialog Inpainting: Turning Documents into Dialogs ( http://arxiv.org/abs/2205.09073v1 )

ライセンス: Link先を確認
Zhuyun Dai, Arun Tejasvi Chaganty, Vincent Zhao, Aida Amini, Qazi Mamunur Rashid, Mike Green, Kelvin Guu(参考訳) 多くの重要な質問("how to eat healthier?"など)は、コンテキストを確立し、深く掘り下げるために会話を必要とする。 しかしながら、会話型質問応答(convqa)システムは、収集に費用がかかるトレーニングデータが少ないため、長い間抑制されてきた。 この問題に対処するために,多種多様な高品質なダイアログデータを合成的に生成する新しい手法を提案する。 私たちは、記事の文章を著者が話した発話として扱い、次に、想像された読者が各著者の発話の間に何を尋ねたり、話したりするかを予測するために、ダイアログを塗り替えます。 このアプローチをWikipediaとWebからのパスに適用することにより、WikiDialogとWebDialogという2つのデータセットを生成します。 さらに、WikiDialogの回答の妥当性と会話性は、既存の手作業によるデータセットよりも優れているか優れていると判断する。 塗装したデータを事前トレーニングしたConvQA検索システムに使用することにより、3つのベンチマーク(QReCC, OR-QuAC, TREC CAsT)において、標準評価基準に対して最大40%の相対的な利得が得られた。

Many important questions (e.g. "How to eat healthier?") require conversation to establish context and explore in depth. However, conversational question answering (ConvQA) systems have long been stymied by scarce training data that is expensive to collect. To address this problem, we propose a new technique for synthetically generating diverse and high-quality dialog data: dialog inpainting. Our approach takes the text of any document and transforms it into a two-person dialog between the writer and an imagined reader: we treat sentences from the article as utterances spoken by the writer, and then use a dialog inpainter to predict what the imagined reader asked or said in between each of the writer's utterances. By applying this approach to passages from Wikipedia and the web, we produce WikiDialog and WebDialog, two datasets totalling 19 million diverse information-seeking dialogs -- 1,000x larger than the largest existing ConvQA dataset. Furthermore, human raters judge the answer adequacy and conversationality of WikiDialog to be as good or better than existing manually-collected datasets. Using our inpainted data to pre-train ConvQA retrieval systems, we significantly advance state-of-the-art across three benchmarks (QReCC, OR-QuAC, TREC CAsT) yielding up to 40% relative gains on standard evaluation metrics.
翻訳日:2022-05-19 12:13:14 公開日:2022-05-18
# テキスト・テキスト・モデルを用いたポーランド語移動学習の評価

Evaluation of Transfer Learning for Polish with a Text-to-Text Model ( http://arxiv.org/abs/2205.08808v1 )

ライセンス: Link先を確認
Aleksandra Chrabrowa, {\L}ukasz Dragan, Karol Grzegorczyk, Dariusz Kajtoch, Miko{\l}aj Koszowski, Robert Mroczkowski, Piotr Rybak(参考訳) 本稿では,研磨用テキスト間品質評価のための新しいベンチマークを紹介する。 KLEJベンチマークはテキスト・トゥ・テキスト、en-pl翻訳、要約、質問応答に適応している。 特に,要約と質問応答はポーランド語のベンチマークデータセットを欠いているため,それらの構成を記述して公開する。 さらに,1つの学習目標で様々な自然言語処理(nlp)タスクを微調整可能な,ポーランドのための汎用テキストからテキストへの汎用モデルplt5を提案する。 モデル重みを多言語T5(mT5)で初期化することにより、教師なし事前学習を効率的に行う。 plT5, mT5, Polish BART (plBART), Polish GPT-2 (papuGaPT2) の評価を行った。 plT5は、plBARTが最良である要約を除いて、これらのタスクのすべてでトップである。 一般に(要約を除く)、モデルが大きくなればなるほど、結果が良くなる。 エンコーダ-デコーダアーキテクチャはデコーダのみの同等アーキテクチャよりも優れている。

We introduce a new benchmark for assessing the quality of text-to-text models for Polish. The benchmark consists of diverse tasks and datasets: KLEJ benchmark adapted for text-to-text, en-pl translation, summarization, and question answering. In particular, since summarization and question answering lack benchmark datasets for the Polish language, we describe their construction and make them publicly available. Additionally, we present plT5 - a general-purpose text-to-text model for Polish that can be fine-tuned on various Natural Language Processing (NLP) tasks with a single training objective. Unsupervised denoising pre-training is performed efficiently by initializing the model weights with a multi-lingual T5 (mT5) counterpart. We evaluate the performance of plT5, mT5, Polish BART (plBART), and Polish GPT-2 (papuGaPT2). The plT5 scores top on all of these tasks except summarization, where plBART is best. In general (except for summarization), the larger the model, the better the results. The encoder-decoder architectures prove to be better than the decoder-only equivalent.
翻訳日:2022-05-19 12:12:45 公開日:2022-05-18
# 効率的な解釈のための選択的入力勾配規則化による政策蒸留

Policy Distillation with Selective Input Gradient Regularization for Efficient Interpretability ( http://arxiv.org/abs/2205.08685v1 )

ライセンス: Link先を確認
Jinwei Xing, Takashi Nagata, Xinyun Zou, Emre Neftci, Jeffrey L. Krichmar(参考訳) 深層強化学習(Reinforcement Learning, RL)は幅広いタスクで成功したが、現実の問題に適用する際の解釈可能性に直面する課題がある。 真性マップはディープニューラルネットワークの解釈性を提供するために頻繁に使用される。 しかし、RL領域では、既存のサリエンシマップアプローチは計算コストが高く、現実世界のシナリオのリアルタイム要件を満たすことができないか、RLポリシーの解釈可能なサリエンシマップを作成することができない。 本研究では, 政策蒸留と入力勾配正規化を併用し, 塩分マップ生成における高い解釈性と計算効率を両立させる新しい政策を創出する, 選択的な入力勾配正規化(DIGR)による蒸留手法を提案する。 また,複数の敵攻撃に対するRLポリシーの堅牢性も向上することが示唆された。 我々は,MiniGrid(Fetch Object),Atari(Breakout),CARLA(Autonomous Driving)という3つのタスクで実験を行い,アプローチの重要性と有効性を示す。

Although deep Reinforcement Learning (RL) has proven successful in a wide range of tasks, one challenge it faces is interpretability when applied to real-world problems. Saliency maps are frequently used to provide interpretability for deep neural networks. However, in the RL domain, existing saliency map approaches are either computationally expensive and thus cannot satisfy the real-time requirement of real-world scenarios or cannot produce interpretable saliency maps for RL policies. In this work, we propose an approach of Distillation with selective Input Gradient Regularization (DIGR) which uses policy distillation and input gradient regularization to produce new policies that achieve both high interpretability and computation efficiency in generating saliency maps. Our approach is also found to improve the robustness of RL policies to multiple adversarial attacks. We conduct experiments on three tasks, MiniGrid (Fetch Object), Atari (Breakout) and CARLA Autonomous Driving, to demonstrate the importance and effectiveness of our approach.
翻訳日:2022-05-19 12:12:28 公開日:2022-05-18
# 交通予測のための時空間対話型動的グラフ畳み込みネットワーク

Spatial-Temporal Interactive Dynamic Graph Convolution Network for Traffic Forecasting ( http://arxiv.org/abs/2205.08689v1 )

ライセンス: Link先を確認
Aoyu Liu, Yaying Zhang(参考訳) 交通流制御,経路計画,検出を実現するためには,スマートシティにとって正確な交通予測が不可欠である。 現在,多くの時空間法が提案されているが,これらの手法は交通データの時空間依存性を同期的に捉えるには不十分である。 さらに、ほとんどの手法は、トラフィックデータの変化に伴って発生する道路ネットワークノード間の動的に変化する相関を無視する。 本稿では,トラフィック予測のためのニューラルネットワークを用いた空間-時間対話型動的グラフ畳み込みネットワーク(stidgcn)を提案する。 stidgcnでは、対話型学習戦略を用いて、まず間隔毎にシーケンスを分割し、トラヒックデータの空間的-時間的依存性を同時に捉え、有効長期予測を行う対話型動的グラフ畳み込み構造を提案する。 本稿では,グラフ生成器と融合グラフ畳み込みからなる新しい動的グラフ畳み込みモジュールを提案する。 動的グラフ畳み込みモジュールは、入力トラフィックデータ、事前定義されたグラフ構造を使用してグラフ構造を生成し、事前定義されたグラフ構造を満たすために使用される定義された適応隣接マトリックスと融合し、道路網のノード間の動的関連の発生をシミュレートすることができる。 4つの現実世界のトラフィックフローデータセットに関する広範な実験は、sidgcnが最先端のベースラインを上回ることを示している。

Accurate traffic forecasting is essential for smart cities to achieve traffic flow control, route planning, and detection. Although many spatial-temporal methods are currently proposed, these methods are deficient in capturing the spatial-temporal dependence of traffic data synchronously. In addition, most of the methods ignore the dynamically changing correlations between road network nodes that arise as traffic data changes. To address the above challenges, we propose a neural network-based Spatial-Temporal Interactive Dynamic Graph Convolutional Network (STIDGCN) for traffic forecasting in this paper. In STIDGCN, we propose an interactive dynamic graph convolution structure, which first divides the sequences at intervals and captures the spatial-temporal dependence of the traffic data simultaneously through an interactive learning strategy for effective long-term prediction. We propose a novel dynamic graph convolution module consisting of a graph generator, fusion graph convolution. The dynamic graph convolution module can use the input traffic data, pre-defined graph structure to generate a graph structure and fuse it with the defined adaptive adjacency matrix, which is used to achieve the filling of the pre-defined graph structure and simulate the generation of dynamic associations between nodes in the road network. Extensive experiments on four real-world traffic flow datasets demonstrate that STIDGCN outperforms the state-of-the-art baseline.
翻訳日:2022-05-19 12:12:09 公開日:2022-05-18
# オンラインベイズ推論, アクティブラーニング, アクティブサンプリングのためのMarginal and Joint Cross-Entropies & Predictives

Marginal and Joint Cross-Entropies & Predictives for Online Bayesian Inference, Active Learning, and Active Sampling ( http://arxiv.org/abs/2205.08766v1 )

ライセンス: Link先を確認
Andreas Kirsch, Jannik Kossen, Yarin Gal(参考訳) 原理ベイズ深層学習 (BDL) は、限界予測分布 (marginal predictives) にのみ焦点をあてる場合、その潜在能力に及ばない。 近年の研究では、理論的・合成的な視点から(ベイジアン)逐次決定のための共同予測の重要性を強調している。 オンラインベイズ推論について論じるが、これは再トレーニングをせずに追加データを考慮しながら予測を行うことが可能であり、アクティブラーニングとアクティブサンプリングを用いた新しい挑戦的評価設定を提案する。 これらの設定は、限界予測と共同予測、それぞれのクロスエントロピー、およびオフラインおよびオンライン学習におけるそれらの場所の検証によって動機付けられている。 Wen et al. (2021) と Osband et al. (2022) の作業に基づいて構築され、オンラインの教師付き環境で近似BNNの性能を評価することに重点を置いている。 しかし,初期の実験は,現在のBDL推論技術を用いた高次元パラメータ空間におけるこれらのアイデアの実現可能性に関する疑問を提起し,これらの問題に対する現在の研究の実用性をさらに深めるための実験を提案する。 重要なのは、これまでの研究における未確認のギャップと、より良い共同予測の必要性を強調することです。

Principled Bayesian deep learning (BDL) does not live up to its potential when we only focus on marginal predictive distributions (marginal predictives). Recent works have highlighted the importance of joint predictives for (Bayesian) sequential decision making from a theoretical and synthetic perspective. We provide additional practical arguments grounded in real-world applications for focusing on joint predictives: we discuss online Bayesian inference, which would allow us to make predictions while taking into account additional data without retraining, and we propose new challenging evaluation settings using active learning and active sampling. These settings are motivated by an examination of marginal and joint predictives, their respective cross-entropies, and their place in offline and online learning. They are more realistic than previously suggested ones, building on work by Wen et al. (2021) and Osband et al. (2022), and focus on evaluating the performance of approximate BNNs in an online supervised setting. Initial experiments, however, raise questions on the feasibility of these ideas in high-dimensional parameter spaces with current BDL inference techniques, and we suggest experiments that might help shed further light on the practicality of current research for these problems. Importantly, our work highlights previously unidentified gaps in current research and the need for better approximate joint predictives.
翻訳日:2022-05-19 12:11:45 公開日:2022-05-18
# (参考訳) 「質問はどんなものか?」 タイプ制御型質問生成に関する研究

"What makes a question inquisitive?" A Study on Type-Controlled Inquisitive Question Generation ( http://arxiv.org/abs/2205.08056v2 )

ライセンス: CC BY 4.0
Lingyu Gao, Debanjan Ghosh, Kevin Gimpel(参考訳) 質問生成のためのタイプ制御フレームワークを提案する。 我々は、質問型、訓練質問型分類器、および型制御された質問生成のためのファインチューンモデルを含む質問データセットを注釈付けする。 実験結果から,ソーステキストを描画しながら,特定のタイプに従属するさまざまな質問を生成できることが示された。 また,生成した集合から1つの質問を選択するための戦略についても検討する。 ~質問分類器と、専門家アノテーションの小さなセットから訓練されたペアワイズローダ。 ペアワイズランカを用いた質問選択は,自動的および手作業による評価において強い結果をもたらす。 人間の評価は、生成した質問の複数の側面を評価し、ランク付け者が最高の構文(4.59)、セマンティクス(4.37)、問合せ性(3.92)を1~5の尺度で選択し、人間による質問のパフォーマンスに匹敵する。

We propose a type-controlled framework for inquisitive question generation. We annotate an inquisitive question dataset with question types, train question type classifiers, and finetune models for type-controlled question generation. Empirical results demonstrate that we can generate a variety of questions that adhere to specific types while drawing from the source texts. We also investigate strategies for selecting a single question from a generated set, considering both an informative vs.~inquisitive question classifier and a pairwise ranker trained from a small set of expert annotations. Question selection using the pairwise ranker yields strong results in automatic and manual evaluation. Our human evaluation assesses multiple aspects of the generated questions, finding that the ranker chooses questions with the best syntax (4.59), semantics (4.37), and inquisitiveness (3.92) on a scale of 1-5, even rivaling the performance of human-written questions.
翻訳日:2022-05-19 11:10:06 公開日:2022-05-18
# (参考訳) 2層ニューラルネットワークの圧縮に関するシャープ漸近

Sharp asymptotics on the compression of two-layer neural networks ( http://arxiv.org/abs/2205.08199v2 )

ライセンス: CC BY 4.0
Mohammad Hossein Amani, Simone Bombari, Marco Mondelli, Rattana Pukdee, Stefano Rini(参考訳) 本稿では,Nノードを対象とする2層ニューラルネットワークを,M<Nノードを対象とする圧縮ネットワークに圧縮する。 より正確には、ターゲットネットワークの重みがi.i.d.サブガウシアンであるような設定を考え、ガウシアン入力の仮定により、ターゲットネットワークの出力と圧縮ネットワークの出力の間の人口l2損失を最小化する。 高次元確率のツールを用いて、ターゲットネットワークが十分に過パラメータ化されている場合、この非凸問題を単純化できることを示し、入力次元とNの関数としてこの近似の誤差率を提供する。 ReLU アクティベーション関数では,重みと ETF の向きのスケーリングは対象ネットワークのパラメータに依存するが,その重みを等角的タイトフレーム (ETF) に当てはめることで,単純化された最適化問題の最適解が得られると推測する。 この予想を支持する数値的な証拠が提供される。

In this paper, we study the compression of a target two-layer neural network with N nodes into a compressed network with M < N nodes. More precisely, we consider the setting in which the weights of the target network are i.i.d. sub-Gaussian, and we minimize the population L2 loss between the outputs of the target and of the compressed network, under the assumption of Gaussian inputs. By using tools from high-dimensional probability, we show that this non-convex problem can be simplified when the target network is sufficiently over-parameterized, and provide the error rate of this approximation as a function of the input dimension and N . For a ReLU activation function, we conjecture that the optimum of the simplified optimization problem is achieved by taking weights on the Equiangular Tight Frame (ETF), while the scaling of the weights and the orientation of the ETF depend on the parameters of the target network. Numerical evidence is provided to support this conjecture.
翻訳日:2022-05-19 10:44:58 公開日:2022-05-18
# クラスター解析における形状複雑性

Shape complexity in cluster analysis ( http://arxiv.org/abs/2205.08046v2 )

ライセンス: Link先を確認
Eduardo J. Aguilar, Valmir C. Barbosa(参考訳) クラスタ分析の一般的な第一歩は、データをクラスタに分割するためのスケールアップだ。 この目的には長年にわたり多くの異なる技術が導入されてきたが、この前処理フェーズにおけるワークホースは、各次元に沿った標準偏差によってデータを分割することであったと言えるだろう。 標準偏差による分割と同様に、スケーリング技術の大部分は、何らかの統計的なデータに対するルーツを持っていると言える。 本稿では,サンプル間距離を明示的に利用するk-meansなどの手法により,クラスタリング前に使用するためのスケーリング係数を得ることを目的として,データの多次元形状の利用を検討する。 我々は、宇宙論と関連する分野の分野から、最近導入された形状複雑性の概念を借用し、この変種では、比較的単純でデータに依存しない非線形関数を使い、適切なスケーリング係数の決定に役立てることができることを示した。 中間」距離と呼ばれるものに注目して、制約付き非線形プログラミング問題を定式化し、それを使って、専門家の知識を通じて、データのさらなる考察に基づいて、推測されるスケーリング要素セットを生成する。 いくつかの象徴的なデータセットで、新しいアプローチの強みと潜在的な弱点を強調します。 これらの結果は一般的に、使用されるすべてのデータセットで肯定的です。

In cluster analysis, a common first step is to scale the data aiming to better partition them into clusters. Even though many different techniques have throughout many years been introduced to this end, it is probably fair to say that the workhorse in this preprocessing phase has been to divide the data by the standard deviation along each dimension. Like division by the standard deviation, the great majority of scaling techniques can be said to have roots in some sort of statistical take on the data. Here we explore the use of multidimensional shapes of data, aiming to obtain scaling factors for use prior to clustering by some method, like k-means, that makes explicit use of distances between samples. We borrow from the field of cosmology and related areas the recently introduced notion of shape complexity, which in the variant we use is a relatively simple, data-dependent nonlinear function that we show can be used to help with the determination of appropriate scaling factors. Focusing on what might be called "midrange" distances, we formulate a constrained nonlinear programming problem and use it to produce candidate scaling-factor sets that can be sifted on the basis of further considerations of the data, say via expert knowledge. We give results on some iconic data sets, highlighting the strengths and potential weaknesses of the new approach. These results are generally positive across all the data sets used.
翻訳日:2022-05-19 10:32:41 公開日:2022-05-18
# 密集予測用視覚変圧器アダプタ

Vision Transformer Adapter for Dense Predictions ( http://arxiv.org/abs/2205.08534v2 )

ライセンス: Link先を確認
Zhe Chen, Yuchen Duan, Wenhai Wang, Junjun He, Tong Lu, Jifeng Dai, Yu Qiao(参考訳) 本研究は視覚変換器(ViT)の簡易かつ強力なアダプタについて検討する。 視覚固有の帰納バイアスをアーキテクチャに導入する最近のビジュアルトランスフォーマーとは異なり、ViTは画像の事前情報がないため、高密度な予測タスクでは性能が劣る。 そこで本研究では,vitの欠陥を修正可能な視覚トランスフォーマアダプタ (vit-adapter) を提案する。 具体的には、私たちのフレームワークのバックボーンは、マルチモーダルデータで事前トレーニング可能なバニラ変換器です。 下流タスクを微調整する場合、データとタスクの事前情報をモデルに導入するためにモダリティ固有のアダプタが使用され、これらのタスクに適合する。 我々は、オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションを含む複数の下流タスクにおけるViT-Adapterの有効性を検証する。 特にhtc++を使用する場合、vit-adapter-l は coco test-dev 上で 60.1 box ap と 52.1 mask ap となり、swin-l を 1.4 box ap と 1.0 mask ap で上回る。 セマンティックセグメンテーションのために、私たちのViT-Adapter-LはADE20K val上で60.5 mIoUの新たな最先端を確立します。 提案したViT-Adapterが、視覚特異的トランスフォーマーの代替となり、将来の研究を促進することを期待している。 コードとモデルはhttps://github.com/czczup/ViT-Adapter.comでリリースされる。

This work investigates a simple yet powerful adapter for Vision Transformer (ViT). Unlike recent visual transformers that introduce vision-specific inductive biases into their architectures, ViT achieves inferior performance on dense prediction tasks due to lacking prior information of images. To solve this issue, we propose a Vision Transformer Adapter (ViT-Adapter), which can remedy the defects of ViT and achieve comparable performance to vision-specific models by introducing inductive biases via an additional architecture. Specifically, the backbone in our framework is a vanilla transformer that can be pre-trained with multi-modal data. When fine-tuning on downstream tasks, a modality-specific adapter is used to introduce the data and tasks' prior information into the model, making it suitable for these tasks. We verify the effectiveness of our ViT-Adapter on multiple downstream tasks, including object detection, instance segmentation, and semantic segmentation. Notably, when using HTC++, our ViT-Adapter-L yields 60.1 box AP and 52.1 mask AP on COCO test-dev, surpassing Swin-L by 1.4 box AP and 1.0 mask AP. For semantic segmentation, our ViT-Adapter-L establishes a new state-of-the-art of 60.5 mIoU on ADE20K val, 0.6 points higher than SwinV2-G. We hope that the proposed ViT-Adapter could serve as an alternative for vision-specific transformers and facilitate future research. The code and models will be released at https://github.com/czczup/ViT-Adapter.
翻訳日:2022-05-19 10:32:19 公開日:2022-05-18
# 視覚的質問応答データセットにおける性別と人種バイアス

Gender and Racial Bias in Visual Question Answering Datasets ( http://arxiv.org/abs/2205.08148v2 )

ライセンス: Link先を確認
Yusuke Hirota, Yuta Nakashima, Noa Garcia(参考訳) 視覚と言語によるタスクは、機械学習モデルにおける人間のような推論を評価する手段として、ますます注目を集めている。 この分野で人気のあるタスクは視覚的質問応答(VQA)であり、画像に関する質問に答えることを目的としている。 しかしながら、VQAモデルは、画像の内容を見ることなく、質問と回答の統計的相関を学習することで、言語バイアスを活用することが示されている:例えば、画像中のバナナが緑色であっても、バナナの色に関する質問は黄色で答えられる。 トレーニングデータに社会的バイアス(性差別、人種差別、能力主義など)が存在する場合、この問題はVQAモデルに有害なステレオタイプを学習させる可能性がある。 このため、5つのVQAデータセットの性別と人種的偏見を調査する。 分析の結果,女性と男性に関する質問と,有害なジェンダー・ステレオ・サンプルの存在との間には,回答の分布が極めて異なることがわかった。 同様に、特定の人種関連属性が過小表示されているのに対し、潜在的に差別的なサンプルは分析されたデータセットに現れる。 この結果から,潜在的に有害なステレオタイプを考慮せずに,VQAデータセットを使用する危険性が示唆された。 この論文は、データセット収集プロセスの前後において、問題を緩和するための解決策を提案して結論づける。

Vision-and-language tasks have increasingly drawn more attention as a means to evaluate human-like reasoning in machine learning models. A popular task in the field is visual question answering (VQA), which aims to answer questions about images. However, VQA models have been shown to exploit language bias by learning the statistical correlations between questions and answers without looking into the image content: e.g., questions about the color of a banana are answered with yellow, even if the banana in the image is green. If societal bias (e.g., sexism, racism, ableism, etc.) is present in the training data, this problem may be causing VQA models to learn harmful stereotypes. For this reason, we investigate gender and racial bias in five VQA datasets. In our analysis, we find that the distribution of answers is highly different between questions about women and men, as well as the existence of detrimental gender-stereotypical samples. Likewise, we identify that specific race-related attributes are underrepresented, whereas potentially discriminatory samples appear in the analyzed datasets. Our findings suggest that there are dangers associated to using VQA datasets without considering and dealing with the potentially harmful stereotypes. We conclude the paper by proposing solutions to alleviate the problem before, during, and after the dataset collection process.
翻訳日:2022-05-19 10:31:49 公開日:2022-05-18
# 個人推定のための新しい下肢境界と一般化フィンガープリントレンマ

New Lower Bounds for Private Estimation and a Generalized Fingerprinting Lemma ( http://arxiv.org/abs/2205.08532v2 )

ライセンス: Link先を確認
Gautam Kamath, Argyris Mouzakis and Vikrant Singhal(参考訳) 我々は、$(\varepsilon, \delta)$-differential privacy という制約の下で統計量推定タスクの新たな下限を証明する。 まず, ガウス分布のプライベート共分散推定のための厳密な下限を与える。 フロベニウスノルムにおける共分散行列の推定には$\omega(d^2)$のサンプルが必要であり、スペクトルノルムでは$\omega(d^{3/2})$のサンプルが必要であり、どちらも対数因子の上限に一致する。 我々はこれらの境界を主要な技術的貢献によって証明し、指数関数系へのフィンガープリンティング法を広範に一般化した。 さらに、Acharya, Sun, Zhangのプライベートなアスード法を用いて、$\ell_2$-distanceで$\alpha$-errorに有界な共分散を持つ分布の平均を推定するための$\Omega(d/(\alpha^2 \varepsilon))$低い境界を示す。 これらの問題の既知の下限は、多項式的に弱いか、$(\varepsilon,0)$-differential privacyという厳格な条件で保持されていた。

We prove new lower bounds for statistical estimation tasks under the constraint of $(\varepsilon, \delta)$-differential privacy. First, we provide tight lower bounds for private covariance estimation of Gaussian distributions. We show that estimating the covariance matrix in Frobenius norm requires $\Omega(d^2)$ samples, and in spectral norm requires $\Omega(d^{3/2})$ samples, both matching upper bounds up to logarithmic factors. We prove these bounds via our main technical contribution, a broad generalization of the fingerprinting method to exponential families. Additionally, using the private Assouad method of Acharya, Sun, and Zhang, we show a tight $\Omega(d/(\alpha^2 \varepsilon))$ lower bound for estimating the mean of a distribution with bounded covariance to $\alpha$-error in $\ell_2$-distance. Prior known lower bounds for all these problems were either polynomially weaker or held under the stricter condition of $(\varepsilon,0)$-differential privacy.
翻訳日:2022-05-19 10:31:27 公開日:2022-05-18