このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。



PDF登録状況(公開日: 20211115)

# 都市エアモビリティ(uam)ネットワークを用いた自律空中監視のための時空間分割学習

Spatio-Temporal Split Learning for Autonomous Aerial Surveillance using Urban Air Mobility (UAM) Networks ( http://arxiv.org/abs/2111.11856v1 )

ライセンス: Link先を確認
Yoo Jeong Ha, Soyi Jung, Jae-Hyun Kim, Marco Levorato, and Joongheon Kim(参考訳) 無人無人航空機(UAV)は、疑わしい活動のために街の通りを監視するために配備される。 本稿では,街路火災の検知を目的とした監視型UAVを利用する。 大規模なデータベースはUAV監視ドローンから収集される。 人工知能(AI)の助けを借りて、消防署は近所に現れる火災の存在を素早く特定することができる。 このシナリオには時空間分割学習が適用され、プライバシーを維持し、世界規模で火災分類モデルを訓練する。 火災は危険な自然災害であり、急速に広がる。 現場に消防士を配置するには火のスウィフト識別が必要である。 そのためには、UAVとディープラーニングプロセスが発生する中央サーバとの強い通信が必要である。 コミュニケーションのレジリエンス向上は,道路上での安全なエクスペリエンス向上に不可欠である。 そこで本稿では,この uav 構成における分割学習のためのクライアント数とデータ比率,および必要なネットワーク基盤について検討する。

Autonomous surveillance unmanned aerial vehicles (UAVs) are deployed to observe the streets of the city for any suspicious activities. This paper utilizes surveillance UAVs for the purpose of detecting the presence of a fire in the streets. An extensive database is collected from UAV surveillance drones. With the aid of artificial intelligence (AI), fire stations can swiftly identify the presence of a fire emerging in the neighborhood. Spatio-temporal split learning is applied to this scenario to preserve privacy and globally train a fire classification model. Fires are hazardous natural disasters that can spread very quickly. Swift identification of fire is required to deploy firefighters to the scene. In order to do this, strong communication between the UAV and the central server where the deep learning process occurs is required. Improving communication resilience is integral to enhancing a safe experience on the roads. Therefore, this paper explores the adequate number of clients and data ratios for split learning in this UAV setting, as well as the required network infrastructure.
翻訳日:2021-11-28 18:13:23 公開日:2021-11-15
# 複合材料の熱化学的硬化のための残留フーリエニューラルオペレータ

Residual fourier neural operator for thermochemical curing of composites ( http://arxiv.org/abs/2111.10262v1 )

ライセンス: Link先を確認
Gengxiang Chen, Yingguang Li, Xu liu, Qinglu Meng, Jing Zhou, Xiaozhong Hao(参考訳) 複合材料の硬化過程において, 温度履歴は硬化度と残留応力の進化を強く決定し, 複合材料の力学特性にさらに影響を及ぼすので, 合成体の硬化過程を最適化するためには, 実温度履歴をシミュレートすることが重要である。 有限要素 (FE) シミュレーションを用いた熱化学的解析では計算負荷が重いため、データ駆動型アプローチは高次元マッピングの複雑さに悩まされる。 本稿では,任意の治療サイクルから対応する温度履歴への直接高次元マッピングを確立するために,残留フーリエニューラル演算子(resfno)を提案する。 ドメイン知識を時間分解能独立パラメータ化ニューラルネットワークに統合することにより、治療サイクルと温度履歴の間のマッピングをラベル付きデータの限られた数で学習することができる。 さらに、新しいフーリエ残差写像をモード分解に基づいて設計し、トレーニングを加速し、性能を大幅に向上させる。 提案手法の性能と一般化性を総合的に評価するために,いくつかの事例が実施された。

During the curing process of composites, the temperature history heavily determines the evolutions of the field of degree of cure as well as the residual stress, which will further influence the mechanical properties of composite, thus it is important to simulate the real temperature history to optimize the curing process of composites. Since thermochemical analysis using Finite Element (FE) simulations requires heavy computational loads and data-driven approaches suffer from the complexity of highdimensional mapping. This paper proposes a Residual Fourier Neural Operator (ResFNO) to establish the direct high-dimensional mapping from any given cure cycle to the corresponding temperature histories. By integrating domain knowledge into a time-resolution independent parameterized neural network, the mapping between cure cycles to temperature histories can be learned using limited number of labelled data. Besides, a novel Fourier residual mapping is designed based on mode decomposition to accelerate the training and boost the performance significantly. Several cases are carried out to evaluate the superior performance and generalizability of the proposed method comprehensively.
翻訳日:2021-11-28 18:12:33 公開日:2021-11-15
# 勧告モデルのスケーリング法則:汎用的ユーザ表現を目指して

Scaling Law for Recommendation Models: Towards General-purpose User Representations ( http://arxiv.org/abs/2111.11294v1 )

ライセンス: Link先を確認
Kyuyong Shin, Hanock Kwak, Kyung-Min Kim, Su Young Kim, Max Nihlen Ramstrom(参考訳) 最近の傾向は、BERT、GPT-3、CLIPなどの一般的なモデルのクラスが、大規模に広いデータで訓練されていることが、単一の学習アーキテクチャで多くの機能を示していることを示している。 本研究では,ユニバーサルユーザエンコーダを大規模にトレーニングすることで,汎用ユーザ表現学習の可能性を検討する。 学習誤差が計算量とともにパワーローとしてスケールするユーザモデリング領域において,スケーリング法則が成立することを示す。 Contrastive Learning User Encoder (CLUE) はタスクに依存しない目的を最適化し、その結果のユーザ埋め込みは、さまざまなダウンストリームタスクで何ができるかという期待を拡張します。 CLUEは、オンライン実験のパフォーマンスがClick-Through-Rate (CTR)で大幅に改善されているため、他のドメインやシステムへの大きな転送可能性も示している。 さらに,スケールアップ要因,すなわちモデル容量,シーケンス長,バッチサイズによって性能がどう変化するかについても検討した。

A recent trend shows that a general class of models, e.g., BERT, GPT-3, CLIP, trained on broad data at scale have shown a great variety of functionalities with a single learning architecture. In this work, we explore the possibility of general-purpose user representation learning by training a universal user encoder at large scales. We demonstrate that the scaling law holds in the user modeling areas, where the training error scales as a power-law with the amount of compute. Our Contrastive Learning User Encoder (CLUE), optimizes task-agnostic objectives, and the resulting user embeddings stretches our expectation of what is possible to do in various downstream tasks. CLUE also shows great transferability to other domains and systems, as performances on an online experiment shows significant improvements in online Click-Through-Rate (CTR). Furthermore, we also investigate how the performance changes according to the scale-up factors, i.e., model capacity, sequence length and batch size.
翻訳日:2021-11-28 18:11:57 公開日:2021-11-15
# パーキンソン病予測のための音声分析法の比較検討

Comparative Study of Speech Analysis Methods to Predict Parkinson's Disease ( http://arxiv.org/abs/2111.10207v1 )

ライセンス: Link先を確認
Adedolapo Aishat Toye and Suryaprakash Kompalli(参考訳) パーキンソン病(pd)の早期にみられた症状の1つは、言語障害である。 発声障害は変性する前にこの疾患を検出するために用いられる。 この研究は、PDを予測するための音声特徴と機械学習アプローチを分析する。 音声信号からシマーやジッタの変種やメル周波数ケプストラル係数(MFCC)などの音響特性を抽出する。 本研究では,MDVR-KCLとイタリアのParkinson's Voice and Speechデータベースの2つのデータセットを用いた。 pdと非pd音声信号を分離するために、k-nearest近傍、決定木、サポートベクターマシン、ナイーブベイ、ロジスティック回帰、勾配ブースティング、ランダムフォレストという7つの分類モデルが実装された。 それぞれのモデルに3つの特徴セットが使用された。 (a)音響的特徴のみ。 (b)すべての音響的特徴とmfcc (c)音響特徴とMFCCから特徴のサブセットを選択する。 全ての音響特性とMFCCを使い、SVMと共に98%、F1スコア99%の精度で最高のパフォーマンスを実現した。 先行技術と比較すると、パフォーマンスが向上します。 私たちのコードと関連するドキュメントは、パブリックドメインリポジトリから入手できます。

One of the symptoms observed in the early stages of Parkinson's Disease (PD) is speech impairment. Speech disorders can be used to detect this disease before it degenerates. This work analyzes speech features and machine learning approaches to predict PD. Acoustic features such as shimmer and jitter variants, and Mel Frequency Cepstral Coefficients (MFCC) are extracted from speech signals. We use two datasets in this work: the MDVR-KCL and the Italian Parkinson's Voice and Speech database. To separate PD and non-PD speech signals, seven classification models were implemented: K-Nearest Neighbor, Decision Trees, Support Vector Machines, Naive Bayes, Logistic Regression, Gradient Boosting, Random Forests. Three feature sets were used for each of the models: (a) Acoustic features only, (b) All the acoustic features and MFCC, (c) Selected subset of features from acoustic features and MFCC. Using all the acoustic features and MFCC, together with SVM produced the highest performance with an accuracy of 98% and F1-Score of 99%. When compared with prior art, this shows a better performance. Our code and related documentation is available in a public domain repository.
翻訳日:2021-11-28 18:11:39 公開日:2021-11-15
# ヒンディー語と英語における音声検索のための注意に基づくエンドツーエンド音声認識

Attention based end to end Speech Recognition for Voice Search in Hindi and English ( http://arxiv.org/abs/2111.10208v1 )

ライセンス: Link先を確認
Raviraj Joshi, Venkateshan Kannan(参考訳) 本稿では,Flipkart e-Commerceプラットフォームにおける音声検索機能の文脈における音声認識(ASR)について述べる。 本稿では,Learen-Attend-Spell (LAS) のディープラーニングアーキテクチャをベースとして,多目的学習,マルチパス訓練,言語モデルと音素に基づく損失を用いた外部再構成など,革新的なアプローチを取り入れたモデル設計とアテンション機構を構築し,拡張する。 本稿では, 最新のLASモデル上でのWERの相対的な改善を15.7%で報告する。 全体として,音素CTCシステムよりも36.9%改善した。 この論文は、LASベースのシステムで調整できる様々なコンポーネントの概要も提供している。

We describe here our work with automatic speech recognition (ASR) in the context of voice search functionality on the Flipkart e-Commerce platform. Starting with the deep learning architecture of Listen-Attend-Spell (LAS), we build upon and expand the model design and attention mechanisms to incorporate innovative approaches including multi-objective training, multi-pass training, and external rescoring using language models and phoneme based losses. We report a relative WER improvement of 15.7% on top of state-of-the-art LAS models using these modifications. Overall, we report an improvement of 36.9% over the phoneme-CTC system. The paper also provides an overview of different components that can be tuned in a LAS-based system.
翻訳日:2021-11-28 18:11:21 公開日:2021-11-15
# (参考訳) エッジコンピューティングにおけるデータ保護のためのデータクォータモデル [全文訳有]

A Data Quarantine Model to Secure Data in Edge Computing ( http://arxiv.org/abs/2111.07672v1 )

ライセンス: CC BY 4.0
Poornima Mahadevappa, Raja Kumar Murugesan(参考訳) エッジコンピューティングは、分散クラウドと地理的に分散したエッジノードを介して、レイテンシセンシティブで通信集約的なアプリケーションのためのアジャイルデータ処理プラットフォームを提供する。 エッジノードに対する集中管理の獲得は、セキュリティ上の問題と脅威のために難しい場合がある。 いくつかのセキュリティ問題の中で、データの整合性攻撃は一貫性のないデータにつながり、エッジデータ分析を邪魔する可能性がある。 攻撃のさらなる強化は、根本原因の緩和と特定を困難にしている。 そこで本稿では,侵入者隔離によるデータ完全性攻撃を軽減するためのデータ隔離モデルを提案する。 クラウド、アドホックネットワーク、および隔離を用いたコンピュータシステムの効率的なセキュリティソリューションは、エッジコンピューティングでそれを採用する動機となっている。 データ取得エッジノードは侵入者を識別し、次元の減少を通じて疑わしいすべてのデバイスを隔離する。 検疫中、提案された概念は評判スコアを構築し、誤った正当性を判断し、影響したデータを衛生してデータの完全性を取り戻す。 予備的な調査として,次元削減のための機械学習手法であるLDA(Linear Discriminant Analysis)を同定した。 LDAは72.83%の検疫精度と0.9秒の訓練時間を達成し、他の最先端の方法よりも効率的である。 将来、これは実装され、真理のデータで検証される。

Edge computing provides an agile data processing platform for latency-sensitive and communication-intens ive applications through a decentralized cloud and geographically distributed edge nodes. Gaining centralized control over the edge nodes can be challenging due to security issues and threats. Among several security issues, data integrity attacks can lead to inconsistent data and intrude edge data analytics. Further intensification of the attack makes it challenging to mitigate and identify the root cause. Therefore, this paper proposes a new concept of data quarantine model to mitigate data integrity attacks by quarantining intruders. The efficient security solutions in cloud, ad-hoc networks, and computer systems using quarantine have motivated adopting it in edge computing. The data acquisition edge nodes identify the intruders and quarantine all the suspected devices through dimensionality reduction. During quarantine, the proposed concept builds the reputation scores to determine the falsely identified legitimate devices and sanitize their affected data to regain data integrity. As a preliminary investigation, this work identifies an appropriate machine learning method, Linear Discriminant Analysis (LDA), for dimensionality reduction. The LDA results in 72.83% quarantine accuracy and 0.9 seconds training time, which is efficient than other state-of-the-art methods. In future, this would be implemented and validated with ground truth data.
翻訳日:2021-11-20 01:59:10 公開日:2021-11-15
# simplex embedded and sampling を用いた点集合登録問題としてのキャスティンググラフ同型

Casting graph isomorphism as a point set registration problem using a simplex embedding and sampling ( http://arxiv.org/abs/2111.09696v1 )

ライセンス: Link先を確認
Yigit Oktar(参考訳) グラフ同型は、最悪の時間の複雑さがまだ完全に理解されていないため、重要な問題である。 本研究では,関連する最適化問題である点集合登録の並列化を試みる。 グラフは、単純な埋め込みとサンプリングを用いて十分な次元の点集合として表現できる。 2つのグラフが与えられたとき、それらの同型はグラフの点集合形式の間の完全登録の存在に対応する。 非同型の場合、点集合形式最適化の結果は、同じ頂点数と辺数を持つ2つのグラフ間の距離測度として使うことができる。 等値クラスの関連する考えは、グラフの正準化はグラフ同型問題に取り組む上で重要なツールであり、この高次元の点集合表現に基づく直交変換不変な特徴抽出は実数であることを示している。 与えられた概念は自己同型や部分グラフ同型問題にも拡張でき、ある種の修正のある超グラフにも適用できる。

Graph isomorphism is an important problem as its worst-case time complexity is not yet fully understood. In this study, we try to draw parallels between a related optimization problem called point set registration. A graph can be represented as a point set in enough dimensions using a simplex embedding and sampling. Given two graphs, the isomorphism of them corresponds to the existence of a perfect registration between the point set forms of the graphs. In the case of non-isomorphism, the point set form optimization result can be used as a distance measure between two graphs having the same number of vertices and edges. The related idea of equivalence classes suggests that graph canonization may be an important tool in tackling graph isomorphism problem and an orthogonal transformation invariant feature extraction based on this high dimensional point set representation may be fruitful. The concepts presented can also be extended to automorphism, and subgraph isomorphism problems and can also be applied on hypergraphs with certain modifications.
翻訳日:2021-11-19 14:41:58 公開日:2021-11-15
# (参考訳) facebookのai画像類似性チャレンジマッチングトラックの2位 [全文訳有]

2nd Place Solution to Facebook AI Image Similarity Challenge Matching Track ( http://arxiv.org/abs/2111.09113v1 )

ライセンス: CC BY 4.0
SeungKee Jeon(参考訳) 本稿では,Facebook AI Image similarity Challenge : Matching Track on DrivenDataの2番目のソリューションを提案する。 このソリューションは、自己教師型学習とビジョントランスフォーマー(ViT)に基づいている。 主なブレークトラフは、クエリと参照イメージを1つのイメージとして結合し、クエリイメージが参照イメージを使用した場合、ViTに画像から直接予測するように要求することによる。 ソリューションは、個人的なリーダーボード上で0.08291マイクロ平均精度を記録した。

This paper presents the 2nd place solution to the Facebook AI Image Similarity Challenge : Matching Track on DrivenData. The solution is based on self-supervised learning, and Vision Transformer(ViT). The main breaktrough comes from concatenating query and reference image to form as one image and asking ViT to directly predict from the image if query image used reference image. The solution scored 0.8291 Micro-average Precision on the private leaderboard.
翻訳日:2021-11-19 03:47:23 公開日:2021-11-15
# (参考訳) 無人航空機によるcovid-19パンデミック時の石油・ガスパイプラインモニタリング [全文訳有]

Oil and Gas Pipeline Monitoring during COVID-19 Pandemic via Unmanned Aerial Vehicle ( http://arxiv.org/abs/2111.09155v1 )

ライセンス: CC BY 4.0
Myssar Jabbar Hammood Al-Battbootti, Iuliana Marin, Nicolae Goga, Ramona Popa(参考訳) 石油とガスの輸送パイプラインの広大なネットワークは、設備の故障や潜在的な事故を避けるために、定期的な監視とメンテナンスとハザード検査を必要とする。 新型コロナウイルス(covid-19)の深刻なパンデミックにより、企業はチームの規模を縮小せざるを得なくなった。 現場で直面しているリスクの1つは、可燃性油とガスの無制御放出である。 多くの検査方法のうち、無人航空機システムは柔軟性と安定性を持っている。 無人航空機は、監視作業中にデータをリアルタイムで転送することができる。 本稿では、光学センサーと人工知能を備えた無人航空機、特にパイプライン監視のためのディープラーニング技術を用いた画像認識に焦点を当てる。 無人航空機は、関心のある地域の画像やビデオを識別し、撮影するために、定期的なパトロール任務に使用できる。 到達が難しい場所は、より速く、安く、より少ないリスクでアクセスできる。 現在の論文は、ドローンによる検査の映像と画像をキャプチャするアイデアに基づいており、危険になる前にいくつかの潜在的な問題を発見することができる。 損傷は、外管絶縁におけるクラッドの弱化として生じ得る。 また、外部の腐食による配管の厚みが発生する場合もある。 本論文は, 石油・ガス産業の専門家による, 提案システムの機能的, 非機能的要件の発見に向けた調査をまとめたものである。

The vast network of oil and gas transmission pipelines requires periodic monitoring for maintenance and hazard inspection to avoid equipment failure and potential accidents. The severe COVID-19 pandemic situation forced the companies to shrink the size of their teams. One risk which is faced on-site is represented by the uncontrolled release of flammable oil and gas. Among many inspection methods, the unmanned aerial vehicle system contains flexibility and stability. Unmanned aerial vehicles can transfer data in real-time, while they are doing their monitoring tasks. The current article focuses on unmanned aerial vehicles equipped with optical sensing and artificial intelligence, especially image recognition with deep learning techniques for pipeline surveillance. Unmanned aerial vehicles can be used for regular patrolling duties to identify and capture images and videos of the area of interest. Places that are hard to reach will be accessed faster, cheaper and with less risk. The current paper is based on the idea of capturing video and images of drone-based inspections, which can discover several potential hazardous problems before they become dangerous. Damage can emerge as a weakening of the cladding on the external pipe insulation. There can also be the case when the thickness of piping through external corrosion can occur. The paper describes a survey completed by experts from the oil and gas industry done for finding the functional and non-functional requirements of the proposed system.
翻訳日:2021-11-19 03:44:48 公開日:2021-11-15
# アルツハイマー病分類における分布外磁気共鳴画像に対するロバスト性向上のための解釈可能性

Interpretability Aware Model Training to Improve Robustness against Out-of-Distribution Magnetic Resonance Images in Alzheimer's Disease Classification ( http://arxiv.org/abs/2111.08701v1 )

ライセンス: Link先を確認
Merel Kuijs, Catherine R. Jutzeler, Bastian Rieck and Sarah C. Br\"uningk(参考訳) プリスタンソフトチップコントラストと高分解能のため、構造磁気共鳴イメージング(MRI)は神経学に広く応用されており、画像ベース機械学習(ML)やディープラーニングアプリケーションに有用なデータソースとなっている。 しかし、MRIの取得と再構成の物理的性質は、画像強度、解像度、信号対雑音比の変動を引き起こす。 MLモデルはそのようなバリエーションに敏感であるため、デプロイされたヘルスケアMLアプリケーションの設定に固有の、配布外データのパフォーマンスは通常許容されるレベルを下回る。 異なるMRIハードウェアから得られる分布外サンプルに対するロバスト性を改善するために,解釈可能性を考慮した対向訓練システムを提案する。 このアプローチは、アルツハイマー病神経画像イニシアチブデータベースから得られた1.5Tと3TMRIに適用される。 本報告では, 分布外のサンプルに対して有望な性能を示す予備的な結果を示す。

Owing to its pristine soft-tissue contrast and high resolution, structural magnetic resonance imaging (MRI) is widely applied in neurology, making it a valuable data source for image-based machine learning (ML) and deep learning applications. The physical nature of MRI acquisition and reconstruction, however, causes variations in image intensity, resolution, and signal-to-noise ratio. Since ML models are sensitive to such variations, performance on out-of-distribution data, which is inherent to the setting of a deployed healthcare ML application, typically drops below acceptable levels. We propose an interpretability aware adversarial training regime to improve robustness against out-of-distribution samples originating from different MRI hardware. The approach is applied to 1.5T and 3T MRIs obtained from the Alzheimer's Disease Neuroimaging Initiative database. We present preliminary results showing promising performance on out-of-distribution samples.
翻訳日:2021-11-18 15:21:26 公開日:2021-11-15
# パラメトリック偏微分方程式を解くメタオートデコーダ

Meta-Auto-Decoder for Solving Parametric Partial Differential Equations ( http://arxiv.org/abs/2111.08823v1 )

ライセンス: Link先を確認
Xiang Huang, Zhanhong Ye, Hongsheng Liu, Beiji Shi, Zidong Wang, Kang Yang, Yang Li, Bingya Weng, Min Wang, Haotian Chu, Jing Zhou, Fan Yu, Bei Hua, Lei Chen, Bin Dong(参考訳) 部分微分方程式 (Partial Differential Equations, PDE) は、科学と工学の多くの分野においてユビキタスであり、解決が困難である。 一般に、PDEの閉形式解は利用できず、数値近似法は計算コストが高い。 PDEのパラメータは、逆問題、制御と最適化、リスク評価、不確実性定量化など、多くのアプリケーションで可変である。 これらのアプリケーションでは、1つのインスタンスではなくパラメトリックpdesを解決することが目標です。 提案手法はメタオートデコーダ (mad) と呼ばれ, パラメトリック pdes の解法をメタ学習問題として扱い, 異なるタスク/pde を扱うために \cite{park2019deepsdf} のオートデコーダ構造を利用する。 PDE支配方程式と境界条件から引き起こされる物理インフォームド損失は、異なるタスクのトレーニング損失として使用される。 MADの目標は、様々なタスクをまたいで一般化できる優れたモデル初期化を学習し、最終的に見えないタスクをより早く学習できるようにすることである。 MADのインスピレーションはパラメトリックPDE解の低次元構造から来ており、多様体学習の観点から我々のアプローチを説明する。 最後に,バーガーズ方程式,ラプラス方程式,時間領域マクスウェル方程式など,広範な数値研究を行いながら,狂気の力を示す。 MADは、他のディープラーニング手法と比較して精度を損なうことなく、より高速な収束速度を示す。

Partial Differential Equations (PDEs) are ubiquitous in many disciplines of science and engineering and notoriously difficult to solve. In general, closed-form solutions of PDEs are unavailable and numerical approximation methods are computationally expensive. The parameters of PDEs are variable in many applications, such as inverse problems, control and optimization, risk assessment, and uncertainty quantification. In these applications, our goal is to solve parametric PDEs rather than one instance of them. Our proposed approach, called Meta-Auto-Decoder (MAD), treats solving parametric PDEs as a meta-learning problem and utilizes the Auto-Decoder structure in \cite{park2019deepsdf} to deal with different tasks/PDEs. Physics-informed losses induced from the PDE governing equations and boundary conditions is used as the training losses for different tasks. The goal of MAD is to learn a good model initialization that can generalize across different tasks, and eventually enables the unseen task to be learned faster. The inspiration of MAD comes from (conjectured) low-dimensional structure of parametric PDE solutions and we explain our approach from the perspective of manifold learning. Finally, we demonstrate the power of MAD though extensive numerical studies, including Burgers' equation, Laplace's equation and time-domain Maxwell's equations. MAD exhibits faster convergence speed without losing the accuracy compared with other deep learning methods.
翻訳日:2021-11-18 14:16:20 公開日:2021-11-15
# (参考訳) 皮膚科AIの相違 : 異種臨床画像を用いた評価 [全文訳有]

Disparities in Dermatology AI: Assessments Using Diverse Clinical Images ( http://arxiv.org/abs/2111.08006v1 )

ライセンス: CC BY 4.0
Roxana Daneshjou, Kailas Vodrahalli, Weixin Liang, Roberto A Novoa, Melissa Jenkins, Veronica Rotemberg, Justin Ko, Susan M Swetter, Elizabeth E Bailey, Olivier Gevaert, Pritam Mukherjee, Michelle Phung, Kiana Yekrang, Bradley Fong, Rachna Sahasrabudhe, James Zou, Albert Chiou(参考訳) 30億人を超える人々が皮膚疾患の治療を受けられない。 AI診断ツールは早期皮膚がんの検出に役立つが、ほとんどのモデルは様々な皮膚のトーンや珍しい疾患の画像に基づいて評価されていない。 これに対処するために、私たちは、多種多様な皮膚科画像(ddi)データセットをキュレーションしました。 我々は、最先端の皮膚科AIモデルがDDIで著しく悪化していることを示し、ROC-AUCは、モデルの最初の結果と比較して29~40%低下した。 ddiデータセットでよく表される暗い肌の色とまれな疾患は、パフォーマンスの低下につながることが分かりました。 さらに,様々なトレーニングデータなしでは,最先端の堅牢なトレーニング手法ではこれらのバイアスを補正できないことを示す。 本研究は, 多様な患者やすべての疾患に対する信頼性を確保するために, 皮膚科のAIにおける重要な弱点とバイアスを明らかにした。

More than 3 billion people lack access to care for skin disease. AI diagnostic tools may aid in early skin cancer detection; however most models have not been assessed on images of diverse skin tones or uncommon diseases. To address this, we curated the Diverse Dermatology Images (DDI) dataset - the first publicly available, pathologically confirmed images featuring diverse skin tones. We show that state-of-the-art dermatology AI models perform substantially worse on DDI, with ROC-AUC dropping 29-40 percent compared to the models' original results. We find that dark skin tones and uncommon diseases, which are well represented in the DDI dataset, lead to performance drop-offs. Additionally, we show that state-of-the-art robust training methods cannot correct for these biases without diverse training data. Our findings identify important weaknesses and biases in dermatology AI that need to be addressed to ensure reliable application to diverse patients and across all disease.
翻訳日:2021-11-18 07:52:30 公開日:2021-11-15
# (参考訳) モデルに基づくマルチタスク強化学習におけるカタストロフィック干渉を防ぐモジュールネットワーク [全文訳有]

Modular Networks Prevent Catastrophic Interference in Model-Based Multi-Task Reinforcement Learning ( http://arxiv.org/abs/2111.08010v1 )

ライセンス: CC BY 4.0
Robin Schiewer and Laurenz Wiskott(参考訳) マルチタスク強化学習環境では、学習者はそれらの類似性を利用して複数の関連するタスクの訓練を受ける。 同時に、訓練されたエージェントは、より広い範囲の様々な問題を解決することができる。 この効果はモデルフリーなマルチタスク手法では十分に文書化されているが、複数のタスクに1つの学習力学モデルを使用する場合の有害な効果を示す。 そこで本研究では,モデルベースマルチタスク強化学習が共有ダイナミクスモデルから,モデルフリーな手法が共有ポリシネットワークから得られるのと同じような方法で得られるかどうかという根本的な問題に対処する。 単一ダイナミクスモデルを用いて、タスクの混乱と性能低下の明確な証拠を見出す。 修正として、各タスクで分離されたサブネットワークをトレーニングして学習ダイナミクスモデルの内部構造を強制することは、同じ量のパラメータを使用しながら、パフォーマンスを著しく向上させる。 本稿では,単純なgridworld とより複雑な vizdoom マルチタスク実験を用いて両手法を比較した。

In a multi-task reinforcement learning setting, the learner commonly benefits from training on multiple related tasks by exploiting similarities among them. At the same time, the trained agent is able to solve a wider range of different problems. While this effect is well documented for model-free multi-task methods, we demonstrate a detrimental effect when using a single learned dynamics model for multiple tasks. Thus, we address the fundamental question of whether model-based multi-task reinforcement learning benefits from shared dynamics models in a similar way model-free methods do from shared policy networks. Using a single dynamics model, we see clear evidence of task confusion and reduced performance. As a remedy, enforcing an internal structure for the learned dynamics model by training isolated sub-networks for each task notably improves performance while using the same amount of parameters. We illustrate our findings by comparing both methods on a simple gridworld and a more complex vizdoom multi-task experiment.
翻訳日:2021-11-18 07:41:38 公開日:2021-11-15
# (参考訳) 会員推定攻撃における難易度校正の重要性について [全文訳有]

On the Importance of Difficulty Calibration in Membership Inference Attacks ( http://arxiv.org/abs/2111.08440v1 )

ライセンス: CC0 1.0
Lauren Watson and Chuan Guo and Graham Cormode and Alex Sablayrolles(参考訳) 近年,メンバーシップ推論攻撃に対する機械学習モデルの脆弱性が注目されている。 しかし、既存の攻撃は主に偽陽性率が高いために実行不可能であり、非メンバーのサンプルは誤ってメンバーとして予測されることが多い。 このタイプのエラーは、予測されたメンバーシップ信号の信頼性を低下させる。 本研究では,攻撃の予測メンバーシップスコアを,対象サンプルを正しく分類することの困難さに応じて調整する,‘emph{difficulty calibration}’から,メンバシップ推論攻撃が大幅に恩恵を受けることを論じる。 キャリブレーションの難易度は, 精度を損なうことなく, 既存攻撃の偽陽性率を大幅に低減できることを示す。

The vulnerability of machine learning models to membership inference attacks has received much attention in recent years. However, existing attacks mostly remain impractical due to having high false positive rates, where non-member samples are often erroneously predicted as members. This type of error makes the predicted membership signal unreliable, especially since most samples are non-members in real world applications. In this work, we argue that membership inference attacks can benefit drastically from \emph{difficulty calibration}, where an attack's predicted membership score is adjusted to the difficulty of correctly classifying the target sample. We show that difficulty calibration can significantly reduce the false positive rate of a variety of existing attacks without a loss in accuracy.
翻訳日:2021-11-18 07:27:33 公開日:2021-11-15
# (参考訳) 限度低光子x線トモグラフィにおける機械学習の有用性 [全文訳有]

Advantage of Machine Learning over Maximum Likelihood in Limited-Angle Low-Photon X-Ray Tomography ( http://arxiv.org/abs/2111.08011v1 )

ライセンス: CC BY 4.0
Zhen Guo (1), Jung Ki Song (2), George Barbastathis (2,3), Michael E. Glinsky (4), Courtenay T. Vaughan (4), Kurt W. Larson (4), Bradley K. Alpert (5), Zachary H. Levine (6) ((1) Department of Electrical Engineering and Computer Science, Massachusetts Institute of Technology, Cambridge, Massachusetts, 02139, USA, (2) Department of Mechanical Engineering, Massachusetts Institute of Technology, Cambridge, Massachusetts, 02139, USA, (3) Singapore-MIT Alliance for Research and Technology (SMART) Centre, Singapore 13860, (4) Sandia National Laboratory, Albuquerque, New Mexico, 87123, USA, (5) Applied and Computational Mathematics Division, National Institute of Standards and Technology, Boulder, Colorado, 80305, USA, (6) Quantum Measurement Division, National Institute of Standards and Technology, Gaithersburg, Maryland 20899, USA)(参考訳) リミテッドアングルX線トモグラフィーは一般に不条件逆問題である。 特にプロジェクション角が制限され、光子制限条件で測定される場合、フィルタバックプロジェクションのような古典的アルゴリズムからの再構成は、欠陥コーン問題により忠実さを失い、アーティファクトを取得する可能性がある。 良好な再構成結果を得るためには、通常、全変動最小化や非局所画像類似性といった事前の仮定を再構成アルゴリズムに組み込む。 本研究では,ニューラルネットワークを用いて,復元過程における事前分布を決定・適用する。 我々のニューラルネットワークは、合成トレーニングサンプルから直接事前学習する。 したがって、ニューラルネットは、私たちが再構成に興味を持っているオブジェクトのクラスに特有の事前分布を得る。 特に,CircuitFakerと呼ばれるモデルから3次元合成集積回路(IC)データをトレーニングした3次元畳み込み層と3次元アテンション層を用いた深部生成モデルを用いた。 投影角度と光子予算が限られている場合、我々の深層生成モデルによる事前予測は、最大確率推定と比較して合成データのic再構成品質を劇的に改善できることを実証する。 CircuitFakerの合成ICデータによる深層生成モデルのトレーニングは、機械学習から学習した能力を示している。 実験データによってプロセスが再現されると、機械学習の利点が持続することを期待している。 限られた角度のX線トモグラフィにおける機械学習の利点は、低光子ナノスケールイメージングにも応用できる可能性がある。

Limited-angle X-ray tomography reconstruction is an ill-conditioned inverse problem in general. Especially when the projection angles are limited and the measurements are taken in a photon-limited condition, reconstructions from classical algorithms such as filtered backprojection may lose fidelity and acquire artifacts due to the missing-cone problem. To obtain satisfactory reconstruction results, prior assumptions, such as total variation minimization and nonlocal image similarity, are usually incorporated within the reconstruction algorithm. In this work, we introduce deep neural networks to determine and apply a prior distribution in the reconstruction process. Our neural networks learn the prior directly from synthetic training samples. The neural nets thus obtain a prior distribution that is specific to the class of objects we are interested in reconstructing. In particular, we used deep generative models with 3D convolutional layers and 3D attention layers which are trained on 3D synthetic integrated circuit (IC) data from a model dubbed CircuitFaker. We demonstrate that, when the projection angles and photon budgets are limited, the priors from our deep generative models can dramatically improve the IC reconstruction quality on synthetic data compared with maximum likelihood estimation. Training the deep generative models with synthetic IC data from CircuitFaker illustrates the capabilities of the learned prior from machine learning. We expect that if the process were reproduced with experimental data, the advantage of the machine learning would persist. The advantages of machine learning in limited angle X-ray tomography may further enable applications in low-photon nanoscale imaging.
翻訳日:2021-11-18 07:14:14 公開日:2021-11-15
# (参考訳) データの波動関数を学習するテンソルネットワーク [全文訳有]

Tensor network to learn the wavefunction of data ( http://arxiv.org/abs/2111.08014v1 )

ライセンス: CC BY 4.0
Anatoly Dymarsky and Kirill Pavlenko(参考訳) 数字3を手書きする方法はいくつありますか? この問題を定量化するために、手書き桁MNISTのデータセットを、繰り返し始めるまで追加画像をサンプリングすることで拡張することを想像する。 我々は、桁3の得られるすべての画像の集合を「完全な集合」と呼ぶ。 完全集合の性質を研究するために,分類(識別)とサンプリングタスクの両方を同時に行うテンソルネットワークアーキテクチャを導入する。 定性的には、トレーニングされたネットワークは全集合の指標関数を表す。 したがって、データ自体を特徴付けるのに使うことができる。 ここでは、MNISTの桁に付随する全集合を研究する。 我々のネットワークの量子力学的解釈を用いて、その絡み合いのエントロピーを計算することで全集合を特徴づける。 また,ハミング距離,有効次元,サイズなどの幾何学的性質についても検討する。 後者は上記の質問に答える - MNISTスタイルで書かれた白黒の三つ組の総数は$2^{72}$である。

How many different ways are there to handwrite digit 3? To quantify this question imagine extending a dataset of handwritten digits MNIST by sampling additional images until they start repeating. We call the collection of all resulting images of digit 3 the "full set." To study the properties of the full set we introduce a tensor network architecture which simultaneously accomplishes both classification (discrimination) and sampling tasks. Qualitatively, our trained network represents the indicator function of the full set. It therefore can be used to characterize the data itself. We illustrate that by studying the full sets associated with the digits of MNIST. Using quantum mechanical interpretation of our network we characterize the full set by calculating its entanglement entropy. We also study its geometric properties such as mean Hamming distance, effective dimension, and size. The latter answers the question above -- the total number of black and white threes written MNIST style is $2^{72}$.
翻訳日:2021-11-18 07:02:52 公開日:2021-11-15
# (参考訳) mono から binaural へ - 深さとクロスモーダルを考慮した mono audio からのバイノーラルオーディオ生成

Beyond Mono to Binaural: Generating Binaural Audio from Mono Audio with Depth and Cross Modal Attention ( http://arxiv.org/abs/2111.08046v1 )

ライセンス: CC BY 4.0
Kranti Kumar Parida, Siddharth Srivastava, Gaurav Sharma(参考訳) バイノーラルオーディオは、リスナーに没入感を与え、拡張現実と仮想現実を強化する。 しかし、バイノーラルオーディオを録音するには、左耳と右耳にマイクがあるダミーな人間の頭部を専門に設定する必要がある。 このような記録設定は構築と設定が難しいため、一般的なデバイスではモノオーディオが好まれている。 バイノーラルオーディオと同等の効果を得るため,シーンからの視覚入力を条件としたモノラルオーディオをバイノーラルオーディオに引き上げる試みが近年行われている。 このようなアプローチは、マイクロホンから物体を生成する異なる音の距離という、タスクに重要な手がかりを使用していない。 本研究では,シーンの奥行きマップが,シーン内の異なる物体の距離情報を引き出すプロキシとして機能し,音声バイノーラル化のタスクに役立てることができることを論じる。 本稿では,画像,奥行き,音声を同時符号化する階層的注意機構を備えた,新しいエンコーダ・デコーダアーキテクチャを提案する。 画像と深度表現のための最先端トランスネットワーク上にネットワークを設計する。 提案手法は,FAIR-Play と MUSIC-Stereo の2つの挑戦的な公開データセットに対して,最先端の手法よりも快適に動作できることを実証的に示す。 また,本手法がタスクに必要な適切な情報に集中できることを定性的に示す。 プロジェクトの詳細は \url{https://krantiparida .github.io/projects/ bmonobinaural.html} で確認できる。

Binaural audio gives the listener an immersive experience and can enhance augmented and virtual reality. However, recording binaural audio requires specialized setup with a dummy human head having microphones in left and right ears. Such a recording setup is difficult to build and setup, therefore mono audio has become the preferred choice in common devices. To obtain the same impact as binaural audio, recent efforts have been directed towards lifting mono audio to binaural audio conditioned on the visual input from the scene. Such approaches have not used an important cue for the task: the distance of different sound producing objects from the microphones. In this work, we argue that depth map of the scene can act as a proxy for inducing distance information of different objects in the scene, for the task of audio binauralization. We propose a novel encoder-decoder architecture with a hierarchical attention mechanism to encode image, depth and audio feature jointly. We design the network on top of state-of-the-art transformer networks for image and depth representation. We show empirically that the proposed method outperforms state-of-the-art methods comfortably for two challenging public datasets FAIR-Play and MUSIC-Stereo. We also demonstrate with qualitative results that the method is able to focus on the right information required for the task. The project details are available at \url{https://krantiparida .github.io/projects/ bmonobinaural.html}
翻訳日:2021-11-18 06:48:26 公開日:2021-11-15
# (参考訳) C.S.ピースの実験を再考:150年後 [全文訳有]

Revisiting C.S.Peirce's Experiment: 150 Years Later ( http://arxiv.org/abs/2111.08054v1 )

ライセンス: CC BY 4.0
Deep Mukhopadhyay(参考訳) チャールズ・サンダース・パース(Charles Sanders Peirce、1837-1914)は、アメリカの哲学者、博学者。 1872年、パースは聴覚刺激に対する応答時間の分布を決定する一連の実験を行い、これは19世紀のアメリカ数学研究(stigler, 1978)の歴史における最も重要な統計調査の1つと見なされている。 この歴史的な実験の150周年に際し、現代の統計レンズによる経験的モデリングについてのパースの見解を振り返る。

An iconoclastic philosopher and polymath, Charles Sanders Peirce (1837-1914) is among the greatest of American minds. In 1872, Peirce conducted a series of experiments to determine the distribution of response times to an auditory stimulus, which is widely regarded as one of the most significant statistical investigations in the history of nineteenth-century American mathematical research (Stigler, 1978). On the 150th anniversary of this historic experiment, we look back at Peirce's view on empirical modeling through a modern statistical lens.
翻訳日:2021-11-18 06:47:25 公開日:2021-11-15
# (参考訳) ガウス混合モデルを用いた自然勾配変分推論 [全文訳有]

Natural Gradient Variational Inference with Gaussian Mixture Models ( http://arxiv.org/abs/2111.08002v1 )

ライセンス: CC BY 4.0
Farzaneh Mahdisoltani(参考訳) ベイズ法は後方分布を用いて不確実性の尺度を推定する。 これらの方法の難易度の一つは正規化定数の計算である。 正確な後方の計算は一般に難解であり、通常は近似する。 変分推論 (VI) 法は、最適化を用いて単純な家族から選択される分布と後部を近似する。 この研究の主な貢献は、ガウスの混合物と自然勾配の変分推論のための一連の更新規則であり、それぞれの混合成分に対して独立に実行でき、潜在的に並行して実行できる。

Bayesian methods estimate a measure of uncertainty by using the posterior distribution. One source of difficulty in these methods is the computation of the normalizing constant. Calculating exact posterior is generally intractable and we usually approximate it. Variational Inference (VI) methods approximate the posterior with a distribution usually chosen from a simple family using optimization. The main contribution of this work is described is a set of update rules for natural gradient variational inference with mixture of Gaussians, which can be run independently for each of the mixture components, potentially in parallel.
翻訳日:2021-11-18 06:35:02 公開日:2021-11-15
# (参考訳) 探索と注意によるロバストスケジューリングの学習 [全文訳有]

Learning Robust Scheduling with Search and Attention ( http://arxiv.org/abs/2111.08073v1 )

ライセンス: CC BY 4.0
David Sandberg, Tor Kvernvik, Francesco Davide Calabrese(参考訳) 物理層リソースをチャネル品質,バッファサイズ,要件,制約に基づいてユーザに割り当てることは,無線リソースの管理において重要な最適化問題のひとつである。 解空間は各次元の濃度と組み合わせて成長し、厳密な時間要件を条件に、徹底的な探索や古典的な最適化アルゴリズムを用いて最適解を見つけることは困難である。 MU-MIMOスケジューリングでは、スケジューラが複数のユーザを同じ時間周波数の物理リソースに割り当てることができる。 伝統的アプローチは、実行可能性を支持するために最適な取引を行うヒューリスティックを設計する。 本稿では,MU-MIMOスケジューリング問題を木構造組合せ問題として扱うとともに,最近のAlphaGo Zeroの成功を参考に,モンテカルロ木探索と強化学習を組み合わせることで,最高の実行ソリューションを探す可能性について検討する。 ユーザの内在的な順序の欠如や、ユーザの組み合わせ間の依存関係の重要性など、目の前の問題の性質に対応するため、自己着脱機構を導入することで、ニューラルネットワークアーキテクチャを根本的に修正する。 その結果,測定の不確実性と有限バッファの存在下では,結果が実現可能であるだけでなく,最先端のヒューリスティック・ベースのスケジューリング・アプローチを大きく上回ることを示した。

Allocating physical layer resources to users based on channel quality, buffer size, requirements and constraints represents one of the central optimization problems in the management of radio resources. The solution space grows combinatorially with the cardinality of each dimension making it hard to find optimal solutions using an exhaustive search or even classical optimization algorithms given the stringent time requirements. This problem is even more pronounced in MU-MIMO scheduling where the scheduler can assign multiple users to the same time-frequency physical resources. Traditional approaches thus resort to designing heuristics that trade optimality in favor of feasibility of execution. In this work we treat the MU-MIMO scheduling problem as a tree-structured combinatorial problem and, borrowing from the recent successes of AlphaGo Zero, we investigate the feasibility of searching for the best performing solutions using a combination of Monte Carlo Tree Search and Reinforcement Learning. To cater to the nature of the problem at hand, like the lack of an intrinsic ordering of the users as well as the importance of dependencies between combinations of users, we make fundamental modifications to the neural network architecture by introducing the self-attention mechanism. We then demonstrate that the resulting approach is not only feasible but vastly outperforms state-of-the-art heuristic-based scheduling approaches in the presence of measurement uncertainties and finite buffers.
翻訳日:2021-11-18 06:25:03 公開日:2021-11-15
# (参考訳) 多変量時系列異常検出のための学習グラフニューラルネットワーク [全文訳有]

Learning Graph Neural Networks for Multivariate Time Series Anomaly Detection ( http://arxiv.org/abs/2111.08082v1 )

ライセンス: CC BY 4.0
Saswati Ray, Sana Lakdawala, Mononito Goswami, Chufan Gao(参考訳) 本稿では,最近提案されたグラフ偏差ネットワーク(GDN)に基づくGLUE(Graph Deviation Network with Local Uncertainty Estimation)を提案する。 GLUEは変数間の複雑な依存関係を自動的に学習し、それを使って異常な振る舞いを識別するだけでなく、その予測の不確実性を定量化することで、データの変動を考慮し、より解釈可能な異常検出しきい値を持つことを可能にします。 2つの実世界のデータセットの結果から、ガウスの対数確率の最適化はgdnと同等であり、実際、gdnが直接mse損失を最適化していることを考えると、ベクターオートレグレッセプタベースラインよりも優れているため、妥当であることがわかる。 まとめると, GLUEは異常検出においてGDNと競合し, 不確実性推定の利点が加わった。 また,glueは,同様のセンサを集積する有意義なセンサ埋め込みを学習する。

In this work, we propose GLUE (Graph Deviation Network with Local Uncertainty Estimation), building on the recently proposed Graph Deviation Network (GDN). GLUE not only automatically learns complex dependencies between variables and uses them to better identify anomalous behavior, but also quantifies its predictive uncertainty, allowing us to account for the variation in the data as well to have more interpretable anomaly detection thresholds. Results on two real world datasets tell us that optimizing the negative Gaussian log likelihood is reasonable because GLUE's forecasting results are at par with GDN and in fact better than the vector autoregressor baseline, which is significant given that GDN directly optimizes the MSE loss. In summary, our experiments demonstrate that GLUE is competitive with GDN at anomaly detection, with the added benefit of uncertainty estimations. We also show that GLUE learns meaningful sensor embeddings which clusters similar sensors together.
翻訳日:2021-11-18 06:15:56 公開日:2021-11-15
# (参考訳) StereoSetを用いた医学・科学マスキング言語モデルにおける性別バイアスの評価 [全文訳有]

Assessing gender bias in medical and scientific masked language models with StereoSet ( http://arxiv.org/abs/2111.08088v1 )

ライセンス: CC BY 4.0
Robert Robinson(参考訳) NLPシステムは、マスキード言語モデル(MLM)のような言語モデルを使用し、ウィキペディアのような大量のテキストで事前訓練された言語表現を生成する。 BERTは、ラベルなしテキストを用いて開発された強力で柔軟な汎用MLMシステムである。 大量のテキストの事前学習は、ソーステキストに見られる文化的・社会的バイアスをMLMシステムに透過的に埋め込む可能性がある。 本研究の目的は,一般目的のバイアスと医療用mlmとステレオセットバイアスアセスメントツールの比較である。 汎用mlmsは全体的なバイアスが大きく, バートは57点, ロバータは61点であった。 性別バイアスのカテゴリーは最高の成績がみられた場所であり、BERTは63、RoBERTaは73であった。 医学的なmlmsは、scibertを除いて、すべてのカテゴリーにおいて、汎用mlmよりも多くのバイアスを示し、bertのレースバイアススコア53よりも優れた55のレースバイアススコアを示した。 性差(医学54-58 vs. 一般63-73)と宗教46-54 vs. 58)は医療用MLMで認められた。 人種,性別,宗教,職業に関するステレオタイプ評価のための4つの医療用MLMの評価は,汎用MLMに劣る性能を示した。 これらの医学的な焦点を絞ったMLMは、トレーニングソースデータにおいてかなり異なるため、ステレオタイプバイアスのステレオタイプによる評価の違いの根本原因はおそらくStereoSetツールにある。

NLP systems use language models such as Masked Language Models (MLMs) that are pre-trained on large quantities of text such as Wikipedia create representations of language. BERT is a powerful and flexible general-purpose MLM system developed using unlabeled text. Pre-training on large quantities of text also has the potential to transparently embed the cultural and social biases found in the source text into the MLM system. This study aims to compare biases in general purpose and medical MLMs with the StereoSet bias assessment tool. The general purpose MLMs showed significant bias overall, with BERT scoring 57 and RoBERTa scoring 61. The category of gender bias is where the best performances were found, with 63 for BERT and 73 for RoBERTa. Performances for profession, race, and religion were similar to the overall bias scores for the general-purpose MLMs.Medical MLMs showed more bias in all categories than the general-purpose MLMs except for SciBERT, which showed a race bias score of 55, which was superior to the race bias score of 53 for BERT. More gender (Medical 54-58 vs. General 63-73) and religious (46-54 vs. 58) biases were found with medical MLMs. This evaluation of four medical MLMs for stereotyped assessments about race, gender, religion, and profession showed inferior performance to general-purpose MLMs. These medically focused MLMs differ considerably in training source data, which is likely the root cause of the differences in ratings for stereotyped biases from the StereoSet tool.
翻訳日:2021-11-18 06:07:42 公開日:2021-11-15
# (参考訳) visualenv:blenderを使ったビジュアルジム環境 [全文訳有]

VisualEnv: visual Gym environments with Blender ( http://arxiv.org/abs/2111.08096v1 )

ライセンス: CC BY-SA 4.0
Andrea Scorsoglio, Roberto Furfaro(参考訳) 本稿では,強化学習のための視覚環境構築ツールであるVisualEnvを紹介する。 オープンソースのモデリングおよびレンダリングソフトウェアであるBlenderと、シミュレーション用の環境モデルを生成するために使用されるpythonモジュールであるOpenAI Gymを統合した製品である。 VisualEnvは、フォトリアリスティックなレンダリング機能とpythonとの完全な統合を備えたカスタム環境を作成することができる。 このフレームワークは、強化学習エージェントのトレーニング機能を示す一連の例で説明され、テストされている。

In this paper VisualEnv, a new tool for creating visual environment for reinforcement learning is introduced. It is the product of an integration of an open-source modelling and rendering software, Blender, and a python module used to generate environment model for simulation, OpenAI Gym. VisualEnv allows the user to create custom environments with photorealistic rendering capabilities and full integration with python. The framework is described and tested on a series of example problems that showcase its features for training reinforcement learning agents.
翻訳日:2021-11-18 06:01:53 公開日:2021-11-15
# (参考訳) 変分オートエンコーダにおけるマルチタスク目標によるストーリー生成の検討 [全文訳有]

Exploring Story Generation with Multi-task Objectives in Variational Autoencoders ( http://arxiv.org/abs/2111.08133v1 )

ライセンス: CC BY 4.0
Zhuohan Xie, Trevor Cohn, Jey Han Lau(参考訳) GPT-2は、強力な生成能力を提供するため、ストーリー生成モデルに頻繁に採用されている。 しかし、一貫性のあるストーリーの生成に失敗し、多様性を欠いている。 現在のストーリー生成モデルは、プロットやコモンセンスなどの追加情報をGPT-2に利用して生成プロセスを導く。 これらのアプローチはストーリーの生成品質の改善に重点を置いていますが、作業は品質と多様性の両方に注目しています。 本稿では,BERT と GPT-2 を組み合わせて変分オートエンコーダ (VAE) を構築し,ストーリートピックや談話関係などのグローバルな特徴を学習するための追加目的を追加することで拡張する。 私たちの評価では、強化されたvaeはより良い品質と多様性のトレードオフを提供し、より反復的なストーリーコンテンツを生成し、より有益な潜在変数を学ぶことができます。

GPT-2 has been frequently adapted in story generation models as it provides powerful generative capability. However, it still fails to generate consistent stories and lacks diversity. Current story generation models leverage additional information such as plots or commonsense into GPT-2 to guide the generation process. These approaches focus on improving generation quality of stories while our work look at both quality and diversity. We explore combining BERT and GPT-2 to build a variational autoencoder (VAE), and extend it by adding additional objectives to learn global features such as story topic and discourse relations. Our evaluations show our enhanced VAE can provide better quality and diversity trade off, generate less repetitive story content and learn a more informative latent variable.
翻訳日:2021-11-18 05:54:03 公開日:2021-11-15
# (参考訳) クライミンググレードスケールのベイズ推定 [全文訳有]

Bayesian inference of the climbing grade scale ( http://arxiv.org/abs/2111.08140v1 )

ライセンス: CC BY 4.0
Alexei Drummond and Alex Popinga(参考訳) クライミンググレードは、その難易度に基づいて登山ルートを分類するために使用され、ロッククライミングのスポーツにおいて中心的な役割を果たすようになった。 近年,選手間の試合の動的ブラッドレー・テリーモデルに基づいて,全履歴上昇データからクライミンググレードを推定する初の統計的厳密な手法が提案されている。 本稿では,マルコフ連鎖モンテカルロを用いた全史的評価モデルに基づいて推論を行い,定期的に登頂する登山者からなるキュレートデータセットに適用する。 これらのデータを用いて、モデルの基本的なスケールパラメータmを推定し、グレードの増大に伴う困難度の比例的増加を定義する。 このデータは、登頂グレードスケールがデシベルや星等級のような難易度の対数スケールであるという仮定に従っていることを示す。 ewbank, french, uiaaのクライミンググレードシステムのインクリメントは, それぞれ2.1倍, 2.09倍, 2.13倍の難易度に相当し, 成功確率のロジスティックモデルがグレード関数であると推定した。 一方、ボルダリング(vグレードスケール)のバーミン尺度は、段階ごとの難易度が3.17増加することに対応している。 さらに,クライミンググレーティング尺度の対数的性質とウェーバーとフェックナーの心理物理学的法則との関係について考察した。

Climbing grades are used to classify a climbing route based on its perceived difficulty, and have come to play a central role in the sport of rock climbing. Recently, the first statistically rigorous method for estimating climbing grades from whole-history ascent data was described, based on the dynamic Bradley-Terry model for games between players of time-varying ability. In this paper, we implement inference under the whole-history rating model using Markov chain Monte Carlo and apply the method to a curated data set made up of climbers who climb regularly. We use these data to get an estimate of the model's fundamental scale parameter m, which defines the proportional increase in difficulty associated with an increment of grade. We show that the data conform to assumptions that the climbing grade scale is a logarithmic scale of difficulty, like decibels or stellar magnitude. We estimate that an increment in Ewbank, French and UIAA climbing grade systems corresponds to 2.1, 2.09 and 2.13 times increase in difficulty respectively, assuming a logistic model of probability of success as a function of grade. Whereas we find that the Vermin scale for bouldering (V-grade scale) corresponds to a 3.17 increase in difficulty per grade increment. In addition, we highlight potential connections between the logarithmic properties of climbing grade scales and the psychophysical laws of Weber and Fechner.
翻訳日:2021-11-18 05:39:58 公開日:2021-11-15
# 凸幾何学によるマルチクラスオンライン学習

Margin-Independent Online Multiclass Learning via Convex Geometry ( http://arxiv.org/abs/2111.08057v1 )

ライセンス: Link先を確認
Guru Guruganesh, Allen Liu, Jon Schneider, Joshua Wang(参考訳) 逆選択されたクエリのストリームが到着し,オンラインでラベルを割り当てなければならない,多クラス分類の問題を考える。 誤分類率を最小化しようとする従来の境界とは異なり、各クエリから正しいラベルに対応する領域までの距離を最小化する。 真のラベルが近隣のパーティション(すなわち、ある点のラベルがユークリッド距離に最も近い$k$のセンタによって与えられる)で決定されると、クエリの総数に依存しない損失が得られることを示す。 学習一般凸集合はクエリ毎にほぼ線形な損失を必要とすることを示すことにより,この結果を補完する。 その結果,文脈探索の幾何学的問題に対する後悔の保証が得られた。 また,多クラス分類から二進分類への新しい還元手法を開発し,独立して興味を持つことができる。

We consider the problem of multi-class classification, where a stream of adversarially chosen queries arrive and must be assigned a label online. Unlike traditional bounds which seek to minimize the misclassification rate, we minimize the total distance from each query to the region corresponding to its correct label. When the true labels are determined via a nearest neighbor partition -- i.e. the label of a point is given by which of $k$ centers it is closest to in Euclidean distance -- we show that one can achieve a loss that is independent of the total number of queries. We complement this result by showing that learning general convex sets requires an almost linear loss per query. Our results build off of regret guarantees for the geometric problem of contextual search. In addition, we develop a novel reduction technique from multiclass classification to binary classification which may be of independent interest.
翻訳日:2021-11-17 16:23:23 公開日:2021-11-15
# ModelLight:交通信号制御のためのモデルベースメタ強化学習

ModelLight: Model-Based Meta-Reinforcement Learning for Traffic Signal Control ( http://arxiv.org/abs/2111.08067v1 )

ライセンス: Link先を確認
Xingshuai Huang, Di Wu, Michael Jenkin and Benoit Boulet(参考訳) 交通信号の制御は交通インフラの有効利用において重要である。 車両交通の急速な増加と交通パターンの変化により、交通信号の制御がますます困難になる。 強化学習(RL)に基づくアルゴリズムは,交通信号制御におけるその可能性を示す。 しかし、既存のソリューションの多くは大量のトレーニングデータを必要としており、現実のシナリオでは受け入れられない。 本稿では,交通信号制御のためのモデルベースメタ強化学習フレームワーク(ModelLight)を提案する。 ModelLight内では、道路交差点のためのモデルのアンサンブルと最適化に基づくメタラーニング法を用いて、RLベースの信号制御方式のデータ効率を改善する。 実世界のデータセットの実験では、ModelLightが最先端のトラヒックライト制御アルゴリズムより優れており、実際の環境と必要なインタラクションの数を大幅に削減することができる。

Traffic signal control is of critical importance for the effective use of transportation infrastructures. The rapid increase of vehicle traffic and changes in traffic patterns make traffic signal control more and more challenging. Reinforcement Learning (RL)-based algorithms have demonstrated their potential in dealing with traffic signal control. However, most existing solutions require a large amount of training data, which is unacceptable for many real-world scenarios. This paper proposes a novel model-based meta-reinforcement learning framework (ModelLight) for traffic signal control. Within ModelLight, an ensemble of models for road intersections and the optimization-based meta-learning method are used to improve the data efficiency of an RL-based traffic light control method. Experiments on real-world datasets demonstrate that ModelLight can outperform state-of-the-art traffic light control algorithms while substantially reducing the number of required interactions with the real-world environment.
翻訳日:2021-11-17 16:23:10 公開日:2021-11-15
# ゲノムデータの機械学習

Machine Learning for Genomic Data ( http://arxiv.org/abs/2111.08507v1 )

ライセンス: Link先を確認
Akankshita Dash(参考訳) 本報告では、短時間の遺伝子発現データに対する機械学習手法の適用について検討する。 標準的な機械学習アルゴリズムは長い時系列でうまく機能するが、多くの場合、少ない時間点から有意義な洞察を得ることができない。 本稿では,モデルに基づくクラスタリング手法について検討する。 我々はK-Means, Gaussian Mixture Models, Bayesian Networks, Hidden Markov Modelsなどの教師なし学習技術とよく知られた期待最大化アルゴリズムを組み合わせた。 K-Means と Gaussian Mixture Models はかなり標準的なモデルであるが、Hidden Markov Model と Bayesian Networks clustering は時系列遺伝子発現データに適した新しいアイデアである。

This report explores the application of machine learning techniques on short timeseries gene expression data. Although standard machine learning algorithms work well on longer time-series', they often fail to find meaningful insights from fewer timepoints. In this report, we explore model-based clustering techniques. We combine popular unsupervised learning techniques like K-Means, Gaussian Mixture Models, Bayesian Networks, Hidden Markov Models with the well-known Expectation Maximization algorithm. K-Means and Gaussian Mixture Models are fairly standard, while Hidden Markov Model and Bayesian Networks clustering are more novel ideas that suit time-series gene expression data.
翻訳日:2021-11-17 16:19:58 公開日:2021-11-15
# 確率自由推論による脳灰白質モデルの反転--信頼できる細胞構造計測のためのツール

Inverting brain grey matter models with likelihood-free inference: a tool for trustable cytoarchitecture measurements ( http://arxiv.org/abs/2111.08693v1 )

ライセンス: Link先を確認
Ma\"eliss Jallais (PARIETAL), Pedro Rodrigues (PARIETAL), Alexandre Gramfort (PARIETAL), Demian Wassermann (PARIETAL)(参考訳) 拡散MRI(dMRI)では,脳の灰白質細胞構造を定量的に解析し,ソマ密度と体積に敏感に特徴付けることができる。 dMRI信号と細胞構造的特徴を関連付ける問題は、少数の生理的関連パラメータとモデルを反転させるアルゴリズムを通じて脳組織を記述する数学的モデルを定義することを要求する。 この問題に対処するために,我々は新しい前方モデル,特に,比較的スパースなb-シェルを必要とする新しい方程式系を提案する。 次に,提案手法を逆転させるため,確率自由推論 (LFI) として知られるベイズ解析から最新のツールを適用した。 文献からの他のアプローチとは対照的に、このアルゴリズムは与えられた観測データ点 $x_0$ を最もよく記述するパラメータベクトル $\theta$ の推定だけでなく、パラメータ空間上の完全な後方分布 $p(\theta|x_0)$ も得る。 これにより、モデル逆転のより豊かな記述が可能になり、推定パラメータの信頼区間や、モデルが不確定性を示す可能性のあるパラメータ領域の完全な特徴づけなどの指標を提供する。 我々は, 流れの正規化として知られる深層神経密度推定器を用いて後方分布を近似し, 前方モデルからの繰り返しシミュレーションを用いて近似する。 dmipyを使ってシミュレーションのアプローチを検証し、2つの公開データセットにパイプライン全体を適用する。

Effective characterisation of the brain grey matter cytoarchitecture with quantitative sensitivity to soma density and volume remains an unsolved challenge in diffusion MRI (dMRI). Solving the problem of relating the dMRI signal with cytoarchitectural characteristics calls for the definition of a mathematical model that describes brain tissue via a handful of physiologically-rele vant parameters and an algorithm for inverting the model. To address this issue, we propose a new forward model, specifically a new system of equations, requiring a few relatively sparse b-shells. We then apply modern tools from Bayesian analysis known as likelihood-free inference (LFI) to invert our proposed model. As opposed to other approaches from the literature, our algorithm yields not only an estimation of the parameter vector $\theta$ that best describes a given observed data point $x_0$, but also a full posterior distribution $p(\theta|x_0)$ over the parameter space. This enables a richer description of the model inversion, providing indicators such as credible intervals for the estimated parameters and a complete characterization of the parameter regions where the model may present indeterminacies. We approximate the posterior distribution using deep neural density estimators, known as normalizing flows, and fit them using a set of repeated simulations from the forward model. We validate our approach on simulations using dmipy and then apply the whole pipeline on two publicly available datasets.
翻訳日:2021-11-17 16:18:35 公開日:2021-11-15
# 収縮性大脳神経比推定を用いた高速・信頼性自由宇宙論

Fast and Credible Likelihood-Free Cosmology with Truncated Marginal Neural Ratio Estimation ( http://arxiv.org/abs/2111.08030v1 )

ライセンス: Link先を確認
Alex Cole, Benjamin Kurt Miller, Samuel J. Witte, Maxwell X. Cai, Meiert W. Grootes, Francesco Nattino, Christoph Weniger(参考訳) サンプリングに基づく推論技術は現代の宇宙データ分析の中心であるが、これらの手法は次元性に乏しく、典型的には近似的あるいは難解な可能性を必要とする。 本稿では,Truncated Marginal Neural Ratio Estimation (TMNRE) (いわゆるシミュレーションベース推論の新しいアプローチ) がこれらの問題を自然に回避し,$を改良した方法について述べる。 (i)$効率、$ (ii)スケーラビリティ、および$ (iii)推測された後肢の信頼性。 宇宙マイクロ波背景測定(CMB)を用いて,従来のマルコフ・チェイン・モンテカルロ法(MCMC)よりもはるかに少ないシミュレーションコールで,TMNREが収束後部を達成可能であることを示す。 驚くべきことに、必要なサンプル数は、迷惑パラメータの数に依存しない。 さらに、 \emph{local amortization} と呼ばれるプロパティは、サンプリングベースのメソッドではアクセスできない厳密な統計一貫性チェックのパフォーマンスを可能にする。 tmnreは、従来のサンプリングベースの推論手法が収束するのに要する時間スケールが$\lambda$cdmのような単純な宇宙論モデルを大幅に超えるような拡張宇宙論の文脈において、宇宙論的データ分析の強力なツールになることを約束している。 これらの計算を行うために,オープンソースコード \texttt{swyft} を通じて TMNRE の実装を利用する。

Sampling-based inference techniques are central to modern cosmological data analysis; these methods, however, scale poorly with dimensionality and typically require approximate or intractable likelihoods. In this paper we describe how Truncated Marginal Neural Ratio Estimation (TMNRE) (a new approach in so-called simulation-based inference) naturally evades these issues, improving the $(i)$ efficiency, $(ii)$ scalability, and $(iii)$ trustworthiness of the inferred posteriors. Using measurements of the Cosmic Microwave Background (CMB), we show that TMNRE can achieve converged posteriors using orders of magnitude fewer simulator calls than conventional Markov Chain Monte Carlo (MCMC) methods. Remarkably, the required number of samples is effectively independent of the number of nuisance parameters. In addition, a property called \emph{local amortization} allows the performance of rigorous statistical consistency checks that are not accessible to sampling-based methods. TMNRE promises to become a powerful tool for cosmological data analysis, particularly in the context of extended cosmologies, where the timescale required for conventional sampling-based inference methods to converge can greatly exceed that of simple cosmological models such as $\Lambda$CDM. To perform these computations, we use an implementation of TMNRE via the open-source code \texttt{swyft}.
翻訳日:2021-11-17 16:16:56 公開日:2021-11-15
# 部分的に観察可能な歴史過程

The Partially Observable History Process ( http://arxiv.org/abs/2111.08102v1 )

ライセンス: Link先を確認
Dustin Morrill, Amy R. Greenwald, Michael Bowling(参考訳) 本稿では,強化学習のための部分可観測歴史プロセス(pohp)形式を導入する。 POHPは単一のエージェントの動作と観察を中心とし、確率過程に還元することなく他のプレイヤーの存在を抽象化する。 私たちのフォーマリズムは、アルゴリズムを設計するための合理化インターフェースを提供し、これらドメインにまたがって適用される理論を開発するために、専らシングルエージェントまたはマルチエージェントとして分類する。 我々は,pohp形式主義がマルコフ決定過程,マルコフゲーム,拡張形式ゲーム,およびそれらの部分的に観察可能な拡張など,従来のモデルとどのように統合するかを,重荷のかかる技術的機械の導入や強化学習の哲学的基盤に違反することなく示す。 我々は,観測可能な逐次的合理性を簡潔に探究し,efrアルゴリズムを再導出し,efrの理論特性をより汎用的に検証することにより,形式主義の有用性を示す。

We introduce the partially observable history process (POHP) formalism for reinforcement learning. POHP centers around the actions and observations of a single agent and abstracts away the presence of other players without reducing them to stochastic processes. Our formalism provides a streamlined interface for designing algorithms that defy categorization as exclusively single or multi-agent, and for developing theory that applies across these domains. We show how the POHP formalism unifies traditional models including the Markov decision process, the Markov game, the extensive-form game, and their partially observable extensions, without introducing burdensome technical machinery or violating the philosophical underpinnings of reinforcement learning. We illustrate the utility of our formalism by concisely exploring observable sequential rationality, re-deriving the extensive-form regret minimization (EFR) algorithm, and examining EFR's theoretical properties in greater generality.
翻訳日:2021-11-17 15:26:59 公開日:2021-11-15
# ハミルトニアンダイナミクスの確率モデルによる最適制御の学習

Learning Optimal Control with Stochastic Models of Hamiltonian Dynamics ( http://arxiv.org/abs/2111.08108v1 )

ライセンス: Link先を確認
Chandrajit Bajaj and Minh Nguyen(参考訳) 最適制御問題は、まずポントリャーギンの最大原理を適用し、次に対応する非制約ハミルトン力学系の解を計算することで解決できる。 本稿では,ロバスト性と効率のバランスを達成するために,制約のないハミルトニアンの還元ハミルトニアンについて学ぶ。 この還元ハミルトニアンは時間を遡って学習し、ポントリャーギンの最大原理条件の適用による損失関数を最小化する。 学習過程のロバスト性は、縮小ハミルトンの後方分布を徐々に学習することによってさらに向上する。 これにより、位相空間の一般化された座標(位置、速度)をより効率的にサンプリングすることができる。 我々の解フレームワークは、有限次元位相(状態)空間の最適制御問題だけでなく、無限次元の場合にも適用される。

Optimal control problems can be solved by first applying the Pontryagin maximum principle, followed by computing a solution of the corresponding unconstrained Hamiltonian dynamical system. In this paper, and to achieve a balance between robustness and efficiency, we learn a reduced Hamiltonian of the unconstrained Hamiltonian. This reduced Hamiltonian is learned by going backward in time and by minimizing the loss function resulting from application of the Pontryagin maximum principle conditions. The robustness of our learning process is then further improved by progressively learning a posterior distribution of reduced Hamiltonians. This leads to a more efficient sampling of the generalized coordinates (position, velocity) of our phase space. Our solution framework applies to not only optimal control problems with finite-dimensional phase (state) spaces but also the infinite dimensional case.
翻訳日:2021-11-17 15:26:43 公開日:2021-11-15
# エンジニアリング設計のための特許データ: レビュー

Patent Data for Engineering Design: A Review ( http://arxiv.org/abs/2111.08500v1 )

ライセンス: Link先を確認
Shuo Jiang, Serhad Sarica, Binyang Song, Jie Hu, Jianxi Luo(参考訳) 特許データは、大量の設計情報を含むため、長い間エンジニアリング設計研究に利用されてきた。 人工知能とデータサイエンスの最近の進歩は、設計理論と方法論を開発するために特許データの発掘、分析、活用する前例のない機会を提示している。 本稿では, 設計理論, 方法, ツール, 戦略, 各種の特許データ, 各種手法への貢献により, 特許・意匠に関する文献を調査する。 我々のレビューは、この分野の今後の研究の方向性に光を当てている。

Patent data have been utilized for engineering design research for long because it contains massive amount of design information. Recent advances in artificial intelligence and data science present unprecedented opportunities to mine, analyse and make sense of patent data to develop design theory and methodology. Herein, we survey the patent-for-design literature by their contributions to design theories, methods, tools, and strategies, as well as different forms of patent data and various methods. Our review sheds light on promising future research directions for the field.
翻訳日:2021-11-17 15:25:53 公開日:2021-11-15
# 冬季小麦の初期収量予測のための2次元深部回帰

Two-dimensional Deep Regression for Early Yield Prediction of Winter Wheat ( http://arxiv.org/abs/2111.08069v1 )

ライセンス: Link先を確認
Giorgio Morales, John W. Sheppard(参考訳) 作物収量予測は精密農業の課題の一つであり、フィールドの多源周期観測に基づいて自動化することができる。 本研究では,衛星画像と地上情報を組み合わせたデータから学習した畳み込みニューラルネットワーク(cnn)を用いて,収率予測問題に取り組む。 本稿では,多チャンネル入力画像を取り込んで2次元ラスタを出力する,hyper3dnetregと呼ばれるcnnアーキテクチャを提案する。 我々は,Sentinel-1衛星から取得したレーダーデータを利用する一方,地上データは窒素濃度,降水量,斜面,標高,地形位置指数(TPI),アスペクトの6つのラスタ特徴に対応する。 冬の小麦栽培期(3月)の早い時期に収集したデータを用いて,収穫期(8月)の収穫量を予測する。 冬小麦の4分野を対象に実験を行い, 提案手法は, 複数線形回帰法, AdaBoostを用いたフィードフォワードネットワークのアンサンブル, 積み重ねオートエンコーダ, および他の2つのCNNアーキテクチャを含む5つの比較手法よりも優れた結果が得られることを示した。

Crop yield prediction is one of the tasks of Precision Agriculture that can be automated based on multi-source periodic observations of the fields. We tackle the yield prediction problem using a Convolutional Neural Network (CNN) trained on data that combines radar satellite imagery and on-ground information. We present a CNN architecture called Hyper3DNetReg that takes in a multi-channel input image and outputs a two-dimensional raster, where each pixel represents the predicted yield value of the corresponding input pixel. We utilize radar data acquired from the Sentinel-1 satellites, while the on-ground data correspond to a set of six raster features: nitrogen rate applied, precipitation, slope, elevation, topographic position index (TPI), and aspect. We use data collected during the early stage of the winter wheat growing season (March) to predict yield values during the harvest season (August). We present experiments over four fields of winter wheat and show that our proposed methodology yields better results than five compared methods, including multiple linear regression, an ensemble of feedforward networks using AdaBoost, a stacked autoencoder, and two other CNN architectures.
翻訳日:2021-11-17 15:24:43 公開日:2021-11-15
# SPLDExtraTrees: キナーゼ阻害剤耐性の予測のためのロバスト機械学習アプローチ

SPLDExtraTrees: Robust machine learning approach for predicting kinase inhibitor resistance ( http://arxiv.org/abs/2111.08008v1 )

ライセンス: Link先を確認
Ziyi Yang, Zhaofeng Ye, Yijia Xiao, and Changyu Hsieh(参考訳) 薬物耐性は世界の健康にとって大きな脅威であり、疾患や薬物開発に関する臨床治療において重要な関心事である。 薬物結合に関連するタンパク質の変異は、適応的な薬剤耐性の一般的な原因である。 したがって、変異が薬物と標的タンパク質の相互作用にどのように影響するかを定量的に推定することは、薬物開発と臨床実践にとって重要なことである。 分子動力学シミュレーション、ロゼッタプロトコル、および機械学習手法に依存する計算手法は、タンパク質変異によるリガンド親和性の変化を予測することができることが証明されている。 しかし, 厳密なサンプルサイズと騒音による過度適合と一般化の問題により, 薬物耐性研究に機械学習が広く採用されている。 本稿では,タンパク質変異によるリガンド結合親和性の変化を正確に予測し,耐性を有する突然変異を同定する,堅牢な機械学習手法SPLDExtraTreesを提案する。 特に,提案手法では,学習が容易なサンプルから始まり,より困難で多様なサンプルを徐々にトレーニングに組み込む特定のスキームに従ってトレーニングデータを分類し,サンプル重み再計算とモデル更新を繰り返す。 さらに、このデータ制限予測タスクのためのタンパク質に関する貴重なドメイン知識を機械学習モデルに提供するために、物理ベースの構造的特徴を算定する。 実験では,3つのシナリオでキナーゼ阻害剤耐性を予測し,分子動力学やロゼッタ法に匹敵する予測精度を計算コストで実現した。

Drug resistance is a major threat to the global health and a significant concern throughout the clinical treatment of diseases and drug development. The mutation in proteins that is related to drug binding is a common cause for adaptive drug resistance. Therefore, quantitative estimations of how mutations would affect the interaction between a drug and the target protein would be of vital significance for the drug development and the clinical practice. Computational methods that rely on molecular dynamics simulations, Rosetta protocols, as well as machine learning methods have been proven to be capable of predicting ligand affinity changes upon protein mutation. However, the severely limited sample size and heavy noise induced overfitting and generalization issues have impeded wide adoption of machine learning for studying drug resistance. In this paper, we propose a robust machine learning method, termed SPLDExtraTrees, which can accurately predict ligand binding affinity changes upon protein mutation and identify resistance-causing mutations. Especially, the proposed method ranks training data following a specific scheme that starts with easy-to-learn samples and gradually incorporates harder and diverse samples into the training, and then iterates between sample weight recalculations and model updates. In addition, we calculate additional physics-based structural features to provide the machine learning model with the valuable domain knowledge on proteins for this data-limited predictive tasks. The experiments substantiate the capability of the proposed method for predicting kinase inhibitor resistance under three scenarios, and achieves predictive accuracy comparable to that of molecular dynamics and Rosetta methods with much less computational costs.
翻訳日:2021-11-17 15:20:06 公開日:2021-11-15
# 目標指向セマンティックコミュニケーションのための共通言語:カリキュラム学習フレームワーク

Common Language for Goal-Oriented Semantic Communications: A Curriculum Learning Framework ( http://arxiv.org/abs/2111.08051v1 )

ライセンス: Link先を確認
Mohammad Karimzadeh Farshbafan, Walid Saad, and Merouane Debbah(参考訳) セマンティック通信は、次世代無線システム上でゴール指向サービスを実現する上で重要な役割を果たす。 しかし、このドメインのほとんどの先行技術は特定のアプリケーション(例えばテキストや画像)に限定されており、特定のタスクを実行するために送信された情報の有効性をセマンティクスとともに考慮しなければならないゴール指向の通信は許可されていない。 本稿では,目標指向タスク実行を実現するための包括的意味コミュニケーションフレームワークを提案する。 話者とリスナーのセマンティクスをキャプチャするために、信念の概念を用いて共通言語を定義し、話者がリスナーに環境観察を記述できるようにする。 次に、タスクの実行時間と送信コストを最小にしつつ、観察を完全に記述する信念の最小セットを選択するための最適化問題を提案する。 この問題を解決するために, カリキュラム学習(cl)と強化学習(rl)を組み合わせた新しいトップダウンフレームワークを提案する。 シミュレーションの結果,提案手法は,学習中の収束時間,タスク実行時間,送信コストにおいて従来のRLよりも優れていた。

Semantic communications will play a critical role in enabling goal-oriented services over next-generation wireless systems. However, most prior art in this domain is restricted to specific applications (e.g., text or image), and it does not enable goal-oriented communications in which the effectiveness of the transmitted information must be considered along with the semantics so as to execute a certain task. In this paper, a comprehensive semantic communications framework is proposed for enabling goal-oriented task execution. To capture the semantics between a speaker and a listener, a common language is defined using the concept of beliefs to enable the speaker to describe the environment observations to the listener. Then, an optimization problem is posed to choose the minimum set of beliefs that perfectly describes the observation while minimizing the task execution time and transmission cost. A novel top-down framework that combines curriculum learning (CL) and reinforcement learning (RL) is proposed to solve this problem. Simulation results show that the proposed CL method outperforms traditional RL in terms of convergence time, task execution time, and transmission cost during training.
翻訳日:2021-11-17 15:19:41 公開日:2021-11-15
# 未知学習のための合成未知クラス学習

Synthetic Unknown Class Learning for Learning Unknowns ( http://arxiv.org/abs/2111.08062v1 )

ライセンス: Link先を確認
Jaeyeon Jang(参考訳) 本稿では、未知のサンプルを検知しながら、既知のクラスのサンプルを正しく分類することを目的とするオープンセット認識(OSR)問題に対処する。 OSR問題では、「未知」が無限の可能性を持つと仮定される。 直感的には、OSRシステムは未知の可能性を探るほど、未知を検知する可能性が高くなる。 そこで本稿では,生成したサンプル間の多様性を維持しつつ未知のサンプルを生成し,それらのサンプルを学習する新しい合成未知クラス学習法を提案する。 この未知のサンプル生成プロセスに加えて、知識蒸留を導入して、合成未知を学習する余地を提供する。 未知のサンプルと既知のサンプルを交互に学習することにより,多様な合成未知を経験するだけでなく,既知のクラスに対する過度な一般化を低減できる。 いくつかのベンチマークデータセットの実験により、提案手法は他の最先端手法よりも大幅に優れていることが示された。 また、MNISTデータセットのトレーニング後、提案手法を用いて、現実的な未知の数字を生成および学習できることが示されている。

This paper addresses the open set recognition (OSR) problem, where the goal is to correctly classify samples of known classes while detecting unknown samples to reject. In the OSR problem, "unknown" is assumed to have infinite possibilities because we have no knowledge about unknowns until they emerge. Intuitively, the more an OSR system explores the possibilities of unknowns, the more likely it is to detect unknowns. Thus, this paper proposes a novel synthetic unknown class learning method that generates unknown-like samples while maintaining diversity between the generated samples and learns these samples. In addition to this unknown sample generation process, knowledge distillation is introduced to provide room for learning synthetic unknowns. By learning the unknown-like samples and known samples in an alternating manner, the proposed method can not only experience diverse synthetic unknowns but also reduce overgeneralization with respect to known classes. Experiments on several benchmark datasets show that the proposed method significantly outperforms other state-of-the-art approaches. It is also shown that realistic unknown digits can be generated and learned via the proposed method after training on the MNIST dataset.
翻訳日:2021-11-17 15:07:04 公開日:2021-11-15
# オフライン強化学習におけるアクションインパクト正則性と部分的既知のモデルの利用

Exploiting Action Impact Regularity and Partially Known Models for Offline Reinforcement Learning ( http://arxiv.org/abs/2111.08066v1 )

ライセンス: Link先を確認
Vincent Liu, James Wright, Martha White(参考訳) オフライン強化学習 データバッチからのポリシの学習は難しいことが分かっています。 強い仮定がなければ、既存のアルゴリズムが失敗するような反例を簡単に構築できます。 この研究では、オフライン強化学習が効果的であるべき現実世界の問題(アクションが状態の一部に限定的な影響しか持たない場合)の特性を考える。 私たちはこのAction Impact Regularity(AIR)プロパティを形式化し紹介します。 我々はさらに,AIR特性を仮定し,活用するアルゴリズムを提案し,MDPがAIRを満たす場合の出力ポリシーの最適度を限定する。 最後に,本アルゴリズムは,正規性が保持される2つのシミュレーション環境において,異なるデータ収集ポリシーにまたがる既存のオフライン強化学習アルゴリズムよりも優れていることを示す。

Offline reinforcement learning-learning a policy from a batch of data-is known to be hard: without making strong assumptions, it is easy to construct counterexamples such that existing algorithms fail. In this work, we instead consider a property of certain real world problems where offline reinforcement learning should be effective: those where actions only have limited impact for a part of the state. We formalize and introduce this Action Impact Regularity (AIR) property. We further propose an algorithm that assumes and exploits the AIR property, and bound the suboptimality of the output policy when the MDP satisfies AIR. Finally, we demonstrate that our algorithm outperforms existing offline reinforcement learning algorithms across different data collection policies in two simulated environments where the regularity holds.
翻訳日:2021-11-17 15:01:11 公開日:2021-11-15
# TimeVAE:多変量時系列生成のための変分自動エンコーダ

TimeVAE: A Variational Auto-Encoder for Multivariate Time Series Generation ( http://arxiv.org/abs/2111.08095v1 )

ライセンス: Link先を確認
Abhyuday Desai, Cynthia Freeman, Zuhui Wang, Ian Beaver(参考訳) 時系列領域における合成データ生成の最近の研究は、ジェネレーティブ・アドバイサル・ネットワークの利用に焦点を当てている。 本稿では,変分自動エンコーダ(VAE)を用いて時系列データを合成生成する新しいアーキテクチャを提案する。 提案されたアーキテクチャには、解釈可能性、ドメイン知識をエンコードする能力、トレーニング時間の短縮など、いくつかの異なる特性がある。 4つの多変量データセットに対する類似性と予測可能性によってデータ生成品質を評価する。 我々は,vae法および最先端データ生成法において,データ可用性が生成品質に与える影響を測定するために,トレーニングデータのサイズを変化させる実験を行った。 類似性試験の結果から,VAE手法が元のデータの時間特性を正確に表現できることが示唆された。 生成データを用いた次のステップ予測タスクでは,提案するvaeアーキテクチャが最先端データ生成手法の性能を一貫して満たしているか,あるいは超えている。 ノイズ低減は、生成したデータを元のデータから逸脱させる可能性があるが、生成したデータを用いた次のステップ予測の性能を著しく向上させることができることを示す。 最後に、提案アーキテクチャは、多項式トレンドや季節性などのドメイン固有の時間パターンを組み込んで解釈可能な出力を提供する。 このような解釈性は、モデル出力の透明性を必要とするアプリケーションや、ユーザが時系列パターンの事前知識を生成モデルに注入したい場合に非常に有利である。

Recent work in synthetic data generation in the time-series domain has focused on the use of Generative Adversarial Networks. We propose a novel architecture for synthetically generating time-series data with the use of Variational Auto-Encoders (VAEs). The proposed architecture has several distinct properties: interpretability, ability to encode domain knowledge, and reduced training times. We evaluate data generation quality by similarity and predictability against four multivariate datasets. We experiment with varying sizes of training data to measure the impact of data availability on generation quality for our VAE method as well as several state-of-the-art data generation methods. Our results on similarity tests show that the VAE approach is able to accurately represent the temporal attributes of the original data. On next-step prediction tasks using generated data, the proposed VAE architecture consistently meets or exceeds performance of state-of-the-art data generation methods. While noise reduction may cause the generated data to deviate from original data, we demonstrate the resulting de-noised data can significantly improve performance for next-step prediction using generated data. Finally, the proposed architecture can incorporate domain-specific time-patterns such as polynomial trends and seasonalities to provide interpretable outputs. Such interpretability can be highly advantageous in applications requiring transparency of model outputs or where users desire to inject prior knowledge of time-series patterns into the generative model.
翻訳日:2021-11-17 14:59:19 公開日:2021-11-15
# 線形しきい値アクティベーションを持つニューラルネットワーク:構造とアルゴリズム

Neural networks with linear threshold activations: structure and algorithms ( http://arxiv.org/abs/2111.08117v1 )

ライセンス: Link先を確認
Sammy Khalife, Amitabh Basu(参考訳) 本稿では,線形しきい値アクティベーション関数を有するニューラルネットワークに関する新しい結果を示す。 このようなニューラルネットワークで表現可能な関数のクラスを正確に特徴付け、クラス内で表現可能な関数を表現するのに2つの隠蔽層が必要であることを示す。 これは、修正線形ユニット(ReLU)のような他の一般的なアクティベーション機能を用いたニューラルネットワークの最近の正確な表現可能性調査の光による驚くべき結果である。 また、クラス内の任意の関数を表現するのに必要なニューラルネットワークのサイズに関する正確な境界も与えます。 最後に,これらのニューラルネットワークのグローバル最適性に対するerm(experience risk minimization)問題を解決するアルゴリズムを設計した。 アルゴリズムの実行時間は、入力次元とネットワークアーキテクチャのサイズが固定定数である場合、データサンプルのサイズで多項式となる。 このアルゴリズムは、複数の層を持つ任意のアーキテクチャで機能するという意味ではユニークであるが、以前の多項式時間のグローバル最適アルゴリズムは、非常に制限されたアーキテクチャクラスでのみ動作する。

In this article we present new results on neural networks with linear threshold activation functions. We precisely characterize the class of functions that are representable by such neural networks and show that 2 hidden layers are necessary and sufficient to represent any function representable in the class. This is a surprising result in the light of recent exact representability investigations for neural networks using other popular activation functions like rectified linear units (ReLU). We also give precise bounds on the sizes of the neural networks required to represent any function in the class. Finally, we design an algorithm to solve the empirical risk minimization (ERM) problem to global optimality for these neural networks with a fixed architecture. The algorithm's running time is polynomial in the size of the data sample, if the input dimension and the size of the network architecture are considered fixed constants. The algorithm is unique in the sense that it works for any architecture with any number of layers, whereas previous polynomial time globally optimal algorithms work only for very restricted classes of architectures.
翻訳日:2021-11-17 14:58:59 公開日:2021-11-15
# 能動的学習による科学的エミュレーションにおけるロングテールロスの低減

Reducing the Long Tail Losses in Scientific Emulations with Active Learning ( http://arxiv.org/abs/2111.08498v1 )

ライセンス: Link先を確認
Yi Heng Lim, Muhammad Firmansyah Kasim(参考訳) ディープラーニングベースのモデルは、科学研究を加速するために科学シミュレーションをエミュレートするためにますます使われています。 しかし、正確で教師付きディープラーニングモデルには大量のラベル付きデータが必要であり、ニューラルネットワークを採用する際のボトルネックになることが多い。 本研究では,コアセット選択と呼ばれるアクティブな学習手法を用いて,事前定義された予算に基づいてデータを積極的に選択し,トレーニング用にラベル付けする。 モデルのパフォーマンスをさらに向上し、トレーニングコストを削減すべく、縮小・摂動トリックを用いたトレーニングも開始しました。 天体物理学およびプラズマ物理学におけるX線放射分光をモデル化した銀河ハロー占有分布の2つのケーススタディを検証した結果, ランダムサンプリングベースラインを用いた場合と比較して総合的な性能が向上し, さらに重要なことは, 損失分布の長い尾が, ほぼオーバーヘッドコストで, より大きな絶対損失を低減できたことだ。

Deep-learning-based models are increasingly used to emulate scientific simulations to accelerate scientific research. However, accurate, supervised deep learning models require huge amount of labelled data, and that often becomes the bottleneck in employing neural networks. In this work, we leveraged an active learning approach called core-set selection to actively select data, per a pre-defined budget, to be labelled for training. To further improve the model performance and reduce the training costs, we also warm started the training using a shrink-and-perturb trick. We tested on two case studies in different fields, namely galaxy halo occupation distribution modelling in astrophysics and x-ray emission spectroscopy in plasma physics, and the results are promising: we achieved competitive overall performance compared to using a random sampling baseline, and more importantly, successfully reduced the larger absolute losses, i.e. the long tail in the loss distribution, at virtually no overhead costs.
翻訳日:2021-11-17 14:55:23 公開日:2021-11-15
# LIMEcraft: Visual eXplanationsのための手作りスーパーピクセル選択と検査

LIMEcraft: Handcrafted superpixel selection and inspection for Visual eXplanations ( http://arxiv.org/abs/2111.08094v1 )

ライセンス: Link先を確認
Weronika Hryniewska, Adrianna Grudzie\'n, Przemys{\l}aw Biecek(参考訳) ディープラーニングアプリケーションへの関心が高まり、その検出の難しいバイアスにより、複雑なモデルの検証と説明が必要になる。 しかし、現在の説明方法は、推論過程の説明と予測結果の両方に関して限定されている。 それらは通常、モデル予測に重要な画像の場所のみを表示する。 説明と対話する可能性の欠如は、モデルがどのように機能するかを正確に検証し理解することを難しくする。 これにより、モデルを使用する場合、大きなリスクが生じる。 説明が説明対象の意味的意味を考慮しないという事実によって複合化される。 静的な説明の罠から逃れるために,ユーザが対話的に意味的に一貫した領域を選択できるlimecraftという手法を提案し,多数の画像特徴の場合には画像インスタンスの予測を徹底的に検討する。 複数のモデルを用いた実験により,モデルバイアスを示唆する画像片のフェアネスを検査することにより,モデル安全性が向上した。 コードは、http://github.com/MI 2DataLab/LIMEcraftで入手できる。

The increased interest in deep learning applications, and their hard-to-detect biases result in the need to validate and explain complex models. However, current explanation methods are limited as far as both the explanation of the reasoning process and prediction results are concerned. They usually only show the location in the image that was important for model prediction. The lack of possibility to interact with explanations makes it difficult to verify and understand exactly how the model works. This creates a significant risk when using the model. It is compounded by the fact that explanations do not take into account the semantic meaning of the explained objects. To escape from the trap of static explanations, we propose an approach called LIMEcraft that allows a user to interactively select semantically consistent areas and thoroughly examine the prediction for the image instance in case of many image features. Experiments on several models showed that our method improves model safety by inspecting model fairness for image pieces that may indicate model bias. The code is available at: http://github.com/MI 2DataLab/LIMEcraft
翻訳日:2021-11-17 14:08:42 公開日:2021-11-15
# 多言語ASRにおける教師なしと教師なしの併用訓練

Joint Unsupervised and Supervised Training for Multilingual ASR ( http://arxiv.org/abs/2111.08137v1 )

ライセンス: Link先を確認
Junwen Bai, Bo Li, Yu Zhang, Ankur Bapna, Nikhil Siddhartha, Khe Chai Sim, Tara N. Sainath(参考訳) 自己教師型トレーニングは、事前訓練モデルや、マルチリンガルASRのような音声認識のための下流ファインタニングの促進に有望な効果を示している。 既存のほとんどの手法では、第1の事前訓練段階で自己監督的損失が最適化され、第2の段階では標準監督的微調整が再開される2段階方式を採用している。 本稿では、教師付きRNN-T損失と自己監督型コントラスト・マスク型言語モデリング(MLM)損失を組み合わせ、エンドツーエンド(E2E)統合教師なし・監視訓練(JUST)手法を提案する。 8つの言語を含む非常に不均衡な公開データセットである多言語librispeech (mls) でその性能を検証する。 MLSでは,(1)スクラッチから訓練されたJUST,(2)予め訓練されたチェックポイントから微調整されたJUSTを探索する。 実験の結果、JUSTは既存の最先端の手法を一貫して上回り、モノリンガルのベースラインをかなりの差で上回り、マルチリンガルASRにおける低リソース言語を扱う能力を示している。 我々の言語の平均WERは平均単言語ベースラインを33.3%上回り、最先端の2段階XLSRを32%上回っている。 ポーランド語のような低リソース言語では、WERはモノリンガルベースラインの半分以下であり、外部監視を用いた教師あり移動学習手法に勝っている。

Self-supervised training has shown promising gains in pretraining models and facilitating the downstream finetuning for speech recognition, like multilingual ASR. Most existing methods adopt a 2-stage scheme where the self-supervised loss is optimized in the first pretraining stage, and the standard supervised finetuning resumes in the second stage. In this paper, we propose an end-to-end (E2E) Joint Unsupervised and Supervised Training (JUST) method to combine the supervised RNN-T loss and the self-supervised contrastive and masked language modeling (MLM) losses. We validate its performance on the public dataset Multilingual LibriSpeech (MLS), which includes 8 languages and is extremely imbalanced. On MLS, we explore (1) JUST trained from scratch, and (2) JUST finetuned from a pretrained checkpoint. Experiments show that JUST can consistently outperform other existing state-of-the-art methods, and beat the monolingual baseline by a significant margin, demonstrating JUST's capability of handling low-resource languages in multilingual ASR. Our average WER of all languages outperforms average monolingual baseline by 33.3%, and the state-of-the-art 2-stage XLSR by 32%. On low-resource languages like Polish, our WER is less than half of the monolingual baseline and even beats the supervised transfer learning method which uses external supervision.
翻訳日:2021-11-17 14:06:22 公開日:2021-11-15
# 変分オートエンコーダの潜時変数に対する適応次元削減アルゴリズム

An adaptive dimension reduction algorithm for latent variables of variational autoencoder ( http://arxiv.org/abs/2111.08493v1 )

ライセンス: Link先を確認
Yiran Dong and Chuanhou Gao(参考訳) ニューラルネットワークによって構築された変分オートエンコーダは、多すぎるニューラルネットワークユニットの設定によって引き起こされるオーバーフィッティング問題を持ち、潜在変数ベクトルの次元を自動的に学習できる適応次元縮小アルゴリズムを開発した。 このアプローチは、変分オートエンコーダだけでなく、条件付きVAE(CVAE)のような他の変種にも適用でき、このアルゴリズムの普遍性と効率を示す6つのデータセットに対して実験結果を示す。 このアルゴリズムの主な利点は、変分オートエンコーダ(VAE)の最小損失に達する次元を近似する潜在変数ベクトルの次元を収束させ、また、ニューラルユニットを小さくすることで生成速度と演算速度を高速化できることである。

Constructed by the neural network, variational autoencoder has the overfitting problem caused by setting too many neural units, we develop an adaptive dimension reduction algorithm that can automatically learn the dimension of latent variable vector, moreover, the dimension of every hidden layer. This approach not only apply to the variational autoencoder but also other variants like Conditional VAE(CVAE), and we show the empirical results on six data sets which presents the universality and efficiency of this algorithm. The key advantages of this algorithm is that it can converge the dimension of latent variable vector which approximates the dimension reaches minimum loss of variational autoencoder(VAE), also speeds up the generating and computing speed by reducing the neural units.
翻訳日:2021-11-17 13:45:47 公開日:2021-11-15
# スコアベース生成モデルを用いた医用画像の逆問題解決

Solving Inverse Problems in Medical Imaging with Score-Based Generative Models ( http://arxiv.org/abs/2111.08005v1 )

ライセンス: Link先を確認
Yang Song and Liyue Shen and Lei Xing and Stefano Ermon(参考訳) CT(Computed Tomography)とMRI(Magnetic Resonance Imaging)では,部分計測から医用画像の再構成が重要な逆問題である。 機械学習に基づく既存のソリューションは通常、測定結果を医療画像に直接マッピングするモデルをトレーニングし、ペア化された画像と測定のトレーニングデータセットを活用する。 これらの測定は通常、測定プロセスの固定された物理モデルを用いて画像から合成されるが、これは未知の測定プロセスへのモデルの一般化能力を妨げている。 本稿では,最近導入されたスコアベース生成モデルを用いて,逆問題解決のための教師なし手法を提案する。 具体的には,まず医療画像におけるスコアベース生成モデルを訓練し,その事前分布を捉える。 実験時の計測過程の物理モデルと測定結果から,先行測定と観測結果の両方に整合した画像の再構成を行うサンプリング手法を提案する。 本手法はトレーニング中に一定の測定過程を仮定せず,テスト時に異なる測定プロセスに柔軟に適用することができる。 実験的に,CTおよびMRIにおけるいくつかの医療画像タスクにおいて,教師あり学習技術と同等以上の性能を観察し,未知の測定プロセスに対して極めて優れた一般化を示した。

Reconstructing medical images from partial measurements is an important inverse problem in Computed Tomography (CT) and Magnetic Resonance Imaging (MRI). Existing solutions based on machine learning typically train a model to directly map measurements to medical images, leveraging a training dataset of paired images and measurements. These measurements are typically synthesized from images using a fixed physical model of the measurement process, which hinders the generalization capability of models to unknown measurement processes. To address this issue, we propose a fully unsupervised technique for inverse problem solving, leveraging the recently introduced score-based generative models. Specifically, we first train a score-based generative model on medical images to capture their prior distribution. Given measurements and a physical model of the measurement process at test time, we introduce a sampling method to reconstruct an image consistent with both the prior and the observed measurements. Our method does not assume a fixed measurement process during training, and can thus be flexibly adapted to different measurement processes at test time. Empirically, we observe comparable or better performance to supervised learning techniques in several medical imaging tasks in CT and MRI, while demonstrating significantly better generalization to unknown measurement processes.
翻訳日:2021-11-17 13:31:15 公開日:2021-11-15
# ウェアラブルバイオメトリックセンサを用いたヒューマンエラーポテンシャル推定

Human-error-potentia l Estimation based on Wearable Biometric Sensors ( http://arxiv.org/abs/2111.08502v1 )

ライセンス: Link先を確認
Hiroki Ohashi and Hiroto Nagayoshi(参考訳) 本研究は, ウェアラブルセンサを用いて, 店舗床のヒューマンエラー電位を推定する新たな課題に取り組んでいる。 生体計測技術を用いて、疲労や精神的ストレスなどの内部状態を推定する既存の研究とは異なり、センサノイズが顕著に増加するにつれて、対象者が落ち着かない状況において、人間のエラーポテンシャルを推定しようとする。 本稿では,人間の誤り・潜在的な推定問題を分類問題に還元する新しい定式化法を提案し,ノイズ検出データにおいても,分類問題の解決に使用できる新しい方法を提案する。 鍵となる考え方は、生体指標の事前知識を統合できるように確率的に生体指標を計算する過程をモデル化し、生体特徴と組み合わせて対象者の運動を表現する特徴を利用することである。 実験の結果,本手法はヒューマンエラーポテンシャルを効果的に推定できることがわかった。

This study tackles on a new problem of estimating human-error potential on a shop floor on the basis of wearable sensors. Unlike existing studies that utilize biometric sensing technology to estimate people's internal state such as fatigue and mental stress, we attempt to estimate the human-error potential in a situation where a target person does not stay calm, which is much more difficult as sensor noise significantly increases. We propose a novel formulation, in which the human-error-potentia l estimation problem is reduced to a classification problem, and introduce a new method that can be used for solving the classification problem even with noisy sensing data. The key ideas are to model the process of calculating biometric indices probabilistically so that the prior knowledge on the biometric indices can be integrated, and to utilize the features that represent the movement of target persons in combination with biometric features. The experimental analysis showed that our method effectively estimates the human-error potential.
翻訳日:2021-11-17 13:30:54 公開日:2021-11-15
# (参考訳) 深層学習インバージョン法によるノイズ検層-随時ドリルング比抵抗測定の解釈 [全文訳有]

Deep-Learning Inversion Method for the Interpretation of Noisy Logging-While-Drilli ng Resistivity Measurements ( http://arxiv.org/abs/2111.07490v1 )

ライセンス: CC BY-SA 4.0
Kyubo Noh, David Pardo, and Carlos Torres-Verdin(参考訳) 深層学習(dl)インバージョン(英語版)は、航法アプリケーションのためのlwd(lwd)比抵抗測定をリアルタイムに解析するための有望な方法である。 この文脈では、測定ノイズは反転結果に大きな影響を及ぼす可能性がある。 測定ノイズがDLインバージョン結果に与える影響を調べる既存の出版物は少ない。 本研究では,LWD比抵抗測定のノイズが存在する場合のDL反転手法の堅牢性を高めるための学習データセット生成手法を開発し,DLアーキテクチャを構築する。 2つの合成比抵抗モデルを用いて,(1)測定値にノイズを加えること,(2)再現によるトレーニングセットの強化,3)dlアーキテクチャにノイズ層を追加すること,の3つの手法を明示的に検討した。 数値的な結果から,これら3つの手法は,基本的なDLインバージョンだけでなく,従来の勾配に基づくインバージョン結果よりも,予測された地球モデルと測定の両方において良好なインバージョン結果をもたらすことが確認された。 第2と第3のアプローチを組み合わせることで、最高の結果が得られます。 提案手法は多次元DLインバージョンに容易に一般化できる。

Deep Learning (DL) inversion is a promising method for real time interpretation of logging while drilling (LWD) resistivity measurements for well navigation applications. In this context, measurement noise may significantly affect inversion results. Existing publications examining the effects of measurement noise on DL inversion results are scarce. We develop a method to generate training data sets and construct DL architectures that enhance the robustness of DL inversion methods in the presence of noisy LWD resistivity measurements. We use two synthetic resistivity models to test three approaches that explicitly consider the presence of noise: (1) adding noise to the measurements in the training set, (2) augmenting the training set by replicating it and adding varying noise realizations, and (3) adding a noise layer in the DL architecture. Numerical results confirm that the three approaches produce a denoising effect, yielding better inversion results in both predicted earth model and measurements compared not only to the basic DL inversion but also to traditional gradient based inversion results. A combination of the second and third approaches delivers the best results. The proposed methods can be readily generalized to multi dimensional DL inversion.
翻訳日:2021-11-17 04:39:43 公開日:2021-11-15
# (参考訳) モノのインターネットのための連合学習:アプリケーション、挑戦、機会 [全文訳有]

Federated Learning for Internet of Things: Applications, Challenges, and Opportunities ( http://arxiv.org/abs/2111.07494v1 )

ライセンス: CC BY 4.0
Tuo Zhang, Lei Gao, Chaoyang He, Mi Zhang, Bhaskar Krishnamachari, Salman Avestimehr(参考訳) 数十億のIoTデバイスが近い将来デプロイされ、5G/6Gによるインターネット速度の高速化と、桁違いに多くのエンドポイントが実現される可能性がある。 IoTデバイスの普及に伴い、ユーザのプライベート情報を含む膨大な量のデータが生成される。 高い通信とストレージコストとプライバシの懸念が混ざり合わさって、IoTプラットフォームにおけるクラウド上の学習と処理の集中化という従来のエコシステムに、ますます挑戦している。 フェデレーション学習(fl)は、この問題に対する最も有望な代替アプローチとして現れています。 flでは、データ駆動機械学習モデルのトレーニングは、データを中央に持ってくる必要なしに複数のクライアント間のコラボレーションの行為であり、通信とストレージのコストを軽減し、ユーザーレベルのプライバシを提供する。 我々は、IoTプラットフォームにおけるFLの機会と課題、そして将来のIoTアプリケーションをどのように実現できるかについて議論する。

Billions of IoT devices will be deployed in the near future, taking advantage of the faster Internet speed and the possibility of orders of magnitude more endpoints brought by 5G/6G. With the blooming of IoT devices, vast quantities of data that may contain private information of users will be generated. The high communication and storage costs, mixed with privacy concerns, will increasingly be challenging the traditional ecosystem of centralized over-the-cloud learning and processing for IoT platforms. Federated Learning (FL) has emerged as the most promising alternative approach to this problem. In FL, training of data-driven machine learning models is an act of collaboration between multiple clients without requiring the data to be brought to a central point, hence alleviating communication and storage costs and providing a great degree of user-level privacy. We discuss the opportunities and challenges of FL for IoT platforms, as well as how it can enable future IoT applications.
翻訳日:2021-11-17 04:26:43 公開日:2021-11-15
# (参考訳) 人工知能を用いた医療経済学の成果測定と資源管理への応用 [全文訳有]

Measuring Outcomes in Healthcare Economics using Artificial Intelligence: with Application to Resource Management ( http://arxiv.org/abs/2111.07503v1 )

ライセンス: CC BY 4.0
Chih-Hao Huang, Feras A. Batarseh, Adel Boueiz, Ajay Kulkarni, Po-Hsuan Su, Jahan Aman(参考訳) 医療におけるサービスの質は、パンデミック(コビッド19)や自然災害(ハリケーンや地震など)といった不適切な出来事に常に挑戦されている。 多くの場合、そのような出来事は、病院における複数の医療・経済的な側面と同様に、意思決定において重大な不確実性を引き起こす。 外部(地理的)または内部的要因(医学的および管理的)は、計画と予算編成のシフトにつながりますが、最も重要なのは、従来のプロセスに対する信頼を低下させます。 場合によっては、他の病院からの援助が必要であることが証明され、計画面が悪化する。 この原稿は、医療管理者が経済を組織化し、資源配分と共有の最も最適な計画を特定するのに役立つデータ駆動指標を提供する3つのデータ駆動手法を提示する。 従来の意思決定方法は、マネージャに検証済みのポリシーを推奨するに足りません。 強化学習,遺伝的アルゴリズム,トラベルセールスマン,クラスタリングを用いて,さまざまな医療変数を実験し,医療機関に適用可能なツールと結果を提示した。 実験が行われ、結果が記録され、評価され、提示される。

The quality of service in healthcare is constantly challenged by outlier events such as pandemics (i.e. Covid-19) and natural disasters (such as hurricanes and earthquakes). In most cases, such events lead to critical uncertainties in decision making, as well as in multiple medical and economic aspects at a hospital. External (geographic) or internal factors (medical and managerial), lead to shifts in planning and budgeting, but most importantly, reduces confidence in conventional processes. In some cases, support from other hospitals proves necessary, which exacerbates the planning aspect. This manuscript presents three data-driven methods that provide data-driven indicators to help healthcare managers organize their economics and identify the most optimum plan for resources allocation and sharing. Conventional decision-making methods fall short in recommending validated policies for managers. Using reinforcement learning, genetic algorithms, traveling salesman, and clustering, we experimented with different healthcare variables and presented tools and outcomes that could be applied at health institutes. Experiments are performed; the results are recorded, evaluated, and presented.
翻訳日:2021-11-17 04:11:55 公開日:2021-11-15
# (参考訳) AI保証に関する調査

A Survey on AI Assurance ( http://arxiv.org/abs/2111.07505v1 )

ライセンス: CC BY 4.0
Feras A. Batarseh, and Laura Freeman(参考訳) 人工知能(AI)アルゴリズムは、複数のドメインにわたる意思決定と運用のサポートをますます提供しています。 AIには、さまざまな問題に対する幅広いアルゴリズムライブラリが含まれている。 AIアルゴリズムを運用決定プロセスに適用する上で重要な概念のひとつは、保証の概念である。 保証に関する文献は、残念ながら、モチベーション、仮定、直観の矛盾によって引き起こされる、対立するアプローチの絡み合った風景の中にその成果を隠している。 したがって、この写本は上昇し、新しい領域であるにもかかわらず、1985年から2021年の間にAIの保証に関連する研究成果の体系的なレビューを提供し、ランドスケープに代わる構造的な代替手段を提供することを目指している。 新しいAI保証定義を採用し、提示し、アシュアランス手法を対比し、集計する。 また,既存の手法を評価,比較するために10指標スコアリングシステムを開発した。 最後に、本原稿では、ai保証の開発と展開のための基礎的な洞察、議論、今後の方向性、ロードマップ、適用可能な推奨事項を提供します。

Artificial Intelligence (AI) algorithms are increasingly providing decision making and operational support across multiple domains. AI includes a wide library of algorithms for different problems. One important notion for the adoption of AI algorithms into operational decision process is the concept of assurance. The literature on assurance, unfortunately, conceals its outcomes within a tangled landscape of conflicting approaches, driven by contradicting motivations, assumptions, and intuitions. Accordingly, albeit a rising and novel area, this manuscript provides a systematic review of research works that are relevant to AI assurance, between years 1985 - 2021, and aims to provide a structured alternative to the landscape. A new AI assurance definition is adopted and presented and assurance methods are contrasted and tabulated. Additionally, a ten-metric scoring system is developed and introduced to evaluate and compare existing methods. Lastly, in this manuscript, we provide foundational insights, discussions, future directions, a roadmap, and applicable recommendations for the development and deployment of AI assurance.
翻訳日:2021-11-17 03:55:11 公開日:2021-11-15
# (参考訳) アソシエーションルールとアンサンブル機械学習を用いた国際農業貿易の公共政策作成

Public Policymaking for International Agricultural Trade using Association Rules and Ensemble Machine Learning ( http://arxiv.org/abs/2111.07508v1 )

ライセンス: CC BY 4.0
Feras A. Batarseh, Munisamy Gopinath, Anderson Monken, Zhengrong Gu(参考訳) 国際経済は、貿易を引き起こす要因や、国全体の商品やサービスの自由な流れの結果について理解を深めてきた長い歴史がある。 自由貿易体制への最近の衝撃、特に主要経済間の貿易紛争、そして貿易戦争やパンデミックのような黒い白鳥の出来事は、政策決定を伝えるための予測の改善の必要性を高めている。 AIの手法により、経済学者はそのような予測問題を新しい方法で解決することができる。 本稿では,食品と農産物の国際取引を予測・関連付ける新しい手法を提案する。 アソシエーション・ルール(ar)分析は、市場バスケット分析のような消費者や店舗レベルでの経済シナリオに対してうまく展開されている。 しかし,本研究では,輸入・輸出関係の分析と商品貿易フローへの影響について述べる。 さらに、農業貿易予測の改善、アウトリーチイベントの影響、政策立案者への量的ポインタを提供するために、エンサンブル機械学習手法を開発した。

International economics has a long history of improving our understanding of factors causing trade, and the consequences of free flow of goods and services across countries. The recent shocks to the free trade regime, especially trade disputes among major economies, as well as black swan events, such as trade wars and pandemics, raise the need for improved predictions to inform policy decisions. AI methods are allowing economists to solve such prediction problems in new ways. In this manuscript, we present novel methods that predict and associate food and agricultural commodities traded internationally. Association Rules (AR) analysis has been deployed successfully for economic scenarios at the consumer or store level, such as for market basket analysis. In our work however, we present analysis of imports and exports associations and their effects on commodity trade flows. Moreover, Ensemble Machine Learning methods are developed to provide improved agricultural trade predictions, outlier events' implications, and quantitative pointers to policy makers.
翻訳日:2021-11-17 03:53:29 公開日:2021-11-15
# (参考訳) 時間安定なビデオインスタンスセグメンテーションのためのフレーム間注意による物体伝搬 [全文訳有]

Object Propagation via Inter-Frame Attentions for Temporally Stable Video Instance Segmentation ( http://arxiv.org/abs/2111.07529v1 )

ライセンス: CC BY-SA 4.0
Anirudh S Chakravarthy, Won-Dong Jang, Zudi Lin, Donglai Wei, Song Bai, Hanspeter Pfister(参考訳) ビデオインスタンスセグメンテーションは、ビデオ内のオブジェクトを検出し、セグメンテーションし、追跡することを目的としている。 現在のアプローチでは、画像レベルのセグメンテーションアルゴリズムを時間領域に拡張している。 しかし、これは時間的に矛盾するマスクをもたらす。 本研究では,時間安定性によるマスク品質を性能ボトルネックとして同定する。 そこで本研究では,検出の欠如による問題を解消するビデオインスタンス分割手法を提案する。 空間的情報だけでは解決できないため、時間的文脈をフレーム間注目を用いて活用する。 これにより、ネットワークは隣接フレームからのボックス予測を用いて、行方不明なオブジェクトに再フォーカスし、不足検出を克服できる。 提案手法は,YouTube-VISベンチマークで35.1%のmAPを達成し,Mask R-CNNバックボーンを用いた従来の最先端アルゴリズムよりも大幅に優れていた。 さらに,本手法は完全にオンラインであり,将来的な枠組みを必要としない。 私たちのコードはhttps://github.com/a nirudh-chakravarthy/ ObjProp.comで公開されています。

Video instance segmentation aims to detect, segment, and track objects in a video. Current approaches extend image-level segmentation algorithms to the temporal domain. However, this results in temporally inconsistent masks. In this work, we identify the mask quality due to temporal stability as a performance bottleneck. Motivated by this, we propose a video instance segmentation method that alleviates the problem due to missing detections. Since this cannot be solved simply using spatial information, we leverage temporal context using inter-frame attentions. This allows our network to refocus on missing objects using box predictions from the neighbouring frame, thereby overcoming missing detections. Our method significantly outperforms previous state-of-the-art algorithms using the Mask R-CNN backbone, by achieving 35.1% mAP on the YouTube-VIS benchmark. Additionally, our method is completely online and requires no future frames. Our code is publicly available at https://github.com/a nirudh-chakravarthy/ ObjProp.
翻訳日:2021-11-17 03:51:08 公開日:2021-11-15
# (参考訳) 連続観測シーンにおける確率的ハードアテンションモデル [全文訳有]

A Probabilistic Hard Attention Model For Sequentially Observed Scenes ( http://arxiv.org/abs/2111.07534v1 )

ライセンス: CC BY 4.0
Samrudhdhi B. Rangrej, James J. Clark(参考訳) 視覚的注意モデルは、画像内のサブリージョンのシーケンスを積極的に選択し、観察し、予測する。 ハードアテンションモデルの大半は、最初に完全な画像を分析することによって、注目に値する領域を決定する。 しかし、画像全体が最初に利用可能ではなく、一連の部分的な観察を通して徐々に知覚される場合もある。 本稿では,このような逐次観察シーンを分類するための効率的なハードアテンションモデルの設計を行う。 提示されたモデルは、画像を完全に観察することはない。 部分可観測性の下で情報領域を選択するために、モデルはベイズ最適実験設計を用いる。 まず、既に観測された領域に基づいて、観測されていない領域の特徴を合成する。 そして、予測特徴を用いて、各地域への参加が期待される情報ゲイン(EIG)を推定する。 最後に、上記のEIGが最大である位置の実際のコンテンツに対応する。 モデルが使用する a) リカレントな状態を維持するためのリカレントな特徴集積器 b) クラスラベルを予測する線形分類器 c) 非観測領域の特徴を予測する部分変分オートエンコーダ 部分vae内の正規化フローを用いて,特徴合成問題におけるマルチモダリティを扱う。 差別化可能な目標を使ってモデルをトレーニングし、5つのデータセットでテストします。 私たちのモデルはベースラインモデルよりも2~10%高い精度を実現しています。

A visual hard attention model actively selects and observes a sequence of subregions in an image to make a prediction. The majority of hard attention models determine the attention-worthy regions by first analyzing a complete image. However, it may be the case that the entire image is not available initially but instead sensed gradually through a series of partial observations. In this paper, we design an efficient hard attention model for classifying such sequentially observed scenes. The presented model never observes an image completely. To select informative regions under partial observability, the model uses Bayesian Optimal Experiment Design. First, it synthesizes the features of the unobserved regions based on the already observed regions. Then, it uses the predicted features to estimate the expected information gain (EIG) attained, should various regions be attended. Finally, the model attends to the actual content on the location where the EIG mentioned above is maximum. The model uses a) a recurrent feature aggregator to maintain a recurrent state, b) a linear classifier to predict the class label, c) a Partial variational autoencoder to predict the features of unobserved regions. We use normalizing flows in Partial VAE to handle multi-modality in the feature-synthesis problem. We train our model using a differentiable objective and test it on five datasets. Our model gains 2-10% higher accuracy than the baseline models when both have seen only a couple of glimpses.
翻訳日:2021-11-17 03:46:36 公開日:2021-11-15
# (参考訳) 儒教とサイバーパンクとミスターサイエンス:中国とEUのAI倫理の比較 [全文訳有]

Confucius, Cyberpunk and Mr. Science: Comparing AI ethics between China and the EU ( http://arxiv.org/abs/2111.07555v1 )

ライセンス: CC BY 4.0
Pascale Fung and Hubert Etienne(参考訳) 人工知能の指数的発展と応用は、社会的および倫理的な問題に対する前例のない世界的な懸念を引き起こした。 異なる産業、国際財団、政府組織、標準機関の株主はすぐに即興でAIを規制しようとする様々な倫理規定を作成した。 主要な関心事は、これらの原理に関する大きな均一性と仮定された合意主義である。 有名なカンティアン・デオントロジーのような倫理的教義が普遍主義に傾倒していることは事実であるが、実際には普遍的ではない。 実際、倫理的多元論は、共通の質問に対する異なる答えよりも、関連する質問が問うべき相違についてである。 人々は異なる道徳の教義に従うとき、問題に対するアプローチについて意見が一致しない傾向がある。 異なる文化の人々が共通の原則のセットに同意したとしても、これらの概念と関連するものについて同じ理解を共有しているとは限らない。 我々は、AIにおける倫理原則の根底にある哲学的ルーツと文化的文脈をより深く理解するために、中国新世代人工知能ガバナンス専門委員会(CNNGAIGPC)が支持する倫理原則と、欧州高レベルAI専門家グループ(HLEGAI)が支持する倫理原則を分析し比較することを提案する。 中国とEUは非常に異なる政治体制を持ち、文化遺産に多様化している。 分析では、事前に類似しているように見える原則が、実際には異なる意味を持ち、異なるアプローチから派生し、異なる目標を反映している可能性があることを強調したい。

The exponential development and application of artificial intelligence triggered an unprecedented global concern for potential social and ethical issues. Stakeholders from different industries, international foundations, governmental organisations and standards institutions quickly improvised and created various codes of ethics attempting to regulate AI. A major concern is the large homogeneity and presumed consensualism around these principles. While it is true that some ethical doctrines, such as the famous Kantian deontology, aspire to universalism, they are however not universal in practice. In fact, ethical pluralism is more about differences in which relevant questions to ask rather than different answers to a common question. When people abide by different moral doctrines, they tend to disagree on the very approach to an issue. Even when people from different cultures happen to agree on a set of common principles, it does not necessarily mean that they share the same understanding of these concepts and what they entail. In order to better understand the philosophical roots and cultural context underlying ethical principles in AI, we propose to analyse and compare the ethical principles endorsed by the Chinese National New Generation Artificial Intelligence Governance Professional Committee (CNNGAIGPC) and those elaborated by the European High-level Expert Group on AI (HLEGAI). China and the EU have very different political systems and diverge in their cultural heritages. In our analysis, we wish to highlight that principles that seem similar a priori may actually have different meanings, derived from different approaches and reflect distinct goals.
翻訳日:2021-11-17 03:17:40 公開日:2021-11-15
# (参考訳) 単一カメラを用いた高品質リアルタイム顔撮影 [全文訳有]

High-Quality Real Time Facial Capture Based on Single Camera ( http://arxiv.org/abs/2111.07556v1 )

ライセンス: CC BY 4.0
Hongwei Xu and Leijia Dai and Jianxing Fu and Xiangyuan Wang and Quanwei Wang(参考訳) 映像ベースの表情キャプチャのためのリアルタイムディープラーニングフレームワークを提案する。 このプロセスでは、FACEGOODに基づくハイエンドな顔キャプチャパイプラインを使用して表情をキャプチャする。 畳み込みニューラルネットワークを訓練し,ビデオトレーニングから高品質なブレンド形状の重み付けを生成する。 この顔撮影は完全に自動化されているので、現代の物語駆動型ビデオゲームや俳優のリアルなデジタル二重化やキャラクターごとのアニメーション対話時間といった映画の開発に関わる労力を大幅に削減することができる。 我々は,目や唇などの課題領域において,魅力的なアニメーション推論を示す。

We propose a real time deep learning framework for video-based facial expression capture. Our process uses a high-end facial capture pipeline based on FACEGOOD to capture facial expression. We train a convolutional neural network to produce high-quality continuous blendshape weight output from video training. Since this facial capture is fully automated, our system can drastically reduce the amount of labor involved in the development of modern narrative-driven video games or films involving realistic digital doubles of actors and potentially hours of animated dialogue per character. We demonstrate compelling animation inference in challenging areas such as eyes and lips.
翻訳日:2021-11-17 03:00:09 公開日:2021-11-15
# (参考訳) グラフニューラルネットワークはMaxSAT問題を解決することができるか? [全文訳有]

Can Graph Neural Networks Learn to Solve MaxSAT Problem? ( http://arxiv.org/abs/2111.07568v1 )

ライセンス: CC BY 4.0
Minghao Liu, Fuqi Jia, Pei Huang, Fan Zhang, Yuchen Sun, Shaowei Cai, Feifei Ma, Jian Zhang(参考訳) ディープラーニング技術の急速な発展に伴い、最近の様々な研究がグラフニューラルネットワーク(GNN)を用いて、学習と象徴的推論のギャップを埋める可能性を示すBoolean Satisfiability(SAT)のようなNP難問を解決しようとしている。 しかし,gnnが予測する解の質は文献ではあまり研究されていない。 本稿では,学習におけるGNNの最大満足度(MaxSAT)問題を解決する能力について,理論的・実践的両面から検討する。 我々はベンチマークからMaxSATインスタンスの解法を学ぶために2種類のGNNモデルを構築し、実験によりGNNがMaxSAT問題を解く魅力的な可能性を示す。 また,アルゴリズムアライメント理論に基づいて,GNN が MaxSAT 問題のある程度の解法を学習できるという理論的な説明も提示する。

With the rapid development of deep learning techniques, various recent work has tried to apply graph neural networks (GNNs) to solve NP-hard problems such as Boolean Satisfiability (SAT), which shows the potential in bridging the gap between machine learning and symbolic reasoning. However, the quality of solutions predicted by GNNs has not been well investigated in the literature. In this paper, we study the capability of GNNs in learning to solve Maximum Satisfiability (MaxSAT) problem, both from theoretical and practical perspectives. We build two kinds of GNN models to learn the solution of MaxSAT instances from benchmarks, and show that GNNs have attractive potential to solve MaxSAT problem through experimental evaluation. We also present a theoretical explanation of the effect that GNNs can learn to solve MaxSAT problem to some extent for the first time, based on the algorithmic alignment theory.
翻訳日:2021-11-17 02:50:43 公開日:2021-11-15
# (参考訳) DFC:ロバストポイントクラウド登録のための深い機能一貫性 [全文訳有]

DFC: Deep Feature Consistency for Robust Point Cloud Registration ( http://arxiv.org/abs/2111.07597v1 )

ライセンス: CC BY 4.0
Zhu Xu, Zhengyao Bai, Huijie Liu, Qianjie Lu, Shenglan Fan(参考訳) 重要な点雲の特徴を抽出し、それらの間のポーズを推定する方法は、その構造が固有の欠如と点雲のあいまいな順序置換のため、依然として難しい問題である。 オブジェクトの分類、オブジェクトのセグメンテーション、ポイントクラウドの登録など、ほとんどの3Dコンピュータビジョンタスクにディープラーニングベースのメソッドを適用することの大幅な改善にもかかわらず、既存の学習ベースのパイプラインでは、機能間の一貫性は魅力的ではない。 本稿では,複雑なアライメントシーンのための新たな学習ベースアライメントネットワークであるディープ特徴整合性(deep feature consistency)と,幾何対応セットを高次元特徴に変換するマルチスケールグラフ特徴マージネットワークと,複数の候補不整合部分集合を構成する対応重み付けモジュールと,相対的なポーズを推定するための閉形式解を与えるProcrustesアプローチを提案する。 深部特徴整合モジュールの最も重要なステップとして、各不整合部分集合に対する特徴整合行列を構築し、対応する部分集合の不整合確率として主ベクトルを得る。 我々は,3DMatchデータセットとKITTIオドメトリデータセットの両方に対して,アプローチの堅牢性と有効性を総合的に検証した。 大規模屋内シーンでは, 3dmatchデータセットの登録結果から, 従来型と学習型の両方の手法に勝ることを示す。 KITTIの屋外シーンでは、我々のアプローチは変換エラーを低減できる。 クロスデータセットに対する強力な一般化機能についても検討する。

How to extract significant point cloud features and estimate the pose between them remains a challenging question, due to the inherent lack of structure and ambiguous order permutation of point clouds. Despite significant improvements in applying deep learning-based methods for most 3D computer vision tasks, such as object classification, object segmentation and point cloud registration, the consistency between features is still not attractive in existing learning-based pipelines. In this paper, we present a novel learning-based alignment network for complex alignment scenes, titled deep feature consistency and consisting of three main modules: a multiscale graph feature merging network for converting the geometric correspondence set into high-dimensional features, a correspondence weighting module for constructing multiple candidate inlier subsets, and a Procrustes approach named deep feature matching for giving a closed-form solution to estimate the relative pose. As the most important step of the deep feature matching module, the feature consistency matrix for each inlier subset is constructed to obtain its principal vectors as the inlier likelihoods of the corresponding subset. We comprehensively validate the robustness and effectiveness of our approach on both the 3DMatch dataset and the KITTI odometry dataset. For large indoor scenes, registration results on the 3DMatch dataset demonstrate that our method outperforms both the state-of-the-art traditional and learning-based methods. For KITTI outdoor scenes, our approach remains quite capable of lowering the transformation errors. We also explore its strong generalization capability over cross-datasets.
翻訳日:2021-11-17 02:32:05 公開日:2021-11-15
# (参考訳) スペクトル変換によるスケーラブルトランス [全文訳有]

Spectral Transform Forms Scalable Transformer ( http://arxiv.org/abs/2111.07602v1 )

ライセンス: CC BY 4.0
Bingxin Zhou, Xinliang Liu, Yuehua Liu, Yunying Huang, Pietro Li\`o, YuGuang Wang(参考訳) ソーシャルネットワークや生体システムのような現実世界のリレーショナルシステムは、動的相互作用を含んでいる。 動的グラフ表現を学習する場合、逐次時間情報と幾何学的構造を採用することが不可欠である。 メインストリームの作業は、メッセージパッシングネットワーク(GCN、GATなど)によるトポロジ的な埋め込みを実現する。 一方、時間的進化は、ゲート機構において便利な情報フィルタリングを持つメモリユニット(lstmやgrgなど)を介して通常表現される。 しかし、このような設計は複雑すぎるエンコーディングによる大規模な入力シーケンスを防ぐ。 本研究は自己着想の哲学から学び,情報的長距離時間相互作用を用いた効率的なスペクトルベースニューラルユニットを提案する。 開発したspectrum window unit (swinit) モデルは、スケーラブルな動的グラフを精度良く予測する。 このアーキテクチャは、ランダム化されたSVD、MLP、グラフフレームレットの畳み込みを構成する、いくつかの単純な効率的な計算ブロックで組み立てられている。 SVDとMLPモジュールは、動的グラフイベントの長期的特徴進化を符号化する。 フレームレット畳み込みにおける高速なフレームレットグラフ変換は構造力学を埋め込む。 どちらの戦略も、スケーラブルな分析におけるモデルの能力を高める。 特に、反復SVD近似は、Nエッジとdエッジ特徴を持つ動的グラフのO(Nd\log(d))に対する注意の計算複雑性を縮小し、フレームレット畳み込みのマルチスケール変換は、ネットワークトレーニングにおいて十分なスケーラビリティを実現する。 我々のSWINITは,各種オンライン連続時間動的グラフ学習タスクにおける最先端性能を実現する一方で,ベースライン法と比較して学習可能なパラメータの数が最大7倍減少する。

Many real-world relational systems, such as social networks and biological systems, contain dynamic interactions. When learning dynamic graph representation, it is essential to employ sequential temporal information and geometric structure. Mainstream work achieves topological embedding via message passing networks (e.g., GCN, GAT). The temporal evolution, on the other hand, is conventionally expressed via memory units (e.g., LSTM or GRU) that possess convenient information filtration in a gate mechanism. Though, such a design prevents large-scale input sequence due to the over-complicated encoding. This work learns from the philosophy of self-attention and proposes an efficient spectral-based neural unit that employs informative long-range temporal interaction. The developed spectral window unit (SWINIT) model predicts scalable dynamic graphs with assured efficiency. The architecture is assembled with a few simple effective computational blocks that constitute randomized SVD, MLP, and graph Framelet convolution. The SVD plus MLP module encodes the long-short-term feature evolution of the dynamic graph events. A fast framelet graph transform in the framelet convolution embeds the structural dynamics. Both strategies enhance the model's ability on scalable analysis. In particular, the iterative SVD approximation shrinks the computational complexity of attention to O(Nd\log(d)) for the dynamic graph with N edges and d edge features, and the multiscale transform of framelet convolution allows sufficient scalability in the network training. Our SWINIT achieves state-of-the-art performance on a variety of online continuous-time dynamic graph learning tasks, while compared to baseline methods, the number of its learnable parameters reduces by up to seven times.
翻訳日:2021-11-17 02:11:48 公開日:2021-11-15
# (参考訳) GANに対するプロパティ推論攻撃 [全文訳有]

Property Inference Attacks Against GANs ( http://arxiv.org/abs/2111.07608v1 )

ライセンス: CC BY 4.0
Junhao Zhou, Yufei Chen, Chao Shen, Yang Zhang(参考訳) 機械学習(ML)は過去10年間に大きく進歩してきたが、最近の研究では、MLモデルはさまざまなセキュリティやプライバシ攻撃に弱いことが示されている。 これまでのところ、この分野のほとんどの攻撃は分類器で表される識別モデルに焦点を当てている。 一方、generative adversarial networks(gans)のような生成モデルのセキュリティとプライバシーのリスクにはほとんど注意が払われていない。 本稿では,GANに対する最初のトレーニングデータセットのプロパティ推論攻撃を提案する。 具体的には、マクロレベルのトレーニングデータセット特性、すなわち、特定の属性に対してターゲットGANをトレーニングするのに使用されるサンプルの割合を推測することを目的としている。 プロパティ推測攻撃が成功すれば、相手はターゲットGANのトレーニングデータセットの余分な知識を得ることができ、それによってターゲットモデル所有者の知的財産を直接侵害することができる。 また、フェアネス監査として使用して、ターゲットのGANがバイアスデータセットでトレーニングされているかどうかを確認することもできる。 さらに、プロパティ推論は、メンバシップ推論のような他の高度な攻撃のビルディングブロックとして機能する。 我々は,全ブラックボックス設定と部分ブラックボックス設定を含む2つの攻撃シナリオに合わせた一般的な攻撃パイプラインを提案する。 後者では,攻撃効率を高めるための新しい最適化フレームワークを提案する。 5つのプロパティ推論タスクにおける4つのGANモデルに対する大規模な実験は、我々の攻撃が強い性能を発揮することを示す。 さらに,我々の攻撃は,GANに対するメンバーシップ推論の性能向上に有効であることを示す。

While machine learning (ML) has made tremendous progress during the past decade, recent research has shown that ML models are vulnerable to various security and privacy attacks. So far, most of the attacks in this field focus on discriminative models, represented by classifiers. Meanwhile, little attention has been paid to the security and privacy risks of generative models, such as generative adversarial networks (GANs). In this paper, we propose the first set of training dataset property inference attacks against GANs. Concretely, the adversary aims to infer the macro-level training dataset property, i.e., the proportion of samples used to train a target GAN with respect to a certain attribute. A successful property inference attack can allow the adversary to gain extra knowledge of the target GAN's training dataset, thereby directly violating the intellectual property of the target model owner. Also, it can be used as a fairness auditor to check whether the target GAN is trained with a biased dataset. Besides, property inference can serve as a building block for other advanced attacks, such as membership inference. We propose a general attack pipeline that can be tailored to two attack scenarios, including the full black-box setting and partial black-box setting. For the latter, we introduce a novel optimization framework to increase the attack efficacy. Extensive experiments over four representative GAN models on five property inference tasks show that our attacks achieve strong performance. In addition, we show that our attacks can be used to enhance the performance of membership inference against GANs.
翻訳日:2021-11-17 01:52:34 公開日:2021-11-15
# (参考訳) エピソード強化学習における遅延フィードバック [全文訳有]

Delayed Feedback in Episodic Reinforcement Learning ( http://arxiv.org/abs/2111.07615v1 )

ライセンス: CC BY 4.0
Benjamin Howson, Ciara Pike-Burke, Sarah Filippi(参考訳) エピソディック強化学習には, 十分効率的なアルゴリズムが多数存在する。 しかしながら、これらのアルゴリズムは、各エピソードに関連する状態、行動、報酬のシーケンスが即座に到着し、環境との相互作用のたびにポリシー更新が可能であるという仮定のもとに構築されている。 この仮定は実際、特に医療やオンラインレコメンデーションのような分野では非現実的であることが多い。 本稿では,エピソディック強化学習における後悔を最小限に抑えるために,複数の効果的なアルゴリズムに対する遅延フィードバックの影響について検討する。 まず、新たなフィードバックが得られ次第、ポリシーの更新を検討します。 この更新手法を用いることで,状態数,動作数,エピソード長,予測遅延を含む追加用語によって後悔が増加することを示す。 この加法項は楽観的な選択アルゴリズムによって変化する。 また、ポリシーの更新頻度が低くなると、遅延に対する後悔の依存性が改善されることも示します。

There are many provably efficient algorithms for episodic reinforcement learning. However, these algorithms are built under the assumption that the sequences of states, actions and rewards associated with each episode arrive immediately, allowing policy updates after every interaction with the environment. This assumption is often unrealistic in practice, particularly in areas such as healthcare and online recommendation. In this paper, we study the impact of delayed feedback on several provably efficient algorithms for regret minimisation in episodic reinforcement learning. Firstly, we consider updating the policy as soon as new feedback becomes available. Using this updating scheme, we show that the regret increases by an additive term involving the number of states, actions, episode length and the expected delay. This additive term changes depending on the optimistic algorithm of choice. We also show that updating the policy less frequently can lead to an improved dependency of the regret on the delays.
翻訳日:2021-11-17 01:19:40 公開日:2021-11-15
# (参考訳) パンシャープ化法の検証について [全文訳有]

On the validation of pansharpening methods ( http://arxiv.org/abs/2111.07625v1 )

ライセンス: CC BY 4.0
Gintautas Palubinskas(参考訳) パンシャープニング法の品質の検証は、参照が直接利用できないため難しい作業である。 その間に、2つの主要なアプローチが確立された。 前者のアプローチでは、データが低解像度にどのように処理されるかはまだ明らかになっていない。 他のオープンな問題は、どの解決と対策を使うべきかという問題に関連している。 後者のアプローチでは、適切な方法を選択する方法が主な問題である。 最も比較研究では、両方のアプローチの結果は一致せず、それぞれの場合において、他の方法が最良の方法として選択されることを意味する。 したがって、新しいパンシャーペニング手法の開発者は依然としてジレンマの前面に立ち、正しい、あるいは適切な比較/評価/検証を行う方法である。 注意すべき点は、3つ目のアプローチは、特定のアプリケーションにおけるメソッドとそれらの基礎となる真理の使い方の比較を行うことである。 しかし、これは必ずしも可能ではない。通常、開発者はアプリケーションを使っていないからだ。 さらに、特定の応用において研究者にさらなる計算負荷を与えることもできる。 この論文では、上記の疑問/問題をいくつか取り上げる。 加法および乗法モデルを用いた次の成分置換(CS)および高域通過フィルタ(HPF)パンシャーペン法と,その拡張であるヘイズ補正,ヒストグラムマッチング,スペクトル応答関数(SRF)の使用,MTFに基づく低域通過フィルタについて,WorldView-2およびWorldView-4センサーのリモートセンシングデータを用いて検討した。

Validation of the quality of pansharpening methods is a difficult task because the reference is not directly available. In the meantime, two main approaches have been established: validation in reduced resolution and original resolution. In the former approach it is still not clear how the data are to be processed to a lower resolution. Other open issues are related to the question which resolution and measures should be used. In the latter approach the main problem is how the appropriate measure should be selected. In the most comparison studies the results of both approaches do not correspond, that means in each case other methods are selected as the best ones. Thus, the developers of the new pansharpening methods still stand in the front of dilemma: how to perform a correct or appropriate comparison/evaluatio n/validation. It should be noted, that the third approach is possible, that is to perform the comparison of methods in a particular application with the usage of their ground truth. But this is not always possible, because usually developers are not working with applications. Moreover, it can be an additional computational load for a researcher in a particular application. In this paper some of the questions/problems raised above are approached/discussed . The following component substitution (CS) and high pass filtering (HPF) pansharpening methods with additive and multiplicative models and their enhancements such as haze correction, histogram matching, usage of spectral response functions (SRF), modulation transfer function (MTF) based lowpass filtering are investigated on remote sensing data of WorldView-2 and WorldView-4 sensors.
翻訳日:2021-11-17 00:59:09 公開日:2021-11-15
# (参考訳) 自己監督学習を用いたグリーソングレーディングのためのマルチモーダル一般化ゼロショット学習 [全文訳有]

Multimodal Generalized Zero Shot Learning for Gleason Grading using Self-Supervised Learning ( http://arxiv.org/abs/2111.07646v1 )

ライセンス: CC BY 4.0
Dwarikanath Mahapatra(参考訳) 病理組織像からのグリーソンの診断は, 前立腺癌 (pca) の診断に必須である。 このような画像は浸潤組織切除後に得られるため,既存のパラダイムでは迅速な診断が困難である。 本稿では,非干渉的かつ容易に取得可能なMR画像からGleasonグレードを予測する手法を提案する。 一般的なゼロショット学習(GZSL)では,すべての疾患の訓練画像にアクセスできないため,この問題を解決している。 自己教師型学習を取り入れた条件付き変分オートエンコーダ(CVAE)を用いて、Gleasonグレードの順序性を利用して、未確認グレード(クラス)の合成MRI特徴ベクトルを生成する。 対応する病理組織学的特徴をサイクルganを用いて生成し、mr特徴と組み合わせてテスト画像のグリーソングレードを予測する。 実験の結果,提案手法はGZSLの競合する特徴生成手法よりも優れており,完全教師付き手法の性能に近づいた。

Gleason grading from histopathology images is essential for accurate prostate cancer (PCa) diagnosis. Since such images are obtained after invasive tissue resection quick diagnosis is challenging under the existing paradigm. We propose a method to predict Gleason grades from magnetic resonance (MR) images which are non-interventional and easily acquired. We solve the problem in a generalized zero-shot learning (GZSL) setting since we may not access training images of every disease grade. Synthetic MRI feature vectors of unseen grades (classes) are generated by exploiting Gleason grades' ordered nature through a conditional variational autoencoder (CVAE) incorporating self-supervised learning. Corresponding histopathology features are generated using cycle GANs, and combined with MR features to predict Gleason grades of test images. Experimental results show our method outperforms competing feature generating approaches for GZSL, and comes close to performance of fully supervised methods.
翻訳日:2021-11-17 00:45:07 公開日:2021-11-15
# (参考訳) 確率的ホーン非文法的知識基盤

The Possibilistic Horn Non-Clausal Knowledge Bases ( http://arxiv.org/abs/2111.07648v1 )

ライセンス: CC BY 4.0
Gonzalo E. Imaz(参考訳) 確率論理は不確実かつ部分的に矛盾した情報を扱うための最も拡張されたアプローチである。 通常の形式に関しては、確率論的推論の進歩は、主にクラス形式に焦点を当てている。 しかし、現実世界の問題のエンコーディングは、通常、非クラスル(nc)公式と、ncからクラスルへの翻訳者は、クラスル推論の実用的性能を著しく制限する深刻な欠点を生み出す。 したがって、元のnc形式で公式を計算することによって、ポシビリスティックな非クラウス的推論において注目すべき進歩も可能であることを示すいくつかの貢献を提案する。 第一に、確率的ホーン非クラウサル知識基底のクラスを定義するか、あるいはクラスを仮定する$\mathcal{\overline{H}}_\Sigma$を定義する: 確率的ホーンと命題的ホーン-NC。 $\mathcal{\overline{H}}_\Sigma $ は標準ホーン類に類似した NC の一種であることが示されている。 第二に、我々はpossibilistic non-clausal unit- resolution,} または $ \mathcal{ur}_\sigma $ を定義し、$ \mathcal{ur}_\sigma $ が $\mathcal{\overline{h}}_\sigma $members の矛盾度を正確に計算できることを証明する。 $\mathcal{ur}_\sigma $はこれまで提案されていなかったが、クローサル的な方法で定式化されており、理解や形式的な証明、非クローサル解決への将来の拡張が容易になっている。 第3に、$\mathcal{\overline{h}}_\sigma $ メンバの不整合度を計算するのに多項式時間を要することを証明します。 可算論理学には既に有理級数が存在するが、これらは全て有理数であり、従って $\mathcal{\overline{H}}_\Sigma $ は可算理数論の中で最初に特徴づけられる多項式非有理数類である。

Posibilistic logic is the most extended approach to handle uncertain and partially inconsistent information. Regarding normal forms, advances in possibilistic reasoning are mostly focused on clausal form. Yet, the encoding of real-world problems usually results in a non-clausal (NC) formula and NC-to-clausal translators produce severe drawbacks that heavily limit the practical performance of clausal reasoning. Thus, by computing formulas in its original NC form, we propose several contributions showing that notable advances are also possible in possibilistic non-clausal reasoning. {\em Firstly,} we define the class of {\em Possibilistic Horn Non-Clausal Knowledge Bases,} or $\mathcal{\overline{H}}_\Sigma$, which subsumes the classes: possibilistic Horn and propositional Horn-NC. $\mathcal{\overline{H}}_\Sigma $ is shown to be a kind of NC analogous of the standard Horn class. {\em Secondly}, we define {\em Possibilistic Non-Clausal Unit-Resolution,} or $ \mathcal{UR}_\Sigma $, and prove that $ \mathcal{UR}_\Sigma $ correctly computes the inconsistency degree of $\mathcal{\overline{H}}_\Sigma $members. $\mathcal{UR}_\Sigma $ had not been proposed before and is formulated in a clausal-like manner, which eases its understanding, formal proofs and future extension towards non-clausal resolution. {\em Thirdly}, we prove that computing the inconsistency degree of $\mathcal{\overline{H}}_\Sigma $ members takes polynomial time. Although there already exist tractable classes in possibilistic logic, all of them are clausal, and thus, $\mathcal{\overline{H}}_\Sigma $ turns out to be the first characterized polynomial non-clausal class within possibilistic reasoning.
翻訳日:2021-11-17 00:26:25 公開日:2021-11-15
# (参考訳) 累積報酬による多用途逆強化学習 [全文訳有]

Versatile Inverse Reinforcement Learning via Cumulative Rewards ( http://arxiv.org/abs/2111.07667v1 )

ライセンス: CC BY 4.0
Niklas Freymuth and Philipp Becker and Gerhard Neumann(参考訳) 逆強化学習は、専門家の行動と意図をエンコードすることを目的として、専門家のデモンストレーションから報酬関数を推論する。 現在のアプローチでは、通常、生成モデルとユニモーダルモデルを使ってこれを行います。 共通環境では、問題に対する様々な解決策があり、専門家が多用途な振る舞いを示す場合、これらの方法の一般化能力は厳しく制限される。 本稿では,得られた報酬を反復訓練された識別器の和として定式化し,これらの問題を克服する逆強化学習法を提案する。 提案手法は, 汎用的, 高品質な報酬関数を復元し, 多様な行動に配慮した行動クローニング手法と同じ品質のポリシーを実現できることを示す。

Inverse Reinforcement Learning infers a reward function from expert demonstrations, aiming to encode the behavior and intentions of the expert. Current approaches usually do this with generative and uni-modal models, meaning that they encode a single behavior. In the common setting, where there are various solutions to a problem and the experts show versatile behavior this severely limits the generalization capabilities of these methods. We propose a novel method for Inverse Reinforcement Learning that overcomes these problems by formulating the recovered reward as a sum of iteratively trained discriminators. We show on simulated tasks that our approach is able to recover general, high-quality reward functions and produces policies of the same quality as behavioral cloning approaches designed for versatile behavior.
翻訳日:2021-11-17 00:25:00 公開日:2021-11-15
# (参考訳) 学習支援チャネルを用いたコントラスト表現学習 [全文訳有]

Contrastive Representation Learning with Trainable Augmentation Channel ( http://arxiv.org/abs/2111.07679v1 )

ライセンス: CC BY 4.0
Masanori Koyama and Kentaro Minami and Takeru Miyato and Yarin Gal(参考訳) 対照的な表現学習では、拡張によって画像が変更された場合でも、画像インスタンスを分類できるようにデータ表現を訓練する。 しかし、データセットによっては、いくつかの拡張は認識を超えた画像の情報を損なう可能性があり、そのような拡張は崩壊した表現をもたらす可能性がある。 本稿では,拡張によって導入されたデータ破損とエンコーダが保持する情報との間に綱引きが存在する確率的符号化過程を形式化し,この問題に対する部分解を提案する。 このフレームワークをベースとしたinfoMaxの目的により,データに依存した拡張分布を学習し,表現の崩壊を回避することができることを示す。

In contrastive representation learning, data representation is trained so that it can classify the image instances even when the images are altered by augmentations. However, depending on the datasets, some augmentations can damage the information of the images beyond recognition, and such augmentations can result in collapsed representations. We present a partial solution to this problem by formalizing a stochastic encoding process in which there exist a tug-of-war between the data corruption introduced by the augmentations and the information preserved by the encoder. We show that, with the infoMax objective based on this framework, we can learn a data-dependent distribution of augmentations to avoid the collapse of the representation.
翻訳日:2021-11-17 00:12:39 公開日:2021-11-15
# (参考訳) 時変制約付きオンライン凸最適化のための部分線形後悔と制約違反の同時達成

Simultaneously Achieving Sublinear Regret and Constraint Violations for Online Convex Optimization with Time-varying Constraints ( http://arxiv.org/abs/2111.07707v1 )

ライセンス: CC0 1.0
Qingsong Liu, Wenfei Wu, Longbo Huang, Zhixuan Fang(参考訳) 本稿では,オンライン凸最適化(oco)問題に対する長期的および時間的制約のある仮想キュー型オンラインアルゴリズムを開発し,動的後悔と制約違反に関して性能解析を行う。 我々は、双対変数の新しい更新規則と、時間変化制約関数を双対変数に組み込む新しい方法を設計する。 我々の知る限り、我々のアルゴリズムはサブ線形動的後悔と制約違反を同時に達成する最初のパラメータフリーアルゴリズムである。 また,提案アルゴリズムは,Slater条件を必要としないなど,多くの面で最先端のアルゴリズムよりも優れている。 一方,逐次制約の変動が時間にわたって十分に滑らかである実用的で広く研究されている制約付きoco問題に対して,本アルゴリズムは$o(1)$制約違反を実現する。 さらに、時間的地平線$T$が未知の場合までアルゴリズムと解析を拡張します。 最後に,提案手法の理論的保証を検証するために数値実験を行い,提案手法の応用について概説する。

In this paper, we develop a novel virtual-queue-based online algorithm for online convex optimization (OCO) problems with long-term and time-varying constraints and conduct a performance analysis with respect to the dynamic regret and constraint violations. We design a new update rule of dual variables and a new way of incorporating time-varying constraint functions into the dual variables. To the best of our knowledge, our algorithm is the first parameter-free algorithm to simultaneously achieve sublinear dynamic regret and constraint violations. Our proposed algorithm also outperforms the state-of-the-art results in many aspects, e.g., our algorithm does not require the Slater condition. Meanwhile, for a group of practical and widely-studied constrained OCO problems in which the variation of consecutive constraints is smooth enough across time, our algorithm achieves $O(1)$ constraint violations. Furthermore, we extend our algorithm and analysis to the case when the time horizon $T$ is unknown. Finally, numerical experiments are conducted to validate the theoretical guarantees of our algorithm, and some applications of our proposed framework will be outlined.
翻訳日:2021-11-16 23:59:57 公開日:2021-11-15
# (参考訳) 外部知識を用いた名前付きエンティティ認識におけるゼロショット学習 [全文訳有]

Zero-Shot Learning in Named-Entity Recognition with External Knowledge ( http://arxiv.org/abs/2111.07734v1 )

ライセンス: CC BY 4.0
Nguyen Van Hoang and Soeren Hougaard Mulvad and Dexter Neo Yuan Rong and Yang Yue(参考訳) 現在のSOTA(State-of-the-ar t Name-entity Recognition)システムの重大な欠点は、未確認領域への一般化の欠如である。 我々は,既存の知識を意味的単語の埋め込み形式に組み込むことで,未知の領域に一般化するために,NERでゼロショットと少数ショット学習を行うモデルZEROを提案する。 ZEROはまず、モデルLUKEを用いて入力文の文脈化された単語表現を取得し、その次元を減少させ、それらを外部知識の埋め込みと直接比較し、ZEROが未知の出力エンティティを認識できるように訓練する。 平均的なマクロ f1 スコア 0.23 の ner ドメインでは zero がうまく動作し,少人数学習では luke を上回り,ドメイン内比較では競合スコアも達成している。 ソース・ターゲット領域のペア間の性能は、ペアのKL分散と逆相関を示す。

A significant shortcoming of current state-of-the-art (SOTA) named-entity recognition (NER) systems is their lack of generalization to unseen domains, which poses a major problem since obtaining labeled data for NER in a new domain is expensive and time-consuming. We propose ZERO, a model that performs zero-shot and few-shot learning in NER to generalize to unseen domains by incorporating pre-existing knowledge in the form of semantic word embeddings. ZERO first obtains contextualized word representations of input sentences using the model LUKE, reduces their dimensionality, and compares them directly with the embeddings of the external knowledge, allowing ZERO to be trained to recognize unseen output entities. We find that ZERO performs well on unseen NER domains with an average macro F1 score of 0.23, outperforms LUKE in few-shot learning, and even achieves competitive scores on an in-domain comparison. The performance across source-target domain pairs is shown to be inversely correlated with the pairs' KL divergence.
翻訳日:2021-11-16 23:58:51 公開日:2021-11-15
# (参考訳) 自己認証ニューラルネットワークの進歩 [全文訳有]

Progress in Self-Certified Neural Networks ( http://arxiv.org/abs/2111.07737v1 )

ライセンス: CC BY 4.0
Maria Perez-Ortiz, Omar Rivasplata, Emilio Parrado-Hernandez, Benjamin Guedj, John Shawe-Taylor(参考訳) 学習方法は、すべての利用可能なデータを使用して同時に予測器を学習し、その品質を未知のデータで有効な統計証明書で証明する場合、自己認証される。 近年の研究では、PAC-Bayes境界の最適化によってトレーニングされたニューラルネットワークモデルが、正確な予測者だけでなく、リスク証明書の厳格化にもつながり、自己証明学習の実現への期待が示されている。 この文脈では、PAC-Bayes境界に基づく学習と認定戦略が特に魅力的である。 本稿では,pac-bayesインスパイアされた目標によって学習される確率的ニューラルネットワークの自己認証に向けた進歩を評価する。 決定論的予測のための古典的なテストセット境界と、ランダム化された自己認証予測者に対するpac-bayesバウンドを実証的に比較する。 まず、これらの一般化境界が、サンプル外テストセットエラーからそれほど遠くないことを示す。 次に,データ飢餓体制において,テストセット境界のデータを保持することは一般化性能に悪影響を及ぼすが,pac-bayes境界に基づく自己認証戦略は,この欠点に苦しめられず,小規模データ体制に適した選択である可能性が証明される。 また、PAC-Bayesにインスパイアされた目的によって学習された確率論的ニューラルネットワークが、一般的に使用されるテストセット境界と驚くほど競合する証明につながることもわかりました。

A learning method is self-certified if it uses all available data to simultaneously learn a predictor and certify its quality with a statistical certificate that is valid on unseen data. Recent work has shown that neural network models trained by optimising PAC-Bayes bounds lead not only to accurate predictors, but also to tight risk certificates, bearing promise towards achieving self-certified learning. In this context, learning and certification strategies based on PAC-Bayes bounds are especially attractive due to their ability to leverage all data to learn a posterior and simultaneously certify its risk. In this paper, we assess the progress towards self-certification in probabilistic neural networks learnt by PAC-Bayes inspired objectives. We empirically compare (on 4 classification datasets) classical test set bounds for deterministic predictors and a PAC-Bayes bound for randomised self-certified predictors. We first show that both of these generalisation bounds are not too far from out-of-sample test set errors. We then show that in data starvation regimes, holding out data for the test set bounds adversely affects generalisation performance, while self-certified strategies based on PAC-Bayes bounds do not suffer from this drawback, proving that they might be a suitable choice for the small data regime. We also find that probabilistic neural networks learnt by PAC-Bayes inspired objectives lead to certificates that can be surprisingly competitive with commonly used test set bounds.
翻訳日:2021-11-16 23:52:23 公開日:2021-11-15
# (参考訳) Pixelベースの制御のための学習表現:何が重要でなぜか? [全文訳有]

Learning Representations for Pixel-based Control: What Matters and Why? ( http://arxiv.org/abs/2111.07775v1 )

ライセンス: CC BY 4.0
Manan Tomar, Utkarsh A. Mishra, Amy Zhang, Matthew E. Taylor(参考訳) 画素ベース制御のための学習表現は近年,強化学習において大きな注目を集めている。 効率的な学習を可能にするための幅広い手法が提案され、完全な状態設定の手法と同様の複雑なサンプルが得られる。 しかし、慎重にキュレートされたピクセルデータセット(中央の作物、適切な照明、背景の鮮明さなど)を超えて移動することはまだ難しい。 本稿では,この課題に取り組むための第一歩として,背景の気晴らしを取り入れ,より難しい設定を採用する。 本稿では,メトリックベースの学習,データ拡張,ワールドモデル学習,コントラスト学習のない,意味のある表現を学習できるシンプルなベースラインアプローチを提案する。 そして、これまで提案されていた手法が、この厳しい環境でベースラインと同等の性能に失敗したり、低下する可能性がある理由と、そのような手法を十分にキュレートされた環境を超えて拡張することを慎重に考えるべき理由を分析します。 この結果から,報酬の密度,課題の計画的地平,課題関連コンポーネントの存在などに基づくベンチマークのより詳細な分類が,アルゴリズムの評価に不可欠であることが示唆された。 これらの結果に基づき,ベンチマークタスクでアルゴリズムを評価する際に考慮すべき異なる指標を提案する。 このようなデータ中心の視点が、RLを現実世界のタスクに最適な適用方法を研究する際に、表現学習を再考する動機になることを期待しています。

Learning representations for pixel-based control has garnered significant attention recently in reinforcement learning. A wide range of methods have been proposed to enable efficient learning, leading to sample complexities similar to those in the full state setting. However, moving beyond carefully curated pixel data sets (centered crop, appropriate lighting, clear background, etc.) remains challenging. In this paper, we adopt a more difficult setting, incorporating background distractors, as a first step towards addressing this challenge. We present a simple baseline approach that can learn meaningful representations with no metric-based learning, no data augmentations, no world-model learning, and no contrastive learning. We then analyze when and why previously proposed methods are likely to fail or reduce to the same performance as the baseline in this harder setting and why we should think carefully about extending such methods beyond the well curated environments. Our results show that finer categorization of benchmarks on the basis of characteristics like density of reward, planning horizon of the problem, presence of task-irrelevant components, etc., is crucial in evaluating algorithms. Based on these observations, we propose different metrics to consider when evaluating an algorithm on benchmark tasks. We hope such a data-centric view can motivate researchers to rethink representation learning when investigating how to best apply RL to real-world tasks.
翻訳日:2021-11-16 23:43:47 公開日:2021-11-15
# (参考訳) spiking capsnet: カプセル間のルーティングルールを生物学的に許容するスパイキングニューラルネットワーク [全文訳有]

Spiking CapsNet: A Spiking Neural Network With A Biologically Plausible Routing Rule Between Capsules ( http://arxiv.org/abs/2111.07785v1 )

ライセンス: CC BY 4.0
Dongcheng Zhao, Yang Li, Yi Zeng, Jihang Wang, Qian Zhang(参考訳) spiking neural network (snn) は、その時空間的情報表現能力により、多くの注目を集めている。 Capsule Neural Network(CapsNet)は,さまざまなレベルでの組み立てと結合機能を備えている。 本稿では,スパイキングニューラルネットワークのモデル化にカプセルを導入することによりスパイキングキャップネットを提案する。 さらに,より生物学的に有効なスパイクタイミング依存塑性ルーティング機構を提案する。 低レベルスパイクカプセルと高レベルスパイクカプセルとの時空間関係を十分に考慮することで、それらの結合能力をさらに向上させる。 我々はMNISTデータセットとFashionMNISTデータセットについて検証を行った。 他の優れたSNNモデルと比較して、我々のアルゴリズムは依然として高性能である。 我々のSpking CapsNetはSNNとCapsNetの強化を完全に組み合わせており、ノイズやアフィン変換に対する強い堅牢性を示している。 テストデータセットに異なるSalt-PepperとGaussianノイズを加えることで、実験結果は、よりノイズが多い場合にはSpike CapsNetがより堅牢なパフォーマンスを示す一方で、人工ニューラルネットワークは正しく解明できないことを示した。 同様に、Spking CapsNetはAffNISTデータセット上でアフィン変換を強く一般化している。

Spiking neural network (SNN) has attracted much attention due to their powerful spatio-temporal information representation ability. Capsule Neural Network (CapsNet) does well in assembling and coupling features at different levels. Here, we propose Spiking CapsNet by introducing the capsules into the modelling of spiking neural networks. In addition, we propose a more biologically plausible Spike Timing Dependent Plasticity routing mechanism. By fully considering the spatio-temporal relationship between the low-level spiking capsules and the high-level spiking capsules, the coupling ability between them is further improved. We have verified experiments on the MNIST and FashionMNIST datasets. Compared with other excellent SNN models, our algorithm still achieves high performance. Our Spiking CapsNet fully combines the strengthens of SNN and CapsNet, and shows strong robustness to noise and affine transformation. By adding different Salt-Pepper and Gaussian noise to the test dataset, the experimental results demonstrate that our Spiking CapsNet shows a more robust performance when there is more noise, while the artificial neural network can not correctly clarify. As well, our Spiking CapsNet shows strong generalization to affine transformation on the AffNIST dataset.
翻訳日:2021-11-16 23:10:20 公開日:2021-11-15
# (参考訳) マルタにおける音声認識のためのデータ拡張:低リソース視点 [全文訳有]

Data Augmentation for Speech Recognition in Maltese: A Low-Resource Perspective ( http://arxiv.org/abs/2111.07793v1 )

ライセンス: CC BY 4.0
Carlos Mena and Andrea DeMarco and Claudia Borg and Lonneke van der Plas and Albert Gatt(参考訳) 音声技術の開発は、アノテートと生の音声データの両方が不足している低リソース言語にとって課題である。 マルタ語はそのような言語である。 近年、音声技術を含むマルタの計算処理への関心が高まっているが、後者の資源は依然として希薄である。 本稿では,これらの言語における音声認識向上のためのデータ拡張手法について考察する。 教師なし学習,多言語訓練,合成音声の訓練データとしての利用の3種類のデータ拡張について検討した。 目的は、どの手法、またはそれらの組み合わせが、出発点が約7時間の書き起こし音声の小さなコーパスである言語における音声認識を改善するのに最も効果的かを決定することである。 その結果,ここで研究した3つのデータ拡張手法を組み合わせると,言語モデルを用いずに15%の絶対的改善が得られた。

Developing speech technologies is a challenge for low-resource languages for which both annotated and raw speech data is sparse. Maltese is one such language. Recent years have seen an increased interest in the computational processing of Maltese, including speech technologies, but resources for the latter remain sparse. In this paper, we consider data augmentation techniques for improving speech recognition for such languages, focusing on Maltese as a test case. We consider three different types of data augmentation: unsupervised training, multilingual training and the use of synthesized speech as training data. The goal is to determine which of these techniques, or combination of them, is the most effective to improve speech recognition for languages where the starting point is a small corpus of approximately 7 hours of transcribed speech. Our results show that combining the three data augmentation techniques studied here lead us to an absolute WER improvement of 15% without the use of a language model.
翻訳日:2021-11-16 22:56:00 公開日:2021-11-15
# (参考訳) 自動クレームチェックにおける知識ベースの選択 [全文訳有]

The Choice of Knowledge Base in Automated Claim Checking ( http://arxiv.org/abs/2111.07795v1 )

ライセンス: CC BY 4.0
Dominik Stammbach, Boya Zhang, Elliott Ash(参考訳) 自動クレームチェック(Automated claim check)は、信頼できる事実の知識ベースで発見された証拠のクレームの正確性を決定するタスクである。 これまでの作業では、クレームチェックパイプラインを与えられたように知識ベースを取り、最適化していましたが、反対のアプローチを採用しています。 最初の洞察は、クレームチェックパイプラインは、新しいドメインから知識ベースにアクセスすることで、クレームの新たなドメインに転送できるということです。 第2に、"普遍的に最良の"知識ベースは見つからず、タスクデータセットのドメイン重複度が高く、知識ベースはラベル精度が向上する傾向にあります。 第三に、複数の知識ベースを組み合わせることで、最も近いドメイン知識ベース以上のパフォーマンスが向上することはない。 最後に,証拠の選択におけるクレームチェックパイプラインの信頼度スコアを用いて,新たなクレームに対して知識ベースがうまく機能するかどうかを評価できることを示す。

Automated claim checking is the task of determining the veracity of a claim given evidence found in a knowledge base of trustworthy facts. While previous work has taken the knowledge base as given and optimized the claim-checking pipeline, we take the opposite approach - taking the pipeline as given, we explore the choice of knowledge base. Our first insight is that a claim-checking pipeline can be transferred to a new domain of claims with access to a knowledge base from the new domain. Second, we do not find a "universally best" knowledge base - higher domain overlap of a task dataset and a knowledge base tends to produce better label accuracy. Third, combining multiple knowledge bases does not tend to improve performance beyond using the closest-domain knowledge base. Finally, we show that the claim-checking pipeline's confidence score for selecting evidence can be used to assess whether a knowledge base will perform well for a new set of claims, even in the absence of ground-truth labels.
翻訳日:2021-11-16 22:33:06 公開日:2021-11-15
# (参考訳) 多変量極端のスペクトル学習

Spectral learning of multivariate extremes ( http://arxiv.org/abs/2111.07799v1 )

ライセンス: CC BY 4.0
Marco Avella Medina, Richard A. Davis and Gennady Samorodnitsky(参考訳) 多変量極度の依存構造を解析するためのスペクトルクラスタリングアルゴリズムを提案する。 より具体的には、極値理論における角測度やスペクトル測度によって特徴づけられる多変量極値の漸近依存に焦点をあてる。 本研究は, 極端サンプルから構築したランダムな$k$-nearest近傍グラフ, すなわち, 半径が大きなしきい値を超えるランダムベクトルの角部に基づいて, スペクトルクラスタリングの理論的性能について検討する。 特に、線形因子モデルから生じる極度の漸近分布を導出し、ある条件下では、スペクトルクラスタリングが、このモデルで生じる極度のクラスターを一貫して識別できることを証明する。 この結果を利用して,角測度の学習のための簡易な一貫した推定手法を提案する。 本手法の有限サンプル性能を実証する数値実験により, 理論的知見を補完する。

We propose a spectral clustering algorithm for analyzing the dependence structure of multivariate extremes. More specifically, we focus on the asymptotic dependence of multivariate extremes characterized by the angular or spectral measure in extreme value theory. Our work studies the theoretical performance of spectral clustering based on a random $k$-nearest neighbor graph constructed from an extremal sample, i.e., the angular part of random vectors for which the radius exceeds a large threshold. In particular, we derive the asymptotic distribution of extremes arising from a linear factor model and prove that, under certain conditions, spectral clustering can consistently identify the clusters of extremes arising in this model. Leveraging this result we propose a simple consistent estimation strategy for learning the angular measure. Our theoretical findings are complemented with numerical experiments illustrating the finite sample performance of our methods.
翻訳日:2021-11-16 22:10:57 公開日:2021-11-15
# (参考訳) iBOT: Image BERT、オンライントケナイザーで事前トレーニング中 [全文訳有]

iBOT: Image BERT Pre-Training with Online Tokenizer ( http://arxiv.org/abs/2111.07832v1 )

ライセンス: CC BY 4.0
Jinghao Zhou, Chen Wei, Huiyu Wang, Wei Shen, Cihang Xie, Alan Yuille, Tao Kong(参考訳) 言語トランスフォーマーの成功は主に、テキストが意味のある部分にトークン化されるマスキング言語モデリング(MLM)のプレテキストタスクに起因している。 本研究では,マスク画像モデリング(mim)について検討し,意味的に意味のある視覚トークン化器の使用の利点と課題について述べる。 オンライントークン化装置を用いてマスキング予測を行うことができる自己教師型フレームワークiBOTを提案する。 具体的には,マスクされたパッチトークンに対して自己蒸留を行い,教師ネットワークをオンライントークンとして,クラストークンを自己蒸留して視覚意味論を取得する。 オンライントークン化装置はMIMの目標と共同で学習可能であり、事前にトークン化装置を事前訓練する必要があるマルチステージトレーニングパイプラインを不要にする。 81.6%の線形探索精度と86.3%の微調整精度をImageNet-1Kで評価することにより,iBOTの優位性を示す。 最新の画像分類結果の他に、局所的なセマンティックパターンが出現し、モデルが一般的な汚職に対して強い堅牢性を獲得し、下流の密集したタスクにおいてリードする結果を得るのに役立つ。 オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションなどです。

The success of language Transformers is primarily attributed to the pretext task of masked language modeling (MLM), where texts are first tokenized into semantically meaningful pieces. In this work, we study masked image modeling (MIM) and indicate the advantages and challenges of using a semantically meaningful visual tokenizer. We present a self-supervised framework iBOT that can perform masked prediction with an online tokenizer. Specifically, we perform self-distillation on masked patch tokens and take the teacher network as the online tokenizer, along with self-distillation on the class token to acquire visual semantics. The online tokenizer is jointly learnable with the MIM objective and dispenses with a multi-stage training pipeline where the tokenizer needs to be pre-trained beforehand. We show the prominence of iBOT by achieving an 81.6% linear probing accuracy and an 86.3% fine-tuning accuracy evaluated on ImageNet-1K. Beyond the state-of-the-art image classification results, we underline emerging local semantic patterns, which helps the models to obtain strong robustness against common corruptions and achieve leading results on dense downstream tasks, eg., object detection, instance segmentation, and semantic segmentation.
翻訳日:2021-11-16 22:08:14 公開日:2021-11-15
# (参考訳) 単語埋め込みにおけるバイアスの指標評価 [全文訳有]

Evaluating Metrics for Bias in Word Embeddings ( http://arxiv.org/abs/2111.07864v1 )

ライセンス: CC BY 4.0
Sarah Schr\"oder, Alexander Schulz, Philip Kenneweg, Robert Feldhans, Fabian Hinder and Barbara Hammer(参考訳) 近年,全てのNLPタスクのテキスト前処理として単語と文の埋め込みが確立され,性能が大幅に向上した。 残念ながら、これらの埋め込みはトレーニングデータから様々な種類のバイアスを継承し、社会に存在するバイアスをNLPソリューションに渡すことも示されている。 多くの論文は、単語や文の埋め込みにおけるバイアスを定量化し、デバイアス法を評価したり、コサインベースのメトリクスと異なる埋め込みモデルを比較しようとした。 しかし、最近はこれらの指標に疑問を呈する研究があるが、そのような指標はバイアスが少ないと報告しているが、他のテストはバイアスを示さない。 実際、最適解に関するコンセンサスなしに、文献に提案されているバイアスメトリクスやテストは多種多様である。 しかし、理論的レベルでバイアスメトリクスを評価する作業や、異なるバイアスメトリクスの利点とデメリットを精査する作業は欠如しています。 本研究では,様々なコサインに基づくバイアスメトリクスについて検討する。 先行研究のアイデアに基づいてバイアス定義を定式化し,バイアスメトリクスの条件を導出する。 さらに,既存のcosineベースのメトリクスとその制限を徹底的に調査し,これらのメトリクスがバイアスを報告できない理由を示す。 最後に,既存の指標の欠点に対処し,数学的にオッズが適切に振る舞うことを証明するため,新しい計量であるテッズを提案する。

Over the last years, word and sentence embeddings have established as text preprocessing for all kinds of NLP tasks and improved the performances significantly. Unfortunately, it has also been shown that these embeddings inherit various kinds of biases from the training data and thereby pass on biases present in society to NLP solutions. Many papers attempted to quantify bias in word or sentence embeddings to evaluate debiasing methods or compare different embedding models, usually with cosine-based metrics. However, lately some works have raised doubts about these metrics showing that even though such metrics report low biases, other tests still show biases. In fact, there is a great variety of bias metrics or tests proposed in the literature without any consensus on the optimal solutions. Yet we lack works that evaluate bias metrics on a theoretical level or elaborate the advantages and disadvantages of different bias metrics. In this work, we will explore different cosine based bias metrics. We formalize a bias definition based on the ideas from previous works and derive conditions for bias metrics. Furthermore, we thoroughly investigate the existing cosine-based metrics and their limitations to show why these metrics can fail to report biases in some cases. Finally, we propose a new metric, SAME, to address the shortcomings of existing metrics and mathematically prove that SAME behaves appropriately.
翻訳日:2021-11-16 21:36:16 公開日:2021-11-15
# (参考訳) 低レイテンシ事象予測モデルのための二重上昇による潜在因子の拡散緩和 [全文訳有]

Mitigating Divergence of Latent Factors via Dual Ascent for Low Latency Event Prediction Models ( http://arxiv.org/abs/2111.07866v1 )

ライセンス: CC BY 4.0
Alex Shtoff, Yair Koren(参考訳) 現実世界のコンテンツレコメンデーションマーケットプレイスは、特定の振る舞いを示し、一般的な静的オフラインデータセットでは必ずしも明らかでない制約によって課される。 広告マーケットプレースで一般的な例として、swift ad turnoverがある。 新しい広告が導入され、古い広告は毎日高いレートで消える。 別の例として広告不連続(ad discontinuity)があり、様々な理由(例えば、予算の枯渇、広告主による手入れ、システムによるフラグ付けなど)により、既存の広告が市場から無意味な時間だけ姿を消す可能性がある。 これらの挙動は、短時間でモデル損失面が劇的に変化することがある。 これらの行動に対処するために、新鮮なモデルは極めて重要であり、これを達成するために(そして他のいくつかの理由により)、過去のイベントの小さなチャンクでインクリメンタルなトレーニングがしばしば用いられる。 これらの挙動とアルゴリズムの最適化は、しばしばモデルパラメータを制御不能に大きく成長させる。 本研究では,モデルの潜在ベクトルに注意深く選択された制約セットを課すことで,モデルパラメータの発散を防止する体系的手法を提案する。 次に,これらの制約を満たすために,素因果的最適化アルゴリズムに触発された手法を,漸進的モデルトレーニングに適合し,基礎となるモデルトレーニングアルゴリズムに大きな修正を必要としない方法で考案する。 我々は、VZMの最大かつ急速に成長するビジネスの一つであるYahooネイティブ広告を駆動する協調フィルタリングアルゴリズムであるOFFSETを分析、実証、モチベーションし、年間数億ドルのランレートに達する。 最後に,分散インスタンス数を大幅に削減し,ユーザエクスペリエンスと収益の両方において大幅な改善を示すオンライン実験を行った。

Real-world content recommendation marketplaces exhibit certain behaviors and are imposed by constraints that are not always apparent in common static offline data sets. One example that is common in ad marketplaces is swift ad turnover. New ads are introduced and old ads disappear at high rates every day. Another example is ad discontinuity, where existing ads may appear and disappear from the market for non negligible amounts of time due to a variety of reasons (e.g., depletion of budget, pausing by the advertiser, flagging by the system, and more). These behaviors sometimes cause the model's loss surface to change dramatically over short periods of time. To address these behaviors, fresh models are highly important, and to achieve this (and for several other reasons) incremental training on small chunks of past events is often employed. These behaviors and algorithmic optimizations occasionally cause model parameters to grow uncontrollably large, or \emph{diverge}. In this work present a systematic method to prevent model parameters from diverging by imposing a carefully chosen set of constraints on the model's latent vectors. We then devise a method inspired by primal-dual optimization algorithms to fulfill these constraints in a manner which both aligns well with incremental model training, and does not require any major modifications to the underlying model training algorithm. We analyze, demonstrate, and motivate our method on OFFSET, a collaborative filtering algorithm which drives Yahoo native advertising, which is one of VZM's largest and faster growing businesses, reaching a run-rate of many hundreds of millions USD per year. Finally, we conduct an online experiment which shows a substantial reduction in the number of diverging instances, and a significant improvement to both user experience and revenue.
翻訳日:2021-11-16 21:02:42 公開日:2021-11-15
# (参考訳) 3D表現で人を追跡する [全文訳有]

Tracking People with 3D Representations ( http://arxiv.org/abs/2111.07868v1 )

ライセンス: CC BY 4.0
Jathushan Rajasegaran, Georgios Pavlakos, Angjoo Kanazawa, Jitendra Malik(参考訳) ビデオ中の複数の人物を追跡する新しい手法を提案する。 2次元表現を用いた過去のアプローチとは異なり、3次元空間に位置する人々の3次元表現を使うことに重点を置いている。 この目的のために,人間の3次元形状をSMPLメッシュとして抽出すると同時に,メッシュの三角形上のテクスチャマップとして外観を抽出するHuman Mesh and Appearance Recovery (HMAR) 法を開発した。 これは、視点に頑丈な外観の3D表現として機能し、変化を起こす。 ビデオクリップが与えられたら、まず人に対応するバウンディングボックスを検出し、それぞれに3Dの外観、ポーズ、位置情報をHMARを用いて抽出する。 これらの埋め込みベクトルはトランスフォーマーに送信され、シーケンスの持続時間にわたって表現を時空間的に集約する。 結果の表現の類似性は、各人物をトラックレットに割り当てるアソシエーションの解決に使用される。 我々はPosetrack, MuPoTs, AVAデータセットに対するアプローチを評価する。 その結果,3次元表現は2次元表現よりも精度が高く,最先端のパフォーマンスが得られることがわかった。 コードと結果は、https://brjathu.gith ub.io/T3DP.com/で公開されている。

We present a novel approach for tracking multiple people in video. Unlike past approaches which employ 2D representations, we focus on using 3D representations of people, located in three-dimensional space. To this end, we develop a method, Human Mesh and Appearance Recovery (HMAR) which in addition to extracting the 3D geometry of the person as a SMPL mesh, also extracts appearance as a texture map on the triangles of the mesh. This serves as a 3D representation for appearance that is robust to viewpoint and pose changes. Given a video clip, we first detect bounding boxes corresponding to people, and for each one, we extract 3D appearance, pose, and location information using HMAR. These embedding vectors are then sent to a transformer, which performs spatio-temporal aggregation of the representations over the duration of the sequence. The similarity of the resulting representations is used to solve for associations that assigns each person to a tracklet. We evaluate our approach on the Posetrack, MuPoTs and AVA datasets. We find that 3D representations are more effective than 2D representations for tracking in these settings, and we obtain state-of-the-art performance. Code and results are available at: https://brjathu.gith ub.io/T3DP.
翻訳日:2021-11-16 20:45:47 公開日:2021-11-15
# (参考訳) プログラミングコパイロットを選択する: GitHubコパイロットのプログラム合成性能と遺伝的プログラミングの比較 [全文訳有]

Choose Your Programming Copilot: A Comparison of the Program Synthesis Performance of GitHub Copilot and Genetic Programming ( http://arxiv.org/abs/2111.07875v1 )

ライセンス: CC BY 4.0
Dominik Sobania, Martin Briesch, Franz Rothlauf(参考訳) github copilotは、大規模な言語モデルcodexを動力とするvisual studio code開発環境の拡張であり、ソフトウェア開発者に自動プログラム合成を提供する。 このモデルはディープラーニングの分野で広く研究されているが、自動プログラム合成の性能でも知られている遺伝的プログラミングとの比較はまだ実施されていない。 本稿では,標準プログラム合成ベンチマーク問題に関するgithub copilotを評価し,得られた結果と遺伝的プログラミング文献の比較を行う。 さらに,両手法の性能についても論じる。 ベンチマーク問題に対する2つのアプローチのパフォーマンスはよく似ているが、GitHub Copilotと比較すると、遺伝的プログラミングに基づくプログラム合成アプローチは、実用的なソフトウェア開発においてプログラマをサポートするのに十分ではない。 遺伝的プログラミングは通常、大量の手書きのトレーニングケースを必要とし、ソリューションを生成するのに時間がかかりすぎる。 さらに、遺伝的プログラミングアプローチによって生成されたソースコードはしばしば膨れ上がり、理解しづらい。 遺伝的プログラミングによるプログラム合成の今後の取り組みとして,実行時間,可読性,ユーザビリティの向上に重点を置くことを提案する。

GitHub Copilot, an extension for the Visual Studio Code development environment powered by the large-scale language model Codex, makes automatic program synthesis available for software developers. This model has been extensively studied in the field of deep learning, however, a comparison to genetic programming, which is also known for its performance in automatic program synthesis, has not yet been carried out. In this paper, we evaluate GitHub Copilot on standard program synthesis benchmark problems and compare the achieved results with those from the genetic programming literature. In addition, we discuss the performance of both approaches. We find that the performance of the two approaches on the benchmark problems is quite similar, however, in comparison to GitHub Copilot, the program synthesis approaches based on genetic programming are not yet mature enough to support programmers in practical software development. Genetic programming usually needs a huge amount of expensive hand-labeled training cases and takes too much time to generate solutions. Furthermore, source code generated by genetic programming approaches is often bloated and difficult to understand. For future work on program synthesis with genetic programming, we suggest researchers to focus on improving the execution time, readability, and usability.
翻訳日:2021-11-16 20:30:46 公開日:2021-11-15
# (参考訳) 依存時系列のスパース高次元グラフィカルモデル学習について [全文訳有]

On Sparse High-Dimensional Graphical Model Learning For Dependent Time Series ( http://arxiv.org/abs/2111.07897v1 )

ライセンス: CC BY 4.0
Jitendra K. Tugnait(参考訳) 本研究では, 疎で高次元の定常なガウス時間系列の条件独立グラフ(CIG)を推定する問題を考える。 観測された時系列に対して十分な周波数領域統計量に基づくスパース群ラスソに基づく周波数領域の定式化について述べる。 分散群lassoペナライズドログの最適化のための乗算器の交互方向法(admm)について検討した。 逆psd推定器のフロベニウスノルムを真の値に収束させるための十分な条件を、サンプルサイズに応じて周波数数の増加を許容する全ての周波数で共同で与える。 この結果は収束率ももたらします。 また,ベイズ情報基準に基づくチューニングパラメータの選択を実験的に検討し,合成データと実データの両方を用いた数値例を用いてその手法を示す。

We consider the problem of inferring the conditional independence graph (CIG) of a sparse, high-dimensional stationary multivariate Gaussian time series. A sparse-group lasso-based frequency-domain formulation of the problem based on frequency-domain sufficient statistic for the observed time series is presented. We investigate an alternating direction method of multipliers (ADMM) approach for optimization of the sparse-group lasso penalized log-likelihood. We provide sufficient conditions for convergence in the Frobenius norm of the inverse PSD estimators to the true value, jointly across all frequencies, where the number of frequencies are allowed to increase with sample size. This results also yields a rate of convergence. We also empirically investigate selection of the tuning parameters based on Bayesian information criterion, and illustrate our approach using numerical examples utilizing both synthetic and real data.
翻訳日:2021-11-16 20:16:07 公開日:2021-11-15
# (参考訳) 平板型テンプレートへのプラセンタの体積パラメータ化 [全文訳有]

Volumetric Parameterization of the Placenta to a Flattened Template ( http://arxiv.org/abs/2111.07900v1 )

ライセンス: CC BY 4.0
S. Mazdak Abulnaga, Esra Abaci Turk, Mikhail Bessmeltsev, P. Ellen Grant, Justin Solomon, Polina Golland(参考訳) 本稿では,局所解剖学と関数を効果的に可視化するために,プラセンタをフラットテンプレートにパラメータ化するボリュームメッシュベースのアルゴリズムを提案する。 MRIは胎盤機能に直接関連した信号を提供する研究ツールとしての可能性を示している。 しかし, 胎盤形状が湾曲し, 高度に変化するため, これらの画像の解釈と可視化は困難である。 胎盤を生体外形状とよく似た形状にマッピングすることで解釈課題に対処する。 パラメータ化を,容積メッシュで表される胎盤形状をフラットテンプレートにマッピングする最適化問題として定式化する。 我々は、体積全体の局所歪みを制御するために対称ディリクレエネルギーを用いる。 写像の局所射影率は勾配降下最適化中に制約線探索によって強制される。 BOLD MRI画像から抽出した111個の胎盤形状について検討し,本手法の有効性を検証した。 本手法は,テンプレートの整合におけるサブボクセル精度を実現し,体積の歪みを抑える。 胎盤の平坦化が解剖学と機能の可視化をいかに改善するかを示す。 私たちのコードはhttps://github.com/m abulnaga/placenta-fl atteningで無料で利用できます。

We present a volumetric mesh-based algorithm for parameterizing the placenta to a flattened template to enable effective visualization of local anatomy and function. MRI shows potential as a research tool as it provides signals directly related to placental function. However, due to the curved and highly variable in vivo shape of the placenta, interpreting and visualizing these images is difficult. We address interpretation challenges by mapping the placenta so that it resembles the familiar ex vivo shape. We formulate the parameterization as an optimization problem for mapping the placental shape represented by a volumetric mesh to a flattened template. We employ the symmetric Dirichlet energy to control local distortion throughout the volume. Local injectivity in the mapping is enforced by a constrained line search during the gradient descent optimization. We validate our method using a research study of 111 placental shapes extracted from BOLD MRI images. Our mapping achieves sub-voxel accuracy in matching the template while maintaining low distortion throughout the volume. We demonstrate how the resulting flattening of the placenta improves visualization of anatomy and function. Our code is freely available at https://github.com/m abulnaga/placenta-fl attening .
翻訳日:2021-11-16 19:37:22 公開日:2021-11-15
# (参考訳) iiitt@dravidian-code mix-fire2021: transliterate or translate? Dravidian言語におけるコード混合テキストの知覚分析 [全文訳有]

IIITT@Dravidian-Code Mix-FIRE2021: Transliterate or translate? Sentiment analysis of code-mixed text in Dravidian languages ( http://arxiv.org/abs/2111.07906v1 )

ライセンス: CC BY 4.0
Karthik Puranik, Bharathi B, Senthil Kumar B(参考訳) 様々なマーケティングや感情的目的のためのソーシャルメディア投稿やコメントの感情分析が認識されている。 様々なネイティブ言語におけるコードミックスコンテンツの存在の増加に伴い、有望な結果を生み出すために熱心な研究が必要である。 本研究は,カナダ語,タミル語,マラヤラム語において,コードミキシングによるソーシャルメディアコメントの感情分析という形で,この研究に小さな貢献をしている。 FIRE 2021でDravidian-CodeMixが行った共有タスクの作業について、ULMFiTや多言語BERTのような訓練済みのモデルを用いて、コードミックスデータセットに微調整、同一のTRAI(TRAI)、TRAIデータの英訳(TRAA)、およびこれら3つの組み合わせを用いて記述する。 本研究報告では,タミル,カンナダ,マラヤラムの各タスクにおいて,ベストモデルがそれぞれ4位,5位,10位であった。

Sentiment analysis of social media posts and comments for various marketing and emotional purposes is gaining recognition. With the increasing presence of code-mixed content in various native languages, there is a need for ardent research to produce promising results. This research paper bestows a tiny contribution to this research in the form of sentiment analysis of code-mixed social media comments in the popular Dravidian languages Kannada, Tamil and Malayalam. It describes the work for the shared task conducted by Dravidian-CodeMix at FIRE 2021 by employing pre-trained models like ULMFiT and multilingual BERT fine-tuned on the code-mixed dataset, transliteration (TRAI) of the same, English translations (TRAA) of the TRAI data and the combination of all the three. The results are recorded in this research paper where the best models stood 4th, 5th and 10th ranks in the Tamil, Kannada and Malayalam tasks respectively.
翻訳日:2021-11-16 19:09:30 公開日:2021-11-15
# (参考訳) ロボットにおける普遍的計画決定政策の効率的な学習 [全文訳有]

Learning to Execute: Efficient Learning of Universal Plan-Conditioned Policies in Robotics ( http://arxiv.org/abs/2111.07908v1 )

ライセンス: CC BY 4.0
Ingmar Schubert and Danny Driess and Ozgur S. Oguz and Marc Toussaint(参考訳) ロボット工学における強化学習(RL)の応用は、しばしば高いデータ要求によって制限される。 一方、近似モデルは、多くのロボティクスシナリオで容易に利用でき、データ効率の代替案を計画するなど、モデルベースのアプローチを作ることができる。 それでも、モデルが不正確か間違っているかによって、これらのメソッドのパフォーマンスは低下する。 この意味では、rlとモデルベースのプランナーのそれぞれの強みと弱みは、そうである。 本研究は,両アプローチをそれぞれの強みを組み合わせた一つのフレームワークに統合する方法について検討する。 概略計画に含まれる情報を活用して,計画に基づく普遍的な政策を学ぶl2e(learning to execution)を提案する。 我々のロボット操作実験では、L2Eは純粋なRL、純粋な計画法、学習と計画を組み合わせたベースライン手法と比較して性能が向上した。

Applications of Reinforcement Learning (RL) in robotics are often limited by high data demand. On the other hand, approximate models are readily available in many robotics scenarios, making model-based approaches like planning a data-efficient alternative. Still, the performance of these methods suffers if the model is imprecise or wrong. In this sense, the respective strengths and weaknesses of RL and model-based planners are. In the present work, we investigate how both approaches can be integrated into one framework that combines their strengths. We introduce Learning to Execute (L2E), which leverages information contained in approximate plans to learn universal policies that are conditioned on plans. In our robotic manipulation experiments, L2E exhibits increased performance when compared to pure RL, pure planning, or baseline methods combining learning and planning.
翻訳日:2021-11-16 18:49:37 公開日:2021-11-15
# (参考訳) フェデレーション量子化ニューラルネットワークにおけるエネルギー・精度・精度のトレードオフについて [全文訳有]

On the Tradeoff between Energy, Precision, and Accuracy in Federated Quantized Neural Networks ( http://arxiv.org/abs/2111.07911v1 )

ライセンス: CC BY 4.0
Minsu Kim, Walid Saad, Mohammad Mozaffari, and Merouane Debbah(参考訳) リソース制約のあるデバイスで無線ネットワークにフェデレーション学習(FL)をデプロイするには、精度、エネルギー効率、精度のバランスをとる必要がある。 FLの先行技術は、データ表現の精度を向上させるために32ビットの精度レベルを使用してディープニューラルネットワーク(DNN)をトレーニングするデバイスを必要とすることが多い。 しかし、DNNは数百万の操作を実行する必要があるため、リソース制約のあるデバイスではそのようなアルゴリズムは実用的ではない。 したがって、DNNを高精度に訓練すると、FLの高エネルギーコストが発生する。 本稿では,ローカルトレーニングとアップリンク伝送の両方において,有限レベルの精度でデータを表現する量子化FLフレームワークを提案する。 ここでは、有限レベルの精度が、固定精度フォーマットで重みとアクティベーションを定量化する量子ニューラルネットワーク(QNN)を使用して取得される。 検討されたFLモデルでは、各デバイスがQNNを訓練し、量子化されたトレーニング結果を基地局に送信する。 局所訓練のためのエネルギーモデルと量子化を伴う伝達は厳格に導出される。 収束を確保しつつ、精度のレベルに対してエネルギー最小化問題を定式化する。 この問題を解決するために,まずfl収束率を解析的に導出し,線探索法を用いる。 シミュレーションの結果,我々のFLフレームワークは標準FLモデルと比較して最大53%のエネルギー消費を削減できることがわかった。 結果は、無線ネットワーク上でのFLの精度、エネルギー、精度のトレードオフにも光を当てた。

Deploying federated learning (FL) over wireless networks with resource-constrained devices requires balancing between accuracy, energy efficiency, and precision. Prior art on FL often requires devices to train deep neural networks (DNNs) using a 32-bit precision level for data representation to improve accuracy. However, such algorithms are impractical for resource-constrained devices since DNNs could require execution of millions of operations. Thus, training DNNs with a high precision level incurs a high energy cost for FL. In this paper, a quantized FL framework, that represents data with a finite level of precision in both local training and uplink transmission, is proposed. Here, the finite level of precision is captured through the use of quantized neural networks (QNNs) that quantize weights and activations in fixed-precision format. In the considered FL model, each device trains its QNN and transmits a quantized training result to the base station. Energy models for the local training and the transmission with the quantization are rigorously derived. An energy minimization problem is formulated with respect to the level of precision while ensuring convergence. To solve the problem, we first analytically derive the FL convergence rate and use a line search method. Simulation results show that our FL framework can reduce energy consumption by up to 53% compared to a standard FL model. The results also shed light on the tradeoff between precision, energy, and accuracy in FL over wireless networks.
翻訳日:2021-11-16 18:26:04 公開日:2021-11-15
# (参考訳) ロバストなロボットシーン再構成のための意味的グラウンドオブジェクトマッチング [全文訳有]

Semantically Grounded Object Matching for Robust Robotic Scene Rearrangement ( http://arxiv.org/abs/2111.07975v1 )

ライセンス: CC BY-SA 4.0
Walter Goodwin, Sagar Vaze, Ioannis Havoutis, Ingmar Posner(参考訳) オブジェクトの再配置は、ロボット操作における重要な能力として最近登場し、一般的にはオブジェクトの検出、認識、把握、高レベルの計画を含む実用的なソリューションである。 所望のシーン構成を記述するゴールイメージは、有望でますます使われている命令モードである。 重要な課題は、ロボットの前にあるオブジェクトと、オブジェクト固有のトレーニングデータがないという最近の研究で苦労している、提供された目標画像に見られるオブジェクトの一致の正確な推測である。 本研究では,観測シーンとゴールシーンの視覚的シフトが増加するにつれて,オブジェクト間のマッチングを推測する既存手法の劣化について検討する。 現在の設定の基本的な制限は、ソースとターゲットイメージがすべてのオブジェクトに対して同じ$\textit{instance}$でなければならないことである。 本稿では,視覚的特徴とセマンティクスを併用して,より堅牢で汎用的な類似度尺度として活用することにより,大規模学習済みの視覚言語モデルを用いたオブジェクトマッチング手法を提案する。 これは、クロスインスタンス設定でのマッチング性能が大幅に向上することを示し、ロボットマニピュレータによるマルチオブジェクトの再構成をロボットのシーンと共有しない画像から導くために使用できる。

Object rearrangement has recently emerged as a key competency in robot manipulation, with practical solutions generally involving object detection, recognition, grasping and high-level planning. Goal-images describing a desired scene configuration are a promising and increasingly used mode of instruction. A key outstanding challenge is the accurate inference of matches between objects in front of a robot, and those seen in a provided goal image, where recent works have struggled in the absence of object-specific training data. In this work, we explore the deterioration of existing methods' ability to infer matches between objects as the visual shift between observed and goal scenes increases. We find that a fundamental limitation of the current setting is that source and target images must contain the same $\textit{instance}$ of every object, which restricts practical deployment. We present a novel approach to object matching that uses a large pre-trained vision-language model to match objects in a cross-instance setting by leveraging semantics together with visual features as a more robust, and much more general, measure of similarity. We demonstrate that this provides considerably improved matching performance in cross-instance settings, and can be used to guide multi-object rearrangement with a robot manipulator from an image that shares no object $\textit{instances}$ with the robot's scene.
翻訳日:2021-11-16 18:15:16 公開日:2021-11-15
# 深層学習に基づく都市車両軌道解析

Deep Learning based Urban Vehicle Trajectory Analytics ( http://arxiv.org/abs/2111.07489v1 )

ライセンス: Link先を確認
Seongjin Choi(参考訳) 軌跡 (trajectory) とは、地理的空間における移動物体が生成する痕跡のことであり、通常は時系列的に順序付けられた一連の点によって表され、各点が地理空間座標集合とタイムスタンプからなる。 位置センシングと無線通信技術の急速な進歩により、大量の軌道データの収集と保存が可能となった。 その結果、多くの研究者が軌跡データを用いて様々な移動物体の移動を解析した。 本稿では,都市交通ネットワークにおける車両の軌跡を指す「都市自動車軌跡」に着目し,都市交通網における「都市車両軌跡分析」に焦点を当てた。 '都市車両軌道分析は、利用者中心の旅行体験とシステム全体の時空間パターンの両方を含む都市交通ネットワークにおける車両移動パターンを理解する前例のない機会を提供する。 都市車両軌道データの時空間的特徴は構造的に相互に相関しており、その結果、多くの研究者がこの構造を理解するために様々な方法を用いた。 特にディープラーニングモデルは、その強力な関数近似と特徴表現能力により、多くの研究者から注目を集めている。 この論文の目的は,都市交通ネットワークの移動パターンをよりよく理解するために,都市交通軌跡分析のためのディープラーニングモデルを開発することである。 特にこの論文は,次の位置予測と合成軌道生成という,高い必要性,重要性,適用性を有する2つの研究トピックに焦点を当てている。 本研究では,深層学習を用いた都市車両軌道解析のための様々なモデルを提案する。

A `trajectory' refers to a trace generated by a moving object in geographical spaces, usually represented by of a series of chronologically ordered points, where each point consists of a geo-spatial coordinate set and a timestamp. Rapid advancements in location sensing and wireless communication technology enabled us to collect and store a massive amount of trajectory data. As a result, many researchers use trajectory data to analyze mobility of various moving objects. In this dissertation, we focus on the `urban vehicle trajectory,' which refers to trajectories of vehicles in urban traffic networks, and we focus on `urban vehicle trajectory analytics.' The urban vehicle trajectory analytics offers unprecedented opportunities to understand vehicle movement patterns in urban traffic networks including both user-centric travel experiences and system-wide spatiotemporal patterns. The spatiotemporal features of urban vehicle trajectory data are structurally correlated with each other, and consequently, many previous researchers used various methods to understand this structure. Especially, deep-learning models are getting attentions of many researchers due to its powerful function approximation and feature representation abilities. As a result, the objective of this dissertation is to develop deep-learning based models for urban vehicle trajectory analytics to better understand the mobility patterns of urban traffic networks. Particularly, this dissertation focuses on two research topics, which has high necessity, importance and applicability: Next Location Prediction, and Synthetic Trajectory Generation. In this study, we propose various novel models for urban vehicle trajectory analytics using deep learning.
翻訳日:2021-11-16 17:55:51 公開日:2021-11-15
# dnngradient lossless compression: gennormが答えになるのか?

DNN gradient lossless compression: Can GenNorm be the answer? ( http://arxiv.org/abs/2111.07599v1 )

ライセンス: Link先を確認
Zhong-Jing Chen, Eduin E. Hernandez, Yu-Chih Huang, Stefano Rini(参考訳) 本稿では,Deep Neural Network(DNN)トレーニングにおける最適勾配損失圧縮の問題について考察する。 勾配圧縮は、多くの分散dnnトレーニングシナリオに関係しており、例えば、最近普及したfederated learning(fl)シナリオでは、各リモートユーザがノイズの少ないレート制限チャンネルを介してパラメータサーバ(ps)に接続されている。 分散DNNトレーニングでは、基礎となる勾配分布が利用可能であれば、古典的なロスレス圧縮手法を用いて勾配エントリの通信に必要なビット数を削減できる。 平均場解析は勾配更新を独立確率変数とみなすことができ、ラプラス近似は勾配が正規分布(Norm)を近似する分布を持つと主張するために用いられる。 本稿では, 実用的関心のあるネットワークにおいて, 勾配項目を一般化正規分布(gennorm)分布としてよくモデル化することができることを論じる。 我々は,仮説GenNormモデリングがDNN勾配尾部分布をより正確に予測できることを示す数値評価を行う。 さらに、このモデリングの選択は、量子化された勾配更新にハフマン符号のような古典的な固定から可変のロスレス符号化アルゴリズムを適用する際の勾配のロスレス圧縮という観点で具体的な改善をもたらす。 後者の結果は、分散DNNトレーニングシナリオにおいて非常に実践的な関連性を持つ、メモリと計算の複雑さの少ない効果的な圧縮戦略を提供する。

In this paper, the problem of optimal gradient lossless compression in Deep Neural Network (DNN) training is considered. Gradient compression is relevant in many distributed DNN training scenarios, including the recently popular federated learning (FL) scenario in which each remote users are connected to the parameter server (PS) through a noiseless but rate limited channel. In distributed DNN training, if the underlying gradient distribution is available, classical lossless compression approaches can be used to reduce the number of bits required for communicating the gradient entries. Mean field analysis has suggested that gradient updates can be considered as independent random variables, while Laplace approximation can be used to argue that gradient has a distribution approximating the normal (Norm) distribution in some regimes. In this paper we argue that, for some networks of practical interest, the gradient entries can be well modelled as having a generalized normal (GenNorm) distribution. We provide numerical evaluations to validate that the hypothesis GenNorm modelling provides a more accurate prediction of the DNN gradient tail distribution. Additionally, this modeling choice provides concrete improvement in terms of lossless compression of the gradients when applying classical fix-to-variable lossless coding algorithms, such as Huffman coding, to the quantized gradient updates. This latter results indeed provides an effective compression strategy with low memory and computational complexity that has great practical relevance in distributed DNN training scenarios.
翻訳日:2021-11-16 17:55:30 公開日:2021-11-15
# neuralpde: データからの動的システムのモデリング

NeuralPDE: Modelling Dynamical Systems from Data ( http://arxiv.org/abs/2111.07671v1 )

ライセンス: Link先を確認
Andrzej Dulny and Andreas Hotho and Anna Krause(参考訳) 気象現象や流体力学のような多くの物理過程は偏微分方程式(PDE)によって制御される。 ニューラルネットワークを用いたそのような動的システムのモデリングは、新たな研究分野である。 しかし、現在の手法は様々な方法で制限されており、それらは支配方程式に関する事前知識を必要とし、線形あるいは一階方程式に限定されている。 本研究では、畳み込みニューラルネットワーク(CNN)と微分可能なODEソルバを組み合わせて動的システムをモデル化するモデルであるNeuralPDEを提案する。 標準PDEソルバで使用されるラインの手法は、CNNが任意のPDEダイナミクスをパラメトリズする自然な選択となる畳み込みを用いて表現できることを示す。 我々のモデルは、PDEに関する事前の知識を必要とせずに、あらゆるデータに適用することができる。 我々は,多種多様なPDEを解くことで生成されたデータセット上でNeuralPDEを評価し,高次数,非線形方程式,複数空間次元を網羅した。

Many physical processes such as weather phenomena or fluid mechanics are governed by partial differential equations (PDEs). Modelling such dynamical systems using Neural Networks is an emerging research field. However, current methods are restricted in various ways: they require prior knowledge about the governing equations, and are limited to linear or first-order equations. In this work we propose NeuralPDE, a model which combines convolutional neural networks (CNNs) with differentiable ODE solvers to model dynamical systems. We show that the Method of Lines used in standard PDE solvers can be represented using convolutions which makes CNNs the natural choice to parametrize arbitrary PDE dynamics. Our model can be applied to any data without requiring any prior knowledge about the governing PDE. We evaluate NeuralPDE on datasets generated by solving a wide variety of PDEs, covering higher orders, non-linear equations and multiple spatial dimensions.
翻訳日:2021-11-16 17:55:04 公開日:2021-11-15
# 2つの良い解のバイアス付きクロスオーバーを用いたグローバルサーチの2次高速化

Quadratic speedup of global search using a biased crossover of two good solutions ( http://arxiv.org/abs/2111.07680v1 )

ライセンス: Link先を確認
Takuya Isomura(参考訳) コスト関数の最小化は様々な最適化分野において不可欠である。 しかし、計算コストが膨大であるため、グローバルな最小値の特定は依然として困難である。 この研究は、高次元離散状態空間の下で定義されるコスト関数のクラスに対して、近似大域最小値を特定するための計算コストを解析的に表現する。 そこで,計算コストを最小限に抑える最適なグローバル検索手法を提案する。 数学的解析により、勾配降下アルゴリズムと選択とクロスオーバーアルゴリズムの組み合わせが、偏りのあるクロスオーバー重みによって探索効率を最大化することを示した。 驚くべきことに、計算コストは従来の勾配降下アルゴリズムとは対照的に平方根次であり、大域探索の二次的な高速化を示している。 我々は,旅行セールスマン問題の数値解析を用いて,この提案を裏付ける。 提案手法の単純な計算アーキテクチャと最小計算コストは生物や神経形態学のハードウェアにとって非常に望ましい。

The minimisation of cost functions is crucial in various optimisation fields. However, identifying their global minimum remains challenging owing to the huge computational cost incurred. This work analytically expresses the computational cost to identify an approximate global minimum for a class of cost functions defined under a high-dimensional discrete state space. Then, we derive an optimal global search scheme that minimises the computational cost. Mathematical analyses demonstrate that a combination of the gradient descent algorithm and the selection and crossover algorithm--with a biased crossover weight--maximises the search efficacy. Remarkably, its computational cost is of the square root order in contrast to that of the conventional gradient descent algorithms, indicating a quadratic speedup of global search. We corroborate this proposition using numerical analyses of the travelling salesman problem. The simple computational architecture and minimal computational cost of the proposed scheme are highly desirable for biological organisms and neuromorphic hardware.
翻訳日:2021-11-16 17:50:22 公開日:2021-11-15
# ディープヘッジ:最小等価近傍マーチンゲール対策によるトレーディング摩擦下でのドリフト除去学習

Deep Hedging: Learning to Remove the Drift under Trading Frictions with Minimal Equivalent Near-Martingale Measures ( http://arxiv.org/abs/2111.07844v1 )

ライセンス: Link先を確認
Hans Buehler, Phillip Murray, Mikko S. Pakkanen, Ben Wood(参考訳) 取引可能な機器の市場シミュレーター(スポット価格やオプションなど)について,最小限の等価なマーチンゲール尺度を学習するための数値的に効率的な手法を提案する。 取引コストと取引制限の存在下では、予測されたリターンが既定の入札/リスク拡散内にとどまる最小の等価な「近辺マーチンゲール措置」を学習する結果を緩和する。 したがって、高次元複素空間における「ドリフトの除去」に対する我々のアプローチは完全にモデルフリーであり、古典的な仲裁を示さない任意の市場シミュレータに適用できる。 結果として得られるモデルは、リスク中立的な価格、あるいは“ディープヘッジ”のトランザクションコストやトレーディング制約に使用することができる。 本稿では,2つの市場シミュレータ,自動回帰的離散時間確率的暗黙的変動モデル,GAN(Generative Adversarial Network)ベースのシミュレータに適用し,統計量に基づくオプション価格の履歴データに基づいて,スポットとオプション価格の現実的なサンプルを生成する手法を提案する。 当初の市場シミュレータの推定誤差に関して,ロバスト性についてコメントする。

We present a numerically efficient approach for learning minimal equivalent martingale measures for market simulators of tradable instruments, e.g. for a spot price and options written on the same underlying. In the presence of transaction cost and trading restrictions, we relax the results to learning minimal equivalent "near-martingale measures" under which expected returns remain within prevailing bid/ask spreads. Our approach to thus "removing the drift" in a high dimensional complex space is entirely model-free and can be applied to any market simulator which does not exhibit classic arbitrage. The resulting model can be used for risk neutral pricing, or, in the case of transaction costs or trading constraints, for "Deep Hedging". We demonstrate our approach by applying it to two market simulators, an auto-regressive discrete-time stochastic implied volatility model, and a Generative Adversarial Network (GAN) based simulator, both of which trained on historical data of option prices under the statistical measure to produce realistic samples of spot and option prices. We comment on robustness with respect to estimation error of the original market simulator.
翻訳日:2021-11-16 17:50:10 公開日:2021-11-15
# ランク付け平均治療効果による治療優先順位付けルールの評価

Evaluating Treatment Prioritization Rules via Rank-Weighted Average Treatment Effects ( http://arxiv.org/abs/2111.07966v1 )

ライセンス: Link先を確認
Steve Yadlowsky, Scott Fleming, Nigam Shah, Emma Brunskill, Stefan Wager(参考訳) 治療効果の推定、リスクスコア、手作りのルールに基づくものなど、誰が治療を優先するかを選択するために使用できる方法が数多く存在する。 レベルプレイフィールドにおける治療優先順位付けルールを比較するための,簡易かつ一般的な指標として,ランク重み付き平均治療効果(RATE)指標を提案する。 優先順位付けの規則がいかに導かれたかは定かではなく、治療から最も利益を得られるユニットを特定することに成功するかに基づいてのみ評価する。 我々は、RATE推定器の族を定義し、多種多様なランダム化および観察研究環境における漸近的正確な推論を可能にする中心極限定理を証明した。 ブートストラップされた信頼区間の使用の正当化と,治療効果の異質性に関する仮説を優先順位付け規則に関連づけて検証するための枠組みを提供する。 我々のレートの定義は、qini係数を含む多くの既存のメトリクスをネストし、分析はこれらのメトリクスの推論メソッドを直接生み出します。 我々は、パーソナライズされた医療とマーケティングの両方から引き出された例で、我々のアプローチを実証する。 医療現場では,SPRINTとACCORD-BPによるランダム化制御試験のデータを用いて,異種治療効果の有意な証拠は得られなかった。 一方,大規模なマーケティング実験では,デジタル広告キャンペーンにおける治療効果が不均一であることを示す強固な証拠を見いだし,推定リスクを優先するターゲティングルールと、推定された治療効果を優先するルールを比較するためのレートの使用方法を示す。

There are a number of available methods that can be used for choosing whom to prioritize treatment, including ones based on treatment effect estimation, risk scoring, and hand-crafted rules. We propose rank-weighted average treatment effect (RATE) metrics as a simple and general family of metrics for comparing treatment prioritization rules on a level playing field. RATEs are agnostic as to how the prioritization rules were derived, and only assesses them based on how well they succeed in identifying units that benefit the most from treatment. We define a family of RATE estimators and prove a central limit theorem that enables asymptotically exact inference in a wide variety of randomized and observational study settings. We provide justification for the use of bootstrapped confidence intervals and a framework for testing hypotheses about heterogeneity in treatment effectiveness correlated with the prioritization rule. Our definition of the RATE nests a number of existing metrics, including the Qini coefficient, and our analysis directly yields inference methods for these metrics. We demonstrate our approach in examples drawn from both personalized medicine and marketing. In the medical setting, using data from the SPRINT and ACCORD-BP randomized control trials, we find no significant evidence of heterogeneous treatment effects. On the other hand, in a large marketing trial, we find robust evidence of heterogeneity in the treatment effects of some digital advertising campaigns and demonstrate how RATEs can be used to compare targeting rules that prioritize estimated risk vs. those that prioritize estimated treatment benefit.
翻訳日:2021-11-16 17:49:47 公開日:2021-11-15
# 言語情報と雑音データを利用した音声合成における未知テキストの韻律改善

Improving Prosody for Unseen Texts in Speech Synthesis by Utilizing Linguistic Information and Noisy Data ( http://arxiv.org/abs/2111.07549v1 )

ライセンス: Link先を確認
Zhu Li, Yuqing Zhang, Mengxi Nie, Ming Yan, Mengnan He, Ruixiong Zhang, Caixia Gong(参考訳) 近年の音声合成の進歩により、高度に自然な音声を生成することができるようになった。 しかし、これらのモデルの訓練は通常、大量の高忠実度音声データを必要とするが、見知らぬテキストの場合、合成された音声の韻律は比較的不自然なものである。 これらの問題に対処するため,我々は,事前学習されたfastspeech2ベースの音響モデルとbertベースのフロントエンドを組み合わせることで,韻律モデリングを改善することを提案する。 事前学習されたBERTは、多タスク学習フレームワークにおける多音不明瞭タスク、中国語単語分割(CWS)と音声タグ付けタスク、韻律構造予測(PSP)タスクに微調整される。 FastSpeech 2は、ノイズが多いが入手しやすい大規模な外部データに対して事前訓練される。 実験結果から,細調整されたBERTモデルと事前訓練されたFastSpeech 2は,特に構造的に複雑な文において韻律を改善できることがわかった。

Recent advancements in end-to-end speech synthesis have made it possible to generate highly natural speech. However, training these models typically requires a large amount of high-fidelity speech data, and for unseen texts, the prosody of synthesized speech is relatively unnatural. To address these issues, we propose to combine a fine-tuned BERT-based front-end with a pre-trained FastSpeech2-based acoustic model to improve prosody modeling. The pre-trained BERT is fine-tuned on the polyphone disambiguation task, the joint Chinese word segmentation (CWS) and part-of-speech (POS) tagging task, and the prosody structure prediction (PSP) task in a multi-task learning framework. FastSpeech 2 is pre-trained on large-scale external data that are noisy but easier to obtain. Experimental results show that both the fine-tuned BERT model and the pre-trained FastSpeech 2 can improve prosody, especially for those structurally complex sentences.
翻訳日:2021-11-16 17:48:59 公開日:2021-11-15
# 翻訳品質評価(TQE)における不確かさの測定

Measuring Uncertainty in Translation Quality Evaluation (TQE) ( http://arxiv.org/abs/2111.07699v1 )

ライセンス: Link先を確認
Serge Gladkoff, Irina Sorokina, Lifeng Han, Alexandra Alekseeva(参考訳) ヒト翻訳者(HT)と機械翻訳者(MT)の両方の観点から、翻訳品質評価(TQE)が不可欠である。 翻訳サービスプロバイダ(TSP)は、厳しい時間枠とコストで要求される品質レベルの厳しい制約で、顧客仕様を満たす大量の翻訳を提供する必要があります。 MTの研究者たちはモデルの改善に努め、信頼性の高い品質評価も必要としている。 自動機械翻訳評価(mte)のメトリクスと品質推定(qe)ツールは広く利用可能であり、アクセスが容易であるが、既存の自動化ツールは不十分であり、プロの翻訳者(hap)によるヒューマンアセスメントは、しばしば金の標準である \cite{han-etal-2021-tqa} として選択される。 しかし、人間の評価は信頼性と同意度が低いとしばしば非難される。 これは主観性や統計が原因か? 原価と効率の観点から、また翻訳テキストの最適なサンプルサイズは、資料全体の翻訳品質を確実に推定するために、テキスト全体のチェックやtqeによる効率的化を避けるには、どうすればよいのか? この研究は、翻訳されたテキストのサンプルサイズ、例えばTQEワークフローステップで処理する必要がある単語や文の量に応じて、信頼区間 \cite{Brown_etal 2001Interval} を正確に推定し、全体的な翻訳品質の信頼性と信頼性を評価する。 本研究に応用した手法はbernoulli statistical distribution modelling (bsdm) と monte carlo sampling analysis (mcsa) によるものである。

From both human translators (HT) and machine translation (MT) researchers' point of view, translation quality evaluation (TQE) is an essential task. Translation service providers (TSPs) have to deliver large volumes of translations which meet customer specifications with harsh constraints of required quality level in tight time-frames and costs. MT researchers strive to make their models better, which also requires reliable quality evaluation. While automatic machine translation evaluation (MTE) metrics and quality estimation (QE) tools are widely available and easy to access, existing automated tools are not good enough, and human assessment from professional translators (HAP) are often chosen as the golden standard \cite{han-etal-2021-TQA}. Human evaluations, however, are often accused of having low reliability and agreement. Is this caused by subjectivity or statistics is at play? How to avoid the entire text to be checked and be more efficient with TQE from cost and efficiency perspectives, and what is the optimal sample size of the translated text, so as to reliably estimate the translation quality of the entire material? This work carries out such motivated research to correctly estimate the confidence intervals \cite{Brown_etal2001Interv al} depending on the sample size of the translated text, e.g. the amount of words or sentences, that needs to be processed on TQE workflow step for confident and reliable evaluation of overall translation quality. The methodology we applied for this work is from Bernoulli Statistical Distribution Modelling (BSDM) and Monte Carlo Sampling Analysis (MCSA).
翻訳日:2021-11-16 17:48:40 公開日:2021-11-15
# ハードラベル攻撃の歪み低減のための最適タンジェント点の探索

Finding Optimal Tangent Points for Reducing Distortions of Hard-label Attacks ( http://arxiv.org/abs/2111.07492v1 )

ライセンス: Link先を確認
Chen Ma, Xiangyu Guo, Li Chen, Jun-Hai Yong, Yisen Wang(参考訳) ブラックボックスの敵攻撃の大きな問題は、上位1つのラベルしか使用できないハードラベル攻撃設定におけるクエリの複雑さである。 本稿では,決定境界上に位置する仮想半球の最適接点を同定し,攻撃の歪みを低減させる,タンジェント攻撃(ta)と呼ばれる新しい幾何学的アプローチを提案する。 決定境界が局所平坦であると仮定すると、各反復においてそのような接点を通る接線に沿って決定境界に達することにより、最小$\ell_2$歪みが得られることが理論的に証明される。 さらに,本手法のロバスト性を向上させるため,半楕円形で半球を置き換え,曲線決定境界に適応する一般化手法を提案する。 我々のアプローチはハイパーパラメータと事前トレーニングがない。 ImageNet と CIFAR-10 データセットで行った大規模な実験により,我々の手法は少数のクエリしか消費できず,低マグニチュード歪みを実現することができた。 実装ソースコードはhttps://github.com/m achanic/TangentAttac k.comで公開されている。

One major problem in black-box adversarial attacks is the high query complexity in the hard-label attack setting, where only the top-1 predicted label is available. In this paper, we propose a novel geometric-based approach called Tangent Attack (TA), which identifies an optimal tangent point of a virtual hemisphere located on the decision boundary to reduce the distortion of the attack. Assuming the decision boundary is locally flat, we theoretically prove that the minimum $\ell_2$ distortion can be obtained by reaching the decision boundary along the tangent line passing through such tangent point in each iteration. To improve the robustness of our method, we further propose a generalized method which replaces the hemisphere with a semi-ellipsoid to adapt to curved decision boundaries. Our approach is free of hyperparameters and pre-training. Extensive experiments conducted on the ImageNet and CIFAR-10 datasets demonstrate that our approach can consume only a small number of queries to achieve the low-magnitude distortion. The implementation source code is released online at https://github.com/m achanic/TangentAttac k.
翻訳日:2021-11-16 17:46:06 公開日:2021-11-15
# ハイパースペクトル画像再構成のためのマスク誘導分光変換器

Mask-guided Spectral-wise Transformer for Efficient Hyperspectral Image Reconstruction ( http://arxiv.org/abs/2111.07910v1 )

ライセンス: Link先を確認
Yuanhao Cai, Jing Lin, Xiaowan Hu, Haoqian Wang, Xin Yuan, Yulun Zhang, Radu Timofte, Luc Van Gool(参考訳) ハイパースペクトル画像(HSI)再構成は,符号化開口分光画像(CASSI)システムにおける2次元計測から3次元空間スペクトル信号を復元することを目的としている。 HSI表現は非常に類似しており、スペクトル次元にわたって相関している。 スペクトル間相互作用のモデル化はhsi再構成に有用である。 しかし、既存のCNNベースの手法はスペクトル的類似性と長距離依存を捉える際の限界を示す。 さらに、HSI情報はCASSIの符号化開口(物理マスク)によって変調される。 それにもかかわらず、現在のアルゴリズムはHSI修復のためのマスクの誘導効果を十分に調べていない。 本稿では, マスク誘導型スペクトル変換器(mst)のhsi再構成のための新しい枠組みを提案する。 具体的には、各スペクトル特徴をトークンとして扱い、スペクトル次元に沿って自己アテンションを算出するスペクトルワイドマルチヘッド自己アテンション(S-MSA)を提案する。 また,マスク誘導機構(mm)をカスタマイズし,s-msaを高忠実なスペクトル表現を持つ空間領域に注意を向ける。 大規模実験の結果,mstはシミュレーションや実際のhsiデータセットに対する最先端(sota)手法を大幅に上回っており,計算コストやメモリコストは劇的に削減できることがわかった。

Hyperspectral image (HSI) reconstruction aims to recover the 3D spatial-spectral signal from a 2D measurement in the coded aperture snapshot spectral imaging (CASSI) system. The HSI representations are highly similar and correlated across the spectral dimension. Modeling the inter-spectra interactions is beneficial for HSI reconstruction. However, existing CNN-based methods show limitations in capturing spectral-wise similarity and long-range dependencies. Besides, the HSI information is modulated by a coded aperture (physical mask) in CASSI. Nonetheless, current algorithms have not fully explored the guidance effect of the mask for HSI restoration. In this paper, we propose a novel framework, Mask-guided Spectral-wise Transformer (MST), for HSI reconstruction. Specifically, we present a Spectral-wise Multi-head Self-Attention (S-MSA) that treats each spectral feature as a token and calculates self-attention along the spectral dimension. In addition, we customize a Mask-guided Mechanism (MM) that directs S-MSA to pay attention to spatial regions with high-fidelity spectral representations. Extensive experiments show that our MST significantly outperforms state-of-the-art (SOTA) methods on simulation and real HSI datasets while requiring dramatically cheaper computational and memory costs.
翻訳日:2021-11-16 17:45:47 公開日:2021-11-15
# 機械の物理:自律的位相マッピングにおける物理知識の統合

Physics in the Machine: Integrating Physical Knowledge in Autonomous Phase-Mapping ( http://arxiv.org/abs/2111.07478v1 )

ライセンス: Link先を確認
A. Gilad Kusne, Austin McDannald, Brian DeCost, Corey Oses, Cormac Toher, Stefano Curtarolo, Apurva Mehta, Ichiro Takeuchi(参考訳) 人工知能(AI)、特に機械学習の物理科学への応用は、過去数十年で大幅に拡大してきた。 特に、科学インフォームドAIや科学AIは、データ分析から、クローズドループ自律システムにおける実験設計、シミュレーション、実行、分析まで、成長してきた。 cameo(closed-loop autonomous materials exploration and optimization)アルゴリズムは、材料システムの構成構造関係の学習と最適な機能特性を持つ材料組成の同定という2つのタスクに科学的aiを用いる。 これらを統合することで, 合成相図を走査する加速材料が示され, 最高の位相変化記憶材料が発見された。 この成功の鍵は、構成-構造関係の知識を最大化するために、その後の測定を導く能力である。 本研究では,キャメオの自律的位相マッピングに先行する物理知識の様々なレベルを組み込むことの利点について検討する。 これには、AFLOWリポジトリからのab-initioフェーズ境界データの使用が含まれる。

Application of artificial intelligence (AI), and more specifically machine learning, to the physical sciences has expanded significantly over the past decades. In particular, science-informed AI or scientific AI has grown from a focus on data analysis to now controlling experiment design, simulation, execution and analysis in closed-loop autonomous systems. The CAMEO (closed-loop autonomous materials exploration and optimization) algorithm employs scientific AI to address two tasks: learning a material system's composition-structur e relationship and identifying materials compositions with optimal functional properties. By integrating these, accelerated materials screening across compositional phase diagrams was demonstrated, resulting in the discovery of a best-in-class phase change memory material. Key to this success is the ability to guide subsequent measurements to maximize knowledge of the composition-structur e relationship, or phase map. In this work we investigate the benefits of incorporating varying levels of prior physical knowledge into CAMEO's autonomous phase-mapping. This includes the use of ab-initio phase boundary data from the AFLOW repositories, which has been shown to optimize CAMEO's search when used as a prior.
翻訳日:2021-11-16 17:38:54 公開日:2021-11-15
# データ学習による無許可共存ネットワーク性能の最適化

Optimizing Unlicensed Coexistence Network Performance Through Data Learning ( http://arxiv.org/abs/2111.07583v1 )

ライセンス: Link先を確認
Srikant Manas Kala, Vanlin Sathya, Kunal Dahiya, Teruo Higashino, and Hirozumi Yamaguchi(参考訳) 未ライセンスのLTE-WiFi共存ネットワークは、モバイルデータ需要の増加に対応するために、一貫したデザイナ化が進んでいる。 共存ネットワークの複雑性の増大に伴い、ネットワーク特徴関係(NFR)を研究し、その利用により、密接な共存ネットワーク性能を最適化することが重要である。 本研究は,実世界の実験から収集したネットワークデータの教師あり学習を通じて,未ライセンスLTE-WiFi(LTE-UおよびLTE-LAA)ネットワークにおけるNFRを研究する。 実験では異なる802.11標準と異なるチャネル帯域幅が考慮され、学習モデル選択ポリシーが明確に概説されている。 その後、R-sq、残留誤差、外れ値、予測器の選択などのモデルパラメータを学習することで、LTE-WiFiネットワーク構成の比較分析を行う。 さらに,ネットワーク特徴関係に基づく最適化(NeFRO)フレームワークを提案する。 NeFROは,ネットワークデータから得られた特徴相関式を利用して,従来の最適化式を改善する。 本手法は,ネットワーク容量と信号強度の2つの最適化目標により,時間クリティカルな密集した共存ネットワークに高い適合性を示す。 NeFROはネットワーク最適化に関する最近の4つの研究に対して検証されている。 NeFROは、平均して97.16%の精度を維持しながら、最適化収束時間を最大24%減らすことに成功した。

Unlicensed LTE-WiFi coexistence networks are undergoing consistent densification to meet the rising mobile data demands. With the increase in coexistence network complexity, it is important to study network feature relationships (NFRs) and utilize them to optimize dense coexistence network performance. This work studies NFRs in unlicensed LTE-WiFi (LTE-U and LTE-LAA) networks through supervised learning of network data collected from real-world experiments. Different 802.11 standards and varying channel bandwidths are considered in the experiments and the learning model selection policy is precisely outlined. Thereafter, a comparative analysis of different LTE-WiFi network configurations is performed through learning model parameters such as R-sq, residual error, outliers, choice of predictor, etc. Further, a Network Feature Relationship based Optimization (NeFRO) framework is proposed. NeFRO improves upon the conventional optimization formulations by utilizing the feature-relationship equations learned from network data. It is demonstrated to be highly suitable for time-critical dense coexistence networks through two optimization objectives, viz., network capacity and signal strength. NeFRO is validated against four recent works on network optimization. NeFRO is successfully able to reduce optimization convergence time by as much as 24% while maintaining accuracy as high as 97.16%, on average.
翻訳日:2021-11-16 17:38:34 公開日:2021-11-15
# autogmap: memristive crossbars上で大規模スパースグラフをマッピングする学習

AutoGMap: Learning to Map Large-scale Sparse Graphs on Memristive Crossbars ( http://arxiv.org/abs/2111.07684v1 )

ライセンス: Link先を確認
Bo Lyu, Shengbo Wang, Shiping Wen, Kaibo Shi, Yin Yang, and Tingwen Huang(参考訳) グラフのスパース表現は、従来の計算アーキテクチャ(CPU、GPU、TPU)におけるグラフアプリケーション(例えば、ソーシャルネットワーク、知識グラフ)の計算を高速化する大きな可能性を示している。 しかし、プロセッシング・イン・メモリ(PIM)プラットフォーム上の大規模スパースグラフコンピューティング(典型的にはメムリシブ・クロスバー)の探索はまだ初期段階である。 大規模なグラフやバッチグラフの計算や格納をmemristive crossbarsに実装しようとするとき、自然な仮定として、大規模なクロスバーが必要だが、利用頻度は低い。 近年の研究では、固定サイズ、漸進的スケジュール、粗粒度である「ブロックパーティション」によってストレージと計算資源の無駄を避けるという仮定に疑問が持たれている。 本研究は、強化学習(rl)アルゴリズム(reinforce)によって解かれる逐次意思決定問題として問題をモデル化する動的スパーシティ・アウェアマッピングスキーム生成手法を提案する。 我々の生成モデル(LSTM, 動的充填機構)は, 小型の典型的なグラフ/行列データ(全写像を持つ元の行列の43%の領域)と2つの大規模行列データ(qh882の22.5%, qh1484の17.1%の領域)で顕著なマッピング性能を生成する。 さらに,このスキームのコーディングフレームワークは直感的であり,デプロイやコンパイルシステムへの適応性が期待できる。

The sparse representation of graphs has shown its great potential for accelerating the computation of the graph applications (e.g. Social Networks, Knowledge Graphs) on traditional computing architectures (CPU, GPU, or TPU). But the exploration of the large-scale sparse graph computing on processing-in-memory (PIM) platforms (typically with memristive crossbars) is still in its infancy. As we look to implement the computation or storage of large-scale or batch graphs on memristive crossbars, a natural assumption would be that we need a large-scale crossbar, but with low utilization. Some recent works have questioned this assumption to avoid the waste of the storage and computational resource by "block partition", which is fixed-size, progressively scheduled, or coarse-grained, thus is not effectively sparsity-aware in our view. This work proposes the dynamic sparsity-aware mapping scheme generating method that models the problem as a sequential decision-making problem which is solved by reinforcement learning (RL) algorithm (REINFORCE). Our generating model (LSTM, combined with our dynamic-fill mechanism) generates remarkable mapping performance on a small-scale typical graph/matrix data (43% area of the original matrix with fully mapping), and two large-scale matrix data (22.5% area on qh882, and 17.1% area on qh1484). Moreover, our coding framework of the scheme is intuitive and has promising adaptability with the deployment or compilation system.
翻訳日:2021-11-16 17:38:11 公開日:2021-11-15
# MIMO CSI再生のための未学習ニューラルネットワークの伝達学習能力

Transfer Learning Capabilities of Untrained Neural Networks for MIMO CSI Recreation ( http://arxiv.org/abs/2111.07858v1 )

ライセンス: Link先を確認
Brenda Vilas Boas and Wolfgang Zirwas and Martin Haardt(参考訳) 無線通信のための機械学習(ML)アプリケーションは、5G以降の標準化議論で勢いを増している。 実世界のMLデプロイメントにおける最大の課題の1つは、ラベル付き信号と大きな計測キャンペーンの必要性である。 そこで本研究では,未学習ニューラルネットワーク(unns)を用いたmimoチャネルのレクリエーション/推定と低オーバーヘッド報告を提案する。 unnはいくつかのチャネル計測を適合させることで伝搬環境を学習し,その学習を活用し,高いチャネル推定率を提供する。 さらに,複数のユーザを対象とした同時チャネルレクリエーションのためのUNNや,推定チャネルゲインとパラメータ数との間にトレードオフがある複数ユーザ機器(UE)の配置を提案する。 その結果, 移動学習技術は, 近隣のユーザに対して高いチャネルゲインを提供するため, 学習前の環境構造へのアクセスに有効であることが示唆された。 さらに,UNNのアンダーパラメータ化により,低オーバヘッドチャネル状態情報(CSI)の報告が可能となることを示す。

Machine learning (ML) applications for wireless communications have gained momentum on the standardization discussions for 5G advanced and beyond. One of the biggest challenges for real world ML deployment is the need for labeled signals and big measurement campaigns. To overcome those problems, we propose the use of untrained neural networks (UNNs) for MIMO channel recreation/estimatio n and low overhead reporting. The UNNs learn the propagation environment by fitting a few channel measurements and we exploit their learned prior to provide higher channel estimation gains. Moreover, we present a UNN for simultaneous channel recreation for multiple users, or multiple user equipment (UE) positions, in which we have a trade-off between the estimated channel gain and the number of parameters. Our results show that transfer learning techniques are effective in accessing the learned prior on the environment structure as they provide higher channel gain for neighbouring users. Moreover, we indicate how the under-parameterizati on of UNNs can further enable low-overhead channel state information (CSI) reporting.
翻訳日:2021-11-16 17:36:21 公開日:2021-11-15
# 両世界のベスト:実用的かつ理論的に最適なパラレル部分モジュラー極大化

Best of Both Worlds: Practical and Theoretically Optimal Submodular Maximization in Parallel ( http://arxiv.org/abs/2111.07917v1 )

ライセンス: Link先を確認
Yixin Chen, Tonmoy Dey, Alan Kuhnle(参考訳) 単調で部分モジュラーな関数を大きさの基底集合上の濃度制約$k$で最大化する問題に対して、我々は、その経験的性能と理論的性質の両方において、適応的複雑性、クエリの複雑性、近似比の両面において最先端を達成するアルゴリズムを提供し、高い確率で、クエリの複雑さが$O(n)$の期待値、$O(\log(n))$の適応率、および近似比が$1-1/e$である。 主アルゴリズムは、独立した関心を持つ2つのコンポーネントから組み立てられる。 このアルゴリズムの最初のコンポーネントである linearseq は、多くのアルゴリズムのクエリの複雑さを改善する前処理アルゴリズムとして有用である。 さらに、LINEARSEQの変種は、文献のいかなる以前のアルゴリズムよりも小さい$O( \log (n / k) )$の適応的な複雑性を持つことが示されている。 第2のコンポーネントは、ゲインが一定の閾値を超える要素を追加する並列化可能なしきい値処理しきい値seqである。 最後に,本アルゴリズムは実行時,適応ラウンド,全問合せ,目的値において,従来の最先端アルゴリズムであるFASTを6つのサブモジュラー目的関数で総合的に評価した場合に,経験的に優れていることを示す。

For the problem of maximizing a monotone, submodular function with respect to a cardinality constraint $k$ on a ground set of size $n$, we provide an algorithm that achieves the state-of-the-art in both its empirical performance and its theoretical properties, in terms of adaptive complexity, query complexity, and approximation ratio; that is, it obtains, with high probability, query complexity of $O(n)$ in expectation, adaptivity of $O(\log(n))$, and approximation ratio of nearly $1-1/e$. The main algorithm is assembled from two components which may be of independent interest. The first component of our algorithm, LINEARSEQ, is useful as a preprocessing algorithm to improve the query complexity of many algorithms. Moreover, a variant of LINEARSEQ is shown to have adaptive complexity of $O( \log (n / k) )$ which is smaller than that of any previous algorithm in the literature. The second component is a parallelizable thresholding procedure THRESHOLDSEQ for adding elements with gain above a constant threshold. Finally, we demonstrate that our main algorithm empirically outperforms, in terms of runtime, adaptive rounds, total queries, and objective values, the previous state-of-the-art algorithm FAST in a comprehensive evaluation with six submodular objective functions.
翻訳日:2021-11-16 17:36:05 公開日:2021-11-15
# グラフニューラルネットワークを用いた無線フェデレーション学習のための電力割当

Power Allocation for Wireless Federated Learning using Graph Neural Networks ( http://arxiv.org/abs/2111.07480v1 )

ライセンス: Link先を確認
Boning Li, Ananthram Swami, Santiago Segarra(参考訳) 干渉制限無線ネットワーク上でのフェデレーション学習(FL)の文脈における電力配分のためのデータ駆動方式を提案する。 電力政策は、通信制約下でのflプロセス中に送信される情報を最大化し、訓練中のグローバルflモデルの正確性と効率を向上させることを最終的な目的としている。 提案手法はグラフ畳み込みネットワークを用いてパラメータ化され、関連する制約付き最適化問題は原始双対アルゴリズムによって解決される。 数値実験により,提案手法は伝送成功率とflグローバル性能の両方において3つのベースライン法を上回った。

We propose a data-driven approach for power allocation in the context of federated learning (FL) over interference-limited wireless networks. The power policy is designed to maximize the transmitted information during the FL process under communication constraints, with the ultimate objective of improving the accuracy and efficiency of the global FL model being trained. The proposed power allocation policy is parameterized using a graph convolutional network and the associated constrained optimization problem is solved through a primal-dual algorithm. Numerical experiments show that the proposed method outperforms three baseline methods in both transmission success rate and FL global performance.
翻訳日:2021-11-16 17:30:36 公開日:2021-11-15
# 混合単調性を用いたニューラルネットワークの到達可能性解析

Reachability analysis of neural networks using mixed monotonicity ( http://arxiv.org/abs/2111.07683v1 )

ライセンス: Link先を確認
Pierre-Jean Meyer(参考訳) 本稿では,入力不確実性条件下でのフィードフォワードニューラルネットワークの出力集合の過度近似を計算するための新しい到達可能性解析ツールを提案する。 提案手法は,既存の混合単調法をニューラルネットワークに適用して動的システムの到達可能性解析を行い,与えられたニューラルネットワーク内の任意の部分ネットワークに適用する。 これにより、得られた結果の交叉が混合単調性を用いて得られる各層の出力の最も狭い間隔オーバー近似であることが保証される。 リプシッツ連続活性化関数でニューラルネットワークを処理できるという意味では,本手法の主な強みは,小片方向アフィンあるいはモノトン活性化関数の小さなクラスに焦点を当てた他の文献のツールと異なり,その一般化である。 さらに,提案フレームワークのシンプルさにより,関数,その微分,大域的極限,およびそれに対応する引数を提供することで,実装されていないアクティベーション関数をユーザが簡単に追加することができる。 このアルゴリズムは4つのアクティベーション関数(relu, tanh, elu, silu)のための1000個のランダム生成ニューラルネットワーク上で,他の5つのインターバルベースツールと比較した。 我々のツールは、常にインターバルバウンド伝搬法より優れており、ReluVal、Neurify、VeriNet、CROWN(適用可能な場合)よりも、15%から60%のケースで出力バウンダリが得られることを示す。

This paper presents a new reachability analysis tool to compute an interval over-approximation of the output set of a feedforward neural network under given input uncertainty. The proposed approach adapts to neural networks an existing mixed-monotonicity method for the reachability analysis of dynamical systems and applies it to all possible partial networks within the given neural network. This ensures that the intersection of the obtained results is the tightest interval over-approximation of the output of each layer that can be obtained using mixed-monotonicity. Unlike other tools in the literature that focus on small classes of piecewise-affine or monotone activation functions, the main strength of our approach is its generality in the sense that it can handle neural networks with any Lipschitz-continuous activation function. In addition, the simplicity of the proposed framework allows users to very easily add unimplemented activation functions, by simply providing the function, its derivative and the global extrema and corresponding arguments of the derivative. Our algorithm is tested and compared to five other interval-based tools on 1000 randomly generated neural networks for four activation functions (ReLU, TanH, ELU, SiLU). We show that our tool always outperforms the Interval Bound Propagation method and that we obtain tighter output bounds than ReluVal, Neurify, VeriNet and CROWN (when they are applicable) in 15 to 60 percent of cases.
翻訳日:2021-11-16 17:30:25 公開日:2021-11-15
# オンライン校正学習のための教師支援フレームワーク

A teacher-student framework for online correctional learning ( http://arxiv.org/abs/2111.07818v1 )

ライセンス: Link先を確認
In\^es Louren\c{c}o, Rebecka Winqvist, Cristian R. Rojas, Bo Wahlberg(参考訳) 古典的な学習環境とは、学生がシステムに関するデータや観察を収集し、それに関する一定の量の関心を見積もるものである。 矯正学習(英: correctional learning)とは、システムに関する知識を有する教師が、生徒が受ける観察を観察し、変更(修正)し、その推定を改善することのできる、協調的な教師・学生の枠組みである。 本稿では,教師の助けを借りて,学生の推定値のばらつきを低減できることを示す。 さらに、教師が観察を変更するかどうかを瞬時に判断しなければならないオンライン問題を、動的プログラミングを用いて最適なポリシーが導出されるマルコフ決定プロセスとして定式化する。 提案手法を数値実験で検証し,最適なオンラインポリシーとバッチ設定の手法を比較した。

A classical learning setting is one in which a student collects data, or observations, about a system, and estimates a certain quantity of interest about it. Correctional learning is a type of cooperative teacher-student framework where a teacher, who has knowledge about the system, has the possibility to observe and alter (correct) the observations received by the student in order to improve its estimation. In this paper, we show that the variance of the estimate of the student is reduced with the help of the teacher. We further formulate the online problem - where the teacher has to decide at each time instant whether or not to change the observations - as a Markov decision process, from which the optimal policy is derived using dynamic programming. We validate the framework in numerical experiments, and compare the optimal online policy with the one from the batch setting.
翻訳日:2021-11-16 17:28:46 公開日:2021-11-15
# 教師なし特徴学習に基づく3体再正規化群制限サイクル

Three-body renormalization group limit cycles based on unsupervised feature learning ( http://arxiv.org/abs/2111.07820v1 )

ライセンス: Link先を確認
Bastian Kaspschak and Ulf-G. Mei{\ss}ner(参考訳) 3体系と逆2乗ポテンシャルの両方が、再正規化群極限サイクルの研究において特に重要である。 本研究では, 探索的アプローチを追求し, 低エネルギーの3体系において, 散乱長に制限を課すことなく, 2体相互作用が限界サイクルに導くか, という問題に対処した。 そこで,我々は,低次元の潜在空間における極限サイクルを効率的に探索するために重要な前提条件である,高次元化だけでなく,さらなる合成ポテンシャルも生み出すように,可変オートエンコーダを訓練する。 我々は、特殊に定義されたリミットサイクル損失を最小限に抑えるために、エリート的遺伝的アルゴリズムを合成ポテンシャルの集団に適用する。 その結果、最も適した個人は、逆正方ポテンシャルが、超角に依存しないこの極限サイクル損失を最小限に抑える唯一の2体ポテンシャルであることを示唆している。

Both the three-body system and the inverse square potential carry a special significance in the study of renormalization group limit cycles. In this work, we pursue an exploratory approach and address the question which two-body interactions lead to limit cycles in the three-body system at low energies, without imposing any restrictions upon the scattering length. For this, we train a boosted ensemble of variational autoencoders, that not only provide a severe dimensionality reduction, but also allow to generate further synthetic potentials, which is an important prerequisite in order to efficiently search for limit cycles in low-dimensional latent space. We do so by applying an elitist genetic algorithm to a population of synthetic potentials that minimizes a specially defined limit-cycle-loss. The resulting fittest individuals suggest that the inverse square potential is the only two-body potential that minimizes this limit cycle loss independent of the hyperangle.
翻訳日:2021-11-16 17:28:32 公開日:2021-11-15
# 事前知識に基づくCSIレクリエーションのための機械学習

Machine Learning for CSI Recreation Based on Prior Knowledge ( http://arxiv.org/abs/2111.07854v1 )

ライセンス: Link先を確認
Brenda Vilas Boas and Wolfgang Zirwas and Martin Haardt(参考訳) チャネル状態情報(csi)の知識は、モバイル無線通信システムにおける多くの機能の基本である。 機械学習(ML)とデジタルマップ(デジタルツイン)の進歩により、我々は伝播環境を学習し、CSIを導出し報告する新しい手法を設計する大きな機会を得る。 本研究では、未学習ニューラルネットワーク(UNN)と条件付き生成対向ネットワーク(cGAN)を組み合わせたMIMOチャネルレクリエーション手法を提案する。 UNNは、cGANへの入力を構築するために使用されるいくつかの場所の事前CSIを学ぶ。 事前のCSI、その位置、所望のチャネルの位置に基づいて、cGANは、所望の場所に期待されるチャネルを出力するように訓練される。 この組み合わせアプローチは、トレーニング後、必要な場所のみを報告する必要があるため、低いオーバーヘッドcsiレポートに使用できる。 提案手法は, 無線チャネルのモデル化に成功し, 視線条件下での位置量子化誤差に頑健であることを示す。

Knowledge of channel state information (CSI) is fundamental to many functionalities within the mobile wireless communications systems. With the advance of machine learning (ML) and digital maps, i.e., digital twins, we have a big opportunity to learn the propagation environment and design novel methods to derive and report CSI. In this work, we propose to combine untrained neural networks (UNNs) and conditional generative adversarial networks (cGANs) for MIMO channel recreation based on prior knowledge. The UNNs learn the prior-CSI for some locations which are used to build the input to a cGAN. Based on the prior-CSIs, their locations and the location of the desired channel, the cGAN is trained to output the channel expected at the desired location. This combined approach can be used for low overhead CSI reporting as, after training, we only need to report the desired location. Our results show that our method is successful in modelling the wireless channel and robust to location quantization errors in line of sight conditions.
翻訳日:2021-11-16 17:28:16 公開日:2021-11-15
# ハイブリッドグラフ畳み込みネットワークと長期記憶を用いた再生可能エネルギーの短期電力予測

Short-Term Power Prediction for Renewable Energy Using Hybrid Graph Convolutional Network and Long Short-Term Memory Approach ( http://arxiv.org/abs/2111.07958v1 )

ライセンス: Link先を確認
Wenlong Liao, Birgitte Bak-Jensen, Jayakrishnan Radhakrishna Pillai, Zhe Yang, and Kuangpu Liu(参考訳) 電力システムの計画と運用において、太陽と風力の正確な短期予測は重要な役割を担っている。 しかしながら、再生可能エネルギーの短期的な電力予測は、出力パワーの変動と断続性、局所的な気象条件、すなわち時空間相関による時間変化の法則により、常に複雑な回帰問題とみなされてきた。 本稿では,グラフ畳み込みネットワーク(GCN)と長短短期メモリ(LSTM)を組み合わせたグラフニューラルネットワークを用いた短期電力予測手法を提案する。 特に、GCNは隣接する再生エネルギー間の複雑な空間相関を学習するために使用され、LSTMはパワーカーブの動的変化を学習するために使用される。 シミュレーションの結果,提案手法は再生可能エネルギーの時空間相関をモデル化し,その性能は実世界のデータセットのベースラインよりも優れていた。

Accurate short-term solar and wind power predictions play an important role in the planning and operation of power systems. However, the short-term power prediction of renewable energy has always been considered a complex regression problem, owing to the fluctuation and intermittence of output powers and the law of dynamic change with time due to local weather conditions, i.e. spatio-temporal correlation. To capture the spatio-temporal features simultaneously, this paper proposes a new graph neural network-based short-term power forecasting approach, which combines the graph convolutional network (GCN) and long short-term memory (LSTM). Specifically, the GCN is employed to learn complex spatial correlations between adjacent renewable energies, and the LSTM is used to learn dynamic changes of power curves. The simulation results show that the proposed hybrid approach can model the spatio-temporal correlation of renewable energies, and its performance outperforms popular baselines on real-world datasets.
翻訳日:2021-11-16 17:27:57 公開日:2021-11-15
# 非従属リーマン運動予測制御

Nonprehensile Riemannian Motion Predictive Control ( http://arxiv.org/abs/2111.07986v1 )

ライセンス: Link先を確認
Hamid Izadinia, Byron Boots, Steven M. Seitz(参考訳) 非包括的操作は、長い水平不動物体相互作用と、本質的に高い不確実性をもたらす可能性のある異なる物体との物理的接触を含む。 本研究では,リアル・ツー・シムの報酬分析技術であるRiemannian Motion Predictive Control (RMPC)を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。 提案するrmpcは, リーマン運動ポリシーと2次動的モデルにより, 加速度指令を計算し, ロボットを表面上のあらゆる場所で制御できる。 提案手法は実シーンの3次元オブジェクトレベル再構成モデルを作成し,異なる軌道の効果をシミュレートする。 連続したアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成する。 我々は,実際のロボットプラットフォーム上で実験を行い,シミュレーションを行い,複数のベースラインと比較することで,rmpc手法の性能を評価する。 rmpcは乱雑な環境と混ざり合った環境において頑健であり、ベースラインよりも優れています。

Nonprehensile manipulation involves long horizon underactuated object interactions and physical contact with different objects that can inherently introduce a high degree of uncertainty. In this work, we introduce a novel Real-to-Sim reward analysis technique, called Riemannian Motion Predictive Control (RMPC), to reliably imagine and predict the outcome of taking possible actions for a real robotic platform. Our proposed RMPC benefits from Riemannian motion policy and second order dynamic model to compute the acceleration command and control the robot at every location on the surface. Our approach creates a 3D object-level recomposed model of the real scene where we can simulate the effect of different trajectories. We produce a closed-loop controller to reactively push objects in a continuous action space. We evaluate the performance of our RMPC approach by conducting experiments on a real robot platform as well as simulation and compare against several baselines. We observe that RMPC is robust in cluttered as well as occluded environments and outperforms the baselines.
翻訳日:2021-11-16 17:27:40 公開日:2021-11-15
# (参考訳) Annotator with Attitudes: Annotator Beliefs and Identities Bias Toxic Language Detection [全文訳有]

Annotators with Attitudes: How Annotator Beliefs And Identities Bias Toxic Language Detection ( http://arxiv.org/abs/2111.07997v1 )

ライセンス: CC BY 4.0
Maarten Sap, Swabha Swayamdipta, Laura Vianna, Xuhui Zhou, Yejin Choi, Noah A. Smith(参考訳) 言語の毒性は、誰かのアイデンティティや信念によって異なるが、有害な言語データセットを収集する場合、この変異はしばしば無視され、結果としてデータセットとモデルのバイアスが生じる。 毒性アノテーションのバイアスの背景にある人、理由、何を理解しようとします。 人口統計学的および政治的に多様である2つのオンライン研究において、ヘイトスピーチ、言論の自由、人種差別的信念、政治的傾倒などに関する社会心理学的な研究から、アノテータのアイデンティティ(誰)と信念(なぜ)の効果を考察した。 我々は、アンチブラック言語、アフリカ・アメリカン・イングリッシュ(AAE)方言、および下品性という3つの特徴を持つポストを考慮し、有毒であると注釈されたものを切り離す。 以上より,アノテータのアイデンティティと信念と毒性評価との間に強い相関がみられた。 特に、より保守的な注釈家や人種差別的信念を高く評価した人々は、反黒人言語を有毒と評する傾向は低いが、aaeを有毒と評する傾向が強かった。 また,一般的な毒性検出システムの評価が,特定の信念と視点のみを本質的に反映していることを示すケーススタディを提示する。 社会変数における毒性ラベルの文脈化は有害な言語アノテーションや検出に多大な影響を及ぼすと考えられる。

The perceived toxicity of language can vary based on someone's identity and beliefs, but this variation is often ignored when collecting toxic language datasets, resulting in dataset and model biases. We seek to understand the who, why, and what behind biases in toxicity annotations. In two online studies with demographically and politically diverse participants, we investigate the effect of annotator identities (who) and beliefs (why), drawing from social psychology research about hate speech, free speech, racist beliefs, political leaning, and more. We disentangle what is annotated as toxic by considering posts with three characteristics: anti-Black language, African American English (AAE) dialect, and vulgarity. Our results show strong associations between annotator identity and beliefs and their ratings of toxicity. Notably, more conservative annotators and those who scored highly on our scale for racist beliefs were less likely to rate anti-Black language as toxic, but more likely to rate AAE as toxic. We additionally present a case study illustrating how a popular toxicity detection system's ratings inherently reflect only specific beliefs and perspectives. Our findings call for contextualizing toxicity labels in social variables, which raises immense implications for toxic language annotation and detection.
翻訳日:2021-11-16 17:26:39 公開日:2021-11-15
# カメラ画像と信号処理パイプラインに対する再帰的自己改善

Recursive Self-Improvement for Camera Image and Signal Processing Pipeline ( http://arxiv.org/abs/2111.07499v1 )

ライセンス: Link先を確認
Chandrajit Bajaj and Yi Wang and Yunhao Yang and Yuhan Zheng(参考訳) 現在のカメラ画像および信号処理パイプライン(isp)は、深く訓練されたバージョンを含むが、画像全体に均一に適用される単一のフィルタを適用する傾向がある。 これは、ほとんどのカメラ画像が空間的に異質なアーティファクトを持っているにもかかわらずである。 この空間的不均一性は、様々なモアレリング、動きブレア、カラーブレッシング、レンズベースの投影歪みとして画像空間全体に現れる。 さらに、これらの画像アーティファクトの組み合わせは、取得した画像内の小さなピクセルまたは大きなピクセル近傍に存在することができる。 本稿では,学習可能な潜在部分空間で動作する深層強化学習モデルを提案し,パッチに基づく空間適応型アーティファクトフィルタリングと画像強調により,カメラの画質を再帰的に改善する。 我々のRSE-RLモデルは、アーティファクトの同定と修正を再帰的な自己学習と自己改善のエクササイズと見なしており、2つの主要なサブモジュールから構成されている。 i)同変変分自動エンコーダを用いて、ノイズとクリーンな画像パッチ間の対応と不一致を迅速に識別できる潜在特徴サブスペースクラスタリング/グループ化。 (ii)クリーンパッチの最も近い特徴距離の近傍を用いて、徐々にノイズパッチをフィルタリングし、強化する信頼区間ソフトアクタ-クリティックエージェントによって制御される適応学習変換。 パッチベースのISPで導入される人工的なアーティファクトは、報酬ベースのデブロッキングリカバリとイメージ拡張によって取り除かれる。 本稿では,RSE-RLトレーニングフィルタリングパイプラインに対して,各エポックから得られた強調画像が自然なデータ拡張とロバスト性を提供する,画像の再帰的トレーニングとテストによる自己改善機能を示す。

Current camera image and signal processing pipelines (ISPs), including deep trained versions, tend to apply a single filter that is uniformly applied to the entire image. This despite the fact that most acquired camera images have spatially heterogeneous artifacts. This spatial heterogeneity manifests itself across the image space as varied Moire ringing, motion-blur, color-bleaching or lens based projection distortions. Moreover, combinations of these image artifacts can be present in small or large pixel neighborhoods, within an acquired image. Here, we present a deep reinforcement learning model that works in learned latent subspaces, recursively improves camera image quality through a patch-based spatially adaptive artifact filtering and image enhancement. Our RSE-RL model views the identification and correction of artifacts as a recursive self-learning and self-improvement exercise and consists of two major sub-modules: (i) The latent feature sub-space clustering/grouping obtained through an equivariant variational auto-encoder enabling rapid identification of the correspondence and discrepancy between noisy and clean image patches. (ii) The adaptive learned transformation controlled by a trust-region soft actor-critic agent that progressively filters and enhances the noisy patches using its closest feature distance neighbors of clean patches. Artificial artifacts that may be introduced in a patch-based ISP, are also removed through a reward based de-blocking recovery and image enhancement. We demonstrate the self-improvement feature of our model by recursively training and testing on images, wherein the enhanced images resulting from each epoch provide a natural data augmentation and robustness to the RSE-RL training-filtering pipeline.
翻訳日:2021-11-16 16:17:13 公開日:2021-11-15
# TrioNetの検索: 畳み込みと局所的・グローバル的自己意識の組み合わせ

Searching for TrioNet: Combining Convolution with Local and Global Self-Attention ( http://arxiv.org/abs/2111.07547v1 )

ライセンス: Link先を確認
Huaijin Pi, Huiyu Wang, Yingwei Li, Zizhang Li, Alan Yuille(参考訳) 近年,視覚モデルのためのスタンドアロンビルディングブロックとして,自己注意演算子の性能が向上している。 しかし、既存のセルフアテンションモデルはしばしば手動で設計され、cnnから修正され、1つの演算子のみを積み重ねることで得られる。 異なる自己アテンション演算子と畳み込みを組み合わせたより広い範囲のアーキテクチャ空間を探索することは稀である。 本稿では,重み付きニューラルアーキテクチャサーチ(NAS)アルゴリズムを用いて,この新しいアーキテクチャ空間を探索する。 結果アーキテクチャは、畳み込み、局所自己アテンション、グローバル(軸)自己アテンション演算子を組み合わせたTrioNetと名付けられた。 この巨大なアーキテクチャ空間を効果的に探索するために、スーパーネットのトレーニングを改善するために階層サンプリングを提案する。 さらに,新しい重み共有戦略であるマルチヘッドシェアリング,特にマルチヘッドセルフアテンション演算子を提案する。 自己アテンションと畳み込みを組み合わせた検索トリオネットは,イメージネット分類において,畳み込みよりも自己アテンションが優れたフラップが少なく,すべてのスタンドアロンモデルを上回る。 さらに,様々な小規模データセットにおいて,自己着脱モデルの劣る性能を観測するが,この場合の畳み込みにより,我々のトライオネットはいまだに最良の演算子にマッチする。 私たちのコードはhttps://github.com/p hj128/trionetで利用可能です。

Recently, self-attention operators have shown superior performance as a stand-alone building block for vision models. However, existing self-attention models are often hand-designed, modified from CNNs, and obtained by stacking one operator only. A wider range of architecture space which combines different self-attention operators and convolution is rarely explored. In this paper, we explore this novel architecture space with weight-sharing Neural Architecture Search (NAS) algorithms. The result architecture is named TrioNet for combining convolution, local self-attention, and global (axial) self-attention operators. In order to effectively search in this huge architecture space, we propose Hierarchical Sampling for better training of the supernet. In addition, we propose a novel weight-sharing strategy, Multi-head Sharing, specifically for multi-head self-attention operators. Our searched TrioNet that combines self-attention and convolution outperforms all stand-alone models with fewer FLOPs on ImageNet classification where self-attention performs better than convolution. Furthermore, on various small datasets, we observe inferior performance for self-attention models, but our TrioNet is still able to match the best operator, convolution in this case. Our code is available at https://github.com/p hj128/TrioNet.
翻訳日:2021-11-16 16:15:04 公開日:2021-11-15
# UHP-SOT++による教師なし軽量物体追跡

Unsupervised Lightweight Single Object Tracking with UHP-SOT++ ( http://arxiv.org/abs/2111.07548v1 )

ライセンス: Link先を確認
Zhiruo Zhou, Hongyu Fu, Suya You, and C.-C. Jay Kuo(参考訳) UHP-SOTと呼ばれる、教師なし、軽量で高性能なシングルオブジェクトトラッカーが、Zhouらによって最近提案された。 拡張として、拡張バージョンを提示し、UHP-SOT++と命名する。 UHP-SOT と UHP-SOT++ では、識別相関フィルタ(DCF-based)トラッカーの基盤として2つの新しい材料が導入されている。 1【背景動きのモデリング】 2)オブジェクトボックス軌道モデリング。 UHP-SOTとUHP-SOT++の主な違いは、3つのモデル(DCF、バックグラウンドモーション、オブジェクトボックス軌道モデル)の提案の融合戦略である。 大規模なトラッキングデータセットに対して、より堅牢なトラッキングパフォーマンスを実現するため、UHP-SOT++によって改善された融合戦略が採用されている。 第2のコントリビューションは、4つのSOTベンチマークデータセットSOTB2015, TC128, UAV123, LaSOTでテストすることで、最先端の教師付きおよび教師なしメソッドのパフォーマンスを広範囲に評価することにあります。 実験の結果,UHP-SOT++は従来の教師なし手法といくつかのディープラーニング(DL)手法よりも精度が高いことがわかった。 UHP-SOT++は、非常に小さなモデルサイズ、高いトラッキング性能、低計算量(コード最適化なしでは20FPSで動作する)を持つため、リソース制限されたプラットフォーム上でのリアルタイムオブジェクト追跡には理想的なソリューションである。 実験結果に基づき,教師付きトラッカと教師付きトラッカの長所と短所を比較し,教師付きトラッカと教師なしトラッカのパフォーマンスギャップを理解するための新しい視点を提供する。

An unsupervised, lightweight and high-performance single object tracker, called UHP-SOT, was proposed by Zhou et al. recently. As an extension, we present an enhanced version and name it UHP-SOT++ in this work. Built upon the foundation of the discriminative-corre lation-filters-based (DCF-based) tracker, two new ingredients are introduced in UHP-SOT and UHP-SOT++: 1) background motion modeling and 2) object box trajectory modeling. The main difference between UHP-SOT and UHP-SOT++ is the fusion strategy of proposals from three models (i.e., DCF, background motion and object box trajectory models). An improved fusion strategy is adopted by UHP-SOT++ for more robust tracking performance against large-scale tracking datasets. Our second contribution lies in an extensive evaluation of the performance of state-of-the-art supervised and unsupervised methods by testing them on four SOT benchmark datasets - OTB2015, TC128, UAV123 and LaSOT. Experiments show that UHP-SOT++ outperforms all previous unsupervised methods and several deep-learning (DL) methods in tracking accuracy. Since UHP-SOT++ has extremely small model size, high tracking performance, and low computational complexity (operating at a rate of 20 FPS on an i5 CPU even without code optimization), it is an ideal solution in real-time object tracking on resource-limited platforms. Based on the experimental results, we compare pros and cons of supervised and unsupervised trackers and provide a new perspective to understand the performance gap between supervised and unsupervised methods, which is the third contribution of this work.
翻訳日:2021-11-16 16:14:41 公開日:2021-11-15
# 弱めに監督されたDense Action Precipation

Weakly-Supervised Dense Action Anticipation ( http://arxiv.org/abs/2111.07593v1 )

ライセンス: Link先を確認
Haotong Zhang, Fuhai Chen, Angela Yao(参考訳) デンス予測は、将来の行動とその期間を長い地平線のために予測することを目的としている。 既存のアプローチは、完全なラベル付きデータ、すなわち全ての将来の行動とその期間をラベル付けしたシーケンスに依存している。 本稿では,少数の完全ラベル付きシーケンスのみを用いて (半) 弱教師付き手法を提案し, (1) 来るアクションのみをラベル付けする。 そこで本研究では,将来の動作とその継続時間に対して擬似ラベルを生成し,改良モジュールを通じて適応的に改良するフレームワークを提案する。 今後のアクションラベルのみを入力として、これらの擬似ラベルは将来のアクション/デュレーション予測を導く。 さらに、コンテキスト認識期間を予測するための注意機構を設計する。 朝食と50saladsベンチマークによる実験により,本手法の有効性が検証された。 コードはhttps://github.com/z hanghaotong1/wslvide odenseanticipationで利用可能になります。

Dense anticipation aims to forecast future actions and their durations for long horizons. Existing approaches rely on fully-labelled data, i.e. sequences labelled with all future actions and their durations. We present a (semi-) weakly supervised method using only a small number of fully-labelled sequences and predominantly sequences in which only the (one) upcoming action is labelled. To this end, we propose a framework that generates pseudo-labels for future actions and their durations and adaptively refines them through a refinement module. Given only the upcoming action label as input, these pseudo-labels guide action/duration prediction for the future. We further design an attention mechanism to predict context-aware durations. Experiments on the Breakfast and 50Salads benchmarks verify our method's effectiveness; we are competitive even when compared to fully supervised state-of-the-art models. We will make our code available at: https://github.com/z hanghaotong1/WSLVide oDenseAnticipation.
翻訳日:2021-11-16 16:14:10 公開日:2021-11-15
# Fake Transformer: 顔画像の変動をモデルとした空間時間表現からの顔偽造

FakeTransformer: Exposing Face Forgery From Spatial-Temporal Representation Modeled By Facial Pixel Variations ( http://arxiv.org/abs/2111.07601v1 )

ライセンス: Link先を確認
Yuyang Sun, Zhiyong Zhang, Changzhen Qiu, Liang Wang and Zekai Wang(参考訳) 生成モデルの急速な発展に伴い、DeepFakesと呼ばれるAIベースの顔操作技術はますます現実的になっている。 この偽造行為はあらゆるターゲットを攻撃できるため、個人のプライバシーと財産のセキュリティに新たな脅威をもたらす。 さらに、合成ビデオの誤用は、アイデンティティハラスメント、ポルノグラフィー、ニュースの噂など、多くの分野で潜在的な危険性を示している。 生理的信号の空間的コヒーレンスと時間的一貫性が生成された内容で破壊されるという事実に着想を得て,実映像と合成映像を生理的情報に強く関連する顔画像のバリエーションとを区別する不整合パターンを見つけ出そうとする。 提案手法はまず,複数のガウススケールでユーレリアビデオ拡大(EVM)を適用し,顔の血流量の変化による生理的変動を増大させるとともに,元の動画と拡大した動画を多スケールユーレリア拡大空間時間マップ(MEMSTmap)に変換し,異なるオクターブ上での生理的拡張シーケンスの時間変化を表現する。 次に、これらのマップをコラム単位のフレームパッチに再構成し、ビジョントランスフォーマーに送信してフレームレベルの時空間記述子を学ぶ。 最後に、ビデオが本物か偽物かを判断する確率を推定し、その機能を埋め込んで出力する。 提案手法はFaceForensics++とDeepFake検出データセットで検証する。 その結果,本モデルは偽造検出において優れた性能を示し,クロスデータ領域における優れた一般化能力を示した。

With the rapid development of generation model, AI-based face manipulation technology, which called DeepFakes, has become more and more realistic. This means of face forgery can attack any target, which poses a new threat to personal privacy and property security. Moreover, the misuse of synthetic video shows potential dangers in many areas, such as identity harassment, pornography and news rumors. Inspired by the fact that the spatial coherence and temporal consistency of physiological signal are destroyed in the generated content, we attempt to find inconsistent patterns that can distinguish between real videos and synthetic videos from the variations of facial pixels, which are highly related to physiological information. Our approach first applies Eulerian Video Magnification (EVM) at multiple Gaussian scales to the original video to enlarge the physiological variations caused by the change of facial blood volume, and then transform the original video and magnified videos into a Multi-Scale Eulerian Magnified Spatial-Temporal map (MEMSTmap), which can represent time-varying physiological enhancement sequences on different octaves. Then, these maps are reshaped into frame patches in column units and sent to the vision Transformer to learn the spatio-time descriptors of frame levels. Finally, we sort out the feature embedding and output the probability of judging whether the video is real or fake. We validate our method on the FaceForensics++ and DeepFake Detection datasets. The results show that our model achieves excellent performance in forgery detection, and also show outstanding generalization capability in cross-data domain.
翻訳日:2021-11-16 16:13:52 公開日:2021-11-15
# チャネルワイズ特徴量による指紋提示攻撃検出

Fingerprint Presentation Attack Detection by Channel-wise Feature Denoising ( http://arxiv.org/abs/2111.07620v1 )

ライセンス: Link先を確認
Feng Liu, Zhe Kong, Haozhe Liu, Wentian Zhang, Linlin Shen(参考訳) 攻撃素材の多様性のため、指紋認識システム(AFRS)は悪意のある攻撃に対して脆弱である。 AFRSの安全性と信頼性のための効果的な指紋提示検出(PAD)手法を提案することが重要である。 しかしながら、現在のPAD法は、新しい攻撃材料やセンサー設定下では、しばしばロバスト性に欠ける。 本稿では,従来無視されていた冗長な「ノイズ」情報を扱うことを考慮した,チャネルワイズ・フィーチャー・デノージング指紋PAD(CFD-PAD)手法を提案する。 提案手法は,各チャンネルの重要度を重み付け,識別チャネルと「ノイズ」チャネルを見つけることによって,指紋画像の重要な特徴を学習した。 そして、特徴マップにおいて「ノイズ」チャネルの伝搬を抑制し、干渉を低減する。 具体的には、PA適応損失が特徴分布を制限し、ライブ指紋の特徴分布をより集約し、スプーフ指紋をより分散させるように設計されている。 提案したCFD-PADは,False Detection rateが1.0%(TDR@FDR=1%)である場合に,2.53%のACEと93.83%のTrue Detection Rateを達成でき,ACE(2.53% vs. 4.56%)とTDR@FDR=1%(93.83% vs. 73.32\%)で最高の単一モデルベース手法を著しく上回り,提案手法の有効性を証明した。 我々は、最先端のマルチモデルベース手法と同等の結果を得たが、TDR@FDR=1%が91.19%から93.83%に増加している。 さらに,本モデルはよりシンプルで,より効率的であり,最先端のマルチモデルベース手法と比較して74.76%の時間消費削減を実現している。 コードは公開されます。

Due to the diversity of attack materials, fingerprint recognition systems (AFRSs) are vulnerable to malicious attacks. It is of great importance to propose effective Fingerprint Presentation Attack Detection (PAD) methods for the safety and reliability of AFRSs. However, current PAD methods often have poor robustness under new attack materials or sensor settings. This paper thus proposes a novel Channel-wise Feature Denoising fingerprint PAD (CFD-PAD) method by considering handling the redundant "noise" information which ignored in previous works. The proposed method learned important features of fingerprint images by weighting the importance of each channel and finding those discriminative channels and "noise" channels. Then, the propagation of "noise" channels is suppressed in the feature map to reduce interference. Specifically, a PA-Adaption loss is designed to constrain the feature distribution so as to make the feature distribution of live fingerprints more aggregate and spoof fingerprints more disperse. Our experimental results evaluated on LivDet 2017 showed that our proposed CFD-PAD can achieve 2.53% ACE and 93.83% True Detection Rate when the False Detection Rate equals to 1.0% (TDR@FDR=1%) and it outperforms the best single model based methods in terms of ACE (2.53% vs. 4.56%) and TDR@FDR=1%(93.83% vs. 73.32\%) significantly, which proves the effectiveness of the proposed method. Although we have achieved a comparable result compared with the state-of-the-art multiple model based method, there still achieves an increase of TDR@FDR=1% from 91.19% to 93.83% by our method. Besides, our model is simpler, lighter and, more efficient and has achieved a 74.76% reduction in time-consuming compared with the state-of-the-art multiple model based method. Code will be publicly available.
翻訳日:2021-11-16 16:13:22 公開日:2021-11-15
# コンピュータビジョンにおける注意メカニズム:調査

Attention Mechanisms in Computer Vision: A Survey ( http://arxiv.org/abs/2111.07624v1 )

ライセンス: Link先を確認
Meng-Hao Guo, Tian-Xing Xu, Jiang-Jiang Liu, Zheng-Ning Liu, Peng-Tao Jiang, Tai-Jiang Mu, Song-Hai Zhang, Ralph R. Martin, Ming-Ming Cheng, Shi-Min Hu(参考訳) 人間は複雑な場面で自然かつ効果的に健全な領域を見つけることができる。 この観察により、人間の視覚システムのこの側面を模倣する目的で、注意機構がコンピュータビジョンに導入された。 このような注意機構は、入力画像の特徴に基づく動的重み調整処理と見なすことができる。 画像分類、オブジェクト検出、意味セグメンテーション、ビデオ理解、画像生成、3dビジョン、マルチモーダルタスク、自己教師付き学習など、多くの視覚タスクで注目のメカニズムが大きな成功を収めている。 本稿では,コンピュータビジョンにおける様々な注意機構の包括的レビューを行い,チャネルの注意,空間的注意,時間的注意,分岐的注意といったアプローチに基づいて分類する。 また,注意メカニズム研究の今後の方向性についても提案する。

Humans can naturally and effectively find salient regions in complex scenes. Motivated by this observation, attention mechanisms were introduced into computer vision with the aim of imitating this aspect of the human visual system. Such an attention mechanism can be regarded as a dynamic weight adjustment process based on features of the input image. Attention mechanisms have achieved great success in many visual tasks, including image classification, object detection, semantic segmentation, video understanding, image generation, 3D vision, multi-modal tasks and self-supervised learning. In this survey, we provide a comprehensive review of various attention mechanisms in computer vision and categorize them according to approach, such as channel attention, spatial attention, temporal attention and branch attention; a related repository https://github.com/M enghaoGuo/Awesome-Vi sion-Attentions is dedicated to collecting related work. We also suggest future directions for attention mechanism research.
翻訳日:2021-11-16 16:12:44 公開日:2021-11-15
# FastFlow: 2次元正規化フローによる教師なし異常検出と位置決め

FastFlow: Unsupervised Anomaly Detection and Localization via 2D Normalizing Flows ( http://arxiv.org/abs/2111.07677v1 )

ライセンス: Link先を確認
Jiawei Yu1, Ye Zheng, Xiang Wang, Wei Li, Yushuang Wu, Rui Zhao, Liwei Wu1(参考訳) 十分な異常データの収集とラベル付けを行う場合には,教師なし異常検出と局在化が不可欠である。 既存の表現に基づくアプローチは、ディープ畳み込みニューラルネットワークを用いて通常の画像特徴を抽出し、非パラメトリック分布推定法により対応する分布を特徴付ける。 テスト画像の特徴と推定分布との間の距離を測定して異常スコアを算出する。 しかし,現在の手法では,画像特徴を抽出可能なベース分布に効果的にマッピングすることはできず,局所的特徴とグローバル的特徴の関係は無視できない。 そこで本研究では,FastFlowを2次元正規化フローで実装し,確率分布推定器として利用する。 当社のfastflowは,resnetやvision transformerなど,任意の深い特徴抽出器を備えたプラグインモジュールとして,教師なし異常検出とローカライズに使用することができる。 トレーニングフェーズでは、fastflowは入力された視覚特徴を扱いやすい分布に変換することを学び、推論フェーズで異常を認識する可能性を得る。 MVTec ADデータセットの大規模な実験結果から、FastFlowは様々なバックボーンネットワークによる精度と推論効率の観点から、従来の最先端手法を超越していることがわかった。 提案手法は推論効率の高い異常検出において99.4\%のAUCを実現する。

Unsupervised anomaly detection and localization is crucial to the practical application when collecting and labeling sufficient anomaly data is infeasible. Most existing representation-based approaches extract normal image features with a deep convolutional neural network and characterize the corresponding distribution through non-parametric distribution estimation methods. The anomaly score is calculated by measuring the distance between the feature of the test image and the estimated distribution. However, current methods can not effectively map image features to a tractable base distribution and ignore the relationship between local and global features which are important to identify anomalies. To this end, we propose FastFlow implemented with 2D normalizing flows and use it as the probability distribution estimator. Our FastFlow can be used as a plug-in module with arbitrary deep feature extractors such as ResNet and vision transformer for unsupervised anomaly detection and localization. In training phase, FastFlow learns to transform the input visual feature into a tractable distribution and obtains the likelihood to recognize anomalies in inference phase. Extensive experimental results on the MVTec AD dataset show that FastFlow surpasses previous state-of-the-art methods in terms of accuracy and inference efficiency with various backbone networks. Our approach achieves 99.4\% AUC in anomaly detection with high inference efficiency.
翻訳日:2021-11-16 16:12:29 公開日:2021-11-15
# stacked bnas: ニューラルアーキテクチャ探索のための広義畳み込みニューラルネットワークの再検討

Stacked BNAS: Rethinking Broad Convolutional Neural Network for Neural Architecture Search ( http://arxiv.org/abs/2111.07722v1 )

ライセンス: Link先を確認
Zixiang Ding, Yaran Chen, Nannan Li, Dongbin Zhao(参考訳) 他の拡張性のあるアーキテクチャに基づくNASアプローチとは異なり、BNAS(Broad Neural Architecture Search)は、BCNN(Broad Convolutional Neural Network)と呼ばれる畳み込みブロックと拡張ブロックからなる広義のアーキテクチャを提案する。 BCNNは畳み込みブロック中の細胞のトポロジを再利用し、BNASは効率的に探索するために少数の細胞を使うことができる。 さらに, 浅部トポロジを用いたBCNNの性能向上のために, マルチスケール機能融合と知識埋め込みを提案する。 しかしBNASにはいくつかの欠点がある。 1)特徴融合・強化のための表現多様性の不足 2)人間専門家による知識の埋め込み設計に要する時間 本稿では,検索空間が拡張性のあるアーキテクチャである Stacked BCNN を提案し,BNAS よりも優れた性能を示す。 一方、Stacked BCNNは、Mini-BCNNを包括的表現を保存し、強力な特徴抽出機能を提供する基本ブロックとして扱う。 一方,適切な知識埋め込みを学習するための知識埋め込み探索(KES)を提案する。 実験の結果 1)積み重ねBNASはBNASよりも優れた性能を得る。 2) KESは、学習したアーキテクチャのパラメータを良好な性能で減少させるのに寄与する。 3)重ねられたBNASは、0.02GPU日の最先端効率を提供する。

Different from other deep scalable architecture based NAS approaches, Broad Neural Architecture Search (BNAS) proposes a broad one which consists of convolution and enhancement blocks, dubbed Broad Convolutional Neural Network (BCNN) as search space for amazing efficiency improvement. BCNN reuses the topologies of cells in convolution block, so that BNAS can employ few cells for efficient search. Moreover, multi-scale feature fusion and knowledge embedding are proposed to improve the performance of BCNN with shallow topology. However, BNAS suffers some drawbacks: 1) insufficient representation diversity for feature fusion and enhancement, and 2) time consuming of knowledge embedding design by human expert. In this paper, we propose Stacked BNAS whose search space is a developed broad scalable architecture named Stacked BCNN, with better performance than BNAS. On the one hand, Stacked BCNN treats mini-BCNN as the basic block to preserve comprehensive representation and deliver powerful feature extraction ability. On the other hand, we propose Knowledge Embedding Search (KES) to learn appropriate knowledge embeddings. Experimental results show that 1) Stacked BNAS obtains better performance than BNAS, 2) KES contributes to reduce the parameters of learned architecture with satisfactory performance, and 3) Stacked BNAS delivers state-of-the-art efficiency of 0.02 GPU days.
翻訳日:2021-11-16 16:12:10 公開日:2021-11-15
# Ensemble CNNを用いたリアルタイム感情とジェンダーの分類

Real-time Emotion and Gender Classification using Ensemble CNN ( http://arxiv.org/abs/2111.07746v1 )

ライセンス: Link先を確認
Abhinav Lahariya, Varsha Singh, Uma Shanker Tiwary(参考訳) 顔の表情を分析することは、人の感情や行動を特定する上で非常に重要な役割を果たす。 これらの表現を認識すれば、自然のヒューマンマシンインタフェースの重要なコンポーネントが自動的に生成される。 この分野での研究は、様々なソーシャルメディアプラットフォームにおけるバイオメトリック認証、監視システム、感情からエモティコンへの幅広い応用がある。 その他、顧客満足度調査を行うアプリケーションもある。 大企業はフィードバックと調査のために巨額の投資を行ったが、公平な回答は得られなかった。 顔のジェスチャーによる感情とジェンダーの認識は、特定の製品やサービススタッフに対する顧客の振る舞いを評価によって監視することで、製品やサービスのパフォーマンスを向上させる技術である。 近年, 特徴抽出機構, 顔の検出, 表現分類技術など, 様々な進歩がなされている。 本稿では,人物の感情や性別をリアルタイムに検出できるシステムを構築するためのEnsemble CNNの実装について述べる。 実験の結果、fer-2013データセット上の感情分類(angry, fear , sad , happy , surprise , neutral , disgust)の68%、imdbデータセットの性別分類(男性または女性)の95%の精度を示した。 私たちの研究は、複数の顔画像だけでなく、単一の顔画像上で感情や性別を予測できる。 また、Webカメラを通じて入力が与えられると、このリアルタイムシステムの完全なパイプラインは0.5秒未満で結果を生成することができます。

Analysing expressions on the person's face plays a very vital role in identifying emotions and behavior of a person. Recognizing these expressions automatically results in a crucial component of natural human-machine interfaces. Therefore research in this field has a wide range of applications in bio-metric authentication, surveillance systems , emotion to emoticons in various social media platforms. Another application includes conducting customer satisfaction surveys. As we know that the large corporations made huge investments to get feedback and do surveys but fail to get equitable responses. Emotion & Gender recognition through facial gestures is a technology that aims to improve product and services performance by monitoring customer behavior to specific products or service staff by their evaluation. In the past few years there have been a wide variety of advances performed in terms of feature extraction mechanisms , detection of face and also expression classification techniques. This paper is the implementation of an Ensemble CNN for building a real-time system that can detect emotion and gender of the person. The experimental results shows accuracy of 68% for Emotion classification into 7 classes (angry, fear , sad , happy , surprise , neutral , disgust) on FER-2013 dataset and 95% for Gender classification (Male or Female) on IMDB dataset. Our work can predict emotion and gender on single face images as well as multiple face images. Also when input is given through webcam our complete pipeline of this real-time system can take less than 0.5 seconds to generate results.
翻訳日:2021-11-16 16:11:00 公開日:2021-11-15
# D^2Conv3D:ビデオにおけるオブジェクトセグメンテーションのための動的拡張畳み込み

D^2Conv3D: Dynamic Dilated Convolutions for Object Segmentation in Videos ( http://arxiv.org/abs/2111.07774v1 )

ライセンス: Link先を確認
Christian Schmidt, Ali Athar, Sabarinath Mahadevan, Bastian Leibe(参考訳) 研究コミュニティから大きな注目を集めたにもかかわらず、モノクロビデオにおけるオブジェクトのセグメンテーションと追跡のタスクには、まだ改善の余地がたくさんある。 既存の作業は、様々な画像レベルのセグメンテーションタスクに対する拡張および変形可能な畳み込みの有効性を同時に正当化している。 これは、このような畳み込みの3D拡張が、ビデオレベルのセグメンテーションタスクのパフォーマンス改善をもたらすと信じる理由である。 しかし、この側面は現存する文献ではまだ徹底的に研究されていない。 本稿では,動的拡張畳み込み(d^2conv3d):拡張および変形可能な畳み込みからインスピレーションを得て,それらを3次元(spatio-temporal)領域に拡張する新しい畳み込み方式を提案する。 d^2conv3dを標準畳み込みの代替として用いることにより,複数のビデオセグメンテーション関連ベンチマークにおいて,複数の3d cnnアーキテクチャの性能向上にd^2conv3dが有効であることを示す。 さらに、D^2Conv3Dは既存の拡張型および変形可能な3D畳み込みの自明な拡張を出力することを示した。 最後に、DAVIS 2016 Unsupervised Video Object Segmentationベンチマークに新しい最先端技術を設定した。 コードはhttps://github.com/S chmiddo/d2conv3dで公開されている。

Despite receiving significant attention from the research community, the task of segmenting and tracking objects in monocular videos still has much room for improvement. Existing works have simultaneously justified the efficacy of dilated and deformable convolutions for various image-level segmentation tasks. This gives reason to believe that 3D extensions of such convolutions should also yield performance improvements for video-level segmentation tasks. However, this aspect has not yet been explored thoroughly in existing literature. In this paper, we propose Dynamic Dilated Convolutions (D^2Conv3D): a novel type of convolution which draws inspiration from dilated and deformable convolutions and extends them to the 3D (spatio-temporal) domain. We experimentally show that D^2Conv3D can be used to improve the performance of multiple 3D CNN architectures across multiple video segmentation related benchmarks by simply employing D^2Conv3D as a drop-in replacement for standard convolutions. We further show that D^2Conv3D out-performs trivial extensions of existing dilated and deformable convolutions to 3D. Lastly, we set a new state-of-the-art on the DAVIS 2016 Unsupervised Video Object Segmentation benchmark. Code is made publicly available at https://github.com/S chmiddo/d2conv3d .
翻訳日:2021-11-16 16:10:35 公開日:2021-11-15
# 回転2画素ボケカーネルによる多視点動画像合成

Multi-View Motion Synthesis via Applying Rotated Dual-Pixel Blur Kernels ( http://arxiv.org/abs/2111.07837v1 )

ライセンス: Link先を確認
Abdullah Abuolaim and Mahmoud Afifi and Michael S. Brown(参考訳) ポートレートモードは、写真体験を向上させるためにスマートフォンカメラで広く利用することができる。 ポートレートモードで撮影された画像に適用される主な効果の1つは、合成浅層深度(dof)である。 合成dof(またはボケ効果)は、画像内の領域を選択的にぼかし、広開口の大きなレンズを使用する効果をエミュレートする。 さらに、多くのアプリケーションでは、背景の動きをエミュレートするために新しい画像モーション属性(nimat)が組み込まれている。 本研究は, ポートレートモードにおけるぼやけた合成手順の変更を導入することで, NIMAT効果のレンダリングの傾向に従う。 特に,回転するぼやけたカーネルを印加することにより,単一画像からの多視点ボケの高品質な合成を可能にする。 合成された複数のビューから、NIMAT効果と同様の美的リアルなイメージモーションを生成することができる。 NIMAT効果やFacebook 3D画像などの類似画像の動きと比較して,我々のアプローチを質的に検証する。 画像の動きは、オブジェクト境界付近のアーティファクトが少なく、スムーズな画像ビュー遷移を示す。

Portrait mode is widely available on smartphone cameras to provide an enhanced photographic experience. One of the primary effects applied to images captured in portrait mode is a synthetic shallow depth of field (DoF). The synthetic DoF (or bokeh effect) selectively blurs regions in the image to emulate the effect of using a large lens with a wide aperture. In addition, many applications now incorporate a new image motion attribute (NIMAT) to emulate background motion, where the motion is correlated with estimated depth at each pixel. In this work, we follow the trend of rendering the NIMAT effect by introducing a modification on the blur synthesis procedure in portrait mode. In particular, our modification enables a high-quality synthesis of multi-view bokeh from a single image by applying rotated blurring kernels. Given the synthesized multiple views, we can generate aesthetically realistic image motion similar to the NIMAT effect. We validate our approach qualitatively compared to the original NIMAT effect and other similar image motions, like Facebook 3D image. Our image motion demonstrates a smooth image view transition with fewer artifacts around the object boundary.
翻訳日:2021-11-16 16:10:16 公開日:2021-11-15
# ビデオ異常検出のための学習可能な局所感性ハッシュ

Learnable Locality-Sensitive Hashing for Video Anomaly Detection ( http://arxiv.org/abs/2111.07839v1 )

ライセンス: Link先を確認
Yue Lu, Congqi Cao and Yanning Zhang(参考訳) ビデオ異常検出(英: video anomaly detection、vad)とは、通常サンプルのみが利用可能なトレーニングセットで発生していない異常事象を識別することを指す。 既存の作品は通常、vadを再構成や予測問題として定式化する。 しかし、これらの手法の適応性とスケーラビリティは限られている。 本稿では,利用可能なすべての正規データを効率的に柔軟に活用するための距離ベースvad法を提案する。 本手法では, 試験試料と正常試料との間の距離が小さくなるほど, 試験試料が正常である確率が高くなる。 具体的には、局所性に敏感なハッシュ(LSH)を用いて、類似度が一定の閾値を超えるサンプルを予め同じバケットにマッピングすることを提案する。 このように、近傍探索の複雑さは大幅に削減される。 セマンティックに類似したサンプルがより接近し、類似しないサンプルがさらに分離されるように、LSHの学習可能な新しいバージョンを提案し、LSHをニューラルネットワークに埋め込み、対照的な学習戦略でハッシュ関数を最適化する。 提案手法はデータ不均衡に対して頑健であり,通常のデータの大きなクラス内変動を柔軟に扱える。 さらに、スケーラビリティにも優れています。 広範な実験により,vadベンチマークで新たな最先端結果を得る手法の優位性が実証された。

Video anomaly detection (VAD) mainly refers to identifying anomalous events that have not occurred in the training set where only normal samples are available. Existing works usually formulate VAD as a reconstruction or prediction problem. However, the adaptability and scalability of these methods are limited. In this paper, we propose a novel distance-based VAD method to take advantage of all the available normal data efficiently and flexibly. In our method, the smaller the distance between a testing sample and normal samples, the higher the probability that the testing sample is normal. Specifically, we propose to use locality-sensitive hashing (LSH) to map samples whose similarity exceeds a certain threshold into the same bucket in advance. In this manner, the complexity of near neighbor search is cut down significantly. To make the samples that are semantically similar get closer and samples not similar get further apart, we propose a novel learnable version of LSH that embeds LSH into a neural network and optimizes the hash functions with contrastive learning strategy. The proposed method is robust to data imbalance and can handle the large intra-class variations in normal data flexibly. Besides, it has a good ability of scalability. Extensive experiments demonstrate the superiority of our method, which achieves new state-of-the-art results on VAD benchmarks.
翻訳日:2021-11-16 16:09:59 公開日:2021-11-15
# クロスタスクグラフニューラルネットワークデコーダを用いた下水道管欠陥と特性のマルチタスク分類

Multi-Task Classification of Sewer Pipe Defects and Properties using a Cross-Task Graph Neural Network Decoder ( http://arxiv.org/abs/2111.07846v1 )

ライセンス: Link先を確認
Joakim Bruslund Haurum, Meysam Madadi, Sergio Escalera, Thomas B. Moeslund(参考訳) 下水道インフラは現代社会で最も重要で高価なインフラの1つである。 下水道インフラを効率的に管理するためには, 自動下水道検査を活用しなければならない。 しかし, 数十年にわたって下水道の欠陥分類が検討されてきたが, 下水道管の劣化レベルを評価するために必要な水位, 管材, 管形状などの下水道管特性の分類には注目されていない。 本稿では,下水道管の欠陥と特性を同時に分類し,新しいデコーダ指向マルチタスク分類アーキテクチャであるクロスタスクグラフニューラルネットワーク(ct-gnn)を提案する。 ct-gnnアーキテクチャは、クロスタスクグラフとユニークなクラスノード埋め込みを利用することで、従来のタスクヘッドデコーダを拡張する。 クロスタスクグラフは、タスククラス間の条件付き確率に基づいて事前決定するか、セルフアテンションを用いて動的に決定できる。 CT-GNNは任意のバックボーンとトレーニングされたエンドツーエンドにパラメータカウントを少量増やすことができる。 下水道mlデータセットの4つの分類タスクすべてにおいて最先端の性能を達成し,欠陥分類と水位分類をそれぞれ5.3ポイント,8.0ポイント改善した。 また,従来のモデルに着目した手法の50倍のパラメータを導入しながら,単一タスク手法と他のマルチタスク分類手法よりも優れていた。 コードとモデルはプロジェクトページ http://vap.aau.dk/ct gnn

The sewerage infrastructure is one of the most important and expensive infrastructures in modern society. In order to efficiently manage the sewerage infrastructure, automated sewer inspection has to be utilized. However, while sewer defect classification has been investigated for decades, little attention has been given to classifying sewer pipe properties such as water level, pipe material, and pipe shape, which are needed to evaluate the level of sewer pipe deterioration. In this work we classify sewer pipe defects and properties concurrently and present a novel decoder-focused multi-task classification architecture Cross-Task Graph Neural Network (CT-GNN), which refines the disjointed per-task predictions using cross-task information. The CT-GNN architecture extends the traditional disjointed task-heads decoder, by utilizing a cross-task graph and unique class node embeddings. The cross-task graph can either be determined a priori based on the conditional probability between the task classes or determined dynamically using self-attention. CT-GNN can be added to any backbone and trained end-to-end at a small increase in the parameter count. We achieve state-of-the-art performance on all four classification tasks in the Sewer-ML dataset, improving defect classification and water level classification by 5.3 and 8.0 percentage points, respectively. We also outperform the single task methods as well as other multi-task classification approaches while introducing 50 times fewer parameters than previous model-focused approaches. The code and models are available at the project page http://vap.aau.dk/ct gnn
翻訳日:2021-11-16 16:09:39 公開日:2021-11-15
# Occluded Video Instance Segmentation: DatasetとICCV 2021 Challenge

Occluded Video Instance Segmentation: Dataset and ICCV 2021 Challenge ( http://arxiv.org/abs/2111.07950v1 )

ライセンス: Link先を確認
Jiyang Qi, Yan Gao, Yao Hu, Xinggang Wang, Xiaoyu Liu, Xiang Bai, Serge Belongie, Alan Yuille, Philip H.S. Torr, Song Bai(参考訳) 近年、深層学習技術は高度なビデオオブジェクト認識性能を達成しているが、ビデオに隠されたオブジェクトを認識することは依然として非常に難しい課題である。 咬合理解の発達を促進するため,OVISと呼ばれる大規模データセットを収集し,隠蔽シナリオにおけるビデオインスタンスのセグメンテーションを行う。 OVISは296kの高品質のインスタンスマスクと901の隠蔽シーンで構成されている。 人間の視覚システムは文脈的推論と連想によってこれらの物体を知覚することができるが、実験は現在の映像理解システムでは理解できないことを示唆する。 OVISデータセットでは、すべてのベースラインメソッドが、密集したオブジェクトグループの約80%の大幅なパフォーマンス劣化に直面しており、複雑な現実世界のシナリオにおいて、隠蔽されたオブジェクトやビデオを理解するにはまだまだ長い道のりがあることを示している。 ビデオ理解システムのための新しいパラダイムの研究を容易にするため,OVISデータセットに基づいた課題を提起した。 提案したトップパフォーマンスアルゴリズムは,ベースラインよりもはるかに高いパフォーマンスを実現しています。 本稿では、OVISデータセットを導入し、ベースラインの結果を分析し、提案手法を解析して、さらに分析する。 OVISデータセットとチャレンジ情報はhttp://songbai.site/ ovis にある。

Although deep learning methods have achieved advanced video object recognition performance in recent years, perceiving heavily occluded objects in a video is still a very challenging task. To promote the development of occlusion understanding, we collect a large-scale dataset called OVIS for video instance segmentation in the occluded scenario. OVIS consists of 296k high-quality instance masks and 901 occluded scenes. While our human vision systems can perceive those occluded objects by contextual reasoning and association, our experiments suggest that current video understanding systems cannot. On the OVIS dataset, all baseline methods encounter a significant performance degradation of about 80% in the heavily occluded object group, which demonstrates that there is still a long way to go in understanding obscured objects and videos in a complex real-world scenario. To facilitate the research on new paradigms for video understanding systems, we launched a challenge based on the OVIS dataset. The submitted top-performing algorithms have achieved much higher performance than our baselines. In this paper, we will introduce the OVIS dataset and further dissect it by analyzing the results of baselines and submitted methods. The OVIS dataset and challenge information can be found at http://songbai.site/ ovis .
翻訳日:2021-11-16 16:09:13 公開日:2021-11-15
# QKイテレーション:画像類似性のための自己教師付き表現学習アルゴリズム

QK Iteration: A Self-Supervised Representation Learning Algorithm for Image Similarity ( http://arxiv.org/abs/2111.07954v1 )

ライセンス: Link先を確認
David Wu and Yunnan Wu(参考訳) 自己教師あり表現学習は多くの有用な応用(画像検索、インスタンスレベル認識、コピー検出など)を持つコンピュータビジョンにおける根本的な問題である。 本稿では,facebook ai researchが主催する2021 image similarity challengeにおいて,コピー検出の文脈において,コントラスト的自己教師付き表現学習アルゴリズムを提案する。 対照的な自己教師付き学習における以前の研究は、多くの否定的な例に対して `pushing'' をしながら表現を最適化できる重要性を見出した。 従来のソリューションでは、現代的な分散トレーニングシステムで使用可能な大規模なバッチを使用するか、キューやメモリバンクを保持しながら、最近の評価された表現を保持しながら一貫性特性を緩和する。 私たちはクエリモデルとキーモデルを直接学習し、sgdステップ毎に非常に大きな数の負の表現(例えば100万)に対して表現をプッシュします。 本研究では,一方のバックボーンを凍結し,一方のQ最適化ステップとK最適化ステップとを交互に交互に行う。 コンペの期間に、我々のアルゴリズムはフェーズ1のリーダーボードで0.3401のマイクロAPスコアを達成し、ベースラインの$\mu$APの0.1556よりも大幅に改善した。 最終フェーズ2では、私たちのモデルは0.1919、ベースラインは0.0526だった。 訓練はさらなる改善をもたらした。 提案手法を,バッチのみから否定的な例を取り出すsimclrスタイル戦略と比較する実験を行った。 その結果,本手法はSimCLRスタイルのベースライン(0.2001の\mu$AP)を著しく上回っていることがわかった。

Self-supervised representation learning is a fundamental problem in computer vision with many useful applications (e.g., image search, instance level recognition, copy detection). In this paper we present a new contrastive self-supervised representation learning algorithm in the context of Copy Detection in the 2021 Image Similarity Challenge hosted by Facebook AI Research. Previous work in contrastive self-supervised learning has identified the importance of being able to optimize representations while ``pushing'' against a large number of negative examples. Representative previous solutions either use large batches enabled by modern distributed training systems or maintain queues or memory banks holding recently evaluated representations while relaxing some consistency properties. We approach this problem from a new angle: We directly learn a query model and a key model jointly and push representations against a very large number (e.g., 1 million) of negative representations in each SGD step. We achieve this by freezing the backbone on one side and by alternating between a Q-optimization step and a K-optimization step. During the competition timeframe, our algorithms achieved a micro-AP score of 0.3401 on the Phase 1 leaderboard, significantly improving over the baseline $\mu$AP of 0.1556. On the final Phase 2 leaderboard, our model scored 0.1919, while the baseline scored 0.0526. Continued training yielded further improvement. We conducted an empirical study to compare the proposed approach with a SimCLR style strategy where the negative examples are taken from the batch only. We found that our method ($\mu$AP of 0.3403) significantly outperforms this SimCLR-style baseline ($\mu$AP of 0.2001).
翻訳日:2021-11-16 16:08:53 公開日:2021-11-15
# ソーシャルメディアにおけるファッション関連投稿の感性分析

Sentiment Analysis of Fashion Related Posts in Social Media ( http://arxiv.org/abs/2111.07815v1 )

ライセンス: Link先を確認
Yifei Yuan and Wai Lam(参考訳) ファッション業界におけるソーシャルメディアの役割は、年月が経つにつれて花開いた。 本研究では,ソーシャルメディアプラットフォームにおけるファッション関連投稿に対する感情分析について検討する。 この課題には2つの大きな課題がある。 第一に、異なるモダリティの情報は、最終的な予測を行うために共同で考慮されなければならない。 第2に、いくつかのユニークなファッション関連属性を考慮すべきである。 既存の作品の多くは伝統的なマルチモーダル感情分析に焦点を当てているが、彼らは常にこのタスクのファッション関連属性を活用できていない。 本稿では,イメージビジョン,ポストテキスト,ファッション属性モダリティを共同で活用し,感情カテゴリーを決定する新しい枠組みを提案する。 モデルの特徴の1つは、ファッション属性を抽出し、画像視覚情報と統合して効果的な表現を行うことである。 さらに,ファッション属性とポストテキストの相互関係を,相互注意機構を通じて活用する。 この課題に適した既存のデータセットがないため、1万以上のファッション関連ソーシャルメディア投稿の大規模な感情分析データセットを作成する。 本モデルの有効性を示すために広範な実験を行った。

The role of social media in fashion industry has been blooming as the years have continued on. In this work, we investigate sentiment analysis for fashion related posts in social media platforms. There are two main challenges of this task. On the first place, information of different modalities must be jointly considered to make the final predictions. On the second place, some unique fashion related attributes should be taken into account. While most existing works focus on traditional multimodal sentiment analysis, they always fail to exploit the fashion related attributes in this task. We propose a novel framework that jointly leverages the image vision, post text, as well as fashion attribute modality to determine the sentiment category. One characteristic of our model is that it extracts fashion attributes and integrates them with the image vision information for effective representation. Furthermore, it exploits the mutual relationship between the fashion attributes and the post texts via a mutual attention mechanism. Since there is no existing dataset suitable for this task, we prepare a large-scale sentiment analysis dataset of over 12k fashion related social media posts. Extensive experiments are conducted to demonstrate the effectiveness of our model.
翻訳日:2021-11-16 16:07:26 公開日:2021-11-15
# (参考訳) 近線形時間における分布圧縮 [全文訳有]

Distribution Compression in Near-Linear Time ( http://arxiv.org/abs/2111.07941v1 )

ライセンス: CC BY 4.0
Abhishek Shetty, Raaz Dwivedi, Lester Mackey(参考訳) 分布圧縮では、少数の代表点を用いて確率分布$\mathbb{P}$を正確に要約することを目的とする。 準最適シンニング手順は、マルコフ連鎖から$n$ポイントをサンプリングし、$\widetilde{\mathcal{O}}(1/\sqrt{n})$離散性を$\mathbb{P}$とすることで、この目標を達成する。 残念ながら、これらのアルゴリズムはサンプルサイズ$n$で二次的または超二次的な実行に苦しむ。 この欠陥に対処するために、私たちはCompress++を紹介します。これは、任意のスライニングアルゴリズムを高速化するシンプルなメタプロデューサで、エラーの最大4ドルの要因に悩まされています。 Dwivedi と Mackey (2021) の二次時間カーネル半減算アルゴリズムと組み合わせると、Compress++ は $\sqrt{n}$point with $\mathcal{O}(\sqrt{\log n/n})$ Integration error and better-than-Monte-Ca rlo maximum mean discrepancy in $\mathcal{O}(n \log^3 n)$ time and $\mathcal{O}( \sqrt{n} \log^2 n )$ space を提供する。 さらに、Compress++は2次時間入力が与えられた場合、同じニアリニアランタイムを楽しみ、平方根係数で超2次アルゴリズムの実行時間を短縮する。 高次元モンテカルロサンプルとマルコフ連鎖を用いたベンチマークでは、コンプレックス++はその入力アルゴリズムの精度を桁違いの時間で一致させるか、ほぼ一致させる。

In distribution compression, one aims to accurately summarize a probability distribution $\mathbb{P}$ using a small number of representative points. Near-optimal thinning procedures achieve this goal by sampling $n$ points from a Markov chain and identifying $\sqrt{n}$ points with $\widetilde{\mathcal{O}}(1/\sqrt{n})$ discrepancy to $\mathbb{P}$. Unfortunately, these algorithms suffer from quadratic or super-quadratic runtime in the sample size $n$. To address this deficiency, we introduce Compress++, a simple meta-procedure for speeding up any thinning algorithm while suffering at most a factor of $4$ in error. When combined with the quadratic-time kernel halving and kernel thinning algorithms of Dwivedi and Mackey (2021), Compress++ delivers $\sqrt{n}$ points with $\mathcal{O}(\sqrt{\log n/n})$ integration error and better-than-Monte-Ca rlo maximum mean discrepancy in $\mathcal{O}(n \log^3 n)$ time and $\mathcal{O}( \sqrt{n} \log^2 n )$ space. Moreover, Compress++ enjoys the same near-linear runtime given any quadratic-time input and reduces the runtime of super-quadratic algorithms by a square-root factor. In our benchmarks with high-dimensional Monte Carlo samples and Markov chains targeting challenging differential equation posteriors, Compress++ matches or nearly matches the accuracy of its input algorithm in orders of magnitude less time.
翻訳日:2021-11-16 16:03:35 公開日:2021-11-15
# 特徴工学的手法による学術的影響の異なるジャーナル記事における言語的特徴の自動分析

Automatic Analysis of Linguistic Features in Journal Articles of Different Academic Impacts with Feature Engineering Techniques ( http://arxiv.org/abs/2111.07525v1 )

ライセンス: Link先を確認
Siyu Lei, Ruiying Yang, Chu-Ren Huang(参考訳) 英語の研究論文(RAs)は学術において不可欠なジャンルであり、学術書記能力の発展を支援するためにNLPを採用する試みは、過去20年でかなりの注目を集めている。 しかし、異なる学術的影響のRAの言語的特徴を調査するための特徴工学的手法を用いた研究は行われていない(高・モデレートな影響要因のジャーナルに掲載された高・モデレートな引用時間に関する論文)。 本研究では, 特徴工学的手法を用いて, 高次・中等度な学術誌RAのマイクロレベル言語的特徴の抽出を試みた。 英語雑誌記事のコーパスから, 特徴選択手法を用いて25項目の重要特徴を抽出した。 コーパスのすべての論文は、新型コロナウイルスの医療実験研究を扱う。 選択した特徴は、教師付き機械学習手法により、一貫性と精度の観点から分類性能を検証した。 その結果, 隣接文間の内容語重複, 第三者代名詞の使用, 助動詞, 時制, 感情語など24種類の言語的特徴が, 学術的影響の異なる雑誌記事に対して一貫した, 正確な予測を提供することがわかった。 最後に、ランダムな森林モデルが、これらの24の特徴とジャーナル記事の高次かつ適度な影響に適合する最良のモデルであることが示されている。 これらの知見は,l2大学院生のための自動評価システム開発の基礎を築いており,学術論文の執筆指導に活用できる。

English research articles (RAs) are an essential genre in academia, so the attempts to employ NLP to assist the development of academic writing ability have received considerable attention in the last two decades. However, there has been no study employing feature engineering techniques to investigate the linguistic features of RAs of different academic impacts (i.e., the papers of high/moderate citation times published in the journals of high/moderate impact factors). This study attempts to extract micro-level linguistic features in high- and moderate-impact journal RAs, using feature engineering methods. We extracted 25 highly relevant features from the Corpus of English Journal Articles through feature selection methods. All papers in the corpus deal with COVID-19 medical empirical studies. The selected features were then validated of the classification performance in terms of consistency and accuracy through supervised machine learning methods. Results showed that 24 linguistic features such as the overlapping of content words between adjacent sentences, the use of third-person pronouns, auxiliary verbs, tense, emotional words provide consistent and accurate predictions for journal articles with different academic impacts. Lastly, the random forest model is shown to be the best model to fit the relationship between these 24 features and journal articles with high and moderate impacts. These findings can be used to inform academic writing courses and lay the foundation for developing automatic evaluation systems for L2 graduate students.
翻訳日:2021-11-16 15:22:22 公開日:2021-11-15
# より制御可能なテキスト要約のための質問ベースサルエントスパン選択

Question-Based Salient Span Selection for More Controllable Text Summarization ( http://arxiv.org/abs/2111.07935v1 )

ライセンス: Link先を確認
Daniel Deutsch and Dan Roth(参考訳) 本研究では,質問応答(QA)信号を要約モデルに組み込む手法を提案する。 提案手法は,入力文書中の有声名詞句(NP)を識別し,NPが回答した質問を自動生成し,それらの質問がゴールドサマリーで回答されたかどうかを自動的に判定する。 このQAベースの信号は、2段階の要約モデルに組み込まれ、まず分類モデルを用いて入力文書中の有能なNPをマークし、その後、条件付きで要約を生成する。 本実験は,QAに基づく監視を用いてトレーニングしたモデルが,ベンチマーク要約データセット上での有意なスパンを同定するベースライン法よりも高品質な要約を生成することを示す。 さらに,生成した要約の内容は,どのNPが入力文書にマークされているかに基づいて制御可能であることを示す。 最後に、トレーニング中に使用したマークされた入力スパンとゴールドサマリーがより一貫性のあるようにトレーニングデータを拡張する方法を提案し、この結果がどのようにして無マークの文書コンテンツをより適切に排除するかを示す。

In this work, we propose a method for incorporating question-answering (QA) signals into a summarization model. Our method identifies salient noun phrases (NPs) in the input document by automatically generating wh-questions that are answered by the NPs and automatically determining whether those questions are answered in the gold summaries. This QA-based signal is incorporated into a two-stage summarization model which first marks salient NPs in the input document using a classification model, then conditionally generates a summary. Our experiments demonstrate that the models trained using QA-based supervision generate higher-quality summaries than baseline methods of identifying salient spans on benchmark summarization datasets. Further, we show that the content of the generated summaries can be controlled based on which NPs are marked in the input document. Finally, we propose a method of augmenting the training data so the gold summaries are more consistent with the marked input spans used during training and show how this results in models which learn to better exclude unmarked document content.
翻訳日:2021-11-16 15:19:49 公開日:2021-11-15
# collie: 画像埋め込みによる言語基盤の継続的学習

CoLLIE: Continual Learning of Language Grounding from Language-Image Embeddings ( http://arxiv.org/abs/2111.07993v1 )

ライセンス: Link先を確認
Gabriel Skantze and Bram Willemsen(参考訳) 本稿では,言語が視覚にどのように接するかを連続的に学習するための,単純かつ効果的なモデルであるcolieを提案する。 事前学習されたマルチモーダル埋め込みモデルによって、言語とイメージは同じ意味空間(この場合はopenaiによるクリップ)に投影される。 従来の少数ショット学習とは異なり、モデルは新しいクラスやラベルを学ぶだけでなく、同様の言語の使用を一般化することもできる。 モデルの性能を連続学習の2つの異なるタスクで検証し、モデル本来のゼロショット性能にほとんど干渉することなく、少数の例から効率的に学習し、一般化できることを示す。

This paper presents CoLLIE: a simple, yet effective model for continual learning of how language is grounded in vision. Given a pre-trained multimodal embedding model, where language and images are projected in the same semantic space (in this case CLIP by OpenAI), CoLLIE learns a transformation function that adjusts the language embeddings when needed to accommodate new language use. Unlike traditional few-shot learning, the model does not just learn new classes and labels, but can also generalize to similar language use. We verify the model's performance on two different tasks of continual learning and show that it can efficiently learn and generalize from only a few examples, with little interference with the model's original zero-shot performance.
翻訳日:2021-11-16 15:19:31 公開日:2021-11-15
# ゲームにおけるai: 技術、挑戦、機会

AI in Games: Techniques, Challenges and Opportunities ( http://arxiv.org/abs/2111.07631v1 )

ライセンス: Link先を確認
Qiyue Yin, Jun Yang, Wancheng Ni, Bin Liang, Kaiqi Huang(参考訳) AlphaGoのブレークスルーによって、人間のコンピュータゲームにおけるAIは、世界中の研究者を惹きつける非常にホットなトピックとなった。 Libratus、OpenAI Five、AlphaStarといった様々なゲームAIシステムが開発され、プロの人間プレイヤーに勝っている。 本稿では,最近成功したゲームAI,ボードゲームAI,カードゲームAI,ファーストパーソンシューティングゲームAI,リアルタイム戦略ゲームAIについて調査する。 この調査を通じて、我々は 1)知的意思決定分野における各種ゲームの主な難しさの比較 ; 2) プロレベルのAIを開発するための主流のフレームワークとテクニックを例示する。 3)知的意思決定のための現在のAIにおける課題や欠点を提起すること。 4) ゲームにおける今後のトレンドと知的意思決定技術を提案すること。 最後に、この短いレビューが初心者に紹介を提供し、ゲームでAIを申請した研究者に洞察を与えてくれることを願っている。

With breakthrough of AlphaGo, AI in human-computer game has become a very hot topic attracting researchers all around the world, which usually serves as an effective standard for testing artificial intelligence. Various game AI systems (AIs) have been developed such as Libratus, OpenAI Five and AlphaStar, beating professional human players. In this paper, we survey recent successful game AIs, covering board game AIs, card game AIs, first-person shooting game AIs and real time strategy game AIs. Through this survey, we 1) compare the main difficulties among different kinds of games for the intelligent decision making field ; 2) illustrate the mainstream frameworks and techniques for developing professional level AIs; 3) raise the challenges or drawbacks in the current AIs for intelligent decision making; and 4) try to propose future trends in the games and intelligent decision making techniques. Finally, we hope this brief review can provide an introduction for beginners, inspire insights for researchers in the filed of AI in games.
翻訳日:2021-11-16 15:18:56 公開日:2021-11-15
# (参考訳) 端末状態規則化による長軸ロボットマニピュレーションの逆スキルチェイン [全文訳有]

Adversarial Skill Chaining for Long-Horizon Robot Manipulation via Terminal State Regularization ( http://arxiv.org/abs/2111.07999v1 )

ライセンス: CC BY 4.0
Youngwoon Lee and Joseph J. Lim and Anima Anandkumar and Yuke Zhu(参考訳) スキル連鎖は、事前学習されたスキルを順次組み合わせて複雑な振る舞いを合成する有望なアプローチである。 しかし、スキルの素直な構成は、トレーニング中に見つからない開始状態にポリシーが遭遇した場合に失敗する。 スキルチェーンの成功のために、事前のアプローチはポリシーの開始状態の分布を拡大しようとする。 しかしながら、これらのアプローチでは、より多くのポリシーがシーケンスされるにつれて、より大きな状態分布をカバーする必要があるため、短いスキルシーケンスに制限される。 本稿では,逆学習フレームワークにおける端末状態分布を正規化することにより,過大な初期状態分布を伴わない複数のポリシーの連鎖を提案する。 家具組立における2つの複雑な長軸操作タスクに対するアプローチを評価する。 提案手法は,これらの課題を解くためのモデルなし強化学習アルゴリズムを最初に確立するが,先行技術連鎖手法は失敗する。 コードとビデオはhttps://clvrai.com/s kill-chainingで入手できる。

Skill chaining is a promising approach for synthesizing complex behaviors by sequentially combining previously learned skills. Yet, a naive composition of skills fails when a policy encounters a starting state never seen during its training. For successful skill chaining, prior approaches attempt to widen the policy's starting state distribution. However, these approaches require larger state distributions to be covered as more policies are sequenced, and thus are limited to short skill sequences. In this paper, we propose to chain multiple policies without excessively large initial state distributions by regularizing the terminal state distributions in an adversarial learning framework. We evaluate our approach on two complex long-horizon manipulation tasks of furniture assembly. Our results have shown that our method establishes the first model-free reinforcement learning algorithm to solve these tasks; whereas prior skill chaining approaches fail. The code and videos are available at https://clvrai.com/s kill-chaining
翻訳日:2021-11-16 15:16:01 公開日:2021-11-15
# コミュニティ検出のための分布自由モデル

Distribution-Free Models for Community Detection ( http://arxiv.org/abs/2111.07495v1 )

ライセンス: Link先を確認
Huan Qing(参考訳) 非重み付きネットワークのコミュニティ検出はネットワーク解析において広く研究されてきたが、重み付きネットワークの場合はまだ課題である。 本稿では,ノードを異なるコミュニティに分割するネットワークに対して,分散自由モデル(DFM)を提案する。 DFMは、非重み付きネットワークと重み付きネットワークの両方の一般的な、解釈可能な、識別可能なモデルである。 提案モデルは、隣接行列の要素に対する特定の分布に関する事前知識を必要とせず、期待値のみを求める。 DFMの分布自由性は、隣接行列が負の要素を持つことも許す。 DFMに適合する効率的なスペクトルアルゴリズムを開発した。 雑音行列を導入することにより、摂動解析の理論的枠組みを構築し、提案アルゴリズムがDFMの下で安定に一貫したコミュニティ検出を行うことを示す。 論文から得られた合成ネットワークと2つのソーシャルネットワークの数値実験をアルゴリズムの具体化に用いた。

Community detection for un-weighted networks has been widely studied in network analysis, but the case of weighted networks remains a challenge. In this paper, a Distribution-Free Models (DFM) is proposed for networks in which nodes are partitioned into different communities. DFM is a general, interpretable and identifiable model for both un-weighted networks and weighted networks. The proposed model does not require prior knowledge on a specific distribution for elements of adjacency matrix but only the expected value. The distribution-free property of DFM even allows adjacency matrix to have negative elements. We develop an efficient spectral algorithm to fit DFM. By introducing a noise matrix, we build a theoretic framework on perturbation analysis to show that the proposed algorithm stably yields consistent community detection under DFM. Numerical experiments on both synthetic networks and two social networks from literature are used to illustrate the algorithm.
翻訳日:2021-11-16 14:58:54 公開日:2021-11-15
# 線形モデルにおけるスケーラブル干渉目標推定

Scalable Intervention Target Estimation in Linear Models ( http://arxiv.org/abs/2111.07512v1 )

ライセンス: Link先を確認
Burak Varici, Karthikeyan Shanmugam, Prasanna Sattigeri, Ali Tajer(参考訳) 本稿では,観察的および介入的データから未知の介入対象を因果有向非循環グラフで推定する問題を考察する。 焦点は線形構造方程式モデル(SEM)におけるソフト介入である。 因果構造学習への現在のアプローチは、既知の介入目標を扱うか、仮説テストを用いて線形SEMであっても未知の介入目標を発見する。 これはスケーラビリティとサンプルの複雑さを著しく制限します。 本稿では,すべての介入対象を一貫して識別するスケーラブルで効率的なアルゴリズムを提案する。 重要な考え方は、観察データセットと介入データセットに関連する精度行列の違いから介入部位を推定することである。 そのようなサイトを変数の異なる部分集合で繰り返し推定する。 提案アルゴリズムは、与えられた観察的マルコフ同値クラスを介入的マルコフ同値クラスに更新するためにも使用できる。 一貫性、マルコフ等価性、およびサンプル複雑性は分析的に確立される。 最後に,実データと合成データの両方におけるシミュレーション結果から,スケーラブルな因果構造復元のための提案手法が得られた。 アルゴリズムの実装とシミュレーション結果を再現するコードは \url{https://github.com/b varici/intervention- estimation} で入手できる。

This paper considers the problem of estimating the unknown intervention targets in a causal directed acyclic graph from observational and interventional data. The focus is on soft interventions in linear structural equation models (SEMs). Current approaches to causal structure learning either work with known intervention targets or use hypothesis testing to discover the unknown intervention targets even for linear SEMs. This severely limits their scalability and sample complexity. This paper proposes a scalable and efficient algorithm that consistently identifies all intervention targets. The pivotal idea is to estimate the intervention sites from the difference between the precision matrices associated with the observational and interventional datasets. It involves repeatedly estimating such sites in different subsets of variables. The proposed algorithm can be used to also update a given observational Markov equivalence class into the interventional Markov equivalence class. Consistency, Markov equivalency, and sample complexity are established analytically. Finally, simulation results on both real and synthetic data demonstrate the gains of the proposed approach for scalable causal structure recovery. Implementation of the algorithm and the code to reproduce the simulation results are available at \url{https://github.com/b varici/intervention- estimation}.
翻訳日:2021-11-16 14:58:43 公開日:2021-11-15
# 不均一な共分散に対する条件線形回帰

Conditional Linear Regression for Heterogeneous Covariances ( http://arxiv.org/abs/2111.07834v1 )

ライセンス: Link先を確認
Brendan Juba, Leda Liang(参考訳) 多くの場合、機械学習と統計モデルはデータの大半を記述しようとする。 しかし、データの一部だけが線形回帰モデルによってうまく適合できる状況があるかもしれない。 ここでは、そのような不等式をDNF(Disjunctive Normal Form)公式で特定できる場合に関心がある。 本稿では,条件付き線形回帰タスクの多項式時間アルゴリズムを提案し,それに対応する部分について線形予測器と共にdnf条件を同定する。 本研究では,各条件を満たすデータの共分散が,全条件の共分散とスペクトルノルムにおいて非常によく似ていることの要件を除去することにより,従来のアルゴリズムの改善を行う。

Often machine learning and statistical models will attempt to describe the majority of the data. However, there may be situations where only a fraction of the data can be fit well by a linear regression model. Here, we are interested in a case where such inliers can be identified by a Disjunctive Normal Form (DNF) formula. We give a polynomial time algorithm for the conditional linear regression task, which identifies a DNF condition together with the linear predictor on the corresponding portion of the data. In this work, we improve on previous algorithms by removing a requirement that the covariances of the data satisfying each of the terms of the condition have to all be very similar in spectral norm to the covariance of the overall condition.
翻訳日:2021-11-16 14:58:27 公開日:2021-11-15
# 確率勾配線ベイズ最適化:パラメータ化量子回路における計測ショットの削減

Stochastic Gradient Line Bayesian Optimization: Reducing Measurement Shots in Optimizing Parameterized Quantum Circuits ( http://arxiv.org/abs/2111.07952v1 )

ライセンス: Link先を確認
Shiro Tamiya, Hayata Yamasaki(参考訳) パラメータ化量子回路の最適化は、変動量子アルゴリズム(VQA)を用いた計算タスクへの短期量子デバイスの適用には不可欠である。 しかしながら、既存のVQAsの最適化アルゴリズムでは、観測可能な変数の期待値を推定したり、回路パラメータの更新を繰り返すために、過剰な数の量子測定ショットを必要とする。 この問題に対処するため,計測ショットが少ない回路最適化のための効率的なフレームワークである「textit{stochastic gradient line Bayesian optimization} (SGLBO)」を開発した。 SGLBOは、確率勾配降下(SGD)に基づいてパラメータを適切に更新する方向を推定し、さらにベイズ最適化(BO)を利用して、SGDの各イテレーションにおける最適なステップサイズを推定することにより、測定ショットのコストを低減する。 精度の高い期待値推定と多くのイテレーションを頼らずに最適化を実現するための適応的計測ショット戦略を定式化し,vqaの最適化において,接尾辞平均化手法が統計的・ハードウェア的ノイズの影響を著しく低減できることを示した。 数値シミュレーションにより,これらの手法を付加したsglboは,vqaの代表課題における他の最先端オプティマイザと比較して,必要な計測ショット数を大幅に削減し,最適化精度を高め,雑音に対するロバスト性を高めることができることを示した。 これらの結果は、2つの異なる最適化手法であるSGDとBOを統合する量子回路オプティマイザの枠組みを確立し、測定ショットのコストを大幅に削減する。

Optimization of parameterized quantum circuits is indispensable for applications of near-term quantum devices to computational tasks with variational quantum algorithms (VQAs). However, the existing optimization algorithms for VQAs require an excessive number of quantum-measurement shots in estimating expectation values of observables or iterating updates of circuit parameters, whose cost has been a crucial obstacle for practical use. To address this problem, we develop an efficient framework, \textit{stochastic gradient line Bayesian optimization} (SGLBO), for the circuit optimization with fewer measurement shots. The SGLBO reduces the cost of measurement shots by estimating an appropriate direction of updating the parameters based on stochastic gradient descent (SGD) and further by utilizing Bayesian optimization (BO) to estimate the optimal step size in each iteration of the SGD. We formulate an adaptive measurement-shot strategy to achieve the optimization feasibly without relying on precise expectation-value estimation and many iterations; moreover, we show that a technique of suffix averaging can significantly reduce the effect of statistical and hardware noise in the optimization for the VQAs. Our numerical simulation demonstrates that the SGLBO augmented with these techniques can drastically reduce the required number of measurement shots, improve the accuracy in the optimization, and enhance the robustness against the noise compared to other state-of-art optimizers in representative tasks for the VQAs. These results establish a framework of quantum-circuit optimizers integrating two different optimization approaches, SGD and BO, to reduce the cost of measurement shots significantly.
翻訳日:2021-11-16 14:56:36 公開日:2021-11-15
# 単調DR-サブモジュラー最大化のための高速1次アルゴリズム

Faster First-Order Algorithms for Monotone Strongly DR-Submodular Maximization ( http://arxiv.org/abs/2111.07990v1 )

ライセンス: Link先を確認
Omid Sadeghi, Maryam Fazel(参考訳) 連続DR-部分モジュラ函数は、一般に非凸/非凹関数のクラスであり、Dimishing Returns (DR) の性質を満たす。 既存の研究は、凸制約を受ける単調連続DR-部分モジュラー最大化を研究し、近似保証付き効率的なアルゴリズムを提供した。 グラフの安定性数を計算するような多くの応用において、単調DR-部分モジュラー目的関数は非負方向(すなわち強DR-部分モジュラー)に沿って強く凹むという付加的性質を持つ。 本稿では、DR-部分モジュラー関数が強く、有界曲率を持つ$L$-smooth monotone DR-submodular関数のサブクラスを考察し、そのような付加構造を利用して、最大化問題に対するより強力な保証付き高速なアルゴリズムを得る方法を示す。 証明可能な最適な1-\frac{c}{e}$近似比を,$c\in[0,1]$および$\mu\geq 0$が曲率であり,DR-部分モジュラリティパラメータが強い場合,$\lceil\frac{L}{\mu}\rceil$ iterationsのみに一致する新しいアルゴリズムを提案する。 さらに,この問題に対するpga法の検討を行い,改良された$\frac{1}{1+c}$近似比(先行研究では$\frac{1}{2}$)と線形収束率(線形収束率)を用いて,アルゴリズムの精巧な解析を行う。 実験結果は,提案アルゴリズムの有効性と有効性を示すものである。

Continuous DR-submodular functions are a class of generally non-convex/non-conca ve functions that satisfy the Diminishing Returns (DR) property, which implies that they are concave along non-negative directions. Existing work has studied monotone continuous DR-submodular maximization subject to a convex constraint and provided efficient algorithms with approximation guarantees. In many applications, such as computing the stability number of a graph, the monotone DR-submodular objective function has the additional property of being strongly concave along non-negative directions (i.e., strongly DR-submodular). In this paper, we consider a subclass of $L$-smooth monotone DR-submodular functions that are strongly DR-submodular and have a bounded curvature, and we show how to exploit such additional structure to obtain faster algorithms with stronger guarantees for the maximization problem. We propose a new algorithm that matches the provably optimal $1-\frac{c}{e}$ approximation ratio after only $\lceil\frac{L}{\mu}\rceil$ iterations, where $c\in[0,1]$ and $\mu\geq 0$ are the curvature and the strong DR-submodularity parameter. Furthermore, we study the Projected Gradient Ascent (PGA) method for this problem, and provide a refined analysis of the algorithm with an improved $\frac{1}{1+c}$ approximation ratio (compared to $\frac{1}{2}$ in prior works) and a linear convergence rate. Experimental results illustrate and validate the efficiency and effectiveness of our proposed algorithms.
翻訳日:2021-11-16 14:56:08 公開日:2021-11-15
# t-automl:3次元医用イメージングにおけるトランスフォーマーを用いた病変分割の自動機械学習

T-AutoML: Automated Machine Learning for Lesion Segmentation using Transformers in 3D Medical Imaging ( http://arxiv.org/abs/2111.07535v1 )

ライセンス: Link先を確認
Dong Yang, Andriy Myronenko, Xiaosong Wang, Ziyue Xu, Holger R. Roth, Daguang Xu(参考訳) 画像診断における病変分割は臨床研究において重要な課題である。 この課題に対処するために、研究者は様々な検出アルゴリズムとセグメンテーションアルゴリズムを提案した。 近年,ディープラーニングに基づくアプローチにより,従来の手法よりも性能が大幅に向上している。 しかし、最先端のディープラーニング手法の多くは、複数のネットワークコンポーネントとトレーニング戦略の手動設計を必要とする。 本稿では,機械学習アルゴリズムT-AutoMLを提案する。このアルゴリズムは,最高のニューラルネットワークを探索するだけでなく,ハイパーパラメータとデータ拡張戦略を同時に組み合わせることで,最適な組み合わせを見つけることができる。 提案手法は,探索空間埋め込みの動的長さに適応し,探索能力を大幅に向上させるため,現代の変圧器モデルを用いている。 我々は,T-AutoMLを複数の大規模公共病変セグメントデータセットで検証し,最先端の性能を実現する。

Lesion segmentation in medical imaging has been an important topic in clinical research. Researchers have proposed various detection and segmentation algorithms to address this task. Recently, deep learning-based approaches have significantly improved the performance over conventional methods. However, most state-of-the-art deep learning methods require the manual design of multiple network components and training strategies. In this paper, we propose a new automated machine learning algorithm, T-AutoML, which not only searches for the best neural architecture, but also finds the best combination of hyper-parameters and data augmentation strategies simultaneously. The proposed method utilizes the modern transformer model, which is introduced to adapt to the dynamic length of the search space embedding and can significantly improve the ability of the search. We validate T-AutoML on several large-scale public lesion segmentation data-sets and achieve state-of-the-art performance.
翻訳日:2021-11-16 14:52:51 公開日:2021-11-15
# 画像データの擬似ドメインは、多施設研究における将来の疾患の予測を改善する

Pseudo-domains in imaging data improve prediction of future disease status in multi-center studies ( http://arxiv.org/abs/2111.07634v1 )

ライセンス: Link先を確認
Matthias Perkonigg, Peter Mesenbrink, Alexander Goehler, Miljen Martic, Ahmed Ba-Ssalamah, Georg Langs(参考訳) 多施設のランダム化臨床試験では、取得技術やスキャンプロトコルによって画像データが多様である。 このデータの不均一性により、患者の将来の予後を予測するモデルが障害となる。 そこで本研究では,多数の異なるスキャンサイトと,各サイト毎のサンプル数に対処可能な予測手法を提案する。 サイトをスキャンの視覚的外観に基づいて擬似ドメインにクラスタリングし、擬似ドメイン固有モデルを訓練する。 初診時の画像データと12週間の肝疾患追跡データから,48週後の脂肪症予測精度の改善が示唆された。

In multi-center randomized clinical trials imaging data can be diverse due to acquisition technology or scanning protocols. Models predicting future outcome of patients are impaired by this data heterogeneity. Here, we propose a prediction method that can cope with a high number of different scanning sites and a low number of samples per site. We cluster sites into pseudo-domains based on visual appearance of scans, and train pseudo-domain specific models. Results show that they improve the prediction accuracy for steatosis after 48 weeks from imaging data acquired at an initial visit and 12-weeks follow-up in liver disease
翻訳日:2021-11-16 14:52:39 公開日:2021-11-15
# 足跡認識によるヒト運動識別のためのメトリックベースマルチモーダルメタラーニング

Metric-based multimodal meta-learning for human movement identification via footstep recognition ( http://arxiv.org/abs/2111.07979v1 )

ライセンス: Link先を確認
Muhammad Shakeel, Katsutoshi Itoyama, Kenji Nishida, Kazuhiro Nakadai(参考訳) 本稿では,マルチモーダルフレームワークを導入し,シアム構成のディープオーディオおよびジオホンエンコーダを用いて適応的で軽量な教師付きモデルの設計を行う。 このフレームワークは、高価なデータラベリング手順を不要とし、全表示センシングシステムから得られた低マルチセンサーデータから汎用表現を学習する。 これらのセンシングシステムは、アクティビティ認識タスクに多くの応用と様々なユースケースを提供する。 ここでは,室内環境からの人間の歩みを探索し,音響・振動センサを用いた小さな自己収集データセットから表現を分析する。 中心となるアイデアは、2つの感覚特性の正確な類似性を学習し、オーディオとジオフォン信号からの表現を組み合わせることである。 音声やジオフォン信号から抽出した時間的特徴と空間的特徴から埋め込みを学習するための一般化されたフレームワークを提案する。 次に,共有空間における表現を抽出し,音響的特徴とジオフォン的特徴との整合性の学習を最大化する。 これにより、学習モデルからの分類タスクを効果的に行うことができ、例えば、人間の足歩運動と高い類似性をペアに割り当て、足歩運動のないペアに低い類似性を割り当てることによって示される。 性能分析の結果,提案するマルチモーダルフレームワークは(絶対的に)19.99\%の精度向上を達成し,学習サンプルを200対から500対に増やしながら,音声とジオフォンの表現を十分に学習しながら,評価セットへの過剰フィットを回避できた。 本研究は,データ不足の影響を緩和し,限られたデータサイズで人体の動きの識別を行うため,マルチセンサデータに対するメトリックベースのコントラスト学習手法を用いた。

We describe a novel metric-based learning approach that introduces a multimodal framework and uses deep audio and geophone encoders in siamese configuration to design an adaptable and lightweight supervised model. This framework eliminates the need for expensive data labeling procedures and learns general-purpose representations from low multisensory data obtained from omnipresent sensing systems. These sensing systems provide numerous applications and various use cases in activity recognition tasks. Here, we intend to explore the human footstep movements from indoor environments and analyze representations from a small self-collected dataset of acoustic and vibration-based sensors. The core idea is to learn plausible similarities between two sensory traits and combining representations from audio and geophone signals. We present a generalized framework to learn embeddings from temporal and spatial features extracted from audio and geophone signals. We then extract the representations in a shared space to maximize the learning of a compatibility function between acoustic and geophone features. This, in turn, can be used effectively to carry out a classification task from the learned model, as demonstrated by assigning high similarity to the pairs with a human footstep movement and lower similarity to pairs containing no footstep movement. Performance analyses show that our proposed multimodal framework achieves a 19.99\% accuracy increase (in absolute terms) and avoided overfitting on the evaluation set when the training samples were increased from 200 pairs to just 500 pairs while satisfactorily learning the audio and geophone representations. Our results employ a metric-based contrastive learning approach for multi-sensor data to mitigate the impact of data scarcity and perform human movement identification with limited data size.
翻訳日:2021-11-16 14:52:04 公開日:2021-11-15
# (参考訳) 新型コロナウイルスの誤情報検出のためのニューラルネットワークモデルの一般化試験 [全文訳有]

Testing the Generalization of Neural Language Models for COVID-19 Misinformation Detection ( http://arxiv.org/abs/2111.07819v1 )

ライセンス: CC BY-SA 4.0
Jan Philip Wahle and Nischal Ashok and Terry Ruas and Norman Meuschke and Tirthankar Ghosal and Bela Gipp(参考訳) 新型コロナウイルス(COVID-19)のパンデミックの副産物となっている。 このトピックに関する大量のデータ内の偽情報を特定するための計算支援は、害を防ぐために不可欠である。 研究者は、covid-19に関連するオンライン誤情報にフラグを付ける多くの方法を提案した。 しかし、これらの手法は主に特定のコンテンツタイプ(ニュースなど)やプラットフォーム(twitterなど)をターゲットにしている。 これまでの方法の一般化能力はほとんど不明であった。 このギャップを埋めるために,ソーシャルメディア投稿やニュース記事,科学論文などを含む5つの誤情報データセットについて,トランスフォーマティブに基づく15のモデルを評価した。 COVID-19データに合わせたトークンやモデルは、汎用データに対して大きな優位性を提供していない。 本研究は、新型コロナウイルスの誤情報を検出するためのモデルの現実的な評価を提供する。 幅広いデータセットやモデルを評価することは、誤情報検出システムの開発における将来の研究に役立つと期待している。

A drastic rise in potentially life-threatening misinformation has been a by-product of the COVID-19 pandemic. Computational support to identify false information within the massive body of data on the topic is crucial to prevent harm. Researchers proposed many methods for flagging online misinformation related to COVID-19. However, these methods predominantly target specific content types (e.g., news) or platforms (e.g., Twitter). The methods' capabilities to generalize were largely unclear so far. We evaluate fifteen Transformer-based models on five COVID-19 misinformation datasets that include social media posts, news articles, and scientific papers to fill this gap. We show tokenizers and models tailored to COVID-19 data do not provide a significant advantage over general-purpose ones. Our study provides a realistic assessment of models for detecting COVID-19 misinformation. We expect that evaluating a broad spectrum of datasets and models will benefit future research in developing misinformation detection systems.
翻訳日:2021-11-16 14:50:39 公開日:2021-11-15
# 空間-時間交通予測のための深層学習モデルの基本要素の比較研究

A Comparative Study on Basic Elements of Deep Learning Models for Spatial-Temporal Traffic Forecasting ( http://arxiv.org/abs/2111.07513v1 )

ライセンス: Link先を確認
Yuyol Shin and Yoonjin Yoon(参考訳) 交通予測はインテリジェント交通システムにおいて重要な役割を果たす。 交通ネットワークにおける時空間の複雑さは、この問題を特に困難にしている。 最近提案されたディープラーニングモデルは、グラフ畳み込み、グラフ注目、リカレントユニット、および/またはアテンションメカニズムといった基本的な要素を共有している。 本研究では,異なる基本要素を用いた4つの深層ニューラルネットワークモデルについて,詳細な比較研究を行った。 ベースモデルについては,従来の文献から,rnnモデルと注意モデルが1つ選択された。 次に,モデル内の空間的特徴抽出層をグラフ畳み込みとグラフ注意で置き換えた。 様々な環境における各要素の性能を分析するために, 道路速度, 高速道路流速, 等質道路網からの都市速度, 異種道路網からの都市速度の4つの実世界のデータセットについて実験を行った。 その結果、RNNモデルとアテンションベースモデルは短期予測に類似した性能を示し、アテンションベースモデルは長期予測においてRNNを上回る性能を示した。 グラフ畳み込みとグラフアテンションの選択は、RNNベースのモデルに大きな違いをもたらす。 また、GMANの修正版は、メモリ消費の少ないオリジナルと同等の性能を示している。

Traffic forecasting plays a crucial role in intelligent transportation systems. The spatial-temporal complexities in transportation networks make the problem especially challenging. The recently suggested deep learning models share basic elements such as graph convolution, graph attention, recurrent units, and/or attention mechanism. In this study, we designed an in-depth comparative study for four deep neural network models utilizing different basic elements. For base models, one RNN-based model and one attention-based model were chosen from previous literature. Then, the spatial feature extraction layers in the models were substituted with graph convolution and graph attention. To analyze the performance of each element in various environments, we conducted experiments on four real-world datasets - highway speed, highway flow, urban speed from a homogeneous road link network, and urban speed from a heterogeneous road link network. The results demonstrate that the RNN-based model and the attention-based model show a similar level of performance for short-term prediction, and the attention-based model outperforms the RNN in longer-term predictions. The choice of graph convolution and graph attention makes a larger difference in the RNN-based models. Also, our modified version of GMAN shows comparable performance with the original with less memory consumption.
翻訳日:2021-11-16 14:36:09 公開日:2021-11-15
# 固有パラメータを用いたReLUネットワーク近似

ReLU Network Approximation in Terms of Intrinsic Parameters ( http://arxiv.org/abs/2111.07964v1 )

ライセンス: Link先を確認
Zuowei Shen and Haizhao Yang and Shijun Zhang(参考訳) 本稿では,ReLUネットワークの固有パラメータ数(すなわち,対象関数の$f$に依存するパラメータ)の近似誤差について検討する。 まず、リプシッツ定数 $\lambda>0$ を持つ任意のリプシッツ連続関数 $f$ on $[0,1]^d$ に対して、n+2$ 固有パラメータを持つ relu ネットワークは、指数関数的に小さい誤差 5\lambda \sqrt{d}\,2^{-n}$ で$l^p$-norm で$p\in [1,\infty)$ で測定できる。 より一般に、任意の連続函数 $f$ on $[0,1]^d$ と連続性 $\omega_f(\cdot)$ に対して、近似誤差は$\omega_f(\sqrt{d}\, 2^{-n})+2^{-n+2}\omega_f(\sqrt{d})$である。 次に、これら2つの結果を$L^p$-normから$L^\infty$-normに3^d n+2$固有のパラメータで拡張する。 最後に、目標関数とは独立な固定reluネットワークによる高精度バイナリ表現とビット抽出技術を用いて、理論的には3つの固有パラメータしか持たないreluネットワークを任意に小さい誤差でh\"older連続関数を近似するように設計する。

This paper studies the approximation error of ReLU networks in terms of the number of intrinsic parameters (i.e., those depending on the target function $f$). First, we prove by construction that, for any Lipschitz continuous function $f$ on $[0,1]^d$ with a Lipschitz constant $\lambda>0$, a ReLU network with $n+2$ intrinsic parameters can approximate $f$ with an exponentially small error $5\lambda \sqrt{d}\,2^{-n}$ measured in the $L^p$-norm for $p\in [1,\infty)$. More generally for an arbitrary continuous function $f$ on $[0,1]^d$ with a modulus of continuity $\omega_f(\cdot)$, the approximation error is $\omega_f(\sqrt{d}\, 2^{-n})+2^{-n+2}\omega_f(\sqrt{d})$. Next, we extend these two results from the $L^p$-norm to the $L^\infty$-norm at a price of $3^d n+2$ intrinsic parameters. Finally, by using a high-precision binary representation and the bit extraction technique via a fixed ReLU network independent of the target function, we design, theoretically, a ReLU network with only three intrinsic parameters to approximate H\"older continuous functions with an arbitrarily small error.
翻訳日:2021-11-16 14:35:53 公開日:2021-11-15
# cores: stationarity による互換表現

CoReS: Compatible Representations via Stationarity ( http://arxiv.org/abs/2111.07632v1 )

ライセンス: Link先を確認
Niccolo Biondi and Federico Pernici and Matteo Bruni and Alberto Del Bimbo(参考訳) 本稿では,従来学習されていた特徴表現モデルに適合する内部特徴表現モデルを学習するための新しい手法を提案する。 互換性のある機能は、古い機能と新しい機能を直接比較することができ、時間とともに相互に使用することができる。 これにより、表現モデルを逐次アップグレードする際、ギャラリーセット内のすべての画像に対して、視覚検索システムが新機能を抽出する必要がなくなる。 新しい機能の抽出は、非常に大きなギャラリーセットやリアルタイムシステム(顔認識システム、ソーシャルネットワーク、生涯学習システム、ロボティクス、監視システムなど)の場合、通常非常に高価または不可能である。 本手法は,従来学習したモデルに頼らずに,学習表現モデルに定常性を付与することで,互換性を実現する。 stationarityは、時間のシフトによって特徴の統計特性が変化しないようにし、現在の学習された特徴が古い特徴と相互運用できるようにします。 大規模トレーニングデータセットの増大に伴う単一およびシーケンシャルなマルチモデルアップグレードを評価し,本手法が互換性のある機能を実現する上での最先端性の向上を大きなマージンで示す。 特にcasia-webfaceから取得したトレーニングデータを用いて10回アップグレードし,野生のラベル付き顔(lfw)で評価することで,従来よりも544.%の相対的改善である平均互換回数を49.%向上させることができた。

In this paper, we propose a novel method to learn internal feature representation models that are \textit{compatible} with previously learned ones. Compatible features enable for direct comparison of old and new learned features, allowing them to be used interchangeably over time. This eliminates the need for visual search systems to extract new features for all previously seen images in the gallery-set when sequentially upgrading the representation model. Extracting new features is typically quite expensive or infeasible in the case of very large gallery-sets and/or real time systems (i.e., face-recognition systems, social networks, life-long learning systems, robotics and surveillance systems). Our approach, called Compatible Representations via Stationarity (CoReS), achieves compatibility by encouraging stationarity to the learned representation model without relying on previously learned models. Stationarity allows features' statistical properties not to change under time shift so that the current learned features are inter-operable with the old ones. We evaluate single and sequential multi-model upgrading in growing large-scale training datasets and we show that our method improves the state-of-the-art in achieving compatible features by a large margin. In particular, upgrading ten times with training data taken from CASIA-WebFace and evaluating in Labeled Face in the Wild (LFW), we obtain a 49\% increase in measuring the average number of times compatibility is achieved, which is a 544\% relative improvement over previous state-of-the-art.
翻訳日:2021-11-16 14:33:00 公開日:2021-11-15
# ニューラルネットワークの高速軸方向属性

Fast Axiomatic Attribution for Neural Networks ( http://arxiv.org/abs/2111.07668v1 )

ライセンス: Link先を確認
Robin Hesse, Simone Schaub-Meyer, Stefan Roth(参考訳) トレーニングデータセットに存在するスプリアス相関への依存の緩和は、ディープラーニングの迅速かつ重要なトピックである。 最近のアプローチでは、不必要な特徴への依存を減らすために、トレーニングプロセスにディープニューラルネットワーク(dnn)の機能帰属を優先する。 しかし、それまでは、それらの計算に要する時間に対して、望ましい公理を満たす高品質な帰属をトレードオフする必要があった。 この結果、長い訓練時間か非効果的な帰属先へと導かれた。 本研究では,1つの前方/後方パスのみで公理的特徴属性を計算できるDNNを効率よく公理的に帰属させる特別なクラスを考えることで,このトレードオフを解消する。 非負に同質なDNN(ここでは$\mathcal{X}$-DNN)が効率よく公理的に帰属可能であることを正式に証明し、各層のバイアス項を単純に除去することで、幅広い正規DNNから強制的に構築可能であることを示す。 様々な実験により、$\mathcal{X}$-DNNsの利点が示され、通常のDNNに対する最先端の一般的な帰属法を破り、帰属前の訓練を行う。

Mitigating the dependence on spurious correlations present in the training dataset is a quickly emerging and important topic of deep learning. Recent approaches include priors on the feature attribution of a deep neural network (DNN) into the training process to reduce the dependence on unwanted features. However, until now one needed to trade off high-quality attributions, satisfying desirable axioms, against the time required to compute them. This in turn either led to long training times or ineffective attribution priors. In this work, we break this trade-off by considering a special class of efficiently axiomatically attributable DNNs for which an axiomatic feature attribution can be computed with only a single forward/backward pass. We formally prove that nonnegatively homogeneous DNNs, here termed $\mathcal{X}$-DNNs, are efficiently axiomatically attributable and show that they can be effortlessly constructed from a wide range of regular DNNs by simply removing the bias term of each layer. Various experiments demonstrate the advantages of $\mathcal{X}$-DNNs, beating state-of-the-art generic attribution methods on regular DNNs for training with attribution priors.
翻訳日:2021-11-16 14:32:34 公開日:2021-11-15
# 自己適応的信頼度校正による医用画像の相互分離

Interactive Medical Image Segmentation with Self-Adaptive Confidence Calibration ( http://arxiv.org/abs/2111.07716v1 )

ライセンス: Link先を確認
Wenhao Li and Qisen Xu and Chuyun Shen and Bin Hu and Fengping Zhu and Yuxin Li and Bo Jin and Xiangfeng Wang(参考訳) 医用画像のセグメンテーションは、人工知能に基づく臨床決定システムの基本的問題の一つである。 現在の自動医療画像分割法は、しばしば臨床要件を満たさない。 そこで,専門家の補正情報を活用するために,対話型セグメンテーションアルゴリズムを提案する。 しかし, 既存の手法では, 長期的相互作用後の故障問題の分節化や, 専門家のアノテーションによるコスト問題に苦しめられており, 臨床応用が妨げられている。 本稿では,行動に基づく信頼度学習とマルチエージェント強化学習(MARL)を組み合わせることで,自己適応的信頼度校正(MECCA)と対話的メディカルセグメンテーションという対話的セグメンテーションフレームワークを提案する。 新規な行動に基づく信頼ネットワークを通じて評価を確立し、MARLから補正動作を得る。 機密情報に基づいて、より詳細なフィードバックを提供するように自己適応報酬機能を設計し、教師なしデータに対してシミュレーションラベル生成機構を提案し、ラベル付きデータへの過度な依存を減らす。 種々の医用画像データセットに対する実験結果から,提案アルゴリズムの有効性が示された。

Medical image segmentation is one of the fundamental problems for artificial intelligence-based clinical decision systems. Current automatic medical image segmentation methods are often failed to meet clinical requirements. As such, a series of interactive segmentation algorithms are proposed to utilize expert correction information. However, existing methods suffer from some segmentation refining failure problems after long-term interactions and some cost problems from expert annotation, which hinder clinical applications. This paper proposes an interactive segmentation framework, called interactive MEdical segmentation with self-adaptive Confidence CAlibration (MECCA), by introducing the corrective action evaluation, which combines the action-based confidence learning and multi-agent reinforcement learning (MARL). The evaluation is established through a novel action-based confidence network, and the corrective actions are obtained from MARL. Based on the confidential information, a self-adaptive reward function is designed to provide more detailed feedback, and a simulated label generation mechanism is proposed on unsupervised data to reduce over-reliance on labeled data. Experimental results on various medical image datasets have shown the significant performance of the proposed algorithm.
翻訳日:2021-11-16 14:32:11 公開日:2021-11-15
# 半教師付き学習とクラスタリングのための完全線形グラフ畳み込みネットワーク

Fully Linear Graph Convolutional Networks for Semi-Supervised Learning and Clustering ( http://arxiv.org/abs/2111.07942v1 )

ライセンス: Link先を確認
Yaoming Cai, Zijia Zhang, Zhihua Cai, Xiaobo Liu, Yao Ding, Pedram Ghamisi(参考訳) 本稿では,半教師なし学習と教師なし学習のための完全線形グラフ畳み込みネットワークflgcを提案する。 勾配降下を用いる代わりに、デカップリング手順によるグローバル最適閉形式解の計算に基づいてflgcを訓練し、一般化線形フレームワークを作成し、実装、訓練、適用を容易にする。 1) FLGCはグラフ構造化データと正規データの両方を扱うのに強力であり,(2) 閉形式解を用いた学習グラフ畳み込みモデルは性能を劣化させることなく計算効率を向上し,(3) FLGC は非ユークリッド領域における古典線形モデルの自然な一般化として機能し,例えばリッジ回帰や部分空間クラスタリングを行う。 さらに,半教師付きFLGCと非教師付きFLGCを初期残留戦略を導入し,FLGCが長距離地区を集約し,過度な平滑化を緩和できるようにする。 提案するFLGCモデルは, 精度, 堅牢性, 学習効率の面で, 従来手法より一貫して優れていることを示す。 FLGCのコアコードはhttps://github.com/A ngryCai/FLGCで公開されている。

This paper presents FLGC, a simple yet effective fully linear graph convolutional network for semi-supervised and unsupervised learning. Instead of using gradient descent, we train FLGC based on computing a global optimal closed-form solution with a decoupled procedure, resulting in a generalized linear framework and making it easier to implement, train, and apply. We show that (1) FLGC is powerful to deal with both graph-structured data and regular data, (2) training graph convolutional models with closed-form solutions improve computational efficiency without degrading performance, and (3) FLGC acts as a natural generalization of classic linear models in the non-Euclidean domain, e.g., ridge regression and subspace clustering. Furthermore, we implement a semi-supervised FLGC and an unsupervised FLGC by introducing an initial residual strategy, enabling FLGC to aggregate long-range neighborhoods and alleviate over-smoothing. We compare our semi-supervised and unsupervised FLGCs against many state-of-the-art methods on a variety of classification and clustering benchmarks, demonstrating that the proposed FLGC models consistently outperform previous methods in terms of accuracy, robustness, and learning efficiency. The core code of our FLGC is released at https://github.com/A ngryCai/FLGC.
翻訳日:2021-11-16 14:31:52 公開日:2021-11-15
# コントラスト学習を用いた大規模ハイパースペクトル画像クラスタリング

Large-Scale Hyperspectral Image Clustering Using Contrastive Learning ( http://arxiv.org/abs/2111.07945v1 )

ライセンス: Link先を確認
Yaoming Cai, Zijia Zhang, Yan Liu, Pedram Ghamisi, Kun Li, Xiaobo Liu, Zhihua Cai(参考訳) ハイパースペクトル画像のクラスタリングは基本的だが難しい課題である。 ハイパースペクトル画像クラスタリングの最近の開発は、浅いモデルから深いモデルへと進化し、多くのベンチマークデータセットで有望な結果を達成している。 しかし、そのスケーラビリティ、堅牢性、一般化能力は、主にオフラインクラスタリングのシナリオから生まれ、大規模なハイパースペクトルデータにアプリケーションを大幅に制限している。 これらの問題を回避するため,自己教師型学習に基づくスペクトル空間コントラストクラスタリング(SSCC)という,スケーラブルなオンラインクラスタリングモデルを提案する。 具体的には、クラスタ番号の次元を持つ投影ヘッドからなる対称双対ニューラルネットワークを用いて、スペクトル空間拡張プールから二重コントラスト学習を行う。 我々は,クラスタ内類似性を暗黙的に奨励し,クラスタ間冗長性を低減し,目的関数を定義する。 結果として得られたアプローチは、バッチ毎の最適化によってエンドツーエンドの方法でトレーニングされ、大規模データでは堅牢になり、見えないデータの一般化能力が向上する。 3つのハイパースペクトル画像ベンチマークの大規模な実験は、我々のアプローチの有効性を実証し、最先端のアプローチを大きなマージンで進めることを示す。

Clustering of hyperspectral images is a fundamental but challenging task. The recent development of hyperspectral image clustering has evolved from shallow models to deep and achieved promising results in many benchmark datasets. However, their poor scalability, robustness, and generalization ability, mainly resulting from their offline clustering scenarios, greatly limit their application to large-scale hyperspectral data. To circumvent these problems, we present a scalable deep online clustering model, named Spectral-Spatial Contrastive Clustering (SSCC), based on self-supervised learning. Specifically, we exploit a symmetric twin neural network comprised of a projection head with a dimensionality of the cluster number to conduct dual contrastive learning from a spectral-spatial augmentation pool. We define the objective function by implicitly encouraging within-cluster similarity and reducing between-cluster redundancy. The resulting approach is trained in an end-to-end fashion by batch-wise optimization, making it robust in large-scale data and resulting in good generalization ability for unseen data. Extensive experiments on three hyperspectral image benchmarks demonstrate the effectiveness of our approach and show that we advance the state-of-the-art approaches by large margins.
翻訳日:2021-11-16 14:31:26 公開日:2021-11-15
# 何だって? マルチタスク転送学習を用いた協調的pop歌詞生成

Say What? Collaborative Pop Lyric Generation Using Multitask Transfer Learning ( http://arxiv.org/abs/2111.07592v1 )

ライセンス: Link先を確認
Naveen Ram, Tanay Gummadi, Rahul Bhethanabotla, Richard J. Savery, Gil Weinberg(参考訳) lyric generationは自然言語生成の人気のあるサブ分野であり、近年は成長を遂げている。 ポップ歌詞は、プロのポップ・ソングライティング・プロセスの舞台裏にある高いレベルのコラボレーションに加えて、ジャンルの独特なスタイルとコンテンツのためにユニークな関心を持っている。 本稿では,t5トランスフォーマーモデルによるトランスファーラーニングを活用し,現在までポップ歌詞生成に使われていない線レベルの歌詞生成システムを提案する。 プロのソングライターと直接コミュニケーションすることで、リズムやラインビート要件のマッチング、特定のターゲット単語による行末といった、歌詞やスタイルを学習できるモデルを開発します。 提案手法は,複数データセットの既存手法と比較し,オンライン研究と業界ソングライターへのインタビューから肯定的な結果を得た。

Lyric generation is a popular sub-field of natural language generation that has seen growth in recent years. Pop lyrics are of unique interest due to the genre's unique style and content, in addition to the high level of collaboration that goes on behind the scenes in the professional pop songwriting process. In this paper, we present a collaborative line-level lyric generation system that utilizes transfer-learning via the T5 transformer model, which, till date, has not been used to generate pop lyrics. By working and communicating directly with professional songwriters, we develop a model that is able to learn lyrical and stylistic tasks like rhyming, matching line beat requirements, and ending lines with specific target words. Our approach compares favorably to existing methods for multiple datasets and yields positive results from our online studies and interviews with industry songwriters.
翻訳日:2021-11-16 14:30:08 公開日:2021-11-15
# ランダムな分類と人間の意思決定 - 信頼できるAIはランダムに行動しなければならないかもしれない

Randomized Classifiers vs Human Decision-Makers: Trustworthy AI May Have to Act Randomly and Society Seems to Accept This ( http://arxiv.org/abs/2111.07545v1 )

ライセンス: Link先を確認
G\'abor Erd\'elyi, Olivia J. Erd\'elyi, and Vladimir Estivill-Castro(参考訳) emph{artificial intelligence} (ai) システムは,私たちの生活に影響を与える意思決定にますます関与しているため,意思決定の自動化が公正であり,倫理が最優先事項となっている。 直感的には、人間の決定に似て、人工エージェントの判断は必然的に道徳的な原則に根ざすべきであると感じている。 しかし、意思決定者(人間であれ人であれ)が真に倫理的な(いかなる倫理理論に基づいても)決定を下すことができるのは、意思決定時にその決定が下されるすべての関連する要因についての完全な情報が得られる場合のみである。 1) 教師付き学習で得られた分類器を利用するAIシステムを利用する場合、帰納的/一般化がいくつか存在し、学習中にも関連する属性が存在しない場合がある。 2) ゲームのような決定をモデル化すると、倫理的ではあるが純粋な戦略は必然的に搾取に影響を受けやすいことが明らかになる。 さらに、多くのゲームでは、ナッシュ均衡は混合戦略、すなわち数学的に最適な結果を達成するために、決定をランダム化することによってのみ得られる。 本稿では、教師付き学習環境において、少なくとも決定論的分類器と同様にランダムな分類器が存在するため、多くの状況において最適な選択である可能性があると論じる。 我々は、ランダム化された人工意思決定者に対する肯定的な社会的態度を示す実証研究を行い、現在のai政策および標準化イニシアチブに関連し関連するランダム分類器の使用に関連する政策および実施問題について論じる。

As \emph{artificial intelligence} (AI) systems are increasingly involved in decisions affecting our lives, ensuring that automated decision-making is fair and ethical has become a top priority. Intuitively, we feel that akin to human decisions, judgments of artificial agents should necessarily be grounded in some moral principles. Yet a decision-maker (whether human or artificial) can only make truly ethical (based on any ethical theory) and fair (according to any notion of fairness) decisions if full information on all the relevant factors on which the decision is based are available at the time of decision-making. This raises two problems: (1) In settings, where we rely on AI systems that are using classifiers obtained with supervised learning, some induction/generaliza tion is present and some relevant attributes may not be present even during learning. (2) Modeling such decisions as games reveals that any -- however ethical -- pure strategy is inevitably susceptible to exploitation. Moreover, in many games, a Nash Equilibrium can only be obtained by using mixed strategies, i.e., to achieve mathematically optimal outcomes, decisions must be randomized. In this paper, we argue that in supervised learning settings, there exist random classifiers that perform at least as well as deterministic classifiers, and may hence be the optimal choice in many circumstances. We support our theoretical results with an empirical study indicating a positive societal attitude towards randomized artificial decision-makers, and discuss some policy and implementation issues related to the use of random classifiers that relate to and are relevant for current AI policy and standardization initiatives.
翻訳日:2021-11-16 14:28:06 公開日:2021-11-15
# ニューラルネットワークと木探索による平面クワッドメッシュの生成

Generate plane quad mesh with neural networks and tree search ( http://arxiv.org/abs/2111.07613v1 )

ライセンス: Link先を確認
Hua Tong and Yong Ni(参考訳) メッシュ生成の品質は、FEM(Finite Element Method)の歴史を通じて、エンジニアに信頼性の高いシミュレーション結果を提供する上で、長い間重要な側面と考えられてきた。 現在最も堅牢な手法である要素抽出法は、ビジネスソフトウェアで使用されている。 しかし、抽出を高速化するために、ターゲット関数を最適化する次の要素を見つけることで、多くの時間ステップの後、ローカルメッシュの品質が低下する可能性がある。 強化学習(教師付き学習も可能)と、新しいモンテカルロ木探索(mcts)(coulom(2006), kocsis and szepesv\'ari(2006), browne et~al)と連携して、この手法を使用する手法であるtreemeshを提供する。 (2012)). このアルゴリズムは以前に提案されたアプローチ(Pan et~al)に基づいている。 (2021)). DRL (algorithm, state-action-reward set) に多くの改良を加え、MCTSを追加した後、同じ境界における前の作業よりも優れている。 さらに,本プログラムでは,薄膜材料に共通する種子密度変化境界を,木探索を用いて予測する。

The quality of mesh generation has long been considered a vital aspect in providing engineers with reliable simulation results throughout the history of the Finite Element Method (FEM). The element extraction method, which is currently the most robust method, is used in business software. However, in order to speed up extraction, the approach is done by finding the next element that optimizes a target function, which can result in local mesh of bad quality after many time steps. We provide TreeMesh, a method that uses this method in conjunction with reinforcement learning (also possible with supervised learning) and a novel Monte-Carlo tree search (MCTS) (Coulom(2006), Kocsis and Szepesv\'ari(2006), Browne et~al.(2012)). The algorithm is based on a previously proposed approach (Pan et~al.(2021)). After making many improvements on DRL (algorithm, state-action-reward setting) and adding a MCTS, it outperforms the former work on the same boundary. Furthermore, using tree search, our program reveals much preponderance on seed-density-changin g boundaries, which is common on thin-film materials.
翻訳日:2021-11-16 14:27:36 公開日:2021-11-15
# (参考訳) 顔映像の深い意味的操作 [全文訳有]

Deep Semantic Manipulation of Facial Videos ( http://arxiv.org/abs/2111.07902v1 )

ライセンス: CC BY 4.0
Girish Kumar Solanki, Anastasios Roussos(参考訳) ビデオの顔の特徴の編集と操作は、映画のポストプロダクションや視覚効果から、ビデオゲームやバーチャルアシスタントのリアルなアバターまで、多くのアプリケーションで興味深い重要な研究分野となっている。 そこで本研究では,映像における表情の写実的操作を初めて行う方法を提案する。 本手法は,ニューラルレンダリングと3次元表情モデリングに基づくセマンティックビデオ操作を支援する。 我々は,映像の対話的操作に焦点をあて,表情を変更・制御し,有望なフォトリアリスティックな結果を実現する。 提案手法は,3次元顔の形状と活動の非交叉表現と推定に基づいて,入力ビデオにおける表情の直感的かつ使いやすい制御を実現する。 また、ユーザフレンドリでインタラクティブなAIツールを導入し、入力ビデオの特定の部分における所望の感情操作に関する人間可読なセマンティックラベルを処理し、フォトリアリスティックな動画を合成する。 感情ラベルをvalence-arousal(VA)値にマッピングすることで、特に設計され、訓練された表現デコーダネットワークを介して、不整合3次元表情にマッピングする。 本稿では,本システムの有効性と有望な結果を示す,詳細な定性的・定量的実験について述べる。 追加の結果とビデオは補足資料(https://github.com/ Girish-03/DeepSemMan ipulation)で見ることができる。

Editing and manipulating facial features in videos is an interesting and important field of research with a plethora of applications, ranging from movie post-production and visual effects to realistic avatars for video games and virtual assistants. To the best of our knowledge, this paper proposes the first method to perform photorealistic manipulation of facial expressions in videos. Our method supports semantic video manipulation based on neural rendering and 3D-based facial expression modelling. We focus on interactive manipulation of the videos by altering and controlling the facial expressions, achieving promising photorealistic results. The proposed method is based on a disentangled representation and estimation of the 3D facial shape and activity, providing the user with intuitive and easy-to-use control of the facial expressions in the input video. We also introduce a user-friendly, interactive AI tool that processes human-readable semantic labels about the desired emotion manipulations in specific parts of the input video and synthesizes photorealistic manipulated videos. We achieve that by mapping the emotion labels to valence-arousal (VA) values, which in turn are mapped to disentangled 3D facial expressions through an especially designed and trained expression decoder network. The paper presents detailed qualitative and quantitative experiments, which demonstrate the effectiveness of our system and the promising results it achieves. Additional results and videos can be found at the supplementary material (https://github.com/ Girish-03/DeepSemMan ipulation).
翻訳日:2021-11-16 14:25:49 公開日:2021-11-15
# AnimeCeleb:制御可能な3D合成モデルによる大規模アニメーションCelebFacesデータセット

AnimeCeleb: Large-Scale Animation CelebFaces Dataset via Controllable 3D Synthetic Models ( http://arxiv.org/abs/2111.07640v1 )

ライセンス: Link先を確認
Kangyeol Kim, Sunghyun Park, Jaeseong Lee, Sunghyo Chung, Junsoo Lee, Jaegul Choo(参考訳) ディープラーニングによる顔関連モデルの成功にもかかわらず、これらのモデルはまだ実際の人間の顔の領域に限定されている。 一方で、よく整理されたデータセットがないため、アニメーションフェイスの領域はより集中的に研究されていない。 本稿では,アニメーション・フェース・ドメインの研究を促進するために,制御可能な合成アニメーション・モデルを用いて大規模なアニメーション・セレブフェイス・データセット(AnimeCeleb)を提案する。 データ生成プロセスを容易にするため,オープンな3Dソフトウェアと開発したアノテーションシステムに基づくセミオートマチックパイプラインを構築した。 これにより、多目的および多スタイルのアニメーション顔とリッチアノテーションを備えた大規模なアニメーション顔データセットを構築することができる。 実験の結果,本データセットは頭部再現や着色など,様々なアニメーション関連タスクに適用可能であることが示唆された。

Despite remarkable success in deep learning-based face-related models, these models are still limited to the domain of real human faces. On the other hand, the domain of animation faces has been studied less intensively due to the absence of a well-organized dataset. In this paper, we present a large-scale animation celebfaces dataset (AnimeCeleb) via controllable synthetic animation models to boost research on the animation face domain. To facilitate the data generation process, we build a semi-automatic pipeline based on an open 3D software and a developed annotation system. This leads to constructing a large-scale animation face dataset that includes multi-pose and multi-style animation faces with rich annotations. Experiments suggest that our dataset is applicable to various animation-related tasks such as head reenactment and colorization.
翻訳日:2021-11-16 14:09:15 公開日:2021-11-15
# 自動学術論文レビュー:可能性と課題

Automated scholarly paper review: Possibility and challenges ( http://arxiv.org/abs/2111.07533v1 )

ライセンス: Link先を確認
Jialiang Lin, Jiaxin Song, Zhangping Zhou, Xiaodong Shi(参考訳) ピアレビューは広く受け入れられている研究評価のメカニズムであり、学術出版において重要な役割を果たしている。 しかし、その非効率性と主観性が原因で、このメカニズムに対する批判が長く続いてきた。 近年、ピアレビュープロセスを支援するために人工知能(AI)が応用されている。 それでも人間の関与により、このような制限は避けられないままである。 本稿では,aspr(automated scholarly paper review)の概念を提案し,関連する文献や技術について検討し,本格的コンピュータ化レビュープロセスの実現可能性について考察する。 我々は、既存の技術でasprの課題をさらに調査する。 レビューと議論に基づいて,ASPRの各段階には,すでに対応する研究と技術が存在すると結論づける。 これは、関連する技術が発展し続けるにつれて、asprが長期的に実現可能であることを検証します。 その実現における大きな困難は、不完全な文書解析と表現、不適切なデータ、人間とコンピュータの相互作用の欠陥、そして深い論理的推論である。 近い将来、 aspr と peer review は、 aspr が人間からのレビュー作業を完全に引き受ける前に、強化的な方法で共存していくだろう。

Peer review is a widely accepted mechanism for research evaluation, playing a pivotal role in scholarly publishing. However, criticisms have long been leveled on this mechanism, mostly because of its inefficiency and subjectivity. Recent years have seen the application of artificial intelligence (AI) in assisting the peer review process. Nonetheless, with the involvement of humans, such limitations remain inevitable. In this review paper, we propose the concept of automated scholarly paper review (ASPR) and review the relevant literature and technologies to discuss the possibility of achieving a full-scale computerized review process. We further look into the challenges in ASPR with the existing technologies. On the basis of the review and discussion, we conclude that there are already corresponding research and technologies at each stage of ASPR. This verifies that ASPR can be realized in the long term as the relevant technologies continue to develop. The major difficulties in its realization lie in imperfect document parsing and representation, inadequate data, defected human-computer interaction and flawed deep logical reasoning. In the foreseeable future, ASPR and peer review will coexist in a reinforcing manner before ASPR is able to fully undertake the reviewing workload from humans.
翻訳日:2021-11-16 14:09:03 公開日:2021-11-15
# 制約付き強化学習を用いた安全証明と安全制御政策の合同合成

Joint Synthesis of Safety Certificate and Safe Control Policy using Constrained Reinforcement Learning ( http://arxiv.org/abs/2111.07695v1 )

ライセンス: Link先を確認
Haitong Ma, Changliu Liu, Shengbo Eben Li, Sifa Zheng, Jianyu Chen(参考訳) 安全は、安全証明が証明可能な安全保証を提供する強化学習(RL)を用いた複雑な力学系の制御において、主要な考慮事項である。 有効な安全証明書は、安全状態が低エネルギーであることを示すエネルギー関数であり、エネルギー関数が常に散逸することを許容する、対応する安全制御ポリシーが存在する。 安全証明書と安全管理ポリシーは互いに密接に関連しており、どちらも合成が困難である。 したがって、既存の学習に基づく研究は、どちらかを学習する事前知識として扱い、一般の未知のダイナミクスによる適用性を制限している。 本稿では、エネルギー機能に基づく安全証明書を同時に合成し、CRLによる安全制御ポリシーを学習する新しいアプローチを提案する。 利用可能なモデルベースのコントローラや完全な安全証明書に関する事前知識は依存していません。 特に、エネルギー増加の発生を最小限に抑え、安全証明書パラメータを最適化するために損失関数を定式化する。 この最適化手順をラグランジアン系制約強化学習(CRL)の外部ループとして追加することにより、ポリシと安全証明書パラメータを共同で更新し、各ローカル最適化、最適な安全ポリシー、有効な安全証明書に収束することを証明する。 我々は,複数の安全クリティカルベンチマーク環境でアルゴリズムを評価する。 その結果,提案アルゴリズムは制約違反のない安全なポリシを確実に学習することがわかった。 また、合成安全証明書の有効性や妥当性を数値的に検証する。

Safety is the major consideration in controlling complex dynamical systems using reinforcement learning (RL), where the safety certificate can provide provable safety guarantee. A valid safety certificate is an energy function indicating that safe states are with low energy, and there exists a corresponding safe control policy that allows the energy function to always dissipate. The safety certificate and the safe control policy are closely related to each other and both challenging to synthesize. Therefore, existing learning-based studies treat either of them as prior knowledge to learn the other, which limits their applicability with general unknown dynamics. This paper proposes a novel approach that simultaneously synthesizes the energy-function-base d safety certificate and learns the safe control policy with CRL. We do not rely on prior knowledge about either an available model-based controller or a perfect safety certificate. In particular, we formulate a loss function to optimize the safety certificate parameters by minimizing the occurrence of energy increases. By adding this optimization procedure as an outer loop to the Lagrangian-based constrained reinforcement learning (CRL), we jointly update the policy and safety certificate parameters and prove that they will converge to their respective local optima, the optimal safe policy and a valid safety certificate. We evaluate our algorithms on multiple safety-critical benchmark environments. The results show that the proposed algorithm learns provably safe policies with no constraint violation. The validity or feasibility of synthesized safety certificate is also verified numerically.
翻訳日:2021-11-16 14:06:17 公開日:2021-11-15
# 局所モジュール構成による連続学習

Continual Learning via Local Module Composition ( http://arxiv.org/abs/2111.07736v1 )

ライセンス: Link先を確認
Oleksiy Ostapenko, Pau Rodriguez, Massimo Caccia, Laurent Charlin(参考訳) モジュール性は、関連するタスクのシーケンスをモデル化する問題である継続学習(CL)の魅力的なソリューションである。 異なるタスクを解くためのモジュールの学習と構成は、破滅的な忘れ込み、タスク間の後方および前方移動、サブ線形モデルの成長など、CLの主要な課題に対処するための抽象化を提供する。 我々は,各モジュールが入力に対するモジュールの関連性を推定する局所構造コンポーネントを提供するモジュール化clへのアプローチであるlocal module composition (lmc)を導入する。 動的モジュール構成は、局所的関連性スコアに基づいて階層的に行われる。 タスクid(task identity, ids)に対する不可知性は,従来の作業と異なりモジュール固有である(ローカルな)構造学習から生じていることを実証し,lmcを以前の作業よりもcl設定に適応させる。 さらに、LCCは入力分布に関する統計も追跡し、外れ値サンプルが検出されたときに新しいモジュールを追加する。 最初の実験では、lmcはタスクのアイデンティティを必要とせず、最近の連続的トランスファーラーニングベンチマークの既存の手法と比較した。 別の研究では、構造学習の局所性により、LCCは関連するが目に見えないタスク(OOD)に補間できるだけでなく、異なるタスクシーケンスで独立に訓練されたモジュールネットワークを微調整なしで第3のモジュールネットワークに構成できることを示した。 最後に, LMC の限界探索において, 30 タスクと 100 タスクのより困難なシーケンスについて検討し, 多数の候補モジュールが存在する場合, 局所的なモジュール選択がより困難になることを示す。 この設定で最高のパフォーマンスのlmcは、oracleベースのベースラインよりもはるかに少ないモジュールを生み出すが、全体的な精度は低い。 コードベースはhttps://github.com/o leksost/LMCで公開されている。

Modularity is a compelling solution to continual learning (CL), the problem of modeling sequences of related tasks. Learning and then composing modules to solve different tasks provides an abstraction to address the principal challenges of CL including catastrophic forgetting, backward and forward transfer across tasks, and sub-linear model growth. We introduce local module composition (LMC), an approach to modular CL where each module is provided a local structural component that estimates a module's relevance to the input. Dynamic module composition is performed layer-wise based on local relevance scores. We demonstrate that agnosticity to task identities (IDs) arises from (local) structural learning that is module-specific as opposed to the task- and/or model-specific as in previous works, making LMC applicable to more CL settings compared to previous works. In addition, LMC also tracks statistics about the input distribution and adds new modules when outlier samples are detected. In the first set of experiments, LMC performs favorably compared to existing methods on the recent Continual Transfer-learning Benchmark without requiring task identities. In another study, we show that the locality of structural learning allows LMC to interpolate to related but unseen tasks (OOD), as well as to compose modular networks trained independently on different task sequences into a third modular network without any fine-tuning. Finally, in search for limitations of LMC we study it on more challenging sequences of 30 and 100 tasks, demonstrating that local module selection becomes much more challenging in presence of a large number of candidate modules. In this setting best performing LMC spawns much fewer modules compared to an oracle based baseline, however, it reaches a lower overall accuracy. The codebase is available under https://github.com/o leksost/LMC.
翻訳日:2021-11-16 14:05:51 公開日:2021-11-15
# エンド・ツー・エンド剛性タンパク質ドッキングの独立se(3)同変モデル

Independent SE(3)-Equivariant Models for End-to-End Rigid Protein Docking ( http://arxiv.org/abs/2111.07786v1 )

ライセンス: Link先を確認
Octavian-Eugen Ganea, Xinyuan Huang, Charlotte Bunne, Yatao Bian, Regina Barzilay, Tommi Jaakkola, Andreas Krause(参考訳) タンパク質複合体の形成は生物学の中心的な問題であり、細胞の過程の大部分に関与し、薬物設計やタンパク質工学などの応用に必須である。 我々は剛体タンパク質ドッキング、すなわちタンパク質-タンパク質複合体の3次元構造を個々の非有界構造から計算的に予測し、結合中にタンパク質のコンフォメーション変化が起こらないと仮定する。 本研究では, タンパク質の回転と翻訳を予測し, タンパク質の一方を第2のタンパク質に対してドッキングした位置に配置するために, ペアワイズ非独立なSE(3)-等変グラフマッチングネットワークを設計する。 予測された複素数は、2つの構造の初期位置や配向に関係なく常に同一である。 我々のモデルはequidockと呼ばれ,結合ポケットを近似し,最適な移動と微分可能なkabschアルゴリズムによって達成されたキーポイントマッチングとアライメントを用いてドッキングポーズを予測する。 経験上、私たちは実行時間を大幅に改善し、ヘビーなサンプリングや構造の改良、テンプレートに依存することなく、既存のドッキングソフトウェアを上回っています。

Protein complex formation is a central problem in biology, being involved in most of the cell's processes, and essential for applications, e.g. drug design or protein engineering. We tackle rigid body protein-protein docking, i.e., computationally predicting the 3D structure of a protein-protein complex from the individual unbound structures, assuming no conformational change within the proteins happens during binding. We design a novel pairwise-independent SE(3)-equivariant graph matching network to predict the rotation and translation to place one of the proteins at the right docked position relative to the second protein. We mathematically guarantee a basic principle: the predicted complex is always identical regardless of the initial locations and orientations of the two structures. Our model, named EquiDock, approximates the binding pockets and predicts the docking poses using keypoint matching and alignment, achieved through optimal transport and a differentiable Kabsch algorithm. Empirically, we achieve significant running time improvements and often outperform existing docking software despite not relying on heavy candidate sampling, structure refinement, or templates.
翻訳日:2021-11-16 14:05:20 公開日:2021-11-15
# (参考訳) オブジェクト分類を訓練したリカレントニューラルネットワークにおけるカテゴリ・orthogonal object features guide information processing [全文訳有]

Category-orthogonal object features guide information processing in recurrent neural networks trained for object categorization ( http://arxiv.org/abs/2111.07898v1 )

ライセンス: CC BY 4.0
Sushrut Thorat, Giacomo Aldegheri, Tim C. Kietzmann(参考訳) リカレントニューラルネットワーク(recurrent neural network、rnn)は、視覚オブジェクトの分類タスクにおいてフィードフォワードアーキテクチャよりも優れたパフォーマンスを示すことが示されている。 しかし、これらの条件における再帰的情報フローの正確な計算的役割についてはほとんど知られていない。 ここでは,反復を繰り返して対象の分類を補助変数(対象の位置,向き,スケール)の通信を通じて支援する仮説について,対象の分類を訓練したrnnをテストする。 診断に線形読み出しを用いると、次のようなことが分かる。 (a)全てのネットワーク層において、補助変数に関する情報は時間とともに増加する。 (b)この情報は、再生情報フローに実際に存在すること、及び (c)その操作はタスクパフォーマンスに大きな影響を及ぼす。 これらの観測により, カテゴリー-直交補助変数情報が繰り返し接続によって伝達されるという仮説が立証され, 散在環境におけるカテゴリ推論の最適化に利用されている。

Recurrent neural networks (RNNs) have been shown to perform better than feedforward architectures in visual object categorization tasks, especially in challenging conditions such as cluttered images. However, little is known about the exact computational role of recurrent information flow in these conditions. Here we test RNNs trained for object categorization on the hypothesis that recurrence iteratively aids object categorization via the communication of category-orthogonal auxiliary variables (the location, orientation, and scale of the object). Using diagnostic linear readouts, we find that: (a) information about auxiliary variables increases across time in all network layers, (b) this information is indeed present in the recurrent information flow, and (c) its manipulation significantly affects task performance. These observations confirm the hypothesis that category-orthogonal auxiliary variable information is conveyed through recurrent connectivity and is used to optimize category inference in cluttered environments.
翻訳日:2021-11-16 14:03:18 公開日:2021-11-15
# 臨床意思決定を支援するランタリー生産

Rationale production to support clinical decision-making ( http://arxiv.org/abs/2111.07611v1 )

ライセンス: Link先を確認
Niall Taylor, Lei Sha, Dan W Joyce, Thomas Lukasiewicz, Alejo Nevado-Holgado, Andrey Kormilitzin(参考訳) 臨床人工知能(AI)のためのニューラルネットワークの開発は、解釈可能性、透明性、パフォーマンスに依存している。 ブラックボックスニューラルネットワークを探索し、モデル出力の解釈可能な説明を導出する必要がある。 臨床的に重要な課題は、患者が近い将来入院し、効率的なトリアージを可能にする可能性を予測することである。 電子健康記録(EHR)の普及に伴い、自然言語処理(NLP)をEHRに含まれる臨床自由テキストに適用することに大きな関心が寄せられている。 本研究は,院内退院ノートを用いた院内退院予測のタスクに,その予測の抽出的根拠を生み出す現在の最先端モデルであるinfocalを適用する。 本稿では,InfoCal が生成する抽出合理性を,臨床テキストデータに基づいて事前学習した競合トランスフォーマーベースモデルと比較する。 臨床言語領域の専門知識と、パフォーマンスおよびその後の解釈性に重要な事前訓練を伴って、選択した解釈可能性または特徴重要度を持つモデルが、様々な結果をもたらすことがわかった。

The development of neural networks for clinical artificial intelligence (AI) is reliant on interpretability, transparency, and performance. The need to delve into the black-box neural network and derive interpretable explanations of model output is paramount. A task of high clinical importance is predicting the likelihood of a patient being readmitted to hospital in the near future to enable efficient triage. With the increasing adoption of electronic health records (EHRs), there is great interest in applications of natural language processing (NLP) to clinical free-text contained within EHRs. In this work, we apply InfoCal, the current state-of-the-art model that produces extractive rationales for its predictions, to the task of predicting hospital readmission using hospital discharge notes. We compare extractive rationales produced by InfoCal to competitive transformer-based models pretrained on clinical text data and for which the attention mechanism can be used for interpretation. We find each presented model with selected interpretability or feature importance methods yield varying results, with clinical language domain expertise and pretraining critical to performance and subsequent interpretability.
翻訳日:2021-11-16 13:51:44 公開日:2021-11-15
# 質問の類似性を計算するには:KBQAタスクの新しい方法

Calculating Question Similarity is Enough:A New Method for KBQA Tasks ( http://arxiv.org/abs/2111.07658v1 )

ライセンス: Link先を確認
Hanyu Zhao, Sha Yuan, Jiahong Leng, Xiang Pan and Guoqiang Wang(参考訳) Knowledge Base Question Answering (KBQA) は、自然言語の質問に外部知識ベースの助けを借りて答えることを目的としている。 中心となる考え方は、質問の背後にある内部知識と知識基盤の既知の3倍の関係を見つけることである。 KBQAタスクパイプラインには、エンティティ認識、関係抽出、エンティティリンクなど、いくつかのステップが含まれている。 このようなパイプライン方式は、任意の手順におけるエラーが必然的に最終予測に伝播することを意味する。 そこで本研究では,事前学習言語モデル (PLM) と知識グラフ (KG) を用いたコーパス生成-検索手法 (CGRM) を提案する。 まず,mT5モデルに基づいて,知識マスキング言語モデリングと質問生成という2つの新しい事前学習タスクを設計し,知識強化T5(kT5)モデルを得た。 第二に、知識グラフを一連のヒューリスティックな規則で前処理した後、kT5モデルは処理された三重項に基づいて自然言語QAペアを生成する。 最後に、合成データセットを検索することで、QAを直接解決する。 NLPCC-ICCPOL 2016 KBQAデータセット上で本手法を検証した結果,KBQAの性能は向上し,アウトストレートフォワード法は最先端技術と競合することがわかった。

Knowledge Base Question Answering (KBQA) aims to answer natural language questions with the help of an external knowledge base. The core idea is to find the link between the internal knowledge behind questions and known triples of the knowledge base. The KBQA task pipeline contains several steps, including entity recognition, relationship extraction, and entity linking. This kind of pipeline method means that errors in any procedure will inevitably propagate to the final prediction. In order to solve the above problem, this paper proposes a Corpus Generation - Retrieve Method (CGRM) with Pre-training Language Model (PLM) and Knowledge Graph (KG). Firstly, based on the mT5 model, we designed two new pre-training tasks: knowledge masked language modeling and question generation based on the paragraph to obtain the knowledge enhanced T5 (kT5) model. Secondly, after preprocessing triples of knowledge graph with a series of heuristic rules, the kT5 model generates natural language QA pairs based on processed triples. Finally, we directly solve the QA by retrieving the synthetic dataset. We test our method on NLPCC-ICCPOL 2016 KBQA dataset, and the results show that our framework improves the performance of KBQA and the out straight-forward method is competitive with the state-of-the-art.
翻訳日:2021-11-16 13:51:23 公開日:2021-11-15
# クリーンラベルを用いたNLPタスクのトリガーレスバックドアアタック

Triggerless Backdoor Attack for NLP Tasks with Clean Labels ( http://arxiv.org/abs/2111.07970v1 )

ライセンス: Link先を確認
Leilei Gan, Jiwei Li, Tianwei Zhang, Xiaoya Li, Yuxian Meng, Fei Wu, Shangwei Guo, Chun Fan(参考訳) バックドア攻撃はNLPモデルに新たな脅威をもたらす。 バックドア攻撃で有毒データを構築する標準的な戦略は、選択された文にトリガー(例:レアワード)を挿入し、元のラベルをターゲットラベルに変更することである。 この戦略は、トリガーとラベルの両方から容易に検出できる重大な欠陥を伴い、通常稀な単語であるトリガーインジェクションは、異常な自然言語表現をもたらすため、防衛モデルにより容易に検出でき、変更対象ラベルは、誤ってラベル付けされ、手動検査により容易に検出できる。 この問題に対処するため,本稿では,外部トリガを必要としないテキストバックドア攻撃を行うための新しい戦略を提案する。 提案された戦略の核となる考え方は、ラベルが正しいが、トレーニングセットと融合した場合にラベルの変更をテストできるクリーンラベルの例を構築することである。 そこで本研究では, 遺伝アルゴリズムに基づく文生成モデルを提案し, テキストデータの識別不能な特性に適応する。 大規模な実験では、提案された攻撃戦略は効果があるだけでなく、トリガーレスでクリーンなラベルが付けられた性質のために防御が難しいことが示されている。 我々の研究は、NLPでトリガーレス攻撃戦略を開発するための第一歩です。

Backdoor attacks pose a new threat to NLP models. A standard strategy to construct poisoned data in backdoor attacks is to insert triggers (e.g., rare words) into selected sentences and alter the original label to a target label. This strategy comes with a severe flaw of being easily detected from both the trigger and the label perspectives: the trigger injected, which is usually a rare word, leads to an abnormal natural language expression, and thus can be easily detected by a defense model; the changed target label leads the example to be mistakenly labeled and thus can be easily detected by manual inspections. To deal with this issue, in this paper, we propose a new strategy to perform textual backdoor attacks which do not require an external trigger, and the poisoned samples are correctly labeled. The core idea of the proposed strategy is to construct clean-labeled examples, whose labels are correct but can lead to test label changes when fused with the training set. To generate poisoned clean-labeled examples, we propose a sentence generation model based on the genetic algorithm to cater to the non-differentiable characteristic of text data. Extensive experiments demonstrate that the proposed attacking strategy is not only effective, but more importantly, hard to defend due to its triggerless and clean-labeled nature. Our work marks the first step towards developing triggerless attacking strategies in NLP.
翻訳日:2021-11-16 13:51:00 公開日:2021-11-15
# (参考訳) cramer-wold generatorを用いた連続学習のための目標層正規化 [全文訳有]

Target Layer Regularization for Continual Learning Using Cramer-Wold Generator ( http://arxiv.org/abs/2111.07928v1 )

ライセンス: CC BY 4.0
Marcin Mazur, {\L}ukasz Pustelnik, Szymon Knop, Patryk Pagacz, Przemys{\l}aw Spurek(参考訳) 本稿では,連続学習問題を解決するための効果的な正規化戦略(cw-talar)を提案する。 全タスクで共有されるニューラルネットワークのターゲット層上で定義される2つの確率分布と、出力データ表現をモデル化するcracker-woldジェネレータの単純なアーキテクチャとの間に、cracker-wold距離で表現されるペナライズ項を用いる。 我々の戦略は、新しいタスクを学習しながらターゲット層分布を保存するが、以前のタスクのデータセットを覚える必要はない。 我々は,CW-TaLaR法の競争性を実証する,いくつかの共通教師付きフレームワークを用いた実験を行った。

We propose an effective regularization strategy (CW-TaLaR) for solving continual learning problems. It uses a penalizing term expressed by the Cramer-Wold distance between two probability distributions defined on a target layer of an underlying neural network that is shared by all tasks, and the simple architecture of the Cramer-Wold generator for modeling output data representation. Our strategy preserves target layer distribution while learning a new task but does not require remembering previous tasks' datasets. We perform experiments involving several common supervised frameworks, which prove the competitiveness of the CW-TaLaR method in comparison to a few existing state-of-the-art continual learning models.
翻訳日:2021-11-16 13:48:48 公開日:2021-11-15
# シミュレーションにおける自己認識モデル学習のための最適戦略

Towards Optimal Strategies for Training Self-Driving Perception Models in Simulation ( http://arxiv.org/abs/2111.07971v1 )

ライセンス: Link先を確認
David Acuna, Jonah Philion, Sanja Fidler(参考訳) 自動運転は、大量の現実世界のデータを高精度にラベル付けする。 代替ソリューションは、大量のラベル付きデータを大量のコンテンツバリエーションで生成できる運転シミュレータを活用することを目指している。 しかし、合成データと実際のデータのドメインギャップは依然として残っており、以下の重要な疑問を提起している。 本稿では、ドメイン適応理論の最近の進歩の上に構築し、この観点から現実のギャップを最小化する手法を提案する。 主に、合成ドメインのみにおけるラベルの使用に焦点を当てます。 提案手法では,ニューラル不変表現を学習するための原則的手法と,シミュレータからデータをサンプリングする方法に関する理論的にインスパイアされた視点を導入する。 本手法は,ネットワークアーキテクチャやシミュレータの選択に依存しないため,実装が容易である。 我々は,オープンソースシミュレータ(carla)を用いたマルチセンサデータ(カメラ,lidar)を用いた鳥眼視車両セグメンテーションタスクのアプローチを紹介し,フレームワーク全体を実世界データセット(nuscenes)上で評価する。 最後に、運転シミュレータで訓練した場合、知覚ネットワークにどのような種類のバリエーション(例えば、気象条件、資産数、地図設計、色多様性)が重要かを示し、どのバリエーションをドメイン適応技術で補うことができるかを示す。

Autonomous driving relies on a huge volume of real-world data to be labeled to high precision. Alternative solutions seek to exploit driving simulators that can generate large amounts of labeled data with a plethora of content variations. However, the domain gap between the synthetic and real data remains, raising the following important question: What are the best ways to utilize a self-driving simulator for perception tasks? In this work, we build on top of recent advances in domain-adaptation theory, and from this perspective, propose ways to minimize the reality gap. We primarily focus on the use of labels in the synthetic domain alone. Our approach introduces both a principled way to learn neural-invariant representations and a theoretically inspired view on how to sample the data from the simulator. Our method is easy to implement in practice as it is agnostic of the network architecture and the choice of the simulator. We showcase our approach on the bird's-eye-view vehicle segmentation task with multi-sensor data (cameras, lidar) using an open-source simulator (CARLA), and evaluate the entire framework on a real-world dataset (nuScenes). Last but not least, we show what types of variations (e.g. weather conditions, number of assets, map design, and color diversity) matter to perception networks when trained with driving simulators, and which ones can be compensated for with our domain adaptation technique.
翻訳日:2021-11-16 13:37:05 公開日:2021-11-15
# (参考訳) より多くのデータを追加することは必ずしも役に立たない: PEGASUSとの医療会話要約に関する研究 [全文訳有]

Adding more data does not always help: A study in medical conversation summarization with PEGASUS ( http://arxiv.org/abs/2111.07564v1 )

ライセンス: CC BY 4.0
Varun Nair, Namit Katariya, Xavier Amatriain, Ilya Valmianski, Anitha Kannan(参考訳) 医療会話の要約は、患者と医師の相互作用中に収集された情報の収集に不可欠である。 要約された会話は、医師間の患者のハンドオフを促進し、将来のケアの一部として使用される。 しかし要約は、ドメインの専門知識を生み出すのに時間がかかります。 PEGASUSのような現代の訓練済みのNLPモデルは、人間の要約に代わる有効な代替品として登場し、多くの要約ベンチマークで最先端のパフォーマンスに達した。 しかし、多くのダウンストリームタスクは、十分なパフォーマンスを達成するために少なくとも中程度のサイズのデータセットを必要とする。 本研究は,(1)PEGASUSを用いた転帰学習医療会話要約におけるデータセットサイズの影響について検討し,(2)低データ体制における様々な反復的ラベリング戦略の評価を行った。 モデル性能はデータセットサイズの増加とともに飽和し,様々なアクティブラーニング戦略が評価した結果,単純なデータセットサイズの増加と同等のパフォーマンスを示すことがわかった。 また, 反復的擬似ラベル法は疑似ラベル法よりもわずかに劣っている。 私たちの研究は、低データレジーム技術を分類から医学的会話要約に翻訳する成功と課題を浮き彫りにし、この分野における今後の作業のガイドに役立てます。 関連コードは \url{https://github.com/c urai/curai-research/ tree/main/medical-su mmarization-ml4h-202 1}。

Medical conversation summarization is integral in capturing information gathered during interactions between patients and physicians. Summarized conversations are used to facilitate patient hand-offs between physicians, and as part of providing care in the future. Summaries, however, can be time-consuming to produce and require domain expertise. Modern pre-trained NLP models such as PEGASUS have emerged as capable alternatives to human summarization, reaching state-of-the-art performance on many summarization benchmarks. However, many downstream tasks still require at least moderately sized datasets to achieve satisfactory performance. In this work we (1) explore the effect of dataset size on transfer learning medical conversation summarization using PEGASUS and (2) evaluate various iterative labeling strategies in the low-data regime, following their success in the classification setting. We find that model performance saturates with increase in dataset size and that the various active-learning strategies evaluated all show equivalent performance consistent with simple dataset size increase. We also find that naive iterative pseudo-labeling is on-par or slightly worse than no pseudo-labeling. Our work sheds light on the successes and challenges of translating low-data regime techniques in classification to medical conversation summarization and helps guides future work in this space. Relevant code available at \url{https://github.com/c urai/curai-research/ tree/main/medical-su mmarization-ML4H-202 1}.
翻訳日:2021-11-16 13:33:41 公開日:2021-11-15
# LiT: Locked-image Text Tuningによるゼロショット転送

LiT: Zero-Shot Transfer with Locked-image Text Tuning ( http://arxiv.org/abs/2111.07991v1 )

ライセンス: Link先を確認
Xiaohua Zhai, Xiao Wang, Basil Mustafa, Andreas Steiner, Daniel Keysers, Alexander Kolesnikov, Lucas Beyer(参考訳) 本稿では,画像モデルとテキストモデルの整合を,事前学習の利点を生かしながら,コントラストトレーニングを用いた簡易なコントラストチューニング手法を提案する。 実験的な研究で、アンロックされたテキストモデルによる予め訓練された画像モデルが最もうまくいくことがわかった。 これは、新しいタスクのために、事前学習された画像モデルから良い表現を読み出すようにテキストモデルに教えるだけである。 LiTで調整されたモデルでは、画像分類や検索などの新しい視覚タスクへのゼロショット転送が可能となる。 提案したLiTチューニングは,複数の事前トレーニング手法(教師付きおよび教師なし)と,3つの異なる画像テキストデータセットを使用したさまざまなアーキテクチャ(ResNet, Vision Transformer, MLP-Mixer)で確実に動作する。 トランスフォーマーベースのViT-g/14モデルでは、LiTで調整されたモデルは、ImageNetテストセットで84.5%のゼロショット転送精度、挑戦的な配布外ObjectNetテストセットで81.1%を達成する。

This paper presents contrastive-tuning, a simple method employing contrastive training to align image and text models while still taking advantage of their pre-training. In our empirical study we find that locked pre-trained image models with unlocked text models work best. We call this instance of contrastive-tuning "Locked-image Text tuning" (LiT-tuning), which just teaches a text model to read out good representations from a pre-trained image model for new tasks. A LiT-tuned model gains the capability of zero-shot transfer to new vision tasks, such as image classification or retrieval. The proposed LiT-tuning is widely applicable; it works reliably with multiple pre-training methods (supervised and unsupervised) and across diverse architectures (ResNet, Vision Transformers and MLP-Mixer) using three different image-text datasets. With the transformer-based pre-trained ViT-g/14 model, the LiT-tuned model achieves 84.5% zero-shot transfer accuracy on the ImageNet test set, and 81.1% on the challenging out-of-distribution ObjectNet test set.
翻訳日:2021-11-16 13:23:23 公開日:2021-11-15
# 擬似時間点過程

Counterfactual Temporal Point Processes ( http://arxiv.org/abs/2111.07603v1 )

ライセンス: Link先を確認
Kimia Noorbakhsh and Manuel Gomez Rodriguez(参考訳) 時間的ポイントプロセスに基づく機械学習モデルは、連続した時間内の離散イベントを含む幅広いアプリケーションにおける最先端技術である。 しかし、これらのモデルには、対象とする介入を知らせるために使用されているため、反現実的な疑問に答える能力がない。 この作業では、このギャップを埋めることが目標です。 この目的のために,まずガムベル・マックス構造因果モデルに基づく時間的点過程の薄化因果モデルを開発した。 このモデルは望ましい反ファクト的単調性条件を満たすが、これはシンニング過程における反ファクト的力学を特定するのに十分である。 次に,与えられた強度関数を持つ時相点過程の観測実現を仮定し,上記の薄化因果モデルと重ね合わせ定理を用いて,与えられた代替強度関数の下での時相点過程の反実実現をシミュレートするサンプリングアルゴリズムを開発した。 人工的および実疫学的データを用いたシミュレーション実験により,本アルゴリズムが提案する対実的実現は,標的介入の促進に有用な洞察を与える可能性が示唆された。

Machine learning models based on temporal point processes are the state of the art in a wide variety of applications involving discrete events in continuous time. However, these models lack the ability to answer counterfactual questions, which are increasingly relevant as these models are being used to inform targeted interventions. In this work, our goal is to fill this gap. To this end, we first develop a causal model of thinning for temporal point processes that builds upon the Gumbel-Max structural causal model. This model satisfies a desirable counterfactual monotonicity condition, which is sufficient to identify counterfactual dynamics in the process of thinning. Then, given an observed realization of a temporal point process with a given intensity function, we develop a sampling algorithm that uses the above causal model of thinning and the superposition theorem to simulate counterfactual realizations of the temporal point process under a given alternative intensity function. Simulation experiments using synthetic and real epidemiological data show that the counterfactual realizations provided by our algorithm may give valuable insights to enhance targeted interventions.
翻訳日:2021-11-16 13:21:57 公開日:2021-11-15
# Entmaxの高速化

Speeding Up Entmax ( http://arxiv.org/abs/2111.06832v2 )

ライセンス: Link先を確認
Maxat Tezekbayev, Vassilina Nikoulina, Matthias Gall\'e, Zhenisbek Assylbekov(参考訳) Softmaxは、ロジットの正規化に関して、現代のニューラルネットワークにおける言語処理のデファクトスタンダードである。 しかし、単語内の各トークンが生成ステップ毎に選択される確率がゼロではない確率分布を生成することにより、テキスト生成における様々な問題が発生する。 $\alpha$-entmax of Peters et al. (2019, arXiv: 1905.05702) はこの問題を解くが、ソフトマックスよりもかなり遅い。 本稿では,ソフトマックスを最適化し,機械翻訳タスクにおいて同等以上の性能を達成し,その頑健な特性を保った$\alpha$-entmaxの代替案を提案する。

Softmax is the de facto standard in modern neural networks for language processing when it comes to normalizing logits. However, by producing a dense probability distribution each token in the vocabulary has a nonzero chance of being selected at each generation step, leading to a variety of reported problems in text generation. $\alpha$-entmax of Peters et al. (2019, arXiv:1905.05702) solves this problem, but is considerably slower than softmax. In this paper, we propose an alternative to $\alpha$-entmax, which keeps its virtuous characteristics, but is as fast as optimized softmax and achieves on par or better performance in machine translation task.
翻訳日:2021-11-16 11:44:36 公開日:2021-11-15