このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220211となっている論文です。

PDF登録状況(公開日: 20220211)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 乱流モデル不確かさ定量化のための固有空間摂動法の深層学習 [全文訳有]

Deep Learning to advance the Eigenspace Perturbation Method for Turbulence Model Uncertainty Quantification ( http://arxiv.org/abs/2202.12378v1 )

ライセンス: CC BY 4.0
Khashayar Nobarani, Seyed Esmaeil Razavi(参考訳) Reynolds Averaged Navier Stokes (RANS)モデルは乱流シミュレーションにおいて最も一般的なモデルである。 レイノルズ応力テンソルを計算し、エンジニアリングフローに対して堅牢な結果を与えるために用いられる。 しかし、runsモデル予測には大きな誤差と不確実性がある。 過去には、データの正確性を高めるためにデータ駆動方式を使うことに向けた作業があった。 本研究では,固有空間摂動法を用いて乱流モデル予測の不確実性を予測する機械学習手法の概要を示す。 我々は、トレーニングニューラルネットワークを用いて、レイノルズ応力楕円体を予測したRANSの形状の相違を予測する。 本研究では, 乱流にモデルを適用し, 直接数値シミュレーション (dns) や大規模渦シミュレーション (les) , 過去の実験結果と比較し, モデル誤差が発生する領域を正しく同定する方法を実証する。

The Reynolds Averaged Navier Stokes (RANS) models are the most common form of model in turbulence simulations. They are used to calculate Reynolds stress tensor and give robust results for engineering flows. But RANS model predictions have large error and uncertainty. In past, there has been some work towards using data-driven methods to increase their accuracy. In this work we outline a machine learning approach to aid the use of the Eigenspace Perturbation Method to predict the uncertainty in the turbulence model prediction. We use a trained neural network to predict the discrepancy in the shape of the RANS predicted Reynolds stress ellipsoid. We apply the model to a number of turbulent flows and demonstrate how the approach correctly identifies the regions in which modeling errors occur when compared to direct numerical simulation (DNS), large eddy simulation (LES) or experimental results from previous works.
翻訳日:2022-03-06 15:17:12 公開日:2022-02-11
# 負のステートメントを持つRDFSのための最小デダクティブシステム

A Minimal Deductive System for RDFS with Negative Statements ( http://arxiv.org/abs/2202.13750v1 )

ライセンス: Link先を確認
Umberto Straccia and Giovanni Casini(参考訳) 三重言語RDFSは、emph{ positive}文のみを表現し、推論するために設計されている(例:antipyretics is drug)。 本稿では,Open World Assumption (OWA)の下でRDFSを拡張して,様々な否定文を表現・推論する方法を示す。 そのために、RDFSのすべての重要な特徴をカバーする最小限のRDFSフラグメントである$\rho df$から始まり、それを$\rho df_\bot^\neg$に拡張し、"ラジオ療法は非薬物治療である"、"エボラには治療がない"、"オピオイドと解熱薬は非結合クラスである"といった表現も可能にする。 私たちの知る限りでは、私たちの提案のユニークな特徴は次のとおりです。 (i)$\rho df_\bot^\neg$ は、特定の意味を持つ新しい記号で$\rho df$を拡張することにより、構文上は三重言語であり、負の三重項を表すために再定義法に戻す必要はない。 (ii) 論理は、追加の機能を考慮していない場合、任意のrdfs推論/ストアが新たな述語を通常の用語として扱うことができるように定義されている。 (iii)否定された言明にもかかわらず、すべての$\rho df_\bot^\neg$ 知識ベースは満足できる。 (iv)$\rho df_\bot^\neg$ Entailment decision procedureは、潜在的な実装を好む追加の推論規則を介して$\rho df$から得られる。 (v)$\rho df_\bot^\neg$の細部の決定は p から np までである。

The triple language RDFS is designed to represent and reason with \emph{positive} statements only (e.g."antipyretics are drugs"). In this paper we show how to extend RDFS to express and reason with various forms of negative statements under the Open World Assumption (OWA). To do so, we start from $\rho df$, a minimal, but significant RDFS fragment that covers all essential features of RDFS, and then extend it to $\rho df_\bot^\neg$, allowing express also statements such as "radio therapies are non drug treatments", "Ebola has no treatment", or "opioids and antipyretics are disjoint classes". The main and, to the best of our knowledge, unique features of our proposal are: (i) $\rho df_\bot^\neg$ remains syntactically a triple language by extending $\rho df$ with new symbols with specific semantics and there is no need to revert to the reification method to represent negative triples; (ii) the logic is defined in such a way that any RDFS reasoner/store may handle the new predicates as ordinary terms if it does not want to take account of the extra capabilities; (iii) despite negated statements, every $\rho df_\bot^\neg$ knowledge base is satisfiable; (iv) the $\rho df_\bot^\neg$ entailment decision procedure is obtained from $\rho df$ via additional inference rules favouring a potential implementation; and (v) deciding entailment in $\rho df_\bot^\neg$ ranges from P to NP.
翻訳日:2022-03-06 13:11:31 公開日:2022-02-11
# 長期記憶ネットワークを用いた安静時fMRIデータを用いたパーキンソン病の早期病期解析

Early Disease Stage Characterization in Parkinson's Disease from Resting-state fMRI Data Using a Long Short-term Memory Network ( http://arxiv.org/abs/2202.12715v1 )

ライセンス: Link先を確認
Xueqi Guo, Sule Tinaz, Nicha C. Dvornek(参考訳) パーキンソン病(英: Parkinson's disease、PD)は、ホーン病とイェール病の5段階の神経変性疾患である。 PDの不均一性を考えると、早期ステージ1と2を分類し、脳機能の変化を検出することは困難である。 機能的磁気共鳴イメージング(fMRI)は、機能的接続性(FC)の違いを明らかにし、PDでバイオマーカーを開発する上で有望なツールである。 サポートベクターマシンやロジスティック回帰といった機械学習手法は、手動で選択した形態的特徴に基づいて分類器を上回り、fMRIデータを用いてPDの早期診断に成功している。 しかし,FC変化の早期評価は十分に研究されていない。 本稿では, fMRIデータの複雑さと非線形性を考慮して, PDの初期段階を特徴付ける長寿命メモリ(LSTM)ネットワークを提案する。 この研究は、パーキンソンの進歩マーカーイニシアチブ(ppmi)の84人の被験者(ステージ2では56人、ステージ1では28人)を対象に行われた。 繰り返し10倍の階層化クロスバリデーションでは、lstmモデルは従来の機械学習法よりも71.63%高い13.52%の精度に達し、他の機械学習分類器と比較してかなり優れた堅牢性と精度を示した。 学習したLSTMモデル重みをモデル予測に寄与する上位脳領域の選択に使用し,疾患ステージと運動障害による機能的変化を特徴付けるためのFC解析を行い,PDの脳機構についてより深い知見を得た。

Parkinson's disease (PD) is a common and complex neurodegenerative disorder with 5 stages in the Hoehn and Yahr scaling. Given the heterogeneity of PD, it is challenging to classify early stages 1 and 2 and detect brain function alterations. Functional magnetic resonance imaging (fMRI) is a promising tool in revealing functional connectivity (FC) differences and developing biomarkers in PD. Some machine learning approaches like support vector machine and logistic regression have been successfully applied in the early diagnosis of PD using fMRI data, which outperform classifiers based on manually selected morphological features. However, the early-stage characterization in FC changes has not been fully investigated. Given the complexity and non-linearity of fMRI data, we propose the use of a long short-term memory (LSTM) network to characterize the early stages of PD. The study included 84 subjects (56 in stage 2 and 28 in stage 1) from the Parkinson's Progression Markers Initiative (PPMI), the largest available public PD dataset. Under a repeated 10-fold stratified cross-validation, the LSTM model reached an accuracy of 71.63%, 13.52% higher than the best traditional machine learning method, indicating significantly better robustness and accuracy compared with other machine learning classifiers. We used the learned LSTM model weights to select the top brain regions that contributed to model prediction and performed FC analyses to characterize functional changes with disease stage and motor impairment to gain better insight into the brain mechanisms of PD.
翻訳日:2022-03-06 13:10:33 公開日:2022-02-11
# 内在的動機づけと自動カリキュラム学習による複雑タスクの学習

Robots Learn Increasingly Complex Tasks with Intrinsic Motivation and Automatic Curriculum Learning ( http://arxiv.org/abs/2202.10222v1 )

ライセンス: Link先を確認
Sao Mai Nguyen (Flowers, U2IS, IMT Atlantique - INFO, Lab-STICC_RAMBO), Nicolas Duminy (Lab-STICC_RAMBO, IMT Atlantique - INFO, UBS), Alexandre Manoury (IMT Atlantique - INFO, Lab-STICC_RAMBO), Dominique Duhaut (UBS, Lab-STICC_RAMBO), C\'edric Buche (ENIB)(参考訳) ロボットによるマルチタスク学習は、タスクの複雑さ、必要なアクションの複雑さ、トランスファー学習におけるタスク間の関係といった、ドメイン知識の課題を提起する。 このドメイン知識は、生涯学習の課題に対処するために学習できることを実証する。 特に、様々な複雑さのタスク間の階層構造は、単純なタスクから複合タスクへカリキュラムを推論する鍵となる。 本稿では,ロボットが様々な複雑性の複数の制御タスクを実現するために,非境界複雑性の動作列を学習するためのフレームワークを提案する。 我々の階層的な強化学習フレームワークであるSGIM-SAHTは、新しい研究の方向性を提供し、ロボットアームと移動ロボットに部分的な実装を統合する。 我々はロボットが複数の制御タスクをアクションのシーケンスにマッピングできるようにするための貢献について概説する:タスク依存の表現、タスク階層を学ぶ本質的動機づけのある探索、アクティブな模倣学習。 タスクの階層を学習しながら、まずどのタスクを探索するか、どのように知識を移すか、いつ、どのように模倣するかを決め、カリキュラムを推測する。

Multi-task learning by robots poses the challenge of the domain knowledge: complexity of tasks, complexity of the actions required, relationship between tasks for transfer learning. We demonstrate that this domain knowledge can be learned to address the challenges in life-long learning. Specifically, the hierarchy between tasks of various complexities is key to infer a curriculum from simple to composite tasks. We propose a framework for robots to learn sequences of actions of unbounded complexity in order to achieve multiple control tasks of various complexity. Our hierarchical reinforcement learning framework, named SGIM-SAHT, offers a new direction of research, and tries to unify partial implementations on robot arms and mobile robots. We outline our contributions to enable robots to map multiple control tasks to sequences of actions: representations of task dependencies, an intrinsically motivated exploration to learn task hierarchies, and active imitation learning. While learning the hierarchy of tasks, it infers its curriculum by deciding which tasks to explore first, how to transfer knowledge, and when, how and whom to imitate.
翻訳日:2022-02-27 17:38:34 公開日:2022-02-11
# ブラジル連邦政府官報における環境政策の変化の追跡

Tracking environmental policy changes in the Brazilian Federal Official Gazette ( http://arxiv.org/abs/2202.10221v1 )

ライセンス: Link先を確認
Fl\'avio Nakasato Ca\c{c}\~ao, Anna Helena Reali Costa, Natalie Unterstell, Liuca Yonaha, Taciana Stec and F\'abio Ishisaki(参考訳) エネルギーのほとんどは再生可能エネルギーからのものであるが、ブラジルはパリ協定に準拠するために保存が不可欠であるアマゾン熱帯雨林のようなバイオムの激しい農業と森林破壊のために、温室効果ガスの排出国として世界最大である。 それでも、ロビイや政治的方向に関わらず、全ての政府の法的行動はブラジル連邦公報(bfog、ポルトガル語:di\'ario oficial da uni\~ao)に毎日掲載されている。 しかし、当局から毎日何百もの法令が発せられる中、これらのプロセスを手作業で分析し、どれが深刻な環境の危険に晒されるかを見つけることは、非常に重荷となる。 本稿では,BFOGのすべてのデータを処理するために,自動化技術とドメインエキスパート知識を構築するための戦略を提案する。 また、ブラジルの環境政策に関する連邦政府の行動について、ドメインの専門家が注釈を付け、ポルトガル語で高度にキュレートされたデータセットであるGovernment Actions Trackerを提供している。 最後に、このデータセットのクラスフィケーションタスクにおいて、4つの異なるNLPモデルを構築し比較する。 我々の最良のモデルは、0.714 \pm 0.031$のF1スコアを達成した。 将来的には、人事監督の最小限で全公文書の質の高い追跡を拡大し、社会の政府の行動に対する意識を高めるために役立てるべきである。

Even though most of its energy generation comes from renewable sources, Brazil is one of the largest emitters of greenhouse gases in the world, due to intense farming and deforestation of biomes such as the Amazon Rainforest, whose preservation is essential for compliance with the Paris Agreement. Still, regardless of lobbies or prevailing political orientation, all government legal actions are published daily in the Brazilian Federal Official Gazette (BFOG, or "Di\'ario Oficial da Uni\~ao" in Portuguese). However, with hundreds of decrees issued every day by the authorities, it is absolutely burdensome to manually analyze all these processes and find out which ones can pose serious environmental hazards. In this paper, we present a strategy to compose automated techniques and domain expert knowledge to process all the data from the BFOG. We also provide the Government Actions Tracker, a highly curated dataset, in Portuguese, annotated by domain experts, on federal government acts about the Brazilian environmental policies. Finally, we build and compared four different NLP models on the classfication task in this dataset. Our best model achieved a F1-score of $0.714 \pm 0.031$. In the future, this system should serve to scale up the high-quality tracking of all oficial documents with a minimum of human supervision and contribute to increasing society's awareness of government actions.
翻訳日:2022-02-27 17:37:02 公開日:2022-02-11
# (参考訳) パラフレージング・マグリットの観察 [全文訳有]

Paraphrasing Magritte's Observation ( http://arxiv.org/abs/2202.08103v1 )

ライセンス: CC BY 4.0
Jesus Malo(参考訳) 人間の視覚システムのコントラスト感度は、特定の低レベルの視覚タスク(網膜ノイズや光学ぼかし除去など)から説明できるが、他のタスク(単純なボトルネック後の彩色適応や純粋な再構成など)からは説明できない。 この結論は、自然画像とは対照的にマンガのような画像を考えるなど、刺激統計の実質的な変化にも拘わらず保持されている(li et al. journal of vision, 2022, preprint arxiv:2103.00481)。 本稿では, (li et al., 2022) で使用される統計訓練と互換性のあるオリジナルマンガライク画像を生成する手法を提案する。 マグリット (Magritte, 1929) の古典的な観察の後、提案法によって生成された刺激は、明らかにそれらが表すものではない。 表現(提案手法による刺激)と現実(実際の対象)の明確な区別は、学術的、非営利の出版物において生成された刺激の使用に関する最終的な問題を回避する。

Contrast Sensitivity of the human visual system can be explained from certain low-level vision tasks (like retinal noise and optical blur removal), but not from others (like chromatic adaptation or pure reconstruction after simple bottlenecks). This conclusion still holds even under substantial change in stimulus statistics, as for instance considering cartoon-like images as opposed to natural images (Li et al. Journal of Vision, 2022, Preprint arXiv:2103.00481). In this note we present a method to generate original cartoon-like images compatible with the statistical training used in (Li et al., 2022). Following the classical observation in (Magritte, 1929), the stimuli generated by the proposed method certainly are not what they represent: Ceci n'est pas une pipe. The clear distinction between representation (the stimuli generated by the proposed method) and reality (the actual object) avoids eventual problems for the use of the generated stimuli in academic, non-profit, publications.
翻訳日:2022-02-20 16:29:08 公開日:2022-02-11
# (参考訳) モチーフトポロジーと報酬学習によるスパイクニューラルネットワークの効率的なマルチセンサー統合 [全文訳有]

Motif-topology and Reward-learning improved Spiking Neural Network for Efficient Multi-sensory Integration ( http://arxiv.org/abs/2202.06821v1 )

ライセンス: CC BY 4.0
Shuncheng Jia, Ruichen Zuo, Tielin Zhang, Hongxing Liu and Bo Xu(参考訳) ネットワークアーキテクチャと学習原則は、ニューラルネットワーク(ann)とスパイクニューラルネットワーク(snn)の複雑な機能を形成する上で鍵となる。 SNNは、動的スパイキングニューロン、機能的に指定されたアーキテクチャ、効率的な学習パラダイムなど、ANNよりも生物学的特徴を取り入れた新しい人工ネットワークであると考えられている。 本稿では,効率的なマルチ感覚統合のためのモティフトポロジーとリワード学習改善SNN(MR-SNN)を提案する。 MR-SNNには13種類の3ノードモチーフトポロジーが含まれており、これはまず独立した単感覚学習パラダイムから抽出され、その後多感覚分類のために統合される。 実験の結果,Motifsを用いない従来のSNNに比べて,MR-SNNの精度と強靭性を示した。 さらに,提案する報酬学習パラダイムは生物学的に有理であり,違和感と聴覚の知覚信号による認知的マクグルク効果をよりよく説明できる。

Network architectures and learning principles are key in forming complex functions in artificial neural networks (ANNs) and spiking neural networks (SNNs). SNNs are considered the new-generation artificial networks by incorporating more biological features than ANNs, including dynamic spiking neurons, functionally specified architectures, and efficient learning paradigms. In this paper, we propose a Motif-topology and Reward-learning improved SNN (MR-SNN) for efficient multi-sensory integration. MR-SNN contains 13 types of 3-node Motif topologies which are first extracted from independent single-sensory learning paradigms and then integrated for multi-sensory classification. The experimental results showed higher accuracy and stronger robustness of the proposed MR-SNN than other conventional SNNs without using Motifs. Furthermore, the proposed reward learning paradigm was biologically plausible and can better explain the cognitive McGurk effect caused by incongruent visual and auditory sensory signals.
翻訳日:2022-02-19 08:54:29 公開日:2022-02-11
# (参考訳) 見えない都市における交通予測のためのグラフベースU-Netモデル [全文訳有]

A Graph-based U-Net Model for Predicting Traffic in unseen Cities ( http://arxiv.org/abs/2202.06725v1 )

ライセンス: CC BY-SA 4.0
Luca Hermes, Barbara Hammer, Andrew Melnik, Riza Velioglu, Markus Vieth, Malte Schilling(参考訳) 正確な交通予測は、自動車の渋滞を減らすためのルート変更や、安定した流れを維持するために動的速度制限による交通規制など、交通管理を可能にする上で重要な要素である。 トラフィックデータの表現方法は、スピードやボリュームといったトラフィックの属性を可視化するヒートマップを時間的に変更する形で行われる。 近年のU-Netモデルでは、熱マップからのトラフィック予測においてSOTAの性能が示されている。 本稿では,U-Netアーキテクチャとグラフ層を組み合わせることで,Vanilla U-Netと比較して空間的一般化を改善した道路網を提案する。 特に,地理的トポロジに敏感な既存のグラフ操作を専門とし,グラフに適用可能なプールおよびアップサンプリング操作を一般化する。

Accurate traffic prediction is a key ingredient to enable traffic management like rerouting cars to reduce road congestion or regulating traffic via dynamic speed limits to maintain a steady flow. A way to represent traffic data is in the form of temporally changing heatmaps visualizing attributes of traffic, such as speed and volume. In recent works, U-Net models have shown SOTA performance on traffic forecasting from heatmaps. We propose to combine the U-Net architecture with graph layers which improves spatial generalization to unseen road networks compared to a Vanilla U-Net. In particular, we specialize existing graph operations to be sensitive to geographical topology and generalize pooling and upsampling operations to be applicable to graphs.
翻訳日:2022-02-19 08:45:04 公開日:2022-02-11
# (参考訳) ソーシャルメディアにおける感情表現のための画像とテキストの相補性について [全文訳有]

On the Complementarity of Images and Text for the Expression of Emotions in Social Media ( http://arxiv.org/abs/2202.07427v1 )

ライセンス: CC BY 4.0
Anna Khlyzova and Carina Silberer and Roman Klinger(参考訳) ソーシャルメディアにおける投稿の著者は、自分の感情と、それらがテキストや画像で何を引き起こすかを伝える。 各モダリティごとに感情や刺激を検出する研究があるが、ソーシャルメディアに相補的な感情情報が含まれているかどうかは不明だ。 我々は、この研究ギャップを埋め、英語のマルチモーダルReddit投稿の注釈付きコーパスを提供する。 本研究では,画像とテキストの関係,感情刺激カテゴリー,感情クラスを自動的に検出するモデルを開発した。 これらのタスクがモダリティと画像とテキストの関係の両方を必要としているかどうかを評価し、テキストだけでほとんどのカテゴリ(補完的、図示的、反対的)に十分であるかどうかを評価する。 怒りと悲しみの感情はマルチモーダルモデルによって最も予測されるが、テキストだけでは嫌悪感、喜び、驚きには十分である。 物体、動物、食べ物、人物によって描かれた刺激は画像のみのモデルによって最も予測され、マルチモーダルモデルは芸術、イベント、ミーム、場所、スクリーンショットにおいて最も効果的である。

Authors of posts in social media communicate their emotions and what causes them with text and images. While there is work on emotion and stimulus detection for each modality separately, it is yet unknown if the modalities contain complementary emotion information in social media. We aim at filling this research gap and contribute a novel, annotated corpus of English multimodal Reddit posts. On this resource, we develop models to automatically detect the relation between image and text, an emotion stimulus category and the emotion class. We evaluate if these tasks require both modalities and find for the image-text relations, that text alone is sufficient for most categories (complementary, illustrative, opposing): the information in the text allows to predict if an image is required for emotion understanding. The emotions of anger and sadness are best predicted with a multimodal model, while text alone is sufficient for disgust, joy, and surprise. Stimuli depicted by objects, animals, food, or a person are best predicted by image-only models, while multimodal models are most effective on art, events, memes, places, or screenshots.
翻訳日:2022-02-19 08:35:17 公開日:2022-02-11
# (参考訳) 代数関数に基づくバナッハ空間値の正規および分数ニューラルネットワーク近似

Algebraic function based Banach space valued ordinary and fractional neural network approximations ( http://arxiv.org/abs/2202.07425v1 )

ライセンス: CC BY 4.0
George A Anastassiou(参考訳) ここでは、半補間バナッハ空間値付きニューラルネットワーク演算子を用いて、コンパクト区間またはすべての実数直線上のバナッハ空間値連続関数の非定値な近似、正規および分数について研究する。 これらの近似は、係合関数の連続性のモジュラーや分数微分の高次導関数のバナッハ空間を含むジャクソン型不等式を確立することによって導かれる。 作用素は代数的シグモイド関数によって生成される密度関数を用いて定義される。 近似はポイントワイズであり、一様ノルムである。 関連するバナッハ空間値フィードフォワードニューラルネットワークは、1つの隠蔽層を持つ。

Here we research the univariate quantitative approximation, ordinary and fractional, of Banach space valued continuous functions on a compact interval or all the real line by quasi-interpolation Banach space valued neural network operators. These approximations are derived by establishing Jackson type inequalities involving the modulus of continuity of the engaged function or its Banach space valued high order derivative of fractional derivatives. Our operators are defined by using a density function generated by an algebraic sigmoid function. The approximations are pointwise and of the uniform norm. The related Banach space valued feed-forward neural networks are with one hidden layer.
翻訳日:2022-02-19 08:20:37 公開日:2022-02-11
# (参考訳) ニューラルネットワークによるフラックスロープ配向の同定 [全文訳有]

Identification of Flux Rope Orientation via Neural Networks ( http://arxiv.org/abs/2202.05901v1 )

ライセンス: CC BY 4.0
Thomas Narock, Ayris Narockm Luiz F. G. Dos Santos, Teresa Nieves-Chinchilla(参考訳) 地磁気外乱予測は、太陽風構造の同定と磁場配向の正確な決定に基づいている。 nowcastingのアクティビティでは、これは現在退屈で手作業によるプロセスです。 地磁気障害の主要因である惑星間コロナ質量放出(ICME)の内部磁場に着目し,着地した太陽風観測から着地した磁束ロープの向きを予測する畳み込みニューラルネットワーク(CNN)能力について検討した。 我々の研究は、解析的フラックスロープデータから磁場ベクトルを訓練したCNNを用いている。 シミュレーションされたフラックスロープは多くの可能な宇宙船軌道とフラックスロープの向きにまたがる。 まずCNNをフル持続フラックスロープで訓練し、次に部分持続フラックスロープで訓練する。 前者は、cnnがどうやって流束ロープの向きを予測できるかのベースラインを提供し、後者は観測された流束ロープの割合によってどの程度の精度が影響を受けるかを調べることによって、リアルタイム予測に対する洞察を提供します。 物理問題を機械学習問題としてキャスティングする過程と,フラックスロープのゆらぎやニューラルネットワークトポロジの違いといった予測精度に及ぼす要因の影響について考察した。 最後に,1995~2015年における風観測ICMEに対するトレーニングネットワークの評価結果について報告する。

Geomagnetic disturbance forecasting is based on the identification of solar wind structures and accurate determination of their magnetic field orientation. For nowcasting activities, this is currently a tedious and manual process. Focusing on the main driver of geomagnetic disturbances, the twisted internal magnetic field of interplanetary coronal mass ejections (ICMEs), we explore a convolutional neural network's (CNN) ability to predict the embedded magnetic flux rope's orientation once it has been identified from in situ solar wind observations. Our work uses CNNs trained with magnetic field vectors from analytical flux rope data. The simulated flux ropes span many possible spacecraft trajectories and flux rope orientations. We train CNNs first with full duration flux ropes and then again with partial duration flux ropes. The former provides us with a baseline of how well CNNs can predict flux rope orientation while the latter provides insights into real-time forecasting by exploring how accuracy is affected by percentage of flux rope observed. The process of casting the physics problem as a machine learning problem is discussed as well as the impacts of different factors on prediction accuracy such as flux rope fluctuations and different neural network topologies. Finally, results from evaluating the trained network against observed ICMEs from Wind during 1995-2015 are presented.
翻訳日:2022-02-19 08:19:36 公開日:2022-02-11
# (参考訳) 電力品質認識のための敵攻撃と防御方法 [全文訳有]

Adversarial Attacks and Defense Methods for Power Quality Recognition ( http://arxiv.org/abs/2202.07421v1 )

ライセンス: CC BY 4.0
Jiwei Tian and Buhong Wang and Jing Li and Zhen Wang and Mete Ozay(参考訳) 様々な機械学習手法の逆例への脆弱性が最近文献で研究されている。 これらの脆弱な手法を使用する電力システムは、敵の例に対する大きな脅威に直面します。 この目的のために,まず,生成した逆数例を用いて電力系統を攻撃するための信号固有法と普遍的信号非依存法を提案する。 転送可能特性に基づくブラックボックス攻撃も提案し,評価した。 そして、敵の攻撃からシステムを守るために敵の訓練を採用する。 実験解析により,本手法はfgsm(fast gradient sign method)に比べて摂動が少ないことを示し,信号非依存攻撃法では高確率で最も自然な信号を騙す摂動を生成できることを示した。 さらに、普遍的な信号認識アルゴリズムに基づく攻撃法は、信号固有アルゴリズムに基づく攻撃法よりも、ブラックボックス攻撃の転送率が高い。 さらに, 提案手法は, 電力系統のロバスト性を, 逆例よりも向上させることを示した。

Vulnerability of various machine learning methods to adversarial examples has been recently explored in the literature. Power systems which use these vulnerable methods face a huge threat against adversarial examples. To this end, we first propose a signal-specific method and a universal signal-agnostic method to attack power systems using generated adversarial examples. Black-box attacks based on transferable characteristics and the above two methods are also proposed and evaluated. We then adopt adversarial training to defend systems against adversarial attacks. Experimental analyses demonstrate that our signal-specific attack method provides less perturbation compared to the FGSM (Fast Gradient Sign Method), and our signal-agnostic attack method can generate perturbations fooling most natural signals with high probability. What's more, the attack method based on the universal signal-agnostic algorithm has a higher transfer rate of black-box attacks than the attack method based on the signal-specific algorithm. In addition, the results show that the proposed adversarial training improves robustness of power systems to adversarial examples.
翻訳日:2022-02-19 08:01:43 公開日:2022-02-11
# (参考訳) 生成制御のためのマルチレベル潜在空間構造化 [全文訳有]

Multi-level Latent Space Structuring for Generative Control ( http://arxiv.org/abs/2202.05910v1 )

ライセンス: CC BY 4.0
Oren Katzir, Vicky Perepelook, Dani Lischinski and Daniel Cohen-Or(参考訳) トランケーションは、生成したサンプルの品質を向上させるための生成モデルで広く使われ、多様性を低下させる。 本稿では、StyleGAN生成アーキテクチャを活用して、潜在空間をクラスタに分解し、複数の意味レベルでカスタマイズしたトランケーションを可能にする新しいトランケーション手法を提案する。 我々は、StyleGANの拡張中間潜時空間であるW-空間をガウスの学習可能な混合を用いて再生成することを学び、同時に分類器を訓練し、各潜時ベクトルに対して、それが属するクラスタを識別する。 結果として生じる切り離しスキームは、元の未熟なサンプルをより忠実にし、品質と多様性のトレードオフをより良くする。 本手法は, 質的および定量的にスタイルガンの他のトランザクション手法と比較する。

Truncation is widely used in generative models for improving the quality of the generated samples, at the expense of reducing their diversity. We propose to leverage the StyleGAN generative architecture to devise a new truncation technique, based on a decomposition of the latent space into clusters, enabling customized truncation to be performed at multiple semantic levels. We do so by learning to re-generate W-space, the extended intermediate latent space of StyleGAN, using a learnable mixture of Gaussians, while simultaneously training a classifier to identify, for each latent vector, the cluster that it belongs to. The resulting truncation scheme is more faithful to the original untruncated samples and allows a better trade-off between quality and diversity. We compare our method to other truncation approaches for StyleGAN, both qualitatively and quantitatively.
翻訳日:2022-02-19 07:41:39 公開日:2022-02-11
# (参考訳) ベーシックなロバスト学習者の育成 : 対人ロバスト性の新しい視点 [全文訳有]

Boosting Barely Robust Learners: A New Perspective on Adversarial Robustness ( http://arxiv.org/abs/2202.05920v1 )

ライセンス: CC BY 4.0
Avrim Blum, Omar Montasser, Greg Shakhnarovich, Hongyang Zhang(参考訳) 比較的頑健な学習者の対角的堅牢性を高めるためのオラクル効率のアルゴリズムを提案する。 比較的堅牢な学習アルゴリズムは、データ分布の小さな$\beta \ll 1$だけで逆向きに堅牢な予測子を学習する。 提案するロバスト学習の概念では,強固な学習には強固さが必要であり,強固な学習には弱緩和が不十分であることを示す「大きな」摂動集合に対する強固さが必要である。 その結果、一見無関係な2つの問題、すなわち強固な学習とほとんどロバストな学習の間の質的かつ定量的等価性が明らかになった。

We present an oracle-efficient algorithm for boosting the adversarial robustness of barely robust learners. Barely robust learning algorithms learn predictors that are adversarially robust only on a small fraction $\beta \ll 1$ of the data distribution. Our proposed notion of barely robust learning requires robustness with respect to a "larger" perturbation set; which we show is necessary for strongly robust learning, and that weaker relaxations are not sufficient for strongly robust learning. Our results reveal a qualitative and quantitative equivalence between two seemingly unrelated problems: strongly robust learning and barely robust learning.
翻訳日:2022-02-18 14:21:00 公開日:2022-02-11
# (参考訳) Deep Signatures -- 平面曲線の不変性を学ぶ [全文訳有]

Deep Signatures -- Learning Invariants of Planar Curves ( http://arxiv.org/abs/2202.05922v1 )

ライセンス: CC BY 4.0
Roy Velich, Ron Kimmel(参考訳) 平面曲線の微分不変量の数値近似のための学習パラダイムを提案する。 深層ニューラルネットワーク(DNN)の普遍近似特性を用いて幾何学的測度を推定する。 提案するフレームワークは, 公理的構成の代替として好適であることが示されている。 具体的には、DNNが不安定性を克服し、アーティファクトをサンプリングし、平面上の所定の変換群に従う曲線の数値安定シグネチャを生成することができることを示す。 提案するスキームを,群不変弧長と曲率の交互な漸近的構成と比較する。

We propose a learning paradigm for numerical approximation of differential invariants of planar curves. Deep neural-networks' ; (DNNs) universal approximation properties are utilized to estimate geometric measures. The proposed framework is shown to be a preferable alternative to axiomatic constructions. Specifically, we show that DNNs can learn to overcome instabilities and sampling artifacts and produce numerically-stable signatures for curves subject to a given group of transformations in the plane. We compare the proposed schemes to alternative state-of-the-art axiomatic constructions of group invariant arc-lengths and curvatures.
翻訳日:2022-02-18 13:25:53 公開日:2022-02-11
# (参考訳) 機械学習の3つの時代にわたる計算トレンド [全文訳有]

Compute Trends Across Three Eras of Machine Learning ( http://arxiv.org/abs/2202.05924v1 )

ライセンス: CC BY 4.0
Jaime Sevilla, Lennart Heim, Anson Ho, Tamay Besiroglu, Marius Hobbhahn and Pablo Villalobos(参考訳) 計算、データ、アルゴリズムの進歩は、現代の機械学習(ML)の進歩を導く3つの基本的な要素である。 本稿では,最も容易に定量化できる因子である計算の傾向について検討する。 2010年以前、トレーニング計算はムーアの法則に従って成長し、およそ20ヶ月毎に倍増した。 2010年代初頭のディープラーニングの出現以来、トレーニング計算のスケーリングは加速し、約6ヶ月毎に倍増している。 2015年末、企業が10倍から100倍のトレーニング計算要件を持つ大規模mlモデルを開発したことで、新たなトレンドが浮上した。 これらの観測に基づいて,MLにおける計算の歴史を,事前学習時代,深層学習時代,大規模学習時代という3つの時代に分けた。 全体として、我々の研究は、高度なMLシステムのトレーニングにおいて急速に成長する計算要件を強調している。

Compute, data, and algorithmic advances are the three fundamental factors that guide the progress of modern Machine Learning (ML). In this paper we study trends in the most readily quantified factor - compute. We show that before 2010 training compute grew in line with Moore's law, doubling roughly every 20 months. Since the advent of Deep Learning in the early 2010s, the scaling of training compute has accelerated, doubling approximately every 6 months. In late 2015, a new trend emerged as firms developed large-scale ML models with 10 to 100-fold larger requirements in training compute. Based on these observations we split the history of compute in ML into three eras: the Pre Deep Learning Era, the Deep Learning Era and the Large-Scale Era. Overall, our work highlights the fast-growing compute requirements for training advanced ML systems.
翻訳日:2022-02-18 13:10:45 公開日:2022-02-11
# (参考訳) context cuesを用いたコンテキスト外オブジェクトの検出 [全文訳有]

Detecting out-of-context objects using contextual cues ( http://arxiv.org/abs/2202.05930v1 )

ライセンス: CC BY 4.0
Manoj Acharya, Anirban Roy, Kaushik Koneripalli, Susmit Jha, Christopher Kanan, Ajay Divakaran(参考訳) 本稿では,画像中のOOC(out-of-context)オブジェクトを検出する手法を提案する。 オブジェクトの集合を持つ画像が与えられた場合、オブジェクトがシーンコンテキストと矛盾しているかどうかを判断し、境界ボックスでOOCオブジェクトを検出することが目的です。 本研究では,共起関係,他の対象に対する対象の相対的大きさ,場面における対象の位置などの文脈的関係について考察する。 文脈的手がかりは文脈内オブジェクトのオブジェクトラベルを決定するのに役立ち、一貫性のないコンテキスト的手がかりは文脈外オブジェクトのオブジェクトラベルを決定するのに役立ちます。 この仮説を実現するために,OOCオブジェクトを検出するグラフコンテキスト推論ネットワーク(GCRN)を提案する。 GCRNは2つの別々のグラフで構成され、画像の文脈的手がかりに基づいてオブジェクトラベルを予測する。 1)隣接するオブジェクトに基づいてオブジェクトの特徴を学習する表現グラフ 2) 隣接するオブジェクトからコンテキストキューを明示的にキャプチャするコンテキストグラフ。 GCRNはコンテキストキューを明示的にキャプチャして、コンテキスト内オブジェクトの検出を改善し、コンテキスト関係に違反するオブジェクトを識別する。 このアプローチを評価するため,COCO画像にOOCオブジェクトインスタンスを追加することで,大規模データセットを作成する。 また,最近のOCDベンチマークについても検討した。 以上の結果から,GCRNはOOCオブジェクトの検出やコンテキスト内オブジェクトの正確な検出において,競合ベースラインよりも優れていた。

This paper presents an approach to detect out-of-context (OOC) objects in an image. Given an image with a set of objects, our goal is to determine if an object is inconsistent with the scene context and detect the OOC object with a bounding box. In this work, we consider commonly explored contextual relations such as co-occurrence relations, the relative size of an object with respect to other objects, and the position of the object in the scene. We posit that contextual cues are useful to determine object labels for in-context objects and inconsistent context cues are detrimental to determining object labels for out-of-context objects. To realize this hypothesis, we propose a graph contextual reasoning network (GCRN) to detect OOC objects. GCRN consists of two separate graphs to predict object labels based on the contextual cues in the image: 1) a representation graph to learn object features based on the neighboring objects and 2) a context graph to explicitly capture contextual cues from the neighboring objects. GCRN explicitly captures the contextual cues to improve the detection of in-context objects and identify objects that violate contextual relations. In order to evaluate our approach, we create a large-scale dataset by adding OOC object instances to the COCO images. We also evaluate on recent OCD benchmark. Our results show that GCRN outperforms competitive baselines in detecting OOC objects and correctly detecting in-context objects.
翻訳日:2022-02-18 12:23:55 公開日:2022-02-11
# Calibated Pseudo Label を用いた説明可能なCOVID-19感染の同定と記述

Explainable COVID-19 Infections Identification and Delineation Using Calibrated Pseudo Labels ( http://arxiv.org/abs/2202.07422v1 )

ライセンス: Link先を確認
Ming Li, Yingying Fang, Zeyu Tang, Chibudom Onuorah, Jun Xia, Javier Del Ser, Simon Walsh, Guang Yang(参考訳) 新型コロナウイルス(COVID-19)の流行は、過去2年間で新たな課題をもたらし続けている。 この新型コロナウイルスのパンデミックの間、CT(Computed tomography)画像において、感染患者の迅速同定と感染部位の特定が求められている。 深層学習法は急速に確立されているが、画像レベルと画素レベルのラベルの不足、説明可能な透明性の欠如は、AIの適用性を妨げている。 感染患者を特定でき、極端に最小限の監督で感染を抑えることができるか? 半教師付き学習(SSL)は、ラベル付きデータと十分な未ラベルデータの下で、有望なパフォーマンスを示す。 sslに触発されて,モデル非依存のキャリブレーションされた擬似ラベル戦略を提案し,それを一貫性規則化フレームワークで適用し,説明可能な識別と区切り結果を生成する。 限定されたラベル付きデータと十分なラベル付きデータ、あるいは弱いラベル付きデータを組み合わせたモデルの有効性を示す。 広範囲な実験により,本モデルでは,限られたラベル付きデータを効率的に活用し,臨床経過における意思決定のための分類とセグメンテーション結果を提供することができた。

The upheaval brought by the arrival of the COVID-19 pandemic has continued to bring fresh challenges over the past two years. During this COVID-19 pandemic, there has been a need for rapid identification of infected patients and specific delineation of infection areas in computed tomography (CT) images. Although deep supervised learning methods have been established quickly, the scarcity of both image-level and pixellevel labels as well as the lack of explainable transparency still hinder the applicability of AI. Can we identify infected patients and delineate the infections with extreme minimal supervision? Semi-supervised learning (SSL) has demonstrated promising performance under limited labelled data and sufficient unlabelled data. Inspired by SSL, we propose a model-agnostic calibrated pseudo-labelling strategy and apply it under a consistency regularization framework to generate explainable identification and delineation results. We demonstrate the effectiveness of our model with the combination of limited labelled data and sufficient unlabelled data or weakly-labelled data. Extensive experiments have shown that our model can efficiently utilize limited labelled data and provide explainable classification and segmentation results for decision-making in clinical routine.
翻訳日:2022-02-16 14:19:59 公開日:2022-02-11
# モンテカルロ樹探索における価値バックアップと探索の統一的視点

A Unified Perspective on Value Backup and Exploration in Monte-Carlo Tree Search ( http://arxiv.org/abs/2202.07071v1 )

ライセンス: Link先を確認
Tuan Dam, Carlo D'Eramo, Jan Peters, Joni Pajarinen(参考訳) モンテカルロ木探索(MCTS)は、モンテカルロ計画と強化学習(RL)の相乗効果によって複雑な意思決定問題を解決する手法のクラスである。 MCTSが対処する問題の高度に組み合わせた性質には、計画木をナビゲートするための効率的な探索戦略と、迅速に収束した値バックアップ手法が必要とされる。 これらの重要な問題は、MCTSと関数近似のためのディープニューラルネットワークを組み合わせた最近の進歩で特に顕著である。 本研究では,新たに導入されたバックアップ演算子とエントロピー正規化に基づく収束率と探索の2つの手法を提案する。 我々は、収束率、近似誤差、および手法の後悔に対する強力な理論的保証を提供する。 さらに,MCTSのバックアップと探索に$\alpha$-divergenceを使用する数学的枠組みを導入する。 この理論的な定式化は、新しく導入されたものを含む異なるアプローチを同じ数学的枠組みで統一し、単に$\alpha$の値を変更することによって異なる方法を得ることができることを示す。 実際には、我々の統一的な視点は、目の前の問題に応じて$\alpha$パラメータをチューニングすることで、探索と搾取のバランスをとる柔軟な方法を提供します。 我々は,基本的な玩具問題から複雑なアタリゲームまで,MDPとPOMDPの両問題を含む厳密な実証研究を通じて本手法を検証する。

Monte-Carlo Tree Search (MCTS) is a class of methods for solving complex decision-making problems through the synergy of Monte-Carlo planning and Reinforcement Learning (RL). The highly combinatorial nature of the problems commonly addressed by MCTS requires the use of efficient exploration strategies for navigating the planning tree and quickly convergent value backup methods. These crucial problems are particularly evident in recent advances that combine MCTS with deep neural networks for function approximation. In this work, we propose two methods for improving the convergence rate and exploration based on a newly introduced backup operator and entropy regularization. We provide strong theoretical guarantees to bound convergence rate, approximation error, and regret of our methods. Moreover, we introduce a mathematical framework based on the use of the $\alpha$-divergence for backup and exploration in MCTS. We show that this theoretical formulation unifies different approaches, including our newly introduced ones, under the same mathematical framework, allowing to obtain different methods by simply changing the value of $\alpha$. In practice, our unified perspective offers a flexible way to balance between exploration and exploitation by tuning the single $\alpha$ parameter according to the problem at hand. We validate our methods through a rigorous empirical study from basic toy problems to the complex Atari games, and including both MDP and POMDP problems.
翻訳日:2022-02-16 13:57:50 公開日:2022-02-11
# ハイパーグラフの相関テストのための統計的限界

Statistical Limits for Testing Correlation of Hypergraphs ( http://arxiv.org/abs/2202.05888v1 )

ライセンス: Link先を確認
Mingao Yuan, Zuofeng Shang(参考訳) 本稿では,n$非ラベルノード上の2つの$m$-uniformハイパーグラフ間の相関の仮説検証について検討する。 ヌル仮説の下では、ハイパーグラフは独立であるが、別の仮説では、ハイパーッジはヌル仮説と同じ限界分布を持つが、未知のノード置換後に相関する。 ハイパーグラフはガウス・ウィグナーモデルと密度の強い Erd\"{o}s-R\'{e}nyi モデルから生成される。 鋭い情報理論テストしきい値を導出する。 しきい値の上には、代替仮説とヌル仮説を区別する強力なテストが存在する。 しきい値の下には、代替仮説とヌル仮説は区別できない。 しきい値は$m$で、$m$が大きくなるにつれて減少する。 これは、グラフの相関テストよりハイパーグラフの相関テストが容易になることを示している(m=2$)。

In this paper, we consider the hypothesis testing of correlation between two $m$-uniform hypergraphs on $n$ unlabelled nodes. Under the null hypothesis, the hypergraphs are independent, while under the alternative hypothesis, the hyperdges have the same marginal distributions as in the null hypothesis but are correlated after some unknown node permutation. We focus on two scenarios: the hypergraphs are generated from the Gaussian-Wigner model and the dense Erd\"{o}s-R\'{e}nyi model. We derive the sharp information-theoreti c testing threshold. Above the threshold, there exists a powerful test to distinguish the alternative hypothesis from the null hypothesis. Below the threshold, the alternative hypothesis and the null hypothesis are not distinguishable. The threshold involves $m$ and decreases as $m$ gets larger. This indicates testing correlation of hypergraphs ($m\geq3$) becomes easier than testing correlation of graphs ($m=2$)
翻訳日:2022-02-15 17:42:55 公開日:2022-02-11
# 生成逆ネットワークによる画像認識エッジキャッシュの改善

Improving Image-recognition Edge Caches with a Generative Adversarial Network ( http://arxiv.org/abs/2202.05929v1 )

ライセンス: Link先を確認
Guilherme B. Souza, Roberto G. Pacheco, Rodrigo S. Couto(参考訳) 画像認識は、いくつかのモバイルアプリケーションにおいて重要なタスクである。 例えば、スマートフォンはランドマーク写真を処理して、位置情報を収集することができる。 デバイスに十分な計算リソースがない場合、処理タスクをクラウドインフラストラクチャにオフロードする。 このアプローチはリソース不足を解消するが、通信遅延が生じる。 インターネットのエッジにある画像認識キャッシュはこの問題を軽減することができる。 これらのキャッシュはモバイルデバイスに近いサーバ上で動作し、以前に認識された画像に関する情報を格納する。 サーバがキャッシュに格納された写真でリクエストを受信すると、デバイスに応答し、クラウドのオフロードを回避する。 このキャッシュの主な課題は、受信した画像が保存された画像と一致するかどうかを検証することである。 また、屋外写真の場合、夜間に撮影されたものと夜間に撮影されたものとを比較することは困難である。 その場合、キャッシュは異なる場所を参照していると誤って推測し、処理をクラウドにオフロードする。 この研究は、ToDayGANと呼ばれるよく知られた生成的敵ネットワークが、夜間画像から昼間画像を生成することでこの問題を解決できることを示す。 したがって、この翻訳を使って、画像マッチングに役立つ合成写真のキャッシュを配置することができる。 私たちのソリューションはクラウドのオフロードを減らし、アプリケーションの遅延を減らします。

Image recognition is an essential task in several mobile applications. For instance, a smartphone can process a landmark photo to gather more information about its location. If the device does not have enough computational resources available, it offloads the processing task to a cloud infrastructure. Although this approach solves resource shortages, it introduces a communication delay. Image-recognition caches on the Internet's edge can mitigate this problem. These caches run on servers close to mobile devices and stores information about previously recognized images. If the server receives a request with a photo stored in its cache, it replies to the device, avoiding cloud offloading. The main challenge for this cache is to verify if the received image matches a stored one. Furthermore, for outdoor photos, it is difficult to compare them if one was taken in the daytime and the other at nighttime. In that case, the cache might wrongly infer that they refer to different places, offloading the processing to the cloud. This work shows that a well-known generative adversarial network, called ToDayGAN, can solve this problem by generating daytime images using nighttime ones. We can thus use this translation to populate a cache with synthetic photos that can help image matching. We show that our solution reduces cloud offloading and, therefore, the application's latency.
翻訳日:2022-02-15 17:41:54 公開日:2022-02-11
# ゼロショットマルチラベルテキスト分類のためのメタデータによるコントラスト学習

Metadata-Induced Contrastive Learning for Zero-Shot Multi-Label Text Classification ( http://arxiv.org/abs/2202.05932v1 )

ライセンス: Link先を確認
Yu Zhang, Zhihong Shen, Chieh-Han Wu, Boya Xie, Junheng Hao, Ye-Yi Wang, Kuansan Wang, Jiawei Han(参考訳) 大規模マルチラベルテキスト分類(LMTC)は、文書と関連するラベルを関連付けることを目的としている。 既存のLMTCのアプローチのほとんどは、大量の人手によるトレーニングデータに依存しており、長い尾のラベルの分布を入手し、苦しむのにしばしばコストがかかる。 本稿では,ラベル付きアノテート文書を一切必要とせず,ラベル表面の名前や記述のみに依存するゼロショット設定下でのLMTCについて検討する。 文書とラベルの類似度スコアを計算する分類器を訓練するために,新しいメタデータによるコントラスト学習(micol)法を提案する。 従来のテキストベースのコントラスト学習技術とは異なり、MICoLは文書メタデータ(著者、会場、研究論文の参照など)を利用して、ウェブ上で広く利用でき、類似の文書と文書のペアを導き出す。 2つの大規模データセットによる実験結果から,(1)MICoLは強いゼロショットテキスト分類とコントラスト学習ベースラインを著しく上回り,(2)MICoLは10K-200Kラベル付き文書で訓練された最先端の教師付きメタデータ認識LMTC法と同等であり,(3)MICoLは教師付き手法よりも頻度の低いラベルを予測し,長鎖ラベルの劣化を軽減していることがわかった。

Large-scale multi-label text classification (LMTC) aims to associate a document with its relevant labels from a large candidate set. Most existing LMTC approaches rely on massive human-annotated training data, which are often costly to obtain and suffer from a long-tailed label distribution (i.e., many labels occur only a few times in the training set). In this paper, we study LMTC under the zero-shot setting, which does not require any annotated documents with labels and only relies on label surface names and descriptions. To train a classifier that calculates the similarity score between a document and a label, we propose a novel metadata-induced contrastive learning (MICoL) method. Different from previous text-based contrastive learning techniques, MICoL exploits document metadata (e.g., authors, venues, and references of research papers), which are widely available on the Web, to derive similar document-document pairs. Experimental results on two large-scale datasets show that: (1) MICoL significantly outperforms strong zero-shot text classification and contrastive learning baselines; (2) MICoL is on par with the state-of-the-art supervised metadata-aware LMTC method trained on 10K-200K labeled documents; and (3) MICoL tends to predict more infrequent labels than supervised methods, thus alleviates the deteriorated performance on long-tailed labels.
翻訳日:2022-02-15 15:58:30 公開日:2022-02-11
# d-DNNF回路における擬似多項式時間トップkアルゴリズム

Pseudo Polynomial-Time Top-k Algorithms for d-DNNF Circuits ( http://arxiv.org/abs/2202.05938v1 )

ライセンス: Link先を確認
Pierre Bourhis (1), Laurence Duchien (1), J\'er\'emie Dusart (1), Emmanuel Lonca (2), Pierre Marquis (2 and 3), Cl\'ement Quinton (1) ((1) University of Lille, CNRS, Inria, Centrale Lille, UMR 9189 CRIStAL, (2) Univ. Artois, CNRS, UMR 8188 CRIL, (3) Institut Universitaire de France)(参考訳) 我々は、与えられた d-dnnf 回路の最も望ましいモデルである $k$ の計算に興味を持ち、ここでは、選好関係は単調、全順序、半群 $(k, \otimes, <)$ と呼ばれる代数構造に基づいている。 我々の設定では、$C$のすべてのリテラルは$K$の値を持ち、代入の値は$K$の要素であり、対応するリテラルの値を$\otimes$で集約することで得られる。 我々は、最大値 w.r.t. $<$ を持つ者の間で $c$ の $k$ モデルを計算するアルゴリズムを示し、このアルゴリズムが $k$ と $c$ の時間多項式で実行されることを示す。 また、半群に対する追加的な(しかしあまり要求されない)要求が満たされるならば、到達可能な最高値のk$値を導出するための擬似多項式時間アルゴリズムも提示する。 同じ仮定で、$C$をd-DNNF回路に変換する擬似多項式時間アルゴリズムを、上位$k$の値を持つ$C$のモデルによって正確に満たされる。 最後に、半群 $(\mathbb{n}, +, <)$ に焦点を当てて、k$トップソリューションを計算するコンパイルベースのアルゴリズムのパフォーマンスを、同じ問題に取り組むアルゴリズムのパフォーマンスと比較しますが、部分重み付きmaxsatソルバに基づいています。

We are interested in computing $k$ most preferred models of a given d-DNNF circuit $C$, where the preference relation is based on an algebraic structure called a monotone, totally ordered, semigroup $(K, \otimes, <)$. In our setting, every literal in $C$ has a value in $K$ and the value of an assignment is an element of $K$ obtained by aggregating using $\otimes$ the values of the corresponding literals. We present an algorithm that computes $k$ models of $C$ among those having the largest values w.r.t. $<$, and show that this algorithm runs in time polynomial in $k$ and in the size of $C$. We also present a pseudo polynomial-time algorithm for deriving the top-$k$ values that can be reached, provided that an additional (but not very demanding) requirement on the semigroup is satisfied. Under the same assumption, we present a pseudo polynomial-time algorithm that transforms $C$ into a d-DNNF circuit $C'$ satisfied exactly by the models of $C$ having a value among the top-$k$ ones. Finally, focusing on the semigroup $(\mathbb{N}, +, <)$, we compare on a large number of instances the performances of our compilation-based algorithm for computing $k$ top solutions with those of an algorithm tackling the same problem, but based on a partial weighted MaxSAT solver.
翻訳日:2022-02-15 15:55:01 公開日:2022-02-11
# 胎児機能的磁気共鳴画像データの運動補正と体積再構成

Motion Correction and Volumetric Reconstruction for Fetal Functional Magnetic Resonance Imaging Data ( http://arxiv.org/abs/2202.05863v1 )

ライセンス: Link先を確認
Daniel Sobotka, Michael Ebner, Ernst Schwartz, Karl-Heinz Nenning, Athena Taymourtash, Tom Vercauteren, Sebastien Ourselin, Gregor Kasprian, Daniela Prayer, Georg Langs, Roxane Licandro(参考訳) 運動補正は胎児脳の機能的磁気共鳴イメージング(fMRI)における重要な前処理ステップであり、胎児の運動や母体呼吸によって引き起こされる人工物を除去し、結果として誤った信号相関を抑えることを目的としている。 胎児のfMRIに対する現在の動作補正アプローチは、少なくとも運動アーチファクトを基準体積とする特定の取得時間点から1つの3次元ボリュームを選択し、運動補正時系列の再構成を補間する。 結果は、低モーションフレームが利用できない場合や、再構成がfMRI信号の連続性に関する仮定を生かしていない場合などに悩まされる。 本稿では,外乱運動補正法を用いて高分解能基準容積を推定し,hber l2正則化を用いて運動補正した胎児脳fmriのスタック内体積再構成法を提案する。 本研究では, 運動推定の有効性を検討するために, 運動補正と正規化ボリュームリコンストラクション手法が機能的接続計算に与える影響を定量化するためのベンチマーク指標として, 広範なパラメータスタディを行った。 本研究は, 予後非侵襲型バイオマーカーの確立に臨床的に極めて望ましい, 機能的接続推定, 再現性, 信号解釈性を向上させるためのフレームワークの能力を示す。 NiftyMICのオープンソースパッケージとして動作補正とボリューム再構築フレームワークが利用可能である。

Motion correction is an essential preprocessing step in functional Magnetic Resonance Imaging (fMRI) of the fetal brain with the aim to remove artifacts caused by fetal movement and maternal breathing and consequently to suppress erroneous signal correlations. Current motion correction approaches for fetal fMRI choose a single 3D volume from a specific acquisition timepoint with least motion artefacts as reference volume, and perform interpolation for the reconstruction of the motion corrected time series. The results can suffer, if no low-motion frame is available, and if reconstruction does not exploit any assumptions about the continuity of the fMRI signal. Here, we propose a novel framework, which estimates a high-resolution reference volume by using outlier-robust motion correction, and by utilizing Huber L2 regularization for intra-stack volumetric reconstruction of the motion-corrected fetal brain fMRI. We performed an extensive parameter study to investigate the effectiveness of motion estimation and present in this work benchmark metrics to quantify the effect of motion correction and regularised volumetric reconstruction approaches on functional connectivity computations. We demonstrate the proposed framework's ability to improve functional connectivity estimates, reproducibility and signal interpretability, which is clinically highly desirable for the establishment of prognostic noninvasive imaging biomarkers. The motion correction and volumetric reconstruction framework is made available as an open-source package of NiftyMIC.
翻訳日:2022-02-15 15:54:12 公開日:2022-02-11
# ユニバーサルポリシーネットワークのための高速モデルベースポリシー探索

Fast Model-based Policy Search for Universal Policy Networks ( http://arxiv.org/abs/2202.05843v1 )

ライセンス: Link先を確認
Buddhika Laknath Semage, Thommen George Karimpanal, Santu Rana and Svetha Venkatesh(参考訳) エージェントの振る舞いを新しい環境に適応させることは、物理ベースの強化学習の主要な焦点の1つである。 近年のユニバーサルポリシーネットワークのようなアプローチでは、シミュレーションで訓練された複数のポリシーを幅広い動的/相対的要因で保存可能にすることで、この問題に部分的に対処している。 そこで,本研究では,事前学習したガウス過程に基づく事前学習手法を提案する。 本研究は,ベイズ最適化に基づく政策探索プロセスと統合し,普遍的な政策ネットワークから最も適切な政策を特定する効率を向上させる。 連続的および離散的な制御環境でのアプローチを実証的に評価し、他の競合ベースラインよりも優れていることを示す。

Adapting an agent's behaviour to new environments has been one of the primary focus areas of physics based reinforcement learning. Although recent approaches such as universal policy networks partially address this issue by enabling the storage of multiple policies trained in simulation on a wide range of dynamic/latent factors, efficiently identifying the most appropriate policy for a given environment remains a challenge. In this work, we propose a Gaussian Process-based prior learned in simulation, that captures the likely performance of a policy when transferred to a previously unseen environment. We integrate this prior with a Bayesian Optimisation-based policy search process to improve the efficiency of identifying the most appropriate policy from the universal policy network. We empirically evaluate our approach in a range of continuous and discrete control environments, and show that it outperforms other competing baselines.
翻訳日:2022-02-15 15:39:14 公開日:2022-02-11
# 普遍政策による不確実性認識システム同定

Uncertainty Aware System Identification with Universal Policies ( http://arxiv.org/abs/2202.05844v1 )

ライセンス: Link先を確認
Buddhika Laknath Semage, Thommen George Karimpanal, Santu Rana and Svetha Venkatesh(参考訳) sim2real transferは、主にシミュレーションで訓練されたポリシーを、潜在的に騒がしい実環境に転送することに関心がある。 sim2real transferに関連する一般的な問題は、実世界の環境パラメータを推定してシミュレーション環境を接地することである。 ドメインランダム化(DR)のような既存の手法は、トレーニング中にパラメータの分布からサンプリングすることで堅牢なポリシーを生成することができるが、与えられた実世界の設定に対して対応する分布のパラメータを特定するための確立された方法はない。 本研究では,Universal Policy Network (UPN) を用いて,環境パラメータの多岐にわたるシミュレーション学習されたタスク固有ポリシーを格納し,その後,ロバストなベイズ最適化を用いて,関連するUPNポリシーをDR風に組み合わせて,与えられた環境に対するロバストなポリシーを構築するUncertainty-Aware Policy Search (UncAPS)を提案する。 このようなポリシー駆動の接地は、タスク関連のパラメータセットのみを推定するので、より効率的になるだろう。 さらに,検索プロセスにおける不確実性の評価も考慮し,失語症とてんかんの双方に対して堅牢なポリシーを作成する。 我々は,ノイズの多い連続制御環境でのアプローチを実証的に評価し,その性能を競合するベースラインと比較した。

Sim2real transfer is primarily concerned with transferring policies trained in simulation to potentially noisy real world environments. A common problem associated with sim2real transfer is estimating the real-world environmental parameters to ground the simulated environment to. Although existing methods such as Domain Randomisation (DR) can produce robust policies by sampling from a distribution of parameters during training, there is no established method for identifying the parameters of the corresponding distribution for a given real-world setting. In this work, we propose Uncertainty-aware policy search (UncAPS), where we use Universal Policy Network (UPN) to store simulation-trained task-specific policies across the full range of environmental parameters and then subsequently employ robust Bayesian optimisation to craft robust policies for the given environment by combining relevant UPN policies in a DR like fashion. Such policy-driven grounding is expected to be more efficient as it estimates only task-relevant sets of parameters. Further, we also account for the estimation uncertainties in the search process to produce policies that are robust against both aleatoric and epistemic uncertainties. We empirically evaluate our approach in a range of noisy, continuous control environments, and show its improved performance compared to competing baselines.
翻訳日:2022-02-15 15:39:00 公開日:2022-02-11
# 線形性のない良性オーバーフィッティング--ノイズ線形データに対する勾配降下学習ニューラルネットワーク分類器

Benign Overfitting without Linearity: Neural Network Classifiers Trained by Gradient Descent for Noisy Linear Data ( http://arxiv.org/abs/2202.05928v1 )

ライセンス: Link先を確認
Spencer Frei, Niladri S. Chatterji, Peter L. Bartlett(参考訳) ノイズデータの存在下で補間モデルがうまく一般化する現象である良性過剰は、勾配降下で訓練されたニューラルネットワークモデルで初めて観測された。 この経験的観察をよりよく理解するために,ランダム初期化後のロジスティック損失の勾配降下による補間を訓練した2層ニューラルネットワークの一般化誤差について考察する。 データを分離したクラス条件のログコンケーブ分布から得ると仮定し、トレーニングラベルの一定割合を敵によって破壊できると仮定する。 この設定では、ニューラルネットワークは、トレーニングエラーゼロに駆動され、ノイズの多いトレーニングラベルに完全に適合し、ベイズ最適エラーに近いテストエラーを同時に達成できる。 線形あるいはカーネルベースの予測器を必要とする良性オーバーフィッティングに関するこれまでの研究とは対照的に、我々の分析はモデルと学習力学の両方が基本的に非線形な状態にある。

Benign overfitting, the phenomenon where interpolating models generalize well in the presence of noisy data, was first observed in neural network models trained with gradient descent. To better understand this empirical observation, we consider the generalization error of two-layer neural networks trained to interpolation by gradient descent on the logistic loss following random initialization. We assume the data comes from well-separated class-conditional log-concave distributions and allow for a constant fraction of the training labels to be corrupted by an adversary. We show that in this setting, neural networks exhibit benign overfitting: they can be driven to zero training error, perfectly fitting any noisy training labels, and simultaneously achieve test error close to the Bayes-optimal error. In contrast to previous work on benign overfitting that require linear or kernel-based predictors, our analysis holds in a setting where both the model and learning dynamics are fundamentally nonlinear.
翻訳日:2022-02-15 15:37:03 公開日:2022-02-11
# テンソルコア上の縮小精度畳み込みプログラムを最適化するための固有候補からの学習

Learning from distinctive candidates to optimize reduced-precision convolution program on tensor cores ( http://arxiv.org/abs/2202.06819v1 )

ライセンス: Link先を確認
Junkyeong Choi, Hyucksung Kwon, Woongkyu Lee, Jungwook Choi and Jieun Lim(参考訳) 畳み込みは、行列計算を必要とするディープニューラルネットワークの基本的な操作の1つである。 グラフィック処理ユニット(gpu)において、テンソルコア(tensor core)は、スループットを向上させるために、少ない精度のマトリックス・マルチプライ・アキュムレート(mma)命令を備える、特別なマトリックス処理ハードウェアである。 しかし,mma命令の最適スケジューリングは畳み込みサイズによって異なるため,最適性能を達成することは困難である。 特に、mmaの削減には、行列オペランドとしてグループ化された多くの要素が必要であり、データの再利用を真剣に制限し、スケジュールにパッキングとレイアウトオーバーヘッドを課す。 本研究では,畳み込み動作のための減算mmaの自動スケジューリング手法を提案する。 本手法では,MMAの精度が低い大行列操作であっても,スレッドタイルとワープサイズを探索してデータ再利用量を増加させる探索空間を考案する。 検索スペースにはレジスタレベルのパッキングとレイアウト最適化のオプションが含まれており、縮小精度データの処理のオーバーヘッドを学べる。 最後に,特定候補から学習することで最適なスケジュールを求める探索アルゴリズムを提案する。 この縮小精度mma最適化手法は、ニューラルネットワークの畳み込み操作に基づいて評価され、検索時間の短縮されたアーツの状態と比較してテンソルコアの大幅な高速化を示す。

Convolution is one of the fundamental operations of deep neural networks with demanding matrix computation. In a graphic processing unit (GPU), Tensor Core is a specialized matrix processing hardware equipped with reduced-precision matrix-multiply-accu mulate (MMA) instructions to increase throughput. However, it is challenging to achieve optimal performance since the best scheduling of MMA instructions varies for different convolution sizes. In particular, reduced-precision MMA requires many elements grouped as a matrix operand, seriously limiting data reuse and imposing packing and layout overhead on the schedule. This work proposes an automatic scheduling method of reduced-precision MMA for convolution operation. In this method, we devise a search space that explores the thread tile and warp sizes to increase the data reuse despite a large matrix operand of reduced-precision MMA. The search space also includes options of register-level packing and layout optimization to lesson overhead of handling reduced-precision data. Finally, we propose a search algorithm to find the best schedule by learning from the distinctive candidates. This reduced-precision MMA optimization method is evaluated on convolution operations of popular neural networks to demonstrate substantial speedup on Tensor Core compared to the state of the arts with shortened search time.
翻訳日:2022-02-15 14:48:09 公開日:2022-02-11
# 線形回帰による条件平均治療効果予測における良性オーバーフィット

Benign-Overfitting in Conditional Average Treatment Effect Prediction with Linear Regression ( http://arxiv.org/abs/2202.05245v2 )

ライセンス: Link先を確認
Masahiro Kato and Masaaki Imaizumi(参考訳) 線形回帰モデルを用いて条件平均処理効果(CATE)の予測における良性過剰適合理論について検討した。 因果推論のための機械学習の開発が進むにつれ、さまざまな因果関係の大規模モデルが注目されている。 1つの問題は、大規模なモデルがサンプル選択による観測に過度に適合しやすいという疑念が持ち上がっているため、大きなモデルが因果予測に適さない可能性があることである。 本研究では,近年の良性過剰適合理論を適用して,過パラメータ化モデルに対する因果推論手法の有効性について検討する(Bartlett et al., 2020)。 具体的には、割り当て規則によって分布が切り替わるサンプルについて検討し、次元が無限大に分岐する線形モデルを用いてCATEの予測について検討する。 本稿では, 各治療群と個別に構築した推定器の違いに基づくTラーナーと, 相対性スコアによって近似された別の回帰問題を解く逆確率重み(IPW)ラーナーの2つの方法に焦点をあてる。 どちらの方法でも、推定器はサンプルに完全に適合する補間器で構成されている。 その結果,Tラーナーはランダムな割り当て以外の整合性を達成することができず,IPWラーナーは確率スコアが分かっていれば0に収束することを示した。 この違いは、t-リーナーが共変性の固有空間を保存することができないことに起因する。 その結果,過剰パラメータ設定,特に2倍ロバストな推定器における因果推論法の利用に関する新たな知見が得られた。

We study the benign overfitting theory in the prediction of the conditional average treatment effect (CATE), with linear regression models. As the development of machine learning for causal inference, a wide range of large-scale models for causality are gaining attention. One problem is that suspicions have been raised that the large-scale models are prone to overfitting to observations with sample selection, hence the large models may not be suitable for causal prediction. In this study, to resolve the suspicious, we investigate on the validity of causal inference methods for overparameterized models, by applying the recent theory of benign overfitting (Bartlett et al., 2020). Specifically, we consider samples whose distribution switches depending on an assignment rule, and study the prediction of CATE with linear models whose dimension diverges to infinity. We focus on two methods: the T-learner, which based on a difference between separately constructed estimators with each treatment group, and the inverse probability weight (IPW)-learner, which solves another regression problem approximated by a propensity score. In both methods, the estimator consists of interpolators that fit the samples perfectly. As a result, we show that the T-learner fails to achieve the consistency except the random assignment, while the IPW-learner converges the risk to zero if the propensity score is known. This difference stems from that the T-learner is unable to preserve eigenspaces of the covariances, which is necessary for benign overfitting in the overparameterized setting. Our result provides new insights into the usage of causal inference methods in the overparameterizated setting, in particular, doubly robust estimators.
翻訳日:2022-02-15 12:22:13 公開日:2022-02-11
# (参考訳) 手話生成のための文脈埋め込みにおける顔表現 [全文訳有]

Including Facial Expressions in Contextual Embeddings for Sign Language Generation ( http://arxiv.org/abs/2202.05383v1 )

ライセンス: CC BY 4.0
Carla Viegas, Mert \.Inan, Lorna Quandt, Malihe Alikhani(参考訳) 最先端の手話生成フレームワークは、表情の感情的、文法的、意味的な機能を無視し、手話のみに焦点を当てた結果、表現性と自然性を欠いている。 本研究の目的は,表情の接地による手話の意味表現の強化である。 本研究は,手話生成システムの性能に及ぼすテキスト,光沢,表情の関係のモデル化の影響について検討する。 特に,テキストや手話の注釈にみられる類似点や相違点を捉えることで,手話や表情を生成できるデュアルエンコーダトランスを提案する。 本研究は,手話生成において顔面動作単位を最初に用いた人物として,手話の強度を表現するために顔面筋活動が果たす役割について考察する。 提案したモデルが自動生成手話の品質を向上させることを示す一連の実験を行った。

State-of-the-art sign language generation frameworks lack expressivity and naturalness which is the result of only focusing manual signs, neglecting the affective, grammatical and semantic functions of facial expressions. The purpose of this work is to augment semantic representation of sign language through grounding facial expressions. We study the effect of modeling the relationship between text, gloss, and facial expressions on the performance of the sign generation systems. In particular, we propose a Dual Encoder Transformer able to generate manual signs as well as facial expressions by capturing the similarities and differences found in text and sign gloss annotation. We take into consideration the role of facial muscle activity to express intensities of manual signs by being the first to employ facial action units in sign language generation. We perform a series of experiments showing that our proposed model improves the quality of automatically generated sign language.
翻訳日:2022-02-15 06:54:26 公開日:2022-02-11
# (参考訳) 騒音時系列データから時間規則を学ぶ [全文訳有]

Learning Temporal Rules from Noisy Timeseries Data ( http://arxiv.org/abs/2202.05403v1 )

ライセンス: CC BY 4.0
Karan Samel, Zelin Zhao, Binghong Chen, Shuang Li, Dharmashankar Subramanian, Irfan Essa, Le Song(参考訳) タイムライン上のイベントは、異なる時間的モダリティで見られる共通のデータ表現である。 個々の原子イベントは一定の時間順序で発生し、より高いレベルの複合イベントを構成する。 複合イベントの例としては、患者の医療症状やホームランを打つ野球選手があり、それぞれに患者のバイタルと選手の動きの時間的順序が異なる。 このような有望な複合イベントは、テンポラリデータセットのラベルとして提供され、ほとんどの作業は、これらの複合イベントラベルを直接予測するためにモデルを最適化する。 我々は、ノイズの多い時間的データ設定の中で複合イベントにつながる原子イベントとその関係を明らかにすることに集中する。 本稿では,まず原子イベント間の暗黙的な時間的関係を学習し,複合イベントの論理規則を引き上げるニューラルテンポラル論理プログラミング(Neural Temporal Logic Programming,Neural TLP)を提案する。 これは、すべての時相論理規則の組合せ空間を端から端まで微分可能な方法で効率的に探索することで行われる。 本手法は,ルール発見のベースライン手法に勝るビデオおよび医療データセット上で評価する。

Events across a timeline are a common data representation, seen in different temporal modalities. Individual atomic events can occur in a certain temporal ordering to compose higher level composite events. Examples of a composite event are a patient's medical symptom or a baseball player hitting a home run, caused distinct temporal orderings of patient vitals and player movements respectively. Such salient composite events are provided as labels in temporal datasets and most works optimize models to predict these composite event labels directly. We focus on uncovering the underlying atomic events and their relations that lead to the composite events within a noisy temporal data setting. We propose Neural Temporal Logic Programming (Neural TLP) which first learns implicit temporal relations between atomic events and then lifts logic rules for composite events, given only the composite events labels for supervision. This is done through efficiently searching through the combinatorial space of all temporal logic rules in an end-to-end differentiable manner. We evaluate our method on video and healthcare datasets where it outperforms the baseline methods for rule discovery.
翻訳日:2022-02-15 06:42:57 公開日:2022-02-11
# (参考訳) 正規化Q-ラーニング [全文訳有]

Regularized Q-learning ( http://arxiv.org/abs/2202.05404v1 )

ライセンス: CC BY 4.0
Han-Dong Lim, Do Wan Kim, Donghwan Lee(参考訳) Q学習は強化学習コミュニティで広く使われている。 ルックアップテーブル設定では、その収束は十分に確立されている。 しかし、その挙動は線形関数近似の場合で不安定であることが知られている。 本稿では,線形関数近似を用いて収束する新しいq学習アルゴリズムを開発した。 適切な正規化項を追加するだけでアルゴリズムの収束が保証されることを示す。 スイッチングシステムモデルに基づく最近の解析ツールを用いて安定性を実証する。 さらに,線形関数近似を用いたq学習が分岐する環境において収束することを示す。 また、アルゴリズムが収束する解に縛られる誤差も提供する。

Q-learning is widely used algorithm in reinforcement learning community. Under the lookup table setting, its convergence is well established. However, its behavior is known to be unstable with the linear function approximation case. This paper develops a new Q-learning algorithm that converges when linear function approximation is used. We prove that simply adding an appropriate regularization term ensures convergence of the algorithm. We prove its stability using a recent analysis tool based on switching system models. Moreover, we experimentally show that it converges in environments where Q-learning with linear function approximation has known to diverge. We also provide an error bound on the solution where the algorithm converges.
翻訳日:2022-02-15 06:22:43 公開日:2022-02-11
# (参考訳) ベイズ関連ベクトルマシンの後方整合性 [全文訳有]

Posterior Consistency for Bayesian Relevance Vector Machines ( http://arxiv.org/abs/2202.05422v1 )

ライセンス: CC BY 4.0
Xiao Fang and Malay Ghosh(参考訳) サンプルサイズが利用可能な共変量よりもかなり小さい統計的モデリングと推論問題は困難である。 chakraborty et al. (2012) は、カーネルヒルベルト空間 (rkhs) を再現した相関ベクトルマシンを用いて、非線形回帰の階層的ベイズ解析を行った。 しかし、それらの手順に関連する理論的特性は提供されなかった。 本稿は,問題を再考し,グローバルな先進国と異なる新たなクラスを導入し,後続の一貫性と後続の収縮率に関する結果を提供する。

Statistical modeling and inference problems with sample sizes substantially smaller than the number of available covariates are challenging. Chakraborty et al. (2012) did a full hierarchical Bayesian analysis of nonlinear regression in such situations using relevance vector machines based on reproducing kernel Hilbert space (RKHS). But they did not provide any theoretical properties associated with their procedure. The present paper revisits their problem, introduces a new class of global-local priors different from theirs, and provides results on posterior consistency as well as posterior contraction rates
翻訳日:2022-02-15 05:53:20 公開日:2022-02-11
# (参考訳) グラフ上の分散の一般化を満たす不変原理

Invariance Principle Meets Out-of-Distribution Generalization on Graphs ( http://arxiv.org/abs/2202.05441v1 )

ライセンス: CC BY 4.0
Yongqiang Chen, Yonggang Zhang, Han Yang, Kaili Ma, Binghui Xie, Tongliang Liu, Bo Han, James Cheng(参考訳) 近年、因果関係からの非分散原理を用いたユークリッドデータへの外分布(ood)一般化(画像など)は限られている。 画像とは異なり、グラフの複雑な性質は、ood一般化における不変原理の採用を妨げるユニークな課題をもたらす。 特に、グラフ上の分布シフトは構造レベルと属性レベルの両方で起こり、不変性を取得するのが困難になる。 さらに、ユークリッドデータ上で開発されたOODメソッドでしばしば必要とされるドメインや環境の分割は、グラフを得るためには高価である。 このギャップを埋めるために,因果モデルを持つグラフ上の分布シフトを特徴付け,不変部分グラフを同定することで不変原理を持つグラフ上のood一般化が可能であることを示す。 コントラスト戦略を用いて,このプロセスを明確にモデル化する新しいフレームワークを提案する。 推定不変部分グラフとは対照的に、基礎となる不変部分グラフを穏やかな仮定の下で確実に識別することができる。 いくつかの合成および実世界のデータセットにまたがる実験は、我々の手法の最先端のOOD一般化能力を示す。

Despite recent developments in using the invariance principle from causality to enable out-of-distribution (OOD) generalization on Euclidean data, e.g., images, studies on graph data are limited. Different from images, the complex nature of graphs poses unique challenges that thwart the adoption of the invariance principle for OOD generalization. In particular, distribution shifts on graphs can happen at both structure-level and attribute-level, which increases the difficulty of capturing the invariance. Moreover, domain or environment partitions, which are often required by OOD methods developed on Euclidean data, can be expensive to obtain for graphs. Aiming to bridge this gap, we characterize distribution shifts on graphs with causal models, and show that the OOD generalization on graphs with invariance principle is possible by identifying an invariant subgraph for making predictions. We propose a novel framework to explicitly model this process using a contrastive strategy. By contrasting the estimated invariant subgraphs, our framework can provably identify the underlying invariant subgraph under mild assumptions. Experiments across several synthetic and real-world datasets demonstrate the state-of-the-art OOD generalization ability of our method.
翻訳日:2022-02-15 05:39:33 公開日:2022-02-11
# (参考訳) 移動学習と自己注意を伴う二重入力学習を用いたヒンディー・ベンガル感覚分析 [全文訳有]

Hindi/Bengali Sentiment Analysis Using Transfer Learning and Joint Dual Input Learning with Self Attention ( http://arxiv.org/abs/2202.05457v1 )

ライセンス: CC BY 4.0
Shahrukh Khan and Mahnoor Shahid(参考訳) 感性分析は、通常、自然言語処理、テキスト分析、および計算言語学を用いて、テキストデータから感情と感情に基づく情報を抽出する。 我々の研究は、ヒンディー語とベンガル語のデータにおいて、感情を効果的に分類しヘイトスピーチを検出するために、深層ニューラルネットワークを転送学習と共同入力学習設定に効果的に利用する方法について研究している。 まず、Hindi \textbf{HASOC dataset} と Bengali hate speech の Word2Vec 単語埋め込みを訓練し、LSTM を訓練し、その後、パラメータ共有に基づく変換学習をベンガル感情分類器に適用し、ヒンディー語分類器の訓練された重みを再利用・微調整し、両分類器をベースラインとして用いた。 最後に、bindiとbengaliデータセット上で、それぞれの組込みを使用して単一のニューラルネットワークを同時にトレーニングする、2つの入力学習設定で、自己注意でbilstmを使用する。

Sentiment Analysis typically refers to using natural language processing, text analysis and computational linguistics to extract affect and emotion based information from text data. Our work explores how we can effectively use deep neural networks in transfer learning and joint dual input learning settings to effectively classify sentiments and detect hate speech in Hindi and Bengali data. We start by training Word2Vec word embeddings for Hindi \textbf{HASOC dataset} and Bengali hate speech and then train LSTM and subsequently, employ parameter sharing based transfer learning to Bengali sentiment classifiers by reusing and fine-tuning the trained weights of Hindi classifiers with both classifier being used as baseline in our study. Finally, we use BiLSTM with self attention in joint dual input learning setting where we train a single neural network on Hindi and Bengali dataset simultaneously using their respective embeddings.
翻訳日:2022-02-15 05:38:28 公開日:2022-02-11
# (参考訳) カーネルを用いた条件付きコントラスト学習 [全文訳有]

Conditional Contrastive Learning with Kernel ( http://arxiv.org/abs/2202.05458v1 )

ライセンス: CC BY 4.0
Yao-Hung Hubert Tsai, Tianqin Li, Martin Q. Ma, Han Zhao, Kun Zhang, Louis-Philippe Morency, Ruslan Salakhutdinov(参考訳) 条件付きコントラスト学習フレームワークは、特定の変数に条件付けされた正あるいは負のデータペアを構成する条件付きサンプリング手順を考える。 フェアコントラスト学習は、例えば同じ性別(センシティブな情報に関する条件付け)から負のペアを構成するが、これは学習した表現から望ましくない情報を減少させ、弱い教師付きコントラスト学習は、同様の注釈的属性(補助情報に関する条件付け)を持つ正のペアを構成する。 条件付きコントラスト学習は多くの応用が可能であるが、条件付きサンプリング手順は条件付き変数の値に対して十分なデータペアを得ることが出来なければ困難である。 本稿では,既存の条件付きコントラスト目標を不十分なデータ問題を軽減する代替形式に変換するカーネル(ccl-k)を用いた条件付きコントラスト学習について述べる。 条件変数の値に応じてデータをサンプリングする代わりに、CCL-Kはカーネル条件埋め込み演算子を使用して、利用可能なすべてのデータからデータをサンプリングし、条件変数の値とカーネルの類似性が与えられた各サンプルデータに重みを割り当てる。 CCL-Kが最先端のベースラインより優れていることを示すために,弱教師付き,公正,強負の対照的な学習を用いて実験を行った。

Conditional contrastive learning frameworks consider the conditional sampling procedure that constructs positive or negative data pairs conditioned on specific variables. Fair contrastive learning constructs negative pairs, for example, from the same gender (conditioning on sensitive information), which in turn reduces undesirable information from the learned representations; weakly supervised contrastive learning constructs positive pairs with similar annotative attributes (conditioning on auxiliary information), which in turn are incorporated into the representations. Although conditional contrastive learning enables many applications, the conditional sampling procedure can be challenging if we cannot obtain sufficient data pairs for some values of the conditioning variable. This paper presents Conditional Contrastive Learning with Kernel (CCL-K) that converts existing conditional contrastive objectives into alternative forms that mitigate the insufficient data problem. Instead of sampling data according to the value of the conditioning variable, CCL-K uses the Kernel Conditional Embedding Operator that samples data from all available data and assigns weights to each sampled data given the kernel similarity between the values of the conditioning variable. We conduct experiments using weakly supervised, fair, and hard negatives contrastive learning, showing CCL-K outperforms state-of-the-art baselines.
翻訳日:2022-02-15 05:30:07 公開日:2022-02-11
# (参考訳) Barlow Twins自己教師付き学習による低次モデリング:線型および非線形解多様体間の空間のナビゲート [全文訳有]

Reduced order modeling with Barlow Twins self-supervised learning: Navigating the space between linear and nonlinear solution manifolds ( http://arxiv.org/abs/2202.05460v1 )

ライセンス: CC BY 4.0
Teeratorn Kadeethum, Francesco Ballarin, Daniel O'Malley, Youngsoo Choi, Nikolaos Bouklas, Hongkyu Yoon(参考訳) 線形および非線形多様体のアプローチ間の性能ギャップを橋渡しする統一データ駆動還元順序モデル(ROM)を提案する。 ディープ・コンボリューショナル・オートエンコーダ(DC-AE)を用いた深層学習ROM(DL-ROM)は非線形解多様体を捕捉することが示されているが、適切な直交分解(POD)のような線形部分空間アプローチが最適である場合、適切に動作しない。 さらに、ほとんどのDL-ROMモデルは畳み込み層に依存しており、そのアプリケーションは構造化メッシュのみに制限される可能性がある。 本研究では,自動エンコーダ (AE) とバーロウ・ツインズ (BT) による自己教師型学習を併用し,BT は共同埋め込みアーキテクチャを用いて潜伏空間への埋め込みの情報を最大化する手法を提案する。 多孔質媒質中の自然対流に関する一連のベンチマーク問題を通じて、BT-AEは、線形部分空間内にある問題に対するPODベースのアプローチと、その解が非線形多様体上にあるDL-ROMオートエンコーダベースの技術に匹敵する結果を与えることにより、従来のDL-ROMフレームワークよりも優れた性能を発揮する。 さらに、BT-AEフレームワークは非構造化メッシュ上で動作可能であり、標準的な数値ソルバ、オンサイト計測、実験データ、これらのソースの組み合わせに対する柔軟性を提供する。

We propose a unified data-driven reduced order model (ROM) that bridges the performance gap between linear and nonlinear manifold approaches. Deep learning ROM (DL-ROM) using deep-convolutional autoencoders (DC-AE) has been shown to capture nonlinear solution manifolds but fails to perform adequately when linear subspace approaches such as proper orthogonal decomposition (POD) would be optimal. Besides, most DL-ROM models rely on convolutional layers, which might limit its application to only a structured mesh. The proposed framework in this study relies on the combination of an autoencoder (AE) and Barlow Twins (BT) self-supervised learning, where BT maximizes the information content of the embedding with the latent space through a joint embedding architecture. Through a series of benchmark problems of natural convection in porous media, BT-AE performs better than the previous DL-ROM framework by providing comparable results to POD-based approaches for problems where the solution lies within a linear subspace as well as DL-ROM autoencoder-based techniques where the solution lies on a nonlinear manifold; consequently, bridges the gap between linear and nonlinear reduced manifolds. Furthermore, this BT-AE framework can operate on unstructured meshes, which provides flexibility in its application to standard numerical solvers, on-site measurements, experimental data, or a combination of these sources.
翻訳日:2022-02-15 05:05:07 公開日:2022-02-11
# (参考訳) WAD-CMSN:Zero-Shot Sketch-based Image Retrievalのためのワッサーシュタイン距離に基づくクロスモーダルセマンティックネットワーク [全文訳有]

WAD-CMSN: Wasserstein Distance based Cross-Modal Semantic Network for Zero-Shot Sketch-Based Image Retrieval ( http://arxiv.org/abs/2202.05465v1 )

ライセンス: CC BY 4.0
Guanglong Xu, Zhensheng Hu, Jia Cai(参考訳) ゼロショットスケッチに基づく画像検索(ZSSBIR)はコンピュータビジョンの一般的な研究分野として近年注目を集めている。 スケッチベースの画像検索(SBIR)とは異なり、ZSSBIRの主な目的は、訓練中に現れない手書きのスケッチを無償で取得することである。 従来のアプローチでは、セマンティクスアライメントのスケッチ-イメージペアを使用したり、メモリの高価な融合層を使用して、視覚情報を低次元のサブスペースに投影する。 これにより、トレーニングフェーズではパフォーマンスが低下する可能性がある。 この問題に取り組み,この問題を克服するために,wasserstein distance based cross-modal semantic network (wad-cmsn) を提案する。 具体的には、まず各ブランチの視覚情報(スケッチ、画像)を、敵対的なトレーニング方法でwasserstein距離を介して共通の低次元意味部分空間に投影する。 さらに、完全な意味知識を捉えるだけでなく、wad-cmsnモデルによって引き起こされる過剰フィッティング現象を緩和できる有用な特徴を選択するためにアイデンティティマッチング損失を用いる。 挑戦的なSketchy(Extended)とTU-Berlin(Extended)データセットの実験結果は、提案したWAD-CMSNモデルの有効性を示している。

Zero-shot sketch-based image retrieval (ZSSBIR), as a popular studied branch of computer vision, attracts wide attention recently. Unlike sketch-based image retrieval (SBIR), the main aim of ZSSBIR is to retrieve natural images given free hand-drawn sketches that may not appear during training. Previous approaches used semantic aligned sketch-image pairs or utilized memory expensive fusion layer for projecting the visual information to a low dimensional subspace, which ignores the significant heterogeneous cross-domain discrepancy between highly abstract sketch and relevant image. This may yield poor performance in the training phase. To tackle this issue and overcome this drawback, we propose a Wasserstein distance based cross-modal semantic network (WAD-CMSN) for ZSSBIR. Specifically, it first projects the visual information of each branch (sketch, image) to a common low dimensional semantic subspace via Wasserstein distance in an adversarial training manner. Furthermore, identity matching loss is employed to select useful features, which can not only capture complete semantic knowledge, but also alleviate the over-fitting phenomenon caused by the WAD-CMSN model. Experimental results on the challenging Sketchy (Extended) and TU-Berlin (Extended) datasets indicate the effectiveness of the proposed WAD-CMSN model over several competitors.
翻訳日:2022-02-15 04:39:07 公開日:2022-02-11
# (参考訳) マルチタスク学習パラダイムを用いたベンチマーキングとアラビア語自動画像キャプションの改善 [全文訳有]

Bench-Marking And Improving Arabic Automatic Image Captioning Through The Use Of Multi-Task Learning Paradigm ( http://arxiv.org/abs/2202.05474v1 )

ライセンス: CC BY 4.0
Muhy Eddin Za'ter, Bashar Talaftha(参考訳) ソーシャルメディアの利用の継続的な増加とインターネット上の視覚コンテンツは、コンピュータビジョン分野全般の研究を加速させ、画像キャプションタスクを具体化させている。 イメージを最もよく記述するキャプションを生成するプロセスは、画像インデクシングや視覚障害者の補聴器として使用できるなど、様々なアプリケーションにとって有用なタスクである。 近年、画像キャプションタスクは、データセットとアーキテクチャの両方に関して顕著な進歩をみせており、その結果、キャプションの品質は驚くべきパフォーマンスに達している。 しかし、特にデータセットにおけるこれらの進歩の大部分は英語をターゲットとしており、アラビア語などの他の言語は遅れている。 アラビア語は4億5000万人以上の人々が話し、インターネットで最も成長している言語だが、ベンチマークや統一データセットといった画像キャプション研究を進めるために必要な基本的な柱が欠けている。 これは、統一データセットとベンチマークを提供し、アラビア語の画像キャプションのパフォーマンスを向上させる方法や技術を探求することで、このタスクのシナジーを早める試みである。 マルチタスク学習の利用は、様々な単語表現と異なる特徴を探求しながら検討されている。 その結果,マルチタスク学習と事前学習語埋め込みは画像キャプションの質を著しく向上させたが,アラビア文字キャプションは英語と比較してまだ遅れていることがわかった。 使用されるデータセットとコードは、このリンクで利用できる。

The continuous increase in the use of social media and the visual content on the internet have accelerated the research in computer vision field in general and the image captioning task in specific. The process of generating a caption that best describes an image is a useful task for various applications such as it can be used in image indexing and as a hearing aid for the visually impaired. In recent years, the image captioning task has witnessed remarkable advances regarding both datasets and architectures, and as a result, the captioning quality has reached an astounding performance. However, the majority of these advances especially in datasets are targeted for English, which left other languages such as Arabic lagging behind. Although Arabic language, being spoken by more than 450 million people and being the most growing language on the internet, lacks the fundamental pillars it needs to advance its image captioning research, such as benchmarks or unified datasets. This works is an attempt to expedite the synergy in this task by providing unified datasets and benchmarks, while also exploring methods and techniques that could enhance the performance of Arabic image captioning. The use of multi-task learning is explored, alongside exploring various word representations and different features. The results showed that the use of multi-task learning and pre-trained word embeddings noticeably enhanced the quality of image captioning, however the presented results shows that Arabic captioning still lags behind when compared to the English language. The used dataset and code are available at this link.
翻訳日:2022-02-15 04:28:40 公開日:2022-02-11
# (参考訳) 正規化を用いたスパースマルコフモデルのカテゴリー時系列への適合 [全文訳有]

Fitting Sparse Markov Models to Categorical Time Series Using Regularization ( http://arxiv.org/abs/2202.05485v1 )

ライセンス: CC BY 4.0
Tuhin Majumder, Soumendra Lahiri, Donald Martin(参考訳) 高階マルコフモデルに適合する主な問題は指数的に増加するパラメータの数である。 最も一般的なアプローチは可変長マルコフ連鎖(VLMC)を使い、変数順序の関連するコンテキスト(最近の過去)を決定し、コンテキストツリーを形成することである。 より一般的なアプローチはスパースマルコフモデル (sparse markov model, smm) と呼ばれ、順序 $m$ の可能な全ての履歴は、遷移確率ベクトルが特定のグループに属する履歴と同一になるように分割を形成する。 我々は,正規化を伴う凸クラスタリングを用いたSMMのエレガントなフィッティング法を開発した。 BIC基準を用いて正規化パラメータを選択する。 理論的には,本手法の大規模サンプルサイズに対するモデル選択一貫性を示す。 提案手法の性能評価のために, 異なる設定条件下での大規模シミュレーションを行った。 本手法は、異なるウイルスの影響を受ける個体から得られたゲノム配列の分類に応用する。

The major problem of fitting a higher order Markov model is the exponentially growing number of parameters. The most popular approach is to use a Variable Length Markov Chain (VLMC), which determines relevant contexts (recent pasts) of variable orders and form a context tree. A more general approach is called Sparse Markov Model (SMM), where all possible histories of order $m$ form a partition so that the transition probability vectors are identical for the histories belonging to a particular group. We develop an elegant method of fitting SMM using convex clustering, which involves regularization. The regularization parameter is selected using BIC criterion. Theoretical results demonstrate the model selection consistency of our method for large sample size. Extensive simulation studies under different set-up have been presented to measure the performance of our method. We apply this method to classify genome sequences, obtained from individuals affected by different viruses.
翻訳日:2022-02-15 04:19:05 公開日:2022-02-11
# (参考訳) fgsmの高速対向訓練に必要なノイズ増減:壊滅的な過剰フィッティングと強固な過剰フィッティングは異なる拡張を必要とする [全文訳有]

Noise Augmentation Is All You Need For FGSM Fast Adversarial Training: Catastrophic Overfitting And Robust Overfitting Require Different Augmentation ( http://arxiv.org/abs/2202.05488v1 )

ライセンス: CC BY 4.0
Chaoning Zhang, Kang Zhang, Axi Niu, Chenshuang Zhang, Jiu Feng, Chang D. Yoo, In So Kweon(参考訳) 敵対的訓練(AT)とその変種は、敵対的堅牢なモデルを得るための最も効果的なアプローチである。 atのユニークな特徴は、モデル重みが更新される前に内的最大化問題を繰り返し解く必要があるため、トレーニングが遅くなることである。 FGSM ATは効率を大幅に向上するが、ステップサイズが大きくなると失敗する。 SOTA GradAlignはFGSM ATをより高いステップサイズで対応させるが、入力勾配の正規化はFGSM ATの3倍から4倍遅くする。 提案したNossAugは、入力自体を直接正規化することで、余分な計算オーバーヘッドを取り除く。 この研究の重要な貢献は、シングルステップのFGSM ATが過去の作業ラインで示唆されたほど難しくない、という実証的な発見にある。 ノイズAugの成功を理解するために、我々は広範な分析を行い、破滅的オーバーフィッティング(CO)とロバストオーバーフィッティング(RO)の緩和には異なる拡張が必要であることを発見した。 データ拡張によるサンプル数を増やす代わりに,局所線形性の向上にcoの防止にどのような効果があるかを明らかにする。

Adversarial training (AT) and its variants are the most effective approaches for obtaining adversarially robust models. A unique characteristic of AT is that an inner maximization problem needs to be solved repeatedly before the model weights can be updated, which makes the training slow. FGSM AT significantly improves its efficiency but it fails when the step size grows. The SOTA GradAlign makes FGSM AT compatible with a higher step size, however, its regularization on input gradient makes it 3 to 4 times slower than FGSM AT. Our proposed NoiseAug removes the extra computation overhead by directly regularizing on the input itself. The key contribution of this work lies in an empirical finding that single-step FGSM AT is not as hard as suggested in the past line of work: noise augmentation is all you need for (FGSM) fast AT. Towards understanding the success of our NoiseAug, we perform an extensive analysis and find that mitigating Catastrophic Overfitting (CO) and Robust Overfitting (RO) need different augmentations. Instead of more samples caused by data augmentation, we identify what makes NoiseAug effective for preventing CO might lie in its improved local linearity.
翻訳日:2022-02-15 03:58:37 公開日:2022-02-11
# (参考訳) Entroformer: 学習画像圧縮のためのトランスフォーマーに基づくエントロピーモデル [全文訳有]

Entroformer: A Transformer-based Entropy Model for Learned Image Compression ( http://arxiv.org/abs/2202.05492v1 )

ライセンス: CC BY 4.0
Yichen Qian, Ming Lin, Xiuyu Sun, Zhiyu Tan, Rong Jin(参考訳) 損失深い画像圧縮における重要な要素の1つはエントロピーモデルであり、符号化および復号モジュールにおける量子化潜在表現の確率分布を予測する。 以前の研究では、グローバルな依存関係を捉えるのに非効率な畳み込みニューラルネットワーク上にエントロピーモデルを構築していた。 本研究では,確率分布推定における長距離依存性を効果的かつ効率的に捉えるために,トランスフォーマーに基づくエントロピーモデルであるEntroformerを提案する。 画像分類における視覚変換器とは異なり、Entroformerはトップk自己アテンションとダイヤモンド相対位置エンコーディングを含む画像圧縮に高度に最適化されている。 一方、このアーキテクチャをさらに並列双方向コンテキストモデルで拡張し、デコーディングプロセスを高速化します。 実験の結果,Entroformerは時間効率を保ちながら,画像圧縮の最先端性能を実現することがわかった。

One critical component in lossy deep image compression is the entropy model, which predicts the probability distribution of the quantized latent representation in the encoding and decoding modules. Previous works build entropy models upon convolutional neural networks which are inefficient in capturing global dependencies. In this work, we propose a novel transformer-based entropy model, termed Entroformer, to capture long-range dependencies in probability distribution estimation effectively and efficiently. Different from vision transformers in image classification, the Entroformer is highly optimized for image compression, including a top-k self-attention and a diamond relative position encoding. Meanwhile, we further expand this architecture with a parallel bidirectional context model to speed up the decoding process. The experiments show that the Entroformer achieves state-of-the-art performance on image compression while being time-efficient.
翻訳日:2022-02-15 03:43:27 公開日:2022-02-11
# (参考訳) ネットワーク上での高速かつロバストなスパーシリティ学習:分散化中間回帰アプローチ [全文訳有]

Fast and Robust Sparsity Learning over Networks: A Decentralized Surrogate Median Regression Approach ( http://arxiv.org/abs/2202.05498v1 )

ライセンス: CC BY 4.0
Weidong Liu, Xiaojun Mao, Xin Zhang(参考訳) 分散スパーシティ学習は、その急速に成長しているアプリケーションのために、近年多くの注目を集めている。 頑健でスパースな推定器を得るには、非スムース中央値の損失と$\ell_1$のスパルシティ正規化器を組み合わせることが自然な考えである。 しかし、既存の手法の多くは、"em double} の非スムース目的によって生じる収束性能の低下に苦しんでいる。 そこで本論文では,分散型サーロゲート中央回帰法 (desmr) を提案し,分散型スパーシティ学習問題を効率的に解く手法を提案する。 提案アルゴリズムは,簡単な実装で線形収束率を享受できることを示す。 また,統計的保証について検討し,提案した推定器がネットワークノード数に制限を加えることなく,ほぼ円の収束率を達成することを示す。 さらに, スパースサポートリカバリの理論的結果も確立した。 本手法の有効性を実証するために, 詳細な数値実験と実データ研究を行った。

Decentralized sparsity learning has attracted a significant amount of attention recently due to its rapidly growing applications. To obtain the robust and sparse estimators, a natural idea is to adopt the non-smooth median loss combined with a $\ell_1$ sparsity regularizer. However, most of the existing methods suffer from slow convergence performance caused by the {\em double} non-smooth objective. To accelerate the computation, in this paper, we proposed a decentralized surrogate median regression (deSMR) method for efficiently solving the decentralized sparsity learning problem. We show that our proposed algorithm enjoys a linear convergence rate with a simple implementation. We also investigate the statistical guarantee, and it shows that our proposed estimator achieves a near-oracle convergence rate without any restriction on the number of network nodes. Moreover, we establish the theoretical results for sparse support recovery. Thorough numerical experiments and real data study are provided to demonstrate the effectiveness of our method.
翻訳日:2022-02-15 03:29:18 公開日:2022-02-11
# (参考訳) 操舵角予測におけるセンサモデレータ協調のためのマルチモーダル融合 [全文訳有]

Multi-Modal Fusion for Sensorimotor Coordination in Steering Angle Prediction ( http://arxiv.org/abs/2202.05500v1 )

ライセンス: CC BY 4.0
Farzeen Munir, Shoaib Azam, Byung-Geun Lee and Moongu Jeon(参考訳) 終末的な方法での操舵角度予測のための感覚運動の協調学習には,専門家によるデモンストレーションが必要である。 これらの専門家のデモンストレーションは、環境知覚と車両制御データと組み合わせる。 従来のフレームベースのRGBカメラは、環境知覚データを取得するのに最も一般的な外部受動的センサーモダリティである。 フレームベースのRGBカメラは、エンドツーエンドの横方向制御の学習において単一のモダリティとして使用すると有望な結果が得られる。 しかし、従来のフレームベースのRGBカメラは、照度変化条件の操作性に制限があり、動きのぼけの影響を受けている。 イベントカメラは、フレームベースのRGBカメラに補完情報を提供する。 本研究は, フレームベースRGBとイベントデータの融合について検討し, 操舵角度の予測による横方向制御の学習を行う。 さらに、イベントデータからの表現とフレームベースのRGBデータとの融合によって、自動運転車の側面制御が堅牢に予測される。 そこで本稿では,エンド・ツー・エンドの側方制御を学習する新しい畳み込みエンコーダ・デコーダアーキテクチャであるdrfuserを提案する。 エンコーダモジュールは、フレームベースのrgbデータとイベントデータと自己接続層の間に分岐する。 さらに,本研究では,イベント,フレームベースrgb,車両制御データから収集したデータセットにも貢献した。 提案手法の有効性は,収集したデータセット,davis driving dataset (ddd) およびcarla eventscapeデータセットを用いて実験的に評価した。 実験の結果,提案手法は根平均二乗誤差 (RMSE) と平均絶対誤差 (MAE) を評価指標として,最先端の手法よりも優れていることがわかった。

Imitation learning is employed to learn sensorimotor coordination for steering angle prediction in an end-to-end fashion requires expert demonstrations. These expert demonstrations are paired with environmental perception and vehicle control data. The conventional frame-based RGB camera is the most common exteroceptive sensor modality used to acquire the environmental perception data. The frame-based RGB camera has produced promising results when used as a single modality in learning end-to-end lateral control. However, the conventional frame-based RGB camera has limited operability in illumination variation conditions and is affected by the motion blur. The event camera provides complementary information to the frame-based RGB camera. This work explores the fusion of frame-based RGB and event data for learning end-to-end lateral control by predicting steering angle. In addition, how the representation from event data fuse with frame-based RGB data helps to predict the lateral control robustly for the autonomous vehicle. To this end, we propose DRFuser, a novel convolutional encoder-decoder architecture for learning end-to-end lateral control. The encoder module is branched between the frame-based RGB data and event data along with the self-attention layers. Moreover, this study has also contributed to our own collected dataset comprised of event, frame-based RGB, and vehicle control data. The efficacy of the proposed method is experimentally evaluated on our collected dataset, Davis Driving dataset (DDD), and Carla Eventscape dataset. The experimental results illustrate that the proposed method DRFuser outperforms the state-of-the-art in terms of root-mean-square error (RMSE) and mean absolute error (MAE) used as evaluation metrics.
翻訳日:2022-02-15 03:04:44 公開日:2022-02-11
# (参考訳) 議論フレームワークの望ましい拡張について: ナイーブ拡張による単射 [全文訳有]

On the preferred extensions of argumentation frameworks: bijections with naive extensions ( http://arxiv.org/abs/2202.05506v1 )

ライセンス: CC BY 4.0
Mohammed Elaroussi, Lhouari Nourine, Mohammed Said Radjef and Simon Vilmin(参考訳) 本稿では,他のフレームワークのナイーブ拡張による単射によって,議論フレームワークの望ましい拡張を求める問題を扱う。 まず、議論フレームワークがナイーブ実現可能であり、そのナイーブで好まれる拡張が等しい場合を考える。 直感的に実現可能な議論フレームワークの認識は難しいが、境界のあるフレームワークでは難解であることを示す。 次に、議論フレームワークの望ましい拡張が許容される(二つの許容集合の交叉が許容される)ことと、同じ議論の集合上の他のフレームワークの素な拡張との間をビジェクションする。 一方、許容クローズドな議論フレームワークの同定はcoNP完全であることを示す。 最後に、既約自己防衛集合の概念を、他者の和集合ではない集合として導入する。 議論フレームワークの好ましい拡張と、その既約自己防衛集合上のフレームワークの素な拡張との間には、双対が存在することが判明した。 したがって、いくつかの格子特性を持つ議論フレームワークの望ましい拡張は多項式遅延と多項式空間でリストすることができる。

This paper deals with the problem of finding the preferred extensions of an argumentation framework by means of a bijection with the naive extensions of another framework. First we consider the case where an argumentation framework is naive-realizable: its naive and preferred extensions are equal. Recognizing naive-realizable argumentation frameworks is hard, but we show that it is tractable for frameworks with bounded in-degree. Next, we give a bijection between the preferred extensions of an argumentation framework being admissible-closed (the intersection of two admissible sets is admissible) and the naive extensions of another framework on the same set of arguments. On the other hand, we prove that identifying admissible-closed argumentation frameworks is coNP-complete. At last, we introduce the notion of irreducible self-defending sets as those that are not the union of others. It turns out there exists a bijection between the preferred extensions of an argumentation framework and the naive extensions of a framework on its irreducible self-defending sets. Consequently, the preferred extensions of argumentation frameworks with some lattice properties can be listed with polynomial delay and polynomial space.
翻訳日:2022-02-15 02:48:37 公開日:2022-02-11
# (参考訳) ReLUネットワークにおける入射バイアスの支持ベクトルと勾配ダイナミクス [全文訳有]

Support Vectors and Gradient Dynamics for Implicit Bias in ReLU Networks ( http://arxiv.org/abs/2202.05510v1 )

ライセンス: CC BY 4.0
Sangmin Lee, Byeongsu Sim, Jong Chul Ye(参考訳) 勾配降下の暗黙のバイアスを理解することは、機械学習研究の重要な目標である。 残念なことに、単一ニューロンReLUネットワークであっても、モデルパラメータのノルムの明示的な関数によって平方損失による暗黙の正規化を特徴付けることは不可能である。 本稿では,ReLUネットワークの既存理論と興味深い経験的挙動のギャップを埋めるために,単一ニューロンReLUネットワークをトレーニングする際のパラメータ空間の勾配流のダイナミクスについて検討する。 具体的には、reluネットワークにおけるサポートベクターの観点で暗黙のバイアスを発見し、reluネットワークがうまく一般化する理由と方法において重要な役割を果たす。 さらに,初期化のノルムの大きさに関して勾配流を解析し,勾配ダイナミクスにおけるノルムの影響を示す。 最後に,ある条件下では,学習重みのノルムが勾配流に対して厳密に増加することが証明される。

Understanding implicit bias of gradient descent has been an important goal in machine learning research. Unfortunately, even for a single-neuron ReLU network, it recently proved impossible to characterize the implicit regularization with the square loss by an explicit function of the norm of model parameters. In order to close the gap between the existing theory and the intriguing empirical behavior of ReLU networks, here we examine the gradient flow dynamics in the parameter space when training single-neuron ReLU networks. Specifically, we discover implicit bias in terms of support vectors in ReLU networks, which play a key role in why and how ReLU networks generalize well. Moreover, we analyze gradient flows with respect to the magnitude of the norm of initialization, and show the impact of the norm in gradient dynamics. Lastly, under some conditions, we prove that the norm of the learned weight strictly increases on the gradient flow.
翻訳日:2022-02-15 02:32:59 公開日:2022-02-11
# (参考訳) 教師なしからFew-shot グラフ異常検出へ:マルチスケールコントラスト学習アプローチ [全文訳有]

From Unsupervised to Few-shot Graph Anomaly Detection: A Multi-scale Contrastive Learning Approach ( http://arxiv.org/abs/2202.05525v1 )

ライセンス: CC BY 4.0
Yu Zheng, Ming Jin, Yixin Liu, Lianhua Chi, Khoa T. Phan, Shirui Pan, Yi-Ping Phoebe Chen(参考訳) グラフデータからの異常検出は、ソーシャルネットワーク、金融、eコマースなど多くのアプリケーションにおいて重要なデータマイニングタスクである。 グラフ異常検出における既存の取り組みは、通常、単一のスケール(ビュー)でのみ情報を考慮するため、複雑なグラフデータ中の異常パターンをキャプチャする能力は必然的に制限される。 この制限に対処するために,マルチスケールcONtrastive lEarning (略してANEMONE) を用いた新しいフレームワーク Anomaly dEtection フレームワークを提案する。 グラフニューラルネットワークをバックボーンとして、複数のグラフスケール(ビュー)から情報をエンコードすることで、グラフ内のノードのより良い表現を学習する。 パッチレベルとコンテキストレベルの両方のインスタンス間の一致を同時に最大化する際、複数の視点からの一致度に応じて、統計的異常推定器を用いて各ノードの異常スコアを推定する。 さらに,実生活アプリケーションで収集可能な一握りの接地異常(フェウショット異常)をさらに活用するために,拡張アルゴリズムであるanemone-fsを提案する。 また,提案手法であるanemoneとその変種であるanemone-fsが,6つのベンチマークデータセットにおける最先端アルゴリズムを一貫して上回っていることを示す。

Anomaly detection from graph data is an important data mining task in many applications such as social networks, finance, and e-commerce. Existing efforts in graph anomaly detection typically only consider the information in a single scale (view), thus inevitably limiting their capability in capturing anomalous patterns in complex graph data. To address this limitation, we propose a novel framework, graph ANomaly dEtection framework with Multi-scale cONtrastive lEarning (ANEMONE in short). By using a graph neural network as a backbone to encode the information from multiple graph scales (views), we learn better representation for nodes in a graph. In maximizing the agreements between instances at both the patch and context levels concurrently, we estimate the anomaly score of each node with a statistical anomaly estimator according to the degree of agreement from multiple perspectives. To further exploit a handful of ground-truth anomalies (few-shot anomalies) that may be collected in real-life applications, we further propose an extended algorithm, ANEMONE-FS, to integrate valuable information in our method. We conduct extensive experiments under purely unsupervised settings and few-shot anomaly detection settings, and we demonstrate that the proposed method ANEMONE and its variant ANEMONE-FS consistently outperform state-of-the-art algorithms on six benchmark datasets.
翻訳日:2022-02-15 01:57:31 公開日:2022-02-11
# (参考訳) MusIAC:マルチレベル制御による音楽入力アプリケーションのための拡張可能な生成フレームワーク [全文訳有]

MusIAC: An extensible generative framework for Music Infilling Applications with multi-level Control ( http://arxiv.org/abs/2202.05528v1 )

ライセンス: CC BY 4.0
Rui Guo, Ivor Simpson, Chris Kiefer, Thor Magnusson, Dorien Herremans(参考訳) 本稿では,ユーザフレンドリーなインタフェースを備えた音楽インフィルディングのための新しい音楽生成フレームワークを提案する。 インフィルディング(infilling)は、周囲の多トラック音楽から音楽セクションを生成する作業である。 提案するトランスフォーマティブベースのフレームワークは,バーあたりの音圧やトラックポリフォニーレベルなどの付加的な音楽制御トークンとして,新たなコントロールトークン用に拡張可能である。 音楽的に意味のある制御トークンを複数含み、ピッチとリズムに関連する客観的指標を用いて結果を評価する。 以上の結果から,コントロールトークンの追加により,楽曲のスタイル的類似度が高まることが判明した。 また、従来のトラック密度の制御のみを提供していた研究と比較して、各バーの音色や音色張力などの特性を変えるためのコントロールも提供します。 インタラクティブな生成を可能にするために,Google Colabノートブックにモデルを提示する。

We present a novel music generation framework for music infilling, with a user friendly interface. Infilling refers to the task of generating musical sections given the surrounding multi-track music. The proposed transformer-based framework is extensible for new control tokens as the added music control tokens such as tonal tension per bar and track polyphony level in this work. We explore the effects of including several musically meaningful control tokens, and evaluate the results using objective metrics related to pitch and rhythm. Our results demonstrate that adding additional control tokens helps to generate music with stronger stylistic similarities to the original music. It also provides the user with more control to change properties like the music texture and tonal tension in each bar compared to previous research which only provided control for track density. We present the model in a Google Colab notebook to enable interactive generation.
翻訳日:2022-02-15 01:32:17 公開日:2022-02-11
# (参考訳) 多変量データを用いた教師なし異常検出のためのカプセルとLSTMネットワークのハイブリッド化 [全文訳有]

Hybridization of Capsule and LSTM Networks for unsupervised anomaly detection on multivariate data ( http://arxiv.org/abs/2202.05538v1 )

ライセンス: CC BY 4.0
Ayman Elhalwagy and Tatiana Kalganova(参考訳) 近年、深層学習技術は、従来の統計モデリングや信号処理に基づく手法と比較して、フレキシブルで効果的なモデリング手法を提供する、異常検出の分野で有望であることが示されている。 しかし、ニューラルネットワーク(NN)が直面している問題には、一般化能力、大量のラベル付きデータを効果的にトレーニングし、データの空間的コンテキストを理解するために必要となるものなどがある。 本稿では,多変量時系列データに使用する分岐入力オートエンコーダアーキテクチャにおいて,lstm(long-short-ter m-memory)とカプセルネットワークを単一ネットワークにハイブリッド化する,新しいnnアーキテクチャを提案する。 提案手法は教師なし学習手法を用いて,大量のラベル付きトレーニングデータを見つける際の課題を克服する。 実験の結果,超パラメータ最適化がなければ,カプセルの使用により過度な適合が著しく減少し,トレーニング効率が向上することが示された。 さらに, 分岐入力モデルでは, 非分岐入力モデルと比較してカプセルの有無に関わらず, 多変量データの学習が可能であった。 提案したモデルアーキテクチャは、オープンソースベンチマークでもテストされ、オプティラ検出における最先端のパフォーマンスを達成し、現在の最先端の手法と比較してテストされたメトリクスよりも全体的なパフォーマンスが向上した。

Deep learning techniques have recently shown promise in the field of anomaly detection, providing a flexible and effective method of modelling systems in comparison to traditional statistical modelling and signal processing-based methods. However, there are a few well publicised issues Neural Networks (NN)s face such as generalisation ability, requiring large volumes of labelled data to be able to train effectively and understanding spatial context in data. This paper introduces a novel NN architecture which hybridises the Long-Short-Term-Memo ry (LSTM) and Capsule Networks into a single network in a branched input Autoencoder architecture for use on multivariate time series data. The proposed method uses an unsupervised learning technique to overcome the issues with finding large volumes of labelled training data. Experimental results show that without hyperparameter optimisation, using Capsules significantly reduces overfitting and improves the training efficiency. Additionally, results also show that the branched input models can learn multivariate data more consistently with or without Capsules in comparison to the non-branched input models. The proposed model architecture was also tested on an open-source benchmark, where it achieved state-of-the-art performance in outlier detection, and overall performs best over the metrics tested in comparison to current state-of-the art methods.
翻訳日:2022-02-15 00:56:40 公開日:2022-02-11
# (参考訳) シャッフル・リニア・コンテクスト・バンディット

Shuffle Private Linear Contextual Bandits ( http://arxiv.org/abs/2202.05567v1 )

ライセンス: CC BY 4.0
Sayak Ray Chowdhury and Xingyu Zhou(参考訳) 微分プライバシ(DP)は、最近、関連するパーソナライズされたサービスのプライバシーに関する懸念を、参加ユーザ(例えばレコメンデーション)に正式に対処するために、線形コンテキストのバンドイットに導入された。 これまでは主にDPの2つの信頼モデルに焦点を当てていた。中央サーバがユーザーの機密データを保護している中央モデルと、情報を直接ユーザー側で保護する必要がある(強烈な)ローカルモデルだ。 しかし、これらの2つのプライバシモデルの下でアルゴリズムを学習することによって実現されるユーティリティには根本的なギャップが残っている。例えば、中央モデルでは$\tilde{o}(\sqrt{t})$ regret であり、ローカルモデルでは$\tilde{o}(t^{3/4})$ regret である。 本研究は,最近普及しているシャッフル・プライバシ・モデルを考慮することで,地方モデルよりも小さな後悔を被りながら,中央モデルよりも強力な信頼モデルを実現することを目的とする。 シャッフル信頼モデルでは,ユーザと中央サーバの間に信頼されたシャッフルが存在するため,サーバに送信する前にユーザデータのバッチをランダムに置換する,線形コンテキストバンディットのための一般的なアルゴリズムフレームワークを提案する。 次に、このフレームワークを2つの特定のシャッフルプロトコルでインスタンス化します。1つはローカルメカニズムのプライバシーの増幅、もう1つは有界ノルムのベクトルと行列を和めるプロトコルを組み込んだものです。 これらのインスタンス化の両方が、ローカルモデルのインスタンスを著しく改善した後悔の保証をもたらすことを証明し、すべてのユーザがユニークであるなら$\tilde{o}(t^{3/5})$となる可能性がある。 また, 合成データのシミュレーションにより, この後悔行動を検証する。 最後に、非一般ユーザの現実的なシナリオ下では、シャッフルプライベートアルゴリズムの後悔は$\tilde{O}(T^{2/3})$とスケールし、この場合、中心モデルが達成できるものと一致することを示す。

Differential privacy (DP) has been recently introduced to linear contextual bandits to formally address the privacy concerns in its associated personalized services to participating users (e.g., recommendations). Prior work largely focus on two trust models of DP: the central model, where a central server is responsible for protecting users sensitive data, and the (stronger) local model, where information needs to be protected directly on user side. However, there remains a fundamental gap in the utility achieved by learning algorithms under these two privacy models, e.g., $\tilde{O}(\sqrt{T})$ regret in the central model as compared to $\tilde{O}(T^{3/4})$ regret in the local model, if all users are unique within a learning horizon $T$. In this work, we aim to achieve a stronger model of trust than the central model, while suffering a smaller regret than the local model by considering recently popular shuffle model of privacy. We propose a general algorithmic framework for linear contextual bandits under the shuffle trust model, where there exists a trusted shuffler in between users and the central server, that randomly permutes a batch of users data before sending those to the server. We then instantiate this framework with two specific shuffle protocols: one relying on privacy amplification of local mechanisms, and another incorporating a protocol for summing vectors and matrices of bounded norms. We prove that both these instantiations lead to regret guarantees that significantly improve on that of the local model, and can potentially be of the order $\tilde{O}(T^{3/5})$ if all users are unique. We also verify this regret behavior with simulations on synthetic data. Finally, under the practical scenario of non-unique users, we show that the regret of our shuffle private algorithm scale as $\tilde{O}(T^{2/3})$, which matches that the central model could achieve in this case.
翻訳日:2022-02-15 00:33:36 公開日:2022-02-11
# (参考訳) ログデータに基づく井戸の類似性学習 [全文訳有]

Similarity learning for wells based on logging data ( http://arxiv.org/abs/2202.05583v1 )

ライセンス: CC0 1.0
Evgenia Romanenkova, Alina Rogulina, Anuar Shakirov, Nikolay Stulov, Alexey Zaytsev, Leyla Ismailova, Dmitry Kovalev, Klemens Katterbauer, Abdallah AlShehri(参考訳) 地質調査における最初のステップの1つは、インターウェル相関である。 地質モデルの構築と炭化水素の埋蔵量評価のための枠組みを含むため、研究中の物体の構造に関する情報を提供する。 今日、詳細なインターウェル相関は、詳細なログデータの手動分析に依存している。 したがって、時間がかかり、主観的な性質を持つ。 インターウェル相関の本質は地質学的プロファイル間の類似性の評価である。 ルールベースのアプローチ、古典的な機械学習アプローチ、そして過去のディープラーニングアプローチによって、インターウェル相関のプロセスを自動化する多くの試みがあった。 しかし、ほとんどのアプローチは専門家の限られた使用法と固有の主観性である。 本研究では,深層学習モデルに基づく地質プロファイル類似度推定手法を提案する。 我々の類似性モデルは、データを入力としてよく記録し、出力として井戸の類似性を提供する。 本研究の枠組みは,(1)井戸内の地質プロファイルのパターンや重要な特徴を抽出し,(2)手動による解析・解釈を必要とせず,教師なしパラダイムによるモデルトレーニングを可能にする。 モデルテストでは、ニュージーランドとノルウェーを起源とする2つのオープンデータセットを使用しました。 データに基づく類似性モデルは高い性能を提供する:我々のモデルの精度は0.926ドルであるのに対し、一般的な勾配向上アプローチに基づくベースラインは0.787ドルである。 これにより、オイルアンドガスの実践者は、インターウェル相関品質を改善し、運転時間を短縮することができる。

One of the first steps during the investigation of geological objects is the interwell correlation. It provides information on the structure of the objects under study, as it comprises the framework for constructing geological models and assessing hydrocarbon reserves. Today, the detailed interwell correlation relies on manual analysis of well-logging data. Thus, it is time-consuming and of a subjective nature. The essence of the interwell correlation constitutes an assessment of the similarities between geological profiles. There were many attempts to automate the process of interwell correlation by means of rule-based approaches, classic machine learning approaches, and deep learning approaches in the past. However, most approaches are of limited usage and inherent subjectivity of experts. We propose a novel framework to solve the geological profile similarity estimation based on a deep learning model. Our similarity model takes well-logging data as input and provides the similarity of wells as output. The developed framework enables (1) extracting patterns and essential characteristics of geological profiles within the wells and (2) model training following the unsupervised paradigm without the need for manual analysis and interpretation of well-logging data. For model testing, we used two open datasets originating in New Zealand and Norway. Our data-based similarity models provide high performance: the accuracy of our model is $0.926$ compared to $0.787$ for baselines based on the popular gradient boosting approach. With them, an oil\&gas practitioner can improve interwell correlation quality and reduce operation time.
翻訳日:2022-02-15 00:31:25 公開日:2022-02-11
# (参考訳) 機械学習とニューラルネットワークを用いた発電プラントの燃費予測 [全文訳有]

Predicting Fuel Consumption in Power Generation Plants using Machine Learning and Neural Networks ( http://arxiv.org/abs/2202.05591v1 )

ライセンス: CC BY 4.0
Gabin Maxime Nguegnang, Marcellin Atemkeng, Theophilus Ansah-Narh, Rockefeller Rockefeller, Gabin Maxime Nguegnang, Marco Andrea Garuti(参考訳) 電力網からの発電の不安定さにより、産業(電気通信など)はプラント発電機に依存して事業を営むようになった。 しかし、これらの二次発電機は、システムの内外への燃料漏れや燃料レベルゲージの摂動など、さらなる課題を生んでいる。 そのため、電気通信事業者はディーゼル発電機の供給に常に燃料を必要としている。 社会経済的要因による燃料価格の上昇に伴い、過剰な燃料消費と燃料の投下が問題となり、ネットワーク企業の円滑な運営に影響を及ぼす。 本研究では,4つの機械学習アルゴリズム(勾配ブースティング,ランダムフォレスト,ニューラルネットワーク,lasso)を比較し,発電プラントで消費される燃料量を予測する。 これらのモデルの予測精度を評価すると、勾配ブースティングモデルは、他の3つのレグレッサーモデルよりも高いnash効率値99.1%の精度を持つ。

The instability of power generation from national grids has led industries (e.g., telecommunication) to rely on plant generators to run their businesses. However, these secondary generators create additional challenges such as fuel leakages in and out of the system and perturbations in the fuel level gauges. Consequently, telecommunication operators have been involved in a constant need for fuel to supply diesel generators. With the increase in fuel prices due to socio-economic factors, excessive fuel consumption and fuel pilferage become a problem, and this affects the smooth run of the network companies. In this work, we compared four machine learning algorithms (i.e. Gradient Boosting, Random Forest, Neural Network, and Lasso) to predict the amount of fuel consumed by a power generation plant. After evaluating the predictive accuracy of these models, the Gradient Boosting model out-perform the other three regressor models with the highest Nash efficiency value of 99.1%.
翻訳日:2022-02-15 00:06:42 公開日:2022-02-11
# (参考訳) 機械学習におけるshapley値 [全文訳有]

The Shapley Value in Machine Learning ( http://arxiv.org/abs/2202.05594v1 )

ライセンス: CC BY 4.0
Benedek Rozemberczki, Lauren Watson, P\'eter Bayer, Hao-Tsung Yang, Oliv\'er Kiss, Sebastian Nilsson, Rik Sarkar(参考訳) ここ数年、協調ゲーム理論のソリューション概念であるShapleyの価値は、機械学習に多くの応用を見出した。 本稿ではまず,協調ゲーム理論の基本概念とシェープリー値の公理的性質について論じる。 次に,機械学習におけるshapley値の最も重要な応用について概説する。特徴選択,説明可能性,マルチエージェント強化学習,アンサンブルプルーニング,データ評価。 シェープリー値の最も重要な限界について検討し、今後の研究の方向性を指摘する。

Over the last few years, the Shapley value, a solution concept from cooperative game theory, has found numerous applications in machine learning. In this paper, we first discuss fundamental concepts of cooperative game theory and axiomatic properties of the Shapley value. Then we give an overview of the most important applications of the Shapley value in machine learning: feature selection, explainability, multi-agent reinforcement learning, ensemble pruning, and data valuation. We examine the most crucial limitations of the Shapley value and point out directions for future research.
翻訳日:2022-02-15 00:01:32 公開日:2022-02-11
# (参考訳) オンライン意思決定変換器 [全文訳有]

Online Decision Transformer ( http://arxiv.org/abs/2202.05607v1 )

ライセンス: CC BY 4.0
Qinqing Zheng, Amy Zhang, Aditya Grover(参考訳) 近年の研究では、オフライン強化学習(RL)がシーケンスモデリング問題(Chen et al., 2021; Janner et al., 2021)として定式化され、大規模言語モデリングに類似したアプローチで解かれることが示されている。 しかし、RLの実用的なインスタンス化にはオンラインコンポーネントも含まれており、受動的オフラインデータセットで事前訓練されたポリシーは、タスク固有の環境とのインタラクションを通じて微調整される。 オフライン事前学習とオンライン微調整を統合フレームワークでブレンドするシーケンスモデリングに基づくRLアルゴリズムであるオンライン決定変換器(ODT)を提案する。 本フレームワークは, サンプル効率の高い探索および微調整のための自己回帰モデリング目的と合わせて, シーケンスレベルのエントロピー正規化器を用いる。 実験により,ODTはD4RLベンチマークの絶対性能において最先端技術と競合するが,ファインタニング処理においてより顕著な利得を示す。

Recent work has shown that offline reinforcement learning (RL) can be formulated as a sequence modeling problem (Chen et al., 2021; Janner et al., 2021) and solved via approaches similar to large-scale language modeling. However, any practical instantiation of RL also involves an online component, where policies pretrained on passive offline datasets are finetuned via taskspecific interactions with the environment. We propose Online Decision Transformers (ODT), an RL algorithm based on sequence modeling that blends offline pretraining with online finetuning in a unified framework. Our framework uses sequence-level entropy regularizers in conjunction with autoregressive modeling objectives for sample-efficient exploration and finetuning. Empirically, we show that ODT is competitive with the state-of-the-art in absolute performance on the D4RL benchmark but shows much more significant gains during the finetuning procedure.
翻訳日:2022-02-14 23:44:17 公開日:2022-02-11
# (参考訳) 高次元における模擬イジングモデルの推論とFDR制御

Inference and FDR Control for Simulated Ising Models in High-dimension ( http://arxiv.org/abs/2202.05612v1 )

ライセンス: CC BY 4.0
Haoyu Wei, Xiaoyu Lei, Huiming Zhang(参考訳) 本稿では,高次元背景におけるシミュレーションイジングモデルの一貫性と統計的推論について検討する。 提案手法は, マルコフ連鎖モンテカルロ最大推定法 (MCMC-MLE) に基づく。 MCMC法の特定の収束率を保証する穏やかな条件下では、弾性ネットペナル化MCMC-MLEの$\ell_{1}$一貫性が証明される。 さらに,非相関スコア関数に基づく非相関スコアテストを提案し,MCMC法の収束を加速させる仮定の下で,多くのニュアンスパラメータの影響を受けずにスコア関数の漸近正規性を証明する。 興味のある1つのパラメータに対するワンステップ推定器は、その根を解くために相関スコア関数を線形化し、真の値に対する正規性と信頼区間を確立することにより、目的とする。 最後に、従来のp値と新しいe値を用いて、異なるアルゴリズムを用いて偽発見率(FDR)を制御する。

This paper studies the consistency and statistical inference of simulated Ising models in the high dimensional background. Our estimators are based on the Markov chain Monte Carlo maximum likelihood estimation (MCMC-MLE) method penalized by the Elastic-net. Under mild conditions that ensure a specific convergence rate of MCMC method, the $\ell_{1}$ consistency of Elastic-net-penalize d MCMC-MLE is proved. We further propose a decorrelated score test based on the decorrelated score function and prove the asymptotic normality of the score function without the influence of many nuisance parameters under the assumption that accelerates the convergence of the MCMC method. The one-step estimator for a single parameter of interest is purposed by linearizing the decorrelated score function to solve its root, as well as its normality and confidence interval for the true value, therefore, be established. Finally, we use different algorithms to control the false discovery rate (FDR) via traditional p-values and novel e-values.
翻訳日:2022-02-14 23:19:30 公開日:2022-02-11
# (参考訳) CMW-Net:ロバストディープラーニングのためのクラス認識サンプル重み付けマッピング学習

CMW-Net: Learning a Class-Aware Sample Weighting Mapping for Robust Deep Learning ( http://arxiv.org/abs/2202.05613v1 )

ライセンス: CC BY 4.0
Jun Shu, Xiang Yuan, Deyu Meng, Zongben Xu(参考訳) 現代のディープニューラルネットワークは、破損したラベルやクラス不均衡を含むバイアス付きトレーニングデータに容易に適合する。 サンプルの再重み付け手法は、このデータバイアス問題を解決するために広く使われている。 しかし、現在のほとんどの手法では、調査された問題の特徴やトレーニングデータに依存した重み付けスキームと追加のハイパーパラメータを手動で事前指定する必要がある。 これにより、大きな複雑さとデータバイアス状況のクラス間変異のため、実際のシナリオで一般的に適用することがかなり困難になる。 そこで本研究では,データから直接明示的な重み付け方式を適応的に学習できるメタモデルを提案する。 具体的には,各学習クラスを個別の学習タスクと見なすことで,各学習クラスに固有のバイアス特性に基づいて適応的に重み付け方式を課すことを期待して,サンプル損失とタスク/クラス特徴を入力として,サンプル重み付け関数を標本重み付けを出力として抽出することを目的とする。 合成および実データ実験は、クラス不均衡、特徴非依存および依存ラベルノイズシナリオ、従来よりも複雑なバイアスシナリオなど、様々なデータバイアスケースにおいて適切な重み付けスキームを実現するための方法の有効性を実証する。 さらに、より小規模なCIFAR-10データセットで学習した重み付け関数を、より大規模なフルWebVisionデータセット上に容易に展開することにより、学習した重み付けスキームのタスク転送性も裏付けられる。 パフォーマンス向上は、追加のハイパーパラメータチューニングとメタ勾配降下ステップなしで、以前のSOATと比較して容易に達成できます。 部分ラベル学習,半教師付き学習,選択的分類など,複数の頑健な深層学習問題に対する本手法の汎用性も検証されている。

Modern deep neural networks can easily overfit to biased training data containing corrupted labels or class imbalance. Sample re-weighting methods are popularly used to alleviate this data bias issue. Most current methods, however, require to manually pre-specify the weighting schemes as well as their additional hyper-parameters relying on the characteristics of the investigated problem and training data. This makes them fairly hard to be generally applied in practical scenarios, due to their significant complexities and inter-class variations of data bias situations. To address this issue, we propose a meta-model capable of adaptively learning an explicit weighting scheme directly from data. Specifically, by seeing each training class as a separate learning task, our method aims to extract an explicit weighting function with sample loss and task/class feature as input, and sample weight as output, expecting to impose adaptively varying weighting schemes to different sample classes based on their own intrinsic bias characteristics. Synthetic and real data experiments substantiate the capability of our method on achieving proper weighting schemes in various data bias cases, like the class imbalance, feature-independent and dependent label noise scenarios, and more complicated bias scenarios beyond conventional cases. Besides, the task-transferability of the learned weighting scheme is also substantiated, by readily deploying the weighting function learned on relatively smaller-scale CIFAR-10 dataset on much larger-scale full WebVision dataset. A performance gain can be readily achieved compared with previous SOAT ones without additional hyper-parameter tuning and meta gradient descent step. The general availability of our method for multiple robust deep learning issues, including partial-label learning, semi-supervised learning and selective classification, has also been validated.
翻訳日:2022-02-14 23:18:32 公開日:2022-02-11
# (参考訳) 料金徴収のための新規データセットを用いた車両およびナンバープレート認識 [全文訳有]

Vehicle and License Plate Recognition with Novel Dataset for Toll Collection ( http://arxiv.org/abs/2202.05631v1 )

ライセンス: CC BY 4.0
Muhammad Usama, Hafeez Anwar, Muhammad Muaz Shahid, Abbas Anwar, Saeed Anwar, Helmuth Hlavacs(参考訳) 車両のタイプ認識,ライセンスプレートのローカライゼーション,読み取りという3つのステップからなる,料金徴収のための自動フレームワークを提案する。 しかし、3つのステップはそれぞれ、いくつかの要因によって引き起こされる画像の変化によって、非自明になる。 正面の伝統的な車両装飾は、同じタイプの車両に変化をもたらす。 これらの装飾は、厳しい背景乱雑と部分閉塞のため、ナンバープレートのローカライゼーションと認識を困難にしている。 同様に、ほとんどの車両、特にトラックでは、ナンバープレートの位置は一貫していない。 最後に、ナンバープレートの読み取りでは、バリエーションは一様でないフォントのスタイル、サイズ、および部分的にオクルードされた文字と数字によって引き起こされる。 提案するフレームワークは,backboneディープラーニングアーキテクチャのデータ可用性とパフォーマンス評価の両方を活用する。 6種類の車両に属する10k画像からなる新しいデータセットである \emph{Diverse Vehicle and License Plates Dataset (DVLPD) を収集する。 それぞれの画像は手動で車種、ナンバープレート、文字と数字に注釈付けされる。 3つのタスクそれぞれに対して、You Only Look Once (YOLO)v2、YOLOv3、YOLOv4、FasterRCNNを評価します。 Raspberry Pi上でのリアルタイム実装では,Tiny YOLOv3とTiny YOLOv4と名付けられたYOLOの軽量バージョンを評価する。 最良平均精度(map@0.5)は98.8%、ナンバープレート検出98.5%、ナンバープレート読取98.3%であり、ライトバージョンであるtiny yolov4は97.1%、97.4%、93.7%を車両タイプ認識、ナンバープレート検出、ナンバープレート読取でそれぞれ取得した。 データセットとトレーニングコードはhttps://github.com/u sama-x930/vt-lprで入手できる。

We propose an automatic framework for toll collection, consisting of three steps: vehicle type recognition, license plate localization, and reading. However, each of the three steps becomes non-trivial due to image variations caused by several factors. The traditional vehicle decorations on the front cause variations among vehicles of the same type. These decorations make license plate localization and recognition difficult due to severe background clutter and partial occlusions. Likewise, on most vehicles, specifically trucks, the position of the license plate is not consistent. Lastly, for license plate reading, the variations are induced by non-uniform font styles, sizes, and partially occluded letters and numbers. Our proposed framework takes advantage of both data availability and performance evaluation of the backbone deep learning architectures. We gather a novel dataset, \emph{Diverse Vehicle and License Plates Dataset (DVLPD)}, consisting of 10k images belonging to six vehicle types. Each image is then manually annotated for vehicle type, license plate, and its characters and digits. For each of the three tasks, we evaluate You Only Look Once (YOLO)v2, YOLOv3, YOLOv4, and FasterRCNN. For real-time implementation on a Raspberry Pi, we evaluate the lighter versions of YOLO named Tiny YOLOv3 and Tiny YOLOv4. The best Mean Average Precision (mAP@0.5) of 98.8% for vehicle type recognition, 98.5% for license plate detection, and 98.3% for license plate reading is achieved by YOLOv4, while its lighter version, i.e., Tiny YOLOv4 obtained a mAP of 97.1%, 97.4%, and 93.7% on vehicle type recognition, license plate detection, and license plate reading, respectively. The dataset and the training codes are available at https://github.com/u sama-x930/VT-LPR
翻訳日:2022-02-14 23:15:59 公開日:2022-02-11
# (参考訳) コンテキスト帯域に対する効率的なカーネルUCB

Efficient Kernel UCB for Contextual Bandits ( http://arxiv.org/abs/2202.05638v1 )

ライセンス: CC BY 4.0
Houssam Zenati, Alberto Bietti, Eustache Diemert, Julien Mairal, Matthieu Martin, Pierre Gaillard(参考訳) 本稿では,文脈バンディットにおけるカーネル化ucbアルゴリズムの計算効率について検討する。 標準手法では、T が水平線であり、定数 C が UCB 規則の最適化に関連する O(CT^3) の複雑さを必要とするが、大規模問題に対する効率的な文脈アルゴリズムを提案する。 特に, この手法は, 文脈と動作の結合核埋め込みのインクリメンタルなナイストロム近似に依存する。 これにより、m がナイストローム点の数である O(CTm^2) の複雑性を達成することができる。 標準的な核化 UCB アルゴリズムと同じ後悔を取り戻すためには、m は O(\sqrt(T)) であり、場合によってはほぼ一定である問題の有効次元の順序である必要がある。

In this paper, we tackle the computational efficiency of kernelized UCB algorithms in contextual bandits. While standard methods require a O(CT^3) complexity where T is the horizon and the constant C is related to optimizing the UCB rule, we propose an efficient contextual algorithm for large-scale problems. Specifically, our method relies on incremental Nystrom approximations of the joint kernel embedding of contexts and actions. This allows us to achieve a complexity of O(CTm^2) where m is the number of Nystrom points. To recover the same regret as the standard kernelized UCB algorithm, m needs to be of order of the effective dimension of the problem, which is at most O(\sqrt(T)) and nearly constant in some cases.
翻訳日:2022-02-14 22:56:21 公開日:2022-02-11
# (参考訳) SuperCon: 不均衡皮膚病変分類のためのコントラスト学習 [全文訳有]

SuperCon: Supervised Contrastive Learning for Imbalanced Skin Lesion Classification ( http://arxiv.org/abs/2202.05685v1 )

ライセンス: CC BY 4.0
Keyu Chen, Di Zhuang, J. Morris Chang(参考訳) 畳み込みニューラルネットワーク(CNN)は皮膚病変の分類において大きな成功を収めている。 適切なモデルをトレーニングするには、バランスのとれたデータセットが必要です。 しかし、実際には異なる皮膚病変が出現しているため、重度または致命的な皮膚病変(メラノーマなど)はデータセットで表される量が非常に少ない。 その際, 分類性能の低下が顕著であり, クラス不均衡皮膚病変画像データセットでよく機能するCNNを持つことが重要である。 本稿では,皮膚病変分類におけるクラス不均衡問題を克服するための2段階トレーニング戦略であるSuperConを提案する。 ステージは2つある。 (i)クラス内とクラス間が密に連携し、クラス間から離れた特徴表現を学習しようとする表現訓練 (ii)学習表現に基づいてラベルを正確に予測する分類器を学習することを目的とした分類器の微調整 実験的評価では,皮膚病変ベンチマークデータセットに対するアプローチと既存のアプローチとの広範な比較を行った。 その結果,2段階のトレーニング戦略はクラス不均衡の分類問題に効果的に対応し,f1-scoreとaucスコアの点で既存の作業を大幅に改善し,最新性能が得られた。

Convolutional neural networks (CNNs) have achieved great success in skin lesion classification. A balanced dataset is required to train a good model. However, due to the appearance of different skin lesions in practice, severe or even deadliest skin lesion types (e.g., melanoma) naturally have quite small amount represented in a dataset. In that, classification performance degradation occurs widely, it is significantly important to have CNNs that work well on class imbalanced skin lesion image dataset. In this paper, we propose SuperCon, a two-stage training strategy to overcome the class imbalance problem on skin lesion classification. It contains two stages: (i) representation training that tries to learn a feature representation that closely aligned among intra-classes and distantly apart from inter-classes, and (ii) classifier fine-tuning that aims to learn a classifier that correctly predict the label based on the learnt representations. In the experimental evaluation, extensive comparisons have been made among our approach and other existing approaches on skin lesion benchmark datasets. The results show that our two-stage training strategy effectively addresses the class imbalance classification problem, and significantly improves existing works in terms of F1-score and AUC score, resulting in state-of-the-art performance.
翻訳日:2022-02-14 22:54:51 公開日:2022-02-11
# (参考訳) 存在規則に対する保守的拡張 [全文訳有]

Conservative Extensions for Existential Rules ( http://arxiv.org/abs/2202.05689v1 )

ライセンス: CC BY 4.0
Jean Christoph Jung and Carsten Lutz and Jerzy Macinkowski(参考訳) タプル生成依存(TGD)の与えられた集合 T1,T2 を、T2 が T1 の保守的拡張であるか否かを判定する問題について検討する。 保存拡張の2つの自然概念を考える。1つはデータベース上の連結クエリに対する答えと、追跡されたデータベース間の準同型に関するものである。 これらの問題は線形TGDでは決定不能であり、T1が空でもガードTGDでは決定不能であり、フロンティアワンTGDでは決定不能である。

We study the problem to decide, given sets T1,T2 of tuple-generating dependencies (TGDs), also called existential rules, whether T2 is a conservative extension of T1. We consider two natural notions of conservative extension, one pertaining to answers to conjunctive queries over databases and one to homomorphisms between chased databases. Our main results are that these problems are undecidable for linear TGDs, undecidable for guarded TGDs even when T1 is empty, and decidable for frontier-one TGDs.
翻訳日:2022-02-14 22:36:12 公開日:2022-02-11
# (参考訳) HaT5:テキスト間転送変換器を用いたヘイト言語識別 [全文訳有]

HaT5: Hate Language Identification using Text-to-Text Transfer Transformer ( http://arxiv.org/abs/2202.05690v1 )

ライセンス: CC BY 4.0
Sana Sabah Sabry, Tosin Adewumi, Nosheen Abid, Gy\"orgy Kovacs, Foteini Liwicki and Marcus Liwicki(参考訳) 現状技術(SoTA)アーキテクチャT5(SuperGLUEで利用可能)の性能について検討し、比較的多様な2つのデータセットから5つのタスクにまたがる他の3つのSoTAアーキテクチャと比較する。 データセットは、それらが持つタスクの数と種類の観点から多種多様である。 性能向上のために,自己回帰モデルを用いてトレーニングデータを増強する。 OLID 2019データセットのタスクAのマクロF1スコアは81.66%、ヘイトスピーチと攻撃コンテンツ(HASOC)2021データセットのタスクAの82.54%であり、それぞれ82.9%と83.05%である。 エラー解析を行い,公開アルゴリズムである統合勾配(ig)を用いて,モデル(bi-lstm)の1つが予測を行う理由を説明する。 これは、ユーザーの信頼を得るためには説明可能な人工知能(XAI)が不可欠であるからである。 この研究の主な貢献は、議論されているT5の実装方法、新しい会話型AIモデルチェックポイントを用いたデータ拡張によるパフォーマンス改善、HASOC 2021データセットの欠点に関する啓示である。 テストセットの基本的な真実が正しくない場合でも(私たちの意見では)、T5モデルが正しい予測を行った少数の例を用いて、データアノテーションの貧弱さを明らかにします。 また透明性を高めるために、HuggingFace Hub1のモデルチェックポイントも提供しています。

We investigate the performance of a state-of-the art (SoTA) architecture T5 (available on the SuperGLUE) and compare with it 3 other previous SoTA architectures across 5 different tasks from 2 relatively diverse datasets. The datasets are diverse in terms of the number and types of tasks they have. To improve performance, we augment the training data by using an autoregressive model. We achieve near-SoTA results on a couple of the tasks - macro F1 scores of 81.66% for task A of the OLID 2019 dataset and 82.54% for task A of the hate speech and offensive content (HASOC) 2021 dataset, where SoTA are 82.9% and 83.05%, respectively. We perform error analysis and explain why one of the models (Bi-LSTM) makes the predictions it does by using a publicly available algorithm: Integrated Gradient (IG). This is because explainable artificial intelligence (XAI) is essential for earning the trust of users. The main contributions of this work are the implementation method of T5, which is discussed; the data augmentation using a new conversational AI model checkpoint, which brought performance improvements; and the revelation on the shortcomings of HASOC 2021 dataset. It reveals the difficulties of poor data annotation by using a small set of examples where the T5 model made the correct predictions, even when the ground truth of the test set were incorrect (in our opinion). We also provide our model checkpoints on the HuggingFace hub1 to foster transparency.
翻訳日:2022-02-14 21:21:08 公開日:2022-02-11
# (参考訳) 可逆生成モデルによる連続学習

Continual Learning with Invertible Generative Models ( http://arxiv.org/abs/2202.05694v1 )

ライセンス: CC BY 4.0
Jary Pomponi, Simone Scardapane, Aurelio Uncini(参考訳) 破滅的な忘れ(cf)は、ニューラルネットワークが過去の知識を上書きし、新しいタスクでトレーニングされるたびに発生する。 cfを扱う一般的なテクニックには、重み付け(例えば、過去のタスクの重要性など)の正規化と、ネットワークが常に過去のデータで再トレーニングされるリハーサル戦略がある。 生成モデルは、無限のデータソースを持つために、後者にも適用されている。 本稿では,正規化の強みと生成に基づくリハーサル手法を組み合わせた新しい手法を提案する。 我々の生成モデルは、ネットワークの内部埋め込みに基づいて訓練された確率的で可逆なニューラルネットワークである正規化フロー(NF)で構成されている。 トレーニングプロセスを通じて単一のNFを維持することで、メモリオーバーヘッドが一定であることを示す。 さらに,NFの可逆性を生かして,過去のタスクに対するネットワークの埋め込みを標準化する簡単な手法を提案する。 本手法は,計算能力とメモリオーバーヘッドが制限された文献における最先端の手法を考慮し,良好に動作することを示す。

Catastrophic forgetting (CF) happens whenever a neural network overwrites past knowledge while being trained on new tasks. Common techniques to handle CF include regularization of the weights (using, e.g., their importance on past tasks), and rehearsal strategies, where the network is constantly re-trained on past data. Generative models have also been applied for the latter, in order to have endless sources of data. In this paper, we propose a novel method that combines the strengths of regularization and generative-based rehearsal approaches. Our generative model consists of a normalizing flow (NF), a probabilistic and invertible neural network, trained on the internal embeddings of the network. By keeping a single NF throughout the training process, we show that our memory overhead remains constant. In addition, exploiting the invertibility of the NF, we propose a simple approach to regularize the network's embeddings with respect to past tasks. We show that our method performs favorably with espect to state-of-the-art approaches in the literature, with bounded computational power and memory overheads.
翻訳日:2022-02-14 21:05:54 公開日:2022-02-11
# (参考訳) 正のラベルのないドメイン適応 [全文訳有]

Positive-Unlabeled Domain Adaptation ( http://arxiv.org/abs/2202.05695v1 )

ライセンス: CC BY 4.0
Jonas Sonntag, Gunnar Behrens, Lars Schmidt-Thieme(参考訳) ドメイン適応手法は、ラベル付きソースドメインからラベル不足ターゲットドメインへ効果的に一般化することが示されている。 これまでの研究は、対象とする監視のないラベル付きドメイン適応か、クラス毎にラベル付きターゲット例が少ない半教師付きドメイン適応に重点を置いてきた。 一方,Positive-Unlabeled (PU-) Learning (PU-) Learningは,否定的よりも肯定的なラベルの取得がはるかに容易であるため,弱教師付き学習文学への関心が高まっている。 本研究では,完全ラベル付きソースドメインから対象ドメインへの一般化を目標とし,正ラベルと無ラベルのデータのみを利用可能とする,正ラベル付きドメイン適応の課題を最初に紹介する。 本稿では,この課題に対する新たな2段階学習手法を提案する。まず,ソースドメインラベルと正ラベルリスク推定器によって誘導されるターゲットドメイン内の信頼性の高い正と負の擬似ラベルを同定する。 これにより、ターゲットドメインの標準分類器を第2ステップで使用することができます。 視覚オブジェクト認識のためのベンチマークデータセットで実験を行うことで、我々のアプローチを検証する。 さらに, パーキング占有データにおいて, 優れた性能を示す実例を提案し, 検証を行った。

Domain Adaptation methodologies have shown to effectively generalize from a labeled source domain to a label scarce target domain. Previous research has either focused on unlabeled domain adaptation without any target supervision or semi-supervised domain adaptation with few labeled target examples per class. On the other hand Positive-Unlabeled (PU-) Learning has attracted increasing interest in the weakly supervised learning literature since in quite some real world applications positive labels are much easier to obtain than negative ones. In this work we are the first to introduce the challenge of Positive-Unlabeled Domain Adaptation where we aim to generalise from a fully labeled source domain to a target domain where only positive and unlabeled data is available. We present a novel two-step learning approach to this problem by firstly identifying reliable positive and negative pseudo-labels in the target domain guided by source domain labels and a positive-unlabeled risk estimator. This enables us to use a standard classifier on the target domain in a second step. We validate our approach by running experiments on benchmark datasets for visual object recognition. Furthermore we propose real world examples for our setting and validate our superior performance on parking occupancy data.
翻訳日:2022-02-14 21:04:54 公開日:2022-02-11
# (参考訳) ディープネットワークによる音楽の音響欠陥検出 [全文訳有]

Audio Defect Detection in Music with Deep Networks ( http://arxiv.org/abs/2202.05718v1 )

ライセンス: CC BY 4.0
Daniel Wolff, R\'emi Mignot and Axel Roebel(参考訳) 生産から流通へデジタル転送される音楽量の増加に伴い、メディア品質を決定する自動手段が必要である。 デジタルオーディオ処理ツールにおける保護機構は、オーディオ品質を評価し、上流に挿入された欠陥を検出するために、配信チェーン下流に位置する生産エンティティの必要性を排除していない。 このような分析は、受信した音声と少ないメタデータのみに依存することが多い。 ポピュラー音楽のクリックや、最近のオーディオエンコーディングの破損に起因する欠陥などのアーティファクトの再検討は、検出のためのデータ中心でコンテキストに敏感なソリューションを呼び起こす。 本稿では,エンドツーエンドエンコーダデコーダの構成に従う畳み込みネットワークアーキテクチャを提案する。 クリック検出器を訓練し、従来の信号処理方法と比較し、コンテキストの感度について議論する。 追加の処理は、データ拡張とワークフローシミュレーションに使用される。 劣化したMP3圧縮音声の圧縮から人工物を検出するために, モデルが分散を捉える能力について検討した。 両タスクにおいて、制御された検出器トレーニングと評価のための人工人工物の生成について述べる。 我々は、大規模なオープンソースFree Music Archive (FMA) とジャンル別データセットを用いて、検知器の評価を行った。

With increasing amounts of music being digitally transferred from production to distribution, automatic means of determining media quality are needed. Protection mechanisms in digital audio processing tools have not eliminated the need of production entities located downstream the distribution chain to assess audio quality and detect defects inserted further upstream. Such analysis often relies on the received audio and scarce meta-data alone. Deliberate use of artefacts such as clicks in popular music as well as more recent defects stemming from corruption in modern audio encodings call for data-centric and context sensitive solutions for detection. We present a convolutional network architecture following end-to-end encoder decoder configuration to develop detectors for two exemplary audio defects. A click detector is trained and compared to a traditional signal processing method, with a discussion on context sensitivity. Additional post-processing is used for data augmentation and workflow simulation. The ability of our models to capture variance is explored in a detector for artefacts from decompression of corrupted MP3 compressed audio. For both tasks we describe the synthetic generation of artefacts for controlled detector training and evaluation. We evaluate our detectors on the large open-source Free Music Archive (FMA) and genre-specific datasets.
翻訳日:2022-02-14 20:46:29 公開日:2022-02-11
# (参考訳) トランスフォーマーを用いたディープサッカーキャプション:データセット、セマンティクス関連損失、マルチレベル評価 [全文訳有]

Deep soccer captioning with transformer: dataset, semantics-related losses, and multi-level evaluation ( http://arxiv.org/abs/2202.05728v1 )

ライセンス: CC BY 4.0
Ahmad Hammoudeh, Bastein Vanderplaetse, St\'ephane Dupont(参考訳) 本研究の目的は,深層学習を用いたサッカービデオのキャプション生成である。 本稿では,データセット,モデル,トリプルレベル評価について述べる。 データセットは22k字幕クリップペアと3つの視覚的特徴(画像、光学的流れ、塗装)からなり、500時間分のビデオを再生する。 モデルは3つの部分に分けられる: トランスフォーマーは言語を学習し、ConvNetsは視覚を学習し、言語的特徴と視覚的特徴の融合はキャプションを生成する。 本稿では,構文(BLEUスコアやCIDErなどの一般的な評価指標),意味(ドメインの専門家による記述の質),コーパス(生成されたキャプションの多様性)の3つのレベルにおいて,生成されたキャプションを評価することを提案する。 論文は,選択された単語を優先する意味論的損失により,生成キャプションの多様性(0.07から0.18まで)が向上したことを示す。 意味的関連損失と視覚的特徴(光学的フロー, 塗布)の利用により, 正規化キャプションスコアは28。 https://sites.google .com/view/soccercapt ioning}{https://sites.google .com/view/soccercapt ioning

This work aims at generating captions for soccer videos using deep learning. In this context, this paper introduces a dataset, model, and triple-level evaluation. The dataset consists of 22k caption-clip pairs and three visual features (images, optical flow, inpainting) for ~500 hours of \emph{SoccerNet} videos. The model is divided into three parts: a transformer learns language, ConvNets learn vision, and a fusion of linguistic and visual features generates captions. The paper suggests evaluating generated captions at three levels: syntax (the commonly used evaluation metrics such as BLEU-score and CIDEr), meaning (the quality of descriptions for a domain expert), and corpus (the diversity of generated captions). The paper shows that the diversity of generated captions has improved (from 0.07 reaching 0.18) with semantics-related losses that prioritize selected words. Semantics-related losses and the utilization of more visual features (optical flow, inpainting) improved the normalized captioning score by 28\%. The web page of this work: https://sites.google .com/view/soccercapt ioning}{https://sites.google .com/view/soccercapt ioning
翻訳日:2022-02-14 20:33:50 公開日:2022-02-11
# (参考訳) sleepppg-net:連続フォトプレチモグラフィによるロバストな睡眠ステージングのためのディープラーニングアルゴリズム [全文訳有]

SleepPPG-Net: a deep learning algorithm for robust sleep staging from continuous photoplethysmography ( http://arxiv.org/abs/2202.05735v1 )

ライセンス: CC BY 4.0
Kevin Kotzen, Peter H. Charlton, Sharon Salabi, Amir Landesberg and Joachim A. Behar(参考訳) はじめに:睡眠ステージングは、睡眠障害の診断と睡眠の健康管理に欠かせない要素である。 伝統的に臨床で測定され、労働集約的なラベリングプロセスを必要とする。 我々は,raw photoplethysmography (ppg) 時系列と最近のディープラーニング (dl) の進歩を用いて,ロバストな4段階睡眠ステージングを行うことが可能であると仮定した。 方法:ppg生記録,2,374例,23,055時間を含む2つの睡眠データベースを用いた。 生PSG時系列からの4クラス睡眠ステージングのためのDLモデルであるSleepPPG-Netを開発した。 SleepPPG-Netはエンドツーエンドで訓練され、自動特徴抽出のための残差畳み込みネットワークと、長距離コンテキスト情報をキャプチャする時間畳み込みネットワークで構成されている。 我々は,SleepPPG-Netの性能を,最良報告のSOTAアルゴリズムに基づくモデルと比較した。 結果: ホールドアウトテストセットでベンチマークすると、SleepPPG-Net は Cohen's Kappa (\kappa$) のスコアが 0.75 対 0.69 となり、SOTA の最良のアプローチとなった。 SleepPPG-Netは外部データベースに優れた一般化性能を示し、転送学習後に$\kappa$スコア0.74を得た。 展望: 全体として、SleepPPG-Netは新しいSOTAパフォーマンスを提供する。 さらに,閉塞性睡眠時無呼吸症候群の診断やモニタリングなどの臨床応用における使用要件を満たすウェアラブルの開発への道を開くには,性能が十分である。

Introduction: Sleep staging is an essential component in the diagnosis of sleep disorders and management of sleep health. It is traditionally measured in a clinical setting and requires a labor-intensive labeling process. We hypothesize that it is possible to perform robust 4-class sleep staging using the raw photoplethysmography (PPG) time series and modern advances in deep learning (DL). Methods: We used two publicly available sleep databases that included raw PPG recordings, totalling 2,374 patients and 23,055 hours. We developed SleepPPG-Net, a DL model for 4-class sleep staging from the raw PPG time series. SleepPPG-Net was trained end-to-end and consists of a residual convolutional network for automatic feature extraction and a temporal convolutional network to capture long-range contextual information. We benchmarked the performance of SleepPPG-Net against models based on the best-reported state-of-the-art (SOTA) algorithms. Results: When benchmarked on a held-out test set, SleepPPG-Net obtained a median Cohen's Kappa ($\kappa$) score of 0.75 against 0.69 for the best SOTA approach. SleepPPG-Net showed good generalization performance to an external database, obtaining a $\kappa$ score of 0.74 after transfer learning. Perspective: Overall, SleepPPG-Net provides new SOTA performance. In addition, performance is high enough to open the path to the development of wearables that meet the requirements for usage in clinical applications such as the diagnosis and monitoring of obstructive sleep apnea.
翻訳日:2022-02-14 20:17:39 公開日:2022-02-11
# (参考訳) 不確実性駆動摂動による一般化の改善 [全文訳有]

Improving Generalization via Uncertainty Driven Perturbations ( http://arxiv.org/abs/2202.05737v1 )

ライセンス: CC BY 4.0
Matteo Pagliardini, Gilberto Manunza, Martin Jaggi, Michael I. Jordan, Tatjana Chavdarova(参考訳) 最近では、2020年のShah氏らによって、単純なモデルを学ぶための勾配ベースのアルゴリズムの傾向に、単純さの落とし穴が指摘されている。 特に、Stochastic Gradient Descent は線型モデル上で最大マージン境界を得るが、そのような保証は非線形モデルに拡張しない。 単純さのバイアスを軽減するために,モデルの推定不確かさを最大化する方向に従って反復的に得られるトレーニングデータポイントの不確実性駆動摂動(udp)を考える。 損失駆動摂動とは異なり、不確実性誘導摂動は決定境界を越えず、摂動の大きさを制御するハイパーパラメータに対してより広い範囲の値を使用することができる。 さらに、実世界のデータセットは、異なるクラスのデータポイント間の非等方的距離を持つため、上記の性質は、決定境界のマージンを増やすことに特に魅力があり、それによってモデルの一般化が向上する。 我々は,UDPが線形モデル上で最大マージン決定境界を達成することが保証され,また,挑戦的なシミュレートデータセット上で顕著にUDPを増大させることを示す。 興味深いことに、いくつかのデータセット上での競合損失ベースの堅牢性と一般化トレードオフも達成している。

Recently Shah et al., 2020 pointed out the pitfalls of the simplicity bias - the tendency of gradient-based algorithms to learn simple models - which include the model's high sensitivity to small input perturbations, as well as sub-optimal margins. In particular, while Stochastic Gradient Descent yields max-margin boundary on linear models, such guarantee does not extend to non-linear models. To mitigate the simplicity bias, we consider uncertainty-driven perturbations (UDP) of the training data points, obtained iteratively by following the direction that maximizes the model's estimated uncertainty. Unlike loss-driven perturbations, uncertainty-guided perturbations do not cross the decision boundary, allowing for using a larger range of values for the hyperparameter that controls the magnitude of the perturbation. Moreover, as real-world datasets have non-isotropic distances between data points of different classes, the above property is particularly appealing for increasing the margin of the decision boundary, which in turn improves the model's generalization. We show that UDP is guaranteed to achieve the maximum margin decision boundary on linear models and that it notably increases it on challenging simulated datasets. Interestingly, it also achieves competitive loss-based robustness and generalization trade-off on several datasets.
翻訳日:2022-02-14 19:52:16 公開日:2022-02-11
# (参考訳) 自己からの引用: 部分的なチャンネル更新によるより高速なビデオセグメンテーション [全文訳有]

Borrowing from yourself: Faster future video segmentation with partial channel update ( http://arxiv.org/abs/2202.05748v1 )

ライセンス: CC BY 4.0
Evann Courdier and Fran\c{c}ois Fleuret(参考訳) セマンティックセグメンテーション(Semantic segmentation)はコンピュータビジョンの文献でよく取り上げられるトピックであるが、高速で正確なビデオ処理ネットワークの設計は依然として困難である。 加えて、組み込みハードウェア上で動作するためには、コンピュータビジョンモデルが要求される速度で実行するためには、しばしば精度の妥協を行う必要があるため、遅延/精度のトレードオフは通常、これらのリアルタイムシステムの設計の中心にある。 ビデオの特定の場合、モデルは、リアルタイムである間精度の損失を軽減するために、以前のフレームで計算された計算を利用する追加の可能性を秘めている。 本研究では,時間依存型チャネルマスキングを伴う畳み込み層を用いることにより,今後の映像分割予測の高速化に取り組むことを提案する。 このテクニックは、各タイムステップで選択された機能マップのサブセットのみを更新することで、計算とレイテンシを削減し、ネットワークが以前に計算された機能を活用することができる。 この手法をいくつかの高速アーキテクチャに適用し、将来の予測サブタスクに対する利点を実験的に検証する。

Semantic segmentation is a well-addressed topic in the computer vision literature, but the design of fast and accurate video processing networks remains challenging. In addition, to run on embedded hardware, computer vision models often have to make compromises on accuracy to run at the required speed, so that a latency/accuracy trade-off is usually at the heart of these real-time systems' design. For the specific case of videos, models have the additional possibility to make use of computations made for previous frames to mitigate the accuracy loss while being real-time. In this work, we propose to tackle the task of fast future video segmentation prediction through the use of convolutional layers with time-dependent channel masking. This technique only updates a chosen subset of the feature maps at each time-step, bringing simultaneously less computation and latency, and allowing the network to leverage previously computed features. We apply this technique to several fast architectures and experimentally confirm its benefits for the future prediction subtask.
翻訳日:2022-02-14 19:20:02 公開日:2022-02-11
# (参考訳) 動的境界スケーリングによる効率的なNLPバックドアディフェンスのための制約付き最適化 [全文訳有]

Constrained Optimization with Dynamic Bound-scaling for Effective NLPBackdoor Defense ( http://arxiv.org/abs/2202.05749v1 )

ライセンス: CC BY 4.0
Guangyu Shen, Yingqi Liu, Guanhong Tao, Qiuling Xu, Zhuo Zhang, Shengwei An, Shiqing Ma, Xiangyu Zhang(参考訳) NLPバックドアインバージョンのための新しい最適化手法を開発した。 本研究では,ソフトマックス関数の温度係数を動的に低減し,コンベックス内の1ホット値として表される接地真理トリガに徐々に集中するように最適化器に損失景観を変化させる。 また,NLPトリガのインバージョンでは局所最適値のデターマイニングが容易に可能である(一般最適化では行われないが)という観測を生かして,局所最適値から離れるための温度ロールバック機構も備えている。 3つのNLPタスクに対して,1600以上のモデル(約半数がバックドアを注入した)で4つの異なるバックドアアタックと7つのアーキテクチャを用いて評価を行った。 提案手法は, バックドアを効果的かつ効率的に検出し, 除去し, 4つのベースライン法より優れていることを示す。

We develop a novel optimization method for NLPbackdoor inversion. We leverage a dynamically reducing temperature coefficient in the softmax function to provide changing loss landscapes to the optimizer such that the process gradually focuses on the ground truth trigger, which is denoted as a one-hot value in a convex hull. Our method also features a temperature rollback mechanism to step away from local optimals, exploiting the observation that local optimals can be easily deter-mined in NLP trigger inversion (while not in general optimization). We evaluate the technique on over 1600 models (with roughly half of them having injected backdoors) on 3 prevailing NLP tasks, with 4 different backdoor attacks and 7 architectures. Our results show that the technique is able to effectively and efficiently detect and remove backdoors, outperforming 4 baseline methods.
翻訳日:2022-02-14 19:03:12 公開日:2022-02-11
# (参考訳) 物理制約付き深層学習による部分観測地球物理系の有界非線形予測 [全文訳有]

Bounded nonlinear forecasts of partially observed geophysical systems with physics-constrained deep learning ( http://arxiv.org/abs/2202.05750v1 )

ライセンス: CC BY 4.0
Said Ouala, Steven L. Brunton, Ananda Pascual, Bertrand Chapron, Fabrice Collard, Lucile Gaultier, Ronan Fablet(参考訳) 実世界の物理システムの複雑さは、観測された測定が隠れた変数に依存するという事実によってしばしば複雑になる。 これらの潜伏変数には未解決の小さなスケールや急速な進化過程、部分的に観察された結合、あるいは結合系における強制が含まれる。 これは海洋大気力学において、未知の内部力学が表面の観測に影響を及ぼす可能性がある。 このような部分観測系と高非線形系の計算関連表現の同定は困難であり、短期予測用途に限られることが多い。 本稿では,ニューラル常微分方程式(NODE)表現を利用した暗黙の動的埋め込みの物理制約学習について検討する。 鍵となる目的は、学習力学の任意の初期条件への一般化を促進する境界性を制限することである。 提案アーキテクチャは深層学習フレームワーク内に実装されており,その関連性は,物理力学の異なるケーススタディに対する最先端のスキームに対して示される。

The complexity of real-world geophysical systems is often compounded by the fact that the observed measurements depend on hidden variables. These latent variables include unresolved small scales and/or rapidly evolving processes, partially observed couplings, or forcings in coupled systems. This is the case in ocean-atmosphere dynamics, for which unknown interior dynamics can affect surface observations. The identification of computationally-rele vant representations of such partially-observed and highly nonlinear systems is thus challenging and often limited to short-term forecast applications. Here, we investigate the physics-constrained learning of implicit dynamical embeddings, leveraging neural ordinary differential equation (NODE) representations. A key objective is to constrain their boundedness, which promotes the generalization of the learned dynamics to arbitrary initial condition. The proposed architecture is implemented within a deep learning framework, and its relevance is demonstrated with respect to state-of-the-art schemes for different case-studies representative of geophysical dynamics.
翻訳日:2022-02-14 18:42:41 公開日:2022-02-11
# (参考訳) 特徴ベクトル再構成攻撃によるプライバシーリスクの評価 [全文訳有]

Assessing Privacy Risks from Feature Vector Reconstruction Attacks ( http://arxiv.org/abs/2202.05760v1 )

ライセンス: CC BY 4.0
Emily Wenger, Francesca Falzon, Josephine Passananti, Haitao Zheng, Ben Y. Zhao(参考訳) 顔認識のためのディープニューラルネットワークでは、特徴ベクトルは与えられた顔のユニークな特徴を捉える数値表現である。 によって元の顔が復元できることは知られているが、これらの攻撃によって生じるエンドツーエンドのプライバシーリスクについては理解していない。 本研究では,再構成顔画像の脅威を有意義に捉えた指標を開発することにより,この欠点を解決する。 エンド・ツー・エンドの実験とユーザ・スタディを用いて、再構成された顔画像は、商用顔認識システムと人間の両方による再同定が可能であり、最悪の場合、ランダム化されたベースラインの4倍の精度で実現可能であることを示した。 ユーザプライバシ保護のために,特徴ベクトルを個人識別情報(PII)として認識することを確認した。

In deep neural networks for facial recognition, feature vectors are numerical representations that capture the unique features of a given face. While it is known that a version of the original face can be recovered via "feature reconstruction," ; we lack an understanding of the end-to-end privacy risks produced by these attacks. In this work, we address this shortcoming by developing metrics that meaningfully capture the threat of reconstructed face images. Using end-to-end experiments and user studies, we show that reconstructed face images enable re-identification by both commercial facial recognition systems and humans, at a rate that is at worst, a factor of four times higher than randomized baselines. Our results confirm that feature vectors should be recognized as Personal Identifiable Information (PII) in order to protect user privacy.
翻訳日:2022-02-14 18:20:42 公開日:2022-02-11
# (参考訳) マルチプレイヤーゲーム空間の可視化 [全文訳有]

Visualising Multiplayer Game Spaces ( http://arxiv.org/abs/2202.05773v1 )

ライセンス: CC BY 4.0
James Goodman, Diego Perez-Liebana, Simon Lucas(参考訳) 4つの異なる「ゲーム空間」を比較し,マルチプレイヤーのテーブルトップゲームを特徴付ける上での有用性と,プレイヤー数の変化に伴うゲーム特性の変化に対する特に興味を比較した。 それぞれのケースで16次元の特徴空間をとり、それを2次元の視覚的景観に還元する。 モンテカルロ木探索(MCTS)におけるパラメータの最適化から得られる空間は,不完全情報,敵対者,報酬空間の相対的重要性の観点から,我々のゲーム群を特徴付けるために最も直接的に解釈可能である。 これらの結果はゲームツリーの属性を用いて定義された空間と相関しない。 この次元の減少はプレイヤーの数として一般的な効果を示さない。 そこで本研究では,ゲームの特徴がプレイヤー数の変化とともに大きく変化するゲームと,そのような効果がないゲームという2つのセットに分類するために,元の特徴を用いた問題を考える。

We compare four different `game-spaces' in terms of their usefulness in characterising multi-player tabletop games, with a particular interest in any underlying change to a game's characteristics as the number of players changes. In each case we take a 16-dimensional feature space, and reduce it to a 2-dimensional visualizable landscape. We find that a space obtained from optimization of parameters in Monte Carlo Tree Search (MCTS) is the most directly interpretable to characterise our set of games in terms of the relative importance of imperfect information, adversarial opponents and reward sparsity. These results do not correlate with a space defined using attributes of the game-tree. This dimensionality reduction does not show any general effect as the number of players. We therefore consider the question using the original features to classify the games into two sets; those for which the characteristics of the game changes significantly as the number of players changes, and those for which there is no such effect.
翻訳日:2022-02-14 18:07:33 公開日:2022-02-11
# (参考訳) マルチスケールガウス図形モデルの推論 [全文訳有]

Inference of Multiscale Gaussian Graphical Model ( http://arxiv.org/abs/2202.05775v1 )

ライセンス: CC BY 4.0
Do Edmond Sanou, Christophe Ambroise and Genevi\`eve Robin(参考訳) ガウス図形モデル(GGM)は、ゲノム学、生態学、心理学など様々な分野における探索的データ分析に広く用いられている。 高次元設定では、変数の数が数桁の観測数を超えた場合、GGMの推定は困難で不安定な最適化問題である。 変数のクラスタリングや変数の選択は、しばしばGGM推定の前に行われる。 階層的なクラスタリング構造と階層のそれぞれのレベルでの独立性構造を記述するグラフを同時に推論する新しい手法を提案する。 本手法は,グラフラッソペナルティと融合型ラッソペナルティを組み合わせた凸最適化問題の解法に基づく。 実データおよび合成データの結果を示す。

Gaussian Graphical Models (GGMs) are widely used for exploratory data analysis in various fields such as genomics, ecology, psychometry. In a high-dimensional setting, when the number of variables exceeds the number of observations by several orders of magnitude, the estimation of GGM is a difficult and unstable optimization problem. Clustering of variables or variable selection is often performed prior to GGM estimation. We propose a new method allowing to simultaneously infer a hierarchical clustering structure and the graphs describing the structure of independence at each level of the hierarchy. This method is based on solving a convex optimization problem combining a graphical lasso penalty with a fused type lasso penalty. Results on real and synthetic data are presented.
翻訳日:2022-02-14 17:43:15 公開日:2022-02-11
# (参考訳) ニューラルネットワークの二重形式再考:注意のスポットライトを通してテスト時間予測とトレーニングパターンを結びつける [全文訳有]

The Dual Form of Neural Networks Revisited: Connecting Test Time Predictions to Training Patterns via Spotlights of Attention ( http://arxiv.org/abs/2202.05798v1 )

ライセンス: CC BY 4.0
Kazuki Irie, R\'obert Csord\'as, J\"urgen Schmidhuber(参考訳) 勾配降下によってトレーニングされたニューラルネットワーク(nn)の線形層は、すべてのトレーニングデータポイントと初期重みを格納し、トレーニングエクスペリエンス全体にわたって非正規化ドットアテンションを使用して出力するキー値メモリシステムとして表現することができる。 これは、技術的には60年代から知られているが、そのような形態のnnの操作を効果的に研究する先行研究は、おそらく、禁止された時間と空間の複雑さと非実用的モデルサイズによって行われており、いずれも非常に大きなトレーニングパターンの数で線形に成長している。 しかし、この二重定式化は、NNがテスト時にトレーニングパターンをどのように利用するかを、対応する注意重みを調べて直接視覚化する可能性がある。 我々は,単一タスク,マルチタスク,連続学習の学習設定,言語モデリングにおいて,小規模の教師付き画像分類タスクの実験を行い,nnsがトレーニングパターンをどのように活用するかをより理解し,解釈するためのこの視点の可能性と限界について論じる。 私たちのコードは公開されています。

Linear layers in neural networks (NNs) trained by gradient descent can be expressed as a key-value memory system which stores all training datapoints and the initial weights, and produces outputs using unnormalised dot attention over the entire training experience. While this has been technically known since the '60s, no prior work has effectively studied the operations of NNs in such a form, presumably due to prohibitive time and space complexities and impractical model sizes, all of them growing linearly with the number of training patterns which may get very large. However, this dual formulation offers a possibility of directly visualizing how an NN makes use of training patterns at test time, by examining the corresponding attention weights. We conduct experiments on small scale supervised image classification tasks in single-task, multi-task, and continual learning settings, as well as language modelling, and discuss potentials and limits of this view for better understanding and interpreting how NNs exploit training patterns. Our code is public.
翻訳日:2022-02-14 17:29:19 公開日:2022-02-11
# (参考訳) hamseオントロジー:音楽表現の相互運用性と音楽分析を支援するセマンティック技術 [全文訳有]

The HaMSE Ontology: Using Semantic Technologies to support Music Representation Interoperability and Musicological Analysis ( http://arxiv.org/abs/2202.05817v1 )

ライセンス: CC BY-SA 4.0
Andrea Poltronieri and Aldo Gangemi(参考訳) セマンティクス技術、特にセマンティクスウェブの使用は、文化遺産のドメインと芸術的実践を記述するための優れたツールであることが判明した。 しかし、音楽学応用のオントロジーのパノラマは、特定の応用に限定されているようである。 本研究では,音楽学研究を支援する音楽的特徴を記述可能なオントロジーであるHaMSEを提案する。 より具体的には、HaMSEは音楽研究に何十年にもわたって影響を与えてきた、音楽の表現と量的データと質的データの関係に関する訴訟に対処することを提案する。 これを実現するために、HaMSEは異なる音楽表現システム間のアライメントを可能にし、異なる粒度レベルでの音楽解析を可能にする音楽的特徴セットを記述する。

The use of Semantic Technologies - in particular the Semantic Web - has revealed to be a great tool for describing the cultural heritage domain and artistic practices. However, the panorama of ontologies for musicological applications seems to be limited and restricted to specific applications. In this research, we propose HaMSE, an ontology capable of describing musical features that can assist musicological research. More specifically, HaMSE proposes to address sues that have been affecting musicological research for decades: the representation of music and the relationship between quantitative and qualitative data. To do this, HaMSE allows the alignment between different music representation systems and describes a set of musicological features that can allow the music analysis at different granularity levels.
翻訳日:2022-02-14 17:04:51 公開日:2022-02-11
# (参考訳) 脳にインスパイアされた超次元コンピューティングのための自動アーキテクチャ探索 [全文訳有]

Automated Architecture Search for Brain-inspired Hyperdimensional Computing ( http://arxiv.org/abs/2202.05827v1 )

ライセンス: CC0 1.0
Junhuan Yang, Yi Sheng, Sizhe Zhang, Ruixuan Wang, Kenneth Foreman, Mikell Paige, Xun Jiao, Weiwen Jiang, Lei Yang(参考訳) 本稿では,脳にインスパイアされたニューラルネットワークの一種である超次元コンピューティング(HDC)の自動アーキテクチャ探索について検討する。 現在、HDC設計はアプリケーション固有のアドホックな方法で行われており、その適用を著しく制限している。 さらに、このアプローチは精度と効率を低下させ、HDCがディープニューラルネットワークと競合することができないことを示唆している。 本稿では,HDCアーキテクチャの探索空間を定式化するための詳細な研究について述べる。 検索空間の上に強化学習を適用して,HDCアーキテクチャを自動的に探索する。 検索したHDCアーキテクチャは、薬物発見データセットと言語認識タスクを含むケーススタディにおける競合性能を示す。 毒性のために臨床試験をパス・フェールした薬品から特徴を学習しようとするクリントックスデータセットにおいて、探索されたhdcアーキテクチャは、手作業で設計したhdcよりも0.80%高く、従来のニューラルネットワークよりも9.75%高い最先端のroc-aucスコアを得る。 同様の結果は、従来の手法よりも1.27%高い性能を持つ言語認識タスクで達成される。

This paper represents the first effort to explore an automated architecture search for hyperdimensional computing (HDC), a type of brain-inspired neural network. Currently, HDC design is largely carried out in an application-specific ad-hoc manner, which significantly limits its application. Furthermore, the approach leads to inferior accuracy and efficiency, which suggests that HDC cannot perform competitively against deep neural networks. Herein, we present a thorough study to formulate an HDC architecture search space. On top of the search space, we apply reinforcement-learni ng to automatically explore the HDC architectures. The searched HDC architectures show competitive performance on case studies involving a drug discovery dataset and a language recognition task. On the Clintox dataset, which tries to learn features from developed drugs that passed/failed clinical trials for toxicity reasons, the searched HDC architecture obtains the state-of-the-art ROC-AUC scores, which are 0.80% higher than the manually designed HDC and 9.75% higher than conventional neural networks. Similar results are achieved on the language recognition task, with 1.27% higher performance than conventional methods.
翻訳日:2022-02-14 16:51:08 公開日:2022-02-11
# 擬似学習と物理シミュレーションによる水温予測による貯留層放出のモデル化

Modeling Reservoir Release Using Pseudo-Prospective Learning and Physical Simulations to Predict Water Temperature ( http://arxiv.org/abs/2202.05714v1 )

ライセンス: Link先を確認
Xiaowei Jia, Shengyu Chen, Yiqun Xie, Haoyu Yang, Alison Appling, Samantha Oliver, Zhe Jiang(参考訳) 本稿では,貯水池を有する河川網における水温予測のための新しいデータ駆動手法を提案する。 貯水池から放出される水流は下流の河川セグメントの水温に大きく影響する。 しかし,多くの貯水池では流水に関する情報が得られず,下流河川セグメントへの影響をデータ駆動モデルで把握することは困難である。 本稿では,まず,流路と貯水池間の相互作用を表現する状態認識グラフモデルを構築し,貯水池の放出情報を抽出し,それを用いて予測を改善する並列学習構造を提案する。 特に, 利用可能な放水情報を持たない貯水池では, 水管理者の放水決定過程を擬似予測学習法で模倣し, 予想される水温動態から放水情報を推定する。 リリース情報を持つ貯水池では,物理モデルを用いて水温をシミュレーションし,その情報を伝達し,他の貯水池の学習プロセスを指導する。 デラウェア川流域の評価から,本手法は,貯水池ではリリースデータが利用できない場合に流速予測を行うため,既存のデータ駆動モデルよりも10%以上の精度向上が期待できることがわかった。 貯水池のサブセットに対するリリースデータと物理シミュレーションを組み込んだ結果,さらに性能が向上した。

This paper proposes a new data-driven method for predicting water temperature in stream networks with reservoirs. The water flows released from reservoirs greatly affect the water temperature of downstream river segments. However, the information of released water flow is often not available for many reservoirs, which makes it difficult for data-driven models to capture the impact to downstream river segments. In this paper, we first build a state-aware graph model to represent the interactions amongst streams and reservoirs, and then propose a parallel learning structure to extract the reservoir release information and use it to improve the prediction. In particular, for reservoirs with no available release information, we mimic the water managers' release decision process through a pseudo-prospective learning method, which infers the release information from anticipated water temperature dynamics. For reservoirs with the release information, we leverage a physics-based model to simulate the water release temperature and transfer such information to guide the learning process for other reservoirs. The evaluation for the Delaware River Basin shows that the proposed method brings over 10\% accuracy improvement over existing data-driven models for stream temperature prediction when the release data is not available for any reservoirs. The performance is further improved after we incorporate the release data and physical simulations for a subset of reservoirs.
翻訳日:2022-02-14 16:39:14 公開日:2022-02-11
# 選択・リスク・リワードレポート:強化学習システムのための公共政策のチャート化

Choices, Risks, and Reward Reports: Charting Public Policy for Reinforcement Learning Systems ( http://arxiv.org/abs/2202.05716v1 )

ライセンス: Link先を確認
Thomas Krendl Gilbert, Sarah Dean, Tom Zick, Nathan Lambert(参考訳) 長期的には、強化学習(RL)は、多くのAI理論家によって、人工知能への最も有望な道であると考えられている。 これにより、RL実践者は、これまで存在しなかったシステムを設計し、法律や政策に関する事前の文書を欠いている立場に置かれる。 公共機関は、これまで考えづらいほど不透明な複雑なダイナミクスに介入し、長期にわたる政策の野望を最終的に引き付けることができるだろう。 このホワイトペーパーでは、この可能性と、エネルギーインフラ、ソーシャルメディアレコメンデーターシステム、輸送といった分野において技術的にどのように実現されるかを説明します。 こうした前例のない介入に加えて、標準的な機械学習ツールによってすでに生成される害を悪化させる新たなタイプのリスクがもたらされる。 RL設計選択から生じるリスクの新たなタイプロジとして,水平線のスコーピング,報酬の定義,情報の抽出,複数エージェントの訓練の4つのカテゴリに該当する。 rlシステムが一方的に人間のドメインを再構築する代わりに、政策立案者は、理性、予測可能性、そしてそれらのシステムがもたらすリスクに合致する相互運用性の新しいメカニズムを必要とします。 これらの選択の基準は、反トラスト法、トレント法、行政法における新興のサブフィールドから引き出される可能性がある。 その後、裁判所、連邦、州機関、および非政府組織がRL仕様および評価においてより積極的な役割を果たすことができる。 Mitchell氏らによって提案された"モデルカード"と"データシート"フレームワークに基づいて、AIシステムに対するリワードレポートの必要性を論じる。 Reward Reportsは、設計選択を分離する提案されたRLデプロイメントのための生きたドキュメントである。

In the long term, reinforcement learning (RL) is considered by many AI theorists to be the most promising path to artificial general intelligence. This places RL practitioners in a position to design systems that have never existed before and lack prior documentation in law and policy. Public agencies could intervene on complex dynamics that were previously too opaque to deliberate about, and long-held policy ambitions would finally be made tractable. In this whitepaper we illustrate this potential and how it might be technically enacted in the domains of energy infrastructure, social media recommender systems, and transportation. Alongside these unprecedented interventions come new forms of risk that exacerbate the harms already generated by standard machine learning tools. We correspondingly present a new typology of risks arising from RL design choices, falling under four categories: scoping the horizon, defining rewards, pruning information, and training multiple agents. Rather than allowing RL systems to unilaterally reshape human domains, policymakers need new mechanisms for the rule of reason, foreseeability, and interoperability that match the risks these systems pose. We argue that criteria for these choices may be drawn from emerging subfields within antitrust, tort, and administrative law. It will then be possible for courts, federal and state agencies, and non-governmental organizations to play more active roles in RL specification and evaluation. Building on the "model cards" and "datasheets" frameworks proposed by Mitchell et al. and Gebru et al., we argue the need for Reward Reports for AI systems. Reward Reports are living documents for proposed RL deployments that demarcate design choices.
翻訳日:2022-02-14 16:38:52 公開日:2022-02-11
# Gaussian Schr\"odinger Bridges による確率力学の復元

Recovering Stochastic Dynamics via Gaussian Schr\"odinger Bridges ( http://arxiv.org/abs/2202.05722v1 )

ライセンス: Link先を確認
Charlotte Bunne, Ya-Ping Hsieh, Marco Cuturi, Andreas Krause(参考訳) 確率過程 $\left\{\mathbb{P}_{t}: t \in[0, T]\right\}$ の極限分布からのサンプルのみを用いて、開始時と終了時に 0$ および $T$ の確率過程を再構築する新しいフレームワークを提案する。 この再構成は個体群動態を推定するのに有用であり、例えば単細胞シーケンシングデータから細胞集団の時間変化をモデル化する場合、重要な課題である。 我々の一般的な枠組みはより具体的なSchr\"odinger Bridge (SB)問題を含み、$\mathbb{P}_{t}$は熱力学系のほぼ平衡における進化を表す。 このような橋梁の推定は非常に困難であり、GSBflowと呼ばれる新しい適応型スキームの提案を動機付けている。 我々の目標は、sbを推定するために必要な参照確率過程を提供するためにデータのガウス近似に依存することである。 この目的のために、我々はガウス辺数に関する \acs{sb} 問題を解き、中心的寄与として、閉形式解とsde表現を提供する。 これらの公式を用いて、より複雑なsbの推定に使用される参照過程を定義し、それが数値解の助けになることを示す。 合成過程と単細胞ゲノミクス実験の両方を再構成する場合に顕著な改善が得られた。

We propose a new framework to reconstruct a stochastic process $\left\{\mathbb{P}_{t}: t \in[0, T]\right\}$ using only samples from its marginal distributions, observed at start and end times $0$ and $T$. This reconstruction is useful to infer population dynamics, a crucial challenge, e.g., when modeling the time-evolution of cell populations from single-cell sequencing data. Our general framework encompasses the more specific Schr\"odinger bridge (SB) problem, where $\mathbb{P}_{t}$ represents the evolution of a thermodynamic system at almost equilibrium. Estimating such bridges is notoriously difficult, motivating our proposal for a novel adaptive scheme called the GSBflow. Our goal is to rely on Gaussian approximations of the data to provide the reference stochastic process needed to estimate SB. To that end, we solve the \acs{SB} problem with Gaussian marginals, for which we provide, as a central contribution, a closed-form solution and SDE-representation. We use these formulas to define the reference process used to estimate more complex SBs, and show that this does indeed help with its numerical solution. We obtain notable improvements when reconstructing both synthetic processes and single-cell genomics experiments.
翻訳日:2022-02-14 16:38:23 公開日:2022-02-11
# 非線形共役勾配と深度変動ニューラルネットワークによる学習

Learning via nonlinear conjugate gradients and depth-varying neural ODEs ( http://arxiv.org/abs/2202.05766v1 )

ライセンス: Link先を確認
George Baravdish, Gabriel Eilertsen, Rym Jaroudi, B. Tomas Johansson, Luk\'a\v{s} Mal\'y and Jonas Unger(参考訳) ニューラル常微分方程式(NODE)における深度可変(時間依存)パラメータの教師付き再構成の逆問題として,時間連続層をもつ残留ネットワークの重みを求めることが挙げられる。 ノードは、以前の研究とは対照的に、完全なネットワークを記述する独立したエンティティとして扱われる。 種々の損失関数とペナルティ項をカバーするコスト関数を最小化することにより,一般一階微分方程式に対してパラメータ再構成を行う。 最小化のために非線形共役勾配法(NCG)が導出される。 数学的性質は微分方程式とコスト汎関数に対して記述される。 必要な随伴問題は感度問題とともに導出される。 感度問題は、トレーニングされたパラメータの摂動下でのネットワーク出力の変化を推定することができる。 イテレーション中の滑らかさを維持するために、ソボレフ勾配を計算して組み込む。 概念実証として、NODEと2つの合成データセットに数値結果を含め、(NODEをベースとしない)標準勾配アプローチと比較する。 その結果,本手法は無限層の深層学習に有効であり,安定性と滑らか性が組み込まれていることがわかった。

The inverse problem of supervised reconstruction of depth-variable (time-dependent) parameters in a neural ordinary differential equation (NODE) is considered, that means finding the weights of a residual network with time continuous layers. The NODE is treated as an isolated entity describing the full network as opposed to earlier research, which embedded it between pre- and post-appended layers trained by conventional methods. The proposed parameter reconstruction is done for a general first order differential equation by minimizing a cost functional covering a variety of loss functions and penalty terms. A nonlinear conjugate gradient method (NCG) is derived for the minimization. Mathematical properties are stated for the differential equation and the cost functional. The adjoint problem needed is derived together with a sensitivity problem. The sensitivity problem can estimate changes in the network output under perturbation of the trained parameters. To preserve smoothness during the iterations the Sobolev gradient is calculated and incorporated. As a proof-of-concept, numerical results are included for a NODE and two synthetic datasets, and compared with standard gradient approaches (not based on NODEs). The results show that the proposed method works well for deep learning with infinite numbers of layers, and has built-in stability and smoothness.
翻訳日:2022-02-14 16:38:00 公開日:2022-02-11
# 拡張畳み込みニューラルネットワークによる映像圧縮のための深部参照画像生成

Dilated convolutional neural network-based deep reference picture generation for video compression ( http://arxiv.org/abs/2202.05514v1 )

ライセンス: Link先を確認
Haoyue Tian, Pan Gao, Ran Wei, Manoranjan Paul(参考訳) 動画符号化において、動き推定と動き補償は相互予測に不可欠である。 物体の運動ベクトルは大部分が分数ピクセル単位であるため、元の参照画像は動き補償に適切な基準を提供しない可能性がある。 本稿では、現在の符号化フレームとより関連性の高い画像を生成することができるディープリファレンス画像生成装置を提案し、これにより、時間的冗長性をさらに低減し、ビデオ圧縮効率を向上させる。 本稿では,近年の畳み込みニューラルネットワーク(CNN)の進歩に触発されて,拡張CNNを用いてジェネレータを構築することを提案する。 さらに、生成した深部画像を基準画像としてVersatile Video Coding(VVC)に挿入し、最新のVVCテストモデルVTMにおけるネットワークの有効性を評価するための総合的な実験を行う。 実験の結果,提案手法は低遅延p構成のvvcと比較して平均9.7%の節約を実現することがわかった。

Motion estimation and motion compensation are indispensable parts of inter prediction in video coding. Since the motion vector of objects is mostly in fractional pixel units, original reference pictures may not accurately provide a suitable reference for motion compensation. In this paper, we propose a deep reference picture generator which can create a picture that is more relevant to the current encoding frame, thereby further reducing temporal redundancy and improving video compression efficiency. Inspired by the recent progress of Convolutional Neural Network(CNN), this paper proposes to use a dilated CNN to build the generator. Moreover, we insert the generated deep picture into Versatile Video Coding(VVC) as a reference picture and perform a comprehensive set of experiments to evaluate the effectiveness of our network on the latest VVC Test Model VTM. The experimental results demonstrate that our proposed method achieves on average 9.7% bit saving compared with VVC under low-delay P configuration.
翻訳日:2022-02-14 16:37:06 公開日:2022-02-11
# 監督なしHDRイメージング:8ビットビデオから何が学べるか?

Unsupervised HDR Imaging: What Can Be Learned from a Single 8-bit Video? ( http://arxiv.org/abs/2202.05522v1 )

ライセンス: Link先を確認
Francesco Banterle, Demetris Marnerides, Kurt Debattista, Thomas Bashford-Rogers(参考訳) 近年,高ダイナミックレンジ(HDR)画像を得るための逆トーンマッピング標準ダイナミックレンジ(SDR)画像のディープラーニングに基づく手法が広く普及している。 これらの手法は、詳細とダイナミックレンジの両面で説得力のある過剰な領域を埋めることができる。 通常、これらの手法は効果的に大規模なデータセットから学習し、この知識をネットワーク重みに転送する必要がある。 この研究では、全く異なる観点からこの問題に取り組みます。 単一のSDRビデオから何が学べるか? 提案するゼロショット方式では,多くの場合,単一のsdrビデオが,他の最先端の手法と同等かそれ以上の品質のhdrビデオを生成するのに十分であることを示す。

Recently, Deep Learning-based methods for inverse tone-mapping standard dynamic range (SDR) images to obtain high dynamic range (HDR) images have become very popular. These methods manage to fill over-exposed areas convincingly both in terms of details and dynamic range. Typically, these methods, to be effective, need to learn from large datasets and to transfer this knowledge to the network weights. In this work, we tackle this problem from a completely different perspective. What can we learn from a single SDR video? With the presented zero-shot approach, we show that, in many cases, a single SDR video is sufficient to be able to generate an HDR video of the same quality or better than other state-of-the-art methods.
翻訳日:2022-02-14 16:36:49 公開日:2022-02-11
# 動的かつロバストな脚歩行のための制御ポリシーと状態推定器の同時学習

Concurrent Training of a Control Policy and a State Estimator for Dynamic and Robust Legged Locomotion ( http://arxiv.org/abs/2202.05481v1 )

ライセンス: Link先を確認
Gwanghyeon Ji, Juhyeok Mun, Hyeongjun Kim, Jemin Hwangbo(参考訳) 本稿では,制御ポリシと状態推定器を同時にトレーニングする移動学習フレームワークを提案する。 フレームワークは、所望の関節位置を出力するポリシーネットワークと、ベース線形速度、足の高さ、接触確率などのロボットの状態の推定を出力する状態推定ネットワークとから構成される。 高速シミュレーション環境を利用してネットワークを訓練し、訓練されたネットワークを実際のロボットに転送する。 訓練された政策と状態推定器は、丘、滑りやすいプレート、傾斜した道路などの多様な地形を横断することができる。 また, 平地では最大3.75 m/s, 平地では3.54 m/s, 摩擦係数0.22のすべり板上では3.54 m/sの学習方針が実行可能であることを示した。

In this paper, we propose a locomotion training framework where a control policy and a state estimator are trained concurrently. The framework consists of a policy network which outputs the desired joint positions and a state estimation network which outputs estimates of the robot's states such as the base linear velocity, foot height, and contact probability. We exploit a fast simulation environment to train the networks and the trained networks are transferred to the real robot. The trained policy and state estimator are capable of traversing diverse terrains such as a hill, slippery plate, and bumpy road. We also demonstrate that the learned policy can run at up to 3.75 m/s on normal flat ground and 3.54 m/s on a slippery plate with the coefficient of friction of 0.22.
翻訳日:2022-02-14 16:35:15 公開日:2022-02-11
# 話者検証システムにおける適応的逆攻撃の検出について

On the Detection of Adaptive Adversarial Attacks in Speaker Verification Systems ( http://arxiv.org/abs/2202.05725v1 )

ライセンス: Link先を確認
Zesheng Chen(参考訳) スマートフォンやiotデバイスでは、正当なユーザを特定するために話者認証システムが広く使われている。 近年の研究では、FAKEBOBのような敵対的攻撃が話者認証システムに対して効果的に作用できることが示されている。 本研究の目的は,敵対的攻撃によって汚染された音声からオリジナル音声を識別できる検出器を設計することである。 具体的には、MEH-FESTと呼ばれる我々の設計した検出器は、オーディオの短時間フーリエ変換から高周波の最小エネルギーを計算し、検出基準として利用する。 分析および実験により,提案する検出器は実装が容易であり,入力音声を高速に処理でき,フェイクボブ攻撃によってオーディオが破損しているかどうかの判定に有効であることを示した。 ガウス混合モデル (GMM) と i-ベクター話者検証システムにおけるFAKEBOB 攻撃の検出において, ほぼゼロの偽陽性, 偽陰性で検出できることが実験的に示唆された。 さらに,提案する検知器に対する適応的敵攻撃とその対策について検討し,攻撃者と守備者の対戦を示す。

Speaker verification systems have been widely used in smart phones and Internet of things devices to identify a legitimate user. In recent work, it has been shown that adversarial attacks, such as FAKEBOB, can work effectively against speaker verification systems. The goal of this paper is to design a detector that can distinguish an original audio from an audio contaminated by adversarial attacks. Specifically, our designed detector, called MEH-FEST, calculates the minimum energy in high frequencies from the short-time Fourier transform of an audio and uses it as a detection metric. Through both analysis and experiments, we show that our proposed detector is easy to implement, fast to process an input audio, and effective in determining whether an audio is corrupted by FAKEBOB attacks. The experimental results indicate that the detector is extremely effective: with near zero false positive and false negative rates for detecting FAKEBOB attacks in Gaussian mixture model (GMM) and i-vector speaker verification systems. Moreover, adaptive adversarial attacks against our proposed detector and their countermeasures are discussed and studied, showing the game between attackers and defenders.
翻訳日:2022-02-14 16:34:58 公開日:2022-02-11
# 正準相関と深層学習に基づく新しい音声明瞭度向上モデル

A Novel Speech Intelligibility Enhancement Model based on CanonicalCorrelation and Deep Learning ( http://arxiv.org/abs/2202.05756v1 )

ライセンス: Link先を確認
Tassadaq Hussain, Muhammad Diyan, Mandar Gogate, Kia Dashtipour, Ahsan Adeel, Yu Tsao, Amir Hussain(参考訳) 雑音環境における音声明瞭度向上のための現在のディープラーニング(dl)に基づくアプローチは、ノイズのない音声と強調音声信号との間の特徴距離を最小化するために訓練されることが多い。 音声品質の改善にもかかわらず、こうしたアプローチは日常的な騒音環境において必要なレベルの音声知性を提供しない。 可知性指向(i-o)損失関数は、ロバストな音声強調のためのdlアプローチを訓練するために最近開発された。 ここでは、新しい標準相関に基づくI-O損失関数を初めて定式化し、DLアルゴリズムをより効果的に訓練する。 具体的には,完全畳み込みニューラルネットワーク(fcn)モデルを訓練するために,正準相関型短時間目的知性(cc-stoi)コスト関数を提案する。 CC-STOIに基づく音声強調フレームワークは、従来の距離ベースおよびSTOIに基づく損失関数を用いて訓練された最先端のDLモデルよりも優れており、未確認話者と雑音の両方の場合の客観的および主観的評価尺度を用いて比較シミュレーション実験を行った。 今後,ロバストな補聴器設計のための提案手法の評価を行う。

Current deep learning (DL) based approaches to speech intelligibility enhancement in noisy environments are often trained to minimise the feature distance between noise-free speech and enhanced speech signals. Despite improving the speech quality, such approaches do not deliver required levels of speech intelligibility in everyday noisy environments . Intelligibility-orie nted (I-O) loss functions have recently been developed to train DL approaches for robust speech enhancement. Here, we formulate, for the first time, a novel canonical correlation based I-O loss function to more effectively train DL algorithms. Specifically, we present a canonical-correlatio n based short-time objective intelligibility (CC-STOI) cost function to train a fully convolutional neural network (FCN) model. We carry out comparative simulation experiments to show that our CC-STOI based speech enhancement framework outperforms state-of-the-art DL models trained with conventional distance-based and STOI-based loss functions, using objective and subjective evaluation measures for case of both unseen speakers and noises. Ongoing future work is evaluating the proposed approach for design of robust hearing-assistive technology.
翻訳日:2022-02-14 16:34:37 公開日:2022-02-11
# 未知ダイナミクスを持つ線形二次レギュレータにおける後悔値のレートマッチング

Rate-matching the regret lower-bound in the linear quadratic regulator with unknown dynamics ( http://arxiv.org/abs/2202.05799v1 )

ライセンス: Link先を確認
Feicheng Wang and Lucas Janson(参考訳) 現在、強化学習の理論は、その経験的性能と、その性能の理論的特徴とのミスマッチに悩まされており、サンプル効率、安全性、堅牢性の理解などの結果である。 未知のダイナミクスを持つ線形二次的レギュレータは、その力学とコスト関数において重要な構造を持つ基本的な強化学習条件であるが、この設定では、最もよく知られた後悔の低い値である$\Omega_p(\sqrt{T})$と、最も知られている上限である$O_p(\sqrt{T}\,\text{polylog}(T)$との間にギャップがある。 本論文の貢献は, 新たな後悔の上界を$O_p(\sqrt{T})$とすることで, そのギャップを埋めることである。 我々の証明は、具体的なアルゴリズムの後悔を解析し、既知の下界の速度に初めて一致する$O_p(T^{-1/4})$のダイナミックスに束縛された推定誤差を同時に確立するものである。 改良された証明手法の2つの鍵は、(1)システムグラム行列上のより精密な上界と下界、(2)最適制御器の予測推定誤差に対する自己バウンディング引数である。

The theory of reinforcement learning currently suffers from a mismatch between its empirical performance and the theoretical characterization of its performance, with consequences for, e.g., the understanding of sample efficiency, safety, and robustness. The linear quadratic regulator with unknown dynamics is a fundamental reinforcement learning setting with significant structure in its dynamics and cost function, yet even in this setting there is a gap between the best known regret lower-bound of $\Omega_p(\sqrt{T})$ and the best known upper-bound of $O_p(\sqrt{T}\,\text{polylog}(T))$. The contribution of this paper is to close that gap by establishing a novel regret upper-bound of $O_p(\sqrt{T})$. Our proof is constructive in that it analyzes the regret of a concrete algorithm, and simultaneously establishes an estimation error bound on the dynamics of $O_p(T^{-1/4})$ which is also the first to match the rate of a known lower-bound. The two keys to our improved proof technique are (1) a more precise upper- and lower-bound on the system Gram matrix and (2) a self-bounding argument for the expected estimation error of the optimal controller.
翻訳日:2022-02-14 16:34:18 公開日:2022-02-11
# (参考訳) サンプル品質の微分による拡散モデルのための高速サンプラーの学習 [全文訳有]

Learning Fast Samplers for Diffusion Models by Differentiating Through Sample Quality ( http://arxiv.org/abs/2202.05830v1 )

ライセンス: CC BY 4.0
Daniel Watson, William Chan, Jonathan Ho, Mohammad Norouzi(参考訳) 拡散モデルは、サンプル品質のganと、確率スコアの自己回帰モデルに匹敵する生成モデルの表現力のあるファミリーとして出現した。 標準拡散モデルは通常、単一の高忠実度サンプルを生成するために数百の前方通過を必要とする。 差分拡散サンプリングサーチ(DDSS: Differentiable Diffusion Sampler Search)は,任意の学習済み拡散モデルに対して,サンプル品質スコアを微分することによって高速サンプリングを最適化する手法である。 また、拡散モデルのためのフレキシブルな非マルコフ型サンプルモデルのファミリーである一般化ガウス拡散モデル(GGDM)を提示する。 勾配降下によるサンプル品質スコアを最大化することで,ggdmサンプラーの自由度を最適化することで,試料品質が向上することを示す。 最適化手法は,再パラメータ化トリックと勾配再材料化を用いてサンプリング過程をバックプロパゲーションする。 DDSSは、様々なデータセットにわたる無条件画像生成について、強い結果を得る(例えば、LSUN教会の128x128のFIDスコアは、推測ステップが10ステップで、4.82は20ステップで、DDPM/DDIMベースラインが51.1、14.9)。 本手法は, 微調整や再訓練を必要とせず, 任意の事前学習拡散モデルと適合する。

Diffusion models have emerged as an expressive family of generative models rivaling GANs in sample quality and autoregressive models in likelihood scores. Standard diffusion models typically require hundreds of forward passes through the model to generate a single high-fidelity sample. We introduce Differentiable Diffusion Sampler Search (DDSS): a method that optimizes fast samplers for any pre-trained diffusion model by differentiating through sample quality scores. We also present Generalized Gaussian Diffusion Models (GGDM), a family of flexible non-Markovian samplers for diffusion models. We show that optimizing the degrees of freedom of GGDM samplers by maximizing sample quality scores via gradient descent leads to improved sample quality. Our optimization procedure backpropagates through the sampling process using the reparametrization trick and gradient rematerialization. DDSS achieves strong results on unconditional image generation across various datasets (e.g., FID scores on LSUN church 128x128 of 11.6 with only 10 inference steps, and 4.82 with 20 steps, compared to 51.1 and 14.9 with strongest DDPM/DDIM baselines). Our method is compatible with any pre-trained diffusion model without fine-tuning or re-training required.
翻訳日:2022-02-14 16:32:22 公開日:2022-02-11
# Artemis: 外観と運動合成を備えた人工神経ペット

Artemis: Articulated Neural Pets with Appearance and Motion synthesis ( http://arxiv.org/abs/2202.05628v1 )

ライセンス: Link先を確認
Haimin Luo, Teng Xu, Yuheng Jiang, Chenglin Zhou, QIwei Qiu, Yingliang Zhang, Wei Yang, Lan Xu, Jingyi Yu(参考訳) 人間は今、仮想世界に入りつつあるし、動物を仮想世界に持ち込みたいのだ。 しかし、コンピュータ生成(CGI)ファリー動物は、インタラクティブなモーションコントロールだけでなく、退屈なオフラインレンダリングによって制限されている。 本稿では,appEarance と Motion SynthesIS を用いた人工神経ペット生成のための新しいニューラルモデリングおよびレンダリングパイプライン ARTEMIS を提案する。 我々のARTEMISは、野生動物のインタラクティブなモーションコントロール、リアルタイムアニメーション、写真リアルレンダリングを可能にする。 ARTEMISのコアはニューラル生成(NGI)動物エンジンであり、動物のアニメーションと毛皮のレンダリングに効率的なオクツリーベースの表現を採用する。 アニメーションはボクセルレベルの骨格に基づく変形と等価となる。 我々はさらに,高速なoctreeインデックス化,効率的なボリュームトリクスレンダリングスキームを用いて,外観と密度特徴マップを生成する。 最後に,新しいポーズ下での外観と不透明度を高忠実に表現するシェーディングネットワークを提案する。 ARTEMISのモーションコントロールモジュールでは、最先端の動物のモーションキャプチャーアプローチとニューラルキャラクタ制御手法を組み合わせる。 マルチビューRGBおよびViconカメラアレイで捉えた実際の動物の骨格運動を復元するための効果的な最適化手法を提案する。 キャプチャした動きをニューラルキャラクタ制御スキームに供給し,動作スタイルによる抽象的な制御信号を生成する。 われわれはARTEMISをさらにVRヘッドセットをサポートする既存のエンジンに統合し、ユーザーが鮮明な動きと写真リアリスティックな外観で様々な仮想動物と密に対話できるような、前例のない没入体験を提供する。 大規模実験や展示会では,ngi動物をリアルタイムにリアルに表現できるartemisシステムの有効性を実証し,これまでにない没入感とインタラクティブな体験をデジタル動物に提供した。

We human are entering into a virtual era, and surely want to bring animals to virtual world as well for companion. Yet, computer-generated (CGI) furry animals is limited by tedious off-line rendering, let alone interactive motion control. In this paper, we present ARTEMIS, a novel neural modeling and rendering pipeline for generating ARTiculated neural pets with appEarance and Motion synthesIS. Our ARTEMIS enables interactive motion control, real-time animation and photo-realistic rendering of furry animals. The core of ARTEMIS is a neural-generated (NGI) animal engine, which adopts an efficient octree based representation for animal animation and fur rendering. The animation then becomes equivalent to voxel level skeleton based deformation. We further use a fast octree indexing, an efficient volumetric rendering scheme to generate appearance and density features maps. Finally, we propose a novel shading network to generate high-fidelity details of appearance and opacity under novel poses. For the motion control module in ARTEMIS, we combine state-of-the-art animal motion capture approach with neural character control scheme. We introduce an effective optimization scheme to reconstruct skeletal motion of real animals captured by a multi-view RGB and Vicon camera array. We feed the captured motion into a neural character control scheme to generate abstract control signals with motion styles. We further integrate ARTEMIS into existing engines that support VR headsets, providing an unprecedented immersive experience where a user can intimately interact with a variety of virtual animals with vivid movements and photo-realistic appearance. Extensive experiments and showcases demonstrate the effectiveness of our ARTEMIS system to achieve highly realistic rendering of NGI animals in real-time, providing daily immersive and interactive experience with digital animals unseen before.
翻訳日:2022-02-14 16:06:56 公開日:2022-02-11
# Jigsaw Puzzle: マルウェアの分類を覆すバックドア攻撃

Jigsaw Puzzle: Selective Backdoor Attack to Subvert Malware Classifiers ( http://arxiv.org/abs/2202.05470v1 )

ライセンス: Link先を確認
Limin Yang, Zhi Chen, Jacopo Cortellazzi, Feargus Pendlebury, Kevin Tu, Fabio Pierazzi, Lorenzo Cavallaro, Gang Wang(参考訳) マルウェア分類器は、野生から採取されたサンプルを使って定期的に再訓練する必要があるため、トレーニングタイムのエクスプロイトを受ける。 最近の研究は、マルウェア分類器に対するバックドア攻撃の可能性を示しているが、そのような攻撃のステルス性はよく理解されていない。 本稿では,この現象をクリーンラベル設定(すなわち,アタッカーがトレーニングやラベリングのプロセスを完全に制御していない)下で検討する。 実験により,mntdなどの最近の防御により,マルウェア分類器における既存のバックドア攻撃が検出可能であることを示した。 ステルス性を改善するために,マルウェア作者が他の作者のマルウェアを保護するインセンティブをほとんど、あるいは全く持たないというキー観察に基づいて,新たな攻撃であるJigsaw Puzzle (JP)を提案する。 このように、jigsawパズルは、マルウェアの著者のサンプルの潜在パターンを補完するトリガーを学習し、トリガーと潜在パターンがサンプルに分割された場合にのみバックドアを起動する。 我々はさらに、問題領域(例えばソフトウェアコード)における実現可能なトリガに焦点を合わせ、良質なソフトウェアから広く収穫されたバイトコードガジェットを使用します。 我々の評価では、Jigsaw Puzzleはバックドアとして有効であり、最先端の防御に対してステルス性を維持しており、機能空間のみの攻撃に関する推論から外れた現実的な設定における脅威であることを確認した。 最後に、バックドア防御を改善するための有望なアプローチを探求する。

Malware classifiers are subject to training-time exploitation due to the need to regularly retrain using samples collected from the wild. Recent work has demonstrated the feasibility of backdoor attacks against malware classifiers, and yet the stealthiness of such attacks is not well understood. In this paper, we investigate this phenomenon under the clean-label setting (i.e., attackers do not have complete control over the training or labeling process). Empirically, we show that existing backdoor attacks in malware classifiers are still detectable by recent defenses such as MNTD. To improve stealthiness, we propose a new attack, Jigsaw Puzzle (JP), based on the key observation that malware authors have little to no incentive to protect any other authors' malware but their own. As such, Jigsaw Puzzle learns a trigger to complement the latent patterns of the malware author's samples, and activates the backdoor only when the trigger and the latent pattern are pieced together in a sample. We further focus on realizable triggers in the problem space (e.g., software code) using bytecode gadgets broadly harvested from benign software. Our evaluation confirms that Jigsaw Puzzle is effective as a backdoor, remains stealthy against state-of-the-art defenses, and is a threat in realistic settings that depart from reasoning about feature-space only attacks. We conclude by exploring promising approaches to improve backdoor defenses.
翻訳日:2022-02-14 16:05:38 公開日:2022-02-11
# (参考訳) 自己参照型重み行列による自己修正学習 [全文訳有]

A Modern Self-Referential Weight Matrix That Learns to Modify Itself ( http://arxiv.org/abs/2202.05780v1 )

ライセンス: CC BY 4.0
Kazuki Irie, Imanol Schlag, R\'obert Csord\'as, J\"urgen Schmidhuber(参考訳) ニューラルネットワーク(NN)の重み行列(WM)はそのプログラムである。 多くの伝統的なnnのプログラムは、あるエラー関数の勾配降下を通じて学習され、修正されたままである。 しかし、自己参照NNのWMは、実行中に自分自身を迅速に修正し続けることができる。 原則として、このようなnnは学習をメタ学習し、メタ学習をメタ学習し、再帰的自己改善という意味で学習することができる。 このような振る舞いを実装可能なNNアーキテクチャは、90年代から提案されているが、実際的な研究はほとんどない。 ここでは、高速ウェイトプログラマと密接に関連する線形変換器の最近の成功に基づいて、そのようなNNを再考する。 本稿では,外部製品とデルタ更新ルールを用いて自己修正を行う,スケーラブルな自己参照型WM(SRWM)を提案する。 プロシージャ生成型ゲーム環境を用いたマイズショット学習とマルチタスク強化学習におけるsrwmの評価を行った。 本実験は,SRWMの実用性と競争性能の両立を実証するものである。 私たちのコードは公開されています。

The weight matrix (WM) of a neural network (NN) is its program. The programs of many traditional NNs are learned through gradient descent in some error function, then remain fixed. The WM of a self-referential NN, however, can keep rapidly modifying all of itself during runtime. In principle, such NNs can meta-learn to learn, and meta-meta-learn to meta-learn to learn, and so on, in the sense of recursive self-improvement. While NN architectures potentially capable of implementing such behavior have been proposed since the '90s, there have been few if any practical studies. Here we revisit such NNs, building upon recent successes of fast weight programmers and closely related linear Transformers. We propose a scalable self-referential WM (SRWM) that uses outer products and the delta update rule to modify itself. We evaluate our SRWM in supervised few-shot learning and in multi-task reinforcement learning with procedurally generated game environments. Our experiments demonstrate both practical applicability and competitive performance of the proposed SRWM. Our code is public.
翻訳日:2022-02-14 16:03:08 公開日:2022-02-11
# 分散ロバストなデータ結合

Distributionally Robust Data Join ( http://arxiv.org/abs/2202.05797v1 )

ライセンス: Link先を確認
Pranjal Awasthi, Christopher Jung, Jamie Morgenstern(参考訳) ラベル付きデータセットとラベルなしデータセットの2つのデータセットが与えられているとしよう。 予測器を構築するために、これらのデータセットを一緒に使う最も原則のある方法は何ですか? 答えは、これらのデータセットが相互特徴集合上の同一または異なる分布によって生成されるかどうか、テスト分布がそれらの分布にどの程度似ているかに依存するべきである。 多くのアプリケーションでは、2つのデータセットは異なる分布に従う可能性が高いが、どちらもテスト分布に近い可能性がある。 本稿では,ラベル付きデータセット上の経験的分布からWasserstein距離が$r_1$,ラベル付きデータセットから$r_2$であるような,元の特徴,補助特徴,バイナリラベルに対する確率分布の最大損失を最小限に抑える予測器を構築することを提案する。 これは分散ロバストな最適化(DRO)の一般化であり、2つのデータソースが可能であり、そのうちの1つはラベル付けされておらず、補助的な特徴を含む可能性がある。

Suppose we are given two datasets: a labeled dataset and unlabeled dataset which also has additional auxiliary features not present in the first dataset. What is the most principled way to use these datasets together to construct a predictor? The answer should depend upon whether these datasets are generated by the same or different distributions over their mutual feature sets, and how similar the test distribution will be to either of those distributions. In many applications, the two datasets will likely follow different distributions, but both may be close to the test distribution. We introduce the problem of building a predictor which minimizes the maximum loss over all probability distributions over the original features, auxiliary features, and binary labels, whose Wasserstein distance is $r_1$ away from the empirical distribution over the labeled dataset and $r_2$ away from that of the unlabeled dataset. This can be thought of as a generalization of distributionally robust optimization (DRO), which allows for two data sources, one of which is unlabeled and may contain auxiliary features.
翻訳日:2022-02-14 15:36:41 公開日:2022-02-11
# メンバーシップ推論攻撃に対するプライバシ保護生成フレームワーク

Privacy-preserving Generative Framework Against Membership Inference Attacks ( http://arxiv.org/abs/2202.05469v1 )

ライセンス: Link先を確認
Ruikang Yang, Jianfeng Ma, Yinbin Miao, Xindi Ma(参考訳) 人工知能と機械学習は私たちの生活のあらゆる側面に統合され、個人のデータのプライバシーはますます注目を集めている。 モデルの生成はトレーニングデータの有効な情報を抽出する必要があるため、トレーニングデータのプライバシーを漏洩するリスクがある。 メンバーシップ推論攻撃は、ソースデータのモデル漏洩をある程度測定することができる。 本稿では,生成モデル可変オートエンコーダ(VAE)の情報抽出とデータ生成機能を用いて,会員推論攻撃に対するプライバシ保存型生成フレームワークを設計し,差分プライバシのニーズを満たす合成データを生成する。 モデル出力にノイズを加えるか、ターゲットモデルのトレーニングプロセスに改ざんする代わりに、私たちは元のデータを直接処理します。 まず、VAEモデルを通してソースデータを潜時空間にマッピングして潜時符号を取得し、次に潜時符号上でメートル法プライバシーを満たすノイズ処理を行い、最終的にVAEモデルを用いて合成データを再構成する。 実験により、新たに生成した合成データを用いて学習した機械学習モデルは、メンバーシップ推論攻撃に効果的に抵抗でき、高いユーティリティを維持できることを示した。

Artificial intelligence and machine learning have been integrated into all aspects of our lives and the privacy of personal data has attracted more and more attention. Since the generation of the model needs to extract the effective information of the training data, the model has the risk of leaking the privacy of the training data. Membership inference attacks can measure the model leakage of source data to a certain degree. In this paper, we design a privacy-preserving generative framework against membership inference attacks, through the information extraction and data generation capabilities of the generative model variational autoencoder (VAE) to generate synthetic data that meets the needs of differential privacy. Instead of adding noise to the model output or tampering with the training process of the target model, we directly process the original data. We first map the source data to the latent space through the VAE model to get the latent code, then perform noise process satisfying metric privacy on the latent code, and finally use the VAE model to reconstruct the synthetic data. Our experimental evaluation demonstrates that the machine learning model trained with newly generated synthetic data can effectively resist membership inference attacks and still maintain high utility.
翻訳日:2022-02-14 15:35:52 公開日:2022-02-11
# (参考訳) 難解・難解な文字レベル防衛を有するドイツ語におけるHate-Speech BERT分類器に対するWhite-Box攻撃 [全文訳有]

White-Box Attacks on Hate-speech BERT Classifiers in German with Explicit and Implicit Character Level Defense ( http://arxiv.org/abs/2202.05778v1 )

ライセンス: CC BY 4.0
Shahrukh Khan, Mahnoor Shahid, Navdeeppal Singh(参考訳) 本研究では,ドイツのヘイトスピーチデータセットで訓練されたbertモデルの対向的ロバスト性を評価する。 また、2つの新しいホワイトボックス文字と単語レベル攻撃で評価を補完し、利用可能な攻撃範囲に寄与する。 さらに,2つの新規なキャラクタレベル防御戦略の比較を行い,その頑健性を評価する。

In this work, we evaluate the adversarial robustness of BERT models trained on German Hate Speech datasets. We also complement our evaluation with two novel white-box character and word level attacks thereby contributing to the range of attacks available. Furthermore, we also perform a comparison of two novel character-level defense strategies and evaluate their robustness with one another.
翻訳日:2022-02-14 15:34:06 公開日:2022-02-11
# インターネットトラフィック分類のための軽量で効率的で説明可能な畳み込みニューラルネットワーク

A Lightweight, Efficient and Explainable-by-Desig n Convolutional Neural Network for Internet Traffic Classification ( http://arxiv.org/abs/2202.05535v1 )

ライセンス: Link先を確認
Kevin Fauvel, Alessandro Finamore, Lixuan Yang, Fuxing Chen, Dario Rossi(参考訳) トラフィック分類、すなわちネットワーク内を流れるアプリケーションの種類を特定することは、多数のアクティビティ(例えば侵入検出、ルーティング)にとって戦略的タスクである。 この課題は、現在のディープラーニングアプローチでは対処できないいくつかの重要な課題に直面します。 現在のアプローチの設計は、ネットワークハードウェア(例えばルータ)がしばしば限られた計算リソースで実行されるという事実を考慮していない。 さらに、規制機関が強調した忠実な説明性の必要性も満たさない。 最後に、これらのトラフィック分類器は、実際の商用環境でのアプリケーションの多様性を反映しない小さなデータセットで評価される。 そこで本研究では,新しい残差ブロック(軽量かつ効率的な目的)とプロトタイプ層(説明可能性)に依存した,インターネットトラフィック分類のための軽量で効率的なeXplainient,eXplaina ble-by-design convolutional Neural Network (LEXNet)を提案する。 商用グレードのデータセットに基づいて、LEXNetは、前述の追加機能を提供しながら、最先端のニューラルネットワークと同じ精度を維持することに成功した。 さらに,LEXNetはモデルサイズと推論時間を,説明可能性とポストホックな説明可能性を持つ最先端のニューラルネットワークと比較して有意に削減することを示した。 最後に,検出されたアプリケーションプロトタイプのエンドユーザへのコミュニケーションに由来する,このアプローチの説明可能性の特徴を説明し,ポストホックメソッドとの比較を通じてlexnetの説明の忠実さを強調する。

Traffic classification, i.e. the identification of the type of applications flowing in a network, is a strategic task for numerous activities (e.g., intrusion detection, routing). This task faces some critical challenges that current deep learning approaches do not address. The design of current approaches do not take into consideration the fact that networking hardware (e.g., routers) often runs with limited computational resources. Further, they do not meet the need for faithful explainability highlighted by regulatory bodies. Finally, these traffic classifiers are evaluated on small datasets which fail to reflect the diversity of applications in real commercial settings. Therefore, this paper introduces a Lightweight, Efficient and eXplainable-by-desig n convolutional neural network (LEXNet) for Internet traffic classification, which relies on a new residual block (for lightweight and efficiency purposes) and prototype layer (for explainability). Based on a commercial-grade dataset, our evaluation shows that LEXNet succeeds to maintain the same accuracy as the best performing state-of-the-art neural network, while providing the additional features previously mentioned. Moreover, we demonstrate that LEXNet significantly reduces the model size and inference time compared to the state-of-the-art neural networks with explainability-by-de sign and post hoc explainability methods. Finally, we illustrate the explainability feature of our approach, which stems from the communication of detected application prototypes to the end-user, and we highlight the faithfulness of LEXNet explanations through a comparison with post hoc methods.
翻訳日:2022-02-14 15:25:14 公開日:2022-02-11
# 曲線損失に対するスケールフリー無拘束オンライン学習

Scale-free Unconstrained Online Learning for Curved Losses ( http://arxiv.org/abs/2202.05630v1 )

ライセンス: Link先を確認
Jack J. Mayo, H\'edi Hadiji and Tim van Erven(参考訳) 制約のないオンライン凸最適化における一連の研究は、コンパレータのノルム$U$と勾配の最大ノルム$G$に同時に適応する可能性を検討した。 完全な一般性では、上界と下界の一致は知られており、これは前もって$g$または$u$が知られている場合には不要な$g u^3$の不可避なコストであることを示している。 驚くべきことに、Kempka et al. (2019) による最近の結果は、ヒンジ損失のような1ドルLipschitz損失の特定のケースでは、適応性に対するそのような価格が不要であることを示している。 我々の結果は、ログ損失、(線形および非パラメトリック)ロジスティック回帰、(線形および非パラメトリック)最小二乗回帰、(線形および非パラメトリック)最小二乗回帰をカバーしている。 また、u$ への明示的な依存を伴う下限のマッチングを提供することで、文学におけるいくつかのギャップを埋める。 いずれの場合も、データの再スケーリングにおいて好ましく不変なスケールフリーなアルゴリズムが得られます。 我々のゴールは計算効率を気にせずに達成可能なレートを確立することですが、線形ロジスティック回帰では、Agarwalらによる最近の非適応アルゴリズム(2021年)と同等の効率の適応方法も提供します。

A sequence of works in unconstrained online convex optimisation have investigated the possibility of adapting simultaneously to the norm $U$ of the comparator and the maximum norm $G$ of the gradients. In full generality, matching upper and lower bounds are known which show that this comes at the unavoidable cost of an additive $G U^3$, which is not needed when either $G$ or $U$ is known in advance. Surprisingly, recent results by Kempka et al. (2019) show that no such price for adaptivity is needed in the specific case of $1$-Lipschitz losses like the hinge loss. We follow up on this observation by showing that there is in fact never a price to pay for adaptivity if we specialise to any of the other common supervised online learning losses: our results cover log loss, (linear and non-parametric) logistic regression, square loss prediction, and (linear and non-parametric) least-squares regression. We also fill in several gaps in the literature by providing matching lower bounds with an explicit dependence on $U$. In all cases we obtain scale-free algorithms, which are suitably invariant under rescaling of the data. Our general goal is to establish achievable rates without concern for computational efficiency, but for linear logistic regression we also provide an adaptive method that is as efficient as the recent non-adaptive algorithm by Agarwal et al. (2021).
翻訳日:2022-02-14 15:24:49 公開日:2022-02-11
# カスケードモデルを用いたカルスト地域の微生物水質分類の予測モデル

Predictive modeling of microbiological seawater quality classification in karst region using cascade model ( http://arxiv.org/abs/2202.05664v1 )

ライセンス: Link先を確認
Ivana Lu\v{c}in, Sini\v{s}a Dru\v{z}eta, Goran Mau\v{s}a, Marta Alvir, Luka Grb\v{c}i\'c, Darija Vuki\'c Lu\v{s}i\'c, Ante Sikirica, Lado Kranj\v{c}evi\'c(参考訳) 本研究では,クロアチアのリェカ市における入浴期における大腸菌の海水測定の詳細な分析を行った。 地下水の沈殿源はいくつかの測定場所で観察され,大腸菌値の上昇の原因となった。 このカルスト地形の特異性はモニタリング過程では考慮されないため,新しい測定手法が提案されている。 気象データに基づく沿岸水質の予測にはカスケード機械学習モデルを用いており、水質の低下を伴う測定のまれな発生によるデータの不均衡による精度の向上が図られている。 現在、カスケードモデルはフィルタ法として用いられており、優れた品質とは分類されない測定を更に分析する必要がある。 しかし,本論文で提案されている改良により,カスケードモデルは最終的に単独の手法として使用可能となった。

In this paper, an in-depth analysis of Escherichia coli seawater measurements during the bathing season in the city of Rijeka, Croatia was conducted. Submerged sources of groundwater were observed at several measurement locations which could be the cause for increased E. coli values. This specificity of karst terrain is usually not considered during the monitoring process, thus a novel measurement methodology is proposed. A cascade machine learning model is used to predict coastal water quality based on meteorological data, which improves the level of accuracy due to data imbalance resulting from rare occurrences of measurements with reduced water quality. Currently, the cascade model is employed as a filter method, where measurements not classified as excellent quality need to be further analyzed. However, with improvements proposed in the paper, the cascade model could be ultimately used as a standalone method.
翻訳日:2022-02-14 15:24:21 公開日:2022-02-11
# (参考訳) 回答セット計画:調査

Answer Set Planning: A Survey ( http://arxiv.org/abs/2202.05793v1 )

ライセンス: CC BY 4.0
Tran Cao Son and Enrico Pontelli and Marcello Balduccini and Torsten Schaub(参考訳) 解集合計画(英: answer set planning)とは、計画、すなわち計画問題に対する解決策を計算し、与えられた世界の状態を別の状態に変換するための解集合プログラミング(asp)の使用を指す。 効率的でスケーラブルな回答セット解決器の開発は、ASPベースの計画システムの開発を大いに促進しました。 本稿は,過去20年半の計画領域における,基礎から挑戦的計画領域における利用までの進捗状況について調査する。 調査は、回答セット計画の利点とデメリットを探求する。 また,回答集合計画の典型的な応用について論じ,今後の研究に向けた課題を提示する。

Answer Set Planning refers to the use of Answer Set Programming (ASP) to compute plans, i.e., solutions to planning problems, that transform a given state of the world to another state. The development of efficient and scalable answer set solvers has provided a significant boost to the development of ASP-based planning systems. This paper surveys the progress made during the last two and a half decades in the area of answer set planning, from its foundations to its use in challenging planning domains. The survey explores the advantages and disadvantages of answer set planning. It also discusses typical applications of answer set planning and presents a set of challenges for future research.
翻訳日:2022-02-14 15:23:18 公開日:2022-02-11
# 塗装の連成学習のためのWasserstein GANとその空間最適化

A Wasserstein GAN for Joint Learning of Inpainting and its Spatial Optimisation ( http://arxiv.org/abs/2202.05623v1 )

ライセンス: Link先を確認
Pascal Peter(参考訳) 古典的画像塗装は、欠落した画像部品を復元する復元方法である。 しかし、高品質なインペイントが得られる既知の画素の慎重に選択されたマスクは、スパース画像表現としても機能する。 この難しい空間最適化問題は圧縮のような実用的な応用には不可欠である。 これまでのところ、ほとんどモデルベースのアプローチで対処されてきた。 ニューラルネットワークを使った最初の試みは有望に思えるが、特定のインペイント演算子や後処理を必要とする。 この問題に対処するために,空間インパインティングデータ最適化のための最初の生成型逆ネットワークを提案する。 従来のアプローチとは対照的に、着色発電機とそれに対応するマスク最適化ネットワークのジョイントトレーニングが可能である。 ワッセルシュタイン距離は、我々の塗装結果が自然画像の統計を正確に反映することを保証する。 これにより、従来の確率モデルよりも視覚的品質と速度が大幅に向上し、現在の空間最適化ネットワークよりも優れている。

Classic image inpainting is a restoration method that reconstructs missing image parts. However, a carefully selected mask of known pixels that yield a high quality inpainting can also act as a sparse image representation. This challenging spatial optimisation problem is essential for practical applications such as compression. So far, it has been almost exclusively addressed by model-based approaches. First attempts with neural networks seem promising, but are tailored towards specific inpainting operators or require postprocessing. To address this issue, we propose the first generative adversarial network for spatial inpainting data optimisation. In contrast to previous approaches, it allows joint training of an inpainting generator and a corresponding mask optimisation network. With a Wasserstein distance, we ensure that our inpainting results accurately reflect the statistics of natural images. This yields significant improvements in visual quality and speed over conventional stochastic models and also outperforms current spatial optimisation networks.
翻訳日:2022-02-14 15:20:03 公開日:2022-02-11
# 時系列データ共有におけるアクティブプライバシ利用上のトレードオフ

Active Privacy-Utility Trade-off Against Inference in Time-Series Data Sharing ( http://arxiv.org/abs/2202.05833v1 )

ライセンス: Link先を確認
Ecenaz Erdemir, Pier Luigi Dragotti, and Deniz Gunduz(参考訳) スマートメーターやスマートスピーカー,アクティビティモニタなど,IoT(Internet of Things, モノのインターネット)デバイスは,同社が提供するサービスによって人気を博している。 しかし、多くのメリットに加えて、詳細な時系列ユーザーデータを信頼できない第三者と共有しているため、プライバシー上の懸念も高まる。 本研究では,サービス提供者(SP)の見返りに,個人情報を含むデータを公開しているユーザについて考察する。 我々は、ユーザの個人情報を2つの相関確率変数(r.v.s)としてモデル化し、そのうちの1つは秘密変数と呼ばれ、もう1つは有用変数と呼ばれ、ユーティリティとして開示される。 我々は,ユーザの個人情報,すなわちr.v.s.の真の価値に関する情報を,異なる統計値で明らかにする,アクティブなシーケンシャルなデータリリースについて検討する。 ユーザは、潜在有用な変数に関する情報の最大量をできるだけ早く開示すると共に、センシティブな変数に対する信頼度を予め定義されたレベル以下に保たれるように、オンライン形式でデータリリースを管理する。 プライバシ尺度では、秘密の真の価値を正しく検出する確率と、秘密と解放されたデータの間の相互情報(MI)の両方を考慮する。 両問題を部分的に観測可能なマルコフ決定過程(POMDP)として定式化し,アクター・クリティカル(A2C)深部強化学習(DRL)を用いて数値的に解いた。 本研究では,合成データと喫煙活動データセットの両方に対するポリシーのプライバシユーティリティトレードオフ(PUT)を評価し,長い短期記憶(LSTM)ニューラルネットワークでモデル化されたSPのアクティビティ検出精度をテストすることにより,その妥当性を示す。

Internet of things (IoT) devices, such as smart meters, smart speakers and activity monitors, have become highly popular thanks to the services they offer. However, in addition to their many benefits, they raise privacy concerns since they share fine-grained time-series user data with untrusted third parties. In this work, we consider a user releasing her data containing personal information in return of a service from an honest-but-curious service provider (SP). We model user's personal information as two correlated random variables (r.v.'s), one of them, called the secret variable, is to be kept private, while the other, called the useful variable, is to be disclosed for utility. We consider active sequential data release, where at each time step the user chooses from among a finite set of release mechanisms, each revealing some information about the user's personal information, i.e., the true values of the r.v.'s, albeit with different statistics. The user manages data release in an online fashion such that the maximum amount of information is revealed about the latent useful variable as quickly as possible, while the confidence for the sensitive variable is kept below a predefined level. For privacy measure, we consider both the probability of correctly detecting the true value of the secret and the mutual information (MI) between the secret and the released data. We formulate both problems as partially observable Markov decision processes (POMDPs), and numerically solve them by advantage actor-critic (A2C) deep reinforcement learning (DRL). We evaluate the privacy-utility trade-off (PUT) of the proposed policies on both the synthetic data and smoking activity dataset, and show their validity by testing the activity detection accuracy of the SP modeled by a long short-term memory (LSTM) neural network.
翻訳日:2022-02-14 15:19:23 公開日:2022-02-11
# $f$-divergences の測度不等式の変化について

On change of measure inequalities for $f$-divergences ( http://arxiv.org/abs/2202.05568v1 )

ライセンス: Link先を確認
Antoine Picard-Weibel and Benjamin Guedj(参考訳) 我々は、$f$-divergences(Kulb ack-Leiblerの発散が特別な場合)に基づく測度不等式の新しい変更を提案する。 我々の戦略は、$f$-divergences のルジャンドル変換とヤング・フェンシェルの不等式を組み合わせたものである。 これらの新しい測度不等式の変化を利用して、新しいPAC-ベイジアン一般化は、$f$-divergencesを含む複雑さを伴い、ほとんどチャーターされていない設定(重み付き損失など)を保持する。 私たちは最も人気のある$f$-divergencesのために結果をインスタンス化する。

We propose new change of measure inequalities based on $f$-divergences (of which the Kullback-Leibler divergence is a particular case). Our strategy relies on combining the Legendre transform of $f$-divergences and the Young-Fenchel inequality. By exploiting these new change of measure inequalities, we derive new PAC-Bayesian generalisation bounds with a complexity involving $f$-divergences, and holding in mostly unchartered settings (such as heavy-tailed losses). We instantiate our results for the most popular $f$-divergences.
翻訳日:2022-02-14 15:18:50 公開日:2022-02-11
# MTシステムの評価:理論的枠組み

Evaluating MT Systems: A Theoretical Framework ( http://arxiv.org/abs/2202.05806v1 )

ライセンス: Link先を確認
Rajeev Sangal(参考訳) 本稿では,機械翻訳システムの評価のために,異なる自動メトリクスを設計できる理論的枠組みを概説する。 これは、認知の容易さの概念を導入し、それは「不適切さ」と「流感の欠如」に依存する。 したがって、認知の容易さは、理解しやすさよりも測定すべき主要なパラメータとなる。 このフレームワークは、認知の容易さのコンポーネントを、異なる言語レベルなどに基づいて分割し、計算することができる。 次元の独立性とそれらの線形結合は、高度にモジュラーなアプローチを提供する。 本稿では,既存の自動手法を全体フレームワークに配置し,それらをよりよく理解し,将来改善する。 また、音声から音声への翻訳や談話の翻訳など、新しいタイプのMTシステムを評価するためにも使用できる。

This paper outlines a theoretical framework using which different automatic metrics can be designed for evaluation of Machine Translation systems. It introduces the concept of {\em cognitive ease} which depends on {\em adequacy} and {\em lack of fluency}. Thus, cognitive ease becomes the main parameter to be measured rather than comprehensibility. The framework allows the components of cognitive ease to be broken up and computed based on different linguistic levels etc. Independence of dimensions and linearly combining them provides for a highly modular approach. The paper places the existing automatic methods in an overall framework, to understand them better and to improve upon them in future. It can also be used to evaluate the newer types of MT systems, such as speech to speech translation and discourse translation.
翻訳日:2022-02-14 15:17:30 公開日:2022-02-11
# System W Satisfies Syntax Splitting による推論

Inference with System W Satisfies Syntax Splitting ( http://arxiv.org/abs/2202.05511v1 )

ライセンス: Link先を確認
Jonas Haldimann, Christoph Beierle(参考訳) 本稿では,構文分割に関する条件的信念に基づくシステムWの帰納的推論について検討する。 帰納的推論のための構文分割の概念は、署名の独立した部分に関する推論は互いに影響しないことを述べている。 これはkern-isberner氏、beierle氏、brewka氏によって、関係性と独立性の組合せとして構文分割を表現する帰納的推論演算子のための仮定として捉えられた。 system wは、最近導入された非単調推論のための推論システムであり、c参照と同様にシステムzをキャプチャして適切に拡張する。 システムWは、帰納的推論演算子に対する構文分割を補足し、関係性と独立性の要求特性を満たすことを示す。 これにより、システムwは構文分割に完全準拠するc参照以外の別の推論演算子となり、c参照とは対照的に有理閉包も拡張される。

In this paper, we investigate inductive inference with system W from conditional belief bases with respect to syntax splitting. The concept of syntax splitting for inductive inference states that inferences about independent parts of the signature should not affect each other. This was captured in work by Kern-Isberner, Beierle, and Brewka in the form of postulates for inductive inference operators expressing syntax splitting as a combination of relevance and independence; it was also shown that c-inference fulfils syntax splitting, while system P inference and system Z both fail to satisfy it. System W is a recently introduced inference system for nonmonotonic reasoning that captures and properly extends system Z as well as c-inference. We show that system W fulfils the syntax splitting postulates for inductive inference operators by showing that it satisfies the required properties of relevance and independence. This makes system W another inference operator besides c-inference that fully complies with syntax splitting, while in contrast to c-inference, also extending rational closure.
翻訳日:2022-02-14 15:17:18 公開日:2022-02-11
# 閉ループ転写による構造記憶のインクリメンタル学習

Incremental Learning of Structured Memory via Closed-Loop Transcription ( http://arxiv.org/abs/2202.05411v1 )

ライセンス: Link先を確認
Shengbang Tong, Xili Dai, Ziyang Wu, Mingyang Li, Brent Yi, Yi Ma(参考訳) 本稿では,複数のオブジェクトクラスの構造化メモリをインクリメンタルに学習するための最小計算モデルを提案する。 提案手法は,低次元特徴空間において,複数のクラスとその対応する部分空間間の閉ループ転写(線形識別表現)を確立することに基づく。 本手法は, モデルサイズ, 記憶量, 計算量の観点から, 従来のインクリメンタル学習手法に比べて, よりシンプルかつ効率的である。 全てのネットワークパラメータは、符号化と復号化マップの間の制約付きミニマックスゲームを単一レートの削減に基づく目的で解くことで、アーキテクチャ操作なしで同時に最適化される。 実験結果から,本手法は破滅的忘れを効果的に軽減し,生成的,識別的両目的の先行研究よりも優れた性能を達成できることが示唆された。

This work proposes a minimal computational model for learning a structured memory of multiple object classes in an incremental setting. Our approach is based on establishing a closed-loop transcription between multiple classes and their corresponding subspaces, known as a linear discriminative representation, in a low-dimensional feature space. Our method is both simpler and more efficient than existing approaches to incremental learning, in terms of model size, storage, and computation: it requires only a single, fixed-capacity autoencoding network with a feature space that is used for both discriminative and generative purposes. All network parameters are optimized simultaneously without architectural manipulations, by solving a constrained minimax game between the encoding and decoding maps over a single rate reduction-based objective. Experimental results show that our method can effectively alleviate catastrophic forgetting, achieving significantly better performance than prior work for both generative and discriminative purposes.
翻訳日:2022-02-14 15:16:42 公開日:2022-02-11
# exemplar-freeオンライン連続学習

Exemplar-free Online Continual Learning ( http://arxiv.org/abs/2202.05491v1 )

ライセンス: Link先を確認
Jiangpeng He and Fengqing Zhu(参考訳) 実世界のシナリオを対象としたオンライン連続学習は、学習者が各データを一度だけ観察する条件の下で、逐次利用可能なデータから新しいタスクを学習することを目的としている。 近年の研究では、学習したタスクデータの一部を知識リプレイの模範として保存することで目覚ましい成果を上げているが、その性能は記憶された模範のサイズに大きく依存する一方で、記憶の消費は連続学習において重要な制約となっている。 さらに、プライバシー上の懸念から、特定のアプリケーションに対して、模範を格納することが常に可能であるとは限らない。 本研究では,オンライン平均更新基準を通した全データに対して,学習段階でクラス平均を推定する最も近いクラス平均(ncm)分類器を活用することで,新しいexemplar-free手法を提案する。 我々は画像分類タスクに集中し、CIFAR-100やFood-1kといったベンチマークデータセットで広範な実験を行う。 提案手法は,標準プロトコル(クラス毎に20例,クラス毎に100例,クラス毎に100例)において,最先端の先進的なアプローチを一切使用せずに,競争性能を発揮可能であることを示す。

Targeted for real world scenarios, online continual learning aims to learn new tasks from sequentially available data under the condition that each data is observed only once by the learner. Though recent works have made remarkable achievements by storing part of learned task data as exemplars for knowledge replay, the performance is greatly relied on the size of stored exemplars while the storage consumption is a significant constraint in continual learning. In addition, storing exemplars may not always be feasible for certain applications due to privacy concerns. In this work, we propose a novel exemplar-free method by leveraging nearest-class-mean (NCM) classifier where the class mean is estimated during training phase on all data seen so far through online mean update criteria. We focus on image classification task and conduct extensive experiments on benchmark datasets including CIFAR-100 and Food-1k. The results demonstrate that our method without using any exemplar outperforms state-of-the-art exemplar-based approaches with large margins under standard protocol (20 exemplars per class) and is able to achieve competitive performance even with larger exemplar size (100 exemplars per class).
翻訳日:2022-02-14 15:16:26 公開日:2022-02-11
# 映像駆動型ニューラルネットワークによる顔アセットの製作

Video-driven Neural Physically-based Facial Asset for Production ( http://arxiv.org/abs/2202.05592v1 )

ライセンス: Link先を確認
Longwen Zhang, Chuxiao Zeng, Qixuan Zhang, Hongyang Lin, Ruixiang Cao, Wei Yang, Lan Xu, and Jingyi Yu(参考訳) 説得力のある3Dダイナミックな顔を作るための生産レベルのワークフローは、幾何学とテクスチャ生成、モーションキャプチャとリギング、および表現合成のための労働集約的なツールの欠如に依存してきた。 最近のニューラルアプローチは個々のコンポーネントを自動化するが、それに対応する潜在表現は、従来のツールのようにアーティストに明示的なコントロールを提供できない。 本稿では,高品質な物理的資産を持つ動的顔形状を生成するための新しい学習ベースビデオ駆動手法を提案する。 2つの重要なコンポーネントは、ビデオからの高密度時間サンプリングと、潜伏空間を規制する明示的な表情制御のため、よく構造化された潜伏空間である。 データ収集のために,超高速ビデオカメラと結合したハイブリッド多視点撮影ステージを構築し,生の3次元顔のアセットを得る。 次に,グローバルなMLP型表現マッピングを用いた別個のVAEを用いて,表情,幾何学,物理的テクスチャをモデル化し,形状やテクスチャの明示的な制御を維持しつつ,各属性の特徴を保存する。 また, 動的テクスチャの高品質なレンダリングを実現するため, デルタ情報を物理ベーステクスチャのリンクルマップとしてモデル化する。 我々は,高忠実度パフォーマー特異的顔キャプチャーとクロスアイデンティティ顔の動き再ターゲティングのアプローチを実証する。 さらに、私たちのニューラルアセットと高速な適応スキームは、Wildの動画を扱うためにも利用できます。 さらに, 形状, 素材編集, ウィンクル転送などの身体的編集結果が, 高いリアリズムで提供されることにより, 明示的な顔の異方性戦略の有用性をモチベーションとしている。 包括的実験により,従来のビデオ駆動顔面再建法やアニメーション法よりも高い精度と視覚的忠実度が得られた。

Production-level workflows for producing convincing 3D dynamic human faces have long relied on a disarray of labor-intensive tools for geometry and texture generation, motion capture and rigging, and expression synthesis. Recent neural approaches automate individual components but the corresponding latent representations cannot provide artists explicit controls as in conventional tools. In this paper, we present a new learning-based, video-driven approach for generating dynamic facial geometries with high-quality physically-based assets. Two key components are well-structured latent spaces due to dense temporal samplings from videos and explicit facial expression controls to regulate the latent spaces. For data collection, we construct a hybrid multiview-photometri c capture stage, coupling with an ultra-fast video camera to obtain raw 3D facial assets. We then model the facial expression, geometry and physically-based textures using separate VAEs with a global MLP-based expression mapping across the latent spaces, to preserve characteristics across respective attributes while maintaining explicit controls over geometry and texture. We also introduce to model the delta information as wrinkle maps for physically-base textures, achieving high-quality rendering of dynamic textures. We demonstrate our approach in high-fidelity performer-specific facial capture and cross-identity facial motion retargeting. In addition, our neural asset along with fast adaptation schemes can also be deployed to handle in-the-wild videos. Besides, we motivate the utility of our explicit facial disentangle strategy by providing promising physically-based editing results like geometry and material editing or winkle transfer with high realism. Comprehensive experiments show that our technique provides higher accuracy and visual fidelity than previous video-driven facial reconstruction and animation methods.
翻訳日:2022-02-14 15:15:50 公開日:2022-02-11
# Tiny Object Tracking: 大規模データセットとベースライン

Tiny Object Tracking: A Large-scale Dataset and A Baseline ( http://arxiv.org/abs/2202.05659v1 )

ライセンス: Link先を確認
Yabin Zhu, Chenglong Li, Yao Liu, Xiao Wang, Jin Tang, Bin Luo, Zhixiang Huang(参考訳) 小さな物体は実用的用途によく登場し、外観や特徴が弱く、物体検出やセグメンテーションといった平均的な視覚タスクへの関心が高まっている。 小さな物体追跡の研究と開発を促進するために、私たちは、合計217kフレーム以上の434のシーケンスを含む大規模ビデオデータセットを作成しました。 各フレームは高品質のバウンディングボックスで注意深くアノテートされる。 データ作成では、幅広い視点やシーンの複雑さをカバーするために12のチャレンジ属性を考慮に入れ、属性ベースのパフォーマンス分析を容易にするためにこれらの属性を注釈付けします。 小型物体追跡における特徴表現, 識別, 局所化能力を効果的に向上するために, 統合されたフレームワークにおける3段階の知識蒸留を追求する, 新規なマルチレベル知識蒸留ネットワーク(MKDNet)を提案する。 提案するデータセット上で広範な実験を行い,mkdnetが最先端手法と比較して優れていること,有効性を示した。 データセット、アルゴリズムコード、評価コードはhttps://github.com/m mic-lcl/datasets-and -benchmark-codeで入手できる。

Tiny objects, frequently appearing in practical applications, have weak appearance and features, and receive increasing interests in meany vision tasks, such as object detection and segmentation. To promote the research and development of tiny object tracking, we create a large-scale video dataset, which contains 434 sequences with a total of more than 217K frames. Each frame is carefully annotated with a high-quality bounding box. In data creation, we take 12 challenge attributes into account to cover a broad range of viewpoints and scene complexities, and annotate these attributes for facilitating the attribute-based performance analysis. To provide a strong baseline in tiny object tracking, we propose a novel Multilevel Knowledge Distillation Network (MKDNet), which pursues three-level knowledge distillations in a unified framework to effectively enhance the feature representation, discrimination and localization abilities in tracking tiny objects. Extensive experiments are performed on the proposed dataset, and the results prove the superiority and effectiveness of MKDNet compared with state-of-the-art methods. The dataset, the algorithm code, and the evaluation code are available at https://github.com/m mic-lcl/Datasets-and -benchmark-code.
翻訳日:2022-02-14 15:15:19 公開日:2022-02-11
# Gendered News: Une approche calculationnelle des \'ecarts de repr\'esentation des genres dans la presse fran\c{c}aise

GenderedNews: Une approche computationnelle des \'ecarts de repr\'esentation des genres dans la presse fran\c{c}aise ( http://arxiv.org/abs/2202.05682v1 )

ライセンス: Link先を確認
Ange Richard and Gilles Bastin and Fran\c{c}ois Portet(参考訳) 本稿では、フランスのオンラインメディアで毎週男女不均衡を計測するオンラインダッシュボード、genderednews(https:/ /gendered-news.imag. fr)を紹介する。 我々は自然言語処理(nlp)手法を用いて,グローバルメディアモニタリングプロジェクトのようなグローバルプロジェクトを経て,メディアにおける性不平等を定量化する。 このようなプロジェクトは、メディアにおけるジェンダーの不均衡と、その非常に遅い進化を強調している。 しかし、その一般化はサンプリングと時間、データ、スタッフのコストによって制限されている。 自動化によって、性別表現の不平等を定量化するための補完的な手段が提供できます。 我々は、表現を、ステレオティプリゼーションとしての表現とは対照的に、言及された男女の存在と分布として理解している。 本稿では,メディアにおけるジェンダー不平等に関する以前の研究では,質的コンテンツ分析,量的コンテンツ分析,計算方法など,さまざまな手法が採用されている。 次に,<i>GenderedNews</i>が採用した手法と,言及の男性性率とオンラインニュースで引用された男性の割合の2つの指標を詳述する。 毎日収集されるデータ(フランスのオンラインニュースメディアの7つの主要タイトル)と、メトリクスの背後にある方法論、そしていくつかの可視化について説明する。 最終的に、データベースの2ヶ月のサンプルの詳細な観察を行い、分析可能なデータについて説明することを提案する。

In this article, we present GenderedNews (https://gendered-ne ws.imag.fr), an online dashboard which gives weekly measures of gender imbalance in French online press. We use Natural Language Processing (NLP) methods to quantify gender inequalities in the media, in the wake of global projects like the Global Media Monitoring Project. Such projects are instrumental in highlighting gender imbalance in the media and its very slow evolution. However, their generalisation is limited by their sampling and cost in terms of time, data and staff. Automation allows us to offer complementary measures to quantify inequalities in gender representation. We understand representation as the presence and distribution of men and women mentioned and quoted in the news -- as opposed to representation as stereotypification. In this paper, we first review different means adopted by previous studies on gender inequality in the media : qualitative content analysis, quantitative content analysis and computational methods. We then detail the methods adopted by {\it GenderedNews} and the two metrics implemented: the masculinity rate of mentions and the proportion of men quoted in online news. We describe the data collected daily (seven main titles of French online news media) and the methodology behind our metrics, as well as a few visualisations. We finally propose to illustrate possible analysis of our data by conducting an in-depth observation of a sample of two months of our database.
翻訳日:2022-02-14 15:13:58 公開日:2022-02-11
# PARSE:感情認識のための半教師付き脳波学習における表現のペアワイズアライメント

PARSE: Pairwise Alignment of Representations in Semi-Supervised EEG Learning for Emotion Recognition ( http://arxiv.org/abs/2202.05400v1 )

ライセンス: Link先を確認
Guangyi Zhang and Ali Etemad(参考訳) 感情認識のための強い脳波表現を学習するための新しい半教師付きアーキテクチャであるPARSEを提案する。 大量のラベル付きデータと限られたラベル付きデータとの間の潜在的分布ミスマッチを低減するため、PARSEはペア方向のアライメントアライメントを使用する。 まず,データ拡張を行い,大量のオリジナルおよび拡張された未ラベルデータに対するラベル推定を行う。 その後、推測されたラベルとラベルなしデータとラベル付きデータの凸の組み合わせをシャープにする。 最後に、表現アライメントと感情分類を行う。 モデルを厳密にテストするために、PARSEと最先端の半教師付きアプローチを比較し、脳波学習に適応する。 我々はこれらの実験を4つの公的な脳波に基づく感情認識データセット、SEED, SEED-IV, SEED-V, AMIGOSで実施した。 実験の結果,提案手法はシード,シードiv,アミゴス(ヴァレンス)のラベル付きサンプル数を限定し,さらにシードvおよびアミゴス(覚醒)のベスト結果(第2位まで到達)に近づくことで,総合的な結果を得ることができた。 分析の結果,ラベルなしデータとラベル付きデータの分布アライメントを減少させることにより,ペアワイズ表現アライメントの性能が大幅に向上することがわかった。

We propose PARSE, a novel semi-supervised architecture for learning strong EEG representations for emotion recognition. To reduce the potential distribution mismatch between the large amounts of unlabeled data and the limited amount of labeled data, PARSE uses pairwise representation alignment. First, our model performs data augmentation followed by label guessing for large amounts of original and augmented unlabeled data. This is then followed by sharpening of the guessed labels and convex combinations of the unlabeled and labeled data. Finally, representation alignment and emotion classification are performed. To rigorously test our model, we compare PARSE to several state-of-the-art semi-supervised approaches which we implement and adapt for EEG learning. We perform these experiments on four public EEG-based emotion recognition datasets, SEED, SEED-IV, SEED-V and AMIGOS (valence and arousal). The experiments show that our proposed framework achieves the overall best results with varying amounts of limited labeled samples in SEED, SEED-IV and AMIGOS (valence), while approaching the overall best result (reaching the second-best) in SEED-V and AMIGOS (arousal). The analysis shows that our pairwise representation alignment considerably improves the performance by reducing the distribution alignment between unlabeled and labeled data, especially when only 1 sample per class is labeled.
翻訳日:2022-02-14 15:13:09 公開日:2022-02-11
# 機械学習支援型大気汚染データ調査用ビジュアル分析ワークフロー

A Machine-Learning-Aid ed Visual Analysis Workflow for Investigating Air Pollution Data ( http://arxiv.org/abs/2202.05413v1 )

ライセンス: Link先を確認
Yun-Hsin Kuo, Takanori Fujiwara, Charles C.-K. Chou, Chun-houh Chen, Kwan-Liu Ma(参考訳) 大気汚染データの分析は、特徴(何)、空間(どこで)、時間(いつ)といった様々な側面からの分析に焦点を当てているため、難しい。 多くの地理空間分析問題と同様に、高次元の特徴に加えて、大気汚染の時間的および空間的依存性は解析の複雑さを引き起こす。 次元削減のような機械学習手法は、データの重要な情報を抽出し、要約することで、そのような複雑な環境を理解することの負担を軽減できる。 本稿では,複数の機械学習手法を用いてこれらの側面を均一に探索する手法を提案する。 この方法では、柔軟な分析ワークフローをサポートし、ドメインの専門家が分析ニーズに基づいて自由に異なる側面を探索できるビジュアル分析システムを開発する。 複数のユースケースで様々な分析タスクをサポートするシステムと分析ワークフローの能力を実証する。

Analyzing air pollution data is challenging as there are various analysis focuses from different aspects: feature (what), space (where), and time (when). As in most geospatial analysis problems, besides high-dimensional features, the temporal and spatial dependencies of air pollution induce the complexity of performing analysis. Machine learning methods, such as dimensionality reduction, can extract and summarize important information of the data to lift the burden of understanding such a complicated environment. In this paper, we present a methodology that utilizes multiple machine learning methods to uniformly explore these aspects. With this methodology, we develop a visual analytic system that supports a flexible analysis workflow, allowing domain experts to freely explore different aspects based on their analysis needs. We demonstrate the capability of our system and analysis workflow supporting a variety of analysis tasks with multiple use cases.
翻訳日:2022-02-14 15:12:42 公開日:2022-02-11
# 組合せ最適化問題の解法における政策最適化におけるカリキュラム学習の理解

Understanding Curriculum Learning in Policy Optimization for Solving Combinatorial Optimization Problems ( http://arxiv.org/abs/2202.05423v1 )

ライセンス: Link先を確認
Runlong Zhou, Yuandong Tian, Yi Wu, Simon S. Du(参考訳) 近年、強化学習(RL)は、ゲーム環境における戦略的ソリューションの発見において、目覚ましい性能を示しており、特にカリキュラム学習と組み合わせて学習を容易にする場合、組合せ最適化(CO)問題を解く上で有望な結果を示し始めている。 実験的な証拠が現れたにもかかわらず、rlがなぜ助けるかについての理論的な研究はまだ初期段階にある。 本稿では,co問題を解くためのポリシー最適化手法に関する最初の体系的研究を行う。 我々は,CO 問題を潜在マルコフ決定過程 (LMDP) として自然に定式化することができ,LMDP の解法として自然政策勾配 (NPG) に収束することを示した。 さらに,本理論はカリキュラム学習の利点を解説し,この定理の収束率を決定する重要な量である,強いサンプリングポリシーを見つけ,分布シフトを減少させることができる。 正統的な組合せ問題である書記官問題では,カリキュラム学習によって分布シフトが指数関数的に減少することが正式に証明される。 また,本理論は,先行研究で用いられるカリキュラム学習を,多段階から一段階に単純化できることを示す。 最後に,秘書問題とオンライン・ナップサックに関する広範な実験を行い,その結果を実証的に検証する。

Over the recent years, reinforcement learning (RL) has shown impressive performance in finding strategic solutions for game environments, and recently starts to show promising results in solving combinatorial optimization (CO) problems, inparticular when coupled with curriculum learning to facilitate training. Despite emerging empirical evidence, theoretical study on why RL helps is still at its early stage. This paper presents the first systematic study on policy optimization methods for solving CO problems. We show that CO problems can be naturally formulated as latent Markov Decision Processes (LMDPs), and prove convergence bounds on natural policy gradient (NPG) for solving LMDPs. Furthermore, our theory explains the benefit of curriculum learning: it can find a strong sampling policy and reduce the distribution shift, a critical quantity that governs the convergence rate in our theorem. For a canonical combinatorial problem, Secretary Problem, we formally prove that distribution shift is reduced exponentially with curriculum learning. Our theory also shows we can simplify the curriculum learning scheme used in prior work from multi-step to single-step. Lastly, we provide extensive experiments on Secretary Problem and Online Knapsack to empirically verify our findings.
翻訳日:2022-02-14 15:12:29 公開日:2022-02-11
# 配電時間関税の電力消費予測

Electricity Consumption Forecasting for Out-of-distribution Time-of-Use Tariffs ( http://arxiv.org/abs/2202.05517v1 )

ライセンス: Link先を確認
Jyoti Narwariya, Chetan Verma, Pankaj Malhotra, Lovekesh Vig, Easwara Subramanian, Sanjay Bhat(参考訳) 電気市場では、小売業者やブローカーは消費者に関税プロファイルを割り当てることで利益を最大化したいと考えている。 このような需要対応管理の目的の1つは、通販市場からのブローカーの調達コストが高い場合、ピーク時の消費が減少するなど、通販市場全体の電力調達を最小限に抑えるように消費を調整するよう消費者にインセンティブを与えることである。 我々は、最適関税プロファイル割り当てによるブローカー全体の利益を最大化するための欲望のある解決策を考える。 このインターンでは、すべての関税プロファイルに対して、各ユーザの電力消費量を予測する必要がある。 この予測問題は、以下の理由により、標準的な予測問題と比較して困難である。 時限関税の組み合わせの数は高く 小売業者は過去の全ての組み合わせを 考慮していないかもしれない 過去の関税プロファイルの 偏見がつきものだ ユーザーごとに過去に割り当てられたプロファイルは通常、特定のポリシーに基づいています。 これらの理由は、既存の顧客に対する新しい関税プロファイルの評価が必要であり、過去のデータは関税配分のために過去に使われた政策によって偏っているため、標準のi.i.d.仮定に違反している。 本研究では,これらの条件下で予測と最適化を行うシナリオをいくつか検討する。 我々は,時間にわたる関税の比較と負荷のシフトによって,消費者が可変関税率にどう反応するかという基礎構造を活用し,そのようなシナリオで予測するためのディープニューラルネットワークアーキテクチャの設計における適切な帰納的バイアスを提案する。 より具体的には、関税プロファイルの望ましい処理を可能とし、データのバイアスに敏感な関税表現を学習し、なおもタスクを代表する、注意機構と置換同変ネットワークを活用する。

In electricity markets, retailers or brokers want to maximize profits by allocating tariff profiles to end consumers. One of the objectives of such demand response management is to incentivize the consumers to adjust their consumption so that the overall electricity procurement in the wholesale markets is minimized, e.g. it is desirable that consumers consume less during peak hours when cost of procurement for brokers from wholesale markets are high. We consider a greedy solution to maximize the overall profit for brokers by optimal tariff profile allocation. This in-turn requires forecasting electricity consumption for each user for all tariff profiles. This forecasting problem is challenging compared to standard forecasting problems due to following reasons: i. the number of possible combinations of hourly tariffs is high and retailers may not have considered all combinations in the past resulting in a biased set of tariff profiles tried in the past, ii. the profiles allocated in the past to each user is typically based on certain policy. These reasons violate the standard i.i.d. assumptions, as there is a need to evaluate new tariff profiles on existing customers and historical data is biased by the policies used in the past for tariff allocation. In this work, we consider several scenarios for forecasting and optimization under these conditions. We leverage the underlying structure of how consumers respond to variable tariff rates by comparing tariffs across hours and shifting loads, and propose suitable inductive biases in the design of deep neural network based architectures for forecasting under such scenarios. More specifically, we leverage attention mechanisms and permutation equivariant networks that allow desirable processing of tariff profiles to learn tariff representations that are insensitive to the biases in the data and still representative of the task.
翻訳日:2022-02-14 15:12:08 公開日:2022-02-11
# (参考訳) 深層表現学習におけるパワー法則の調査 [全文訳有]

Investigating Power laws in Deep Representation Learning ( http://arxiv.org/abs/2202.05808v1 )

ライセンス: CC BY 4.0
Arna Ghosh, Arnab Kumar Mondal, Kumar Krishna Agrawal, Blake Richards(参考訳) 大規模なラベル付きデータセットを活用する表現学習は、機械学習の最近の進歩の中心である。 スケールでのタスクに関連するラベルへのアクセスは、しばしば少ないか高価であり、自己教師付き学習(ssl)によるラベルなしデータセットから学ぶ必要がある。 このような大きなラベルのないデータセット(データ拡張)は、基礎となる入力分布をよくカバーする。 しかし、SSLアルゴリズムで学んだ表現を評価するには、トレーニングパイプラインでタスク固有のラベル付きサンプルが必要である。 加えて、タスク固有のエンコーディングの一般化は、しばしばポテンシャル分布シフトに敏感である。 理論機械学習と視覚神経科学の最近の進歩に触発されて、経験的特徴共分散行列の固有スペクトルはしばしばパワー法則に従うことを観測した。 視覚的表現については,学習目標(教師,シムCLR,バーロウツインズ,BYOL),ネットワークアーキテクチャ(VGG,ResNet,Vision Transformer),タスク(オブジェクトとシーン認識)の3つの重要な属性から,パワーローの係数である$\alpha$を推定する。 穏やかな条件下では、$\alpha$ to 1 の近さは下流の一般化性能と強く相関している。 さらに、$\alpha \approx 1$は微調整時のノイズラベルに対する強固さの強い指標である。 特に$\alpha$はラベルを知らない表現から計算可能であり、ラベルなしデータセットにおける表現の品質を評価するフレームワークを提供する。

Representation learning that leverages large-scale labelled datasets, is central to recent progress in machine learning. Access to task relevant labels at scale is often scarce or expensive, motivating the need to learn from unlabelled datasets with self-supervised learning (SSL). Such large unlabelled datasets (with data augmentations) often provide a good coverage of the underlying input distribution. However evaluating the representations learned by SSL algorithms still requires task-specific labelled samples in the training pipeline. Additionally, the generalization of task-specific encoding is often sensitive to potential distribution shift. Inspired by recent advances in theoretical machine learning and vision neuroscience, we observe that the eigenspectrum of the empirical feature covariance matrix often follows a power law. For visual representations, we estimate the coefficient of the power law, $\alpha$, across three key attributes which influence representation learning: learning objective (supervised, SimCLR, Barlow Twins and BYOL), network architecture (VGG, ResNet and Vision Transformer), and tasks (object and scene recognition). We observe that under mild conditions, proximity of $\alpha$ to 1, is strongly correlated to the downstream generalization performance. Furthermore, $\alpha \approx 1$ is a strong indicator of robustness to label noise during fine-tuning. Notably, $\alpha$ is computable from the representations without knowledge of any labels, thereby offering a framework to evaluate the quality of representations in unlabelled datasets.
翻訳日:2022-02-14 15:11:11 公開日:2022-02-11
# 一般化境界による拡散制御

Controlling Confusion via Generalisation Bounds ( http://arxiv.org/abs/2202.05560v1 )

ライセンス: Link先を確認
Reuben Adams and John Shawe-Taylor and Benjamin Guedj(参考訳) 本研究では,多重クラス分類のための新しい一般化境界を,より一般的な離散化エラー型に抽象化することで確立する。 従って、pac-bayes理論を拡張して、マルチクラス分類のパフォーマンスに関するきめ細かな境界を提供し、回帰損失の離散化を含む他の学習問題にも応用することができる。 トラクタブルトレーニングの目的は、境界から導き出される。 境界は離散化された誤差型の全ての重み付けに一様であるため、多クラス分類の場合の完全な混乱行列を含む訓練時に予測されない重み付けに使用できる。

We establish new generalisation bounds for multiclass classification by abstracting to a more general setting of discretised error types. Extending the PAC-Bayes theory, we are hence able to provide fine-grained bounds on performance for multiclass classification, as well as applications to other learning problems including discretisation of regression losses. Tractable training objectives are derived from the bounds. The bounds are uniform over all weightings of the discretised error types and thus can be used to bound weightings not foreseen at training, including the full confusion matrix in the multiclass classification case.
翻訳日:2022-02-14 14:51:30 公開日:2022-02-11
# 非線形mcmcにおけるカオスの長期収束と伝播

Long-Time Convergence and Propagation of Chaos for Nonlinear MCMC ( http://arxiv.org/abs/2202.05621v1 )

ライセンス: Link先を確認
James Vuckovic(参考訳) 本稿では,マルコフ連鎖モンテカルロ(MCMC)に対する非線形マルコフ連鎖のクラスに対するカオスの長期収束と一様強伝播について検討する。 我々の手法は非常に単純であり、最近の線形マルコフカーネルの収縮推定とマルコフ理論と解析の基本的な技術を利用する。 さらに、カオスの長期収束と伝播にも同様の証明戦略が適用される。 また、いくつかの実験を通して、これらの非線形MCMC技術はベイズニューラルネットワークのような実世界の高次元の推論に有効であることを示す。

In this paper, we study the long-time convergence and uniform strong propagation of chaos for a class of nonlinear Markov chains for Markov chain Monte Carlo (MCMC). Our technique is quite simple, making use of recent contraction estimates for linear Markov kernels and basic techniques from Markov theory and analysis. Moreover, the same proof strategy applies to both the long-time convergence and propagation of chaos. We also show, via some experiments, that these nonlinear MCMC techniques are viable for use in real-world high-dimensional inference such as Bayesian neural networks.
翻訳日:2022-02-14 14:51:20 公開日:2022-02-11
# 複数グラフのグラフ支援結合推定

Graphon-aided Joint Estimation of Multiple Graphs ( http://arxiv.org/abs/2202.05686v1 )

ライセンス: Link先を確認
Madeline Navarro, Santiago Segarra(参考訳) 我々は,これらのネットワークが同じ(未知の)ランダムグラフモデルから引き出されると仮定して,実測値から複数のネットワークのトポロジを推定する問題を考察する。 我々はランダムグラフモデルとしてgraphonを採用しており、これは異なるサイズのグラフを描画できる非パラメトリックモデルである。 グラフの汎用性により、回復すべきグラフが異なるノード数を含み、グラフ間の正確なアライメントが欠如している場合でも、共同推論問題に取り組むことができる。 提案手法は,最大極大ペナルティとグラフトン推定法を組み合わせることで,既存のネットワーク推論手法を拡張できる。 提案手法は,合成および実世界のデータセットにおける競合する手法と比較することにより検証する。

We consider the problem of estimating the topology of multiple networks from nodal observations, where these networks are assumed to be drawn from the same (unknown) random graph model. We adopt a graphon as our random graph model, which is a nonparametric model from which graphs of potentially different sizes can be drawn. The versatility of graphons allows us to tackle the joint inference problem even for the cases where the graphs to be recovered contain different number of nodes and lack precise alignment across the graphs. Our solution is based on combining a maximum likelihood penalty with graphon estimation schemes and can be used to augment existing network inference methods. We validate our proposed approach by comparing its performance against competing methods in synthetic and real-world datasets.
翻訳日:2022-02-14 14:51:12 公開日:2022-02-11
# PDEに基づくシンメトリ2アームベルヌーイ帯域の解析

A PDE-Based Analysis of the Symmetric Two-Armed Bernoulli Bandit ( http://arxiv.org/abs/2202.05767v1 )

ライセンス: Link先を確認
Vladimir A. Kobzar, Robert V. Kohn(参考訳) この研究は、腕の平均の和が 1 である二本腕ベルヌーイ・バンディット問題(対称二本腕ベルヌーイ・バンディット)のバージョンに対処する。 これらの平均の差がゼロになり、予測周期の数が無限に近づくような状況では、各平均と線形放物型偏微分方程式の解を関連付けることで、この問題の期待後悔と疑似レグレットの先行順序項を得る。 本研究の結果は, これまでに知られていた結果より改善され, 特に, ギャップの3つの異なるスケーリング体制において, 最適な後悔と偽回帰の先頭項を明示的に計算する。 さらに、任意の時間軸に対して新しい非漸近境界を得る。

This work addresses a version of the two-armed Bernoulli bandit problem where the sum of the means of the arms is one (the symmetric two-armed Bernoulli bandit). In a regime where the gap between these means goes to zero and the number of prediction periods approaches infinity, we obtain the leading order terms of the expected regret and pseudoregret for this problem by associating each of them with a solution of a linear parabolic partial differential equation. Our results improve upon the previously known results; specifically we explicitly compute the leading order term of the optimal regret and pseudoregret in three different scaling regimes for the gap. Additionally, we obtain new non-asymptotic bounds for any given time horizon.
翻訳日:2022-02-14 14:50:59 公開日:2022-02-11
# SGDにおける適応性のパワー:非有界勾配とアフィン変動を考慮した自己調整ステップサイズ

The Power of Adaptivity in SGD: Self-Tuning Step Sizes with Unbounded Gradients and Affine Variance ( http://arxiv.org/abs/2202.05791v1 )

ライセンス: Link先を確認
Matthew Faw, Isidoros Tziotis, Constantine Caramanis, Aryan Mokhtari, Sanjay Shakkottai, Rachel Ward(参考訳) 適応確率勾配法(adaptive stochastic gradient method, sgd)の例であるadagrad-normの収束速度について検討し, 非凸な滑らかな目的を最小化するために, 観測された確率勾配に基づいてステップサイズが変化する。 その人気にもかかわらず、適応型sgdの分析は、この設定における非適応型手法のそれよりも遅れている。 具体的には、すべての先行作品は以下の仮定のいくつかの部分集合に依存している。 (i)一様有界勾配ノルム (二)一様有界確率勾配分散(又は雑音支援) (iii)ステップサイズと確率勾配の条件依存。 そこで本研究では,アダグラードノルムが最適な最適収束率である$\mathcal{o}\left(\frac{\mathrm{poly}\log(t)}{\sqrt{t}}\right)$を,最適に調整された非適応型sgd (unbounded gradient norms and affine noise variance scaling) と同じ仮定の下で与える。 そこで,適応勾配法は従来よりはるかに広い状況下で順序-最適収束を示すことを示す。

We study convergence rates of AdaGrad-Norm as an exemplar of adaptive stochastic gradient methods (SGD), where the step sizes change based on observed stochastic gradients, for minimizing non-convex, smooth objectives. Despite their popularity, the analysis of adaptive SGD lags behind that of non adaptive methods in this setting. Specifically, all prior works rely on some subset of the following assumptions: (i) uniformly-bounded gradient norms, (ii) uniformly-bounded stochastic gradient variance (or even noise support), (iii) conditional independence between the step size and stochastic gradient. In this work, we show that AdaGrad-Norm exhibits an order optimal convergence rate of $\mathcal{O}\left(\frac{\mathrm{poly}\log(T)}{\sqrt{T}}\right)$ after $T$ iterations under the same assumptions as optimally-tuned non adaptive SGD (unbounded gradient norms and affine noise variance scaling), and crucially, without needing any tuning parameters. We thus establish that adaptive gradient methods exhibit order-optimal convergence in much broader regimes than previously understood.
翻訳日:2022-02-14 14:50:45 公開日:2022-02-11
# 強凹凸関数に対する分散サドル点問題

Distributed saddle point problems for strongly concave-convex functions ( http://arxiv.org/abs/2202.05812v1 )

ライセンス: Link先を確認
Muhammad I. Qureshi and Usman A. Khan(参考訳) 本稿では、この形式のサドル点問題を解く分散最適化手法であるGT-GDAを提案する。 $\min_{\mathbf{x}} \max_{\mathbf{y}} \{F(\mathbf{x},\mathbf{y}) :=G(\mathbf{x}) + \langle \mathbf{y}, \overline{P} \mathbf{x} \rangle - H(\mathbf{y})\,} ここで、関数 $G(\cdot)$, $H(\cdot)$, 結合行列 $\overline{P}$ は、ノードの強連結ネットワーク上で分散される。 GT-GDAは、ノード間の不均一なデータ分布に起因する相違を取り除くために勾配追跡を利用する一階法である。 最も一般的な形では、gt-gda は通信量の増加を犠牲にして最適な(統一的な)鞍点を達成するための局所結合行列に関するコンセンサスを含んでいる。 これを回避するため,より効率的なGT-GDA-Liteを提案する。 GT-GDA は、$G(\cdot)$ が滑らかで凸であり、$H(\cdot)$ が滑らかで強凸であり、大域結合行列 $\overline{P}$ が全列ランクを持つとき、一意のサドル点解に線型収束することを示す。 我々は、GT-GDAがネットワークトポロジに依存しない収束挙動を示す体制をさらに特徴づける。 次に、GT-GDA の特異なサドル点の周りの誤差への線形収束を示し、これは結合コスト ${\langle \mathbf y, \overline{P} \mathbf x \rangle}$ がすべてのノードに共通であるか、あるいは$G(\cdot)$ と $H(\cdot)$ が二次であるときにゼロとなる。 数値実験は、GT-GDAとGT-GDA-Liteの収束特性と重要性をいくつかの用途に示す。

In this paper, we propose GT-GDA, a distributed optimization method to solve saddle point problems of the form: $\min_{\mathbf{x}} \max_{\mathbf{y}} \{F(\mathbf{x},\mathbf{y}) :=G(\mathbf{x}) + \langle \mathbf{y}, \overline{P} \mathbf{x} \rangle - H(\mathbf{y})\}$, where the functions $G(\cdot)$, $H(\cdot)$, and the the coupling matrix $\overline{P}$ are distributed over a strongly connected network of nodes. GT-GDA is a first-order method that uses gradient tracking to eliminate the dissimilarity caused by heterogeneous data distribution among the nodes. In the most general form, GT-GDA includes a consensus over the local coupling matrices to achieve the optimal (unique) saddle point, however, at the expense of increased communication. To avoid this, we propose a more efficient variant GT-GDA-Lite that does not incur the additional communication and analyze its convergence in various scenarios. We show that GT-GDA converges linearly to the unique saddle point solution when $G(\cdot)$ is smooth and convex, $H(\cdot)$ is smooth and strongly convex, and the global coupling matrix $\overline{P}$ has full column rank. We further characterize the regime under which GT-GDA exhibits a network topology-independent convergence behavior. We next show the linear convergence of GT-GDA to an error around the unique saddle point, which goes to zero when the coupling cost ${\langle \mathbf y, \overline{P} \mathbf x \rangle}$ is common to all nodes, or when $G(\cdot)$ and $H(\cdot)$ are quadratic. Numerical experiments illustrate the convergence properties and importance of GT-GDA and GT-GDA-Lite for several applications.
翻訳日:2022-02-14 14:50:16 公開日:2022-02-11
# (参考訳) インクリメンタルヘッシアン固有ベクトル共有に基づく連合学習のためのニュートン型アルゴリズム

A Newton-type algorithm for federated learning based on incremental Hessian eigenvector sharing ( http://arxiv.org/abs/2202.05800v1 )

ライセンス: CC BY 4.0
Nicol\`o Dal Fabbro, Subhrakanti Dey, Michele Rossi, Luca Schenato(参考訳) 連合学習(federated learning, fl)という名称で,分散最適化フレームワークへの関心が高まっている。 特に、通信リソース(帯域幅など)とデータ分散の点でネットワークが強く異質であるflシナリオに多くの注意が向けられている。 これらのケースでは、ローカルマシン(エージェント)と中央サーバ(マスター)間の通信が主な考慮事項である。 本研究では,このような異種シナリオにおけるFLの高速化を目的とした,通信制約のあるNewton-type (NT) アルゴリズムを提案する。 このアルゴリズムは、非I.d.データ分散に頑健に設計され、エージェントの通信リソース(CR)の不均一性を処理し、散発的ヘッセン計算のみを必要とし、超線形収束を達成する。 これは、局所ヘッセン行列の特異値分解(SVD)に基づく漸進的な戦略により可能であり、これは(おそらく)時代遅れの2階情報を利用する。 提案手法は実データセット上で評価により徹底的に検証される (i)収束に必要な通信ラウンド数 (ii)送信されたデータの総量 (iii) 局所ヘッセン計算の個数。 これらの指標について,提案手法はGIANTやFedNLといった最先端技術に対して優れた性能を示す。

There is a growing interest in the decentralized optimization framework that goes under the name of Federated Learning (FL). In particular, much attention is being turned to FL scenarios where the network is strongly heterogeneous in terms of communication resources (e.g., bandwidth) and data distribution. In these cases, communication between local machines (agents) and the central server (Master) is a main consideration. In this work, we present an original communication-constr ained Newton-type (NT) algorithm designed to accelerate FL in such heterogeneous scenarios. The algorithm is by design robust to non i.i.d. data distributions, handles heterogeneity of agents' communication resources (CRs), only requires sporadic Hessian computations, and achieves super-linear convergence. This is possible thanks to an incremental strategy, based on a singular value decomposition (SVD) of the local Hessian matrices, which exploits (possibly) outdated second-order information. The proposed solution is thoroughly validated on real datasets by assessing (i) the number of communication rounds required for convergence, (ii) the overall amount of data transmitted and (iii) the number of local Hessian computations required. For all these metrics, the proposed approach shows superior performance against state-of-the art techniques like GIANT and FedNL.
翻訳日:2022-02-14 14:48:48 公開日:2022-02-11
# 変分ベイズにおける柔軟後流のバーンスタイン流れ

Bernstein Flows for Flexible Posteriors in Variational Bayes ( http://arxiv.org/abs/2202.05650v1 )

ライセンス: Link先を確認
Oliver D\"urr and Stephan H\"orling and Daniel Dold and Ivonne Kovylov and Beate Sick(参考訳) 変分推論(VI)は、最適化によって後部を計算するのが難しい手法である。 MCMCとは対照的に、VIは多くの観測にスケールする。 しかし、複雑な後肢の場合、最先端のVIアプローチはしばしば不満足な後肢近似をもたらす。 本稿では, 複素多変量後部を近似できるほど柔軟で, 頑健で使いやすいBernstein Flow Variational Inference (BF-VI) を提案する。 bf-viは正規化フローとベルンシュタイン多項式に基づく変換モデルからアイデアを合成する。 ベンチマーク実験では,BF-VI解と正確な後部解,MCMC解,フローベースVIの正規化を含む最先端VI法を比較した。 我々は,BF-VIが真の後部を正確に近似する低次元モデルについて,BF-VIが他のVI法よりも優れていることを示す。 さらに,半構造化メラノーマ挑戦データに対するベイズモデルBF-VIを開発し,画像データに対するCNNモデル部と表型データに対する解釈可能なモデル部とを組み合わせて,半構造化モデルにおけるVIの使用法を初めて示す。

Variational inference (VI) is a technique to approximate difficult to compute posteriors by optimization. In contrast to MCMC, VI scales to many observations. In the case of complex posteriors, however, state-of-the-art VI approaches often yield unsatisfactory posterior approximations. This paper presents Bernstein flow variational inference (BF-VI), a robust and easy-to-use method, flexible enough to approximate complex multivariate posteriors. BF-VI combines ideas from normalizing flows and Bernstein polynomial-based transformation models. In benchmark experiments, we compare BF-VI solutions with exact posteriors, MCMC solutions, and state-of-the-art VI methods including normalizing flow based VI. We show for low-dimensional models that BF-VI accurately approximates the true posterior; in higher-dimensional models, BF-VI outperforms other VI methods. Further, we develop with BF-VI a Bayesian model for the semi-structured Melanoma challenge data, combining a CNN model part for image data with an interpretable model part for tabular data, and demonstrate for the first time how the use of VI in semi-structured models.
翻訳日:2022-02-14 14:46:35 公開日:2022-02-11
# 射影ノルムによる分布誤差の予測

Predicting Out-of-Distribution Error with the Projection Norm ( http://arxiv.org/abs/2202.05834v1 )

ライセンス: Link先を確認
Yaodong Yu, Zitong Yang, Alexander Wei, Yi Ma, Jacob Steinhardt(参考訳) 我々は,アウト・オブ・ディストリビューション(ood)データに対するモデルの性能を,基底的真理ラベルにアクセスせずに予測するためのメトリクス -- 投影ノルム -- を提案する。 Projection Normは、まず擬似ラベルテストサンプルにモデル予測を使用し、次に擬似ラベル上で新しいモデルをトレーニングする。 新しいモデルのパラメータが分布内モデルと異なるほど、予測されたOODエラーが大きくなる。 提案手法は,画像およびテキストの分類タスクおよび異なるネットワークアーキテクチャにおいて,既存の手法よりも優れる。 理論的には、オーバーパラメータ化線形モデルに対するテスト誤差のバウンドにアプローチを結合する。 さらに,非自明な検出性能を実現するアプローチは投影ノルムのみであることが判明した。 私たちのコードはhttps://github.com/y aodongyu/ProjNorm.co mから入手可能です。

We propose a metric -- Projection Norm -- to predict a model's performance on out-of-distribution (OOD) data without access to ground truth labels. Projection Norm first uses model predictions to pseudo-label test samples and then trains a new model on the pseudo-labels. The more the new model's parameters differ from an in-distribution model, the greater the predicted OOD error. Empirically, our approach outperforms existing methods on both image and text classification tasks and across different network architectures. Theoretically, we connect our approach to a bound on the test error for overparameterized linear models. Furthermore, we find that Projection Norm is the only approach that achieves non-trivial detection performance on adversarial examples. Our code is available at https://github.com/y aodongyu/ProjNorm.
翻訳日:2022-02-14 14:46:17 公開日:2022-02-11
# 逆ロバストディープフェイク検出に向けて:アンサンブルアプローチ

Towards Adversarially Robust Deepfake Detection: An Ensemble Approach ( http://arxiv.org/abs/2202.05687v1 )

ライセンス: Link先を確認
Ashish Hooda, Neal Mangaokar, Ryan Feng, Kassem Fawaz, Somesh Jha, Atul Prakash(参考訳) ディープフェイクの検出は重要な問題であるが、近年の研究により、DNNベースのディープフェイク検出器は敵のディープフェイクに対して脆いことが示されている。 本研究では,単一分類器を慎重に選択したアンサンブルに置き換える検出戦略の修正を行い,アンサンブルの各モデルに対する入力変換が対角勾配を誘導し,対角トレーニングのデファクト解を超えるロバスト性を大幅に向上させることができることを示す。 このような直交勾配は, 直交深度が横たわる入力部分空間の次元を減少させることで, 一階の逆数を抑制することができることを示す理論的結果を示す。 そこで本研究では,このような「オルトゴナル」アンサンブルのランダム化版を,敵対的ディープフェイク検出のためにインスタンス化し評価し,その検証を行い,そのランダム化アンサンブルが,攻撃的ディープフェイクに対して最先端のディープフェイク検出器と比較して,強力なpgd-500攻撃による攻撃であっても,ディープフェイク検出に比較して有意に高い頑健性を示すことを見出した。

Detecting deepfakes is an important problem, but recent work has shown that DNN-based deepfake detectors are brittle against adversarial deepfakes, in which an adversary adds imperceptible perturbations to a deepfake to evade detection. In this work, we show that a modification to the detection strategy in which we replace a single classifier with a carefully chosen ensemble, in which input transformations for each model in the ensemble induces pairwise orthogonal gradients, can significantly improve robustness beyond the de facto solution of adversarial training. We present theoretical results to show that such orthogonal gradients can help thwart a first-order adversary by reducing the dimensionality of the input subspace in which adversarial deepfakes lie. We validate the results empirically by instantiating and evaluating a randomized version of such "orthogonal" ensembles for adversarial deepfake detection and find that these randomized ensembles exhibit significantly higher robustness as deepfake detectors compared to state-of-the-art deepfake detectors against adversarial deepfakes, even those created using strong PGD-500 attacks.
翻訳日:2022-02-14 14:45:25 公開日:2022-02-11
# 膝のx線写真を見せてください。膝関節領域がどこにあるか教えます。深い畳み込みニューラルネットワークアドベンチャー

Give me a knee radiograph, I will tell you where the knee joint area is: a deep convolutional neural network adventure ( http://arxiv.org/abs/2202.05382v1 )

ライセンス: Link先を確認
Shi Yan, Taghi Ramazanian, Elham Sagheb, Walter K. Kremers, Vipin Chaudhary, Michael Taunton, Hilal Maradit Kremers, Ahmad P. Tafti(参考訳) 膝の痛みは、人生の質を損なう最も一般的な筋骨格症状であり、あらゆる年齢にわたって移動性と機能を制限する。 膝の痛みは日常的なx線撮影によって臨床的に評価され、x線画像が広く採用され、安価に利用できるため、関節炎、外傷、スポーツ外傷などの膝の痛みや膝の病理の評価の基本的な要素となっている。 しかし, 膝部X線像の解釈は依然として主観的であり, 放射線像内に重なる構造や, 日常的に解析する必要のある大量の画像は, ナイーブと経験者の双方にとって難しい解釈となっている。 したがって、客観的かつ自動的に膝x線を解釈し、異常x線をタイムリーにトリアージする人工知能戦略を実装する必要がある。 本研究は,you only look once (yolo v3) 深層畳み込みニューラルネットワークと大規模かつ完全アノテーション付き膝x線画像データセットを組み合わせた,平原x線写真における膝関節領域の自律的検出,局在,分類のための高精度かつ効果的なパイプラインを提案する。 本研究は, 深層学習コンピュータビジョンコミュニティから, この実用的, 臨床的応用へのさらなる関心を喚起することが期待される。

Knee pain is undoubtedly the most common musculoskeletal symptom that impairs quality of life, confines mobility and functionality across all ages. Knee pain is clinically evaluated by routine radiographs, where the widespread adoption of radiographic images and their availability at low cost, make them the principle component in the assessment of knee pain and knee pathologies, such as arthritis, trauma, and sport injuries. However, interpretation of the knee radiographs is still highly subjective, and overlapping structures within the radiographs and the large volume of images needing to be analyzed on a daily basis, make interpretation challenging for both naive and experienced practitioners. There is thus a need to implement an artificial intelligence strategy to objectively and automatically interpret knee radiographs, facilitating triage of abnormal radiographs in a timely fashion. The current work proposes an accurate and effective pipeline for autonomous detection, localization, and classification of knee joint area in plain radiographs combining the You Only Look Once (YOLO v3) deep convolutional neural network with a large and fully-annotated knee radiographs dataset. The present work is expected to stimulate more interest from the deep learning computer vision community to this pragmatic and clinical application.
翻訳日:2022-02-14 14:44:35 公開日:2022-02-11
# CLIPasso: セマンティックなオブジェクトのスケッチ

CLIPasso: Semantically-Aware Object Sketching ( http://arxiv.org/abs/2202.05822v1 )

ライセンス: Link先を確認
Yael Vinker, Ehsan Pajouheshgar, Jessica Y. Bo, Roman Christian Bachmann, Amit Haim Bermano, Daniel Cohen-Or, Amir Zamir, Ariel Shamir(参考訳) 抽象は線画の単純で最小限の性質のためにスケッチの中心にある。 抽象化は、意味的理解と高レベルの概念の事前知識を必要とするオブジェクトやシーンの本質的な視覚的特性を特定することを必要とする。 そのため、抽象的な描写はアーティストにとって、さらに機械にとっては難しい。 本稿では,幾何学的および意味的単純化によって導かれる抽象レベルが異なるオブジェクトスケッチ手法を提案する。 スケッチ生成手法は、しばしば訓練のために明示的なスケッチデータセットに依存するが、CLIP(Contrastive-Lan guage- Image-Pretraining)の際立った能力を利用してスケッチや画像から意味論的概念を抽出する。 スケッチをB\'ezier曲線の集合として定義し、差別化可能なラスタライザを用いて、CLIPに基づく知覚的損失に対して曲線のパラメータを直接最適化する。 抽象度は、ストロークの数を変えることで制御される。 生成されたスケッチは、認識可能性、基盤構造、描画対象の不可欠な視覚的要素を維持しながら、複数の抽象化レベルを示す。

Abstraction is at the heart of sketching due to the simple and minimal nature of line drawings. Abstraction entails identifying the essential visual properties of an object or scene, which requires semantic understanding and prior knowledge of high-level concepts. Abstract depictions are therefore challenging for artists, and even more so for machines. We present an object sketching method that can achieve different levels of abstraction, guided by geometric and semantic simplifications. While sketch generation methods often rely on explicit sketch datasets for training, we utilize the remarkable ability of CLIP (Contrastive-Languag e-Image-Pretraining) to distill semantic concepts from sketches and images alike. We define a sketch as a set of B\'ezier curves and use a differentiable rasterizer to optimize the parameters of the curves directly with respect to a CLIP-based perceptual loss. The abstraction degree is controlled by varying the number of strokes. The generated sketches demonstrate multiple levels of abstraction while maintaining recognizability, underlying structure, and essential visual components of the subject drawn.
翻訳日:2022-02-14 14:43:17 公開日:2022-02-11
# 人々はAIを認知的に取り込むか? インシデント学習におけるAI支援の効果

Do People Engage Cognitively with AI? Impact of AI Assistance on Incidental Learning ( http://arxiv.org/abs/2202.05402v1 )

ライセンス: Link先を確認
Krzysztof Z. Gajos and Lena Mamykina(参考訳) 難しい決断をしながらアドバイスを受けるとき、彼らはすぐにより良い決定を下し、プロセスに関する知識も増やします。 しかし、このような偶発的学習は、人々が受信した情報に認知的に関与し、この情報を熟慮して処理する場合にのみ起こりうる。 人々がAIから受け取った情報やアドバイスをどのように処理し、学習を可能にするのに十分な情報を深く取り込むのか? これらの質問に答えるために, 個人に栄養決定を依頼し, シミュレーションaiによる推薦と説明を受けた3つの実験を行った。 最初の実験では、人々が選択する前にレコメンデーションと説明の両方を提示されたとき、そのような助けが得られなかったときよりも良い判断を下すことが分かりましたが、学ばなかったのです。 第2の実験では、参加者はまず自分で選択し、次にAIからの推薦と説明を見た。 しかし、第3の実験では、参加者はAIの説明だけで、推奨はせず、独自の決定を下さなければならなかった。 この状態は、より正確な決定と学習の利益につながった。 この条件における学習の成果は、決定にたどり着くために必要な説明とより深い関与によるものだと仮定した。 この研究は、これまでで最も直接的な証拠のいくつかを提供しており、AIが提供した情報に人々が注意深く関与するように、AIが生成したレコメンデーションと共に説明を含めるだけでは十分ではないかもしれない。 この研究は、インシデント学習を可能にする1つのテクニックを示し、その意味によって、AIレコメンデーションや説明をより慎重に処理するのに役立つ。

When people receive advice while making difficult decisions, they often make better decisions in the moment and also increase their knowledge in the process. However, such incidental learning can only occur when people cognitively engage with the information they receive and process this information thoughtfully. How do people process the information and advice they receive from AI, and do they engage with it deeply enough to enable learning? To answer these questions, we conducted three experiments in which individuals were asked to make nutritional decisions and received simulated AI recommendations and explanations. In the first experiment, we found that when people were presented with both a recommendation and an explanation before making their choice, they made better decisions than they did when they received no such help, but they did not learn. In the second experiment, participants first made their own choice, and only then saw a recommendation and an explanation from AI; this condition also resulted in improved decisions, but no learning. However, in our third experiment, participants were presented with just an AI explanation but no recommendation and had to arrive at their own decision. This condition led to both more accurate decisions and learning gains. We hypothesize that learning gains in this condition were due to deeper engagement with explanations needed to arrive at the decisions. This work provides some of the most direct evidence to date that it may not be sufficient to include explanations together with AI-generated recommendation to ensure that people engage carefully with the AI-provided information. This work also presents one technique that enables incidental learning and, by implication, can help people process AI recommendations and explanations more carefully.
翻訳日:2022-02-14 14:42:59 公開日:2022-02-11
# プログラム弱スーパービジョンに関する調査

A Survey on Programmatic Weak Supervision ( http://arxiv.org/abs/2202.05433v1 )

ライセンス: Link先を確認
Jieyu Zhang, Cheng-Yu Hsieh, Yue Yu, Chao Zhang, Alexander Ratner(参考訳) トレーニングデータのラベル付けは、マシンラーニングを使用する上で大きな障害のひとつになっています。 様々な弱い監督パラダイムの中で、プログラム的弱監督(PWS)は、複数の潜在的ノイズのある監督源からトレーニングラベルをプログラム的に合成することで、手動によるラベル付けボトルネックを緩和することに成功した。 本稿では,最近のPWSの進歩を包括的に調査する。 特に、PWS学習パラダイムの概要を紹介し、PWS学習ワークフロー内の各コンポーネントの代表的アプローチについてレビューする。 さらに、限定ラベル付きデータシナリオに対処するための補完学習パラダイムと、これらの関連するアプローチをPWSと併用する方法について論じる。 最後に、この分野における今後の研究の方向性を刺激するために、未調査のままであるいくつかの重要な課題を特定します。

Labeling training data has become one of the major roadblocks to using machine learning. Among various weak supervision paradigms, programmatic weak supervision (PWS) has achieved remarkable success in easing the manual labeling bottleneck by programmatically synthesizing training labels from multiple potentially noisy supervision sources. This paper presents a comprehensive survey of recent advances in PWS. In particular, we give a brief introduction of the PWS learning paradigm, and review representative approaches for each component within PWS's learning workflow. In addition, we discuss complementary learning paradigms for tackling limited labeled data scenarios and how these related approaches can be used in conjunction with PWS. Finally, we identify several critical challenges that remain under-explored in the area to hopefully inspire future research directions in the field.
翻訳日:2022-02-14 14:42:32 公開日:2022-02-11
# PEg TRAnsfer Workflow Recognition Challenge Report: マルチモーダルデータは認識を改善するか?

PEg TRAnsfer Workflow recognition challenge report: Does multi-modal data improve recognition? ( http://arxiv.org/abs/2202.05821v1 )

ライセンス: Link先を確認
Arnaud Huaulm\'e, Kanako Harada, Quang-Minh Nguyen, Bogyu Park, Seungbum Hong, Min-Kook Choi, Michael Peven, Yunshuang Li, Yonghao Long, Qi Dou, Satyadwyoom Kumar, Seenivasan Lalithkumar, Ren Hongliang, Hiroki Matsuzaki, Yuto Ishikawa, Yuriko Harai, Satoshi Kondo, Mamoru Mitsuishi, Pierre Jannin(参考訳) 本稿では,ビデオ,キネマティック,セグメンテーションデータのうち1つまたは複数のモダリティに基づく手術的ワークフロー認識法を開発することを目的としたpeg transfert workflow recognition (petraw) 課題の設計と結果について述べる。 PETRAWチャレンジは、仮想シミュレータ上で実行される150ペグの転送シーケンスのデータセットを提供する。 このデータセットは、ビデオ、キネマティック、セマンティックセグメンテーション、ワークフローアノテーションで構成され、フェーズ、ステップ、アクティビティの3つの異なる粒度レベルでシーケンスを記述する。 5つのタスクが参加者に提案され、そのうち3つは利用可能なモダリティの1つで全ての粒度の認識に関連し、もう1つはモダリティの組み合わせで認識に対処した。 平均アプリケーション依存バランス精度(AD-Accuracy)は、フレーム単位のスコアよりも臨床的に関連があるため、不均衡なクラスを考慮に入れた評価指標として用いられた。 7チームが少なくとも1つのタスクに参加し、そのうち4つがすべてのタスクに参加しました。 最善の結果は、すべてのタスクに参加した4チームに対して93%から90%の精度でビデオとキネマティクスデータを使用することで得られる。 ビデオ/キネマティックベースの方法と一様性の改善は、すべてのチームにとって重要なものでした。 しかし,ビデオ/キネマティック方式とキネマティック方式では実行時間の差を考慮する必要がある。 3%未満の改善のために、20倍から200倍のコンピューティング時間を費やすことが重要か? PETRAWデータセットは、外科的ワークフロー認識のさらなる研究を促進するためにwww.synapse.org/PETR AWで公開されている。

This paper presents the design and results of the "PEg TRAnsfert Workflow recognition" (PETRAW) challenge whose objective was to develop surgical workflow recognition methods based on one or several modalities, among video, kinematic, and segmentation data, in order to study their added value. The PETRAW challenge provided a data set of 150 peg transfer sequences performed on a virtual simulator. This data set was composed of videos, kinematics, semantic segmentation, and workflow annotations which described the sequences at three different granularity levels: phase, step, and activity. Five tasks were proposed to the participants: three of them were related to the recognition of all granularities with one of the available modalities, while the others addressed the recognition with a combination of modalities. Average application-dependen t balanced accuracy (AD-Accuracy) was used as evaluation metric to take unbalanced classes into account and because it is more clinically relevant than a frame-by-frame score. Seven teams participated in at least one task and four of them in all tasks. Best results are obtained with the use of the video and the kinematics data with an AD-Accuracy between 93% and 90% for the four teams who participated in all tasks. The improvement between video/kinematic-base d methods and the uni-modality ones was significant for all of the teams. However, the difference in testing execution time between the video/kinematic-base d and the kinematic-based methods has to be taken into consideration. Is it relevant to spend 20 to 200 times more computing time for less than 3% of improvement? The PETRAW data set is publicly available at www.synapse.org/PETR AW to encourage further research in surgical workflow recognition.
翻訳日:2022-02-14 14:42:18 公開日:2022-02-11
# (参考訳) ランダム摂動を用いた感情分析モデルによる敵攻撃の軽減 [全文訳有]

Using Random Perturbations to Mitigate Adversarial Attacks on Sentiment Analysis Models ( http://arxiv.org/abs/2202.05758v1 )

ライセンス: CC BY 4.0
Abigail Swenor and Jugal Kalita(参考訳) ディープラーニングモデルに対する攻撃は識別が難しい場合が多いため、防御が難しい場合が多い。 この問題は、一般的に使用前に手動で検査されない公開データセットの使用によって悪化する。 本稿では,必要であればスペル訂正,異義語による置換,あるいは単に単語の削除といったランダムな摂動を用いて,この脆弱性に対する解決策を提案する。 これらの摂動はランダムな文のランダムな単語に適用され、NLPモデルを敵攻撃から守る。 我々のランダム摂動防衛と増加ランダムネス防衛は攻撃前のモデルと同様の精度で攻撃モデルを返すことに成功した。 本研究で用いたモデルの元々の精度は、感情分類の80%である。 攻撃を受けた後、精度は0%から44%に低下する。 防衛手法を適用した後、モデルの精度を統計的意義の中で元の精度に戻す。

Attacks on deep learning models are often difficult to identify and therefore are difficult to protect against. This problem is exacerbated by the use of public datasets that typically are not manually inspected before use. In this paper, we offer a solution to this vulnerability by using, during testing, random perturbations such as spelling correction if necessary, substitution by random synonym, or simply dropping the word. These perturbations are applied to random words in random sentences to defend NLP models against adversarial attacks. Our Random Perturbations Defense and Increased Randomness Defense methods are successful in returning attacked models to similar accuracy of models before attacks. The original accuracy of the model used in this work is 80% for sentiment classification. After undergoing attacks, the accuracy drops to accuracy between 0% and 44%. After applying our defense methods, the accuracy of the model is returned to the original accuracy within statistical significance.
翻訳日:2022-02-14 14:39:23 公開日:2022-02-11
# SafePicking: オブジェクトレベルマッピングによる安全なオブジェクト抽出の学習

SafePicking: Learning Safe Object Extraction via Object-Level Mapping ( http://arxiv.org/abs/2202.05832v1 )

ライセンス: Link先を確認
Kentaro Wada, Stephen James, Andrew J. Davison(参考訳) ロボットは、オブジェクト間の接触、サポート、閉塞を推論しながらオブジェクトを操作するために、オブジェクトレベルのシーン理解が必要である。 オブジェクトの山が与えられると、オブジェクト認識とリコンストラクションはオブジェクトインスタンスの境界を識別し、オブジェクトがどのようにしてパイルを形成し、サポートするかに関する重要な手がかりを与える。 本研究では,オブジェクトレベルのマッピングと学習に基づく動作計画を統合したsafepickingというシステムを提案する。 計画は、予測されたポーズの観測を受信する深いQネットワークと、安全基準報酬を最大化するために訓練された動き軌跡を出力する深さに基づく高さマップを学習することによって行われる。 その結果,ポーズの観察と奥行き検出の融合により,モデルの性能と頑健性が向上した。 シミュレーションと実世界の双方でYCBオブジェクトを用いた手法の評価を行い,杭からの安全な対象抽出を実現した。

Robots need object-level scene understanding to manipulate objects while reasoning about contact, support, and occlusion among objects. Given a pile of objects, object recognition and reconstruction can identify the boundary of object instances, giving important cues as to how the objects form and support the pile. In this work, we present a system, SafePicking, that integrates object-level mapping and learning-based motion planning to generate a motion that safely extracts occluded target objects from a pile. Planning is done by learning a deep Q-network that receives observations of predicted poses and a depth-based heightmap to output a motion trajectory, trained to maximize a safety metric reward. Our results show that the observation fusion of poses and depth-sensing gives both better performance and robustness to the model. We evaluate our methods using the YCB objects in both simulation and the real world, achieving safe object extraction from piles.
翻訳日:2022-02-14 14:24:44 公開日:2022-02-11
# 強化学習における計算統計的ギャップ

Computational-Statis tical Gaps in Reinforcement Learning ( http://arxiv.org/abs/2202.05444v1 )

ライセンス: Link先を確認
Daniel Kane, Sihan Liu, Shachar Lovett, Gaurav Mahajan(参考訳) 関数近似による強化学習は、最近、大きな状態空間を持つアプリケーションで素晴らしい結果を得ている。 この実証的な成功は、効率的な強化学習が可能な必要十分条件を提唱する理論的な研究の展開を動機付けている。 最適値関数 $V^*$ および $Q^*$ を持つ MDP は、いくつかの既知の低次元特徴において線形である。 この設定において、最近の研究は、多くのサンプル多項式を必要とするサンプル効率の良いアルゴリズムを設計し、状態空間のサイズに依存している。 しかし、彼らは計算効率のよいアルゴリズムを将来の研究として発見し続けており、これはコミュニティにとって大きなオープンな問題だと考えられている。 そこで本研究では, rl に対する最初の計算下限を線形関数近似で提示し, 決定論的遷移 mdps に対して, np=rp がない限り, 一定数の作用数と線形最適値関数を持つ無作為多項式時間アルゴリズムは存在しない。 これを証明するために、一意satからの還元を示し、cnf公式を決定論的遷移、定数のアクション数、低次元の線形最適値関数を持つmdpに変換する。 この結果は線形関数近似による強化学習における最初の計算統計的ギャップも示しており、基礎となる統計問題は多項式数で情報理論的に解くことができるが、np=rpでなければ計算効率のよいアルゴリズムは存在しない。 最後に、ランダム化指数時間仮説の下で準多項時間下限が証明される。

Reinforcement learning with function approximation has recently achieved tremendous results in applications with large state spaces. This empirical success has motivated a growing body of theoretical work proposing necessary and sufficient conditions under which efficient reinforcement learning is possible. From this line of work, a remarkably simple minimal sufficient condition has emerged for sample efficient reinforcement learning: MDPs with optimal value function $V^*$ and $Q^*$ linear in some known low-dimensional features. In this setting, recent works have designed sample efficient algorithms which require a number of samples polynomial in the feature dimension and independent of the size of state space. They however leave finding computationally efficient algorithms as future work and this is considered a major open problem in the community. In this work, we make progress on this open problem by presenting the first computational lower bound for RL with linear function approximation: unless NP=RP, no randomized polynomial time algorithm exists for deterministic transition MDPs with a constant number of actions and linear optimal value functions. To prove this, we show a reduction from Unique-Sat, where we convert a CNF formula into an MDP with deterministic transitions, constant number of actions and low dimensional linear optimal value functions. This result also exhibits the first computational-statis tical gap in reinforcement learning with linear function approximation, as the underlying statistical problem is information-theoreti cally solvable with a polynomial number of queries, but no computationally efficient algorithm exists unless NP=RP. Finally, we also prove a quasi-polynomial time lower bound under the Randomized Exponential Time Hypothesis.
翻訳日:2022-02-14 14:24:27 公開日:2022-02-11
# ClidSum: 言語間対話要約のためのベンチマークデータセット

ClidSum: A Benchmark Dataset for Cross-Lingual Dialogue Summarization ( http://arxiv.org/abs/2202.05599v1 )

ライセンス: Link先を確認
Jiaan Wang, Fandong Meng, Ziyao Lu, Duo Zheng, Zhixu Li, Jianfeng Qu, Jie Zhou(参考訳) 本稿では,対話文書を用いた言語間要約システム構築のためのベンチマークデータセットClidSumを提案する。 2つのサブセット(samsumとmediasum)から67k以上の対話文書と、異なるターゲット言語で112k以上の注釈付き要約からなる。 提案したClidSumに基づいて,教師付きシナリオと半教師付きシナリオのベンチマーク設定をそれぞれ2つ導入する。 次に、異なるパラダイム(パイプラインとエンドツーエンド)で様々なベースラインシステムを構築し、ClidSum上で広範な実験を行い、より深く分析する。 さらに,mBART-50(多言語BART)を拡張したmDialBARTを提案する。 さらなる事前学習段階において使われる複数の目的により、事前訓練されたモデルは、対話における構造的特徴と重要な内容、およびソースからターゲット言語への変換を捉えることができる。 実験結果から,mDialBARTはエンドツーエンドモデルとして,ClidSum上での強いパイプラインモデルよりも優れていた。 最後に、本課題に直面する現在の課題について論じ、今後の研究に有望な複数の方向性を示す。 データセットとコードはhttps://github.com/k rystalan/ClidSumでリリースしました。

We present ClidSum, a benchmark dataset for building cross-lingual summarization systems on dialogue documents. It consists of 67k+ dialogue documents from two subsets (i.e., SAMSum and MediaSum) and 112k+ annotated summaries in different target languages. Based on the proposed ClidSum, we introduce two benchmark settings for supervised and semi-supervised scenarios, respectively. We then build various baseline systems in different paradigms (pipeline and end-to-end) and conduct extensive experiments on ClidSum to provide deeper analyses. Furthermore, we propose mDialBART which extends mBART-50 (a multi-lingual BART) via further pre-training. The multiple objectives used in the further pre-training stage help the pre-trained model capture the structural characteristics as well as important content in dialogues and the transformation from source to the target language. Experimental results show the superiority of mDialBART, as an end-to-end model, outperforms strong pipeline models on ClidSum. Finally, we discuss specific challenges that current approaches faced with this task and give multiple promising directions for future research. We have released the dataset and code at https://github.com/k rystalan/ClidSum.
翻訳日:2022-02-14 14:24:02 公開日:2022-02-11
# Patch-NetVLAD+:学習パッチ記述子と位置認識のための重み付けマッチング戦略

Patch-NetVLAD+: Learned patch descriptor and weighted matching strategy for place recognition ( http://arxiv.org/abs/2202.05738v1 )

ライセンス: Link先を確認
Yingfeng Cai, Junqiao Zhao, Jiafeng Cui, Fenglin Zhang, Chen Ye, Tiantian Feng(参考訳) 都市や屋内といった類似の場面で視覚的位置認識(VPR)を行うことが大きな課題である。 グローバルディスクリプタを用いた既存のvpr手法では,シーン内の局所的特定領域(lsr)の捕捉が困難であり,そのようなシナリオでは局所的な混乱が生じやすい。 その結果、位置認識に重要なLSRを見つけることが重要となる。 この課題に対処するため、パッチベースのVPR研究に触発されたPatch-NetVLAD+を導入しました。 提案手法は,パッチレベルの記述子抽出に適したNetVLADを実現するために,トリプルトロスを用いた微調整方式を提案する。 さらに、画像中の全てのパッチを等しく扱う既存の方法とは異なり、我々の方法ではデータセット全体を通して頻度の低いLSRのパッチを抽出し、適切な重みを割り当てることでVPRにおいて重要な役割を果たす。 ピッツバーグ30kと東京247のデータセットを用いた実験により,既存のパッチベース手法よりも6.35\%の性能向上が得られた。

Visual Place Recognition (VPR) in areas with similar scenes such as urban or indoor scenarios is a major challenge. Existing VPR methods using global descriptors have difficulty capturing local specific regions (LSR) in the scene and are therefore prone to localization confusion in such scenarios. As a result, finding the LSR that are critical for location recognition becomes key. To address this challenge, we introduced Patch-NetVLAD+, which was inspired by patch-based VPR researches. Our method proposed a fine-tuning strategy with triplet loss to make NetVLAD suitable for extracting patch-level descriptors. Moreover, unlike existing methods that treat all patches in an image equally, our method extracts patches of LSR, which present less frequently throughout the dataset, and makes them play an important role in VPR by assigning proper weights to them. Experiments on Pittsburgh30k and Tokyo247 datasets show that our approach achieved up to 6.35\% performance improvement than existing patch-based methods.
翻訳日:2022-02-14 14:23:43 公開日:2022-02-11
# 循環型カリキュラム学習

Cyclical Curriculum Learning ( http://arxiv.org/abs/2202.05531v1 )

ライセンス: Link先を確認
H. Toprak Kesgin, M. Fatih Amasyali(参考訳) 人工ニューラルネットワーク(ANN)は、人間の学習にインスパイアされている。 しかしながら、人間の教育とは異なり、古典的なANNはカリキュラムを使用しない。 カリキュラムラーニング(英: Curriculum Learning, CL)とは、ANNトレーニングにおいて、サンプルを意味のある順序で使用する過程を指す。 CLを使用する場合、トレーニングはデータセットのサブセットから始まり、トレーニング全体を通じて新しいサンプルが追加される。 これらのトレーニングデータセットサイズの変化により、バニラ法よりもカリキュラム、反カリキュラム法、ランダムカリキュラム法でより良い結果が得られる。 しかし、様々なアーキテクチャやデータセットに対する汎用的なCL法は見つからない。 本稿では,学習中のデータサイズが単に増加または減少するのではなく,周期的に変化する循環型カリキュラム学習(ccl)を提案する。 バニラ法やカリキュラム法のみを使う代わりに、CCLのように循環的に両方の方法を使う方が、より成功した結果をもたらす。 画像とテキストの分類タスクにおいて,18の異なるデータセットと15のアーキテクチャでテストを行い,No-CL法や既存のCL法よりも良好な結果を得た。 また, CL法やバニラ法のみを用いることよりも, CL法やバニラ法を循環的に適用することが誤っていることも理論的に証明した。 サイクリックカリキュラムのコードはhttps://github.com/c yclicalcurriculum/cy clical-curriculumで入手できる。

Artificial neural networks (ANN) are inspired by human learning. However, unlike human education, classical ANN does not use a curriculum. Curriculum Learning (CL) refers to the process of ANN training in which examples are used in a meaningful order. When using CL, training begins with a subset of the dataset and new samples are added throughout the training, or training begins with the entire dataset and the number of samples used is reduced. With these changes in training dataset size, better results can be obtained with curriculum, anti-curriculum, or random-curriculum methods than the vanilla method. However, a generally efficient CL method for various architectures and data sets is not found. In this paper, we propose cyclical curriculum learning (CCL), in which the data size used during training changes cyclically rather than simply increasing or decreasing. Instead of using only the vanilla method or only the curriculum method, using both methods cyclically like in CCL provides more successful results. We tested the method on 18 different data sets and 15 architectures in image and text classification tasks and obtained more successful results than no-CL and existing CL methods. We also have shown theoretically that it is less erroneous to apply CL and vanilla cyclically instead of using only CL or only vanilla method. The code of Cyclical Curriculum is available at https://github.com/C yclicalCurriculum/Cy clical-Curriculum.
翻訳日:2022-02-14 14:21:24 公開日:2022-02-11
# メタ・アドバイザリ・トレーニングによるクロスドメイン・ファウショット学習

Cross Domain Few-Shot Learning via Meta Adversarial Training ( http://arxiv.org/abs/2202.05713v1 )

ライセンス: Link先を確認
Jirui Qi, Richong Zhang, Chune Li, Yongyi Mao(参考訳) Few-shot Relation Classification (RC) は機械学習における重要な問題の1つである。 現在の研究は、トレーニングとテストの両方が同じドメインからのものであるという設定にのみ焦点を合わせています。 しかし実際には、この仮定は必ずしも保証されない。 本研究では,先述のクロスドメイン状況を考慮した新しいモデルを提案する。 以前のモデルとは異なり、私たちはソースドメインデータのみを使用してプロトタイプネットワークをトレーニングし、ターゲットドメインデータでモデルをテストします。 対象領域のデータに適応するためのトレーニングネットワークを微調整するために,メタベースの逆トレーニングフレームワーク(\textbf{MBATF})を提案する。 実験により,提案モデルの有効性を確認した。

Few-shot relation classification (RC) is one of the critical problems in machine learning. Current research merely focuses on the set-ups that both training and testing are from the same domain. However, in practice, this assumption is not always guaranteed. In this study, we present a novel model that takes into consideration the afore-mentioned cross-domain situation. Not like previous models, we only use the source domain data to train the prototypical networks and test the model on target domain data. A meta-based adversarial training framework (\textbf{MBATF}) is proposed to fine-tune the trained networks for adapting to data from the target domain. Empirical studies confirm the effectiveness of the proposed model.
翻訳日:2022-02-14 14:21:01 公開日:2022-02-11
# リカレントネットワークを用いたエンドツーエンドアルゴリズム合成:再考せずに論理的外挿

End-to-end Algorithm Synthesis with Recurrent Networks: Logical Extrapolation Without Overthinking ( http://arxiv.org/abs/2202.05826v1 )

ライセンス: Link先を確認
Arpit Bansal, Avi Schwarzschild, Eitan Borgnia, Zeyad Emam, Furong Huang, Micah Goldblum, Tom Goldstein(参考訳) 機械学習システムはパターンマッチングタスクでよく機能するが、アルゴリズム的あるいは論理的推論を行う能力はよく理解されていない。 1つの重要な推論能力は論理補間であり、小さな/単純な推論問題にのみ訓練されたモデルは、テスト時に大規模/複雑な問題までスケールアップする複雑なアルゴリズムを合成できる。 論理的な外挿は反復システムによって達成でき、難しい推論問題を解決するために何度も反復することができる。 このアプローチは、多くのイテレーションが適用されると振る舞いが縮退するため、非常に複雑な問題にスケールできないことを観察します。 本稿では,問題インスタンスの明示的なコピーをメモリに保持して,それを忘れないようにするリコールアーキテクチャを提案する。 また、反復数に固有の振る舞いをモデルが学習するのを防ぎ、無期限に繰り返しられる振る舞いを学習するためにモデルをプッシュするプログレッシブトレーニングルーチンも採用しています。 これらのイノベーションは、過度に考え抜かれた問題を防ぎ、リカレントシステムは、過度にハードな論理的補間タスクを解くことができる。

Machine learning systems perform well on pattern matching tasks, but their ability to perform algorithmic or logical reasoning is not well understood. One important reasoning capability is logical extrapolation, in which models trained only on small/simple reasoning problems can synthesize complex algorithms that scale up to large/complex problems at test time. Logical extrapolation can be achieved through recurrent systems, which can be iterated many times to solve difficult reasoning problems. We observe that this approach fails to scale to highly complex problems because behavior degenerates when many iterations are applied -- an issue we refer to as "overthinking." We propose a recall architecture that keeps an explicit copy of the problem instance in memory so that it cannot be forgotten. We also employ a progressive training routine that prevents the model from learning behaviors that are specific to iteration number and instead pushes it to learn behaviors that can be repeated indefinitely. These innovations prevent the overthinking problem, and enable recurrent systems to solve extremely hard logical extrapolation tasks, some requiring over 100K convolutional layers, without overthinking.
翻訳日:2022-02-14 14:20:51 公開日:2022-02-11
# 半教師付き逆回転PAC学習性の評価

A Characterization of Semi-Supervised Adversarially-Robust PAC Learnability ( http://arxiv.org/abs/2202.05420v1 )

ライセンス: Link先を確認
Idan Attias and Steve Hanneke and Yishay Mansour(参考訳) 学習者がラベル付きとラベル付きの両方の例にアクセスできるpacモデルにおける,逆ロバスト予測器の半教師付き学習の問題点について検討する。 半教師付き学習におけるサンプル複雑性は、ラベル付きサンプル数とラベルなしサンプル数という2つのパラメータを持つ。 例えば、$VC_U \leq dim_U \leq VC$と$VC^*$、$VC$は標準の$VC$-dimension、$VC^*$はその双対、その他の2つの尺度はMontasser et al. (2019)である。 堅牢なPAC学習で知られている最良のサンプルは$O(VC \cdot VC^*)$であり、我々のサンプル境界を、堅牢なPAC学習アルゴリズムに必要なラベル付きサンプルの最小数である$\Lambda$と比較する。 1) 実現可能な設定では、$O(VC_U)$ラベル付き例と$O(\Lambda)$ラベルなし例を持つことで十分です。 2) agnostic 設定では、$\eta$ を最小の agnostic エラーとする。 サンプルの複雑さは、結果のエラー率に依存する。 2\eta+\epsilon$のエラーを許せば、ラベル付き例は$O(VC_U)$、ラベルなし例は$O(\Lambda)$で十分である。 もし$\eta+\epsilon$のエラーを主張するなら、教師付きの場合のように$\omega(dim_u)$ラベル付き例が必要である。 上記の結果は、半教師付きロバスト学習には、$vc_u=0$ と $dim_u$ を持つ仮説クラスがあるため、大きな利点があることを示している。 教師付き学習では、ラベル付き例のみにアクセスするには、少なくとも$\Lambda \geq dim_U$ラベル付き例が必要である。 半教師はラベル付き例は$O(1)$とラベルなし例は$O(\Lambda)$である。 結果の副産物は、分布が仮説クラスによって堅牢に実現可能であると仮定すると、0-1の損失に対して$O(VC_U)$ラベル付き例だけで学習できるということである。

We study the problem of semi-supervised learning of an adversarially-robust predictor in the PAC model, where the learner has access to both labeled and unlabeled examples. The sample complexity in semi-supervised learning has two parameters, the number of labeled examples and the number of unlabeled examples. We consider the complexity measures, $VC_U \leq dim_U \leq VC$ and $VC^*$, where $VC$ is the standard $VC$-dimension, $VC^*$ is its dual, and the other two measures appeared in Montasser et al. (2019). The best sample bound known for robust supervised PAC learning is $O(VC \cdot VC^*)$, and we will compare our sample bounds to $\Lambda$ which is the minimal number of labeled examples required by any robust supervised PAC learning algorithm. Our main results are the following: (1) in the realizable setting it is sufficient to have $O(VC_U)$ labeled examples and $O(\Lambda)$ unlabeled examples. (2) In the agnostic setting, let $\eta$ be the minimal agnostic error. The sample complexity depends on the resulting error rate. If we allow an error of $2\eta+\epsilon$, it is still sufficient to have $O(VC_U)$ labeled examples and $O(\Lambda)$ unlabeled examples. If we insist on having an error $\eta+\epsilon$ then $\Omega(dim_U)$ labeled examples are necessary, as in the supervised case. The above results show that there is a significant benefit in semi-supervised robust learning, as there are hypothesis classes with $VC_U=0$ and $dim_U$ arbitrary large. In supervised learning, having access only to labeled examples requires at least $\Lambda \geq dim_U$ labeled examples. Semi-supervised require only $O(1)$ labeled examples and $O(\Lambda)$ unlabeled examples. A byproduct of our result is that if we assume that the distribution is robustly realizable by a hypothesis class, then with respect to the 0-1 loss we can learn with only $O(VC_U)$ labeled examples, even if the $VC$ is infinite.
翻訳日:2022-02-14 14:20:27 公開日:2022-02-11
# 分散シフト下でのロバスト機械学習のためのミニマックスレグレット最適化

Minimax Regret Optimization for Robust Machine Learning under Distribution Shift ( http://arxiv.org/abs/2202.05436v1 )

ライセンス: Link先を確認
Alekh Agarwal and Tong Zhang(参考訳) 本稿では,学習モデルが未知のテスト分布で評価される学習シナリオについて検討する。 学習者は、テスト分布がこれらの関数の1つの下でのトレーニング分布の再重み付けであるような重み関数の族にアクセスできる。 古典的学習理論の設定において、後悔境界を導出する問題を考慮し、その結果の後悔境界が全ての潜在的なテスト分布に対して均一に保たなければならない。 DROの定式化は分布シフト時の一様に小さな後悔を保証しないことを示す。 代わりに、Minimax Regret Optimization (MRO) と呼ばれる別の手法を提案し、適切な条件下では、この手法が全てのテスト分布に対して一様に低い後悔を達成することを示す。 また,テスト分布とトレーニングデータとの類似性が異なっていれば,より強固な保証を得るように手法を適用した。 堅牢な機械学習に対する現在のアプローチにおける最悪のケースリスクの幅広い最適化を考えると、MROは分散シフトシナリオに対処する強力な代替手段になり得ると考えています。

In this paper, we consider learning scenarios where the learned model is evaluated under an unknown test distribution which potentially differs from the training distribution (i.e. distribution shift). The learner has access to a family of weight functions such that the test distribution is a reweighting of the training distribution under one of these functions, a setting typically studied under the name of Distributionally Robust Optimization (DRO). We consider the problem of deriving regret bounds in the classical learning theory setting, and require that the resulting regret bounds hold uniformly for all potential test distributions. We show that the DRO formulation does not guarantee uniformly small regret under distribution shift. We instead propose an alternative method called Minimax Regret Optimization (MRO), and show that under suitable conditions this method achieves uniformly low regret across all test distributions. We also adapt our technique to have stronger guarantees when the test distributions are heterogeneous in their similarity to the training data. Given the widespead optimization of worst case risks in current approaches to robust machine learning, we believe that MRO can be a strong alternative to address distribution shift scenarios.
翻訳日:2022-02-14 14:19:43 公開日:2022-02-11
# プールベースバッチアクティブラーニングにおけるミニマックスレートの達成

Achieving Minimax Rates in Pool-Based Batch Active Learning ( http://arxiv.org/abs/2202.05448v1 )

ライセンス: Link先を確認
Claudio Gentile, Zhilei Wang, Tong Zhang(参考訳) 我々は、学習者がoracleをラベル付けするポイントのバッチを適応的に発行するバッチアクティブラーニングシナリオを検討する。 バッチ内のラベルのサンプリングは、oracle(しばしば人間)との対話的なラウンドの数が少ないため、実際には非常に望ましい。 しかし、バッチアクティブな学習は通常、適応性の低下の価格を支払い、最適以下の結果をもたらす。 本稿では,問合せ点の情報性と,その多様性との間に注意深いトレードオフを必要とする解を提案する。 本研究では,未ラベルのデータプールが事前に利用可能である場合(プールベースアクティブラーニング)において,バッチアクティブラーニングを理論的に検討する。 本研究では,新しい段階的グリーディアルゴリズムを解析し,ラベル複雑性の関数として,標準統計的学習環境における既知のミニマックス率に適合する実現可能な設定で動作するアルゴリズムの過大なリスクを示す。 また,本研究の結果はバッチサイズにやや依存している。 これらは、情報性と多様性の間の慎重なトレードオフを利用して、プールベースのシナリオにおけるバッチアクティブラーニングの統計的パフォーマンスを厳格に定量化する最初の理論的結果である。

We consider a batch active learning scenario where the learner adaptively issues batches of points to a labeling oracle. Sampling labels in batches is highly desirable in practice due to the smaller number of interactive rounds with the labeling oracle (often human beings). However, batch active learning typically pays the price of a reduced adaptivity, leading to suboptimal results. In this paper we propose a solution which requires a careful trade off between the informativeness of the queried points and their diversity. We theoretically investigate batch active learning in the practically relevant scenario where the unlabeled pool of data is available beforehand (pool-based active learning). We analyze a novel stage-wise greedy algorithm and show that, as a function of the label complexity, the excess risk of this algorithm operating in the realizable setting for which we prove matches the known minimax rates in standard statistical learning settings. Our results also exhibit a mild dependence on the batch size. These are the first theoretical results that employ careful trade offs between informativeness and diversity to rigorously quantify the statistical performance of batch active learning in the pool-based scenario.
翻訳日:2022-02-14 14:19:22 公開日:2022-02-11
# ロバストな推定アルゴリズムは、腐敗レベルを知る必要がない

Robust estimation algorithms don't need to know the corruption level ( http://arxiv.org/abs/2202.05453v1 )

ライセンス: Link先を確認
Ayush Jain, Alon Orlitsky, Vaishakh Ravindrakumar(参考訳) 実際のデータはまれに純粋である。 したがって、過去半世紀は、データの一部が破損してもうまく機能する堅牢な推定アルゴリズムに大きな関心が寄せられている。 しかし、その大多数は、破損したデータの割合に厳しい上限が与えられる場合にのみ、最適精度にアプローチする。 このような境界は実際には利用できないため、保証が弱く、しばしば性能が劣る。 この短いメモは、複雑で広範にわたるロバスト性問題を単純な幾何学的パズルに抽象化する。 次に、パズルの解を適用して普遍的メタ手法を導出し、強弱な汚職レベルの上界を必要とする任意の頑健な推定アルゴリズムを、上界を使わずにその最適精度を本質的に同じ精度で達成できるものに変換する。

Real data are rarely pure. Hence the past half-century has seen great interest in robust estimation algorithms that perform well even when part of the data is corrupt. However, their vast majority approach optimal accuracy only when given a tight upper bound on the fraction of corrupt data. Such bounds are not available in practice, resulting in weak guarantees and often poor performance. This brief note abstracts the complex and pervasive robustness problem into a simple geometric puzzle. It then applies the puzzle's solution to derive a universal meta technique that converts any robust estimation algorithm requiring a tight corruption-level upper bound to achieve its optimal accuracy into one achieving essentially the same accuracy without using any upper bounds.
翻訳日:2022-02-14 14:19:03 公開日:2022-02-11
# 微分同相不変性による相同性の測定

Measuring dissimilarity with diffeomorphism invariance ( http://arxiv.org/abs/2202.05614v1 )

ライセンス: Link先を確認
Th\'eophile Cantelobre and Carlo Ciliberto and Benjamin Guedj and Alessandro Rudi(参考訳) 類似度(または類似度)の尺度は多くの機械学習アルゴリズムの重要な要素である。 DIDは、データの内部構造を利用して微分同相に不変となるような、幅広いデータ空間に適用可能なペアワイズな相似性尺度である。 理論的研究や実用化に関係のある特性を享受できることを実証する。 各ダタムを関数として表現することにより、DIDは再生ケルネルヒルベルト空間における最適化問題の解として定義され、閉形式で表現できる。 実際には、Nystr\"om sample を用いて効率よく近似することができる。 実証実験はDIDの利点を支持する。

Measures of similarity (or dissimilarity) are a key ingredient to many machine learning algorithms. We introduce DID, a pairwise dissimilarity measure applicable to a wide range of data spaces, which leverages the data's internal structure to be invariant to diffeomorphisms. We prove that DID enjoys properties which make it relevant for theoretical study and practical use. By representing each datum as a function, DID is defined as the solution to an optimization problem in a Reproducing Kernel Hilbert Space and can be expressed in closed-form. In practice, it can be efficiently approximated via Nystr\"om sampling. Empirical experiments support the merits of DID.
翻訳日:2022-02-14 14:18:48 公開日:2022-02-11
# (参考訳) パーソナライズド対話データセットのデバイアスのためのデュアルタスクフレームワーク [全文訳有]

Dual Task Framework for Debiasing Persona-grounded Dialogue Dataset ( http://arxiv.org/abs/2202.05435v1 )

ライセンス: CC BY 4.0
Minju Kim, Beong-woo Kwak, Youngwook Kim, Hong-in Lee, Seung-won Hwang, Jinyoung Yeo(参考訳) 本稿では,ペルソナコンディショニングエージェントを改善するための,シンプルかつ効果的なデータ中心アプローチを提案する。 以前のモデル中心のアプローチは、Persona-Chatのような生のクラウドソースベンチマークデータセットに依存する。 対照的に私たちは,任意の対話モデルに直交するベンチマークにおいて,アノテーションアーチファクトの修正を目指している。 具体的には,2つのタスクの初歩的構造を活用し,対話応答とペルソナを相互に予測し,対話データセット/エージェントを改善するために,関連するペルソナを補強する。 Persona-Chat の実験により,本手法は訓練済みの LM よりも精度が 11.7 ポイント向上していることが示された。

This paper introduces a simple yet effective data-centric approach for the task of improving persona-conditioned dialogue agents. Prior model-centric approaches unquestioningly depend on the raw crowdsourced benchmark datasets such as Persona-Chat. In contrast, we aim to fix annotation artifacts in benchmarking, which is orthogonally applicable to any dialogue model. Specifically, we augment relevant personas to improve dialogue dataset/agent, by leveraging the primal-dual structure of the two tasks, predicting dialogue responses and personas based on each other. Experiments on Persona-Chat show that our approach outperforms pre-trained LMs by an 11.7 point gain in terms of accuracy.
翻訳日:2022-02-14 14:18:09 公開日:2022-02-11
# マルチモーダル知識グラフの構築とその応用:調査

Multi-Modal Knowledge Graph Construction and Application: A Survey ( http://arxiv.org/abs/2202.05786v1 )

ライセンス: Link先を確認
Xiangru Zhu, Zhixu Li, Xiaodan Wang, Xueyao Jiang, Penglei Sun, Xuwu Wang, Yanghua Xiao, Nicholas Jing Yuan(参考訳) 近年,知識グラフの急速な成長を特徴とする知識工学の復活が注目されている。 しかし、既存の知識グラフのほとんどは純粋なシンボルで表現されており、マシンが現実世界を理解する能力を損なう。 知識グラフのマルチモーダル化は、人間レベルのマシンインテリジェンスの実現に向けた必然的な重要なステップである。 この取り組みの結果はMulti-modal Knowledge Graphs (MMKG)である。 テキストや画像によって構築されたMMKGに関する調査では、まずMMKGの定義を行い、続いてマルチモーダルタスクや技術に関する予備研究を行った。 次に,MMKGの構築と適用における課題,進歩,機会を,それぞれ体系的に検討し,それぞれのソリューションの強度と弱点を詳細に分析した。 本調査をMMKGに関するオープンな研究課題にまとめる。

Recent years have witnessed the resurgence of knowledge engineering which is featured by the fast growth of knowledge graphs. However, most of existing knowledge graphs are represented with pure symbols, which hurts the machine's capability to understand the real world. The multi-modalization of knowledge graphs is an inevitable key step towards the realization of human-level machine intelligence. The results of this endeavor are Multi-modal Knowledge Graphs (MMKGs). In this survey on MMKGs constructed by texts and images, we first give definitions of MMKGs, followed with the preliminaries on multi-modal tasks and techniques. We then systematically review the challenges, progresses and opportunities on the construction and application of MMKGs respectively, with detailed analyses of the strength and weakness of different solutions. We finalize this survey with open research problems relevant to MMKGs.
翻訳日:2022-02-14 14:00:13 公開日:2022-02-11
# 言語モデルがプライバシを維持するための意味は何でしょう?

What Does it Mean for a Language Model to Preserve Privacy? ( http://arxiv.org/abs/2202.05520v1 )

ライセンス: Link先を確認
Hannah Brown, Katherine Lee, Fatemehsadat Mireshghalla, Reza Shokri, Florian Tram\`er(参考訳) 自然言語は私たちのプライベートな生活とアイデンティティを反映しており、プライバシーに関する懸念は現実の生活のそれと同じくらい広まっています。 言語モデルは、テキストの文脈や感受性を理解する能力がなく、トレーニングセットに存在するフレーズを記憶する傾向がある。 相手はこの傾向を利用してトレーニングデータを抽出することができる。 コンテンツの性質や、このデータが収集された状況によっては、プライバシーに対する期待に反する可能性がある。 したがって、プライバシを保存する言語モデルのトレーニング技術への関心が高まっている。 本稿では,一般的なデータ保護技術(データサニタイズとディファレンシャルプライバシ)による狭義の仮定と,自然言語とプライバシを社会的規範として持つことのミスマッチについて論じる。 既存の保護手法は、言語モデルに対する汎用的で意味のあるプライバシの概念を保証できない。 言語モデルは、公用として明示的に作成されたテキストデータに基づいて訓練されるべきである。

Natural language reflects our private lives and identities, making its privacy concerns as broad as those of real life. Language models lack the ability to understand the context and sensitivity of text, and tend to memorize phrases present in their training sets. An adversary can exploit this tendency to extract training data. Depending on the nature of the content and the context in which this data was collected, this could violate expectations of privacy. Thus there is a growing interest in techniques for training language models that preserve privacy. In this paper, we discuss the mismatch between the narrow assumptions made by popular data protection techniques (data sanitization and differential privacy), and the broadness of natural language and of privacy as a social norm. We argue that existing protection methods cannot guarantee a generic and meaningful notion of privacy for language models. We conclude that language models should be trained on text data which was explicitly produced for public use.
翻訳日:2022-02-14 14:00:00 公開日:2022-02-11
# ACORT:パラメータ効率的な画像キャプションのためのコンパクトオブジェクト関係変換器

ACORT: A Compact Object Relation Transformer for Parameter Efficient Image Captioning ( http://arxiv.org/abs/2202.05451v1 )

ライセンス: Link先を確認
Jia Huei Tan, Ying Hua Tan, Chee Seng Chan, Joon Huang Chuah(参考訳) 画像キャプションにトランスフォーマーベースのアーキテクチャを適用する最近の研究は、自然言語タスクにおけるトランスフォーマーの成功を活かして、最先端の画像キャプション性能を生み出している。 残念ながら、これらのモデルはうまく機能するが、大きなモデルサイズに重大な欠陥がある。 そこで本研究では,画像キャプション変換器のパラメータ削減手法としてradix encoding,cross-layer parameter sharing, attention parameter sharingを提案する。 これらの手法を組み合わせることで,提案したACORTモデルは,試験性能を損なうことなく,ベースラインモデルよりも3.7倍から21.6倍少ないパラメータを持つ。 MS-COCOデータセットの結果,我々のACORTモデルはベースラインやSOTAアプローチと競合し,CIDErスコアは126。 最後に,提案手法の有効性を示す定性的な結果とアブレーション研究について述べる。 コードと事前トレーニングされたモデルはhttps://github.com/j iahuei/sparse-image- captioningで公開されている。

Recent research that applies Transformer-based architectures to image captioning has resulted in state-of-the-art image captioning performance, capitalising on the success of Transformers on natural language tasks. Unfortunately, though these models work well, one major flaw is their large model sizes. To this end, we present three parameter reduction methods for image captioning Transformers: Radix Encoding, cross-layer parameter sharing, and attention parameter sharing. By combining these methods, our proposed ACORT models have 3.7x to 21.6x fewer parameters than the baseline model without compromising test performance. Results on the MS-COCO dataset demonstrate that our ACORT models are competitive against baselines and SOTA approaches, with CIDEr score >=126. Finally, we present qualitative results and ablation studies to demonstrate the efficacy of the proposed changes further. Code and pre-trained models are publicly available at https://github.com/j iahuei/sparse-image- captioning.
翻訳日:2022-02-14 13:59:45 公開日:2022-02-11
# マルチタスク変換器を用いた弱修正テキストスポッティング

Towards Weakly-Supervised Text Spotting using a Multi-Task Transformer ( http://arxiv.org/abs/2202.05508v1 )

ライセンス: Link先を確認
Yair Kittenplon, Inbal Lavi, Sharon Fogel, Yarin Bar, R. Manmatha, Pietro Perona(参考訳) 近年,テキスト検出と認識コンポーネントの共同最適化のメリットから,テキストスポッティングのエンドツーエンド手法が注目されている。 既存のメソッドは通常、検出と認識のブランチを分離し、2つのタスクに正確なアノテーションを必要とする。 テキストスポッティングのためのトランスフォーマーベースのアプローチであるTextTranSpotter(TTS) と、完全に教師付きされた設定と弱い設定の両方でトレーニング可能な最初のテキストスポッティングフレームワークを紹介する。 単語検出毎に1つの潜在表現を学習し,ハンガリー語の損失に基づく新たな損失関数を用いることで,高価なローカライゼーションアノテーションの必要性を軽減した。 実データにのみテキスト書き起こしアノテーションをトレーニングすることにより,従来の最先端の完全教師付き手法と競合する性能を実現する。 TextTranSpotterは、完全に教師された方法でトレーニングされた場合、複数のベンチマークで最先端の結果を表示する。

Text spotting end-to-end methods have recently gained attention in the literature due to the benefits of jointly optimizing the text detection and recognition components. Existing methods usually have a distinct separation between the detection and recognition branches, requiring exact annotations for the two tasks. We introduce TextTranSpotter (TTS), a transformer-based approach for text spotting and the first text spotting framework which may be trained with both fully- and weakly-supervised settings. By learning a single latent representation per word detection, and using a novel loss function based on the Hungarian loss, our method alleviates the need for expensive localization annotations. Trained with only text transcription annotations on real data, our weakly-supervised method achieves competitive performance with previous state-of-the-art fully-supervised methods. When trained in a fully-supervised manner, TextTranSpotter shows state-of-the-art results on multiple benchmarks \footnote {Our code will be publicly available upon publication.
翻訳日:2022-02-14 13:59:28 公開日:2022-02-11
# InterpretTime:時系列分類におけるニューラルネットワークの解釈可能性の体系的評価のための新しいアプローチ

InterpretTime: a new approach for the systematic evaluation of neural-network interpretability in time series classification ( http://arxiv.org/abs/2202.05656v1 )

ライセンス: Link先を確認
Hugues Turb\'e, Mina Bjelogrlic, Christian Lovis, Gianmarco Mengaldo(参考訳) 本稿では,時系列分類における解釈可能性法の性能を評価する新しい手法を提案し,ドメインエキスパートと機械データ解釈の類似性を評価する新しい手法を提案する。 この新しいアプローチは、新しい合成データセットのファミリーを活用し、新しい解釈可能性評価指標を導入する。 このアプローチは、文献で遭遇するいくつかの一般的な問題に対処し、ニューラルネットワークのデータ利用をいかにうまく捉えているかを明確に表現し、体系的な解釈可能性評価フレームワークを提供する。 新しい方法論は、時系列分類タスクにおける解釈可能性に対するシェープ値サンプリングと統合勾配の優位性を強調している。

We present a novel approach to evaluate the performance of interpretability methods for time series classification, and propose a new strategy to assess the similarity between domain experts and machine data interpretation. The novel approach leverages a new family of synthetic datasets and introduces new interpretability evaluation metrics. The approach addresses several common issues encountered in the literature, and clearly depicts how well an interpretability method is capturing neural network's data usage, providing a systematic interpretability evaluation framework. The new methodology highlights the superiority of Shapley Value Sampling and Integrated Gradients for interpretability in time-series classification tasks.
翻訳日:2022-02-14 13:59:11 公開日:2022-02-11
# 高速鉄道検査システムにおける異常検出のためのGANを用いたメタラーニング

Meta-learning with GANs for anomaly detection, with deployment in high-speed rail inspection system ( http://arxiv.org/abs/2202.05795v1 )

ライセンス: Link先を確認
Haoyang Cao, Xin Guo, Guan Wang(参考訳) 異常検出は、幅広い潜在的な応用を持つ活発な研究領域である。 ビッグデータによるAI時代の異常検出の主な課題は、潜在的な異常タイプの事前知識の欠如、入力データの非常に複雑でノイズの多いバックグラウンド、異常サンプルの不足、不均衡なトレーニングデータセットである。 本研究では,これらの問題に対処するための異常検出のためのメタ学習フレームワークを提案する。 この枠組みでは,構造的類似性指標尺度 (ssim) を含む損失関数の適切な選択にgans (generative adversarial network) の概念を取り入れている。 高速レールインスペクションのための限定ラベルデータを用いた実験は、メタラーニングフレームワークが異常の識別において、鋭く堅牢であることを示しています。 この枠組みは2021年から5つの高速鉄道に配備されており、99.7%以上の作業負荷を削減し、96.7%の検査時間を節約している。

Anomaly detection has been an active research area with a wide range of potential applications. Key challenges for anomaly detection in the AI era with big data include lack of prior knowledge of potential anomaly types, highly complex and noisy background in input data, scarce abnormal samples, and imbalanced training dataset. In this work, we propose a meta-learning framework for anomaly detection to deal with these issues. Within this framework, we incorporate the idea of generative adversarial networks (GANs) with appropriate choices of loss functions including structural similarity index measure (SSIM). Experiments with limited labeled data for high-speed rail inspection demonstrate that our meta-learning framework is sharp and robust in identifying anomalies. Our framework has been deployed in five high-speed railways of China since 2021: it has reduced more than 99.7% workload and saved 96.7% inspection time.
翻訳日:2022-02-14 13:58:59 公開日:2022-02-11
# (参考訳) 不規則畳み込みニューラルネットワークによる短期自転車共有需要予測の改善 [全文訳有]

Improving short-term bike sharing demand forecast through an irregular convolutional neural network ( http://arxiv.org/abs/2202.04376v2 )

ライセンス: CC BY 4.0
Xinyu Li, Yang Xu, Xiaohu Zhang, Wenzhong Shi, Yang Yue, Qingquan Li(参考訳) 自転車シェアリングシステム管理における重要な課題として,旅行需要の正確な予測は,利用者の満足度を向上させるために自転車の派遣・移転を容易にする。 近年,自転車利用予測を改善するために,ディープラーニングアルゴリズムが数多く導入されている。 典型的なプラクティスは、コンボリューショナル(CNN)とリカレントニューラルネットワーク(RNN)を統合して、歴史的旅行需要における空間的時間的依存を捉えることである。 典型的なcnnでは、畳み込み操作は「マトリックスフォーマット」都市を横断するカーネルを通して行われ、隣接する都市部で特徴を抽出する。 このプラクティスは、互いに近い領域が予測精度を向上させる有用な情報を提供できると仮定する。 しかし,環境特性の空間的変化や自転車活動に影響を及ぼす旅行行動を考えると,近隣地域の自転車利用は必ずしも類似しているとは限らない。 しかし、はるかに離れた領域は、時間的利用パターンにおいて比較的よく似ている。 本研究は,これら遠隔都市間における隠れた連携を利用するために,不規則畳み込み型長期記憶モデル(irconv+lstm)を提案し,短期自転車シェアリング需要予測を改善する。 このモデルは従来のcnnを不規則な畳み込みアーキテクチャで修正し、"semantic neighbors"間の依存関係を抽出する。 提案モデルは,シンガポールのドックレス自転車シェアリングシステムと,シカゴ,ワシントンD.C.,ニューヨーク,ロンドンにある4つのステーションベースシステムを含む5つの調査サイトでベンチマークモデルを用いて評価された。 IrConv+LSTMは5つの都市で他のベンチマークモデルよりも優れています。 このモデルは、自転車使用量やピーク期間の異なる地域でも優れた性能を発揮する。 その結果,都市における自転車シェアリングシステムの短期的な移動需要予測をさらに改善できることが示唆された。

As an important task for the management of bike sharing systems, accurate forecast of travel demand could facilitate dispatch and relocation of bicycles to improve user satisfaction. In recent years, many deep learning algorithms have been introduced to improve bicycle usage forecast. A typical practice is to integrate convolutional (CNN) and recurrent neural network (RNN) to capture spatial-temporal dependency in historical travel demand. For typical CNN, the convolution operation is conducted through a kernel that moves across a "matrix-format" city to extract features over spatially adjacent urban areas. This practice assumes that areas close to each other could provide useful information that improves prediction accuracy. However, bicycle usage in neighboring areas might not always be similar, given spatial variations in built environment characteristics and travel behavior that affect cycling activities. Yet, areas that are far apart can be relatively more similar in temporal usage patterns. To utilize the hidden linkage among these distant urban areas, the study proposes an irregular convolutional Long-Short Term Memory model (IrConv+LSTM) to improve short-term bike sharing demand forecast. The model modifies traditional CNN with irregular convolutional architecture to extract dependency among "semantic neighbors". The proposed model is evaluated with a set of benchmark models in five study sites, which include one dockless bike sharing system in Singapore, and four station-based systems in Chicago, Washington, D.C., New York, and London. We find that IrConv+LSTM outperforms other benchmark models in the five cities. The model also achieves superior performance in areas with varying levels of bicycle usage and during peak periods. The findings suggest that "thinking beyond spatial neighbors" can further improve short-term travel demand prediction of urban bike sharing systems.
翻訳日:2022-02-14 13:00:02 公開日:2022-02-11
# (参考訳) 実現可能性と単一政策集中性を備えたオフライン強化学習

Offline Reinforcement Learning with Realizability and Single-policy Concentrability ( http://arxiv.org/abs/2202.04634v2 )

ライセンス: CC0 1.0
Wenhao Zhan, Baihe Huang, Audrey Huang, Nan Jiang, Jason D. Lee(参考訳) オフライン強化学習(rl)のためのサンプル効率保証は、しばしば関数クラス(ベルマン完全性など)とデータカバレッジ(例えば、オールポリシー集中性)の両方に強い仮定に依存している。 これらの仮定を緩和する最近の努力にもかかわらず、既存の研究は2つの要因のうちの1つだけを緩和することができ、他の要因に対する強い仮定はそのまま残されている。 重要なオープンな問題として、両方の因子の仮定が弱いサンプル効率のオフラインRLが達成できるだろうか? 本稿では,この疑問に肯定的に答える。 両変数(分散占有率)をオフラインデータに対する密度比関数を用いてモデル化する,MDPの原始双対定式化に基づく単純なアルゴリズムを解析する。 適切な正則化により、このアルゴリズムは、実現可能性と単一政治集中性だけで、多項式のサンプル複雑性を享受できることを示した。 また、オフラインRLに対する原始双対アルゴリズムの性質について、異なる仮定に基づく代替分析を行う。

Sample-efficiency guarantees for offline reinforcement learning (RL) often rely on strong assumptions on both the function classes (e.g., Bellman-completeness ) and the data coverage (e.g., all-policy concentrability). Despite the recent efforts on relaxing these assumptions, existing works are only able to relax one of the two factors, leaving the strong assumption on the other factor intact. As an important open problem, can we achieve sample-efficient offline RL with weak assumptions on both factors? In this paper we answer the question in the positive. We analyze a simple algorithm based on the primal-dual formulation of MDPs, where the dual variables (discounted occupancy) are modeled using a density-ratio function against offline data. With proper regularization, we show that the algorithm enjoys polynomial sample complexity, under only realizability and single-policy concentrability. We also provide alternative analyses based on different assumptions to shed light on the nature of primal-dual algorithms for offline RL.
翻訳日:2022-02-14 12:34:35 公開日:2022-02-11
# (参考訳) 球形変圧器 [全文訳有]

Spherical Transformer ( http://arxiv.org/abs/2202.04942v2 )

ライセンス: CC BY 4.0
Sungmin Cho, Raehyuk Jung, Junseok Kwon(参考訳) 畳み込みニューラルネットワークを360度画像に使用すると、平面投影による歪みによる副最適性能が引き起こされる。 回転を360度画像に適用すると歪みが劣化する。 このように、畳み込みに基づく多くの研究は、正確な表現を学ぶために歪みを減らすことを試みる。 対照的に、トランスフォーマーアーキテクチャを利用して360度画像の画像分類問題を解決する。 提案するトランスフォーマーを360度画像に使用すると2つの利点がある。 まず, 球面からの画素をサンプリングすることにより, 誤った平面投影処理を必要としない。 第2に、正多面体に基づくサンプリング法は、特定の回転を顔の置換に還元できるため、低回転同分散誤差となる。 実験では、以下の2つの側面でネットワークを検証した。 まず, 均一なサンプリング手法を持つ変圧器を用いることにより, 歪みを低減できることを示す。 第2に, 変圧器アーキテクチャが特定の回転の回転同値を達成できることを実証する。 我々は,SPH-MNIST,SPH-CIFAR ,SUN360データセットを用いた他の最先端アルゴリズムと比較し,本手法が他の手法と競合することを示す。

Using convolutional neural networks for 360images can induce sub-optimal performance due to distortions entailed by a planar projection. The distortion gets deteriorated when a rotation is applied to the 360image. Thus, many researches based on convolutions attempt to reduce the distortions to learn accurate representation. In contrast, we leverage the transformer architecture to solve image classification problems for 360images. Using the proposed transformer for 360images has two advantages. First, our method does not require the erroneous planar projection process by sampling pixels from the sphere surface. Second, our sampling method based on regular polyhedrons makes low rotation equivariance errors, because specific rotations can be reduced to permutations of faces. In experiments, we validate our network on two aspects, as follows. First, we show that using a transformer with highly uniform sampling methods can help reduce the distortion. Second, we demonstrate that the transformer architecture can achieve rotation equivariance on specific rotations. We compare our method to other state-of-the-art algorithms using the SPH-MNIST, SPH-CIFAR, and SUN360 datasets and show that our method is competitive with other methods.
翻訳日:2022-02-14 12:33:29 公開日:2022-02-11
# 潜在因果ダイナミクスの学習

Learning Latent Causal Dynamics ( http://arxiv.org/abs/2202.04828v2 )

ライセンス: Link先を確認
Weiran Yao, Guangyi Chen and Kun Zhang(参考訳) 時系列モデリングの1つの重要な課題は、未知の分布シフトの下でモデルを学習し、迅速に修正する方法である。 そこで本研究では,まず時間遅延因果変数を復元し,分布シフトの異なる時間データからそれらの関係を同定する,lilyと呼ばれる原理的枠組みを提案する。 補正ステップは、識別された因果構造を利用して、新しい環境からいくつかのサンプルで低次元の変化因子を学習するものとして定式化される。 特に、このフレームワークは未知の分布変化を、固定力学と時間変化の潜伏因果関係による遷移分布変化と、観察のグローバルな変化に分解する。 我々は, 非線形混合系の非パラメトリック潜時因果ダイナミクスの同定可能性理論を固定力学および変化下で確立する。 実験により, 分布変化の異なる観測変数から, 時間遅延潜在因果影響が確実に同定できることを示した。 このモジュラー表現を利用して、未知の分布シフトの下でモデルの修正を、少数のサンプルで効率的に行うことができる。

One critical challenge of time-series modeling is how to learn and quickly correct the model under unknown distribution shifts. In this work, we propose a principled framework, called LiLY, to first recover time-delayed latent causal variables and identify their relations from measured temporal data under different distribution shifts. The correction step is then formulated as learning the low-dimensional change factors with a few samples from the new environment, leveraging the identified causal structure. Specifically, the framework factorizes unknown distribution shifts into transition distribution changes caused by fixed dynamics and time-varying latent causal relations, and by global changes in observation. We establish the identifiability theories of nonparametric latent causal dynamics from their nonlinear mixtures under fixed dynamics and under changes. Through experiments, we show that time-delayed latent causal influences are reliably identified from observed variables under different distribution changes. By exploiting this modular representation of changes, we can efficiently learn to correct the model under unknown distribution shifts with only a few samples.
翻訳日:2022-02-14 12:20:39 公開日:2022-02-11
# 構造化環境におけるソフトコンティニュムアームの姿勢制御のためのビジュアルサーボ

Visual Servoing for Pose Control of Soft Continuum Arm in a Structured Environment ( http://arxiv.org/abs/2202.05200v2 )

ライセンス: Link先を確認
Shivani Kamtikar, Samhita Marri, Benjamin Walt, Naveen Kumar Uppalapati, Girish Krishnan, Girish Chowdhary(参考訳) 柔らかい連続腕では、視覚サーボは制御ループを閉じるために視覚フィードバックに依存する一般的な制御戦略である。 しかし、堅牢な視覚サーボは、画像から信頼できる特徴抽出、正確な制御モデルとセンサーが腕の形を知覚するために必要であり、どちらもソフトロボットでは実装が難しいため、難しい。 この手紙は、腕の先端にカメラを設置した視覚サーボにより、ソフトアームに滑らかで堅牢な3D位置決めタスクを実行するディープニューラルネットワークベースの方法を提案することによって、これらの課題を回避する。 畳み込みニューラルネットワークは、構造化環境で所望のポーズを達成するために必要な動作を予測するために訓練される。 画像からアクチュエータを推定するための統合的およびモジュール的アプローチを提案し,実験的に比較した。 カメラが見る所望画像と現在画像との誤差を低減するために比例制御法を施行する。 このモデルと比例フィードバック制御は、新しいターゲット、照明、荷重、ソフトアームの縮小など、いくつかのバリエーションに対して堅牢なアプローチを与える。 さらに、モデルは最小限の労力で新しい環境に移されるようにもなっている。

For soft continuum arms, visual servoing is a popular control strategy that relies on visual feedback to close the control loop. However, robust visual servoing is challenging as it requires reliable feature extraction from the image, accurate control models and sensors to perceive the shape of the arm, both of which can be hard to implement in a soft robot. This letter circumvents these challenges by presenting a deep neural network-based method to perform smooth and robust 3D positioning tasks on a soft arm by visual servoing using a camera mounted at the distal end of the arm. A convolutional neural network is trained to predict the actuations required to achieve the desired pose in a structured environment. Integrated and modular approaches for estimating the actuations from the image are proposed and are experimentally compared. A proportional control law is implemented to reduce the error between the desired and current image as seen by the camera. The model together with the proportional feedback control makes the described approach robust to several variations such as new targets, lighting, loads, and diminution of the soft arm. Furthermore, the model lends itself to be transferred to a new environment with minimal effort.
翻訳日:2022-02-14 12:20:22 公開日:2022-02-11
# シンクホーン不確かさ集合を用いたロバスト仮説テストへのデータ駆動アプローチ

A Data-Driven Approach to Robust Hypothesis Testing Using Sinkhorn Uncertainty Sets ( http://arxiv.org/abs/2202.04258v2 )

ライセンス: Link先を確認
Jie Wang and Yao Xie(参考訳) 小さなサンプルシナリオの仮説テストは、事実上重要な問題である。 本稿では,実験的分布に着目した分布的不確実性集合上の最悪の場合をシンクホーン距離を用いて探索し,データ駆動方式でロバストな仮説検証問題を検討する。 wassersteinロバストテストと比較すると、より柔軟な検出器を提供するトレーニングサンプルを超えて、最も好ましくない分布がサポートされている。 提案手法の競合性能を検証するため,合成データと実データの両方について様々な数値実験を行った。

Hypothesis testing for small-sample scenarios is a practically important problem. In this paper, we investigate the robust hypothesis testing problem in a data-driven manner, where we seek the worst-case detector over distributional uncertainty sets centered around the empirical distribution from samples using Sinkhorn distance. Compared with the Wasserstein robust test, the corresponding least favorable distributions are supported beyond the training samples, which provides a more flexible detector. Various numerical experiments are conducted on both synthetic and real datasets to validate the competitive performances of our proposed method.
翻訳日:2022-02-14 12:20:00 公開日:2022-02-11
# PCENet: 学習不確実性のための高次元サロゲートモデリング

PCENet: High Dimensional Surrogate Modeling for Learning Uncertainty ( http://arxiv.org/abs/2202.05063v2 )

ライセンス: Link先を確認
Paz Fink Shustin, Shashanka Ubaru, Vasileios Kalantzis, Lior Horesh, Haim Avron(参考訳) 不確実性の下でデータ表現を学ぶことは、多くの機械学習アプリケーションに現れる重要なタスクである。 しかし、不確実性定量化(uq)技術は計算量が多く、高次元データには極めて高価である。 本稿では,中程度から高次元のデータを扱うことを目的とした,表現学習と不確実性定量化のための新しいサロゲートモデルを提案する。 提案モデルは,(潜在的に高次元の)データの次元性低減のためのニューラルネットワークアプローチと,データ分布学習のためのサロゲートモデル手法を組み合わせたものである。 まず、変動オートエンコーダ(VAE)を用いて、データ分布の低次元表現を学習する。 次に,多項式カオス展開(pce)の定式化を用いて,この分布を出力対象にマッピングする。 PCEの係数は、最大平均誤差(MMD)アプローチを用いてトレーニングデータの分布表現から学習する。 私たちのモデルでは (a)データの表現を学ぶ。 b)高次元データシステムにおける不確実性の推定 (c)出力分布の高次モーメントに一致し、データの事前の統計的な仮定を伴わない。 提案手法の性能を示すために, 数値実験を行った。

Learning data representations under uncertainty is an important task that emerges in numerous machine learning applications. However, uncertainty quantification (UQ) techniques are computationally intensive and become prohibitively expensive for high-dimensional data. In this paper, we present a novel surrogate model for representation learning and uncertainty quantification, which aims to deal with data of moderate to high dimensions. The proposed model combines a neural network approach for dimensionality reduction of the (potentially high-dimensional) data, with a surrogate model method for learning the data distribution. We first employ a variational autoencoder (VAE) to learn a low-dimensional representation of the data distribution. We then propose to harness polynomial chaos expansion (PCE) formulation to map this distribution to the output target. The coefficients of PCE are learned from the distribution representation of the training data using a maximum mean discrepancy (MMD) approach. Our model enables us to (a) learn a representation of the data, (b) estimate uncertainty in the high-dimensional data system, and (c) match high order moments of the output distribution; without any prior statistical assumptions on the data. Numerical experimental results are presented to illustrate the performance of the proposed method.
翻訳日:2022-02-14 12:19:50 公開日:2022-02-11
# アフィン変換に対するディープニューラルネットワークの堅牢性向上のための特徴レベル拡張

Feature-level augmentation to improve robustness of deep neural networks to affine transformations ( http://arxiv.org/abs/2202.05152v2 )

ライセンス: Link先を確認
Adrian Sandru, Mariana-Iuliana Georgescu, Radu Tudor Ionescu(参考訳) 最近の研究では、畳み込みニューラルネットワークは、例えば数度回転や数ピクセルの変換など、小さな画像変換にうまく一般化しないことが示されている。 このような変換に対するロバスト性を改善するため,入力画像に適用される共通データ拡張に加えて,ニューラルアーキテクチャの中間層にデータ拡張を導入することを提案する。 様々なレベルの活性化マップ(機能)に小さな摂動を導入することで、そのような変換に対処するニューラルネットワークの能力を開発する。 我々は,2つの異なる畳み込みアーキテクチャ(ResNet-18とDenseNet-121)を考慮して,Tiny ImageNet,Caltech-256 ,Food-101の3つの画像分類ベンチマーク実験を行った。 2つの最先端安定化手法と比較すると,本手法は精度と平均フリップ率の最良のトレードオフを一貫して達成できることを示す。

Recent studies revealed that convolutional neural networks do not generalize well to small image transformations, e.g. rotations by a few degrees or translations of a few pixels. To improve the robustness to such transformations, we propose to introduce data augmentation at intermediate layers of the neural architecture, in addition to the common data augmentation applied on the input images. By introducing small perturbations to activation maps (features) at various levels, we develop the capacity of the neural network to cope with such transformations. We conduct experiments on three image classification benchmarks (Tiny ImageNet, Caltech-256 and Food-101), considering two different convolutional architectures (ResNet-18 and DenseNet-121). When compared with two state-of-the-art stabilization methods, the empirical results show that our approach consistently attains the best trade-off between accuracy and mean flip rate.
翻訳日:2022-02-14 12:19:33 公開日:2022-02-11
# 歴史地図からの道路網の大規模自動再構築に向けて

Towards the automated large-scale reconstruction of past road networks from historical maps ( http://arxiv.org/abs/2202.04883v2 )

ライセンス: Link先を確認
Johannes H. Uhl, Stefan Leyk, Yao-Yi Chiang, and Craig A. Knoblock(参考訳) 道路や鉄道網などの交通インフラは、我々の文明の基本的な構成要素である。 持続可能な計画と意思決定には,道路網などの交通インフラの長期的発展の理解が不可欠である。 しかし,2000年代以前の空間的範囲を網羅する空間的明示的多時的道路網データはほとんど得られなかった。 そこで本研究では,従来の道路網を再構築する上で,地図から抽出した道路網データとカラー情報を統合することで,スキャンやジオレファレンスによる歴史地図シリーズを利用できるフレームワークを提案する。 具体的には,現代の道路セグメントを分析単位として,画像処理とクラスタリング技術に基づき,歴史地図シリーズにおけるその存在を推定し,歴史的道路を抽出する。 1890年から1950年までの53の歴史的地形図表を網羅する3つの研究領域にまたがって,米国内の道路網の5万km以上を表す30,000以上の道路セグメントで実験を行った。 提案手法を,他の過去のデータセットと比較し,手作業による参照データと比較して評価し,F-1スコアを最大0.95まで達成し,抽出した道路網の統計値が時間とともに高い確率,すなわち全般的な成長パターンに従うことを示した。 歴史的地図シリーズから抽出した情報と統合された現代地理空間データが,遠隔操作型リモートセンシングやデジタルカルトグラフィー以上の長期都市化過程と景観変化を定量的に分析するための新たな道を開くことを実証した。

Transportation infrastructure, such as road or railroad networks, represent a fundamental component of our civilization. For sustainable planning and informed decision making, a thorough understanding of the long-term evolution of transportation infrastructure such as road networks is crucial. However, spatially explicit, multi-temporal road network data covering large spatial extents are scarce and rarely available prior to the 2000s. Herein, we propose a framework that employs increasingly available scanned and georeferenced historical map series to reconstruct past road networks, by integrating abundant, contemporary road network data and color information extracted from historical maps. Specifically, our method uses contemporary road segments as analytical units and extracts historical roads by inferring their existence in historical map series based on image processing and clustering techniques. We tested our method on over 300,000 road segments representing more than 50,000 km of the road network in the United States, extending across three study areas that cover 53 historical topographic map sheets dated between 1890 and 1950. We evaluated our approach by comparison to other historical datasets and against manually created reference data, achieving F-1 scores of up to 0.95, and showed that the extracted road network statistics are highly plausible over time, i.e., following general growth patterns. We demonstrated that contemporary geospatial data integrated with information extracted from historical map series open up new avenues for the quantitative analysis of long-term urbanization processes and landscape changes far beyond the era of operational remote sensing and digital cartography.
翻訳日:2022-02-14 12:19:17 公開日:2022-02-11