このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220202となっている論文です。

PDF登録状況(公開日: 20220202)

TitleAuthorsAbstract論文公表日・翻訳日
# マルチモーダルデータ処理のためのSPD行列の多様体上のスペクトルフロー

Spectral Flow on the Manifold of SPD Matrices for Multimodal Data Processing ( http://arxiv.org/abs/2009.08062v2 )

ライセンス: Link先を確認
Ori Katz, Roy R. Lederman and Ronen Talmon(参考訳) 本稿では,マルチモーダルセンサが取得したデータの相補的側面と測定結果の特徴について考察する。 我々は、測定が相互に変動の源を共有するシナリオに焦点を当てるが、干渉やノイズといった他の測定固有の源によって汚染されることもある。 この手法は、非線形データ駆動次元減少法のクラスである多様体学習と、対称および正定値(SPD)行列の有名なリーマン幾何学を組み合わせたものである。 マニフォールド学習は通常、測定から構築されたカーネルのスペクトル分析を含む。 ここでは、カーネルのリーマン幾何学を利用して、異なるアプローチを取る。 特に、SPD行列の多様体上の測地線経路に沿って、カーネルのスペクトルがどのように変化するかを検討する。 この変化は、純粋に教師なしの方法で、その基礎となるコンポーネントの観点から、測定間の関係をコンパクトかつ情報的に記述することができることを示す。 この結果に基づき,共通潜在成分を抽出し,共通成分および測定固有成分を同定するための新しいアルゴリズムを提案する。

In this paper, we consider data acquired by multimodal sensors capturing complementary aspects and features of a measured phenomenon. We focus on a scenario in which the measurements share mutual sources of variability but might also be contaminated by other measurement-specific sources such as interferences or noise. Our approach combines manifold learning, which is a class of nonlinear data-driven dimension reduction methods, with the well-known Riemannian geometry of symmetric and positive-definite (SPD) matrices. Manifold learning typically includes the spectral analysis of a kernel built from the measurements. Here, we take a different approach, utilizing the Riemannian geometry of the kernels. In particular, we study the way the spectrum of the kernels changes along geodesic paths on the manifold of SPD matrices. We show that this change enables us, in a purely unsupervised manner, to derive a compact, yet informative, description of the relations between the measurements, in terms of their underlying components. Based on this result, we present new algorithms for extracting the common latent components and for identifying common and measurement-specific components.
翻訳日:2022-10-17 08:24:55 公開日:2022-02-02
# 測地線グラミアン行列の固有ベクトルを用いたパッチベース画像切り離し法

A Patch-based Image Denoising Method Using Eigenvectors of the Geodesics' Gramian Matrix ( http://arxiv.org/abs/2010.07769v2 )

ライセンス: Link先を確認
Kelum Gajamannage, Randy Paffenroth, Anura P. Jayasumana(参考訳) 現代社会における高度なカメラの普及に伴い、正確で視覚的な画像の需要が高まっている。 しかし、カメラが捉えた画像の品質はノイズによって劣化する可能性がある。 そのため、重要な画像特徴を損なうことなくノイズをフィルタする処理が必要となる。 現在の文学は様々な論証方法を提供しているが、論証の忠実さと有効性は時として不確かである。 そこで本稿では,精度の高い画像を生成することが可能な,新しい計算効率の高い画像デノイジング手法を提案する。 画像の滑らか性を維持するため、画素ではなく画像から分割されたパッチを入力する。 次に、パッチスペースの基盤となる多様体に対して、イメージドメインよりもデノージングを実行し、イメージ全体の機能をよりよく保存する。 本手法の性能をベンチマーク画像処理法に対して検証する。

With the proliferation of sophisticated cameras in modern society, the demand for accurate and visually pleasing images is increasing. However, the quality of an image captured by a camera may be degraded by noise. Thus, some processing of images is required to filter out the noise without losing vital image features. Even though the current literature offers a variety of denoising methods, the fidelity and efficacy of their denoising are sometimes uncertain. Thus, here we propose a novel and computationally efficient image denoising method that is capable of producing accurate images. To preserve image smoothness, this method inputs patches partitioned from the image rather than pixels. Then, it performs denoising on the manifold underlying the patch-space rather than that in the image domain to better preserve the features across the whole image. We validate the performance of this method against benchmark image processing methods.
翻訳日:2022-10-07 13:09:47 公開日:2022-02-02
# 深層強化学習は、社会保障改革を分析できるリッチな離散的サイクルモデルを可能にする

Deep reinforced learning enables solving rich discrete-choice life cycle models to analyze social security reforms ( http://arxiv.org/abs/2010.13471v3 )

ライセンス: Link先を確認
Antti J. Tanskanen(参考訳) 労働供給の離散的選択ライフサイクルモデルを用いて、社会保障改革が雇用率に与える影響を推定することができる。 ライフサイクルモデルでは、個人のライフコースにおける最適な雇用選択を解決しなければならない。 概して、ライフサイクルモデルは動的プログラミングによって解決されてきたが、状態空間が大きい場合には実現不可能であり、現実のライフサイクルモデルの場合もそうである。 複雑なライフサイクルモデルを解くには、強化学習アルゴリズムのような近似手法を使う必要がある。 深層学習アルゴリズムACKTRと動的プログラミングが比較的単純なライフサイクルモデルをどのように解くかを比較する。 結果を分析するために、統計の選定と、様々な州における最適な雇用選択の比較を行う。 この統計は、ACKTRが動的プログラミングと同じくらい良い結果をもたらすことを示している。 質的には、動的プログラミングはacktrよりも指数関数的な雇用プロファイルをもたらす。 ACKTRで得られた結果は、動的プログラミングの結果に良いが完璧ではない。 基本事例に加えて,(1)退職年齢の増加,(2)普遍的ベーシックインカムの2つの社会保障改革について分析した。 以上の結果から,強化学習アルゴリズムは社会保障改革の発展に非常に有用であることが示唆された。

Discrete-choice life cycle models of labor supply can be used to estimate how social security reforms influence employment rate. In a life cycle model, optimal employment choices during the life course of an individual must be solved. Mostly, life cycle models have been solved with dynamic programming, which is not feasible when the state space is large, as often is the case in a realistic life cycle model. Solving a complex life cycle model requires the use of approximate methods, such as reinforced learning algorithms. We compare how well a deep reinforced learning algorithm ACKTR and dynamic programming solve a relatively simple life cycle model. To analyze results, we use a selection of statistics and also compare the resulting optimal employment choices at various states. The statistics demonstrate that ACKTR yields almost as good results as dynamic programming. Qualitatively, dynamic programming yields more spiked aggregate employment profiles than ACKTR. The results obtained with ACKTR provide a good, yet not perfect, approximation to the results of dynamic programming. In addition to the baseline case, we analyze two social security reforms: (1) an increase of retirement age, and (2) universal basic income. Our results suggest that reinforced learning algorithms can be of significant value in developing social security reforms.
翻訳日:2022-10-02 20:26:07 公開日:2022-02-02
# トレーサブル・説明可能・フェアjd・レコメンデーションシステムに向けて

Toward a traceable, explainable, and fairJD/Resume recommendation system ( http://arxiv.org/abs/2202.08960v1 )

ライセンス: Link先を確認
Amine Barrak, Bram Adams and Amal Zouaq(参考訳) 過去数十年間、企業は国際採用環境でオンライン自動採用プロセスを採用することに興味を持っている。 問題は、手作業による従業員の募集が時間とお金の消費プロセスであることだ。 その結果、多くのアプリケーションを従来の方法で処理することで、不器用な個人の採用につながる可能性がある。 異なるjd/resumeマッチングモデルアーキテクチャが提案されており、必要なジョブの候補を選択する際に高い精度を示す。 しかし、自動採用システムの開発は依然として大きな課題の1つである。 その理由は、完全に自動化された採用システムの開発は難しい作業であり、異なる課題をもたらすからだ。 例えば、ターゲットとするステークホルダーに詳細なマッチング説明を提供することは、透過的なレコメンデーションを保証するために必要です。 スキルと能力(例えば、ESCO、O*NET)を表すいくつかの知識ベースがあり、その候補と、一致する目的のために必要とされる仕事スキルを特定するのに使用される。 さらに、モダンプレトレーニング言語モデルは、特定の機能を導入した行を特定するなど、このコンテキストに対して微調整される。 通常、事前訓練された言語モデルは、特定の分野のために微調整するために転送ベースの機械学習モデルを使用する。 本提案では,現代言語モデル(トランスフォーマーに基づく)と知識ベースとオントロジーを組み合わせることで,JD/Resumeマッチングプロセスの強化を図ることを目的とする。 本システムの目的は,JD/Resumeマッチングの知識ベースと特徴を用いた説明可能性の向上である。 最後に、複数のソフトウェアコンポーネント、データセット、オントロジー、および機械学習モデルについて検討することを考えると、我々はResume/JDマッチング目的のために、公平で説明可能な、トレース可能なアーキテクチャを提案することを目指している。

In the last few decades, companies are interested to adopt an online automated recruitment process in an international recruitment environment. The problem is that the recruitment of employees through the manual procedure is a time and money consuming process. As a result, processing a significant number of applications through conventional methods can lead to the recruitment of clumsy individuals. Different JD/Resume matching model architectures have been proposed and reveal a high accuracy level in selecting relevant candidatesfor the required job positions. However, the development of an automatic recruitment system is still one of the main challenges. The reason is that the development of a fully automated recruitment system is a difficult task and poses different challenges. For example, providing a detailed matching explanation for the targeted stakeholders is needed to ensure a transparent recommendation. There are several knowledge bases that represent skills and competencies (e.g, ESCO, O*NET) that are used to identify the candidate and the required job skills for a matching purpose. Besides, modernpre-trained language models are fine-tuned for this context such as identifying lines where a specific feature was introduced. Typically, pre-trained language models use transfer-based machine learning models to be fine-tuned for a specific field. In this proposal, our aim is to explore how modern language models (based on transformers) can be combined with knowledge bases and ontologies to enhance the JD/Resume matching process. Our system aims at using knowledge bases and features to support the explainability of the JD/Resume matching. Finally, given that multiple software components, datasets, ontology, andmachine learning models will be explored, we aim at proposing a fair, ex-plainable, and traceable architecture for a Resume/JD matching purpose.
翻訳日:2022-02-27 17:35:04 公開日:2022-02-02
# (参考訳) 双対感情分類のためのスペクトル時間脳波バイオマーカー

Spectro Temporal EEG Biomarkers For Binary Emotion Classification ( http://arxiv.org/abs/2202.03271v1 )

ライセンス: CC BY 4.0
Upasana Tiwari, Rupayan Chakraborty, Sunil Kumar Kopparapu(参考訳) 脳波(eeg)は、感情検出の最も信頼できる生理的信号の1つである。 本質的には非定常であるため、脳波は分光時間表現によってよりよく分析される。 離散ウェーブレット変換(英語版)(dwt)のような標準的な特徴は脳波のスペクトルダイナミクスの時間的変化を表現できるが、他の方法、すなわち時間的ダイナミクスのスペクトル変化を抽出できない。 一方、経験的モード分解(EMD)に基づく特徴は、上記のギャップを埋めるのに有用である。 この方向に向かって,EMD上に2つの新しい特徴,すなわち2つの特徴を抽出する。 (a)限界ヒルベルトスペクトル(MHS)および b) EMDに基づくホロ・ヒルベルトスペクトル分析(HHSA)により, 2次元覚醒価(A-V)空間における感情をよりよく表現する。 脳波感情分類におけるこれらの特徴の有用性は,最先端の分類器を用いた広範囲な実験を通して検討した。 さらに,a-v空間における二元感情分類のためのdeapデータセットを用いた実験により,時間的特徴とスペクトル的特徴の標準セットに対する提案手法の有効性が明らかになった。

Electroencephalogram (EEG) is one of the most reliable physiological signal for emotion detection. Being non-stationary in nature, EEGs are better analysed by spectro temporal representations. Standard features like Discrete Wavelet Transformation (DWT) can represent temporal changes in spectral dynamics of an EEG, but is insufficient to extract information other way around, i.e. spectral changes in temporal dynamics. On the other hand, Empirical mode decomposition (EMD) based features can be useful to bridge the above mentioned gap. Towards this direction, we extract two novel features on top of EMD, namely, (a) marginal hilbert spectrum (MHS) and (b) Holo-Hilbert spectral analysis (HHSA) based on EMD, to better represent emotions in 2D arousal-valence (A-V) space. The usefulness of these features for EEG emotion classification is investigated through extensive experiments using state-of-the-art classifiers. In addition, experiments conducted on DEAP dataset for binary emotion classification in both A-V space, reveal the efficacy of the proposed features over the standard set of temporal and spectral features.
翻訳日:2022-02-13 23:15:22 公開日:2022-02-02
# (参考訳) 早期科学発見のためのAI研究アソシエイト

AI Research Associate for Early-Stage Scientific Discovery ( http://arxiv.org/abs/2202.03199v1 )

ライセンス: CC BY 4.0
Morad Behandish, John Maxwell III, Johan de Kleer(参考訳) 人工知能(ai)は何十年にもわたって科学活動に応用されてきたが、科学プロセスにおける洞察力と信頼に値する協力者とは程遠い。 既存のAIメソッドの多くは、科学者が直面している実際の問題に役立てるには単純すぎるか、ドメイン特化されすぎている(犬化されてさえ)か、変革的な発見やパラダイムシフトを鎮めるかのどちらかです。 早期科学的発見のためのAI研究アソシエイトについて紹介する。 (a)古典的及び相対論的物理学にまたがる文脈認識、解釈可能、及び一般化可能な、物理ベースのモデリングのための最小バイアスのオントロジー b) 既往の時空トポロジで示される保存原則の仮定形式等を組み込んだ高レベル(ドメインに依存しない構成)で表される実用的かつ同義的な仮説の自動探索 c) 領域固有の、解釈可能な、および訓練可能な、テスト可能なテンソルベースの計算グラフに列挙された仮説を自動コンパイルし、スパースデータセットから構成法や物質法則などの現象学的関係を学習する。

Artificial intelligence (AI) has been increasingly applied in scientific activities for decades; however, it is still far from an insightful and trustworthy collaborator in the scientific process. Most existing AI methods are either too simplistic to be useful in real problems faced by scientists or too domain-specialized (even dogmatized), stifling transformative discoveries or paradigm shifts. We present an AI research associate for early-stage scientific discovery based on (a) a novel minimally-biased ontology for physics-based modeling that is context-aware, interpretable, and generalizable across classical and relativistic physics; (b) automatic search for viable and parsimonious hypotheses, represented at a high-level (via domain-agnostic constructs) with built-in invariants, e.g., postulated forms of conservation principles implied by a presupposed spacetime topology; and (c) automatic compilation of the enumerated hypotheses to domain-specific, interpretable, and trainable/testable tensor-based computation graphs to learn phenomenological relations, e.g., constitutive or material laws, from sparse (and possibly noisy) data sets.
翻訳日:2022-02-13 23:05:52 公開日:2022-02-02
# (参考訳) 操作者学習による液体金属ジェット添加物製造におけるパートスケールシミュレーションの高速化

Accelerating Part-Scale Simulation in Liquid Metal Jet Additive Manufacturing via Operator Learning ( http://arxiv.org/abs/2202.03665v1 )

ライセンス: CC BY 4.0
S{\o}ren Taverniers, Svyatoslav Korneev, Kyle M. Pietrzyk, Morad Behandish(参考訳) 添加性製造(AM)プロセスの部品品質の予測には, 最小製造可能特性のスケールでの偏微分方程式(PDE)制御プロセスの高精度数値シミュレーションが必要である。 これにより、特に小スケールのシミュレーションを必要とする場合、部分スケールの予測が計算的に要求される。 このような計算複雑性の具体例として,オンデマンド液体金属ジェット(LMJ)が考えられる。 LMJにおける液滴の合体性を記述するモデルとして, 混合圧縮性流体流, 熱伝達, 相変化方程式がある。 これらの方程式を数値的に解くことは、数千から数百万の液滴からなる完全な部分のビルドプロセスをシミュレートする際に、極めて高価になる。 ニューラルネットワーク (NN) や k-nearest neighbor (kNN) アルゴリズムに基づく低次モデル (ROM) が、元の物理学ベースの解法を置き換えるために構築され、部分レベルのシミュレーションのために計算的に抽出可能である。 しかし、それらの迅速な推論能力は、しばしば正確性、堅牢性、一般化性を犠牲にしている。 我々は, 高速かつ高精度な部分規模ビルドシミュレーションを実現するために, 液滴合体プロセスの初期状態と最終状態のマッピングを演算子学習(OL)アプローチで学習する。 予備的な結果は、OLはkNNアプローチよりもデータポイントのオーダーオブマグニチュードを少なくし、類似の予測誤差を達成しつつトレーニングセットを超えて一般化可能であることを示唆している。

Predicting part quality for additive manufacturing (AM) processes requires high-fidelity numerical simulation of partial differential equations (PDEs) governing process multiphysics on a scale of minimum manufacturable features. This makes part-scale predictions computationally demanding, especially when they require many small-scale simulations. We consider drop-on-demand liquid metal jetting (LMJ) as an illustrative example of such computational complexity. A model describing droplet coalescence for LMJ may include coupled incompressible fluid flow, heat transfer, and phase change equations. Numerically solving these equations becomes prohibitively expensive when simulating the build process for a full part consisting of thousands to millions of droplets. Reduced-order models (ROMs) based on neural networks (NN) or k-nearest neighbor (kNN) algorithms have been built to replace the original physics-based solver and are computationally tractable for part-level simulations. However, their quick inference capabilities often come at the expense of accuracy, robustness, and generalizability. We apply an operator learning (OL) approach to learn a mapping between initial and final states of the droplet coalescence process for enabling rapid and accurate part-scale build simulation. Preliminary results suggest that OL requires order-of-magnitude fewer data points than a kNN approach and is generalizable beyond the training set while achieving similar prediction error.
翻訳日:2022-02-13 22:52:30 公開日:2022-02-02
# (参考訳) 畳み込みニューラルネットワークを用いた人間の活動認識:アートレビュー,データセット,課題,今後の展望

Human Activity Recognition Using Tools of Convolutional Neural Networks: A State of the Art Review, Data Sets, Challenges and Future Prospects ( http://arxiv.org/abs/2202.03274v1 )

ライセンス: CC BY 4.0
Md. Milon Islam, Sheikh Nooruddin, Fakhri Karray, Ghulam Muhammad(参考訳) HAR(Human Activity Recognition)は、ウェアラブルや固定デバイスから人間の活動に関する高度な情報を学ぶ能力から、人々の日常生活において重要な役割を担っている。 harではかなりの量の研究が行われており、深層学習と機械学習に基づく多くのアプローチが研究コミュニティによって人間の活動の分類に利用されている。 このレビューの主な目的は、人間の活動認識のための幅広いディープニューラルネットワークアーキテクチャ、すなわち畳み込みニューラルネットワーク(CNN)に基づく最近の研究を要約することである。 レビューされたシステムは、マルチモーダルセンシングデバイス、スマートフォン、レーダー、ビジョンデバイスなどの入力デバイスの使用によって、4つのカテゴリに分類される。 本稿では,各レビューシステムの性能,強度,弱点,使用済みのCNNアーキテクチャのハイパーパラメータについて概説する。 さらに、CNNベースのHARシステムに対する現在の課題についても論じる。 最後に、このレビューは、この分野に貢献したい研究者にとって大きな助けとなるかもしれない将来的な方向性で締めくくられる。

Human Activity Recognition (HAR) plays a significant role in the everyday life of people because of its ability to learn extensive high-level information about human activity from wearable or stationary devices. A substantial amount of research has been conducted on HAR and numerous approaches based on deep learning and machine learning have been exploited by the research community to classify human activities. The main goal of this review is to summarize recent works based on a wide range of deep neural networks architecture, namely convolutional neural networks (CNNs) for human activity recognition. The reviewed systems are clustered into four categories depending on the use of input devices like multimodal sensing devices, smartphones, radar, and vision devices. This review describes the performances, strengths, weaknesses, and the used hyperparameters of CNN architectures for each reviewed system with an overview of available public data sources. In addition, a discussion with the current challenges to CNN-based HAR systems is presented. Finally, this review is concluded with some potential future directions that would be of great assistance for the researchers who would like to contribute to this field.
翻訳日:2022-02-13 22:43:12 公開日:2022-02-02
# 機械学習モデルと意思決定支援ツールの統合による勤労者の欠勤予測

Integration of a machine learning model into a decision support tool to predict absenteeism at work of prospective employees ( http://arxiv.org/abs/2202.03577v1 )

ライセンス: Link先を確認
Gopal Nath, Antoine Harfouche, Austin Coursey, Krishna K. Saha, Srikanth Prabhu, Saptarshi Sengupta(参考訳) 目的 - 不効率な雇用は生産性が低下し、トレーニングコストが高くなる可能性がある。 失業による生産性の低下は、アメリカの雇用主が毎年何十億ドルもの損失を被った。 また、雇用主は通常、業績の悪い従業員を管理するためにかなりの時間を費やします。 本研究の目的は,潜在社員の欠席を予測できる意思決定支援ツールを開発することである。 設計/方法論/アプローチ - 人気のあるオープンアクセスデータセットを利用した。 欠席クラスを分類するために、データは前処理され、MLR(Multinomial Logistic Regression)、SVM(Support Vector Machines)、ANN(Artificial Neural Networks)、RF(Random Forests)の4つの機械学習分類が適用された。 私たちは、いくつかのバリデーションスコアに基づいて、最高のモデルを選択し、そのパフォーマンスを既存のモデルと比較しました。 Findings - ウェブベースの意思決定ツールにより、潜在的な従業員を雇う前に、採用マネージャがより情報的な決定を下すことができる。 独創性/価値 - 本稿では、採用プロセス中に収集可能な属性に基づいてトレーニングされるモデルを提案する。 さらに、採用マネージャは機械学習の経験がない場合や、機械学習アルゴリズムを開発する時間がない場合もあります。 そこで本稿では,機械学習アルゴリズムの知識を必要とせず,Webベースの対話型ツールを提案する。

Purpose - Inefficient hiring may result in lower productivity and higher training costs. Productivity losses caused by absenteeism at work cost U.S. employers billions of dollars each year. Also, employers typically spend a considerable amount of time managing employees who perform poorly. The purpose of this study is to develop a decision support tool to predict absenteeism among potential employees. Design/methodology/approach - We utilized a popular open-access dataset. In order to categorize absenteeism classes, the data have been preprocessed, and four methods of machine learning classification have been applied: Multinomial Logistic Regression (MLR), Support Vector Machines (SVM), Artificial Neural Networks (ANN), and Random Forests (RF). We selected the best model, based on several validation scores, and compared its performance against the existing model; we then integrated the best model into our proposed web-based for hiring managers. Findings - A web-based decision tool allows hiring managers to make more informed decisions before hiring a potential employee, thus reducing time, financial loss and reducing the probability of economic insolvency. Originality/value - In this paper, we propose a model that is trained based on attributes that can be collected during the hiring process. Furthermore, hiring managers may lack experience in machine learning or do not have the time to spend developing machine learning algorithms. Thus, we propose a web-based interactive tool that can be used without prior knowledge of machine learning algorithms.
翻訳日:2022-02-13 14:28:02 公開日:2022-02-02
# 計算言語モデルを用いた求職者の文脈認識識別

Context-Aware Discrimination Detection in Job Vacancies using Computational Language Models ( http://arxiv.org/abs/2202.03907v1 )

ライセンス: Link先を確認
S. Vethman, A. Adhikari, M. H. T. de Boer, J. A. G. M. van Genabeek, C. J. Veenman(参考訳) 差別的な職種は世界中で認められていないが、継続している。 雇用機会の差別は、候補者の人口構成員を直接参照することで明確化することができる。 より暗黙的な差別も存在し、常に違法であるとは限らないが、それでも応募者の多様性に影響を与えている。 オランダで最近観察されたように、明確に書かれた差別は依然として多くの職種に存在している。 明示的な差別の検出に向けた現在の取り組みは、"young"や"male"のような潜在的に識別可能な用語を含む仕事の空白の識別に関するものである。 しかし、自動検出は低い精度で非効率である:例えば、「我々は若い会社だ」とか「主に男性患者と仕事をしている」といった単語は、明示的な用語を含む言葉であり、文脈はこれらが差別的内容を反映していないことを示している。 本稿では、機械学習に基づく計算言語モデルが、識別文脈において、潜在的に識別される単語がいつ使われるかを特定することによって、明示的識別の検出において精度を高める方法を示す。 我々は、明示的な用語をフィルタリングする場合の精度が低下する性差別に焦点を当てている。 まず、職種別性別差別のためのデータセットを作成しました。 次に,識別文脈検出のための様々な計算言語モデルについて検討した。 第3に,これらのモデルの文脈における予期せぬ識別項の検出能力を評価した。 その結果, 機械学習に基づく手法は, 明瞭な性別識別を高精度に検出し, 新たな差別形態の発見に有効であることが示唆された。 したがって,提案手法は,差別性が高いと思われるジョブ空洞の検出効果を実質的に高めることができる。 これにより、採用プロセスの開始時に経験される差別が低下する可能性がある。

Discriminatory job vacancies are disapproved worldwide, but remain persistent. Discrimination in job vacancies can be explicit by directly referring to demographic memberships of candidates. More implicit forms of discrimination are also present that may not always be illegal but still influence the diversity of applicants. Explicit written discrimination is still present in numerous job vacancies, as was recently observed in the Netherlands. Current efforts for the detection of explicit discrimination concern the identification of job vacancies containing potentially discriminating terms such as "young" or "male". However, automatic detection is inefficient due to low precision: e.g. "we are a young company" or "working with mostly male patients" are phrases that contain explicit terms, while the context shows that these do not reflect discriminatory content. In this paper, we show how machine learning based computational language models can raise precision in the detection of explicit discrimination by identifying when the potentially discriminating terms are used in a discriminatory context. We focus on gender discrimination, which indeed suffers from low precision when filtering explicit terms. First, we created a data set for gender discrimination in job vacancies. Second, we investigated a variety of computational language models for discriminatory context detection. Third, we evaluated the capability of these models to detect unforeseen discriminating terms in context. The results show that machine learning based methods can detect explicit gender discrimination with high precision and help in finding new forms of discrimination. Accordingly, the proposed methods can substantially increase the effectiveness of detecting job vacancies which are highly suspected to be discriminatory. In turn, this may lower the discrimination experienced at the start of the recruitment process.
翻訳日:2022-02-13 14:27:40 公開日:2022-02-02
# (参考訳) AtmoDist:大気力学のための自己教師型表現学習

AtmoDist: Self-supervised Representation Learning for Atmospheric Dynamics ( http://arxiv.org/abs/2202.01897v1 )

ライセンス: CC BY 4.0
Sebastian Hoffmann and Christian Lessig(参考訳) 表現学習は、幅広い機械学習アプリケーションにおいて強力な方法論であることが証明されている。 しかし、大気力学については、おそらく訓練に使用できる大規模なラベル付きデータセットが不足しているため、これまで検討されていない。 本研究では,この難易度が良性であることを示し,多種多様な大気データセットの分類的損失を定義する自己教師型学習タスクを導入する。 具体的には、風場の構成要素などの大気場間の時間的距離を、異なるが近くの時間から予測する単純な複雑なタスクでニューラルネットワークを訓練する。 この単純さにもかかわらず、ニューラルネットワークは、大気力学の本質的な側面を捉える内部表現を開発する場合にのみ、優れた予測を提供する。 era5の再分析から得られた表現に基づいて、大気状態のデータ駆動距離メトリックを導入することで、これを実証する。 ダウンスケーリングの損失関数として採用すると、このアモディスト距離は、l2-lossに基づいて真の統計値とより密接に一致し、局所的な振る舞いがより現実的になるダウンスケールフィールドへとつながる。 これは観測データに由来するため、大気の予測可能性に関する新しい視点も提供する。

Representation learning has proven to be a powerful methodology in a wide variety of machine learning applications. For atmospheric dynamics, however, it has so far not been considered, arguably due to the lack of large-scale, labeled datasets that could be used for training. In this work, we show that the difficulty is benign and introduce a self-supervised learning task that defines a categorical loss for a wide variety of unlabeled atmospheric datasets. Specifically, we train a neural network on the simple yet intricate task of predicting the temporal distance between atmospheric fields, e.g. the components of the wind field, from distinct but nearby times. Despite this simplicity, a neural network will provide good predictions only when it develops an internal representation that captures intrinsic aspects of atmospheric dynamics. We demonstrate this by introducing a data-driven distance metric for atmospheric states based on representations learned from ERA5 reanalysis. When employ as a loss function for downscaling, this Atmodist distance leads to downscaled fields that match the true statistics more closely than the previous state-of-the-art based on an l2-loss and whose local behavior is more realistic. Since it is derived from observational data, AtmoDist also provides a novel perspective on atmospheric predictability.
翻訳日:2022-02-08 04:08:31 公開日:2022-02-02
# 非弁膜性心房細動患者における脳卒中および出血リスク予測のための多ラベル機械学習モデルとリスク階層化スキーマの性能

Performance of multilabel machine learning models and risk stratification schemas for predicting stroke and bleeding risk in patients with non-valvular atrial fibrillation ( http://arxiv.org/abs/2202.01975v1 )

ライセンス: Link先を確認
Juan Lu, Rebecca Hutchens, Joseph Hung, Mohammed Bennamoun, Brendan McQuillan, Tom Briffa, Ferdous Sohel, Kevin Murray, Jonathon Stewart, Benjamin Chow, Frank Sanfilippo, Girish Dwivedi(参考訳) 心房細動(AF)に対する適切な抗血栓療法には虚血性脳梗塞と出血リスクの評価が必要である。 しかし、CHA2DS2-VAScやHAS-BLEDのようなリスク階層化スキーマは、AF患者にとって控えめな予測能力を有する。 機械学習(ML)技術は、予測性能を改善し、適切な抗血栓療法のための意思決定を支援する。 我々は,多ラベルMLモデルの性能と現在使用されているリスクスコアを比較し,AF患者の予後を予測する。 資料と方法 9670例,平均年齢76.9歳,女性46%,非弁膜性afで入院し,1年間の経過観察を行った。 初診時より虚血性脳梗塞と大量出血を認めた。 第2の結果は死と無事象生存が原因であった。 mlモデルの識別力と臨床リスクスコアを曲線下の領域(auc)で比較した。 リスク階層化はnet reclassification indexを用いて評価された。 結果 マルチラベル勾配押し上げ機は,他のMLモデルと比較して,脳卒中,大出血,死亡(AUC=0.685,0.709,0.765)の識別力に優れていた。 CHA2DS2-VASc (AUC = 0.652) に比べ、ストロークの適度な性能向上を実現したが、HAS-BLED (AUC = 0.522) に比べて大きな出血予測が大幅に改善した。 また、CHA2DS2-VASc(AUC = 0.606)と比較すると、死に対する識別力もかなり高かった。 また、モデルでは、それぞれの結果に対して追加のリスク特徴(ヘモグロビンレベル、腎機能など)を同定した。 結論 マルチラベルmlモデルは,非弁膜性af患者の大量出血と死亡のリスクを予測するために,臨床リスク階層化スコアを上回ることができる。

Appropriate antithrombotic therapy for patients with atrial fibrillation (AF) requires assessment of ischemic stroke and bleeding risks. However, risk stratification schemas such as CHA2DS2-VASc and HAS-BLED have modest predictive capacity for patients with AF. Machine learning (ML) techniques may improve predictive performance and support decision-making for appropriate antithrombotic therapy. We compared the performance of multilabel ML models with the currently used risk scores for predicting outcomes in AF patients. Materials and Methods This was a retrospective cohort study of 9670 patients, mean age 76.9 years, 46% women, who were hospitalized with non-valvular AF, and had 1-year follow-up. The primary outcome was ischemic stroke and major bleeding admission. The secondary outcomes were all-cause death and event-free survival. The discriminant power of ML models was compared with clinical risk scores by the area under the curve (AUC). Risk stratification was assessed using the net reclassification index. Results Multilabel gradient boosting machine provided the best discriminant power for stroke, major bleeding, and death (AUC = 0.685, 0.709, and 0.765 respectively) compared to other ML models. It provided modest performance improvement for stroke compared to CHA2DS2-VASc (AUC = 0.652), but significantly improved major bleeding prediction compared to HAS-BLED (AUC = 0.522). It also had a much greater discriminant power for death compared with CHA2DS2-VASc (AUC = 0.606). Also, models identified additional risk features (such as hemoglobin level, renal function, etc.) for each outcome. Conclusions Multilabel ML models can outperform clinical risk stratification scores for predicting the risk of major bleeding and death in non-valvular AF patients.
翻訳日:2022-02-07 16:08:56 公開日:2022-02-02
# DeepQMLP: 分類のためのスケーラブルな量子古典ハイブリッドニューラルネットワークアーキテクチャ

DeepQMLP: A Scalable Quantum-Classical Hybrid DeepNeural Network Architecture for Classification ( http://arxiv.org/abs/2202.01899v1 )

ライセンス: Link先を確認
Mahabubul Alam, Swaroop Ghosh(参考訳) 量子機械学習(QML)は、従来の機械学習(ML)タスク(例えば分類/回帰)の潜在的なスピードアップと改善を約束している。 理想的なQMLモデルの探索は、活発な研究分野である。 これには、効率的な古典-量子データ符号化方式の同定、最適な表現性と絡み合いを持つパラメトリック量子回路(PQC)の構築、必要な測定数を最小限に抑えるための効率的な出力復号方式などが含まれる。 しかし、実証的/数値的な研究のほとんどはスケーラビリティへの明確な道のりを欠いている。 シミュレーション環境で見られるあらゆる潜在的な利益は、ノイズの多い量子ハードウェア(デコヒーレンス、ゲートエラー、クロストークなど)の制限により、実用的な応用において減少する可能性がある。 古典的ディープニューラルネットワークアーキテクチャに触発されたスケーラブルな量子古典型ハイブリッドディープニューラルネットワーク(deepqmlp)アーキテクチャを提案する。 DeepQMLPでは、スタックされた浅い量子ニューラルネットワーク(QNN)モデルが、古典的なフィードフォワード多層パーセプトロンネットワークの隠れた層を模倣している。 各QNN層は、次の層に対する入力データの新しい、潜在的にリッチな表現を生成する。 この新しい表現は回路のパラメータによって調整できる。 浅度のQNNモデルでは、デコヒーレンスやゲートエラーなどが少なくなり、量子ノイズに対する耐性が向上する(およびネットワーク)。 本稿では,deepqmlpのトレーサビリティを示すために,分類問題に関する数値的研究を行う。 また、DeepQMLPは、未確認データに対して合理的に良好に動作し、深い量子回路を使用するQNNモデルよりも高い耐雑音性を示すことを示す。 DeepQMLPは、QMLPよりもノイズ下での推論において最大25.3%の損失と7.92%の精度を与えた。

Quantum machine learning (QML) is promising for potential speedups and improvements in conventional machine learning (ML) tasks (e.g., classification/regression). The search for ideal QML models is an active research field. This includes identification of efficient classical-to-quantum data encoding scheme, construction of parametric quantum circuits (PQC) with optimal expressivity and entanglement capability, and efficient output decoding scheme to minimize the required number of measurements, to name a few. However, most of the empirical/numerical studies lack a clear path towards scalability. Any potential benefit observed in a simulated environment may diminish in practical applications due to the limitations of noisy quantum hardware (e.g., under decoherence, gate-errors, and crosstalk). We present a scalable quantum-classical hybrid deep neural network (DeepQMLP) architecture inspired by classical deep neural network architectures. In DeepQMLP, stacked shallow Quantum Neural Network (QNN) models mimic the hidden layers of a classical feed-forward multi-layer perceptron network. Each QNN layer produces a new and potentially rich representation of the input data for the next layer. This new representation can be tuned by the parameters of the circuit. Shallow QNN models experience less decoherence, gate errors, etc. which make them (and the network) more resilient to quantum noise. We present numerical studies on a variety of classification problems to show the trainability of DeepQMLP. We also show that DeepQMLP performs reasonably well on unseen data and exhibits greater resilience to noise over QNN models that use a deep quantum circuit. DeepQMLP provided up to 25.3% lower loss and 7.92% higher accuracy during inference under noise than QMLP.
翻訳日:2022-02-07 16:02:33 公開日:2022-02-02
# Yordle: ブランチとバウンドのための効果的な模倣学習

Yordle: An Efficient Imitation Learning for Branch and Bound ( http://arxiv.org/abs/2202.01896v1 )

ライセンス: Link先を確認
Qingyu Qu, Xijun Li and Yunfan Zhou(参考訳) 組合せ最適化の問題は、その膨大な応用可能性のために、幅広い研究の関心を喚起している。 実際には、組合せ最適化問題を解く際に、非常に冗長なパターンと特徴があり、機械学習モデルで捉えることができる。 そこで,2021年のNeurIPS Machine Learning for Combinatorial Optimization(ML4CO)コンペティションは,キーヒューリスティックなコンポーネントを機械学習技術に置き換えることで,最先端の組合せ最適化問題を改善することを目的としている。 この研究は、チームqqyがコンペティションの2つのタスクで得たソリューションと洞察を示します。 我々のソリューションは、ブランチ・アンド・バウンド(B&B)のパフォーマンス改善のための、非常に効率的な模倣学習フレームワークである。 モデル学習を加速するだけでなく、分岐変数選択時の判定品質を向上させるハイブリッドサンプリング法と効率的なデータ選択法を用いる。 我々の実験では、Yordleは、決定モデルをトレーニングする時間とデータの量を大幅に削減しながら、競争によって採用されるベースラインアルゴリズムを大幅に上回っている。 具体的には,ベースラインアルゴリズムと比較してデータ量が1/4に過ぎず,ベースラインアルゴリズムよりも約50%高いスコアが得られる。 提案されたフレームワークであるyordleは、学生リーダーボードのチャンピオンシップを獲得した。

Combinatorial optimization problems have aroused extensive research interests due to its huge application potential. In practice, there are highly redundant patterns and characteristics during solving the combinatorial optimization problem, which can be captured by machine learning models. Thus, the 2021 NeurIPS Machine Learning for Combinatorial Optimization (ML4CO) competition is proposed with the goal of improving state-of-the-art combinatorial optimization solvers by replacing key heuristic components with machine learning techniques. This work presents our solution and insights gained by team qqy in the dual task of the competition. Our solution is a highly efficient imitation learning framework for performance improvement of Branch and Bound (B&B), named Yordle. It employs a hybrid sampling method and an efficient data selection method, which not only accelerates the model training but also improves the decision quality during branching variable selection. In our experiments, Yordle greatly outperforms the baseline algorithm adopted by the competition while requiring significantly less time and amounts of data to train the decision model. Specifically, we use only 1/4 of the amount of data compared to that required for the baseline algorithm, to achieve around 50% higher score than baseline algorithm. The proposed framework Yordle won the championship of the student leaderboard.
翻訳日:2022-02-07 15:13:08 公開日:2022-02-02
# 第10回教育用ソフトウェアの定理証明コンポーネントに関する国際ワークショップ

Proceedings 10th International Workshop on Theorem Proving Components for Educational Software ( http://arxiv.org/abs/2202.02144v1 )

ライセンス: Link先を確認
Jo\~ao Marcos (Federal University of Rio Grande do Norte, Brazil), Walther Neuper (TUG University of Technology, Austria), Pedro Quaresma (University of Coimbra, Portugal)(参考訳) このEPTCSの巻には2021年7月11日にCADE-28の衛星イベントとして宣伝されたThEdu'21ワークショップの手続きが含まれている。 新型コロナウイルス(COVID-19)のパンデミックにより、CADE-28とその共同開催イベントは仮想イベントとして発生した。 ThEdu'21は活気あるワークショップであり、Giles Dowek (ENS Paris-Saclay) による招待講演、11のコントリビューション、1つのデモが行われた。 ワークショップの後、公募が発行され、10件の提出書が寄せられ、そのうち7件が審査員によって受理され、現在の受注後巻にまとめられた。 セドゥ級数(Thedu series)は、中等教育における数学の直感的な方法から、STEM教育におけるより形式的なアプローチへのスムーズな移行を追求し、定理証明技術の力を活用して、この移行に対するソフトウェアサポートを好んでいる。 巻の編集者は、この論文集が、定理証明ベースのソフトウェアの開発をさらに促進し、コンピュータ科学者、数学者および教育ステークホルダー間の相互理解の改善に協力することを望んでいる。

This EPTCS volume contains the proceedings of the ThEdu'21 workshop, promoted on 11 July 2021, as a satellite event of CADE-28. Due to the COVID-19 pandemic, CADE-28 and all its co-located events happened as virtual events. ThEdu'21 was a vibrant workshop, with an invited talk by Gilles Dowek (ENS Paris-Saclay), eleven contributions, and one demonstration. After the workshop an open call for papers was issued and attracted 10 submissions, 7 of which have been accepted by the reviewers, and collected in the present post-proceedings volume. The ThEdu series pursues the smooth transition from an intuitive way of doing mathematics at secondary school to a more formal approach to the subject in STEM education, while favouring software support for this transition by exploiting the power of theorem-proving technologies. The volume editors hope that this collection of papers will further promote the development of theorem-proving based software, and that it will collaborate on improving mutual understanding between computer scientists, mathematicians and stakeholders in education.
翻訳日:2022-02-07 15:12:02 公開日:2022-02-02
# (参考訳) データおよび機械学習アルゴリズムにおける人種バイアスのユーザ説得性と差別的意思決定に及ぼす影響:実証的研究

Causal effect of racial bias in data and machine learning algorithms on user persuasiveness & discriminatory decision making: An Empirical Study ( http://arxiv.org/abs/2202.00471v2 )

ライセンス: CC BY 4.0
Kinshuk Sengupta and Praveen Ranjan Srivastava(参考訳) 言語データとモデルは、民族、宗教、ジェンダー、社会経済など、様々な種類の偏見を示している。 AI/NLPモデルは、人種的に偏ったデータセットに基づいてトレーニングされると、モデル説明可能性の低下、意思決定時のユーザエクスペリエンスへの影響、社会的バイアスの増大、社会に深い倫理的影響をもたらす。 この研究の動機は、aiシステムがデータからバイアスを逸脱させ、説明不能な差別的結果を生み出し、データセットに人種的バイアスの特徴が存在することによる個人のシステム結果の明瞭さに影響を与えることにある。 実験の設計は、言語データセットに存在する人種バイアスの特徴の反事実的影響と、そのモデル結果に対する影響を研究することを含む。 混合研究手法を用いて、偏見モデルの結果がユーザ体験、制御実験による意思決定に与える影響を横断的に調査する。 この結果は、データセットに示される偏りのある概念により、NLPタスクを解決する人工知能モデルが持つ意味に関する基礎的なサポートを提供する。 さらに、研究成果は、行動するモデル結果に頼ろうとする際の個人の意思決定基準を変える原因となるユーザの説得力に対する否定的な影響を正当化する。 この論文は、不平等なシステム設計による顧客の信頼性の低下によって引き起こされる損害のギャップを埋め、研究者、政策立案者、データサイエンティストが組織内で責任あるAIフレームワークを構築するための強力な支援を提供する。

Language data and models demonstrate various types of bias, be it ethnic, religious, gender, or socioeconomic. AI/NLP models, when trained on the racially biased dataset, AI/NLP models instigate poor model explainability, influence user experience during decision making and thus further magnifies societal biases, raising profound ethical implications for society. The motivation of the study is to investigate how AI systems imbibe bias from data and produce unexplainable discriminatory outcomes and influence an individual's articulateness of system outcome due to the presence of racial bias features in datasets. The design of the experiment involves studying the counterfactual impact of racial bias features present in language datasets and its associated effect on the model outcome. A mixed research methodology is adopted to investigate the cross implication of biased model outcome on user experience, effect on decision-making through controlled lab experimentation. The findings provide foundation support for correlating the implication of carry-over an artificial intelligence model solving NLP task due to biased concept presented in the dataset. Further, the research outcomes justify the negative influence on users' persuasiveness that leads to alter the decision-making quotient of an individual when trying to rely on the model outcome to act. The paper bridges the gap across the harm caused in establishing poor customer trustworthiness due to an inequitable system design and provides strong support for researchers, policymakers, and data scientists to build responsible AI frameworks within organizations.
翻訳日:2022-02-06 10:06:01 公開日:2022-02-02
# 有毒音声検出におけるバイアスの取り扱い:調査

Handling Bias in Toxic Speech Detection: A Survey ( http://arxiv.org/abs/2202.00126v2 )

ライセンス: Link先を確認
Tanmay Garg, Sarah Masud, Tharun Suresh, Tanmoy Chakraborty(参考訳) ソーシャルメディア利用の膨大な増加は、ヘイトスピーチ、虐待的投稿、サイバーいじめなどのチームのオンライン毒性の津波を目撃している。 オンライン毒性の検出は、その本質的な主観性から困難である。 言論の文脈、地理、社会政治の気候、ポストのプロデューサーや消費者の背景といった要因は、コンテンツが有毒であるかどうかを決定する上で重要な役割を果たす。 自動毒性検出モデルが生産に採用されると、彼らが最初に支援しようとしている様々な人口層や心理病集団の側面に繋がる可能性がある。 意図しないバイアスとその緩和を調べる研究者の関心を遠ざけている。 作品の鮮やかな多面的な性質から、完全な文学はその用語、技法、発見においてカオス的である。 本稿では,既存の手法の限界と課題を議論するために,体系的な研究を行った。 まず、様々な意図しないバイアスを分類する分類法と、これらのバイアスを定量化するために提案される評価指標のスイートを開発する。 有毒音声検出におけるバイアスの評価と軽減のための提案手法について検討した。 また,既存の手法の限界を検討するために,知識に基づくバイアス緩和手法によるバイアスシフトの概念を導入するケーススタディを実施している。 調査結果は、重要な課題、研究のギャップ、今後の方向性の概要で締めくくる。 オンラインプラットフォームにおける毒性の低減は研究の活発な領域であり続けているが、様々なバイアスとその緩和戦略の体系的研究は、研究コミュニティが堅牢で公正なモデルを作成するのに役立つだろう。

The massive growth of social media usage has witnessed a tsunami of online toxicity in teams of hate speech, abusive posts, cyberbullying, etc. Detecting online toxicity is challenging due to its inherent subjectivity. Factors such as the context of the speech, geography, socio-political climate, and background of the producers and consumers of the posts play a crucial role in determining if the content can be flagged as toxic. Adoption of automated toxicity detection models in production can lead to a sidelining of the various demographic and psychographic groups they aim to help in the first place. It has piqued researchers' interest in examining unintended biases and their mitigation. Due to the nascent and multi-faceted nature of the work, complete literature is chaotic in its terminologies, techniques, and findings. In this paper, we put together a systematic study to discuss the limitations and challenges of existing methods. We start by developing a taxonomy for categorising various unintended biases and a suite of evaluation metrics proposed to quantify such biases. We take a closer look at each proposed method for evaluating and mitigating bias in toxic speech detection. To examine the limitations of existing methods, we also conduct a case study to introduce the concept of bias shift due to knowledge-based bias mitigation methods. The survey concludes with an overview of the critical challenges, research gaps and future directions. While reducing toxicity on online platforms continues to be an active area of research, a systematic study of various biases and their mitigation strategies will help the research community produce robust and fair models.
翻訳日:2022-02-06 08:32:50 公開日:2022-02-02
# (参考訳) 自己教師型音声感情認識のための話者正規化

Speaker Normalization for Self-supervised Speech Emotion Recognition ( http://arxiv.org/abs/2202.01252v1 )

ライセンス: CC BY 4.0
Itai Gat, Hagai Aronowitz, Weizhong Zhu, Edmilson Morais, Ron Hoory(参考訳) 大きな音声感情認識データセットは入手が困難であり、小さなデータセットにはバイアスが含まれる可能性がある。 ディープネットベースの分類器は、そのバイアスを利用して話者特性などのショートカットを見つける傾向にある。 これらのショートカットは通常、モデルの一般化能力を損なう。 この課題に対処するために,特徴表現から話者特性を正規化しつつ,音声感情認識タスクを学習する勾配に基づく逆学習フレームワークを提案する。 提案手法は話者に依存しない設定と話者に依存しない設定の両方において有効であることを示すとともに,難易度の高いIEMOCAPデータセットに対する新しい最先端結果を得る。

Large speech emotion recognition datasets are hard to obtain, and small datasets may contain biases. Deep-net-based classifiers, in turn, are prone to exploit those biases and find shortcuts such as speaker characteristics. These shortcuts usually harm a model's ability to generalize. To address this challenge, we propose a gradient-based adversary learning framework that learns a speech emotion recognition task while normalizing speaker characteristics from the feature representation. We demonstrate the efficacy of our method on both speaker-independent and speaker-dependent settings and obtain new state-of-the-art results on the challenging IEMOCAP dataset.
翻訳日:2022-02-05 05:37:49 公開日:2022-02-02
# (参考訳) グローバル最適化ネットワーク

Global Optimization Networks ( http://arxiv.org/abs/2202.01277v1 )

ライセンス: CC BY 4.0
Sen Zhao, Erez Louidor, Olexander Mangylov, Maya Gupta(参考訳) ノイズのある例として、ブラックボックス関数のよい最大値推定の問題を考える。 このような問題を解決するために,可逆関数とユニモーダル関数の任意の合成として定義される大域最適化ネットワーク (gon) と呼ばれる新しいタイプの関数に適合し,一意的な大域的最大化器を$\mathcal{o}(d)$ time で推定する。 本稿では,格子モデルに対する線形不等式制約を用いて,可逆関数と不斉関数を構築する方法を示す。 また、他の次元の特定の入力に条件付き大域的最大値を求める「emph{conditional} GON」にも拡張する。 実験により、GON最大化器は凸フィット、GPR、DNNによって生成されるものよりも統計的にかなり良い予測であり、現実世界の問題に対してより合理的な予測であることが示された。

We consider the problem of estimating a good maximizer of a black-box function given noisy examples. To solve such problems, we propose to fit a new type of function which we call a global optimization network (GON), defined as any composition of an invertible function and a unimodal function, whose unique global maximizer can be inferred in $\mathcal{O}(D)$ time. In this paper, we show how to construct invertible and unimodal functions by using linear inequality constraints on lattice models. We also extend to \emph{conditional} GONs that find a global maximizer conditioned on specified inputs of other dimensions. Experiments show the GON maximizers are statistically significantly better predictions than those produced by convex fits, GPR, or DNNs, and are more reasonable predictions for real-world problems.
翻訳日:2022-02-05 05:28:35 公開日:2022-02-02
# (参考訳) スパースニューラルネットワークのサイクルプルーニング

Cyclical Pruning for Sparse Neural Networks ( http://arxiv.org/abs/2202.01290v1 )

ライセンス: CC BY 4.0
Suraj Srinivas, Andrey Kuzmin, Markus Nagel, Mart van Baalen, Andrii Skliar, Tijmen Blankevoort(参考訳) 現在のニューラルネットワーク重み付けの方法は、モデル重み付けにマグニチュードベースのプルーニングを反復的に適用し、結果として得られたモデルを再訓練し、失われた精度を回復する。 本研究では,このような戦略は,不当に刈り取った重みの回復を許さないことを示す。 重み回復を可能にするために, 周期的な平滑化スケジュールが必要であり, 1サイクルで不規則に重みを刈り取ることで, 後続の周期を回復できる, \textit{cyclical pruning} という単純な戦略を提案する。 線形モデルと大規模深層ニューラルネットワークの両方の実験結果は、循環的刈り取りが既存の刈り取りアルゴリズム、特に高いスパース率よりも優れていることを示している。 私たちのアプローチはチューニングが容易で、パフォーマンスを向上させるために既存のpruningパイプラインに簡単に組み込むことができます。

Current methods for pruning neural network weights iteratively apply magnitude-based pruning on the model weights and re-train the resulting model to recover lost accuracy. In this work, we show that such strategies do not allow for the recovery of erroneously pruned weights. To enable weight recovery, we propose a simple strategy called \textit{cyclical pruning} which requires the pruning schedule to be periodic and allows for weights pruned erroneously in one cycle to recover in subsequent ones. Experimental results on both linear models and large-scale deep neural networks show that cyclical pruning outperforms existing pruning algorithms, especially at high sparsity ratios. Our approach is easy to tune and can be readily incorporated into existing pruning pipelines to boost performance.
翻訳日:2022-02-05 05:26:44 公開日:2022-02-02
# (参考訳) 時間相関雑音下における因果模倣学習

Causal Imitation Learning under Temporally Correlated Noise ( http://arxiv.org/abs/2202.01312v1 )

ライセンス: CC BY-SA 4.0
Gokul Swamy, Sanjiban Choudhury, J. Andrew Bagnell, Zhiwei Steven Wu(参考訳) 専門家行動における時間的相関雑音によって損なわれた政策データから模倣学習を行うアルゴリズムを開発した。 ノイズが記録されたデータの複数の時間ステップに影響を及ぼすと、学習者がラッチする可能性のある状態と行動の間のスプリアス相関として現れ、政策パフォーマンスが低下する。 これらのスプリアス相関を分割するために、econometricsのインストゥルメンタル変数回帰(ivr)手法の現代的な変種を適用し、インタラクティブな専門家にアクセスすることなく、基盤となるポリシーを復元できる。 特に,シミュレータへのアクセスを利用可能な生成モデルフレーバー(DoubIL)と,完全にオフラインで実行できるゲーム理論フレーバー(ResiduIL)の2つの手法を提案する。 両アルゴリズムは, シミュレーション制御タスクにおける行動クローニングと良好に比較できる。

We develop algorithms for imitation learning from policy data that was corrupted by temporally correlated noise in expert actions. When noise affects multiple timesteps of recorded data, it can manifest as spurious correlations between states and actions that a learner might latch on to, leading to poor policy performance. To break up these spurious correlations, we apply modern variants of the instrumental variable regression (IVR) technique of econometrics, enabling us to recover the underlying policy without requiring access to an interactive expert. In particular, we present two techniques, one of a generative-modeling flavor (DoubIL) that can utilize access to a simulator, and one of a game-theoretic flavor (ResiduIL) that can be run entirely offline. We find both of our algorithms compare favorably to behavioral cloning on simulated control tasks.
翻訳日:2022-02-05 05:08:00 公開日:2022-02-02
# (参考訳) 影響関数による大規模コンフォーマル予測の近似

Approximating Full Conformal Prediction at Scale via Influence Functions ( http://arxiv.org/abs/2202.01315v1 )

ライセンス: CC BY 4.0
Javier Abad, Umang Bhatt, Adrian Weller and Giovanni Cherubin(参考訳) 分類問題では、選択された意味レベル$\varepsilon$に対して、CPは、基礎となるモデルが不特定であるかどうかに関わらず、エラーの数が最大$\varepsilon$であることを保証する。 しかし、完全なCPの計算コストの禁止により、研究者はスケーラブルな代替案を設計した。 本稿では,影響関数を用いて全cpを効率的に近似する。 この方法は完全なcpの一貫した近似であることが証明され、トレーニングセットが増加するにつれて近似誤差が小さくなることを実証的に示す。例えば、10^{3}$トレーニングポイントの場合、2つのメソッドは$<10^{-3}$ apartであるp値を出力する。 提案手法により,大規模な実世界のデータセットに完全なCPを拡張できる。 そこで本研究では,本手法が計算的競争力を持ちながら,全CPの統計的予測力を享受しながら,全CP近似 ACP を主流のCP代替品と比較する。

Conformal prediction (CP) is a wrapper around traditional machine learning models, giving coverage guarantees under the sole assumption of exchangeability; in classification problems, for a chosen significance level $\varepsilon$, CP guarantees that the number of errors is at most $\varepsilon$, irrespective of whether the underlying model is misspecified. However, the prohibitive computational costs of full CP led researchers to design scalable alternatives, which alas do not attain the same guarantees or statistical power of full CP. In this paper, we use influence functions to efficiently approximate full CP. We prove that our method is a consistent approximation of full CP, and empirically show that the approximation error becomes smaller as the training set increases; e.g., for $10^{3}$ training points the two methods output p-values that are $<10^{-3}$ apart: a negligible error for any practical application. Our methods enable scaling full CP to large real-world datasets. We compare our full CP approximation ACP to mainstream CP alternatives, and observe that our method is computationally competitive whilst enjoying the statistical predictive power of full CP.
翻訳日:2022-02-05 04:44:19 公開日:2022-02-02
# (参考訳) 疫学者のための深層学習 : ニューラルネットワーク入門

Deep Learning for Epidemiologists: An Introduction to Neural Networks ( http://arxiv.org/abs/2202.01319v1 )

ライセンス: CC BY 4.0
Stylianos Serghiou, Kathryn Rough(参考訳) 深層学習法は医学や医療の課題にますます適用されてきている。 しかし、これらの方法で正式な訓練を受けた疫学者はほとんどいない。 このギャップを埋めるために,本論文では,疫学的観点からの深層学習の基礎を紹介する。 具体的には、機械学習の中核的な概念(オーバーフィッティング、正規化、ハイパーパラメータ)をレビューし、いくつかの基本的なディープラーニングアーキテクチャ(畳み込みニューラルネットワーク、リカレントニューラルネットワーク)を説明し、モデルのトレーニング、評価、デプロイを要約する。 本研究の目的は,コンピュータ科学者と疫学者との対話を促進し,この技術の安全性と有効性を向上させることによって,ディープラーニングの医学的応用への関与と批判的評価を可能にすることである。

Deep learning methods are increasingly being applied to problems in medicine and healthcare. However, few epidemiologists have received formal training in these methods. To bridge this gap, this article introduces to the fundamentals of deep learning from an epidemiological perspective. Specifically, this article reviews core concepts in machine learning (overfitting, regularization, hyperparameters), explains several fundamental deep learning architectures (convolutional neural networks, recurrent neural networks), and summarizes training, evaluation, and deployment of models. We aim to enable the reader to engage with and critically evaluate medical applications of deep learning, facilitating a dialogue between computer scientists and epidemiologists that will improve the safety and efficacy of applications of this technology.
翻訳日:2022-02-05 04:05:25 公開日:2022-02-02
# (参考訳) panodepth:単眼全方位深度推定のための2段階アプローチ

PanoDepth: A Two-Stage Approach for Monocular Omnidirectional Depth Estimation ( http://arxiv.org/abs/2202.01323v1 )

ライセンス: CC BY-SA 4.0
Yuyan Li, Zhixin Yan, Ye Duan, Liu Ren(参考訳) 全方向3d情報は、仮想現実、自動運転、ロボティクスなど、幅広い応用に不可欠である。 本稿では,全方位単眼深度推定のための新しいモデル非依存二段パイプラインを提案する。 提案フレームワークであるpanodepthでは,360度画像を入力として,第1段階で1つ以上の合成ビューを生成し,元の画像と合成画像をステレオマッチングステージに投入する。 第2段階では,全方位ステレオ幾何を効率よく,効果的に扱える球面ウォーピング層を提案する。 ステレオマッチング段階における明示的なステレオベースの幾何学的制約を利用することで、PanoDepthは密度の高い高品質な深さを生成することができる。 我々は,全パイプラインと各ステージの個別モジュールのパノディフを評価するために,広範囲にわたる実験とアブレーションを行った。 その結果,360度単眼深度推定ではpanodepthが最先端のアプローチを上回っていることがわかった。

Omnidirectional 3D information is essential for a wide range of applications such as Virtual Reality, Autonomous Driving, Robotics, etc. In this paper, we propose a novel, model-agnostic, two-stage pipeline for omnidirectional monocular depth estimation. Our proposed framework PanoDepth takes one 360 image as input, produces one or more synthesized views in the first stage, and feeds the original image and the synthesized images into the subsequent stereo matching stage. In the second stage, we propose a differentiable Spherical Warping Layer to handle omnidirectional stereo geometry efficiently and effectively. By utilizing the explicit stereo-based geometric constraints in the stereo matching stage, PanoDepth can generate dense high-quality depth. We conducted extensive experiments and ablation studies to evaluate PanoDepth with both the full pipeline as well as the individual modules in each stage. Our results show that PanoDepth outperforms the state-of-the-art approaches by a large margin for 360 monocular depth estimation.
翻訳日:2022-02-05 04:04:28 公開日:2022-02-02
# (参考訳) ネットワーク侵入検出のための双方向GANに基づく一クラス分類器の訓練

Training a Bidirectional GAN-based One-Class Classifier for Network Intrusion Detection ( http://arxiv.org/abs/2202.01332v1 )

ライセンス: CC BY 4.0
Wen Xu, Julian Jang-Jaccard, Tong Liu, Fariza Sabrina(参考訳) ネットワーク侵入検出タスクは、それが操作するデータセットのバランスのとれていない性質のため、困難である。 既存のgans(generative adversarial network)は、主に実物から合成サンプルを作成するのに使われる。 また、異常検出タスクにも成功している。 提案手法では,2方向GAN(Bidirectional GAN, Bi-GAN)に基づく1クラス分類器として,高価で複雑な異常スコアやしきい値を計算すること以外の,通常のトラフィックから異常トラフィックを検出する。 実験結果から,提案手法はネットワーク侵入検出タスクにおいて有効であり,NSL-KDDデータセット上の他の類似生成手法よりも優れていることが示された。

The network intrusion detection task is challenging because of the imbalanced and unlabeled nature of the dataset it operates on. Existing generative adversarial networks (GANs), are primarily used for creating synthetic samples from reals. They also have been proved successful in anomaly detection tasks. In our proposed method, we construct the trained encoder-discriminator as a one-class classifier based on Bidirectional GAN (Bi-GAN) for detecting anomalous traffic from normal traffic other than calculating expensive and complex anomaly scores or thresholds. Our experimental result illustrates that our proposed method is highly effective to be used in network intrusion detection tasks and outperforms other similar generative methods on the NSL-KDD dataset.
翻訳日:2022-02-05 03:27:51 公開日:2022-02-02
# (参考訳) 動的ベクトル量子化を用いた適応離散通信ボット

Adaptive Discrete Communication Bottlenecks with Dynamic Vector Quantization ( http://arxiv.org/abs/2202.01334v1 )

ライセンス: CC BY 4.0
Dianbo Liu, Alex Lamb, Xu Ji, Pascal Notsawo, Mike Mozer, Yoshua Bengio, Kenji Kawaguchi(参考訳) ベクトル量子化(VQ)は潜在表現を識別する手法であり、ディープラーニングツールキットの主要な部分となっている。 エージェントの特殊化と堅牢性を促進するためにマルチエージェント通信をボトルネックにするために離散化が使用できる強化学習を含む、表現の離散化が一般化に繋がる理論的かつ実証的に示されている。 ほとんどのVQベースのメソッドの離散化の厳密性は、表現ベクトルにおける離散符号の数と、ハイパーパラメータとして固定されるコードブックサイズによって定義される。 本研究では,データに異なるレベルの表現粗さを要求される複雑さの変動を自然に含んでいるという仮説に基づいて,入力に条件付けられた離散化の厳密さを動的に選択する学習を提案する。 コミュニケーションボトルネックの動的に変化する厳しさは、視覚的推論および強化学習タスクにおけるモデル性能を向上させることができることを示す。

Vector Quantization (VQ) is a method for discretizing latent representations and has become a major part of the deep learning toolkit. It has been theoretically and empirically shown that discretization of representations leads to improved generalization, including in reinforcement learning where discretization can be used to bottleneck multi-agent communication to promote agent specialization and robustness. The discretization tightness of most VQ-based methods is defined by the number of discrete codes in the representation vector and the codebook size, which are fixed as hyperparameters. In this work, we propose learning to dynamically select discretization tightness conditioned on inputs, based on the hypothesis that data naturally contains variations in complexity that call for different levels of representational coarseness. We show that dynamically varying tightness in communication bottlenecks can improve model performance on visual reasoning and reinforcement learning tasks.
翻訳日:2022-02-05 03:08:42 公開日:2022-02-02
# アラブ首長国連邦におけるエグゼクティブレベルの人工知能教育の経験報告

An Experience Report of Executive-Level Artificial Intelligence Education in the United Arab Emirates ( http://arxiv.org/abs/2202.01281v1 )

ライセンス: Link先を確認
David Johnson, Mohammad Alsharid, Rasheed El-Bouri, Nigel Mehdi, Farah Shamout, Alexandre Szenicer, David Toman, Saqr Binghalib(参考訳) 人工知能(AI)を教えることは難しい。 速い動きの場なので、最先端の技術で人々を更新し続けるのは難しい。 学生向けの教育提供は、AI教育が伝統的に行われている大学の学位プログラムを超えて増えている。 本稿では,アラブ首長国連邦(UAE)のビジネスエグゼクティブにAIコースを教える経験報告を紹介する。 理論的、技術的側面のみに焦点を当てるのではなく、学生が既存のビジネスプロセスにAIを組み込む方法を理解するためにAIを教えるコースを開発した。 本稿では,本コースの概要,カリキュラム,授業方法について紹介し,成人の学習者やUAEの学生に対するリフレクションについて考察する。

Teaching artificial intelligence (AI) is challenging. It is a fast moving field and therefore difficult to keep people updated with the state-of-the-art. Educational offerings for students are ever increasing, beyond university degree programs where AI education traditionally lay. In this paper, we present an experience report of teaching an AI course to business executives in the United Arab Emirates (UAE). Rather than focusing only on theoretical and technical aspects, we developed a course that teaches AI with a view to enabling students to understand how to incorporate it into existing business processes. We present an overview of our course, curriculum and teaching methods, and we discuss our reflections on teaching adult learners, and to students in the UAE.
翻訳日:2022-02-04 14:51:47 公開日:2022-02-02
# ASR対応エンドツーエンドニューラルダイアリゼーション

ASR-Aware End-to-end Neural Diarization ( http://arxiv.org/abs/2202.01286v1 )

ライセンス: Link先を確認
Aparna Khare, Eunjung Han, Yuguang Yang, Andreas Stolcke(参考訳) 本稿では、音響入力と自動音声認識(ASR)モデルから得られる特徴の両方を利用するコンフォーマーに基づくエンドツーエンドニューラルダイアリゼーション(EEND)モデルを提案する。 ASR出力から直接派生した特徴(音声,単語の位置・単語境界)と,ASR出力上で事前学習したBERTモデルを微調整して学習した語彙話者変化検出モデルに由来する特徴の2つのカテゴリについて検討した。 適合型eendアーキテクチャの3つの変更が提案されている。 まず、ASRの特徴は音響的特徴と結合する。 第2に、ASR機能を利用してロバストな話者表現を構築するコンテキスト型自己注意機構を提案する。 最後に、マルチタスク学習を用いて、ASR特徴の分類損失とダイアリゼーション損失を最小化するモデルを訓練する。 Switchboard+SREデータセットの2話者英会話実験により,単語位置情報を用いたマルチタスク学習がASR特徴の有効利用方法であり,基準値に対してダイアリゼーション誤り率(DER)を20%低減することを示した。

We present a Conformer-based end-to-end neural diarization (EEND) model that uses both acoustic input and features derived from an automatic speech recognition (ASR) model. Two categories of features are explored: features derived directly from ASR output (phones, position-in-word and word boundaries) and features derived from a lexical speaker change detection model, trained by fine-tuning a pretrained BERT model on the ASR output. Three modifications to the Conformer-based EEND architecture are proposed to incorporate the features. First, ASR features are concatenated with acoustic features. Second, we propose a new attention mechanism called contextualized self-attention that utilizes ASR features to build robust speaker representations. Finally, multi-task learning is used to train the model to minimize classification loss for the ASR features along with diarization loss. Experiments on the two-speaker English conversations of Switchboard+SRE data sets show that multi-task learning with position-in-word information is the most effective way of utilizing ASR features, reducing the diarization error rate (DER) by 20% relative to the baseline.
翻訳日:2022-02-04 14:50:54 公開日:2022-02-02
# 複合織物モデリングのためのパンオプティカルセグメンテーションによるx線ct画像の自動処理

Automated processing of X-ray computed tomography images via panoptic segmentation for modeling woven composite textiles ( http://arxiv.org/abs/2202.01265v1 )

ライセンス: Link先を確認
Aaron Allred, Lauren J. Abbott, Alireza Doostan, and Kurt Maute(参考訳) 織物織物の3次元ディジタルジオメトリを自動生成する機械学習に基づく新しい手法を提案し,既存の解析記述とセグメンテーション手法の限界を克服した。 本手法では,X線CT(Computerd tomography)画像からパノプティクスのセマンティックマスクを生成するために,パノプティクスのセマンティック化を利用する。 この取り組みは、織物織物でユニークな糸のインスタンスをセグメンテーションする最初のディープラーニングベースの自動化プロセスを表している。 さらに、低コントラストCTデータセットにインスタンスレベルのセグメンテーションを提供することにより、既存の手法を改善する。 フレーム・ツー・フレームのインスタンス追跡は、3次元幾何学モデルを構築するためにビデオパノミックセグメンテーションから採用されたintersection-over-union(iou)アプローチによって達成される。 認識品質(RQ)を改善するために補正認識アルゴリズムを開発する。 パンオプティカル品質(pq)指標は、再構成複合繊維の新たな普遍的評価基準として採用されている。 また, 異なる形状, テクスチャ, コントラストのCT画像に対して, トレーニングセットに類似する新しいCT画像に対して, パン光学セグメントネットワークがよく一般化されていることがわかった。 本手法の有用性は,糸の流れ方向,個々の糸間の接触領域,および糸の空間的に変化する断面積を捉えることで示される。

A new, machine learning-based approach for automatically generating 3D digital geometries of woven composite textiles is proposed to overcome the limitations of existing analytical descriptions and segmentation methods. In this approach, panoptic segmentation is leveraged to produce instance segmented semantic masks from X-ray computed tomography (CT) images. This effort represents the first deep learning based automated process for segmenting unique yarn instances in a woven composite textile. Furthermore, it improves on existing methods by providing instance-level segmentation on low contrast CT datasets. Frame-to-frame instance tracking is accomplished via an intersection-over-union (IoU) approach adopted from video panoptic segmentation for assembling a 3D geometric model. A corrective recognition algorithm is developed to improve the recognition quality (RQ). The panoptic quality (PQ) metric is adopted to provide a new universal evaluation metric for reconstructed woven composite textiles. It is found that the panoptic segmentation network generalizes well to new CT images that are similar to the training set but does not extrapolate well to CT images of differing geometry, texture, and contrast. The utility of this approach is demonstrated by capturing yarn flow directions, contact regions between individual yarns, and the spatially varying cross-sectional areas of the yarns.
翻訳日:2022-02-04 14:49:22 公開日:2022-02-02
# PolarDenseNet:MIMOシステムにおけるCSIフィードバックのディープラーニングモデル

PolarDenseNet: A Deep Learning Model for CSI Feedback in MIMO Systems ( http://arxiv.org/abs/2202.01246v1 )

ライセンス: Link先を確認
Pranav Madadi, Jeongho Jeon, Joonyoung Cho, Caleb Lo, Juho Lee, Jianzhong Zhang(参考訳) マルチインプット多重出力(MIMO)システムでは、特にマルチユーザMIMO(MU-MIMO)システムの場合、基地局(BS)では高分解能チャネル情報(CSI)が必要である。 周波数分割二重化(fdd)システムではチャネル相互性がない場合、ユーザはcsiをbsに送信する必要がある。 FDDシステムにおけるこのCSIフィードバックに関連する大きなオーバーヘッドは、システムパフォーマンスを改善する上でボトルネックとなることが多い。 本稿では,ueにおけるcsiを低次元の潜在空間に符号化し,回復時の損失を最小化しつつフィードバックオーバーヘッドを効果的に低減し,bsで復号するオートエンコーダアーキテクチャに基づくaiベースのcsiフィードバックを提案する。 シミュレーションの結果,提案したAIアーキテクチャは,5Gニューラジオ(NR)システムで採用されているDFTベースを用いて,最先端の高分解能線形組合せ符号ブックよりも優れていた。

In multiple-input multiple-output (MIMO) systems, the high-resolution channel information (CSI) is required at the base station (BS) to ensure optimal performance, especially in the case of multi-user MIMO (MU-MIMO) systems. In the absence of channel reciprocity in frequency division duplex (FDD) systems, the user needs to send the CSI to the BS. Often the large overhead associated with this CSI feedback in FDD systems becomes the bottleneck in improving the system performance. In this paper, we propose an AI-based CSI feedback based on an auto-encoder architecture that encodes the CSI at UE into a low-dimensional latent space and decodes it back at the BS by effectively reducing the feedback overhead while minimizing the loss during recovery. Our simulation results show that the AI-based proposed architecture outperforms the state-of-the-art high-resolution linear combination codebook using the DFT basis adopted in the 5G New Radio (NR) system.
翻訳日:2022-02-04 14:48:26 公開日:2022-02-02
# ソフトウェア定義ハードウェアにおける効率的なメモリパーティショニング

Efficient Memory Partitioning in Software Defined Hardware ( http://arxiv.org/abs/2202.01261v1 )

ライセンス: Link先を確認
Matthew Feldman, Tian Zhao, Kunle Olukotun(参考訳) プログラマがソフトウェア定義ハードウェア(SDH)に切り替えて高い生産性を維持する一方で、複雑なアルゴリズムを実行するためにハードウェアをプログラミングする場合は、チップ上の配列を自動的に分割するためにコンパイラーが重い処理を行う必要がある。 本稿では,従来のシステムよりも効率的なパーティショニング方式を高速に計算できる自動メモリ分割システムを提案する。 本システムでは,各種資源節約最適化とMLコストモデルを用いて,候補の配列から最適な分割方式を選択する。 我々は、様々なベンチマークで最先端のSDHコンパイラやFPGAと比較し、我々のシステムは平均して40.3%の論理リソース、78.3%のFF、54.9%のBRAM、100%のDSPを消費するソリューションを生成した。

As programmers turn to software-defined hardware (SDH) to maintain a high level of productivity while programming hardware to run complex algorithms, heavy-lifting must be done by the compiler to automatically partition on-chip arrays. In this paper, we introduce an automatic memory partitioning system that can quickly compute more efficient partitioning schemes than prior systems. Our system employs a variety of resource-saving optimizations and an ML cost model to select the best partitioning scheme from an array of candidates. We compared our system against various state-of-the-art SDH compilers and FPGAs on a variety of benchmarks and found that our system generates solutions that, on average, consume 40.3% fewer logic resources, 78.3% fewer FFs, 54.9% fewer Block RAMs (BRAMs), and 100% fewer DSPs.
翻訳日:2022-02-04 14:47:43 公開日:2022-02-02
# Harmony:GPUメモリ容量のハードルを克服して,コモディティサーバ上で大規模なDNNモデルをトレーニング

Harmony: Overcoming the hurdles of GPU memory capacity to train massive DNN models on commodity servers ( http://arxiv.org/abs/2202.01306v1 )

ライセンス: Link先を確認
Youjie Li, Amar Phanishayee, Derek Murray, Jakub Tarnawski, Nam Sung Kim(参考訳) ディープニューラルネットワーク(dnn)は、過去10年間で複雑さとサイズが指数関数的に増大し、そのようなモデルの開発とトレーニングが可能な巨大なデータセンタベースのリソースにアクセス可能な人だけが残った。 限られたリソース(例えば単一のマルチGPUサーバ)しかアクセスできない研究者の長い尾にとっての大きな課題の1つは、モデルサイズと比較してGPUメモリ容量の制限である。 大規模なDNNモデルをトレーニングする際のメモリ要件が、コモディティサーバ上で利用可能なGPUの総容量を超えることがしばしばあるため、この問題は、成長を続けるモデルサイズの傾向によってのみ悪化する。 GPUメモリの仮想化(CPUメモリへの切り替えによる)に依存している現在のソリューションは、過度のスワップオーバーヘッドを発生させる。 本稿では,新しいトレーニングフレームワークであるharmonyについて述べるとともに,dnnフレームワークが計算をスケジュールし,データを移動して,控えめなマルチgpuデプロイメントで大規模モデルのトレーニングを効率的に行う方法について再考する。 多くの大規模dnnモデルにおいて、harmonyはスワップロードを最大2桁削減でき、仮想メモリを備えた高度に最適化されたベースラインよりも最大7.6倍のトレーニングスループットのスピードアップを得ることができる。

Deep neural networks (DNNs) have grown exponentially in complexity and size over the past decade, leaving only those who have access to massive datacenter-based resources with the ability to develop and train such models. One of the main challenges for the long tail of researchers who might have access to only limited resources (e.g., a single multi-GPU server) is limited GPU memory capacity compared to model size. The problem is so acute that the memory requirement of training large DNN models can often exceed the aggregate capacity of all available GPUs on commodity servers; this problem only gets worse with the trend of ever-growing model sizes. Current solutions that rely on virtualizing GPU memory (by swapping to/from CPU memory) incur excessive swapping overhead. In this paper, we present a new training framework, Harmony, and advocate rethinking how DNN frameworks schedule computation and move data to push the boundaries of training large models efficiently on modest multi-GPU deployments. Across many large DNN models, Harmony is able to reduce swap load by up to two orders of magnitude and obtain a training throughput speedup of up to 7.6x over highly optimized baselines with virtualized memory.
翻訳日:2022-02-04 14:47:26 公開日:2022-02-02
# 画像に基づく局所化のための意味記述子の訓練

Training Semantic Descriptors for Image-Based Localization ( http://arxiv.org/abs/2202.01212v1 )

ライセンス: Link先を確認
Ibrahim Cinaroglu and Yalin Bastanlar(参考訳) 近年,車両のローカライゼーションのためのビジョンベースソリューションが普及している。 画像検索に基づく視覚的位置決め手法を用いる。 データベース画像はGPS座標で保持され、検索したデータベース画像の位置はクエリ画像の近似位置として機能する。 セグメンテーション画像からのみ抽出した記述子を用いて局所化を行うことができることを示す。 特に環境が厳しい照明と季節変化にさらされている場合、信頼性が高い。 実験の結果,意味記述子のローカライズ性能は,最先端のRGB画像ベース手法のレベルまで向上できることがわかった。

Vision based solutions for the localization of vehicles have become popular recently. We employ an image retrieval based visual localization approach. The database images are kept with GPS coordinates and the location of the retrieved database image serves as an approximate position of the query image. We show that localization can be performed via descriptors solely extracted from semantically segmented images. It is reliable especially when the environment is subjected to severe illumination and seasonal changes. Our experiments reveal that the localization performance of a semantic descriptor can increase up to the level of state-of-the-art RGB image based methods.
翻訳日:2022-02-04 14:28:53 公開日:2022-02-02
# 生成逆ネットワークによる非パラメトリック家族のロバスト推定

Robust Estimation for Nonparametric Families via Generative Adversarial Networks ( http://arxiv.org/abs/2202.01269v1 )

ライセンス: Link先を確認
Banghua Zhu, Jiantao Jiao and Michael I. Jordan(参考訳) 本稿では,高次元頑健な統計問題を解くためにGAN(Generative Adversarial Networks)を設計するための一般的なフレームワークを提案する。 先行研究は、ガウス分布や楕円分布の族に真の分布が存在する場合のロバスト平均と共分散推定の問題に焦点を当て、この問題に対する深さまたはスコアリングルールに基づくGAN損失を分析する。 我々の研究はこれらをロバスト平均推定、第二モーメント推定およびロバスト線形回帰に拡張し、真の分布が半ガウス的、部分指数的、有界なモーメント分布の広い族を含む有界オルリッツノルムのみを持つ場合である。 我々はまた、GAN損失が機能するためには、その誘導距離関数がいくつかの光尾分布の累積密度関数であることを要求するが、これはシグモイド活性化を伴うニューラルネットワークによって容易に満たされる。 手法の面では、提案するgan損失は滑らかで一般化されたコルモゴロフ-スミルノフ距離と見なすことができ、これは以前の研究で使われたコルモゴロフ-スミルノフ距離の計算不可能性を克服している。

We provide a general framework for designing Generative Adversarial Networks (GANs) to solve high dimensional robust statistics problems, which aim at estimating unknown parameter of the true distribution given adversarially corrupted samples. Prior work focus on the problem of robust mean and covariance estimation when the true distribution lies in the family of Gaussian distributions or elliptical distributions, and analyze depth or scoring rule based GAN losses for the problem. Our work extend these to robust mean estimation, second moment estimation, and robust linear regression when the true distribution only has bounded Orlicz norms, which includes the broad family of sub-Gaussian, sub-Exponential and bounded moment distributions. We also provide a different set of sufficient conditions for the GAN loss to work: we only require its induced distance function to be a cumulative density function of some light-tailed distribution, which is easily satisfied by neural networks with sigmoid activation. In terms of techniques, our proposed GAN losses can be viewed as a smoothed and generalized Kolmogorov-Smirnov distance, which overcomes the computational intractability of the original Kolmogorov-Smirnov distance used in the prior work.
翻訳日:2022-02-04 14:27:23 公開日:2022-02-02
# dasha: 通信圧縮、oracleの最適複雑さ、クライアント同期なしの分散非凸最適化

DASHA: Distributed Nonconvex Optimization with Communication Compression, Optimal Oracle Complexity, and No Client Synchronization ( http://arxiv.org/abs/2202.01268v1 )

ライセンス: Link先を確認
Alexander Tyurin, Peter Richt\'arik(参考訳) 非凸分散最適化問題に対する新しい手法であるDASHAを開発し解析する。 DASHA-PAGEとDASHA-SYNC-MVRは,ノードの局所関数が有限サムあるいは期待形式を持つ場合,Gorbunovらによる従来の最先端手法MARINA(2020)の理論的オラクルと通信複雑性を改善する。 特に、エプシロン定常点を達成するために、ランダムスペーサーRandKを例に挙げると、我々の手法は勾配の最適数を計算する$\mathcal{O}\left(\frac{\sqrt{m}}{\varepsilon\sqrt{n}}\right)$と$\mathcal{O}\left(\frac{\sigma}{\varepsilon^{3/2}n}\right)$を、SOTA通信複雑性を保ちながら、それぞれ有限サムおよび期待形式の場合で$\mathcal{O}\left(\frac{d}{\varepsilon \sqrt{n}}\right)$である。 さらに、MARINAとは異なり、新しいDASHA、DASHA-PAGE、DASHA-MVRは圧縮ベクターのみを送信し、ノードを同期しないため、フェデレーション学習においてより実用的である。 我々は、関数がpolyak-lojasiewicz条件を満たす場合に結果を拡張する。 最後に,本理論は,非凸分類実験や深層学習モデルの訓練において,大幅な改善が見られた。

We develop and analyze DASHA: a new family of methods for nonconvex distributed optimization problems. When the local functions at the nodes have a finite-sum or an expectation form, our new methods, DASHA-PAGE and DASHA-SYNC-MVR, improve the theoretical oracle and communication complexity of the previous state-of-the-art method MARINA by Gorbunov et al. (2020). In particular, to achieve an epsilon-stationary point, and considering the random sparsifier RandK as an example, our methods compute the optimal number of gradients $\mathcal{O}\left(\frac{\sqrt{m}}{\varepsilon\sqrt{n}}\right)$ and $\mathcal{O}\left(\frac{\sigma}{\varepsilon^{3/2}n}\right)$ in finite-sum and expectation form cases, respectively, while maintaining the SOTA communication complexity $\mathcal{O}\left(\frac{d}{\varepsilon \sqrt{n}}\right)$. Furthermore, unlike MARINA, the new methods DASHA, DASHA-PAGE and DASHA-MVR send compressed vectors only and never synchronize the nodes, which makes them more practical for federated learning. We extend our results to the case when the functions satisfy the Polyak-Lojasiewicz condition. Finally, our theory is corroborated in practice: we see a significant improvement in experiments with nonconvex classification and training of deep learning models.
翻訳日:2022-02-04 14:24:41 公開日:2022-02-02
# ワッサースタイン距離に基づくベクトル空間の位相的分類

Topological Classification in a Wasserstein Distance Based Vector Space ( http://arxiv.org/abs/2202.01275v1 )

ライセンス: Link先を確認
Tananun Songdechakraiwut, Bryan M. Krause, Matthew I. Banks, Kirill V. Nourski, Barry D. Van Veen(参考訳) トポロジーに基づく大規模・高密度ネットワークの分類は,実世界のネットワークから有意義なトポロジ的特徴を抽出する計算上の課題から,非常に困難である。 本稿では、持続的ホモロジーと最適輸送の原理的理論を用いて、トポロジ的特徴に対する新しいベクトル表現を定義することにより、ネットワークのトポロジ的分類に対する計算的抽出可能なアプローチを提案する。 提案するベクトル空間は、永続バーコード間のワッサースタイン距離に基づいている。 ネットワークグラフの1-骨格を用いて、連結されたコンポーネントとサイクルを表す1次元永続バーコードを得る。 これらのバーコードと対応するワッサースタイン距離は、非常に効率的に計算できる。 提案するベクトル空間の有効性を支援ベクターマシンを用いて実証し,シミュレーションネットワークと機能的脳ネットワークの分類を行った。

Classification of large and dense networks based on topology is very difficult due to the computational challenges of extracting meaningful topological features from real-world networks. In this paper we present a computationally tractable approach to topological classification of networks by using principled theory from persistent homology and optimal transport to define a novel vector representation for topological features. The proposed vector space is based on the Wasserstein distance between persistence barcodes. The 1-skeleton of the network graph is employed to obtain 1-dimensional persistence barcodes that represent connected components and cycles. These barcodes and the corresponding Wasserstein distance can be computed very efficiently. The effectiveness of the proposed vector space is demonstrated using support vector machines to classify simulated networks and measured functional brain networks.
翻訳日:2022-02-04 14:23:56 公開日:2022-02-02
# デモ参加者の熟練度推定による模倣学習

Imitation Learning by Estimating Expertise of Demonstrators ( http://arxiv.org/abs/2202.01288v1 )

ライセンス: Link先を確認
Mark Beliaev, Andy Shih, Stefano Ermon, Dorsa Sadigh, Ramtin Pedarsani(参考訳) 多くの既存の模倣学習データセットは、複数の実証者から収集され、それぞれが環境の異なる場所で異なる専門知識を持っている。 しかし、標準的な模倣学習アルゴリズムは、通常、すべてのデモストレーターを専門知識に関係なく均質に扱い、任意の準最適デモストレーターの弱点を吸収する。 本研究では,実証者の専門知識よりも教師なしの学習が模倣学習アルゴリズムの性能を一貫した向上に繋がることを示す。 デモ参加者の学習した方針や専門知識に基づいて,共同モデルを開発・最適化する。 これにより,モデルが最適動作から学習し,各実証者の最適動作をフィルタリングすることが可能になる。 我々のモデルは、最高の実証者でも優れた成績を上げることができる単一のポリシーを学習し、あらゆる状態において、あらゆる実証者の専門知識を見積もることができる。 我々は、ロブミミックやミニグリッドやチェスのような離散的な環境からの実際のロボット的連続制御タスクについて、23ドル設定中21ドル(約2万2000円)で競合する手法を上回り、最終的な報酬としては平均7ドル(約7万2000円)、最大60ドル(約6万3000円)で改善した。

Many existing imitation learning datasets are collected from multiple demonstrators, each with different expertise at different parts of the environment. Yet, standard imitation learning algorithms typically treat all demonstrators as homogeneous, regardless of their expertise, absorbing the weaknesses of any suboptimal demonstrators. In this work, we show that unsupervised learning over demonstrator expertise can lead to a consistent boost in the performance of imitation learning algorithms. We develop and optimize a joint model over a learned policy and expertise levels of the demonstrators. This enables our model to learn from the optimal behavior and filter out the suboptimal behavior of each demonstrator. Our model learns a single policy that can outperform even the best demonstrator, and can be used to estimate the expertise of any demonstrator at any state. We illustrate our findings on real-robotic continuous control tasks from Robomimic and discrete environments such as MiniGrid and chess, out-performing competing methods in $21$ out of $23$ settings, with an average of $7\%$ and up to $60\%$ improvement in terms of the final reward.
翻訳日:2022-02-04 14:23:43 公開日:2022-02-02
# 線形mdpにおける微分的個人探査に対する後悔の改善

Improved Regret for Differentially Private Exploration in Linear MDP ( http://arxiv.org/abs/2202.01292v1 )

ライセンス: Link先を確認
Dung Daniel Ngo, Giuseppe Vietri, Zhiwei Steven Wu(参考訳) 医療記録などの機密データに依存する環境における逐次的意思決定におけるプライバシ保護探索について検討する。 特に、線形MDP設定において、(結合)差分プライバシーの制約を受ける強化学習(RL)の問題を解決することに焦点を当て、線形関数によって力学と報酬が与えられる。 Luyo et al. (2021)によるこの問題の先行研究は、エピソード数$K$に対して$O(K^{3/5})$に依存する後悔率を達成する。 我々は、エピソード数に依存する$o(\sqrt{k})$を最適に依存し、後悔率を向上させるプライベートアルゴリズムを提供する。 強い後悔の保証の鍵となるレシピは、ポリシー更新スケジュールにおける適応性であり、データに十分な変更が検出された場合にのみ更新が発生する。 その結果、アルゴリズムはスイッチングコストが低く、O(\log(K))$更新しか実行せず、プライバシノイズを大幅に低減します。 最後に、プライバシパラメーター$\epsilon$が一定である最も一般的なプライバシー制度では、アルゴリズムは、既存の非プライベートな後悔の限界と比べて、プライバシによる追加の後悔は下位の条件で現れるため、必然的なプライバシコストを負う。

We study privacy-preserving exploration in sequential decision-making for environments that rely on sensitive data such as medical records. In particular, we focus on solving the problem of reinforcement learning (RL) subject to the constraint of (joint) differential privacy in the linear MDP setting, where both dynamics and rewards are given by linear functions. Prior work on this problem due to Luyo et al. (2021) achieves a regret rate that has a dependence of $O(K^{3/5})$ on the number of episodes $K$. We provide a private algorithm with an improved regret rate with an optimal dependence of $O(\sqrt{K})$ on the number of episodes. The key recipe for our stronger regret guarantee is the adaptivity in the policy update schedule, in which an update only occurs when sufficient changes in the data are detected. As a result, our algorithm benefits from low switching cost and only performs $O(\log(K))$ updates, which greatly reduces the amount of privacy noise. Finally, in the most prevalent privacy regimes where the privacy parameter $\epsilon$ is a constant, our algorithm incurs negligible privacy cost -- in comparison with the existing non-private regret bounds, the additional regret due to privacy appears in lower-order terms.
翻訳日:2022-02-04 14:23:21 公開日:2022-02-02
# アソシエーションルールマイニングアプローチによる女性に対するハラスメントのインパクト分析:バングラデシュの展望

Impact Analysis of Harassment Against Women Using Association Rule Mining Approaches: Bangladesh Prospective ( http://arxiv.org/abs/2202.01308v1 )

ライセンス: Link先を確認
Bahar Uddin Mahmud, Afsana Sharmin(参考訳) 近年,女性が社会のあらゆる分野で進歩していることが注目されている。 教育、雇用市場、ソーシャルワークなど、あらゆる分野への関与が目覚ましいペースで増加している。 過去数年間、政府は様々な研究や活動を行い、女性を動機付けるために複数の組織に資金を提供し、各分野の女性の進歩に最善を尽くしてきた。 いくつかの分野への女性の関与が増加しているが、大きな懸念は、彼らの進歩においていくつかの障壁に直面していることだ。 バングラデシュでは女性、特に学生に対するハラスメントが一般的な現象であり、増加傾向にある。 本稿では,複数の年齢層におけるハラスメントの影響を分析するために,調査に基づくAprioriアルゴリズムを用いた。 また, aprioriアルゴリズムのアソシエーションルールマイニングとf.p.グロースアルゴリズムを用いて,ハラスメントの頻繁な影響,最も脆弱なグループ,主にハラスメントに直面している女性,ハラスメントの背後にいるとされる人物などの要因を分析した。 そして、両方のアルゴリズム間のパフォーマンスの比較が簡単に示されている。 この分析のために、データはあらゆる年齢から注意深く収集されている。

In recent years, it has been noticed that women are making progress in every sector of society. Their involvement in every field, such as education, job market, social work, etc., is increasing at a remarkable rate. For the last several years, the government has been trying its level best for the advancement of women in every sector by doing several research work and activities and funding several organizations to motivate women. Although women's involvement in several fields is increasing, the big concern is they are facing several barriers in their advancement, and it is not surprising that sexual harassment is one of them. In Bangladesh, harassment against women, especially students, is a common phenomenon, and it is increasing. In this paper, a survey-based and Apriori algorithm are used to analyze the several impacts of harassment among several age groups. Also, several factors such as frequent impacts of harassment, most vulnerable groups, women mostly facing harassment, the alleged person behind harassment, etc., are analyzed through association rule mining of Apriori algorithm and F.P. Growth algorithm. And then, a comparison of performance between both algorithms has been shown briefly. For this analysis, data have been carefully collected from all ages.
翻訳日:2022-02-04 14:22:57 公開日:2022-02-02
# 2層ReLUネットワークの高速凸最適化:等価モデルクラスとコーン分解

Fast Convex Optimization for Two-Layer ReLU Networks: Equivalent Model Classes and Cone Decompositions ( http://arxiv.org/abs/2202.01331v1 )

ライセンス: Link先を確認
Aaron Mishkin, Arda Sahiner, Mert Pilanci(参考訳) ReLUアクティベーション機能を持つ2層ニューラルネットワークの凸最適化のための高速アルゴリズムとロバストソフトウェアを開発した。 本研究は,多面体錐制約により局所性が強制される群-$\ell_1$-regularized data-localモデルとして,標準重み付きペナルティ化訓練問題の凸再構成を利用する。 零正則化の特別な場合において、この問題は凸「ゲートReLU」ネットワークの非制約最適化と全く同じであることを示す。 非ゼロ正則化の問題に対して、凸ゲートReLUモデルがReLUトレーニング問題に対するデータ依存近似境界を得ることを示す。 凸修正を最適化するために,高速化された近位勾配法と実用的な拡張ラグランジアン解法を開発した。 これらのアプローチはsgdのような非凸問題に対する標準的なトレーニングヒューリスティックよりも高速であり、商用の内点ソルバよりも優れることを示している。 実験により,MNISTとCIFAR-10の画像分類のためのニューラルネットワークの群$$\ell_1$正規化パス,スケール凸最適化について検証した。

We develop fast algorithms and robust software for convex optimization of two-layer neural networks with ReLU activation functions. Our work leverages a convex reformulation of the standard weight-decay penalized training problem as a set of group-$\ell_1$-regularized data-local models, where locality is enforced by polyhedral cone constraints. In the special case of zero-regularization, we show that this problem is exactly equivalent to unconstrained optimization of a convex "gated ReLU" network. For problems with non-zero regularization, we show that convex gated ReLU models obtain data-dependent approximation bounds for the ReLU training problem. To optimize the convex reformulations, we develop an accelerated proximal gradient method and a practical augmented Lagrangian solver. We show that these approaches are faster than standard training heuristics for the non-convex problem, such as SGD, and outperform commercial interior-point solvers. Experimentally, we verify our theoretical results, explore the group-$\ell_1$ regularization path, and scale convex optimization for neural networks to image classification on MNIST and CIFAR-10.
翻訳日:2022-02-04 14:22:10 公開日:2022-02-02
# トランスフォーマーは強力な治療効果を推定できるのか?

Can Transformers be Strong Treatment Effect Estimators? ( http://arxiv.org/abs/2202.01336v1 )

ライセンス: Link先を確認
Yi-Fan Zhang, Hanlin Zhang, Zachary C. Lipton, Li Erran Li, Eric P. Xing(参考訳) 本稿では,トランスフォーマーアーキテクチャに基づく多種多様な処理効果推定(TEE)問題に対処するための汎用フレームワークを開発する。 本手法は,共変数が表型である場合とシーケンス(例えばテキスト)からなる場合の両方に適用可能であり,離散的,連続的,構造化的,あるいはドセージ関連的な処理を処理できる。 トランスフォーマーはすでに、自然言語やコンピュータビジョンなどの多様な分野において支配的な手法として登場しているが、TransTEE(Process Effect Estimators)による実験では、これらの帰納バイアスが因果効果を推定するための研究で発生する推定問題やデータセットにも有効であることを示した。 さらに,共変量と治療の独立性を促進し,さらに選択バイアスに対処すべく,トランステータで訓練したプロペンサリティスコアネットワークを提案する。 広範な実験を通して、TransTEEは幅広いベンチマークや設定よりもパラメータ効率が良く、競争ベースラインを著しく上回ることを示す。

In this paper, we develop a general framework for based on Transformer architectures to address a variety of challenging treatment effect estimation (TEE) problems. Our methods are applicable both when covariates are tabular and when they consist of sequences (e.g., in text), and can handle discrete, continuous, structured, or dosage-associated treatments. While Transformers have already emerged as dominant methods for diverse domains, including natural language and computer vision, our experiments with Transformers as Treatment Effect Estimators (TransTEE) demonstrate that these inductive biases are also effective on the sorts of estimation problems and datasets that arise in research aimed at estimating causal effects. Moreover, we propose a propensity score network that is trained with TransTEE in an adversarial manner to promote independence between covariates and treatments to further address selection bias. Through extensive experiments, we show that TransTEE significantly outperforms competitive baselines with greater parameter efficiency over a wide range of benchmarks and settings.
翻訳日:2022-02-04 14:21:49 公開日:2022-02-02
# beyond images:低品質なタスクに対するラベルノイズ遷移行列の推定

Beyond Images: Label Noise Transition Matrix Estimation for Tasks with Lower-Quality Features ( http://arxiv.org/abs/2202.01273v1 )

ライセンス: Link先を確認
Zhaowei Zhu, Jialu Wang, Yang Liu(参考訳) クリーンラベルからノイズラベルへの遷移確率を表すラベルノイズ遷移行列は、統計的に堅牢な解を設計するための重要な知識である。 雑音遷移行列の既存の推定器、例えばアンカー点またはクラスタ性を用いて、高品質表現を得るのが比較的容易なコンピュータビジョンタスクに焦点を当てている。 しかし、低品質の機能を持つ他のタスクでは、非形式変数は有用な変数を曖昧にし、アンカーポイントやクラスタビリティの条件を満たすのが困難になる。 我々は、これらのアプローチの失敗を、よく使われるデータセットで実証的に観察する。 本稿では,この課題に対処するために,低品質特徴の低情報部分の重み付けを行う,汎用的な情報理論手法を提案する。 健全な技術的課題は、クリーンなラベルの代わりにノイズのあるラベルのみを使用して関連する情報理論メトリクスを計算することである。 我々は,有望な$f$ミューチュアル情報尺度が,ノイズラベルを用いて計算された順序を保存できることを証明した。 また,様々な表データおよびテキスト分類タスクにおける推定誤差を低品質で評価し,提案手法の必要性と有効性を示した。 コードはgithub.com/UCSC-REAL/Est-T-MIで入手できる。

The label noise transition matrix, denoting the transition probabilities from clean labels to noisy labels, is crucial knowledge for designing statistically robust solutions. Existing estimators for noise transition matrices, e.g., using either anchor points or clusterability, focus on computer vision tasks that are relatively easier to obtain high-quality representations. However, for other tasks with lower-quality features, the uninformative variables may obscure the useful counterpart and make anchor-point or clusterability conditions hard to satisfy. We empirically observe the failures of these approaches on a number of commonly used datasets. In this paper, to handle this issue, we propose a generally practical information-theoretic approach to down-weight the less informative parts of the lower-quality features. The salient technical challenge is to compute the relevant information-theoretical metrics using only noisy labels instead of clean ones. We prove that the celebrated $f$-mutual information measure can often preserve the order when calculated using noisy labels. The necessity and effectiveness of the proposed method is also demonstrated by evaluating the estimation error on a varied set of tabular data and text classification tasks with lower-quality features. Code is available at github.com/UCSC-REAL/Est-T-MI.
翻訳日:2022-02-04 13:52:10 公開日:2022-02-02
# 多解係数グラフに基づくステレオ対応アルゴリズム

Multi-Resolution Factor Graph Based Stereo Correspondence Algorithm ( http://arxiv.org/abs/2202.01309v1 )

ライセンス: Link先を確認
Hanieh Shabanian, Madhusudhanan Balasubramanian(参考訳) 任意の視野方向のシーンの濃密な深度マップは、シーンの複数の低次元ビュー間の濃密な視野対応から推定することができる。 これらの低次元ビュー対応は、ビューとシーン間の幾何学的関係に依存する。 シーン内の均質な領域の存在や、遮蔽された領域の存在、ビュー間の照明の違いなどにより、密接なビュー対応を決定することは困難である。 本稿では,ビュー間の分解能依存性と不一致推定値の両方を利用するマルチレゾリューション係数グラフに基づくステレオマッチングアルゴリズム(mr-fgs)を提案する。 提案手法は対応問題の多重解像度間での情報交換を可能にし,シーン内の大きな均質な領域を扱うのに有用である。 MR-FGSアルゴリズムをミドルベリーステレオベンチマークデータセットのステレオペアを用いて定性的,定量的に評価した。 最近開発された因子グラフモデル(FGS)と比較して、MR-FGSアルゴリズムは、左の整合性チェックとして知られる一般的に使用される後処理の手順を必要とせずに、より正確な差分推定を提供した。 因子グラフモデルにおけるマルチレゾリューション依存性制約は,mr-fgsの深さ境界に沿ったコントラストを著しく改善した。

A dense depth-map of a scene at an arbitrary view orientation can be estimated from dense view correspondences among multiple lower-dimensional views of the scene. These low-dimensional view correspondences are dependent on the geometrical relationship among the views and the scene. Determining dense view correspondences is difficult in part due to presence of homogeneous regions in the scene and due to presence of occluded regions and illumination differences among the views. We present a new multi-resolution factor graph-based stereo matching algorithm (MR-FGS) that utilizes both intra- and inter-resolution dependencies among the views as well as among the disparity estimates. The proposed framework allows exchange of information among multiple resolutions of the correspondence problem and is useful for handling larger homogeneous regions in a scene. The MR-FGS algorithm was evaluated qualitatively and quantitatively using stereo pairs in the Middlebury stereo benchmark dataset based on commonly used performance measures. When compared to a recently developed factor graph model (FGS), the MR-FGS algorithm provided more accurate disparity estimates without requiring the commonly used post-processing procedure known as the left-right consistency check. The multi-resolution dependency constraint within the factor-graph model significantly improved contrast along depth boundaries in the MR-FGS generated disparity maps.
翻訳日:2022-02-04 13:51:50 公開日:2022-02-02
# ニューラルネットワークの近似バイシミュレーション関係と保証ニューラルネットワーク圧縮への応用

Approximate Bisimulation Relations for Neural Networks and Application to Assured Neural Network Compression ( http://arxiv.org/abs/2202.01214v1 )

ライセンス: Link先を確認
Weiming Xiang, Zhongzhu Shao(参考訳) 本稿では,フィードフォワードニューラルネットワークにおける近似バイシミュレーション関係の概念を提案する。 近似バイシミュレーション関係の枠組みにおいて,ニューラルネットワークの到達可能性解析に基づく2つのニューラルネットワーク間の近似バイシミュレーション誤差を計算するために,新しいニューラルネットワークマージ法を開発した。 提案手法は,同じ入力で2つのニューラルネットワークの出力間の距離を定量的に測定することができる。 そこで,ニューラルネットワークモデルの縮小と圧縮精度,すなわち保証されたニューラルネットワーク圧縮の計算を行うために,近似バイシミュレーション関係結果を適用した。 最後に、保証されたニューラルネットワーク圧縮を用いて、ACAS Xuニューラルネットワークの検証プロセスを高速化し、提案手法の有効性と利点を明らかにする。

In this paper, we propose a concept of approximate bisimulation relation for feedforward neural networks. In the framework of approximate bisimulation relation, a novel neural network merging method is developed to compute the approximate bisimulation error between two neural networks based on reachability analysis of neural networks. The developed method is able to quantitatively measure the distance between the outputs of two neural networks with the same inputs. Then, we apply the approximate bisimulation relation results to perform neural networks model reduction and compute the compression precision, i.e., assured neural networks compression. At last, using the assured neural network compression, we accelerate the verification processes of ACAS Xu neural networks to illustrate the effectiveness and advantages of our proposed approximate bisimulation approach.
翻訳日:2022-02-04 13:50:42 公開日:2022-02-02
# 大規模並列処理によるロボットの品質変化の加速

Accelerated Quality-Diversity for Robotics through Massive Parallelism ( http://arxiv.org/abs/2202.01258v1 )

ライセンス: Link先を確認
Bryan Lim, Maxime Allard, Luca Grillotti, Antoine Cully(参考訳) 品質多様性(QD)アルゴリズムは、多種多様な高品質なポリシーを大量に集めるためのよく知られたアプローチである。 しかし、QDアルゴリズムはデータ非効率であることが知られており、大量の計算資源が必要であり、実際にロボット工学のタスクに使用されると遅くなる。 ポリシー評価はすでにQDアルゴリズムの高速化に並行して実施されているが、ほとんどの物理シミュレータがCPU上で動作するため、単一のマシンでしか機能しない。 最近のアクセラレーター上で動作するシミュレータの進歩により、単一のGPU/TPU上で数千の評価を並列に行うことができる。 本稿では,加速器の大規模並列性を利用してqdアルゴリズムをより使いやすくするmap-elitesの実装であるqdaxを提案する。 まず,加速シミュレータによる並列化による1秒あたりの評価数の改善について述べる。 さらに重要なことは、QDアルゴリズムが理想的な候補であり、対話的な時間スケールで大規模並列性でスケールできることである。 並列性の増加はQDアルゴリズムの性能に大きく影響しないが、実験の実行時間を2つの要因で削減し、計算時間を数分に短縮する。 これらの結果から,QDはハードウェアアクセラレーションの恩恵を受けることができ,ディープラーニングの普及に大きく寄与した。

Quality-Diversity (QD) algorithms are a well-known approach to generate large collections of diverse and high-quality policies. However, QD algorithms are also known to be data-inefficient, requiring large amounts of computational resources and are slow when used in practice for robotics tasks. Policy evaluations are already commonly performed in parallel to speed up QD algorithms but have limited capabilities on a single machine as most physics simulators run on CPUs. With recent advances in simulators that run on accelerators, thousands of evaluations can performed in parallel on single GPU/TPU. In this paper, we present QDax, an implementation of MAP-Elites which leverages massive parallelism on accelerators to make QD algorithms more accessible. We first demonstrate the improvements on the number of evaluations per second that parallelism using accelerated simulators can offer. More importantly, we show that QD algorithms are ideal candidates and can scale with massive parallelism to be run at interactive timescales. The increase in parallelism does not significantly affect the performance of QD algorithms, while reducing experiment runtimes by two factors of magnitudes, turning days of computation into minutes. These results show that QD can now benefit from hardware acceleration, which contributed significantly to the bloom of deep learning.
翻訳日:2022-02-04 13:50:29 公開日:2022-02-02
# FedSpace: 衛星や地上ステーションでの効果的なフェデレーション学習フレームワーク

FedSpace: An Efficient Federated Learning Framework at Satellites and Ground Stations ( http://arxiv.org/abs/2202.01267v1 )

ライセンス: Link先を確認
Jinhyun So, Kevin Hsieh, Behnaz Arzani, Shadi Noghabi, Salman Avestimehr, Ranveer Chandra(参考訳) 低地球軌道(LEO)衛星の大規模展開は、大量の地球画像やセンサーデータを収集し、機械学習(ML)にリアルタイム災害ナビゲーションや緩和といったグローバルな課題に対処することができる。 しかし、ダウンリンク帯域の制限、疎結合性、画像解像度の正規化制約により、高解像度画像をダウンロードし、これらのMLモデルを地上で訓練することは不可能であることが多い。 これらの課題に対処するために,地上局と衛星が収集した画像を衛星上で共有することなく,グローバルMLモデルを協調訓練するフェデレートラーニング(FL)を利用する。 衛星と地上局間で既存のFLアルゴリズムを適用する際の根本的な課題を示し、安定度とアイドルネスの唯一のトレードオフを捉える最適化問題を定式化する。 本稿では,衛星軌道による決定的および時間的接続性に基づいて,モデル集約を動的にスケジュールする新しいFLフレームワークFedSpaceを提案する。 実世界の衛星画像と衛星ネットワークに基づく大規模な数値評価は、FedSpaceが最先端のFLアルゴリズムよりもトレーニング時間を1.7日(38.6%)短縮していることを示している。

Large-scale deployments of low Earth orbit (LEO) satellites collect massive amount of Earth imageries and sensor data, which can empower machine learning (ML) to address global challenges such as real-time disaster navigation and mitigation. However, it is often infeasible to download all the high-resolution images and train these ML models on the ground because of limited downlink bandwidth, sparse connectivity, and regularization constraints on the imagery resolution. To address these challenges, we leverage Federated Learning (FL), where ground stations and satellites collaboratively train a global ML model without sharing the captured images on the satellites. We show fundamental challenges in applying existing FL algorithms among satellites and ground stations, and we formulate an optimization problem which captures a unique trade-off between staleness and idleness. We propose a novel FL framework, named FedSpace, which dynamically schedules model aggregation based on the deterministic and time-varying connectivity according to satellite orbits. Extensive numerical evaluations based on real-world satellite images and satellite networks show that FedSpace reduces the training time by 1.7 days (38.6%) over the state-of-the-art FL algorithms.
翻訳日:2022-02-04 13:48:11 公開日:2022-02-02
# 流れの正規化のための勾配推定器

Gradient estimators for normalising flows ( http://arxiv.org/abs/2202.01314v1 )

ライセンス: Link先を確認
Piotr Bialas and Piotr Korcyl and Tomasz Stebel(参考訳) 近年,Neural Markov Chain Monte-Carlo (NMCMC)と呼ばれるモンテカルロシミュレーションへの機械学習アプローチが注目を集めている。 最も一般的な形式では、ニューラルネットワークを使用して正規化フローを構築し、次に、所望のターゲット分布を近似するように訓練する。 この分布は通常ハミルトニアンまたは作用によって定義されるので、標準学習アルゴリズムはフィールドに対する作用勾配の推定を必要とする。 このコントリビューションでは、この計算を避ける別の勾配推定器(および対応する[PyTorch実装)を提示し、より複雑なアクションを持つモデルのトレーニングを高速化する可能性がある。 また, 勾配推定器の統計特性について検討し, 定式化がトレーニング結果の改善につながることを示す。

Recently a machine learning approach to Monte-Carlo simulations called Neural Markov Chain Monte-Carlo (NMCMC) is gaining traction. In its most popular form it uses the neural networks to construct normalizing flows which are then trained to approximate the desired target distribution. As this distribution is usually defined via a Hamiltonian or action, the standard learning algorithm requires estimation of the action gradient with respect to the fields. In this contribution we present another gradient estimator (and the corresponding [PyTorch implementation) that avoids this calculation, thus potentially speeding up training for models with more complicated actions. We also study the statistical properties of several gradient estimators and show that our formulation leads to better training results.
翻訳日:2022-02-04 13:47:51 公開日:2022-02-02
# Redditと4chanのオンラインヘイト比較:2020年米国大統領選挙を事例として

A Comparison of Online Hate on Reddit and 4chan: A Case Study of the 2020 US Election ( http://arxiv.org/abs/2202.01302v1 )

ライセンス: Link先を確認
Fatima Zahrah and Jason R. C. Nurse and Michael Goldsmith(参考訳) 日々の生活にインターネットが急速に統合され、多くのメリットがもたらされただけでなく、オンラインヘイト、トロール、いじめ、そして全般的な攻撃的な行動など、多くの新しい幅広い脅威にも繋がった。 研究は伝統的に1つのプラットフォームでオンライン憎悪を調査してきたが、現実には、そのような憎悪はしばしば複数のオンラインネットワークを利用する現象である。 本稿では,さまざまな自然言語処理(NLP)技術を用いて,2020年アメリカ合衆国大統領選挙に関するRedditと4chanのヘイトフルコンテンツを計算的に分析する。 本研究は,コンテンツと投稿活動がプラットフォームによってどのように異なるかを示す。 これを通じて、オンライン憎悪のプラットフォーム固有の行動と、異なるプラットフォームが特定の目的を達成する方法について、最初の比較を行う。 我々はさらに,世界的ヘイトエコシステムをより包括的に理解するために,クロスプラットフォームアプローチを活用した今後の研究のために,いくつかの手段を提供する。

The rapid integration of the Internet into our daily lives has led to many benefits but also to a number of new, wide-spread threats such as online hate, trolling, bullying, and generally aggressive behaviours. While research has traditionally explored online hate, in particular, on one platform, the reality is that such hate is a phenomenon that often makes use of multiple online networks. In this article, we seek to advance the discussion into online hate by harnessing a comparative approach, where we make use of various Natural Language Processing (NLP) techniques to computationally analyse hateful content from Reddit and 4chan relating to the 2020 US Presidential Elections. Our findings show how content and posting activity can differ depending on the platform being used. Through this, we provide initial comparison into the platform-specific behaviours of online hate, and how different platforms can serve specific purposes. We further provide several avenues for future research utilising a cross-platform approach so as to gain a more comprehensive understanding of the global hate ecosystem.
翻訳日:2022-02-04 13:34:18 公開日:2022-02-02
# PromptSource: 自然言語プロンプトのための統合開発環境とリポジトリ

PromptSource: An Integrated Development Environment and Repository for Natural Language Prompts ( http://arxiv.org/abs/2202.01279v1 )

ライセンス: Link先を確認
Stephen H. Bach, Victor Sanh, Zheng-Xin Yong, Albert Webson, Colin Raffel, Nihal V. Nayak, Abheesht Sharma, Taewoon Kim, M Saiful Bari, Thibault Fevry, Zaid Alyafeai, Manan Dey, Andrea Santilli, Zhiqing Sun, Srulik Ben-David, Canwen Xu, Gunjan Chhablani, Han Wang, Jason Alan Fries, Maged S. Al-shaibani, Shanya Sharma, Urmish Thakker, Khalid Almubarak, Xiangru Tang, Xiangru Tang, Mike Tian-Jian Jiang, Alexander M. Rush(参考訳) PromptSourceは自然言語のプロンプトを作成し、共有し、使用するシステムである。 Promptは、データセットから自然言語入力とターゲット出力にサンプルをマッピングする関数である。 言語モデルのトレーニングとクエリにプロンプトを使用することは、ユーザが共同でこれらのプロンプトを開発し、洗練するための新しいツールを必要とする、NLPの新たな領域である。 promptsourceは、(1)データリンクされたプロンプトを定義するテンプレート言語、(2)ユーザーが多くの例でプロンプトのアウトプットを観察してプロンプト開発をすばやくイテレーションできるインターフェイス、(3)共通のプールに新しいプロンプトを投稿するためのコミュニティ主導のガイドラインなど、この新しい設定の緊急の課題に対処する。 約170のデータセットに対して2,000以上のプロンプトが、すでにPromptSourceで利用可能である。 PromptSourceはhttps://github.com/bigscience-workshop/promptsourceで入手できる。

PromptSource is a system for creating, sharing, and using natural language prompts. Prompts are functions that map an example from a dataset to a natural language input and target output. Using prompts to train and query language models is an emerging area in NLP that requires new tools that let users develop and refine these prompts collaboratively. PromptSource addresses the emergent challenges in this new setting with (1) a templating language for defining data-linked prompts, (2) an interface that lets users quickly iterate on prompt development by observing outputs of their prompts on many examples, and (3) a community-driven set of guidelines for contributing new prompts to a common pool. Over 2,000 prompts for roughly 170 datasets are already available in PromptSource. PromptSource is available at https://github.com/bigscience-workshop/promptsource.
翻訳日:2022-02-04 13:32:20 公開日:2022-02-02
# 構造因果関係問題による因果推論

Causal Inference Through the Structural Causal Marginal Problem ( http://arxiv.org/abs/2202.01300v1 )

ライセンス: Link先を確認
Luigi Gresele, Julius von K\"ugelgen, Jonas M. K\"ubler, Elke Kirschbaum, Bernhard Sch\"olkopf, Dominik Janzing(参考訳) 本稿では,複数のデータセットからの情報をマージする手法を提案する。 統計的辺縁問題に対する因果的再構成を考察する: 異なるが重なり合う変数の集合に対する境界構造因果モデル(SCM)の集合が与えられた場合、辺縁モデルと反実的に矛盾する結合SCMの集合を決定する。 応答関数の定式化による分類的SCMに対するこのアプローチの形式化と,それが許容する辺縁および関節SCMの空間を減少させることを示す。 その結果,追加データによる統計的手法とは対照的に,追加変数による新たな偽造可能性の方法が浮き彫りになった。

We introduce an approach to counterfactual inference based on merging information from multiple datasets. We consider a causal reformulation of the statistical marginal problem: given a collection of marginal structural causal models (SCMs) over distinct but overlapping sets of variables, determine the set of joint SCMs that are counterfactually consistent with the marginal ones. We formalise this approach for categorical SCMs using the response function formulation and show that it reduces the space of allowed marginal and joint SCMs. Our work thus highlights a new mode of falsifiability through additional variables, in contrast to the statistical one via additional data.
翻訳日:2022-02-04 13:30:52 公開日:2022-02-02
# パラメータとプライバシ - オーバーパラメータ化とメンバシップ推論のトレードオフ

Parameters or Privacy: A Provable Tradeoff Between Overparameterization and Membership Inference ( http://arxiv.org/abs/2202.01243v1 )

ライセンス: Link先を確認
Jasper Tan, Blake Mason, Hamid Javadi, Richard G. Baraniuk(参考訳) 現代の機械学習における驚くべき現象は、トレーニングデータ(トレーニングデータにゼロエラー)を記憶するように訓練された場合でも、高度に過小評価されたモデルがうまく一般化する能力(テストデータに小さな誤差)である。 これにより、過剰パラメータモデル(c.f., deep learning)への競争が激化している。 本稿では,過小パラメータモデルがプライバシ攻撃,特にモデルトレーニングに使用される(潜在的に敏感な)例を予測するメンバシップ推論攻撃に対して,過小パラメータモデルがより脆弱であるという事実について,過小パラメータ化の未熟な隠れコストについて検討する。 我々は,ガウスデータを持つ過パラメータ線形回帰モデルに対して,パラメータ数によってメンバシップ推論の脆弱性が増加することを理論的に証明することにより,この問題に対する経験的結果の相対的に少数の拡張を行った。 さらに、実験的な研究の範囲は、より複雑な非線形モデルが同じ挙動を示すことを示している。 最後に,ノイズ付加や正規化などの過パラメータ化体制において,このような攻撃を緩和するための様々な手法について検討し,過パラメータ化モデルのパラメータを単純に減らすことは,一般化誤差を大幅に減少させることなく,メンバーシップ推論から保護するための効果的な戦略であると結論付けた。

A surprising phenomenon in modern machine learning is the ability of a highly overparameterized model to generalize well (small error on the test data) even when it is trained to memorize the training data (zero error on the training data). This has led to an arms race towards increasingly overparameterized models (c.f., deep learning). In this paper, we study an underexplored hidden cost of overparameterization: the fact that overparameterized models are more vulnerable to privacy attacks, in particular the membership inference attack that predicts the (potentially sensitive) examples used to train a model. We significantly extend the relatively few empirical results on this problem by theoretically proving for an overparameterized linear regression model with Gaussian data that the membership inference vulnerability increases with the number of parameters. Moreover, a range of empirical studies indicates that more complex, nonlinear models exhibit the same behavior. Finally, we study different methods for mitigating such attacks in the overparameterized regime, such as noise addition and regularization, and conclude that simply reducing the parameters of an overparameterized model is an effective strategy to protect it from membership inference without greatly decreasing its generalization error.
翻訳日:2022-02-04 13:30:26 公開日:2022-02-02
# NoisyMix: データ強化, 安定トレーニング, ノイズ注入を組み合わせたロバスト性向上

NoisyMix: Boosting Robustness by Combining Data Augmentations, Stability Training, and Noise Injections ( http://arxiv.org/abs/2202.01263v1 )

ライセンス: Link先を確認
N. Benjamin Erichson, Soon Hoe Lim, Francisco Utrera, Winnie Xu, Ziang Cao, Michael W. Mahoney(参考訳) 多くの実世界のアプリケーションにとって、安定的で堅牢な統計性能を得るためには、単に最先端の予測テストの精度を達成することよりも重要である。 関連して、データ拡張スキームは、入力の摂動とドメインシフトに関してロバスト性を改善することが示されている。 モデルロバスト性とドメイン内精度の両方を改善するために,データ拡張と安定性トレーニングとノイズ注入を組み合わせたトレーニングスキームであるNoisyMixを導入する。 この組み合わせは、一貫したより堅牢なモデルを促進し、クラスメンバーシップ確率のよく校正された推定を提供する。 我々は、ImageNet-C、ImageNet-R、ImageNet-Pなどのベンチマークデータセットに対して、NoisyMixの利点を実証する。 さらに、我々は、NoisyMixの暗黙の正規化とロバスト性を理解する理論を提供する。

For many real-world applications, obtaining stable and robust statistical performance is more important than simply achieving state-of-the-art predictive test accuracy, and thus robustness of neural networks is an increasingly important topic. Relatedly, data augmentation schemes have been shown to improve robustness with respect to input perturbations and domain shifts. Motivated by this, we introduce NoisyMix, a training scheme that combines data augmentations with stability training and noise injections to improve both model robustness and in-domain accuracy. This combination promotes models that are consistently more robust and that provide well-calibrated estimates of class membership probabilities. We demonstrate the benefits of NoisyMix on a range of benchmark datasets, including ImageNet-C, ImageNet-R, and ImageNet-P. Moreover, we provide theory to understand implicit regularization and robustness of NoisyMix.
翻訳日:2022-02-04 13:30:04 公開日:2022-02-02
# Fenrir: 初期値問題に対する物理強化回帰

Fenrir: Physics-Enhanced Regression for Initial Value Problems ( http://arxiv.org/abs/2202.01287v1 )

ライセンス: Link先を確認
Filip Tronarp, Nathanael Bosch, Philipp Hennig(参考訳) 確率的数値は初期値問題からガウス-マルコフ過程への変換にどのように用いられるかを示し、通常の微分方程式におけるパラメータ推定の難しい問題はガウス-マルコフ回帰のハイパーパラメータ推定に還元されるが、これはかなり容易である。 古典的数値積分法や勾配マッチング法と比較して, 手法の関係と利点を解明する。 特に、勾配マッチングとは対照的に、この手法は部分的観測を処理し、古典的数値積分では利用できない局所的オプティマから逃れる特定の経路を持つ。 実験の結果,本手法は競合するアプローチと同等か中程度に優れていることがわかった。

We show how probabilistic numerics can be used to convert an initial value problem into a Gauss--Markov process parametrised by the dynamics of the initial value problem. Consequently, the often difficult problem of parameter estimation in ordinary differential equations is reduced to hyperparameter estimation in Gauss--Markov regression, which tends to be considerably easier. The method's relation and benefits in comparison to classical numerical integration and gradient matching approaches is elucidated. In particular, the method can, in contrast to gradient matching, handle partial observations, and has certain routes for escaping local optima not available to classical numerical integration. Experimental results demonstrate that the method is on par or moderately better than competing approaches.
翻訳日:2022-02-04 13:28:06 公開日:2022-02-02
# 大きな線形層によるメモリ効率のよいバックプロパゲーション

Memory-Efficient Backpropagation through Large Linear Layers ( http://arxiv.org/abs/2201.13195v3 )

ライセンス: Link先を確認
Daniel Bershatsky, Aleksandr Mikhalev, Alexandr Katrutsa, Julia Gusak, Daniil Merkulov and Ivan Oseledets(参考訳) Transformersのような現代のニューラルネットワークでは、線形層は後方通過時にアクティベーションを保持するために大きなメモリを必要とする。 本研究では,線形層を介してバックプロパゲーションを行うためのメモリ削減手法を提案する。 線形層の勾配は行列の乗算によって計算されるため、ランダム化行列の乗算の手法を検討し、テスト精度を緩やかに低下させることなく、少ないメモリを必要とすることを示す。 また,ランダム化行列の乗算によって引き起こされる勾配推定のばらつきについて検討する。 このばらつきを,サンプルのバッチに基づく勾配推定から得られるばらつきと比較する。 GLUEタスク上で事前学習したRoBERTaモデルの微調整における提案手法の利点を示す。

In modern neural networks like Transformers, linear layers require significant memory to store activations during backward pass. This study proposes a memory reduction approach to perform backpropagation through linear layers. Since the gradients of linear layers are computed by matrix multiplications, we consider methods for randomized matrix multiplications and demonstrate that they require less memory with a moderate decrease of the test accuracy. Also, we investigate the variance of the gradient estimate induced by the randomized matrix multiplication. We compare this variance with the variance coming from gradient estimation based on the batch of samples. We demonstrate the benefits of the proposed method on the fine-tuning of the pre-trained RoBERTa model on GLUE tasks.
翻訳日:2022-02-04 11:41:11 公開日:2022-02-02
# ブロックMDPにおける効率的な強化学習:モデルなし表現学習アプローチ

Efficient Reinforcement Learning in Block MDPs: A Model-free Representation Learning Approach ( http://arxiv.org/abs/2202.00063v2 )

ライセンス: Link先を確認
Xuezhou Zhang, Yuda Song, Masatoshi Uehara, Mengdi Wang, Alekh Agarwal, Wen Sun(参考訳) 本稿では,ブロック構造を持つマルコフ決定過程(すなわちブロックmdps)における効率的な強化学習のためのアルゴリズムであるbriee(block-structured representation learning with interleaved explore exploit)を提案する。 ブライは潜伏状態の発見、探索、搾取を共に行い、潜在的に無限の観測空間の大きさに依存することなく、潜伏状態、作用、時間軸の数を多項式的にスケーリングするサンプル複雑性を用いて、最適に近い方針を証明できる。 実験により、BRIEEは最先端のBlock MDPアルゴリズムであるHOMERや他の実験的なRLベースラインよりも、深層探査を必要とするリッチ・オブザーバの組み合わせロック問題に挑戦する上で、より効率的であることが示されている。

We present BRIEE (Block-structured Representation learning with Interleaved Explore Exploit), an algorithm for efficient reinforcement learning in Markov Decision Processes with block-structured dynamics (i.e., Block MDPs), where rich observations are generated from a set of unknown latent states. BRIEE interleaves latent states discovery, exploration, and exploitation together, and can provably learn a near-optimal policy with sample complexity scaling polynomially in the number of latent states, actions, and the time horizon, with no dependence on the size of the potentially infinite observation space. Empirically, we show that BRIEE is more sample efficient than the state-of-art Block MDP algorithm HOMER and other empirical RL baselines on challenging rich-observation combination lock problems that require deep exploration.
翻訳日:2022-02-04 11:40:07 公開日:2022-02-02
# Few-Bit Backward:メモリフットプリント削減のためのアクティベーション関数の量子化勾配

Few-Bit Backward: Quantized Gradients of Activation Functions for Memory Footprint Reduction ( http://arxiv.org/abs/2202.00441v2 )

ライセンス: Link先を確認
Georgii Novikov, Daniel Bershatsky, Julia Gusak, Alex Shonenkov, Denis Dimitrov, and Ivan Oseledets(参考訳) メモリフットプリントは、大規模なニューラルネットワークトレーニングの主要な制限要因のひとつだ。 バックプロパゲーションでは、計算グラフ内の各演算に入力を格納する必要がある。 現代のすべてのニューラルネットワークモデルは、そのアーキテクチャにおいてかなりいくつかのポイントワイズな非線形性を持ち、そのような操作は、私たちが示すように、勾配の量子化によって大幅に削減できる追加のメモリコストを誘導する。 本稿では,各要素あたり数ビットしか持たない点次非線形関数の残留勾配の最適量子化を求める体系的手法を提案する。 このような近似は、動的プログラミングによって実現できるアクティベーション関数の微分の最適一貫した近似を計算することで実現できることを示す。 ドロップイン置換はすべての一般的な非線形性に対して実装されており、既存のパイプラインで使用することができる。 いくつかのオープンベンチマークでメモリ削減と同じ収束を確認した。

Memory footprint is one of the main limiting factors for large neural network training. In backpropagation, one needs to store the input to each operation in the computational graph. Every modern neural network model has quite a few pointwise nonlinearities in its architecture, and such operation induces additional memory costs which -- as we show -- can be significantly reduced by quantization of the gradients. We propose a systematic approach to compute optimal quantization of the retained gradients of the pointwise nonlinear functions with only a few bits per each element. We show that such approximation can be achieved by computing optimal piecewise-constant approximation of the derivative of the activation function, which can be done by dynamic programming. The drop-in replacements are implemented for all popular nonlinearities and can be used in any existing pipeline. We confirm the memory reduction and the same convergence on several open benchmarks.
翻訳日:2022-02-04 11:39:50 公開日:2022-02-02
# (参考訳) 差別化可能なシミュレータはポリシー勾配を改善するか?

Do Differentiable Simulators Give Better Policy Gradients? ( http://arxiv.org/abs/2202.00817v1 )

ライセンス: CC BY 4.0
H.J. Terry Suh, Max Simchowitz, Kaiqing Zhang, Russ Tedrake(参考訳) 微分シミュレータは、確率的対象のゼロ階勾配推定を1階勾配に基づく推定に置き換えることで、強化学習の高速化を約束する。 しかしながら、この質問が微分可能なシミュレーターの有用性にとって重要な意味を持つにもかかわらず、長期の水平計画と物理システム制御を伴う複雑な景観における2つの推定器の性能を決定する要因は、まだ不明である。 本研究では, 剛性や不連続性などの物理系の特性が一階推定器の有効性を損なう可能性を示し, この現象を偏りと分散のレンズを通して解析する。 さらに, 1次推定の効率とゼロ次推定のロバスト性を組み合わせた正確な勾配を正しく利用する,$\alpha \in [0,1]$の$\alpha$-order勾配推定器を提案する。 従来の推定器の落とし穴と、いくつかの数値例で$\alpha$-order推定器の利点を示す。

Differentiable simulators promise faster computation time for reinforcement learning by replacing zeroth-order gradient estimates of a stochastic objective with an estimate based on first-order gradients. However, it is yet unclear what factors decide the performance of the two estimators on complex landscapes that involve long-horizon planning and control on physical systems, despite the crucial relevance of this question for the utility of differentiable simulators. We show that characteristics of certain physical systems, such as stiffness or discontinuities, may compromise the efficacy of the first-order estimator, and analyze this phenomenon through the lens of bias and variance. We additionally propose an $\alpha$-order gradient estimator, with $\alpha \in [0,1]$, which correctly utilizes exact gradients to combine the efficiency of first-order estimates with the robustness of zero-order methods. We demonstrate the pitfalls of traditional estimators and the advantages of the $\alpha$-order estimator on some numerical examples.
翻訳日:2022-02-04 00:29:23 公開日:2022-02-02
# (参考訳) テキストデータを用いた因果推論の描画に関する考察:人文と組織的テキストの並列性

Some Reflections on Drawing Causal Inference using Textual Data: Parallels Between Human Subjects and Organized Texts ( http://arxiv.org/abs/2202.00848v1 )

ライセンス: CC BY-SA 4.0
Bo Zhang and Jiayao Zhang(参考訳) 本研究では,人文と組織的テキストの平行線を引くことによって因果推論を行う際のテキストデータの役割について検討する。 %であった。 主要な因果概念と原則を詳しく説明し、曖昧さと時には不確かさを露呈する。 因果関係クエリのフレーミングを容易にするために,2つの戦略について検討する。 (i)不変形質からその知覚への転換、 (ii)ある抽象概念/プロパティからその構成要素、すなわち抽象概念の構成主義的な視点に移行すること。 本論文は,テキストデータを用いた因果推論の手法開発に先立って,基本概念の明確化と明確化の重要性の認識を高めることを願っている。

We examine the role of textual data as study units when conducting causal inference by drawing parallels between human subjects and organized texts. %in human population research. We elaborate on key causal concepts and principles, and expose some ambiguity and sometimes fallacies. To facilitate better framing a causal query, we discuss two strategies: (i) shifting from immutable traits to perceptions of them, and (ii) shifting from some abstract concept/property to its constituent parts, i.e., adopting a constructivist perspective of an abstract concept. We hope this article would raise the awareness of the importance of articulating and clarifying fundamental concepts before delving into developing methodologies when drawing causal inference using textual data.
翻訳日:2022-02-03 23:07:37 公開日:2022-02-02
# (参考訳) 階層的縮小:木に基づく手法の精度と解釈性の向上

Hierarchical Shrinkage: improving the accuracy and interpretability of tree-based methods ( http://arxiv.org/abs/2202.00858v1 )

ライセンス: CC BY 4.0
Abhineet Agarwal, Yan Shuo Tan, Omer Ronen, Chandan Singh, Bin Yu(参考訳) 決定木やランダム森林(RF)のような木に基づくモデルは、現代の機械学習の実践の基盤となっている。 過度な適合を緩和するために、木は通常、その構造を変更する様々な技術によって規則化される。 我々は,木構造を変更しないポストホックアルゴリズムである階層的縮小 (hs) を導入する。 収縮の量は、単一の正規化パラメータと各祖先のデータポイント数によって制御される。 HSはポストホック法であるため、非常に高速で、木の成長アルゴリズムと互換性があり、他の正規化手法と相乗的に使用できる。 様々な実世界のデータセットにわたる広範囲な実験により、hsは他の正規化手法と併用しても決定木の予測性能が大幅に向上することが示された。 さらに,RFにおける各木へのHS適用は,その決定境界とSHAP値の簡易化と安定化により,その解釈可能性も向上することがわかった。 さらに,木の内部ノードに関連付けられた決定切り株から構築した(教師あり)ベースにおいて,リッジ回帰と等価性を示し,予測性能の向上におけるhsの成功を説明する。 すべてのコードとモデルは、githubで入手できる完全なパッケージ(github.com/csinva/imodels)でリリースされている。

Tree-based models such as decision trees and random forests (RF) are a cornerstone of modern machine-learning practice. To mitigate overfitting, trees are typically regularized by a variety of techniques that modify their structure (e.g. pruning). We introduce Hierarchical Shrinkage (HS), a post-hoc algorithm that does not modify the tree structure, and instead regularizes the tree by shrinking the prediction over each node towards the sample means of its ancestors. The amount of shrinkage is controlled by a single regularization parameter and the number of data points in each ancestor. Since HS is a post-hoc method, it is extremely fast, compatible with any tree growing algorithm, and can be used synergistically with other regularization techniques. Extensive experiments over a wide variety of real-world datasets show that HS substantially increases the predictive performance of decision trees, even when used in conjunction with other regularization techniques. Moreover, we find that applying HS to each tree in an RF often improves accuracy, as well as its interpretability by simplifying and stabilizing its decision boundaries and SHAP values. We further explain the success of HS in improving prediction performance by showing its equivalence to ridge regression on a (supervised) basis constructed of decision stumps associated with the internal nodes of a tree. All code and models are released in a full-fledged package available on Github (github.com/csinva/imodels)
翻訳日:2022-02-03 22:54:52 公開日:2022-02-02
# (参考訳) HTS-AT:音の分類・検出のための階層型音声変換器

HTS-AT: A Hierarchical Token-Semantic Audio Transformer for Sound Classification and Detection ( http://arxiv.org/abs/2202.00874v1 )

ライセンス: CC BY 4.0
Ke Chen, Xingjian Du, Bilei Zhu, Zejun Ma, Taylor Berg-Kirkpatrick, Shlomo Dubnov(参考訳) 音声分類は、音声サンプルを対応するラベルにマッピングする重要なタスクである。 近年,本分野では自己注意機構を持つ変圧器モデルが採用されている。 しかし、既存のオーディオトランスフォーマーは大きなGPUメモリと長いトレーニング時間を必要とし、一方、事前訓練されたビジョンモデルを使用してハイパフォーマンスを実現し、オーディオタスクにおけるモデルのスケーラビリティを制限している。 これらの問題に対処するため,階層構造を持つ音声変換器HTS-ATを導入し,モデルサイズとトレーニング時間を短縮する。 さらに、最終的な出力をクラスフィーチャーマップにマッピングするトークン・セマンティクスモジュールと組み合わせることで、オーディオイベント検出(すなわち、時間のローカライズ)のモデルを可能にする。 我々は,HTS-ATを音声分類の3つのデータセットで評価し,AudioSetとESC-50でSOTA(State-of-the-art)結果を得た。 また、以前のcnnベースのモデルよりもイベントローカライゼーションのパフォーマンスが向上している。 さらに、HTS-ATは35%のモデルパラメータと15%のトレーニング時間しか必要としない。 これらの結果は, HTS-ATの性能と高効率性を示す。

Audio classification is an important task of mapping audio samples into their corresponding labels. Recently, the transformer model with self-attention mechanisms has been adopted in this field. However, existing audio transformers require large GPU memories and long training time, meanwhile relying on pretrained vision models to achieve high performance, which limits the model's scalability in audio tasks. To combat these problems, we introduce HTS-AT: an audio transformer with a hierarchical structure to reduce the model size and training time. It is further combined with a token-semantic module to map final outputs into class featuremaps, thus enabling the model for the audio event detection (i.e. localization in time). We evaluate HTS-AT on three datasets of audio classification where it achieves new state-of-the-art (SOTA) results on AudioSet and ESC-50, and equals the SOTA on Speech Command V2. It also achieves better performance in event localization than the previous CNN-based models. Moreover, HTS-AT requires only 35% model parameters and 15% training time of the previous audio transformer. These results demonstrate the high performance and high efficiency of HTS-AT.
翻訳日:2022-02-03 22:28:17 公開日:2022-02-02
# (参考訳) 多変量応答回帰のための十分な次元縮小の選択的検討

A selective review of sufficient dimension reduction for multivariate response regression ( http://arxiv.org/abs/2202.00876v1 )

ライセンス: CC BY 4.0
Yuexiao Dong, Abdul-Nasah Soale, Michael D. Power(参考訳) 本稿では,多変量応答を持つSDR推定器について概説する。 幅広いSDR手法は、逆回帰SDR推定器または前方回帰SDR推定器として特徴付けられる。 逆回帰系には、プール付き辺縁推定器、射影再サンプリング推定器、距離に基づく推定器が含まれる。 一方、通常最小二乗、部分最小二乗、半パラメトリックsdr推定器は、前方回帰系からの推定器として議論される。

We review sufficient dimension reduction (SDR) estimators with multivariate response in this paper. A wide range of SDR methods are characterized as inverse regression SDR estimators or forward regression SDR estimators. The inverse regression family include pooled marginal estimators, projective resampling estimators, and distance-based estimators. Ordinary least squares, partial least squares, and semiparametric SDR estimators, on the other hand, are discussed as estimators from the forward regression family.
翻訳日:2022-02-03 22:18:04 公開日:2022-02-02
# (参考訳) Twitter ISIS利用者の縦断データ

A Longitudinal Dataset of Twitter ISIS Users ( http://arxiv.org/abs/2202.00878v1 )

ライセンス: CC BY 4.0
Younes Karimi, Anna Squicciarini, Peter K. Forster, Kira M. Leavitt(参考訳) ISISに関連があると思われる2つのユーザーからのツイートの大規模な時系列データセットを提示する。 これらのユーザー集合は、以前の調査とISISのTwitterアカウントをシャットダウンするキャンペーンに基づいて特定される。 これらのユーザーは、2014-2015年に少なくとも1回ISISアカウントと関わり、2021年時点でもアクティブである。 また、ISISのツイートを引用したユーザーの中には、ISISのシードアカウントと不確実なつながりがある。 この研究とデータセットは、ISISデータを分析するためのユニークなアプローチである。 ISISのオンライン活動には多くの研究があるが、個々のアカウントに焦点を当てた研究はほとんどない。 アカウントを検証し、アカウントの機能(例えば、プロパガンダ対運用計画)を識別するためのフレームワークを開発するというアプローチは、将来の研究の基盤となる。 収集したデータについて,いくつかの記述的統計と予備分析を行い,その意義と実用性を明らかにする。 さらに,いくつかの学際的応用事例と研究の方向性について論じる。

We present a large longitudinal dataset of tweets from two sets of users that are suspected to be affiliated with ISIS. These sets of users are identified based on a prior study and a campaign aimed at shutting down ISIS Twitter accounts. These users have engaged with known ISIS accounts at least once during 2014-2015 and are still active as of 2021. Some of them have directly supported the ISIS users and their tweets by retweeting them, and some of the users that have quoted tweets of ISIS, have uncertain connections to ISIS seed accounts. This study and the dataset represent a unique approach to analyzing ISIS data. Although much research exists on ISIS online activities, few studies have focused on individual accounts. Our approach to validating accounts as well as developing a framework for differentiating accounts' functionality (e.g., propaganda versus operational planning) offers a foundation for future research. We perform some descriptive statistics and preliminary analyses on our collected data to provide deeper insight and highlight the significance and practicality of such analyses. We further discuss several cross-disciplinary potential use cases and research directions.
翻訳日:2022-02-03 22:04:20 公開日:2022-02-02
# (参考訳) twitter上での doxing の自動検出

Automated Detection of Doxing on Twitter ( http://arxiv.org/abs/2202.00879v1 )

ライセンス: CC BY 4.0
Younes Karimi, Anna Squicciarini, Shomir Wilson(参考訳) ドクシング(doxing)とは、個人の同意なしに機密性の高い個人情報を開示する行為である。 このサイバーいじめは、オンラインソーシャルネットワークにとって不快で時には危険な現象である。 他のタイプのサイバーいじめの自動識別に関する先行研究は存在するが、特にtwitter上でドックスを検出できる方法が必要である。 我々は,機密性の高い個人情報のtwitterにおける第2および第3の開示を自動的に検出する手法を提案し,評価する。 ドキシングエピソードの背後にある共通の意図の知見を要約し、文字列マッチングと1ホットエンコードヒューリスティックに基づく自動検出のための9つの異なるアプローチと、ツイートの単語および文脈化された文字列埋め込み表現の比較を行った。 96.86%の精度と97.37%のリコールをコンテキスト化された文字列埋め込みを用いて実現するアプローチを特定し,提案手法の実用性について論じる。

Doxing refers to the practice of disclosing sensitive personal information about a person without their consent. This form of cyberbullying is an unpleasant and sometimes dangerous phenomenon for online social networks. Although prior work exists on automated identification of other types of cyberbullying, a need exists for methods capable of detecting doxing on Twitter specifically. We propose and evaluate a set of approaches for automatically detecting second- and third-party disclosures on Twitter of sensitive private information, a subset of which constitutes doxing. We summarize our findings of common intentions behind doxing episodes and compare nine different approaches for automated detection based on string-matching and one-hot encoded heuristics, as well as word and contextualized string embedding representations of tweets. We identify an approach providing 96.86% accuracy and 97.37% recall using contextualized string embeddings and conclude by discussing the practicality of our proposed methods.
翻訳日:2022-02-03 21:49:51 公開日:2022-02-02
# (参考訳) MPVNN: 癌特異的生存リスクの予測のための変異経路可視ニューラルネットワークアーキテクチャ

MPVNN: Mutated Pathway Visible Neural Network Architecture for Interpretable Prediction of Cancer-specific Survival Risk ( http://arxiv.org/abs/2202.00882v1 )

ライセンス: CC BY-SA 4.0
Gourab Ghosh Roy (1 and 2), Nicholas Geard (2), Karin Verspoor (3 and 2), Shan He (1) ((1) University of Birmingham, (2) University of Melbourne, (3) RMIT University)(参考訳) 遺伝子発現データを用いた生存リスク予測は、がんの治療決定に重要である。 標準ニューラルネットワーク(NN)サバイバル分析モデルは、解釈不可能なブラックボックスである。 より解釈可能な可視性ニューラルネットワーク(VNN)アーキテクチャは、生物学的経路知識を用いて設計されている。 しかし、特定のがんタイプに対して経路構造がどのように変化するかはモデル化しない。 本稿では,前処理経路の知識と遺伝子変異データに基づくエッジランダム化を用いた信号流乱れをシミュレーションした,新しいMutated Pathway VNN(MPVNN)アーキテクチャを提案する。 症例研究として,pi3k-akt経路を用い,標準非nnおよび類似サイズのnn生存率解析法に対するmpvnnの癌特異的生存リスク予測結果の総合的改善を示す。 我々は,特定のがんのリスク予測において重要なPI3K-Akt経路内のシグナルフローによって結合される遺伝子のより小さなセットを示すMPVNNアーキテクチャの解釈が信頼できることを示す。

Survival risk prediction using gene expression data is important in making treatment decisions in cancer. Standard neural network (NN) survival analysis models are black boxes with lack of interpretability. More interpretable visible neural network (VNN) architectures are designed using biological pathway knowledge. But they do not model how pathway structures can change for particular cancer types. We propose a novel Mutated Pathway VNN or MPVNN architecture, designed using prior signaling pathway knowledge and gene mutation data-based edge randomization simulating signal flow disruption. As a case study, we use the PI3K-Akt pathway and demonstrate overall improved cancer-specific survival risk prediction results of MPVNN over standard non-NN and other similar sized NN survival analysis methods. We show that trained MPVNN architecture interpretation, which points to smaller sets of genes connected by signal flow within the PI3K-Akt pathway that are important in risk prediction for particular cancer types, is reliable.
翻訳日:2022-02-03 21:23:05 公開日:2022-02-02
# (参考訳) ビデオ圧縮は追跡精度に影響するか?

Does Video Compression Impact Tracking Accuracy? ( http://arxiv.org/abs/2202.00892v1 )

ライセンス: CC BY 4.0
Takehiro Tanaka, Alon Harell, Ivan V. Baji\'c(参考訳) ビデオの圧縮は、オブジェクト追跡の精度を低下させる、と誰もが知っている。 しかし、この話題に関する文献検索では、この推定事実の証拠がほとんどないことが明らかになっている。 その理由の一部は、最近まで非圧縮ビデオのオブジェクト追跡データセットがなかったため、圧縮が追跡精度に与える影響を研究するのが難しくなったためである。 本稿では,非圧縮ビデオのトラッキングアノテーションを含む最近発表されたデータセットを用いて,厳密な統計的手法を用いて,映像圧縮によるトラッキング精度の低下を検討した。 具体的には、量子化パラメータ(QP)と運動探索範囲(MSR)がMultiple Object Tracking Accuracy(MOTA)に与える影響について検討した。 その結果、QPはMOTAに95%の信頼度で影響を及ぼすが、MSRがMOTAに影響を及ぼすという証拠は不十分であることがわかった。 さらに,回帰分析により,実験で使用した特定トラッカに対して,motaとqpの定量的関係を導出することができる。

Everyone "knows" that compressing a video will degrade the accuracy of object tracking. Yet, a literature search on this topic reveals that there is very little documented evidence for this presumed fact. Part of the reason is that, until recently, there were no object tracking datasets for uncompressed video, which made studying the effects of compression on tracking accuracy difficult. In this paper, using a recently published dataset that contains tracking annotations for uncompressed videos, we examined the degradation of tracking accuracy due to video compression using rigorous statistical methods. Specifically, we examined the impact of quantization parameter (QP) and motion search range (MSR) on Multiple Object Tracking Accuracy (MOTA). The results show that QP impacts MOTA at the 95% confidence level, while there is insufficient evidence to claim that MSR impacts MOTA. Moreover, regression analysis allows us to derive a quantitative relationship between MOTA and QP for the specific tracker used in the experiments.
翻訳日:2022-02-03 21:09:29 公開日:2022-02-02
# (参考訳) グラフにモールド: 混合空間上の効率的なベイズ最適化

Mold into a Graph: Efficient Bayesian Optimization over Mixed-Spaces ( http://arxiv.org/abs/2202.00893v1 )

ライセンス: CC BY 4.0
Jaeyeon Ahn, Taehyeon Kim, Seyoung Yun(参考訳) 実世界の最適化問題は一般にブラックボックス問題だけでなく、離散変数と連続変数が共存する混合入力も含む。 このような混合空間最適化は、入力間の複雑な相互作用をモデル化する主な課題である。 本研究では,変数をノードとする変数と,エッジによって定義された相互作用をモデル化するために,グラフデータ構造を利用する新しいシンプルなアプローチを提案する。 次に、変動グラフオートエンコーダを用いて、相互作用を自然に考慮する。 まず,そのようなグラフ構造が存在することの実証的証拠を提供し,次いで最適なグラフ接続を適応的に探索するためのグラフ構造学習と潜在空間最適化の合同フレームワークを提案する。 実験により,本手法は,多くの実世界の課題に対して,計算効率の高い既存手法よりも優れた性能を示した。

Real-world optimization problems are generally not just black-box problems, but also involve mixed types of inputs in which discrete and continuous variables coexist. Such mixed-space optimization possesses the primary challenge of modeling complex interactions between the inputs. In this work, we propose a novel yet simple approach that entails exploiting the graph data structure to model the underlying relationship between variables, i.e., variables as nodes and interactions defined by edges. Then, a variational graph autoencoder is used to naturally take the interactions into account. We first provide empirical evidence of the existence of such graph structures and then suggest a joint framework of graph structure learning and latent space optimization to adaptively search for optimal graph connectivity. Experimental results demonstrate that our method shows remarkable performance, exceeding the existing approaches with significant computational efficiency for a number of synthetic and real-world tasks.
翻訳日:2022-02-03 21:00:02 公開日:2022-02-02
# (参考訳) 解釈性を考慮した画像偽造検出

Image Forgery Detection with Interpretability ( http://arxiv.org/abs/2202.00908v1 )

ライセンス: CC BY 4.0
Ankit Katiyar, Arnav Bhavsar(参考訳) 本稿では,畳み込みニューラルネットワーク(convolutional neural network, cnn)アーキテクチャに着目した学習に基づく偽造検出手法を提案する。 コピー・ムーブ・フォージェリーとインペインティング・ベース・フォージェリーの両方を検出することを検討する。 これらのために、私たちは独自の大きなデータセットを合成します。 分類に加えて,偽造検出の解釈可能性にも焦点を当てている。 CNN分類は画像レベルラベルを生成するため、偽領域が実際に分類に寄与しているかどうかを理解することが重要である。 この目的のために,Grad-CAMヒートマップを用いて,様々な正しく分類された例において,鍛造領域が実際に分類に寄与する領域であることを実証した。 興味深いことに、これは我々の結果に示すように、小さな鍛造された領域にも当てはまる。 このような分析は分類の信頼性を確立するのにも役立つ。

In this work, we present a learning based method focusing on the convolutional neural network (CNN) architecture to detect these forgeries. We consider the detection of both copy-move forgeries and inpainting based forgeries. For these, we synthesize our own large dataset. In addition to classification, the focus is also on interpretability of the forgery detection. As the CNN classification yields the image-level label, it is important to understand if forged region has indeed contributed to the classification. For this purpose, we demonstrate using the Grad-CAM heatmap, that in various correctly classified examples, that the forged region is indeed the region contributing to the classification. Interestingly, this is also applicable for small forged regions, as is depicted in our results. Such an analysis can also help in establishing the reliability of the classification.
翻訳日:2022-02-03 20:39:38 公開日:2022-02-02
# (参考訳) Invariant Ancestry Search

Invariant Ancestry Search ( http://arxiv.org/abs/2202.00913v1 )

ライセンス: CC BY 4.0
Phillip B. Mogensen, Nikolaj Thams, Jonas Peters(参考訳) 近年,応答変数の因果親の部分集合を推論するために,環境変化に対する予測モデルの不変性を利用する手法が提案されている。 環境が基礎となるメカニズムのごく一部にしか影響しない場合、例えば不変因果予測によって特定される部分集合は小さいか、あるいは空である。 最小不変性の概念を導入し、不変祖先探索(IAS)を提案する。 集団バージョンでは、IASは応答の祖先のみを含む集合を出力し、ICPの出力のスーパーセットである。 データに適用すると、不変性テストが漸近レベルとパワーを持つ場合、対応する保証は漸近的に保持される。 スケーラブルなアルゴリズムを開発し,シミュレーションおよび実データ実験を行う。

Recently, methods have been proposed that exploit the invariance of prediction models with respect to changing environments to infer subsets of the causal parents of a response variable. If the environments influence only few of the underlying mechanisms, the subset identified by invariant causal prediction, for example, may be small, or even empty. We introduce the concept of minimal invariance and propose invariant ancestry search (IAS). In its population version, IAS outputs a set which contains only ancestors of the response and is a superset of the output of ICP. When applied to data, corresponding guarantees hold asymptotically if the underlying test for invariance has asymptotic level and power. We develop scalable algorithms and perform experiments on simulated and real data.
翻訳日:2022-02-03 20:32:23 公開日:2022-02-02
# (参考訳) restless multi-armed banditsにおける意思決定中心の学習と母子ケア領域への応用

Decision-Focused Learning in Restless Multi-Armed Bandits with Application to Maternal and Child Care Domain ( http://arxiv.org/abs/2202.00916v1 )

ライセンス: CC BY 4.0
Kai Wang, Shresth Verma, Aditya Mate, Sanket Shah, Aparna Taneja, Neha Madhiwalla, Aparna Hegde, Milind Tambe(参考訳) 本稿では、未知のアーム遷移ダイナミクスを持つが既知のアーム特徴を持つレストレスマルチアームバンディット(rmab)問題について検討する。 目標は、WhittleインデックスポリシーがRMAB問題を予測トランジションを用いて解決する、与えられた特徴の遷移ダイナミクスを予測するモデルを学ぶことである。 しかしながら、先行研究は、最終的なRMABソリューションの品質の代わりに予測精度を最大化し、トレーニングと評価目標のミスマッチを引き起こすことでモデルを学習することが多い。 この欠点に対処するため,RMAB において,Whittle インデックスソリューションの品質を最大化するために,予測モデルを直接訓練する新たな学習手法を提案する。 主な貢献は3つあります 一 意思決定中心の学習を支援するためのウィトル指数政策の差別性を確立すること。 二) 逐次問題における意思決定中心の学習アプローチのスケーラビリティを著しく向上させる。 3)実世界の母子保健領域におけるサービスコールスケジューリング問題に対して,本アルゴリズムを適用した。 我々のアルゴリズムは、RMABにおける意思決定中心の学習において、大規模な実世界の問題にスケールする最初のものである。 \end{abstract}

This paper studies restless multi-armed bandit (RMAB) problems with unknown arm transition dynamics but with known correlated arm features. The goal is to learn a model to predict transition dynamics given features, where the Whittle index policy solves the RMAB problems using predicted transitions. However, prior works often learn the model by maximizing the predictive accuracy instead of final RMAB solution quality, causing a mismatch between training and evaluation objectives. To address this shortcoming we propose a novel approach for decision-focused learning in RMAB that directly trains the predictive model to maximize the Whittle index solution quality. We present three key contributions: (i) we establish the differentiability of the Whittle index policy to support decision-focused learning; (ii) we significantly improve the scalability of previous decision-focused learning approaches in sequential problems; (iii) we apply our algorithm to the service call scheduling problem on a real-world maternal and child health domain. Our algorithm is the first for decision-focused learning in RMAB that scales to large-scale real-world problems. \end{abstract}
翻訳日:2022-02-03 20:31:16 公開日:2022-02-02
# (参考訳) TONet:ポリフォニック音楽からのメロディ抽出のためのトーンオクタベネットワーク

TONet: Tone-Octave Network for Singing Melody Extraction from Polyphonic Music ( http://arxiv.org/abs/2202.00951v1 )

ライセンス: CC BY 4.0
Ke Chen, Shuai Yu, Cheng-i Wang, Wei Li, Taylor Berg-Kirkpatrick, Shlomo Dubnov(参考訳) 音楽情報検索の分野では,歌唱メロディ抽出が重要な課題である。 既存の手法は通常、歌声の周波数を推定するために周波数領域表現に依存する。 しかし、この設計は、メロディ情報(ピッチクラス)とオクターブの両方の知覚において、人間レベルのパフォーマンスをもたらすものではない。 本稿では,新しい入力表現と新しいネットワークアーキテクチャを活用することで,トーンとオクターブの両方の知覚を改善するプラグイン・アンド・プレイモデルTONetを提案する。 まず,周波数ビンの再配置により高調波を明示的にグループ化する改良された入力表現Tone-CFPを提案する。 次に,サリアンス特徴マップ,トーン特徴マップ,オクターブ特徴マップを得るように設計されたエンコーダ・デコーダアーキテクチャを提案する。 第3に,最終塩分特徴マップを改善するためのトーン・オクターブ融合機構を提案する。 さまざまなベースラインバックボーンモデルでTONetの能力を検証する実験が行われている。 その結果、音素-cfpとのトーン-オクターブ融合により、さまざまなデータセットにおける歌声抽出性能が大幅に向上し、オクターブとトーン精度が大幅に向上した。

Singing melody extraction is an important problem in the field of music information retrieval. Existing methods typically rely on frequency-domain representations to estimate the sung frequencies. However, this design does not lead to human-level performance in the perception of melody information for both tone (pitch-class) and octave. In this paper, we propose TONet, a plug-and-play model that improves both tone and octave perceptions by leveraging a novel input representation and a novel network architecture. First, we present an improved input representation, the Tone-CFP, that explicitly groups harmonics via a rearrangement of frequency-bins. Second, we introduce an encoder-decoder architecture that is designed to obtain a salience feature map, a tone feature map, and an octave feature map. Third, we propose a tone-octave fusion mechanism to improve the final salience feature map. Experiments are done to verify the capability of TONet with various baseline backbone models. Our results show that tone-octave fusion with Tone-CFP can significantly improve the singing voice extraction performance across various datasets -- with substantial gains in octave and tone accuracy.
翻訳日:2022-02-03 20:09:31 公開日:2022-02-02
# (参考訳) 共同コミュニティ検出とリンク予測のためのモジュラリティアウェアグラフオートエンコーダ

Modularity-Aware Graph Autoencoders for Joint Community Detection and Link Prediction ( http://arxiv.org/abs/2202.00961v1 )

ライセンス: CC BY 4.0
Guillaume Salha-Galvan and Johannes F. Lutzeyer and George Dasoulas and Romain Hennequin and Michalis Vazirgiannis(参考訳) グラフオートエンコーダ(GAE)と変分グラフオートエンコーダ(VGAE)はリンク予測の強力な手法として登場した。 彼らのパフォーマンスはコミュニティ検出の問題に対してあまり印象的ではなく、最近の実験的な評価によれば、ルービン法のようなより単純な代替法によってしばしば改善される。 特にノード機能がない場合、GAEとVGAEによるコミュニティ検出がどの程度改善できるかは、現時点では不明である。 さらに、リンク予測で優れた性能を保ちながら、それができるかどうかも不明である。 本稿では,これら2つの課題を高い精度で協調的に解決できることを示す。 本研究では,組込み空間の計算において,初期グラフ構造とモジュール性に基づく事前コミュニティの両方を考慮し,GAEとVGAEエンコーダをドープする,コミュニティ保存型メッセージパッシング方式の導入と理論的研究を行う。 また,共同リンク予測とコミュニティ検出のための既存の再構成損失を補完するモジュール型正規化器の導入など,新たなトレーニングと最適化戦略を提案する。 実世界のグラフの詳細な検証を通じて,モジュール性を考慮したGAEとVGAEと呼ばれるアプローチの有効性を実証する。

Graph autoencoders (GAE) and variational graph autoencoders (VGAE) emerged as powerful methods for link prediction. Their performances are less impressive on community detection problems where, according to recent and concurring experimental evaluations, they are often outperformed by simpler alternatives such as the Louvain method. It is currently still unclear to which extent one can improve community detection with GAE and VGAE, especially in the absence of node features. It is moreover uncertain whether one could do so while simultaneously preserving good performances on link prediction. In this paper, we show that jointly addressing these two tasks with high accuracy is possible. For this purpose, we introduce and theoretically study a community-preserving message passing scheme, doping our GAE and VGAE encoders by considering both the initial graph structure and modularity-based prior communities when computing embedding spaces. We also propose novel training and optimization strategies, including the introduction of a modularity-inspired regularizer complementing the existing reconstruction losses for joint link prediction and community detection. We demonstrate the empirical effectiveness of our approach, referred to as Modularity-Aware GAE and VGAE, through in-depth experimental validation on various real-world graphs.
翻訳日:2022-02-03 19:58:09 公開日:2022-02-02
# (参考訳) 通信制約下における最適高次元および非パラメトリック分散試験

Optimal high-dimensional and nonparametric distributed testing under communication constraints ( http://arxiv.org/abs/2202.00968v1 )

ライセンス: CC BY 4.0
Botond Szab\'o, Lasse Vuursteen, Harry van Zanten(参考訳) 複数のマシンにまたがってデータが分割され、中央マシンへの通信が制限される分散フレームワークにおいて、ミニマックステストエラーを導出する。 ガウス白色雑音下での$d$-および無限次元信号検出問題について検討する。 また、分散テストアルゴリズムを理論上の下限まで導出する。 この結果から,分散テストは分散推定では観測されない現象が根本的に異なることが示唆された。 以上の結果から,共有ランダム性にアクセス可能なテストプロトコルは,そうでないシステムよりも厳格に機能する可能性が示唆された。 さらに、一貫性のある非パラメトリックな分散テストが常に可能であり、1ビットの通信しかなく、対応するテストが1つのローカルマシンで利用可能な情報のみを使用して最高のローカルテストを上回ることを示している。

We derive minimax testing errors in a distributed framework where the data is split over multiple machines and their communication to a central machine is limited to $b$ bits. We investigate both the $d$- and infinite-dimensional signal detection problem under Gaussian white noise. We also derive distributed testing algorithms reaching the theoretical lower bounds. Our results show that distributed testing is subject to fundamentally different phenomena that are not observed in distributed estimation. Among our findings, we show that testing protocols that have access to shared randomness can perform strictly better in some regimes than those that do not. Furthermore, we show that consistent nonparametric distributed testing is always possible, even with as little as $1$-bit of communication and the corresponding test outperforms the best local test using only the information available at a single local machine.
翻訳日:2022-02-03 19:57:06 公開日:2022-02-02
# (参考訳) dcsau-net:より深くよりコンパクトな医療画像分割用スプリットアテンションu-net

DCSAU-Net: A Deeper and More Compact Split-Attention U-Net for Medical Image Segmentation ( http://arxiv.org/abs/2202.00972v1 )

ライセンス: CC BY 4.0
Qing Xu and Wenting Duan and Na He(参考訳) 画像分割は医用画像解析の重要なステップである。 ディープニューラルネットワークに基づくアプローチが導入され、従来の画像処理手法よりも信頼性の高い結果が得られた。 しかし、多くのモデルは単一の医用画像アプリケーションに焦点を当てており、複雑な画像を扱う能力は限られている。 本稿では,マルチスケールスプリットアテンションと深層深度畳み込みを用いて有用な特徴を抽出する,より深く,よりコンパクトなスプリットアテンション u-shape network (dcsau-net) を提案する。 CVC-ClinicDB、2018 Data Science Bowl、ISIC-2018、SegPC-2021データセットで提案モデルを評価する。 その結果、DCSAU-Netは、平均的なUnion(mIoU)とF1-socreの観点から、他の最先端(SOTA)手法よりも優れた性能を示す。 さらに,課題の画像に対して,より優れたセグメンテーション性能を示すモデルを提案する。

Image segmentation is a key step for medical image analysis. Approaches based on deep neural networks have been introduced and performed more reliable results than traditional image processing methods. However, many models focus on one medical image application and still show limited abilities to work with complex images. In this paper, we propose a novel deeper and more compact split-attention u-shape network (DCSAU-Net) that extracts useful features using multi-scale combined split-attention and deeper depthwise convolution. We evaluate the proposed model on CVC-ClinicDB, 2018 Data Science Bowl, ISIC-2018 and SegPC-2021 datasets. As a result, DCSAU-Net displays better performance than other state-of-the-art (SOTA) methods in terms of the mean Intersection over Union (mIoU) and F1-socre. More significantly, the proposed model demonstrate better segmentation performance on challenging images.
翻訳日:2022-02-03 19:56:04 公開日:2022-02-02
# (参考訳) ハイパースペクトル画像におけるクラスタリングのための辞書学習

Dictionary learning for clustering on hyperspectral images ( http://arxiv.org/abs/2202.00990v1 )

ライセンス: CC BY 4.0
Joshua Bruton and Hairong Wang(参考訳) 辞書学習とスパース符号化は教師なし特徴学習のメカニズムとして広く研究されている。 教師なし学習は、高スペクトル画像の処理や、ラベル付きデータはこの分野では少ないため、他のリモートセンシングデータ分析に多大な利益をもたらす可能性がある。 本稿では,代表辞書から計算したスパース係数を特徴として,ハイパースペクトル画像の画素をクラスタリングする方法を提案する。 提案手法は,元のピクセルのクラスタリングよりも効果的に動作することを示す。 また,本手法は,主成分分析と非負行列分解を用いて抽出した特徴量のクラスタリング結果よりも優れていることを示す。 さらに,本手法は,高スペクトル衛星画像を扱う場合の高次元データの繰り返しクラスタリングにも適している。

Dictionary learning and sparse coding have been widely studied as mechanisms for unsupervised feature learning. Unsupervised learning could bring enormous benefit to the processing of hyperspectral images and to other remote sensing data analysis because labelled data are often scarce in this field. We propose a method for clustering the pixels of hyperspectral images using sparse coefficients computed from a representative dictionary as features. We show empirically that the proposed method works more effectively than clustering on the original pixels. We also demonstrate that our approach, in certain circumstances, outperforms the clustering results of features extracted using principal component analysis and non-negative matrix factorisation. Furthermore, our method is suitable for applications in repetitively clustering an ever-growing amount of high-dimensional data, which is the case when working with hyperspectral satellite imagery.
翻訳日:2022-02-03 19:46:01 公開日:2022-02-02
# (参考訳) フェアネスの正規化:回帰機械学習問題におけるフェアネスの簡易正規化手法

Normalise for Fairness: A Simple Normalisation Technique for Fairness in Regression Machine Learning Problems ( http://arxiv.org/abs/2202.00993v1 )

ライセンス: CC BY 4.0
Mostafa M. Mohamed, Bj\"orn W. Schuller(参考訳) アルゴリズムと機械学習(ml)は、スケーラビリティや優れたパフォーマンスのためにmlが有利な、日常生活や意思決定プロセスにますます影響を与えています。 このようなアプリケーションの公正性は重要であり、モデルが人種、性別、その他の保護されたグループに基づいて結果を識別するべきではない。 これはインタビュー採用やリシビズム予測など、非常にセンシティブなトピックに影響を与えるモデルにとって特に重要です。 回帰問題に対する公平性は,二元分類問題と比較して一般に研究されていないため,特にラベル付けバイアスによる回帰問題における不公平性の影響を最小限に抑える,正規化(faireg)に基づく単純かつ効果的な手法を提案する。 本手法の理論的解析に加えて,データバランシングと対角訓練の2つの標準手法に対する実証的な比較を行った。 また,提案手法とデータバランシングを併用したハイブリッド定式化(FaiRegH)を併用して,ラベル付けとサンプルバイアスを同時に実現した。 実験は、パーソナリティ予測や面接スクリーニングスコアなど、さまざまなラベルのマルチモーダルデータセットファーストインプレッション(fi)を用いて実施した。 その結果、データバランスよりも不公平さの影響を低減し、また、元の問題の性能を敵の訓練ほど劣化させることなく、優れた性能を示した。

Algorithms and Machine Learning (ML) are increasingly affecting everyday life and several decision-making processes, where ML has an advantage due to scalability or superior performance. Fairness in such applications is crucial, where models should not discriminate their results based on race, gender, or other protected groups. This is especially crucial for models affecting very sensitive topics, like interview hiring or recidivism prediction. Fairness is not commonly studied for regression problems compared to binary classification problems; hence, we present a simple, yet effective method based on normalisation (FaiReg), which minimises the impact of unfairness in regression problems, especially due to labelling bias. We present a theoretical analysis of the method, in addition to an empirical comparison against two standard methods for fairness, namely data balancing and adversarial training. We also include a hybrid formulation (FaiRegH), merging the presented method with data balancing, in an attempt to face labelling and sample biases simultaneously. The experiments are conducted on the multimodal dataset First Impressions (FI) with various labels, namely personality prediction and interview screening score. The results show the superior performance of diminishing the effects of unfairness better than data balancing, also without deteriorating the performance of the original problem as much as adversarial training.
翻訳日:2022-02-03 19:33:44 公開日:2022-02-02
# (参考訳) デモグラフィーにおける機械学習アルゴリズムの公正性

Fairness of Machine Learning Algorithms in Demography ( http://arxiv.org/abs/2202.01013v1 )

ライセンス: CC BY 4.0
Ibe Chukwuemeka Emmanuel and Ekaterina Mitrofanova(参考訳) 本稿は,第1回結婚の離婚,宗教性,第1回雇用,教育の完了を予測し,ロシア人口統計データセットのモデルフェアネスとプロセスフェアネスの研究に焦点をあてたものである。 我々のゴールは、機密性のある特徴への依存を減らし、その精度を向上または少なくとも維持することで、分類器をより公平にすることであった。 ニューラルベースアプローチにおける"ドロップアウト"技術から着想を得て,プロセスフェアネスに対処するために"機能ドロップアウト"を使用するモデルを提案した。 分類器の公平性を評価し,除去すべき繊細な特徴を決定するために,我々は「ライム説明」を用いた。 これにより、特徴ドロップアウトによる分類器のプールが発生し、そのアンサンブルは感度の高い特徴に依存せず、精度に改善または全く影響がないことが示されている。 本研究では,4種類の分類器(ロジスティックレグレッション,ランダムフォレスト,バグング,アダブースト)を対象とし,実生活データ(世代・性別調査から得られたロシアの人口統計データ)を用いて実験を行い,すべてのモデルが敏感な特徴(性別,第1次パートナーシップの分割,第1次パートナーシップなど)に依存しなくなり,精度に改善や影響を与えないことを示した。

The paper is devoted to the study of the model fairness and process fairness of the Russian demographic dataset by making predictions of divorce of the 1st marriage, religiosity, 1st employment and completion of education. Our goal was to make classifiers more equitable by reducing their reliance on sensitive features while increasing or at least maintaining their accuracy. We took inspiration from "dropout" techniques in neural-based approaches and suggested a model that uses "feature drop-out" to address process fairness. To evaluate a classifier's fairness and decide the sensitive features to eliminate, we used "LIME Explanations". This results in a pool of classifiers due to feature dropout whose ensemble has been shown to be less reliant on sensitive features and to have improved or no effect on accuracy. Our empirical study was performed on four families of classifiers (Logistic Regression, Random Forest, Bagging, and Adaboost) and carried out on real-life dataset (Russian demographic data derived from Generations and Gender Survey), and it showed that all of the models became less dependent on sensitive features (such as gender, breakup of the 1st partnership, 1st partnership, etc.) and showed improvements or no impact on accuracy
翻訳日:2022-02-03 19:13:18 公開日:2022-02-02
# (参考訳) 交渉ゲームとしてのマルチタスク学習

Multi-Task Learning as a Bargaining Game ( http://arxiv.org/abs/2202.01017v1 )

ライセンス: CC BY 4.0
Aviv Navon, Aviv Shamsian, Idan Achituve, Haggai Maron, Kenji Kawaguchi, Gal Chechik, Ethan Fetaya(参考訳) マルチタスク学習(MTL)では、複数のタスクを同時に予測するためにジョイントモデルを訓練する。 ジョイントトレーニングは計算コストを削減し、データ効率を向上させるが、これらの異なるタスクの勾配が矛盾する可能性があるため、MTLのジョイントモデルをトレーニングすると、対応するシングルタスクモデルよりも低いパフォーマンスが得られることが多い。 この問題を軽減する一般的な方法は、タスク毎の勾配を特定のヒューリスティックを使用してジョイント更新方向に組み合わせることである。 本稿では,パラメータ更新の連立方向において,タスクが合意に達するための交渉を行う交渉ゲームとして,勾配の組み合わせステップを考察する。 ある仮定の下では、交渉問題にはnash bargaining solutionとして知られる一意な解があり、これはマルチタスク学習の原則的アプローチとして使用することを提案している。 本稿では,新たなMTL最適化手法であるNash-MTLについて述べる。 実験により,Nash-MTL は様々な領域における複数の MTL ベンチマークにおいて最先端の結果が得られることを示す。

In Multi-task learning (MTL), a joint model is trained to simultaneously make predictions for several tasks. Joint training reduces computation costs and improves data efficiency; however, since the gradients of these different tasks may conflict, training a joint model for MTL often yields lower performance than its corresponding single-task counterparts. A common method for alleviating this issue is to combine per-task gradients into a joint update direction using a particular heuristic. In this paper, we propose viewing the gradients combination step as a bargaining game, where tasks negotiate to reach an agreement on a joint direction of parameter update. Under certain assumptions, the bargaining problem has a unique solution, known as the Nash Bargaining Solution, which we propose to use as a principled approach to multi-task learning. We describe a new MTL optimization procedure, Nash-MTL, and derive theoretical guarantees for its convergence. Empirically, we show that Nash-MTL achieves state-of-the-art results on multiple MTL benchmarks in various domains.
翻訳日:2022-02-03 19:00:23 公開日:2022-02-02
# (参考訳) mmsys'22 サッカーのためのaiベースのビデオ制作に関する大きな挑戦

MMSys'22 Grand Challenge on AI-based Video Production for Soccer ( http://arxiv.org/abs/2202.01031v1 )

ライセンス: CC BY 4.0
Cise Midoglu, Steven A. Hicks, Vajira Thambawita, Tomas Kupka, P{\aa}l Halvorsen(参考訳) サッカーは世界のスポーツ産業でかなりのシェアを占めており、サッカーの試合の動画視聴への関心は高まっている。 この点において、主なゲームイベントの要約やハイライトを提供することが重要である。 しかし、イベントやサマリーの注釈や制作には、しばしば高価な設備と、面倒で面倒な手作業が必要となる。 したがって、高速ゲームハイライトを提供するビデオ制作パイプラインの自動化を、はるかに低コストで行うことは、"聖杯"と見なされる。 この文脈では、最近の人工知能(AI)技術の発展は大きな可能性を示している。 それでも、最先端のアプローチは、リアルタイム要件や厳格なパフォーマンス基準(少なくともゴールやカードなどの公式イベントの検出が100%正確でなければならない)を必要とする実践的なシナリオに適していない。 さらに、アノテーションや分類、適切なクリッピング、短い記述の生成、ハイライトクリップに適したサムネイルの選択、そして最後に、イベントハイライトをスポーツニュースで一般的に放送されているような全体的なゲーム要約に組み合わせることで、イベント検出を徹底的に強化する必要がある。 イベントタグ操作が最も注目を集めているが、エンドツーエンドのビデオ制作パイプラインには、サッカーの自動分析の全体的な目的に役立つ様々な操作も含まれている。 この課題は、aiを使用した生産パイプラインの自動化を支援することにある。 特に、イベントが検出された後に発生する強化操作、すなわち、イベントクリッピング(Task 1)、サムネイル選択(Task2)、ゲーム要約(Task3)に焦点を当てる。 チャレンジウェブサイト: https://mmsys2022.ie/authors/grand-challenge。

Soccer has a considerable market share of the global sports industry, and the interest in viewing videos from soccer games continues to grow. In this respect, it is important to provide game summaries and highlights of the main game events. However, annotating and producing events and summaries often require expensive equipment and a lot of tedious, cumbersome, manual labor. Therefore, automating the video production pipeline providing fast game highlights at a much lower cost is seen as the "holy grail". In this context, recent developments in Artificial Intelligence (AI) technology have shown great potential. Still, state-of-the-art approaches are far from being adequate for practical scenarios that have demanding real-time requirements, as well as strict performance criteria (where at least the detection of official events such as goals and cards must be 100% accurate). In addition, event detection should be thoroughly enhanced by annotation and classification, proper clipping, generating short descriptions, selecting appropriate thumbnails for highlight clips, and finally, combining the event highlights into an overall game summary, similar to what is commonly aired during sports news. Even though the event tagging operation has by far received the most attention, an end-to-end video production pipeline also includes various other operations which serve the overall purpose of automated soccer analysis. This challenge aims to assist the automation of such a production pipeline using AI. In particular, we focus on the enhancement operations that take place after an event has been detected, namely event clipping (Task 1), thumbnail selection (Task 2), and game summarization (Task 3). Challenge website: https://mmsys2022.ie/authors/grand-challenge.
翻訳日:2022-02-03 18:21:12 公開日:2022-02-02
# (参考訳) 分散シフトの公平性を維持する: 現実のアプリケーションに実行可能なソリューションはあるか?

Maintaining fairness across distribution shift: do we have viable solutions for real-world applications? ( http://arxiv.org/abs/2202.01034v1 )

ライセンス: CC BY 4.0
Jessica Schrouff and Natalie Harris and Oluwasanmi Koyejo and Ibrahim Alabdulmohsin and Eva Schnider and Krista Opsahl-Ong and Alex Brown and Subhrajit Roy and Diana Mincu and Christina Chen and Awa Dieng and Yuan Liu and Vivek Natarajan and Alan Karthikesalingam and Katherine Heller and Silvia Chiappa and Alexander D'Amour(参考訳) 公平性とロバスト性はしばしば機械学習モデルを評価する際の直交次元と見なされる。 しかし,近年の研究では,フェアネスとロバストネスの相互作用が明らかにされ,分布シフト下でフェアネス特性が維持されるとは限らない。 医療環境では、例えば、"hospital b" でデプロイされた場合の不公平さを示す "hospital a" で選択された指標に従って、公平に動作するモデルになる可能性がある。 証明可能な公正で堅牢なモデルを開発する分野が登場したが、一般的にはシフトに関する強い仮定に依存し、現実世界のアプリケーションへの影響を制限する。 本研究では,最近提案されている緩和戦略が適用可能な設定について,因果的フレーミングを参照して検討する。 皮膚科と電子健康記録における予測モデルの例を用いて,実世界の応用は複雑であり,その仮定を無効にすることが多いことを示した。 私たちの研究は、現実のアプリケーションのための堅牢で公正な機械学習モデルの開発を妨げる、技術的、実践的、および工学的なギャップを強調します。 最後に、機械学習パイプラインの各ステップにおける潜在的な改善について議論する。

Fairness and robustness are often considered as orthogonal dimensions when evaluating machine learning models. However, recent work has revealed interactions between fairness and robustness, showing that fairness properties are not necessarily maintained under distribution shift. In healthcare settings, this can result in e.g. a model that performs fairly according to a selected metric in "hospital A" showing unfairness when deployed in "hospital B". While a nascent field has emerged to develop provable fair and robust models, it typically relies on strong assumptions about the shift, limiting its impact for real-world applications. In this work, we explore the settings in which recently proposed mitigation strategies are applicable by referring to a causal framing. Using examples of predictive models in dermatology and electronic health records, we show that real-world applications are complex and often invalidate the assumptions of such methods. Our work hence highlights technical, practical, and engineering gaps that prevent the development of robustly fair machine learning models for real-world applications. Finally, we discuss potential remedies at each step of the machine learning pipeline.
翻訳日:2022-02-03 18:10:46 公開日:2022-02-02
# (参考訳) ballistocardiography を用いた睡眠ステージ分類

Using Ballistocardiography for Sleep Stage Classification ( http://arxiv.org/abs/2202.01038v1 )

ライセンス: CC BY 4.0
iebei Liu, Peter Morris, Krista Nelson, Mehdi Boukhechba(参考訳) 睡眠が人々の生活に与える影響を学習し始めるにつれ、睡眠段階を検出するための実践的な方法がより求められている。 現在の睡眠ステージ検出法は高価であり、人の睡眠に侵襲的であり、現代の家庭では実用的ではない。 本研究は、脳活動、筋活動、眼球運動のモニタリングによる睡眠ステージの検出方法であり、実験環境での脳波による睡眠ステージの検出にゴールドスタンダードを提供する一方で、睡眠習慣に邪魔をすることなく、同様の洞察を得ることを可能にする新しい方法を検討することを目的としている。 ballistocardiography(bcg)は、心臓の弾道力を測定することで情報を収集する非侵襲的センシング技術である。 使用時間,心拍数,呼吸速度,相対脳卒中量,心拍変動などのBCGから抽出した特徴を用いて,睡眠ステージ検出アルゴリズムを実装し,Fitbit Sense Smart Watchから抽出した睡眠ステージと比較する。 BCGのアクセシビリティ、使いやすさ、比較的低コストは、このデバイスを使用するための多くのアプリケーションと利点を提供する。 このデバイスを標準化することで、人々は自分の睡眠パターンを分析し、睡眠効率の結論を導き出すBCGの恩恵を受けることができる。 本研究は,bcgを,個人の睡眠環境を快適に設定可能な,正確で非侵襲的な睡眠モニタリング手法として使用できることを示す。

A practical way of detecting sleep stages has become more necessary as we begin to learn about the vast effects that sleep has on people's lives. The current methods of sleep stage detection are expensive, invasive to a person's sleep, and not practical in a modern home setting. While the method of detecting sleep stages via the monitoring of brain activity, muscle activity, and eye movement, through electroencephalogram in a lab setting, provide the gold standard for detection, this paper aims to investigate a new method that will allow a person to gain similar insight and results with no obtrusion to their normal sleeping habits. Ballistocardiography (BCG) is a non-invasive sensing technology that collects information by measuring the ballistic forces generated by the heart. Using features extracted from BCG such as time of usage, heart rate, respiration rate, relative stroke volume, and heart rate variability, we propose to implement a sleep stage detection algorithm and compare it against sleep stages extracted from a Fitbit Sense Smart Watch. The accessibility, ease of use, and relatively-low cost of the BCG offers many applications and advantages for using this device. By standardizing this device, people will be able to benefit from the BCG in analyzing their own sleep patterns and draw conclusions on their sleep efficiency. This work demonstrates the feasibility of using BCG for an accurate and non-invasive sleep monitoring method that can be set up in the comfort of a one's personal sleep environment.
翻訳日:2022-02-03 18:09:10 公開日:2022-02-02
# (参考訳) 人工知能の長いゲームにおける知識工学--音声行為の場合

Knowledge Engineering in the Long Game of Artificial Intelligence: The Case of Speech Acts ( http://arxiv.org/abs/2202.01040v1 )

ライセンス: CC BY 4.0
Marjorie McShane, Jesse English, Sergei Nirenburg(参考訳) 本稿では,知識工学の原則と実践について述べるとともに,ドメインやアプリケーションにまたがって機能し,生涯学習を通じてその存在論的および語彙的知識を拡張できる包括的言語指向の知的エージェントの開発を可能にする。 本稿では,言語学,認知モデル,統計自然言語処理において広く研究されている課題である対話行動モデリングに注目した。 我々は、オンタジェントな知識中心の認知アーキテクチャに基づく統合的アプローチを説明し、ダイアログを他のエージェント機能から分離する過去のアプローチの限界を強調する。

This paper describes principles and practices of knowledge engineering that enable the development of holistic language-endowed intelligent agents that can function across domains and applications, as well as expand their ontological and lexical knowledge through lifelong learning. For illustration, we focus on dialog act modeling, a task that has been widely pursued in linguistics, cognitive modeling, and statistical natural language processing. We describe an integrative approach grounded in the OntoAgent knowledge-centric cognitive architecture and highlight the limitations of past approaches that isolate dialog from other agent functionalities.
翻訳日:2022-02-03 17:58:43 公開日:2022-02-02
# (参考訳) 集積機械学習による機能材料発見のための元素選択と特性への原子的貢献

Element selection for functional materials discovery by integrated machine learning of atomic contributions to properties ( http://arxiv.org/abs/2202.01051v1 )

ライセンス: CC BY 4.0
Andrij Vasylenko, Dmytro Antypov, Vladimir Gusev, Michael W. Gaultois, Matthew S. Dyer, Matthew J. Rosseinsky(参考訳) 高いレベルでは、物質間の根本的な違いは成分化学元素の独特な性質に由来する。 所定の結晶構造(相)における元素(組成)の正確な比に応じて特定の違いが現れる前に、その物質は構成化学元素の集合として定義される相場で表すことができる。 相場のレベルでの材料分類は、合成可能な材料に望ましい機能特性をもたらす可能性のある元素の組み合わせを選択することで、材料発見を加速することができる。 ここでは, 対象機能特性の最大期待値に対する材料相場の分類と, 材料合成アクセシビリティのランク付けを併用できることを実証する。 このエンドツーエンド機械学習アプローチ(phaseselect)は、計算学的および実験的に検討されたすべての材料における合成環境から原子特性を導出し、それらの特性を用いて位相場をそのメリットによって分類する。 ここでは, 高温超伝導, 高温磁性, 目標エネルギーバンドギャップ材料という3つの分野の材料応用に対して, 高い精度で, 周期表のレベルにおける材料ポテンシャルを定量化することができる。

At the high level, the fundamental differences between materials originate from the unique nature of the constituent chemical elements. Before specific differences emerge according to the precise ratios of elements (composition) in a given crystal structure (phase), the material can be represented by its phase field defined simply as the set of the constituent chemical elements. Classification of the materials at the level of their phase fields can accelerate materials discovery by selecting the elemental combinations that are likely to produce desirable functional properties in synthetically accessible materials. Here, we demonstrate that classification of the materials phase field with respect to the maximum expected value of a target functional property can be combined with the ranking of the materials synthetic accessibility. This end-to-end machine learning approach (PhaseSelect) first derives the atomic characteristics from the compositional environments in all computationally and experimentally explored materials and then employs these characteristics to classify the phase field by their merit. PhaseSelect can quantify the materials potential at the level of the periodic table, which we demonstrate with significant accuracy for three avenues of materials applications: high-temperature superconducting, high-temperature magnetic and targetted energy band gap materials.
翻訳日:2022-02-03 17:40:07 公開日:2022-02-02
# (参考訳) 概念活性化ベクトルを用いたマルチモーダル感情認識の解釈可能性

Interpretability for Multimodal Emotion Recognition using Concept Activation Vectors ( http://arxiv.org/abs/2202.01072v1 )

ライセンス: CC BY 4.0
Ashish Ramayee Asokan, Nidarshan Kumar, Anirudh Venkata Ragam, Shylaja S Sharath(参考訳) マルチモーダル感情認識(multimodal emotion recognition)は、入力されたビデオシーケンスを複数の入力モダリティ(通常、ビデオ、オーディオ、テキスト)に基づいて感情ラベルに分類することを指す。 近年、ディープニューラルネットワークは人間の感情を認識する上で顕著な性能を示しており、このタスクにおける人間レベルのパフォーマンスと同等である。 この分野での最近の進歩にもかかわらず、感情認識システムは、その推論と意思決定プロセスのあいまいな性質のため、現実の環境では受け入れられていない。 この分野での研究のほとんどは、このタスクのパフォーマンスを改善するための新しいアーキテクチャを扱い、これらのモデルの決定を説明するためのいくつかの試みである。 本稿では,概念活性化ベクトル(CAV)を用いた感情認識におけるニューラルネットワークの解釈可能性の問題に対処する。 モデルの潜在空間を分析するために、感情AI特有の人間理解可能な概念を定義し、広く使われているIEMOCAPマルチモーダルデータベースにマッピングする。 次に,BC-LSTM(Bi-directional Contextual LSTM)ネットワークの複数層において提案した概念の影響を評価し,人間の理解可能な概念を用いてニューラルネットワークの推論過程を表現可能であることを示す。 最後に,提案した概念の仮説テストを行い,この課題の解釈可能性に重要であることを示す。

Multimodal Emotion Recognition refers to the classification of input video sequences into emotion labels based on multiple input modalities (usually video, audio and text). In recent years, Deep Neural networks have shown remarkable performance in recognizing human emotions, and are on par with human-level performance on this task. Despite the recent advancements in this field, emotion recognition systems are yet to be accepted for real world setups due to the obscure nature of their reasoning and decision-making process. Most of the research in this field deals with novel architectures to improve the performance for this task, with a few attempts at providing explanations for these models' decisions. In this paper, we address the issue of interpretability for neural networks in the context of emotion recognition using Concept Activation Vectors (CAVs). To analyse the model's latent space, we define human-understandable concepts specific to Emotion AI and map them to the widely-used IEMOCAP multimodal database. We then evaluate the influence of our proposed concepts at multiple layers of the Bi-directional Contextual LSTM (BC-LSTM) network to show that the reasoning process of neural networks for emotion recognition can be represented using human-understandable concepts. Finally, we perform hypothesis testing on our proposed concepts to show that they are significant for interpretability of this task.
翻訳日:2022-02-03 17:39:02 公開日:2022-02-02
# (参考訳) GPU上のギガスケールカーネル行列ベクトル乗算

Giga-scale Kernel Matrix Vector Multiplication on GPU ( http://arxiv.org/abs/2202.01085v1 )

ライセンス: CC BY 4.0
Robert Hu, Dino Sejdinovic, Joan Alexis Glaun\`es(参考訳) kernel matrix vector multiplication (kmvm) は、カーネルの文献から信号処理まで、機械学習と科学計算におけるユビキタスな操作である。 カーネル行列ベクトル乗算はメモリと時間の両方で二次的にスケールする傾向があるため、これらの計算スケーリングの制約によってアプリケーションは制限されることが多い。 KMVMのスケーリング問題に対処するために,Fast-Fast and Free Memory Method ("\text{F}^3$M") という新しい近似手法を提案する。 大規模な実験により、$\text{F}^3$Mは10-3$の相対誤差を持つ経験的な \emph{linear time and memory} 複雑性を持ち、ハイエンドGPU上で10億ポイントの KMVM を計算できることが示され、既存のCPU手法と比較して大幅に高速化された。 さらに,最先端のGPUベース線形解法 FALKON, \emph{improving speed 3-5 times} のドロップインとして, 精度$<$1\%のコストで適用することで, 提案手法の有用性を実証する。

Kernel matrix vector multiplication (KMVM) is a ubiquitous operation in machine learning and scientific computing, spanning from the kernel literature to signal processing. As kernel matrix vector multiplication tends to scale quadratically in both memory and time, applications are often limited by these computational scaling constraints. We propose a novel approximation procedure coined Faster-Fast and Free Memory Method ($\text{F}^3$M) to address these scaling issues for KMVM. Extensive experiments demonstrate that $\text{F}^3$M has empirical \emph{linear time and memory} complexity with a relative error of order $10^{-3}$ and can compute a full KMVM for a billion points \emph{in under one minute} on a high-end GPU, leading to a significant speed-up in comparison to existing CPU methods. We further demonstrate the utility of our procedure by applying it as a drop-in for the state-of-the-art GPU-based linear solver FALKON, \emph{improving speed 3-5 times} at the cost of $<$1\% drop in accuracy.
翻訳日:2022-02-03 17:23:58 公開日:2022-02-02
# (参考訳) 検索用テキスト生成に関する調査研究

A Survey on Retrieval-Augmented Text Generation ( http://arxiv.org/abs/2202.01110v1 )

ライセンス: CC BY 4.0
Huayang Li and Yixuan Su and Deng Cai and Yan Wang and Lemao Liu(参考訳) 近年,検索強化テキスト生成は,計算言語学コミュニティの注目を集めている。 従来の世代モデルと比較すると,検索によるテキスト生成には優れた利点があり,多くのnlpタスクにおいて最先端のパフォーマンスを達成している。 本稿では,検索強化テキスト生成に関する調査を行う。 まず、検索型生成の汎用パラダイムを強調し、次に対話応答生成、機械翻訳、その他の生成タスクなど、さまざまなタスクに応じて注目すべきアプローチをレビューする。 最後に、今後の研究を促進するための最近の手法の上に、いくつかの重要な方向性を指摘する。

Recently, retrieval-augmented text generation attracted increasing attention of the computational linguistics community. Compared with conventional generation models, retrieval-augmented text generation has remarkable advantages and particularly has achieved state-of-the-art performance in many NLP tasks. This paper aims to conduct a survey about retrieval-augmented text generation. It firstly highlights the generic paradigm of retrieval-augmented generation, and then it reviews notable approaches according to different tasks including dialogue response generation, machine translation, and other generation tasks. Finally, it points out some important directions on top of recent methods to facilitate future research.
翻訳日:2022-02-03 17:00:18 公開日:2022-02-02
# (参考訳) 線形圧縮下での線形分離性とハードサポートベクトルマシンへの応用について

On Linear Separability under Linear Compression with Applications to Hard Support Vector Machine ( http://arxiv.org/abs/2202.01118v1 )

ライセンス: CC BY 4.0
Paul McVay, Dr. Tie Liu, Dr. Krishna Narayanan(参考訳) 本稿では,データ生成分布の線形分離性を線形圧縮下で維持する理論的問題について検討する。 線形分離性は、領域点間の内積をほぼ保存する線形変換によって維持されることが長年知られているが、線形分離性を維持するために内積を保存しておく限界は不明である。 本稿では,内部積の歪みが元のデータ生成分布の2乗限界よりも小さい限り,線形分離性が維持されることを示す。 この証明は主に、有限個のトレーニング例からデータ生成分布の無限領域へと拡張されたハードサポートベクトルマシン(SVM)の幾何学に基づいている。 応用として 境界を導出します (i)ランダム・ガウス行列の圧縮長、及び (ii)ハードsvmを用いた圧縮学習における一般化誤差

This paper investigates the theoretical problem of maintaining linear separability of the data-generating distribution under linear compression. While it has been long known that linear separability may be maintained by linear transformations that approximately preserve the inner products between the domain points, the limit to which the inner products are preserved in order to maintain linear separability was unknown. In this paper, we show that linear separability is maintained as long as the distortion of the inner products is smaller than the squared margin of the original data-generating distribution. The proof is mainly based on the geometry of hard support vector machines (SVM) extended from the finite set of training examples to the (possibly) infinite domain of the data-generating distribution. As applications, we derive bounds on the (i) compression length of random sub-Gaussian matrices; and (ii) generalization error for compressive learning with hard-SVM.
翻訳日:2022-02-03 16:41:10 公開日:2022-02-02
# (参考訳) 言語モデルによる単語の読み時間の予測可能性よりも優れた説明

Language Models Explain Word Reading Times Better Than Empirical Predictability ( http://arxiv.org/abs/2202.01128v1 )

ライセンス: CC BY 4.0
Markus J. Hofmann, Steffen Remus, Chris Biemann, Ralph Radach and Lars Kuchinke(参考訳) 単語の長さと頻度が、精神的な語彙へのアクセスを視覚的に判断する最も重要な単一語の特徴であるという強いコンセンサスがあるが、統語論と意味論の要素を最善にとらえる方法についての一致は少ない。 認知読解研究における従来の手法は、文章の文脈から単語を予測することは、人間のパフォーマンスデータから導かれる閉包完了確率(CCP)によって最もよく捉えられると仮定している。 我々は,確率論的言語モデルがCCPよりも構文的・意味的効果の深い説明を提供することを示す最近の研究をレビューする。 次に,(1)シンボリックn-gramモデルとccpを比較し,先行する2つの単語を与えられた単語の確率を計算することにより,構文的・意味的短距離関係を統合する。 2) 話題モデルは文書中の単語共起数による長距離意味的類似性を取り込むための部分記号表現に依存する。 (3) リカレントニューラルネットワーク(RNN)では, 文中のすべての先行する単語から次の単語を予測するために, サブシンボリックユニットを訓練する。 これらのモデルを用いて語彙検索を行い, 単一の固定期間と視線継続時間を予測し, 急速に成功し, 標準語彙アクセスを捉え, 後期意味統合を捉える総視聴時間を求めた。 線形項目レベル分析では,全言語モデルと全眼球運動指標との相関がcppよりも高かった。 次に, 一般化加法モデルを用いて, 予測可能性の異なるタイプと読み時間との非線形関係について検討した。 現在の単語のN-gramとRNN確率は、トピックモデルやCCPと比較して、より一貫して読み出し性能を予測できる。

Though there is a strong consensus that word length and frequency are the most important single-word features determining visual-orthographic access to the mental lexicon, there is less agreement as how to best capture syntactic and semantic factors. The traditional approach in cognitive reading research assumes that word predictability from sentence context is best captured by cloze completion probability (CCP) derived from human performance data. We review recent research suggesting that probabilistic language models provide deeper explanations for syntactic and semantic effects than CCP. Then we compare CCP with (1) Symbolic n-gram models consolidate syntactic and semantic short-range relations by computing the probability of a word to occur, given two preceding words. (2) Topic models rely on subsymbolic representations to capture long-range semantic similarity by word co-occurrence counts in documents. (3) In recurrent neural networks (RNNs), the subsymbolic units are trained to predict the next word, given all preceding words in the sentences. To examine lexical retrieval, these models were used to predict single fixation durations and gaze durations to capture rapidly successful and standard lexical access, and total viewing time to capture late semantic integration. The linear item-level analyses showed greater correlations of all language models with all eye-movement measures than CCP. Then we examined non-linear relations between the different types of predictability and the reading times using generalized additive models. N-gram and RNN probabilities of the present word more consistently predicted reading performance compared with topic models or CCP.
翻訳日:2022-02-03 16:22:35 公開日:2022-02-02
# (参考訳) 保存特性と調整可能なトレードオフを有する物理系のサロゲートモデリング

Surrogate Modeling for Physical Systems with Preserved Properties and Adjustable Tradeoffs ( http://arxiv.org/abs/2202.01139v1 )

ライセンス: CC BY 4.0
Randi Wang, Morad Behandish(参考訳) 物理モデルの開発と解決のための適切な詳細レベルを決定することは、新しい工学的な問題に遭遇したときは通常困難である。 このような困難は、後の物理モデルシミュレーションの時間(シミュレーションコスト)と精度のバランスをとる方法から生じる。 本稿では,そのような意思決定を支援する柔軟なコスト・精度トレードオフを提供する物理システムのサロゲートモデル群の自動開発のための枠組みを提案する。 代理モデルを生成するためのモデルベースおよびデータ駆動型戦略を提案する。 前者は第一原理から生成された忠実度の高いモデルから始まり、先行的な誤差境界を提供しながら安定性と収束を維持するボトムアップモデルオーダリダクション(mor)を適用する。 実験データやシミュレーションデータを用いて,人工構成関係を推定された位相構造に組み込むことで,解釈可能な代理モデルを生成する。 後者については、トンティ図を用いて、様々なラッピングパラメータモデル(LPM)に共通する代数的トポロジカル意味論を用いて、仮定された位相構造から微分方程式を体系的に生成する。 構成関係のパラメータは,標準系同定アルゴリズムを用いて推定する。 我々のフレームワークは分散パラメータモデル(DPM)の様々な空間離散化スキームと互換性があり、物理学の異なる領域における工学的問題の解決を支援することができる。

Determining the proper level of details to develop and solve physical models is usually difficult when one encounters new engineering problems. Such difficulty comes from how to balance the time (simulation cost) and accuracy for the physical model simulation afterwards. We propose a framework for automatic development of a family of surrogate models of physical systems that provide flexible cost-accuracy tradeoffs to assist making such determinations. We present both a model-based and a data-driven strategy to generate surrogate models. The former starts from a high-fidelity model generated from first principles and applies a bottom-up model order reduction (MOR) that preserves stability and convergence while providing a priori error bounds, although the resulting reduced-order model may lose its interpretability. The latter generates interpretable surrogate models by fitting artificial constitutive relations to a presupposed topological structure using experimental or simulation data. For the latter, we use Tonti diagrams to systematically produce differential equations from the assumed topological structure using algebraic topological semantics that are common to various lumped-parameter models (LPM). The parameter for the constitutive relations are estimated using standard system identification algorithms. Our framework is compatible with various spatial discretization schemes for distributed parameter models (DPM), and can supports solving engineering problems in different domains of physics.
翻訳日:2022-02-03 15:47:44 公開日:2022-02-02
# (参考訳) テキストエンコーダの事前学習における相対位置予測

Relative Position Prediction as Pre-training for Text Encoders ( http://arxiv.org/abs/2202.01145v1 )

ライセンス: CC BY 4.0
Rickard Br\"uel-Gabrielsson, Chris Scarvelis(参考訳) 意味は企業によって定義されます。 トークンのアイデンティティと,その位置(トポロジ)に基づいています。 位置中心の視点はより一般的で有用であると主張する。 NLP の古典的 MLM と CLM の目的は、語彙全体の位置予測として容易に表現される。 NLPにおける相対的位置符号化のパラダイムに適応して、下流タスクのパフォーマンスによって判断される優れた事前学習を示す。

Meaning is defined by the company it keeps. However, company is two-fold: It's based on the identity of tokens and also on their position (topology). We argue that a position-centric perspective is more general and useful. The classic MLM and CLM objectives in NLP are easily phrased as position predictions over the whole vocabulary. Adapting the relative position encoding paradigm in NLP to create relative labels for self-supervised learning, we seek to show superior pre-training judged by performance on downstream tasks.
翻訳日:2022-02-03 15:36:29 公開日:2022-02-02
# CTMSTOUを駆使した市場 : 取引所における政策意識の模擬環境

CTMSTOU driven markets: simulated environment for regime-awareness in trading policie ( http://arxiv.org/abs/2202.00941v1 )

ライセンス: Link先を確認
Selim Amrouni, Aymeric Moulin, Tucker Balch(参考訳) 市場レジームは、どのように定義すべきかの詳細については合意が得られていないにもかかわらず、量的金融において一般的なトピックである。 金融市場の予測問題と金融市場の課題実行問題の両方に特徴として生じる。 本研究では,離散的イベントタイムマルチエージェント市場シミュレーションを用いて,レジームを明示的に切り換え,強制できる再現可能かつ理解可能な環境を自由に実験する。 我々は,市場参加者が知覚する基本的価値をモデル化する新しい確率的プロセス,すなわち,レジームスイッチング市場における貿易政策の研究を容易にする,連続時間マルコフスイッチングトレンド (ctmstou) を導入する。 取引業者の体制認識の概念も定義し、注文実行問題の文脈における異なる注文配置戦略の研究を通して、その重要性を説明する。

Market regimes is a popular topic in quantitative finance even though there is little consensus on the details of how they should be defined. They arise as a feature both in financial market prediction problems and financial market task performing problems. In this work we use discrete event time multi-agent market simulation to freely experiment in a reproducible and understandable environment where regimes can be explicitly switched and enforced. We introduce a novel stochastic process to model the fundamental value perceived by market participants: Continuous-Time Markov Switching Trending Ornstein-Uhlenbeck (CTMSTOU), which facilitates the study of trading policies in regime switching markets. We define the notion of regime-awareness for a trading agent as well and illustrate its importance through the study of different order placement strategies in the context of order execution problems.
翻訳日:2022-02-03 15:25:27 公開日:2022-02-02
# 遅延バイナリフィードバックを用いた適応実験

Adaptive Experimentation with Delayed Binary Feedback ( http://arxiv.org/abs/2202.00846v1 )

ライセンス: Link先を確認
Zenan Wang, Carlos Carrion, Xiliang Lin, Fuhua Ji, Yongjun Bao, Weipeng Yan(参考訳) 実現にかなりの遅延を要する目的(例えば、変換、追加カートイベントなど)で実験を行うことは困難である。 従来の"スプリットサンプルテスト(split sample testing)"は、遅延したフィードバックには依然として有効だが、実験の完了には時間がかかる。 あるいは、"multi-armed bandits"のような適応的アプローチは、実験のコストを効果的に削減することができる。 しかし、これらのメソッドは一般的に、最初から遅延した目的を直接扱えない。 本稿では,遅延二元フィードバックの目的に合わせた適応実験解について,推定に基づいて変形を具現化し動的に割り当てる前に,実際の目標を推定し,提案手法を提案する。 実験の結果,提案手法は他の手法に比べて遅延フィードバックに対して効率的であり,異なる設定で頑健であることが判明した。 さらに,本アルゴリズムを用いた実験製品について述べる。 この製品は現在、大手電子商取引会社でデジタル広告の発行元であるJD.comのオンライン実験プラットフォームにデプロイされている。

Conducting experiments with objectives that take significant delays to materialize (e.g. conversions, add-to-cart events, etc.) is challenging. Although the classical "split sample testing" is still valid for the delayed feedback, the experiment will take longer to complete, which also means spending more resources on worse-performing strategies due to their fixed allocation schedules. Alternatively, adaptive approaches such as "multi-armed bandits" are able to effectively reduce the cost of experimentation. But these methods generally cannot handle delayed objectives directly out of the box. This paper presents an adaptive experimentation solution tailored for delayed binary feedback objectives by estimating the real underlying objectives before they materialize and dynamically allocating variants based on the estimates. Experiments show that the proposed method is more efficient for delayed feedback compared to various other approaches and is robust in different settings. In addition, we describe an experimentation product powered by this algorithm. This product is currently deployed in the online experimentation platform of JD.com, a large e-commerce company and a publisher of digital ads.
翻訳日:2022-02-03 15:24:55 公開日:2022-02-02
# 医用画像における逆問題に対する後方温度最適化ベイズモデル

Posterior temperature optimized Bayesian models for inverse problems in medical imaging ( http://arxiv.org/abs/2202.00986v1 )

ライセンス: Link先を確認
Max-Heinrich Laves, Malte T\"olle, Alexander Schlaefer, Sandy Engelhardt(参考訳) 医用画像における逆問題に対する教師なしベイズ法である後方温度最適化ベイズ逆モデル(potobim)を提案する。 ベイズ法はトモグラフィー再構成や画像復調といった逆タスクに近づく上で有用な性質を示す。 適切な事前分布は、不適切な問題の解決に必要な正規化を導入し、データの過度な適合を減らす。 しかし実際には、これはしばしば準最適後温となり、ベイズ的アプローチの完全なポテンシャルは利用されない。 ポトビムでは, ガウス過程回帰によるベイズ最適化を用いて, 復元精度に関して, 先行分布のパラメータと後温度の両方を最適化する。 提案手法は,公開データセットから得られた画像を用いて,4種類の逆問題に対して広範に評価し,非ベイジアンおよびベイジアンの両方で温度最適化を行ない,最適化後温度が優れたことを示す。 最適化された事前分布と後部温度を用いることで精度と不確実性の推定が向上し、タスク領域当たりのこれらのハイパーパラメータを見つけるのに十分であることを示す。 十分に調整された後方は不確かさを校正し、予測の信頼性を高める。 ソースコードはgithub.com/Cardio-AI/mfvi-dip-miaで公開されています。

We present Posterior Temperature Optimized Bayesian Inverse Models (POTOBIM), an unsupervised Bayesian approach to inverse problems in medical imaging using mean-field variational inference with a fully tempered posterior. Bayesian methods exhibit useful properties for approaching inverse tasks, such as tomographic reconstruction or image denoising. A suitable prior distribution introduces regularization, which is needed to solve the ill-posed problem and reduces overfitting the data. In practice, however, this often results in a suboptimal posterior temperature, and the full potential of the Bayesian approach is not being exploited. In POTOBIM, we optimize both the parameters of the prior distribution and the posterior temperature with respect to reconstruction accuracy using Bayesian optimization with Gaussian process regression. Our method is extensively evaluated on four different inverse tasks on a variety of modalities with images from public data sets and we demonstrate that an optimized posterior temperature outperforms both non-Bayesian and Bayesian approaches without temperature optimization. The use of an optimized prior distribution and posterior temperature leads to improved accuracy and uncertainty estimation and we show that it is sufficient to find these hyperparameters per task domain. Well-tempered posteriors yield calibrated uncertainty, which increases the reliability in the predictions. Our source code is publicly available at github.com/Cardio-AI/mfvi-dip-mia.
翻訳日:2022-02-03 15:24:38 公開日:2022-02-02
# 特徴属性分析による帰納的伝達に適したタスクの同定

Identifying Suitable Tasks for Inductive Transfer Through the Analysis of Feature Attributions ( http://arxiv.org/abs/2202.01096v1 )

ライセンス: Link先を確認
Alexander J. Hepburn, Richard McCreadie(参考訳) トランスファーラーニングアプローチは、下流タスクのパフォーマンスを大幅に改善することを示した。 しかし、転送学習が有益である場合にのみ報告されることは、転送のための効果的な設定を見つけるのに必要な重要な試行錯誤を無視しることが一般的である。 実際、すべてのタスクの組み合わせがパフォーマンス上のメリットをもたらすわけではない。 したがって、実際に実験を行うことなく、2つのタスク間の転送が有益かどうかを予測できるだろうか? 本稿では,単一タスクモデル間のニューラルネットワークアクティベーションの比較により,タスクペアが補完的になるかどうかを効果的に予測するために,説明可能性手法を活用する。 このようにして、すべてのタスクとハイパーパラメータの組み合わせでグリッド検索を避けることができ、効果的なタスクペアを見つけるのに必要な時間を劇的に削減できます。 提案手法により,TREC-IS 2020-Aデータセットでは,正のクラスF1の0.034の削減に留まらず,最大83.5%のトレーニング時間を短縮することが可能である。

Transfer learning approaches have shown to significantly improve performance on downstream tasks. However, it is common for prior works to only report where transfer learning was beneficial, ignoring the significant trial-and-error required to find effective settings for transfer. Indeed, not all task combinations lead to performance benefits, and brute-force searching rapidly becomes computationally infeasible. Hence the question arises, can we predict whether transfer between two tasks will be beneficial without actually performing the experiment? In this paper, we leverage explainability techniques to effectively predict whether task pairs will be complementary, through comparison of neural network activation between single-task models. In this way, we can avoid grid-searches over all task and hyperparameter combinations, dramatically reducing the time needed to find effective task pairs. Our results show that, through this approach, it is possible to reduce training time by up to 83.5% at a cost of only 0.034 reduction in positive-class F1 on the TREC-IS 2020-A dataset.
翻訳日:2022-02-03 15:22:21 公開日:2022-02-02
# glisp-r:収束保証付き選好に基づく最適化アルゴリズム

GLISp-r: A preference-based optimization algorithm with convergence guarantees ( http://arxiv.org/abs/2202.01125v1 )

ライセンス: Link先を確認
Davide Previtali, Mirko Mazzoleni, Antonio Ferramosca, Fabio Previdi(参考訳) 選好に基づく最適化アルゴリズムは、異なるサンプルのカップル間の比較のみに基づいて決定変数の最適値を求める反復的な手順である。 それぞれのイテレーションで、人間の意思決定者は2つのサンプル間の好みを表現するように求められ、どちらがどちらかがどちらよりも優れているかを強調する。 最適化手順は、人間の意思決定者が最も好む決定変数の値を見つけるのに観察された選好を用いるとともに、比較の数を最小にする。 本稿では、GLISpと呼ばれる最近の好みに基づく最適化手法の拡張であるGLISp-rを提案する。 後者は、個人の嗜好を記述するために放射状基底関数surrogateを使用する。 反復的に、glispはサーロゲートモデルのエクスプロイトと決定空間の探索を交換することで、現在のベスト候補と比較する新しいサンプルを提案する。 GLISp-rでは、ブラックボックス最適化フレームワーク(嗜好に基づく手法と密接に関連している)のMSRSにインスパイアされた新しい候補サンプルを探す際に使用する異なる基準を提案する。 GLISpと比較すると、GLISp-rは好みに基づく最適化問題の局所最適化に悩まされる可能性が低い。 我々は、GLISpとGLISp-rの性能を異なるベンチマーク最適化問題で比較することにより、この主張を理論的に、収束の証明とともに、実証的に、動機付けする。

Preference-based optimization algorithms are iterative procedures that seek the optimal value for a decision variable based only on comparisons between couples of different samples. At each iteration, a human decision-maker is asked to express a preference between two samples, highlighting which one, if any, is better than the other. The optimization procedure must use the observed preferences to find the value of the decision variable that is most preferred by the human decision-maker, while also minimizing the number of comparisons. In this work, we propose GLISp-r, an extension of a recent preference-based optimization procedure called GLISp. The latter uses a Radial Basis Function surrogate to describe the tastes of the individual. Iteratively, GLISp proposes new samples to compare with the current best candidate by trading off exploitation of the surrogate model and exploration of the decision space. In GLISp-r, we propose a different criterion to use when looking for a new candidate sample that is inspired by MSRS, a popular procedure in the black-box optimization framework (which is closely related to the preference-based one). Compared to GLISp, GLISp-r is less likely to get stuck on local optimizers of the preference-based optimization problem. We motivate this claim theoretically, with a proof of convergence, and empirically, by comparing the performances of GLISp and GLISp-r on different benchmark optimization problems.
翻訳日:2022-02-03 15:22:04 公開日:2022-02-02
# 協調強化学習によるロボット群集の集団ナビゲーション

Federated Reinforcement Learning for Collective Navigation of Robotic Swarms ( http://arxiv.org/abs/2202.01141v1 )

ライセンス: Link先を確認
Seongin Na, Tom\'a\v{s} Krajn\'ik, Barry Lennox and Farshad Arvin(参考訳) 近年のDeep Reinforcement Learning (DRL)の進歩は、自動コントローラ設計を可能にすることでロボット工学に寄与した。 自動コントローラ設計は群ロボットシステムの設計において重要なアプローチであり、望ましい集団行動を導くためには単一のロボットシステムよりも複雑なコントローラを必要とする。 DRLをベースとしたコントローラ設計手法は有効性を示したが,ロボットサーバ間の通信が不安定あるいは制限された実環境において,中央トレーニングサーバへの依存は重要な問題である。 本論文では,swarmロボット応用のための新しい連合学習(fl)ベースのdrlトレーニング戦略を提案する。 FLは、ローカルデータサンプルではなくニューラルネットワークモデル重みを共有することで、ロボットサーバ間の通信回数を減らすため、DRLを用いたコントローラトレーニングにおいて、中央サーバへの依存を減らすことができる。 集合学習シナリオによる実験の結果,提案するflベースの戦略は,通信回数を最大で1600倍に削減し,また,中央サーバを共有するベースライン戦略と比較して,訓練されたコントローラによるナビゲーションの成功率を2.8倍に向上させた。 提案手法は, アグリロボット工学, 水中および損傷した核施設など, 限られたロボットサーバ通信を用いて, 実環境におけるスワーミングロボットシステムを効率的に訓練できることを示唆する。

The recent advancement of Deep Reinforcement Learning (DRL) contributed to robotics by allowing automatic controller design. Automatic controller design is a crucial approach for designing swarm robotic systems, which require more complex controller than a single robot system to lead a desired collective behaviour. Although DRL-based controller design method showed its effectiveness, the reliance on the central training server is a critical problem in the real-world environments where the robot-server communication is unstable or limited. We propose a novel Federated Learning (FL) based DRL training strategy for use in swarm robotic applications. As FL reduces the number of robot-server communication by only sharing neural network model weights, not local data samples, the proposed strategy reduces the reliance on the central server during controller training with DRL. The experimental results from the collective learning scenario showed that the proposed FL-based strategy dramatically reduced the number of communication by minimum 1600 times and even increased the success rate of navigation with the trained controller by 2.8 times compared to the baseline strategies that share a central server. The results suggest that our proposed strategy can efficiently train swarm robotic systems in the real-world environments with the limited robot-server communication, e.g. agri-robotics, underwater and damaged nuclear facilities.
翻訳日:2022-02-03 15:21:41 公開日:2022-02-02
# キャリブレーションサブセット選択によるスクリーニングプロセスの改善

Improving Screening Processes via Calibrated Subset Selection ( http://arxiv.org/abs/2202.01147v1 )

ライセンス: Link先を確認
Lequn Wang, Thorsten Joachims, Manuel Gomez Rodriguez(参考訳) 治験に合格した患者の検索や検索エンジンの検索パイプラインなど、多くの選択プロセスは複数の段階で構成されており、初期スクリーニング段階は最も有望な候補の短縮にリソースを集中させる。 本稿では,手動で構築するか,訓練するかに関わらず,スクリーニング分類器がどのような保証を提供できるかを検討する。 我々は、現在の解が分布のない理論的な保証を享受していないことを発見した -- 一般に、完全に校正された分類器でさえ、そのショートリストが最適でない候補のプールが常に存在することを示す。 次に,任意の分類器とある程度のキャリブレーションデータが与えられた場合,希望する候補数を含む候補の候補の至近短リストを探索する,分散非分布スクリーニングアルゴリズム -- calibrated subset selection (css) -- を開発した。 さらに、特定のグループに複数回分類器を校正するアルゴリズムの変種が、証明可能な多様性を保証するショートリストを作成することができることを示す。 米国国勢調査調査データを用いた実験は,我々の理論的結果を検証し,本アルゴリズムが提供したショートリストが,いくつかの競合ベースラインが提供したショートリストよりも優れていることを示す。

Many selection processes such as finding patients qualifying for a medical trial or retrieval pipelines in search engines consist of multiple stages, where an initial screening stage focuses the resources on shortlisting the most promising candidates. In this paper, we investigate what guarantees a screening classifier can provide, independently of whether it is constructed manually or trained. We find that current solutions do not enjoy distribution-free theoretical guarantees -- we show that, in general, even for a perfectly calibrated classifier, there always exist specific pools of candidates for which its shortlist is suboptimal. Then, we develop a distribution-free screening algorithm -- called Calibrated Subset Selection (CSS) -- that, given any classifier and some amount of calibration data, finds near-optimal shortlists of candidates that contain a desired number of qualified candidates in expectation. Moreover, we show that a variant of our algorithm that calibrates a given classifier multiple times across specific groups can create shortlists with provable diversity guarantees. Experiments on US Census survey data validate our theoretical results and show that the shortlists provided by our algorithm are superior to those provided by several competitive baselines.
翻訳日:2022-02-03 15:21:19 公開日:2022-02-02
# 学習エージェントに対する後悔領域による強化学習の伝達

Transfer in Reinforcement Learning via Regret Bounds for Learning Agents ( http://arxiv.org/abs/2202.01182v1 )

ライセンス: Link先を確認
Adrienne Tuynman and Ronald Ortner(参考訳) 本稿では,複数エージェント設定に対する後悔境界による強化学習における伝達の有用性の定量化手法を提案する。 同じマルコフ決定プロセスで動作する複数の$\aleph$エージェントを考えるが、おそらく異なる報酬機能を持つので、それぞれのエージェントが平均的な報酬を最大化する最適ポリシーに関して苦しむ後悔を考える。 エージェントが観察を共有すると、各エージェントが自身の収集した情報に依存する必要がある場合と比較して、すべてのエージェントの後悔の総数は$\sqrt{\aleph}$の係数で小さいことが分かる。 この結果は,複数エージェント設定における後悔を考慮すれば,伝達学習における観測結果の共有の利点に理論的制約を与えることができることを示す。

We present an approach for the quantification of the usefulness of transfer in reinforcement learning via regret bounds for a multi-agent setting. Considering a number of $\aleph$ agents operating in the same Markov decision process, however possibly with different reward functions, we consider the regret each agent suffers with respect to an optimal policy maximizing her average reward. We show that when the agents share their observations the total regret of all agents is smaller by a factor of $\sqrt{\aleph}$ compared to the case when each agent has to rely on the information collected by herself. This result demonstrates how considering the regret in multi-agent settings can provide theoretical bounds on the benefit of sharing observations in transfer learning.
翻訳日:2022-02-03 15:20:58 公開日:2022-02-02
# 画素プロセッサアレイを用いた on-sensor binarized full convolutional neural network

On-Sensor Binarized Fully Convolutional Neural Network with A Pixel Processor Array ( http://arxiv.org/abs/2202.00836v1 )

ライセンス: Link先を確認
Yanan Liu, Laurie Bose, Yao Lu, Piotr Dudek, Walterio Mayol-Cuevas(参考訳) 本稿では、画素プロセッサアレイ(ppa)センサに完全畳み込みニューラルネットワーク(fcns)を実装する手法を提案し、粗いセグメンテーションとオブジェクトローカライズタスクを示す。 我々は,2値化のためのバッチノルム,グループ畳み込み,学習可能なしきい値を用いた2値化fcnの設計と訓練を行い,ppaの焦点面に埋め込むのに十分な大きさのネットワークを生成し,ローカルメモリリソースを制限し,並列の基本加算/減算,シフト,ビット演算のみを使用する。 PPAデバイス上でFCNを最初に実装し、ピクセルレベルのプロセッサで3つの畳み込み層を実行する。 このアーキテクチャを用いて,scamp-5 ppaビジョンチップを用いた280fps以上のオブジェクトセグメンテーションとローカライズのための熱マップ生成の推論を行う。

This work presents a method to implement fully convolutional neural networks (FCNs) on Pixel Processor Array (PPA) sensors, and demonstrates coarse segmentation and object localisation tasks. We design and train binarized FCN for both binary weights and activations using batchnorm, group convolution, and learnable threshold for binarization, producing networks small enough to be embedded on the focal plane of the PPA, with limited local memory resources, and using parallel elementary add/subtract, shifting, and bit operations only. We demonstrate the first implementation of an FCN on a PPA device, performing three convolution layers entirely in the pixel-level processors. We use this architecture to demonstrate inference generating heat maps for object segmentation and localisation at over 280 FPS using the SCAMP-5 PPA vision chip.
翻訳日:2022-02-03 15:20:45 公開日:2022-02-02
# CSFlow:自律走行のためのクロスストリップ相関による光フローの学習

CSFlow: Learning Optical Flow via Cross Strip Correlation for Autonomous Driving ( http://arxiv.org/abs/2202.00909v1 )

ライセンス: Link先を確認
Hao Shi, Yifan Zhou, Kailun Yang, Xiaoting Yin, Kaiwei Wang(参考訳) 光流量推定は、自動運転車が周囲のシーンの時間的連続性を知覚するのに役立つ自動運転システムにおいて重要な課題である。 全対相関の計算は、既存の多くの光学的フロー推定法において重要な役割を果たす。 しかし、地域知識への依存はしばしば複雑なストリートシーンにおけるモデルの正確さを制限する。 本稿では, クロスストリップ相関モジュール (csc) と相関回帰初期化モジュール (cri) の2つのモジュールからなる, 自律運転-csflowにおける光フロー推定のための新しいディープネットワークアーキテクチャを提案する。 CSCは、対象画像と出席画像のストリップ操作を利用して、グローバルコンテキストを高い効率を維持しながら相関ボリュームに符号化する。 CRIは、光フロー初期化のグローバルコンテキストを最大限活用するために使用される。 本手法は,公立自動運転データセットKITTI-2015において最先端の精度を達成した。 コードはhttps://github.com/MasterHow/CSFlowで公開されている。

Optical flow estimation is an essential task in self-driving systems, which helps autonomous vehicles perceive temporal continuity information of surrounding scenes. The calculation of all-pair correlation plays an important role in many existing state-of-the-art optical flow estimation methods. However, the reliance on local knowledge often limits the model's accuracy under complex street scenes. In this paper, we propose a new deep network architecture for optical flow estimation in autonomous driving--CSFlow, which consists of two novel modules: Cross Strip Correlation module (CSC) and Correlation Regression Initialization module (CRI). CSC utilizes a striping operation across the target image and the attended image to encode global context into correlation volumes, while maintaining high efficiency. CRI is used to maximally exploit the global context for optical flow initialization. Our method has achieved state-of-the-art accuracy on the public autonomous driving dataset KITTI-2015. Code is publicly available at https://github.com/MasterHow/CSFlow.
翻訳日:2022-02-03 15:20:26 公開日:2022-02-02
# ganslider: フィードフォワード情報の有無に関わらず、複数のスライダを使用して画像生成モデルを制御する方法

GANSlider: How Users Control Generative Models for Images using Multiple Sliders with and without Feedforward Information ( http://arxiv.org/abs/2202.00965v1 )

ライセンス: Link先を確認
Hai Dang, Lukas Mecke, Daniel Buschek(参考訳) フィードフォワード・ビジュアライゼーションのない複数のスライダが、ユーザが生成モデルの制御にどのように影響するかを検討する。 オンライン調査 (N=138) では、画像再構成作業において、生成的敵対ネットワーク(StyleGAN2)と相互作用する人々のデータセットを収集した。 より多くのコントロールディメンション(スライダ)がタスクの難易度とユーザアクションを著しく増加させることがわかった。 視覚的なfeedforwardは、よりゴール指向のインタラクションを可能にすることで、これを部分的に緩和する。 しかし、より速く、より正確なタスクパフォーマンスを示す証拠は見つからなかった。 これは、フィードフォワードの詳細と注意などの認知コストのトレードオフを示している。 さらに,個々の制御次元を理解するのに可視化だけでは十分ではないことがわかった。 本研究は,この文脈におけるUI設計の基本的な要素と相互作用の振る舞いを定量化し,生成モデルのインタラクティブなアプリケーションのためのUI設計を改善する機会を明らかにする。 デザインの方向性とさらなる側面を議論することで締めくくります。

We investigate how multiple sliders with and without feedforward visualizations influence users' control of generative models. In an online study (N=138), we collected a dataset of people interacting with a generative adversarial network (StyleGAN2) in an image reconstruction task. We found that more control dimensions (sliders) significantly increase task difficulty and user actions. Visual feedforward partly mitigates this by enabling more goal-directed interaction. However, we found no evidence of faster or more accurate task performance. This indicates a tradeoff between feedforward detail and implied cognitive costs, such as attention. Moreover, we found that visualizations alone are not always sufficient for users to understand individual control dimensions. Our study quantifies fundamental UI design factors and resulting interaction behavior in this context, revealing opportunities for improvement in the UI design for interactive applications of generative models. We close by discussing design directions and further aspects.
翻訳日:2022-02-03 15:20:12 公開日:2022-02-02
# IEEE-CIS第3回技術課題における予測と最適化手法

Methodology for forecasting and optimization in IEEE-CIS 3rd Technical Challenge ( http://arxiv.org/abs/2202.00894v1 )

ライセンス: Link先を確認
Richard Bean(参考訳) 本報告では、IEEE-CIS 3rd Technical Challengeで私が使った方法論について説明する。 本予測では,オーストラリア気象局 (BOM) の太陽観測値と欧州中レージ気象予報センター (ECMWF) の気象観測値を用いて, 定量的回帰林法を適用した。 建物群と全てのソーラーインスタンスは、時間とともに密接な相関関係が観測されたため、一緒に訓練された。 他の変数には、日時と年日に基づくフーリエ値、週の日数の組み合わせのためのバイナリ変数が含まれていた。 時系列の開始日はフェーズ1に基づいて慎重に調整され、各時系列の観測誤差率を減らすためにクリーニングとしきい値が使用された。 最適化には、開発した予測を用いて4段階のアプローチを用いた。 まず,再帰的および再帰的プラスワンスオフ動作のための混合整数プログラム (mip) を解き, それぞれを混合整数二次プログラム (miqp) を用いて拡張した。 一般的な戦略は"array"と"tuples"の2つのアプローチのうちの1つから選択され、特定のステップ改善戦略は5つの"no forced discharge"のうちの1つから選択された。

This report provides a description of the methodology I used in the IEEE-CIS 3rd Technical Challenge. For the forecast, I used a quantile regression forest approach using the solar variables provided by the Bureau of Meterology of Australia (BOM) and many of the weather variables from the European Centre for Medium-Range Weather Forecasting (ECMWF). Groups of buildings and all of the solar instances were trained together as they were observed to be closely correlated over time. Other variables used included Fourier values based on hour of day and day of year, and binary variables for combinations of days of the week. The start dates for the time series were carefully tuned based on phase 1 and cleaning and thresholding was used to reduce the observed error rate for each time series. For the optimization, a four-step approach was used using the forecast developed. First, a mixed-integer program (MIP) was solved for the recurring and recurring plus once-off activities, then each of these was extended using a mixed-integer quadratic program (MIQP). The general strategy was chosen from one of two ("array" from the "array" and "tuples" approaches) while the specific step improvement strategy was chosen from one of five ("no forced discharge").
翻訳日:2022-02-03 15:18:54 公開日:2022-02-02
# マルチMarginal Optimal Transport と Free-Support Wasserstein Barycenter の近似アルゴリズム

Approximative Algorithms for Multi-Marginal Optimal Transport and Free-Support Wasserstein Barycenters ( http://arxiv.org/abs/2202.00954v1 )

ライセンス: Link先を確認
Johannes von Lindheim(参考訳) n$の離散確率測度に対する二乗ユークリッド費用による多角的最適輸送(mot)を計算的に解くことは、近年、データサイエンスに多くの応用があるwasserstein-$2$ barycentersとの解の対応により、かなりの注目を集めている。 一般に、この問題はNPハードであり、実用的な近似アルゴリズムを要求する。 エントロピック正則化は近似ワッサーシュタインバリセンタにうまく適用されているが、これは最適解の空間性を失うため、次元性の呪いのため、実際にMOT問題を解くことは困難である。 したがって、バリセンタを得るためには、通常、グリッドに対する固定サポートの制約に頼るが、より高い環境次元では、$d$である。 本稿では,MOTとバリセンタの関係を解析した結果,MOTの解を直接近似する2つのアルゴリズムを提案する。 したがって、それらは高速でメモリ効率が高く、実装が容易であり、任意のスパースotソルバをブラックボックスとして使用できる。 さらに、スパース解を生成し、有望な数値結果を示す。 これらのアルゴリズムを理論的に解析し、相対近似誤差の上限と下限を証明した。

Computationally solving multi-marginal optimal transport (MOT) with squared Euclidean costs for $N$ discrete probability measures has recently attracted considerable attention, in part because of the correspondence of its solutions with Wasserstein-$2$ barycenters, which have many applications in data science. In general, this problem is NP-hard, calling for practical approximative algorithms. While entropic regularization has been successfully applied to approximate Wasserstein barycenters, this loses the sparsity of the optimal solution, making it difficult to solve the MOT problem directly in practice because of the curse of dimensionality. Thus, for obtaining barycenters, one usually resorts to fixed-support restrictions to a grid, which is, however, prohibitive in higher ambient dimensions $d$. In this paper, after analyzing the relationship between MOT and barycenters, we present two algorithms to approximate the solution of MOT directly, requiring mainly just $N-1$ standard two-marginal OT computations. Thus, they are fast, memory-efficient and easy to implement and can be used with any sparse OT solver as a black box. Moreover, they produce sparse solutions and show promising numerical results. We analyze these algorithms theoretically, proving upper and lower bounds for the relative approximation error.
翻訳日:2022-02-03 15:18:29 公開日:2022-02-02
# 信頼できない無線ネットワーク上での非同期分散学習

Asynchronous Decentralized Learning over Unreliable Wireless Networks ( http://arxiv.org/abs/2202.00955v1 )

ライセンス: Link先を確認
Eunjeong Jeong, Matteo Zecchin, Marios Kountouris(参考訳) 分散学習は、デバイス間通信を介して情報を交換することで、エッジユーザーが協調的にモデルを訓練することを可能にする。 本研究では,無線ネットワークエッジで発生する固有計算や通信障害に対して頑健な,非同期分散確率勾配降下(dsgd)アルゴリズムを提案する。 その性能を理論的に解析し,非漸近収束保証を確立する。 実験結果から,非信頼な無線ネットワーク上での分散学習における非同期性と時代遅れの勾配情報再利用の利点を実証した。

Decentralized learning enables edge users to collaboratively train models by exchanging information via device-to-device communication, yet prior works have been limited to wireless networks with fixed topologies and reliable workers. In this work, we propose an asynchronous decentralized stochastic gradient descent (DSGD) algorithm, which is robust to the inherent computation and communication failures occurring at the wireless network edge. We theoretically analyze its performance and establish a non-asymptotic convergence guarantee. Experimental results corroborate our analysis, demonstrating the benefits of asynchronicity and outdated gradient information reuse in decentralized learning over unreliable wireless networks.
翻訳日:2022-02-03 15:18:06 公開日:2022-02-02
# 電力法スペクトル条件下での最適化のためのタイト収束速度境界

Tight Convergence Rate Bounds for Optimization Under Power Law Spectral Conditions ( http://arxiv.org/abs/2202.00992v1 )

ライセンス: Link先を確認
Maksim Velikanov and Dmitry Yarotsky(参考訳) 二次問題に対する最適化の性能はスペクトルの低い部分に依存する。 大きな(事実上無限次元の)問題に対して、スペクトルのこの部分は、しばしば自然に電力法則分布によって表されるか近似される。 本稿では,適応型,非適応型,定数型,非コンスタントな学習率であるバニラグラディエントDescent,Steepest Descent,Heavy Ball,Conjugate Gradientsを用いて,古典的な一段階および多段階の1次最適化アルゴリズムを体系的に研究する。 これらのそれぞれに対して、パワー法スペクトル仮定は、スペクトル指数の特定の倍数で与えられる収束率指数とともに、アルゴリズムの収束率に対するパワー則を必要とすることを証明する。 上界と下界の両方を定め、結果は厳密であることを示す。 最後に、NTK体制におけるニューラルネットワークのカーネル学習とトレーニングにこれらの結果の応用を実証する。

Performance of optimization on quadratic problems sensitively depends on the low-lying part of the spectrum. For large (effectively infinite-dimensional) problems, this part of the spectrum can often be naturally represented or approximated by power law distributions. In this paper we perform a systematic study of a range of classical single-step and multi-step first order optimization algorithms, with adaptive and non-adaptive, constant and non-constant learning rates: vanilla Gradient Descent, Steepest Descent, Heavy Ball, and Conjugate Gradients. For each of these, we prove that a power law spectral assumption entails a power law for convergence rate of the algorithm, with the convergence rate exponent given by a specific multiple of the spectral exponent. We establish both upper and lower bounds, showing that the results are tight. Finally, we demonstrate applications of these results to kernel learning and training of neural networks in the NTK regime.
翻訳日:2022-02-03 15:17:54 公開日:2022-02-02
# 3pc:通信効率の高い分散トレーニングのための3点圧縮機と遅延集約のためのより良い理論

3PC: Three Point Compressors for Communication-Efficient Distributed Training and a Better Theory for Lazy Aggregation ( http://arxiv.org/abs/2202.00998v1 )

ライセンス: Link先を確認
Peter Richt\'arik, Igor Sokolov, Ilyas Fatkhullin, Elnur Gasanov, Zhize Li, Eduard Gorbunov(参考訳) 我々は,通信効率の良い3点圧縮機(3pc)の学習のための新しい階層型勾配通信機構と,それを利用する効率的な分散非凸最適化アルゴリズムを提案し,検討する。 静的圧縮機の選択(例えば、top-$k$)に依存するほとんどの確立されたアプローチとは異なり、我々のクラスは、基礎となる方法の理論的コミュニケーションの複雑さと実用的な効率を改善することを目的として、トレーニングプロセスを通して圧縮機を進化させます。 我々は,最近提案された誤りフィードバック機構EF21(Richt\'arik et al., 2021)とその理論的特性を特殊ケースとして回収できるが,多くの新しい手法が提案されている。 特に、我々のアプローチは、アルゴリズム的および理論的基礎である「遅延集約」文学(Chen et al., 2018)における技術の現状を改善することができる。 独立した関心を持つ副産物として、遅延集約とエラーフィードバックの文献の間に新しい基本的リンクを提供する。 私たちの研究の特長は、圧縮機を偏りなくする必要がなくなることです。

We propose and study a new class of gradient communication mechanisms for communication-efficient training -- three point compressors (3PC) -- as well as efficient distributed nonconvex optimization algorithms that can take advantage of them. Unlike most established approaches, which rely on a static compressor choice (e.g., Top-$K$), our class allows the compressors to {\em evolve} throughout the training process, with the aim of improving the theoretical communication complexity and practical efficiency of the underlying methods. We show that our general approach can recover the recently proposed state-of-the-art error feedback mechanism EF21 (Richt\'arik et al., 2021) and its theoretical properties as a special case, but also leads to a number of new efficient methods. Notably, our approach allows us to improve upon the state of the art in the algorithmic and theoretical foundations of the {\em lazy aggregation} literature (Chen et al., 2018). As a by-product that may be of independent interest, we provide a new and fundamental link between the lazy aggregation and error feedback literature. A special feature of our work is that we do not require the compressors to be unbiased.
翻訳日:2022-02-03 15:17:39 公開日:2022-02-02
# nlp転送学習モデルによるユーザストーリからのプライバシ要件の検出

Detecting Privacy Requirements from User Stories with NLP Transfer Learning Models ( http://arxiv.org/abs/2202.01035v1 )

ライセンス: Link先を確認
Francesco Casillo, Vincenzo Deufemia and Carmine Gravino(参考訳) プライバシを意識したソフトウェアシステムを提供するには,開発の初期段階からプライバシを検討することが不可欠である。 しかし、開発者は、データ保護の法的および社会的要件をソフトウェアシステムに組み込むために必要な専門知識や知識を持っていない。 目的:我々は,ユーザストーリ要件のコンテキストにおいて,プライバシ関連の情報を自動検出することによって,アジャイルソフトウェア開発中のプライバシリスクを低減する手法を提案する。 方法:提案手法は自然言語処理(NLP)と言語資源とディープラーニングアルゴリズムを組み合わせて,プライバシの側面をユーザストーリに識別する。 NLP技術は、テキストの意味と構文構造に関する情報を抽出するために用いられる。 この情報は、事前学習された畳み込みニューラルネットワークによって処理され、転送学習技術の実装への道を開く。 提案手法を1680個のユーザストーリーのデータセットを用いて実証的研究により評価する。 結果: 実験結果から, 深層学習アルゴリズムは, 従来の(浅層)機械学習手法よりも優れた予測が得られることが示された。 さらに, 転校学習の適用により, 予測精度が大幅に向上する。 10%. 結論:本研究は,ソフトウェア工学研究者に,トランスファー学習モデルを活用することにより,設計の初期段階におけるプライバシー検出を自動化する機会を検討する上で,貢献する。

To provide privacy-aware software systems, it is crucial to consider privacy from the very beginning of the development. However, developers do not have the expertise and the knowledge required to embed the legal and social requirements for data protection into software systems. Objective: We present an approach to decrease privacy risks during agile software development by automatically detecting privacy-related information in the context of user story requirements, a prominent notation in agile Requirement Engineering (RE). Methods: The proposed approach combines Natural Language Processing (NLP) and linguistic resources with deep learning algorithms to identify privacy aspects into User Stories. NLP technologies are used to extract information regarding the semantic and syntactic structure of the text. This information is then processed by a pre-trained convolutional neural network, which paved the way for the implementation of a Transfer Learning technique. We evaluate the proposed approach by performing an empirical study with a dataset of 1680 user stories. Results: The experimental results show that deep learning algorithms allow to obtain better predictions than those achieved with conventional (shallow) machine learning methods. Moreover, the application of Transfer Learning allows to considerably improve the accuracy of the predictions, ca. 10%. Conclusions: Our study contributes to encourage software engineering researchers in considering the opportunities to automate privacy detection in the early phase of design, by also exploiting transfer learning models.
翻訳日:2022-02-03 15:17:19 公開日:2022-02-02
# ポップクイズ! 大規模言語モデルはリバースエンジニアリングに役立つか?

Pop Quiz! Can a Large Language Model Help With Reverse Engineering? ( http://arxiv.org/abs/2202.01142v1 )

ライセンス: Link先を確認
Hammond Pearce and Benjamin Tan and Prashanth Krishnamurthy and Farshad Khorrami and Ramesh Karri and Brendan Dolan-Gavitt(参考訳) 大規模な言語モデル(OpenAIのCodexなど)は、コード説明を含む、ソフトウェア領域で印象的なゼロショットマルチタスク機能を示している。 本研究では,この能力がリバースエンジニアリングに役立つかどうかを検討する。 具体的には、コードが逆コンパイルによって生成される場合でも、Codexにコードから目的、機能、重要な変数名や値を特定するよう促す。 オープンな質問に答える際のモデルの応答を調べるとともに、言語モデルの性能を特徴付けるための真偽クイズフレームワークを考案する。 そこで本研究では,プログラムの目的同定と情報抽出タスクにおける言語モデルの計測性能を定量的に分析し,136,260の質問に対して72,754の回答を得た。 重要な点は、LLMはまだゼロショットリバースエンジニアリングの準備が整っていないことだ。

Large language models (such as OpenAI's Codex) have demonstrated impressive zero-shot multi-task capabilities in the software domain, including code explanation. In this work, we examine if this ability can be used to help with reverse engineering. Specifically, we investigate prompting Codex to identify the purpose, capabilities, and important variable names or values from code, even when the code is produced through decompilation. Alongside an examination of the model's responses in answering open-ended questions, we devise a true/false quiz framework to characterize the performance of the language model. We present an extensive quantitative analysis of the measured performance of the language model on a set of program purpose identification and information extraction tasks: of the 136,260 questions we posed, it answered 72,754 correctly. A key takeaway is that while promising, LLMs are not yet ready for zero-shot reverse engineering.
翻訳日:2022-02-03 15:15:46 公開日:2022-02-02
# Neuregenerate: 神経変性を可視化するフレームワーク

NeuRegenerate: A Framework for Visualizing Neurodegeneration ( http://arxiv.org/abs/2202.01115v1 )

ライセンス: Link先を確認
Saeed Boorboor, Shawn Mathew, Mala Ananth, David Talmage, Lorna W. Role, Arie E. Kaufman(参考訳) 近年の高分解能顕微鏡の進歩により、脳の接続性をよりよく理解できるようになった。 しかし、生物標本を1つの時点にしか撮影できないという制限のため、神経投射の変化の研究は集団分析による一般的な観察に限定されている。 本稿では,対象者内の神経線維形態変化の予測と可視化を行うための新しいエンドツーエンドフレームワークであるneuregenerateを提案する。予測予測のために,大脳顕微鏡ボリュームのための,ある領域における神経構造の特徴を解釈するcycleganに基づくディープラーニングネットワークであるneureganeratorを提案する。 本研究では,ニューレGANeratorのトレーニングパイプラインにおいて,高密度乗算器と幻覚損失と呼ばれる新たな損失関数を導入して,大容量入力ボリュームのタイリングによるアーティファクトの軽減を図ることにより,ニューレGANeratorのトレーニングパイプラインに空間整合モジュールを導入する。 ニューレGANeratorの再建精度は神経構造予測において94%であった。 最後に、予測された投射の変化を可視化するために、ニューレジェネレートは、2つのモードを提供する:(1)ニューロン投射の構造の違いを年齢の時点を越えて同時に可視化するニューロコンパクタ、(2)容器型モーフィング技術であるニューロモルフィック(neuromorph)は、ある年齢の時点から他方への構造の変化をインタラクティブに可視化する。 本フレームワークは広視野顕微鏡を用いて取得したボリュームに特化して設計されている。 若年検体と老齢検体の間のマウス脳のコリン作動性神経線維の構造変化を可視化することにより,我々の枠組みを実証する。

Recent advances in high-resolution microscopy have allowed scientists to better understand the underlying brain connectivity. However, due to the limitation that biological specimens can only be imaged at a single timepoint, studying changes to neural projections is limited to general observations using population analysis. In this paper, we introduce NeuRegenerate, a novel end-to-end framework for the prediction and visualization of changes in neural fiber morphology within a subject, for specified age-timepoints.To predict projections, we present neuReGANerator, a deep-learning network based on cycle-consistent generative adversarial network (cycleGAN) that translates features of neuronal structures in a region, across age-timepoints, for large brain microscopy volumes. We improve the reconstruction quality of neuronal structures by implementing a density multiplier and a new loss function, called the hallucination loss.Moreover, to alleviate artifacts that occur due to tiling of large input volumes, we introduce a spatial-consistency module in the training pipeline of neuReGANerator. We show that neuReGANerator has a reconstruction accuracy of 94% in predicting neuronal structures. Finally, to visualize the predicted change in projections, NeuRegenerate offers two modes: (1) neuroCompare to simultaneously visualize the difference in the structures of the neuronal projections, across the age timepoints, and (2) neuroMorph, a vesselness-based morphing technique to interactively visualize the transformation of the structures from one age-timepoint to the other. Our framework is designed specifically for volumes acquired using wide-field microscopy. We demonstrate our framework by visualizing the structural changes in neuronal fibers within the cholinergic system of the mouse brain between a young and old specimen.
翻訳日:2022-02-03 15:15:30 公開日:2022-02-02
# (参考訳) slurk Interaction Server Framework: より良いダイアログモデルのためのより良いデータ

The slurk Interaction Server Framework: Better Data for Better Dialog Models ( http://arxiv.org/abs/2202.01155v1 )

ライセンス: CC BY 4.0
Jana G\"otze, Maike Paetzel-Pr\"usmann, Wencke Liermann, Tim Diekmann, David Schlangen(参考訳) 本稿では,ダイアログデータの収集と実験を行うための軽量インタラクションサーバであるslurk softwareを提案する。 Slurkは、2人以上の人間とボット間のテキストベース、音声とビデオのインタラクション、共有またはプライベートな対話コンテキストを表示するマルチモーダル表示エリアなど、さまざまな設定を可能にする。 このソフトウェアはpythonでhtmlとjsのフロントエンドを使って実装されており、個々のニーズに容易に適応できる。 amazon mechanical turkや、一般的なインタラクションシナリオ用のボットスクリプトなど、一般的なクラウドワークプラットフォーム上で参加者をペアリングするためのセットアップも提供する。

This paper presents the slurk software, a lightweight interaction server for setting up dialog data collections and running experiments. Slurk enables a multitude of settings including text-based, speech and video interaction between two or more humans or humans and bots, and a multimodal display area for presenting shared or private interactive context. The software is implemented in Python with an HTML and JS frontend that can easily be adapted to individual needs. It also provides a setup for pairing participants on common crowdworking platforms such as Amazon Mechanical Turk and some example bot scripts for common interaction scenarios.
翻訳日:2022-02-03 15:14:15 公開日:2022-02-02
# 物理的カスケードイベントにおける推論と行動の学習

Learning to reason about and to act on physical cascading events ( http://arxiv.org/abs/2202.01108v1 )

ライセンス: Link先を確認
Yuval Atzmon, Eli A. Meirom, Shie Mannor, Gal Chechik(参考訳) 動的環境の推論とインタラクションは、AIの基本的な問題だが、アクションがクロス依存イベントのカスケードをトリガーできると、極めて困難になる。 そこで,エージェントが物理的にシミュレートされた動的シーンの映像を提示し,システムが"国的"な目標に達するように,イベントのカスケードを介入して起動するように要求する,"em cascade"と呼ばれる新しい教師付き学習設定を導入する。 例えば、エージェントは「青いボールが緑色のボールを押して赤いボールを打つように」依頼される。 エージェントの介入は連続空間から引き出され、事象のカスケードはダイナミクスを非常に非線形にする。 セマンティックツリー探索とイベント駆動フォワードモデルを組み合わせることで,連続空間におけるセマンティックツリーの探索を学習するアルゴリズムを考案する。 提案手法は,これまで見つからなかった複雑な場面に介入する命令を効果的に追従することを学ぶ。 観測された事象のカスケードを提供する場合、別の結果も推論できる。

Reasoning and interacting with dynamic environments is a fundamental problem in AI, but it becomes extremely challenging when actions can trigger cascades of cross-dependent events. We introduce a new supervised learning setup called {\em Cascade} where an agent is shown a video of a physically simulated dynamic scene, and is asked to intervene and trigger a cascade of events, such that the system reaches a "counterfactual" goal. For instance, the agent may be asked to "Make the blue ball hit the red one, by pushing the green ball". The agent intervention is drawn from a continuous space, and cascades of events makes the dynamics highly non-linear. We combine semantic tree search with an event-driven forward model and devise an algorithm that learns to search in semantic trees in continuous spaces. We demonstrate that our approach learns to effectively follow instructions to intervene in previously unseen complex scenes. It can also reason about alternative outcomes, when provided an observed cascade of events.
翻訳日:2022-02-03 14:59:51 公開日:2022-02-02
# 重み付き条件付き知識ベースのための有限多値意味論に基づくニューラルネットワークの推論のためのaspアプローチ

An ASP approach for reasoning on neural networks under a finitely many-valued semantics for weighted conditional knowledge bases ( http://arxiv.org/abs/2202.01123v1 )

ライセンス: Link先を確認
Laura Giordano and Daniele Theseider Dupr\'e(参考訳) 近年,多層パーセプトロン(MLP)の論理的意味論の基礎として,記述論理の重み付き知識ベースを概念的マルチ参照意味論(二値・ファジィの両方の場合)として考察している。 本稿では, 有限値の場合の典型性を有する重み付き条件付きALC知識ベースを, コヒーレント, 忠実, フィコヒーレントな解釈に基づく3つの意味構造を通して考察する。 ALC のブールフラグメントLC は ASP と "asprin" を phi-コヒーレントなセマンティクスの下での概念的多参照関係の推論に利用し, MLP の定常状態の特徴付けに適している。 概念実証として,訓練済みMPPの特性チェックのための提案手法を実験した。

Weighted knowledge bases for description logics with typicality have been recently considered under a "concept-wise" multipreference semantics (in both the two-valued and fuzzy case), as the basis of a logical semantics of MultiLayer Perceptrons (MLPs). In this paper we consider weighted conditional ALC knowledge bases with typicality in the finitely many-valued case, through three different semantic constructions, based on coherent, faithful and phi-coherent interpretations. For the boolean fragment LC of ALC we exploit ASP and "asprin" for reasoning with the concept-wise multipreference entailment under a phi-coherent semantics, suitable to characterize the stationary states of MLPs. As a proof of concept, we experiment the proposed approach for checking properties of trained MLPs.
翻訳日:2022-02-03 14:59:33 公開日:2022-02-02
# 残留流に基づく補正によるミスアライメント音源からのポスガイド画像生成

Pose Guided Image Generation from Misaligned Sources via Residual Flow Based Correction ( http://arxiv.org/abs/2202.00843v1 )

ライセンス: Link先を確認
Jiawei Lu, He Wang, Tianjia Shao, Yin Yang, Kun Zhou(参考訳) ソース画像から所望の特性(例えば、新しいビュー/プレイス)を持つ新しい画像を生成することは、その幅広い潜在的な応用のために、近年熱心に追求されている。 高品質な生成を保証する方法の1つは、同じオブジェクトの異なるビューのような補完的な情報を持つ複数のソースを使用することである。 しかし、カメラ設定の相違により、しばしばソース画像が不一致となるため、カメラやオブジェクトに関して、過去に強い仮定がなされており、そのような技術の適用が制限されている。 そこで本研究では,ビューアングルやポーズ,表情など,ソース間の多種多様なバリエーションを統一的な枠組みでモデル化し,異なる性質のデータセットに適用する手法を提案する。 我々は、人体、顔、都市シーン、および3Dオブジェクトを含むさまざまなデータに対するアプローチを検証する。 定性的かつ定量的な結果から,本手法の性能は最先端技術よりも優れていた。

Generating new images with desired properties (e.g. new view/poses) from source images has been enthusiastically pursued recently, due to its wide range of potential applications. One way to ensure high-quality generation is to use multiple sources with complementary information such as different views of the same object. However, as source images are often misaligned due to the large disparities among the camera settings, strong assumptions have been made in the past with respect to the camera(s) or/and the object in interest, limiting the application of such techniques. Therefore, we propose a new general approach which models multiple types of variations among sources, such as view angles, poses, facial expressions, in a unified framework, so that it can be employed on datasets of vastly different nature. We verify our approach on a variety of data including humans bodies, faces, city scenes and 3D objects. Both the qualitative and quantitative results demonstrate the better performance of our method than the state of the art.
翻訳日:2022-02-03 14:57:22 公開日:2022-02-02
# 物体検出のための非結合IoU回帰

Decoupled IoU Regression for Object Detection ( http://arxiv.org/abs/2202.00866v1 )

ライセンス: Link先を確認
Yan Gao and Qimeng Wang and Xu Tang and Haochen Wang and Fei Ding and Jing Li and Yao Hu(参考訳) 非最大抑圧(NMS)は、重複したバウンディングボックスを削除するためにオブジェクト検出パイプラインで広く使われている。 NMSの信頼性と実位置推定の信頼性の矛盾は検出性能に深刻な影響を及ぼす。 従来の研究では、IoUを正確に予測することは依然として難しい問題でありながら、境界ボックスとそれに対応する接地トラスの間でのIoU(Intersection-over-Union)を予測することを提案した。 我々は、IoUの複雑な定義と特徴の不一致が、IoUの正確な予測を困難にすると主張している。 本稿では,これらの問題に対処する新しいデカップリングIoU回帰モデルを提案する。 提案されたDIRは、従来のローカライゼーション信頼度指標IoUを、PurityとIntegrationという2つの新しいメトリクスに分解する。 純度は検出されたバウンディングボックス内の対象領域の比率を反映し、積分性は検出された対象領域の完全性を指す。 純度と積分性を別々に予測することは、境界ボックスとIoUの間の複素写像を2つのより明確な写像に分割し、それらを独立にモデル化することができる。 さらに、iouレグレッサーを後見的に動作させることで、ターゲットマッピングをより安定させるため、シンプルで効果的な機能再調整アプローチも導入されている。 提案するdirは,既存の2段階検出器と簡便に統合でき,性能が大幅に向上する。 HTC による DIR の簡単な実装により,従来の手法を上回り最先端を実現する MS COCO ベンチマーク 51.3% AP を得る。

Non-maximum suppression (NMS) is widely used in object detection pipelines for removing duplicated bounding boxes. The inconsistency between the confidence for NMS and the real localization confidence seriously affects detection performance. Prior works propose to predict Intersection-over-Union (IoU) between bounding boxes and corresponding ground-truths to improve NMS, while accurately predicting IoU is still a challenging problem. We argue that the complex definition of IoU and feature misalignment make it difficult to predict IoU accurately. In this paper, we propose a novel Decoupled IoU Regression (DIR) model to handle these problems. The proposed DIR decouples the traditional localization confidence metric IoU into two new metrics, Purity and Integrity. Purity reflects the proportion of the object area in the detected bounding box, and Integrity refers to the completeness of the detected object area. Separately predicting Purity and Integrity can divide the complex mapping between the bounding box and its IoU into two clearer mappings and model them independently. In addition, a simple but effective feature realignment approach is also introduced to make the IoU regressor work in a hindsight manner, which can make the target mapping more stable. The proposed DIR can be conveniently integrated with existing two-stage detectors and significantly improve their performance. Through a simple implementation of DIR with HTC, we obtain 51.3% AP on MS COCO benchmark, which outperforms previous methods and achieves state-of-the-art.
翻訳日:2022-02-03 14:57:05 公開日:2022-02-02
# 非線形補間ネットワークにおける線形層の役割

The Role of Linear Layers in Nonlinear Interpolating Networks ( http://arxiv.org/abs/2202.00856v1 )

ライセンス: Link先を確認
Greg Ongie, Rebecca Willett(参考訳) 本稿では,2層以上の深さの過パラメータニューラルネットワークの暗黙バイアスについて検討する。 我々のフレームワークは、すべて同じキャパシティを持つが、暗黙的に定義された表現コストを持つ、様々な深さのネットワークのファミリーを考察する。 ニューラルネットワークアーキテクチャによって引き起こされる関数の表現コストは、ネットワークが関数を表現するのに必要な2乗重みの最小和である。 この結果から,ReLUネットワークに線形層を追加することで,ReLUユニットのアライメントとスパシティの複雑な相互作用を反映した表現コストが得られることがわかった。 具体的には、ニューラルネットワークを用いて最小表現コストでトレーニングデータを適合させると、擬似補間剤が存在する低次元部分空間に垂直な方向の補間関数が得られる。

This paper explores the implicit bias of overparameterized neural networks of depth greater than two layers. Our framework considers a family of networks of varying depth that all have the same capacity but different implicitly defined representation costs. The representation cost of a function induced by a neural network architecture is the minimum sum of squared weights needed for the network to represent the function; it reflects the function space bias associated with the architecture. Our results show that adding linear layers to a ReLU network yields a representation cost that reflects a complex interplay between the alignment and sparsity of ReLU units. Specifically, using a neural network to fit training data with minimum representation cost yields an interpolating function that is constant in directions perpendicular to a low-dimensional subspace on which a parsimonious interpolant exists.
翻訳日:2022-02-03 14:55:47 公開日:2022-02-02
# 類似学習者のモデル非依存的説明のためのアナロジーと特徴属性

Analogies and Feature Attributions for Model Agnostic Explanation of Similarity Learners ( http://arxiv.org/abs/2202.01153v1 )

ライセンス: Link先を確認
Karthikeyan Natesan Ramamurthy, Amit Dhurandhar, Dennis Wei, Zaid Bin Tariq(参考訳) ブラックボックスモデルのポストホックな説明は分類と回帰設定で広く研究されている。 しかし、2つの入力間の類似性を出力するモデルの説明は、比較的少ない注目を集めている。 本稿では,表やテキストデータに適用可能な類似性学習者に対して,モデルに依存しない局所的説明を提供する。 まず,ブラックボックス類似度学習者によって決定される2つの入力間の類似性を説明するための特徴属性を提供する手法を提案する。 次に、機械学習における新しい説明形式として類似性を提案する。 ここでの目標は、入力ペアと同じレベルの類似度を持つ多様な類似のペアを特定し、モデルの予測の基礎となる(相対的な)要因についての洞察を提供することである。 アナロジーの選択は任意に特徴属性を利用することができ、相補性を保ちながら2種類の説明を接続することができる。 我々の類似目的関数は部分モジュラーであることを証明し、良質な類似関係の探索を効率化する。 提案手法は,最先端文エンコーダで予測される文と,医療利用アプリケーションにおける患者間の類似性を説明するために適用する。 有効性は定量的評価、注意深いユーザー調査、説明の例を通して測定される。

Post-hoc explanations for black box models have been studied extensively in classification and regression settings. However, explanations for models that output similarity between two inputs have received comparatively lesser attention. In this paper, we provide model agnostic local explanations for similarity learners applicable to tabular and text data. We first propose a method that provides feature attributions to explain the similarity between a pair of inputs as determined by a black box similarity learner. We then propose analogies as a new form of explanation in machine learning. Here the goal is to identify diverse analogous pairs of examples that share the same level of similarity as the input pair and provide insight into (latent) factors underlying the model's prediction. The selection of analogies can optionally leverage feature attributions, thus connecting the two forms of explanation while still maintaining complementarity. We prove that our analogy objective function is submodular, making the search for good-quality analogies efficient. We apply the proposed approaches to explain similarities between sentences as predicted by a state-of-the-art sentence encoder, and between patients in a healthcare utilization application. Efficacy is measured through quantitative evaluations, a careful user study, and examples of explanations.
翻訳日:2022-02-03 14:54:34 公開日:2022-02-02
# オントロジーの概念に関する量子化と集約

Quantification and aggregation over concepts of the ontology ( http://arxiv.org/abs/2202.00898v1 )

ライセンス: Link先を確認
Pierre Carbonnelle, Matthias Van der Hallen, Marc Denecker(参考訳) この論文は、一般的に知識表現コミュニティにおいて、その性質が過小評価されている量化に焦点を当てている。 したがって、一階述語論理を拡張して、記号のエンテンション、すなわちそれが表す概念への参照を可能にする。 私たちの形式主義は、再定義を必要とする単純な形式主義よりも、より精巧な表現に寛容であるが、構文的不正確な公式の可能性も導入している。 この方法の複雑さは式の長さと線形である。 また、論理ベースの知識表現言語であるFO($\cdot$)(別名FO-dot)も同様の方法で拡張し、実践的な問題の解決にどう役立つかを示す。 インテンテンションステートメントを表現する値はモーダル論理においてよく確立されている。 我々のアプローチが、モーダル設定(例えばフィッティング)で研究されているインテンションの理解を、非モーダル設定でも価値ある方法でどのように拡張するかを示す。

This paper focuses on quantifications whose nature, we believe, is generally undervalued within the Knowledge Representation community: they range over a set of concepts, i.e., of intensional objects identified in the ontology. Hence, we extend first order logic to allow referring to the intension of a symbol, i.e., to the concept it represents. Our formalism is more elaboration tolerant than simpler formalisms that require reification, but also introduces the possibility of syntactically incorrect formula.We introduce a guarding mechanism to make formula syntactically correct, and present a method to verify correctness. The complexity of the method is linear with the length of the formula. We also extend FO($\cdot$) (aka FO-dot), a logic-based knowledge representation language, in a similar way, and show how it helped solve practical problems. The value of expressing intensional statements has been well-established in modal logic. We show how our approach expands on the understanding of intensions as studied in modal settings by, e.g., Fitting, in a way that is of value in non-modal settings as well.
翻訳日:2022-02-03 14:54:17 公開日:2022-02-02
# トークンレベルのシリアライズアウトプットトレーニングを備えたストリーミングマルチトーカasr

Streaming Multi-Talker ASR with Token-Level Serialized Output Training ( http://arxiv.org/abs/2202.00842v1 )

ライセンス: Link先を確認
Naoyuki Kanda, Jian Wu, Yu Wu, Xiong Xiao, Zhong Meng, Xiaofei Wang, Yashesh Gaur, Zhuo Chen, Jinyu Li, Takuya Yoshioka(参考訳) 本稿では,マルチトーカー自動音声認識(ASR)の新たなフレームワークであるトークンレベルシリアライズ出力トレーニング(t-SOT)を提案する。 複数の出力層を用いた既存のストリーミングマルチストーカーASRモデルとは異なり、t-SOTモデルは出力時間に基づいて複数の話者の認識トークン(単語、サブワードなど)を生成する単一の出力層しか持たない。 重複する発話を追跡するために、「仮想」出力チャネルの変更を示す特別なトークンが導入された。 従来のストリーミングマルチストーカーASRモデルと比較して、t-SOTモデルは推論コストの低減とよりシンプルなモデルアーキテクチャの利点がある。 さらに、LibriSpeechMixおよびLibriCSSデータセットを用いた実験では、t-SOTベースのトランスデューサモデルにより、最先端の単語誤り率を先行結果と有意差で達成する。 重複しない音声の場合、t-SOTモデルは精度と計算コストの両面でシングルストーカーASRモデルと同等であり、シングルトーカーシナリオとマルチトーカーシナリオの両方に1つのモデルをデプロイする扉を開く。

This paper proposes a token-level serialized output training (t-SOT), a novel framework for streaming multi-talker automatic speech recognition (ASR). Unlike existing streaming multi-talker ASR models using multiple output layers, the t-SOT model has only a single output layer that generates recognition tokens (e.g., words, subwords) of multiple speakers in chronological order based on their emission times. A special token that indicates the change of "virtual" output channels is introduced to keep track of the overlapping utterances. Compared to the prior streaming multi-talker ASR models, the t-SOT model has the advantages of less inference cost and a simpler model architecture. Moreover, in our experiments with LibriSpeechMix and LibriCSS datasets, the t-SOT-based transformer transducer model achieves the state-of-the-art word error rates by a significant margin to the prior results. For non-overlapping speech, the t-SOT model is on par with a single-talker ASR model in terms of both accuracy and computational cost, opening the door for deploying one model for both single- and multi-talker scenarios.
翻訳日:2022-02-03 14:53:56 公開日:2022-02-02
# 音声モデルを用いた非転写音声におけるキーワードの局所化

Keyword localisation in untranscribed speech using visually grounded speech models ( http://arxiv.org/abs/2202.01107v1 )

ライセンス: Link先を確認
Kayode Olaleye, Dan Oneata and Herman Kamper(参考訳) キーワードローカライズ(英: keyword localization)とは、与えられたクエリーキーワードがどこで発声されるかを見つけるタスクである。 本研究では,vgs(visual grounded speech)モデルを用いて,キーワードのローカライズがどの程度可能かを検討する。 VGSモデルは、音声キャプションと組み合わせたラベルのない画像に基づいて訓練される。 These models are therefore self-supervised -- trained without any explicit textual label or location information. To obtain training targets, we first tag training images with soft text labels using a pretrained visual classifier with a fixed vocabulary. This enables a VGS model to predict the presence of a written keyword in an utterance, but not its location. We consider four ways to equip VGS models with localisations capabilities. Two of these -- a saliency approach and input masking -- can be applied to an arbitrary prediction model after training, while the other two -- attention and a score aggregation approach -are incorporated directly into the structure of the model. マスケベースのローカライゼーションは、VGSモデルから報告された最も優れたローカライゼーションスコアのいくつかを、あるキーワードが発話中に発生し、その位置を予測する必要があることをシステムが知っている場合、精度は57%である。 検出後にローカライズを行う設定では、25%の$f_1$が達成され、キーワードスポッティングランキングパスが最初に実行される設定では、ローカライズp@10が32%となる。 これらのスコアは(書き起こしから)未注文の単語のスーパービジョンの理想的な設定と比較すると控えめだが、これらのモデルはテキストや位置の監督を受けていない。 さらなる分析により、これらのモデルは最初の検出またはランキングパスによって制限されることが示された。 さらに、個々のキーワードのローカライゼーション性能は、視覚分類器からのタグ付け性能と相関する。 また,海面に照会すると,モデルがサーファーの位置を判断するなど,意味的ミスの発生方法や場所を定性的に示す。

Keyword localisation is the task of finding where in a speech utterance a given query keyword occurs. We investigate to what extent keyword localisation is possible using a visually grounded speech (VGS) model. VGS models are trained on unlabelled images paired with spoken captions. These models are therefore self-supervised -- trained without any explicit textual label or location information. To obtain training targets, we first tag training images with soft text labels using a pretrained visual classifier with a fixed vocabulary. This enables a VGS model to predict the presence of a written keyword in an utterance, but not its location. We consider four ways to equip VGS models with localisations capabilities. Two of these -- a saliency approach and input masking -- can be applied to an arbitrary prediction model after training, while the other two -- attention and a score aggregation approach -- are incorporated directly into the structure of the model. Masked-based localisation gives some of the best reported localisation scores from a VGS model, with an accuracy of 57% when the system knows that a keyword occurs in an utterance and need to predict its location. In a setting where localisation is performed after detection, an $F_1$ of 25% is achieved, and in a setting where a keyword spotting ranking pass is first performed, we get a localisation P@10 of 32%. While these scores are modest compared to the idealised setting with unordered bag-of-word-supervision (from transcriptions), these models do not receive any textual or location supervision. Further analyses show that these models are limited by the first detection or ranking pass. Moreover, individual keyword localisation performance is correlated with the tagging performance from the visual classifier. We also show qualitatively how and where semantic mistakes occur, e.g. that the model locates surfer when queried with ocean.
翻訳日:2022-02-03 14:53:37 公開日:2022-02-02
# 伝染病の夢:新型コロナウイルスのパンデミックで健康を夢見る

Epidemic Dreams: Dreaming about health during the COVID-19 pandemic ( http://arxiv.org/abs/2202.01176v1 )

ライセンス: Link先を確認
Sanja \v{S}\'cepanovi\'c, Luca Maria Aiello, Deirdre Barrett, Daniele Quercia(参考訳) 夢の連続性仮説は、夢の内容が夢の覚醒体験と連続していることを示唆している。 新型コロナウイルス(covid-19)の体験の先例のない性質を踏まえ、パンデミックの文脈で連続性仮説を研究した。 テキストから医学的状況に関する言及を抽出し,パンデミック時に収集した2つのデータセット,2,888件のドリームレポート(ドリームライフエクスペリエンス)と,パンデミックに関する5700万ツイート(覚醒ライフエクスペリエンス)に適用可能なディープラーニングアルゴリズムを実装した。 両方のセットに共通する健康表現は、典型的なcovid-19の症状(干ばつ、発熱、不安など)であり、夢は人々の現実世界の経験を反映していることを示唆している。 The health expressions that distinguished the two sets reflected differences in thought processes: expressions in waking life reflected a linear and logical thought process and, as such, described realistic symptoms or related disorders (e.g., nasal pain, SARS, H1N1); those in dreaming life reflected a thought process closer to the visual and emotional spheres and, as such, described either conditions unrelated to the virus (e.g., maggots, deformities, snakebites), or conditions of surreal nature (e.g., teeth falling out, body crumbling into sand). 以上の結果から,夢の報告は,実世界での人々の健康体験の少なからぬ価値ある源であることを確認した。

The continuity hypothesis of dreams suggests that the content of dreams is continuous with the dreamer's waking experiences. Given the unprecedented nature of the experiences during COVID-19, we studied the continuity hypothesis in the context of the pandemic. We implemented a deep-learning algorithm that can extract mentions of medical conditions from text and applied it to two datasets collected during the pandemic: 2,888 dream reports (dreaming life experiences), and 57M tweets mentioning the pandemic (waking life experiences). The health expressions common to both sets were typical COVID-19 symptoms (e.g., cough, fever, and anxiety), suggesting that dreams reflected people's real-world experiences. The health expressions that distinguished the two sets reflected differences in thought processes: expressions in waking life reflected a linear and logical thought process and, as such, described realistic symptoms or related disorders (e.g., nasal pain, SARS, H1N1); those in dreaming life reflected a thought process closer to the visual and emotional spheres and, as such, described either conditions unrelated to the virus (e.g., maggots, deformities, snakebites), or conditions of surreal nature (e.g., teeth falling out, body crumbling into sand). Our results confirm that dream reports represent an understudied yet valuable source of people's health experiences in the real world.
翻訳日:2022-02-03 14:53:06 公開日:2022-02-02
# 拡張 -- 入射放射場を用いた適応サンプリング

Extension -- Adaptive Sampling with Implicit Radiance Field ( http://arxiv.org/abs/2202.00855v1 )

ライセンス: Link先を確認
Yuchi Huo(参考訳) 本稿では,モンテカルロ適応光野サンプリング・再構成における最先端の進歩を深層強化学習を用いて探究し,その拡張の可能性について述べる。

This paper aims to explore and summarize the state-of-the-art progress in Monte Carlo adaptive light field sampling and reconstruction using deep reinforcement learning, with possible extension to it.
翻訳日:2022-02-03 14:52:00 公開日:2022-02-02
# 手眼拘束の一般化によるサラウンドビューカメラシステムの正確な校正

Accurate calibration of surround view camera systems from a generalization of the hand eye constraint ( http://arxiv.org/abs/2202.00886v1 )

ライセンス: Link先を確認
Yifu Wang, Wenqing Jiang, Kun Huang, Soren Schwertfeger, Laurent Kneip(参考訳) マルチパースペクティブカメラは、スマートカーやバーチャルまたは拡張現実といった多くのアプリケーションで急速に重要性を増している。 しかし、近隣の視野における大きなシステムサイズや重複の欠如は、キャリブレーションを複雑にすることが多い。 本稿では,外部モーションキャプチャシステムの可用性に依存する新しいソリューションを提案する。 我々のコアコントリビューションは、閉形式の多眼間問題を共同で解くハンドアイキャリブレーション問題の拡張から成り立っている。 さらに、マルチアイハンド問題に対する同値性を示す。 提案手法の実用的妥当性は,提案手法が極めて効率的かつ正確であり,既存のクローズドフォーム法よりも優れていることを示す実験によって裏付けられている。

Multi-perspective cameras are quickly gaining importance in many applications such as smart vehicles and virtual or augmented reality. However, a large system size or absence of overlap in neighbouring fields-of-view often complicate their calibration. We present a novel solution which relies on the availability of an external motion capture system. Our core contribution consists of an extension to the hand-eye calibration problem which jointly solves multi-eye-to-base problems in closed form. We furthermore demonstrate its equivalence to the multi-eye-in-hand problem. The practical validity of our approach is supported by our experiments, indicating that the method is highly efficient and accurate, and outperforms existing closed-form alternatives.
翻訳日:2022-02-03 14:51:19 公開日:2022-02-02
# 屈折型新視点合成のための固有場

Eikonal Fields for Refractive Novel-View Synthesis ( http://arxiv.org/abs/2202.00948v1 )

ライセンス: Link先を確認
Mojtaba Bemana, Karol Myszkowski, Jeppe Revall Frisvad, Hans-Peter Seidel, Tobias Ritschel(参考訳) 屈折・反射物体を示す2次元画像のコレクションから新しい視点画像を生成する問題に対処する。 電流解は、放出吸収モデルに従って直線経路に沿って不透明あるいは透明な光輸送を仮定する。 代わりに、我々は3次元可変屈折率(IoR)の場を最適化し、それを通る光を、アイコナー光輸送の法則に従って、そのIoRの空間勾配に向かって曲げる。

We tackle the problem of generating novel-view images from collections of 2D images showing refractive and reflective objects. Current solutions assume opaque or transparent light transport along straight paths following the emission-absorption model. Instead, we optimize for a field of 3D-varying Index of Refraction (IoR) and trace light through it that bends toward the spatial gradients of said IoR according to the laws of eikonal light transport.
翻訳日:2022-02-03 14:51:08 公開日:2022-02-02
# MedNeRF: 単一X線からの3次元CT投影の再構成のための医療用神経放射場

MedNeRF: Medical Neural Radiance Fields for Reconstructing 3D-aware CT-Projections from a Single X-ray ( http://arxiv.org/abs/2202.01020v1 )

ライセンス: Link先を確認
Abril Corona-Figueroa, Jonathan Frawley, Sam Bond-Taylor, Sarath Bethapudi, Hubert P. H. Shum, Chris G. Willcocks(参考訳) CT(Computed tomography)は,様々な病態の診断に臨床医学の分野で広く用いられている,効果的な医用画像モダリティである。 マルチ検出器CT画像技術の進歩により、スライス多平面断面体像の生成や3次元再構成などの機能追加が可能になった。 しかし、これはかなりの量の電離放射線にさらされる患者に関係している。 過剰な電離放射線は体に決定論的かつ有害な影響をもたらす。 本稿では,数回,あるいは1回のx線からct投影を再構成する深層学習モデルを提案する。 これは2次元画像から表面形状と体積深度と内部解剖構造を遠ざけ、CTスキャンの連続的な表現を学習する神経放射場から構築された新しいアーキテクチャに基づいている。 私たちのモデルは胸部と膝のデータセットでトレーニングされ、質的かつ定量的な高忠実度レンダリングを実証し、我々のアプローチを最近のradianceフィールドベースの他の手法と比較します。 当社のコードとデータセットへのリンクはGitHubで公開されます。

Computed tomography (CT) is an effective medical imaging modality, widely used in the field of clinical medicine for the diagnosis of various pathologies. Advances in Multidetector CT imaging technology have enabled additional functionalities, including generation of thin slice multiplanar cross-sectional body imaging and 3D reconstructions. However, this involves patients being exposed to a considerable dose of ionising radiation. Excessive ionising radiation can lead to deterministic and harmful effects on the body. This paper proposes a Deep Learning model that learns to reconstruct CT projections from a few or even a single-view X-ray. This is based on a novel architecture that builds from neural radiance fields, which learns a continuous representation of CT scans by disentangling the shape and volumetric depth of surface and internal anatomical structures from 2D images. Our model is trained on chest and knee datasets, and we demonstrate qualitative and quantitative high-fidelity renderings and compare our approach to other recent radiance field-based methods. Our code and link to our datasets will be available at our GitHub.
翻訳日:2022-02-03 14:50:59 公開日:2022-02-02
# 複数の中間レベル表現による実環境における画像ベースナビゲーション:融合モデル、ベンチマークおよび効率的な評価

Image-based Navigation in Real-World Environments via Multiple Mid-level Representations: Fusion Models, Benchmark and Efficient Evaluation ( http://arxiv.org/abs/2202.01069v1 )

ライセンス: Link先を確認
Marco Rosano (1 and 3), Antonino Furnari (1 and 5), Luigi Gulino (3), Corrado Santoro (2), Giovanni Maria Farinella (1 and 4 and 5) ((1) FPV@IPLAB - Department of Mathematics and Computer Science - University of Catania - Italy, (2) Robotics Laboratory - Department of Mathematics and Computer Science - University of Catania - Italy, (3) OrangeDev s.r.l. - Firenze - Italy, (4) Cognitive Robotics and Social Sensing Laboratory - ICAR-CNR - Palermo - Italy, (5) Next Vision s.r.l. - Catania - Italy)(参考訳) 複雑な屋内環境をナビゲートするには、ロボットエージェントが行動している空間の深い理解が必要となる。 近年の学習に基づくナビゲーション手法では,シミュレーションに必要な経験を収集し,エージェントのシーン理解とナビゲーション能力を同時に実現している。 残念ながら、シミュレーターがナビゲーションポリシーを訓練する効率的なツールであるとしても、現実の世界に移動すると、結果のモデルは失敗することが多い。 考えられる解決策の1つは、シーンの重要なドメイン不変特性を含む中間レベルの視覚的表現を持つナビゲーションモデルを提供することである。 しかし、モデルから実世界への転送を促進する最良の表現は何ですか? どのように組み合わせられるのか? 本研究では,ディープラーニングアーキテクチャのベンチマークを用いて,さまざまな中間レベルの視覚表現を組み合わせて,強化学習のセットアップに従ってPointGoalナビゲーションタスクを実行することで,これらの課題に対処する。 提案するナビゲーションモデルはすべて、合成オフィス環境における居住環境シミュレータを用いて訓練され、実際のロボットプラットフォームを使用して同じ実環境上でテストされている。 実環境での性能を効率的に評価するために,シミュレータ内で現実的なナビゲーションエピソードを生成するための検証ツールが提案されている。 実験の結果,ナビゲーションモデルはマルチモーダル入力の恩恵を受けることができ,検証ツールにより実世界のナビゲーション性能を予測できるとともに,時間と資源を節約できることがわかった。 Habitat上に構築されたバリデーションツールのコードとともに、取得した環境の3Dモデルと実際の3Dモデルが、以下のリンクで公開されている。

Navigating complex indoor environments requires a deep understanding of the space the robotic agent is acting into to correctly inform the navigation process of the agent towards the goal location. In recent learning-based navigation approaches, the scene understanding and navigation abilities of the agent are achieved simultaneously by collecting the required experience in simulation. Unfortunately, even if simulators represent an efficient tool to train navigation policies, the resulting models often fail when transferred into the real world. One possible solution is to provide the navigation model with mid-level visual representations containing important domain-invariant properties of the scene. But, what are the best representations that facilitate the transfer of a model to the real-world? How can they be combined? In this work we address these issues by proposing a benchmark of Deep Learning architectures to combine a range of mid-level visual representations, to perform a PointGoal navigation task following a Reinforcement Learning setup. All the proposed navigation models have been trained with the Habitat simulator on a synthetic office environment and have been tested on the same real-world environment using a real robotic platform. To efficiently assess their performance in a real context, a validation tool has been proposed to generate realistic navigation episodes inside the simulator. Our experiments showed that navigation models can benefit from the multi-modal input and that our validation tool can provide good estimation of the expected navigation performance in the real world, while saving time and resources. The acquired synthetic and real 3D models of the environment, together with the code of our validation tool built on top of Habitat, are publicly available at the following link: https://iplab.dmi.unict.it/EmbodiedVN/
翻訳日:2022-02-03 14:50:41 公開日:2022-02-02
# 最適輸送図を用いた画像超解像

Unpaired Image Super-Resolution with Optimal Transport Maps ( http://arxiv.org/abs/2202.01116v1 )

ライセンス: Link先を確認
Milena Gazdieva, Litu Rout, Alexander Korotin, Alexander Filippov, Evgeny Burnaev(参考訳) 実世界のイメージスーパーレゾリューション(sr)タスクは、監督技術の適用を制限するペアデータセットを持っていないことが多い。 その結果、これらのタスクは通常、GAN(Generative Adversarial Networks)に基づく不正なテクニックによってアプローチされ、コンテンツやアイデンティティの損失といったいくつかの規則化用語で複雑なトレーニング損失をもたらす。 このようなモデルで生じる最適化問題を理論的に検討し、2つの驚くべき観測結果を見出す。 まず、学習されたSRマップは常に最適輸送(OT)マップである。 第2に,学習マップが偏り,すなわち低分解能画像の分布を高分解能画像に変換するものではないことを実証的に示す。 これらの知見に触発されて、知覚輸送コストの未バイアスOTマップを学習する未ペアSRのアルゴリズムを提案する。 既存のGANベースの代替アルゴリズムとは異なり、我々のアルゴリズムは、複雑なハイパーパラメータ選択を行い、追加の正規化を使用するために、簡単な最適化目標を持つ。 同時に、大規模な無人AIM-19データセットに対して、ほぼ最先端のパフォーマンスを提供する。

Real-world image super-resolution (SR) tasks often do not have paired datasets limiting the application of supervised techniques. As a result, the tasks are usually approached by unpaired techniques based on Generative Adversarial Networks (GANs) which yield complex training losses with several regularization terms such as content and identity losses. We theoretically investigate the optimization problems which arise in such models and find two surprising observations. First, the learned SR map is always an optimal transport (OT) map. Second, we empirically show that the learned map is biased, i.e., it may not actually transform the distribution of low-resolution images to high-resolution images. Inspired by these findings, we propose an algorithm for unpaired SR which learns an unbiased OT map for the perceptual transport cost. Unlike existing GAN-based alternatives, our algorithm has a simple optimization objective reducing the neccesity to perform complex hyperparameter selection and use additional regularizations. At the same time, it provides nearly state-of-the-art performance on the large-scale unpaired AIM-19 dataset.
翻訳日:2022-02-03 14:50:14 公開日:2022-02-02
# (参考訳) ファウショット学習のための平滑な埋め込み

Smoothed Embeddings for Certified Few-Shot Learning ( http://arxiv.org/abs/2202.01186v1 )

ライセンス: CC BY 4.0
Mikhail Pautov, Olesya Kuznetsova, Nurislam Tursynbek, Aleksandr Petiushko, Ivan Oseledets(参考訳) ランダム化平滑化は、敵対的摂動に対する最先端の防御であると考えられている。 しかし、分類器が入力オブジェクトをクラス確率にマッピングし、クラスプロトタイプの埋め込みへの計算距離によって分類が行われる計量空間を学ぶものに注力しないという事実を大いに活用している。 本研究では,ランダム化スムーシングを数ショット学習モデルに拡張し,入力を正規化埋め込みにマッピングする。 このようなモデルのリプシッツ連続性の解析を行い、少数の学習シナリオで有用な$\ell_2$-bounded摂動に対する堅牢性証明を導出する。 我々の理論的結果は、異なるデータセットの実験によって確認される。

Randomized smoothing is considered to be the state-of-the-art provable defense against adversarial perturbations. However, it heavily exploits the fact that classifiers map input objects to class probabilities and do not focus on the ones that learn a metric space in which classification is performed by computing distances to embeddings of classes prototypes. In this work, we extend randomized smoothing to few-shot learning models that map inputs to normalized embeddings. We provide analysis of Lipschitz continuity of such models and derive robustness certificate against $\ell_2$-bounded perturbations that may be useful in few-shot learning scenarios. Our theoretical results are confirmed by experiments on different datasets.
翻訳日:2022-02-03 14:48:01 公開日:2022-02-02
# ディープラーニングを用いた階層型ロボット計画のための抽象化のブートストラップ

Using Deep Learning to Bootstrap Abstractions for Hierarchical Robot Planning ( http://arxiv.org/abs/2202.00907v1 )

ライセンス: Link先を確認
Naman Shah, Siddharth Srivastava(参考訳) 本稿では,ロボット計画性能を向上し,信頼性の保証を確実にする学習抽象化の問題に対処する。 最先端の階層型ロボット計画アルゴリズムは、ロボットがユーザの希望するタスクを達成するために、長時間ホリゾン動作計画を効率的に計算できるが、これらの手法は通常、専門家が手作業で設計する必要がある環境に依存した状態とアクション抽象化に依存している。 我々は,階層的計画プロセス全体をブートストラップする新しい手法を提案する。 これは、自動生成ロボット固有のアーキテクチャを用いて、ディープニューラルネットワークによって予測される臨界領域を使用して、新しい環境の抽象状態とアクションを自動的に計算する方法を示している。 学習した抽象概念を、健全で確率論的に完備な、新しい多元的双方向階層型ロボット計画アルゴリズムに用いている。 ホロノミックロボットと非ホロノミックロボットを用いた20種類の異なる設定に関する広範な実験的検討 (a)学習された抽象化は、効率的なマルチソース階層計画に必要な情報を提供する。 b) 学習の抽象化と計画のアプローチは,訓練中に見えないテスト環境の計画時間において,最先端のベースラインを10倍近く向上させる。

This paper addresses the problem of learning abstractions that boost robot planning performance while providing strong guarantees of reliability. Although state-of-the-art hierarchical robot planning algorithms allow robots to efficiently compute long-horizon motion plans for achieving user desired tasks, these methods typically rely upon environment-dependent state and action abstractions that need to be hand-designed by experts. We present a new approach for bootstrapping the entire hierarchical planning process. It shows how abstract states and actions for new environments can be computed automatically using the critical regions predicted by a deep neural-network with an auto-generated robot specific architecture. It uses the learned abstractions in a novel multi-source bi-directional hierarchical robot planning algorithm that is sound and probabilistically complete. An extensive empirical evaluation on twenty different settings using holonomic and non-holonomic robots shows that (a) the learned abstractions provide the information necessary for efficient multi-source hierarchical planning; and that (b) this approach of learning abstraction and planning outperforms state-of-the-art baselines by nearly a factor of ten in terms of planning time on test environments not seen during training.
翻訳日:2022-02-03 14:24:58 公開日:2022-02-02
# リプシッツによる教師なしスキル発見

Lipschitz-constrained Unsupervised Skill Discovery ( http://arxiv.org/abs/2202.00914v1 )

ライセンス: Link先を確認
Seohong Park, Jongwook Choi, Jaekyeom Kim, Honglak Lee, Gunhee Kim(参考訳) 我々は,非教師なしスキル発見の課題について検討し,その目的は,外部の報酬を伴わずに,多様で有用なスキルセットを学習することである。 スキルと状態間の相互情報(MI)を最大化する技術発見手法がいくつもある。 しかし、これらのMIの目的は通常、動的タスクよりも静的スキルを好んでおり、下流タスクのアプリケーションを妨げる可能性があると指摘する。 この問題に対処するため,我々は,エージェントがより多様な,ダイナミックで,より遠縁なスキルを発見できるように,Lipschitz-Constrained Skill Discovery (LSD)を提案する。 LSDのもう1つの利点は、学習された表現関数が、ゼロショット方式でもゴール追従する下流タスクの解決に利用できることである。 様々なミュージョコロボットのロコモーションと操作環境に関する実験を通じて,lsdはスキルの多様性,状態空間のカバレッジ,7つの下流タスクにおけるパフォーマンス,ヒューマノイド上での複数の目標を追従する困難なタスクなどにおいて,これまでのアプローチを上回っていることを実証する。 私たちのコードとビデオはhttps://shpark.me/projects/lsd/で閲覧できます。

We study the problem of unsupervised skill discovery, whose goal is to learn a set of diverse and useful skills with no external reward. There have been a number of skill discovery methods based on maximizing the mutual information (MI) between skills and states. However, we point out that their MI objectives usually prefer static skills to dynamic ones, which may hinder the application for downstream tasks. To address this issue, we propose Lipschitz-constrained Skill Discovery (LSD), which encourages the agent to discover more diverse, dynamic, and far-reaching skills. Another benefit of LSD is that its learned representation function can be utilized for solving goal-following downstream tasks even in a zero-shot manner - i.e., without further training or complex planning. Through experiments on various MuJoCo robotic locomotion and manipulation environments, we demonstrate that LSD outperforms previous approaches in terms of skill diversity, state space coverage, and performance on seven downstream tasks including the challenging task of following multiple goals on Humanoid. Our code and videos are available at https://shpark.me/projects/lsd/.
翻訳日:2022-02-03 14:24:42 公開日:2022-02-02
# VC-PCR: 改良された可変選択とクラスタリングに基づく予測手法

VC-PCR: A Prediction Method based on Supervised Variable Selection and Clustering ( http://arxiv.org/abs/2202.00975v1 )

ライセンス: Link先を確認
Rebecca Marion, Johannes Lederer, Bernadette Govaerts, Rainer von Sachs(参考訳) スパース線形予測法は、予測変数がクラスタ構造を持つ場合の予測精度が低下する(例えば、高相関の変数群が存在する)。 予測精度を向上させるため、データから可変クラスタを識別し、クラスタ情報をスパースモデリングプロセスに統合する様々な手法が提案されている。 しかし、これらの手法は予測、変数選択、変数クラスタリングを同時に行うのに十分な性能は得られない。 本稿では,変数選択と変数クラスタリングを監督する予測手法であるVC-PCRを提案する。 実データおよびシミュレーションデータを用いた実験により、VC-PCRは競合する手法と比較して、クラスタ構造が存在する場合の予測、変数選択、クラスタリング性能が向上することを示した。

Sparse linear prediction methods suffer from decreased prediction accuracy when the predictor variables have cluster structure (e.g. there are highly correlated groups of variables). To improve prediction accuracy, various methods have been proposed to identify variable clusters from the data and integrate cluster information into a sparse modeling process. But none of these methods achieve satisfactory performance for prediction, variable selection and variable clustering simultaneously. This paper presents Variable Cluster Principal Component Regression (VC-PCR), a prediction method that supervises variable selection and variable clustering in order to solve this problem. Experiments with real and simulated data demonstrate that, compared to competitor methods, VC-PCR achieves better prediction, variable selection and clustering performance when cluster structure is present.
翻訳日:2022-02-03 14:24:01 公開日:2022-02-02
# 多粒子入力を用いたMD-GAN--短時間MDデータによる長期分子挙動の機械学習

MD-GAN with multi-particle input: the machine learning of long-time molecular behavior from short-time MD data ( http://arxiv.org/abs/2202.00995v1 )

ライセンス: Link先を確認
Ryo Kawada, Katsuhiro Endo, Daisuke Yuhara, Kenji Yasuoka(参考訳) MD-GANは、任意のタイミングでシステムの一部を進化させ、分子動力学データの生成を加速する機械学習ベースの手法である。 md-ganの正確な予測には、システムの一部のダイナミクスに関する十分な情報がトレーニングデータに含まれるべきである。 したがって,システムの部分の選択は,学習の効率化に重要である。 前回の研究では、系の一部として各分子の1つの粒子(またはベクトル)のみが抽出された。 そこで本研究では,他の粒子からの情報を学習プロセスに付加する効果を検討した。 ポリエチレン系実験では,各分子の3つの粒子のダイナミクスを用いた場合,単粒子入力と比較して,トレーニングデータの3分の1の時間長で拡散を予測できた。 トレーニングデータにおける拡散の未観測遷移も, この手法を用いて予測した。

MD-GAN is a machine learning-based method that can evolve part of the system at any time step, accelerating the generation of molecular dynamics data. For the accurate prediction of MD-GAN, sufficient information on the dynamics of a part of the system should be included with the training data. Therefore, the selection of the part of the system is important for efficient learning. In a previous study, only one particle (or vector) of each molecule was extracted as part of the system. Therefore, we investigated the effectiveness of adding information from other particles to the learning process. In the experiment of the polyethylene system, when the dynamics of three particles of each molecule were used, the diffusion was successfully predicted using one-third of the time length of the training data, compared to the single-particle input. Surprisingly, the unobserved transition of diffusion in the training data was also predicted using this method.
翻訳日:2022-02-03 14:22:03 公開日:2022-02-02
# 構造保存GAN

Structure-preserving GANs ( http://arxiv.org/abs/2202.01129v1 )

ライセンス: Link先を確認
Jeremiah Birrell, Markos A. Katsoulakis, Luc Rey-Bellet, Wei Zhu(参考訳) ジェネレータと判別器の間の2人のプレイヤーゲームに基づく分布学習のクラスであるgans(generative adversarial network)は、一般に、未知の分布と生成された分布との分岐の変動表現に基づいてミンマックス問題として定式化することができる。 本稿では,群対称性などの付加構造を持つ分布を学習するためのデータ効率フレームワークとして構造保存型GANを導入する。 我々の理論は、基底構造に付随する$\sigma$-algebraに関して条件付き期待値を用いて、判別子空間を不変判別子空間上のその射影に還元できることを示している。 さらに, 判別器空間の縮小には, 構造発電機の注意深い設計を伴わなければならないことを証明し, 欠陥設計は, 学習分布の破滅的な「モード崩壊」を引き起こす可能性がある。 固有群対称性を持つ分布に対する対称性保存型GANを構築し、同変生成器と不変判別器の双方が学習過程において重要であるが異なる役割を担っていることを示す。 実世界の医療画像を含む幅広いデータセットにおける経験的実験とアブレーションの研究は、我々の理論を検証し、提案手法がサンプルの忠実性と多様性を著しく改善していることを示した。

Generative adversarial networks (GANs), a class of distribution-learning methods based on a two-player game between a generator and a discriminator, can generally be formulated as a minmax problem based on the variational representation of a divergence between the unknown and the generated distributions. We introduce structure-preserving GANs as a data-efficient framework for learning distributions with additional structure such as group symmetry, by developing new variational representations for divergences. Our theory shows that we can reduce the discriminator space to its projection on the invariant discriminator space, using the conditional expectation with respect to the $\sigma$-algebra associated to the underlying structure. In addition, we prove that the discriminator space reduction must be accompanied by a careful design of structured generators, as flawed designs may easily lead to a catastrophic "mode collapse" of the learned distribution. We contextualize our framework by building symmetry-preserving GANs for distributions with intrinsic group symmetry, and demonstrate that both players, namely the equivariant generator and invariant discriminator, play important but distinct roles in the learning process. Empirical experiments and ablation studies across a broad range of data sets, including real-world medical imaging, validate our theory, and show our proposed methods achieve significantly improved sample fidelity and diversity -- almost an order of magnitude measured in Fr\'echet Inception Distance -- especially in the small data regime.
翻訳日:2022-02-03 14:21:51 公開日:2022-02-02
# 自動車部品評価:リアルタイムインスタンス分割モデルによる自動車部品の同定

Automotive Parts Assessment: Applying Real-time Instance-Segmentation Models to Identify Vehicle Parts ( http://arxiv.org/abs/2202.00884v1 )

ライセンス: Link先を確認
Syed Adnan Yusuf, Abdulmalik Ali Aldawsari, Riad Souissi(参考訳) 自動自動車損傷評価の問題は、自動車修理・損傷評価産業において大きな課題となっている。 自動車レンタルやボディショップなどの自動車アセスメント会社から、自動車保険会社の事故被害評価まで、いくつかの分野がある。 車両評価では、損傷は傷、小さな歯列、大きな歯列を含むあらゆる形で失われる可能性がある。 多くの場合、アセスメントエリアは、土、グリース、石油、ラッシュといった、正確な識別を困難にするかなりのレベルのノイズを持っている。 さらに、特定の部品の特定は、修理業界において、異なる車種、形状、大きさの存在により、機械学習モデルがうまく機能するタスクがさらに困難になるような、正確な作業と部分評価を行うための第一歩となる。 これらの課題に対処するために,本研究では,最高の性能モデルを評価するために,様々なインスタンスセグメンテーション手法を探求し,適用した。 本研究の範囲は,sipmaskとyolactという産業的意義から,実時間インスタンスセグメンテーションモデルの2つのジャンルに焦点を当てている。 これらの方法論は、予め報告された自動車部品データセット(dsmlr)と、現地の自動車修理ワークショップから抽出された内部キュレートデータセットに対して評価される。 Yolact-based part localization and segmentation method は、mAP 66.5 の他のリアルタイムインスタンス機構と比較してよく機能した。 ワークショップの修復データセットでは、sipmask++は57.0のマップでオブジェクト検出の精度が向上し、それぞれap_iou=.50とap_iou=.75のレポート72.0と67.0が得られた。

The problem of automated car damage assessment presents a major challenge in the auto repair and damage assessment industry. The domain has several application areas ranging from car assessment companies such as car rentals and body shops to accidental damage assessment for car insurance companies. In vehicle assessment, the damage can take any form including scratches, minor and major dents to missing parts. More often, the assessment area has a significant level of noise such as dirt, grease, oil or rush that makes an accurate identification challenging. Moreover, the identification of a particular part is the first step in the repair industry to have an accurate labour and part assessment where the presence of different car models, shapes and sizes makes the task even more challenging for a machine-learning model to perform well. To address these challenges, this research explores and applies various instance segmentation methodologies to evaluate the best performing models. The scope of this work focusses on two genres of real-time instance segmentation models due to their industrial significance, namely SipMask and Yolact. These methodologies are evaluated against a previously reported car parts dataset (DSMLR) and an internally curated dataset extracted from local car repair workshops. The Yolact-based part localization and segmentation method performed well when compared to other real-time instance mechanisms with a mAP of 66.5. For the workshop repair dataset, SipMask++ reported better accuracies for object detection with a mAP of 57.0 with outcomes for AP_IoU=.50and AP_IoU=.75 reporting 72.0 and 67.0 respectively while Yolact was found to be a better performer for AP_s with 44.0 and 2.6 for object detection and segmentation categories respectively.
翻訳日:2022-02-03 14:20:06 公開日:2022-02-02
# 目のための眼:勾配を持つ勾配に基づく攻撃から防御する

An Eye for an Eye: Defending against Gradient-based Attacks with Gradients ( http://arxiv.org/abs/2202.01117v1 )

ライセンス: Link先を確認
Hanbin Hong, Yuan Hong, and Yu Kong(参考訳) ディープラーニングモデルは敵の攻撃に弱いことが示されている。 特に勾配に基づく攻撃は近年高い成功率を示している。 この勾配は、悪質な摂動を生成するための重要な情報を含むモデル出力に、各画像ピクセルがどのように影響するかを測定する。 本稿では,この勾配を,敵の攻撃から守るための強力な武器としても活用できることを示す。 グラデーションマップと逆画像の両方を入力として,逆画像復元のための2ストリーム復元ネットワーク(trn)を提案する。 2つの入力ストリームで摂動画像を最適に復元するために、逆画像の勾配を推定する勾配マップ推定機構が提案され、TRNでは2つのストリームで情報を探索して融合するためにFusion Blockが設計されている。 訓練されたtrnは、良質な入力のパフォーマンスを著しく低下させることなく、幅広い攻撃方法に対して防御することができる。 また,本手法は一般化可能で,拡張性があり,バイパスが難しい。 CIFAR10,SVHN,Fashion MNISTの実験結果から,本手法が最先端の防御方法より優れていることが示された。

Deep learning models have been shown to be vulnerable to adversarial attacks. In particular, gradient-based attacks have demonstrated high success rates recently. The gradient measures how each image pixel affects the model output, which contains critical information for generating malicious perturbations. In this paper, we show that the gradients can also be exploited as a powerful weapon to defend against adversarial attacks. By using both gradient maps and adversarial images as inputs, we propose a Two-stream Restoration Network (TRN) to restore the adversarial images. To optimally restore the perturbed images with two streams of inputs, a Gradient Map Estimation Mechanism is proposed to estimate the gradients of adversarial images, and a Fusion Block is designed in TRN to explore and fuse the information in two streams. Once trained, our TRN can defend against a wide range of attack methods without significantly degrading the performance of benign inputs. Also, our method is generalizable, scalable, and hard to bypass. Experimental results on CIFAR10, SVHN, and Fashion MNIST demonstrate that our method outperforms state-of-the-art defense methods.
翻訳日:2022-02-03 14:18:34 公開日:2022-02-02
# ksd集計適合性試験

KSD Aggregated Goodness-of-fit Test ( http://arxiv.org/abs/2202.00824v1 )

ライセンス: Link先を確認
Schrab Antonin and Guedj Benjamin and Gretton Arthur(参考訳) Kernel Stein Discrepancy (KSD) に基づく適合性試験の特性について検討した。 我々は、異なるカーネルで複数のテストを集約するKSDAggと呼ばれるテストを構築する戦略を導入する。 KSDAggは、データを分割してカーネル選択(テストパワーの損失につながる)することを避け、むしろカーネルのコレクション上でテストパワーを最大化する。 我々は、KSDAggのパワーに関する理論的保証を提供する: コレクションの最小の均一分離率を対数項まで達成することを示す。 ksdaggはパラメトリックブートストラップまたはワイルドブートストラップに依存して量子量とレベル補正を推定するため、実際に正確に計算することができる。 特に、固定カーネルの帯域幅を決定的に選択するためには、任意のヒューリスティック(中央値や標準偏差など)やデータの分割を避ける。 ksdaggが他の最先端アダプティブksdベースの適合性テスト手順よりも優れている合成データと実世界のデータの両方を見つけました。

We investigate properties of goodness-of-fit tests based on the Kernel Stein Discrepancy (KSD). We introduce a strategy to construct a test, called KSDAgg, which aggregates multiple tests with different kernels. KSDAgg avoids splitting the data to perform kernel selection (which leads to a loss in test power), and rather maximises the test power over a collection of kernels. We provide theoretical guarantees on the power of KSDAgg: we show it achieves the smallest uniform separation rate of the collection, up to a logarithmic term. KSDAgg can be computed exactly in practice as it relies either on a parametric bootstrap or on a wild bootstrap to estimate the quantiles and the level corrections. In particular, for the crucial choice of bandwidth of a fixed kernel, it avoids resorting to arbitrary heuristics (such as median or standard deviation) or to data splitting. We find on both synthetic and real-world data that KSDAgg outperforms other state-of-the-art adaptive KSD-based goodness-of-fit testing procedures.
翻訳日:2022-02-03 14:18:16 公開日:2022-02-02
# 動的音源のアクティブ・オーディオ・ビジュアル分離

Active Audio-Visual Separation of Dynamic Sound Sources ( http://arxiv.org/abs/2202.00850v1 )

ライセンス: Link先を確認
Sagnik Majumder, Ziad Al-Halah, Kristen Grauman(参考訳) 本研究では,3次元環境においてエージェントがインテリジェントに移動し,興味の対象から出力される時間変化オーディオストリームを連続的に分離する動的音源のアクティブな視覚的分離について検討する。 エージェントは、複数の時間変化オーディオソース(例えば、複数の人が会話し、うるさいパーティーで音楽を演奏するバンド)の混合ストリームを聴く。 時間予算が限られているため、エゴセントリックな視聴覚観測を用いて対象音を抽出する必要がある。 本稿では,カメラとマイクロホンを制御して動的ターゲット音声を再生する動作ポリシーを学習し,自己注意による過去の時間経過を推定する,新しいトランスフォーマーメモリを備えた強化学習エージェントを提案する。 実世界スキャニングされたmatterport3d環境における高度にリアルな音響音空間シミュレーションを用いて,我々は,時間変化のある音声ターゲットを連続的に分離する効率的な動作を学習できることを示す。 プロジェクト: https://vision.cs.utexas.edu/projects/active-av-dynamic-separation/。

We explore active audio-visual separation for dynamic sound sources, where an embodied agent moves intelligently in a 3D environment to continuously isolate the time-varying audio stream being emitted by an object of interest. The agent hears a mixed stream of multiple time-varying audio sources (e.g., multiple people conversing and a band playing music at a noisy party). Given a limited time budget, it needs to extract the target sound using egocentric audio-visual observations. We propose a reinforcement learning agent equipped with a novel transformer memory that learns motion policies to control its camera and microphone to recover the dynamic target audio, improving its own estimates for past timesteps via self-attention. Using highly realistic acoustic SoundSpaces simulations in real-world scanned Matterport3D environments, we show that our model is able to learn efficient behavior to carry out continuous separation of a time-varying audio target. Project: https://vision.cs.utexas.edu/projects/active-av-dynamic-separation/.
翻訳日:2022-02-03 14:17:51 公開日:2022-02-02
# シナリオベースタスク指向セマンティックパーシングのための検索と充足

Retrieve-and-Fill for Scenario-based Task-Oriented Semantic Parsing ( http://arxiv.org/abs/2202.00901v1 )

ライセンス: Link先を確認
Akshat Shrivastava, Shrey Desai, Anchit Gupta, Ali Elkahky, Aleksandr Livshits, Alexander Zotov, Ahmed Aly(参考訳) タスク指向意味解析モデルは近年、強力な成果を上げていますが、残念ながらモデルサイズ、ランタイムレイテンシ、ドメイン間の一般化可能性のバランスには達していません。 シナリオベースのセマンティック解析を導入することでこの問題に対処する: まず最初に発話の"scenario"(可変葉幅を持つインテントスロットテンプレート)を曖昧にする必要がある元のタスクの変種で、オントロジーと発話トークンを完備したフレームを生成する。 この定式化により、タスクの粗くきめ細かな側面を分離することができ、それぞれがオフザシェルフニューラルネットワークモジュールで解決し、上述した軸を最適化することができる。 具体的には,(1)発話に最も適したシナリオをランク付けする検索モジュールと,(2)フレームを作成するためにシナリオにインプットする充填モジュールからなる検索モジュール(Retrieve-and-Fill)アーキテクチャを作成する。 私たちのモデルはモジュール化され、差別化可能で、解釈可能で、シナリオから余分な監督を受けることができます。 RAFは、ベーストレーニング済みのエンコーダ、小さなシーケンス長、並列デコードを使用しても、近年のアプローチを幅広いマージンで上回り、高リソース、低リソース、多言語設定において強力な結果をもたらす。

Task-oriented semantic parsing models have achieved strong results in recent years, but unfortunately do not strike an appealing balance between model size, runtime latency, and cross-domain generalizability. We tackle this problem by introducing scenario-based semantic parsing: a variant of the original task which first requires disambiguating an utterance's "scenario" (an intent-slot template with variable leaf spans) before generating its frame, complete with ontology and utterance tokens. This formulation enables us to isolate coarse-grained and fine-grained aspects of the task, each of which we solve with off-the-shelf neural modules, also optimizing for the axes outlined above. Concretely, we create a Retrieve-and-Fill (RAF) architecture comprised of (1) a retrieval module which ranks the best scenario given an utterance and (2) a filling module which imputes spans into the scenario to create the frame. Our model is modular, differentiable, interpretable, and allows us to garner extra supervision from scenarios. RAF achieves strong results in high-resource, low-resource, and multilingual settings, outperforming recent approaches by wide margins despite, using base pre-trained encoders, small sequence lengths, and parallel decoding.
翻訳日:2022-02-03 14:17:33 公開日:2022-02-02
# (参考訳) VOS:バーチャル・アウトリア・シンセサイザーで知らないことを学ぶ

VOS:Learning What You Don't Know by Virtual Outlier Synthesis ( http://arxiv.org/abs/2202.01197v1 )

ライセンス: CC BY-SA 4.0
Xuefeng Du, Zhaoning Wang, Mu Cai, Yixuan Li(参考訳) 分散(ood)検出は、ニューラルネットワークの安全な展開における重要性から、近年多くの注目を集めている。 重要な課題の1つは、モデルは未知のデータからの監視信号が欠如しており、その結果、OODデータに対する過信的な予測を生成することができることである。 以前のアプローチでは、モデル正規化のために実際の外れたデータセットに依存している。 本稿では,トレーニング中にモデルの判断境界を有意義に定式化できる仮想外れ値の適応的合成によるood検出のための新しいフレームワークvosを提案する。 具体的には、VOSは、特徴空間で推定されるクラス条件分布の低線状領域から仮想外周をサンプリングする。 また,idデータ間の不確実性空間を対比的に形成し,不確実性データを合成する,新しい未知認識学習目標を提案する。 VOSはオブジェクト検出モデルと画像分類モデルの両方で最先端の性能を達成し、FPR95を以前の最良の手法と比較して最大7.87%削減した。 コードはhttps://github.com/deeplearning-wisc/vosで入手できる。

Out-of-distribution (OOD) detection has received much attention lately due to its importance in the safe deployment of neural networks. One of the key challenges is that models lack supervision signals from unknown data, and as a result, can produce overconfident predictions on OOD data. Previous approaches rely on real outlier datasets for model regularization, which can be costly and sometimes infeasible to obtain in practice. In this paper, we present VOS, a novel framework for OOD detection by adaptively synthesizing virtual outliers that can meaningfully regularize the model's decision boundary during training. Specifically, VOS samples virtual outliers from the low-likelihood region of the class-conditional distribution estimated in the feature space. Alongside, we introduce a novel unknown-aware training objective, which contrastively shapes the uncertainty space between the ID data and synthesized outlier data. VOS achieves state-of-the-art performance on both object detection and image classification models, reducing the FPR95 by up to 7.87% compared to the previous best method. Code is available at https://github.com/deeplearning-wisc/vos.
翻訳日:2022-02-03 14:15:21 公開日:2022-02-02
# 大規模言語モデルのためのPromptベースの学習を改善するコトレーニング

Co-training Improves Prompt-based Learning for Large Language Models ( http://arxiv.org/abs/2202.00828v1 )

ライセンス: Link先を確認
Hunter Lang, Monica Agrawal, Yoon Kim, David Sontag(参考訳) 共同学習(blum & mitchell, 1998)がラベルなしデータを用いて,プロンプトベース学習の性能を向上させることを実証する。 プロンプトは、少数およびゼロショット学習の有望なパラダイムとして現れてきたが、しばしば脆く、標準的な教師付きセットアップよりもずっと大きなモデルを必要とする。 協調学習により、元のプロンプトモデルを改善することができ、同時により小さく、ダウンストリームなタスク固有モデルを学ぶことができる。 プロンプトモデル(例えば GPT-3 (Brown et al., 2020) からの出力確率)に部分的にしかアクセスできない場合には、プロンプト出力に関するキャリブレーションモデルを学ぶ。 プロンプトモデルの勾配に完全にアクセスできるが、完全な微調整は違法に高価である(例: T0 (Sanh et al., 2021))とき、プロンプトモデルを反復的に更新するソフトプロンプト連続ベクトルの集合を学ぶ。 この方法でトレーニングされたモデルは、現在プロンプトベースの学習と完全な教師付きモデルの間に大きなギャップがある、挑戦的なデータセットのパフォーマンスを大幅に向上することができることが分かりました。

We demonstrate that co-training (Blum & Mitchell, 1998) can improve the performance of prompt-based learning by using unlabeled data. While prompting has emerged as a promising paradigm for few-shot and zero-shot learning, it is often brittle and requires much larger models compared to the standard supervised setup. We find that co-training makes it possible to improve the original prompt model and at the same time learn a smaller, downstream task-specific model. In the case where we only have partial access to a prompt model (e.g., output probabilities from GPT-3 (Brown et al., 2020)) we learn a calibration model over the prompt outputs. When we have full access to the prompt model's gradients but full finetuning remains prohibitively expensive (e.g., T0 (Sanh et al., 2021)), we learn a set of soft prompt continuous vectors to iteratively update the prompt model. We find that models trained in this manner can significantly improve performance on challenging datasets where there is currently a large gap between prompt-based learning and fully-supervised models.
翻訳日:2022-02-03 13:54:35 公開日:2022-02-02
# 低ランクニューラルネットワークを効率的に学習するためのアルゴリズム

Algorithms for Efficiently Learning Low-Rank Neural Networks ( http://arxiv.org/abs/2202.00834v1 )

ライセンス: Link先を確認
Kiran Vodrahalli and Rakesh Shivanna and Mahesh Sathiamoorthy and Sagar Jain and Ed Chi(参考訳) 2つの低ランク行列の積によって重みパラメータが再パラメータ化されるネットワークである低ランクニューラルネットワークの学習アルゴリズムについて検討する。 まず,単一階層reluネットワークに対する最適低ランク近似を,多項式時間とサンプルでガウス辺数を持つノイズのないサンプルへのアクセスを与えられた確率$\\ge 1 - \delta$で加法誤差$\epsilon$まで学習する。 そこで本研究では,基礎的真理が実現可能と仮定することなく,加算誤差までニューラルネットワークを効率的に学習できるアルゴリズムの最初の例を示す。 この問題を解決するために,ガウス空間上の非線形低ランク近似問題を解くために,効率的なsvdベースの \textit{nonlinear kernel projection}アルゴリズムを導入する。 このアルゴリズムの効率性に触発されて,低ランクの \textit{deep}ネットワークをトレーニングするための新しい低ランク初期化フレームワークを提案し,reluネットワークにおいて,近似重みの所望のランクや入力の次元が増加するにつれて,提案手法と既存スキームのギャップが拡大することを示す。 最後に、ImageNet \citep{ILSVRC15}上でResNetsおよびEfficientNets \citep{he2016deepresidual, tan2019efficientnet}モデルをトレーニングすることにより、我々の理論を検証する。

We study algorithms for learning low-rank neural networks -- networks where the weight parameters are re-parameterized by products of two low-rank matrices. First, we present a provably efficient algorithm which learns an optimal low-rank approximation to a single-hidden-layer ReLU network up to additive error $\epsilon$ with probability $\ge 1 - \delta$, given access to noiseless samples with Gaussian marginals in polynomial time and samples. Thus, we provide the first example of an algorithm which can efficiently learn a neural network up to additive error without assuming the ground truth is realizable. To solve this problem, we introduce an efficient SVD-based \textit{Nonlinear Kernel Projection} algorithm for solving a nonlinear low-rank approximation problem over Gaussian space. Inspired by the efficiency of our algorithm, we propose a novel low-rank initialization framework for training low-rank \textit{deep} networks, and prove that for ReLU networks, the gap between our method and existing schemes widens as the desired rank of the approximating weights decreases, or as the dimension of the inputs increases (the latter point holds when network width is superlinear in dimension). Finally, we validate our theory by training ResNets and EfficientNets \citep{he2016deepresidual, tan2019efficientnet} models on ImageNet \citep{ILSVRC15}.
翻訳日:2022-02-03 13:53:57 公開日:2022-02-02
# 自動転送: 経路転送可能な表現への学習

Auto-Transfer: Learning to Route Transferrable Representations ( http://arxiv.org/abs/2202.01011v1 )

ライセンス: Link先を確認
Keerthiram Murugesan (1), Vijay Sadashivaiah (2), Ronny Luss (1), Karthikeyan Shanmugam (1), Pin-Yu Chen (1), Amit Dhurandhar (1) ((1) IBM Research, Yorktown Heights, (2) Rensselaer Polytechnic Institute, New York)(参考訳) 不均一なソースとターゲットネットワークとタスクの間の知識転送は、多くのアプリケーションで大量の品質ラベル付きデータを得るのが難しいため、近年多くの注目を集めている。 既存のアプローチでは、ターゲットのディープニューラルネットワーク(DNN)特徴表現を、制限可能なソースのDNN特徴表現に近いものに制限するのが一般的である。 本稿では,ターゲットモデルの作成に意味のある方法で組み合わされた,適切なターゲット表現へのソース表現の経路を自動学習する,新しい敵対的多腕バンディット手法を提案する。 ソースデータセットがImageNetであるCUB200、Stanford Dogs、MIT67、Stanford40の4つのベンチマーク(ターゲット)イメージデータセットに対して、最先端の知識伝達手法と比較して、5%以上の精度向上が見られる。 ターゲットネットワークが注目する重要な機能の個々の例を、(最も近い)競合相手と比較して異なるレイヤで示すことで、転送方式の良さを質的に分析する。 また、より小さなターゲットデータセットでは、他の方法よりも改善が進み、転送学習の恩恵を受ける小さなデータアプリケーションにとって効果的なツールとなることも観察しています。

Knowledge transfer between heterogeneous source and target networks and tasks has received a lot of attention in recent times as large amounts of quality labelled data can be difficult to obtain in many applications. Existing approaches typically constrain the target deep neural network (DNN) feature representations to be close to the source DNNs feature representations, which can be limiting. We, in this paper, propose a novel adversarial multi-armed bandit approach which automatically learns to route source representations to appropriate target representations following which they are combined in meaningful ways to produce accurate target models. We see upwards of 5% accuracy improvements compared with the state-of-the-art knowledge transfer methods on four benchmark (target) image datasets CUB200, Stanford Dogs, MIT67, and Stanford40 where the source dataset is ImageNet. We qualitatively analyze the goodness of our transfer scheme by showing individual examples of the important features our target network focuses on in different layers compared with the (closest) competitors. We also observe that our improvement over other methods is higher for smaller target datasets making it an effective tool for small data applications that may benefit from transfer learning.
翻訳日:2022-02-03 13:53:25 公開日:2022-02-02
# 確率的にロバストな学習: 平均と最悪の場合のパフォーマンスのバランス

Probabilistically Robust Learning: Balancing Average- and Worst-case Performance ( http://arxiv.org/abs/2202.01136v1 )

ライセンス: Link先を確認
Alexander Robey and Luiz F. O. Chamon and George J. Pappas and Hamed Hassani(参考訳) 機械学習の成功の多くは、平均損失関数の最小化に基づいている。 しかし、このパラダイムが安全クリティカルドメインの適用性を阻害する堅牢性の問題に悩まされていることはよく知られている。 これらの問題は、最悪のデータ摂動に対するトレーニングによって対処されることが多い。 経験的に効果的であるが、敵対的な訓練は過度に保守的であり、名目上のパフォーマンスと堅牢性の間の不利なトレードオフをもたらす。 そこで本稿では, 確率的頑健性(probabilistic robustness)というフレームワークを提案し, 正確で不安定な平均ケースと, 頑健で保守的な最悪のケースとのギャップを橋渡しする。 理論的には、このフレームワークはパフォーマンスと最悪のケースと平均ケース学習のサンプル複雑さの間のトレードオフを克服する。 実践的な観点からは,平均値と最悪の場合のパフォーマンスを,逆訓練に比べてかなり低い計算コストで効果的にバランスさせる,リスクアウェア最適化に基づく新しいアルゴリズムを提案する。 MNIST, CIFAR-10, SVHN で得られた結果から, 平均から最悪の場合のロバスト性において, このフレームワークの利点が示された。

Many of the successes of machine learning are based on minimizing an averaged loss function. However, it is well-known that this paradigm suffers from robustness issues that hinder its applicability in safety-critical domains. These issues are often addressed by training against worst-case perturbations of data, a technique known as adversarial training. Although empirically effective, adversarial training can be overly conservative, leading to unfavorable trade-offs between nominal performance and robustness. To this end, in this paper we propose a framework called probabilistic robustness that bridges the gap between the accurate, yet brittle average case and the robust, yet conservative worst case by enforcing robustness to most rather than to all perturbations. From a theoretical point of view, this framework overcomes the trade-offs between the performance and the sample-complexity of worst-case and average-case learning. From a practical point of view, we propose a novel algorithm based on risk-aware optimization that effectively balances average- and worst-case performance at a considerably lower computational cost relative to adversarial training. Our results on MNIST, CIFAR-10, and SVHN illustrate the advantages of this framework on the spectrum from average- to worst-case robustness.
翻訳日:2022-02-03 13:53:03 公開日:2022-02-02
# シーケンス・ツー・シーケンスモデルを用いたASRの誤り訂正

Error Correction in ASR using Sequence-to-Sequence Models ( http://arxiv.org/abs/2202.01157v1 )

ライセンス: Link先を確認
Samrat Dutta, Shreyansh Jain, Ayush Maheshwari, Ganesh Ramakrishnan, Preethi Jyothi(参考訳) 自動音声認識(ASR)における後編集では、ASRシステムによって生成された共通および系統的な誤りを自動的に修正する。 ASRシステムの出力は音声や綴りの誤りがほとんどである。 そこで本稿では,より適応的に訓練された適応型列列列列列モデルBARTを用いて,そのようなタイプの誤りを訂正する手法を提案する。 既存のasrシステムから実際のエラーを取り込んで、合成的にエラーを誘発した拡張データセット上で適応トレーニングを行う。 また,単語レベルアライメントを用いた出力の再調整手法を提案する。 アクセント付き音声データを用いた実験結果から,ASRの誤りを効果的に修正し,競争基準と比較した場合に改善されたWER結果が得られた。

Post-editing in Automatic Speech Recognition (ASR) entails automatically correcting common and systematic errors produced by the ASR system. The outputs of an ASR system are largely prone to phonetic and spelling errors. In this paper, we propose to use a powerful pre-trained sequence-to-sequence model, BART, further adaptively trained to serve as a denoising model, to correct errors of such types. The adaptive training is performed on an augmented dataset obtained by synthetically inducing errors as well as by incorporating actual errors from an existing ASR system. We also propose a simple approach to rescore the outputs using word level alignments. Experimental results on accented speech data demonstrate that our strategy effectively rectifies a significant number of ASR errors and produces improved WER results when compared against a competitive baseline.
翻訳日:2022-02-03 13:50:57 公開日:2022-02-02
# L3Cube-MahaCorpusとMahaBERT:Marathi Monolingual Corpus、Marathi BERT言語モデル、リソース

L3Cube-MahaCorpus and MahaBERT: Marathi Monolingual Corpus, Marathi BERT Language Models, and Resources ( http://arxiv.org/abs/2202.01159v1 )

ライセンス: Link先を確認
Raviraj Joshi(参考訳) 我々は、L3Cube-MahaCorpusを、異なるインターネットソースから取り除かれたマラタイのモノリンガルデータセットとして提示する。 既存のMarathiモノリンガルコーパスを24.8M文と289Mトークンで拡張する。 さらにmahabert、mahalbert、maharobertaといったbertベースのマスキング言語モデルと、752mのトークンを持つ完全なmarathiコーパスでトレーニングされた高速テキストの埋め込みであるmahaftについても紹介する。 下流分類とNERタスクにおけるこれらのリソースの有効性を示す。 マラーティー語はインドで人気のある言語であるが、これらの資源は乏しい。 この作業は、Marathi言語のためのオープンリソースを構築するための一歩です。 データとモデルはhttps://github.com/l3cube-pune/marathinlpで入手できる。

We present L3Cube-MahaCorpus a Marathi monolingual data set scraped from different internet sources. We expand the existing Marathi monolingual corpus with 24.8M sentences and 289M tokens. We further present, MahaBERT, MahaAlBERT, and MahaRoBerta all BERT-based masked language models, and MahaFT, the fast text word embeddings both trained on full Marathi corpus with 752M tokens. We show the effectiveness of these resources on downstream classification and NER tasks. Marathi is a popular language in India but still lacks these resources. This work is a step forward in building open resources for the Marathi language. The data and models are available at https://github.com/l3cube-pune/MarathiNLP .
翻訳日:2022-02-03 13:50:43 公開日:2022-02-02
# 経路型言語モデルの統一スケーリング則

Unified Scaling Laws for Routed Language Models ( http://arxiv.org/abs/2202.01169v1 )

ライセンス: Link先を確認
Aidan Clark, Diego de las Casas, Aurelia Guy, Arthur Mensch, Michela Paganini, Jordan Hoffmann, Bogdan Damoc, Blake Hechtman, Trevor Cai, Sebastian Borgeaud, George van den Driessche, Eliza Rutherford, Tom Hennigan, Matthew Johnson, Katie Millican, Albin Cassirer, Chris Jones, Elena Buchatskaya, David Budden, Laurent Sifre, Simon Osindero, Oriol Vinyals, Jack Rae, Erich Elsen, Koray Kavukcuoglu, Karen Simonyan(参考訳) 言語モデルの性能は、パラメータ数におけるパワーローとして効果的にモデル化されていることが示されている。 本稿では,入力処理中にパラメータのサブセットのみを条件付きで使用するアーキテクチャであるルーティングネットワークのスケーリング挙動について検討する。 これらのモデルでは、パラメータカウントと計算要求が2つの独立した軸を形成し、それによってパフォーマンスが向上する。 本研究は,これら2つの変数に定義されたスケーリング法則を導出・正当化し,標準言語モデルで知られているものを一般化し,3つの異なる手法を用いて訓練された幅広いルーティングアーキテクチャの性能を記述する。 その後、まず全てのモデルが同じ速度でスケールする有効パラメータカウントを導出し、次にスケーリング係数を用いて検討された3つのルーティング手法の定量的比較を行う。 我々の分析は、数百のエキスパートと数十億のパラメータを持つモデルを含む5桁のサイズのルーティングネットワークを広範囲に評価することに由来する。

The performance of a language model has been shown to be effectively modeled as a power-law in its parameter count. Here we study the scaling behaviors of Routing Networks: architectures that conditionally use only a subset of their parameters while processing an input. For these models, parameter count and computational requirement form two independent axes along which an increase leads to better performance. In this work we derive and justify scaling laws defined on these two variables which generalize those known for standard language models and describe the performance of a wide range of routing architectures trained via three different techniques. Afterwards we provide two applications of these laws: first deriving an Effective Parameter Count along which all models scale at the same rate, and then using the scaling coefficients to give a quantitative comparison of the three routing techniques considered. Our analysis derives from an extensive evaluation of Routing Networks across five orders of magnitude of size, including models with hundreds of experts and hundreds of billions of parameters.
翻訳日:2022-02-03 13:50:29 公開日:2022-02-02
# アクティブマルチタスク表現学習

Active Multi-Task Representation Learning ( http://arxiv.org/abs/2202.00911v1 )

ライセンス: Link先を確認
Yifang Chen, Simon S. Du, Kevin Jamieson(参考訳) ソースタスクからのビッグデータのパワーを活用し,対象タスクサンプルの不足を克服するために,マルチタスク事前学習に基づく表現学習は多くのアプリケーションにおいて標準的アプローチとなっている。 しかし、これまでは、マルチタスク学習に含まれるソースタスクを選択することは、科学よりも芸術的だった。 本稿では,アクティブラーニングの手法を活用することで,資源タスクサンプリングに関する最初の公式研究を行う。 提案アルゴリズムは,各ソースタスクの目的タスクに対する関連性を反復的に推定し,その関連性に基づいて各ソースタスクからサンプルを抽出する。 理論的には、線形表現クラスが同じエラー率を達成するために、我々のアルゴリズムはソースタスクのサンプルの複雑さにおいて、すべてのソースタスクから単純で均一なサンプリングを行うのと比較して、最大1要素まで節約できることを示す。 また,線形および畳み込みニューラルネットワーク表現クラスにおける提案手法の有効性を示すために,実世界のコンピュータビジョンデータセットの実験を行った。 私たちの論文は、アクティブラーニングから表現学習へ技術をもたらすための重要な最初のステップであると信じています。

To leverage the power of big data from source tasks and overcome the scarcity of the target task samples, representation learning based on multi-task pretraining has become a standard approach in many applications. However, up until now, choosing which source tasks to include in the multi-task learning has been more art than science. In this paper, we give the first formal study on resource task sampling by leveraging the techniques from active learning. We propose an algorithm that iteratively estimates the relevance of each source task to the target task and samples from each source task based on the estimated relevance. Theoretically, we show that for the linear representation class, to achieve the same error rate, our algorithm can save up to a \textit{number of source tasks} factor in the source task sample complexity, compared with the naive uniform sampling from all source tasks. We also provide experiments on real-world computer vision datasets to illustrate the effectiveness of our proposed method on both linear and convolutional neural network representation classes. We believe our paper serves as an important initial step to bring techniques from active learning to representation learning.
翻訳日:2022-02-03 13:49:56 公開日:2022-02-02
# 深層強化学習による逐次実験設計の最適化

Optimizing Sequential Experimental Design with Deep Reinforcement Learning ( http://arxiv.org/abs/2202.00821v1 )

ライセンス: Link先を確認
Tom Blau, Edwin Bonilla, Amir Dezfouli, Iadine Chades(参考訳) シーケンシャルな実験の最適設計を解くために開発されたベイズ的アプローチは数学的にエレガントだが計算的に難しい。 近年,これらのベイズ的アプローチを実践するために,効率的に設計を提案できるパラメータ化ポリシをトレーニングする手法が提案されている。 しかし、これらの手法は設計空間を十分に探索することができず、微分可能確率モデルへのアクセスを必要とし、連続的な設計空間よりも最適化できる。 ここでは,政策最適化の問題をマルコフ決定過程(MDP)の解決に還元できることを示し,これらの制約に対処する。 我々は、現代の深層強化学習技術を用いて、同等のMDPを解く。 実験により,本手法はデプロイ時に計算効率が高く,確率モデルがブラックボックスであっても,連続的および離散的設計空間において最先端の性能を示すことが示された。

Bayesian approaches developed to solve the optimal design of sequential experiments are mathematically elegant but computationally challenging. Recently, techniques using amortization have been proposed to make these Bayesian approaches practical, by training a parameterized policy that proposes designs efficiently at deployment time. However, these methods may not sufficiently explore the design space, require access to a differentiable probabilistic model and can only optimize over continuous design spaces. Here, we address these limitations by showing that the problem of optimizing policies can be reduced to solving a Markov decision process (MDP). We solve the equivalent MDP with modern deep reinforcement learning techniques. Our experiments show that our approach is also computationally efficient at deployment time and exhibits state-of-the-art performance on both continuous and discrete design spaces, even when the probabilistic model is a black box.
翻訳日:2022-02-03 13:47:59 公開日:2022-02-02
# 非観測文脈で帯域を制御できる効率的なアルゴリズム

Efficient Algorithms for Learning to Control Bandits with Unobserved Contexts ( http://arxiv.org/abs/2202.00867v1 )

ライセンス: Link先を確認
Hongju Park and Mohamad Kazem Shirani Faradonbeh(参考訳) コンテキストバンディットは有限作用空間に対する学習に基づく制御ポリシーの研究で広く使われている。 この問題は、完全に観察された文脈ベクトルを持つ包帯に対してよく研究されているが、不完全な観測された文脈の場合についてはほとんど知られていない。 この設定では、既存のアプローチは適用不可能であり、新しい概念的および技術的なフレームワークが必要である。 不完全な文脈観察を有するバンディットに対して実装可能な後方サンプリングアルゴリズムを提案し,最適決定の学習におけるその性能について検討する。 得られた数値は, アルゴリズムの性能を, アーム数, 寸法, 観測行列, 後方再スケーリング係数, 信号対雑音比など, 様々な利害関係に関連付ける。 一般に,提案アルゴリズムはノイズの不完全な観測から学習の効率性を明らかにする。 分析の啓蒙的な理解と、それが指摘する今後の興味深い方向性も議論されている。

Contextual bandits are widely-used in the study of learning-based control policies for finite action spaces. While the problem is well-studied for bandits with perfectly observed context vectors, little is known about the case of imperfectly observed contexts. For this setting, existing approaches are inapplicable and new conceptual and technical frameworks are required. We present an implementable posterior sampling algorithm for bandits with imperfect context observations and study its performance for learning optimal decisions. The provided numerical results relate the performance of the algorithm to different quantities of interest including the number of arms, dimensions, observation matrices, posterior rescaling factors, and signal-to-noise ratios. In general, the proposed algorithm exposes efficiency in learning from the noisy imperfect observations and taking actions accordingly. Enlightening understandings the analyses provide as well as interesting future directions it points to, are discussed as well.
翻訳日:2022-02-03 13:47:45 公開日:2022-02-02
# 非定常デュエルバンド

Non-Stationary Dueling Bandits ( http://arxiv.org/abs/2202.00935v1 )

ライセンス: Link先を確認
Patrick Kolpaczki, Viktor Bengs, Eyke H\"ullermeier(参考訳) 我々は,非定常的決闘バンドイット問題をk$ armsで検討し,時間軸$t$ は,それぞれが独自の選好行列と関連づけられる固定セグメントから成り立っている。 学習者は1対の腕を繰り返し選択し、それら間の二元選好をフィードバックとして観察する。 蓄積した後悔を最小限に抑えるため、学習者は好みの行列やセグメントの長さが不明であるにもかかわらず、各定常セグメントのコンドルチェット勝者をできるだけ頻繁に選択する必要がある。 我々は,現在最先端のアルゴリズムの限界を狭めるような定常の場合において,期待される2進不備の限界を証明し,$\mathrm{Beat\,the\,Winner\,Reset}$アルゴリズムを提案する。 我々はまた、M$やT$の知識を必要とせずに、非定常ケースに対する後悔の意を示す。 さらに,弱後悔のための$\mathrm{detect}$と強後悔のための$\mathrm{monitored\, dueling\, bandits}$という2つのメタアルゴリズムを提案し分析した。 最後に,非定常の場合において,予想される弱い後悔に対して最悪のケースが低いことを証明した。

We study the non-stationary dueling bandits problem with $K$ arms, where the time horizon $T$ consists of $M$ stationary segments, each of which is associated with its own preference matrix. The learner repeatedly selects a pair of arms and observes a binary preference between them as feedback. To minimize the accumulated regret, the learner needs to pick the Condorcet winner of each stationary segment as often as possible, despite preference matrices and segment lengths being unknown. We propose the $\mathrm{Beat\, the\, Winner\, Reset}$ algorithm and prove a bound on its expected binary weak regret in the stationary case, which tightens the bound of current state-of-art algorithms. We also show a regret bound for the non-stationary case, without requiring knowledge of $M$ or $T$. We further propose and analyze two meta-algorithms, $\mathrm{DETECT}$ for weak regret and $\mathrm{Monitored\, Dueling\, Bandits}$ for strong regret, both based on a detection-window approach that can incorporate any dueling bandit algorithm as a black-box algorithm. Finally, we prove a worst-case lower bound for expected weak regret in the non-stationary case.
翻訳日:2022-02-03 13:47:28 公開日:2022-02-02
# スケール不変アーキテクチャを用いたニューラルネットワークのロバストトレーニング

Robust Training of Neural Networks using Scale Invariant Architectures ( http://arxiv.org/abs/2202.00980v1 )

ライセンス: Link先を確認
Zhiyuan Li, Srinadh Bhojanapalli, Manzil Zaheer, Sashank J. Reddi, Sanjiv Kumar(参考訳) SGDとは対照的に、Adamのような適応勾配法は現代のディープネットワーク、特に大きな言語モデルの堅牢なトレーニングを可能にする。 しかし、適応性の使用は、余分なメモリのコストだけでなく、根本的な疑問も生じている:SGDのような非適応的な手法は、同様の利点を享受できるだろうか? In this paper, we provide an affirmative answer to this question by proposing to achieve both robust and memory-efficient training via the following general recipe: (1) modify the architecture and make it scale invariant, i.e. the scale of parameter doesn't affect the output of the network, (2) train with SGD and weight decay, and optionally (3) clip the global gradient norm proportional to weight norm multiplied by $\sqrt{\tfrac{2\lambda}{\eta}}$, where $\eta$ is learning rate and $\lambda$ is weight decay. この一般的なアプローチは、初期化と損失のスケールにおいて、その収束が対数的にのみ依存することを証明することによって、パラメータと損失の再スケーリングに頑健である。 提案手法に従うと, SIBERT と呼ばれる BERT のスケール不変バージョンを設計し, 単にバニラSGD で訓練すれば, 下流タスクにおけるAdam などの適応手法で訓練された BERT に匹敵する性能を実現する。

In contrast to SGD, adaptive gradient methods like Adam allow robust training of modern deep networks, especially large language models. However, the use of adaptivity not only comes at the cost of extra memory but also raises the fundamental question: can non-adaptive methods like SGD enjoy similar benefits? In this paper, we provide an affirmative answer to this question by proposing to achieve both robust and memory-efficient training via the following general recipe: (1) modify the architecture and make it scale invariant, i.e. the scale of parameter doesn't affect the output of the network, (2) train with SGD and weight decay, and optionally (3) clip the global gradient norm proportional to weight norm multiplied by $\sqrt{\tfrac{2\lambda}{\eta}}$, where $\eta$ is learning rate and $\lambda$ is weight decay. We show that this general approach is robust to rescaling of parameter and loss by proving that its convergence only depends logarithmically on the scale of initialization and loss, whereas the standard SGD might not even converge for many initializations. Following our recipe, we design a scale invariant version of BERT, called SIBERT, which when trained simply by vanilla SGD achieves performance comparable to BERT trained by adaptive methods like Adam on downstream tasks.
翻訳日:2022-02-03 13:47:06 公開日:2022-02-02
# 一般化線形バンディットのための通信効率のよい連合学習

Communication Efficient Federated Learning for Generalized Linear Bandits ( http://arxiv.org/abs/2202.01087v1 )

ライセンス: Link先を確認
Chuanhao Li and Hongning Wang(参考訳) コンテキストバンディットアルゴリズムは、データの分散化を維持し、バンディットモデルの学習をクライアント側にプッシュするという要求を満たすために、フェデレーション学習環境下で近年研究されている。 しかし、必要な通信効率に制限されるため、既存の解はパラメータ推定のために閉形式解を利用する線形モデルに制限される。 このような制限されたモデル選択は、これらのアルゴリズムの実用性を大いに損なう。 本稿では,一般化線形バンディットモデルを連合学習環境下で研究することで,この問題に対処する第一歩を踏み出す。 本稿では,オンラインレグレッションをローカル更新に,オフラインレグレッションをグローバル更新に利用する通信効率の高いソリューションフレームワークを提案する。 我々は,より一般的かつ困難な設定であるが,本アルゴリズムが後悔とコミュニケーションコストの両方において,サブリニア率を達成可能であることを厳密に証明した。

Contextual bandit algorithms have been recently studied under the federated learning setting to satisfy the demand of keeping data decentralized and pushing the learning of bandit models to the client side. But limited by the required communication efficiency, existing solutions are restricted to linear models to exploit their closed-form solutions for parameter estimation. Such a restricted model choice greatly hampers these algorithms' practical utility. In this paper, we take the first step to addressing this challenge by studying generalized linear bandit models under a federated learning setting. We propose a communication-efficient solution framework that employs online regression for local update and offline regression for global update. We rigorously proved that, though the setting is more general and challenging, our algorithm can attain sub-linear rate in both regret and communication cost, which is also validated by our extensive empirical evaluations.
翻訳日:2022-02-03 13:46:42 公開日:2022-02-02
# 曲率認識グラフ埋め込みのための異種多様体

Heterogeneous manifolds for curvature-aware graph embedding ( http://arxiv.org/abs/2202.01185v1 )

ライセンス: Link先を確認
Francesco Di Giovanni, Giulia Luise, Michael Bronstein(参考訳) グラフ埋め込みでは、グラフのノードは連続した空間のポイントで表現され、広範囲のグラフMLアプリケーションで使用される。 そのような埋め込みの質は、空間の幾何がグラフのそれと一致するかどうかに大きく依存する。 ユークリッド空間は、階層構造とパワーロー次数分布が負の曲率に結びついている多くの実世界のグラフにとって、しばしば不適切な選択である。 この点に関して、双曲空間やより一般的な多様体、例えば定数曲率空間や行列多様体の積は、ほぼ一致ノードの対角距離に有利であることが最近示されている。 しかし、これらの多様体のクラスはすべて均質であり、曲率分布は各点で同じであり、グラフの局所曲率(および関連する構造的性質)に適合しないことを意味する。 本稿では,不均一な回転対称多様体の広いクラスにおけるグラフ埋め込みについて検討する。 任意の既存の均質モデルに1つの余剰放射次元を加えることで、グラフ上の不均質な曲率分布とペアワイズ距離を考えることができる。 本研究では,合成および実データ集合の再構成課題に対するアプローチを評価し,高次構造と不均質なランダムグラフ生成の保存可能性を示す。

Graph embeddings, wherein the nodes of the graph are represented by points in a continuous space, are used in a broad range of Graph ML applications. The quality of such embeddings crucially depends on whether the geometry of the space matches that of the graph. Euclidean spaces are often a poor choice for many types of real-world graphs, where hierarchical structure and a power-law degree distribution are linked to negative curvature. In this regard, it has recently been shown that hyperbolic spaces and more general manifolds, such as products of constant-curvature spaces and matrix manifolds, are advantageous to approximately match nodes pairwise distances. However, all these classes of manifolds are homogeneous, implying that the curvature distribution is the same at each point, making them unsuited to match the local curvature (and related structural properties) of the graph. In this paper, we study graph embeddings in a broader class of heterogeneous rotationally-symmetric manifolds. By adding a single extra radial dimension to any given existing homogeneous model, we can both account for heterogeneous curvature distributions on graphs and pairwise distances. We evaluate our approach on reconstruction tasks on synthetic and real datasets and show its potential in better preservation of high-order structures and heterogeneous random graphs generation.
翻訳日:2022-02-03 13:46:27 公開日:2022-02-02
# 騒音を発生させる:信頼性と効率のよい単段階対向訓練

Make Some Noise: Reliable and Efficient Single-Step Adversarial Training ( http://arxiv.org/abs/2202.01181v1 )

ライセンス: Link先を確認
Pau de Jorge, Adel Bibi, Riccardo Volpi, Amartya Sanyal, Philip H. S. Torr, Gr\'egory Rogez and Puneet K. Dokania(参考訳) 近年、Wongらは、単一ステップのFGSMを用いた逆行訓練が破滅的オーバーフィッティング(CO)と呼ばれる特徴的な障害モードをもたらし、モデルが突然多ステップ攻撃に対して脆弱になることを示した。 FGSM (RS-FGSM) の前にランダムな摂動を加えるだけでCOを予防できることを示した。 しかし、Andriushchenko と Flammarion は、RS-FGSM が依然としてより大きな摂動のために CO に導かれることを観察し、CO を避けるために高価な正則化器 (GradAlign) を提案した。 本研究では,単段逆行訓練におけるノイズとクリッピングの役割を体系的に再検討する。 従来の直観とは対照的に,クリッピングを伴わないクリーンサンプル周辺の強いノイズを用いることは,大きな摂動半径に対するcoの回避に非常に有効であることがわかった。 これらの観測に基づいて, 単段階対向訓練の利点を提供する一方, CO を損なわないノイズFGSM (N-FGSM) を提案する。 実験結果から、N-FGSMは3$\times$のスピードアップを達成しつつ、従来のシングルステップメソッドのパフォーマンスを一致または超えることを示した。

Recently, Wong et al. showed that adversarial training with single-step FGSM leads to a characteristic failure mode named catastrophic overfitting (CO), in which a model becomes suddenly vulnerable to multi-step attacks. They showed that adding a random perturbation prior to FGSM (RS-FGSM) seemed to be sufficient to prevent CO. However, Andriushchenko and Flammarion observed that RS-FGSM still leads to CO for larger perturbations, and proposed an expensive regularizer (GradAlign) to avoid CO. In this work, we methodically revisit the role of noise and clipping in single-step adversarial training. Contrary to previous intuitions, we find that using a stronger noise around the clean sample combined with not clipping is highly effective in avoiding CO for large perturbation radii. Based on these observations, we then propose Noise-FGSM (N-FGSM) that, while providing the benefits of single-step adversarial training, does not suffer from CO. Empirical analyses on a large suite of experiments show that N-FGSM is able to match or surpass the performance of previous single-step methods while achieving a 3$\times$ speed-up.
翻訳日:2022-02-03 13:45:36 公開日:2022-02-02
# メタマータスクによる逆ロバスト特徴の生物学的プラウザビリティの探索

Finding Biological Plausibility for Adversarially Robust Features via Metameric Tasks ( http://arxiv.org/abs/2202.00838v1 )

ライセンス: Link先を確認
Anne Harrington and Arturo Deza(参考訳) 近年の研究では、敵対的ロバストネットワークによって学習された表現は、画像操作による非ロバストネットワークよりも人間の知覚的整合性が高いことが示唆されている。 人間の視覚知覚に近づきつつあるにもかかわらず、堅牢なDNN表現の制約が人間の視覚に見られる生物学的制約と一致するかどうかは不明である。 ヒトの視覚は周囲のテクスチャベース/土着統計表現に依存しているようで、視覚探索タスクにおける群集やパフォーマンスなどの現象を説明することが示されている。 人間の視力と対向的にロバストな最適化/表現がどう比較されるかを理解するために,メタメカの識別タスクを用いて心理物理学実験を行い,非ロバストな表現と周辺視のテクスチャ合成モデル(テクスチャ合成モデル)を比較した。 その結果, 強靭な表現とテクスチャモデル画像の識別性は, 周辺より遠くに刺激が現れるにつれ, ほぼ性能に低下した。 さらに、ロバスト画像とテクスチャモデル画像のパフォーマンスは、参加者間で類似した傾向を示し、非ロバスト表現のパフォーマンスは視野で最小限に変化した。 これらの結果から,(1)非ロバスト表現よりも頑健な表現が周辺計算を捕捉し,(2)非ロバスト表現よりも頑健な表現が周辺計算を捉えることが示唆された。 より広義には, 局所的テクスチャ要約統計表現は, 対向的摂動に人間的不変性をもたらす可能性があり, DNNにそのような表現を組み込むことは, 対向的強靭性などの有用な性質を生じさせる可能性が示唆された。

Recent work suggests that representations learned by adversarially robust networks are more human perceptually-aligned than non-robust networks via image manipulations. Despite appearing closer to human visual perception, it is unclear if the constraints in robust DNN representations match biological constraints found in human vision. Human vision seems to rely on texture-based/summary statistic representations in the periphery, which have been shown to explain phenomena such as crowding and performance on visual search tasks. To understand how adversarially robust optimizations/representations compare to human vision, we performed a psychophysics experiment using a set of metameric discrimination tasks where we evaluated how well human observers could distinguish between images synthesized to match adversarially robust representations compared to non-robust representations and a texture synthesis model of peripheral vision (Texforms). We found that the discriminability of robust representation and texture model images decreased to near chance performance as stimuli were presented farther in the periphery. Moreover, performance on robust and texture-model images showed similar trends within participants, while performance on non-robust representations changed minimally across the visual field. These results together suggest that (1) adversarially robust representations capture peripheral computation better than non-robust representations and (2) robust representations capture peripheral computation similar to current state-of-the-art texture peripheral vision models. More broadly, our findings support the idea that localized texture summary statistic representations may drive human invariance to adversarial perturbations and that the incorporation of such representations in DNNs could give rise to useful properties like adversarial robustness.
翻訳日:2022-02-03 13:45:12 公開日:2022-02-02
# 構造強調画像の超解像における勾配分散損失

Gradient Variance Loss for Structure-Enhanced Image Super-Resolution ( http://arxiv.org/abs/2202.00997v1 )

ライセンス: Link先を確認
Lusine Abrahamyan, Anh Minh Truong, Wilfried Philips, Nikos Deligiannis(参考訳) 画像空間の深部畳み込みニューラルネットワーク(CNN)をL1またはL2損失で最適化することにより、単一画像超解像(SISR)の分野における最近の成功を実現する。 しかしながら、これらの損失関数を訓練すると、モデルが潜在的なHR解の統計的平均を与える傾向にあるため、通常、高解像度(HR)画像に存在するシャープエッジの回復に失敗する。 本研究では,L1またはL2の損失で訓練されたモデルにより生成された画像の勾配写像が,元の高分解能画像の勾配写像よりもかなり低分散であることを示す。 本研究では,構造強調損失関数(Gradient Variance(GV)損失)を導入し,知覚特性の詳細なテクスチャを生成することにより,上記の問題を緩和することを提案する。 具体的には、対象の勾配マップからパッチを抽出し、出力を生成し、各パッチの分散を計算し、これらの2つの画像の分散マップを作成する。 さらに、計算された分散マップ間の距離を最小化し、よりシャープなエッジを持つ高分解能画像を生成する高分散勾配マップを作成するようにモデルを強制する。 実験の結果,GV損失は,既存の画像超解像(SR)深層学習モデルにおいて,構造類似度(SSIM)とピーク信号-雑音比(PSNR)の両方を著しく改善できることがわかった。

Recent success in the field of single image super-resolution (SISR) is achieved by optimizing deep convolutional neural networks (CNNs) in the image space with the L1 or L2 loss. However, when trained with these loss functions, models usually fail to recover sharp edges present in the high-resolution (HR) images for the reason that the model tends to give a statistical average of potential HR solutions. During our research, we observe that gradient maps of images generated by the models trained with the L1 or L2 loss have significantly lower variance than the gradient maps of the original high-resolution images. In this work, we propose to alleviate the above issue by introducing a structure-enhancing loss function, coined Gradient Variance (GV) loss, and generate textures with perceptual-pleasant details. Specifically, during the training of the model, we extract patches from the gradient maps of the target and generated output, calculate the variance of each patch and form variance maps for these two images. Further, we minimize the distance between the computed variance maps to enforce the model to produce high variance gradient maps that will lead to the generation of high-resolution images with sharper edges. Experimental results show that the GV loss can significantly improve both Structure Similarity (SSIM) and peak signal-to-noise ratio (PSNR) performance of existing image super-resolution (SR) deep learning models.
翻訳日:2022-02-03 13:44:35 公開日:2022-02-02
# グラフ畳み込みを用いた言語モデルにおける知識統合の理解

Understanding Knowledge Integration in Language Models with Graph Convolutions ( http://arxiv.org/abs/2202.00964v1 )

ライセンス: Link先を確認
Yifan Hou, Guoji Fu, Mrinmaya Sachan(参考訳) 事前訓練された言語モデル(LM)は、事実知識をうまく捉えていない。 これにより、事前訓練されたLMに外部知識を組み込むための知識統合(KI)手法が開発されている。 KI法はバニラLMよりも若干の性能向上を示したが、これらの手法の内部処理は十分に理解されていない。 例えば、どのような種類の知識がこれらのモデルに効果的に統合されているのか、そして、そのような統合が既に学習された知識を壊滅的に忘れてしまう可能性があるのかは明らかではない。 本稿では,これらのモデルにおけるKI過程を情報理論的に再検討し,グラフ畳み込み操作を用いてKIを解釈可能であることを示す。 本稿では,知識を付加したLMを解釈し,これらのモデルにどのような知識が組み込まれているかを明らかにするために,GCS(textit{Graph Convolution Simulator)と呼ばれるプローブモデルを提案する。 我々は、我々のGCSが実際にKIプロセスの正しい解釈に利用できることを確認する実験を行い、それをよく知られた知識強化LMであるERNIEとK-Adapterの分析に利用し、少量の事実知識が組み込まれていることを確認する。 様々な関係型の観点から知識を階層化し,ernie と k-adapter が異なる種類の知識を統合することを見出した。 また, KIコーパスのサイズを増大させるだけでは, KIの精度が向上しない可能性が示唆された。

Pretrained language models (LMs) do not capture factual knowledge very well. This has led to the development of a number of knowledge integration (KI) methods which aim to incorporate external knowledge into pretrained LMs. Even though KI methods show some performance gains over vanilla LMs, the inner-workings of these methods are not well-understood. For instance, it is unclear how and what kind of knowledge is effectively integrated into these models and if such integration may lead to catastrophic forgetting of already learned knowledge. This paper revisits the KI process in these models with an information-theoretic view and shows that KI can be interpreted using a graph convolution operation. We propose a probe model called \textit{Graph Convolution Simulator} (GCS) for interpreting knowledge-enhanced LMs and exposing what kind of knowledge is integrated into these models. We conduct experiments to verify that our GCS can indeed be used to correctly interpret the KI process, and we use it to analyze two well-known knowledge-enhanced LMs: ERNIE and K-Adapter, and find that only a small amount of factual knowledge is integrated in them. We stratify knowledge in terms of various relation types and find that ERNIE and K-Adapter integrate different kinds of knowledge to different extent. Our analysis also shows that simply increasing the size of the KI corpus may not lead to better KI; fundamental advances may be needed.
翻訳日:2022-02-03 13:44:10 公開日:2022-02-02
# RescoreBERT:BERTを用いた識別音声認識

RescoreBERT: Discriminative Speech Recognition Rescoring with BERT ( http://arxiv.org/abs/2202.01094v1 )

ライセンス: Link先を確認
Liyan Xu, Yile Gu, Jari Kolehmainen, Haidar Khan, Ankur Gandhe, Ariya Rastrow, Andreas Stolcke, Ivan Bulyko(参考訳) 第2パスリコーリングは、第1パスデコーダからの出力を改善するために、格子リコーリングまたは$n$-best再ランキングを実装して使用される自動音声認識(asr)システムにおいて重要なコンポーネントである。 マスク付き言語モデル(MLM)を用いた事前学習は、様々な自然言語理解(NLU)タスクにおいて大きな成功を収めてきたが、ASRの再構成モデルとして注目されることはなかった。 特に、最小 wer (mwer) のような判別目的に対して bert のような双方向モデルの訓練は行われていない。 ここでは,深い双方向事前学習モデルの微調整に差別的損失の改善を組み込むために,MWER損失を伴うBERTベースの再構成モデルをトレーニングする方法を示す。 本稿では,MLMを識別訓練プロセスに組み込んで,事前学習モデルから知識を効果的に抽出する融合戦略を提案する。 我々はさらに別の差別的損失を提案する。 我々はこのアプローチをRescoreBERTと名付け、LibriSpeechコーパスで評価し、BERTベースライン上のクリーン/他のテストセットに対して、識別目的のないWERを6.6%/3.4%削減する。 また、会話エージェントから内部データセット上での手法の評価を行い、LSTM再構成モデルよりもレイテンシとWER(相対的に3~8%)を低減できることを示した。

Second-pass rescoring is an important component in automatic speech recognition (ASR) systems that is used to improve the outputs from a first-pass decoder by implementing a lattice rescoring or $n$-best re-ranking. While pretraining with a masked language model (MLM) objective has received great success in various natural language understanding (NLU) tasks, it has not gained traction as a rescoring model for ASR. Specifically, training a bidirectional model like BERT on a discriminative objective such as minimum WER (MWER) has not been explored. Here we where show how to train a BERT-based rescoring model with MWER loss, to incorporate the improvements of a discriminative loss into fine-tuning of deep bidirectional pretrained models for ASR. We propose a fusion strategy that incorporates the MLM into the discriminative training process to effectively distill the knowledge from a pretrained model. We further propose an alternative discriminative loss. We name this approach RescoreBERT, and evaluate it on the LibriSpeech corpus, and it reduces WER by 6.6%/3.4% relative on clean/other test sets over a BERT baseline without discriminative objective. We also evaluate our method on an internal dataset from a conversational agent and find that it reduces both latency and WER (by 3-8% relative) over an LSTM rescoring model.
翻訳日:2022-02-03 13:43:45 公開日:2022-02-02
# (参考訳) サロゲート勾配設計

Surrogate Gradients Design ( http://arxiv.org/abs/2202.00282v2 )

ライセンス: CC BY 4.0
Luca Herranz-Celotti and Jean Rouat(参考訳) surrogategradient(sg)トレーニングは、ディープラーニングで得られるすべての成果を、ニューラルネットワークコンピューティングとニューロモルフィックプロセッサに迅速に移行する可能性を提供し、エネルギー消費量を減少させる。 ハイパーパラメータの広範囲な探索の後、トレーニングはsg形状の選択に堅牢である、という証拠がある。 しかし、ハイパーパラメータのランダムあるいはグリッド探索は、よりハイパーパラメータを考えると指数関数的に不可能になる。 さらに、検索のすべての点は、大きなネットワークや大きなデータセットに対して非常に時間とエネルギーを消費することができる。 本稿では、複雑なタスクやネットワークがSG選択にどのように敏感であるかを示す。 第2に, 低減衰, 高鋭度, 低尾脂肪度が好ましいことを示す。 第3に、Grorot Uniform の初期化は一般にほとんどの SG 選択に好まれており、その結果は可変である。 そこで我々は,SG形状と初期化の精度向上を実現するため,拡張グリッド探索の必要性を低減できる理論解を提案する。

Surrogate gradient (SG) training provides the possibility to quickly transfer all the gains made in deep learning to neuromorphic computing and neuromorphic processors, with the consequent reduction in energy consumption. Evidence supports that training can be robust to the choice of SG shape, after an extensive search of hyper-parameters. However, random or grid search of hyper-parameters becomes exponentially unfeasible as we consider more hyper-parameters. Moreover, every point in the search can itself be highly time and energy consuming for large networks and large datasets. In this article we show how complex tasks and networks are more sensitive to SG choice. Secondly, we show how low dampening, high sharpness and low tail fatness are preferred. Thirdly, we observe that Glorot Uniform initialization is generally preferred by most SG choices, with variability in the results. We finally provide a theoretical solution to reduce the need of extensive gridsearch, to find SG shape and initializations that result in improved accuracy.
翻訳日:2022-02-03 13:41:43 公開日:2022-02-02
# (参考訳) 音声認識システムにおける逆攻撃の言語依存性

Language Dependencies in Adversarial Attacks on Speech Recognition Systems ( http://arxiv.org/abs/2202.00399v2 )

ライセンス: CC BY 4.0
Karla Markert and Donika Mirdita and Konstantin B\"ottinger(参考訳) 自動音声認識 (asr) システムは, 日常的デバイスにおいてユビキタスに存在している。 敵の攻撃に対して脆弱で、操作された入力サンプルはASRシステムの認識を騙す。 様々な英語のASRシステムの逆例はすでに分析されているが、言語間比較脆弱性分析は存在しない。 我々は、Deepspeechを例として、ドイツ語と英語のASRシステムの攻撃可能性を比較した。 一方の言語モデルが他方よりも操作に影響を受けやすいかを検討する。 実験結果から, 対数実例の生成に要する計算労力の面では, 英語とドイツ語の統計的に有意な差異が示唆された。 この結果は、ASRのロバスト性解析における言語依存特性のさらなる研究を促進する。

Automatic speech recognition (ASR) systems are ubiquitously present in our daily devices. They are vulnerable to adversarial attacks, where manipulated input samples fool the ASR system's recognition. While adversarial examples for various English ASR systems have already been analyzed, there exists no inter-language comparative vulnerability analysis. We compare the attackability of a German and an English ASR system, taking Deepspeech as an example. We investigate if one of the language models is more susceptible to manipulations than the other. The results of our experiments suggest statistically significant differences between English and German in terms of computational effort necessary for the successful generation of adversarial examples. This result encourages further research in language-dependent characteristics in the robustness analysis of ASR.
翻訳日:2022-02-03 13:13:36 公開日:2022-02-02
# (参考訳) 高エネルギー物理学のためのパラメトリックニューラルネットワークの改良

Improving Parametric Neural Networks for High-Energy Physics (and Beyond) ( http://arxiv.org/abs/2202.00424v2 )

ライセンス: CC BY 4.0
Luca Anzalone, Tommaso Diotalevi and Daniele Bonacorsi(参考訳) 信号背景分類は高エネルギー物理学の中心的な問題であり、新しい基本粒子の発見に重要な役割を果たしている。 最近の手法であるパラメトリックニューラルネットワーク(pNN)は、複数の信号質量仮説を付加的な入力特徴として利用して、個々の分類器の集合全体を効果的に置き換え、それぞれが単一の質量仮説に対して(原則として)最良の応答を提供する。 本研究は,実環境におけるpNNの理解を深めることを目的としている。 パラメトリックネットワークの特徴がいくつか発見され,直観,メトリクス,ガイドラインが得られた。 さらに、AffinePNNという新しいパラメトリゼーションニューラルネットワークアーキテクチャと、他の多くの一般的な改善点を提案する。 最後に、我々のモデルをHEPMASSデータセット上で広範囲に評価し、その不均衡バージョン(HEPMASS-IMBと呼ばれる)とともに、我々のアプローチをさらに検証するために、ここで初めて提供する。 その結果,提案する設計決定,分類性能,補間能力の影響について検討した。

Signal-background classification is a central problem in High-Energy Physics, that plays a major role for the discovery of new fundamental particles. A recent method -- the Parametric Neural Network (pNN) -- leverages multiple signal mass hypotheses as an additional input feature to effectively replace a whole set of individual classifier, each providing (in principle) the best response for a single mass hypothesis. In this work we aim at deepening the understanding of pNNs in light of real-world usage. We discovered several peculiarities of parametric networks, providing intuition, metrics, and guidelines to them. We further propose an alternative parametrization scheme, resulting in a new parametrized neural network architecture: the AffinePNN; along with many other generally applicable improvements. Finally, we extensively evaluate our models on the HEPMASS dataset, along its imbalanced version (called HEPMASS-IMB) we provide here for the first time to further validate our approach. Provided results are in terms of the impact of the proposed design decisions, classification performance, and interpolation capability as well.
翻訳日:2022-02-03 13:01:37 公開日:2022-02-02
# (参考訳) 現代ニューラルネットワークのフラットミニマ最適化への疑問

Questions for Flat-Minima Optimization of Modern Neural Networks ( http://arxiv.org/abs/2202.00661v2 )

ライセンス: CC BY 4.0
Jean Kaddour, Linqing Liu, Ricardo Silva, Matt J. Kusner(参考訳) ニューラルネットワークのトレーニングでは、一様低損失(フラットミニマ)近傍のパラメータを求めるフラットミニマオプティマイザが、確率的および適応的勾配に基づく手法により改善することが示されている。 平らなミニマを見つけるための2つの方法が際立っている。 1.平均化方法(確率ウェイト平均化、SWA)及び 2.ミニマックス法(シャープネス認識最小化、SAM) しかし、同様の動機にもかかわらず、その性質に関する調査は限られており、両者の包括的比較は行われていない。 本研究では,コンピュータビジョン,自然言語処理,グラフ学習タスクにまたがるこれらのアプローチの体系的ベンチマークによる損失面について検討する。 どちらのアプローチも異なるフラットな解を見つけるため、それらを組み合わせることで一般化をさらに改善できるという単純な仮説が導かれる。 42例中39例において,フラットミニマアプローチによる改善が確認できた。 そうでなければ、潜在的な理由を調査する。 画像、グラフ、テキストデータにわたる結果が、研究者がディープラーニングオプティマイザを改善するのに役立つことを期待しています。

For training neural networks, flat-minima optimizers that seek to find parameters in neighborhoods having uniformly low loss (flat minima) have been shown to improve upon stochastic and adaptive gradient-based methods. Two methods for finding flat minima stand out: 1. Averaging methods (i.e., Stochastic Weight Averaging, SWA), and 2. Minimax methods (i.e., Sharpness Aware Minimization, SAM). However, despite similar motivations, there has been limited investigation into their properties and no comprehensive comparison between them. In this work, we investigate the loss surfaces from a systematic benchmarking of these approaches across computer vision, natural language processing, and graph learning tasks. The results lead to a simple hypothesis: since both approaches find different flat solutions, combining them should improve generalization even further. We verify this improves over either flat-minima approach in 39 out of 42 cases. When it does not, we investigate potential reasons. We hope our results across image, graph, and text data will help researchers to improve deep learning optimizers, and practitioners to pinpoint the optimizer for the problem at hand.
翻訳日:2022-02-03 12:44:30 公開日:2022-02-02
# 機械翻訳のための言語モデルアーキテクチャのスケーリングと転送の検討

Examining Scaling and Transfer of Language Model Architectures for Machine Translation ( http://arxiv.org/abs/2202.00528v2 )

ライセンス: Link先を確認
Biao Zhang, Behrooz Ghorbani, Ankur Bapna, Yong Cheng, Xavier Garcia, Jonathan Shen, Orhan Firat(参考訳) 自然言語の理解と生成モデルは、2つの主要なアーキテクチャパラダイムの1つである: 言語モデル(LM)は1つのレイヤで連結シーケンスを処理し、エンコーダ・デコーダモデル(EncDec)は入力と出力の処理に別々のレイヤスタックを使用する。 機械翻訳において、EncDecは長年好まれてきたアプローチであるが、LMの性能についての研究はほとんどない。 本研究では,多言語・多言語・ゼロショット翻訳タスクにおけるLMの性能に対するアーキテクチャ設計選択の役割を,データ条件とモデルサイズを体系的に変化させることで,徹底的に検討する。 結果はこう示しています (i)異なるLMは異なるスケーリング特性を持ち、アーキテクチャの違いは小さなスケールでのモデル性能に大きな影響を与えることが多いが、パラメータの数が増えるにつれて性能差は狭まる。 (二 ソースシーケンスの因果マスキング及び言語モデル目的を含むいくつかの設計選択が翻訳品質に有害な影響を及ぼすこと。) 三 ソースシーケンスのフル可視マスキングと組み合わせたときは、教師付きバイリンガルおよび多言語翻訳タスクにおいてEncDecと同等に動作し、オフターゲット翻訳の削減を容易にし、ゼロショット方向を大幅に改善することができる。

Natural language understanding and generation models follow one of the two dominant architectural paradigms: language models (LMs) that process concatenated sequences in a single stack of layers, and encoder-decoder models (EncDec) that utilize separate layer stacks for input and output processing. In machine translation, EncDec has long been the favoured approach, but with few studies investigating the performance of LMs. In this work, we thoroughly examine the role of several architectural design choices on the performance of LMs on bilingual, (massively) multilingual and zero-shot translation tasks, under systematic variations of data conditions and model sizes. Our results show that: (i) Different LMs have different scaling properties, where architectural differences often have a significant impact on model performance at small scales, but the performance gap narrows as the number of parameters increases, (ii) Several design choices, including causal masking and language-modeling objectives for the source sequence, have detrimental effects on translation quality, and (iii) When paired with full-visible masking for source sequences, LMs could perform on par with EncDec on supervised bilingual and multilingual translation tasks, and improve greatly on zero-shot directions by facilitating the reduction of off-target translations.
翻訳日:2022-02-03 12:08:51 公開日:2022-02-02
# N-HiTS:時系列予測のためのニューラルネットワーク階層補間

N-HiTS: Neural Hierarchical Interpolation for Time Series Forecasting ( http://arxiv.org/abs/2201.12886v2 )

ライセンス: Link先を確認
Cristian Challu, Kin G. Olivares, Boris N. Oreshkin, Federico Garza, Max Mergenthaler, Artur Dubrawski(参考訳) ニューラル予測の最近の進歩は、大規模予測システムの性能改善を加速した。 しかし、ロングホリゾン予測は非常に難しい課題である。 ロングホリゾン予測に苦しむ2つの一般的な課題は、予測のボラティリティと計算複雑性である。 本稿では,新しい階層的補間法とマルチレートデータサンプリング技術を取り入れたN-HiTSを提案する。 これらの手法により,入力信号を分解し,予測を合成しながら,周波数やスケールの異なる成分を選択的に強調し,予測を逐次的に組み立てることができる。 我々は、N-HiTSの利点を、最先端のロングホライゾン予測法に対して実証的に評価する。 提案手法は,多変量予測タスクの配列に基づいて,最新のTransformerアーキテクチャよりも25%の精度向上を実現し,計算時間を桁違いに削減する。 私たちのコードはhttps://github.com/cchallu/n-hitsで利用可能です。

Recent progress in neural forecasting accelerated improvements in the performance of large-scale forecasting systems. Yet, long-horizon forecasting remains a very difficult task. Two common challenges afflicting long-horizon forecasting are the volatility of the predictions and their computational complexity. In this paper, we introduce N-HiTS, a model which addresses both challenges by incorporating novel hierarchical interpolation and multi-rate data sampling techniques. These techniques enable the proposed method to assemble its predictions sequentially, selectively emphasizing components with different frequencies and scales, while decomposing the input signal and synthesizing the forecast. We conduct an extensive empirical evaluation demonstrating the advantages of N-HiTS over the state-of-the-art long-horizon forecasting methods. On an array of multivariate forecasting tasks, the proposed method provides an average accuracy improvement of 25% over the latest Transformer architectures while reducing the computation time by an order of magnitude. Our code is available at https://github.com/cchallu/n-hits.
翻訳日:2022-02-03 12:08:26 公開日:2022-02-02
# 分布ロバストなチャンス制約問題に対するベイズ最適化

Bayesian Optimization for Distributionally Robust Chance-constrained Problem ( http://arxiv.org/abs/2201.13112v2 )

ライセンス: Link先を確認
Yu Inatsu, Shion Takeno, Masayuki Karasuyama, Ichiro Takeuchi(参考訳) ブラックボックス関数最適化では、制御可能な設計変数だけでなく、制御不能な確率的環境変数も考慮する必要がある。 このような場合、環境変数の不確実性を考慮して最適化問題を解決する必要がある。 一定の制約満足度確率の下で期待値を最大化する問題であるChance-Constrained (CC)問題は、環境変数の存在において事実上重要な問題の1つである。 本研究では, 環境変数の分布を正確に特定できない場合に, 分散ロバストな CC (DRCC) 問題を考察し, DRCCベイズ最適化法を提案する。 提案手法は, 有限個の試行において高い確率で任意の精度の解を求めることができ, 数値実験により提案手法の有用性を確認した。

In black-box function optimization, we need to consider not only controllable design variables but also uncontrollable stochastic environment variables. In such cases, it is necessary to solve the optimization problem by taking into account the uncertainty of the environmental variables. Chance-constrained (CC) problem, the problem of maximizing the expected value under a certain level of constraint satisfaction probability, is one of the practically important problems in the presence of environmental variables. In this study, we consider distributionally robust CC (DRCC) problem and propose a novel DRCC Bayesian optimization method for the case where the distribution of the environmental variables cannot be precisely specified. We show that the proposed method can find an arbitrary accurate solution with high probability in a finite number of trials, and confirm the usefulness of the proposed method through numerical experiments.
翻訳日:2022-02-03 12:08:11 公開日:2022-02-02
# グラフノード埋め込みのためのメッセージパッシングを満足する次元リダクション

Dimensionality Reduction Meets Message Passing for Graph Node Embeddings ( http://arxiv.org/abs/2202.00408v2 )

ライセンス: Link先を確認
Krzysztof Sadowski, Micha{\l} Szarmach, Eddie Mattia(参考訳) グラフニューラルネットワーク(GNN)は、ソーシャルネットワーク分析から分子の化学的性質のモデル化まで、様々な用途で一般的なアプローチとなっている。 GNNは、しばしば公開データセットで顕著なパフォーマンスを示すが、過剰なスムーシングと過剰な監視傾向のため、データ内の長距離依存関係を学ぶのに苦労する可能性がある。 そこで本研究では,主成分分析 (pca) とメッセージパッシングを組み合わせることでノード埋め込みを教師なしな方法で生成し,分類タスクに勾配強調決定木を利用する手法であるpcapassを提案する。 提案手法は, ノード分類ベンチマークで人気の高いGNNと比較して, 距離の長い地域からの情報を収集しながら, 競争性能が向上することを示す。 本研究は,グラフ構造化データの長距離依存性を集約するための有望なメカニズムとして,メッセージパッシングとスキップ接続による次元縮小を適用することを実証する。

Graph Neural Networks (GNNs) have become a popular approach for various applications, ranging from social network analysis to modeling chemical properties of molecules. While GNNs often show remarkable performance on public datasets, they can struggle to learn long-range dependencies in the data due to over-smoothing and over-squashing tendencies. To alleviate this challenge, we propose PCAPass, a method which combines Principal Component Analysis (PCA) and message passing for generating node embeddings in an unsupervised manner and leverages gradient boosted decision trees for classification tasks. We show empirically that this approach provides competitive performance compared to popular GNNs on node classification benchmarks, while gathering information from longer distance neighborhoods. Our research demonstrates that applying dimensionality reduction with message passing and skip connections is a promising mechanism for aggregating long-range dependencies in graph structured data.
翻訳日:2022-02-03 12:07:57 公開日:2022-02-02
# 頭部運動の除去が音声・視覚音声強調に与える影響

The impact of removing head movements on audio-visual speech enhancement ( http://arxiv.org/abs/2202.00538v2 )

ライセンス: Link先を確認
Zhiqi Kang, Mostafa Sadeghi, Radu Horaud, Xavier Alameda-Pineda, Jacob Donley and Anurag Kumar(参考訳) 本稿では,頭部運動が音声・視覚音声強調(AVSE)に与える影響について検討する。 彼らはしばしば、クリーンで前頭、安定した顔画像で訓練されたモデルのパフォーマンスを劣化させるため、今日の学習ベースの手法に挑戦している。 この問題を軽減するために、可変オートエンコーダ(VAE)モデルに基づくAVSE法と組み合わせて、頑健な顔のフロンダライゼーション(RFF)を提案する。 提案するパイプラインの基本成分を簡潔に説明し,最近リリースされた視聴覚データセットを用いて実験を行う。 これらの実験を踏まえ、STOI, PESQ, SI-SDRの3つの標準指標に基づき、RFFはAVSEの性能をかなり向上させると結論付けた。

This paper investigates the impact of head movements on audio-visual speech enhancement (AVSE). Although being a common conversational feature, head movements have been ignored by past and recent studies: they challenge today's learning-based methods as they often degrade the performance of models that are trained on clean, frontal, and steady face images. To alleviate this problem, we propose to use robust face frontalization (RFF) in combination with an AVSE method based on a variational auto-encoder (VAE) model. We briefly describe the basic ingredients of the proposed pipeline and we perform experiments with a recently released audio-visual dataset. In the light of these experiments, and based on three standard metrics, namely STOI, PESQ and SI-SDR, we conclude that RFF improves the performance of AVSE by a considerable margin.
翻訳日:2022-02-03 12:07:39 公開日:2022-02-02
# 確率力学のニューラル固有分解による連続予測

Continuous Forecasting via Neural Eigen Decomposition of Stochastic Dynamics ( http://arxiv.org/abs/2202.00117v2 )

ライセンス: Link先を確認
Stav Belogolovsky, Ido Greenberg, Danny Eitan and Shie Mannor(参考訳) ヘパリン治療患者の血液凝固制御の現実的な問題に触発され、確率微分方程式(SDE)を用いて、未知の潜伏空間、未知の非線形ダイナミクス、不規則なスパース観察を含む、新しい一連の予測問題を定式化する。 ニューラル固有sde (nesde) アルゴリズムを, スパース観測と適応ダイナミクスを用いた逐次予測に導入する。 nesdeは、スパース観測による効率的な頻繁な予測を可能にするために、固有分解をダイナミクスモデルに適用する。 さらに、nesdeは適応ダイナミクスモデルのための学習メカニズムを使用しており、シーケンス間およびシーケンス内におけるダイナミクスの変化を処理する。 合成問題と実世界のデータの両方に対するNESDEの精度と有効性を示す。 特に我々の知識を最大限に活用するため、ミソ-ivデータセットでヘパリン投与後の血液凝固予測を患者に適応させた最初の例である。 最後に,血液凝固制御のためのアルゴリズムの実験を行うための,予測モデルに基づくシミュレーション体育環境を公開する。

Motivated by a real-world problem of blood coagulation control in Heparin-treated patients, we use Stochastic Differential Equations (SDEs) to formulate a new class of sequential prediction problems -- with an unknown latent space, unknown non-linear dynamics, and irregular sparse observations. We introduce the Neural Eigen-SDE (NESDE) algorithm for sequential prediction with sparse observations and adaptive dynamics. NESDE applies eigen-decomposition to the dynamics model to allow efficient frequent predictions given sparse observations. In addition, NESDE uses a learning mechanism for adaptive dynamics model, which handles changes in the dynamics both between sequences and within sequences. We demonstrate the accuracy and efficacy of NESDE for both synthetic problems and real-world data. In particular, to the best of our knowledge, we are the first to provide a patient-adapted prediction for blood coagulation following Heparin dosing in the MIMIC-IV dataset. Finally, we publish a simulated gym environment based on our prediction model, for experimentation in algorithms for blood coagulation control.
翻訳日:2022-02-03 12:07:24 公開日:2022-02-02