このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。



PDF登録状況(公開日: 20220225)

# (参考訳) コンテンツ間スケール測定のための最大相違スケーリング法の改善 [全文訳有]

Improving Maximum Likelihood Difference Scaling method to measure inter content scale ( http://arxiv.org/abs/2203.13186v1 )

ライセンス: CC BY 4.0
Pastor Andr\'eas, Luk\'a\v{s} Krasula, Xiaoqing Zhu, Zhi Li, Patrick Le Callet(参考訳) 最も主観的な研究の目標は、一連の刺激を知覚尺度に配置することである。 これは、例えば単刺激法や二重刺激法、または間接的にランク付けまたはペア比較によって直接行われる。 これらの手法はすべて、刺激の知覚的大きさを尺度で推定する。 しかし、MLDS (Maximum Likelihood Difference Scaling) のような手順では、知覚距離を考慮すれば、識別力、観察者の認知負荷、必要な試行回数といった面でメリットが得られることが示されている。 MLDS法の欠点の1つは、異なるソースコンテンツから生成された刺激に対して得られる知覚尺度が一般的には比較にならないことである。 本稿では,結果のコンテンツ間比較性を保証するmlds法の拡張を提案し,特にオブザーバエラーが存在する場合に有用性を示す。

The goal of most subjective studies is to place a set of stimuli on a perceptual scale. This is mostly done directly by rating, e.g. using single or double stimulus methodologies, or indirectly by ranking or pairwise comparison. All these methods estimate the perceptual magnitudes of the stimuli on a scale. However, procedures such as Maximum Likelihood Difference Scaling (MLDS) have shown that considering perceptual distances can bring benefits in terms of discriminatory power, observers' cognitive load, and the number of trials required. One of the disadvantages of the MLDS method is that the perceptual scales obtained for stimuli created from different source content are generally not comparable. In this paper, we propose an extension of the MLDS method that ensures inter-content comparability of the results and shows its usefulness especially in the presence of observer errors.
翻訳日:2022-04-03 20:39:19 公開日:2022-02-25
# 複数層パーセプトロンニューラルネットワークによる悪意のあるフィッシングurlの検出性能向上

Multi-Layer Perceptron Neural Network for Improving Detection Performance of Malicious Phishing URLs Without Affecting Other Attack Types Classification ( http://arxiv.org/abs/2203.00774v1 )

ライセンス: Link先を確認
Pow Chang(参考訳) ここでの仮説は、マルチレイヤー・パーセプトロン(mlp)のようなニューラルネットワークアルゴリズムは、悪意のあるフィッシングurlと半構造化されたフィッシングurlを区別する精度が高いというものである。 ロジスティック回帰や多項ナイーブベイズのような古典的機械学習アルゴリズムと比較すると、古典的アルゴリズムは複雑な機能工学を実行するために大量のコーパスデータトレーニングと機械学習専門家のドメイン知識に大きく依存している。 mlpは、非線形分離可能なマルチクラス分類を実行し、コーパス特徴訓練よりも焦点を絞ることができた。 さらに、バックプロパゲーションの重み調整は、フィッシングを他の攻撃タイプと区別する上で、どの機能がより重要であるかを知ることができる。

The hypothesis here states that neural network algorithms such as Multi-layer Perceptron (MLP) have higher accuracy in differentiating malicious and semi-structured phishing URLs. Compared to classical machine learning algorithms such as Logistic Regression and Multinomial Naive Bayes, the classical algorithms rely heavily on substantial corpus data training and machine learning experts' domain knowledge to perform complex feature engineering. MLP could perform non-linear separable multi-classes classification and focus less on corpus feature training. In addition, backpropagation weight adjustment could learn which features are more important in differentiating phishing from other attack types.
翻訳日:2022-03-06 12:46:45 公開日:2022-02-25
# (参考訳) Peppa Pigで英語を学ぶ [全文訳有]

Learning English with Peppa Pig ( http://arxiv.org/abs/2202.12917v1 )

ライセンス: CC BY-SA 4.0
Mitja Nikolaus and Afra Alishahi and Grzegorz Chrupa{\l}a(参考訳) 知覚の接地を通じて言語習得を計算的にシミュレートしようとする試みは長い伝統があるが、ここ数年で勢いを増している。 現在のニューラルアプローチは、音声と視覚のモダリティの関係を利用して、共同ベクトル空間における音声と視覚データの表現を学ぶ。 生態学的妥当性の観点から、主要な未解決の問題は訓練データであり、典型的には画像やビデオからなり、描写されたものを音声で表現する。 このような設定は、音声と視覚世界の非現実的に強い相関を保証する。 現実の世界では、言語と視覚の結合は緩やかであり、しばしば音声信号の非意味的側面との相関という形で結合している。 本研究は,児童漫画peppa pigに基づくデータセットを用いて,自然主義的な接地シナリオをシミュレーションするための第一歩である。 文字間の自然対話からなるデータの一部に単純なバイモーダルアーキテクチャを訓練し,記述的ナレーションを含むセグメントを評価する。 この訓練データに弱く整合した信号があるにもかかわらず、我々のモデルは音声言語の視覚的意味論の学習に成功している。

Attempts to computationally simulate the acquisition of spoken language via grounding in perception have a long tradition but have gained momentum in the past few years. Current neural approaches exploit associations between the spoken and visual modality and learn to represent speech and visual data in a joint vector space. A major unresolved issue from the point of ecological validity is the training data, typically consisting of images or videos paired with spoken descriptions of what is depicted. Such a setup guarantees an unrealistically strong correlation between speech and the visual world. In the real world the coupling between the linguistic and the visual is loose, and often contains confounds in the form of correlations with non-semantic aspects of the speech signal. The current study is a first step towards simulating a naturalistic grounding scenario by using a dataset based on the children's cartoon Peppa Pig. We train a simple bi-modal architecture on the portion of the data consisting of naturalistic dialog between characters, and evaluate on segments containing descriptive narrations. Despite the weak and confounded signal in this training data our model succeeds at learning aspects of the visual semantics of spoken language.
翻訳日:2022-03-05 15:18:35 公開日:2022-02-25
# (参考訳) マルチグラフ特徴を用いた精神状態分類 [全文訳有]

Mental State Classification Using Multi-graph Features ( http://arxiv.org/abs/2203.00516v1 )

ライセンス: CC BY 4.0
Guodong Chen and Hayden S. Helm and Kate Lytvynets and Weiwei Yang and Carey E. Priebe(参考訳) ストレスや認知負荷などの高レベル精神状態に関連する下流推定タスクのための受動多チャンネル脳波(eeg)装置から特徴を抽出する問題を考える。 提案手法は,近年開発されたマルチグラフツールを利用して,複数のセンサ間の統計依存構造(相関など)が示唆する時系列グラフに適用する。 提案手法の有効性を3つの分類実験の文脈における従来のバンドパワーベース特徴と比較し,2つの特徴集合が相補的な予測情報を提供することを示した。 提案する特徴を用いた場合,特定のチャネルとチャネルのペアの分類の重要性は神経科学的に妥当であることが示唆された。

We consider the problem of extracting features from passive, multi-channel electroencephalogram (EEG) devices for downstream inference tasks related to high-level mental states such as stress and cognitive load. Our proposed method leverages recently developed multi-graph tools and applies them to the time series of graphs implied by the statistical dependence structure (e.g., correlation) amongst the multiple sensors. We compare the effectiveness of the proposed features to traditional band power-based features in the context of three classification experiments and find that the two feature sets offer complementary predictive information. We conclude by showing that the importance of particular channels and pairs of channels for classification when using the proposed features is neuroscientifically valid.
翻訳日:2022-03-05 15:02:40 公開日:2022-02-25
# (参考訳) 電波干渉法における画像再構成アルゴリズム:手作りから学習デノイザーへ [全文訳有]

Image reconstruction algorithms in radio interferometry: from handcrafted to learned denoisers ( http://arxiv.org/abs/2202.12959v1 )

ライセンス: CC BY 4.0
Matthieu Terris, Arwa Dabbech, Chao Tang, Yves Wiaux(参考訳) 本稿では,ラジオ干渉計測のための新しい反復画像再構成アルゴリズムを,プラグ・アンド・プレイ法にインスパイアされた凸最適化と深層学習のインタフェースで紹介する。 このアプローチは、深層ニューラルネットワーク(dnn)をデノイザーとしてトレーニングし、最適化アルゴリズムの手作りの近位正規化演算子に置き換えることで、事前の画像モデルを学習する。 airi(無線干渉イメージングの正規化のためのai)フレームワークは、拡散と微弱な放射を伴う複雑な強度構造を撮像するために、最適化の堅牢性と解釈可能性、ネットワークの学習能力とスピードを継承する。 私たちのアプローチは3つのステップに依存します。 まず、光強度画像から教師付きトレーニングを行うための低ダイナミックレンジデータベースを設計する。 次に,データの信号対雑音比から推定した雑音レベルにおいて,出力画像の肯定性を保証する基本アーキテクチャを持つdnnデノイザーを訓練する。 我々は、$\ell_2$または$\ell_1$のトレーニング損失を使用し、アルゴリズム収束を保証する非拡張項で拡張し、指数化によるオンザフライデータベースダイナミックレンジ拡張を含む。 第3に,学習したデノイザーをフォワードバックワード最適化アルゴリズムに挿入することで,グラデーション・d・データ忠実度ステップでデノイジングステップを交代する単純な反復構造を実現する。 結果の AIRI-$\ell_2$ と AIRI-$\ell_1$ は CLEAN と SARA ファミリーの最適化アルゴリズムに対して検証された。 シミュレーションの結果,これらのAIRIインカーネーションは,SARAと非拘束の後方向きバージョンであるuSARAと画像品質の競争に優れており,大きな加速を提供することがわかった。 CLEANは高速だが、再現性は低い。

We introduce a new class of iterative image reconstruction algorithms for radio interferometry, at the interface of convex optimization and deep learning, inspired by plug-and-play methods. The approach consists in learning a prior image model by training a deep neural network (DNN) as a denoiser, and substituting it for the handcrafted proximal regularization operator of an optimization algorithm. The proposed AIRI ("AI for Regularization in Radio-Interferometri c Imaging") framework, for imaging complex intensity structure with diffuse and faint emission, inherits the robustness and interpretability of optimization, and the learning power and speed of networks. Our approach relies on three steps. Firstly, we design a low dynamic range database for supervised training from optical intensity images. Secondly, we train a DNN denoiser with basic architecture ensuring positivity of the output image, at a noise level inferred from the signal-to-noise ratio of the data. We use either $\ell_2$ or $\ell_1$ training losses, enhanced with a nonexpansiveness term ensuring algorithm convergence, and including on-the-fly database dynamic range enhancement via exponentiation. Thirdly, we plug the learned denoiser into the forward-backward optimization algorithm, resulting in a simple iterative structure alternating a denoising step with a gradient-descent data-fidelity step. The resulting AIRI-$\ell_2$ and AIRI-$\ell_1$ were validated against CLEAN and optimization algorithms of the SARA family, propelled by the "average sparsity" proximal regularization operator. Simulation results show that these first AIRI incarnations are competitive in imaging quality with SARA and its unconstrained forward-backward-bas ed version uSARA, while providing significant acceleration. CLEAN remains faster but offers lower reconstruction quality.
翻訳日:2022-03-04 12:50:25 公開日:2022-02-25
# (参考訳) ラベル差分プライバシーはラベル推論攻撃を防ぐか? [全文訳有]

Does Label Differential Privacy Prevent Label Inference Attacks? ( http://arxiv.org/abs/2202.12968v1 )

ライセンス: CC BY 4.0
Ruihan Wu, Jin Peng Zhou, Kilian Q. Weinberger and Chuan Guo(参考訳) ラベル微分プライバシ(LDP)は、パブリック機能と機密性の高いプライベートラベルを持つデータセット上で、プライベートMLモデルをトレーニングするための一般的なフレームワークである。 厳格なプライバシー保証にもかかわらず、実際には、LDPはラベル推論攻撃(LIAs)を防いでいないことが観察されている。 本研究では,この現象はパラドックス的ではなく,LDPはベイズ分類器を用いたトレーニングラベルの予測と比較して,LAAの利点を限定するに過ぎないと論じる。 ldp $\epsilon=0$ この利点はゼロであるため、最適な攻撃はベイズ分類器に従って予測し、トレーニングラベルとは独立である。 最後に,本研究の結果が,合成データと実世界データの両方に対するシミュレーション攻撃の挙動を密接に捉えていることを示す。

Label differential privacy (LDP) is a popular framework for training private ML models on datasets with public features and sensitive private labels. Despite its rigorous privacy guarantee, it has been observed that in practice LDP does not preclude label inference attacks (LIAs): Models trained with LDP can be evaluated on the public training features to recover, with high accuracy, the very private labels that it was designed to protect. In this work, we argue that this phenomenon is not paradoxical and that LDP merely limits the advantage of an LIA adversary compared to predicting training labels using the Bayes classifier. At LDP $\epsilon=0$ this advantage is zero, hence the optimal attack is to predict according to the Bayes classifier and is independent of the training labels. Finally, we empirically demonstrate that our result closely captures the behavior of simulated attacks on both synthetic and real world datasets.
翻訳日:2022-03-04 11:55:35 公開日:2022-02-25
# (参考訳) ソフトロボットマニピュレーションのための物理不定形シミュレーションモデル:誘電体エラストマーアクチュエータを用いたケーススタディ [全文訳有]

Learning physics-informed simulation models for soft robotic manipulation: A case study with dielectric elastomer actuators ( http://arxiv.org/abs/2202.12977v1 )

ライセンス: CC BY 4.0
Manu Lahariya and Craig Innes and Chris Develder and Subramanian Ramamoorthy(参考訳) 柔らかいアクチュエータは、緩やかな握りや器用な動きといったロボット作業に対して安全かつ適応的なアプローチを提供する。 しかし、このようなシステムを制御するための正確なモデルを作成することは、変形可能な物質の複雑な物理のために難しい。 高精度有限要素法(FEM)モデルは閉ループ利用における計算複雑性を不規則に表現する。 微分可能なシミュレータの使用は魅力的な代替手段であるが、柔らかいアクチュエータや変形可能な材料への適用性は未調査のままである。 本稿では,両者の利点を組み合わせた枠組みを提案する。 我々は,物質特性ニューラルネットワークと操作タスクの残りの部分の解析力学モデルからなる微分可能なモデルを学習する。 この物理変形モデルはfemから生成されたデータを用いて訓練され、閉ループ制御や推論に使用できる。 誘電体エラストマーアクチュエータ(DEA)コイン推進作業の枠組みを評価する。 シミュレーション,制御,推論のための物理変形モデルを評価するために,femによるdeaコインプルをシミュレートし,設計実験を行った。 我々のモデルはFEMと比較して5%以下のシミュレーション誤差を達成し、モデルフリーアクター批判ポリシー、ヒューリスティックポリシー、PDコントローラを上回るMPCコントローラの基盤として利用する。

Soft actuators offer a safe and adaptable approach to robotic tasks like gentle grasping and dexterous movement. Creating accurate models to control such systems, however, is challenging due to the complex physics of deformable materials. Accurate Finite Element Method (FEM) models incur prohibitive computational complexity for closed-loop use. Using a differentiable simulator is an attractive alternative, but their applicability to soft actuators and deformable materials remains under-explored. This paper presents a framework that combines the advantages of both. We learn a differentiable model consisting of a material properties neural network and an analytical dynamics model of the remainder of the manipulation task. This physics-informed model is trained using data generated from FEM and can be used for closed-loop control and inference. We evaluate our framework on a dielectric elastomer actuator (DEA) coin-pulling task. We simulate DEA coin pulling in FEM, and design experiments to evaluate the physics-informed model for simulation, control, and inference. Our model attains < 5% simulation error compared to FEM, and we use it as the basis for an MPC controller that outperforms (i.e., requires fewer iterations to converge) a model-free actor-critic policy, a heuristic policy, and a PD controller.
翻訳日:2022-03-04 11:35:03 公開日:2022-02-25
# (参考訳) OCR-IDL: 業界文書ライブラリデータセットのためのOCRアノテーション [全文訳有]

OCR-IDL: OCR Annotations for Industry Document Library Dataset ( http://arxiv.org/abs/2202.12985v1 )

ライセンス: CC BY 4.0
Ali Furkan Biten, Rub\`en Tito, Lluis Gomez, Ernest Valveny, Dimosthenis Karatzas(参考訳) 事前トレーニングはドキュメントインテリジェンスタスクで成功し、ドキュメントの不足が後になって、下流タスクで微調整されるようにモデルの事前トレーニングに使用される。 事前学習アプローチの問題点の1つは、異なるOCRエンジンによる事前学習データの一貫性のない使用が、モデル間の相容れない結果をもたらすことである。 言い換えれば、データ量と異なるocrエンジンの多様な使用から、あるいは提案されたモデルからパフォーマンスの向上がもたらされるかどうかは明らかではない。 この問題を解決するために,商用OCRエンジンを用いたIDL文書に対するOCRアノテーションを,オープンソースOCRモデルよりも優れた性能で公開する。 寄付されたデータセット(OCR-IDL)は20万USドル以上と見積もられている。 OCR-IDLがドキュメントインテリジェンスに関する今後の研究の出発点になることを願っています。 私たちのデータとそのアノテーションによる収集プロセスはすべて、https://github.com/f urkanbiten/idl_dataにあります。

Pretraining has proven successful in Document Intelligence tasks where deluge of documents are used to pretrain the models only later to be finetuned on downstream tasks. One of the problems of the pretraining approaches is the inconsistent usage of pretraining data with different OCR engines leading to incomparable results between models. In other words, it is not obvious whether the performance gain is coming from diverse usage of amount of data and distinct OCR engines or from the proposed models. To remedy the problem, we make public the OCR annotations for IDL documents using commercial OCR engine given their superior performance over open source OCR models. The contributed dataset (OCR-IDL) has an estimated monetary value over 20K US$. It is our hope that OCR-IDL can be a starting point for future works on Document Intelligence. All of our data and its collection process with the annotations can be found in https://github.com/f urkanbiten/idl_data.
翻訳日:2022-03-04 11:18:51 公開日:2022-02-25
# (参考訳) se-Shweshweインスパイアされたファッションジェネレーション [全文訳有]

se-Shweshwe Inspired Fashion Generation ( http://arxiv.org/abs/2203.00435v1 )

ライセンス: CC BY 4.0
Lindiwe Brigitte Malobola, Negar Rostamzadeh, Shakir Mohamed(参考訳) ファッションは私たちが世界に自らを示す方法の1つです。 それは私たちの個人的な決定と、人々が自分自身を区別し、表現する方法の1つを反映している。 本稿では,ファッションデザインのプロセスに焦点をあて,現在の西洋ファッションへのフォーカスを超えて,ファッションのためのコンピュータビジョンを拡大する。 本稿では,南アフリカのセシュウェシュウェウェ織物ファッションの歴史,セシュウェシュウェウェデータセットの収集,手頃なファッションデザインのためのスケッチ・ツー・デザイン画像生成の応用について論じる。 ファッションへの応用は、少量のデータによるトレーニングの技術的な問題と、公平性を超えたコンピュータビジョン、特にファッションデータセットの作成と採用に関する倫理的考察、そしてコンピュータビジョンが文化的な表現をサポートし、アルゴリズムによる文化的な評価を避けるための重要な問題の両方を提起する。

Fashion is one of the ways in which we show ourselves to the world. It is a reflection of our personal decisions and one of the ways in which people distinguish and represent themselves. In this paper, we focus on the fashion design process and expand computer vision for fashion beyond its current focus on western fashion. We discuss the history of Southern African se-Shweshwe fabric fashion, the collection of a se-Shweshwe dataset, and the application of sketch-to-design image generation for affordable fashion-design. The application to fashion raises both technical questions of training with small amounts of data, and also important questions for computer vision beyond fairness, in particular ethical considerations on creating and employing fashion datasets, and how computer vision supports cultural representation and might avoid algorithmic cultural appropriation.
翻訳日:2022-03-04 11:06:51 公開日:2022-02-25
# メカニカル問題の高速マルチスケールモデリングのためのディープニューラル演算子との相互作用有限要素

Interfacing Finite Elements with Deep Neural Operators for Fast Multiscale Modeling of Mechanics Problems ( http://arxiv.org/abs/2203.00003v1 )

ライセンス: Link先を確認
Minglang Yin and Enrui Zhang and Yue Yu and George Em Karniadakis(参考訳) マルチスケールモデリングは、異なる解像度または不均一な記述を持つモデルを結合してシステムの応答を予測する、大きく異なるサイズの特徴を持つ多物理系を研究するための効果的なアプローチである。 低忠実度(粗い)の解法は、均質な特徴を持つドメインをシミュレートするが、高価な高忠実度(細い)モデルは、離散化を改良した顕微鏡的特徴を記述し、特に時間依存の問題において、全体的なコストを禁ずる。 本研究では,機械学習を用いたマルチスケールモデリングのアイデアを探求し,高コストソルバの効率的なサロゲートとしてニューラル演算子DeepONetを用いる。 DeepONetは、きめ細かい解法から取得したデータを使ってオフラインでトレーニングされている。 そして、結合ステージに新しい境界/初期条件を持つマルチスケールシステムを予測する標準的なpdeソルバと結合する。 提案フレームワークは,DeepONet推論コストが無視可能であるため,マルチスケールシミュレーションの計算コストを大幅に削減し,複数のインタフェース条件と結合スキームの組み込みを容易にする。 本研究では, 時間依存問題に対する結合アルゴリズムを開発し, 粒子系(smoothed particle hydrodynamics, sph)の一軸張力問題に対して, 連続体モデル(finite element method, fem)と, 粒子系(smoothed particle hydrodynamics, sph)のニューラル演算子表現との結合を実証する。 このアプローチをユニークなものにしているのは、十分に訓練された過パラメータのdeeponetが、うまく一般化し、無視できるコストで予測することができることだ。

Multiscale modeling is an effective approach for investigating multiphysics systems with largely disparate size features, where models with different resolutions or heterogeneous descriptions are coupled together for predicting the system's response. The solver with lower fidelity (coarse) is responsible for simulating domains with homogeneous features, whereas the expensive high-fidelity (fine) model describes microscopic features with refined discretization, often making the overall cost prohibitively high, especially for time-dependent problems. In this work, we explore the idea of multiscale modeling with machine learning and employ DeepONet, a neural operator, as an efficient surrogate of the expensive solver. DeepONet is trained offline using data acquired from the fine solver for learning the underlying and possibly unknown fine-scale dynamics. It is then coupled with standard PDE solvers for predicting the multiscale systems with new boundary/initial conditions in the coupling stage. The proposed framework significantly reduces the computational cost of multiscale simulations since the DeepONet inference cost is negligible, facilitating readily the incorporation of a plurality of interface conditions and coupling schemes. We present various benchmarks to assess accuracy and speedup, and in particular we develop a coupling algorithm for a time-dependent problem, and we also demonstrate coupling of a continuum model (finite element methods, FEM) with a neural operator representation of a particle system (Smoothed Particle Hydrodynamics, SPH) for a uniaxial tension problem with hyperelastic material. What makes this approach unique is that a well-trained over-parametrized DeepONet can generalize well and make predictions at a negligible cost.
翻訳日:2022-03-02 15:46:36 公開日:2022-02-25
# ラマン分光法と深層学習によるグラフェンの電荷密度と誘電環境の同定

Identifying charge density and dielectric environment of graphene using Raman spectroscopy and deep learning ( http://arxiv.org/abs/2203.00431v1 )

ライセンス: Link先を確認
Zhuofa Chen, Yousif Khaireddin, Anna K. Swan(参考訳) ひずみ、電荷密度、誘電体環境などのグラフェンの性質に対する環境の影響はラマン分光法によって評価できる。 これらの環境相互作用は、重なり合う方法でスペクトルに影響するため、決定が容易ではない。 背景減算やピークフィッティングなどのデータプリプロセッシングは通常使用される。 さらに、収集された分光データは、異なる実験装置や環境によって異なる。 このような変異、アーティファクト、環境の違いは、正確なスペクトル分析において課題となる。 本研究では,このような変動の影響を克服し,異なる電荷密度と誘電体環境に応じてグラフェンラマンスペクトルを分類する深層学習モデルを開発した。 我々は,電荷密度や誘電体環境の異なるスペクトルを分類するディープラーニングモデルと機械学習アルゴリズムの2つのアプローチを検討した。 これら2つの手法は高い信号対雑音データに対して同様の成功率を示す。 しかし、ディープラーニングモデルはノイズに対する感度が低い。 すべてのモデルの精度と一般化を改善するために、加算ノイズとピークシフトによるデータ拡張を用いる。 畳み込みニューラルネットワーク(CNN)モデルを用いて,99%の精度でスペクトル分類を行った。 CNNモデルは、電荷ドーピングレベルが異なるグラフェンのラマンスペクトルを分類することができ、さらに、SiO$_2$上のグラフェンとシラン化グラフェンとのスペクトルの微妙な変化も得る。 本手法は,グラフェンドーピングレベルと誘電体環境の高速かつ信頼性の高い推定を可能にする。 提案モデルでは, グラフェンの特性評価のために, 効率的な分析ツールを実現する方法を示す。

The impact of the environment on graphene's properties such as strain, charge density, and dielectric environment can be evaluated by Raman spectroscopy. These environmental interactions are not trivial to determine, since they affect the spectra in overlapping ways. Data preprocessing such as background subtraction and peak fitting is typically used. Moreover, collected spectroscopic data vary due to different experimental setups and environments. Such variations, artifacts, and environmental differences pose a challenge in accurate spectral analysis. In this work, we developed a deep learning model to overcome the effects of such variations and classify graphene Raman spectra according to different charge densities and dielectric environments. We consider two approaches: deep learning models and machine learning algorithms to classify spectra with slightly different charge density or dielectric environment. These two approaches show similar success rates for high Signal-to-Noise data. However, deep learning models are less sensitive to noise. To improve the accuracy and generalization of all models, we use data augmentation through additive noise and peak shifting. We demonstrated the spectra classification with 99% accuracy using a convolutional neural net (CNN) model. The CNN model is able to classify Raman spectra of graphene with different charge doping levels and even subtle variation in the spectra between graphene on SiO$_2$ and graphene on silanized SiO$_2$. Our approach has the potential for fast and reliable estimation of graphene doping levels and dielectric environments. The proposed model paves the way for achieving efficient analytical tools to evaluate the properties of graphene.
翻訳日:2022-03-02 15:41:06 公開日:2022-02-25
# 非均質拡散のブロブ法とマルチエージェント制御とサンプリングへの応用

A blob method method for inhomogeneous diffusion with applications to multi-agent control and sampling ( http://arxiv.org/abs/2202.12927v1 )

ライセンス: Link先を確認
Katy Craig, Karthik Elamvazhuthi, Matt Haberland, Olga Turanova(参考訳) 線形拡散方程式の古典的確率的粒子法に対する反点として、重み付き多孔質媒質方程式(WPME)の決定論的粒子法を開発し、その収束性を有界時間間隔で証明する。 これは、非重み付き多孔質媒質方程式に対するブロブ法に関する関連する研究を一般化する。 数値解析の観点からは, メッシュフリーであり, 基礎となるpdeの勾配流構造を保ち, 任意の次元に収束し, シミュレーションにおける正しい漸近的挙動を捉えている。 本稿では,WPMEの長期的挙動を量子化における関連する問題の観点から捉えた。 Fokker-Planck 方程式が確率測度 $\bar{\rho}$ を確率的ランゲヴィン力学(英語版)に従って経験測度を進化させ、その経験測度が $\bar{\rho}$ へと流れるようにすることで、我々の粒子法は WMPE を近似する決定論的粒子力学に従って $\bar{\rho}$ を定量化する方法を提供する。 このようにして本手法は,マルチエージェントカバレッジアルゴリズムやサンプリング確率測度に自然に応用できる。 本手法の具体例は,放射基底関数活性化関数のための2層ニューラルネットワークをトレーニングする平均場動力学に対応する。 この観点から、収束結果は、過度にパラメトリケートされた状態において、ラジアル基底関数の分散が 0 になるにつれて、連続極限は WPME によって与えられることを示している。 これは、一様データ分布の場合に考慮された以前の結果をより一般的な不均質な設定に一般化する。 その結果,エネルギー景観の凸性が連続体限界に現れる対象関数とデータ分布の条件を同定した。

As a counterpoint to classical stochastic particle methods for linear diffusion equations, we develop a deterministic particle method for the weighted porous medium equation (WPME) and prove its convergence on bounded time intervals. This generalizes related work on blob methods for unweighted porous medium equations. From a numerical analysis perspective, our method has several advantages: it is meshfree, preserves the gradient flow structure of the underlying PDE, converges in arbitrary dimension, and captures the correct asymptotic behavior in simulations. That our method succeeds in capturing the long time behavior of WPME is significant from the perspective of related problems in quantization. Just as the Fokker-Planck equation provides a way to quantize a probability measure $\bar{\rho}$ by evolving an empirical measure according to stochastic Langevin dynamics so that the empirical measure flows toward $\bar{\rho}$, our particle method provides a way to quantize $\bar{\rho}$ according to deterministic particle dynamics approximating WMPE. In this way, our method has natural applications to multi-agent coverage algorithms and sampling probability measures. A specific case of our method corresponds exactly to the mean-field dynamics of training a two-layer neural network for a radial basis function activation function. From this perspective, our convergence result shows that, in the over parametrized regime and as the variance of the radial basis functions goes to zero, the continuum limit is given by WPME. This generalizes previous results, which considered the case of a uniform data distribution, to the more general inhomogeneous setting. As a consequence of our convergence result, we identify conditions on the target function and data distribution for which convexity of the energy landscape emerges in the continuum limit.
翻訳日:2022-03-01 18:20:55 公開日:2022-02-25
# 球面高調波展開の近似最適再構成

Near Optimal Reconstruction of Spherical Harmonic Expansions ( http://arxiv.org/abs/2202.12995v1 )

ライセンス: Link先を確認
Amir Zandieh, Insu Han, Haim Avron(参考訳) 本稿では,D次元単位球面$\mathbb{S}^{d-1}$上で定義される関数の球面調和展開を,関数評価の近似数を用いて頑健に回復するアルゴリズムを提案する。 任意の$f \in L^2(\mathbb{S}^{d-1})$に対して、その次数-$q$球高調波展開に必要な$f$の評価数は、対数係数の少なくとも$q$の球高調波空間の次元と等しいことを示す。 さらに,一様サンプリング点上の関数を$\mathbb{s}^{d-1}$ で評価することによって,f$ の次数-$q$ 拡大を回収する単純かつ効率的なアルゴリズムを開発した。 本アルゴリズムは, 球面調和とゲゲンバウアー多項式の接続に基づいて, スコアサンプリング手法を利用する。 高速球面調和変換の以前の結果とは異なり、提案アルゴリズムは任意の次元のサンプルのほぼ最適な数を用いて効率的に動作する。 さらに,数値例によるアルゴリズムの実証的性能について述べる。

We propose an algorithm for robust recovery of the spherical harmonic expansion of functions defined on the d-dimensional unit sphere $\mathbb{S}^{d-1}$ using a near-optimal number of function evaluations. We show that for any $f \in L^2(\mathbb{S}^{d-1})$, the number of evaluations of $f$ needed to recover its degree-$q$ spherical harmonic expansion equals the dimension of the space of spherical harmonics of degree at most $q$ up to a logarithmic factor. Moreover, we develop a simple yet efficient algorithm to recover degree-$q$ expansion of $f$ by only evaluating the function on uniformly sampled points on $\mathbb{S}^{d-1}$. Our algorithm is based on the connections between spherical harmonics and Gegenbauer polynomials and leverage score sampling methods. Unlike the prior results on fast spherical harmonic transform, our proposed algorithm works efficiently using a nearly optimal number of samples in any dimension d. We further illustrate the empirical performance of our algorithm on numerical examples.
翻訳日:2022-03-01 18:20:20 公開日:2022-02-25
# ciscNet - シングルブランチセルインスタンスのセグメンテーションと分類ネットワーク

ciscNet -- A Single-Branch Cell Instance Segmentation and Classification Network ( http://arxiv.org/abs/2202.13960v1 )

ライセンス: Link先を確認
Moritz B\"ohland, Oliver Neumann, Marcel P. Schilling, Markus Reischl, Ralf Mikut, Katharina L\"offler, Tim Scherr(参考訳) 細胞核のセグメンテーションと分類は、病理学者の意思決定を助けるために必要である。 Colon Nuclei Identification and Counting Challenge 2022 (CoNIC Challenge 2022) は、病理画像の分類法と分類法の開発を支援している。 本稿では,細胞核の分別,分別,計数を行うためのcoNIC Challenge 2022法について述べるとともに,予備評価結果を報告する。 私たちのコードはhttps://git.scc.kit. edu/ciscnet/ciscnet- conic-2022で利用可能です。

Automated cell nucleus segmentation and classification are required to assist pathologists in their decision making. The Colon Nuclei Identification and Counting Challenge 2022 (CoNIC Challenge 2022) supports the development and comparability of segmentation and classification methods for histopathological images. In this contribution, we describe our CoNIC Challenge 2022 method ciscNet to segment, classify and count cell nuclei, and report preliminary evaluation results. Our code is available at https://git.scc.kit. edu/ciscnet/ciscnet- conic-2022.
翻訳日:2022-03-01 17:27:40 公開日:2022-02-25
# プロジェクティブランキングに基づくGNN侵入攻撃

Projective Ranking-based GNN Evasion Attacks ( http://arxiv.org/abs/2202.12993v1 )

ライセンス: Link先を確認
He Zhang, Xingliang Yuan, Chuan Zhou, Shirui Pan(参考訳) グラフニューラルネットワーク(gnns)は、グラフ関連タスクのための有望な学習方法を提供する。 しかし、GNNは敵の攻撃の危険にさらされている。 1) 現在のgradargmaxは摂動の「長期的な」利点を無視している。 特定の状況では、ゼログレードと無効な利益の見積もりに直面します。 2) 強化学習に基づく攻撃手法では, 攻撃予算が変化しても, 学習した攻撃戦略は伝達できない可能性がある。 この目的のために,まず摂動空間を定式化し,評価枠組みと射影ランキング法を提案する。 我々は、強力な攻撃戦略を学び、動的予算設定の下で敵のサンプルを生成するために可能な限り適応することを目指している。 本手法では, 相互情報に基づいて, 効果的な攻撃戦略のための各摂動の攻撃効果をランク付けし, 評価する。 戦略を投影することにより,攻撃予算が変更された場合,新たな攻撃戦略を学習するコストを劇的に削減する。 GradArgmax と RL-S2V との比較評価の結果,本手法は高い攻撃性能と効果的な転送性を有することが示された。 また,本手法の可視化により,対向サンプルの生成における様々な攻撃パターンが明らかになった。

Graph neural networks (GNNs) offer promising learning methods for graph-related tasks. However, GNNs are at risk of adversarial attacks. Two primary limitations of the current evasion attack methods are highlighted: (1) The current GradArgmax ignores the "long-term" benefit of the perturbation. It is faced with zero-gradient and invalid benefit estimates in certain situations. (2) In the reinforcement learning-based attack methods, the learned attack strategies might not be transferable when the attack budget changes. To this end, we first formulate the perturbation space and propose an evaluation framework and the projective ranking method. We aim to learn a powerful attack strategy then adapt it as little as possible to generate adversarial samples under dynamic budget settings. In our method, based on mutual information, we rank and assess the attack benefits of each perturbation for an effective attack strategy. By projecting the strategy, our method dramatically minimizes the cost of learning a new attack strategy when the attack budget changes. In the comparative assessment with GradArgmax and RL-S2V, the results show our method owns high attack performance and effective transferability. The visualization of our method also reveals various attack patterns in the generation of adversarial samples.
翻訳日:2022-03-01 17:24:15 公開日:2022-02-25
# カルラシミュレーターにおける自走エージェントの攻撃と欠陥注入 -経験報告-

Attacks and Faults Injection in Self-Driving Agents on the Carla Simulator -- Experience Report ( http://arxiv.org/abs/2202.12991v1 )

ライセンス: Link先を確認
Niccol\`o Piazzesi, Massimo Hong, Andrea Ceccarelli(参考訳) 機械学習アプリケーションは、ほとんどの運転タスクで実現可能な技術であるため、自動運転の基礎として認識されている。 しかし、訓練されたエージェントを自動車システムに組み込むことで、新たな攻撃や障害に晒され、ドライビングタスクの安全性が脅かされる可能性がある。 本稿では,運転シミュレータで動作する自動運転エージェントにおいて,敵攻撃やソフトウェア障害の注入に関する実験的キャンペーンを報告する。 訓練されたエージェントに注入された敵の攻撃や障害は誤った判断を招き、安全性を著しく損なう可能性がある。 本稿は,オープンソースのsimula-torとツールに基づいた,実現可能かつ容易に再現可能なアプローチを示し,その結果から保護策と広範なテストキャンペーンの両方の必要性を明確に示唆する。

Machine Learning applications are acknowledged at the foundation of autonomous driving, because they are the enabling technology for most driving tasks. However, the inclusion of trained agents in automotive systems exposes the vehicle to novel attacks and faults, that can result in safety threats to the driv-ing tasks. In this paper we report our experimental campaign on the injection of adversarial attacks and software faults in a self-driving agent running in a driving simulator. We show that adversarial attacks and faults injected in the trained agent can lead to erroneous decisions and severely jeopardize safety. The paper shows a feasible and easily-reproducible approach based on open source simula-tor and tools, and the results clearly motivate the need of both protective measures and extensive testing campaigns.
翻訳日:2022-03-01 17:19:37 公開日:2022-02-25
# vecchia近似を用いたスケーラブルガウス過程回帰と変数選択

Scalable Gaussian-process regression and variable selection using Vecchia approximations ( http://arxiv.org/abs/2202.12981v1 )

ライセンス: Link先を確認
Jian Cao, Joseph Guinness, Marc G. Genton, Matthias Katzfuss(参考訳) ガウス過程(英: Gaussian process、GP)は、不確実性を自然に定量化する回帰に対するフレキシブルで非パラメトリックなアプローチである。 多くのアプリケーションでは、応答数と共変量の両方が大きく、その応答に関連する共変量を選択することが目的である。 本研究では,Vecchia GP近似に基づくペナル化GPログ類似度を最適化し,精度行列の余分なコレスキー係数を示す空間統計量から順序付き条件近似を行う,新しい拡張性アルゴリズム VGPR を提案する。 我々は, 正則化経路を強いペナライゼーションから弱いペナライゼーションへトラバースし, 対数類似度の勾配に基づく候補共変数を逐次追加し, 新たな二次制約付き座標降下アルゴリズムを用いて無関係な共変量を選択する。 偏りのない勾配推定器を提供するVecchiaベースのミニバッチサブサンプリングを提案する。 結果として得られる手順は、数百万の応答と数千の共変量に対してスケーラブルである。 理論的解析と数値的研究は、既存の手法と比較してスケーラビリティと精度が向上したことを示している。

Gaussian process (GP) regression is a flexible, nonparametric approach to regression that naturally quantifies uncertainty. In many applications, the number of responses and covariates are both large, and a goal is to select covariates that are related to the response. For this setting, we propose a novel, scalable algorithm, coined VGPR, which optimizes a penalized GP log-likelihood based on the Vecchia GP approximation, an ordered conditional approximation from spatial statistics that implies a sparse Cholesky factor of the precision matrix. We traverse the regularization path from strong to weak penalization, sequentially adding candidate covariates based on the gradient of the log-likelihood and deselecting irrelevant covariates via a new quadratic constrained coordinate descent algorithm. We propose Vecchia-based mini-batch subsampling, which provides unbiased gradient estimators. The resulting procedure is scalable to millions of responses and thousands of covariates. Theoretical analysis and numerical studies demonstrate the improved scalability and accuracy relative to existing methods.
翻訳日:2022-03-01 17:14:32 公開日:2022-02-25
# 欠落データの存在下でのフレキシブルな変数選択

Flexible variable selection in the presence of missing data ( http://arxiv.org/abs/2202.12989v1 )

ライセンス: Link先を確認
B. D. Williamson and Y. Huang(参考訳) 多くのアプリケーションにおいて、応答を予測する上で望ましいレベルのパフォーマンスを達成する複数の候補から、同種の機能セット、またはパネルを特定することが関心がある。 このタスクは、サンプリング設計やその他のランダムなメカニズムから生じるデータの欠如によって、しばしば複雑になる。 欠落したデータ文脈における変数選択に関する最近の研究は、有限次元統計モデル(例えば、一般化またはペナル化線形モデル)に依存している。 このモデルが不特定化されている場合、選択された変数は必ずしも科学的に関連づけられず、サブ最適分類性能を持つパネルとなる可能性がある。 この制限に対処するために、複数の非パラメトリック変数選択アルゴリズムと複数のインプットを組み合わせることで、非ランダムデータの存在下でフレキシブルなパネルを開発する。 提案手法は,一般的な誤り率の制御を行うアルゴリズムに基づく戦略を概説する。 シミュレーションにより,提案手法の動作特性は良好であり,既存のペナル化回帰手法と比較して高い分類性能を有するパネルが得られた。 最後に, 検体数が少ないため, 複雑なバイオマーカーの欠如が生じた症例において, 膵嚢胞を異なる悪性度で分離するためのバイオマーカーパネルの開発を行った。

In many applications, it is of interest to identify a parsimonious set of features, or panel, from multiple candidates that achieves a desired level of performance in predicting a response. This task is often complicated in practice by missing data arising from the sampling design or other random mechanisms. Most recent work on variable selection in missing data contexts relies in some part on a finite-dimensional statistical model (e.g., a generalized or penalized linear model). In cases where this model is misspecified, the selected variables may not all be truly scientifically relevant and can result in panels with suboptimal classification performance. To address this limitation, we propose several nonparametric variable selection algorithms combined with multiple imputation to develop flexible panels in the presence of missing-at-random data. We outline strategies based on the proposed algorithms that achieve control of commonly used error rates. Through simulations, we show that our proposals have good operating characteristics and result in panels with higher classification performance compared to several existing penalized regression approaches. Finally, we use the proposed methods to develop biomarker panels for separating pancreatic cysts with differing malignancy potential in a setting where complicated missingness in the biomarkers arose due to limited specimen volumes.
翻訳日:2022-03-01 17:12:46 公開日:2022-02-25
# face-swap deepfakeビデオのモデル帰属

Model Attribution of Face-swap Deepfake Videos ( http://arxiv.org/abs/2202.12951v1 )

ライセンス: Link先を確認
Shan Jia, Xin Li, Siwei Lyu(参考訳) aiが生成したフェイススワップビデオは、一般的にはdeepfakesと呼ばれ、強力な偽装攻撃として広く注目を集めている。 既存のDeepfakesの研究は、主に、本物と偽のビデオを区別するためのバイナリ検出に焦点を当てている。 しかし、偽ビデオの特定の生成モデルを決定することも重要である。 本稿では,Deepfakeビデオのモデル属性問題を研究することにより,このギャップを埋める。 まず,複数のAutoencoderモデルに基づくDFDM(DeepFakes from Different Models)を用いた新しいデータセットを提案する。 具体的には、エンコーダ、デコーダ、中間層、入力解像度、圧縮比の5つの世代モデルを用いて、同じ入力に基づいて合計6450のDeepfakeビデオを生成する。 次に、Deepfakesモデル属性を多クラス分類タスクとして、新しいデータセットにおけるDeepfakes間の差異を探索するための空間的および時間的注意に基づく手法を提案する。 実験により,既存のDeepfakes検出手法のほとんどはDeepfakesモデル帰属に失敗し,提案手法は高品質なDFDMデータセット上で70%以上の精度を達成した。

AI-created face-swap videos, commonly known as Deepfakes, have attracted wide attention as powerful impersonation attacks. Existing research on Deepfakes mostly focuses on binary detection to distinguish between real and fake videos. However, it is also important to determine the specific generation model for a fake video, which can help attribute it to the source for forensic investigation. In this paper, we fill this gap by studying the model attribution problem of Deepfake videos. We first introduce a new dataset with DeepFakes from Different Models (DFDM) based on several Autoencoder models. Specifically, five generation models with variations in encoder, decoder, intermediate layer, input resolution, and compression ratio have been used to generate a total of 6,450 Deepfake videos based on the same input. Then we take Deepfakes model attribution as a multiclass classification task and propose a spatial and temporal attention based method to explore the differences among Deepfakes in the new dataset. Experimental evaluation shows that most existing Deepfakes detection methods failed in Deepfakes model attribution, while the proposed method achieved over 70% accuracy on the high-quality DFDM dataset.
翻訳日:2022-03-01 17:11:29 公開日:2022-02-25
# 適応型ビデオストリーミング品質評価に関する簡単な調査

A Brief Survey on Adaptive Video Streaming Quality Assessment ( http://arxiv.org/abs/2202.12987v1 )

ライセンス: Link先を確認
Wei Zhou, Xiongkuo Min, Hong Li, Qiuping Jiang(参考訳) qoe(quality of experience) 適応型ビデオストリーミングの評価は、高度なネットワーク管理システムにおいて重要な役割を担っている。 HTTP(DASH)上の動的適応ストリーミングスキームでは特に困難であり、追加の再生問題を含む複雑な特徴が増している。 本稿では,適応型ビデオストリーミング品質評価の概要について述べる。 関連研究のレビューでは,対象QoE評価モデルの様々なバリエーションを,適応型ビデオストリーミングのための機械学習技術を用いて分析・比較する。 性能分析を通じて,qos駆動型qoeアプローチと信号忠実度測定の両方よりもハイブリッドモデルの方が優れた性能を示す。 さらに、機械学習ベースのモデルは、同じ設定で機械学習を使わずに、モデルをわずかに上回る。 また,既存のビデオストリーミングqoe評価モデルでは性能が制限されているため,実用的な通信システムでは適用が困難である。 そこで,本研究では,従来の映像品質予測における深層学習特徴表現の成功を活かし,市販の深層畳み込みニューラルネットワーク(dcnn)を用いて,ストリーミング映像の時空間特性を考慮した知覚的品質評価を行う。 実験は、適応型ビデオストリーミング品質評価のための特別に設計されたディープラーニングフレームワークの将来の開発に光を当てる、その優位性を実証する。 この調査は、適応型ビデオストリーミングのQoE評価のガイドラインとして役立つと考えている。

Quality of experience (QoE) assessment for adaptive video streaming plays a significant role in advanced network management systems. It is especially challenging in case of dynamic adaptive streaming schemes over HTTP (DASH) which has increasingly complex characteristics including additional playback issues. In this paper, we provide a brief overview of adaptive video streaming quality assessment. Upon our review of related works, we analyze and compare different variations of objective QoE assessment models with or without using machine learning techniques for adaptive video streaming. Through the performance analysis, we observe that hybrid models perform better than both quality-of-service (QoS) driven QoE approaches and signal fidelity measurement. Moreover, the machine learning-based model slightly outperforms the model without using machine learning for the same setting. In addition, we find that existing video streaming QoE assessment models still have limited performance, which makes it difficult to be applied in practical communication systems. Therefore, based on the success of deep learned feature representations for traditional video quality prediction, we also apply the off-the-shelf deep convolutional neural network (DCNN) to evaluate the perceptual quality of streaming videos, where the spatio-temporal properties of streaming videos are taken into consideration. Experiments demonstrate its superiority, which sheds light on the future development of specifically designed deep learning frameworks for adaptive video streaming quality assessment. We believe this survey can serve as a guideline for QoE assessment of adaptive video streaming.
翻訳日:2022-03-01 17:11:09 公開日:2022-02-25
# 自然照度下における複雑景観のSVBRDF推定のための多視点勾配整合性

Multi-view Gradient Consistency for SVBRDF Estimation of Complex Scenes under Natural Illumination ( http://arxiv.org/abs/2202.13017v1 )

ライセンス: Link先を確認
Alen Joy and Charalambos Poullis(参考訳) 本稿では,自然照明下で観測される複雑なシーンの表面反射率の空間的変化を推定する手法を提案する。 従来の方法とは対照的に, 制御された照明条件下でのシーンに限らず, 任意の照明条件下での複雑な屋内・屋外のシーンを処理できる。 エンド・ツー・エンドのプロセスでは、シーンの形状のモデルと、任意の視点から様々な自然照明条件下でシーンの表面をキャプチャする複数の画像を使用する。 我々は,最小二乗等角写像を利用して,シーンに現れる複数の不整合オブジェクトを扱う微分可能な経路トレーサを開発した。 我々は2段階の最適化プロセスに従い、画像再構成損失を最大30~50%改善する多視点勾配整合性損失を導入し、他の最先端技術と比較して拡散スペクトルBRDFの歪みを更に改善することができる。 本研究では,野生の画像から実世界の屋内・屋外のシーンを再現し,推定反射特性を用いて実画像と整合したリアルなレンダリングを実現できることを示す。 実験により, 複雑な形状を持つ任意の屋外シーンに対して, 現実的な結果が得られた。 ソースコードは、https://gitlab.com/a len.joy/multi-view-g radient-consistency- for-svbrdf-estimatio n-of-complex-scenes- under-natural-illumi nationで公開されている。

This paper presents a process for estimating the spatially varying surface reflectance of complex scenes observed under natural illumination. In contrast to previous methods, our process is not limited to scenes viewed under controlled lighting conditions but can handle complex indoor and outdoor scenes viewed under arbitrary illumination conditions. An end-to-end process uses a model of the scene's geometry and several images capturing the scene's surfaces from arbitrary viewpoints and under various natural illumination conditions. We develop a differentiable path tracer that leverages least-square conformal mapping for handling multiple disjoint objects appearing in the scene. We follow a two-step optimization process and introduce a multi-view gradient consistency loss which results in up to 30-50% improvement in the image reconstruction loss and can further achieve better disentanglement of the diffuse and specular BRDFs compared to other state-of-the-art. We demonstrate the process in real-world indoor and outdoor scenes from images in the wild and show that we can produce realistic renders consistent with actual images using the estimated reflectance properties. Experiments show that our technique produces realistic results for arbitrary outdoor scenes with complex geometry. The source code is publicly available at: https://gitlab.com/a len.joy/multi-view-g radient-consistency- for-svbrdf-estimatio n-of-complex-scenes- under-natural-illumi nation
翻訳日:2022-03-01 17:10:48 公開日:2022-02-25
# ディープニューラルネットワーク最適化を高速化するハードウェア・アウェアシステム

A Hardware-Aware System for Accelerating Deep Neural Network Optimization ( http://arxiv.org/abs/2202.12954v1 )

ライセンス: Link先を確認
Anthony Sarah, Daniel Cummings, Sharath Nittur Sridhar, Sairam Sundaresan, Maciej Szankin, Tristan Webb, J. Pablo Munoz(参考訳) ハードウェアに依存しない「スーパーネットワーク」から特別なハードウェア対応構成(サブネットワーク)を抽出するニューラルネットワークサーチ(NAS)の最近の進歩は、ますます人気が高まっている。 第1段階、すなわちスーパーネットワークの訓練に多大な努力が払われているが、派生的な高性能サブネットワークの探索はいまだに未調査である。 例えば、最近のネットワークモーフィズム技術では、スーパーネットワークを一度訓練し、必要に応じてハードウェア固有のネットワークを抽出することができる。 これらの手法はサブネットワーク探索からスーパーネットワークトレーニングを分離し、異なるハードウェアプラットフォームへの特殊化の計算負荷を低減する。 本稿では,様々な性能指標とハードウェア構成に最適化された事前学習スーパーネットワークから,サブネットワークを自動的にかつ効率的に検出する総合システムを提案する。 新しい探索戦術とアルゴリズムを予測器のインテリジェントな利用と組み合わせることで、与えられたスーパーネットワークから最適なサブネットワークを見つけるのに必要な時間を大幅に削減する。 さらに,本手法では,対象のタスクを優先的に改良する必要がなく,任意のスーパーネットワークとのインタフェースが可能である。 複数のドメインにおける既存の最先端のスーパーネットワークトレーニング手法とシームレスに動作することを示す。 さらに,新たな探索手法と進化アルゴリズムを組み合わせることで,対象空間のパレート・フロントの多様性を維持しつつ,resnet50,mobilenetv 3,transformerの検索プロセスを高速化し,最先端ベイズ最適化の弱さアプローチよりも8倍高速に検索結果を示す。

Recent advances in Neural Architecture Search (NAS) which extract specialized hardware-aware configurations (a.k.a. "sub-networks") from a hardware-agnostic "super-network" have become increasingly popular. While considerable effort has been employed towards improving the first stage, namely, the training of the super-network, the search for derivative high-performing sub-networks is still largely under-explored. For example, some recent network morphism techniques allow a super-network to be trained once and then have hardware-specific networks extracted from it as needed. These methods decouple the super-network training from the sub-network search and thus decrease the computational burden of specializing to different hardware platforms. We propose a comprehensive system that automatically and efficiently finds sub-networks from a pre-trained super-network that are optimized to different performance metrics and hardware configurations. By combining novel search tactics and algorithms with intelligent use of predictors, we significantly decrease the time needed to find optimal sub-networks from a given super-network. Further, our approach does not require the super-network to be refined for the target task a priori, thus allowing it to interface with any super-network. We demonstrate through extensive experiments that our system works seamlessly with existing state-of-the-art super-network training methods in multiple domains. Moreover, we show how novel search tactics paired with evolutionary algorithms can accelerate the search process for ResNet50, MobileNetV3 and Transformer while maintaining objective space Pareto front diversity and demonstrate an 8x faster search result than the state-of-the-art Bayesian optimization WeakNAS approach.
翻訳日:2022-03-01 16:49:51 公開日:2022-02-25
# 方針提示モンテカルロ木探索による非定常環境における意思決定

Decision Making in Non-Stationary Environments with Policy-Augmented Monte Carlo Tree Search ( http://arxiv.org/abs/2202.13003v1 )

ライセンス: Link先を確認
Geoffrey Pettet, Ayan Mukhopadhyay, Abhishek Dubey(参考訳) 不確実性のある意思決定(DMU)は多くの重要な問題に存在している。 オープンな課題は、時間とともに環境のダイナミクスが変化する非定常環境におけるDMUである。 DMU問題に対する一般的なアプローチである強化学習(RL)は、オフラインで環境モデルと対話することでポリシーを学ぶ。 残念なことに、もし環境が変化すれば、政策は不安定になり、準最適行動を取ることができ、更新された環境に対するポリシーの再学習には時間と計算の労力がかかる。 別の方法として、モンテカルロ木探索(mcts)のようなオンライン計画手法があり、決定時に計算を行う。 現在の環境を考えると、MCTSは将来的な行動軌跡を決定するために高忠実度モデルを使用する計画である。 これらのモデルは、環境変化を検出してすぐに意思決定に組み込むとすぐに更新できる。 しかし、MCTSの収束は大きな状態作用空間を持つ領域では遅くなる。 本稿では,rlの強みと計画の強みを融合し,弱みを緩和する新たなハイブリッド意思決定手法を提案する。 提案手法はPA-MCTS(Policy Augmented MCTS)と呼ばれ,ポリシーのアクチン値推定値をMCTSに統合し,その推定値を用いて検索に好まれる行動軌跡を抽出する。 我々は,PA-MCTSが標準MCTSよりも早く収束する一方で,非定常環境に直面した場合の政策よりも優れた意思決定を行うという仮説を立てる。 PA-MCTSと純粋なMCTSと古典的なCartPole環境に適用したRLエージェントを比較し,本仮説を検証した。 その結果,pc-mctsは,いくつかの環境変化下で,個別の政策よりも高い累積報酬を得られることが判明した。

Decision-making under uncertainty (DMU) is present in many important problems. An open challenge is DMU in non-stationary environments, where the dynamics of the environment can change over time. Reinforcement Learning (RL), a popular approach for DMU problems, learns a policy by interacting with a model of the environment offline. Unfortunately, if the environment changes the policy can become stale and take sub-optimal actions, and relearning the policy for the updated environment takes time and computational effort. An alternative is online planning approaches such as Monte Carlo Tree Search (MCTS), which perform their computation at decision time. Given the current environment, MCTS plans using high-fidelity models to determine promising action trajectories. These models can be updated as soon as environmental changes are detected to immediately incorporate them into decision making. However, MCTS's convergence can be slow for domains with large state-action spaces. In this paper, we present a novel hybrid decision-making approach that combines the strengths of RL and planning while mitigating their weaknesses. Our approach, called Policy Augmented MCTS (PA-MCTS), integrates a policy's actin-value estimates into MCTS, using the estimates to seed the action trajectories favored by the search. We hypothesize that PA-MCTS will converge more quickly than standard MCTS while making better decisions than the policy can make on its own when faced with nonstationary environments. We test our hypothesis by comparing PA-MCTS with pure MCTS and an RL agent applied to the classical CartPole environment. We find that PC-MCTS can achieve higher cumulative rewards than the policy in isolation under several environmental shifts while converging in significantly fewer iterations than pure MCTS.
翻訳日:2022-03-01 16:49:21 公開日:2022-02-25
# Gumebel-Softmaxによる有効サブネットの抽出

Extracting Effective Subnetworks with Gumebel-Softmax ( http://arxiv.org/abs/2202.12986v1 )

ライセンス: Link先を確認
Robin Dupont, Mohammed Amine Alaoui, Hichem Sahbi, Alice Lebois(参考訳) 大規模でパフォーマンスの高いニューラルネットワークは、しばしば過度にパラメータ化され、プルーニングによってサイズと複雑さが大幅に削減される。 プルーニング(pruning)は、ネットワーク内の余分な重みまたは不要な重みのグループを取り除くためのメソッドのグループである。 これらの技術は、組み込みアプリケーションやモバイルアプリケーションで特に重要な軽量ネットワークの作成を可能にする。 本稿では,より大規模な未学習者から有効なサブネットを抽出できる代替プルーニング法を提案する。 提案手法は確率的であり,Gumbel Softmaxを用いてサンプル化した様々なトポロジを探索することによりサブネットを抽出する。 後者は、サンプルトポロジにおける重みの関連性を測定する確率分布の訓練にも用いられる。 結果として生じるサブネットワークは、トレーニング時間を短縮し、パフォーマンスを改善する、非常に効率的な再スケーリングメカニズムを使用してさらに強化される。 CIFAR10で行った大規模な実験は,我々のサブネットワーク抽出法が関連する作業に対して優れていることを示す。

Large and performant neural networks are often overparameterized and can be drastically reduced in size and complexity thanks to pruning. Pruning is a group of methods, which seeks to remove redundant or unnecessary weights or groups of weights in a network. These techniques allow the creation of lightweight networks, which are particularly critical in embedded or mobile applications. In this paper, we devise an alternative pruning method that allows extracting effective subnetworks from larger untrained ones. Our method is stochastic and extracts subnetworks by exploring different topologies which are sampled using Gumbel Softmax. The latter is also used to train probability distributions which measure the relevance of weights in the sampled topologies. The resulting subnetworks are further enhanced using a highly efficient rescaling mechanism that reduces training time and improves performances. Extensive experiments conducted on CIFAR10 show the outperformance of our subnetwork extraction method against the related work.
翻訳日:2022-03-01 16:45:45 公開日:2022-02-25
# 光フローを用いた動作情報を用いた弱修正インスタンス分割

Weakly Supervised Instance Segmentation using Motion Information via Optical Flow ( http://arxiv.org/abs/2202.13006v1 )

ライセンス: Link先を確認
Jun Ikeda and Junichiro Mori(参考訳) モデルトレーニングに必要なピクセルレベルのマスクのアノテーションコストを低減し,教師付きインスタンスセグメンテーションが普及している。 静的画像から得られた外観情報を用いた弱教師付きインスタンスセグメンテーションの検出とセグメントオブジェクトに対する最近のアプローチ しかし、非差別的な外観を持つ物体を識別することは困難である。 本研究では,画像からの動き情報を用いてこの問題に対処する。 画像と光の流れから抽出した外観と運動の特徴を利用する2ストリームエンコーダを提案する。 さらに,セグメンテーションを監督するために,出現情報と動作情報の両方を考慮した新しいペアワイズ損失を提案する。 我々は,YouTube-VIS 2019ベンチマークデータセットについて広範な評価を行った。 その結果,提案手法は最先端手法の平均精度を3.1向上させることができた。

Weakly supervised instance segmentation has gained popularity because it reduces high annotation cost of pixel-level masks required for model training. Recent approaches for weakly supervised instance segmentation detect and segment objects using appearance information obtained from a static image. However, it poses the challenge of identifying objects with a non-discriminatory appearance. In this study, we address this problem by using motion information from image sequences. We propose a two-stream encoder that leverages appearance and motion features extracted from images and optical flows. Additionally, we propose a novel pairwise loss that considers both appearance and motion information to supervise segmentation. We conducted extensive evaluations on the YouTube-VIS 2019 benchmark dataset. Our results demonstrate that the proposed method improves the Average Precision of the state-of-the-art method by 3.1.
翻訳日:2022-03-01 16:45:31 公開日:2022-02-25
# HCIL: 長期漁業視覚モニタリングのための階層型クラスインクリメンタルラーニング

HCIL: Hierarchical Class Incremental Learning for Longline Fishing Visual Monitoring ( http://arxiv.org/abs/2202.13018v1 )

ライセンス: Link先を確認
Jie Mei, Suzanne Romain, Craig Rose, Kelsey Magrane, Jenq-Neng Hwang(参考訳) 長期魚釣りの電子的監視の目標は、規制順守または漁獲計数のため、カメラに基づいて漁船の漁獲活動を視覚的に監視することである。 従来の階層分類法では,漁獲過程において魚が過度な変形と自己閉塞状態にある長期漁獲物の効率的な魚種同定が示されている。 階層的な分類は、異なる階層レベルで信頼度スコアを提供することで、ヒューマンレビューの労力を軽減するが、そのパフォーマンスは、クラスインクリメンタル学習(cil)シナリオの下で劇的に低下する。 cilシステムは、データストリームから、時間とともにより多くのクラスについて学ぶことが可能でなければなりません。つまり、少数のクラスのトレーニングデータのみを最初に存在し、新しいクラスを段階的に追加する必要があります。 本稿では,CILシナリオ下での最先端階層分類法を大幅に改善する階層型クラスインクリメンタルラーニング(HCIL)モデルを提案する。

The goal of electronic monitoring of longline fishing is to visually monitor the fish catching activities on fishing vessels based on cameras, either for regulatory compliance or catch counting. The previous hierarchical classification method demonstrates efficient fish species identification of catches from longline fishing, where fishes are under severe deformation and self-occlusion during the catching process. Although the hierarchical classification mitigates the laborious efforts of human reviews by providing confidence scores in different hierarchical levels, its performance drops dramatically under the class incremental learning (CIL) scenario. A CIL system should be able to learn about more and more classes over time from a stream of data, i.e., only the training data for a small number of classes have to be present at the beginning and new classes can be added progressively. In this work, we introduce a Hierarchical Class Incremental Learning (HCIL) model, which significantly improves the state-of-the-art hierarchical classification methods under the CIL scenario.
翻訳日:2022-03-01 16:45:18 公開日:2022-02-25
# 制約満足度問題への高次確率グラフモデルの適用に関する漸進的推論

Incremental Inference on Higher-Order Probabilistic Graphical Models Applied to Constraint Satisfaction Problems ( http://arxiv.org/abs/2202.12916v1 )

ライセンス: Link先を確認
Simon Streicher(参考訳) 確率的グラフィカルモデル(PGM)は複雑な確率的関係を解決するためのツールである。 しかし、主に準最適PGM構造が用いられる。 この論文はPGM文学に3つの貢献をしている。 1つ目は、Sudokusのようなグラフ彩色問題における因子グラフとクラスタグラフの比較である。 2つ目は、地図学における現実的な問題である土地被覆分類促進へのクラスターグラフの適用である。 3つ目は、制約満足度問題に対するPGMの定式化と、従来のPGMでは複雑すぎる問題を解決するためにPurge-and-mergeと呼ばれるアルゴリズムである。

Probabilistic graphical models (PGMs) are tools for solving complex probabilistic relationships. However, suboptimal PGM structures are primarily used in practice. This dissertation presents three contributions to the PGM literature. The first is a comparison between factor graphs and cluster graphs on graph colouring problems such as Sudokus - indicating a significant advantage for preferring cluster graphs. The second is an application of cluster graphs to a practical problem in cartography: land cover classification boosting. The third is a PGMs formulation for constraint satisfaction problems and an algorithm called purge-and-merge to solve such problems too complex for traditional PGMs.
翻訳日:2022-03-01 16:32:06 公開日:2022-02-25
# 政策依存型最適化応答を用いたオフポリティ評価

Off-Policy Evaluation with Policy-Dependent Optimization Response ( http://arxiv.org/abs/2202.12958v1 )

ライセンス: Link先を確認
Wenshuo Guo, Michael I. Jordan, Angela Zhou(参考訳) 因果推論と意思決定のための機械学習の交点が急速に拡大しているが、デフォルトの決定基準は、人口全体にわたる個々の因果結果の \textit{average} のままである。 実際には、さまざまな運用上の制限により、意思決定者のユーティリティが、下流の意思決定問題(マッチング、代入、ネットワークフロー、予測リスクの最小化など)の \textit{average} として実現されることが保証される。 本研究では, 目的関数係数に確率性を導入する因果的結果について, \textit{policy-dependent} 線形最適化応答を用いて, オフポリシー評価のための新しいフレームワークを開発した。 このフレームワークでは、意思決定者のユーティリティはポリシー依存の最適化に依存しており、ポリシー評価の場合でさえ、 \textit{optimization} バイアスの根本的な挑戦をもたらす。 摂動法による政策依存推定のための非バイアス推定器を構築する。 また、この摂動法に適合するように調整された一連のプラグイン回帰推定器の漸近変動特性についても論じる。 最後に、不偏ポリシー評価を達成することで、政策最適化が可能となり、因果的介入を最適化するための一般的なアルゴリズムを提供する。 我々は数値シミュレーションで理論結果を裏付ける。

The intersection of causal inference and machine learning for decision-making is rapidly expanding, but the default decision criterion remains an \textit{average} of individual causal outcomes across a population. In practice, various operational restrictions ensure that a decision-maker's utility is not realized as an \textit{average} but rather as an \textit{output} of a downstream decision-making problem (such as matching, assignment, network flow, minimizing predictive risk). In this work, we develop a new framework for off-policy evaluation with a \textit{policy-dependent} linear optimization response: causal outcomes introduce stochasticity in objective function coefficients. In this framework, a decision-maker's utility depends on the policy-dependent optimization, which introduces a fundamental challenge of \textit{optimization} bias even for the case of policy evaluation. We construct unbiased estimators for the policy-dependent estimand by a perturbation method. We also discuss the asymptotic variance properties for a set of plug-in regression estimators adjusted to be compatible with that perturbation method. Lastly, attaining unbiased policy evaluation allows for policy optimization, and we provide a general algorithm for optimizing causal interventions. We corroborate our theoretical results with numerical simulations.
翻訳日:2022-03-01 16:31:55 公開日:2022-02-25
# 画像における自己監督学習の洗練:リニアメトリックを超えて

Refining Self-Supervised Learning in Imaging: Beyond Linear Metric ( http://arxiv.org/abs/2202.12921v1 )

ライセンス: Link先を確認
Bo Jiang, Hamid Krim, Tianfu Wu, Derya Cansever(参考訳) 本稿では,jaccard類似度メトリクスを指標として,自己教師付きコントラスト学習の喪失における非線形特徴を効果的に引き出すための新しい統計的視点を提案する。 特に,提案手法は,いわゆる潜在表現から学習した2つの適応射影間の依存測度として解釈できる。 これは、相関情報を考慮した従来のコントラスト学習モデルにおけるコサイン類似性尺度とは対照的である。 我々の知る限りでは、この事実上非線形に融合した情報は、Jaccardの類似性に埋め込まれており、将来有望な結果を伴う自己超越学習に新しいものである。 提案手法は、3つの画像データセット上の2つの最先端の自己教師付きコントラスト学習手法と比較される。 現在のML問題に適用可能であるだけでなく、パフォーマンスやトレーニングの効率も向上しています。

We introduce in this paper a new statistical perspective, exploiting the Jaccard similarity metric, as a measure-based metric to effectively invoke non-linear features in the loss of self-supervised contrastive learning. Specifically, our proposed metric may be interpreted as a dependence measure between two adapted projections learned from the so-called latent representations. This is in contrast to the cosine similarity measure in the conventional contrastive learning model, which accounts for correlation information. To the best of our knowledge, this effectively non-linearly fused information embedded in the Jaccard similarity, is novel to self-supervision learning with promising results. The proposed approach is compared to two state-of-the-art self-supervised contrastive learning methods on three image datasets. We not only demonstrate its amenable applicability in current ML problems, but also its improved performance and training efficiency.
翻訳日:2022-03-01 15:44:06 公開日:2022-02-25
# FSGANv2: 顔スワッピングと再現の改善

FSGANv2: Improved Subject Agnostic Face Swapping and Reenactment ( http://arxiv.org/abs/2202.12972v1 )

ライセンス: Link先を確認
Yuval Nirkin, Yosi Keller, Tal Hassner(参考訳) 顔交換と再現のためにFSGAN(Face Swapping GAN)を提案する。 従来とは違って,顔のトレーニングを必要とせず,顔のペアに適用可能な対象非依存スワップ方式を提案する。 本研究では,1つの画像や映像列に適用可能な重要なポーズや表現のバリエーションを調整できる,新しい反復的ディープラーニングに基づく顔再現手法を提案する。 映像系列に対しては,再現性,デラウナイ三角測量,および偏心座標に基づく連続的な顔の補間を導入する。 蓄積された顔領域は、フェース補完ネットワークによって処理される。 最後に,顔ブレンディングネットワークを用いて,肌の色や照明条件を保ちながら,両顔のシームレスなブレンドを行う。 このネットワークは、ポアソン最適化と知覚損失を組み合わせた新しいポアソン混合損失を使用する。 本手法を既存の最先端システムと比較し, 質的, 定量的に両立することを示す。 本研究は,本研究のカンファレンス版で提案されているfsgan法の拡張と追加実験と結果について述べる。

We present Face Swapping GAN (FSGAN) for face swapping and reenactment. Unlike previous work, we offer a subject agnostic swapping scheme that can be applied to pairs of faces without requiring training on those faces. We derive a novel iterative deep learning--based approach for face reenactment which adjusts significant pose and expression variations that can be applied to a single image or a video sequence. For video sequences, we introduce a continuous interpolation of the face views based on reenactment, Delaunay Triangulation, and barycentric coordinates. Occluded face regions are handled by a face completion network. Finally, we use a face blending network for seamless blending of the two faces while preserving the target skin color and lighting conditions. This network uses a novel Poisson blending loss combining Poisson optimization with a perceptual loss. We compare our approach to existing state-of-the-art systems and show our results to be both qualitatively and quantitatively superior. This work describes extensions of the FSGAN method, proposed in an earlier conference version of our work, as well as additional experiments and results.
翻訳日:2022-03-01 15:43:52 公開日:2022-02-25
# OptGAN: 条件付きテキスト間GANの潜時空間の最適化と解釈

OptGAN: Optimizing and Interpreting the Latent Space of the Conditional Text-to-Image GANs ( http://arxiv.org/abs/2202.12929v1 )

ライセンス: Link先を確認
Zhenxing Zhang and Lambert Schomaker(参考訳) テキストから画像への生成は、テキスト記述に基づくフォトリアリスティックな画像を自動的に生成することを目的としている。 これは、アート作成、データ拡張、フォト編集などの分野に応用できる可能性がある。 この課題に多くの努力が注がれているが、信じられない自然の場面を生み出すことは特に困難である。 テキスト・画像合成の現実的な応用を促進するため、以下の3つの課題に焦点をあてる。 1) 生成したサンプルが信頼性,現実性,あるいは自然であることを保証するには,どうすればよいのか? 2) 合成画像の編集に発電機の潜在空間をどのように活用するか? 3)テキスト・画像生成フレームワークの説明可能性を改善するには? 本研究では,厳格な基準に従って,成功例と失敗例からなる2つの新しいデータセット( good & bad bird と face データセット)を構築した。 良質な遅延符号を生成する確率を高めて高画質な画像を効果的に効率よく取得するために、生成した画像に専用グッド/バッド分類器を用いる。 事前訓練されたフロントエンドに基づいており、提案されているGood & Badデータセットに基づいて微調整されている。 そこで,本稿では,生成器の事前学習した重み値の独立成分分析を行うことにより,条件付きテキスト・イメージGANアーキテクチャの潜時空間における意味的理解可能な方向を同定するアルゴリズムを提案する。 さらに,編集画像の背景表示を改善するために背景フラット化損失(bfl)を開発する。 次に,キーワード対間の線形補間解析を導入する。 これは同様に三角形の「言語的」補間に拡張され、言語埋め込みの中でテキスト-画像合成モデルが何を学んだのかを深く観察する。 私たちのデータセットはhttps://zenodo.org/r ecord/6283798#で利用可能です。 YhkN_ujMI2w。

Text-to-image generation intends to automatically produce a photo-realistic image, conditioned on a textual description. It can be potentially employed in the field of art creation, data augmentation, photo-editing, etc. Although many efforts have been dedicated to this task, it remains particularly challenging to generate believable, natural scenes. To facilitate the real-world applications of text-to-image synthesis, we focus on studying the following three issues: 1) How to ensure that generated samples are believable, realistic or natural? 2) How to exploit the latent space of the generator to edit a synthesized image? 3) How to improve the explainability of a text-to-image generation framework? In this work, we constructed two novel data sets (i.e., the Good & Bad bird and face data sets) consisting of successful as well as unsuccessful generated samples, according to strict criteria. To effectively and efficiently acquire high-quality images by increasing the probability of generating Good latent codes, we use a dedicated Good/Bad classifier for generated images. It is based on a pre-trained front end and fine-tuned on the basis of the proposed Good & Bad data set. After that, we present a novel algorithm which identifies semantically-underst andable directions in the latent space of a conditional text-to-image GAN architecture by performing independent component analysis on the pre-trained weight values of the generator. Furthermore, we develop a background-flattenin g loss (BFL), to improve the background appearance in the edited image. Subsequently, we introduce linear interpolation analysis between pairs of keywords. This is extended into a similar triangular `linguistic' interpolation in order to take a deep look into what a text-to-image synthesis model has learned within the linguistic embeddings. Our data set is available at https://zenodo.org/r ecord/6283798#.YhkN_ ujMI2w.
翻訳日:2022-03-01 14:52:59 公開日:2022-02-25
# ANTLER: ベイズ的非線形テンソル学習と非構造化・可変点クラウドデータのモデリング

ANTLER: Bayesian Nonlinear Tensor Learning and Modeler for Unstructured, Varying-Size Point Cloud Data ( http://arxiv.org/abs/2202.13788v1 )

ライセンス: Link先を確認
Michael Biehler, Hao Yan, Jianjun Shi(参考訳) 様々な大きさの非構造点雲は、レーザー三角測量や光検出・追跡(LiDAR)を通じて、様々な環境で取得される。 非構造化点雲に基づくスカラー応答の予測は、様々なアプリケーションで発生する一般的な問題である。 現在の文献は、ポイントクラウドデータを分析するために構造化サブサンプリングや特徴抽出など、いくつかの前処理ステップに依存している。 これらの手法は量子化アーティファクトにつながり、回帰応答と前処理中の点雲の関係を考慮しない。 そこで本研究では,非構造化・可変点クラウドデータとスカラーあるいは多変量応答の関係をモデル化する汎用的・包括的非線形テンソル学習モデル(ANTLER)を提案する。 提案するアントラーは, 非線形テンソル次元の低減と3次元点クラウド入力とスカラーあるいは多変量応答を持つ非線形回帰モデルを同時に最適化する。 ANTLERは複雑なデータ表現、高次元性、および3Dポイントクラウドデータの一貫性のないサイズを考慮できる。

Unstructured point clouds with varying sizes are increasingly acquired in a variety of environments through laser triangulation or Light Detection and Ranging (LiDAR). Predicting a scalar response based on unstructured point clouds is a common problem that arises in a wide variety of applications. The current literature relies on several pre-processing steps such as structured subsampling and feature extraction to analyze the point cloud data. Those techniques lead to quantization artifacts and do not consider the relationship between the regression response and the point cloud during pre-processing. Therefore, we propose a general and holistic "Bayesian Nonlinear Tensor Learning and Modeler" (ANTLER) to model the relationship of unstructured, varying-size point cloud data with a scalar or multivariate response. The proposed ANTLER simultaneously optimizes a nonlinear tensor dimensionality reduction and a nonlinear regression model with a 3D point cloud input and a scalar or multivariate response. ANTLER has the ability to consider the complex data representation, high-dimensionality, and inconsistent size of the 3D point cloud data.
翻訳日:2022-03-01 14:49:36 公開日:2022-02-25
# ネットワークトランスを用いた自己監視・解釈可能な異常検出

Self-Supervised and Interpretable Anomaly Detection using Network Transformers ( http://arxiv.org/abs/2202.12997v1 )

ライセンス: Link先を確認
Daniel L. Marino, Chathurika S. Wickramasinghe, Craig Rieger, Milos Manic(参考訳) コンピュータネットワークにおけるトラフィックの監視は、サイバー攻撃に対する重要なインフラストラクチャを守るための重要なアプローチの1つだ。 機械学習(ML)とディープニューラルネットワーク(DNN)は、コンピュータネットワーク内の異常を識別するツールとして過去に提案されている。 これらの異常を検出することは攻撃の兆候を与えるが、異常を検出するだけでは、ユーザが異常を理解するのに十分な情報ではない。 オフザシェルフMLモデルのブラックボックスの性質は、障害/攻撃源を分離し、補正措置をとるために基本となる重要な情報を抽出することを防ぐ。 本稿では,通信ネットワークのグラフ構造を組み込んだ異常検出用DNNモデルであるNetwork Transformer(NeT)について述べる。 提案されたアプローチには次のような利点がある。 1) コンピュータネットワークのグラフ構造を組み込むことによる解釈性の向上 2) 異なるレベルの粒度の分析を可能にする階層的な特徴セットを提供する。 3)ラベル付きデータを必要としない自己指導型トレーニング。 提案手法は,産業制御システム(ICS)における異常検出成功の評価により検証された。 提案手法は,サイバーネットワークの動作解析のためのデータ駆動階層的アプローチを提供し,異常,影響を受けるデバイス,異常を引き起こす特定の接続を同定することに成功した。

Monitoring traffic in computer networks is one of the core approaches for defending critical infrastructure against cyber attacks. Machine Learning (ML) and Deep Neural Networks (DNNs) have been proposed in the past as a tool to identify anomalies in computer networks. Although detecting these anomalies provides an indication of an attack, just detecting an anomaly is not enough information for a user to understand the anomaly. The black-box nature of off-the-shelf ML models prevents extracting important information that is fundamental to isolate the source of the fault/attack and take corrective measures. In this paper, we introduce the Network Transformer (NeT), a DNN model for anomaly detection that incorporates the graph structure of the communication network in order to improve interpretability. The presented approach has the following advantages: 1) enhanced interpretability by incorporating the graph structure of computer networks; 2) provides a hierarchical set of features that enables analysis at different levels of granularity; 3) self-supervised training that does not require labeled data. The presented approach was tested by evaluating the successful detection of anomalies in an Industrial Control System (ICS). The presented approach successfully identified anomalies, the devices affected, and the specific connections causing the anomalies, providing a data-driven hierarchical approach to analyze the behavior of a cyber network.
翻訳日:2022-03-01 14:49:02 公開日:2022-02-25
# 医療応用のための統合型マルチモーダル人工知能フレームワーク

Integrated multimodal artificial intelligence framework for healthcare applications ( http://arxiv.org/abs/2202.12998v1 )

ライセンス: Link先を確認
Luis R. Soenksen, Yu Ma, Cynthia Zeng, Leonard D.J. Boussioux, Kimberly Villalobos Carballo, Liangyuan Na, Holly M. Wiberg, Michael L. Li, Ignacio Fuentes, Dimitris Bertsimas(参考訳) 人工知能(AI)システムは今後数十年にわたって医療を改善することを約束している。 具体的には、複数のデータソースと入力モダリティを活用するAIシステムは、より正確な結果を提供するための実行可能な方法になり、幅広いアプリケーションにわたってパイプラインをデプロイできるようになります。 本研究では,マルチモーダル入力を利用するAIシステムの生成とテストを容易にするために,統合されたHolistic AI in Medicine(HAIM)フレームワークを提案し,評価する。 このアプローチでは、一般化可能なデータ前処理と機械学習モデリングステージを使用し、医療環境における研究やデプロイメントに容易に適応できる。 我々は,7,279個のユニークな入院患者と6,485人の患者を含むマルチモーダル臨床データベース(n=34,537例),4種類のデータモダリティ(表,時系列,テキスト,画像など),11種類のユニークなデータソースと12の予測タスクを含む,14,324個の独立したモデルを訓練し,特徴付けすることで,haimフレームワークを評価した。 このフレームワークは、様々な医療実演(6~33%)で類似の単一ソースアプローチを上回る、一貫して堅牢にモデルを作成できることを示し、胸部病理診断10例と、長期生存と48時間の死亡予測を行った。 また,shapley値を用いて各モダリティとデータソースの寄与度を定量化し,データ型の重要性の多様性と,さまざまな医療関連タスクにまたがるマルチモーダル入力の必要性を示す。 当社のHolistic AI in Medicine(HAIM)フレームワークの一般化可能な特性と柔軟性は、臨床および手術医療設定における将来のマルチモーダル予測システムにとって有望な経路を提供する可能性がある。

Artificial intelligence (AI) systems hold great promise to improve healthcare over the next decades. Specifically, AI systems leveraging multiple data sources and input modalities are poised to become a viable method to deliver more accurate results and deployable pipelines across a wide range of applications. In this work, we propose and evaluate a unified Holistic AI in Medicine (HAIM) framework to facilitate the generation and testing of AI systems that leverage multimodal inputs. Our approach uses generalizable data pre-processing and machine learning modeling stages that can be readily adapted for research and deployment in healthcare environments. We evaluate our HAIM framework by training and characterizing 14,324 independent models based on MIMIC-IV-MM, a multimodal clinical database (N=34,537 samples) containing 7,279 unique hospitalizations and 6,485 patients, spanning all possible input combinations of 4 data modalities (i.e., tabular, time-series, text and images), 11 unique data sources and 12 predictive tasks. We show that this framework can consistently and robustly produce models that outperform similar single-source approaches across various healthcare demonstrations (by 6-33%), including 10 distinct chest pathology diagnoses, along with length-of-stay and 48-hour mortality predictions. We also quantify the contribution of each modality and data source using Shapley values, which demonstrates the heterogeneity in data type importance and the necessity of multimodal inputs across different healthcare-relevant tasks. The generalizable properties and flexibility of our Holistic AI in Medicine (HAIM) framework could offer a promising pathway for future multimodal predictive systems in clinical and operational healthcare settings.
翻訳日:2022-03-01 14:48:44 公開日:2022-02-25
# CAKE: マルチビュー知識グラフ補完のためのスケーラブルなCommonsense-Awareフレームワーク

CAKE: A Scalable Commonsense-Aware Framework For Multi-View Knowledge Graph Completion ( http://arxiv.org/abs/2202.13785v1 )

ライセンス: Link先を確認
Guanglin Niu, Bo Li, Yongfei Zhang, Shiliang Pu(参考訳) 知識グラフは、必然的に不完全である間に、多数の実数三重を格納する。 これまでの知識グラフ補完(KGC)モデルは、ファクトビューデータにのみ依存するエンティティ間の欠落を予測し、貴重なコモンセンス知識を無視した。 従来の知識グラフ埋め込み(KGE)技術は、不正なネガティブサンプリングとファクトビューリンク予測の不確実性に悩まされ、KGCの性能が制限された。 上記の課題に対処するため、我々は、現実の三重項から実体概念を自動抽出する、新しくスケーラブルなCommonsense-Aware Knowledge Embedding (CAKE)フレームワークを提案する。 生成したコモンセンスは、高品質なネガティブサンプリング(NS)と共同コモンセンスとファクトビューリンク予測の両方を容易にする効果的な自己スーパービジョンを増強する。 KGC タスクにおける実験結果から,我々のフレームワークを組み立てることによって,元の KGE モデルの性能が向上し,提案する Commonsense-Aware NS モジュールが他の NS 技術よりも優れていることが示された。 さらに,提案するフレームワークは,様々なKGEモデルに容易に適応でき,予測結果を説明できる。

Knowledge graphs store a large number of factual triples while they are still incomplete, inevitably. The previous knowledge graph completion (KGC) models predict missing links between entities merely relying on fact-view data, ignoring the valuable commonsense knowledge. The previous knowledge graph embedding (KGE) techniques suffer from invalid negative sampling and the uncertainty of fact-view link prediction, limiting KGC's performance. To address the above challenges, we propose a novel and scalable Commonsense-Aware Knowledge Embedding (CAKE) framework to automatically extract commonsense from factual triples with entity concepts. The generated commonsense augments effective self-supervision to facilitate both high-quality negative sampling (NS) and joint commonsense and fact-view link prediction. Experimental results on the KGC task demonstrate that assembling our framework could enhance the performance of the original KGE models, and the proposed commonsense-aware NS module is superior to other NS techniques. Besides, our proposed framework could be easily adaptive to various KGE models and explain the predicted results.
翻訳日:2022-03-01 14:26:40 公開日:2022-02-25
# 構造的潜在常微分方程式による動作可能ダイナミクスのキャプチャ

Capturing Actionable Dynamics with Structured Latent Ordinary Differential Equations ( http://arxiv.org/abs/2202.12932v1 )

ライセンス: Link先を確認
Paidamoyo Chapfuwa, Sherri Rose, Lawrence Carin, Edward Meeds, Ricardo Henao(参考訳) ニューラル常微分方程式(ODE)のようなブラックボックスモデルを用いた力学系のエンドツーエンド学習は、力学の数学的モデルを記述することなく、データから力学を学習するための柔軟なフレームワークを提供する。 残念ながら、この柔軟性は、ODEがユビキタスに使用される動的システムを理解するコストが伴う。 さらに、処理などの様々な条件(入力)で実験データを収集したり、サブ人口の一部など何らかの方法でグループ化したりする。 これらのシステム入力がシステム出力に与える影響を理解することは、動的システムの有意義なモデルを持つことに不可欠である。 そこで我々は,その潜在表現におけるシステム入力の変動を明示的に捉えた構造的潜在odeモデルを提案する。 静的な潜在変数仕様に基づいて,システムへの入力毎に変動の(独立な)確率的要因を学習し,潜在空間におけるシステム入力の効果を分離する。 このアプローチは、新しい入力の組み合わせ(あるいは摂動)のための時系列データの生成を制御することによって、アクション可能なモデリングを提供する。 さらに,不確実性を定量化するための柔軟な手法を提案する。 生体データセットに挑戦する実験結果は、観測データの制御された生成における競合ベースラインよりも一貫した改善と、生物学的に有意義なシステム入力の予測を示す。

End-to-end learning of dynamical systems with black-box models, such as neural ordinary differential equations (ODEs), provides a flexible framework for learning dynamics from data without prescribing a mathematical model for the dynamics. Unfortunately, this flexibility comes at the cost of understanding the dynamical system, for which ODEs are used ubiquitously. Further, experimental data are collected under various conditions (inputs), such as treatments, or grouped in some way, such as part of sub-populations. Understanding the effects of these system inputs on system outputs is crucial to have any meaningful model of a dynamical system. To that end, we propose a structured latent ODE model that explicitly captures system input variations within its latent representation. Building on a static latent variable specification, our model learns (independent) stochastic factors of variation for each input to the system, thus separating the effects of the system inputs in the latent space. This approach provides actionable modeling through the controlled generation of time-series data for novel input combinations (or perturbations). Additionally, we propose a flexible approach for quantifying uncertainties, leveraging a quantile regression formulation. Experimental results on challenging biological datasets show consistent improvements over competitive baselines in the controlled generation of observational data and prediction of biologically meaningful system inputs.
翻訳日:2022-03-01 14:18:07 公開日:2022-02-25
# 確率的変分推論を伴う一般化ガウス過程潜在変数モデル(GPLVM)

Generalised Gaussian Process Latent Variable Models (GPLVM) with Stochastic Variational Inference ( http://arxiv.org/abs/2202.12979v1 )

ライセンス: Link先を確認
Vidhi Lalchand, Aditya Ravuri, Neil D. Lawrence(参考訳) ガウス過程潜在変数モデル(英: Gaussian process latent variable model, GPLVM)は、古典ガウス過程を教師なし学習コンテキストに拡張する、次元還元に対する柔軟で非線形なアプローチである。 gplvm titsias and lawrence, 2010] のベイズ的インカーネーションは変分的枠組み(英語版)を用いており、後方の潜伏変数は十分に整備された変分族(英語版)によって近似される。 しかし、下限の非リファクタリング能力は本当にスケーラブルな推論を妨げます。 本研究では,ミニバッチ訓練によるベイズ型gplvmモデルの二重確率的定式化について検討する。 このフレームワークが、異なる潜在変数の定式化とどのように互換性を持つかを示し、モデルの組を比較する実験を行う。 さらに,欠落したデータの存在下でのトレーニングを行い,高忠実度再構築を実現する方法を示す。 我々は,高次元データ例に対して標準sparse gplvmをベンチマークすることにより,モデルの性能を実証する。

Gaussian process latent variable models (GPLVM) are a flexible and non-linear approach to dimensionality reduction, extending classical Gaussian processes to an unsupervised learning context. The Bayesian incarnation of the GPLVM Titsias and Lawrence, 2010] uses a variational framework, where the posterior over latent variables is approximated by a well-behaved variational family, a factorized Gaussian yielding a tractable lower bound. However, the non-factories ability of the lower bound prevents truly scalable inference. In this work, we study the doubly stochastic formulation of the Bayesian GPLVM model amenable with minibatch training. We show how this framework is compatible with different latent variable formulations and perform experiments to compare a suite of models. Further, we demonstrate how we can train in the presence of massively missing data and obtain high-fidelity reconstructions. We demonstrate the model's performance by benchmarking against the canonical sparse GPLVM for high-dimensional data examples.
翻訳日:2022-03-01 14:17:46 公開日:2022-02-25
# 小群最適腕を用いた非定常バンディットとメタラーニング

Non-stationary Bandits and Meta-Learning with a Small Set of Optimal Arms ( http://arxiv.org/abs/2202.13001v1 )

ライセンス: Link先を確認
MohammadJavad Azizi, Thang Duong, Yasin Abbasi-Yadkori, Andr\'as Gy\"orgy, Claire Vernade, Mohammad Ghavamzadeh(参考訳) 学習者がk$-armed確率的バンディットタスクのシーケンスに直面する逐次的決定問題について検討する。 タスクは敵が設計することもあるが、敵は各タスクの最適なアームをM$アームより小さい(不明)サブセットで選択することを制約される。 タスク境界は既知のもの(ビジット・メタラーニング・セッティング)、未知のもの(ビジット・メタラーニング・セッティング)、およびタスク数$N$、ラウンド数$T$が知られている(メタラーニング・セッティングではN$が未知のもの)。 我々は,帯域幅の極大化を減らしたアルゴリズムを設計し,非定常帯域幅問題のために設計された標準アルゴリズムを用いて得られる$\tilde{O}(\sqrt{KNT})$の単純なベースラインよりも,両方の設定における後悔が小さいことを示す。 固定タスク長$\tau$のバンドイットメタ学習問題に対して、アルゴリズムの後悔は$\tilde{O}(N\sqrt{M \tau}+N^{2/3})$と有界であることを示す。 各タスクにおける最適なアームの識別可能性に関する追加の仮定の下で、$\tilde{o}(n\sqrt{m \tau}+n^{1/2})$ regret を改良したバンドイットメタラーニングアルゴリズムを示す。

We study a sequential decision problem where the learner faces a sequence of $K$-armed stochastic bandit tasks. The tasks may be designed by an adversary, but the adversary is constrained to choose the optimal arm of each task in a smaller (but unknown) subset of $M$ arms. The task boundaries might be known (the bandit meta-learning setting), or unknown (the non-stationary bandit setting), and the number of tasks $N$ as well as the total number of rounds $T$ are known ($N$ could be unknown in the meta-learning setting). We design an algorithm based on a reduction to bandit submodular maximization, and show that its regret in both settings is smaller than the simple baseline of $\tilde{O}(\sqrt{KNT})$ that can be obtained by using standard algorithms designed for non-stationary bandit problems. For the bandit meta-learning problem with fixed task length $\tau$, we show that the regret of the algorithm is bounded as $\tilde{O}(N\sqrt{M \tau}+N^{2/3})$. Under additional assumptions on the identifiability of the optimal arms in each task, we show a bandit meta-learning algorithm with an improved $\tilde{O}(N\sqrt{M \tau}+N^{1/2})$ regret.
翻訳日:2022-03-01 14:17:26 公開日:2022-02-25
# スペクトルグラフ表現学習のための符号・基底不変ネットワーク

Sign and Basis Invariant Networks for Spectral Graph Representation Learning ( http://arxiv.org/abs/2202.13013v1 )

ライセンス: Link先を確認
Derek Lim, Joshua Robinson, Lingxiao Zhao, Tess Smidt, Suvrit Sra, Haggai Maron, Stefanie Jegelka(参考訳) 多くの機械学習タスクは、データから派生した固有ベクトルを処理する。 グラフやその他の幾何学的対象に関する有用な構造情報をキャプチャするラプラシア固有ベクトルが特に有用である。 しかし、固有ベクトルを計算すると曖昧さが生じる: 各固有ベクトル $v$ に対して、フリップされた$-v$ も固有ベクトルである。 より一般に、高次元固有空間は基底固有ベクトルの無限個の選択を含む。 これらの曖昧さは固有ベクトルと固有空間を一貫した方法で処理することを困難にしている。 In this work we introduce SignNet and BasisNet -- new neural architectures that are invariant to all requisite symmetries and hence process collections of eigenspaces in a principled manner. Our networks are universal, i.e., they can approximate any continuous function of eigenvectors with the proper invariances. They are also theoretically strong for graph representation learning -- they can approximate any spectral graph convolution, can compute spectral invariants that go beyond message passing neural networks, and can provably simulate previously proposed graph positional encodings. スペクトルグラフフィルタとグラフ位置符号化の学習におけるネットワークの強みを示す実験を行った。

Many machine learning tasks involve processing eigenvectors derived from data. Especially valuable are Laplacian eigenvectors, which capture useful structural information about graphs and other geometric objects. However, ambiguities arise when computing eigenvectors: for each eigenvector $v$, the sign flipped $-v$ is also an eigenvector. More generally, higher dimensional eigenspaces contain infinitely many choices of basis eigenvectors. These ambiguities make it a challenge to process eigenvectors and eigenspaces in a consistent way. In this work we introduce SignNet and BasisNet -- new neural architectures that are invariant to all requisite symmetries and hence process collections of eigenspaces in a principled manner. Our networks are universal, i.e., they can approximate any continuous function of eigenvectors with the proper invariances. They are also theoretically strong for graph representation learning -- they can approximate any spectral graph convolution, can compute spectral invariants that go beyond message passing neural networks, and can provably simulate previously proposed graph positional encodings. Experiments show the strength of our networks for learning spectral graph filters and learning graph positional encodings.
翻訳日:2022-03-01 14:16:56 公開日:2022-02-25
# sticky mittensによる探究: オプションテンプレートによるエキスパート介入による強化学習

Exploring with Sticky Mittens: Reinforcement Learning with Expert Interventions via Option Templates ( http://arxiv.org/abs/2202.12967v1 )

ライセンス: Link先を確認
Souradeep Dutta, Kaustubh Sridhar, Osbert Bastani, Edgar Dobriban, James Weimer, Insup Lee, Julia Parish-Morris(参考訳) 少ない報酬と長い地平線を持つ環境は、現在の強化学習アルゴリズムに重大な課題をもたらす。 人間が困難なコントロールタスクを学習できる重要な特徴は、低レベルのコントロールアクションをマスターする前に、タスクの高レベルの構造を理解するための専門家の介入をしばしば受けられることである。 本稿では,長期強化学習課題の解決に専門家の介入を活用する枠組みを提案する。 我々は、強化学習を用いてトレーニング可能な潜在的オプションを符号化する仕様であるオプションテンプレートを検討する。 エージェントが実装を学ぶ前にオプションテンプレートを実行できるように、専門家の介入を定式化する。 これにより、学習に高価なリソースを投入する前に、オプションを使用できるようになる。 本研究では,3つの強化学習問題に対するアプローチを評価した結果,最先端のアプローチを桁違いに上回る結果となった。 Project website at https://sites.google .com/view/stickymitt ens

Environments with sparse rewards and long horizons pose a significant challenge for current reinforcement learning algorithms. A key feature enabling humans to learn challenging control tasks is that they often receive expert intervention that enables them to understand the high-level structure of the task before mastering low-level control actions. We propose a framework for leveraging expert intervention to solve long-horizon reinforcement learning tasks. We consider option templates, which are specifications encoding a potential option that can be trained using reinforcement learning. We formulate expert intervention as allowing the agent to execute option templates before learning an implementation. This enables them to use an option, before committing costly resources to learning it. We evaluate our approach on three challenging reinforcement learning problems, showing that it outperforms state of-the-art approaches by an order of magnitude. Project website at https://sites.google .com/view/stickymitt ens
翻訳日:2022-03-01 13:32:25 公開日:2022-02-25
# 大規模会議における論文とレビュアーのマッチング

Matching Papers and Reviewers at Large Conferences ( http://arxiv.org/abs/2202.12273v2 )

ライセンス: Link先を確認
Kevin Leyton-Brown and Mausam and Yatin Nandwani and Hedayat Zarkoob and Chris Cameron and Neil Newman and Dinesh Raghu(参考訳) 本稿では,第35回AAAI AI Conference on Artificial Intelligence (AAAI 2021) に展開され,AAAI 2022 や ICML 2022 など他のカンファレンスにも採用されている,新たなレビュアーペーパーマッチング手法について検討する。 本手法は,(1)問題のあるマッチングを識別し,レビュア紙スコアを生成するための入力データの収集と処理,(2)優れたレビュア紙マッチングを見つけるための最適化問題の定式化と解決,(3)拒絶される可能性のある論文から決定境界に近い論文へリソースを移行させる新たな2段階レビュープロセスの導入,の3つの要素を有する。 本稿では,AAAI の以前の (2020) イテレーションで使用されるマッチングアルゴリズムとの比較を含む,実データに対する広範なポストホック解析に基づくこれらのイノベーションの評価を行い,これを追加の数値実験で補足する。

This paper studies a novel reviewer-paper matching approach that was recently deployed in the 35th AAAI Conference on Artificial Intelligence (AAAI 2021), and has since been adopted by other conferences including AAAI 2022 and ICML 2022. This approach has three main elements: (1) collecting and processing input data to identify problematic matches and generate reviewer-paper scores; (2) formulating and solving an optimization problem to find good reviewer-paper matchings; and (3) the introduction of a novel, two-phase reviewing process that shifted reviewing resources away from papers likely to be rejected and towards papers closer to the decision boundary. This paper also describes an evaluation of these innovations based on an extensive post-hoc analysis on real data -- including a comparison with the matching algorithm used in AAAI's previous (2020) iteration -- and supplements this with additional numerical experimentation.
翻訳日:2022-03-01 10:14:28 公開日:2022-02-25
# (参考訳) ディープニューラルネットワークを用いた時系列データの長期欠落値計算 [全文訳有]

Long-Term Missing Value Imputation for Time Series Data Using Deep Neural Networks ( http://arxiv.org/abs/2202.12441v1 )

ライセンス: CC BY 4.0
Jangho Park, Juliane Muller, Bhavna Arora, Boris Faybishenko, Gilberto Pastorello, Charuleka Varadharajan, Reetik Sahu, Deborah Agarwal(参考訳) 本稿では,多変量時系列データ中の変数の欠落値を推定するために,ディープラーニングモデル,特にMultiLayer Perceptron(MLP)を用いたアプローチを提案する。 我々は、ランダムに欠落した個々の観察よりも、長い連続的なギャップ(例えば、日々の観察の欠如など)を埋めることに注力する。 提案アルゴリズムは,最適MLPモデルアーキテクチャを決定する自動手法を用いて,与えられた時系列に対して最適な予測性能を実現する。 我々は, 地下水位, 土壌水分量, 時間毎の生態系交換など, 時系列特性の異なる3つの環境データセットにおいて, 様々な長さ(3ヶ月から3年)の隙間を埋めて実験を行った。 本研究は,r-based time series gap fill method imputets と mtsdi を用いて得られたgap-filled valueの精度を比較検討した。 その結果,大きなギャップを埋めるためにMLPを用いることで,特にデータを非線形に振る舞う場合,より良い結果が得られることがわかった。 したがって,このアプローチでは,長期的環境モニタリング観測に共通する1つの変数に大きなギャップを持つデータセットの利用が可能となる。

We present an approach that uses a deep learning model, in particular, a MultiLayer Perceptron (MLP), for estimating the missing values of a variable in multivariate time series data. We focus on filling a long continuous gap (e.g., multiple months of missing daily observations) rather than on individual randomly missing observations. Our proposed gap filling algorithm uses an automated method for determining the optimal MLP model architecture, thus allowing for optimal prediction performance for the given time series. We tested our approach by filling gaps of various lengths (three months to three years) in three environmental datasets with different time series characteristics, namely daily groundwater levels, daily soil moisture, and hourly Net Ecosystem Exchange. We compared the accuracy of the gap-filled values obtained with our approach to the widely-used R-based time series gap filling methods ImputeTS and mtsdi. The results indicate that using an MLP for filling a large gap leads to better results, especially when the data behave nonlinearly. Thus, our approach enables the use of datasets that have a large gap in one variable, which is common in many long-term environmental monitoring observations.
翻訳日:2022-03-01 00:22:34 公開日:2022-02-25
# (参考訳) ニューラルネットワークのための人間中心概念説明 [全文訳有]

Human-Centered Concept Explanations for Neural Networks ( http://arxiv.org/abs/2202.12451v1 )

ライセンス: CC BY 4.0
Chih-Kuan Yeh, Been Kim, Pradeep Ravikumar(参考訳) 深いニューラルネットワークのような複雑な機械学習モデルを理解することは、様々なアプリケーションにおいて不可欠である。 多くの説明はモデルの観点からおり、なぜモデルが正しい抽象レベルで予測をしているのかを必ずしも効果的に伝えるわけではない。 例えば、画像内の個々のピクセルに重みを与えると、その画像のどの部分がモデルにとって重要であるかしか表現できないが、人間は概念に基づく思考による予測を説明する説明を好むかもしれない。 本稿では,概念に基づく説明の新たな領域について概説する。 まず、神経活性化の適切な空間におけるベクトルを用いた概念を特徴付ける概念活性化ベクトル(CAV)のクラスを含む概念説明を導入し、有用な概念の異なる性質、概念ベクトルの有用性を測定するアプローチについて議論する。 次に、概念を自動的に抽出するアプローチと、それらの注意事項に対処するアプローチについて論じる。 最後に,合成設定や実世界アプリケーションにおける概念に基づく説明の有用性を示すケーススタディについて考察する。

Understanding complex machine learning models such as deep neural networks with explanations is crucial in various applications. Many explanations stem from the model perspective, and may not necessarily effectively communicate why the model is making its predictions at the right level of abstraction. For example, providing importance weights to individual pixels in an image can only express which parts of that particular image are important to the model, but humans may prefer an explanation which explains the prediction by concept-based thinking. In this work, we review the emerging area of concept based explanations. We start by introducing concept explanations including the class of Concept Activation Vectors (CAV) which characterize concepts using vectors in appropriate spaces of neural activations, and discuss different properties of useful concepts, and approaches to measure the usefulness of concept vectors. We then discuss approaches to automatically extract concepts, and approaches to address some of their caveats. Finally, we discuss some case studies that showcase the utility of such concept-based explanations in synthetic settings and real world applications.
翻訳日:2022-03-01 00:02:57 公開日:2022-02-25
# (参考訳) APEACH: 群衆生成ヘイトスピーチ評価データセットの分析による音声表現の攻撃 [全文訳有]

APEACH: Attacking Pejorative Expressions with Analysis on Crowd-Generated Hate Speech Evaluation Datasets ( http://arxiv.org/abs/2202.12459v1 )

ライセンス: CC BY-SA 4.0
Kichang Yang, Wonjun Jang, Won Ik Cho(参考訳) オンラインコミュニティにおける有害あるいは有害な表現の検出は、ユーザの精神的危害を防止するための主要な関心事の1つとなっている。 これにより、様々なドメインの大規模ヘイトスピーチ検出データセットが開発され、主に群衆労働者によるラベル付きウェブクローリングされたテキスト上に構築された。 しかし、英語以外の言語では、ヘイトスピーチ検出のデータ駆動型研究が欠如しているため、研究者は小規模コーパスのみに頼る必要がある。 これは、plmがしばしば事前学習コーパスの領域を評価セットと共有し、その結果、検出性能が過剰に表現されるため、bertのような事前学習済み言語モデル(plm)の評価を誤解することがある。 また、データセットが単一のドメインテキストで構築されている場合、ペジョラティブ式の範囲は制限される可能性がある。 韓国のヘイトスピーチ検出における上記の問題を緩和するために,未特定ユーザによるヘイトスピーチの収集を可能にするAPEACHを提案する。 ヘイトスピーチの群集生成を制御し,最小限のポストラベルのみを追加することにより,テキスト領域とトピックに関するヘイトスピーチ検出の一般化と公平な評価を可能にするコーパスを作成する。 我々は,公開plmを用いたアノテーションに基づく有毒ニュースコメントデータセットの先行研究と比較した。 我々のデータセットは、評価セットとPLMの事前学習コーパス間の語彙的重複に敏感でないことを確認し、モデル性能の予期せぬ過小評価を緩和するのに役立つことを示す。 我々は,韓国の一般ドメインヘイトスピーチ検出を容易にするために,データセットをオンラインで公開する。

Detecting toxic or pejorative expressions in online communities has become one of the main concerns for preventing the users' mental harm. This led to the development of large-scale hate speech detection datasets of various domains, which are mainly built upon web-crawled texts with labels by crowd workers. However, for languages other than English, researchers might have to rely on only a small-sized corpus due to the lack of data-driven research of hate speech detection. This sometimes misleads the evaluation of prevalently used pretrained language models (PLMs) such as BERT, given that PLMs often share the domain of pretraining corpus with the evaluation set, resulting in over-representation of the detection performance. Also, the scope of pejorative expressions might be restricted if the dataset is built on a single domain text. To alleviate the above problems in Korean hate speech detection, we propose APEACH,a method that allows the collection of hate speech generated by unspecified users. By controlling the crowd-generation of hate speech and adding only a minimum post-labeling, we create a corpus that enables the generalizable and fair evaluation of hate speech detection regarding text domain and topic. We Compare our outcome with prior work on an annotation-based toxic news comment dataset using publicly available PLMs. We check that our dataset is less sensitive to the lexical overlap between the evaluation set and pretraining corpus of PLMs, showing that it helps mitigate the unexpected under/over-represent ation of model performance. We distribute our dataset publicly online to further facilitate the general-domain hate speech detection in Korean.
翻訳日:2022-02-28 23:43:37 公開日:2022-02-25
# (参考訳) LinkedIn Ad Marketplaceにおけるバイディングエージェント設計 [全文訳有]

Bidding Agent Design in the LinkedIn Ad Marketplace ( http://arxiv.org/abs/2202.12472v1 )

ライセンス: CC BY 4.0
Yuan Gao, Kaiyu Yang, Yuanlong Chen, Min Liu, Noureddine El Karoui(参考訳) 動的オンラインマーケットプレースにおける自動入札エージェントの設計のための汎用最適化フレームワークを構築した。 購入者の利益のためにのみ最適化され、販売者によって課されるオークションメカニズムに依存しない。 結果として、このフレームワークは、例えば、複数のプラットフォームにまたがる広告のグループを、それぞれ独自のオークションフォーマットで共同で最適化することができる。 このフレームワークから派生した入札戦略は、広告ユニットとプラットフォーム間の予算配分の最適性を自動的に保証する。 予算納付スケジュール、投資のリターン、保証結果などの一般的な制約は、入札公式の追加パラメータに直接変換される。 このフレームワークに基づいたLinkedInの広告マーケットプレースで、デプロイされた入札システムの実践的な学習を共有します。

We establish a general optimization framework for the design of automated bidding agent in dynamic online marketplaces. It optimizes solely for the buyer's interest and is agnostic to the auction mechanism imposed by the seller. As a result, the framework allows, for instance, the joint optimization of a group of ads across multiple platforms each running its own auction format. Bidding strategy derived from this framework automatically guarantees the optimality of budget allocation across ad units and platforms. Common constraints such as budget delivery schedule, return on investments and guaranteed results, directly translates to additional parameters in the bidding formula. We share practical learnings of the deployed bidding system in the LinkedIn ad marketplace based on this framework.
翻訳日:2022-02-28 23:30:32 公開日:2022-02-25
# (参考訳) 自己遠絡を用いた構造認識型教師なしTagged-to-Cine MRI合成 [全文訳有]

Structure-aware Unsupervised Tagged-to-Cine MRI Synthesis with Self Disentanglement ( http://arxiv.org/abs/2202.12474v1 )

ライセンス: CC BY 4.0
Xiaofeng Liu, Fangxu Xing, Jerry L. Prince, Maureen Stone, Georges El Fakhri, Jonghye Woo(参考訳) cycle reconstruction regularized adversarial training(サイクリングガン、ディスコガン、デュアルガンなど)は、非ペアトレーニングデータを用いた画像スタイル転送に広く使われている。 しかし、最近のいくつかの研究は局所的な歪みが頻繁であり、構造的整合性は保証できないことを示した。 この問題をターゲットにして、事前の作業は通常、タスク固有の追加のセグメンテーションや一貫性のある機能抽出ステップに依存する。 本研究の目的は、入力と合成画像との間の構造的アライメントを明示的に強制することにより、一般的なアドオン構造特徴抽出器を学習することである。 具体的には, 基礎となる解剖学的構造と画像モダリティの不一致を解消するために, 入力出力画像パッチの自己学習方式を提案する。 トランスレータと構造エンコーダは、交互トレーニングプロトコルに従って更新される。 また、非対称対角ゲームにより、画像モダリティに関する情報w.r.t.を排除できる。 1,768名,416名,および1,560名の被験者非依存スライスを,それぞれ健常者20名からトレーニング,検証,試験を行い,競合法よりも優れた性能を示した。

Cycle reconstruction regularized adversarial training -- e.g., CycleGAN, DiscoGAN, and DualGAN -- has been widely used for image style transfer with unpaired training data. Several recent works, however, have shown that local distortions are frequent, and structural consistency cannot be guaranteed. Targeting this issue, prior works usually relied on additional segmentation or consistent feature extraction steps that are task-specific. To counter this, this work aims to learn a general add-on structural feature extractor, by explicitly enforcing the structural alignment between an input and its synthesized image. Specifically, we propose a novel input-output image patches self-training scheme to achieve a disentanglement of underlying anatomical structures and imaging modalities. The translator and structure encoder are updated, following an alternating training protocol. In addition, the information w.r.t. imaging modality can be eliminated with an asymmetric adversarial game. We train, validate, and test our network on 1,768, 416, and 1,560 unpaired subject-independent slices of tagged and cine magnetic resonance imaging from a total of twenty healthy subjects, respectively, demonstrating superior performance over competing methods.
翻訳日:2022-02-28 23:20:15 公開日:2022-02-25
# (参考訳) 過去から学ぶ:知識蒸留を組み込んだ経験 [全文訳有]

Learn From the Past: Experience Ensemble Knowledge Distillation ( http://arxiv.org/abs/2202.12488v1 )

ライセンス: CC BY 4.0
Chaofei Wang, Shaowei Zhang, Shiji Song, Gao Huang(参考訳) 従来の知識蒸留は,事前学習した教員ネットワークの「暗黒知識」を学生ネットワークに転送し,教師の経験と呼ぶ教師の訓練過程における知識を無視する。 しかし、現実的な教育シナリオでは、学習経験は、しばしば学習結果よりも重要である。 本研究では,教師の知識伝達経験を統合した新しい知識蒸留法であるexperience ensemble knowledge distillation (eekd)を提案する。 教師モデルの学習過程から適度な数の中間モデルを保存するとともに,これらの中間モデルの知識をアンサンブル手法で統合する。 自己アテンションモジュールは、知識伝達の過程で異なる中間モデルに重みを適応的に割り当てるために使用される。 中間モデルの品質,重み,および数に対するEEKD構築の3つの原則について検討する。 意外な結論として、強いアンサンブルの教師が必ずしも強い学生を生み出すとは限らない。 CIFAR-100とImageNetの実験結果は、EEKDが主流の知識蒸留法より優れ、最先端技術を実現していることを示している。 特にEEKDは、トレーニングコストの削減という前提で、標準のアンサンブル蒸留を超越している。

Traditional knowledge distillation transfers "dark knowledge" of a pre-trained teacher network to a student network, and ignores the knowledge in the training process of the teacher, which we call teacher's experience. However, in realistic educational scenarios, learning experience is often more important than learning results. In this work, we propose a novel knowledge distillation method by integrating the teacher's experience for knowledge transfer, named experience ensemble knowledge distillation (EEKD). We save a moderate number of intermediate models from the training process of the teacher model uniformly, and then integrate the knowledge of these intermediate models by ensemble technique. A self-attention module is used to adaptively assign weights to different intermediate models in the process of knowledge transfer. Three principles of constructing EEKD on the quality, weights and number of intermediate models are explored. A surprising conclusion is found that strong ensemble teachers do not necessarily produce strong students. The experimental results on CIFAR-100 and ImageNet show that EEKD outperforms the mainstream knowledge distillation methods and achieves the state-of-the-art. In particular, EEKD even surpasses the standard ensemble distillation on the premise of saving training cost.
翻訳日:2022-02-28 23:10:22 公開日:2022-02-25
# (参考訳) テクスチャ画像分類のためのモノニックウェーブレット散乱ネットワーク [全文訳有]

Monogenic Wavelet Scattering Network for Texture Image Classification ( http://arxiv.org/abs/2202.12491v1 )

ライセンス: CC BY 4.0
Wai Ho Chak and Naoki Saito(参考訳) 本発明の散乱変換ネットワーク(STN)は、事前定義された畳み込みフィルタと少数の層を除いて、一般的な畳み込みニューラルネットワークと類似した構造を持ち、小さな変形に対して入力信号の堅牢な表現を生成することができる。 標準STNにおける2次元モードウェーブレットフィルタの置き換えにより, モノジェネティックウェーブレットフィルタと非線形率, 平均演算子のカスケードによる2次元テクスチャ画像分類のための新しいモノジェネリックウェーブレット散乱ネットワーク(MWSN)を提案する。 我々のMWSNは,PCAによりさらに圧縮され,分類器に入力される,解釈可能な係数で有用な階層的・方向的特徴を抽出することができる。 CUReTテクスチャ画像データベースを用いて,標準STNよりもMWSNの方が優れた性能を示す。 この性能改善は1次元分析から2次元単原性への自然な拡張によって説明できる。

The scattering transform network (STN), which has a similar structure as that of a popular convolutional neural network except its use of predefined convolution filters and a small number of layers, can generates a robust representation of an input signal relative to small deformations. We propose a novel Monogenic Wavelet Scattering Network (MWSN) for 2D texture image classification through a cascade of monogenic wavelet filtering with nonlinear modulus and averaging operators by replacing the 2D Morlet wavelet filtering in the standard STN. Our MWSN can extract useful hierarchical and directional features with interpretable coefficients, which can be further compressed by PCA and fed into a classifier. Using the CUReT texture image database, we demonstrate the superior performance of our MWSN over the standard STN. This performance improvement can be explained by the natural extension of 1D analyticity to 2D monogenicity.
翻訳日:2022-02-28 22:57:55 公開日:2022-02-25
# (参考訳) PromDA: 低リソースのNLUタスクのためのpromptベースのデータ拡張 [全文訳有]

PromDA: Prompt-based Data Augmentation for Low-Resource NLU Tasks ( http://arxiv.org/abs/2202.12499v1 )

ライセンス: CC BY 4.0
Yufei Wang, Can Xu, Qingfeng Sun, Huang Hu, Chongyang Tao, Xiubo Geng, Daxin Jiang(参考訳) 本稿では,低リソース自然言語理解(NLU)タスクのためのデータ拡張について述べる。 フリーズプレトレーニング言語モデル(PLM)において,小型ソフト・プロンプト(訓練可能なベクトルの集合)のみを訓練するPrompt-based D}ata Augmentation Model(PromDA)を提案する。 これにより、ラベルのないドメイン内のデータを収集する作業が回避され、生成された合成データの質が維持される。 さらに、PromDAは2つの異なるビューを通して合成データを生成し、低品質データをNLUモデルを用いてフィルタリングする。 4つのベンチマーク実験により、PromDAが生成した合成データによりNLUモデルの性能が向上し、非ラベル付きドメインデータを用いた最先端の半教師付きモデルなど、いくつかの競争ベースラインモデルを上回る結果が得られた。 promdaの合成データは、ラベルなしのドメイン内データも補完する。 NLUモデルは、トレーニング用に組み合わせることでさらに改善することができる。

This paper focuses on the Data Augmentation for low-resource Natural Language Understanding (NLU) tasks. We propose Prompt-based D}ata Augmentation model (PromDA) which only trains small-scale Soft Prompt (i.e., a set of trainable vectors) in the frozen Pre-trained Language Models (PLMs). This avoids human effort in collecting unlabeled in-domain data and maintains the quality of generated synthetic data. In addition, PromDA generates synthetic data via two different views and filters out the low-quality data using NLU models. Experiments on four benchmarks show that synthetic data produced by PromDA successfully boost up the performance of NLU models which consistently outperform several competitive baseline models, including a state-of-the-art semi-supervised model using unlabeled in-domain data. The synthetic data from PromDA are also complementary with unlabeled in-domain data. The NLU models can be further improved when they are combined for training.
翻訳日:2022-02-28 22:47:44 公開日:2022-02-25
# (参考訳) 逆設定におけるデータセット透かしの有効性について [全文訳有]

On the Effectiveness of Dataset Watermarking in Adversarial Settings ( http://arxiv.org/abs/2202.12506v1 )

ライセンス: CC BY 4.0
Buse Gul Atli Tekgul, N. Asokan(参考訳) データ駆動の世界では、データセットは重要な経済的価値を構成する。 データの収集とキュレーションに時間と費用を費やしているデータセットオーナは、データセットが許可されていない方法で使用されていないことを保証するインセンティブを与えられる。 このような誤用が発生した場合、データセット所有者は、問題のデータセットの所有権を示すための技術的なメカニズムを必要とする。 データセットのウォーターマーキングは、オーナシップのデモのための1つのアプローチを提供する。 本稿では,機械学習(ML)モデルのトレーニングに使用される(画像)データセットのオーナシップを実証するために,最近提案された放射能データである放射能データについて検討する。 原論文では、放射性データはホワイトボックスの設定に有効であると報告されている。 これは多くのクラスを持つ大規模データセットに当てはまるが、クラス数が低い(\leq 30)$またはクラス毎のサンプル数が低い(\leq 500)$であるようなデータセットでは有効ではない。 また,ホワイトボックス検証がそうでなくても,ブラックボックス検証手法は,本論文で使用するすべてのデータセットに対して有効であることを示す。 この結果から,ホワイトボックス検証の信頼性は,検証プロセス中に直接透かしサンプルを用いることで向上できることを示した。 また,放射能データのロバスト性を評価する必要性についても強調する。 データセットの透かしと比較すると、MLモデル透かしは近年広く研究されている。 しかし、ほとんどのモデル透かし技術はモデル抽出によって打ち破ることができる。 放射能データは,モデル抽出攻撃を効果的に生き残り,モデル抽出に対して頑健なmlモデルオーナシップ検証に使用できる可能性が示唆された。

In a data-driven world, datasets constitute a significant economic value. Dataset owners who spend time and money to collect and curate the data are incentivized to ensure that their datasets are not used in ways that they did not authorize. When such misuse occurs, dataset owners need technical mechanisms for demonstrating their ownership of the dataset in question. Dataset watermarking provides one approach for ownership demonstration which can, in turn, deter unauthorized use. In this paper, we investigate a recently proposed data provenance method, radioactive data, to assess if it can be used to demonstrate ownership of (image) datasets used to train machine learning (ML) models. The original paper reported that radioactive data is effective in white-box settings. We show that while this is true for large datasets with many classes, it is not as effective for datasets where the number of classes is low $(\leq 30)$ or the number of samples per class is low $(\leq 500)$. We also show that, counter-intuitively, the black-box verification technique is effective for all datasets used in this paper, even when white-box verification is not. Given this observation, we show that the confidence in white-box verification can be improved by using watermarked samples directly during the verification process. We also highlight the need to assess the robustness of radioactive data if it were to be used for ownership demonstration since it is an adversarial setting unlike provenance identification. Compared to dataset watermarking, ML model watermarking has been explored more extensively in recent literature. However, most of the model watermarking techniques can be defeated via model extraction. We show that radioactive data can effectively survive model extraction attacks, which raises the possibility that it can be used for ML model ownership verification robust against model extraction.
翻訳日:2022-02-28 22:26:50 公開日:2022-02-25
# (参考訳) RRL:畳み込みニューラルネットワークにおける領域回転層 [全文訳有]

RRL:Regional Rotation Layer in Convolutional Neural Networks ( http://arxiv.org/abs/2202.12509v1 )

ライセンス: CC BY 4.0
Zongbo Hao, Tao Zhang, Mingwang Chen, Kaixu Zhou(参考訳) 近年、畳み込みニューラルネットワーク(CNN)は画像分類や物体検出において非常によく機能しているが、最も先進的なモデルでさえ回転不変性は限られている。 既知の解決策は、トレーニングデータの強化と、回転同変特徴をグローバルに融合させることによる回転不変性の増加である。 これらの方法はトレーニングのワークロードを増やすか、モデルパラメータの数を増やす。 そこで本稿では,既存のネットワークに挿入可能であり,cnnの特徴抽出層に回転不変性を直接組み込むモジュールを提案する。 このモジュールは学習可能なパラメータを持たず、モデルの複雑さを増すことはない。 同時に、アップライトデータをトレーニングすることでのみ、ローテーションされたテストセットで良好に動作させることができる。 これらの利点は、直立したサンプルを得るのが難しい、あるいは目標が方向性を持たない、生物医学や天文学といった分野に適している。 LeNet-5、ResNet-18、micro-yolov3でモジュールを評価すると、素晴らしい結果が得られます。

Convolutional Neural Networks (CNNs) perform very well in image classification and object detection in recent years, but even the most advanced models have limited rotation invariance. Known solutions include the enhancement of training data and the increase of rotation invariance by globally merging the rotation equivariant features. These methods either increase the workload of training or increase the number of model parameters. To address this problem, this paper proposes a module that can be inserted into the existing networks, and directly incorporates the rotation invariance into the feature extraction layers of the CNNs. This module does not have learnable parameters and will not increase the complexity of the model. At the same time, only by training the upright data, it can perform well on the rotated testing set. These advantages will be suitable for fields such as biomedicine and astronomy where it is difficult to obtain upright samples or the target has no directionality. Evaluate our module with LeNet-5, ResNet-18 and tiny-yolov3, we get impressive results.
翻訳日:2022-02-28 22:13:00 公開日:2022-02-25
# (参考訳) ランダム林におけるMUCによる特徴重要度測定と逆解析 [全文訳有]

MUC-driven Feature Importance Measurement and Adversarial Analysis for Random Forest ( http://arxiv.org/abs/2202.12512v1 )

ライセンス: CC BY 4.0
Shucen Ma and Jianqi Shi and Yanhong Huang and Shengchao Qin and Zhe Hou(参考訳) セキュリティクリティカルな分野における機械学習(ML)の広範な採用は、このアプローチの説明可能性を必要とする。 しかし、ランダムフォレスト(RF)のようなMLモデルの理解に関する研究は、まだ幼児期にある。 本研究では,形式的手法と論理的推論を利用して,RFの予測を説明する新しいモデル固有手法を開発する。 提案手法は, 最小不飽和コア(MUC)を中心に, 特徴重要度, 局所的・グローバル的側面, および対向的サンプル分析に関する包括的ソリューションを提供する。 いくつかのデータセットにおける実験結果は、我々の特徴の重要度測定の質を示している。 また, 逆解析が最先端手法より優れていることを示す。 さらに,本手法はユーザ中心のレポートを作成でき,リアルタイムアプリケーションにレコメンデーションを提供するのに役立つ。

The broad adoption of Machine Learning (ML) in security-critical fields demands the explainability of the approach. However, the research on understanding ML models, such as Random Forest (RF), is still in its infant stage. In this work, we leverage formal methods and logical reasoning to develop a novel model-specific method for explaining the prediction of RF. Our approach is centered around Minimal Unsatisfiable Cores (MUC) and provides a comprehensive solution for feature importance, covering local and global aspects, and adversarial sample analysis. Experimental results on several datasets illustrate the high quality of our feature importance measurement. We also demonstrate that our adversarial analysis outperforms the state-of-the-art method. Moreover, our method can produce a user-centered report, which helps provide recommendations in real-life applications.
翻訳日:2022-02-28 22:01:19 公開日:2022-02-25
# (参考訳) TeachAugment:教師の知識を用いたデータ拡張最適化 [全文訳有]

TeachAugment: Data Augmentation Optimization Using Teacher Knowledge ( http://arxiv.org/abs/2202.12513v1 )

ライセンス: CC BY 4.0
Teppei Suzuki(参考訳) データ拡張を目的とした画像変換機能の最適化に関する研究が盛んに行われている。 特に,タスク損失を最大化する探索拡張戦略である逆データ拡張戦略では,多くのタスクに対するモデル一般化が大幅に改善されている。 しかし,既存の手法では,画像特徴を除去する過度に強い変形を避けるために,パラメータチューニングを慎重に行う必要がある。 本稿では,教師モデルを活用することで,注意深いチューニングを必要とせず,情報変換画像をモデルに生成できるTeachAugmentという逆戦略に基づくデータ拡張最適化手法を提案する。 具体的には、拡張された画像がターゲットモデルに逆行し、教師モデルに認識できるように拡張を検索する。 また,検索空間設計を単純化し,勾配法によるデータ拡張の更新を可能にするニューラルネットワークを用いたデータ拡張を提案する。 画像分類,セマンティクスセグメンテーション,教師なし表現学習タスクにおいて,teachaugmentは既存の手法よりも優れていることを示す。

Optimization of image transformation functions for the purpose of data augmentation has been intensively studied. In particular, adversarial data augmentation strategies, which search augmentation maximizing task loss, show significant improvement in the model generalization for many tasks. However, the existing methods require careful parameter tuning to avoid excessively strong deformations that take away image features critical for acquiring generalization. In this paper, we propose a data augmentation optimization method based on the adversarial strategy called TeachAugment, which can produce informative transformed images to the model without requiring careful tuning by leveraging a teacher model. Specifically, the augmentation is searched so that augmented images are adversarial for the target model and recognizable for the teacher model. We also propose data augmentation using neural networks, which simplifies the search space design and allows for updating of the data augmentation using the gradient method. We show that TeachAugment outperforms existing methods in experiments of image classification, semantic segmentation, and unsupervised representation learning tasks.
翻訳日:2022-02-28 21:46:26 公開日:2022-02-25
# (参考訳) アンサンブルに基づく畳み込みニューラルネットワークに基づく新しい手指検出・認識システム [全文訳有]

A Novel Hand Gesture Detection and Recognition system based on ensemble-based Convolutional Neural Network ( http://arxiv.org/abs/2202.12519v1 )

ライセンス: CC BY 4.0
Abir Sen, Tapas Kumar Mishra, Ratnakar Dash(参考訳) 近年,ハンドジェスチャ認識がヒューマンマシンインタラクションの代替手段となっている。 3Dゲーム技術、手話解釈、VR(バーチャルリアリティ)環境、ロボット工学など、幅広い応用分野をカバーしている。 しかし、手の部分の検出はコンピュータビジョンやパターン認識のコミュニティでは難しい課題となっている。 convolutional neural network(cnn)アーキテクチャのようなディープラーニングアルゴリズムは、分類タスクにおいて非常に一般的な選択肢となっているが、cnnアーキテクチャは、予測中の高い分散、問題オーバーフィット、予測エラーなどの問題に苦しめられている。 本稿では,これらの問題を克服するために,CNNに基づくアプローチのアンサンブルについて述べる。 まず、二分しきい値に基づく背景分離法を用いてジェスチャー部分を検出する。 その後、輪郭部を抽出し、手領域を分割する。 その後、画像は3つの個別のCNNモデルに変換され、並列にトレーニングされる。 最後に、CNNモデルの出力スコアを平均化し、最終的な予測のための最適なアンサンブルモデルを構築する。 提案システムを検証するために、赤外線画像と1つの自己構築データセットを含む2つの公開データセット(Dataset-1とDataset-2)が使用されている。 実験結果は,既存の最先端手法と比較し,提案手法が既存手法よりも優れていることを示した。

Nowadays, hand gesture recognition has become an alternative for human-machine interaction. It has covered a large area of applications like 3D game technology, sign language interpreting, VR (virtual reality) environment, and robotics. But detection of the hand portion has become a challenging task in computer vision and pattern recognition communities. Deep learning algorithm like convolutional neural network (CNN) architecture has become a very popular choice for classification tasks, but CNN architectures suffer from some problems like high variance during prediction, overfitting problem and also prediction errors. To overcome these problems, an ensemble of CNN-based approaches is presented in this paper. Firstly, the gesture portion is detected by using the background separation method based on binary thresholding. After that, the contour portion is extracted, and the hand region is segmented. Then, the images have been resized and fed into three individual CNN models to train them in parallel. In the last part, the output scores of CNN models are averaged to construct an optimal ensemble model for the final prediction. Two publicly available datasets (labeled as Dataset-1 and Dataset-2) containing infrared images and one self-constructed dataset have been used to validate the proposed system. Experimental results are compared with the existing state-of-the-art approaches, and it is observed that our proposed ensemble model outperforms other existing proposed methods.
翻訳日:2022-02-28 21:24:35 公開日:2022-02-25
# (参考訳) 無拘束頭部ポーズ推定のための6次元回転表現 [全文訳有]

6D Rotation Representation For Unconstrained Head Pose Estimation ( http://arxiv.org/abs/2202.12555v1 )

ライセンス: CC BY 4.0
Thorsten Hempel and Ahmed A. Abdelrahman and Ayoub Al-Hamadi(参考訳) 本稿では,制約のないエンドツーエンドの頭部ポーズ推定手法を提案する。 そこで本研究では,本研究の真理データに対する回転行列形式を導入し,効率的かつロバストな直接回帰のための連続6次元回転行列表現を提案する。 この方法では, 姿勢予測を狭角に制限し, 良好な結果を得るという従来のアプローチとは対照的に, 完全な回転の出現を学習できる。 さらに,SO(3)多様体の幾何に関して,我々のネットワークをペナルティ化する測地線距離に基づく損失を提案する。 aflw2000とbiwiデータセットの公開実験により,提案手法は他の最先端手法よりも最大20\%高い性能を示した。 トレーニングとテストのコードを、トレーニング済みのモデルとともにオープンソースにしています。

In this paper, we present a method for unconstrained end-to-end head pose estimation. We address the problem of ambiguous rotation labels by introducing the rotation matrix formalism for our ground truth data and propose a continuous 6D rotation matrix representation for efficient and robust direct regression. This way, our method can learn the full rotation appearance which is contrary to previous approaches that restrict the pose prediction to a narrow-angle for satisfactory results. In addition, we propose a geodesic distance-based loss to penalize our network with respect to the SO(3) manifold geometry. Experiments on the public AFLW2000 and BIWI datasets demonstrate that our proposed method significantly outperforms other state-of-the-art methods by up to 20\%. We open-source our training and testing code along with our pre-trained models: https://github.com/t hohemp/6DRepNet.
翻訳日:2022-02-28 21:11:32 公開日:2022-02-25
# (参考訳) 複雑でハイブリッドなaiソリューションを構築する [全文訳有]

Composing Complex and Hybrid AI Solutions ( http://arxiv.org/abs/2202.12566v1 )

ライセンス: CC BY 4.0
Peter Sch\"uller, Jo\~ao Paolo Costeira, James Crowley, Jasmin Grosinger, F\'elix Ingrand, Uwe K\"ockemann, Alessandro Saffiotti, Martin Welss(参考訳) コンピュータ科学のいくつかの分野における進歩は、例えばコンピュータビジョンのOpenCVやロボット工学のROSといった、快適で効率的な実験方法、明確なインターフェース、交換可能なコンポーネントによって実現されてきた。 一般的なAIアプリケーションで上記の機能を実現するためのAcumosシステムの拡張について述べる。 もともとAcumosは、主に機械学習コンポーネントの線形パイプラインを作成するために、通信目的で開発された。 拡張には、gRPC/Protobufインターフェースによるより汎用的なコンポーネントのサポート、制御ループ、サブコンポーネントトポロジ、イベントベースの通信を含むグラフィカルに組み立てられたソリューションの自動オーケストレーション、ユーザインターフェースと共有ストレージ領域を含むソリューションの組み立てに関する規定が含まれています。 デプロイ可能なソリューションとそのインターフェースの例を提供する。 フレームワークはhttp://aiexp.ai4euro pe.eu/でデプロイされ、ソースコードはオープンソースのeclipseプロジェクトとして管理される。

Progress in several areas of computer science has been enabled by comfortable and efficient means of experimentation, clear interfaces, and interchangable components, for example using OpenCV for computer vision or ROS for robotics. We describe an extension of the Acumos system towards enabling the above features for general AI applications. Originally, Acumos was created for telecommunication purposes, mainly for creating linear pipelines of machine learning components. Our extensions include support for more generic components with gRPC/Protobuf interfaces, automatic orchestration of graphically assembled solutions including control loops, sub-component topologies, and event-based communication,and provisions for assembling solutions which contain user interfaces and shared storage areas. We provide examples of deployable solutions and their interfaces. The framework is deployed at http://aiexp.ai4euro pe.eu/ and its source code is managed as an open source Eclipse project.
翻訳日:2022-02-28 21:03:27 公開日:2022-02-25
# (参考訳) マルチインスタンスバッグから因果表現を学ぶ [全文訳有]

Towards Learning Causal Representations from Multi-Instance Bags ( http://arxiv.org/abs/2202.12570v1 )

ライセンス: CC BY 4.0
Weijia Zhang, Xuanhui Zhang, Hanwen Deng, Min-Ling Zhang(参考訳) 人間は、グループレベルのラベルを使って例のグループから興味のある対象を容易に特定できるが、既存の機械学習アルゴリズムのほとんどは、個別にラベル付けされた例からのみ学習することができる。 マルチインスタンス学習(MIL、Multi-Instance Learning)は、インスタンスのグループとして表されるオブジェクトを扱う弱い教師付き学習の一種であり、理論上はグループレベルの監視からインスタンスラベルを予測することができる。 残念ながら、既存のほとんどのMILアルゴリズムはグループラベル予測の性能向上に重点を置いており、正確にインスタンスラベルを予測できない。 本研究では,関心対象に対する因果関係として解釈可能な意味論的意味表現を学習するTargetedMILアルゴリズムを提案する。 推論された表現を利用することで、targetmilはグループレベルラベルからのインスタンスラベル予測に優れている。 各種データセットの質的および定量的評価はTargetedMILの有効性を示す。

Although humans can easily identify the object of interest from groups of examples using group-level labels, most of the existing machine learning algorithms can only learn from individually labeled examples. Multi-instance learning (MIL) is a type of weakly supervised learning that deals with objects represented as groups of instances, and is theoretically capable of predicting instance labels from group-level supervision. Unfortunately, most existing MIL algorithms focus on improving the performances of group label predictions and cannot be used to accurately predict instance labels. In this work, we propose the TargetedMIL algorithm, which learns semantically meaningful representations that can be interpreted as causal to the object of interest. Utilizing the inferred representations, TargetedMIL excels at instance label predictions from group-level labels. Qualitative and quantitative evaluations on various datasets demonstrate the effectiveness of TargetedMIL.
翻訳日:2022-02-28 20:47:45 公開日:2022-02-25
# (参考訳) 自動音声認識のための多言語モデルの検討 [全文訳有]

A Survey of Multilingual Models for Automatic Speech Recognition ( http://arxiv.org/abs/2202.12576v1 )

ライセンス: CC BY 4.0
Hemant Yadav, Sunayana Sitaram(参考訳) 自動音声認識(asr)システムはいくつかの言語で人間ライクな性能を達成しているが、ほとんどの言語は、これらのモデルを訓練するための大きな音声データセットがないため、利用可能なシステムを持っていない。 低リソース言語は、転送学習または同じ多言語モデルで共同で訓練されることにより、高リソース言語の恩恵を受ける可能性がある。 言語間移動の問題は、ASRにおいてよく研究されているが、近年の自己監督学習の進歩は、低リソース言語の性能向上の道筋をたどる多言語ASRモデルで使用されるラベルなし音声データへの道を開いた。 本稿では,言語間移動を念頭に構築された多言語ASRモデルにおける技術の現状を調査する。 多様な言語や技術の研究から多言語モデルを構築するためのベストプラクティスを提示し、オープンな質問を議論し、今後の作業に推奨する。

Although Automatic Speech Recognition (ASR) systems have achieved human-like performance for a few languages, the majority of the world's languages do not have usable systems due to the lack of large speech datasets to train these models. Cross-lingual transfer is an attractive solution to this problem, because low-resource languages can potentially benefit from higher-resource languages either through transfer learning, or being jointly trained in the same multilingual model. The problem of cross-lingual transfer has been well studied in ASR, however, recent advances in Self Supervised Learning are opening up avenues for unlabeled speech data to be used in multilingual ASR models, which can pave the way for improved performance on low-resource languages. In this paper, we survey the state of the art in multilingual ASR models that are built with cross-lingual transfer in mind. We present best practices for building multilingual models from research across diverse languages and techniques, discuss open questions and provide recommendations for future work.
翻訳日:2022-02-28 20:34:56 公開日:2022-02-25
# (参考訳) 電力コスト最小化のための消費予測に基づく大学活動の進化スケジューリング [全文訳有]

Evolutionary scheduling of university activities based on consumption forecasts to minimise electricity costs ( http://arxiv.org/abs/2202.12595v1 )

ライセンス: CC BY 4.0
Julian Ruddick, Evgenii Genov, Luis Ramirez Camargo, Thierry Coosemans, Maarten Messagie(参考訳) 本稿では,大学キャンパスの電力コスト削減を目標とする予測・最適化問題の解法を提案する。 提案手法は,多次元時系列予測と大規模最適化の新しいアプローチを組み合わせたものである。 グラデーションブースティングはモナシュ大学のキャンパスで2020年11月に発生と消費の両方の時系列を予測するために適用される。 消費予測には、トレンドをモデル化し分散を安定化するためにログ変換を用いる。 適用すると、モデル入力に季節性やトレンド機能が追加される。 得られた予測は、大学活動のスケジュール最適化とバッテリ使用のベース負荷として使用される。 最適化の目的は、電力価格とピーク電力関税の両方が、クラス活動とバッテリー使用の負荷によって変化することによる電力コストの最小化と、任意の活動のスケジューリングを行わないことのペナルティを目標とする。 クラス活動のスケジュールは共分散行列適応進化戦略と遺伝的アルゴリズムを用いて進化の最適化によって得られる。 このスケジュールは、各アクティビティの可能な時間を1回ずつテストすることで、ローカル検索を通じて改善される。 バッテリースケジュールは混合整数プログラミング問題として定式化され、Gurobiソルバによって解決される。 IEEEコンペティションで提示された他の6つのメソッドに対して,いずれも混合整数プログラミングとGurobiソルバを使用して,アクティビティとバッテリ使用の両方をスケジュールする2番目のコストを求める。

This paper presents a solution to a predict then optimise problem which goal is to reduce the electricity cost of a university campus. The proposed methodology combines a multi-dimensional time series forecast and a novel approach to large-scale optimization. Gradient-boosting method is applied to forecast both generation and consumption time-series of the Monash university campus for the month of November 2020. For the consumption forecasts we employ log transformation to model trend and stabilize variance. Additional seasonality and trend features are added to the model inputs when applicable. The forecasts obtained are used as the base load for the schedule optimisation of university activities and battery usage. The goal of the optimisation is to minimize the electricity cost consisting of the price of electricity and the peak electricity tariff both altered by the load from class activities and battery use as well as the penalty of not scheduling some optional activities. The schedule of the class activities is obtained through evolutionary optimisation using the covariance matrix adaptation evolution strategy and the genetic algorithm. This schedule is then improved through local search by testing possible times for each activity one-by-one. The battery schedule is formulated as a mixed-integer programming problem and solved by the Gurobi solver. This method obtains the second lowest cost when evaluated against 6 other methods presented at an IEEE competition that all used mixed-integer programming and the Gurobi solver to schedule both the activities and the battery use.
翻訳日:2022-02-28 20:18:37 公開日:2022-02-25
# (参考訳) neorlネットワークに向けて : 沈み込みグラフの出現 [全文訳有]

Towards neoRL networks; the emergence of purposive graphs ( http://arxiv.org/abs/2202.12622v1 )

ライセンス: CC BY 4.0
Per R. Leikanger(参考訳) neorl framework for purposive aiは、異なる状態に対する操作的欲求を表現する一般値関数(gvf)を用いて、エミュレートされた認知マップによる潜在学習を実装している。 エージェントの報酬期待は、考慮された空間における学習予測として表現され、ネオRLエージェントは、学習されたマップから報酬仮説に従ってパーポーブな振る舞いを抽出することができる。 ニューロRL加群を入力として、状態作用Q値を出力として、ネットワーク内のノードとして検討し、ユークリッド的意味を持つ作用集合は、状態作用ベクトルの解釈を欲求のユークリッド的射影として意味する。 エージェント内のneorlノードからの自律的な欲求は、より深いneorl行動グラフを可能にする。 実験により、自律的欲望が支配するneorlネットワークの効果が確認され、提案ネットワークの4つの原則が検証された。 ニューラルネットワークが支配するNeoRLエージェントは、学習中にユークリッド空間をリアルタイムでナビゲートし、初期の心理学からインスピレーションを得て、現代AIがいかに利益を得るかを実証する。

The neoRL framework for purposive AI implements latent learning by emulated cognitive maps, with general value functions (GVF) expressing operant desires toward separate states. The agent's expectancy of reward, expressed as learned projections in the considered space, allows the neoRL agent to extract purposive behavior from the learned map according to the reward hypothesis. We explore this allegory further, considering neoRL modules as nodes in a network with desire as input and state-action Q-value as output; we see that action sets with Euclidean significance imply an interpretation of state-action vectors as Euclidean projections of desire. Autonomous desire from neoRL nodes within the agent allows for deeper neoRL behavioral graphs. Experiments confirm the effect of neoRL networks governed by autonomous desire, verifying the four principles for purposive networks. A neoRL agent governed by purposive networks can navigate Euclidean spaces in real-time while learning, exemplifying how modern AI still can profit from inspiration from early psychology.
翻訳日:2022-02-28 20:08:58 公開日:2022-02-25
# (参考訳) MRガイド下手術における4次元肝MRIの検討 [全文訳有]

Predicting 4D Liver MRI for MR-guided Interventions ( http://arxiv.org/abs/2202.12628v1 )

ライセンス: CC BY 4.0
Gino Gulamhussene, Anneke Meyer, Marko Rak, Oleksii Bashkanov, Jazan Omari, Maciej Pech, Christian Hansen(参考訳) 臓器の動きは、画像誘導の介入において未解決の課題となる。 この問題を解決するために、時間分解型体積磁気共鳴イメージング(4D MRI)の研究分野が発展してきた。 しかし、現在の手法は時間的・空間的解像度の不足や長い取得時間があるため、ほとんどの介入設定には適さない。 本研究では,MRガイド下手術に対する視野が大きいリアルタイム高分解能4次元MRIのための新しいアプローチを提案する。 この目的のために、我々は畳み込みニューラルネットワーク(CNN)を訓練し、被験者のライブ2DナビゲータMRIから肝臓の呼吸状態を正確に予測する3D肝MRIを予測した。 本手法は2つの方法で使用可能である: まず, 実時間に近い4次元mriを高品質・高分解能で再構成できる(同方性1.8mmボクセルサイズ0.6s/ボリュームの209x128x128マトリックスサイズ)。 第2に, 時間分解能が0.2s/ボリューム以下の回顧的4次元再構成に使用し, 放射線治療に使用できる。 平均目標登録誤差 (TRE) は1.19$\pm$0.74mmであり, ボクセルサイズ以下である。 この結果と最先端の4D MRI再構成との比較を行った。 視覚的評価は同等の品質を示す。 取得時間を2分に短縮した小さなトレーニングサイズでは,有望な結果が得られ,24分で高品質な結果が得られることを示す。 提案手法は従来手法と容易に組み合わせることができるため,品質損失を抑えつつ,取得時間を短縮することができる。 エンド・ツー・エンドのディープラーニングは4次元mri再構成に非常に有望である。

Organ motion poses an unresolved challenge in image-guided interventions. In the pursuit of solving this problem, the research field of time-resolved volumetric magnetic resonance imaging (4D MRI) has evolved. However, current techniques are unsuitable for most interventional settings because they lack sufficient temporal and/or spatial resolution or have long acquisition times. In this work, we propose a novel approach for real-time, high-resolution 4D MRI with large fields of view for MR-guided interventions. To this end, we trained a convolutional neural network (CNN) end-to-end to predict a 3D liver MRI that correctly predicts the liver's respiratory state from a live 2D navigator MRI of a subject. Our method can be used in two ways: First, it can reconstruct near real-time 4D MRI with high quality and high resolution (209x128x128 matrix size with isotropic 1.8mm voxel size and 0.6s/volume) given a dynamic interventional 2D navigator slice for guidance during an intervention. Second, it can be used for retrospective 4D reconstruction with a temporal resolution of below 0.2s/volume for motion analysis and use in radiation therapy. We report a mean target registration error (TRE) of 1.19 $\pm$0.74mm, which is below voxel size. We compare our results with a state-of-the-art retrospective 4D MRI reconstruction. Visual evaluation shows comparable quality. We show that small training sizes with short acquisition times down to 2min can already achieve promising results and 24min are sufficient for high quality results. Because our method can be readily combined with earlier methods, acquisition time can be further decreased while also limiting quality loss. We show that an end-to-end, deep learning formulation is highly promising for 4D MRI reconstruction.
翻訳日:2022-02-28 20:02:17 公開日:2022-02-25
# (参考訳) オートエンコーダは異常検出にボトルネックが必要か? [全文訳有]

Do autoencoders need a bottleneck for anomaly detection? ( http://arxiv.org/abs/2202.12637v1 )

ライセンス: CC BY 4.0
Bang Xiang Yong, Alexandra Brintrup(参考訳) 教師なしニューラルネットワークの一種であるディープオートエンコーダ(aes)を設計する一般的な考え方は、アイデンティティ関数の学習を妨げるにはボトルネックが必要である、というものだ。 アイデンティティ関数を学習すると、異常検出にAEは役に立たない。 本研究では,この制限された信念に挑戦し,非ボトルネック型AEの価値について検討する。 ボトルネックは、(1)潜在層を過小評価する、(2)スキップ接続を導入する、の2つの方法で取り除くことができる。 しかし、その方法の1つについて、限られた研究が報告されている。 ボトルネック除去スキーム,aesタイプ,データセットのさまざまな組み合わせについて,今回初めて広範囲にわたる実験を行った。 さらに、無限大のAEを非ボトルネック型AEの極端な例として提案する。 ベースラインに対するそれらの改善は、前述したようにアイデンティティ関数の学習は自明ではないことを意味する。 さらに, CIFAR (inliers) 対 SVHN (anomalies) の一般的なタスクにおいて, 非ブートネック型アーキテクチャ (Highest AUROC=0.857) はボトルネック付きアーキテクチャ (Highest AUROC=0.696) よりも優れており, 異常検出のための非ブートネック型AEの開発の可能性に光を当てている。

A common belief in designing deep autoencoders (AEs), a type of unsupervised neural network, is that a bottleneck is required to prevent learning the identity function. Learning the identity function renders the AEs useless for anomaly detection. In this work, we challenge this limiting belief and investigate the value of non-bottlenecked AEs. The bottleneck can be removed in two ways: (1) overparameterising the latent layer, and (2) introducing skip connections. However, limited works have reported on the use of one of the ways. For the first time, we carry out extensive experiments covering various combinations of bottleneck removal schemes, types of AEs and datasets. In addition, we propose the infinitely-wide AEs as an extreme example of non-bottlenecked AEs. Their improvement over the baseline implies learning the identity function is not trivial as previously assumed. Moreover, we find that non-bottlenecked architectures (highest AUROC=0.857) can outperform their bottlenecked counterparts (highest AUROC=0.696) on the popular task of CIFAR (inliers) vs SVHN (anomalies), among other tasks, shedding light on the potential of developing non-bottlenecked AEs for improving anomaly detection.
翻訳日:2022-02-28 19:46:47 公開日:2022-02-25
# (参考訳) 不確実な定量化を伴うベイズオートエンコーダ:信頼に値する異常検出に向けて

Bayesian autoencoders with uncertainty quantification: Towards trustworthy anomaly detection ( http://arxiv.org/abs/2202.12653v1 )

ライセンス: CC BY 4.0
Bang Xiang Yong, Alexandra Brintrup(参考訳) 教師なし異常検出のための深いオートエンコーダ(aes)の研究が数多く行われているが、aesは依然として予測の不確実性を表現する手段を欠いている。 そこで本研究では, ベイズオートエンコーダ (BAEs) の定式化を応用して, てんかんおよびアレータリック不確実性を含む全異常不確かさを定量化する。 不確実性の品質を評価するために,不確実性の高い予測を拒絶する追加オプションとして異常を分類するタスクを検討する。 さらに,精度回帰曲線を用いて,重み付き平均精度を性能指標として提案する。 ベンチマークデータセットと実際の2つのデータセットにおけるbaeと全異常不確実性の有効性を実証し,1つは条件モニタリング,もう1つは品質検査を行った。

Despite numerous studies of deep autoencoders (AEs) for unsupervised anomaly detection, AEs still lack a way to express uncertainty in their predictions, crucial for ensuring safe and trustworthy machine learning systems in high-stake applications. Therefore, in this work, the formulation of Bayesian autoencoders (BAEs) is adopted to quantify the total anomaly uncertainty, comprising epistemic and aleatoric uncertainties. To evaluate the quality of uncertainty, we consider the task of classifying anomalies with the additional option of rejecting predictions of high uncertainty. In addition, we use the accuracy-rejection curve and propose the weighted average accuracy as a performance metric. Our experiments demonstrate the effectiveness of the BAE and total anomaly uncertainty on a set of benchmark datasets and two real datasets for manufacturing: one for condition monitoring, the other for quality inspection.
翻訳日:2022-02-28 19:37:54 公開日:2022-02-25
# (参考訳) PLSSVM: (multi-)GPGPUアクセラレーション付きLast Squaresサポートベクトルマシン [全文訳有]

PLSSVM: A (multi-)GPGPU-accele rated Least Squares Support Vector Machine ( http://arxiv.org/abs/2202.12674v1 )

ライセンス: CC BY 4.0
Alexander Van Craen and Marcel Breyer and Dirk Pfl\"uger(参考訳) 機械学習アルゴリズムは、膨大なデータセットに効率的に対処できなければならない。 したがって、あらゆる現代的なシステムにうまくスケールし、ベンダーに依存しないアクセラレーターの計算能力を活用できなければならない。 教師あり学習の分野では、SVM(Support Vector Machines)が広く使われている。 しかし、LIBSVMやThunderSVMのような近代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。 したがって、高い並列GPUには適していない。 さらに、異なるベンダーのcpuとgpuをサポートするパフォーマンスポータブル実装には気付いていません。 両問題を解決するためにPLSSVMライブラリを開発した。 まず、SVMを最小二乗問題として定式化する。 SVMを訓練すると、高度に並列なアルゴリズムが知られている線形方程式のシステムを解く。 PLSSVMは、異なる交換可能なバックエンド(OpenMP、CUDA、OpenCL、SYCL)を使用し、NVIDIA、AMD、Intelといった様々なベンダーから複数のGPU上でモダンなハードウェアをサポートする。 PLSSVMは、LIBSVMのドロップイン代替として使用できる。 我々は、libsvmと比較して最大10cpu、thundersvmと比較して最大14gpuの速度アップを観察した。 実装は、最大256CPUスレッドで74.7の並列スピードアップを持つマルチコアCPUと、4GPUで3.71の並列スピードアップを持つ複数のGPUにスケールする。 コード、ユーティリティスクリプト、ドキュメントはgithubで入手できる。

Machine learning algorithms must be able to efficiently cope with massive data sets. Therefore, they have to scale well on any modern system and be able to exploit the computing power of accelerators independent of their vendor. In the field of supervised learning, Support Vector Machines (SVMs) are widely used. However, even modern and optimized implementations such as LIBSVM or ThunderSVM do not scale well for large non-trivial dense data sets on cutting-edge hardware: Most SVM implementations are based on Sequential Minimal Optimization, an optimized though inherent sequential algorithm. Hence, they are not well-suited for highly parallel GPUs. Furthermore, we are not aware of a performance portable implementation that supports CPUs and GPUs from different vendors. We have developed the PLSSVM library to solve both issues. First, we resort to the formulation of the SVM as a least squares problem. Training an SVM then boils down to solving a system of linear equations for which highly parallel algorithms are known. Second, we provide a hardware independent yet efficient implementation: PLSSVM uses different interchangeable backends--OpenMP, CUDA, OpenCL, SYCL--supporting modern hardware from various vendors like NVIDIA, AMD, or Intel on multiple GPUs. PLSSVM can be used as a drop-in replacement for LIBSVM. We observe a speedup on CPUs of up to 10 compared to LIBSVM and on GPUs of up to 14 compared to ThunderSVM. Our implementation scales on many-core CPUs with a parallel speedup of 74.7 on up to 256 CPU threads and on multiple GPUs with a parallel speedup of 3.71 on four GPUs. The code, utility scripts, and the documentation are available on GitHub: https://github.com/S C-SGS/PLSSVM.
翻訳日:2022-02-28 19:36:49 公開日:2022-02-25
# (参考訳) 自動車用超音波センサを用いた深層学習による到着方向推定 [全文訳有]

A deep learning approach for direction of arrival estimation using automotive-grade ultrasonic sensors ( http://arxiv.org/abs/2202.12684v1 )

ライセンス: CC BY 4.0
Mohamed Shawki Elamir, Heinrich Gotzig, Raoul Zoellner, Patrick Maeder(参考訳) 本稿では,自動駐車などの運転支援システムに使用される自動車用超音波センサを用いた到着方向推定のための深層学習手法を提案する。 提案手法の性能評価のベンチマークとして, 到着推定アルゴリズムの工法決定論的方向性の研究と実装を行った。 提案アルゴリズムの既存アルゴリズムに対する性能解析は,シミュレーションデータと,自動車用超音波センサを用いた計測キャンペーンのデータを用いて行う。 いずれの結果も,実環境からの騒音や測定結果の誤差といった現実的条件下での提案手法の優位性を明確に示している。 提案手法は,三角測量やエイリアス処理の高精度解法など,既存のアルゴリズムの既知の制限を克服する方法も示している。

In this paper, a deep learning approach is presented for direction of arrival estimation using automotive-grade ultrasonic sensors which are used for driving assistance systems such as automatic parking. A study and implementation of the state of the art deterministic direction of arrival estimation algorithms is used as a benchmark for the performance of the proposed approach. Analysis of the performance of the proposed algorithms against the existing algorithms is carried out over simulation data as well as data from a measurement campaign done using automotive-grade ultrasonic sensors. Both sets of results clearly show the superiority of the proposed approach under realistic conditions such as noise from the environment as well as eventual errors in measurements. It is demonstrated as well how the proposed approach can overcome some of the known limitations of the existing algorithms such as precision dilution of triangulation and aliasing.
翻訳日:2022-02-28 19:18:21 公開日:2022-02-25
# (参考訳) 補助課題を用いた手書き文字認識の改良 [全文訳有]

Improving Amharic Handwritten Word Recognition Using Auxiliary Task ( http://arxiv.org/abs/2202.12687v1 )

ライセンス: CC BY 4.0
Mesay Samuel Gondere, Lars Schmidt-Thieme, Durga Prasad Sharma, Abiot Sinamo Boltena(参考訳) アマリ語はエチオピア連邦民主共和国の公用語の一つである。 エチオピック文字(Ethiopic script)を用いる言語の一つで、ゲエズ(Gee'z)から派生したもので、現在は典礼語となっている。 アムハラ語はエチオピアで最も広く使われている文学言語の一つである。 アムハーリック光学文字認識(ocr)や、特にアムハーリック手書き文字認識には、非常に限定された革新的でカスタマイズされた研究がある。 本研究では,アムハラ語手書き文字認識について検討する。 畳み込みニューラルネットワークやコネクショナリズム時間分類(CTC)の損失とともに、畳み込みニューラルネットワークを含む最先端のディープラーニング技術を用いて、エンドツーエンドの認識を実現した。 さらに,Amharicアルファベットの行順類似性から補助課題を用いて損失関数を補完する革新的な手法が試験され,ベースライン法よりも顕著な認識改善が示された。 このような発見は、イノベーティブな問題特化ソリューションを促進すると同時に、問題特化ドメインから生じる一般化したソリューションへの洞察を開放する。

Amharic is one of the official languages of the Federal Democratic Republic of Ethiopia. It is one of the languages that use an Ethiopic script which is derived from Gee'z, ancient and currently a liturgical language. Amharic is also one of the most widely used literature-rich languages of Ethiopia. There are very limited innovative and customized research works in Amharic optical character recognition (OCR) in general and Amharic handwritten text recognition in particular. In this study, Amharic handwritten word recognition will be investigated. State-of-the-art deep learning techniques including convolutional neural networks together with recurrent neural networks and connectionist temporal classification (CTC) loss were used to make the recognition in an end-to-end fashion. More importantly, an innovative way of complementing the loss function using the auxiliary task from the row-wise similarities of the Amharic alphabet was tested to show a significant recognition improvement over a baseline method. Such findings will promote innovative problem-specific solutions as well as will open insight to a generalized solution that emerges from problem-specific domains.
翻訳日:2022-02-28 19:08:37 公開日:2022-02-25
# (参考訳) 解釈可能な異常検出のための統計とディープラーニングに基づくハイブリッドモデル [全文訳有]

Statistics and Deep Learning-based Hybrid Model for Interpretable Anomaly Detection ( http://arxiv.org/abs/2202.12720v1 )

ライセンス: CC BY-SA 4.0
Thabang Mathonsi and Terence L van Zyl(参考訳) ハイブリッド手法は、予測タスクと予測タスクの両方において純粋統計的および純粋深層学習法を上回り、それらの予測(予測間隔)に関連する不確実性を定量化することが示されている。 例として、多変量統計予測モデルとリカレントニューラルネットワークの変種であるLong Short-Term MemoryのハイブリッドであるMultivarate Exponential Smoothing Long Short-Term Memory (MES-LSTM)がある。 また、(i$)が正確な予測を生成し、(ii$)が関連する予測の不確かさを十分に定量化できるモデルが、異常検出タスクに適したモデルにうまく適応できることも示されている。 多変量データと新しいアプリケーションドメインのユビキタス化に伴い、近年、多くの異常検出手法が提案されている。 提案手法は主に深層学習技術に重点を置いており, チューンに計算集約的なパラメータセット (i$) のような課題に悩まされる傾向にある。 (ii)$ 使われないテクニックをレンダリングする偽陽性が多すぎる、$ (三)実生活においてあまり普及しない訓練のためにラベル付きデータセットを必要とすること、(四)深層学習法において主にブラックボックスの性質によって阻害される異常発生の根本原因を理解すること。 本稿では,これらの課題を克服する解釈可能な異常検出モデルであるMES-LSTMの拡張について述べる。 アプリケーション領域としての再生可能エネルギー生成に焦点を当て、提案手法は最先端技術に対してベンチマークされる。 以上の結果から,mes-lstm異常検出装置は,異常検出タスクのベンチマークと少なくとも競合しており,スプリアス効果から学ぶことが少なく,根本原因の発見や説明に信頼性が高いことが示唆された。

Hybrid methods have been shown to outperform pure statistical and pure deep learning methods at both forecasting tasks, and at quantifying the uncertainty associated with those forecasts (prediction intervals). One example is Multivariate Exponential Smoothing Long Short-Term Memory (MES-LSTM), a hybrid between a multivariate statistical forecasting model and a Recurrent Neural Network variant, Long Short-Term Memory. It has also been shown that a model that ($i$) produces accurate forecasts and ($ii$) is able to quantify the associated predictive uncertainty satisfactorily, can be successfully adapted to a model suitable for anomaly detection tasks. With the increasing ubiquity of multivariate data and new application domains, there have been numerous anomaly detection methods proposed in recent years. The proposed methods have largely focused on deep learning techniques, which are prone to suffer from challenges such as ($i$) large sets of parameters that may be computationally intensive to tune, $(ii)$ returning too many false positives rendering the techniques impractical for use, $(iii)$ requiring labeled datasets for training which are often not prevalent in real life, and ($iv$) understanding of the root causes of anomaly occurrences inhibited by the predominantly black-box nature of deep learning methods. In this article, an extension of MES-LSTM is presented, an interpretable anomaly detection model that overcomes these challenges. With a focus on renewable energy generation as an application domain, the proposed approach is benchmarked against the state-of-the-art. The findings are that MES-LSTM anomaly detector is at least competitive to the benchmarks at anomaly detection tasks, and less prone to learning from spurious effects than the benchmarks, thus making it more reliable at root cause discovery and explanation.
翻訳日:2022-02-28 19:00:52 公開日:2022-02-25
# (参考訳) 事前学習ネットワークを用いた教師なし視覚検査のためのデータリファインメント [全文訳有]

Data refinement for fully unsupervised visual inspection using pre-trained networks ( http://arxiv.org/abs/2202.12759v1 )

ライセンス: CC BY 4.0
Antoine Cordier, Benjamin Missaoui, and Pierre Gutierrez(参考訳) 近年,視覚検査の分野では異常検出が大きな進歩を遂げている。 より具体的には、ディーププレトレーニングニューラルネットワークによって抽出された特徴に対する古典的な外れ値検出技術の使用が、mvtec anomaly detection (mvtec ad)データセット上で顕著なパフォーマンスをもたらすことが示されている。 しかしながら、他の多くの異常検出戦略と同様に、これらの事前訓練された方法は、すべてのトレーニングデータが正常であると仮定する。 結果として、それらは完全に監視されていないと見なすことはできない。 私たちの知識には、完全に教師なしの設定でこれらの事前訓練された方法を研究する作業はありません。 本研究は,まず,汚染されたトレーニングセット(欠陥サンプルを含む)を用いて,事前学習した手法の完全教師なしコンテキストに対する堅牢性を評価し,CutPasteなどの手法と比較して,これらの手法が汚染に対してより堅牢であることを示す。 次に,一クラス分類のための簡易な改良戦略であるsrocを提案する。 SROCは、トレーニングセットから汚染された画像の大部分を取り除き、失われたAUCの一部を復元することを可能にする。 さらに、私たちの単純なヒューリスティックが既存の文献と競合し、さらに複雑な戦略を上回ります。

Anomaly detection has recently seen great progress in the field of visual inspection. More specifically, the use of classical outlier detection techniques on features extracted by deep pre-trained neural networks have been shown to deliver remarkable performances on the MVTec Anomaly Detection (MVTec AD) dataset. However, like most other anomaly detection strategies, these pre-trained methods assume all training data to be normal. As a consequence, they cannot be considered as fully unsupervised. There exists to our knowledge no work studying these pre-trained methods under fully unsupervised setting. In this work, we first assess the robustness of these pre-trained methods to fully unsupervised context, using polluted training sets (i.e. containing defective samples), and show that these methods are more robust to pollution compared to methods such as CutPaste. We then propose SROC, a Simple Refinement strategy for One Class classification. SROC enables to remove most of the polluted images from the training set, and to recover some of the lost AUC. We further show that our simple heuristic competes with, and even outperforms much more complex strategies from the existing literature.
翻訳日:2022-02-28 18:38:54 公開日:2022-02-25
# (参考訳) モデル比較と校正評価 : 機械学習とアクチュアリカル・プラクティスにおける一貫性のあるスコア機能のためのユーザガイド

Model Comparison and Calibration Assessment: User Guide for Consistent Scoring Functions in Machine Learning and Actuarial Practice ( http://arxiv.org/abs/2202.12780v1 )

ライセンス: CC BY 4.0
Tobias Fissler, Christian Lorentzen, Michael Mayer(参考訳) actuaryとデータサイエンティストの主なタスクの1つは、クレームサイズや保険のクレーム数といった特定の現象に対する優れた予測モデルを構築することである。 これらのモデルは与えられた特徴情報を理想的に活用し、予測の精度を高める。 このユーザガイドは、あるモデルのキャリブレーションや妥当性を評価し、他方で異なるモデルを比較しランク付けするための統計的手法を再検討し、明確化する。 その際、予測対象を予め指定し、この目標に合わせてモデル比較において得点関数を選択することの重要性を強調する。 採点機能の実用的選択のためのガイダンスが提供される。 応用における科学と日常の実践のギャップを埋めようとして、主に既存の成果の教育的な提示とベストプラクティスに焦点を当てている。 結果は、労働者の報酬と顧客の混乱に関する2つの実データケーススタディに伴って説明される。

One of the main tasks of actuaries and data scientists is to build good predictive models for certain phenomena such as the claim size or the number of claims in insurance. These models ideally exploit given feature information to enhance the accuracy of prediction. This user guide revisits and clarifies statistical techniques to assess the calibration or adequacy of a model on the one hand, and to compare and rank different models on the other hand. In doing so, it emphasises the importance of specifying the prediction target at hand a priori and of choosing the scoring function in model comparison in line with this target. Guidance for the practical choice of the scoring function is provided. Striving to bridge the gap between science and daily practice in application, it focuses mainly on the pedagogical presentation of existing results and of best practice. The results are accompanied and illustrated by two real data case studies on workers' compensation and customer churn.
翻訳日:2022-02-28 18:19:57 公開日:2022-02-25
# (参考訳) 物体検出とセグメンテーションのための信頼度校正 [全文訳有]

Confidence Calibration for Object Detection and Segmentation ( http://arxiv.org/abs/2202.12785v1 )

ライセンス: CC BY 4.0
Fabian K\"uppers, Anselm Haselhoff, Jan Kronenberger, Jonas Schneider(参考訳) ニューラルネットワークから得られる信頼度推定の校正は、特に自動運転や医療画像診断のような安全クリティカルな応用において重要である。 しかし, 分類問題では信頼性校正の課題が検討されているが, 対象検出やセグメンテーション問題に対するin-ves\-tiga\-tionはいまだに欠落している。 そこで本章では,物体検出およびセグメント化モデルに対する信頼性校正の検討に焦点をあてる。 本稿では,オブジェクト検出とセグメンテーションのタスクによく知られたキャリブレーション手法を拡張した多変量信頼度校正の概念を紹介する。 これにより、バウンディングボックス/ピクセル位置、形状情報などの追加機能も認識できる拡張された信頼度校正が可能になる。 さらに、予測校正誤差(ECE)を拡張して、オブジェクト検出とセグメンテーションモデルのmis-ca\-li\-bra-tion を測定する。 我々は,ms coco のネットワークアーキテクチャと都市景観について検討し,導入されたキャリブレーションの定義から,特にオブジェクト検出やインスタンスセグメンテーションモデルが本質的に誤調整されていることを示す。 提案手法を用いてキャリブレーションの改善を行い,セグメンテーションマスクの品質にも有意な影響を与えることができた。

Calibrated confidence estimates obtained from neural networks are crucial, particularly for safety-critical applications such as autonomous driving or medical image diagnosis. However, although the task of confidence calibration has been investigated on classification problems, thorough in\-ves\-tiga\-tions on object detection and segmentation problems are still missing. Therefore, we focus on the investigation of confidence calibration for object detection and segmentation models in this chapter. We introduce the concept of multivariate confidence calibration that is an extension of well-known calibration methods to the task of object detection and segmentation. This allows for an extended confidence calibration that is also aware of additional features such as bounding box/pixel position, shape information, etc. Furthermore, we extend the expected calibration error (ECE) to measure mis\-ca\-li\-bra\-ti on of object detection and segmentation models. We examine several network architectures on MS COCO as well as on Cityscapes and show that especially object detection as well as instance segmentation models are intrinsically miscalibrated given the introduced definition of calibration. Using our proposed calibration methods, we have been able to improve calibration so that it also has a positive impact on the quality of segmentation masks as well.
翻訳日:2022-02-28 18:18:21 公開日:2022-02-25
# (参考訳) 運転・事故防止のための都市シーンにおける事故センシング [全文訳有]

Sensing accident-prone features in urban scenes for proactive driving and accident prevention ( http://arxiv.org/abs/2202.12788v1 )

ライセンス: CC BY 4.0
Sumit Mishra, Praveen Kumar Rajendran, Luiz Felipe Vecchietti, and Dongsoo Har(参考訳) 都市部では、道路沿いや道路上の視覚情報がドライバーを邪魔し、交通標識の欠落やその他の事故が発生しやすい。 そこで本研究では,ダッシュカムで得られたリアルタイム画像に基づいて,ドライバに対して事故発生時の特徴を視覚的に通知する手法を提案する。 この目的のために、事故データセットによって識別された事故ホットスポット(密集した事故発生)に関するGoogleストリートビューイメージを使用して、深層畳み込みニューラルネットワーク(CNN)のファミリーをトレーニングする。 訓練されたcnnは、事故を起こしやすい特徴を検出し、与えられた都市シーンを事故ホットスポットと非ホットスポットに分類することができる。 事故ホットスポットが与えられた場合、訓練されたcnnは、90%の精度で事故ホットスポットに分類することができる。 CNNの家族による事故原因の特徴を検出する能力は,CNNの判断の原因となる特定の事故原因の特徴と画素レベルのオブジェクト分類を検査するために使用される4つの異なるクラスアクティベーションマップ(CAM)法の比較研究によって分析される。 CAM手法の出力は画像処理パイプラインで処理され、視覚的通知システムの助けを借りて運転者に説明可能な事故原因の特徴のみを抽出する。 事故傾向の特徴の有効性を証明するため,アブレーション研究を行う。 画像サンプルの総面積の7.7%の事故発生確率のアブレーションは、特定の領域を非ホットスポットに分類する確率を最大13.7%増加させる。

In urban cities, visual information along and on roadways is likely to distract drivers and leads to missing traffic signs and other accident-prone features. As a solution to avoid accidents due to missing these visual cues, this paper proposes a visual notification of accident-prone features to drivers, based on real-time images obtained via dashcam. For this purpose, Google Street View images around accident hotspots (areas of dense accident occurrence) identified by accident dataset are used to train a family of deep convolutional neural networks (CNNs). Trained CNNs are able to detect accident-prone features and classify a given urban scene into an accident hotspot and a non-hotspot (area of sparse accident occurrence). For given accident hotspot, the trained CNNs can classify it into an accident hotspot with the accuracy up to 90%. The capability of detecting accident-prone features by the family of CNNs is analyzed by a comparative study of four different class activation map (CAM) methods, which are used to inspect specific accident-prone features causing the decision of CNNs, and pixel-level object class classification. The outputs of CAM methods are processed by an image processing pipeline to extract only the accident-prone features that are explainable to drivers with the help of visual notification system. To prove the efficacy of accident-prone features, an ablation study is conducted. Ablation of accident-prone features taking 7.7%, on average, of total area in each image sample causes up to 13.7% more chance of given area to be classified as a non-hotspot.
翻訳日:2022-02-28 17:54:30 公開日:2022-02-25
# (参考訳) k中間とk平均のコアセットに対する最適下界に向けて

Towards Optimal Lower Bounds for k-median and k-means Coresets ( http://arxiv.org/abs/2202.12793v1 )

ライセンス: CC BY 4.0
Vincent Cohen-Addad, Kasper Green Larsen, David Saulpic, Chris Schwiegelshohn(参考訳) 計量空間内の点の集合が与えられたとき、$(k,z)$-clustering 問題は、中心と呼ばれる一連の $k$ の点を見つけることから成り、すべてのデータ点から最も近い中心までの距離の合計は最小化される。 特殊な例としては、有名なk-メディア問題(z = 1$)やk-means問題(z = 2$)がある。 k$-median と $k$-means 問題は現代のデータ分析の中心であり、大量のデータアプリケーションによってコアセットの概念が生まれている: 入力点集合の小さな(重み付けされた)サブセットは、問題の解のコストを乗法的な $(1 \pm \varepsilon)$ factor まで保ち、その結果、問題への入力を大規模から小規模に削減する。 本稿では,様々な距離空間におけるコア集合の下限の改良について述べる。 n$ポイントと2倍の定数$d$を持つ2倍のメトリクスからなる有限メトリクスでは、$(k,z)$クラスタリングのための任意のコアセットは、それぞれ$\omega(k \varepsilon^{-2} \log n)$と$\omega(k \varepsilon^{-2} d)$ポイントでなければならない。 両方の境界は、ポリログ因子までの以前の上限と一致する。 ユークリッド空間において、任意の coreset for $(k,z)$ clustering は少なくとも $\omega(k\varepsilon ^{-2})$ points でなければならない。 これらの下界を、少なくとも$\tilde{O}(k\varepsilon^{-2}\cdot \min(\varepsilon^{-z},k))$点からなるコアセット構成で補う。

Given a set of points in a metric space, the $(k,z)$-clustering problem consists of finding a set of $k$ points called centers, such that the sum of distances raised to the power of $z$ of every data point to its closest center is minimized. Special cases include the famous k-median problem ($z = 1$) and k-means problem ($z = 2$). The $k$-median and $k$-means problems are at the heart of modern data analysis and massive data applications have given raise to the notion of coreset: a small (weighted) subset of the input point set preserving the cost of any solution to the problem up to a multiplicative $(1 \pm \varepsilon)$ factor, hence reducing from large to small scale the input to the problem. In this paper, we present improved lower bounds for coresets in various metric spaces. In finite metrics consisting of $n$ points and doubling metrics with doubling constant $D$, we show that any coreset for $(k,z)$ clustering must consist of at least $\Omega(k \varepsilon^{-2} \log n)$ and $\Omega(k \varepsilon^{-2} D)$ points, respectively. Both bounds match previous upper bounds up to polylog factors. In Euclidean spaces, we show that any coreset for $(k,z)$ clustering must consists of at least $\Omega(k\varepsilon ^{-2})$ points. We complement these lower bounds with a coreset construction consisting of at most $\tilde{O}(k\varepsilon^{-2}\cdot \min(\varepsilon^{-z},k))$ points.
翻訳日:2022-02-28 17:32:04 公開日:2022-02-25
# (参考訳) 共分散行列を持たない高次元スパースベイズ学習 [全文訳有]

High-Dimensional Sparse Bayesian Learning without Covariance Matrices ( http://arxiv.org/abs/2202.12808v1 )

ライセンス: CC BY 4.0
Alexander Lin, Andrew H. Song, Berkin Bilgic, Demba Ba(参考訳) スパースベイズ学習(SBL)はスパース符号問題に取り組むための強力なフレームワークである。 しかし、SBLの最も一般的な推論アルゴリズムは、大きな共分散行列を保存・計算する必要があるため、高次元設定では高すぎる。 本稿では,複数の線形系を並列に解くことで,共分散行列の明示的な構成を回避する新しい推論手法を提案する。 本手法では, 数値線形代数と共役勾配アルゴリズムの対角線推定結果とを結合する。 いくつかのシミュレーションでは、計算時間とメモリ、特に高速な行列-ベクトル乗算が可能な構造化辞書において、既存の手法よりもよくスケールする。

Sparse Bayesian learning (SBL) is a powerful framework for tackling the sparse coding problem. However, the most popular inference algorithms for SBL become too expensive for high-dimensional settings, due to the need to store and compute a large covariance matrix. We introduce a new inference scheme that avoids explicit construction of the covariance matrix by solving multiple linear systems in parallel to obtain the posterior moments for SBL. Our approach couples a little-known diagonal estimation result from numerical linear algebra with the conjugate gradient algorithm. On several simulations, our method scales better than existing approaches in computation time and memory, especially for structured dictionaries capable of fast matrix-vector multiplication.
翻訳日:2022-02-28 17:30:36 公開日:2022-02-25
# (参考訳) 多言語機械翻訳の現実

The Reality of Multi-Lingual Machine Translation ( http://arxiv.org/abs/2202.12814v1 )

ライセンス: CC BY 4.0
Tom Kocmi and Dominik Mach\'a\v{c}ek and Ond\v{r}ej Bojar(参考訳) 本書"the reality of multi-lingual machine translation"では,機械翻訳システムにおける2つ以上の言語の使用のメリットと周辺について論じる。 シーケンシャル・ツー・シーケンス処理とマルチタスク学習の特定のタスクにフォーカスしながら、本書は自然言語処理の領域を少し超えている。 機械翻訳は、人間のスキルと学習能力を、多くの人々がマッチし、超えようとするベンチマークとして捉える、ディープラーニングアプリケーションの典型例です。 多言語翻訳で観察される成果のいくつかは、知識の言語間移動が想定されるよりも単純な効果による可能性がある。 第一部では、本書は、多言語性、深層ニューラルネットワークの汎用性、特にこの学習の複雑化に対するシーケンス・ツー・シーケンスタスクの動機を導いてくれるだろう。 我々は、ニューラルネットワークが示す成果のあまりに楽観的で不当な説明に対する警告で、一般的な部分を締めくくった。 第2部では,多言語モデルを完全に検討し,追加言語を活用したより分かりやすいアプローチのひとつとして,転校学習を特に慎重に検討する。 大規模モデルを含む近年の多言語技術について調査し,多くの言語に対するシステム展開の実践的側面について論じる。 この結論は、機械理解のオープンな問題を強調し、大規模なモデルを構築するための2つの倫理的側面、すなわち研究の傾きと生態的痕跡を思い出させる。

Our book "The Reality of Multi-Lingual Machine Translation" discusses the benefits and perils of using more than two languages in machine translation systems. While focused on the particular task of sequence-to-sequence processing and multi-task learning, the book targets somewhat beyond the area of natural language processing. Machine translation is for us a prime example of deep learning applications where human skills and learning capabilities are taken as a benchmark that many try to match and surpass. We document that some of the gains observed in multi-lingual translation may result from simpler effects than the assumed cross-lingual transfer of knowledge. In the first, rather general part, the book will lead you through the motivation for multi-linguality, the versatility of deep neural networks especially in sequence-to-sequence tasks to complications of this learning. We conclude the general part with warnings against too optimistic and unjustified explanations of the gains that neural networks demonstrate. In the second part, we fully delve into multi-lingual models, with a particularly careful examination of transfer learning as one of the more straightforward approaches utilizing additional languages. The recent multi-lingual techniques, including massive models, are surveyed and practical aspects of deploying systems for many languages are discussed. The conclusion highlights the open problem of machine understanding and reminds of two ethical aspects of building large-scale models: the inclusivity of research and its ecological trace.
翻訳日:2022-02-28 17:20:24 公開日:2022-02-25
# (参考訳) ディープラーニングによる品質検査のための合成学習データによる一般化の改善 [全文訳有]

Improving generalization with synthetic training data for deep learning based quality inspection ( http://arxiv.org/abs/2202.12818v1 )

ライセンス: CC BY 4.0
Antoine Cordier, Pierre Gutierrez, and Victoire Plessis(参考訳) コンピュータビジョン技術による品質検査の自動化は、しばしばデータ要求のタスクです。 具体的には、教師付きディープラーニングはトレーニングのために大量の注釈付きイメージを必要とする。 実際にこのようなデータの収集とアノテートはコストと労力だけでなく、特定の欠陥クラスで使用可能なインスタンスはごくわずかであるという事実から、非効率である。 ビデオフレームで処理することで、これらのインスタンスの数を増やすことができる場合、大きなデメリットがある。 結果として、そのような制約の下で訓練されたモデルは、実際に取得システム(カメラ、ライト)、部品、欠陥面の変化によって引き起こされる入力分布の変化に非常に敏感であることが期待される。 本研究では,ランダムに生成された合成学習画像を用いることで,領域の不安定な問題に対処し,学習したモデルが文脈変化に対してより堅牢になることを示す。 これらの質問に答えるために、合成データ生成パイプラインとディープラーニングの方法論の両方を詳述する。

Automating quality inspection with computer vision techniques is often a very data-demanding task. Specifically, supervised deep learning requires a large amount of annotated images for training. In practice, collecting and annotating such data is not only costly and laborious, but also inefficient, given the fact that only a few instances may be available for certain defect classes. If working with video frames can increase the number of these instances, it has a major disadvantage: the resulting images will be highly correlated with one another. As a consequence, models trained under such constraints are expected to be very sensitive to input distribution changes, which may be caused in practice by changes in the acquisition system (cameras, lights), in the parts or in the defects aspect. In this work, we demonstrate the use of randomly generated synthetic training images can help tackle domain instability issues, making the trained models more robust to contextual changes. We detail both our synthetic data generation pipeline and our deep learning methodology for answering these questions.
翻訳日:2022-02-28 17:18:52 公開日:2022-02-25
# (参考訳) ジェニブ! ラブライブでリズムアクションを 生成! [全文訳有]

Gen\'eLive! Generating Rhythm Actions in Love Live! ( http://arxiv.org/abs/2202.12823v1 )

ライセンス: CC BY 4.0
Atsushi Takada, Daichi Yamazaki, Likun Liu, Yudai Yoshida, Nyamkhuu Ganbat, Takayuki Shimotomai, Taiga Yamamoto, Daisuke Sakurai, Naoki Hamada(参考訳) リズムアクションゲーム(英: rhythm action game)は、音楽セッション中にプレイヤーが正しいタイミングでコマンドを発するように挑戦する音楽ベースのビデオゲームである。 タイミングはチャートに表示されるが、これはノートと呼ばれる視覚的なシンボルで、画面を飛んでいる。 KLabは「Love Live!」シリーズのタイトルを含むリズムアクションゲームを運営しており、アジアなどでヒットとなった。 この作業の前に、同社は手動でチャートを作成し、コストのかかるビジネス運用につながった。 本稿は,KLabがグラフの合成に深層生成モデルを適用した方法を示し,チャート作成プロセスが改善し,事業コストが半減したことを示す。 既存の生成モデルは、容易な困難モードのために品質の悪いチャートを生成しました。 我々は、リズムアクションに特化したマルチスケーリングモデルを通じて、ビートを考慮し、この課題を克服する方法を報告する。 私たちのモデルはgen\'elive!と名付けられ、klabのプロダクションデータセットとオープンデータセットを使って評価されます。

A rhythm action game is a music-based video game in which the player is challenged to issue commands at the right timings during a music session. The timings are rendered in the chart, which consists of visual symbols, called notes, flying through the screen. KLab Inc., a Japan-based video game developer, has operated rhythm action games including a title for the "Love Live!" franchise, which became a hit across Asia and beyond. Before this work, the company generated the charts manually, which resulted in a costly business operation. This paper presents how KLab applied a deep generative model for synthesizing charts, and shows how it has improved the chart production process, reducing the business cost by half. Existing generative models generated poor quality charts for easier difficulty modes. We report how we overcame this challenge through a multi-scaling model dedicated to rhythm actions, by considering beats among other things. Our model, named Gen\'eLive!, is evaluated using production datasets at KLab as well as open datasets.
翻訳日:2022-02-28 17:01:42 公開日:2022-02-25
# (参考訳) デモの役割を再考する: インコンテキスト学習が機能する理由 [全文訳有]

Rethinking the Role of Demonstrations: What Makes In-Context Learning Work? ( http://arxiv.org/abs/2202.12837v1 )

ライセンス: CC BY 4.0
Sewon Min, Xinxi Lyu, Ari Holtzman, Mikel Artetxe, Mike Lewis, Hannaneh Hajishirzi, Luke Zettlemoyer(参考訳) 大規模言語モデル(LM)は、いくつかの入力ラベルペア(デモ)を条件付けし、新しい入力を予測することによって、推論だけで新しいタスクを実行することができる。 しかし、モデルがどのように学習し、デモのどの側面がタスクのパフォーマンスに寄与するかについては、ほとんど理解されていない。 本稿では,実演におけるラベルをランダムに置き換えることによって,GPT-3を含む12種類のモデルが一貫してパフォーマンスを損なうことを示す。 その代わり、デモンストレーションの他の側面は、(1)ラベル空間、(2)入力テキストの分布、(3)シーケンスの全体的なフォーマットのいくつかの例を提供するという事実を含む、エンドタスクのパフォーマンスの鍵となる。 分析によって、コンテキスト内学習の仕組みと理由を理解する新しい方法が提供され、推論のみを通じて、大規模言語モデルからどの程度学ぶことができるのか、という新たな疑問が提起される。

Large language models (LMs) are able to in-context learn -- perform a new task via inference alone by conditioning on a few input-label pairs (demonstrations) and making predictions for new inputs. However, there has been little understanding of how the model learns and which aspects of the demonstrations contribute to end task performance. In this paper, we show that ground truth demonstrations are in fact not required -- randomly replacing labels in the demonstrations barely hurts performance, consistently over 12 different models including GPT-3. Instead, we find that other aspects of the demonstrations are the key drivers of end task performance, including the fact that they provide a few examples of (1) the label space, (2) the distribution of the input text, and (3) the overall format of the sequence. Together, our analysis provides a new way of understanding how and why in-context learning works, while opening up new questions about how much can be learned from large language models through inference alone.
翻訳日:2022-02-28 16:46:53 公開日:2022-02-25
# (参考訳) RELMOBNET: MOBILENETV3を用いた相対カメラポース推定のためのロバストな2段階のエンドツーエンドトレーニングアプローチ [全文訳有]

RELMOBNET: A Robust Two-Stage End-To-End Training Approach For MOBILENETV3 Based Relative Camera Pose Estimation ( http://arxiv.org/abs/2202.12838v1 )

ライセンス: CC BY 4.0
Praveen Kumar Rajendran, Sumit Mishra, Luiz Felipe Vecchietti, Dongsoo Har(参考訳) 相対カメラポーズ推定は3次元再構成と視覚的位置推定において重要な役割を果たす。 そこで本稿では,カメラパラメータに依存しないエンド・ツー・エンドの相対カメラポーズ回帰のためのmobilenetv3-largeに基づくシャムネットワークを提案する。 提案ネットワークは,同じシーンの異なる場所で撮影された画像のペアを用いて,単位四元数における3次元翻訳ベクトルと回転ベクトルを推定する。 モデルの汎用性を高めるために、4つのシーンのデータを組み合わせて1つのユニバーサルモデルを訓練し、相対的なポーズを推定する。 さらに、トランスレーションと回転損失の重み付けによる超パラメータの独立性は使用しない。 その代わりに、新しい2段階のトレーニング手順を使って、より速い収束で暗黙的にバランスを学ぶ。 本研究では, 異なるシーンからなるcambridge landmarksデータセットと, rpnet や rcpnet など既存の cnn ベースの回帰手法との比較を行った。 以上の結果から,rcpnetと比較した場合,提案モデルは,キングス・カレッジ,オールド・ホスピタル,ケンブリッジ・ランドマーク・データセットのセント・メアリー教会シーンにおいて,それぞれ16.11%,28.88%,52.27% の比率変化により,翻訳ベクトルの推定を改善することが示唆された。

Relative camera pose estimation plays a pivotal role in dealing with 3D reconstruction and visual localization. To address this, we propose a Siamese network based on MobileNetV3-Large for an end-to-end relative camera pose regression independent of camera parameters. The proposed network uses pair of images taken at different locations in the same scene to estimate the 3D translation vector and rotation vector in unit quaternion. To increase the generality of the model, rather than training it for a single scene, data for four scenes are combined to train a single universal model to estimate the relative pose. Further for independency of hyperparameter weighing between translation and rotation loss is not used. Instead we use the novel two-stage training procedure to learn the balance implicitly with faster convergence. We compare the results obtained with the Cambridge Landmarks dataset, comprising of different scenes, with existing CNN-based regression methods as baselines, e.g., RPNet and RCPNet. The findings indicate that, when compared to RCPNet, proposed model improves the estimation of the translation vector by a percentage change of 16.11%, 28.88%, 52.27% on the Kings College, Old Hospital, St Marys Church scenes from Cambridge Landmarks dataset, respectively.
翻訳日:2022-02-28 16:25:38 公開日:2022-02-25
# 制約満足度問題に対する残差に基づくメッセージパッシングアルゴリズム

A residual-based message passing algorithm for constraint satisfaction problems ( http://arxiv.org/abs/2202.12468v1 )

ライセンス: Link先を確認
Chun-Yan Zhao, Yan-Rong Fu, and Jin-Hua Zhao(参考訳) メッセージパッシングアルゴリズムは、複雑なシステムの相互接続変数間のよく複雑な相互作用を捕捉し、繰り返しメッセージの固定点から情報を抽出し、最適化、推論、学習問題においてハードな計算タスクに取り組むための強力なツールキットを提供する。 制約満足度問題(csps)の文脈では、制御パラメータ(制約密度など)がチューニングされると、複数のしきい値現象が発生し、解空間における基本構造遷移を示唆する。 これらの遷移点に関する解を見つけることは、メッセージパッシングアルゴリズムが収束から遠く離れた大きなメッセージ変動に苦しむアルゴリズム設計において非常に難しい。 ここでは、メッセージパッシングアルゴリズムに残差ベースの更新ステップを導入し、更新プロセスにおいて、連続的なステップ間で大きく変化するメッセージに高い優先度が与えられるようにする。 拡張領域を持つランダムなCSPの典型的なプロトタイプであるRBの具体例について、本アルゴリズムはメッセージ更新の収束を改善し、計算コストの低い満足度しきい値付近の解を見つける際の成功確率を高めることを示す。 メッセージパッシングアルゴリズムに対する我々のアプローチは、基底状態の解を見つけ、ハード最適化問題の解空間の詳細な構造を理解するアルゴリズムの開発において、そのパワーを探求する上で価値がある。

Message passing algorithms, whose iterative nature captures well complicated interactions among interconnected variables in complex systems and extracts information from the fixed point of iterated messages, provide a powerful toolkit in tackling hard computational tasks in optimization, inference, and learning problems. In the context of constraint satisfaction problems (CSPs), when a control parameter (such as constraint density) is tuned, multiple threshold phenomena emerge, signaling fundamental structural transitions in their solution space. Finding solutions around these transition points is exceedingly challenging for algorithm design, where message passing algorithms suffer from a large message fluctuation far from convergence. Here we introduce a residual-based updating step into message passing algorithms, in which messages varying large between consecutive steps are given high priority in the updating process. For the specific example of model RB, a typical prototype of random CSPs with growing domains, we show that our algorithm improves the convergence of message updating and increases the success probability in finding solutions around the satisfiability threshold with a low computational cost. Our approach to message passing algorithms should be of value for exploring their power in developing algorithms to find ground-state solutions and understand the detailed structure of solution space of hard optimization problems.
翻訳日:2022-02-28 16:17:46 公開日:2022-02-25
# 転写, 音声, ビデオによる政治的ディープフェイクの人為的検出

Human Detection of Political Deepfakes across Transcripts, Audio, and Video ( http://arxiv.org/abs/2202.12883v1 )

ライセンス: Link先を確認
Matthew Groh, Aruna Sankaranarayanan, Rosalind Picard(参考訳) 超現実的な視覚効果の技術の最近の進歩は、政治演説のディープフェイクビデオが、真のビデオ記録とはすぐに区別できないという懸念を引き起こしている。 しかし、音声・視覚情報がどのように人々の政治的誤報への認識に影響を及ぼすかに関する実証的研究はほとんどない。 コミュニケーション研究の分野における従来の知恵は、ストーリーの同じバージョンがテキストではなくビデオとして提示される場合、人々はよりフェイクニュースに陥りやすいと予測している。 しかし、音声と視覚の操作は、一部の人が思いつくであろう歪みを残していることが多い。 本稿では,61,792の真偽判定を行う5,727人の参加者によるランダムな実験に基づいて,コミュニケーションのモダリティが実際の政治的発言を作文から識別する能力に与える影響を評価する。 テキスト,音声,ビデオのモーダリティの順列を用いて,ランダムに出現するように割り当てられた政治演説の音声ビットを示す。 参加者はサイレントビデオよりも音声によるビデオの方が正確であり、サイレントビデオではテキストの書き起こしよりも正確である。 同様に、参加者は発言する内容(音声内容そのもの)よりも、発言する内容(音声・視覚的手がかり)にもっと依存している。 しかし、政治家の信念に対する大衆の認識に合わない政治的スピーチは、参加者の視覚的手がかりへの依存を減らす。 特に、反射的推論は、参加者が視覚情報を考える程度を緩やかにする:認知的反射テストにおける低パフォーマンスは、視覚的手がかりに対する過度な信頼と、その発言に対する過度な信頼と関連している。

Recent advances in technology for hyper-realistic visual effects provoke the concern that deepfake videos of political speeches will soon be visually indistinguishable from authentic video recordings. Yet there exists little empirical research on how audio-visual information influences people's susceptibility to fall for political misinformation. The conventional wisdom in the field of communication research predicts that people will fall for fake news more often when the same version of a story is presented as a video as opposed to text. However, audio-visual manipulations often leave distortions that some but not all people may pick up on. Here, we evaluate how communication modalities influence people's ability to discern real political speeches from fabrications based on a randomized experiment with 5,727 participants who provide 61,792 truth discernment judgments. We show participants soundbites from political speeches that are randomly assigned to appear using permutations of text, audio, and video modalities. We find that communication modalities mediate discernment accuracy: participants are more accurate on video with audio than silent video, and more accurate on silent video than text transcripts. Likewise, we find participants rely more on how something is said (the audio-visual cues) rather than what is said (the speech content itself). However, political speeches that do not match public perceptions of politicians' beliefs reduce participants' reliance on visual cues. In particular, we find that reflective reasoning moderates the degree to which participants consider visual information: low performance on the Cognitive Reflection Test is associated with an underreliance on visual cues and an overreliance on what is said.
翻訳日:2022-02-28 16:17:23 公開日:2022-02-25
# 教師付き機械学習による観測科学の因果発見

Causal discovery for observational sciences using supervised machine learning ( http://arxiv.org/abs/2202.12813v1 )

ライセンス: Link先を確認
Anne Helby Petersen, Joseph Ramsey, Claus Thorn Ekstr{\o}m and Peter Spirtes(参考訳) 因果推論は因果効果を推定するが、データが実験的に収集されない限り、統計的分析は予め特定された因果モデルに依存する必要がある。 因果発見アルゴリズムは、データからそのような因果モデルを構築するための実証的な方法である。 いくつかの漸近的に正しい方法がすでに存在するが、通常はより小さなサンプルに苦しむ。 さらに、ほとんどの手法は、常に現実的なデータ生成機構の現実的な表現であるとは限らない非常にスパースな因果モデルに焦点を当てている。 最後に、手法によって提案される因果関係はしばしば成り立つが、因果関係の非関連性に関する主張は誤り率が高い。 この非保存的エラートレードオフは観測科学にとって理想的ではなく、結果のモデルは因果推論に直接使われる: 因果関係の欠如が多い因果モデルには、あまりにも強い仮定が伴い、偏りのある効果推定に繋がる可能性がある。 本研究では,これら3つの欠点を解決する新しい因果的発見法を提案する。 SLdiscoは教師付き機械学習を使用して、観測データから因果モデルの等価クラスへのマッピングを取得する。 ガウスデータに基づく大規模シミュレーション研究においてsldiscoを評価し,モデルサイズとサンプルサイズについて検討した。 SLdiscoは従来よりも保守的で, 情報量が少なく, サンプルサイズに敏感であることがわかった。 さらに,実際の疫学データ応用も提供する。 また、sldiscoはサンプルサイズに対して感度が低く、そのため小さなデータセットで利用可能な情報をよりよく活用しているように思われる。

Causal inference can estimate causal effects, but unless data are collected experimentally, statistical analyses must rely on pre-specified causal models. Causal discovery algorithms are empirical methods for constructing such causal models from data. Several asymptotically correct methods already exist, but they generally struggle on smaller samples. Moreover, most methods focus on very sparse causal models, which may not always be a realistic representation of real-life data generating mechanisms. Finally, while causal relationships suggested by the methods often hold true, their claims about causal non-relatedness have high error rates. This non-conservative error tradeoff is not ideal for observational sciences, where the resulting model is directly used to inform causal inference: A causal model with many missing causal relations entails too strong assumptions and may lead to biased effect estimates. We propose a new causal discovery method that addresses these three shortcomings: Supervised learning discovery (SLdisco). SLdisco uses supervised machine learning to obtain a mapping from observational data to equivalence classes of causal models. We evaluate SLdisco in a large simulation study based on Gaussian data and we consider several choices of model size and sample size. We find that SLdisco is more conservative, only moderately less informative and less sensitive towards sample size than existing procedures. We furthermore provide a real epidemiological data application. We use random subsampling to investigate real data performance on small samples and again find that SLdisco is less sensitive towards sample size and hence seems to better utilize the information available in small datasets.
翻訳日:2022-02-28 16:16:56 公開日:2022-02-25
# 長期移動健康データに対する探索的隠れマルコフ因子モデル : 逆性外傷性神経精神科領域への応用

Exploratory Hidden Markov Factor Models for Longitudinal Mobile Health Data: Application to Adverse Posttraumatic Neuropsychiatric Sequelae ( http://arxiv.org/abs/2202.12819v1 )

ライセンス: Link先を確認
Lin Ge, Xinming An, Donglin Zeng, Samuel McLean, Ronald Kessler, and Rui Song(参考訳) 外傷後神経精神科後遺症(apns)は、外傷後、退役軍人や数百万人のアメリカ人に共通し、トラウマの生存者や社会に多大な負担をもたらす。 APNSの症状の診断と治療の課題について多くの研究がなされている。 しかし、従来の手段の主観的な性質によって進歩は制限されている。 本研究は,AURORA(Advancing Understanding of RecOvery afteR traumA)研究から収集したモバイル端末データに動機づけられた。 離散時間および連続時間探索的隠れマルコフ因子モデルを開発し、規則的または不規則な測定値を持つ個人の動的心理的条件をモデル化する。 提案モデルは従来の隠れマルコフモデルを拡張し,高次元データと隠れマルコフ状態間の特徴に基づく不均質な遷移確率を可能にする。 最大推定値を求めるため,初期化戦略(SEMIS)を用いた安定化期待最大化アルゴリズムを開発した。 パラメータ推定とモデル選択の性能を評価するために合成データを用いたシミュレーション研究を行った。 最後に、AURORAデータに対する適用を行い、既存の文献と整合した心拍変動、活動、APNSの関係をキャプチャする。

Adverse posttraumatic neuropsychiatric sequelae (APNS) are common among veterans and millions of Americans after traumatic events and cause tremendous burdens for trauma survivors and society. Many studies have been conducted to investigate the challenges in diagnosing and treating APNS symptoms. However, progress has been limited by the subjective nature of traditional measures. This study is motivated by the objective mobile device data collected from the Advancing Understanding of RecOvery afteR traumA (AURORA) study. We develop both discrete-time and continuous-time exploratory hidden Markov factor models to model the dynamic psychological conditions of individuals with either regular or irregular measurements. The proposed models extend the conventional hidden Markov models to allow high-dimensional data and feature-based nonhomogeneous transition probability between hidden psychological states. To find the maximum likelihood estimates, we develop a Stabilized Expectation-Maximiza tion algorithm with Initialization Strategies (SEMIS). Simulation studies with synthetic data are carried out to assess the performance of parameter estimation and model selection. Finally, an application to the AURORA data is conducted, which captures the relationships between heart rate variability, activity, and APNS consistent with existing literature.
翻訳日:2022-02-28 16:16:31 公開日:2022-02-25
# 肺結節診断のための確実なデータを用いた忠実学習

Faithful learning with sure data for lung nodule diagnosis ( http://arxiv.org/abs/2202.12515v1 )

ライセンス: Link先を確認
Hanxiao Zhang, Liang Chen, Xiao Gu, Minghui Zhang, Yulei Qin, Feng Yao, Zhexin Wang, Yun Gu, Guang-Zhong Yang(参考訳) 深層学習の最近の進歩は、ctに基づく肺結節分類にその価値が証明されている。 現在の技術は本質的にブラックボックスシステムであり、臨床で2つの汎用性の問題に苦しんでいる。 第一に、良性悪性腫瘍の識別は、結節レベルでの病理診断なしで、人間の観察者によってしばしば評価される。 我々はこれらのデータを「不確実データ」と呼んだ。 第2に、分類器は、学習中にパッチレベルラベルを用いた安定した学習と堅牢な予測のために、必ずしも信頼できる結節特徴を取得しない。 本研究では,病理学的に確認されたラベルを用いた確実なデータセットを構築し,結節の分類を容易にするための協調学習フレームワークを提案する。 損失関数は,ノード分割マップに規制された解釈可能性制約を導入することで,信頼性の高い特徴を学習するように設計されている。 さらに,機械と専門家双方の理解を反映したモデル推論結果に基づいて,同種の歴史的結節検索と解釈可能な診断のための新しい結節解析手法を提案する。 以上の結果から, 肺がん予測のための忠実なモデル推論と併用し, 精度向上に有効であることが示唆された。 肺結節分類における深層学習法における不確実性データの効果をさらに明らかにした。

Recent evolution in deep learning has proven its value for CT-based lung nodule classification. Most current techniques are intrinsically black-box systems, suffering from two generalizability issues in clinical practice. First, benign-malignant discrimination is often assessed by human observers without pathologic diagnoses at the nodule level. We termed these data as "unsure data". Second, a classifier does not necessarily acquire reliable nodule features for stable learning and robust prediction with patch-level labels during learning. In this study, we construct a sure dataset with pathologically-confi rmed labels and propose a collaborative learning framework to facilitate sure nodule classification by integrating unsure data knowledge through nodule segmentation and malignancy score regression. A loss function is designed to learn reliable features by introducing interpretability constraints regulated with nodule segmentation maps. Furthermore, based on model inference results that reflect the understanding from both machine and experts, we explore a new nodule analysis method for similar historical nodule retrieval and interpretable diagnosis. Detailed experimental results demonstrate that our approach is beneficial for achieving improved performance coupled with faithful model reasoning for lung cancer prediction. Extensive cross-evaluation results further illustrate the effect of unsure data for deep-learning-based methods in lung nodule classification.
翻訳日:2022-02-28 16:14:37 公開日:2022-02-25
# ロバストな曲線オブジェクトセグメンテーションのための局所強度次数変換

Local Intensity Order Transformation for Robust Curvilinear Object Segmentation ( http://arxiv.org/abs/2202.12587v1 )

ライセンス: Link先を確認
Tianyi Shi, Nicolas Boutry, Yongchao Xu, Thierry G\'eraud(参考訳) 曲線構造のセグメンテーションは,血管疾患早期発見のための網膜血管セグメンテーションや道路条件評価および維持のための舗装クラックセグメンテーションなど,多くの応用において重要である。 現在、ディープラーニングベースの手法はこれらのタスクで素晴らしいパフォーマンスを実現している。 しかし、その多くは強力な深層アーキテクチャを見つけることに集中しているが、より強固な表現のために固有の曲率構造の特徴(例えば、曲率構造は文脈よりも暗くなっている)を捉えることを無視している。 その結果、パフォーマンスは通常、クロスデータセットに多くを依存します。 本稿では,新しい局所強度秩序変換(LIOT)を導入することにより,一般化性の向上を目指す。 具体的には、4つの方向(水平方向と垂直方向)と各画素とその近傍画素間の強度オーダーに基づいて、グレースケール画像をコントラスト不変4チャンネル画像に変換する。 これにより、コントラスト変化に頑健なまま、曲率構造の本質的な特性を保存できる表現が得られる。 3つの網膜血管セグメンテーションデータセットのクロスデータセット評価は、LIOTがいくつかの最先端手法の一般化性を改善することを示した。 さらに, 網膜血管分節と舗装クラック分節の相互データセットによる評価により, LIOTは外見のギャップが大きいカービリナール構造の特性を維持できることが示された。 提案手法の実装はhttps://github.com/T Y-Shi/LIOTで公開されている。

Segmentation of curvilinear structures is important in many applications, such as retinal blood vessel segmentation for early detection of vessel diseases and pavement crack segmentation for road condition evaluation and maintenance. Currently, deep learning-based methods have achieved impressive performance on these tasks. Yet, most of them mainly focus on finding powerful deep architectures but ignore capturing the inherent curvilinear structure feature (e.g., the curvilinear structure is darker than the context) for a more robust representation. In consequence, the performance usually drops a lot on cross-datasets, which poses great challenges in practice. In this paper, we aim to improve the generalizability by introducing a novel local intensity order transformation (LIOT). Specifically, we transfer a gray-scale image into a contrast-invariant four-channel image based on the intensity order between each pixel and its nearby pixels along with the four (horizontal and vertical) directions. This results in a representation that preserves the inherent characteristic of the curvilinear structure while being robust to contrast changes. Cross-dataset evaluation on three retinal blood vessel segmentation datasets demonstrates that LIOT improves the generalizability of some state-of-the-art methods. Additionally, the cross-dataset evaluation between retinal blood vessel segmentation and pavement crack segmentation shows that LIOT is able to preserve the inherent characteristic of curvilinear structure with large appearance gaps. An implementation of the proposed method is available at https://github.com/T Y-Shi/LIOT.
翻訳日:2022-02-28 16:14:15 公開日:2022-02-25
# 画像エッジ検出のためのヘテロ連想メモリとしての振動ニューラルネットワーク

Oscillatory Neural Network as Hetero-Associative Memory for Image Edge Detection ( http://arxiv.org/abs/2202.12541v1 )

ライセンス: Link先を確認
Madeleine Abernot (SmartIES, LIRMM), Thierry Gil (LIRMM), Aida Todri-Sanial (SmartIES, LIRMM)(参考訳) カメラなどのエッジデバイスで処理されるデータ量の増加は、エッジでの人工知能(AI)統合を動機付けている。 特徴抽出やエッジ検出などのエッジで実行される典型的な画像処理方法は、エネルギー、計算、メモリ空腹アルゴリズムである畳み込みフィルタを使用する。 しかしエッジデバイスやカメラは、計算リソース、帯域幅、電力が少なく、データをクラウドに送信するプライバシーの制約により制限されている。 したがって、エッジで画像データを処理する必要がある。 長年にわたり、このニーズは、エッジでニューロモルフィックコンピューティングを実装することに多くの関心を喚起してきた。 ニューロモルフィックシステムは、エネルギー効率の高い計算を実現するために生物学的神経機能をエミュレートすることを目的としている。 近年,発振性ニューラルネットワーク (onn) は,脳振動をエミュレートして自己連想記憶型アプリケーションを行う,新しい脳にインスパイアされた計算手法を提案する。 画像のエッジ検出を高速化し,消費電力を削減するため,ONNによる詳細な調査を行う。 画像エッジ検出のためのヘテロ連想メモリ(HAM)として,ONNを用いた新しい画像処理手法を提案する。 我々はまず、Matlabエミュレータを使い、次に完全なデジタルNN設計を用いて、ONN-HAMソリューションをシミュレートする。 また,黒と白とグレーの2乗評価マップ,28×28 MNISTの画像,さらに白と白の512×512の標準テスト画像で結果を示す。 我々は、SobelやCannyといった標準的なエッジ検出フィルタと比較する。 最後に、全ディジタル設計シミュレーション結果を用いて、タイミングと資源特性を報告し、リアルタイム画像処理への適用性を評価する。 我々のデジタルNN-HAMソリューションは、リアルタイムカメラの制約を考慮し、120×120ピクセル(166MHz)の画像を処理できる。 この研究は、ONNを画像処理アプリケーションのためのヘテロ連想メモリとして探求した最初のものである。

The increasing amount of data to be processed on edge devices, such as cameras, has motivated Artificial Intelligence (AI) integration at the edge. Typical image processing methods performed at the edge, such as feature extraction or edge detection, use convolutional filters that are energy, computation, and memory hungry algorithms. But edge devices and cameras have scarce computational resources, bandwidth, and power and are limited due to privacy constraints to send data over to the cloud. Thus, there is a need to process image data at the edge. Over the years, this need has incited a lot of interest in implementing neuromorphic computing at the edge. Neuromorphic systems aim to emulate the biological neural functions to achieve energy-efficient computing. Recently, Oscillatory Neural Networks (ONN) present a novel brain-inspired computing approach by emulating brain oscillations to perform autoassociative memory types of applications. To speed up image edge detection and reduce its power consumption, we perform an in-depth investigation with ONNs. We propose a novel image processing method by using ONNs as a hetero-associative memory (HAM) for image edge detection. We simulate our ONN-HAM solution using first, a Matlab emulator, and then a fully digital ONN design. We show results on gray scale square evaluation maps, also on black and white and gray scale 28x28 MNIST images and finally on black and white 512x512 standard test images. We compare our solution with standard edge detection filters such as Sobel and Canny. Finally, using the fully digital design simulation results, we report on timing and resource characteristics, and evaluate its feasibility for real-time image processing applications. Our digital ONN-HAM solution can process images with up to 120x120 pixels (166 MHz system frequency) respecting real-time camera constraints. This work is the first to explore ONNs as hetero-associative memory for image processing applications.
翻訳日:2022-02-28 16:13:44 公開日:2022-02-25
# 知的空間, 空気, 地上ネットワークによる都市間接続ギャップの橋渡し

Bridging the Urban-Rural Connectivity Gap through Intelligent Space, Air, and Ground Networks ( http://arxiv.org/abs/2202.12683v1 )

ライセンス: Link先を確認
Fares Fourati, Saeed Hamood Alsamhi, and Mohamed-Slim Alouini(参考訳) 農村部におけるコネクティビティは,コミュニケーションネットワークの主要な課題の一つである。 この課題を克服するためには、さまざまな状況に対する様々なソリューションが必要である。 したがって、現在のネットワークパラダイムの最適化は必須です。 都市部に比べ、インフラの高コストと都市部における携帯電話の低収入は、通信事業者にとって特に魅力がない。 したがって、空間、空気、地上ネットワークはすべて、農村部における接続性を達成するために最適化されるべきである。 本稿では,農村における接続性に関する最新の研究と,地上ネットワークのソリューションについて議論し,非地上ネットワークの潜在的メリットについて考察する。 さらに,空間,空気,地上ネットワークを改善するための人工知能(ai)技術を概観し,農村部における接続性を改善した。 AIはインテリジェントなコミュニケーションを可能にし、地域接続のための空間、空気、地上ネットワークを統合することができる。 農村部におけるコネクティビティの課題を議論し,最新のプロジェクトと研究と,aiを用いたネットワークのエンパワーメントを強調する。 最後に,農村社会への接続性に影響を及ぼす可能性について論じる。

Connectivity in rural areas is one of the main challenges of communication networks. To overcome this challenge, a variety of solutions for different situations are required. Optimizing the current networking paradigms is therefore mandatory. The high costs of infrastructure and the low revenue of cell sites in rural areas compared with urban areas are especially unattractive for telecommunication operators. Therefore, space, air, and ground networks should all be optimized for achieving connectivity in rural areas. We highlight the latest works on rural connectivity, discuss the solutions for terrestrial networks, and study the potential benefits of nonterrestrial networks. Furthermore, we present an overview of artificial intelligence (AI) techniques for improving space, air, and ground networks, hence improving connectivity in rural areas. AI enables intelligent communications and can integrate space, air, and ground networks for rural connectivity. We discuss the rural connectivity challenges and highlight the latest projects and research and the empowerment of networks using AI. Finally, we discuss the potential positive impacts of providing connectivity to rural communities.
翻訳日:2022-02-28 16:13:12 公開日:2022-02-25
# 個別処理効果推定のためのアンサンブル法

Ensemble Method for Estimating Individualized Treatment Effects ( http://arxiv.org/abs/2202.12445v1 )

ライセンス: Link先を確認
Kevin Wu Han and Han Wu(参考訳) 多くの医学・ビジネス応用において、研究者はランダム化実験のデータを用いて個別化された治療効果を推定することに興味を持っている。 例えば医療分野では、医師は臨床試験や技術企業から治療効果を学び、研究者はa/bテスト実験からそれを学ぶ。 この課題に対して、数十の機械学習モデルが提案されているが、地道処理効果が観測不可能であるため、どのモデルが問題に最適かを決定することは困難である。 競合するモデルの1つであるtextit{select} にメソッドを提案する最近の論文とは対照的に,モデルの多種多様なライブラリからの推定値を求めるアルゴリズムを提案する。 我々は、43のベンチマークデータセットのモデル選択と比較し、ほぼ毎回、ensemblingが勝つことを発見した。 理論的には、我々のアンサンブルモデルが、たとえ候補モデルの数がサンプルサイズで増大しても、検討中の最良のモデルと同じくらい(漸近的に)正確であることを証明している。

In many medical and business applications, researchers are interested in estimating individualized treatment effects using data from a randomized experiment. For example in medical applications, doctors learn the treatment effects from clinical trials and in technology companies, researchers learn them from A/B testing experiments. Although dozens of machine learning models have been proposed for this task, it is challenging to determine which model will be best for the problem at hand because ground-truth treatment effects are unobservable. In contrast to several recent papers proposing methods to \textit{select} one of these competing models, we propose an algorithm for \textit{aggregating} the estimates from a diverse library of models. We compare ensembling to model selection on 43 benchmark datasets, and find that ensembling wins almost every time. Theoretically, we prove that our ensemble model is (asymptotically) at least as accurate as the best model under consideration, even if the number of candidate models is allowed to grow with the sample size.
翻訳日:2022-02-28 16:10:46 公開日:2022-02-25
# 時間空間逆検出に基づく心電図表現の学習

Learning ECG Representations based on Manipulated Temporal-Spatial Reverse Detection ( http://arxiv.org/abs/2202.12458v1 )

ライセンス: Link先を確認
Wenrui Zhang, Shijia Geng, Shenda Hong(参考訳) 心電図(ECG)からの学習表現は、多くの下流機械学習ベースのECG分析タスクの基本的なステップとなる。 しかし、学習プロセスは常に高品質なラベル付きデータの欠如によって制限される。 データ不足に対処する既存の手法は、下流のタスクに対して満足のいく表現を提供できないか、情報表現を学ぶために類似した異なるペアを構築するのに多くの努力を必要とする。 本稿では,ecg表現を学ぶための単純かつ効果的なアプローチを提案する。 ECGの時間的・空間的特性にインスパイアされ、元の信号を水平・垂直・水平・垂直に反転させる。 学習は、元の信号を含む4種類の信号を分類することで行われる。 提案する時間空間逆検出法(t-s)の有効性を検証するために,心電図の最も一般的な課題の一つである心房細動(af)を下流課題で検出する。 その結果,本手法で学習したECG表現は,下流タスクにおいて顕著な性能を示すことがわかった。 さらに,表現的特徴空間を探索し,ECG信号のどの部分が表現に寄与するかを調べた結果,時間的逆はECG表現を学習するための空間的逆よりも有効であると結論付けた。

Learning representations from electrocardiogram (ECG) serves as a fundamental step for many downstream machine learning-based ECG analysis tasks. However, the learning process is always restricted by lack of high-quality labeled data in reality. Existing methods addressing data deficiency either cannot provide satisfied representations for downstream tasks or require too much effort to construct similar and dissimilar pairs to learn informative representations. In this paper, we propose a straightforward but effective approach to learn ECG representations. Inspired by the temporal and spatial characteristics of ECG, we flip the original signals horizontally, vertically, and both horizontally and vertically. The learning is then done by classifying the four types of signals including the original one. To verify the effectiveness of the proposed temporal-spatial (T-S) reverse detection method, we conduct a downstream task to detect atrial fibrillation (AF) which is one of the most common ECG tasks. The results show that the ECG representations learned with our method lead to remarkable performances on the downstream task. In addition, after exploring the representational feature space and investigating which parts of the ECG signal contribute to the representations, we conclude that the temporal reverse is more effective than the spatial reverse for learning ECG representations.
翻訳日:2022-02-28 16:10:28 公開日:2022-02-25
# GAME-ON: フェイクニュース検出のためのグラフ注意ネットワークに基づくマルチモーダルフュージョン

GAME-ON: Graph Attention Network based Multimodal Fusion for Fake News Detection ( http://arxiv.org/abs/2202.12478v1 )

ライセンス: Link先を確認
Mudit Dhawan, Shakshi Sharma, Aditya Kadam, Rajesh Sharma and Ponnurangam Kumaraguru(参考訳) 現代のソーシャルメディアは、大きくて影響力を増している。 これらのプラットフォームに広がるフェイクニュースは、私たちの生活に破壊的かつ有害な影響を与えます。 さらに、マルチメディアコンテンツはテキストデータよりも投稿の可視性を向上させるため、しばしば偽コンテンツ作成にマルチメディアが使われていることが観察されている。 従来のマルチモーダルベースの多くの研究は、偽コンテンツの識別における異質なモダリティのモデリングの問題に対処しようと試みている。 しかし,これらの研究は,(1)後段のモデルにおけるモーダル性に対する単純な連結演算子の利用によるモーダル間関係の非効率な符号化,(2)小さいが複雑な実生活マルチモーダルデータセット上でパラメータの不均等な数で非常に深いニューラルネットワークを訓練することにより,オーバーフィッティングの可能性が高まる。 これらの制限に対処するために、私たちは、さまざまなモダリティ内および相互間の粒度の相互作用を可能にし、マルチモーダルフェイクニュース検出のためのより堅牢なデータ表現を学習する、グラフニューラルネットワークベースのエンドツーエンドトレーニング可能なフレームワークであるgame-onを提案する。 評価にはtwitterとweiboという2つのフェイクニュースデータセットを使っています。 当社のモデルはTwitter上で平均11%向上し、Weiboでは2.6%のマージンで競争力を維持する一方で、最も優れた最先端ベースラインよりも65%少ないパラメータを使用する。

Social media in present times has a significant and growing influence. Fake news being spread on these platforms have a disruptive and damaging impact on our lives. Furthermore, as multimedia content improves the visibility of posts more than text data, it has been observed that often multimedia is being used for creating fake content. A plethora of previous multimodal-based work has tried to address the problem of modeling heterogeneous modalities in identifying fake content. However, these works have the following limitations: (1) inefficient encoding of inter-modal relations by utilizing a simple concatenation operator on the modalities at a later stage in a model, which might result in information loss; (2) training very deep neural networks with a disproportionate number of parameters on small but complex real-life multimodal datasets result in higher chances of overfitting. To address these limitations, we propose GAME-ON, a Graph Neural Network based end-to-end trainable framework that allows granular interactions within and across different modalities to learn more robust data representations for multimodal fake news detection. We use two publicly available fake news datasets, Twitter and Weibo, for evaluations. Our model outperforms on Twitter by an average of 11% and keeps competitive performance on Weibo, within a 2.6% margin, while using 65% fewer parameters than the best comparable state-of-the-art baseline.
翻訳日:2022-02-28 16:10:07 公開日:2022-02-25
# 深層強化学習のための適応型tソフトアップデート

Consolidated Adaptive T-soft Update for Deep Reinforcement Learning ( http://arxiv.org/abs/2202.12504v1 )

ライセンス: Link先を確認
Taisuke Kobayashi(参考訳) 深部強化学習(DRL)の需要は徐々に増加し、ロボットが複雑なタスクを実行できるようになり、DRLは不安定であることが知られている。 学習を安定させる技術として、メインネットワークにゆっくりと漸近的に一致するターゲットネットワークを用いて、安定した擬似教師付き信号を生成する。 近年,ターゲットネットワークのノイズロスト更新ルールとしてT-softが提案され,DRLの性能向上に寄与している。 しかし、T-Soft更新のノイズロバスト性は、タスクごとに調整すべきハイパーパラメータによって規定され、単純化された実装によって劣化する。 本研究では,最近開発された AdaTerm の更新ルールを利用して,適応型 T-soft (AT-soft) 更新を開発する。 また、ターゲットネットワークをターゲットネットワークに戻すための新たな統合により、ターゲットネットワークがメインネットワークと漸近的に一致しないという懸念が軽減される。 いわゆる統合AT-soft(CAT-soft)更新は数値シミュレーションにより検証される。

Demand for deep reinforcement learning (DRL) is gradually increased to enable robots to perform complex tasks, while DRL is known to be unstable. As a technique to stabilize its learning, a target network that slowly and asymptotically matches a main network is widely employed to generate stable pseudo-supervised signals. Recently, T-soft update has been proposed as a noise-robust update rule for the target network and has contributed to improving the DRL performance. However, the noise robustness of T-soft update is specified by a hyperparameter, which should be tuned for each task, and is deteriorated by a simplified implementation. This study develops adaptive T-soft (AT-soft) update by utilizing the update rule in AdaTerm, which has been developed recently. In addition, the concern that the target network does not asymptotically match the main network is mitigated by a new consolidation for bringing the main network back to the target network. This so-called consolidated AT-soft (CAT-soft) update is verified through numerical simulations.
翻訳日:2022-02-28 16:09:39 公開日:2022-02-25
# ハリケーン避難時のネットワーク全体の動的交通予測のための深層学習手法

A Deep Learning Approach for Network-wide Dynamic Traffic Prediction during Hurricane Evacuation ( http://arxiv.org/abs/2202.12505v1 )

ライセンス: Link先を確認
Rezaur Rahman and Samiul Hasan(参考訳) 積極的避難交通管理は,高時空間分解能のリアルタイムモニタリングと交通流予測に大きく依存する。 しかし,予想されるハリケーン経路の急激な変化と世帯避難行動による不確実性のため,避難交通予測は困難である。 さらに、時空間の交通流パターンをモデル化するには、長い期間にわたって広範なデータを必要とするが、避難は通常2日から5日間続く。 本稿では,ネットワーク規模での避難交通量予測のための新しいデータ駆動手法を提案する。 ハリケーン避難のネットワーク力学を学習するための動的グラフ畳み込みLSTM(DGCN-LSTM)モデルを開発した。 まず,非避難期間トラフィックデータに対するモデルをトレーニングし,RMSE値226.84で、非避難期間トラフィックを予測するための既存のディープラーニングモデルより優れていることを示す。 しかし,避難期間にモデルを適用すると,RMSE値は1440.99に増加した。 非避難期間から避難期間への情報(ネットワークのダイナミクス)の転送を制御するため,避難区域からの距離,上陸までの時間,その他の地域レベルの特徴など,避難交通需要に関連する付加的な特徴を備えた移動学習アプローチを採用することで,この問題を克服する。 最終移行学習DGCN-LSTMモデルは避難交通流を予測する(RMSE=399.69)。 実装されたモデルは、より長い予測水平線(6時間)で避難トラフィックを予測するために適用することができる。 交通機関が適切な交通管理戦略を発動し、交通回避の遅れを軽減できるよう支援する。

Proactive evacuation traffic management largely depends on real-time monitoring and prediction of traffic flow at a high spatiotemporal resolution. However, evacuation traffic prediction is challenging due to the uncertainties caused by sudden changes in projected hurricane paths and consequently household evacuation behavior. Moreover, modeling spatiotemporal traffic flow patterns requires extensive data over a longer time period, whereas evacuations typically last for 2 to 5 days. In this paper, we present a novel data-driven approach for predicting evacuation traffic at a network scale. We develop a dynamic graph convolution LSTM (DGCN-LSTM) model to learn the network dynamics of hurricane evacuation. We first train the model for non-evacuation period traffic data showing that the model outperforms existing deep learning models for predicting non-evacuation period traffic with an RMSE value of 226.84. However, when we apply the model for evacuation period, the RMSE value increased to 1440.99. We overcome this issue by adopting a transfer learning approach with additional features related to evacuation traffic demand such as distance from the evacuation zone, time to landfall, and other zonal level features to control the transfer of information (network dynamics) from non-evacuation periods to evacuation periods. The final transfer learned DGCN-LSTM model performs well to predict evacuation traffic flow (RMSE=399.69). The implemented model can be applied to predict evacuation traffic over a longer forecasting horizon (6 hour). It will assist transportation agencies to activate appropriate traffic management strategies to reduce delays for evacuating traffic.
翻訳日:2022-02-28 16:09:23 公開日:2022-02-25
# ドメイン適応:コヒーレント光学系におけるニューラルネットワーク等化器のキーエンバーサ

Domain Adaptation: the Key Enabler of Neural Network Equalizers in Coherent Optical Systems ( http://arxiv.org/abs/2202.12689v1 )

ライセンス: Link先を確認
Pedro J. Freire, Bernhard Spinnler, Daniel Abode, Jaroslaw E. Prilepsky, Abdallah A. I. Ali, Nelson Costa, Wolfgang Schairer, Antonio Napoli, Andrew D. Ellis, Sergei K. Turitsyn(参考訳) 合成データを用いて,実伝送用ニューラルネットワークベースの等化器の校正のための領域適応とランダム化手法を提案する。 このアプローチは最大99\%のトレーニングプロセス削減を実現し、3つの実験的なセットアップで実証した。

We introduce the domain adaptation and randomization approach for calibrating neural network-based equalizers for real transmissions, using synthetic data. The approach renders up to 99\% training process reduction, which we demonstrate in three experimental setups.
翻訳日:2022-02-28 16:09:00 公開日:2022-02-25
# 比較的滑らかな凸コスト関数に対するオンラインミラー降下の動的後悔

Dynamic Regret of Online Mirror Descent for Relatively Smooth Convex Cost Functions ( http://arxiv.org/abs/2202.12843v1 )

ライセンス: Link先を確認
Nima Eshraghi and Ben Liang(参考訳) 動的環境におけるオンライン凸最適化アルゴリズムの性能は、時間変動コンパレータのシーケンスに対して決定者のパフォーマンスを測定する動的後悔の観点から表されることが多い。 動的後悔の分析において、先行研究はしばしばコスト関数のリプシッツ連続性や一様滑らかさを仮定する。 しかし、実際にはこれらの条件を満たさない重要なコスト関数が多数存在する。 このような場合、事前解析は適用できず、最適化性能を保証できない。 このレターでは、リプシッツ連続性も均一な滑らか性も存在しない場合でも、動的後悔の束縛が可能であることを示す。 コスト関数に対するより穏やかな要求であるユーザ定義正規化関数に対して、相対的滑らかさの概念を採用する。 まず, 相対的な滑らかさの下では, 動的後悔は経路長と機能的変動に基づいて上限を持つことを示す。 次に、相対的に強い凸性の付加条件により、動的後悔は経路長と勾配変化によって境界付けられることを示す。 これらの残念な境界は、異なるアプリケーションドメインで発生する様々なオンライン最適化問題に対して、パフォーマンスを保証する。 最後に,コスト関数が比較的滑らかな正規化関数を採用する利点を示す数値実験を行う。

The performance of online convex optimization algorithms in a dynamic environment is often expressed in terms of the dynamic regret, which measures the decision maker's performance against a sequence of time-varying comparators. In the analysis of the dynamic regret, prior works often assume Lipschitz continuity or uniform smoothness of the cost functions. However, there are many important cost functions in practice that do not satisfy these conditions. In such cases, prior analyses are not applicable and fail to guarantee the optimization performance. In this letter, we show that it is possible to bound the dynamic regret, even when neither Lipschitz continuity nor uniform smoothness is present. We adopt the notion of relative smoothness with respect to some user-defined regularization function, which is a much milder requirement on the cost functions. We first show that under relative smoothness, the dynamic regret has an upper bound based on the path length and functional variation. We then show that with an additional condition of relatively strong convexity, the dynamic regret can be bounded by the path length and gradient variation. These regret bounds provide performance guarantees to a wide variety of online optimization problems that arise in different application domains. Finally, we present numerical experiments that demonstrate the advantage of adopting a regularization function under which the cost functions are relatively smooth.
翻訳日:2022-02-28 16:07:13 公開日:2022-02-25
# AutoFR: 広告ブロックのための自動フィルタルール生成

AutoFR: Automated Filter Rule Generation for Adblocking ( http://arxiv.org/abs/2202.12872v1 )

ライセンス: Link先を確認
Hieu Le, Salma Elmalaki, Athina Markopoulou, and Zubair Shafiq(参考訳) adblockingはフィルタリストに依存しており、手動でキュレートされ、リスト作成者の小さなコミュニティによって維持される。 この手動プロセスは手間がかかり、多くのサイトや時間とともにうまくスケールしない。 本稿では,ルール生成と評価のプロセスを完全に自動化する強化学習フレームワークであるAutoFRを紹介する。 ブロック広告と破損回避のトレードオフを制御しながら,マルチアームバンディットに基づくフィルタルールを生成するアルゴリズムを設計する。 我々は、効率と有効性の観点から、何千ものサイトでAutoFRの実装をテストする。 AutoFRは効率的で、サイトのフィルタルールを生成するのに数分しかかからない。 autofrも有効で、広告の86%をブロックできるフィルタルールを生成する。 autofrが生成するフィルタルールは、新規および未発見のサイトにうまく一般化する。 我々は,自動フィルタルール生成において,広告ブロックコミュニティを支援するためにAutoFRを構想する。

Adblocking relies on filter lists, which are manually curated and maintained by a small community of filter list authors. This manual process is laborious and does not scale well to a large number of sites and over time. We introduce AutoFR, a reinforcement learning framework to fully automate the process of filter rule creation and evaluation. We design an algorithm based on multi-arm bandits to generate filter rules while controlling the trade-off between blocking ads and avoiding breakage. We test our implementation of AutoFR on thousands of sites in terms of efficiency and effectiveness. AutoFR is efficient: it takes only a few minutes to generate filter rules for a site. AutoFR is also effective: it generates filter rules that can block 86% of the ads, as compared to 87% by EasyList while achieving comparable visual breakage. The filter rules generated by AutoFR generalize well to new and unseen sites. We envision AutoFR to assist the adblocking community in automated filter rule generation at scale.
翻訳日:2022-02-28 16:06:54 公開日:2022-02-25
# LF-VIO:負の平面を持つ大視野カメラのための視覚慣性オドメトリーフレームワーク

LF-VIO: A Visual-Inertial-Odom etry Framework for Large Field-of-View Cameras with Negative Plane ( http://arxiv.org/abs/2202.12613v1 )

ライセンス: Link先を確認
Ze Wang, Kailun Yang, Hao Shi, Kaiwei Wang(参考訳) 視覚慣性計測は自律走行とロボット工学の分野で広く注目を集めている。 視野の大きさ (FoV) は視覚オドメトリー (VO) や視覚慣性オドメトリー (VIO) において重要な役割を担っている。 しかし、カメラのフィールドが負の半平面に達すると、画像特徴点を表すために[u,v,1]^Tを単に使うことはできない。 この問題に対処するために、非常に大きなFoVを持つカメラのためのリアルタイムVIOフレームワークLF-VIOを提案する。 単位長の3次元ベクトルを利用して特徴点を表現し、この課題を克服するために一連のアルゴリズムを設計する。 そこで本稿では,パノラマ視覚オドメトリーデータセットの不足に対処するために,パノラマ環状レンズ(pal)システムを用いて収集したパノラマ視覚オドメトリデータセットと,360x(40-120)度の全フォブとimuセンサを提案する。 PALVIOベンチマークとFoVの360x(0-93.5)度での公開魚眼カメラデータセットの両方で、総合的な実験によりLF-VIOが検証された。 LF-VIOは最先端のビジュアル慣性オードメトリー法より優れている。 私たちのデータセットとコードはhttps://github.com/f lysoaryun/LF-VIOで公開されています。

Visual-inertial-odom etry has attracted extensive attention in the field of autonomous driving and robotics. The size of Field of View (FoV) plays an important role in Visual-Odometry (VO) and Visual-Inertial-Odom etry (VIO), as a large FoV enables to perceive a wide range of surrounding scene elements and features. However, when the field of the camera reaches the negative half plane, one cannot simply use [u,v,1]^T to represent the image feature points anymore. To tackle this issue, we propose LF-VIO, a real-time VIO framework for cameras with extremely large FoV. We leverage a three-dimensional vector with unit length to represent feature points, and design a series of algorithms to overcome this challenge. To address the scarcity of panoramic visual odometry datasets with ground-truth location and pose, we present the PALVIO dataset, collected with a Panoramic Annular Lens (PAL) system with an entire FoV of 360x(40-120) degrees and an IMU sensor. With a comprehensive variety of experiments, the proposed LF-VIO is verified on both the established PALVIO benchmark and a public fisheye camera dataset with a FoV of 360x(0-93.5) degrees. LF-VIO outperforms state-of-the-art visual-inertial-odom etry methods. Our dataset and code are made publicly available at https://github.com/f lysoaryun/LF-VIO
翻訳日:2022-02-28 16:06:42 公開日:2022-02-25
# インスタンス構成GANを用いたfMRIパターンからの知覚画像の再構成と意味脳探索

Reconstruction of Perceived Images from fMRI Patterns and Semantic Brain Exploration using Instance-Conditioned GANs ( http://arxiv.org/abs/2202.12692v1 )

ライセンス: Link先を確認
Furkan Ozcelik, Bhavin Choksi, Milad Mozafari, Leila Reddy, Rufin VanRullen(参考訳) fmri信号から知覚された自然画像の再構成は、神経デコード研究の最も興味深いトピックの1つである。 以前の研究では、低レベルの画像の特徴または意味/高レベルの側面の再構築に成功したが、どちらもまれである。 そこで本研究では, インスタンス定義型GAN(IC-GAN)モデルを用いて, fMRIパターンからの画像を, 正確なセマンティック属性と保存低レベル詳細の両方で再構成した。 IC-GANモデルは、自己教師付き学習モデル(SwAV ResNet-50)を介して対象画像から抽出された119ディムノイズベクトルと2048ディムインスタンス特徴ベクトルを入力とし、これらの特徴はIC-GAN画像生成の条件付けとして機能し、ノイズベクトルはサンプル間の可変性を導入する。 我々はリッジ回帰モデルを訓練し,対応するfmriパターンからの刺激のインスタンス特徴,ノイズベクトル,高密度ベクター(ic-gan生成器の第1高密度層の出力)を予測する。 IC-GANジェネレータを用いて,これらのfMRI予測変数に基づいて新しいテスト画像の再構成を行った。 生成した画像は、元のテスト画像のセマンティックな属性を捉えながら、低レベルの画像の詳細に比較的忠実なまま、最先端の結果を示した。 最後に、学習された回帰モデルとIC-GANジェネレータを用いて、人間の脳の各領域を最大限に駆動する意味的特徴を体系的に探索し視覚化する。

Reconstructing perceived natural images from fMRI signals is one of the most engaging topics of neural decoding research. Prior studies had success in reconstructing either the low-level image features or the semantic/high-level aspects, but rarely both. In this study, we utilized an Instance-Conditioned GAN (IC-GAN) model to reconstruct images from fMRI patterns with both accurate semantic attributes and preserved low-level details. The IC-GAN model takes as input a 119-dim noise vector and a 2048-dim instance feature vector extracted from a target image via a self-supervised learning model (SwAV ResNet-50); these instance features act as a conditioning for IC-GAN image generation, while the noise vector introduces variability between samples. We trained ridge regression models to predict instance features, noise vectors, and dense vectors (the output of the first dense layer of the IC-GAN generator) of stimuli from corresponding fMRI patterns. Then, we used the IC-GAN generator to reconstruct novel test images based on these fMRI-predicted variables. The generated images presented state-of-the-art results in terms of capturing the semantic attributes of the original test images while remaining relatively faithful to low-level image details. Finally, we use the learned regression model and the IC-GAN generator to systematically explore and visualize the semantic features that maximally drive each of several regions-of-interest in the human brain.
翻訳日:2022-02-28 16:06:14 公開日:2022-02-25
# プログラミング言語処理のための多視点グラフ表現:アルゴリズム検出の検討

Multi-View Graph Representation for Programming Language Processing: An Investigation into Algorithm Detection ( http://arxiv.org/abs/2202.12481v1 )

ライセンス: Link先を確認
Ting Long, Yutong Xie, Xianyu Chen, Weinan Zhang, Qinxiang Cao, Yong Yu(参考訳) プログラムのソースコードを自動抽出したベクトルに変換するプログラム表現は、プログラミング言語処理(PLP)の根本的な問題である。 最近の研究は、ソースコード構造に基づいたニューラルネットワークによるプログラムの表現を試みる。 しかし、このような手法はしばしば構文に焦点を合わせ、プログラムの単一の視点のみを考慮し、モデルの表現力を制限する。 本稿では,マルチビューグラフ(MVG)プログラム表現法を提案する。 mvgはコードのセマンティクスにもっと注意を払って、複数のビューとしてデータフローとコントロールフローの両方を同時に含む。 これらのビューはグラフニューラルネットワーク(GNN)によって合成され、さまざまな側面をカバーする包括的なプログラム表現を得る。 PLPの重要かつ挑戦的なサブフィールドであるアルゴリズム検出の文脈において,提案したMVGアプローチを徹底的に評価した。 具体的には、公開データセットpoj-104を使用し、新しい挑戦的なデータセットalg-109を構築してメソッドをテストする。 実験では、mvgは以前の手法を大幅に上回り、我々のモデルがソースコードを表現する強力な能力を示している。

Program representation, which aims at converting program source code into vectors with automatically extracted features, is a fundamental problem in programming language processing (PLP). Recent work tries to represent programs with neural networks based on source code structures. However, such methods often focus on the syntax and consider only one single perspective of programs, limiting the representation power of models. This paper proposes a multi-view graph (MVG) program representation method. MVG pays more attention to code semantics and simultaneously includes both data flow and control flow as multiple views. These views are then combined and processed by a graph neural network (GNN) to obtain a comprehensive program representation that covers various aspects. We thoroughly evaluate our proposed MVG approach in the context of algorithm detection, an important and challenging subfield of PLP. Specifically, we use a public dataset POJ-104 and also construct a new challenging dataset ALG-109 to test our method. In experiments, MVG outperforms previous methods significantly, demonstrating our model's strong capability of representing source code.
翻訳日:2022-02-28 16:05:33 公開日:2022-02-25
# 機械学習による多面格子の洗練戦略と仮想要素法および多面不連続ガレルキン法への応用

Machine Learning based refinement strategies for polyhedral grids with applications to Virtual Element and polyhedral Discontinuous Galerkin methods ( http://arxiv.org/abs/2202.12654v1 )

ライセンス: Link先を確認
P. F. Anotnietti, F. Dassi, E. Manuzzi(参考訳) 本稿では,多面体グリッドの細分化を扱うための機械学習手法に基づく2つの新しい戦略を提案する。 1つはk平均クラスタリングアルゴリズムを用いて、精製されるポリヘドロンの点を分割する。 この戦略はよく知られた遠心性ボロノイ音節の変種である。 2つ目は、畳み込みニューラルネットワークを使用して、要素の「形」を分類し、「アドホック」精製基準を定義する。 この戦略は、オンライン計算コストの低いk平均戦略を含む既存の洗練戦略を強化するために使用できる。 本稿では,任意の形状の多面体要素をサポートする有限要素法であるVirtual Element Method(VEM)とPolygonal Discontinuous Galerkin(PolyDG)の2つのファミリを考慮したアルゴリズムを提案する。 これらの戦略が下層グリッドの構造と品質を保ち、全体的な計算コストとメッシュの複雑さを低減できることを実証する。

We propose two new strategies based on Machine Learning techniques to handle polyhedral grid refinement, to be possibly employed within an adaptive framework. The first one employs the k-means clustering algorithm to partition the points of the polyhedron to be refined. This strategy is a variation of the well known Centroidal Voronoi Tessellation. The second one employs Convolutional Neural Networks to classify the "shape" of an element so that "ad-hoc" refinement criteria can be defined. This strategy can be used to enhance existing refinement strategies, including the k-means strategy, at a low online computational cost. We test the proposed algorithms considering two families of finite element methods that support arbitrarily shaped polyhedral elements, namely the Virtual Element Method (VEM) and the Polygonal Discontinuous Galerkin (PolyDG) method. We demonstrate that these strategies do preserve the structure and the quality of the underlaying grids, reducing the overall computational cost and mesh complexity.
翻訳日:2022-02-28 16:04:12 公開日:2022-02-25
# シミュレーション多面体供給チェーンにおけるモデルベースモデルとモデルフリーコストの低減

Behaviorally Grounded Model-Based and Model Free Cost Reduction in a Simulated Multi-Echelon Supply Chain ( http://arxiv.org/abs/2202.12786v1 )

ライセンス: Link先を確認
James Paine(参考訳) 注文信号の増幅と位相シフトは、一般にブルホイップと呼ばれ、現実世界の在庫管理システム、在庫、そして安全ストックビルの不要な資本予約の両方に過度な負担を負う。 bullwhipは、在庫管理における残響的な結果に関する古典的な、しかし永続的な問題である。 ブルウィップの研究は、この現象に対する行動の影響を一貫して強調し、介入を提案する行動順序モデルを活用している。 しかし、最近のモデルフリーアプローチも成功している。 本研究では,モデルフリーな2重深層qネットワーク強化学習手法と並行して,振る舞いに基づくモデルベースアプローチを用いてブルホイップを緩和するアルゴリズム的アプローチを開発した。 モデルベースおよびモデルフリーアプローチの性能を直接比較した上で,このモデルフリーアーキテクチャのマルチエキロンサプライチェーンに対する不完全な情報共有と情報遅延に対する有用性について検討する。 そこで本研究では,事前行動操作管理文献の文脈におけるモデルベースアプローチの探求から得られた知見と,行動的接地型サプライチェーン管理問題へのアプローチにおけるモデルベースおよびモデルフリーアプローチの相補的性質を強調した。

Amplification and phase shift in ordering signals, commonly referred to as bullwhip, are responsible for both excessive strain on real world inventory management systems, stock outs, and unnecessary capital reservation though safety stock building. Bullwhip is a classic, yet persisting, problem with reverberating consequences in inventory management. Research on bullwhip has consistently emphasized behavioral influences for this phenomenon and leveraged behavioral ordering models to suggest interventions. However more recent model-free approaches have also seen success. In this work, the author develops algorithmic approaches towards mitigating bullwhip using both behaviorally grounded model-based approaches alongside a model-free dual deep Q-network reinforcement learning approach. In addition to exploring the utility of this specific model-free architecture to multi-echelon supply chains with imperfect information sharing and information delays, the author directly compares the performance of these model-based and model-free approaches. In doing so, this work highlights both the insights gained from exploring model-based approaches in the context of prior behavioral operations management literature and emphasizes the complementary nature of model-based and model-free approaches in approaching behaviorally grounded supply chain management problems.
翻訳日:2022-02-28 16:03:38 公開日:2022-02-25
# (参考訳) 勾配降下学習にはニューラルネットワークとターゲットの初期アライメントが必要である [全文訳有]

An initial alignment between neural network and target is needed for gradient descent to learn ( http://arxiv.org/abs/2202.12846v1 )

ライセンス: CC BY 4.0
Emmanuel Abbe, Elisabetta Cornacchia, Jan H\k{a}z{\l}a, Christopher Marquis(参考訳) 本稿では,初期化時のニューラルネットワークと目標関数との「初期アライメント」(inal)の概念を紹介する。 ネットワークと対象関数が顕著な慣性を持たない場合、正規化i.i.d.初期化を持つ完全連結ネットワーク上の雑音勾配降下は多項式時間では学習されないことが証明される。 したがって、アーキテクチャ設計にはターゲットに関するある程度の知識(inalによって測定される)が必要である。 また、[AS20]で提起されたオープンな問題に対する回答も提供します。 結果は,INAL以外の対象関数の明示的な知識を必要とせずに,対称ニューラルネットワーク上での降下アルゴリズムの下位バウンドを導出することに基づく。

This paper introduces the notion of "Initial Alignment" (INAL) between a neural network at initialization and a target function. It is proved that if a network and target function do not have a noticeable INAL, then noisy gradient descent on a fully connected network with normalized i.i.d. initialization will not learn in polynomial time. Thus a certain amount of knowledge about the target (measured by the INAL) is needed in the architecture design. This also provides an answer to an open problem posed in [AS20]. The results are based on deriving lower-bounds for descent algorithms on symmetric neural networks without explicit knowledge of the target function beyond its INAL.
翻訳日:2022-02-28 16:01:42 公開日:2022-02-25
# 教師なしバックグラウンドサブトラクションアルゴリズムを組み合わせることで達成可能な性能の探索

An exploration of the performances achievable by combining unsupervised background subtraction algorithms ( http://arxiv.org/abs/2202.12563v1 )

ライセンス: Link先を確認
S\'ebastien Pi\'erard and Marc Braham and Marc Van Droogenbroeck(参考訳) 背景サブトラクション(bgs)は、ビデオ中の動き検出を行うための一般的な選択である。 毎年何百ものBGSアルゴリズムがリリースされているが、それらを組み合わせて動きを検出することは、ほとんど探索されていない。 組み合わせ戦略によって、この膨大な量の利用可能なBGSアルゴリズムを活用でき、パフォーマンス改善のための大きなスペースを提供できることがわかった。 本稿では、ROC空間とF1スコアの両面において、26個の教師なしBGSアルゴリズムの出力を組み合わせた6つの戦略で達成可能な性能のセットをCDnet 2014データセット上で検討する。 選択された戦略は、決定論と非決定論の両方、投票と学習を含む、大きな戦略のパネルの代表である。 本実験では,IUTIS-5とCNN-SFCを比較し,各アルゴリズムの性能と,それらの組み合わせによって達成可能な最高の性能との間に重要なギャップがあることを6つの結論として報告した。

Background subtraction (BGS) is a common choice for performing motion detection in video. Hundreds of BGS algorithms are released every year, but combining them to detect motion remains largely unexplored. We found that combination strategies allow to capitalize on this massive amount of available BGS algorithms, and offer significant space for performance improvement. In this paper, we explore sets of performances achievable by 6 strategies combining, pixelwise, the outputs of 26 unsupervised BGS algorithms, on the CDnet 2014 dataset, both in the ROC space and in terms of the F1 score. The chosen strategies are representative for a large panel of strategies, including both deterministic and non-deterministic ones, voting and learning. In our experiments, we compare our results with the state-of-the-art combinations IUTIS-5 and CNN-SFC, and report six conclusions, among which the existence of an important gap between the performances of the individual algorithms and the best performances achievable by combining them.
翻訳日:2022-02-28 15:25:38 公開日:2022-02-25
# 空間構造的多様性推論によるポイントクラウド意味セグメンテーションのためのアクティブラーニング

Active Learning for Point Cloud Semantic Segmentation via Spatial-Structural Diversity Reasoning ( http://arxiv.org/abs/2202.12588v1 )

ライセンス: Link先を確認
Feifei Shao, Yawei Luo, Ping Liu, Jie Chen, Yi Yang, Yulei Lu, Jun Xiao(参考訳) 高価なアノテーションコストは、ポイントクラウドセマンティックセグメンテーション技術の開発における主要な制約として知られている。 本稿では,この問題に取り組むための新しいアクティブラーニングベース手法を提案する。 SSDR-ALと呼ばれる本手法では,従来の点群をスーパーポイントに分類し,ラベル取得において最も情報に富む代表的点を選択する。 スーパーポイントの空間的および構造的多様性を考慮したグラフ推論ネットワークを用いて選択機構を実現する。 SSDR-ALをより現実的なシナリオで展開するために,従来の支配的なラベル付け手法がスーパーポイントで導入した「ノイズアノテーション」問題に対処するために,ノイズ認識反復ラベル方式を設計する。 2点クラウドベンチマークでの大規模な実験は、セマンティックセグメンテーションタスクにおけるSSDR-ALの有効性を示す。 特に、SSDR-ALはラベル付きセットが小さい場合、S3DISとSemantic3Dのデータセット上での完全な教師付き学習のパフォーマンスを達成するのに、SSDR-ALは5.7\%と1.9\%のアノテーションコストしか必要としない。

The expensive annotation cost is notoriously known as a main constraint for the development of the point cloud semantic segmentation technique. In this paper, we propose a novel active learning-based method to tackle this problem. Dubbed SSDR-AL, our method groups the original point clouds into superpoints and selects the most informative and representative ones for label acquisition. We achieve the selection mechanism via a graph reasoning network that considers both the spatial and structural diversity of the superpoints. To deploy SSDR-AL in a more practical scenario, we design a noise aware iterative labeling scheme to confront the "noisy annotation" problem introduced by previous dominant labeling methods in superpoints. Extensive experiments on two point cloud benchmarks demonstrate the effectiveness of SSDR-AL in the semantic segmentation task. Particularly, SSDR-AL significantly outperforms the baseline method when the labeled sets are small, where SSDR-AL requires only $5.7\%$ and $1.9\%$ annotation costs to achieve the performance of $90\%$ fully supervised learning on S3DIS and Semantic3D datasets, respectively.
翻訳日:2022-02-28 15:25:22 公開日:2022-02-25
# 視覚常識推論のための共同解答と説明

Joint Answering and Explanation for Visual Commonsense Reasoning ( http://arxiv.org/abs/2202.12626v1 )

ライセンス: Link先を確認
Zhenyang Li, Yangyang Guo, Kejie Wang, Yinwei Wei, Liqiang Nie, Mohan Kankanhalli(参考訳) Visual Commonsense Reasoning (VCR)はVisual Question Answering (VQA)の難解な拡張のひとつと見なされ、よりハイレベルなビジュアル理解を目指す。 与えられた画像に対する質問応答と、回答説明のための合理的推論の2つの必須プロセスで構成されている。 長年にわたって、VCRに対処する様々な手法がベンチマークデータセットのパフォーマンスを向上してきた。 これらの方法が重要であるにもかかわらず、2つのプロセスを別々に扱い、VCRを2つの無関係なVQAインスタンスに分解する。 その結果、質問応答と合理的推論の間の重要な関係が中断され、既存の努力が視覚的推論に忠実でない。 この問題を実証的に研究するために,言語ショートカットと一般化能力の両方の観点から詳細な調査を行い,この治療の落とし穴を検証する。 そこで本論文では,質問応答と推論プロセスの合理化を両立させるために,プラグアンドプレイ方式の知識蒸留拡張フレームワークを提案する。 重要な貢献は、プロセスの接続を行うブリッジとして機能する新しいブランチの導入である。 我々のフレームワークはモデルに依存しないので、既存の一般的なベースラインに適用し、ベンチマークデータセット上での有効性を検証する。 実験結果に詳述したように,本フレームワークを組み込んだ場合,これらのベースラインは一貫した,重要な性能向上を実現し,プロセス結合の実現可能性,提案フレームワークの優位性を実証する。

Visual Commonsense Reasoning (VCR), deemed as one challenging extension of the Visual Question Answering (VQA), endeavors to pursue a more high-level visual comprehension. It is composed of two indispensable processes: question answering over a given image and rationale inference for answer explanation. Over the years, a variety of methods tackling VCR have advanced the performance on the benchmark dataset. Despite significant as these methods are, they often treat the two processes in a separate manner and hence decompose the VCR into two irrelevant VQA instances. As a result, the pivotal connection between question answering and rationale inference is interrupted, rendering existing efforts less faithful on visual reasoning. To empirically study this issue, we perform some in-depth explorations in terms of both language shortcuts and generalization capability to verify the pitfalls of this treatment. Based on our findings, in this paper, we present a plug-and-play knowledge distillation enhanced framework to couple the question answering and rationale inference processes. The key contribution is the introduction of a novel branch, which serves as the bridge to conduct processes connecting. Given that our framework is model-agnostic, we apply it to the existing popular baselines and validate its effectiveness on the benchmark dataset. As detailed in the experimental results, when equipped with our framework, these baselines achieve consistent and significant performance improvements, demonstrating the viability of processes coupling, as well as the superiority of the proposed framework.
翻訳日:2022-02-28 15:24:59 公開日:2022-02-25
# モダリティバイアス認識と低減について

On Modality Bias Recognition and Reduction ( http://arxiv.org/abs/2202.12690v1 )

ライセンス: Link先を確認
Yangyang Guo, Liqiang Nie, Harry Cheng, Zhiyong Cheng, Mohan Kankanhalli, Alberto Del Bimbo(参考訳) マルチモーダルデータにおける各モダリティを寄与させることは、多目的マルチモーダルモデルを学ぶ上で極めて重要である。 しかし、既存の手法はモデルトレーニングの間、しばしば1つまたは少数のモダリティによって支配され、結果として準最適性能をもたらす。 本稿では,この問題をモダリティバイアスと呼び,マルチモーダル分類を体系的かつ包括的に研究しようとする。 いくつかの経験的分析を踏み込んだ結果、このモジュラリティがインスタンスラベルと突発的な相関を持つため、一つのモジュラリティがモデル予測にもっと影響を与えていることが判明した。 主にモダリティバイアス問題の評価を容易にするために,色付き数字認識タスクと映像行動認識タスクの2つのデータセットを,OoD(Out-of-Distribu tion)プロトコルに従って構築する。 視覚的質問応答タスクにおけるベンチマークと協調することにより,oodデータセットにおける既存手法の性能低下を実証的に正当化し,モダリティバイアス学習を正当化する証拠となる。 さらに,この問題を解決するために,各ラベルの特徴空間をトレーニングセット統計に基づいて適応的に学習するプラグアンドプレイ損失関数法を提案する。 その後,本手法を8つのベースラインに適用し,本手法の有効性を検証した。 上記の3つの課題に関する4つのデータセットの結果から,本手法はベースラインと比較して顕著な性能向上を実現し,モダリティバイアス問題を低減した。

Making each modality in multi-modal data contribute is of vital importance to learning a versatile multi-modal model. Existing methods, however, are often dominated by one or few of modalities during model training, resulting in sub-optimal performance. In this paper, we refer to this problem as modality bias and attempt to study it in the context of multi-modal classification systematically and comprehensively. After stepping into several empirical analysis, we recognize that one modality affects the model prediction more just because this modality has a spurious correlation with instance labels. In order to primarily facilitate the evaluation on the modality bias problem, we construct two datasets respectively for the colored digit recognition and video action recognition tasks in line with the Out-of-Distribution (OoD) protocol. Collaborating with the benchmarks in the visual question answering task, we empirically justify the performance degradation of the existing methods on these OoD datasets, which serves as evidence to justify the modality bias learning. In addition, to overcome this problem, we propose a plug-and-play loss function method, whereby the feature space for each label is adaptively learned according to the training set statistics. Thereafter, we apply this method on eight baselines in total to test its effectiveness. From the results on four datasets regarding the above three tasks, our method yields remarkable performance improvements compared with the baselines, demonstrating its superiority on reducing the modality bias problem.
翻訳日:2022-02-28 15:24:34 公開日:2022-02-25
# ニューラルフュージョン:人間と物体の相互作用によるニューラルボリュームレンダリング

NeuralFusion: Neural Volumetric Rendering under Human-object Interactions ( http://arxiv.org/abs/2202.12825v1 )

ライセンス: Link先を確認
Yuheng Jiang, Suyi Jiang, Guoxing Sun, Zhuo Su, Kaiwen Guo, Minye Wu, Jingyi Yu, Lan Xu(参考訳) 没入型VR/AR体験には, 人間の活動の4次元再構築とレンダリングが不可欠である。 近年の進歩は、細かなマルチビューRGBカメラから入力画像の細部まで詳細な形状やテクスチャの再現には至っていない。 本稿では,人間の活動の高品質な形状とフォトリアリスティックなテクスチャを任意の視点で生成する,リアルタイムのニューラルネットワークによるパフォーマンスキャプチャとレンダリングシステムであるneuralhumanfvvを提案する。 本研究では,リアルタイム暗黙的幾何推論のための階層的サンプリング戦略と,高分解能(1kなど)とフォトリアリスティックなテクスチャを新たに生成するニューラルブレンディング方式を提案する。 さらに、我々はニューラルノーマルブレンディングを採用し、幾何学の詳細を高め、ニューラルジオメトリーとテクスチャレンダリングをマルチタスク学習フレームワークに定式化する。 広範な実験により,高品質な幾何学とフォトリアリスティックな自由視点再構成を実現するためのアプローチの有効性が実証された。

4D reconstruction and rendering of human activities is critical for immersive VR/AR experience. Recent advances still fail to recover fine geometry and texture results with the level of detail present in the input images from sparse multi-view RGB cameras. In this paper, we propose NeuralHumanFVV, a real-time neural human performance capture and rendering system to generate both high-quality geometry and photo-realistic texture of human activities in arbitrary novel views. We propose a neural geometry generation scheme with a hierarchical sampling strategy for real-time implicit geometry inference, as well as a novel neural blending scheme to generate high resolution (e.g., 1k) and photo-realistic texture results in the novel views. Furthermore, we adopt neural normal blending to enhance geometry details and formulate our neural geometry and texture rendering into a multi-task learning framework. Extensive experiments demonstrate the effectiveness of our approach to achieve high-quality geometry and photo-realistic free view-point reconstruction for challenging human performances.
翻訳日:2022-02-28 15:24:08 公開日:2022-02-25
# Asyncval: トレーニング中にDense Retrieverチェックポイントを同期検証するためのツールキット

Asyncval: A Toolkit for Asynchronously Validating Dense Retriever Checkpoints during Training ( http://arxiv.org/abs/2202.12510v1 )

ライセンス: Link先を確認
Shengyao Zhuang and Guido Zuccon(参考訳) モデルチェックポイント検証のプロセスは、モデルのハイパーパラメータを学習しながらトレーニングデータの保持部に実行されたモデルチェックポイントのパフォーマンスを評価し、モデルの過度な適合を回避し、トレーニングを中止するためにモデルが収束した時期を決定するために使用される。 ディープラーニングチェックポイントを検証するためのシンプルで効率的な戦略は、トレーニング中に実行する検証ループの追加である。 しかし、高密度レトリバー(DR)チェックポイントの検証はそれほど簡単ではなく、バリデーションループの追加は効率的ではない。 これは、DRチェックポイントの性能を正確に評価するためには、チェックポイントの実際の検索操作を行う前に、現在のチェックポイントを使用してドキュメントコーパス全体をベクトルにエンコードする必要があるためである。 このコーパス符号化プロセスは、文書コーパスに数百万のドキュメント(MS MARCOは8.8m、自然質問は21m)が含まれている場合、非常に時間がかかる。 したがって、トレーニング中にバリデーションループを使用すると、トレーニング時間が大幅に増加する。 この問題に対処するため,本稿では,トレーニング中のDRチェックポイントを効率的に検証するPythonベースのツールキットであるAsyncvalを提案する。 drチェックポイントを検証するためのトレーニングループを一時停止する代わりに、asyncvalはトレーニングループからバリデーションループを分離し、別のgpuを使用して新しいdrチェックポイントを自動的に検証する。 Asyncvalはまた、DRチェックポイントを検証するためのさまざまなコーパスサブセットサンプリング戦略を実装している。 我々は,これらの手法が検証時間および検証忠実性に与える影響について検討する。 asyncvalは、オープンソースプロジェクトとして、 \url{https://github.com/i elab/asyncval}で利用可能である。

The process of model checkpoint validation refers to the evaluation of the performance of a model checkpoint executed on a held-out portion of the training data while learning the hyperparameters of the model, and is used to avoid over-fitting and determine when the model has converged so as to stop training. A simple and efficient strategy to validate deep learning checkpoints is the addition of validation loops to execute during training. However, the validation of dense retrievers (DR) checkpoints is not as trivial -- and the addition of validation loops is not efficient. This is because, in order to accurately evaluate the performance of a DR checkpoint, the whole document corpus needs to be encoded into vectors using the current checkpoint before any actual retrieval operation for checkpoint validation can be performed. This corpus encoding process can be very time-consuming if the document corpus contains millions of documents (e.g., 8.8m for MS MARCO and 21m for Natural Questions). Thus, a naive use of validation loops during training will significantly increase training time. To address this issue, in this demo paper, we propose Asyncval: a Python-based toolkit for efficiently validating DR checkpoints during training. Instead of pausing the training loop for validating DR checkpoints, Asyncval decouples the validation loop from the training loop, uses another GPU to automatically validate new DR checkpoints and thus permits to perform validation asynchronously from training. Asyncval also implements a range of different corpus subset sampling strategies for validating DR checkpoints; these strategies allow to further speed up the validation process. We provide an investigation of these methods in terms of their impact on validation time and validation fidelity. Asyncval is made available as an open-source project at \url{https://github.com/i elab/asyncval}.
翻訳日:2022-02-28 15:23:43 公開日:2022-02-25
# 深層監視によるグラフニューラルネットワークのオーバースムーシングへの取り組み

Addressing Over-Smoothing in Graph Neural Networks via Deep Supervision ( http://arxiv.org/abs/2202.12508v1 )

ライセンス: Link先を確認
Pantelis Elinas, Edwin V. Bonilla(参考訳) グラフニューラルネットワーク(GNN)を用いた有用なノードとグラフ表現の学習は難しい課題である。 ディープGNNは、層数が増加するにつれてノード表現がほとんど区別不能になり、下流タスクのモデル性能が著しく低下する、過度なスムーシングに悩まされることが知られている。 この問題に対処するために,全層で学習した表現をトレーニングに使用する深層監視により強化した深層監視型GNN(DSGNN)を提案する。 DSGNNは過度なスムース化に耐性があり、ノードやグラフプロパティの予測問題における競合ベンチマークよりも優れていることを示す。

Learning useful node and graph representations with graph neural networks (GNNs) is a challenging task. It is known that deep GNNs suffer from over-smoothing where, as the number of layers increases, node representations become nearly indistinguishable and model performance on the downstream task degrades significantly. To address this problem, we propose deeply-supervised GNNs (DSGNNs), i.e., GNNs enhanced with deep supervision where representations learned at all layers are used for training. We show empirically that DSGNNs are resilient to over-smoothing and can outperform competitive benchmarks on node and graph property prediction problems.
翻訳日:2022-02-28 15:22:13 公開日:2022-02-25
# 対照的表現学習を用いたラマンスペクトルマッチング

Raman Spectrum Matching with Contrastive Representation Learning ( http://arxiv.org/abs/2202.12549v1 )

ライセンス: Link先を確認
Bo Li, Mikkel N. Schmidt, Tommy S. Alstr{\o}m(参考訳) ラマン分光法(英: raman spectroscopy)は、化学同定によく用いられる効果的で低コストな非侵入的手法である。 典型的なアプローチは、注意深い前処理を必要とする参照データベースや、各クラスからかなり多くのトレーニング観察を必要とする教師付き機械学習に一致した観測に基づいている。 コントラスト表現学習に基づくラマンスペクトルマッチングのための新しい機械学習手法を提案する。 3つのデータセットについて,我々のアプローチが予測精度の最先端技術と大幅に改善あるいは同等であることを示すとともに,特定の頻繁なカバレッジを持つ共形予測セットの計算方法を示す。 提案手法は,既存のラマンスペクトルマッチング手法の代替として,コントラスト表現学習が有望であると考えている。

Raman spectroscopy is an effective, low-cost, non-intrusive technique often used for chemical identification. Typical approaches are based on matching observations to a reference database, which requires careful preprocessing, or supervised machine learning, which requires a fairly large number of training observations from each class. We propose a new machine learning technique for Raman spectrum matching, based on contrastive representation learning, that requires no preprocessing and works with as little as a single reference spectrum from each class. On three datasets we demonstrate that our approach significantly improves or is on par with the state of the art in prediction accuracy, and we show how to compute conformal prediction sets with specified frequentist coverage. Based on our findings, we believe contrastive representation learning is a promising alternative to existing methods for Raman spectrum matching.
翻訳日:2022-02-28 15:21:57 公開日:2022-02-25
# forexを清算する学習: 適応型トップk回帰による最適停止

Learning to Liquidate Forex: Optimal Stopping via Adaptive Top-K Regression ( http://arxiv.org/abs/2202.12578v1 )

ライセンス: Link先を確認
Diksha Garg, Pankaj Malhotra, Anil Bhatia, Sanjay Bhat, Lovekesh Vig, Gautam Shroff(参考訳) 我々は、外国通貨(FC)で収益を上げ、国内通貨(HC)で経費を負担する企業の財務を代表して行動する取引業者を学習することを検討する。 エージェントの目標は、トレーディングエピソードの各時間ステップにfcを保持または販売することを決定したことにより、トレーディングエピソードの終了時に期待されるhcを最大化することである。 我々はこれを最適化問題として捉え,教師付き学習から模倣学習,強化学習まで幅広いアプローチを検討する。 単純なヒューリスティックなベースラインの改善に苦慮するアプローチがほとんどである。 標準ソリューションを非効率にする問題の2つの重要な側面を特定します。 一 将来のFXレートの予測は、良い決定を導くのに極めて効果的であるが、FXレートの予測は困難であり、誤算は取引業者のパフォーマンスを低下させる傾向にある。 二 FXレートの本質的な非定常的性質は、決定権の固定化を極めて非効率にする。 これらの問題に対処するため、我々は、すべての将来のFXレートを予測するのではなく、トップKのFXレートを予測することを学習し、予測に対するホールド・ヴァース・セルの決定(例えば、将来のFXレートが現在のFXレートよりも高い場合など)をベースとする新しい教師付き学習手法を提案する。 さらに、教師付き学習手法における仮定に課題をもたらすFXレートデータの非定常性を扱うために、近年の歴史的エピソードに基づいて意思決定閾値を適応的に学習することを提案する。 広範な経験的評価を通じて,本手法は単純なヒューリスティックなベースラインを一貫して改善できる唯一のアプローチであることを示す。 さらなる実験は、トレーディングエージェントの性能が低下するにつれて、最先端統計および深層学習に基づく予測手法の非効率性を示す。

We consider learning a trading agent acting on behalf of the treasury of a firm earning revenue in a foreign currency (FC) and incurring expenses in the home currency (HC). The goal of the agent is to maximize the expected HC at the end of the trading episode by deciding to hold or sell the FC at each time step in the trading episode. We pose this as an optimization problem, and consider a broad spectrum of approaches with the learning component ranging from supervised to imitation to reinforcement learning. We observe that most of the approaches considered struggle to improve upon simple heuristic baselines. We identify two key aspects of the problem that render standard solutions ineffective - i) while good forecasts of future FX rates can be highly effective in guiding good decisions, forecasting FX rates is difficult, and erroneous estimates tend to degrade the performance of trading agents instead of improving it, ii) the inherent non-stationary nature of FX rates renders a fixed decision-threshold highly ineffective. To address these problems, we propose a novel supervised learning approach that learns to forecast the top-K future FX rates instead of forecasting all the future FX rates, and bases the hold-versus-sell decision on the forecasts (e.g. hold if future FX rate is higher than current FX rate, sell otherwise). Furthermore, to handle the non-stationarity in the FX rates data which poses challenges to the i.i.d. assumption in supervised learning methods, we propose to adaptively learn decision-thresholds based on recent historical episodes. Through extensive empirical evaluation, we show that our approach is the only approach which is able to consistently improve upon a simple heuristic baseline. Further experiments show the inefficacy of state-of-the-art statistical and deep-learning-based forecasting methods as they degrade the performance of the trading agent.
翻訳日:2022-02-28 15:21:44 公開日:2022-02-25
# 交通予測のための時空間グラフ構造学習

Spatio-Temporal Latent Graph Structure Learning for Traffic Forecasting ( http://arxiv.org/abs/2202.12586v1 )

ライセンス: Link先を確認
Jiabin Tang, Tang Qian, Shijing Liu, Shengdong Du, Jie Hu, Tianrui Li(参考訳) インテリジェント交通システム(ITS)の基盤である正確な交通予測は、スマートシティや都市コンピューティングの繁栄により、近年ではそれほど重要ではない。 近年,グラフニューラルネットワークは従来の手法よりも優れています。 しかしながら、最も一般的なGNNベースのモデルは、事前に定義されたグラフ構造を与えられた状態でうまく機能する。 グラフ構造を定義する既存の手法は,空間的依存にのみ焦点をあて,時間的相関を無視する。 さらに、トレーニングの進行中に適用される静的事前定義されたグラフの隣接性のセマンティクスは常に不完全であり、モデルが微調整される可能性のある潜在トポロジを見渡せる。 これらの課題に対処するため、我々は新しいトラフィック予測フレームワーク、-Spatio-Temporal Latent Graph Structure Learning Network (ST-LGSL)を提案した。 より具体的には、多層パーセプトロンに基づくグラフ生成器と、空間的および時間的ダイナミクスを考慮したデータ全体から潜在グラフトポロジ情報を学習するk-nearest近傍を用いた。 さらに,MLP-kNNの初期化により,KNNの接地確率行列と類似度測定値に基づいて,ST-LGSLは地理的およびノード類似性に着目したトポロジを集約する。 さらに、生成されたグラフは、Diffusion Graph ConvolutionsとGated Temporal Convolutions Networksを組み合わせた時空間予測モジュールの入力として機能する。 実世界の2つのベンチマークデータセットの実験結果は、ST-LGSLが様々な種類の最先端ベースラインより優れていることを示している。

Accurate traffic forecasting, the foundation of intelligent transportation systems (ITS), has never been more significant than nowadays due to the prosperity of the smart cities and urban computing. Recently, Graph Neural Network truly outperforms the traditional methods. Nevertheless, the most conventional GNN based model works well while given a pre-defined graph structure. And the existing methods of defining the graph structures focus purely on spatial dependencies and ignored the temporal correlation. Besides, the semantics of the static pre-defined graph adjacency applied during the whole training progress is always incomplete, thus overlooking the latent topologies that may fine-tune the model. To tackle these challenges, we proposed a new traffic forecasting framework--Spatio-Te mporal Latent Graph Structure Learning networks (ST-LGSL). More specifically, the model employed a graph generator based on Multilayer perceptron and K-Nearest Neighbor, which learns the latent graph topological information from the entire data considering both spatial and temporal dynamics. Furthermore, with the initialization of MLP-kNN based on ground-truth adjacency matrix and similarity metric in kNN, ST-LGSL aggregates the topologies focusing on geography and node similarity. Additionally, the generated graphs act as the input of spatio-temporal prediction module combined with the Diffusion Graph Convolutions and Gated Temporal Convolutions Networks. Experimental results on two benchmarking datasets in real world demonstrate that ST-LGSL outperforms various types of state-of-art baselines.
翻訳日:2022-02-28 15:21:12 公開日:2022-02-25
# (参考訳) 深層強化学習を用いた3人のmahjong aiの構築 [全文訳有]

Building a 3-Player Mahjong AI using Deep Reinforcement Learning ( http://arxiv.org/abs/2202.12847v1 )

ライセンス: CC BY 4.0
Xiangyu Zhao, Sean B. Holden(参考訳) Mahjongは、19世紀後半に中国で開発された、人気のマルチプレイヤーの不完全な情報ゲームだ。 三間(さんま)は、日本の理一大乗の3人組の変種であり、タイルが少ないなど独特の特徴を持ち、より攻撃的な演奏スタイルである。 したがって、これは挑戦的であり、それ自体は大きな研究関心を持っているが、まだ調査されていない。 本稿では,深層強化学習を用いたサンマのためのAIであるMeowjongを紹介する。 我々は,sanmaゲームにおける可観測情報をエンコードするための情報的かつコンパクトな2次元データ構造を定義する。 我々は,サンマの5つの行動のための5つの畳み込みニューラルネットワーク(CNN)を事前訓練し,モンテカルロ政策勾配法による自己再生強化学習を通じて,主要な行動モデル,すなわち捨てモデルを強化する。 meowjongのモデルは、教師付き学習を通じて4人のmahjongのaisに匹敵するテスト能力を達成し、強化学習から大幅に強化される。 Sanmaで最初のAIである私たちは、Meowjongがこのゲームの最先端技術であると主張している。

Mahjong is a popular multi-player imperfect-informatio n game developed in China in the late 19th-century, with some very challenging features for AI research. Sanma, being a 3-player variant of the Japanese Riichi Mahjong, possesses unique characteristics including fewer tiles and, consequently, a more aggressive playing style. It is thus challenging and of great research interest in its own right, but has not yet been explored. In this paper, we present Meowjong, an AI for Sanma using deep reinforcement learning. We define an informative and compact 2-dimensional data structure for encoding the observable information in a Sanma game. We pre-train 5 convolutional neural networks (CNNs) for Sanma's 5 actions -- discard, Pon, Kan, Kita and Riichi, and enhance the major action's model, namely the discard model, via self-play reinforcement learning using the Monte Carlo policy gradient method. Meowjong's models achieve test accuracies comparable with AIs for 4-player Mahjong through supervised learning, and gain a significant further enhancement from reinforcement learning. Being the first ever AI in Sanma, we claim that Meowjong stands as a state-of-the-art in this game.
翻訳日:2022-02-28 15:18:20 公開日:2022-02-25
# 生体エラー訂正符号によるフォールトトレラントニューラルネットワークの生成

Biological error correction codes generate fault-tolerant neural networks ( http://arxiv.org/abs/2202.12887v1 )

ライセンス: Link先を確認
Alexander Zlokapa, Andrew K. Tan, John M. Martyn, Max Tegmark, Isaac L. Chuang(参考訳) フォールトトレラントな計算が可能であるかどうかは、ディープラーニングにおいてオープンな問題である。 哺乳類の皮質では、格子符号として知られるアナログ誤り訂正符号が神経スパイクノイズから状態を保護するために観測されているが、情報処理におけるそれらの役割は不明である。 本稿では,これらの生物学的コードを用いて,各ニューロンの障害が鋭い閾値以下にある場合,普遍的障害耐性ニューラルネットワークが達成可能であることを示す。 欠陥からフォールトトレラントなニューラルネットワークへの鋭い相転移の発見は、人工知能と神経科学におけるノイズの多いアナログシステムを理解する道を開く。

It has been an open question in deep learning if fault-tolerant computation is possible: can arbitrarily reliable computation be achieved using only unreliable neurons? In the mammalian cortex, analog error correction codes known as grid codes have been observed to protect states against neural spiking noise, but their role in information processing is unclear. Here, we use these biological codes to show that a universal fault-tolerant neural network can be achieved if the faultiness of each neuron lies below a sharp threshold, which we find coincides in order of magnitude with noise observed in biological neurons. The discovery of a sharp phase transition from faulty to fault-tolerant neural computation opens a path towards understanding noisy analog systems in artificial intelligence and neuroscience.
翻訳日:2022-02-28 15:05:32 公開日:2022-02-25
# マルチモーダルデータを用いた頭頸部腫瘍の予後に関するアンサンブルアプローチ

An Ensemble Approach for Patient Prognosis of Head and Neck Tumor Using Multimodal Data ( http://arxiv.org/abs/2202.12537v1 )

ライセンス: Link先を確認
Numan Saeed, Roba Al Majzoub, Ikboljon Sobirov, and Mohammad Yaqub(参考訳) 腫瘍の正確な予後は、医師が適切な治療コースを提供するのに役立つため、多くの人の命を救える。 従来の機械学習アルゴリズムは、過去数十年間、予測モデルの作成に非常に有用だった。 最近のディープラーニングアルゴリズムは、さまざまな医療問題に対する診断と予後のソリューションを開発する際に、大幅に改善している。 しかし、これらのソリューションのほとんどは画像データか臨床データにのみ依存している。 人口統計学や患者医学史などの患者表表データと画像データとを併用して、予後の課題を解決するマルチモーダルな手法が近年注目され始めており、より正確な解決策が生み出される可能性がある。 深層学習モデルのトレーニングに臨床および画像データを使用する場合の主な課題は、これらの情報源からの情報を組み合わせる方法を決定することである。 頭部・頸部腫瘍の予後をCTおよびPETデータを用いて予測するために,深層マルチタスクロジスティック回帰(MTLR),コックス比重ハザード(CoxPH),CNNモデルを組み込んだマルチモーダルネットワークを提案する。 CTとPETスキャンの特徴を融合し、患者の電子健康記録と組み合わせて予測を行う。 提案モデルはそれぞれ224名と101名を対象に訓練および試験を行った。 実験の結果,提案したアンサンブル解はHECKTORテストセットのC-インデックス0.72を達成し,HECKTORチャレンジの予後タスクの第一位を救った。 PyTorch に基づく完全な実装は \url{https://github.com/n umanai/BioMedIA-Heck tor2021} で利用可能である。

Accurate prognosis of a tumor can help doctors provide a proper course of treatment and, therefore, save the lives of many. Traditional machine learning algorithms have been eminently useful in crafting prognostic models in the last few decades. Recently, deep learning algorithms have shown significant improvement when developing diagnosis and prognosis solutions to different healthcare problems. However, most of these solutions rely solely on either imaging or clinical data. Utilizing patient tabular data such as demographics and patient medical history alongside imaging data in a multimodal approach to solve a prognosis task has started to gain more interest recently and has the potential to create more accurate solutions. The main issue when using clinical and imaging data to train a deep learning model is to decide on how to combine the information from these sources. We propose a multimodal network that ensembles deep multi-task logistic regression (MTLR), Cox proportional hazard (CoxPH) and CNN models to predict prognostic outcomes for patients with head and neck tumors using patients' clinical and imaging (CT and PET) data. Features from CT and PET scans are fused and then combined with patients' electronic health records for the prediction. The proposed model is trained and tested on 224 and 101 patient records respectively. Experimental results show that our proposed ensemble solution achieves a C-index of 0.72 on The HECKTOR test set that saved us the first place in prognosis task of the HECKTOR challenge. The full implementation based on PyTorch is available on \url{https://github.com/n umanai/BioMedIA-Heck tor2021}.
翻訳日:2022-02-28 15:05:17 公開日:2022-02-25
# 安全・リアルタイムシステムに向けて:3次元物体検出のためのステレオ対画像とLiDAR

Towards Safe, Real-Time Systems: Stereo vs Images and LiDAR for 3D Object Detection ( http://arxiv.org/abs/2202.12773v1 )

ライセンス: Link先を確認
Matthew Levine(参考訳) オブジェクト検出器が急速に改善するにつれて、画像のみのネットワークは3Dおよびマルチモーダルのフレームワーク、特にLiDARを組み込んだものを含むように拡張された。 しかし、コスト、物流、そしていくつかの安全上の考慮から、ステレオは魅力的な代替手段になり得る。 物体検出器における単分子入力やLiDARの代替としてステレオの有効性を理解するために,従来の異方性アルゴリズムを用いたマルチモーダル学習はパラメータ数を増やすことなく画像ベースの学習を向上でき,ステレオエラーによる学習は,LiDARに類似した3Dローカライゼーション力を付与できることを示した。 さらに、画像のみの方法に関してもキャリブレーションの利点がある。 私たちは公開データセットkittiでベンチマークを行い、その結果、現在そのセットのメトリクスの計算に使われている小さなが一般的なアルゴリズムミスをいくつか明らかにし、効率的で確実に正しい代替案を提供します。

As object detectors rapidly improve, attention has expanded past image-only networks to include a range of 3D and multimodal frameworks, especially ones that incorporate LiDAR. However, due to cost, logistics, and even some safety considerations, stereo can be an appealing alternative. Towards understanding the efficacy of stereo as a replacement for monocular input or LiDAR in object detectors, we show that multimodal learning with traditional disparity algorithms can improve image-based results without increasing the number of parameters, and that learning over stereo error can impart similar 3D localization power to LiDAR in certain contexts. Furthermore, doing so also has calibration benefits with respect to image-only methods. We benchmark on the public dataset KITTI, and in doing so, reveal a few small but common algorithmic mistakes currently used in computing metrics on that set, and offer efficient, provably correct alternatives.
翻訳日:2022-02-28 15:03:54 公開日:2022-02-25
# 深層ニューラルネットワークによる高用量死亡率の細粒度監視

Deep neural networks for fine-grained surveillance of overdose mortality ( http://arxiv.org/abs/2202.12448v1 )

ライセンス: Link先を確認
Patrick J. Ward, April M. Young, Svetla Slavova, Madison Liford, Lara Daniels, Ripley Lucas, Ramakanth Kavuluru(参考訳) 薬物過剰死の監視は、死因を特定するための死亡証明書に依存している。 薬物や薬物のクラスは国際疾病分類(ICD-10)によって特定され、死亡証明書に記載されている。 しかし、ICD-10符号は必ずしも薬物識別において高いレベルの特異性を提供するとは限らない。 死亡証明書上の物質のよりきめ細かい識別を実現するには、医療認定者によって完成した自由テキストの死因を解析する必要がある。 フリーテキストの死亡証明書を分析する現在の方法は、特定の物質を特定するためのルックアップテーブルのみに依存しており、頻繁な更新と維持が必要である。 死亡証明書上の薬物の識別を改善するため、深層学習による名義認識モデルが開発され、F1スコアは99.13%に達した。 このモデルでは、現在の監視表に存在しない新しい薬物のミススペルや新しい物質を特定し、薬物過剰死の監視を強化することができる。

Surveillance of drug overdose deaths relies on death certificates for identification of the substances that caused death. Drugs and drug classes can be identified through the International Classification of Diseases, 10th Revision (ICD-10) codes present on death certificates. However, ICD-10 codes do not always provide high levels of specificity in drug identification. To achieve more fine-grained identification of substances on a death certificate, the free-text cause of death section, completed by the medical certifier, must be analyzed. Current methods for analyzing free-text death certificates rely solely on look-up tables for identifying specific substances, which must be frequently updated and maintained. To improve identification of drugs on death certificates, a deep learning named-entity recognition model was developed, which achieved an F1-score of 99.13%. This model can identify new drug misspellings and novel substances that are not present on current surveillance look-up tables, enhancing the surveillance of drug overdose deaths.
翻訳日:2022-02-28 15:02:01 公開日:2022-02-25
# ニューラルマシン翻訳における性伝達のスクリーニング

Screening Gender Transfer in Neural Machine Translation ( http://arxiv.org/abs/2202.12568v1 )

ライセンス: Link先を確認
Guillaume Wisniewski, Lichao Zhu, Nicolas Ballier, Fran\c{c}ois Yvon(参考訳) 本稿では,最先端機械翻訳システムにおける情報フローの同定を目的とし,フランス語から英語への翻訳におけるジェンダーの移動を例に挙げる。 制御された例を用いて、MTシステムにおける内部表現の介入だけでなく、探索手法も考慮し、エンコーダ・デコーダアーキテクチャにおけるジェンダー情報の循環について検討する。 以上の結果から,エンコーダとデコーダによって構築されたすべてのトークン表現に性別情報を見出すことができ,男女移動には複数の経路が存在するという結論に至った。

This paper aims at identifying the information flow in state-of-the-art machine translation systems, taking as example the transfer of gender when translating from French into English. Using a controlled set of examples, we experiment several ways to investigate how gender information circulates in a encoder-decoder architecture considering both probing techniques as well as interventions on the internal representations used in the MT system. Our results show that gender information can be found in all token representations built by the encoder and the decoder and lead us to conclude that there are multiple pathways for gender transfer.
翻訳日:2022-02-28 15:01:47 公開日:2022-02-25
# ウィキペディアの改訂史から自然に起こる訂正とパラフレーズのマイニング

Mining Naturally-occurring Corrections and Paraphrases from Wikipedia's Revision History ( http://arxiv.org/abs/2202.12575v1 )

ライセンス: Link先を確認
Aur\'elien Max and Guillaume Wisniewski(参考訳) 自然に発生する言語現象の例は、訓練とテキストによる自動処理の評価の両方に重要である。 大量に入手可能な場合には、言語研究のための興味深い資料も示される。 本稿では、ウィコパコ(wikipedia correction and paraphrase corpus)と呼ばれるwikipediaのリビジョン履歴から構築された新しいリソースについて紹介する。 このようなリソースを構築する主な動機について論じ、どのように構築されたかを説明し、初期のアプリケーションをフランス語で紹介する。

Naturally-occurring instances of linguistic phenomena are important both for training and for evaluating automatic processes on text. When available in large quantities, they also prove interesting material for linguistic studies. In this article, we present a new resource built from Wikipedia's revision history, called WiCoPaCo (Wikipedia Correction and Paraphrase Corpus), which contains numerous editings by human contributors, including various corrections and rewritings. We discuss the main motivations for building such a resource, describe how it was built and present initial applications on French.
翻訳日:2022-02-28 15:01:36 公開日:2022-02-25
# JParaCrawl v3.0: 大規模な日英パラレルコーパス

JParaCrawl v3.0: A Large-scale English-Japanese Parallel Corpus ( http://arxiv.org/abs/2202.12607v1 )

ライセンス: Link先を確認
Makoto Morishita, Chousa Katsuki, Jun Suzuki, Masaaki Nagata(参考訳) 現在の機械翻訳モデルは、主に並列コーパスで訓練されており、その翻訳精度はコーパスの品質と量に大きく依存している。 いくつかの言語ペアには何十億もの並列文があるが、公に利用可能な並列コーパスがないため、ほとんどの言語ペアを効果的に扱うのは困難である。 本稿では,英語-ドイツ語のような資源豊富な言語と比較して,限られた資源しか利用できない言語対である英語-日本語の並列コーパスを作成する。 JParaCrawl v3.0という新しいウェブベースの英語-日本語並列コーパスを導入した。 新しいコーパスには2100万以上のユニークな並列文ペアが含まれており、これは以前のjparacrawl v2.0コーパスの2倍以上である。 実験により,新しいコーパスが様々な領域の機械翻訳モデルの精度をいかに向上させるかを実証的に示す。 jparacrawl v3.0コーパスは最終的に研究目的でオンラインで公開されている。

Most current machine translation models are mainly trained with parallel corpora, and their translation accuracy largely depends on the quality and quantity of the corpora. Although there are billions of parallel sentences for a few language pairs, effectively dealing with most language pairs is difficult due to a lack of publicly available parallel corpora. This paper creates a large parallel corpus for English-Japanese, a language pair for which only limited resources are available, compared to such resource-rich languages as English-German. It introduces a new web-based English-Japanese parallel corpus named JParaCrawl v3.0. Our new corpus contains more than 21 million unique parallel sentence pairs, which is more than twice as many as the previous JParaCrawl v2.0 corpus. Through experiments, we empirically show how our new corpus boosts the accuracy of machine translation models on various domains. The JParaCrawl v3.0 corpus will eventually be publicly available online for research purposes.
翻訳日:2022-02-28 15:01:26 公開日:2022-02-25
# 探索データの要求について

On the data requirements of probing ( http://arxiv.org/abs/2202.12801v1 )

ライセンス: Link先を確認
Zining Zhu, Jixuan Wang, Bai Li, Frank Rudzicz(参考訳) 大規模で強力なニューラルネットワークモデルが開発されるにつれて、研究者はそれらを探索する診断ツールの開発にますます関心を寄せている。 様々な大きさのデータセットを用いて「観測 X はモデル Y で見つかる」という形式の結論を持つ多くの論文がある。 より大きな探索データセットにより信頼性が高くなるが、収集するコストも高い。 妥当な探索データセットのサイズを推定するための定量的な方法はまだない。 パイロットスタディから小さなデータセットを収集した後、2つの異なる構成を区別するのに十分なデータサンプルがいくつあるか? このような実験で必要となるデータサンプル数を推定する新しい手法を提案し、いくつかのケーススタディにおいて、我々の推定が十分な統計的パワーを持っていることを検証した。 我々のフレームワークは、ニューラルネットワークNLPモデルの診断のために、探索データセットを体系的に構築するのに役立つ。

As large and powerful neural language models are developed, researchers have been increasingly interested in developing diagnostic tools to probe them. There are many papers with conclusions of the form "observation X is found in model Y", using their own datasets with varying sizes. Larger probing datasets bring more reliability, but are also expensive to collect. There is yet to be a quantitative method for estimating reasonable probing dataset sizes. We tackle this omission in the context of comparing two probing configurations: after we have collected a small dataset from a pilot study, how many additional data samples are sufficient to distinguish two different configurations? We present a novel method to estimate the required number of data samples in such experiments and, across several case studies, we verify that our estimations have sufficient statistical power. Our framework helps to systematically construct probing datasets to diagnose neural NLP models.
翻訳日:2022-02-28 15:01:12 公開日:2022-02-25
# 境界のない形態:クロースレベル形態素アノテーション

Morphology Without Borders: Clause-Level Morphological Annotation ( http://arxiv.org/abs/2202.12832v1 )

ライセンス: Link先を確認
Omer Goldman and Reut Tsarfaty(参考訳) 形態素的タスクは、単語を反転テーブルに整理する大きな多言語データセットを使用し、様々なタスクのトレーニングと評価データとして機能する。 しかし、これらのデータを綿密に検査すると、単語の明確な言語的および操作的定義が欠如し、派生したタスクの普遍性を著しく損なうという、言語横断的な矛盾が明らかになる。 この不足を克服するために,形態素を単語レベルではなく節レベルの現象と考えることを提案する。 これは、飽和節で実現されたすべての関数をカプセル化する言語間で均質な特徴の固定的かつ包括的なセットに固定されている。 mightymorphは、英語、ドイツ語、トルコ語、ヘブライ語の4つのタイプ論的に異なる言語をカバーする、節レベルの形態に関する新しいデータセットです。 我々は,このデータセットを用いて3つの節レベルの形態的タスク(反射,反射,解析)を導出する。 実験の結果,節レベルタスクは各単語レベルタスクよりも格段に難しいが,言語間では同等に複雑であることがわかった。 さらに、節レベルへのモルフォロジーの再定義は、文脈化言語モデル(lms)との巧妙なインターフェースを提供し、複雑な形態素をエンコードするlms能力を調べるのに使うことができる。 この研究は、計算形態学の研究における新たな地平線を開き、神経形態モデリングをクロス言語で研究するための余地を残している。

Morphological tasks use large multi-lingual datasets that organize words into inflection tables, which then serve as training and evaluation data for various tasks. However, a closer inspection of these data reveals profound cross-linguistic inconsistencies, that arise from the lack of a clear linguistic and operational definition of what is a word, and that severely impair the universality of the derived tasks. To overcome this deficiency, we propose to view morphology as a clause-level phenomenon, rather than word-level. It is anchored in a fixed yet inclusive set of features homogeneous across languages, that encapsulates all functions realized in a saturated clause. We deliver MightyMorph, a novel dataset for clause-level morphology covering 4 typologically-differ ent languages: English, German, Turkish and Hebrew. We use this dataset to derive 3 clause-level morphological tasks: inflection, reinflection and analysis. Our experiments show that the clause-level tasks are substantially harder than the respective word-level tasks, while having comparable complexity across languages. Furthermore, redefining morphology to the clause-level provides a neat interface with contextualized language models (LMs) and can be used to probe LMs capacity to encode complex morphology. Taken together, this work opens up new horizons in the study of computational morphology, leaving ample space for studying neural morphological modeling cross-linguistically .
翻訳日:2022-02-28 15:01:01 公開日:2022-02-25
# 製造産業におけるビン充填問題に対するデータ駆動列生成アルゴリズム

A Data-Driven Column Generation Algorithm For Bin Packing Problem in Manufacturing Industry ( http://arxiv.org/abs/2202.12466v1 )

ライセンス: Link先を確認
Jiahui Duan, Xialiang Tong, Fei Ni, Zhenan He, Lei Chen, Mingxuan Yuan(参考訳) ビンパッキング問題は、実際のロジスティックなシナリオ(例えば、パッキングパイプライン、express delivery)に広く存在し、パッキング効率の向上と輸送コストの削減を目標としている。 このNPハード組合せ最適化問題では、ボックス内の各アイテムの位置と量は、複雑な制約と特別な顧客要求によって厳密に制限される。 厳密な制約は合理的な計算負荷では扱えないため、既存の手法では最適解を得るのは難しい。 本稿では,この問題に対処するため,huaweiのパッキングパイプラインから収集した履歴データからパッキング知識を抽出する。 まず、履歴パッキングレコードと入力順序(まとめる順序)の関係を十分に活用することにより、その問題を集合被覆問題として再構成する。 次に、制約処理とプロセス加速という2つの新しい戦略を古典的な列生成手法に適用し、この集合被覆問題を解く。 複雑な制約と顧客要求のために、新しい列を生成するための価格問題の解決コストが高い。 提案された制約処理戦略は、コスト削減の最も負の値を持つ履歴パッキングレコードを利用する。 これらの制約は、これらの歴史的なパッキングレコードにおいて暗黙的に満たされており、制約についてさらなる評価を行う必要がないため、計算負荷は節約される。 カラム生成アルゴリズムの繰り返し処理をさらに排除し,最適化プロセスを高速化するために,修正ポインタネットワークと呼ばれる学習から価格へのアプローチを提案し,どの履歴パッキングレコードを直接選択すべきかを決定する。 実世界のデータセットを用いた実験により,提案手法はパッキング成功率を向上し,同時に計算時間を短縮できることを示す。

The bin packing problem exists widely in real logistic scenarios (e.g., packing pipeline, express delivery), with its goal to improve the packing efficiency and reduce the transportation cost. In this NP-hard combinatorial optimization problem, the position and quantity of each item in the box are strictly restricted by complex constraints and special customer requirements. Existing approaches are hard to obtain the optimal solution since rigorous constraints cannot be handled within a reasonable computation load. In this paper, for handling this difficulty, the packing knowledge is extracted from historical data collected from the packing pipeline of Huawei. First, by fully exploiting the relationship between historical packing records and input orders(orders to be packed) , the problem is reformulated as a set cover problem. Then, two novel strategies, the constraint handling and process acceleration strategies are applied to the classic column generation approach to solve this set cover problem. The cost of solving pricing problem for generating new columns is high due to the complex constraints and customer requirements. The proposed constraints handling strategy exploits the historical packing records with the most negative value of the reduced cost. Those constraints have been implicitly satisfied in these historical packing records so that there is no need to conduct further evaluation on constraints, thus the computational load is saved. To further eliminate the iteration process of column generation algorithm and accelerate the optimization process, a Learning to Price approach called Modified Pointer Network is proposed, by which we can determine which historical packing records should be selected directly. Through experiments on realworld datasets, we show our proposed method can improve the packing success rate and decrease the computation time simultaneously.
翻訳日:2022-02-28 15:00:34 公開日:2022-02-25
# Diffomorphic Image Registrationのためのインプシット最適化

Implicit Optimizer for Diffeomorphic Image Registration ( http://arxiv.org/abs/2202.12498v1 )

ライセンス: Link先を確認
Kun Han, Shanlin Sun(参考訳) diffeomorphic image registrationは、可逆性とポイントツーポイント対応を可能にする医療画像処理の基礎技術である。 近年,畳み込みニューラルネットワーク(cnns)を用いた登録問題に対する学習ベースの手法が数多く提案されている。 高速化と比較して、複雑なCNNベースの手法による精度の向上は小さい。 この問題に対処するため,Diffomorphic Image Registration (IDIR) のための高速かつ正確なインプリシット最適化手法を提案し,入力が点座標 p でありその点 v における出力が速度ベクトルであるニューラル速度場 (NVF) としてDeep Implicit Function を利用する。 提案手法は,従来の画像登録手法よりも高速かつ優れた登録結果を提供し,所望の微分型特性を維持しつつ,学習に基づく手法を著しく向上することを示す。

Diffeomorphic image registration is the underlying technology in medical image processing which enables the invertibility and point-to-point correspondence. Recently, numerous learning-based methods utilizing convolutional neural networks (CNNs) have been proposed for registration problems. Compared with the speed boosting, accuracy improvement brought by the complicated CNN-based methods is minor. To tackle this problem, we propose a rapid and accurate Implicit Optimizer for Diffeomorphic Image Registration (IDIR) which utilizes the Deep Implicit Function as the neural velocity field (NVF) whose input is the point coordinate p and output is velocity vector at that point v. To reduce the huge memory consumption brought by NVF for 3D volumes, a sparse sampling is employed to the framework. We evaluate our method on two 3D large-scale MR brain scan datasets, the results show that our proposed method provides faster and better registration results than conventional image registration approaches and outperforms the learning-based methods by a significant margin while maintaining the desired diffeomorphic properties.
翻訳日:2022-02-28 14:57:58 公開日:2022-02-25
# (参考訳) 入力不確実性を考慮したロバスト多目的ベイズ最適化フレームワーク [全文訳有]

A Robust Multi-Objective Bayesian Optimization Framework Considering Input Uncertainty ( http://arxiv.org/abs/2202.12848v1 )

ライセンス: CC BY 4.0
J.Qing, I. Couckuyt, T. Dhaene(参考訳) ベイズ最適化は、高価な目的関数のデータ効率最適化のための一般的なツールである。 エンジニアリング設計のような現実的なアプリケーションでは、設計者は複数の目的を捉え、堅牢なソリューションを見つけるために入力の不確実性を考慮していることが多い。 これは単目的ベイズ最適化において活発な話題であるが、多目的の場合ではあまり研究されない。 入力の不確実性を考慮した多目的最適化を効率的に行うための新しいベイズ最適化フレームワークを提案する。 我々は,ベイズリスク基準を推定してロバスト性を定量化するロバストなガウス過程モデルを提案し,ロバストなパレートフロンティアを探索するための2段階のベイズ最適化手法を開発した。 完全なフレームワークは入力の不確実性の様々な分布をサポートし、並列コンピューティングを最大限に活用する。 本稿では,数値ベンチマークによるフレームワークの有効性を示す。

Bayesian optimization is a popular tool for data-efficient optimization of expensive objective functions. In real-life applications like engineering design, the designer often wants to take multiple objectives as well as input uncertainty into account to find a set of robust solutions. While this is an active topic in single-objective Bayesian optimization, it is less investigated in the multi-objective case. We introduce a novel Bayesian optimization framework to efficiently perform multi-objective optimization considering input uncertainty. We propose a robust Gaussian Process model to infer the Bayes risk criterion to quantify robustness, and we develop a two-stage Bayesian optimization process to search for a robust Pareto frontier. The complete framework supports various distributions of the input uncertainty and takes full advantage of parallel computing. We demonstrate the effectiveness of the framework through numerical benchmarks.
翻訳日:2022-02-28 14:55:12 公開日:2022-02-25
# 畳み込み層の特徴図からの対向ロバスト性理解

Understanding Adversarial Robustness from Feature Maps of Convolutional Layers ( http://arxiv.org/abs/2202.12435v1 )

ライセンス: Link先を確認
Cong Xu and Min Yang(参考訳) ニューラルネットワークの敵対的堅牢性は、主に2つの要因に依存している。1つは、ネットワークの特徴表現能力であり、もう1つは摂動に対する抵抗能力である。 本稿では,畳み込み層の特徴マップからネットワークの摂動防止能力について検討する。 理論解析により, 平均プールよりも大きな畳み込み特性が摂動抵抗の向上に寄与することが明らかとなったが, 最大プールには当てはまらない。 理論的な知見に基づき,既存のニューラルネットワークの頑健性を改善するための2つの実現可能な方法を提案する。 提案手法は非常に単純で、入力のアップサンプリングや畳み込み演算子のストライド構成の変更のみを必要とする。 alexnet、vgg16、restnet18、preactresnet18など、いくつかのベンチマークニューラルネットワークアーキテクチャでアプローチをテストし、さまざまな攻撃において、自然な正確性と堅牢性の両方において、非自明な改善を達成しています。 本研究はロバストニューラルネットワークの設計に新たな洞察をもたらす。 コードは \url{https://github.com/m tandhj/rcm} で入手できる。

The adversarial robustness of a neural network mainly relies on two factors, one is the feature representation capacity of the network, and the other is its resistance ability to perturbations. In this paper, we study the anti-perturbation ability of the network from the feature maps of convolutional layers. Our theoretical analysis discovers that larger convolutional features before average pooling can contribute to better resistance to perturbations, but the conclusion is not true for max pooling. Based on the theoretical findings, we present two feasible ways to improve the robustness of existing neural networks. The proposed approaches are very simple and only require upsampling the inputs or modifying the stride configuration of convolution operators. We test our approaches on several benchmark neural network architectures, including AlexNet, VGG16, RestNet18 and PreActResNet18, and achieve non-trivial improvements on both natural accuracy and robustness under various attacks. Our study brings new insights into the design of robust neural networks. The code is available at \url{https://github.com/M TandHJ/rcm}.
翻訳日:2022-02-28 14:36:12 公開日:2022-02-25
# 緑内障検診における眼底画像の教師なし分布検出のためのディープディリクレ不確実性

Deep Dirichlet uncertainty for unsupervised out-of-distribution detection of eye fundus photographs in glaucoma screening ( http://arxiv.org/abs/2202.12634v1 )

ライセンス: Link先を確認
Teresa Ara\'ujo, Guilherme Aresta and Hrvoje Bogunovic(参考訳) カラー眼底写真を用いた早期緑内障診断のための自動ツールの開発は、この疾患の影響を著しく減少させる可能性がある。 しかし、現在の最先端のソリューションは現実のシナリオに対して堅牢ではない。 そこで本研究では,ディリクレ分布(dirichlet distribution)に基づくモデルを提案する。 AIROGSの課題に対する我々のアプローチを実証する。 最終試験段階(2022年2月8日)の開始時点では,提案手法が最も高いスコアを示した。

The development of automatic tools for early glaucoma diagnosis with color fundus photographs can significantly reduce the impact of this disease. However, current state-of-the-art solutions are not robust to real-world scenarios, providing over-confident predictions for out-of-distribution cases. With this in mind, we propose a model based on the Dirichlet distribution that allows to obtain class-wise probabilities together with an uncertainty estimation without exposure to out-of-distribution cases. We demonstrate our approach on the AIROGS challenge. At the start of the final test phase (8 Feb. 2022), our method had the highest average score among all submissions.
翻訳日:2022-02-28 14:35:54 公開日:2022-02-25
# ARIA: コンテントプロヴァンスに対する可逆的ロバストなイメージ属性

ARIA: Adversarially Robust Image Attribution for Content Provenance ( http://arxiv.org/abs/2202.12860v1 )

ライセンス: Link先を確認
Maksym Andriushchenko, Xiaoyang Rebecca Li, Geoffrey Oxholm, Thomas Gittings, Tu Bui, Nicolas Flammarion, John Collomosse(参考訳) 画像の帰属 -- 信頼されたソースにイメージを戻す -- は、オンラインの誤報と戦う新たなツールだ。 この目的のために、近頃、深い視覚の指紋モデルが研究されている。 しかし、それらは逆例として知られる小さな入力摂動に対して堅牢ではない。 まず,不正確な画像トリビューションを発生させる有効な逆画像の生成方法について述べる。 次に,強固なコントラスト学習を通じて,深部視覚フィンガープリンティングモデルに対する知覚不能な敵意攻撃を防止する手法について述べる。 提案したトレーニング手順は、$\ell_\infty$-bounde d adversarial の例によるトレーニングを利用するが、概念的には単純であり、計算オーバーヘッドが小さいだけである。 結果のモデルは、はるかに堅牢で、不飽和画像でも正確であり、数百万の画像を持つデータベースでも、良好に動作します。 特に、操作された画像に対する$\ell_\infty$-bounde dな摂動の下で、91.6%の標準と85.1%の逆のリコールを達成する。 また,学習中に知覚不能な他のタイプの摂動にロバスト性が一般化することを示した。 最後に,マッチング画像の編集変更を検出するための,可逆的ロバストな画像コンパレータモデルをトレーニングする方法を示す。

Image attribution -- matching an image back to a trusted source -- is an emerging tool in the fight against online misinformation. Deep visual fingerprinting models have recently been explored for this purpose. However, they are not robust to tiny input perturbations known as adversarial examples. First we illustrate how to generate valid adversarial images that can easily cause incorrect image attribution. Then we describe an approach to prevent imperceptible adversarial attacks on deep visual fingerprinting models, via robust contrastive learning. The proposed training procedure leverages training on $\ell_\infty$-bounde d adversarial examples, it is conceptually simple and incurs only a small computational overhead. The resulting models are substantially more robust, are accurate even on unperturbed images, and perform well even over a database with millions of images. In particular, we achieve 91.6% standard and 85.1% adversarial recall under $\ell_\infty$-bounde d perturbations on manipulated images compared to 80.1% and 0.0% from prior work. We also show that robustness generalizes to other types of imperceptible perturbations unseen during training. Finally, we show how to train an adversarially robust image comparator model for detecting editorial changes in matched images.
翻訳日:2022-02-28 14:35:44 公開日:2022-02-25
# 双方向LSTMと時間分散CNNを用いた韻律的特徴と意味的特徴に基づく抑うつの予測

Prediction of Depression Severity Based on the Prosodic and Semantic Features with Bidirectional LSTM and Time Distributed CNN ( http://arxiv.org/abs/2202.12456v1 )

ライセンス: Link先を確認
Kaining Mao, Wei Zhang, Deborah Baofeng Wang, Ang Li, Rongqi Jiao, Yanhui Zhu, Bin Wu, Tiansheng Zheng, Lei Qian, Wei Lyu, Minjie Ye, Jie Chen(参考訳) うつ病は世界中で身体的にも心理的にも個人に影響を及ぼしている。 世界規模の公衆衛生問題となり、様々な研究分野から注目を集めている。 伝統的に、うつ病の診断は半構造化面接と補足的なアンケートによって定式化されており、医師の経験に重きを置きバイアスを被っている。 メンタルヘルスモニタリングとクラウドベースのリモート診断は、自動うつ病診断システムを通じて実施することができる。 本稿では,抑うつ予測のための注意に基づくマルチモーダリティ音声とテキスト表現を提案する。 本モデルは,Ozデータセット(DAIC-WOZ)を用いて,参加者のうつ病重症度を推定するために訓練された。 音声モダリティには、データセットが提供するコラボレーティブ音声分析レポジトリ(COVAREP)機能を使用し、Bidirectional Long Short-Term Memory Network(Bi-LSTM)とTime-distributed Convolutional Neural Network(T-CNN)を用いる。 テキストモダリティでは、単語表現(GloVe)にグローバルベクトルを用いて単語埋め込みを行い、その埋め込みをBi-LSTMネットワークに入力する。 その結果,5つのクラス(健康,中等度,中等度,重度,重度)の音声モデルに対して,最良シーケンスレベルF1スコアが0.9870,患者レベルF1スコアが0.9074,患者レベルF1スコアが0.9709,患者レベルF1スコアが0.9245であった。 結果は多モード融合モデルに似ており、患者レベルのうつ病検出タスクでは5つのクラスでF1スコアが0.9580である。 実験では、過去の研究よりも統計的に有意な改善が見られた。

Depression is increasingly impacting individuals both physically and psychologically worldwide. It has become a global major public health problem and attracts attention from various research fields. Traditionally, the diagnosis of depression is formulated through semi-structured interviews and supplementary questionnaires, which makes the diagnosis heavily relying on physicians experience and is subject to bias. Mental health monitoring and cloud-based remote diagnosis can be implemented through an automated depression diagnosis system. In this article, we propose an attention-based multimodality speech and text representation for depression prediction. Our model is trained to estimate the depression severity of participants using the Distress Analysis Interview Corpus-Wizard of Oz (DAIC-WOZ) dataset. For the audio modality, we use the collaborative voice analysis repository (COVAREP) features provided by the dataset and employ a Bidirectional Long Short-Term Memory Network (Bi-LSTM) followed by a Time-distributed Convolutional Neural Network (T-CNN). For the text modality, we use global vectors for word representation (GloVe) to perform word embeddings and the embeddings are fed into the Bi-LSTM network. Results show that both audio and text models perform well on the depression severity estimation task, with best sequence level F1 score of 0.9870 and patient-level F1 score of 0.9074 for the audio model over five classes (healthy, mild, moderate, moderately severe, and severe), as well as sequence level F1 score of 0.9709 and patient-level F1 score of 0.9245 for the text model over five classes. Results are similar for the multimodality fused model, with the highest F1 score of 0.9580 on the patient-level depression detection task over five classes. Experiments show statistically significant improvements over previous works.
翻訳日:2022-02-28 14:34:16 公開日:2022-02-25
# 知識蒸留による患者別と患者非依存の精液予測のギャップを埋める

Bridging the Gap Between Patient-specific and Patient-independent Seizure Prediction via Knowledge Distillation ( http://arxiv.org/abs/2202.12598v1 )

ライセンス: Link先を確認
Di Wu, Jie Yang, and Mohamad Sawan(参考訳) 目的。 ディープニューラルネットワーク(DNN)は、てんかん発作の予測など、様々な脳-機械インタフェース(BCI)アプリケーションで前例のない成功を収めている。 しかし、既存のアプローチは通常、てんかん信号の高度にパーソナライズされた特徴のために患者特有の方法でモデルを訓練する。 そのため、各科目からのラベル付き録音は限られた数しか使用できない。 その結果、現在のDNNベースの手法では、トレーニングデータの不十分さにより、ある程度の一般化能力の低下が示される。 一方,患者に依存しないモデルでは,より多くの患者データを活用し,患者データをプールすることで全患者に普遍的なモデルを訓練しようとする。 その結果,患者に依存しないモデルは,患者間の個人差が大きいため,患者固有のモデルよりも悪い結果が得られた。 したがって、患者固有のモデルと患者に依存しないモデルの間には大きなギャップがある。 本稿では,複数の被験者からの大量のデータを利用した知識蒸留に基づく新しい学習手法を提案する。 まず、事前訓練された一般モデルを用いて、利用可能なすべての対象の信号から情報的特徴を抽出する。 患者固有のモデルは、蒸留された知識と追加のパーソナライズされたデータによって得られる。 重要なこと。 提案手法は,患者固有の発作予測器の性能を大幅に向上させ,患者固有の発作予測器と患者非依存予測器のギャップを橋渡しする。 提案手法を用いて,CHB-MIT sEEGデータベース上で5つの最先端の発作予測法を訓練する。 その結果,提案手法の精度,感度,誤予測率により,最先端手法の予測性能が一貫して向上することが示された。

Objective. Deep neural networks (DNN) have shown unprecedented success in various brain-machine interface (BCI) applications such as epileptic seizure prediction. However, existing approaches typically train models in a patient-specific fashion due to the highly personalized characteristics of epileptic signals. Therefore, only a limited number of labeled recordings from each subject can be used for training. As a consequence, current DNN based methods demonstrate poor generalization ability to some extent due to the insufficiency of training data. On the other hand, patient-independent models attempt to utilize more patient data to train a universal model for all patients by pooling patient data together. Despite different techniques applied, results show that patient-independent models perform worse than patient-specific models due to high individual variation across patients. A substantial gap thus exists between patient-specific and patient-independent models. In this paper, we propose a novel training scheme based on knowledge distillation which makes use of a large amount of data from multiple subjects. It first distills informative features from signals of all available subjects with a pre-trained general model. A patient-specific model can then be obtained with the help of distilled knowledge and additional personalized data. Significance. The proposed training scheme significantly improves the performance of patient-specific seizure predictors and bridges the gap between patient-specific and patient-independent predictors. Five state-of-the-art seizure prediction methods are trained on the CHB-MIT sEEG database with our proposed scheme. The resulting accuracy, sensitivity, and false prediction rate show that our proposed training scheme consistently improves the prediction performance of state-of-the-art methods by a large margin.
翻訳日:2022-02-28 14:33:39 公開日:2022-02-25
# 短・雑音時系列のnnetenエントロピー計算を改善する新しい手法

Novel techniques for improvement the NNetEn entropy calculation for short and noisy time series ( http://arxiv.org/abs/2202.12703v1 )

ライセンス: Link先を確認
Hanif Heidari and Andrei Velichko(参考訳) エントロピーは情報理論の基本概念である。 アナログ信号やデジタル信号の解析に広く用いられている。 従来のエントロピー測定では、時系列の長さや振幅に対する感度や外部ノイズに対するロバスト性が低いといった欠点がある。 近年,これらの問題を克服するためにNNetEnエントロピー尺度が導入された。 NNetEnエントロピーは、LogNNetニューラルネットワーク分類モデルの修正版を使用している。 このアルゴリズムは、与えられた時系列が満たすべき n = 19625 要素の貯水池行列を含む。 多くの実用時系列は19625要素未満である。 そこで本研究では, この難易度を克服するために, 補修と伸張の異なる手法について検討する。 最も成功した技術は実用的応用である。 外部ノイズやバイアスの存在は、エントロピー測定の効率に影響を及ぼす他の重要な問題である。 有意義な分析を行うためには,信号対雑音比 (SNR) とオフセットの異なる3つの時系列(カオス,周期,二値)を考える。 SNRが30dBを超えると、NNetEnエントロピーの計算誤差が10%を超えないことが示されている。 これにより、ノイズフィルタリングを必要とせずに、様々な性質、白色雑音、または1/f雑音の存在下で実験信号のNNetEnを測定することが可能となる。

Entropy is a fundamental concept of information theory. It is widely used in the analysis of analog and digital signals. Conventional entropy measures have drawbacks, such as sensitivity to the length and amplitude of time series and low robustness to external noise. Recently, the NNetEn entropy measure has been introduced to overcome these problems. The NNetEn entropy uses a modified version of the LogNNet neural network classification model. The algorithm contains a reservoir matrix with N = 19625 elements, which the given time series should fill. Many practical time series have less than 19625 elements. Against this background, this paper investigates different duplicating and stretching techniques for filling to overcome this difficulty. The most successful technique is identified for practical applications. The presence of external noise and bias are other important issues affecting the efficiency of entropy measures. In order to perform meaningful analysis, three time series with different dynamics (chaotic, periodic, and binary), with a variation of signal-to-noise ratio (SNR) and offsets, are considered. It is shown that the error in the calculation of the NNetEn entropy does not exceed 10% when the SNR exceeds 30 dB. This opens the possibility of measuring the NNetEn of experimental signals in the presence of noise of various nature, white noise, or 1/f noise, without the need for noise filtering.
翻訳日:2022-02-28 14:33:18 公開日:2022-02-25
# HTGN-BTW:時空間リンク予測のためのバイタイムウィンドトレーニング戦略を持つ異種時空間グラフネットワーク

HTGN-BTW: Heterogeneous Temporal Graph Network with Bi-Time-Window Training Strategy for Temporal Link Prediction ( http://arxiv.org/abs/2202.12713v1 )

ライセンス: Link先を確認
Chongjian Yue, Lun Du, Qiang Fu, Wendong Bi, Hengyu Liu, Yu Gu, Di Yao(参考訳) 近年,Eコマースネットワークやソーシャルネットワークなどの時間的ネットワークの発展に伴い,時間的リンク予測の問題が注目されている。 wsdm cup 2022の時間的リンク予測タスクは、2つの異なる特性とデータ特性を持つ2種類の時間的グラフを同時に処理できる単一のモデルが、与えられた時間範囲内の2つのノード間で特定のタイプのリンクが起こるかどうかを予測することを期待する。 本研究では,このタスクをヘテロジニアス時相ネットワークにおけるリンク予測タスクとして捉え,非固定時間間隔と多種多様なリンクタイプを用いた時間的リンク予測タスクを解決するための汎用モデルであるヘテロジニアス時相グラフネットワーク(htgn)を提案する。 すなわち、HTGNは任意の時間周期でリンクの不均一性と未固定時間間隔での予測に適応することができる。 モデルをトレーニングするために,2種類のタイムウインドウから2種類のミニバッチを持つバイタイムウインドウトレーニング戦略(btw)を設計した。 その結果、最終テストでは、データセットa上のauc 0.662482、データセットb上のauc 0.906923、平均tスコア 0.628942で2位となった。

With the development of temporal networks such as E-commerce networks and social networks, the issue of temporal link prediction has attracted increasing attention in recent years. The Temporal Link Prediction task of WSDM Cup 2022 expects a single model that can work well on two kinds of temporal graphs simultaneously, which have quite different characteristics and data properties, to predict whether a link of a given type will occur between two given nodes within a given time span. Our team, named as nothing here, regards this task as a link prediction task in heterogeneous temporal networks and proposes a generic model, i.e., Heterogeneous Temporal Graph Network (HTGN), to solve such temporal link prediction task with the unfixed time intervals and the diverse link types. That is, HTGN can adapt to the heterogeneity of links and the prediction with unfixed time intervals within an arbitrary given time period. To train the model, we design a Bi-Time-Window training strategy (BTW) which has two kinds of mini-batches from two kinds of time windows. As a result, for the final test, we achieved an AUC of 0.662482 on dataset A, an AUC of 0.906923 on dataset B, and won 2nd place with an Average T-scores of 0.628942.
翻訳日:2022-02-28 14:32:58 公開日:2022-02-25
# マイニングコンプレックスの同時確率最適化のためのスケジュールヒューリスティックスの学習

Learning to Schedule Heuristics for the Simultaneous Stochastic Optimization of Mining Complexes ( http://arxiv.org/abs/2202.12866v1 )

ライセンス: Link先を確認
Yassine Yaakoubi, Roussos Dimitrakopoulos(参考訳) マイニングコンプレックス(SSOMC)の同時確率最適化は大規模な確率的組合せ最適化問題であり、複数の鉱山から物質を抽出し、その処理を相互接続した設備を用いて最終生成物を生成すると同時に、物質供給(地質)の不確実性を考慮し、関連するリスクを管理する。 シミュレーションアニーリングはSSOMCの解法を比較する方法よりも優れていることが示されているが、初期の性能は、ヒューリスティックスの性能の組み合わせが適用すべき摂動を決定するために使用されるという最近の性能よりも優れている可能性がある。 本研究では、SSOMCを解くために、完全自己管理型ハイパーヒューリスティックのヒューリスティックスケジューリングのためのデータ駆動型フレームワークを提案する。 提案したL2P(Learning-to-pert urb)ハイパーヒューリスティックは,マルチ近隣シミュレーションアニールアルゴリズムである。 L2Pは、強化学習を用いて自己適応的に適用すべきヒューリスティック(摂動)を選択し、特定の探索点に適した局所探索を効率的に探索する。 いくつかの最先端エージェントがL2Pに組み込まれ、検索をより良く適応させ、より良いソリューションへと導く。 ヒューリスティックスの性能を記述するデータから学習することにより、より高速な解を求めるヒューリスティックスの問題固有の順序を求めることができる。 l2pは、効率、堅牢性、一般化能力を重視した、いくつかの実世界の鉱業複合体でテストされている。 その結果,反復回数を30~50%削減し,計算時間を30~45%削減した。

The simultaneous stochastic optimization of mining complexes (SSOMC) is a large-scale stochastic combinatorial optimization problem that simultaneously manages the extraction of materials from multiple mines and their processing using interconnected facilities to generate a set of final products, while taking into account material supply (geological) uncertainty to manage the associated risk. Although simulated annealing has been shown to outperform comparing methods for solving the SSOMC, early performance might dominate recent performance in that a combination of the heuristics' performance is used to determine which perturbations to apply. This work proposes a data-driven framework for heuristic scheduling in a fully self-managed hyper-heuristic to solve the SSOMC. The proposed learn-to-perturb (L2P) hyper-heuristic is a multi-neighborhood simulated annealing algorithm. The L2P selects the heuristic (perturbation) to be applied in a self-adaptive manner using reinforcement learning to efficiently explore which local search is best suited for a particular search point. Several state-of-the-art agents have been incorporated into L2P to better adapt the search and guide it towards better solutions. By learning from data describing the performance of the heuristics, a problem-specific ordering of heuristics that collectively finds better solutions faster is obtained. L2P is tested on several real-world mining complexes, with an emphasis on efficiency, robustness, and generalization capacity. Results show a reduction in the number of iterations by 30-50% and in the computational time by 30-45%.
翻訳日:2022-02-28 14:32:34 公開日:2022-02-25
# 時系列異常検出のための動的層の積み重ね残余

Stacked Residuals of Dynamic Layers for Time Series Anomaly Detection ( http://arxiv.org/abs/2202.12457v1 )

ライセンス: Link先を確認
L. Zancato, A. Achille, G. Paolini, A. Chiuso, S. Soatto(参考訳) 予測残差に逐次確率比テストを導入することにより,多変量時系列における異常検出を行う,エンドツーエンドの微分可能なニューラルネットワークアーキテクチャを提案する。 このアーキテクチャは、トレンドや季節といった信号の線形予測可能なコンポーネントを非線形のコンポーネントから分離するために設計された動的システムのカスケードである。 前者は局所線形動的層によってモデル化され、その残余は、各時系列のグローバル統計をそれぞれの局所的な予測のコンテキストとして集約する一般的な時間畳み込みネットワークに供給される。 最後の層は異常検出器を実装し、予測残差の時間構造を利用して孤立点異常とセットポイント変化の両方を検出する。 これは従来のCUMSUMアルゴリズムの新たな応用に基づいており、f-divergencesの変分近似を用いて適応されている。 モデルは観測された信号の時間スケールに自動的に適応する。 受信時にSARIMAモデルを近似し、より多くのデータが観測されるため、監視を必要とせず、信号とその共変量の統計を自動チューニングする。 STRICと呼ばれる結果のシステムは、複数の異常検出ベンチマーク上で、最先端の堅牢な統計手法とディープニューラルネットワークアーキテクチャの両方を上回ります。

We present an end-to-end differentiable neural network architecture to perform anomaly detection in multivariate time series by incorporating a Sequential Probability Ratio Test on the prediction residual. The architecture is a cascade of dynamical systems designed to separate linearly predictable components of the signal such as trends and seasonality, from the non-linear ones. The former are modeled by local Linear Dynamic Layers, and their residual is fed to a generic Temporal Convolutional Network that also aggregates global statistics from different time series as context for the local predictions of each one. The last layer implements the anomaly detector, which exploits the temporal structure of the prediction residuals to detect both isolated point anomalies and set-point changes. It is based on a novel application of the classic CUMSUM algorithm, adapted through the use of a variational approximation of f-divergences. The model automatically adapts to the time scales of the observed signals. It approximates a SARIMA model at the get-go, and auto-tunes to the statistics of the signal and its covariates, without the need for supervision, as more data is observed. The resulting system, which we call STRIC, outperforms both state-of-the-art robust statistical methods and deep neural network architectures on multiple anomaly detection benchmarks.
翻訳日:2022-02-28 14:31:49 公開日:2022-02-25
# スパースニューラル付加モデル:グループ空間による特徴選択による解釈可能な深層学習

Sparse Neural Additive Model: Interpretable Deep Learning with Feature Selection via Group Sparsity ( http://arxiv.org/abs/2202.12482v1 )

ライセンス: Link先を確認
Shiyun Xu, Zhiqi Bu, Pratik Chaudhari, Ian J. Barnett(参考訳) 解釈可能な機械学習は、説明可能性を維持しながら素晴らしいパフォーマンスを示した。 特に、ニューラル加法モデル(NAM)は、ブラックボックス深層学習の解釈可能性を提供し、一般化加法モデルの大規模なファミリー間で最先端の精度を達成する。 特徴選択によるNAMの強化と一般化の促進を目的として,群間隔正則化(例えば,グループLASSO)を用いたスパースニューラル加算モデル(SNAM)を提案し,各特徴をトレーニング可能なパラメータをグループとしてクラスタ化するサブネットワークで学習する。 SNAMの理論的性質を非パラメトリック真理に取り組むための新しい手法を用いて研究し、パラメトリック真理にのみ作用するLASSOのような古典的スパース線形モデルから拡張する。 具体的には,低次勾配および近位勾配降下のsnamはトレーニング損失ゼロに収束し,snamの推定誤差は非漸近的に$n\to\infty$となることを示す。 また, SNAMはLASSOと同様, 完全な特徴選択, 適切な正規化による正確なサポート回復が可能であることも証明した。 さらに,SNAMは「識別可能性」を良好に保ち,各特徴の効果を回復できることを示す。 我々は,この理論を広範な実験により検証し,SNAMの精度と効率をよりよく検証する。

Interpretable machine learning has demonstrated impressive performance while preserving explainability. In particular, neural additive models (NAM) offer the interpretability to the black-box deep learning and achieve state-of-the-art accuracy among the large family of generalized additive models. In order to empower NAM with feature selection and improve the generalization, we propose the sparse neural additive models (SNAM) that employ the group sparsity regularization (e.g. Group LASSO), where each feature is learned by a sub-network whose trainable parameters are clustered as a group. We study the theoretical properties for SNAM with novel techniques to tackle the non-parametric truth, thus extending from classical sparse linear models such as the LASSO, which only works on the parametric truth. Specifically, we show that SNAM with subgradient and proximal gradient descents provably converges to zero training loss as $t\to\infty$, and that the estimation error of SNAM vanishes asymptotically as $n\to\infty$. We also prove that SNAM, similar to LASSO, can have exact support recovery, i.e. perfect feature selection, with appropriate regularization. Moreover, we show that the SNAM can generalize well and preserve the `identifiability' ;, recovering each feature's effect. We validate our theories via extensive experiments and further testify to the good accuracy and efficiency of SNAM.
翻訳日:2022-02-28 14:31:27 公開日:2022-02-25
# 未知環境における動的メカニズムの学習 : 強化学習アプローチ

Learning Dynamic Mechanisms in Unknown Environments: A Reinforcement Learning Approach ( http://arxiv.org/abs/2202.12797v1 )

ライセンス: Link先を確認
Boxiang Lyu, Qinglin Meng, Shuang Qiu, Zhaoran Wang, Zhuoran Yang, Michael I. Jordan(参考訳) 動的メカニズム設計は、メカニズム設計者が時間変化のある環境でエージェント間でリソースを割り当てる方法を研究する。 エージェントが未知のマルコフ決定プロセス(MDP)に従ってメカニズムデザイナと相互作用する問題について考察し、エージェント報酬とメカニズムデザイナの状態は未知の報酬関数と遷移カーネルを持つエピソードMDPに従って進化する。 線形関数近似によるオンライン設定に着目し,複数ラウンドの相互作用を通じて動的ヴィクレー・クラーク・グルーブ(VCG)機構の回復を試みる。 我々の研究の重要な貢献は、報酬のないオンライン強化学習(RL)を導入して、豊かな政策空間を探索し、動的なVCGメカニズムの価格を見積もることである。 提案手法の後悔は$\tilde{\mathcal{o}}(t^{2/3})$で上限され、さらに下限を考案し、我々のアルゴリズムが効率的であることを示し、同じ$\tilde{\mathcal{o}}(t^{2/3})$を下限として後悔することを示し、ここで$t$はラウンドの総数である。 我々の研究は、基礎となるモデルについて事前知識のない動的メカニズム設計問題の解決において、オンラインRLに対する後悔の保証を確立します。

Dynamic mechanism design studies how mechanism designers should allocate resources among agents in a time-varying environment. We consider the problem where the agents interact with the mechanism designer according to an unknown Markov Decision Process (MDP), where agent rewards and the mechanism designer's state evolve according to an episodic MDP with unknown reward functions and transition kernels. We focus on the online setting with linear function approximation and attempt to recover the dynamic Vickrey-Clarke-Grove (VCG) mechanism over multiple rounds of interaction. A key contribution of our work is incorporating reward-free online Reinforcement Learning (RL) to aid exploration over a rich policy space to estimate prices in the dynamic VCG mechanism. We show that the regret of our proposed method is upper bounded by $\tilde{\mathcal{O}}(T^{2/3})$ and further devise a lower bound to show that our algorithm is efficient, incurring the same $\tilde{\mathcal{O}}(T^{2 / 3})$ regret as the lower bound, where $T$ is the total number of rounds. Our work establishes the regret guarantee for online RL in solving dynamic mechanism design problems without prior knowledge of the underlying model.
翻訳日:2022-02-28 14:31:03 公開日:2022-02-25
# (参考訳) 3Dビデオゲームにおける知覚的バグの識別 [全文訳有]

Learning to Identify Perceptual Bugs in 3D Video Games ( http://arxiv.org/abs/2202.12884v1 )

ライセンス: CC BY 4.0
Benedict Wilkins, Kostas Stathis(参考訳) ビデオゲームにおける自動バグ検出(ABD)は、自動ゲーム探索とバグ識別の2つの相補的な問題からなる。 自動ゲーム探索は、強化学習などの分野の発展によって、近年注目を集めている。 プレイヤーの経験にあるバグを特定するという相補的な問題は、ほとんどの場合、ルールのマニュアル仕様に依存していた。 このような手法では,多くの害虫が同定できないことが広く認識されているが,この方向への進展はほとんど見られない。 本研究では,レンダリングされたゲーム画面のみをプレイヤーが見ているように利用することにより,学習ベースの手法を用いて知覚的バグの範囲を特定することができることを示す。 我々は3Dゲーム環境でABDメソッドをテストするオープンプラットフォーム World of Bugs (WOB) を開発した。

Automated Bug Detection (ABD) in video games is composed of two distinct but complementary problems: automated game exploration and bug identification. Automated game exploration has received much recent attention, spurred on by developments in fields such as reinforcement learning. The complementary problem of identifying the bugs present in a player's experience has for the most part relied on the manual specification of rules. Although it is widely recognised that many bugs of interest cannot be identified with such methods, little progress has been made in this direction. In this work we show that it is possible to identify a range of perceptual bugs using learning-based methods by making use of only the rendered game screen as seen by the player. To support our work, we have developed World of Bugs (WOB) an open platform for testing ABD methods in 3D game environments.
翻訳日:2022-02-28 14:29:57 公開日:2022-02-25
# SIMMC 2.0チャレンジにおけるあいまいさ検出と参照解決のためのマルチモーダル表現の探索

Exploring Multi-Modal Representations for Ambiguity Detection & Coreference Resolution in the SIMMC 2.0 Challenge ( http://arxiv.org/abs/2202.12645v1 )

ライセンス: Link先を確認
Francisco Javier Chiyah-Garcia and Alessandro Suglia and Jos\'e Lopes and Arash Eshghi and Helen Hastie(参考訳) 代名詞や指示記述などのアナフォリックな表現は、先行するターンの言語的文脈や、即時的な視覚環境に関するものである。 しかし、話者の参照記述が必ずしも参照者を識別するとは限らないため、その後の明確化交換による解決の必要性が曖昧になる。 したがって、会話型AIにおけるタスク成功の鍵は、効果的なあいまいさ検出と参照解決である。 本稿では,simmc 2.0 チャレンジ (kottur et al. 2021) の一環として,これら2つのタスクのモデルを提案する。 具体的には,TOD-BERTとLXMERTをベースとしたモデルを用いて,多数のベースラインと比較し,アブレーション実験を行う。 その結果,(1)言語モデルでは曖昧さを検出するためにデータの相関を活用でき,(2)言語モデルでは,スマートオブジェクト表現を用いることで,視覚コンポーネントの必要性を回避することができることがわかった。

Anaphoric expressions, such as pronouns and referential descriptions, are situated with respect to the linguistic context of prior turns, as well as, the immediate visual environment. However, a speaker's referential descriptions do not always uniquely identify the referent, leading to ambiguities in need of resolution through subsequent clarificational exchanges. Thus, effective Ambiguity Detection and Coreference Resolution are key to task success in Conversational AI. In this paper, we present models for these two tasks as part of the SIMMC 2.0 Challenge (Kottur et al. 2021). Specifically, we use TOD-BERT and LXMERT based models, compare them to a number of baselines and provide ablation experiments. Our results show that (1) language models are able to exploit correlations in the data to detect ambiguity; and (2) unimodal coreference resolution models can avoid the need for a vision component, through the use of smart object representations.
翻訳日:2022-02-28 14:15:41 公開日:2022-02-25
# ASRにおけるデータバイアスと予測バイアスを仲裁する言語技術実践者

Language technology practitioners as language managers: arbitrating data bias and predictive bias in ASR ( http://arxiv.org/abs/2202.12603v1 )

ライセンス: Link先を確認
Nina Markl and Stephen Joseph McNulty(参考訳) 変動が自然言語の基本特性であるにもかかわらず、自動音声認識システムは、非標準言語と限界言語で体系的に悪化する。 本稿では、言語政策のレンズを用いて、業界におけるASRシステムのトレーニングとテストの現在の実践が、これらの体系的な誤りの相違をもたらすデータバイアスの原因となっているかを分析する。 これは、音声および言語技術実践者がアルゴリズムバイアスの起源と害を理解し、それを緩和する方法を理解する上で有用な視点である、と我々は信じている。 また,言語資源の(公的な)基盤として,市場だけでなく,言論コミュニティの有意義な協力のもとに,言語資源の再フレーミングを提案する。

Despite the fact that variation is a fundamental characteristic of natural language, automatic speech recognition systems perform systematically worse on non-standardised and marginalised language varieties. In this paper we use the lens of language policy to analyse how current practices in training and testing ASR systems in industry lead to the data bias giving rise to these systematic error differences. We believe that this is a useful perspective for speech and language technology practitioners to understand the origins and harms of algorithmic bias, and how they can mitigate it. We also propose a re-framing of language resources as (public) infrastructure which should not solely be designed for markets, but for, and with meaningful cooperation of, speech communities.
翻訳日:2022-02-28 14:14:07 公開日:2022-02-25
# アカウンタブルで再現可能なフェデレーションラーニングを目指して:FactSheetsアプローチ

Towards an Accountable and Reproducible Federated Learning: A FactSheets Approach ( http://arxiv.org/abs/2202.12443v1 )

ライセンス: Link先を確認
Nathalie Baracaldo, Ali Anwar, Mark Purcell, Ambrish Rawat, Mathieu Sinn, Bashar Altakrouri, Dian Balta, Mahdi Sellami, Peter Kuhn, Ulrich Schopp, Matthias Buchinger(参考訳) フェデレートラーニング(FL)は、分散データとプライベートデータに基づくモデルの共有トレーニングのための新しいパラダイムである。 倫理的ガイドラインに関しては、FLはプライバシーを約束するが、透明性と信頼性を追求する必要がある。 特にFLは、関係する当事者の説明責任と、規則、法律、原則への遵守に対処しなければならない。 AF^2 Frameworkを導入し、検証可能な主張を暗黙の事実と融合して再現可能な議論を行う。 AIライフサイクルに透明性と信頼性を注入し、動的でネストされた事実やFLの複雑なモデル構成を組み込むように拡張するためのAI FactSheetsを構築しています。 このアプローチに基づいて、監査人はflプロセスを検証、再現、証明することができる。 これは、AIエンジニアリングと倫理の課題に対処するために、実践的に直接適用することができる。

Federated Learning (FL) is a novel paradigm for the shared training of models based on decentralized and private data. With respect to ethical guidelines, FL is promising regarding privacy, but needs to excel vis-\`a-vis transparency and trustworthiness. In particular, FL has to address the accountability of the parties involved and their adherence to rules, law and principles. We introduce AF^2 Framework, where we instrument FL with accountability by fusing verifiable claims with tamper-evident facts, into reproducible arguments. We build on AI FactSheets for instilling transparency and trustworthiness into the AI lifecycle and expand it to incorporate dynamic and nested facts, as well as complex model compositions in FL. Based on our approach, an auditor can validate, reproduce and certify a FL process. This can be directly applied in practice to address the challenges of AI engineering and ethics.
翻訳日:2022-02-28 14:13:38 公開日:2022-02-25
# 有向グラフ自動エンコーダ

Directed Graph Auto-Encoders ( http://arxiv.org/abs/2202.12449v1 )

ライセンス: Link先を確認
Georgios Kollias, Vasileios Kalantzis, Tsuyoshi Id\'e, Aur\'elie Lozano, Naoki Abe(参考訳) Wesfeiler-Lemanアルゴリズムのノードラベルへの直接拡張によって動機付けられた有向グラフのための新しい自動エンコーダのクラスを導入する。 提案モデルは,有向グラフのノードに対する解釈可能な潜在表現のペアを学習し,そのエンコーダと非対称内積デコーダにパラメータ化グラフ畳み込みネットワーク(GCN)層を用いる。 エンコーダ内のパラメータは、隣接するノード間で交換される表現の重み付けを制御する。 本稿では,提案モデルが有意義な潜伏埋め込みを学習し,ネットワークデータセットの有向リンク予測タスクにおいて優れた性能を発揮することを示す。

We introduce a new class of auto-encoders for directed graphs, motivated by a direct extension of the Weisfeiler-Leman algorithm to pairs of node labels. The proposed model learns pairs of interpretable latent representations for the nodes of directed graphs, and uses parameterized graph convolutional network (GCN) layers for its encoder and an asymmetric inner product decoder. Parameters in the encoder control the weighting of representations exchanged between neighboring nodes. We demonstrate the ability of the proposed model to learn meaningful latent embeddings and achieve superior performance on the directed link prediction task on several popular network datasets.
翻訳日:2022-02-28 14:13:22 公開日:2022-02-25
# MetaVA:心電図に基づく心室不整脈検出のための深部ニューラルネットワークのカリキュラムメタラーニングと事前調整

MetaVA: Curriculum Meta-learning and Pre-fine-tuning of Deep Neural Networks for Detecting Ventricular Arrhythmias based on ECGs ( http://arxiv.org/abs/2202.12450v1 )

ライセンス: Link先を確認
Wenrui Zhang, Shijia Geng, Zhaoji Fu, Linlin Zheng, Chenyang Jiang, Shenda Hong(参考訳) 心室不整脈(VA)は突然の心臓死の主な原因である。 心電図(ECG)に基づくVA検出のための機械学習手法の開発は、人々の命を救うのに役立つ。 しかし、ECGのためのこのような機械学習モデルの開発は、以下の理由により困難である。 1)異なる被験者と集団レベルの多様性 2) 1つの主題の異なるモーメントからの個人レベルの多様性。 本研究では,これらの課題を事前学習と微調整の段階で解決することを目的とする。 事前学習段階において,グループレベルの多様性を解決するために,カリキュラム学習(CL)法を用いたモデル非依存メタラーニング(MAML)を提案する。 MAMLは、大きなデータセットからより優れた知識を転送し、モデルを新しい人に迅速に適応させるために、わずか数レコードを使用すると期待されている。 CLは、メタラーニングによって、簡単なタスクから難しいタスクまで、MAMLをさらに改善する予定である。 微調整の段階では,個別レベルの多様性を解決するために,事前調整の改善を提案する。 利用可能なECGデータセットを3つ組み合わせて実験を行った。 その結果,提案手法はすべての評価指標において比較手法よりも優れていた。 アブレーションによる研究によると、MAMLとCLはより均一に機能し、事前調整はモデルをトレーニングデータに適合させる可能性がある。

Ventricular arrhythmias (VA) are the main causes of sudden cardiac death. Developing machine learning methods for detecting VA based on electrocardiograms (ECGs) can help save people's lives. However, developing such machine learning models for ECGs is challenging because of the following: 1) group-level diversity from different subjects and 2) individual-level diversity from different moments of a single subject. In this study, we aim to solve these problems in the pre-training and fine-tuning stages. For the pre-training stage, we propose a novel model agnostic meta-learning (MAML) with curriculum learning (CL) method to solve group-level diversity. MAML is expected to better transfer the knowledge from a large dataset and use only a few recordings to quickly adapt the model to a new person. CL is supposed to further improve MAML by meta-learning from easy to difficult tasks. For the fine-tuning stage, we propose improved pre-fine-tuning to solve individual-level diversity. We conduct experiments using a combination of three publicly available ECG datasets. The results show that our method outperforms the compared methods in terms of all evaluation metrics. Ablation studies show that MAML and CL could help perform more evenly, and pre-fine-tuning could better fit the model to training data.
翻訳日:2022-02-28 14:13:10 公開日:2022-02-25
# 強化学習による確率指向グラフの到達可能性解析

Reachability analysis in stochastic directed graphs by reinforcement learning ( http://arxiv.org/abs/2202.12546v1 )

ライセンス: Link先を確認
Corrado Possieri, Mattia Frasca, and Alessandro Rizzo(参考訳) 確率指向グラフにおける到達可能性確率を強化学習法により特徴づける。 特に,確率的ダイグラフにおける遷移確率のダイナミクスは,差分包摂によってモデル化され,マルコフ決定過程として解釈できることを示す。 後者のフレームワークを用いて,確率的ダイアグラムのためのノードの集合の到達可能性の上限を上下に設定する報酬関数を設計する手法を提案する。 提案手法の有効性は,移動剤の近接パターンによって発生した接触ネットワーク上での流行病の拡散に応用することで実証された。

We characterize the reachability probabilities in stochastic directed graphs by means of reinforcement learning methods. In particular, we show that the dynamics of the transition probabilities in a stochastic digraph can be modeled via a difference inclusion, which, in turn, can be interpreted as a Markov decision process. Using the latter framework, we offer a methodology to design reward functions to provide upper and lower bounds on the reachability probabilities of a set of nodes for stochastic digraphs. The effectiveness of the proposed technique is demonstrated by application to the diffusion of epidemic diseases over time-varying contact networks generated by the proximity patterns of mobile agents.
翻訳日:2022-02-28 14:12:53 公開日:2022-02-25
# 文脈階層逆強化学習

Context-Hierarchy Inverse Reinforcement Learning ( http://arxiv.org/abs/2202.12597v1 )

ライセンス: Link先を確認
Wei Gao, David Hsu, Wee Sun Lee(参考訳) 逆強化学習(IRL)エージェントは、専門家のデモンストレーションを観察し、専門家の根底にある報酬関数を学習することで知的に行動することを学ぶ。 実演から報酬関数を学ぶことは様々なタスクで大きな成功を収めてきたが、他のいくつかの課題はほとんど無視されている。 まず、既存のIRL法は、事前の知識に頼ることなく、報酬関数をゼロから学習しようとする。 第二に、伝統的なIRL法では、報酬関数はすべての実演において均質であると仮定する。 既存のIRLメソッドは、不均一なデモにまで拡張することができた。 しかし、動作に影響を与える1つの隠れた変数を仮定し、デモの報酬とともに隠れた変数を学習する。 これらの問題を解決するために、複雑な振る舞いの報酬関数を学習するためにコンテキストを利用した新しいIRLアルゴリズムであるContext Hierarchy IRL(CHIRL)を提案する。 chirlは、コンテキストを有向非循環グラフとして階層的にモデル化し、各ネットワークモジュールとコンテキスト階層のノードを関連付ける、対応するモジュラーディープニューラルネットワークとして報酬関数を表現する。 コンテキスト階層とモジュール報酬表現は、複数のコンテキスト間のデータ共有と状態抽象化を可能にし、学習性能を大幅に向上させる。 CHIRLは、コンテキスト階層がサブタスク分解を表すとき、階層的なタスク計画と自然な関係を持つ。 サブタスクの因果依存性に関する以前の知識を取り入れ、複数のサブタスクに分離し、各サブタスクを征服して元のタスクを解くことで、大きな複雑なタスクを解くことができる。 CARLAシミュレータにおける大規模自律運転タスクを含むベンチマークタスクの実験は、複雑な報酬関数を持つタスクに対してIRLをスケールアップする有望な結果を示している。

An inverse reinforcement learning (IRL) agent learns to act intelligently by observing expert demonstrations and learning the expert's underlying reward function. Although learning the reward functions from demonstrations has achieved great success in various tasks, several other challenges are mostly ignored. Firstly, existing IRL methods try to learn the reward function from scratch without relying on any prior knowledge. Secondly, traditional IRL methods assume the reward functions are homogeneous across all the demonstrations. Some existing IRL methods managed to extend to the heterogeneous demonstrations. However, they still assume one hidden variable that affects the behavior and learn the underlying hidden variable together with the reward from demonstrations. To solve these issues, we present Context Hierarchy IRL(CHIRL), a new IRL algorithm that exploits the context to scale up IRL and learn reward functions of complex behaviors. CHIRL models the context hierarchically as a directed acyclic graph; it represents the reward function as a corresponding modular deep neural network that associates each network module with a node of the context hierarchy. The context hierarchy and the modular reward representation enable data sharing across multiple contexts and state abstraction, significantly improving the learning performance. CHIRL has a natural connection with hierarchical task planning when the context hierarchy represents subtask decomposition. It enables to incorporate the prior knowledge of causal dependencies of subtasks and make it capable of solving large complex tasks by decoupling it into several subtasks and conquering each subtask to solve the original task. Experiments on benchmark tasks, including a large scale autonomous driving task in the CARLA simulator, show promising results in scaling up IRL for tasks with complex reward functions.
翻訳日:2022-02-28 14:12:45 公開日:2022-02-25
# ニューラルネットワークにおける不変ウェイト学習

Learning Invariant Weights in Neural Networks ( http://arxiv.org/abs/2202.12439v1 )

ライセンス: Link先を確認
Tycho F.A. van der Ouderaa and Mark van der Wilk(参考訳) データの不変性や対称性に関する仮定は、統計モデルの予測能力を大幅に向上させることができる。 機械学習においてよく使われるモデルの多くは、畳み込みニューラルネットワークの変換等、データの特定の対称性を尊重することを制約しており、新しい対称性型の導入が活発に研究されている。 しかし、データ自体からそのような不変性を学ぶ努力は、依然としてオープンな研究課題である。 限界確率はガウス過程における不変性を学ぶための原理的な方法をもたらすことが示されている。 本稿では,このアプローチに等価な重み空間を提案し,限界確率の下限を最小化し,ニューラルネットワークの不変性を学習することにより,自然に高いパフォーマンスモデルを実現する。

Assumptions about invariances or symmetries in data can significantly increase the predictive power of statistical models. Many commonly used models in machine learning are constraint to respect certain symmetries in the data, such as translation equivariance in convolutional neural networks, and incorporation of new symmetry types is actively being studied. Yet, efforts to learn such invariances from the data itself remains an open research problem. It has been shown that marginal likelihood offers a principled way to learn invariances in Gaussian Processes. We propose a weight-space equivalent to this approach, by minimizing a lower bound on the marginal likelihood to learn invariances in neural networks resulting in naturally higher performing models.
翻訳日:2022-02-28 14:11:33 公開日:2022-02-25
# データ前処理による対物フェアネスの学習とテストについて

On Learning and Testing of Counterfactual Fairness through Data Preprocessing ( http://arxiv.org/abs/2202.12440v1 )

ライセンス: Link先を確認
Haoyu Chen, Wenbin Lu, Rui Song and Pulak Ghosh(参考訳) 機械学習は実生活における意思決定においてますます重要になっているが、人々は不適切な使用によってもたらされる倫理的問題を懸念している。 最近の研究は、機械学習の公正性に関する議論を因果的枠組みに持ち込み、対実的公正の概念を精査している。 本稿では,fair Learning through dAta preprocessing (FLAP)アルゴリズムを開発し,偏りのあるトレーニングデータから対実的公正な判断を学習し,対実的公正性を保証するために異なるデータ前処理手順を使用するべき条件を定式化する。 また,処理された非感性属性から判断の条件付き独立性や感度特性に等価であることを示し,処理データを用いて元の判断における識別を検出できることを示した。 本アルゴリズムの性能はシミュレーションデータと実世界のアプリケーションを用いて示す。

Machine learning has become more important in real-life decision-making but people are concerned about the ethical problems it may bring when used improperly. Recent work brings the discussion of machine learning fairness into the causal framework and elaborates on the concept of Counterfactual Fairness. In this paper, we develop the Fair Learning through dAta Preprocessing (FLAP) algorithm to learn counterfactually fair decisions from biased training data and formalize the conditions where different data preprocessing procedures should be used to guarantee counterfactual fairness. We also show that Counterfactual Fairness is equivalent to the conditional independence of the decisions and the sensitive attributes given the processed non-sensitive attributes, which enables us to detect discrimination in the original decision using the processed data. The performance of our algorithm is illustrated using simulated data and real-world applications.
翻訳日:2022-02-28 14:11:23 公開日:2022-02-25
# 不均一入力領域上でのマルチタスクガウス過程の学習

Learning Multi-Task Gaussian Process Over Heterogeneous Input Domains ( http://arxiv.org/abs/2202.12636v1 )

ライセンス: Link先を確認
Haitao Liu, Kai Wu, Yew-Soon Ong, Xiaomo Jiang, Xiaofang Wang(参考訳) マルチタスクガウス過程(MTGP)は、タスク間で知識を伝達することで相関したタスクを効果的に学習するためのよく知られた非パラメトリックベイズモデルである。 しかし、現在のmtgpモデルは、通常、同じ入力ドメインで定義されたマルチタスクシナリオに限定されており、実際の異質なケースに取り組むためのスペースは残っていない。 そこで本稿では,同地域化モデル(hsvlmc)の確率的変分線形モデルを用いて,入力領域の異なるタスクを同時に学習する手法を提案する。 特に,ベイズ校正法を用いて確率的変分枠組みを開発した。 (i)効果的な入力アライメントを達成するために、ドメインマッピングによって引き起こされる次元の縮小の効果を考慮に入れる。 (ii) モデル推論を改善するために、事前ドメインマッピングによってもたらされる帰納的バイアスを活用するために、残留モデリング戦略を用いる。 最後に、既存のlmcモデルに対する提案モデルの優位性は、多様な異種マルチタスクケースにおいて広範囲に検証されている。

Multi-task Gaussian process (MTGP) is a well-known non-parametric Bayesian model for learning correlated tasks effectively by transferring knowledge across tasks. But current MTGP models are usually limited to the multi-task scenario defined in the same input domain, leaving no space for tackling the practical heterogeneous case, i.e., the features of input domains vary over tasks. To this end, this paper presents a novel heterogeneous stochastic variational linear model of coregionalization (HSVLMC) model for simultaneously learning the tasks with varied input domains. Particularly, we develop the stochastic variational framework with a Bayesian calibration method that (i) takes into account the effect of dimensionality reduction raised by domain mapping in order to achieve effective input alignment; and (ii) employs a residual modeling strategy to leverage the inductive bias brought by prior domain mappings for better model inference. Finally, the superiority of the proposed model against existing LMC models has been extensively verified on diverse heterogeneous multi-task cases.
翻訳日:2022-02-28 14:11:06 公開日:2022-02-25
# 不均一処理効果推定のための観測データとランダム化データの組み合わせ

Combining Observational and Randomized Data for Estimating Heterogeneous Treatment Effects ( http://arxiv.org/abs/2202.12891v1 )

ライセンス: Link先を確認
Tobias Hatt, Jeroen Berrevoets, Alicia Curth, Stefan Feuerriegel, Mihaela van der Schaar(参考訳) 不均一な治療効果の推定は、多くの領域において重要な問題である。 このような治療効果を正確に推定するためには、一般的に観察研究やランダム化実験のデータに依存する。 現在、既存の作品の多くは観測データのみに依存しており、これはしばしば混同され、偏りのある推定結果となる。 観測データは統合されているが、ランダム化されたデータは未確立であるが、サンプルのサイズは通常小さすぎて不均一な処理効果を学習できない。 本稿では,多量の観測データと少量のランダム化データを表現学習により組み合わせ,不均一な処理効果を推定する。 まず、観測データを用いて共有構造(表現形式)を学習し、次にランダム化されたデータを用いてデータ固有の構造を学習する。 本フレームワークの有限サンプル特性を解析し,いくつかの自然ベースラインと比較する。 したがって、観測データとランダムデータを組み合わせた場合の条件とそうでない場合の条件を導出する。 そこで我々は,CorNetと呼ばれるサンプル効率のよいアルゴリズムを提案する。 本研究では,コーネットと複数の実世界のデータセットの理論的性質を検証するために,シミュレーション実験を行い,本手法が既存の手法よりも優れていることを示す。

Estimating heterogeneous treatment effects is an important problem across many domains. In order to accurately estimate such treatment effects, one typically relies on data from observational studies or randomized experiments. Currently, most existing works rely exclusively on observational data, which is often confounded and, hence, yields biased estimates. While observational data is confounded, randomized data is unconfounded, but its sample size is usually too small to learn heterogeneous treatment effects. In this paper, we propose to estimate heterogeneous treatment effects by combining large amounts of observational data and small amounts of randomized data via representation learning. In particular, we introduce a two-step framework: first, we use observational data to learn a shared structure (in form of a representation); and then, we use randomized data to learn the data-specific structures. We analyze the finite sample properties of our framework and compare them to several natural baselines. As such, we derive conditions for when combining observational and randomized data is beneficial, and for when it is not. Based on this, we introduce a sample-efficient algorithm, called CorNet. We use extensive simulation studies to verify the theoretical properties of CorNet and multiple real-world datasets to demonstrate our method's superiority compared to existing methods.
翻訳日:2022-02-28 14:10:53 公開日:2022-02-25
# (参考訳) DataLab: データ分析と介入のためのプラットフォーム [全文訳有]

DataLab: A Platform for Data Analysis and Intervention ( http://arxiv.org/abs/2202.12875v1 )

ライセンス: CC BY-SA 4.0
Yang Xiao, Jinlan Fu, Weizhe Yuan, Vijay Viswanathan, Zhoumianze Liu, Yixin Liu, Graham Neubig and Pengfei Liu(参考訳) 機械学習におけるデータの役割は重要であるが、既存のツールや研究の多くは、データの解釈や操作ではなく、既存のデータに基づくシステムに焦点を当てている。 本稿では,ユーザがデータの特徴をインタラクティブに分析できるだけでなく,異なるデータ処理操作のための標準化されたインターフェースを提供する,統一データ指向プラットフォームDataLabを提案する。 さらに、データセットの普及が進行中であるという点では、データセットレコメンデーションとグローバルビジョン分析の機能を備えており、研究者がデータエコシステムをよりよく見るのに役立つ。 これまでdatalabは、1,715のデータセットと3,583の変換されたバージョン(例:hyponyms置換)をカバーしており、728のデータセットは318の機能関数でアノテートされた140万のサンプルの助けを借りて、さまざまな分析(性別バイアスなど)をサポートしている。 DataLabは開発中であり、今後サポートされる予定である。 私たちはwebプラットフォーム、web api、python sdk、pypiが公開したパッケージおよびオンラインドキュメントをリリースしました。

Despite data's crucial role in machine learning, most existing tools and research tend to focus on systems on top of existing data rather than how to interpret and manipulate data. In this paper, we propose DataLab, a unified data-oriented platform that not only allows users to interactively analyze the characteristics of data, but also provides a standardized interface for different data processing operations. Additionally, in view of the ongoing proliferation of datasets, \toolname has features for dataset recommendation and global vision analysis that help researchers form a better view of the data ecosystem. So far, DataLab covers 1,715 datasets and 3,583 of its transformed version (e.g., hyponyms replacement), where 728 datasets support various analyses (e.g., with respect to gender bias) with the help of 140M samples annotated by 318 feature functions. DataLab is under active development and will be supported going forward. We have released a web platform, web API, Python SDK, PyPI published package and online documentation, which hopefully, can meet the diverse needs of researchers.
翻訳日:2022-02-28 14:09:41 公開日:2022-02-25
# NeuralKG:知識グラフの多言語表現学習のためのオープンソースライブラリ

NeuralKG: An Open Source Library for Diverse Representation Learning of Knowledge Graphs ( http://arxiv.org/abs/2202.12571v1 )

ライセンス: Link先を確認
Wen Zhang, Xiangnan Chen, Zhen Yao, Mingyang Chen, Yushan Zhu, Hongtao Yu, Yufeng Huang, Zezhong Xu, Yajing Xu, Ningyu Zhang, Zonggang Yuan, Feiyu Xiong, Huajun Chen(参考訳) NeuralKGは、知識グラフの多様な表現学習のためのオープンソースのPythonベースのライブラリである。 従来のKGE、GNNベースのKGE、ルールベースのKGEを含む3種類の知識グラフ埋め込み(KGE)メソッドを実装している。 統一されたフレームワークにより、NeuralKGはこれらのメソッドのリンク予測結果をベンチマークで再現し、特に元々は非ピソンプログラミング言語で記述されたメソッドにおいて、ユーザをその再実装の面倒なタスクから解放する。 また、NeuralKGは高度に構成可能で拡張可能である。 様々な分離モジュールを提供し、互いに混合し、適応することができる。 そのため、neuralkgを使用することで、開発者や研究者は自身の設計したモデルを迅速に実装し、最高のパフォーマンスを達成するための最適なトレーニング方法を得ることができる。 我々は、オープンで共有されたKG表現学習コミュニティを組織するために、http://neuralkg.zjuk g.cnにウェブサイトを構築しました。 ソースコードはすべてhttps://github.com/z jukg/NeuralKGで公開されている。

NeuralKG is an open-source Python-based library for diverse representation learning of knowledge graphs. It implements three different series of Knowledge Graph Embedding (KGE) methods, including conventional KGEs, GNN-based KGEs, and Rule-based KGEs. With a unified framework, NeuralKG successfully reproduces link prediction results of these methods on benchmarks, freeing users from the laborious task of reimplementing them, especially for some methods originally written in non-python programming languages. Besides, NeuralKG is highly configurable and extensible. It provides various decoupled modules that can be mixed and adapted to each other. Thus with NeuralKG, developers and researchers can quickly implement their own designed models and obtain the optimal training methods to achieve the best performance efficiently. We built an website in http://neuralkg.zjuk g.cn to organize an open and shared KG representation learning community. The source code is all publicly released at https://github.com/z jukg/NeuralKG.
翻訳日:2022-02-28 13:44:09 公開日:2022-02-25
# 生物医学領域におけるディープラーニング・自然言語処理・説明可能な人工知能

Deep Learning, Natural Language Processing, and Explainable Artificial Intelligence in the Biomedical Domain ( http://arxiv.org/abs/2202.12678v1 )

ライセンス: Link先を確認
Milad Moradi, Matthias Samwald(参考訳) 本稿では,まず人工知能とその生物学・医学への応用について紹介する。 1. ディープラーニングの方法は、次に、セクションで説明します。 2) 本研究は第3節におけるテキストデータ研究の焦点を絞ったもので, 自然言語処理とそのバイオメディカル分野への応用について述べる。 第4節では、説明可能な人工知能について紹介し、特に生物医学領域における人工知能システムの説明可能性の重要性について論じる。

In this article, we first give an introduction to artificial intelligence and its applications in biology and medicine in Section 1. Deep learning methods are then described in Section 2. We narrow down the focus of the study on textual data in Section 3, where natural language processing and its applications in the biomedical domain are described. In Section 4, we give an introduction to explainable artificial intelligence and discuss the importance of explainability of artificial intelligence systems, especially in the biomedical domain.
翻訳日:2022-02-28 13:43:52 公開日:2022-02-25
# 平衡アグリゲーション:最適化による符号化セット

Equilibrium Aggregation: Encoding Sets via Optimization ( http://arxiv.org/abs/2202.12795v1 )

ライセンス: Link先を確認
Sergey Bartunov, Fabian B. Fuchs, Timothy Lillicrap(参考訳) ニューラルネットワークの処理セットや他の順序付けされていない可変サイズの入力は通常、複数の入力テンソルを単一の表現に変換することで処理される。 単純な和のプーリングから多頭注意まで、すでに多くの集約手法が存在するが、それらは理論的および経験的観点からの表現力に制限されている。 主により強力なアグリゲーション戦略の探索において,Equilibrium Aggregationと呼ばれる最適化に基づく手法を提案する。 既存の集約手法の多くは, 平衡集約の特別な場合として回収可能であること, 重要な場合において, より効果的であることを示す。 Equilibrium Aggregationは、既存の多くのアーキテクチャやアプリケーションにおいて、ドロップイン代替として使用することができる。 我々は,その効率を中央値推定,クラスカウント,分子特性予測の3つのタスクで検証する。 すべての実験において、平衡アグリゲーションは他のアグリゲーション技術よりも高い性能を達成する。

Processing sets or other unordered, potentially variable-sized inputs in neural networks is usually handled by \emph{aggregating} a number of input tensors into a single representation. While a number of aggregation methods already exist from simple sum pooling to multi-head attention, they are limited in their representational power both from theoretical and empirical perspectives. On the search of a principally more powerful aggregation strategy, we propose an optimization-based method called Equilibrium Aggregation. We show that many existing aggregation methods can be recovered as special cases of Equilibrium Aggregation and that it is provably more efficient in some important cases. Equilibrium Aggregation can be used as a drop-in replacement in many existing architectures and applications. We validate its efficiency on three different tasks: median estimation, class counting, and molecular property prediction. In all experiments, Equilibrium Aggregation achieves higher performance than the other aggregation techniques we test.
翻訳日:2022-02-28 13:43:43 公開日:2022-02-25
# 単純後悔最小化のためのメタラーニング

Meta-Learning for Simple Regret Minimization ( http://arxiv.org/abs/2202.12888v1 )

ライセンス: Link先を確認
Mohammadjavad Azizi, Branislav Kveton, Mohammad Ghavamzadeh, Sumeet Katariya(参考訳) バンディットにおける簡単な後悔の最小化のためのメタラーニングフレームワークを開発する。 このフレームワークでは、学習エージェントが未知の事前分布からサンプル化された一連のバンディットタスクと相互作用し、そのメタパラメータを学習して、将来のタスクをよりよく実行する。 本稿では,このメタ学習問題に対するベイズ的かつ頻繁なアルゴリズムを提案する。 ベイズアルゴリズムは、メタパラメータ上の以前の分布にアクセスでき、そのメタ単純後悔は、水平線$n$は単に$\tilde{O}(m / \sqrt{n})$である。 これは、頻繁なアルゴリズムのメタ単純後悔が$\tilde{o}(\sqrt{m} n + m/ \sqrt{n})$であることを示す一方で、より悪いことである。 しかし、このアルゴリズムはメタパラメータの事前分布は不要であり、様々な分布の実装が容易であるため、より一般的なものである。 アルゴリズムをいくつかのバンディット問題のクラスにインスタンス化する。 我々のアルゴリズムは一般的であり、いくつかの環境で経験的に評価することで理論を補完する。

We develop a meta-learning framework for simple regret minimization in bandits. In this framework, a learning agent interacts with a sequence of bandit tasks, which are sampled i.i.d.\ from an unknown prior distribution, and learns its meta-parameters to perform better on future tasks. We propose the first Bayesian and frequentist algorithms for this meta-learning problem. The Bayesian algorithm has access to a prior distribution over the meta-parameters and its meta simple regret over $m$ bandit tasks with horizon $n$ is mere $\tilde{O}(m / \sqrt{n})$. This is while we show that the meta simple regret of the frequentist algorithm is $\tilde{O}(\sqrt{m} n + m/ \sqrt{n})$, and thus, worse. However, the algorithm is more general, because it does not need a prior distribution over the meta-parameters, and is easier to implement for various distributions. We instantiate our algorithms for several classes of bandit problems. Our algorithms are general and we complement our theory by evaluating them empirically in several environments.
翻訳日:2022-02-28 13:43:02 公開日:2022-02-25
# 二重相関低減ネットワークの改良

Improved Dual Correlation Reduction Network ( http://arxiv.org/abs/2202.12533v1 )

ライセンス: Link先を確認
Yue Liu, Sihang Zhou, Xinwang Liu, Wenxuan Tu, Xihong Yang(参考訳) ディープグラフクラスタリングは、基礎となるグラフ構造を明らかにし、ノードを人間のアノテーションなしで異なるクラスタに分割することを目的としている。 しかし,既存の手法は表現崩壊問題に悩まされており,異なるクラスを持つサンプルを同じ潜伏埋め込みに符号化する傾向がある。 これにより、ノードの識別能力が制限され、サブ最適クラスタリング性能が向上する。 この問題に対処するために,サンプルの識別能力を向上させることにより,改良された二元相関補正ネットワーク (IDCRN) と呼ばれる新しいディープグラフクラスタリングアルゴリズムを提案する。 具体的には、クロスビュー特徴相関行列をアイデンティティ行列に近似することにより、特徴の異なる次元間の冗長性を低減し、潜在空間の識別能力を明示的に改善する。 一方、クロスビューサンプル相関行列は、学習された潜在表現を導くために設計されたクラスタリング精製隣接行列を近似させ、ビューをまたいでも親和性行列を回復させ、特徴の識別能力を暗黙的に向上させる。 さらに,導入した伝播正規化項を通じて,グラフ畳み込みネットワーク(gcns)におけるオーバースモーシング問題による崩壊表現を回避し,idcrnが浅層ネットワーク構造で長距離情報をキャプチャできるようにする。 6つのベンチマークによる大規模な実験結果は、既存の最先端のディープグラフクラスタリングアルゴリズムと比較して、IDCRNの有効性と効率性を示している。

Deep graph clustering, which aims to reveal the underlying graph structure and divide the nodes into different clusters without human annotations, is a fundamental yet challenging task. However, we observed that the existing methods suffer from the representation collapse problem and easily tend to encode samples with different classes into the same latent embedding. Consequently, the discriminative capability of nodes is limited, resulting in sub-optimal clustering performance. To address this problem, we propose a novel deep graph clustering algorithm termed Improved Dual Correlation Reduction Network (IDCRN) through improving the discriminative capability of samples. Specifically, by approximating the cross-view feature correlation matrix to an identity matrix, we reduce the redundancy between different dimensions of features, thus improving the discriminative capability of the latent space explicitly. Meanwhile, the cross-view sample correlation matrix is forced to approximate the designed clustering-refined adjacency matrix to guide the learned latent representation to recover the affinity matrix even across views, thus enhancing the discriminative capability of features implicitly. Moreover, we avoid the collapsed representation caused by the over-smoothing issue in Graph Convolutional Networks (GCNs) through an introduced propagation regularization term, enabling IDCRN to capture the long-range information with the shallow network structure. Extensive experimental results on six benchmarks have demonstrated the effectiveness and the efficiency of IDCRN compared to the existing state-of-the-art deep graph clustering algorithms.
翻訳日:2022-02-28 13:42:36 公開日:2022-02-25
# (参考訳) 強化学習による特徴関数の訓練:XAI-methods play Connect Four [全文訳有]

Training Characteristic Functions with Reinforcement Learning: XAI-methods play Connect Four ( http://arxiv.org/abs/2202.11797v2 )

ライセンス: CC BY-SA 4.0
Stephan W\"aldchen, Felix Huber, Sebastian Pokutta(参考訳) 説明可能なAI(XAI)の目標の1つは、どの入力コンポーネントが分類器決定に関連するかを決定することである。 これは一般的にサリエンシー・アトリビューションとして知られている。 特性関数(協調ゲーム理論からの)は部分入力を評価し、シャプリー値のような理論的に「公正」な帰属法の基礎を形成することができる。 標準分類子関数のみを考えると、部分入力をどのように実現すべきかは明らかでない。 代わりに、ニューラルネットワークのようなブラックボックス分類器のためのほとんどのXAIメソッドは、一般的にオフマニフォールドにある反ファクト入力を考慮する。 これにより、評価が難しくなり、操作が容易になる。 本稿では,ニューラルネットワークの形式で特徴関数を直接学習し,単純な2人プレイゲームを行うためのセットアップを提案する。 トレーニング中にエージェントから色情報をランダムに隠すことで、Connect Fourのゲームに適用する。 XAIメソッドの比較には3つの利点がある: 部分的な入力を実現する方法の曖昧さを軽減し、オフマンフォールド評価を不要にし、互いに対戦させることでメソッドを比較することができる。

One of the goals of Explainable AI (XAI) is to determine which input components were relevant for a classifier decision. This is commonly know as saliency attribution. Characteristic functions (from cooperative game theory) are able to evaluate partial inputs and form the basis for theoretically "fair" attribution methods like Shapley values. Given only a standard classifier function, it is unclear how partial input should be realised. Instead, most XAI-methods for black-box classifiers like neural networks consider counterfactual inputs that generally lie off-manifold. This makes them hard to evaluate and easy to manipulate. We propose a setup to directly train characteristic functions in the form of neural networks to play simple two-player games. We apply this to the game of Connect Four by randomly hiding colour information from our agents during training. This has three advantages for comparing XAI-methods: It alleviates the ambiguity about how to realise partial input, makes off-manifold evaluation unnecessary and allows us to compare the methods by letting them play against each other.
翻訳日:2022-02-28 12:29:17 公開日:2022-02-25
# (参考訳) 分割変分推論:確率的フェデレーション学習のためのフレームワーク

Partitioned Variational Inference: A Framework for Probabilistic Federated Learning ( http://arxiv.org/abs/2202.12275v2 )

ライセンス: CC BY 4.0
Matthew Ashman, Thang D. Bui, Cuong V. Nguyen, Efstratios Markou, Adrian Weller, Siddharth Swaroop and Richard E. Turner(参考訳) コンピューティングデバイスの普及は、これまでアクセスできないデータを使用して、新しい問題領域に機械学習モデルをデプロイする機会をもたらした。 このようなモデルをトレーニングする従来のアルゴリズムでは、単一のノードで計算を行う単一のマシンにデータを保存する必要があり、複数のデバイスで分散化されたトレーニングには適さない。 この欠陥は、複数のデータ所有者が協力してトレーニングし、ローカルデータをプライベートにしながら共有モデルを使用することのできる、フェデレーション付き学習アルゴリズムの開発を動機付けている。 しかし、これらのアルゴリズムの多くは、モデルの不確かさを捉えることができる確率的推定よりも、モデルパラメータの点推定の獲得に重点を置いている。 変分推論 (VI) は多くの現代の確率モデルに適合させる方法として選択されている。 本稿では,フェデレーション環境でviを実行する汎用フレームワークであるpartitioned variational inference (pvi)を提案する。 我々は, PVI の新たなサポート理論を開発し, 実践者にとって魅力的な選択となる多くの特性を示し, PVI を用いて断片化された, 関連のある文献を統一し, 様々なフェデレーション環境での PVI の有効性を示す実験結果を提供する。

The proliferation of computing devices has brought about an opportunity to deploy machine learning models on new problem domains using previously inaccessible data. Traditional algorithms for training such models often require data to be stored on a single machine with compute performed by a single node, making them unsuitable for decentralised training on multiple devices. This deficiency has motivated the development of federated learning algorithms, which allow multiple data owners to train collaboratively and use a shared model whilst keeping local data private. However, many of these algorithms focus on obtaining point estimates of model parameters, rather than probabilistic estimates capable of capturing model uncertainty, which is essential in many applications. Variational inference (VI) has become the method of choice for fitting many modern probabilistic models. In this paper we introduce partitioned variational inference (PVI), a general framework for performing VI in the federated setting. We develop new supporting theory for PVI, demonstrating a number of properties that make it an attractive choice for practitioners; use PVI to unify a wealth of fragmented, yet related literature; and provide empirical results that showcase the effectiveness of PVI in a variety of federated settings.
翻訳日:2022-02-28 12:07:37 公開日:2022-02-25
# (参考訳) アクティブフロー制御のための機械学習手法の比較解析

Comparative analysis of machine learning methods for active flow control ( http://arxiv.org/abs/2202.11664v2 )

ライセンス: CC BY 4.0
Fabio Pino, Lorenzo Schena, Jean Rabault, Alexander Kuhnle and Miguel A. Mendez(参考訳) 遺伝的プログラミング(gp)や強化学習(rl)といった機械学習フレームワークがフロー制御で人気を集めている。 本研究は,bayesian optimization (bo) やlipschitz global optimization (lipo) といった大域的最適化手法に対して,最も代表的なアルゴリズムのいくつかをベンチマークし,両者の比較分析を行う。 まず, 最適制御理論とモデルフリー機械学習法を結びつけ, フロー制御問題の一般的な枠組みについて検討する。 そして、3つのテストケースで制御アルゴリズムをテストする。 1) 周波数クロストークを特徴とする非線形力学系の安定化, (2) バーガース流からのウェーブキャンセリング, (3) シリンダ後流における抗力低減などである。 これらの問題に対するコントロールは,近年の文献において,いずれかの手法で取り組まれているが,本論文では,探索と搾取の違いと,制御法定義における「モデル能力」と「要求複雑性」とのバランスを包括的に比較する。 このような比較が様々な手法のハイブリダイゼーションへの道を開くと信じており、フロー制御問題の文献における今後の発展を展望する。

Machine learning frameworks such as Genetic Programming (GP) and Reinforcement Learning (RL) are gaining popularity in flow control. This work presents a comparative analysis of the two, bench-marking some of their most representative algorithms against global optimization techniques such as Bayesian Optimization (BO) and Lipschitz global optimization (LIPO). First, we review the general framework of the flow control problem, linking optimal control theory with model-free machine learning methods. Then, we test the control algorithms on three test cases. These are (1) the stabilization of a nonlinear dynamical system featuring frequency cross-talk, (2) the wave cancellation from a Burgers' flow and (3) the drag reduction in a cylinder wake flow. Although the control of these problems has been tackled in the recent literature with one method or the other, we present a comprehensive comparison to illustrate their differences in exploration versus exploitation and their balance between `model capacity' in the control law definition versus `required complexity'. We believe that such a comparison opens the path towards hybridization of the various methods, and we offer some perspective on their future development in the literature of flow control problems.
翻訳日:2022-02-28 12:06:27 公開日:2022-02-25
# 周期的バイラテラル相互作用によるフレーズベースアフォーダンス検出

Phrase-Based Affordance Detection via Cyclic Bilateral Interaction ( http://arxiv.org/abs/2202.12076v2 )

ライセンス: Link先を確認
Liangsheng Lu, Wei Zhai, Hongchen Luo, Yu Kang and Yang Cao(参考訳) Affordance Detectionは、画像中の潜在的なアクション可能性を持つオブジェクトを知覚することを指すもので、現実のアプリケーションシナリオにおける人の目的に依存するため、困難なタスクである。 既存の作業は主に、動的に変化する価格特性に対応するために、画像/ビデオから固有の人間オブジェクトの依存関係を抽出する。 本稿では,視覚言語の観点からアフォーアンスを知覚し,行動目的を記述した一連のフレーズが与えられた場合,同じアフォーアンスを持つシーン内のすべての対象領域を検出すべきという,難しいフレーズに基づくアフォーアンス検出問題を検討する。 そこで本稿では,言語と視覚の特徴を段階的に整合させる巡回的二元整合性強化ネットワーク(CBCE-Net)を提案する。 具体的には、CBCE-Netは、視覚と言語の共通した特徴を進歩的に更新する相互指導型視覚言語モジュールと、循環的に物体との相互作用の認識を容易にする循環的相互作用モジュール(CIM)から構成される。 さらに,短いフレーズでアフォーマンスカテゴリをアノテートすることにより,一般の目的駆動型アフォーアンスデータセット(pad)を拡張する。 比較実験の結果, 客観的指標と視覚品質の両面において, 4つの分野から9つの典型的な方法よりも優れた方法が得られた。 関連するコードとデータセットは \url{https://github.com/l ulsheng/CBCE-Net} でリリースされる。

Affordance detection, which refers to perceiving objects with potential action possibilities in images, is a challenging task since the possible affordance depends on the person's purpose in real-world application scenarios. The existing works mainly extract the inherent human-object dependencies from image/video to accommodate affordance properties that change dynamically. In this paper, we explore to perceive affordance from a vision-language perspective and consider the challenging phrase-based affordance detection problem,i.e., given a set of phrases describing the action purposes, all the object regions in a scene with the same affordance should be detected. To this end, we propose a cyclic bilateral consistency enhancement network (CBCE-Net) to align language and vision features progressively. Specifically, the presented CBCE-Net consists of a mutual guided vision-language module that updates the common features of vision and language in a progressive manner, and a cyclic interaction module (CIM) that facilitates the perception of possible interaction with objects in a cyclic manner. In addition, we extend the public Purpose-driven Affordance Dataset (PAD) by annotating affordance categories with short phrases. The contrastive experimental results demonstrate the superiority of our method over nine typical methods from four relevant fields in terms of both objective metrics and visual quality. The related code and dataset will be released at \url{https://github.com/l ulsheng/CBCE-Net}.
翻訳日:2022-02-28 12:02:28 公開日:2022-02-25