このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220429となっている論文です。

PDF登録状況(公開日: 20220429)

TitleAuthorsAbstract論文公表日・翻訳日
# VehicleNet: 車両再識別のためのロバストな視覚表現学習

VehicleNet: Learning Robust Visual Representation for Vehicle Re-identification ( http://arxiv.org/abs/2004.06305v2 )

ライセンス: Link先を確認
Zhedong Zheng, Tao Ruan, Yunchao Wei, Yi Yang, Tao Mei(参考訳) 車両再識別(re-id)の基本的な課題の1つは、様々なカメラビューにまたがるクラス内における大きな変動を考えると、堅牢で差別的な視覚表現を学ぶことである。 既存の車両データセットは、訓練画像や視点で制限されているため、4つの公開車両データセットを利用してユニークな大規模車両データセット(" vehiclenet" と呼ばれる)を構築し、より堅牢な視覚表現を学習するためのシンプルで効果的な2段階のプログレッシブアプローチを設計することを提案する。 アプローチの第一段階は、従来の分類損失のトレーニングにより、すべてのドメイン(すなわち、ソース車両データセット)の汎用表現を学習することである。 このステージは、目標の車両ドメインに依存しないため、トレーニングドメインとテストドメインの完全なアライメントを緩和する。 第2の段階は、VabyNetとターゲットドメイン間の分散の差を最小限に抑えて、トレーニングされたモデルをターゲットの車両セットに基づいて純粋に微調整することである。 提案するマルチソースデータセット VehicleNet について検討し,広範実験による2段階進行表現学習の有効性を評価する。 aicity challengeのプライベートテストセットで86.07%の精度を実現し、他の2つの公共車両のre-idデータセット、すなわちveri-776と vehicleidの競合結果を得る。 この新しい vehiclenet データセットと学習されたロバスト表現が,実環境における車両のリidへの道を開くことを願っています。

One fundamental challenge of vehicle re-identification (re-id) is to learn robust and discriminative visual representation, given the significant intra-class vehicle variations across different camera views. As the existing vehicle datasets are limited in terms of training images and viewpoints, we propose to build a unique large-scale vehicle dataset (called VehicleNet) by harnessing four public vehicle datasets, and design a simple yet effective two-stage progressive approach to learning more robust visual representation from VehicleNet. The first stage of our approach is to learn the generic representation for all domains (i.e., source vehicle datasets) by training with the conventional classification loss. This stage relaxes the full alignment between the training and testing domains, as it is agnostic to the target vehicle domain. The second stage is to fine-tune the trained model purely based on the target vehicle set, by minimizing the distribution discrepancy between our VehicleNet and any target domain. We discuss our proposed multi-source dataset VehicleNet and evaluate the effectiveness of the two-stage progressive representation learning through extensive experiments. We achieve the state-of-art accuracy of 86.07% mAP on the private test set of AICity Challenge, and competitive results on two other public vehicle re-id datasets, i.e., VeRi-776 and VehicleID. We hope this new VehicleNet dataset and the learned robust representations can pave the way for vehicle re-id in the real-world environments.
翻訳日:2022-12-13 09:51:17 公開日:2022-04-29
# モーメントに基づく分散型近位確率勾配法による複合非凸確率最適化

Momentum-based variance-reduced proximal stochastic gradient method for composite nonconvex stochastic optimization ( http://arxiv.org/abs/2006.00425v3 )

ライセンス: Link先を確認
Yangyang Xu and Yibo Xu(参考訳) 確率勾配法(SGM)は、確率的問題や大規模機械学習の問題解決に広く用いられている。 最近の研究は、凸と非凸の両方のsgmの収束率を改善するために様々な技術を用いている。 それらのほとんどは、改良されたsgmの一部または全部のイテレーションで大量のサンプルを必要とする。 本稿では,非凸非滑らか確率問題の解法として,PStormという新しいSGMを提案する。 運動量に基づく分散還元法により、平均二乗滑らか性条件が成立すれば、PStorm は最適複雑性結果 $O(\varepsilon^{-3})$ を達成することができる。 既存の最適メソッドとは異なり、PStormは更新毎に1つまたは$O(1)$サンプルを使用することで${O}(\varepsilon^{-3})$結果を達成することができる。 この特性により、PStormは1つまたは$O(1)$の新たな観測に基づくリアルタイム決定を好むオンライン学習問題に適用できる。 さらに、大規模な機械学習問題では、スパース完全接続ニューラルネットワークとスパース畳み込みニューラルネットワークのトレーニングを実演しているように、PStormは、大規模なバッチトレーニングとバニラSGMを必要とする他の最適な方法よりも、小さなバッチトレーニングによってより一般化することができる。

Stochastic gradient methods (SGMs) have been extensively used for solving stochastic problems or large-scale machine learning problems. Recent works employ various techniques to improve the convergence rate of SGMs for both convex and nonconvex cases. Most of them require a large number of samples in some or all iterations of the improved SGMs. In this paper, we propose a new SGM, named PStorm, for solving nonconvex nonsmooth stochastic problems. With a momentum-based variance reduction technique, PStorm can achieve the optimal complexity result $O(\varepsilon^{-3})$ to produce a stochastic $\varepsilon$-stationary solution, if a mean-squared smoothness condition holds. Different from existing optimal methods, PStorm can achieve the ${O}(\varepsilon^{-3})$ result by using only one or $O(1)$ samples in every update. With this property, PStorm can be applied to online learning problems that favor real-time decisions based on one or $O(1)$ new observations. In addition, for large-scale machine learning problems, PStorm can generalize better by small-batch training than other optimal methods that require large-batch training and the vanilla SGM, as we demonstrate on training a sparse fully-connected neural network and a sparse convolutional neural network.
翻訳日:2022-11-26 13:15:31 公開日:2022-04-29
# Altruist:予測モデルの局所的解釈による説明的説明

Altruist: Argumentative Explanations through Local Interpretations of Predictive Models ( http://arxiv.org/abs/2010.07650v2 )

ライセンス: Link先を確認
Ioannis Mollas, Nick Bassiliades, Grigorios Tsoumakas(参考訳) 説明可能なAIは、自動化されたシステムの論理に関する洞察を得るためのソリューションを提供する新興分野である。 それは、重要な倫理的および社会的問題に取り組む方法を提案することで、AIマップに載っている。 既存の説明技法はエンドユーザには理解できないことが多い。 評価と選択基準の欠如は、エンドユーザが最も適切なテクニックを選択するのを難しくする。 本研究では,論理に基づく議論を解釈可能な機械学習と組み合わせ,特徴重視の解釈の真相を識別する予備的メタ説明手法を導入する。 このアプローチは、メタ説明技術として使われることに加えて、複数の機能重要技術の評価や選択ツールとして使用できる。 実験は、複数の解釈技術のアンサンブルがより真理的な説明をもたらすことを強く示唆している。

Explainable AI is an emerging field providing solutions for acquiring insights into automated systems' rationale. It has been put on the AI map by suggesting ways to tackle key ethical and societal issues. Existing explanation techniques are often not comprehensible to the end user. Lack of evaluation and selection criteria also makes it difficult for the end user to choose the most suitable technique. In this study, we combine logic-based argumentation with Interpretable Machine Learning, introducing a preliminary meta-explanation methodology that identifies the truthful parts of feature importance oriented interpretations. This approach, in addition to being used as a meta-explanation technique, can be used as an evaluation or selection tool for multiple feature importance techniques. Experimentation strongly indicates that an ensemble of multiple interpretation techniques yields considerably more truthful explanations.
翻訳日:2022-10-07 03:33:41 公開日:2022-04-29
# トレーニングデータ生成ネットワーク:バイレベル最適化による形状再構成

Training Data Generating Networks: Shape Reconstruction via Bi-level Optimization ( http://arxiv.org/abs/2010.08276v2 )

ライセンス: Link先を確認
Biao Zhang, Peter Wonka(参考訳) 単一画像からの3次元形状再構成のための新しい3次元形状表現を提案する。 形状を直接予測するのではなく、別の学習アルゴリズムに入力して形状を定義するトレーニングセットを生成するようにネットワークをトレーニングします。 ネスト最適化問題は双方向最適化によってモデル化できる。 特に、二段階最適化のアルゴリズムは、最小限の学習のためのメタ学習アプローチでも使われている。 本フレームワークは3次元形状解析と少数ショット学習の関連性を確立する。 トレーニングデータ生成ネットワークとバイレベル最適化アルゴリズムを組み合わせて、すべてのコンポーネントを共同でトレーニング可能な完全なフレームワークを得る。 3次元形状復元のための標準ベンチマークに関する最近の研究を改良した。

We propose a novel 3d shape representation for 3d shape reconstruction from a single image. Rather than predicting a shape directly, we train a network to generate a training set which will be fed into another learning algorithm to define the shape. The nested optimization problem can be modeled by bi-level optimization. Specifically, the algorithms for bi-level optimization are also being used in meta learning approaches for few-shot learning. Our framework establishes a link between 3D shape analysis and few-shot learning. We combine training data generating networks with bi-level optimization algorithms to obtain a complete framework for which all components can be jointly trained. We improve upon recent work on standard benchmarks for 3d shape reconstruction.
翻訳日:2022-10-06 22:17:37 公開日:2022-04-29
# RGBT追従のための二重化相互条件ネットワーク

Duality-Gated Mutual Condition Network for RGBT Tracking ( http://arxiv.org/abs/2011.07188v3 )

ライセンス: Link先を確認
Andong Lu, Cun Qian, Chenglong Li, Jin Tang and Liang Wang(参考訳) 低品質なモダリティは、ノイズの多い情報だけでなく、RGBT追跡における識別的な特徴も含んでいる。 しかし、既存のRGBT追跡アルゴリズムでは、低品質なモダリティの可能性はよく調べられていない。 本研究では,データノイズの影響を抑えつつ,すべてのモダリティの識別情報をフル活用する,新たな双対有界相互条件ネットワークを提案する。 具体的には、目的の外観の特徴学習を他のモダリティで導く条件として、モダリティの識別情報を取り入れた相互条件モジュールを設計する。 このようなモジュールは、低品質のモダリティが存在する場合でも、すべてのモダリティのターゲット表現を効果的に強化することができる。 条件の質を向上し、さらにデータノイズを低減するため、二重性制御機構を提案し、相互条件モジュールに統合する。 RGBT追跡においてしばしば発生する突発的なカメラ動作によるトラッキング障害に対処するために,光フローアルゴリズムに基づく再サンプリング戦略を設計する。 モデル予測が信頼できない場合にのみ光フロー計算を行い、突然のカメラの動きが検出されると再サンプリングを行うので、計算コストはそれほど高くない。 4つのRGBT追跡ベンチマークデータセットの大規模な実験により、我々の手法は最先端追跡アルゴリズムに対して好適に機能することが示された。

Low-quality modalities contain not only a lot of noisy information but also some discriminative features in RGBT tracking. However, the potentials of low-quality modalities are not well explored in existing RGBT tracking algorithms. In this work, we propose a novel duality-gated mutual condition network to fully exploit the discriminative information of all modalities while suppressing the effects of data noise. In specific, we design a mutual condition module, which takes the discriminative information of a modality as the condition to guide feature learning of target appearance in another modality. Such module can effectively enhance target representations of all modalities even in the presence of low-quality modalities. To improve the quality of conditions and further reduce data noise, we propose a duality-gated mechanism and integrate it into the mutual condition module. To deal with the tracking failure caused by sudden camera motion, which often occurs in RGBT tracking, we design a resampling strategy based on optical flow algorithms. It does not increase much computational cost since we perform optical flow calculation only when the model prediction is unreliable and then execute resampling when the sudden camera motion is detected. Extensive experiments on four RGBT tracking benchmark datasets show that our method performs favorably against the state-of-the-art tracking algorithms
翻訳日:2022-09-25 13:38:38 公開日:2022-04-29
# プログラミング入門科目におけるプラジャリズムの測定

Measuring Plagiarism in Introductory Programming Course Assignments ( http://arxiv.org/abs/2205.08520v1 )

ライセンス: Link先を確認
Muhammad Humayoun, Muhammad Adnan Hashmi and Ali Hanzala Khan(参考訳) プログラミング課題における盗作行為の測定は、教育手続きに不可欠な課題である。 本稿では,C++で記述された入門プログラミングコースにおける盗作の方法とその検出について論じる。 割り当ての小さなコーパスが公開されています。 解対間の類似性を計算する汎用フレームワークを開発した。3つのトークンベースの類似性を特徴とし、解が盗用されているかどうかを予測する。 それぞれの特徴の重要性も測定され、その見返りとして各方法の有効性が評価される。 最後に、人工的に生成されたデータセットは、元のデータと比較して結果を改善する。 F1スコアはオリジナルおよび合成データセットで0.955,0.971を得た。

Measuring plagiarism in programming assignments is an essential task to the educational procedure. This paper discusses the methods of plagiarism and its detection in introductory programming course assignments written in C++. A small corpus of assignments is made publically available. A general framework to compute the similarity between a solution pair is developed that uses the three token-based similarity methods as features and predicts if the solution is plagiarized. The importance of each feature is also measured, which in return ranks the effectiveness of each method in use. Finally, the artificially generated dataset improves the results compared to the original data. We achieved an F1 score of 0.955 and 0.971 on original and synthetic datasets.
翻訳日:2022-05-22 12:17:58 公開日:2022-04-29
# てんかん発作の予測を支援する多チャンネル合成前脳波信号

Multichannel Synthetic Preictal EEG Signals to Enhance the Prediction of Epileptic Seizures ( http://arxiv.org/abs/2205.03239v1 )

ライセンス: Link先を確認
Yankun Xu, Jie Yang, and Mohamad Sawan(参考訳) てんかんは、世界中の16%の人に影響を及ぼす慢性神経疾患であり、ディープラーニング(DL)アルゴリズムに基づく脳波解析により、正確なてんかん発作(ES)予測が可能となり、てんかんに苦しむ患者に利益をもたらす。 発作発生前の前頭葉領域を特定するには、DLアルゴリズムのトレーニングには多数の注釈付き脳波信号が必要である。 しかし、発作の発症頻度が低いため、DLアルゴリズムを訓練するデータは非常に不十分である。 このデータ不足を克服するため,本稿では,合成マルチチャネルEEGプリシタルサンプルを生成するために,生成逆数ネットワークに基づくプリシタル人工信号合成アルゴリズムを提案する。 視覚的および統計的評価によって決定される高品質のシングルチャネルアーキテクチャを用いて、マルチチャネルサンプルの生成を訓練する。 また, ES予測性能を, 合成前駆体試料増量なしで比較することにより, 合成試料の有効性を評価した。 受信機動作特性曲線評価における余剰一精算クロス検証es予測精度と対応する面積は,それぞれ73.0\%,0.676から78.0\%,0.704で10$\times$合成試料増量により改善した。 その結果, 合成プレクタル試料はES予測性能の向上に有効であることが示唆された。

Epilepsy is a chronic neurological disorder affecting 1\% of people worldwide, deep learning (DL) algorithms-based electroencephalograph (EEG) analysis provides the possibility for accurate epileptic seizure (ES) prediction, thereby benefiting patients suffering from epilepsy. To identify the preictal region that precedes the onset of seizure, a large number of annotated EEG signals are required to train DL algorithms. However, the scarcity of seizure onsets leads to significant insufficiency of data for training the DL algorithms. To overcome this data insufficiency, in this paper, we propose a preictal artificial signal synthesis algorithm based on a generative adversarial network to generate synthetic multichannel EEG preictal samples. A high-quality single-channel architecture, determined by visual and statistical evaluations, is used to train the generators of multichannel samples. The effectiveness of the synthetic samples is evaluated by comparing the ES prediction performances without and with synthetic preictal sample augmentation. The leave-one-seizure-out cross validation ES prediction accuracy and corresponding area under the receiver operating characteristic curve evaluation improve from 73.0\% and 0.676 to 78.0\% and 0.704 by 10$\times$ synthetic sample augmentation, respectively. The obtained results indicate that synthetic preictal samples are effective for enhancing ES prediction performance.
翻訳日:2022-05-16 01:13:48 公開日:2022-04-29
# 信号エネルギーを用いたTMS-EEG摂動指数の特徴:アルツハイマー病分類の初期研究

Characterizing TMS-EEG perturbation indexes using signal energy: initial study on Alzheimer's Disease classification ( http://arxiv.org/abs/2205.03241v1 )

ライセンス: Link先を確認
Alexandra-Maria Tautan, Elias Casula, Ilaria Borghi, Michele Maiella, Sonia Bonni, Marilena Minei, Martina Assogna, Bogdan Ionescu, Giacomo Koch and Emiliano Santarnecchi(参考訳) 経頭蓋磁気刺激(TMS)と脳波記録(TMS-EEG)を組み合わせることで、脳、特にアルツハイマー病(AD)の研究に大きな可能性を示した。 本研究では,脳機能の変化を反映した電位指標として,脳波信号のTMS誘発摂動の持続時間を自動的に決定する手法を提案する。 アルツハイマー病(AD)患者を対象に予備研究を行った。 TMS誘発脳波(TEP)活動の強度と持続時間を測定するための3つの指標を提案し,AD患者を健常者から同定する可能性を検討した。 分析には,17例と17例の健康管理(hc)を用いたtms-eeg記録のデータセットを用いた。 抽出されたtepメトリクスに基づいてランダムフォレスト分類アルゴリズムを訓練し,その性能をlet-one-subject-outクロスバリデーションで評価した。 作成されたモデルでは、AD患者をHCからそれぞれ69.32%、72.23%、66.41%の精度で同定する有望な結果が得られた。

Transcranial Magnetic Stimulation (TMS) combined with EEG recordings (TMS-EEG) has shown great potential in the study of the brain and in particular of Alzheimer's Disease (AD). In this study, we propose an automatic method of determining the duration of TMS induced perturbation of the EEG signal as a potential metric reflecting the brain's functional alterations. A preliminary study is conducted in patients with Alzheimer's disease (AD). Three metrics for characterizing the strength and duration of TMS evoked EEG (TEP) activity are proposed and their potential in identifying AD patients from healthy controls was investigated. A dataset of TMS-EEG recordings from 17 AD and 17 healthy controls (HC) was used in our analysis. A Random Forest classification algorithm was trained on the extracted TEP metrics and its performance is evaluated in a leave-one-subject-out cross-validation. The created model showed promising results in identifying AD patients from HC with an accuracy, sensitivity and specificity of 69.32%, 72.23% and 66.41%, respectively.
翻訳日:2022-05-16 01:12:59 公開日:2022-04-29
# ユーザ定義3次元形状生成のための概念活性化ベクトル

Concept Activation Vectors for Generating User-Defined 3D Shapes ( http://arxiv.org/abs/2205.02102v1 )

ライセンス: Link先を確認
Stefan Druc, Aditya Balu, Peter Wooldridge, Adarsh Krishnamurthy, Soumik Sarkar(参考訳) CAD(Computer-Aided Design)における3次元幾何学的深層学習モデルの解釈可能性について検討する。 パラメトリックCADの分野は、数個の数値パラメータで高レベルな設計概念を表現することの難しさによって制限することができる。 本稿では,高次元の3次元形状を任意の概念を記述可能なベクトル化潜在表現に符号化するために,ディープラーニングアーキテクチャを用いる。 具体的には、複雑な形状のデータセットをパラメータ化するために、単純なオートエンコーダを訓練する。 潜在符号化空間を理解するために、我々は概念活性化ベクトル(cav)という概念を用いて、ユーザ定義の概念を用いて潜在空間を再解釈する。 これにより、参照設計の変更は、選択された概念や概念群の特徴を多かれ少なかれ示すことができる。 また、特定された概念の統計的意義をテストし、データセット全体の関心の物理量の感度を判定する。

We explore the interpretability of 3D geometric deep learning models in the context of Computer-Aided Design (CAD). The field of parametric CAD can be limited by the difficulty of expressing high-level design concepts in terms of a few numeric parameters. In this paper, we use a deep learning architectures to encode high dimensional 3D shapes into a vectorized latent representation that can be used to describe arbitrary concepts. Specifically, we train a simple auto-encoder to parameterize a dataset of complex shapes. To understand the latent encoded space, we use the idea of Concept Activation Vectors (CAV) to reinterpret the latent space in terms of user-defined concepts. This allows modification of a reference design to exhibit more or fewer characteristics of a chosen concept or group of concepts. We also test the statistical significance of the identified concepts and determine the sensitivity of a physical quantity of interest across the dataset.
翻訳日:2022-05-08 23:10:46 公開日:2022-04-29
# フルアノテート熱赤外面データセット:カメラからの様々な環境条件と距離で記録される

A Novel Fully Annotated Thermal Infrared Face Dataset: Recorded in Various Environment Conditions and Distances From The Camera ( http://arxiv.org/abs/2205.02093v1 )

ライセンス: Link先を確認
Roshanak Ashrafi, Mona Azarbayjania, Hamed Tabkhi(参考訳) 顔のサーモグラフィは赤外線サーモグラフィで最も一般的な研究分野の1つであり、医療、監視、環境モニタリングに多様な応用がある。 しかし、視覚スペクトルの顔画像とは対照的に、顔の熱画像に対する公開データセットの欠如は、この分野における研究改善の障害である。 熱顔画像は, 被写体とカメラの距離, 環境温度の変化, 顔のランドマークの局在に関して, 異なる領域で評価, 研究される比較的新しい研究領域である。 新しい顔サーモグラフィーデータセットを提示することで,これらのギャップに対処する。 この記事では、知識の体系に2つの大きな貢献をします。 まず、顔サーモグラフィにおける現在の公衆データセットの包括的レビューと比較を行う。 次に、シャーロット・サーマルフェイスと呼ばれる顔サーモグラフィーに関する新しいデータセットを紹介し、研究する。 シャーロット・サーマルフェイスは、様々な温度条件、カメラからの距離、異なるヘッド位置において10000以上の赤外線熱画像を含んでいる。 データは、顔のランドマーク、周囲の温度、相対湿度、部屋の空気速度、カメラの距離、各画像の撮影時の熱感で完全に注釈付けされている。 我々のデータセットは、各被験者の熱感覚を異なる温度条件でアノテートした最初の公開熱データセットであり、生の16ビット形式の数少ないデータセットの1つである。 最後に, 顔面サーモグラフィにおける温熱条件の適用性と重要性を示すために, データセットの予備分析を行った。 アノテーションを含む全データセットは、https://github.com/TeCSAR-UNCC/UNCC-ThermalFaceで研究目的で無償公開されている。

Facial thermography is one of the most popular research areas in infrared thermal imaging, with diverse applications in medical, surveillance, and environmental monitoring. However, in contrast to facial imagery in the visual spectrum, the lack of public datasets on facial thermal images is an obstacle to research improvement in this area. Thermal face imagery is still a relatively new research area to be evaluated and studied in different domains.The current thermal face datasets are limited in regards to the subjects' distance from the camera, the ambient temperature variation, and facial landmarks' localization. We address these gaps by presenting a new facial thermography dataset. This article makes two main contributions to the body of knowledge. First, it presents a comprehensive review and comparison of current public datasets in facial thermography. Second, it introduces and studies a novel public dataset on facial thermography, which we call it Charlotte-ThermalFace. Charlotte-ThermalFace contains more than10000 infrared thermal images in varying thermal conditions, several distances from the camera, and different head positions. The data is fully annotated with the facial landmarks, ambient temperature, relative humidity, the air speed of the room, distance to the camera, and subject thermal sensation at the time of capturing each image. Our dataset is the first publicly available thermal dataset annotated with the thermal sensation of each subject in different thermal conditions and one of the few datasets in raw 16-bit format. Finally, we present a preliminary analysis of the dataset to show the applicability and importance of the thermal conditions in facial thermography. The full dataset, including annotations, are freely available for research purpose at https://github.com/TeCSAR-UNCC/UNCC-ThermalFace
翻訳日:2022-05-08 23:10:31 公開日:2022-04-29
# (参考訳) 多変量依存時系列からの多属性定式化によるグラフ学習

Graph Learning from Multivariate Dependent Time Series via a Multi-Attribute Formulation ( http://arxiv.org/abs/2205.00007v1 )

ライセンス: CC BY 4.0
Jitendra K Tugnait(参考訳) 本研究では,高次元定常多変量ガウス時系列の条件独立グラフ(CIG)を推定する問題を考察する。 時系列グラフでは、ベクトル列の各成分は異なるノードで表現され、成分間の関係は対応するノード間のエッジで表現される。 ベクトルがグラフの各ノードに関連付けられているランダムベクトルに対するマルチ属性グラフ推定の1つとして問題を定式化する。 各ノードにおいて、関連するランダムベクトルは時系列成分とその遅延コピーから構成される。 本稿では,多属性グラフ全体に関連する乱ベクトルの精度行列を推定するために,スパース群ラッソ型擬似対数類似目的関数を最小化する乗算器 (ADMM) の交互方向法を提案する。 そして、推定精度行列から時系列CIGを推定する。 理論的分析が提供される。 提案手法は,既存の周波数領域アプローチを上回って,グラフエッジを正しく検出する手法である。

We consider the problem of inferring the conditional independence graph (CIG) of a high-dimensional stationary multivariate Gaussian time series. In a time series graph, each component of the vector series is represented by distinct node, and associations between components are represented by edges between the corresponding nodes. We formulate the problem as one of multi-attribute graph estimation for random vectors where a vector is associated with each node of the graph. At each node, the associated random vector consists of a time series component and its delayed copies. We present an alternating direction method of multipliers (ADMM) solution to minimize a sparse-group lasso penalized negative pseudo log-likelihood objective function to estimate the precision matrix of the random vector associated with the entire multi-attribute graph. The time series CIG is then inferred from the estimated precision matrix. A theoretical analysis is provided. Numerical results illustrate the proposed approach which outperforms existing frequency-domain approaches in correctly detecting the graph edges.
翻訳日:2022-05-06 09:33:33 公開日:2022-04-29
# (参考訳) 2次元遷移金属二塩化物の基本物性、構造欠陥および環境安定性の族

Family of Two Dimensional Transition Metal Dichlorides Fundamental Properties, Structural Defects, and Environmental Stability ( http://arxiv.org/abs/2205.00874v1 )

ライセンス: CC BY 4.0
Andrey A. Kistanov, Stepan A. Shcherbinin, Romain Botella, Artur Davletshin, Wei Cao(参考訳) 多数の新しい2次元材料(2D)が常に発見され、データベースに分解される。 機械学習アルゴリズムと密度汎関数理論(DFT)に基づく予測の統一実装により、想像できない量の2Dサンプルを含むデータベースを複数作成できるようになった。 この連鎖の次のステップでは、この研究は発明された材料の機能に関する包括的な研究に繋がる。 本研究では, 遷移金属二塩化物族について, 構造安定性, 基本特性, 構造欠陥, およびdftに基づく環境安定性を体系的に検討するために, 検討を行った。 本研究は, 発明された材料の可能性を利用することの重要性を強調し, 新たな2次元材料ファミリーの包括的特徴付けを提案する。

A large number of novel two-dimensional (2D) materials are constantly discovered and deposed into the databases. Consolidate implementation of machine learning algorithms and density functional theory (DFT) based predictions have allowed creating several databases containing an unimaginable amount of 2D samples. The next step in this chain, the investigation leads to a comprehensive study of the functionality of the invented materials. In this work, a family of transition metal dichlorides has been screened out for systematical investigation of their structural stability, fundamental properties, structural defects, and environmental stability via DFT based calculations. The work highlights the importance of using the potential of the invented materials and proposes a comprehensive characterization of a new family of 2D materials.
翻訳日:2022-05-06 09:19:46 公開日:2022-04-29
# (参考訳) 光ニューラルネットワークの逆攻撃

Adversarial attacks on an optical neural network ( http://arxiv.org/abs/2205.01226v1 )

ライセンス: CC BY 4.0
Shuming Jiao, Ziwei Song, Shuiying Xiang(参考訳) デジタルドメインのディープラーニングを含む機械学習システムでは、敵対的な攻撃が広く研究されている。 しかし、光学ニューラルネットワーク(ONN)に対する敵対攻撃は、これまでほとんど考えられていなかった。 本研究では,mzi(interconnected mach-zehnder interferometers)のメッシュを用いて,onnを用いた高精度画像分類器を構築した。 そして、最初に対応する敵攻撃スキームを提案する。 攻撃された画像は元の画像と非常によく似ているが、ONNシステムは故障し、ほとんどの時間で間違った分類結果を生成する。 その結果,光学機械学習システムにおいては,敵攻撃も重要な問題であることがわかった。

Adversarial attacks have been extensively investigated for machine learning systems including deep learning in the digital domain. However, the adversarial attacks on optical neural networks (ONN) have been seldom considered previously. In this work, we first construct an accurate image classifier with an ONN using a mesh of interconnected Mach-Zehnder interferometers (MZI). Then a corresponding adversarial attack scheme is proposed for the first time. The attacked images are visually very similar to the original ones but the ONN system becomes malfunctioned and generates wrong classification results in most time. The results indicate that adversarial attack is also a significant issue for optical machine learning systems.
翻訳日:2022-05-06 09:05:54 公開日:2022-04-29
# (参考訳) 非マルコフ決定過程におけるPAC強化学習のためのマルコフ抽象化

Markov Abstractions for PAC Reinforcement Learning in Non-Markov Decision Processes ( http://arxiv.org/abs/2205.01053v1 )

ライセンス: CC BY 4.0
Alessandro Ronca, Gabriel Paludo Licks, Giuseppe De Giacomo(参考訳) 本研究の目的はマルコフの仮定に依存しない強化学習アルゴリズムの開発である。 非マルコフ決定過程のクラスを考えると、ヒストリーは力学を保ちながら有限な状態に抽象化できる。 これをマルコフ抽象(markov abstract)と呼び、非マルコフダイナミクスをコードする一連の状態に対してマルコフ決定過程を誘導する。 この現象は、最近導入された規則決定過程(および有限個の信念状態のみが到達可能なPOMDP)の根底にある。 あらゆる種類の意思決定プロセスにおいて、マルコフ抽象を用いたエージェントは最適な振る舞いを達成するためにマルコフ特性に依存することができる。 強化学習中にマルコフ抽象化が学習できることを示す。 この2つのタスクでは、いくつかの基本的な要件を満たすアルゴリズムが利用できる。 提案手法は,採用アルゴリズムがPACを保証する場合にPACを保証するとともに,実験的な評価を行う。

Our work aims at developing reinforcement learning algorithms that do not rely on the Markov assumption. We consider the class of Non-Markov Decision Processes where histories can be abstracted into a finite set of states while preserving the dynamics. We call it a Markov abstraction since it induces a Markov Decision Process over a set of states that encode the non-Markov dynamics. This phenomenon underlies the recently introduced Regular Decision Processes (as well as POMDPs where only a finite number of belief states is reachable). In all such kinds of decision process, an agent that uses a Markov abstraction can rely on the Markov property to achieve optimal behaviour. We show that Markov abstractions can be learned during reinforcement learning. For these two tasks, any algorithms satisfying some basic requirements can be employed. We show that our approach has PAC guarantees when the employed algorithms have PAC guarantees, and we also provide an experimental evaluation.
翻訳日:2022-05-06 08:55:21 公開日:2022-04-29
# (参考訳) 最先端NERについて何を知っているのか?

What do we Really Know about State of the Art NER? ( http://arxiv.org/abs/2205.00034v1 )

ライセンス: CC BY 4.0
Sowmya Vajjala and Ramya Balasubramaniam(参考訳) 名前付きエンティティ認識(NER)はよく研究されているNLPタスクであり、現実世界のNLPシナリオで広く利用されている。 NER の研究は典型的には NER の新たな訓練方法の作成に重点を置いており、資源や評価にはあまり重点を置いていない。 さらに、標準的なデータセットに基づいてトレーニングされたState of the Art (SOTA) NERモデルは、通常、単一のパフォーマンス指標(Fスコア)のみを報告します。 本稿では,そのデータセットを構成するテキストのジャンルやソースを考慮に入れた,一般的なデータセットを用いたNERの広範な評価を行う。 さらに、元のテストセットの小さな摂動によって新しい6つの対角テストセットを生成し、コンテキストを維持しながら選択エンティティを置き換える。 また、ランダムに生成されたトレイン/デベロップメント/テスト分割でモデルをトレーニングし、その後、トレーニング中に見られないジャンルでモデルをトレーニングする実験を行いました。 これらの総合評価は3つのSOTA NERモデルを用いて行った。 この結果に基づいて,将来SOTAモデルの性能をよりよく理解する上で,NER研究者に有用な報告手法を提案する。

Named Entity Recognition (NER) is a well researched NLP task and is widely used in real world NLP scenarios. NER research typically focuses on the creation of new ways of training NER, with relatively less emphasis on resources and evaluation. Further, state of the art (SOTA) NER models, trained on standard datasets, typically report only a single performance measure (F-score) and we don't really know how well they do for different entity types and genres of text, or how robust are they to new, unseen entities. In this paper, we perform a broad evaluation of NER using a popular dataset, that takes into consideration various text genres and sources constituting the dataset at hand. Additionally, we generate six new adversarial test sets through small perturbations in the original test set, replacing select entities while retaining the context. We also train and test our models on randomly generated train/dev/test splits followed by an experiment where the models are trained on a select set of genres but tested genres not seen in training. These comprehensive evaluation strategies were performed using three SOTA NER models. Based on our results, we recommend some useful reporting practices for NER researchers, that could help in providing a better understanding of a SOTA model's performance in future.
翻訳日:2022-05-05 11:30:43 公開日:2022-04-29
# (参考訳) ソフトな理論証明者に対する論理的一貫した敵攻撃

Logically Consistent Adversarial Attacks for Soft Theorem Provers ( http://arxiv.org/abs/2205.00047v1 )

ライセンス: CC BY 4.0
Alexander Gaskell, Yishu Miao, Lucia Specia, Francesca Toni(参考訳) aiコミュニティにおける最近の取り組みは、言語モデルを用いた自然言語文よりも「ソフト定理証明」に印象的な結果をもたらしている。 我々は,これらのモデルの推論能力を探索し,改善するための新しい生成的敵フレームワークを提案する。 この領域の敵攻撃は論理的矛盾の問題に悩まされ、入力に対する摂動がラベルを変える可能性がある。 論理的一貫したAdVersarial Attacker, LAVAは、構造化生成プロセスとシンボリックソルバを組み合わせることで、論理的一貫性を保証する。 我々のフレームワークは敵攻撃をうまく生成し、複数のターゲットモデルに共通するグローバルな弱点を識別する。 解析の結果,論理プログラム下での論理推論の不完全性が明らかになり,モデル推論能力のナイーブなヒューリスティックスと脆弱性が明らかになった。 最後に,これらのモデルの効果的な探索に加えて,生成したサンプルのトレーニングにより,対象モデルの性能が向上することを示す。

Recent efforts within the AI community have yielded impressive results towards "soft theorem proving" over natural language sentences using language models. We propose a novel, generative adversarial framework for probing and improving these models' reasoning capabilities. Adversarial attacks in this domain suffer from the logical inconsistency problem, whereby perturbations to the input may alter the label. Our Logically consistent AdVersarial Attacker, LAVA, addresses this by combining a structured generative process with a symbolic solver, guaranteeing logical consistency. Our framework successfully generates adversarial attacks and identifies global weaknesses common across multiple target models. Our analyses reveal naive heuristics and vulnerabilities in these models' reasoning capabilities, exposing an incomplete grasp of logical deduction under logic programs. Finally, in addition to effective probing of these models, we show that training on the generated samples improves the target model's performance.
翻訳日:2022-05-05 11:14:14 公開日:2022-04-29
# (参考訳) ばらつき低減型確率鏡の入射正則化特性

Implicit Regularization Properties of Variance Reduced Stochastic Mirror Descent ( http://arxiv.org/abs/2205.00058v1 )

ライセンス: CC BY 4.0
Yiling Luo, Xiaoming Huo, Yajun Mei(参考訳) 機械学習と統計データ分析では、しばしば、和である客観的関数に遭遇する:和の項の数はおそらく、巨大なサンプルサイズに等しい。 このような設定では、確率ミラー降下(SMD)アルゴリズムは数値的に効率的であり、各イテレーションはデータの非常に小さなサブセットを含む。 SMD(VRSMD)の分散低減バージョンは、より高速な収束を誘導することによってさらにSMDを改善することができる。 一方、勾配降下や確率勾配降下のようなアルゴリズムは、一般化誤差の点でより良い性能をもたらす暗黙の正規化特性を持つ。 そのような性質がVRSMDに当てはまるかどうかはほとんど分かっていない。 ここでは、離散的なvrsmd推定列が線形回帰における最小ミラー補間に収束することを示す。 これによりVRSMDの暗黙の正規化特性が確立される。 上記の結果の応用として、真のモデルがばらばらである場合の設定におけるモデル推定精度を導出する。 我々は,VRSMDの実証力を示す数値的な例を用いる。

In machine learning and statistical data analysis, we often run into objective function that is a summation: the number of terms in the summation possibly is equal to the sample size, which can be enormous. In such a setting, the stochastic mirror descent (SMD) algorithm is a numerically efficient method -- each iteration involving a very small subset of the data. The variance reduction version of SMD (VRSMD) can further improve SMD by inducing faster convergence. On the other hand, algorithms such as gradient descent and stochastic gradient descent have the implicit regularization property that leads to better performance in terms of the generalization errors. Little is known on whether such a property holds for VRSMD. We prove here that the discrete VRSMD estimator sequence converges to the minimum mirror interpolant in the linear regression. This establishes the implicit regularization property for VRSMD. As an application of the above result, we derive a model estimation accuracy result in the setting when the true model is sparse. We use numerical examples to illustrate the empirical power of VRSMD.
翻訳日:2022-05-05 11:01:07 公開日:2022-04-29
# (参考訳) Directional Biasはカーネル回帰モデルにおける確率的勾配の一般化を支援する

The Directional Bias Helps Stochastic Gradient Descent to Generalize in Kernel Regression Models ( http://arxiv.org/abs/2205.00061v1 )

ライセンス: CC BY 4.0
Yiling Luo, Xiaoming Huo, Yajun Mei(参考訳) 非パラメトリック統計学ではSGD(Stochastic Gradient Descent)アルゴリズムについて検討する。 線形回帰設定で知られているSGDの方向性バイアス特性は、カーネル回帰に一般化される。 より具体的には、中程度でアニーリングのステップサイズを持つsgdが、グラム行列の最大固有値に対応する固有ベクトルの方向に沿って収束することを示す。 さらに、中等度または小さいステップサイズの勾配 Descent (GD) は、最小の固有値に対応する方向に沿って収束する。 これらの事実は方向バイアス特性と呼ばれ、SGD計算された推定器がGD計算された推定器よりも潜在的に小さい一般化誤差を持つことを解釈することができる。 本理論の応用はシミュレーション研究とFashionMNISTデータセットに基づくケーススタディにより実証された。

We study the Stochastic Gradient Descent (SGD) algorithm in nonparametric statistics: kernel regression in particular. The directional bias property of SGD, which is known in the linear regression setting, is generalized to the kernel regression. More specifically, we prove that SGD with moderate and annealing step-size converges along the direction of the eigenvector that corresponds to the largest eigenvalue of the Gram matrix. In addition, the Gradient Descent (GD) with a moderate or small step-size converges along the direction that corresponds to the smallest eigenvalue. These facts are referred to as the directional bias properties; they may interpret how an SGD-computed estimator has a potentially smaller generalization error than a GD-computed estimator. The application of our theory is demonstrated by simulation studies and a case study that is based on the FashionMNIST dataset.
翻訳日:2022-05-05 10:13:52 公開日:2022-04-29
# (参考訳) 鳥の目視:その幸福感の指標としてのニワトリの行動と姿勢の測定

Birds' Eye View: Measuring Behavior and Posture of Chickens as a Metric for Their Well-Being ( http://arxiv.org/abs/2205.00069v1 )

ライセンス: CC BY 4.0
Kevin Hyekang Joo, Shiyuan Duan, Shawna L. Weimer, Mohammad Nayeem Teli(参考訳) ニワトリの健康は、世界の人口増加のために食料の安全とより良い栄養を確保するために重要である。 本研究では,ニワトリの幸福度を測定する指標として行動と姿勢を表現した。 ペンでニワトリの姿勢と行動を検出する目的で,事例分割のためのMask R-CNNと,分類のためのResNet50と組み合わせたYOLOv4の2つのアルゴリズムを用いる。 以上の結果より,Mask R-CNNを用いた姿勢・行動検出では重み付きF1スコア88.46%,行動検出では平均91%,姿勢検出では平均86.5%であった。 これらの実験は姿勢測定と行動計測の両方の無制御シナリオで実施されている。 これらの指標は、個人や集団の行動や姿勢を適切に示すための強固な基盤を確立します。 このような結果は、鶏の全体的な健康改善に役立つだろう。 この研究で使用されるデータセットは社内で収集され、出版後に公開され、将来の研究に非常に有用なリソースとなる。 我々の知る限りでは、複数の行動と姿勢を同時に含むこの作業に使用されるこの特定の設定において、他の研究作業は行われていない。

Chicken well-being is important for ensuring food security and better nutrition for a growing global human population. In this research, we represent behavior and posture as a metric to measure chicken well-being. With the objective of detecting chicken posture and behavior in a pen, we employ two algorithms: Mask R-CNN for instance segmentation and YOLOv4 in combination with ResNet50 for classification. Our results indicate a weighted F1 score of 88.46% for posture and behavior detection using Mask R-CNN and an average of 91% accuracy in behavior detection and 86.5% average accuracy in posture detection using YOLOv4. These experiments are conducted under uncontrolled scenarios for both posture and behavior measurements. These metrics establish a strong foundation to obtain a decent indication of individual and group behaviors and postures. Such outcomes would help improve the overall well-being of the chickens. The dataset used in this research is collected in-house and will be made public after the publication as it would serve as a very useful resource for future research. To the best of our knowledge no other research work has been conducted in this specific setup used for this work involving multiple behaviors and postures simultaneously.
翻訳日:2022-05-05 10:12:53 公開日:2022-04-29
# (参考訳) AI予測の倍増 - 影響駆動の第2のオピニオン推奨

Doubting AI Predictions: Influence-Driven Second Opinion Recommendation ( http://arxiv.org/abs/2205.00072v1 )

ライセンス: CC BY 4.0
Maria De-Arteaga, Alexandra Chouldechova, Artur Dubrawski(参考訳) 効果的な人間とAIのコラボレーションには、人間にアルゴリズムレコメンデーションを理解し、批判的に評価する意味のある方法を提供するシステム設計が必要である。 本稿では,補完的な意見を提供する可能性のある専門家を識別する,共通の組織的実践に基づく人間とAIのコラボレーションを強化する手法を提案する。 人間の生成した評価を予測するために機械学習アルゴリズムを訓練する場合、専門家の豊富な視点がモノリシックなアルゴリズムの推奨で失われることが多い。 提案手法は,(1)一部の専門家がアルゴリズム的評価に異を唱える可能性があり,(2)専門家に第2の意見を求めるよう勧めることによって,生産的不一致を活用することを目的としている。

Effective human-AI collaboration requires a system design that provides humans with meaningful ways to make sense of and critically evaluate algorithmic recommendations. In this paper, we propose a way to augment human-AI collaboration by building on a common organizational practice: identifying experts who are likely to provide complementary opinions. When machine learning algorithms are trained to predict human-generated assessments, experts' rich multitude of perspectives is frequently lost in monolithic algorithmic recommendations. The proposed approach aims to leverage productive disagreement by (1) identifying whether some experts are likely to disagree with an algorithmic assessment and, if so, (2) recommend an expert to request a second opinion from.
翻訳日:2022-05-05 10:02:37 公開日:2022-04-29
# (参考訳) 専門家は誰だ? マルチソースの信念変化について

Who's the Expert? On Multi-source Belief Change ( http://arxiv.org/abs/2205.00077v1 )

ライセンス: CC BY 4.0
Joseph Singleton and Richard Booth(参考訳) 以下の信念変更/統合シナリオを考えてください。 情報ソースのグループは、様々なインスタンス(例えば、時間の異なる点)における世界の状態に関する一連のレポートを提供します。 これらの場合の真の状態は我々には知られていない。 ソースにはさまざまなレベルの専門知識があり、私たちにも知られてはいません。 これにより、情報源は専門知識の欠如した領域で虚偽の声明を報告する可能性がある。 これらの報告に基づいて何を信じるべきか。 専門的な公式を用いた命題論理の拡張に基づいて,この問題を探求する枠組みを提供する。 この拡張言語により、各インスタンスにおける世界の状況に関する信念や、各ソースの専門知識に関する信念を表現することができます。 本稿では,いくつかの仮定を提案し,いくつかの具体的な演算子の族を提供し,それらの演算子を仮定に対して解析する。

Consider the following belief change/merging scenario. A group of information sources gives a sequence of reports about the state of the world at various instances (e.g. different points in time). The true states at these instances are unknown to us. The sources have varying levels of expertise, also unknown to us, and may be knowledgeable on some topics but not others. This may cause sources to report false statements in areas they lack expertise. What should we believe on the basis of these reports? We provide a framework in which to explore this problem, based on an extension of propositional logic with expertise formulas. This extended language allows us to express beliefs about the state of the world at each instance, as well as beliefs about the expertise of each source. We propose several postulates, provide a couple of families of concrete operators, and analyse these operators with respect to the postulates.
翻訳日:2022-05-05 09:54:28 公開日:2022-04-29
# edge-to-cloud continuumにおける分散インテリジェンス - 体系的文献レビュー

Distributed intelligence on the Edge-to-Cloud Continuum: A systematic literature review ( http://arxiv.org/abs/2205.01081v1 )

ライセンス: Link先を確認
Daniel Rosendo (KerData), Alexandru Costan (KerData), Patrick Valduriez (ZENITH), Gabriel Antoniu (KerData)(参考訳) アプリケーションの増加によって生成されるデータボリュームの爆発は、データ分析と機械学習(ML)のための分散デジタルインフラストラクチャの進化に大きく影響している。 データ分析は主にクラウドインフラストラクチャ上で行われていたが、IoTインフラストラクチャの急速な開発と低レイテンシ要件により、セキュアな処理がエッジ分析の開発を動機付けている。 今日では、さまざまなトレードオフのバランスをとるために、mlベースのアナリティクスは、複雑なアプリケーションをクラウド/hpcシステムと相互接続するハイブリッドインフラストラクチャ上で実行可能にする、相互接続されたエコシステムをますます活用しがちである。これは、compute continuum、digital continuum、transcontinuumと呼ばれるものだ。このような複雑なインフラストラクチャ上で学習ベースの分析を行うのは、難しい。 Edge-to-Cloud Continuumにまたがる学習ベースのワークフローの大規模かつ最適化されたデプロイメントには、アプリケーション実行を代表的テストベッド上で広範囲かつ再現可能な実験的分析が必要である。 これは、さまざまな学習パラダイムとサポートフレームワークを組み合わせることによって生じるパフォーマンスのトレードオフを理解するために必要です。 徹底的な実験分析では,モデル精度,トレーニング時間,ネットワークオーバーヘッド,エネルギー消費,処理遅延など,複数の要因の影響評価が求められている。本レビューは,現在利用可能なマシンラーニングとデータ分析のための,最先端のライブラリとフレームワークの包括的ビジョンを提供することを目的としている。 Edge-to-Cloud Continuum上での学習に基づく分析を可能にする主要な学習パラダイムについて説明する。 今日利用可能なエッジ・ツー・クラウド連続体の実験研究のための主なシミュレーション、エミュレーション、デプロイシステム、テストベッドも調査されている。 さらに、選択したシステムが実験再現性をサポートする方法を分析する。 我々は、性能の総合的理解、アプリケーションのパフォーマンス最適化、人工知能(ai)ワークフローの高異質なインフラへの効率的な展開、計算連続体実験の再現可能な分析など、この分野における関連するオープンリサーチの課題と今後の方向性に関する詳細な議論でレビューを締めくくった。

The explosion of data volumes generated by an increasing number of applications is strongly impacting the evolution of distributed digital infrastructures for data analytics and machine learning (ML). While data analytics used to be mainly performed on cloud infrastructures, the rapid development of IoT infrastructures and the requirements for low-latency, secure processing has motivated the development of edge analytics. Today, to balance various trade-offs, ML-based analytics tends to increasingly leverage an interconnected ecosystem that allows complex applications to be executed on hybrid infrastructures where IoT Edge devices are interconnected to Cloud/HPC systems in what is called the Computing Continuum, the Digital Continuum, or the Transcontinuum.Enabling learning-based analytics on such complex infrastructures is challenging. The large scale and optimized deployment of learning-based workflows across the Edge-to-Cloud Continuum requires extensive and reproducible experimental analysis of the application execution on representative testbeds. This is necessary to help understand the performance trade-offs that result from combining a variety of learning paradigms and supportive frameworks. A thorough experimental analysis requires the assessment of the impact of multiple factors, such as: model accuracy, training time, network overhead, energy consumption, processing latency, among others.This review aims at providing a comprehensive vision of the main state-of-the-art libraries and frameworks for machine learning and data analytics available today. It describes the main learning paradigms enabling learning-based analytics on the Edge-to-Cloud Continuum. The main simulation, emulation, deployment systems, and testbeds for experimental research on the Edge-to-Cloud Continuum available today are also surveyed. Furthermore, we analyze how the selected systems provide support for experiment reproducibility. We conclude our review with a detailed discussion of relevant open research challenges and of future directions in this domain such as: holistic understanding of performance; performance optimization of applications;efficient deployment of Artificial Intelligence (AI) workflows on highly heterogeneous infrastructures; and reproducible analysis of experiments on the Computing Continuum.
翻訳日:2022-05-03 16:34:53 公開日:2022-04-29
# モデル集約によるByzantine-Robustnessのブリッジング

Bridging Differential Privacy and Byzantine-Robustness via Model Aggregation ( http://arxiv.org/abs/2205.00107v1 )

ライセンス: Link先を確認
Heng Zhu, Qing Ling(参考訳) 本稿では,分散データの非i.i.d.(非独立かつ同一分布)においては特に困難である差分プライバシー (dp) とビザンチン・ロバストネス (byzantine-robustness) という,連合学習における相反する2つの問題に対処することを目的とする。 標準のDPメカニズムは送信メッセージにノイズを付加し、ビザンツ攻撃に対して頑健な確率勾配の集約で絡み合う。 本稿では,提案するdp機構とビザンチン攻撃に対する防御が学習性能に与える影響を分離したという意味で,ロバストな確率的モデルアグリゲーションによって2つの問題を分離する。 堅牢な確率的モデルアグリゲーションを各イテレーションで活用することで、各ワーカはローカルモデルとグローバルモデルの違いを計算し、続いて、要素単位のサインをマスタノードに送信することで、ビザンチン攻撃に対するロバスト性を実現する。 さらに,プライバシ保護のためにアップロードされた符号を摂動させるdp機構を2つ設計し,ノイズ分布の特性を利用して$(\epsilon,0)$-dpであることを証明した。 モロー包絡と近点射影のツールを用いて、コスト関数が非凸であるときに提案アルゴリズムの収束を確立する。 本研究では,プライバシ保護と学習性能のトレードオフを分析し,提案するdp機構の影響をロバストな確率モデルアグリゲーションの影響と分離することを示す。 数値実験により提案アルゴリズムの有効性が示された。

This paper aims at jointly addressing two seemly conflicting issues in federated learning: differential privacy (DP) and Byzantine-robustness, which are particularly challenging when the distributed data are non-i.i.d. (independent and identically distributed). The standard DP mechanisms add noise to the transmitted messages, and entangles with robust stochastic gradient aggregation to defend against Byzantine attacks. In this paper, we decouple the two issues via robust stochastic model aggregation, in the sense that our proposed DP mechanisms and the defense against Byzantine attacks have separated influence on the learning performance. Leveraging robust stochastic model aggregation, at each iteration, each worker calculates the difference between the local model and the global one, followed by sending the element-wise signs to the master node, which enables robustness to Byzantine attacks. Further, we design two DP mechanisms to perturb the uploaded signs for the purpose of privacy preservation, and prove that they are $(\epsilon,0)$-DP by exploiting the properties of noise distributions. With the tools of Moreau envelop and proximal point projection, we establish the convergence of the proposed algorithm when the cost function is nonconvex. We analyze the trade-off between privacy preservation and learning performance, and show that the influence of our proposed DP mechanisms is decoupled with that of robust stochastic model aggregation. Numerical experiments demonstrate the effectiveness of the proposed algorithm.
翻訳日:2022-05-03 16:32:55 公開日:2022-04-29
# 映画からの視聴覚コントラスト学習のための負サンプリングについて

On Negative Sampling for Audio-Visual Contrastive Learning from Movies ( http://arxiv.org/abs/2205.00073v1 )

ライセンス: Link先を確認
Mahdi M. Kalayeh, Shervin Ardeshir, Lingyi Liu, Nagendra Kamath, Ashok Chandrashekar(参考訳) 音の活用の多さと容易さに加えて、聴覚的手がかりがシーンで何が起こるかについての多くの情報を明らかにするという事実により、オーディオ視覚空間は表現学習の直感的な選択となる。 本稿では,未修正長編映画からの音声・視覚的自己指導学習の有効性について検討する。 従来のショートフォームコンテンツとの違いについて検討し、映画の性質によって駆動されるデータの非I.d分布を同定する。 特に、長い形式のコンテンツには、自然に様々な意味概念(セマンティクスの多様性)が含まれており、そこでは主要キャラクターや環境など、その大部分が映画を通して頻繁に現れる(セマンティクスのコンセプトを繰り返す)。 加えて、映画には、映画を独特に区別するための強いシグナルであるカラーパレットやテーマ音楽など、コンテンツ排他的な芸術的アーティファクトが含まれることが多い。 本研究は,これらの観察を活かし,対照学習環境における運動内負サンプリングの強調効果を包括的に検討する。 我々の見解は、時間とともに意味的持続性の概念に触発され、短いビデオ体制で運用される、ビデオ内のポジティブサンプリングを考える以前の作品とは異なる。 実験結果から,一定の修正を加えて,未修正長ビデオのトレーニングによって,最先端技術と競合する表現が,さまざまな行動認識や音声分類タスクに伝達されることが示唆された。

The abundance and ease of utilizing sound, along with the fact that auditory clues reveal a plethora of information about what happens in a scene, make the audio-visual space an intuitive choice for representation learning. In this paper, we explore the efficacy of audio-visual self-supervised learning from uncurated long-form content i.e movies. Studying its differences with conventional short-form content, we identify a non-i.i.d distribution of data, driven by the nature of movies. Specifically, we find long-form content to naturally contain a diverse set of semantic concepts (semantic diversity), where a large portion of them, such as main characters and environments often reappear frequently throughout the movie (reoccurring semantic concepts). In addition, movies often contain content-exclusive artistic artifacts, such as color palettes or thematic music, which are strong signals for uniquely distinguishing a movie (non-semantic consistency). Capitalizing on these observations, we comprehensively study the effect of emphasizing within-movie negative sampling in a contrastive learning setup. Our view is different from those of prior works who consider within-video positive sampling, inspired by the notion of semantic persistency over time, and operate in a short-video regime. Our empirical findings suggest that, with certain modifications, training on uncurated long-form videos yields representations which transfer competitively with the state-of-the-art to a variety of action recognition and audio classification tasks.
翻訳日:2022-05-03 15:25:13 公開日:2022-04-29
# ヒューマン3.6mデータセットのジョイントレグレッサの補正による簡易的姿勢推定精度向上手法

A Simple Method to Boost Human Pose Estimation Accuracy by Correcting the Joint Regressor for the Human3.6m Dataset ( http://arxiv.org/abs/2205.00076v1 )

ライセンス: Link先を確認
Eric Hedlin, Helge Rhodin, Kwang Moo Yi(参考訳) 多くの人間のポーズ推定手法は、スキンド・マルチパーソン・リニア(SMPL)モデルを推定し、これらのSMPL推定から人間の関節を回帰する。 本研究では,最も広く使用されているSMPL-to-joint線形層(ジョイント回帰器)が不正確なことを示し,その結果を誤認する可能性がある。 より高精度な継手回帰器を実現するために, 改良型回帰器の訓練に使用できる擬似地下構造SMPLポーズを作成する手法を提案する。 具体的には,現状の手法によるSMPL推定を最適化し,その投影が現場の人間のシルエットや地上の2次元関節位置と一致するようにした。 ヒトの3.6mデータセットでは、実際の接地型smplの欠如により、この擬似接地型smplの品質を評価することは困難であるが、我々は、我々のジョイントロケーションがより正確であり、レグレッサーが、再トレーニングなしでテストセットのポーズ推定結果を改善することを定性的に示している。 私たちはコードをhttps://github.com/ubc-vision/joint-regressor-refinementでリリースします。

Many human pose estimation methods estimate Skinned Multi-Person Linear (SMPL) models and regress the human joints from these SMPL estimates. In this work, we show that the most widely used SMPL-to-joint linear layer (joint regressor) is inaccurate, which may mislead pose evaluation results. To achieve a more accurate joint regressor, we propose a method to create pseudo-ground-truth SMPL poses, which can then be used to train an improved regressor. Specifically, we optimize SMPL estimates coming from a state-of-the-art method so that its projection matches the silhouettes of humans in the scene, as well as the ground-truth 2D joint locations. While the quality of this pseudo-ground-truth is challenging to assess due to the lack of actual ground-truth SMPL, with the Human 3.6m dataset, we qualitatively show that our joint locations are more accurate and that our regressor leads to improved pose estimations results on the test set without any need for retraining. We release our code and joint regressor at https://github.com/ubc-vision/joint-regressor-refinement
翻訳日:2022-05-03 15:24:49 公開日:2022-04-29
# AL-PINN:物理情報ニューラルネットワークのための拡張ラグランジアン緩和法

AL-PINNs: Augmented Lagrangian relaxation method for Physics-Informed Neural Networks ( http://arxiv.org/abs/2205.01059v1 )

ライセンス: Link先を確認
Hwijae Son, Sung Woong Cho, Hyung Ju Hwang(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、非線形偏微分方程式(PDE)の解の強力な近似器であるため、科学計算におけるディープラーニングの顕著な応用となっている。 適応的損失分散アルゴリズム(Adaptive Los Balance Algorithm)と呼ばれる,損失関数の各成分の重みを調整することで,PINNのトレーニングプロセスを促進する試みが数多く行われている。 本稿では,PNN(AL-PINN)のための拡張ラグランジアン緩和法を提案する。 PDE残差の最適化問題に対する制約として,初期条件と境界条件を扱う。 拡張ラグランジアン緩和を用いることで、制約付き最適化問題は逐次的max-min問題となり、学習可能なパラメータ $\lambda$ が各損失成分の適応的バランスをとる。 我々の理論的解析は、提案された損失関数の最小化の列がヘルムホルツ、粘性バーガーズ、クライン=ゴードン方程式の実際の解に収束することを明らかにする。 数値実験により,alピンは最先端の適応損失分散アルゴリズムに比べ,相対誤差がはるかに小さいことを実証した。

Physics-Informed Neural Networks (PINNs) has become a prominent application of deep learning in scientific computation, as it is a powerful approximator of solutions to nonlinear partial differential equations (PDEs). There have been numerous attempts to facilitate the training process of PINNs by adjusting the weight of each component of the loss function, called adaptive loss balancing algorithms. In this paper, we propose an Augmented Lagrangian relaxation method for PINNs (AL-PINNs). We treat the initial and boundary conditions as constraints for the optimization problem of the PDE residual. By employing Augmented Lagrangian relaxation, the constrained optimization problem becomes a sequential max-min problem so that the learnable parameters $\lambda$'s adaptively balance each loss component. Our theoretical analysis reveals that the sequence of minimizers of the proposed loss functions converges to an actual solution for the Helmholtz, viscous Burgers, and Klein--Gordon equations. We demonstrate through various numerical experiments that AL-PINNs yields a much smaller relative error compared with that of state-of-the-art adaptive loss balancing algorithms.
翻訳日:2022-05-03 14:31:14 公開日:2022-04-29
# 回答統合:定式化とベンチマーク

Answer Consolidation: Formulation and Benchmarking ( http://arxiv.org/abs/2205.00042v1 )

ライセンス: Link先を確認
Wenxuan Zhou, Qiang Ning, Heba Elfardy, Kevin Small, Muhao Chen(参考訳) 現在の質問応答(qa)システムは、主に単一回答のシナリオを考慮し、各質問は1つの正しい回答と組み合わせられると仮定される。 しかし、多くの現実世界のqaアプリケーションでは、回答を包括的かつ非冗長な回答の集合に統合する複数の回答シナリオが生まれます。 本稿では,回答集合の異なる側面を表す複数のグループに解を分割する解集合の問題を定式化する。 そして、この分割を考えると、各グループから1つの回答を選択することで、包括的かつ非冗長な回答の集合を構築することができる。 4,699の質問と24,006の文からなるデータセットを構築し,複数のモデルを評価する。 最高のパフォーマンスの教師付きモデルによって達成される有望なパフォーマンスにもかかわらず、このタスクにはさらなる改善の余地があると考えています。

Current question answering (QA) systems primarily consider the single-answer scenario, where each question is assumed to be paired with one correct answer. However, in many real-world QA applications, multiple answer scenarios arise where consolidating answers into a comprehensive and non-redundant set of answers is a more efficient user interface. In this paper, we formulate the problem of answer consolidation, where answers are partitioned into multiple groups, each representing different aspects of the answer set. Then, given this partitioning, a comprehensive and non-redundant set of answers can be constructed by picking one answer from each group. To initiate research on answer consolidation, we construct a dataset consisting of 4,699 questions and 24,006 sentences and evaluate multiple models. Despite a promising performance achieved by the best-performing supervised models, we still believe this task has room for further improvements.
翻訳日:2022-05-03 14:30:56 公開日:2022-04-29
# アルゴリズム意思決定における公平性と透明性に関する人間中心の視点

A Human-Centric Perspective on Fairness and Transparency in Algorithmic Decision-Making ( http://arxiv.org/abs/2205.00033v1 )

ライセンス: Link先を確認
Jakob Schoeffer(参考訳) 自動意思決定システム(ADS)は、連続的な意思決定にますます利用されている。 これらのシステムは、しばしば洗練されたが不透明な機械学習モデルに依存しており、与えられた決定がどのように到達したかを理解することができない。 これは法的な観点から問題となるだけでなく、不透明なシステムでも不公平な結果をもたらす傾向にある。 この観察と既存の成果に基づいて、博士論文を通じて以下の3つの主な貢献をすることを目指しています。 (a)人間による同様の決定と比較して、(潜在的)意思決定がアルゴリズム的決定(基礎となるADSの透明性の程度が異なる)をどう知覚するかを理解すること。 (b)ADSの品質と公平性を適切に評価する上での有効性について、透明性のある意思決定のためのさまざまなツールを評価すること。 (c)公正な自動意思決定のための人間の理解可能な技術工芸品を開発する。 私のPh.D.プログラムの前半で、私はすでにかなりの部分を処理しています。 (a)及び (c) (b)が後半の主な焦点となる。

Automated decision systems (ADS) are increasingly used for consequential decision-making. These systems often rely on sophisticated yet opaque machine learning models, which do not allow for understanding how a given decision was arrived at. This is not only problematic from a legal perspective, but non-transparent systems are also prone to yield unfair outcomes because their sanity is challenging to assess and calibrate in the first place -- which is particularly worrisome for human decision-subjects. Based on this observation and building upon existing work, I aim to make the following three main contributions through my doctoral thesis: (a) understand how (potential) decision-subjects perceive algorithmic decisions (with varying degrees of transparency of the underlying ADS), as compared to similar decisions made by humans; (b) evaluate different tools for transparent decision-making with respect to their effectiveness in enabling people to appropriately assess the quality and fairness of ADS; and (c) develop human-understandable technical artifacts for fair automated decision-making. Over the course of the first half of my PhD program, I have already addressed substantial pieces of (a) and (c), whereas (b) will be the major focus of the second half.
翻訳日:2022-05-03 13:56:01 公開日:2022-04-29
# 勧告のための複合多面露光フェアネス

Joint Multisided Exposure Fairness for Recommendation ( http://arxiv.org/abs/2205.00048v1 )

ライセンス: Link先を確認
Haolun Wu, Bhaskar Mitra, Chen Ma, Fernando Diaz and Xue Liu(参考訳) 推薦システムの文脈における露出公正性に関する以前の研究は、主にシステムの個々のユーザに対して個々のアイテムやグループの露出の格差に焦点を当ててきた。 個人やアイテムの集団が、ユーザーグループ、さらにはすべてのユーザーに対して、体系的に、あるいは過度に露出する可能性があるという問題は、比較的少なくなった。 しかし、情報公開におけるこのような体系的な格差は、歴史的に疎外されたグループ(地域的危害)からの経済的機会を抑えることや、性別や人種的なステレオタイプ(表現的害)を増幅することなど、監視可能な社会的害をもたらす可能性がある。 これまでdiazらは、情報検索のために開発された既存のユーザブラウジングモデルを取り入れた、期待される露出指標を開発し、個々のユーザに対するコンテンツ露出の公平性を調査した。 提案する枠組みを拡張して,消費者と生産者の両面から問題をモデル化する露出公平度指標のファミリーを定式化する。 具体的には、双方の利害関係者に対するグループ属性を考慮し、個別のユーザやアイテムを超えて、より体系的なバイアスを推奨するフェアネスの懸念を識別し緩和する。 さらに,本論文で提案されている異なる露出公正度次元の関係について検討・検討し,そのフェアネス目標に対して確率的ランキング政策がいかに最適化できるかを実証する。

Prior research on exposure fairness in the context of recommender systems has focused mostly on disparities in the exposure of individual or groups of items to individual users of the system. The problem of how individual or groups of items may be systemically under or over exposed to groups of users, or even all users, has received relatively less attention. However, such systemic disparities in information exposure can result in observable social harms, such as withholding economic opportunities from historically marginalized groups (allocative harm) or amplifying gendered and racialized stereotypes (representational harm). Previously, Diaz et al. developed the expected exposure metric -- that incorporates existing user browsing models that have previously been developed for information retrieval -- to study fairness of content exposure to individual users. We extend their proposed framework to formalize a family of exposure fairness metrics that model the problem jointly from the perspective of both the consumers and producers. Specifically, we consider group attributes for both types of stakeholders to identify and mitigate fairness concerns that go beyond individual users and items towards more systemic biases in recommendation. Furthermore, we study and discuss the relationships between the different exposure fairness dimensions proposed in this paper, as well as demonstrate how stochastic ranking policies can be optimized towards said fairness goals.
翻訳日:2022-05-03 13:55:46 公開日:2022-04-29
# ゼロショットタスク一般化のためのプロンプト整合性

Prompt Consistency for Zero-Shot Task Generalization ( http://arxiv.org/abs/2205.00049v1 )

ライセンス: Link先を確認
Chunting Zhou, Junxian He, Xuezhe Ma, Taylor Berg-Kirkpatrick, Graham Neubig(参考訳) 最近のNLPの歴史で最も印象的な結果の1つは、ゼロショット設定で新しいタスクを解くための事前訓練された言語モデルの能力である。 これを実現するために、NLPタスクは自然言語プロンプトとしてフレーム化され、予測された出力を示す応答を生成する。 それでも、このような設定のパフォーマンスは、監督対象よりもはるかに遅れており、潜在的な改善のための大きなスペースが示唆されている。 本稿では,ラベルのないデータを用いてゼロショット性能を向上させる手法を提案する。 具体的には、複数のプロンプトが一つのタスクを指定するのに利用できるという事実を活用し、プロンプトの一貫性を規則化し、この多様なプロンプトに対して一貫した予測を奨励することを提案する。 本手法では,追加ラベルなしのトレーニングデータでモデルを微調整したり,教師なしの方法で推論時に直接テスト入力を行うことができる。 実験では、4つのnlpタスクにまたがる11のデータセットのうち9つについて、精度の面で最大10.6の絶対点で最先端のゼロショット学習者t0(sanh et al., 2022)を上回っている。 利益はしばしば、少数の未ラベルの例で達成される。

One of the most impressive results of recent NLP history is the ability of pre-trained language models to solve new tasks in a zero-shot setting. To achieve this, NLP tasks are framed as natural language prompts, generating a response indicating the predicted output. Nonetheless, the performance in such settings often lags far behind its supervised counterpart, suggesting a large space for potential improvement. In this paper, we explore methods to utilize unlabeled data to improve zero-shot performance. Specifically, we take advantage of the fact that multiple prompts can be used to specify a single task, and propose to regularize prompt consistency, encouraging consistent predictions over this diverse set of prompts. Our method makes it possible to fine-tune the model either with extra unlabeled training data, or directly on test input at inference time in an unsupervised manner. In experiments, our approach outperforms the state-of-the-art zero-shot learner, T0 (Sanh et al., 2022), on 9 out of 11 datasets across 4 NLP tasks by up to 10.6 absolute points in terms of accuracy. The gains are often attained with a small number of unlabeled examples.
翻訳日:2022-05-03 13:22:37 公開日:2022-04-29
# 大規模会話型AIにおける自己認識フィードバックに基づく自己学習

Self-Aware Feedback-Based Self-Learning in Large-Scale Conversational AI ( http://arxiv.org/abs/2205.00029v1 )

ライセンス: Link先を確認
Pragaash Ponnusamy, Clint Solomon Mathialagan, Gustavo Aguilar, Chengyuan Ma, Chenlei Guo(参考訳) 大規模な会話型AIエージェントにおける自己学習のパラダイムは、ユーザからのフィードバックを利用して、発言と意味をブリッジする傾向がある。 しかし、マルコフベースのクエリ書き換えシステムにおけるこのような学習は、特に継続的な更新環境において、逐次フィードバックが必然的に書き直し自体に影響を及ぼす将来のトレーニングにおけるこれらのモデルの影響に対処するには程遠い。 本稿では,モデル性能を損なうことに対する自己認識の欠如の結果を考察し,最終的にタイプiとタイプiiの両方のエラーを経時的に発生させる。 そこで我々は,重ね合わせに基づく隣接行列を用いたマルコフグラフ構築の強化を提案する。 そこで本手法では,2変量ベータ環境での個々の書き換えの性能に基づいて局所適応的決定境界を動的に学習する。 また、対話の複雑な階層化にテンプレートベースの生成を活用することで、学習プロセスを簡素化するデータ拡張戦略も提示する。 全体として、私たちの自己認識モデルはPR-AUC全体を27.45%改善し、相対的な欠陥を最大31.22%削減し、多数の顧客間でのグローバルな嗜好の変化に迅速に適応できることを示した。

Self-learning paradigms in large-scale conversational AI agents tend to leverage user feedback in bridging between what they say and what they mean. However, such learning, particularly in Markov-based query rewriting systems have far from addressed the impact of these models on future training where successive feedback is inevitably contingent on the rewrite itself, especially in a continually updating environment. In this paper, we explore the consequences of this inherent lack of self-awareness towards impairing the model performance, ultimately resulting in both Type I and II errors over time. To that end, we propose augmenting the Markov Graph construction with a superposition-based adjacency matrix. Here, our method leverages an induced stochasticity to reactively learn a locally-adaptive decision boundary based on the performance of the individual rewrites in a bi-variate beta setting. We also surface a data augmentation strategy that leverages template-based generation in abridging complex conversation hierarchies of dialogs so as to simplify the learning process. All in all, we demonstrate that our self-aware model improves the overall PR-AUC by 27.45%, achieves a relative defect reduction of up to 31.22%, and is able to adapt quicker to changes in global preferences across a large number of customers.
翻訳日:2022-05-03 12:46:32 公開日:2022-04-29
# (参考訳) Sparse-Group Log-Sumによる時系列のグラフィカルモデル学習

Sparse-Group Log-Sum Penalized Graphical Model Learning For Time Series ( http://arxiv.org/abs/2204.13824v1 )

ライセンス: CC BY 4.0
Jitendra K Tugnait(参考訳) 本研究では,高次元定常多変量ガウス時系列の条件独立グラフ(CIG)を推定する問題を考察する。 スパースグループラッソに基づく周波数領域の定式化は、データのスパース逆パワースペクトル密度(PSD)を推定することを目的とする文献において検討されている。 CIGは、推定逆PSDから推定される。 本稿では,スパースグループ対数ペナルティの代わりにスパースグループ対数ペナルティ(LSP)を用いることを検討した。 非凸問題の反復最適化のための乗算器 (ADMM) アプローチの交互方向法を提案する。 我々は、逆psd推定器のフロベニウスノルムを真の値に局所収束させるのに十分な条件を与える。 この結果は収束率ももたらします。 合成データと実データの両方を利用した数値例を用いて,本手法について述べる。

We consider the problem of inferring the conditional independence graph (CIG) of a high-dimensional stationary multivariate Gaussian time series. A sparse-group lasso based frequency-domain formulation of the problem has been considered in the literature where the objective is to estimate the sparse inverse power spectral density (PSD) of the data. The CIG is then inferred from the estimated inverse PSD. In this paper we investigate use of a sparse-group log-sum penalty (LSP) instead of sparse-group lasso penalty. An alternating direction method of multipliers (ADMM) approach for iterative optimization of the non-convex problem is presented. We provide sufficient conditions for local convergence in the Frobenius norm of the inverse PSD estimators to the true value. This results also yields a rate of convergence. We illustrate our approach using numerical examples utilizing both synthetic and real data.
翻訳日:2022-05-03 04:30:38 公開日:2022-04-29
# (参考訳) 骨肉腫の組織像分類のためのノイズ低減型クロスフュージョン学習トランス

Noise-reducing attention cross fusion learning transformer for histological image classification of osteosarcoma ( http://arxiv.org/abs/2204.13838v1 )

ライセンス: CC BY 4.0
Liangrui Pan, Hetian Wang, Lian Wang, Boya Ji, Mingting Liu, Mitchai Chongcheawchamnan, Jin Yuan, Shaoliang Peng(参考訳) 骨肉腫の悪性度とその転移・散在傾向は, 病理組織学的所見(顕微鏡下腫瘍の形態観察により決定される)に主に依存する。 本研究の目的は, 骨肉腫の組織像の分類に人工知能を応用し, 腫瘍の生存率と壊死度を評価することであり, 医師の作業負荷軽減, 骨肉腫癌検出精度の向上, 患者の予後向上に寄与する。 本研究では,骨肉腫の組織像を分類するために,ノイズ低減畳み込みオートエンコーダと機能クロスフュージョン学習(NRCA-FCFL)を統合した典型的なトランスフォーマー画像分類フレームワークを提案する。 骨肉腫の組織像は, ノイズ低減畳み込み自己エンコーダにより, より純粋な画像が得られた。 さらに,2つのスケールイメージパッチを統合した機能クロスフュージョン学習を導入し,追加の分類トークンを用いてそのインタラクションを十分に探究する。 その結果、ラベル予測のために残留ニューラルネットワークに供給される洗練された融合特徴が生成される。 提案手法の性能評価のために広範な実験を行った。 以上の結果から, 骨肉腫診断の精度は99.17%であり, 従来法および深層学習法よりも高い結果が得られた。

The degree of malignancy of osteosarcoma and its tendency to metastasize/spread mainly depend on the pathological grade (determined by observing the morphology of the tumor under a microscope). The purpose of this study is to use artificial intelligence to classify osteosarcoma histological images and to assess tumor survival and necrosis, which will help doctors reduce their workload, improve the accuracy of osteosarcoma cancer detection, and make a better prognosis for patients. The study proposes a typical transformer image classification framework by integrating noise reduction convolutional autoencoder and feature cross fusion learning (NRCA-FCFL) to classify osteosarcoma histological images. Noise reduction convolutional autoencoder could well denoise histological images of osteosarcoma, resulting in more pure images for osteosarcoma classification. Moreover, we introduce feature cross fusion learning, which integrates two scale image patches, to sufficiently explore their interactions by using additional classification tokens. As a result, a refined fusion feature is generated, which is fed to the residual neural network for label predictions. We conduct extensive experiments to evaluate the performance of the proposed approach. The experimental results demonstrate that our method outperforms the traditional and deep learning approaches on various evaluation metrics, with an accuracy of 99.17% to support osteosarcoma diagnosis.
翻訳日:2022-05-03 04:16:15 公開日:2022-04-29
# (参考訳) aiの不平等に対してギグワーカーに権限を与えるボトムアップエンドユーザーインテリジェントアシスタント

A Bottom-Up End-User Intelligent Assistant Approach to Empower Gig Workers against AI Inequality ( http://arxiv.org/abs/2204.13842v1 )

ライセンス: CC BY 4.0
Toby Jia-Jun Li, Yuwen Lu, Jaylexia Clark, Meng Chen, Victor Cox, Meng Jiang, Yang Yang, Tamara Kay, Danielle Wood, Jay Brockman(参考訳) ギグワークが仕事の未来においてますます顕著な役割を担っているため、労働者とプラットフォーム間のギグワークの不平等が重要な社会問題となっている。 AIの不平等は、(1)ギグワークでAI技術にアクセス可能な技術分割、(2)ギグワークでデータを所有しているデータ分割は、不公平な労働条件、賃金格差の増加、労働者の多様な嗜好の無視、およびプラットフォームにおける労働者の信頼の欠如によって引き起こされる。 このポジションペーパーでは、個人労働者がAI対応の作業計画支援にアクセスし、エンドユーザープログラマブルなインテリジェントアシスタントネットワークを通じて労働者のグループ間でデータを共有できるようにするボトムアップアプローチが、現在の私有プラットフォームのパラダイムの下で、ギグワークのAI不平等を橋渡しする実践的な方法である、と論じている。 本稿では,研究課題,潜在的アプローチ,コミュニティ参加の機会を整理し,学際的コミュニティにおけるこの重要な研究テーマに関する対話の開始を目指す。

The growing inequality in gig work between workers and platforms has become a critical social issue as gig work plays an increasingly prominent role in the future of work. The AI inequality is caused by (1) the technology divide in who has access to AI technologies in gig work; and (2) the data divide in who owns the data in gig work leads to unfair working conditions, growing pay gap, neglect of workers' diverse preferences, and workers' lack of trust in the platforms. In this position paper, we argue that a bottom-up approach that empowers individual workers to access AI-enabled work planning support and share data among a group of workers through a network of end-user-programmable intelligent assistants is a practical way to bridge AI inequality in gig work under the current paradigm of privately owned platforms. This position paper articulates a set of research challenges, potential approaches, and community engagement opportunities, seeking to start a dialogue on this important research topic in the interdisciplinary CHIWORK community.
翻訳日:2022-05-03 03:57:40 公開日:2022-04-29
# (参考訳) CATNet:医療イベント予測のためのクロスイベントアテンションベースのタイムアウェアネットワーク

CATNet: Cross-event Attention-based Time-aware Network for Medical Event Prediction ( http://arxiv.org/abs/2204.13847v1 )

ライセンス: CC BY 4.0
Sicen Liu, Xiaolong Wang, Yang Xiang, Hui Xu, Hui Wang, Buzhou Tang(参考訳) 医学イベント予測(MEP)は、医学領域における基本的な課題であり、歴史的医療記録によると、医薬品、診断コード、検査検査、手順、結果などの医療イベントを予測する必要がある。 医療データは異種・時間的不規則な特徴を持つ複雑な時系列データの一種である。 この2つの特徴を考慮した多くの機械学習手法が医療イベント予測のために提案されている。 しかし、これらの2つの特徴は別々に考えており、様々な医療イベント、特に歴史的医療イベントと標的医療イベントの関係の相関を無視している。 本稿では,医療イベント予測のために,クロスイベントアテンションベースの時間認識ネットワーク(CATNet)と呼ばれる,アテンション機構に基づく新しいニューラルネットワークを提案する。 タイムアウェア、イベントアウェア、タスクアダプティブのメソッドで、以下の利点があります。 1) 異種情報と時間的情報を統一的にモデル化し, 時間的不規則な特徴を地域的・地域的に考慮する。 2) 異なる種類のイベント間の相関を, 横断的注意によって完全に活用する。 2つの公開データセット(MIMIC-IIIとeICU)の実験では、CATNetは異なるMEPタスクに適応可能であり、様々なMEPタスクで他の最先端メソッドよりも優れていることが示されている。 CATNetのソースコードは、この原稿が受け入れられた後にリリースされる。

Medical event prediction (MEP) is a fundamental task in the medical domain, which needs to predict medical events, including medications, diagnosis codes, laboratory tests, procedures, outcomes, and so on, according to historical medical records. The task is challenging as medical data is a type of complex time series data with heterogeneous and temporal irregular characteristics. Many machine learning methods that consider the two characteristics have been proposed for medical event prediction. However, most of them consider the two characteristics separately and ignore the correlations among different types of medical events, especially relations between historical medical events and target medical events. In this paper, we propose a novel neural network based on attention mechanism, called cross-event attention-based time-aware network (CATNet), for medical event prediction. It is a time-aware, event-aware and task-adaptive method with the following advantages: 1) modeling heterogeneous information and temporal information in a unified way and considering temporal irregular characteristics locally and globally respectively, 2) taking full advantage of correlations among different types of events via cross-event attention. Experiments on two public datasets (MIMIC-III and eICU) show CATNet can be adaptive with different MEP tasks and outperforms other state-of-the-art methods on various MEP tasks. The source code of CATNet will be released after this manuscript is accepted.
翻訳日:2022-05-03 03:36:33 公開日:2022-04-29
# (参考訳) Goldilocks-curriculum Domain RandomizationとフラクタルパーリンノイズとSim2Real肺炎病変検出への応用

Goldilocks-curriculum Domain Randomization and Fractal Perlin Noise with Application to Sim2Real Pneumonia Lesion Detection ( http://arxiv.org/abs/2204.13849v1 )

ライセンス: CC BY 4.0
Takahiro Suzuki and Shouhei Hanaoka and Issei Sato(参考訳) 機械学習に基づくコンピュータ支援検出システム(CAD)が,放射線科医の診断を支援することが期待される。 病院で日常的に蓄積される各種疾患に対してcadシステムを構築することが望ましい。 疾患のためのCADシステムの開発における障害は、典型的には医療画像の数が小さすぎて機械学習モデルの性能が向上しないことである。 本稿では,医療画像分野におけるSIM2real Transferアプローチを用いて,この問題に対処する方法を探究する。 医用画像検査の分野でsim2real transfer法の性能を評価するためのプラットフォームを構築するために,経験豊富な放射線科医が診断しにくい胸部x画像101ドルと,フラクタルパーリンノイズに基づくシミュレータと擬似肺炎を発生させるx線原理からなるベンチマークデータセットを構築した。 そこで我々は,Goldilocks-curriculum domain randomization (GDR) と呼ばれる新しい領域ランダム化法を開発し,その手法を評価する。

A computer-aided detection (CAD) system based on machine learning is expected to assist radiologists in making a diagnosis. It is desirable to build CAD systems for the various types of diseases accumulating daily in a hospital. An obstacle in developing a CAD system for a disease is that the number of medical images is typically too small to improve the performance of the machine learning model. In this paper, we aim to explore ways to address this problem through a sim2real transfer approach in medical image fields. To build a platform to evaluate the performance of sim2real transfer methods in the field of medical imaging, we construct a benchmark dataset that consists of $101$ chest X-images with difficult-to-identify pneumonia lesions judged by an experienced radiologist and a simulator based on fractal Perlin noise and the X-ray principle for generating pseudo pneumonia lesions. We then develop a novel domain randomization method, called Goldilocks-curriculum domain randomization (GDR) and evaluate our method in this platform.
翻訳日:2022-05-03 03:22:51 公開日:2022-04-29
# (参考訳) 深部畳み込みニューラルネットワークを用いたEquine Radiograph分類

Equine radiograph classification using deep convolutional neural networks ( http://arxiv.org/abs/2204.13857v1 )

ライセンス: CC BY 4.0
Raniere Gaia Costa da Silva, Ambika Prasad Mishra, Christopher Riggs, Michael Doube(参考訳) 目的: 深層畳み込みニューラルネットワークによる解剖学的位置と投射を48種類の競馬手足の標準的なビューから分類する能力を評価すること。 資料と方法:9504 equine pre-import radiographsは、オープンソースの機械学習フレームワークpytorchの一部として利用可能な6つのディープラーニングアーキテクチャのトレーニング、検証、テストに使用された。 結果: resnet-34 は 0.8408 のtop-1 精度を達成し,その大部分(88%) の誤分類が誤用された。 クラスアクティベーションマップは、ジョイント形態がモデル決定を促したことを示している。 結論: 深層畳み込みニューラルネットワークは,馬の事前輸入ラジオグラフを48の標準ビューに分類することができる。

Purpose: To assess the capability of deep convolutional neural networks to classify anatomical location and projection from a series of 48 standard views of racehorse limbs. Materials and Methods: 9504 equine pre-import radiographs were used to train, validate, and test six deep learning architectures available as part of the open source machine learning framework PyTorch. Results: ResNet-34 achieved a top-1 accuracy of 0.8408 and the majority (88%) of misclassification was because of wrong laterality. Class activation maps indicated that joint morphology drove the model decision. Conclusion: Deep convolutional neural networks are capable of classifying equine pre-import radiographs into the 48 standard views including moderate discrimination of laterality independent of side marker presence.
翻訳日:2022-05-03 03:21:48 公開日:2022-04-29
# (参考訳) この写真はどこにあるの? トランスフォーマーを用いた野生生物の地球局在化

Where in the World is this Image? Transformer-based Geo-localization in the Wild ( http://arxiv.org/abs/2204.13861v1 )

ライセンス: CC BY 4.0
Shraman Pramanick, Ewa M. Nowara, Joshua Gleason, Carlos D. Castillo and Rama Chellappa(参考訳) 世界各地で撮影された地上レベルのRGB画像から地理的位置(ジオローカライゼーション)を予測することは、非常に難しい問題です。 課題は、異なる環境シナリオによる画像の多様性、日、天候、季節などによって同じ場所の外観が劇的に変化すること、そしてさらに重要なことに、この予測は、おそらくわずかな地理的な手がかりしか持たない単一の画像からなされる。 これらの理由から、現存する作品のほとんどは特定の都市、画像、世界的ランドマークに限られている。 本研究では,惑星規模の単一画像のジオローカライゼーションのための効率的なソリューションの開発に焦点をあてる。 そこで本研究では,画像全体の細部を細部まで把握し,極端な外観変化下でロバストな特徴表現を生成する,統一型デュアルブランチトランスフォーマーネットワークであるtranslocatorを提案する。 TransLocatorは、RGBイメージとそのセマンティックセグメンテーションマップを入力として、トランスフォーマー層の各後の2つの並列ブランチ間で相互作用し、同時にマルチタスク方式でジオローカライズとシーン認識を行う。 我々は,im2gps,im2gps3k,yfcc4k,yfcc26kの4つのベンチマークデータセットでトランスロケータを評価し,5.5%,14.1%,4.9%,9.9%の大陸レベルの精度向上を達成した。 TransLocatorは実世界のテスト画像でも検証され、従来の方法よりも効果的であることが判明した。

Predicting the geographic location (geo-localization) from a single ground-level RGB image taken anywhere in the world is a very challenging problem. The challenges include huge diversity of images due to different environmental scenarios, drastic variation in the appearance of the same location depending on the time of the day, weather, season, and more importantly, the prediction is made from a single image possibly having only a few geo-locating cues. For these reasons, most existing works are restricted to specific cities, imagery, or worldwide landmarks. In this work, we focus on developing an efficient solution to planet-scale single-image geo-localization. To this end, we propose TransLocator, a unified dual-branch transformer network that attends to tiny details over the entire image and produces robust feature representation under extreme appearance variations. TransLocator takes an RGB image and its semantic segmentation map as inputs, interacts between its two parallel branches after each transformer layer, and simultaneously performs geo-localization and scene recognition in a multi-task fashion. We evaluate TransLocator on four benchmark datasets - Im2GPS, Im2GPS3k, YFCC4k, YFCC26k and obtain 5.5%, 14.1%, 4.9%, 9.9% continent-level accuracy improvement over the state-of-the-art. TransLocator is also validated on real-world test images and found to be more effective than previous methods.
翻訳日:2022-05-03 03:14:18 公開日:2022-04-29
# (参考訳) 知識蒸留による単一画像復調のための多重劣化・再構成ネットワーク

Multiple Degradation and Reconstruction Network for Single Image Denoising via Knowledge Distillation ( http://arxiv.org/abs/2204.13873v1 )

ライセンス: CC BY 4.0
Juncheng Li, Hanhui Yang, Qiaosi Yi, Faming Fang, Guangwei Gao, Tieyong Zeng, Guixu Zhang(参考訳) SID(Single Image Denoising)は深層学習の発展において画期的な進歩を遂げた。 しかし、提案手法には多くのパラメータが伴い、アプリケーションのシナリオは大幅に制限される。 ネットワークの奥行きを盲目的に増やす従来の手法とは異なり,ノイズ画像の劣化機構を探索し,ノイズを徐々に除去するための軽量多重劣化・再構成ネットワーク(mdrn)を提案する。 一方,HMDS(Heterogeneous Knowledge Distillation Strategies)は,MDRNがヘテロジニアスモデルからよりリッチで正確な特徴を学習できるようにするため,高画質の復号化画像の極端条件下での再構成を可能にする。 MDRNは,パラメータの少ない他のSIDモデルに対して良好な性能を示す。 一方、多くのアブレーション研究により、導入されたHMDSは、ノイズレベルの高い小さなモデルやモデルの性能を向上させることができることが示されている。

Single image denoising (SID) has achieved significant breakthroughs with the development of deep learning. However, the proposed methods are often accompanied by plenty of parameters, which greatly limits their application scenarios. Different from previous works that blindly increase the depth of the network, we explore the degradation mechanism of the noisy image and propose a lightweight Multiple Degradation and Reconstruction Network (MDRN) to progressively remove noise. Meanwhile, we propose two novel Heterogeneous Knowledge Distillation Strategies (HMDS) to enable MDRN to learn richer and more accurate features from heterogeneous models, which make it possible to reconstruct higher-quality denoised images under extreme conditions. Extensive experiments show that our MDRN achieves favorable performance against other SID models with fewer parameters. Meanwhile, plenty of ablation studies demonstrate that the introduced HMDS can improve the performance of tiny models or the model under high noise levels, which is extremely useful for related applications.
翻訳日:2022-05-03 02:47:55 公開日:2022-04-29
# (参考訳) OA-Mine:Eコマース製品のオープンワールド属性マイニング

OA-Mine: Open-World Attribute Mining for E-Commerce Products with Weak Supervision ( http://arxiv.org/abs/2204.13874v1 )

ライセンス: CC BY 4.0
Xinyang Zhang, Chenwei Zhang, Xian Li, Xin Luna Dong, Jingbo Shang, Christos Faloutsos, Jiawei Han(参考訳) オンラインショッピング体験において,テキスト記述から商品属性の自動抽出が不可欠である。 このタスクに固有の課題のひとつは、eコマース製品の新たな性質です。 この問題に関するほとんどの以前の研究は、既知の属性のセットに対する新しい値をマイニングするが、絶えず変化するデータから生じる新しい属性を処理できない。 本研究では,新しい属性とその値を抽出するオープンワールド設定における属性マイニング問題について検討する。 総合的なトレーニングデータを提供する代わりに、ユーザーは弱い監督として、いくつかの既知の属性タイプの例を提供するだけでよい。 まず属性値候補を生成し、次に属性のクラスタにグループ化する原則付きフレームワークを提案する。 候補生成ステップは、事前訓練された言語モデルを調べて製品タイトルからフレーズを抽出する。 そして,属性認識による微調整手法により,マルチタスク対象を最適化し,言語モデル表現を属性識別対象とする。 最後に、オープンワールドの課題を扱うフレームワークの自己認識を通じて、新たな属性と値を見つけます。 我々は、遠く離れた大きな注釈付き開発セットと、収集した金標準の人間注釈付きテストセットについて広範な実験を行った。 我々のモデルは強いベースラインをはるかに上回り、目に見えない属性や製品タイプに一般化することができる。

Automatic extraction of product attributes from their textual descriptions is essential for online shopper experience. One inherent challenge of this task is the emerging nature of e-commerce products -- we see new types of products with their unique set of new attributes constantly. Most prior works on this matter mine new values for a set of known attributes but cannot handle new attributes that arose from constantly changing data. In this work, we study the attribute mining problem in an open-world setting to extract novel attributes and their values. Instead of providing comprehensive training data, the user only needs to provide a few examples for a few known attribute types as weak supervision. We propose a principled framework that first generates attribute value candidates and then groups them into clusters of attributes. The candidate generation step probes a pre-trained language model to extract phrases from product titles. Then, an attribute-aware fine-tuning method optimizes a multitask objective and shapes the language model representation to be attribute-discriminative. Finally, we discover new attributes and values through the self-ensemble of our framework, which handles the open-world challenge. We run extensive experiments on a large distantly annotated development set and a gold standard human-annotated test set that we collected. Our model significantly outperforms strong baselines and can generalize to unseen attributes and product types.
翻訳日:2022-05-03 02:34:34 公開日:2022-04-29
# (参考訳) アプリケーション・コランニングによる電池駆動モバイルデバイス上でのフェデレーション非同期学習のためのエネルギー最小化

Energy Minimization for Federated Asynchronous Learning on Battery-Powered Mobile Devices via Application Co-running ( http://arxiv.org/abs/2204.13878v1 )

ライセンス: CC BY 4.0
Cong Wang, Bin Hu, Hongyi Wu(参考訳) エネルギーは大規模連系システムにおいて必須であるがしばしば忘れられる側面である。 研究の大部分は、機械学習アルゴリズムから計算的および統計的不均一性に対処することに焦点を当てているが、モバイルシステムへの影響はまだ不明である。 本稿では,電力消費を最小限に抑えるために,協調学習の非同期実行とアプリケーション協調実行を連携させることにより,オンライン最適化フレームワークを設計・実装する。 一連の実験から,フォアグラウンドアプリケーションとバックグラウンドでのトレーニングプロセスの協調実行により,システムに無視可能な性能低下を伴う深いエネルギー割引が得られることがわかった。 これらの結果に基づいて,アプリケーションの将来的な発生を前提としたオフライン問題をまず検討し,動的プログラミングに基づくアルゴリズムを提案する。 次に,Lyapunovフレームワークを用いたオンラインアルゴリズムを提案し,エネルギー安定トレードオフによる解空間の探索を行う。 広範な実験により、オンライン最適化フレームワークは、以前のスキームに比べて3倍高速で60%以上のエネルギーを節約できることが示されている。

Energy is an essential, but often forgotten aspect in large-scale federated systems. As most of the research focuses on tackling computational and statistical heterogeneity from the machine learning algorithms, the impact on the mobile system still remains unclear. In this paper, we design and implement an online optimization framework by connecting asynchronous execution of federated training with application co-running to minimize energy consumption on battery-powered mobile devices. From a series of experiments, we find that co-running the training process in the background with foreground applications gives the system a deep energy discount with negligible performance slowdown. Based on these results, we first study an offline problem assuming all the future occurrences of applications are available, and propose a dynamic programming-based algorithm. Then we propose an online algorithm using the Lyapunov framework to explore the solution space via the energy-staleness trade-off. The extensive experiments demonstrate that the online optimization framework can save over 60% energy with 3 times faster convergence speed compared to the previous schemes.
翻訳日:2022-05-03 02:19:11 公開日:2022-04-29
# (参考訳) 機械学習を用いた行動障害検出の枠組みと新型コロナウイルスパンデミックにおける仮想認知行動療法の適用

Framework for Behavioral Disorder Detection Using Machine Learning and Application of Virtual Cognitive Behavioral Therapy in COVID-19 Pandemic ( http://arxiv.org/abs/2204.13900v1 )

ライセンス: CC BY 4.0
Tasnim Niger, Hasanur Rayhan, Rashidul Islam, Kazi Asif Abdullah Noor, Kamrul Hasan(参考訳) 現代の世界では、人々はより自己中心的で非社会的になっています。 一方、人々はストレスを受け、新型コロナウイルス(covid-19)のパンデミック時により不安になり、行動障害の症状を示す。 行動障害の症状を測定するために、通常精神科医は長時間のセッションと特定のアンケートからのインプットを使用する。 このプロセスは時間がかかり、時には適切な行動障害を検出するのに効果がない。 また、留置民はこの過程に従おうとすることもある。 行動障害を検知し,仮想認知行動療法(vcbt)を処方し,回復を促すためのディジタルフレームワークを開発した。 このフレームワークを使用することで、うつ病、不安、インターネット依存という3つの行動障害に高い責任を持つ必要なデータを入力できる。 サンプルから特定の行動障害を検出するために,機械学習手法を適用した。 本システムは,vCBTによる基本的な理解と治療を,ユーザが意識的かつ適切な治療を追求するための足掛かりとなる任意の時間から,ユーザに誘導する。

In this modern world, people are becoming more self-centered and unsocial. On the other hand, people are stressed, becoming more anxious during COVID-19 pandemic situation and exhibits symptoms of behavioral disorder. To measure the symptoms of behavioral disorder, usually psychiatrist use long hour sessions and inputs from specific questionnaire. This process is time consuming and sometime is ineffective to detect the right behavioral disorder. Also, reserved people sometime hesitate to follow this process. We have created a digital framework which can detect behavioral disorder and prescribe virtual Cognitive Behavioral Therapy (vCBT) for recovery. By using this framework people can input required data that are highly responsible for the three behavioral disorders namely depression, anxiety and internet addiction. We have applied machine learning technique to detect specific behavioral disorder from samples. This system guides the user with basic understanding and treatment through vCBT from anywhere any time which would potentially be the steppingstone for the user to be conscious and pursue right treatment.
翻訳日:2022-05-03 01:57:05 公開日:2022-04-29
# (参考訳) 再生可能電力時系列予測におけるトランスファー学習問題のためのタスク埋め込み時間畳み込みネットワーク

Task Embedding Temporal Convolution Networks for Transfer Learning Problems in Renewable Power Time-Series Forecast ( http://arxiv.org/abs/2204.13908v1 )

ライセンス: CC BY 4.0
Jens Schreiber, Stephan Vogt and Bernhard Sick(参考訳) 再生可能電力予測におけるマルチタスク学習と帰納的伝達学習のための多層パーセプトロンへのタスク埋め込みが最近導入された。 多くの場合、このアプローチは予測エラーを改善し、必要なトレーニングデータを削減する。 しかし、1日以内の電力予測、すなわち日周期の季節的影響は考慮されていない。 そこで,このアイデアを時間的畳み込みネットワークに拡張し,季節性を考慮した。 本稿では,ネットワークの残差ブロックに畳み込み,これらの結果を提供することにより,タスク間の潜在類似性を含む埋め込み空間の変換を提案する。 提案アーキテクチャはマルチタスク学習において,マルチ層パーセプトロンアプローチと比較して,EuropeWindFarm と GermanSolarFarm データセットのパワー予測を最大25%改善する。 同じデータに基づいて、風速データセットの10%改善を実現し、ほとんどの場合、大惨なことを忘れずに帰納学習のための太陽データセットの20%以上を達成しています。 最後に,再生可能エネルギー予測のためのゼロショット学習を初めて提案し,トレーニングデータがない場合でも予測を行う。

Task embeddings in multi-layer perceptrons for multi-task learning and inductive transfer learning in renewable power forecasts have recently been introduced. In many cases, this approach improves the forecast error and reduces the required training data. However, it does not take the seasonal influences in power forecasts within a day into account, i.e., the diurnal cycle. Therefore, we extended this idea to temporal convolutional networks to consider those seasonalities. We propose transforming the embedding space, which contains the latent similarities between tasks, through convolution and providing these results to the network's residual block. The proposed architecture significantly improves up to 25 percent for multi-task learning for power forecasts on the EuropeWindFarm and GermanSolarFarm dataset compared to the multi-layer perceptron approach. Based on the same data, we achieve a ten percent improvement for the wind datasets and more than 20 percent in most cases for the solar dataset for inductive transfer learning without catastrophic forgetting. Finally, we are the first proposing zero-shot learning for renewable power forecasts to provide predictions even if no training data is available.
翻訳日:2022-05-03 01:46:05 公開日:2022-04-29
# (参考訳) よりリーンで高速:軽量テキスト画像検索のための2段階モデル圧縮

Leaner and Faster: Two-Stage Model Compression for Lightweight Text-Image Retrieval ( http://arxiv.org/abs/2204.13913v1 )

ライセンス: CC BY-SA 4.0
Siyu Ren, Kenny Q. Zhu(参考訳) 現在のテキストイメージアプローチ(例えばCLIP)は、通常、デュアルエンコーダアーキテクチャを使用-事前訓練された視覚言語表現を採用する。 しかし、これらのモデルはいまだに自明なメモリ要件とかなりのインクリメンタルなインデクシング時間をもたらしており、モバイルデバイスでは実用性が低下している。 本稿では,軽量テキスト画像検索のための大規模事前学習型デュアルエンコーダを圧縮する効果的な2段階フレームワークを提案する。 結果のingモデルは、より小さく(元の39%)、より高速(イメージ/テキストを再参照する1.6x/2.9x)で、Flickr30KやMSCOCOベンチマークのオリジナルのフルモデルと同等または同等に動作する。 また、リアルなモバイル即年齢検索アプリケーションもオープンソース化しました。

Current text-image approaches (e.g., CLIP) typically adopt dual-encoder architecture us- ing pre-trained vision-language representation. However, these models still pose non-trivial memory requirements and substantial incre- mental indexing time, which makes them less practical on mobile devices. In this paper, we present an effective two-stage framework to compress large pre-trained dual-encoder for lightweight text-image retrieval. The result- ing model is smaller (39% of the original), faster (1.6x/2.9x for processing image/text re- spectively), yet performs on par with or bet- ter than the original full model on Flickr30K and MSCOCO benchmarks. We also open- source an accompanying realistic mobile im- age search application.
翻訳日:2022-05-03 01:44:09 公開日:2022-04-29
# (参考訳) 木に基づく手法とその組み合わせに関する研究

A study of tree-based methods and their combination ( http://arxiv.org/abs/2204.13916v1 )

ライセンス: CC BY 4.0
Yinuo Zeng(参考訳) ツリーベースの手法は、さまざまな分野で使用される一般的な機械学習技術である。 本研究は,本研究の基盤と,その適合過程を加速させる重要なサンプル学習アンサンブル(ISLE)の枠組みを概観する。 さらに、ISLEを用いた木に基づく手法で実現可能なARM(Adaptive regression by Mixing)と呼ばれるモデル組合せ戦略について述べる。 さらに、3つの修正ISLEを提案し、その性能を実データで評価する。

Tree-based methods are popular machine learning techniques used in various fields. In this work, we review their foundations and a general framework the importance sampled learning ensemble (ISLE) that accelerates their fitting process. Furthermore, we describe a model combination strategy called the adaptive regression by mixing (ARM), which is feasible for tree- based methods via ISLE. Moreover, three modified ISLEs are proposed, and their performance are evaluated on the real data sets.
翻訳日:2022-05-03 01:35:08 公開日:2022-04-29
# (参考訳) 誘導心電図を用いたマルチラベル心不整脈分類のための混合ドメイン自己アテンションネットワーク

A Mixed-Domain Self-Attention Network for Multilabel Cardiac Irregularity Classification Using Reduced-Lead Electrocardiogram ( http://arxiv.org/abs/2204.13917v1 )

ライセンス: CC BY 4.0
Hao-Chun Yang, Wan-Ting Hsieh and Trista Pei-Chun Chen(参考訳) 心電図(ECG)は、心房細動、心室細動、心室細動などの不整脈を検出するために一般的に用いられる。 従来の研究は、これらの不規則性を標準12誘導心電図で分類してきたが、広範囲の診断情報を取得する際に、低誘導心電図が有用であることを示す証拠は限られていた。 さらに、複数の記録ソースにまたがる分類モデルの一般化可能性も明かされたままである。 The PhysioNet Computing in Cardiology Challenge 2021の一環として、我々のチームであるHaoWan AIeCは、心電図から心臓の異常を識別するMixed-Domain Self-Attention Resnet (MDARsn)を提案した。 我々の分類器は,12誘導,6リード,4リード,3リード,2リードの隠れ検証セットに対して0.602,0.593,0.597,0.591,0.589(54位,37位,38位,38位,39位)のスコアを得た。

Electrocardiogram(ECG) is commonly used to detect cardiac irregularities such as atrial fibrillation, bradycardia, and other irregular complexes. While previous studies have achieved great accomplishment classifying these irregularities with standard 12-lead ECGs, there existed limited evidence demonstrating the utility of reduced-lead ECGs in capturing a wide-range of diagnostic information. In addition, classification model's generalizability across multiple recording sources also remained uncovered. As part of the PhysioNet Computing in Cardiology Challenge 2021, our team HaoWan AIeC, proposed Mixed-Domain Self-Attention Resnet (MDARsn) to identify cardiac abnormalities from reduced-lead ECG. Our classifiers received scores of 0.602, 0.593, 0.597, 0.591, and 0.589 (ranked 54th, 37th, 38th, 38th, and 39th) for the 12-lead, 6-lead, 4-lead, 3-lead, and 2-lead versions of the hidden validation set with the evaluation metric defined by the challenge.
翻訳日:2022-05-03 01:29:29 公開日:2022-04-29
# (参考訳) KERMIT - 知識グラフマッチングのためのトランスフォーマーベースのアプローチ

KERMIT - A Transformer-Based Approach for Knowledge Graph Matching ( http://arxiv.org/abs/2204.13931v1 )

ライセンス: CC BY-SA 4.0
Sven Hertling, Jan Portisch, Heiko Paulheim(参考訳) 知識グラフとオントロジーの自動マッチングのための最強信号の1つは、テキストの概念記述である。 トランスフォーマーベースの言語モデルの増加に伴い、意味に基づくテキスト比較(語彙的特徴ではなく)が研究者に提供されている。 しかし、2つの知識グラフで概念のすべてのテキスト記述をペアで比較することは高価であり、二次的にスケールする(概念が複数の記述を持つ場合)。 この問題を克服するために,我々はまず,事前学習した文変換器(bi-encoder)を用いて,マッチング候補を生成する。 第2のステップでは、最適な候補を生成するために、微調整されたトランスフォーマクロスエンコーダを使用します。 我々は、複数のデータセットに対するアプローチを評価し、それが実現可能であることを示す。

One of the strongest signals for automated matching of knowledge graphs and ontologies are textual concept descriptions. With the rise of transformer-based language models, text comparison based on meaning (rather than lexical features) is available to researchers. However, performing pairwise comparisons of all textual descriptions of concepts in two knowledge graphs is expensive and scales quadratically (or even worse if concepts have more than one description). To overcome this problem, we follow a two-step approach: we first generate matching candidates using a pre-trained sentence transformer (so called bi-encoder). In a second step, we use fine-tuned transformer cross-encoders to generate the best candidates. We evaluate our approach on multiple datasets and show that it is feasible and produces competitive results.
翻訳日:2022-05-03 01:22:24 公開日:2022-04-29
# (参考訳) bernstein-polynomial normalizing flowを用いた低電圧負荷の短期密度予測

Short-Term Density Forecasting of Low-Voltage Load using Bernstein-Polynomial Normalizing Flows ( http://arxiv.org/abs/2204.13939v1 )

ライセンス: CC BY 4.0
Marcel Arpogaus, Marcus Voss, Beate Sick, Mark Nigge-Uricher, Oliver D\"urr(参考訳) 完全再生エネルギーグリッドへの移行は、効率を高め、信頼できる制御を確保するために、低電圧レベルでの需要予測の改善を必要とする。 しかし、高い変動と電化の増加は、従来の点推定に反映されない、大きな予測変動を引き起こす。 確率的負荷予測は将来の不確実性を考慮しており、低炭素エネルギーシステムの計画と運用についてより詳細な意思決定を可能にする。 本稿では,ニューラルネットワークが流れのパラメータを制御するbernstein多項式正規化流れに基づく短時間負荷の柔軟な条件密度予測手法を提案する。 363人のスマートメータの顧客を対象に行った実証研究で、我々の密度予測はガウスとガウスの混合密度と比較した。 また、2つの異なるニューラルネットワークアーキテクチャの24hアヘッド負荷予測では、ピンボール損失に基づく非パラメトリックアプローチを上回っている。

The transition to a fully renewable energy grid requires better forecasting of demand at the low-voltage level to increase efficiency and ensure reliable control. However, high fluctuations and increasing electrification cause huge forecast variability, not reflected in traditional point estimates. Probabilistic load forecasts take future uncertainties into account and thus allow more informed decision-making for the planning and operation of low-carbon energy systems. We propose an approach for flexible conditional density forecasting of short-term load based on Bernstein polynomial normalizing flows, where a neural network controls the parameters of the flow. In an empirical study with 363 smart meter customers, our density predictions compare favorably against Gaussian and Gaussian mixture densities. Also, they outperform a non-parametric approach based on the pinball loss for 24h-ahead load forecasting for two different neural network architectures.
翻訳日:2022-05-03 01:09:38 公開日:2022-04-29
# (参考訳) 新型コロナウイルスに関するニュースコンテンツの自動信頼性評価のためのユーザエクスペリエンス設計

User Experience Design for Automatic Credibility Assessment of News Content About COVID-19 ( http://arxiv.org/abs/2204.13943v1 )

ライセンス: CC BY 4.0
Konstantin Schulz, Jens Rauenbusch, Jan Fillies, Lisa Rutenburg, Dimitrios Karvelas, Georg Rehm(参考訳) ウェブ上で新型コロナウイルスに関する情報が急速に広まり、品質保証の自動化が求められている。 そこで我々は,選択した言語的特徴を用いて,ニュースコンテンツの信頼性を確認する。 このような信頼性評価を提供するグラフィカルインタフェースのユーザビリティを評価するための実証的研究を2つ提案する。 6名の参加者との適度な質的インタビューで,ユーザビリティの重要な予測要因として,評価尺度,サブクリテリア,アルゴリズムオーサシップを特定した。 その後の50人の参加者による定量的オンライン調査では、インターフェース設計における透明性と簡潔さの相違、およびメタデータの階層性の認識が明らかになった: ニューステキストの著者は、コンテンツ品質を評価するために使用される信頼性アルゴリズムの著者よりも重要である。 最後に、自然言語処理および言語技術サービスのための信頼性関連メタデータの積極的に文書化や、自動信頼性評価のためのユーザビリティ予測者の明示的な階層分類の確立など、今後の研究への提案を行う。

The increasingly rapid spread of information about COVID-19 on the web calls for automatic measures of quality assurance. In that context, we check the credibility of news content using selected linguistic features. We present two empirical studies to evaluate the usability of graphical interfaces that offer such credibility assessment. In a moderated qualitative interview with six participants, we identify rating scale, sub-criteria and algorithm authorship as important predictors of the usability. A subsequent quantitative online survey with 50 participants reveals a conflict between transparency and conciseness in the interface design, as well as a perceived hierarchy of metadata: the authorship of a news text is more important than the authorship of the credibility algorithm used to assess the content quality. Finally, we make suggestions for future research, such as proactively documenting credibility-related metadata for Natural Language Processing and Language Technology services and establishing an explicit hierarchical taxonomy of usability predictors for automatic credibility assessment.
翻訳日:2022-05-03 00:49:42 公開日:2022-04-29
# (参考訳) 減圧点雲の深部幾何後処理

Deep Geometry Post-Processing for Decompressed Point Clouds ( http://arxiv.org/abs/2204.13952v1 )

ライセンス: CC BY 4.0
Xiaoqing Fan, Ge Li, Dingquan Li, Yurui Ren, Wei Gao, Thomas H. Li(参考訳) ポイントクラウド圧縮は、データストレージと送信の膨大なコストを削減する上で重要な役割を果たす。 しかし、量子化によって圧縮された点雲に歪みを導入することができる。 本稿では,非圧縮点雲を増大させる学習に基づくポストプロセッシング手法を提案する。 具体的には、酸化された点雲をまず小さな立方体に分割する。 次に,立方体の各位置の占有確率を予測するために,3次元畳み込みネットワークを提案する。 マルチスケール確率を生成することで,局所的およびグローバル的コンテキストを両立させる。 これらの確率は漸進的に累積され、粗い意味で結果を予測する。 最後に, 予測確率に基づいて, 幾何精細点雲を得る。 従来の手法と異なり,単一モデルを用いて多種多様な歪みを持つ非圧縮点雲を扱う。 実験の結果,提案手法は3つの代表データセットで平均9.30db bdpsnrゲインを達成することにより,除圧点群の品質を著しく向上できることがわかった。

Point cloud compression plays a crucial role in reducing the huge cost of data storage and transmission. However, distortions can be introduced into the decompressed point clouds due to quantization. In this paper, we propose a novel learning-based post-processing method to enhance the decompressed point clouds. Specifically, a voxelized point cloud is first divided into small cubes. Then, a 3D convolutional network is proposed to predict the occupancy probability for each location of a cube. We leverage both local and global contexts by generating multi-scale probabilities. These probabilities are progressively summed to predict the results in a coarse-to-fine manner. Finally, we obtain the geometry-refined point clouds based on the predicted probabilities. Different from previous methods, we deal with decompressed point clouds with huge variety of distortions using a single model. Experimental results show that the proposed method can significantly improve the quality of the decompressed point clouds, achieving 9.30dB BDPSNR gain on three representative datasets on average.
翻訳日:2022-05-03 00:28:12 公開日:2022-04-29
# (参考訳) PIE: 大規模知識グラフ埋め込みのためのパラメータと推論効率のよい解法

PIE: a Parameter and Inference Efficient Solution for Large Scale Knowledge Graph Embedding Reasoning ( http://arxiv.org/abs/2204.13957v1 )

ライセンス: CC BY 4.0
Linlin Chao, Taifeng Wang, Wei Chu(参考訳) 知識グラフ (KG) は, エンティティとKG内のユニークな埋め込みとの関係をマッピングする手法であり, 多くの推論タスクにおいて有望な結果を示している。 しかし、密接なエンティティとスパースエンティティの両方に対する同じ埋め込み次元は、パラメータ化(スパースエンティティ)または適合(デンセンスエンティティ)のいずれかを引き起こす。 通常、大きな次元はパフォーマンスを改善するために設定されます。 一方、推論時間は、すべてのエンティティのエンティティの数がトラバースされ比較され、対数直線的に増加する。 大量のエンティティを扱う場合、パラメータと推論の両方が課題になります。 したがって、PIE, a \textbf{p}arameter and \textbf{i}nference \textbf{e}fficient solution を提案する。 テンソル分解法に触発されて、エンティティ埋め込み行列を低ランク行列に分解することで、比較性能を維持しながらパラメータの半分以上を削減できることがわかった。 モデル推論を高速化するために,よりきめ細かなエンティティ型付けが可能な自己教師付き補助タスクを提案する。 ランダムにマスキングし、エンティティの接続関係を回復することにより、タスクはエンティティとリレーションの共起を学習する。 きめ細かいタイピングを利用することで、推論中に無関係なエンティティをフィルタリングし、サブ線形時間要件でターゲットを取得することができます。 リンク予測ベンチマークの実験は、提案する鍵能力を示している。 さらに,Open Graph Benchmark の大規模課題データセット WikiKG90Mv2 上で提案手法の有効性を検証し,その性能を検証した。

Knowledge graph (KG) embedding methods which map entities and relations to unique embeddings in the KG have shown promising results on many reasoning tasks. However, the same embedding dimension for both dense entities and sparse entities will cause either over parameterization (sparse entities) or under fitting (dense entities). Normally, a large dimension is set to get better performance. Meanwhile, the inference time grows log-linearly with the number of entities for all entities are traversed and compared. Both the parameter and inference become challenges when working with huge amounts of entities. Thus, we propose PIE, a \textbf{p}arameter and \textbf{i}nference \textbf{e}fficient solution. Inspired from tensor decomposition methods, we find that decompose entity embedding matrix into low rank matrices can reduce more than half of the parameters while maintaining comparable performance. To accelerate model inference, we propose a self-supervised auxiliary task, which can be seen as fine-grained entity typing. By randomly masking and recovering entities' connected relations, the task learns the co-occurrence of entity and relations. Utilizing the fine grained typing, we can filter unrelated entities during inference and get targets with possibly sub-linear time requirement. Experiments on link prediction benchmarks demonstrate the proposed key capabilities. Moreover, we prove effectiveness of the proposed solution on the Open Graph Benchmark large scale challenge dataset WikiKG90Mv2 and achieve the state of the art performance.
翻訳日:2022-05-03 00:15:53 公開日:2022-04-29
# (参考訳) SCS-Co:画像調和のための自己整合型コントラスト学習

SCS-Co: Self-Consistent Style Contrastive Learning for Image Harmonization ( http://arxiv.org/abs/2204.13962v1 )

ライセンス: CC BY 4.0
Yucheng Hang, Bin Xia, Wenming Yang, Qingmin Liao(参考訳) 画像調和は、前景に適応して背景との整合性を持たせることで、合成画像の視覚的整合性を達成することを目的としている。 しかし、既存の手法では、トレーニングをガイドする正のサンプルとして実画像のみを使用し、少なくとも補助的制約のための単一の負のサンプルとして対応する合成画像を導入し、歪みの知識が限られ、さらに大きな解空間が生じるため、生成した調和画像は歪む。 また、前景の自己スタイルと前景の背景スタイルの整合性に制約はなく、この問題が悪化する。 さらに,近年の地域適応型インスタンス正規化は大きな成功を収めるが,グローバルな背景特徴分布のみを考慮し,前景特徴分布に偏りが生じる。 そこで本研究では, 自己整合型コントラスト学習方式(scs-co)を提案する。 複数の負のサンプルを動的に生成することにより、SCS-Coはより歪みの少ない知識を学習し、フォアグラウンドの自己スタイルとフォアグラウンドの背景スタイルの整合性の両面から、スタイル表現空間における生成した調和像を適切に正規化することで、よりフォトリアリスティックな視覚結果をもたらす。 また,背景-背景特徴の類似性に応じて,注目重み付き背景特徴分布を実現するために,背景-意図適応型インスタンス正規化(BAIN)を提案する。 実験は, 定量的比較と視覚的解析の両方において, 最先端手法よりも優れた方法を示す。

Image harmonization aims to achieve visual consistency in composite images by adapting a foreground to make it compatible with a background. However, existing methods always only use the real image as the positive sample to guide the training, and at most introduce the corresponding composite image as a single negative sample for an auxiliary constraint, which leads to limited distortion knowledge, and further causes a too large solution space, making the generated harmonized image distorted. Besides, none of them jointly constrain from the foreground self-style and foreground-background style consistency, which exacerbates this problem. Moreover, recent region-aware adaptive instance normalization achieves great success but only considers the global background feature distribution, making the aligned foreground feature distribution biased. To address these issues, we propose a self-consistent style contrastive learning scheme (SCS-Co). By dynamically generating multiple negative samples, our SCS-Co can learn more distortion knowledge and well regularize the generated harmonized image in the style representation space from two aspects of the foreground self-style and foreground-background style consistency, leading to a more photorealistic visual result. In addition, we propose a background-attentional adaptive instance normalization (BAIN) to achieve an attention-weighted background feature distribution according to the foreground-background feature similarity. Experiments demonstrate the superiority of our method over other state-of-the-art methods in both quantitative comparison and visual analysis.
翻訳日:2022-05-03 00:02:42 公開日:2022-04-29
# (参考訳) 3Dシャドウを用いた自律走行車への物体隠蔽攻撃の検出

Using 3D Shadows to Detect Object Hiding Attacks on Autonomous Vehicle Perception ( http://arxiv.org/abs/2204.13973v1 )

ライセンス: CC BY 4.0
Zhongyuan Hau, Soteris Demetriou, Emil C. Lupu(参考訳) 自律走行車(AV)は主にLiDARセンサーに依存しており、周囲の空間的認識を可能にし、運転決定を支援する。 最近の研究では、物体をAVの知覚から隠そうとする攻撃が示されており、深刻な結果をもたらす可能性がある。 3D影(3D shadow)は、シーン内の物体の閉塞から生じる3D点雲の領域である。 3次元影は偽物や偽物を検出するのに有用な物理的不変量として提案された。 本研究では,物体検出装置から隠れている障害物を3次元影で検出する。 空白領域を探索し、これらの影を引き起こす障害物を見つけることでこれを達成する。 提案手法は,対象物として敵に隠された物体を3d物体検出器から隠蔽しつつも,障害物検出に使用する3d点雲に影アーチファクトを誘導する手法である。 障害物検出に3次元影を用いることで, 障害物の物体とのマッチング精度が向上し, エゴ車からの距離を正確に予測できることを示す。

Autonomous Vehicles (AVs) are mostly reliant on LiDAR sensors which enable spatial perception of their surroundings and help make driving decisions. Recent works demonstrated attacks that aim to hide objects from AV perception, which can result in severe consequences. 3D shadows, are regions void of measurements in 3D point clouds which arise from occlusions of objects in a scene. 3D shadows were proposed as a physical invariant valuable for detecting spoofed or fake objects. In this work, we leverage 3D shadows to locate obstacles that are hidden from object detectors. We achieve this by searching for void regions and locating the obstacles that cause these shadows. Our proposed methodology can be used to detect an object that has been hidden by an adversary as these objects, while hidden from 3D object detectors, still induce shadow artifacts in 3D point clouds, which we use for obstacle detection. We show that using 3D shadows for obstacle detection can achieve high accuracy in matching shadows to their object and provide precise prediction of an obstacle's distance from the ego-vehicle.
翻訳日:2022-05-02 23:47:57 公開日:2022-04-29
# (参考訳) ExaASC:アラビア語における汎用的ターゲットベーススタンス検出コーパス

ExaASC: A General Target-Based Stance Detection Corpus in Arabic Language ( http://arxiv.org/abs/2204.13979v1 )

ライセンス: CC BY 4.0
Mohammad Mehdi Jaziriyan, Ahmad Akbari, Hamed Karbasi(参考訳) ターゲットベースのスタンス検出は、ターゲットに対する姿勢を見つけるタスクである。 Twitterは、ソーシャルメディアにおける政治議論の主要な情報源の1つであり、Stanceをエンティティに対して分析するための最良のリソースの1つである。 本研究は,ツイート中の最も重要かつ議論的なターゲットに対する回答の姿勢を用いて,ターゲットベースの姿勢検出のための新しい手法を提案する。 このターゲットは、ソースツイート自体に対して検出され、現在の最先端メソッドの通常のアプローチである事前定義されたターゲットセットに制限されない。 我々の提案した新しい態度は、この分野の低資源言語の一つであるアラビア語のための ExaASC という新しいコーパスを生み出した。 最終的に、BERTを用いてコーパスを評価し、70.69マクロFスコアに達した。 これは、我々のデータとモデルが汎用的なターゲットベーススタンス検出システムで動作可能であることを示している。 コーパスは一般公開されている。

Target-based Stance Detection is the task of finding a stance toward a target. Twitter is one of the primary sources of political discussions in social media and one of the best resources to analyze Stance toward entities. This work proposes a new method toward Target-based Stance detection by using the stance of replies toward a most important and arguing target in source tweet. This target is detected with respect to the source tweet itself and not limited to a set of pre-defined targets which is the usual approach of the current state-of-the-art methods. Our proposed new attitude resulted in a new corpus called ExaASC for the Arabic Language, one of the low resource languages in this field. In the end, we used BERT to evaluate our corpus and reached a 70.69 Macro F-score. This shows that our data and model can work in a general Target-base Stance Detection system. The corpus is publicly available1.
翻訳日:2022-05-02 23:37:22 公開日:2022-04-29
# (参考訳) コントラスト学習の統計的応用

Statistical applications of contrastive learning ( http://arxiv.org/abs/2204.13999v1 )

ライセンス: CC BY 4.0
Michael U. Gutmann, Steven Kleinegesse, Benjamin Rhodes(参考訳) 確率関数は統計的推測と実験設計において重要な役割を果たす。 しかし、エネルギーベースモデルやシミュレータベースモデルなど、いくつかの重要な統計モデルのクラスでは計算的に難解である。 コントラスト学習は、確率ベースの学習に代わる直感的かつ計算可能な代替手段である。 まず, コントラスト学習の紹介を行い, エネルギーベースモデルのパラメータ推定, シミュレータモデルによるベイズ推定, 実験設計など, 多様な統計問題の解法を導出する方法を示す。

The likelihood function plays a crucial role in statistical inference and experimental design. However, it is computationally intractable for several important classes of statistical models, including energy-based models and simulator-based models. Contrastive learning is an intuitive and computationally feasible alternative to likelihood-based learning. We here first provide an introduction to contrastive learning and then show how we can use it to derive methods for diverse statistical problems, namely parameter estimation for energy-based models, Bayesian inference for simulator-based models, as well as experimental design.
翻訳日:2022-05-02 22:59:40 公開日:2022-04-29
# (参考訳) マルチディフェンダーのStackelbergセキュリティゲームのためのロバストソリューション

Robust Solutions for Multi-Defender Stackelberg Security Games ( http://arxiv.org/abs/2204.14000v1 )

ライセンス: CC BY 4.0
Dolev Mutzari, Yonatan Aumann, Sarit Kraus(参考訳) マルチディフェンダーのStackelberg Security Games (MSSG)は、最近、文学の注目を集めている。 しかし、これまで提供された解決策は非常に敏感であり、攻撃者の効用や若干の不確実性に小さな摂動さえも、守備側の成果の支払いを劇的に変え、均衡を変更することができる。 本稿では,MSSGに対するロバストモデルを提案する。このモデルでは,ゲームパラメータの小さな摂動や不確実性に耐性のある解が認められている。 まず、ロバスト性の概念とロバストmssgモデルを正式に定義する。 そして、非協調的な設定に対して、そのようなゲームにロバストな近似平衡が存在することを証明し、その効率的な構成を提供する。 協調的な設定では、そのようなゲームがロバストなアルファコアを認め、その効率的な構成を提供し、コアのより強い型が空であることを示す。 興味深いことに、ロバストでないソリューションよりもロバストなソリューションは、ディフェンダーのユーティリティを大幅に増加させることができる。

Multi-defender Stackelberg Security Games (MSSG) have recently gained increasing attention in the literature. However, the solutions offered to date are highly sensitive, wherein even small perturbations in the attacker's utility or slight uncertainties thereof can dramatically change the defenders' resulting payoffs and alter the equilibrium. In this paper, we introduce a robust model for MSSGs, which admits solutions that are resistant to small perturbations or uncertainties in the game's parameters. First, we formally define the notion of robustness, as well as the robust MSSG model. Then, for the non-cooperative setting, we prove the existence of a robust approximate equilibrium in any such game, and provide an efficient construction thereof. For the cooperative setting, we show that any such game admits a robust approximate alpha-core, provide an efficient construction thereof, and prove that stronger types of the core may be empty. Interestingly, the robust solutions can substantially increase the defenders' utilities over those of the non-robust ones.
翻訳日:2022-05-02 22:37:06 公開日:2022-04-29
# (参考訳) 凸浮揚による低ランク行列因子分解のスプリアス局所最小化

Escaping Spurious Local Minima of Low-Rank Matrix Factorization Through Convex Lifting ( http://arxiv.org/abs/2204.14067v1 )

ライセンス: CC BY 4.0
Ching-pei Lee, Ling Liang, Tianyun Tang, Kim-Chuan Toh(参考訳) 本研究は,MF-Global と呼ばれる非凸低ランク行列分解(MF)問題に対する高速大域的解法を提案する。 対流昇降ステップにより,ノイズの多い実世界データにおいて,サドルポイントとスプリアス局所ミニマを効率的に回避し,常にグローバルオプティマに収束することが保証される。 さらに,提案手法は因子化のランクを適応的に調整し,多様体識別ツールによる最適化の過程でMFの最適ランクを自動的に同定し,パラメータチューニングに要する時間を既存のMF法よりも大幅に短縮する。 一方、持ち上げられた凸形式のみを解く方法と比較すると、mf-globalは収束を大幅に高速化し、実行時間が大幅に短縮される。 実世界の大規模レコメンデーションシステム問題に関する実験では、MF-Globalが既存のMFアプローチが定着している急激な局所解を効果的に回避できることを確認した。

This work proposes a rapid global solver for nonconvex low-rank matrix factorization (MF) problems that we name MF-Global. Through convex lifting steps, our method efficiently escapes saddle points and spurious local minima ubiquitous in noisy real-world data, and is guaranteed to always converge to the global optima. Moreover, the proposed approach adaptively adjusts the rank for the factorization and provably identifies the optimal rank for MF automatically in the course of optimization through tools of manifold identification, and thus it also spends significantly less time on parameter tuning than existing MF methods, which require an exhaustive search for this optimal rank. On the other hand, when compared to methods for solving the lifted convex form only, MF-Global leads to significantly faster convergence and much shorter running time. Experiments on real-world large-scale recommendation system problems confirm that MF-Global can indeed effectively escapes spurious local solutions at which existing MF approaches stuck, and is magnitudes faster than state-of-the-art algorithms for the lifted convex form.
翻訳日:2022-05-02 22:36:06 公開日:2022-04-29
# (参考訳) PyramidCLIP: 視覚言語モデル事前学習のための階層的特徴アライメント

PyramidCLIP: Hierarchical Feature Alignment for Vision-language Model Pretraining ( http://arxiv.org/abs/2204.14095v1 )

ライセンス: CC BY 4.0
Yuting Gao, Jinfeng Liu, Zihan Xu, Jun Zhang, Ke Li, Chunhua Shen(参考訳) 大規模視覚言語事前学習は下流タスクで有望な成果を上げている。 既存の手法は、インターネットからクロールされた画像テキストペアが完全な1対1対応であるという仮定に大きく依存している。 画像の関連メタデータをクロールすることで得られるテキスト記述は、しばしばセマンティックミスマッチと相互互換性に悩まされる。 これらの問題に対処するために、PraamidCLIPを導入し、異なる意味レベルを持つ入力ピラミッドを構築し、階層の形で視覚要素と言語要素を階層内セマンティクスアライメントと相互関係アライメントによって整列する。 さらに,事前学習段階での厳密な制約を弱めるために,負のサンプル(未調整のサンプル)の損失を和らげることにより,モデルが自信過剰になるリスクを軽減し,客観的な機能を調整する。 ゼロショット画像分類、ゼロショット画像テキスト検索、画像オブジェクト検出を含む3つの下流タスクの実験は、提案したピラミッドCLIPの有効性を検証する。 特に1500万枚の画像テキストペアの事前トレーニングデータと同じ量で、PraamidCLIPはCLIPを19.2%/18.5%/19.6%上回り、画像エンコーダはImageNetゼロショット分類トップ1の精度でResNet-50/ViT-B32/ViT-B16である。 大規模なデータセットにスケールする場合,128万のイメージテキストペアを使用した8つのエポックのみをトレーニングした結果は,400万のトレーニングデータを使用した32エポックをトレーニングしたクリップに非常に近い。

Large-scale vision-language pre-training has achieved promising results on downstream tasks. Existing methods highly rely on the assumption that the image-text pairs crawled from the Internet are in perfect one-to-one correspondence. However, in real scenarios, this assumption can be difficult to hold: the text description, obtained by crawling the affiliated metadata of the image, often suffer from semantic mismatch and mutual compatibility. To address these issues, here we introduce PyramidCLIP, which constructs an input pyramid with different semantic levels, and aligns visual elements and linguistic elements in the form of hierarchy via intra-level semantics alignment and cross-level relation alignment. Furthermore, we adjust the objective function by softening the loss of negative samples (unpaired samples) so as to weaken the strict constraint during the pre-training stage, thus mitigating the risk of the model being over-confident. Experiments on three downstream tasks, including zero-shot image classification, zero-shot image-text retrieval and image object detection, verify the effectiveness of the proposed PyramidCLIP. In particular, with the same amount of pre-training data of 15 millions image-text pairs, PyramidCLIP exceeds CLIP by 19.2%/18.5%/19.6% respectively, with the image encoder being ResNet-50/ViT-B32/ViT-B16 on ImageNet zero-shot classification top-1 accuracy. When scaling to larger datasets, the results of PyramidCLIP only trained for 8 epochs using 128M image-text pairs are very close to that of CLIP trained for 32 epochs using 400M training data.
翻訳日:2022-05-02 22:03:18 公開日:2022-04-29
# (参考訳) 医用画像の雑音化のための逆歪学習

Adversarial Distortion Learning for Medical Image Denoising ( http://arxiv.org/abs/2204.14100v1 )

ライセンス: CC BY 4.0
Morteza Ghahremani, Mohammad Khateri, Alejandra Sierra, and Jussi Tohka(参考訳) 本稿では,二次元および三次元(2d/3d)生体医用画像データに対してadl(adversarial distortion learning)を提案する。 提案されたADLは2つの自動エンコーダで構成されている。 デノイザは入力データからノイズを除去し、識別器はデノイ化結果とノイズフリー結果と比較する。 このプロセスは、識別器が基準と切り離されたデータを区別できないまで繰り返される。 denoiser と discriminator はどちらも efficient-unet と呼ばれる自動エンコーダ上に構築されている。 Efficient-Unetは、残余ブロックと、バックボーンに新しいピラミッドアプローチを使用して、特徴マップを効率的に抽出し再利用するライトアーキテクチャを備えている。 トレーニング中、テキスト情報とコントラストは2つの新しい損失関数によって制御される。 Efficient-Unetのアーキテクチャにより、提案手法をあらゆる生物医学データに一般化することができる。 私たちのネットワークの2dバージョンはimagenetでトレーニングされ、imagenetとは完全に異なる分布を持つバイオメディカルデータセットでテストされました。 MRI, 皮膚顕微鏡, 電子顕微鏡, X線データを用いた実験結果から, 提案手法が各ベンチマークで最高の成績を示した。 我々の実装と事前訓練されたモデルはhttps://github.com/mogvision/ADL.comで利用可能です。

We present a novel adversarial distortion learning (ADL) for denoising two- and three-dimensional (2D/3D) biomedical image data. The proposed ADL consists of two auto-encoders: a denoiser and a discriminator. The denoiser removes noise from input data and the discriminator compares the denoised result to its noise-free counterpart. This process is repeated until the discriminator cannot differentiate the denoised data from the reference. Both the denoiser and the discriminator are built upon a proposed auto-encoder called Efficient-Unet. Efficient-Unet has a light architecture that uses the residual blocks and a novel pyramidal approach in the backbone to efficiently extract and re-use feature maps. During training, the textural information and contrast are controlled by two novel loss functions. The architecture of Efficient-Unet allows generalizing the proposed method to any sort of biomedical data. The 2D version of our network was trained on ImageNet and tested on biomedical datasets whose distribution is completely different from ImageNet; so, there is no need for re-training. Experimental results carried out on magnetic resonance imaging (MRI), dermatoscopy, electron microscopy and X-ray datasets show that the proposed method achieved the best on each benchmark. Our implementation and pre-trained models are available at https://github.com/mogvision/ADL.
翻訳日:2022-05-02 21:43:33 公開日:2022-04-29
# (参考訳) 学習不要統計と計算グラフクラスタリングによるニューラルネットワーク検索空間の削減

Reducing Neural Architecture Search Spaces with Training-Free Statistics and Computational Graph Clustering ( http://arxiv.org/abs/2204.14103v1 )

ライセンス: CC BY 4.0
Thorir Mar Ingolfsson, Mark Vero, Xiaying Wang, Lorenzo Lamberti, Luca Benini, Matteo Spallanzani(参考訳) neural architecture search (nas) アルゴリズムの計算能力は、通常、対象の探索空間のサイズに比例する。 したがって、探索を高品質なサブセットに制限することで、NASアルゴリズムの計算負荷を大幅に削減することができる。 本稿では,NAS探索空間のサイズを縮小する新しい手法であるクラスタリングベースリフレクション(C-BRED)を提案する。 C-BREDは、アーキテクチャに関連する計算グラフをクラスタ化し、ネットワーク精度に相関したプロキシ統計を用いて最も有望なクラスタを選択することにより、NAS空間を縮小する。 NAS-Bench-201 (NB201) データセットと CIFAR-100 タスクを考慮すると、C-BRED は空間全体の 64% の平均精度ではなく、70% の平均精度のサブセットを選択する。

The computational demands of neural architecture search (NAS) algorithms are usually directly proportional to the size of their target search spaces. Thus, limiting the search to high-quality subsets can greatly reduce the computational load of NAS algorithms. In this paper, we present Clustering-Based REDuction (C-BRED), a new technique to reduce the size of NAS search spaces. C-BRED reduces a NAS space by clustering the computational graphs associated with its architectures and selecting the most promising cluster using proxy statistics correlated with network accuracy. When considering the NAS-Bench-201 (NB201) data set and the CIFAR-100 task, C-BRED selects a subset with 70% average accuracy instead of the whole space's 64% average accuracy.
翻訳日:2022-05-02 21:28:34 公開日:2022-04-29
# (参考訳) トランスフォーマー言語モデルにおける展開否定処理

Developmental Negation Processing in Transformer Language Models ( http://arxiv.org/abs/2204.14114v1 )

ライセンス: CC BY 4.0
Antonio Laverghetta Jr., John Licato(参考訳) 否定を用いた推論はトランスフォーマーベースの言語モデルでは難しいことが知られている。 これまでの研究では、精神言語学のツールを使用して、トランスフォーマーの否定を推論する能力を調べるが、発達心理学で研究されている否定の種類に焦点をあてる者はいない。 我々は、自然言語推論(NLI)タスクとして問題をフレーミングすることで、トランスフォーマーがこのような否定のカテゴリをいかにうまく処理できるかを考察する。 我々は、人気のあるNLIデータセットから対象カテゴリの診断質問のセットをキュレートし、モデルの集合がどれだけうまく原因であるかを評価する。 モデルは特定のカテゴリでのみ一貫してパフォーマンスが向上し、処理方法の明確な違いが示唆される。

Reasoning using negation is known to be difficult for transformer-based language models. While previous studies have used the tools of psycholinguistics to probe a transformer's ability to reason over negation, none have focused on the types of negation studied in developmental psychology. We explore how well transformers can process such categories of negation, by framing the problem as a natural language inference (NLI) task. We curate a set of diagnostic questions for our target categories from popular NLI datasets and evaluate how well a suite of models reason over them. We find that models perform consistently better only on certain categories, suggesting clear distinctions in how they are processed.
翻訳日:2022-05-02 21:23:09 公開日:2022-04-29
# (参考訳) マージン分布の最適化について

On the Optimization of Margin Distribution ( http://arxiv.org/abs/2204.14118v1 )

ライセンス: CC BY 4.0
Meng-Zhang Qian and Zheng Ai and Teng Zhang and Wei Gao(参考訳) マージンは過去数年間、学習アルゴリズムの設計と分析において重要な役割を果たしており、主に最小マージンの最大化に取り組んでいる。 近年, 中辺, 平均辺縁, 辺縁分散など, 異なる統計値に基づいて, マージン分布の最適化に関する実証的研究が増加しているのに対して, 理論的理解の比較的容易性がある。 本研究では, 平均マージンや半分散といった材料を組み込むことにより, マージン分布に深く関係する新たな一般化誤差境界, マージン分布のキャラクタリゼーションのための新たなマージン統計を提供することにより, この方向への一歩を踏み出す。 理論的な結果から着想を得たMSVMAvは,経験的平均マージンと半分散の観点からマージン分布を最適化し,より良い性能を実現するための効率的な手法である。 提案したMSVMAvアプローチの優位性を示すため, 広範な実験を行った。

Margin has played an important role on the design and analysis of learning algorithms during the past years, mostly working with the maximization of the minimum margin. Recent years have witnessed the increasing empirical studies on the optimization of margin distribution according to different statistics such as medium margin, average margin, margin variance, etc., whereas there is a relative paucity of theoretical understanding. In this work, we take one step on this direction by providing a new generalization error bound, which is heavily relevant to margin distribution by incorporating ingredients such as average margin and semi-variance, a new margin statistics for the characterization of margin distribution. Inspired by the theoretical findings, we propose the MSVMAv, an efficient approach to achieve better performance by optimizing margin distribution in terms of its empirical average margin and semi-variance. We finally conduct extensive experiments to show the superiority of the proposed MSVMAv approach.
翻訳日:2022-05-02 21:13:54 公開日:2022-04-29
# (参考訳) 合成データを用いた構造化視覚コンテンツの自動解析に向けて

Towards Automatic Parsing of Structured Visual Content through the Use of Synthetic Data ( http://arxiv.org/abs/2204.14136v1 )

ライセンス: CC BY 4.0
Lukas Scholch, Jonas Steinhauser, Maximilian Beichter, Constantin Seibold, Kailun Yang, Merlin Kn\"able, Thorsten Schwarz, Alexander M\"adche, and Rainer Stiefelhagen(参考訳) グラフやフローチャートなどの構造化ビジュアルコンテンツ(SVC)は、著者によって様々な概念を説明するために使用される。 このような描写により、平均的な読者は内容をよりよく理解することができるが、SVCを含む画像は通常、機械で読めない。 これにより、自動的な知識集約が妨げられるだけでなく、視覚障害者のためのインフォームの認識も妨げられる。 本研究では,画像の形でのSVCと地上の真実を含む合成データセットを提案する。 svc画像からグラフ表現を自動的に抽出するアプリケーションによって、このデータセットの使用例を示す。 これは、共通の教師付き学習方法でモデルをトレーニングすることで実現される。 現在、SVCの詳細な分析のための大規模な公開データセットは存在しないため、各境界ボックスアノテーションと詳細なグラフ表現を備えた12,000の画像からなるSynthetic SVC(SSVC)データセットを提案する。 我々のデータセットは、時間を要する高密度データアノテーションをスキップしながら、SVCの解釈のための強力なモデルの開発を可能にする。 本稿では, 合成データと手動アノテーションデータの両方を用いたモデルの評価を行い, 提案した応用から, 合成データから実データへの変換可能性を示す。 ここでは、この概念の証明がある程度拡張可能であり、この課題の確固たるベースラインを定めていると評価する。 さらなる改善に向けたアプローチの限界について論じる。 私たちの利用したメトリクスは、このドメインにおける将来の比較のためのツールとして使用できます。 このタスクに関するさらなる研究を可能にするため、データセットはhttps://bit.ly/3jN1pJJで公開されている。

Structured Visual Content (SVC) such as graphs, flow charts, or the like are used by authors to illustrate various concepts. While such depictions allow the average reader to better understand the contents, images containing SVCs are typically not machine-readable. This, in turn, not only hinders automated knowledge aggregation, but also the perception of displayed in-formation for visually impaired people. In this work, we propose a synthetic dataset, containing SVCs in the form of images as well as ground truths. We show the usage of this dataset by an application that automatically extracts a graph representation from an SVC image. This is done by training a model via common supervised learning methods. As there currently exist no large-scale public datasets for the detailed analysis of SVC, we propose the Synthetic SVC (SSVC) dataset comprising 12,000 images with respective bounding box annotations and detailed graph representations. Our dataset enables the development of strong models for the interpretation of SVCs while skipping the time-consuming dense data annotation. We evaluate our model on both synthetic and manually annotated data and show the transferability of synthetic to real via various metrics, given the presented application. Here, we evaluate that this proof of concept is possible to some extend and lay down a solid baseline for this task. We discuss the limitations of our approach for further improvements. Our utilized metrics can be used as a tool for future comparisons in this domain. To enable further research on this task, the dataset is publicly available at https://bit.ly/3jN1pJJ
翻訳日:2022-05-02 20:39:05 公開日:2022-04-29
# (参考訳) 不均一細胞集団における個々の軌道からの異方性相互作用規則の学習

Learning Anisotropic Interaction Rules from Individual Trajectories in a Heterogeneous Cellular Population ( http://arxiv.org/abs/2204.14141v1 )

ライセンス: CC BY 4.0
Daniel A. Messenger (1) and Graycen E. Wheeler (2) and Xuedong Liu (2) and David M. Bortz (1) ((1) Department of Applied Mathematics, University of Colorado, Boulder, CO 80309-0526, (2) Department of Biochemistry, University of Colorado, Boulder, CO 80309-0596)(参考訳) 相互作用粒子系(IPS)モデルは、生物の空間移動を記述することに成功している。 しかし、データから直接相互作用規則を推測することは困難であることが証明されている。 方程式発見の分野では、非線形ダイナミクスのスパース同定法(WSINDy)は、大きなノイズがある場合でも複雑なシステムの支配方程式を特定するのに非常に計算的に効率的であることが示されている。 生物の空間移動を記述するためのIPSモデルの成功により,細胞群集の運動をモデル化する第2次IPSのためのWSINDyを開発した。 具体的には、移動細胞の異種集団の動態を規定する方向的相互作用規則を学習する。 細胞軌道データを一つの最適モデルに集約するのではなく、各セルのモデルを学ぶ。 これらのモデルは、モデルに存在する相互作用のアクティブクラスに従って効率的に分類することができる。 これらの分類から、凝集モデルは階層的に構成され、集団に存在する異なる種類の細胞を同時に同定し、各種に最適なモデルを決定する。 本研究は, 細胞移動実験に動機づけられた複数の実験シナリオにおいて, 方法の効率性と熟練性を示す。

Interacting particle system (IPS) models have proven to be highly successful for describing the spatial movement of organisms. However, it has proven challenging to infer the interaction rules directly from data. In the field of equation discovery, the Weak form Sparse Identification of Nonlinear Dynamics (WSINDy) methodology has been shown to be very computationally efficient for identifying the governing equations of complex systems, even in the presence of substantial noise. Motivated by the success of IPS models to describe the spatial movement of organisms, we develop WSINDy for second order IPSs to model the movement of communities of cells. Specifically, our approach learns the directional interaction rules that govern the dynamics of a heterogeneous population of migrating cells. Rather than aggregating cellular trajectory data into a single best-fit model, we learn the models for each individual cell. These models can then be efficiently classified according to the active classes of interactions present in the model. From these classifications, aggregated models are constructed hierarchically to simultaneously identify different species of cells present in the population and determine best-fit models for each species. We demonstrate the efficiency and proficiency of the method on several test scenarios, motivated by common cell migration experiments.
翻訳日:2022-05-02 20:27:40 公開日:2022-04-29
# (参考訳) DL-Liteオントロジーに基づくELIクエリのフロンティアとエクササイズ学習

Frontiers and Exact Learning of ELI Queries under DL-Lite Ontologies ( http://arxiv.org/abs/2204.14172v1 )

ライセンス: CC BY 4.0
Maurice Funk, Jean Christoph Jung and Carsten Lutz(参考訳) 記述論理dl-liteで定式化されたオントロジーの存在下でeliクエリ(eliqs)について検討する。 方言 DL-LiteH に対して、ELIQ は多項式サイズで多項式時間で計算できるフロンティア(少なくとも一般化の集合)を持つことを示す。 DL-LiteF の方言では、フロンティアは無限である。 dl-litehと同じ正の結果が得られる自然構文制約を同定する。 我々は,アングリンの完全学習フレームワークにおけるdl-liteh/制限dl-litefオントロジーの存在下でeliqsが多項式時間で学習可能であることを示した。

We study ELI queries (ELIQs) in the presence of ontologies formulated in the description logic DL-Lite. For the dialect DL-LiteH, we show that ELIQs have a frontier (set of least general generalizations) that is of polynomial size and can be computed in polynomial time. In the dialect DL-LiteF, in contrast, frontiers may be infinite. We identify a natural syntactic restriction that enables the same positive results as for DL-LiteH. We use out results on frontiers to show that ELIQs are learnable in polynomial time in the presence of a DL-LiteH / restricted DL-LiteF ontology in Angluin's framework of exact learning with only membership queries.
翻訳日:2022-05-02 20:06:16 公開日:2022-04-29
# (参考訳) 学習と最適化による説明可能なAI

Explainable AI via Learning to Optimize ( http://arxiv.org/abs/2204.14174v1 )

ライセンス: CC BY 4.0
Howard Heaton and Samy Wu Fung(参考訳) 機械学習(ML)では非解読可能なブラックボックスが一般的であるが、アプリケーションは説明可能な人工知能(XAI)を必要としている。 XAIの中核は、透明で解釈可能なデータ駆動アルゴリズムを確立することである。 この作業は、事前の知識を符号化し、信頼できない推論をフラグ付けしなければならない状況において、XAIのための具体的なツールを提供する。 各推論がデータ駆動最適化問題を解決する"learn to optimize"(l2o)方法論を使用する。 私たちのl2oモデルは実装が簡単で、事前知識を直接エンコードし、理論的保証(例えば制約の満足度)を与えます。 また,モデル推論が信頼できるかどうかを検証するために,解釈可能な証明書の利用を提案する。 数値的な例は、辞書ベースの信号回復、CTイメージング、および暗号通貨の仲裁取引の適用例である。

Indecipherable black boxes are common in machine learning (ML), but applications increasingly require explainable artificial intelligence (XAI). The core of XAI is to establish transparent and interpretable data-driven algorithms. This work provides concrete tools for XAI in situations where prior knowledge must be encoded and untrustworthy inferences flagged. We use the "learn to optimize" (L2O) methodology wherein each inference solves a data-driven optimization problem. Our L2O models are straightforward to implement, directly encode prior knowledge, and yield theoretical guarantees (e.g. satisfaction of constraints). We also propose use of interpretable certificates to verify whether model inferences are trustworthy. Numerical examples are provided in the applications of dictionary-based signal recovery, CT imaging, and arbitrage trading of cryptoassets.
翻訳日:2022-05-02 19:02:21 公開日:2022-04-29
# (参考訳) 内視鏡映像における腎臓結石の分節化

Segmentation of kidney stones in endoscopic video feeds ( http://arxiv.org/abs/2204.14175v1 )

ライセンス: CC BY 4.0
Zachary A Stoebner, Daiwei Lu, Seok Hee Hong, Nicholas L Kavoussi, Ipek Oguz(参考訳) 画像のセグメンテーションは、近年の深層学習の潜在的な応用が急増するにつれて、医療分野でますます応用されている。 特に尿学は、内視鏡的石の処理を自動化することを目的として、リアルタイム画像セグメンテーションシステムを採用するための医学の一分野である。 本研究では,手術用内視鏡映像フィードに腎臓結石を注記するための教師付き深層学習モデルについて検討した。 本稿では,生のビデオからデータセットを構築した方法と,プロセスを可能な限り自動化するためのパイプラインを開発した方法について述べる。 セグメンテーションタスクでは,U-Net,U-Net++,DenseNetの3つのベースラインディープラーニングモデルを適用し,90%以上の精度で内視鏡ビデオのフレーム上のアノテーションを予測した。 また, リアルタイム使用の可能性を示すため, 最適なトレーニングモデルにより, 毎秒30フレームの動画を正確にアノテートできることを確認した。 提案手法は尿管鏡下ビデオフィードへの画像セグメンテーションの継続的な展開と研究を正当化する。

Image segmentation has been increasingly applied in medical settings as recent developments have skyrocketed the potential applications of deep learning. Urology, specifically, is one field of medicine that is primed for the adoption of a real-time image segmentation system with the long-term aim of automating endoscopic stone treatment. In this project, we explored supervised deep learning models to annotate kidney stones in surgical endoscopic video feeds. In this paper, we describe how we built a dataset from the raw videos and how we developed a pipeline to automate as much of the process as possible. For the segmentation task, we adapted and analyzed three baseline deep learning models -- U-Net, U-Net++, and DenseNet -- to predict annotations on the frames of the endoscopic videos with the highest accuracy above 90\%. To show clinical potential for real-time use, we also confirmed that our best trained model can accurately annotate new videos at 30 frames per second. Our results demonstrate that the proposed method justifies continued development and study of image segmentation to annotate ureteroscopic video feeds.
翻訳日:2022-05-02 18:42:38 公開日:2022-04-29
# (参考訳) 産学連携と知識共同創造:パターンとアンチパターン

Industry-academia research collaboration and knowledge co-creation: Patterns and anti-patterns ( http://arxiv.org/abs/2204.14180v1 )

ライセンス: CC BY-SA 4.0
Dusica Marijan and Sagar Sen(参考訳) ソフトウェア産業や社会全体におけるソフトウェアエンジニアリング研究の影響の増大は、ソフトウェアエンジニアリングコミュニティにとって、長い間、高い優先度の懸念であった。 2つの文化の問題、真空(現実世界から切り離された)での研究、あるいは不整合の時間的地平線は、業界と学界のコラボレーションの成功の道に立つ多くの複雑な課題の1つにすぎない。 本稿では,研究と実践のコラボレーションのギャップを埋める方法として,ソフトウェア工学における産学連携と知識共生の経験について報告する。 私たちの経験は、ソフトウェア工学の研究者とヨーロッパとノルウェーのソフトウェアとit産業の14年間にわたるコラボレーションです。 参加者の観察と面接の手法を用いて,定性的データの広範な記録を収集,分析した。 得られた知見と得られた経験を踏まえて,14のパターンと14のアンチパターンを産学連携に提供し,ソフトウェア工学における研究コラボレーションプロジェクトの確立と運用を支援する。

Increasing the impact of software engineering research in the software industry and the society at large has long been a concern of high priority for the software engineering community. The problem of two cultures, research conducted in a vacuum (disconnected from the real world), or misaligned time horizons are just some of the many complex challenges standing in the way of successful industry-academia collaborations. This paper reports on the experience of research collaboration and knowledge co-creation between industry and academia in software engineering as a way to bridge the research-practice collaboration gap. Our experience spans 14 years of collaboration between researchers in software engineering and the European and Norwegian software and IT industry. Using the participant observation and interview methods we have collected and afterwards analyzed an extensive record of qualitative data. Drawing upon the findings made and the experience gained, we provide a set of 14 patterns and 14 anti-patterns for industry-academia collaborations, aimed to support other researchers and practitioners in establishing and running research collaboration projects in software engineering.
翻訳日:2022-05-02 18:32:17 公開日:2022-04-29
# (参考訳) TemporalWiki: 進化し続ける言語モデルのトレーニングと評価のための生涯ベンチマーク

TemporalWiki: A Lifelong Benchmark for Training and Evaluating Ever-Evolving Language Models ( http://arxiv.org/abs/2204.14211v1 )

ライセンス: CC BY 4.0
Joel Jang, Seonghyeon Ye, Changho Lee, Sohee Yang, Joongbo Shin, Janghoon Han, Gyeonghun Kim, Minjoon Seo(参考訳) 言語モデル(lms)は、世界が変化するにつれて時代遅れになり、訓練中に欠如または異なっていた最近の事実情報を必要とするタスクの実行に失敗する。 研究コミュニティには、ウィキペディアのような頻繁に更新された知識コーパスに対するLMの適応性を評価するための一貫性のあるデータセットがないため、これは特に難しい問題である。 そこで本研究では,英語ウィキペディアの連続スナップショットと英語ウィキデータとの差を利用した,生涯にわたるLMのベンチマークであるTemporalWikiを紹介した。 このベンチマークにより、研究者はLMの以前の知識を定期的に追跡し、各時点の更新/更新知識を取得することができる。 また、連続学習手法による差分データ上でのLMのトレーニングは、ベンチマークのスナップショット全体の12倍の計算コストで同様の、あるいはより複雑な処理を実現し、連続学習による最小限のトレーニングデータでLMの事実知識を安全に更新できることを確認する。 データセットとコードはhttps://github.com/joeljang/temporalwikiで入手できる。

Language Models (LMs) become outdated as the world changes; they often fail to perform tasks requiring recent factual information which was absent or different during training, a phenomenon called temporal misalignment. This is especially a challenging problem because the research community still lacks a coherent dataset for assessing the adaptability of LMs to frequently-updated knowledge corpus such as Wikipedia. To this end, we introduce TemporalWiki, a lifelong benchmark for ever-evolving LMs that utilizes the difference between consecutive snapshots of English Wikipedia and English Wikidata for training and evaluation, respectively. The benchmark hence allows researchers to periodically track an LM's ability to retain previous knowledge and acquire updated/new knowledge at each point in time. We also find that training an LM on the diff data through continual learning methods achieves similar or better perplexity than on the entire snapshot in our benchmark with 12 times less computational cost, which verifies that factual knowledge in LMs can be safely updated with minimal training data via continual learning. The dataset and the code are available at https://github.com/joeljang/temporalwiki .
翻訳日:2022-05-02 18:31:14 公開日:2022-04-29
# (参考訳) 量子ダイヤモンド顕微鏡磁界画像における教師なしディープラーニングによるハードウェアトロイの木馬検出

Hardware Trojan Detection Using Unsupervised Deep Learning on Quantum Diamond Microscope Magnetic Field Images ( http://arxiv.org/abs/2204.14228v1 )

ライセンス: CC BY 4.0
Maitreyi Ashok, Matthew J. Turner, Ronald L. Walsworth, Edlyn V. Levine, Anantha P. Chandrakasan(参考訳) 本稿では,集積回路におけるハードウェアトロイジャン検出手法を提案する。 教師なし深層学習は、量子ダイヤモンド顕微鏡(QDM)を用いて撮影した高分解能磁場画像(4x4 mm$^2$)を分類するために用いられる。 QDM磁気イメージングは、量子制御技術と改良されたダイヤモンド材料を用いて強化され、磁場感度を4倍、測定速度を16倍に向上させる。 これらのアップグレードは、ハードウェアトロイの木馬検出のためのQDM磁界測定の最初のデモンストレーションを促進する。 教師なし畳み込みニューラルネットワークとクラスタリングは、人間のバイアスなしに600x600ピクセルの磁場画像のラベルのないデータセットからトロイの木馬の存在を推測するために用いられる。 この解析は、trojan free と trojan insert logic で構成されたフィールドプログラマブルゲート配列を区別するための主成分分析よりも正確であることが示されている。 このフレームワークは、私たちが開発し、QDMで測定したスケーラブルなトロイの木馬のセットでテストされます。 スケーラブルとトラストHubトロイの木馬は、全論理の0.5%の最小トロイの木馬トリガーサイズまで検出できる。 トロイの木馬検出フレームワークは,検出精度を評価するためにのみチップの識別知識が使用されるため,ゴールデンチップのフリー検出に使用できる。

This paper presents a method for hardware trojan detection in integrated circuits. Unsupervised deep learning is used to classify wide field-of-view (4x4 mm$^2$), high spatial resolution magnetic field images taken using a Quantum Diamond Microscope (QDM). QDM magnetic imaging is enhanced using quantum control techniques and improved diamond material to increase magnetic field sensitivity by a factor of 4 and measurement speed by a factor of 16 over previous demonstrations. These upgrades facilitate the first demonstration of QDM magnetic field measurement for hardware trojan detection. Unsupervised convolutional neural networks and clustering are used to infer trojan presence from unlabeled data sets of 600x600 pixel magnetic field images without human bias. This analysis is shown to be more accurate than principal component analysis for distinguishing between field programmable gate arrays configured with trojan free and trojan inserted logic. This framework is tested on a set of scalable trojans that we developed and measured with the QDM. Scalable and TrustHub trojans are detectable down to a minimum trojan trigger size of 0.5% of the total logic. The trojan detection framework can be used for golden-chip free detection, since knowledge of the chips' identities is only used to evaluate detection accuracy
翻訳日:2022-05-02 18:13:04 公開日:2022-04-29
# (参考訳) 高次元計算コスト問題に対するlipschitz-based surrogate model

Lipschitz-based Surrogate Model for High-dimensional Computationally Expensive Problems ( http://arxiv.org/abs/2204.14236v1 )

ライセンス: CC BY 4.0
Jakub Kudela and Radomil Matousek(参考訳) 標準進化最適化アルゴリズムは、目的関数と制約関数の評価が単純で計算量的に安価であると仮定している。 しかし、現実の多くの最適化問題において、目的関数や制約の計算には計算に高価な数値シミュレーションや物理実験が含まれる。 サーロゲート支援進化アルゴリズム(SAEA)は,これらの計算コストの高い最適化問題を解くための探索能力のため,近年注目を集めている。 SAEAの主な考え方は、進化的アルゴリズムと選択された代理モデルの統合である。 本稿では,コスト対計算目的関数のリプシッツ過大評価に基づく新しいサロゲートモデルを提案する。 また,リプシッツに基づくサーロゲートモデルと標準ラジアル基底関数サーロゲートモデルと局所探索手順を併用した微分進化に基づくアルゴリズムを開発した。 このアルゴリズムはLipschitz Surrogate-assisted Differential Evolution (LSADE)と呼ばれ、高次元の計算コスト問題のために設計されている。 30, 50, 100, 200の7つのベンチマーク関数に対する実験結果から, 高次元の非常に複雑なベンチマーク関数に対して, リプシッツに基づくサロゲートモデルを用いた提案手法は, 計算予算が制限された最先端のアルゴリズムと比較して競合することが示された。

Standard evolutionary optimization algorithms assume that the evaluation of the objective and constraint functions is straightforward and computationally cheap. However, in many real-world optimization problems, the computations of the objective function or constraints involve computationally expensive numerical simulations or physical experiments. Surrogate-assisted evolutionary algorithms (SAEAs) have recently gained increased attention because of their search capabilities for solving these computationally expensive optimization problems. The main idea of SAEAs is the integration of an evolutionary algorithm with a selected surrogate model. In this paper, we propose a novel surrogate model based on a Lipschitz underestimation of the expensive-to-compute objective function. We also develop a differential evolution-based algorithm, that utilizes the Lipschitz-based surrogate model, along with a standard radial basis function surrogate model and a local search procedure. This algorithm, called Lipschitz Surrogate-assisted Differential Evolution (LSADE), is designed for high-dimensional computationally expensive problems. The experimental results on seven benchmark functions of dimensions 30, 50, 100, and 200 show that the proposed method utilizing the Lipschitz-based surrogate model is competitive compared with the state-of-the-art algorithms under a limited computational budget, being especially effective for the very complicated benchmark functions in high dimensions.
翻訳日:2022-05-02 17:46:09 公開日:2022-04-29
# (参考訳) ごく少ないデータで自然化意味パーサをトレーニングする

Training Naturalized Semantic Parsers with Very Little Data ( http://arxiv.org/abs/2204.14243v1 )

ライセンス: CC BY 4.0
Subendhu Rongali, Konstantine Arkoudas, Melanie Rubino, Wael Hamza(参考訳) セマンティック解析は重要なNLP問題であり、特にAlexaやGoogle Assistantのような音声アシスタントでは問題となる。 state-of-the-art(sota)セマンティクスパーサは、大量のテキストで事前学習された大規模言語モデルに基づくseq2seqアーキテクチャである。 この事前学習をよりうまく活用するために、最近の研究は、出力シーケンス自体が自然言語文ではなく、自然言語の制御された断片である意味構文解析の再構成を探求している。 このアプローチは、特に、実践と私たちの論文の焦点において重要な意味的構文解析において、強い結果をもたらします。 私たちは、比較的少ない量の無記名データを利用することで、非常に大きな改善を提供する自動化手法を導入することで、この一連の作業を前進させます。 本手法は, 補助的教師なしタスクとの協調訓練, 制約付き復号化, 自己学習, パラフレージングの4つの手法を新たに合成した。 本手法は,特に低リソース環境において,Overnightデータセット上で新たなSOTA数ショット性能を実現するとともに,新しいセマンティック解析データセット上で非常に魅力的な数ショット結果を提供する。

Semantic parsing is an important NLP problem, particularly for voice assistants such as Alexa and Google Assistant. State-of-the-art (SOTA) semantic parsers are seq2seq architectures based on large language models that have been pretrained on vast amounts of text. To better leverage that pretraining, recent work has explored a reformulation of semantic parsing whereby the output sequences are themselves natural language sentences, but in a controlled fragment of natural language. This approach delivers strong results, particularly for few-shot semantic parsing, which is of key importance in practice and the focus of our paper. We push this line of work forward by introducing an automated methodology that delivers very significant additional improvements by utilizing modest amounts of unannotated data, which is typically easy to obtain. Our method is based on a novel synthesis of four techniques: joint training with auxiliary unsupervised tasks; constrained decoding; self-training; and paraphrasing. We show that this method delivers new SOTA few-shot performance on the Overnight dataset, particularly in very low-resource settings, and very compelling few-shot results on a new semantic parsing dataset.
翻訳日:2022-05-02 17:09:23 公開日:2022-04-29
# (参考訳) ヒューマン・イン・ザ・ループオンラインマルチエージェントによる信頼スコアとデータ拡張によるMLモデルの信頼性向上

Human-in-the-loop online multi-agent approach to increase trustworthiness in ML models through trust scores and data augmentation ( http://arxiv.org/abs/2204.14255v1 )

ライセンス: CC BY 4.0
Gusseppe Bravo-Rocca, Peini Liu, Jordi Guitart, Ajay Dholakia, David Ellison, Miroslav Hodak(参考訳) mlモデルの精度を向上させるだけでは不十分です。 これは、自動車、金融、ヘルスケアといった安全クリティカルなアプリケーションのためのレジリエントなAIシステムを構築するための重要なステップである。 そこで本研究では,機械と人間のエージェントを組み合わせるマルチエージェントシステムを提案する。 このシステムにおいて、チェッカーエージェントは、合意に基づく方法を用いて各インスタンスの信頼スコア(予測における過信と過信を罰する)を算出し、それをランク付けし、その後、改善エージェントがヒトルールベースの手順(安全と考えられる)に基づいて異常なインスタンスをフィルタリングし、ヒトラベルを取得し、幾何学的データ拡張を行い、転送学習を用いて拡張データで再トレーニングする。 我々は,MNISTおよびFashionMNISTデータセットの劣化バージョンに基づくシステムの評価を行った。 ベースラインアプローチと比較して、ラベルをわずかに追加するだけで精度と信頼スコアが向上します。

Increasing a ML model accuracy is not enough, we must also increase its trustworthiness. This is an important step for building resilient AI systems for safety-critical applications such as automotive, finance, and healthcare. For that purpose, we propose a multi-agent system that combines both machine and human agents. In this system, a checker agent calculates a trust score of each instance (which penalizes overconfidence and overcautiousness in predictions) using an agreement-based method and ranks it; then an improver agent filters the anomalous instances based on a human rule-based procedure (which is considered safe), gets the human labels, applies geometric data augmentation, and retrains with the augmented data using transfer learning. We evaluate the system on corrupted versions of the MNIST and FashionMNIST datasets. We get an improvement in accuracy and trust score with just few additional labels compared to a baseline approach.
翻訳日:2022-05-02 16:57:15 公開日:2022-04-29
# (参考訳) ALCオントロジーによるUCRPQの微細化

Finite Entailment of UCRPQs over ALC Ontologies ( http://arxiv.org/abs/2204.14261v1 )

ライセンス: CC BY 4.0
V{\i}ctor Guti\'errez-Basulto, Albert Gutowski, Yazm{\i}n Ib\'a\~nez-Garc{\i}a, Filip Murlak(参考訳) オントロジーを媒介とするクエリの有限エンターメントの問題について検討する。 表現型クエリ言語、結合型正則パスクエリ(ucrpqs)の結合について検討し、結合型クエリのよく知られたクラスを拡張し、ロールよりも正規表現を用いる。 記述論理 ALC を用いて定式化されたオントロジーを考察し,UCRPQ の包含のために2EXPTIME 上界を厳密に表現する。 この決定手順の核心には,入力ucrpqに基づく決定論的有限オートマトンによって引き起こされる解釈の階層化を導入する,新しいオートマトンベース手法がある。

We investigate the problem of finite entailment of ontology-mediated queries. We consider the expressive query language, unions of conjunctive regular path queries (UCRPQs), extending the well-known class of union of conjunctive queries, with regular expressions over roles. We look at ontologies formulated using the description logic ALC, and show a tight 2EXPTIME upper bound for entailment of UCRPQs. At the core of our decision procedure, there is a novel automata-based technique introducing a stratification of interpretations induced by the deterministic finite automaton underlying the input UCRPQ
翻訳日:2022-05-02 16:40:39 公開日:2022-04-29
# Struct-MDC: Visual SLAM による構造規則を応用したメッシュによる教師なし深さ補完

Struct-MDC: Mesh-Refined Unsupervised Depth Completion Leveraging Structural Regularities from Visual SLAM ( http://arxiv.org/abs/2204.13877v1 )

ライセンス: Link先を確認
Jinwoo Jeon, Hyunjun Lim, Dong-Uk Seo, and Hyun Myung(参考訳) 特徴ベースビジュアル同時局在マッピング(slam)法は抽出された特徴の深さのみを推定し、スパース深度マップを生成する。 この疎度問題を解決するため、スパース深度から密集深度を推定する深度完了タスクは、探索のようなロボット応用において重要な意味を持つようになった。 視覚SLAMのスパース深度を利用する既存の手法は主に点特徴を用いる。 しかし、点の特徴は、テクスチャのない環境や空間的問題による構造的規則性を維持するのに限界がある。 これらの問題に対処するために,線特徴を用いた視的SLAMによる深度補完を行い,点特徴よりも構造的規則性を考慮した。 提案手法は,線特徴を用いた深さ補間を伴う制約付きドローネー三角測量を行うことで凸包領域を作成する。 しかし、生成された深さは低周波情報を含み、凸境界では不連続である。 そこで本研究では,メッシュ深度改善(MDR)モジュールを提案する。 mdrモジュールは、入力画像の高周波詳細を補間深度に効果的に転送し、従来および深層学習に基づくアプローチの橋渡しにおいて重要な役割を果たす。 Struct-MDCは、公開およびカスタムデータセット上で、他の最先端のアルゴリズムよりも優れています。 さらに, 厳密なアブレーション実験により, MDRモジュールの有効性を検証した。

Feature-based visual simultaneous localization and mapping (SLAM) methods only estimate the depth of extracted features, generating a sparse depth map. To solve this sparsity problem, depth completion tasks that estimate a dense depth from a sparse depth have gained significant importance in robotic applications like exploration. Existing methodologies that use sparse depth from visual SLAM mainly employ point features. However, point features have limitations in preserving structural regularities owing to texture-less environments and sparsity problems. To deal with these issues, we perform depth completion with visual SLAM using line features, which can better contain structural regularities than point features. The proposed methodology creates a convex hull region by performing constrained Delaunay triangulation with depth interpolation using line features. However, the generated depth includes low-frequency information and is discontinuous at the convex hull boundary. Therefore, we propose a mesh depth refinement (MDR) module to address this problem. The MDR module effectively transfers the high-frequency details of an input image to the interpolated depth and plays a vital role in bridging the conventional and deep learning-based approaches. The Struct-MDC outperforms other state-of-the-art algorithms on public and our custom datasets, and even outperforms supervised methodologies for some metrics. In addition, the effectiveness of the proposed MDR module is verified by a rigorous ablation study.
翻訳日:2022-05-02 15:13:05 公開日:2022-04-29
# 見ずに見る:子どもの性的虐待データセットの分析パイプライン

Seeing without Looking: Analysis Pipeline for Child Sexual Abuse Datasets ( http://arxiv.org/abs/2204.14110v1 )

ライセンス: Link先を確認
Camila Laranjeira, Jo\~ao Macedo, Sandra Avila, Jefersson A. dos Santos(参考訳) 児童性虐待材料(CSAM)のオンライン共有と視聴は急速に増加しており、人間の専門家は手動検査をもはや扱えない。 しかし、CSAMの自動分類は研究の難しい分野であり、主に、個人的かつ法執行機関の単独所有であるべきターゲットデータにアクセスできないためである。 研究者が目に見えないデータから洞察を引き出すのを助け、CSAM画像のさらなる理解を安全に提供するために、データセットとラベルの統計を超えた分析テンプレートを提案する。 オブジェクトカテゴリやポルノ検出などの事前学習された機械学習モデルと、輝度やシャープネスなどの画像メトリクスの両方によって提供される、自動信号の抽出に焦点を当てている。 被害を受けた子どもや青年の匿名性を保証するため、スパース信号の集計統計のみを提供する。 このパイプラインでは、指定された各信号にしきい値を適用してデータをフィルタリングし、その信号のサブセット内分布、信号間の相関、バイアス評価を提供する。 ブラジル連邦警察と共同で作成したCSAM画像とCSAM画像の2000点以上のサンプルからなる文献における数少ないCSAMベンチマークの1つであるRCPD(Regional-based annotated Child Pornography Dataset)に関する提案を行った。 いくつかの意味でノイズや制限があるが、自動信号は、開示できないデータベースにとって価値のある、データの全体分布の重要な側面を浮き彫りにすることができる。 私たちの目標は、CSAMデータセットの特徴を安全に公開し、研究者がこの分野に参加するよう促すことです。

The online sharing and viewing of Child Sexual Abuse Material (CSAM) are growing fast, such that human experts can no longer handle the manual inspection. However, the automatic classification of CSAM is a challenging field of research, largely due to the inaccessibility of target data that is - and should forever be - private and in sole possession of law enforcement agencies. To aid researchers in drawing insights from unseen data and safely providing further understanding of CSAM images, we propose an analysis template that goes beyond the statistics of the dataset and respective labels. It focuses on the extraction of automatic signals, provided both by pre-trained machine learning models, e.g., object categories and pornography detection, as well as image metrics such as luminance and sharpness. Only aggregated statistics of sparse signals are provided to guarantee the anonymity of children and adolescents victimized. The pipeline allows filtering the data by applying thresholds to each specified signal and provides the distribution of such signals within the subset, correlations between signals, as well as a bias evaluation. We demonstrated our proposal on the Region-based annotated Child Pornography Dataset (RCPD), one of the few CSAM benchmarks in the literature, composed of over 2000 samples among regular and CSAM images, produced in partnership with Brazil's Federal Police. Although noisy and limited in several senses, we argue that automatic signals can highlight important aspects of the overall distribution of data, which is valuable for databases that can not be disclosed. Our goal is to safely publicize the characteristics of CSAM datasets, encouraging researchers to join the field and perhaps other institutions to provide similar reports on their benchmarks.
翻訳日:2022-05-02 15:12:40 公開日:2022-04-29
# マックスミン参加予算

Maxmin Participatory Budgeting ( http://arxiv.org/abs/2204.13923v1 )

ライセンス: Link先を確認
Gogulapati Sreedurga, Mayank Ratan Bhardwaj, Y. Narahari(参考訳) PB(Participatory Budgeting, Participatory Budgeting)は、プロジェクトに対する有権者の選好に基づいて、限られた予算を一連のプロジェクトに分けられる人気投票方法である。 PBは、分割可能なPB(プロジェクトが少数実装可能であれば)と分割可能なPB(プロジェクトがアトミックであれば)に分類される。 PBの重要な目的である平等主義は、未分化PBの文脈ではあまり注目されていない。 本稿では,このギャップを,不可分PB(Indivisionible PB)の文脈において,自然平等主義的法則(Maxmin Participatory Budgeting,MPB)の詳細な研究を通じて解決する。 本研究は,(1)計算(2)公理の2つの部分からなる。 第一部では, mpb が計算が困難であることを証明し, パラメータによってパラメータ化される場合, 擬似多項時間と多項式時間アルゴリズムを与える。 本稿では,MPBに対して,インスタンスの制限された空間に対する加法近似を保証するアルゴリズムを提案し,実世界のPBデータセットに対して,我々のアルゴリズムが正確な最適解を与えることを実証的に示す。 また,総括的戦略耐性PBアルゴリズムにより,MPBに対して達成可能な近似比の上限を確立した。 第2部では,文献上の既知の公理を一般化し,mpb規則の公理的研究を行う。 本研究は, 公平性を考慮した新しい公理, 最大カバレッジの提案につながる。 mpbが最大カバレッジを満たすことを証明します。

Participatory Budgeting (PB) is a popular voting method by which a limited budget is divided among a set of projects, based on the preferences of voters over the projects. PB is broadly categorised as divisible PB (if the projects are fractionally implementable) and indivisible PB (if the projects are atomic). Egalitarianism, an important objective in PB, has not received much attention in the context of indivisible PB. This paper addresses this gap through a detailed study of a natural egalitarian rule, Maxmin Participatory Budgeting (MPB), in the context of indivisible PB. Our study is in two parts: (1) computational (2) axiomatic. In the first part, we prove that MPB is computationally hard and give pseudo-polynomial time and polynomial-time algorithms when parameterized by certain well-motivated parameters. We propose an algorithm that achieves for MPB, additive approximation guarantees for restricted spaces of instances and empirically show that our algorithm in fact gives exact optimal solutions on real-world PB datasets. We also establish an upper bound on the approximation ratio achievable for MPB by the family of exhaustive strategy-proof PB algorithms. In the second part, we undertake an axiomatic study of the MPB rule by generalizing known axioms in the literature. Our study leads to the proposal of a new axiom, maximal coverage, which captures fairness aspects. We prove that MPB satisfies maximal coverage.
翻訳日:2022-05-02 15:11:51 公開日:2022-04-29
# 移動可能操作スキル発見のための教師なし強化学習

Unsupervised Reinforcement Learning for Transferable Manipulation Skill Discovery ( http://arxiv.org/abs/2204.13906v1 )

ライセンス: Link先を確認
Daesol Cho, Jigang Kim, H. Jin Kim(参考訳) ロボット工学における現在の強化学習(RL)は、本質的なタスク固有の訓練パラダイムのため、新しい下流タスクへの一般化が難しい場合が多い。 タスク固有の報酬にアクセスせずに、エージェントをタスクに依存しない方法で事前トレーニングするフレームワークであるunsupervised rlは、さまざまな経験を本質的なスキルや再利用可能な知識に蒸留するために、積極的な探索を利用する。 ロボット操作においてもそのような利点を生かして,対話行動や伝達可能なスキル学習に構造的探索を結びつける,伝達可能な操作スキル発見のための教師なし手法を提案する。 これによってエージェントは、ロボット操作学習の重要な側面であるインタラクションの振る舞いを学習できるだけでなく、学習されたタスク非依存のスキルで任意の下流操作タスクに一般化することができる。 比較実験により,本手法は多目的マルチタスク問題の拡張を含む下流タスクにおいて,最も多様な対話動作を実現し,サンプル効率を大幅に向上することを示す。

Current reinforcement learning (RL) in robotics often experiences difficulty in generalizing to new downstream tasks due to the innate task-specific training paradigm. To alleviate it, unsupervised RL, a framework that pre-trains the agent in a task-agnostic manner without access to the task-specific reward, leverages active exploration for distilling diverse experience into essential skills or reusable knowledge. For exploiting such benefits also in robotic manipulation, we propose an unsupervised method for transferable manipulation skill discovery that ties structured exploration toward interacting behavior and transferable skill learning. It not only enables the agent to learn interaction behavior, the key aspect of the robotic manipulation learning, without access to the environment reward, but also to generalize to arbitrary downstream manipulation tasks with the learned task-agnostic skills. Through comparative experiments, we show that our approach achieves the most diverse interacting behavior and significantly improves sample efficiency in downstream tasks including the extension to multi-object, multitask problems.
翻訳日:2022-05-02 15:09:12 公開日:2022-04-29
# プラグアンドプレイ用正規化器のグラディエント学習

Learned Gradient of a Regularizer for Plug-and-Play Gradient Descent ( http://arxiv.org/abs/2204.13940v1 )

ライセンス: Link先を確認
Rita Fermanian and Mikael Le Pendu and Christine Guillemot(参考訳) Plug-and-Play(PnP)フレームワークは、先進的な画像復号化を最適化アルゴリズムに統合し、様々な画像復元タスクを効率的に解決する。 乗算器のプラグ・アンド・プレイ交互方向法 (ADMM) とデノナイジング法 (RED) による正規化法 (Regularization by Denoising) は,画像復元において画期的な手法である。 しかし、前者の手法は近位アルゴリズムにしか適用されないが、近年では、ほとんどの実演者の場合のようにジャコビアン対称性が欠如しているときにREDアルゴリズムを説明する正規化が存在しないことが示されている。 我々の知る限りでは、正規化子の勾配を直接表現するネットワークを訓練する方法は存在せず、プラグ・アンド・プレイの勾配に基づくアルゴリズムで直接使用できる。 正規化器の勾配に対応するネットワークとともにデノイザを訓練することが可能であることを示す。 グラデーションに基づく最適化手法では,このレギュラライザの勾配を用い,他の一般的なプラグ・アンド・プレイ法と比較してより良い結果を得る。 また, 正規化器を未学習勾配降下のための事前学習ネットワークとして利用できることを示す。 最後に、結果のデノイザにより、プラグインとプレイのADMMを素早く収束させることができることを示す。

The Plug-and-Play (PnP) framework allows integrating advanced image denoising priors into optimization algorithms, to efficiently solve a variety of image restoration tasks. The Plug-and-Play alternating direction method of multipliers (ADMM) and the Regularization by Denoising (RED) algorithms are two examples of such methods that made a breakthrough in image restoration. However, while the former method only applies to proximal algorithms, it has recently been shown that there exists no regularization that explains the RED algorithm when the denoisers lack Jacobian symmetry, which happen to be the case of most practical denoisers. To the best of our knowledge, there exists no method for training a network that directly represents the gradient of a regularizer, which can be directly used in Plug-and-Play gradient-based algorithms. We show that it is possible to train a denoiser along with a network that corresponds to the gradient of its regularizer. We use this gradient of the regularizer in gradient-based optimization methods and obtain better results comparing to other generic Plug-and-Play approaches. We also show that the regularizer can be used as a pre-trained network for unrolled gradient descent. Lastly, we show that the resulting denoiser allows for a quick convergence of the Plug-and-Play ADMM.
翻訳日:2022-05-02 15:08:54 公開日:2022-04-29
# コスト効率のよいMLaaSフェデレーション:A Combinatorial Reinforcement Learning Approach

Cost Effective MLaaS Federation: A Combinatorial Reinforcement Learning Approach ( http://arxiv.org/abs/2204.13971v1 )

ライセンス: Link先を確認
Shuzhao Xie, Yuan Xue, Yifei Zhu, and Zhi Wang(参考訳) ディープラーニング技術の進歩により、主要なクラウドプロバイダとニッチな機械学習サービスプロバイダは、機械学習・アズ・ア・サービス(mlaas)として知られるクラウドベースの機械学習ツールを一般に提供し始める。 私たちの測定によると、同じタスクに対して、異なるプロバイダのMLaaSは、プロプライエタリなデータセットやモデルなどによって、さまざまなパフォーマンスを持っています。 異なるMLaaSをまとめることで、分析性能をさらに改善できます。 しかしながら、異なるmlaaseからの結果をナイーブに集約することは、重要な瞬間的コストをもたらすだけでなく、偽陽性の可能性があるため、最適以下のパフォーマンス向上につながる可能性がある。 本稿では,mlaasプロバイダの適切な選択をフェデレートし,最適な分析性能を達成するためのフレームワークであるarmolを提案する。 まず、異なるプロバイダ間で出力ラベルを統一するワードグループ化アルゴリズムを設計する。 次に,コストを最小化しながら精度を最大化するために,深層組合せ強化学習に基づくアプローチを提案する。 選択したプロバイダからの予測は、慎重に選択されたアンサンブル戦略を使用して集約される。 実世界のトレース駆動評価は、Armolが6,7\%$の推論コストで同じ精度を達成できることをさらに示している。

With the advancement of deep learning techniques, major cloud providers and niche machine learning service providers start to offer their cloud-based machine learning tools, also known as machine learning as a service (MLaaS), to the public. According to our measurement, for the same task, these MLaaSes from different providers have varying performance due to the proprietary datasets, models, etc. Federating different MLaaSes together allows us to improve the analytic performance further. However, naively aggregating results from different MLaaSes not only incurs significant momentary cost but also may lead to sub-optimal performance gain due to the introduction of possible false-positive results. In this paper, we propose Armol, a framework to federate the right selection of MLaaS providers to achieve the best possible analytic performance. We first design a word grouping algorithm to unify the output labels across different providers. We then present a deep combinatorial reinforcement learning based-approach to maximize the accuracy while minimizing the cost. The predictions from the selected providers are then aggregated together using carefully chosen ensemble strategies. The real-world trace-driven evaluation further demonstrates that Armol is able to achieve the same accuracy results with $67\%$ less inference cost.
翻訳日:2022-05-02 15:08:30 公開日:2022-04-29
# 有毒データを持つクライアントを除外する連合学習における探索と活用

Exploration and Exploitation in Federated Learning to Exclude Clients with Poisoned Data ( http://arxiv.org/abs/2204.14020v1 )

ライセンス: Link先を確認
Shadha Tabatabai, Ihab Mohammed, Basheer Qolomany, Abdullatif Albasser, Kashif Ahmad, Mohamed Abdallah, Ala Al-Fuqaha(参考訳) フェデレートラーニング(FL)はホットな研究トピックのひとつで、クライアントのプライベートデータに直接アクセスすることなく、機械学習(ML)を分散的に利用する。 しかし、FLは、高い正確性、クライアントとサーバ間の通信コストの高さ、敵MLに関連するセキュリティ攻撃など、多くの課題に直面している。 この3つの課題に取り組むために,進化的手法に着想を得たflアルゴリズムを提案する。 提案アルゴリズムは多くのクラスタでランダムにクライアントをグループ化し、それぞれがランダムに選択され、異なるモデルの性能を探索する。 クラスタは反復的なプロセスでトレーニングされ、最もパフォーマンスの悪いクラスタは1つのクラスタが残るまで各イテレーションで削除される。 各イテレーションで、一部のクライアントは有毒データを使用するか低いパフォーマンスのためにクラスタから除外される。 生き残ったクライアントは次のイテレーションで利用されます。 生き残ったクライアントを持つ残りのクラスタは、最高のFLモデル(つまり残りのFLモデル)のトレーニングに使用される。 FLモデルの最終訓練で使用されるクライアントが少ないため、通信コストが削減される。 提案アルゴリズムの性能を評価するために,femnistデータセットを用いた実験を多数実施し,その結果をランダムflアルゴリズムと比較した。 実験の結果,提案アルゴリズムは,精度,通信コスト,セキュリティの観点から,ベースラインアルゴリズムよりも優れていた。

Federated Learning (FL) is one of the hot research topics, and it utilizes Machine Learning (ML) in a distributed manner without directly accessing private data on clients. However, FL faces many challenges, including the difficulty to obtain high accuracy, high communication cost between clients and the server, and security attacks related to adversarial ML. To tackle these three challenges, we propose an FL algorithm inspired by evolutionary techniques. The proposed algorithm groups clients randomly in many clusters, each with a model selected randomly to explore the performance of different models. The clusters are then trained in a repetitive process where the worst performing cluster is removed in each iteration until one cluster remains. In each iteration, some clients are expelled from clusters either due to using poisoned data or low performance. The surviving clients are exploited in the next iteration. The remaining cluster with surviving clients is then used for training the best FL model (i.e., remaining FL model). Communication cost is reduced since fewer clients are used in the final training of the FL model. To evaluate the performance of the proposed algorithm, we conduct a number of experiments using FEMNIST dataset and compare the result against the random FL algorithm. The experimental results show that the proposed algorithm outperforms the baseline algorithm in terms of accuracy, communication cost, and security.
翻訳日:2022-05-02 15:08:10 公開日:2022-04-29
# データ+シフト:データサイエンティストによるデータ分散シフトの視覚的調査を支援する

Data+Shift: Supporting visual investigation of data distribution shifts by data scientists ( http://arxiv.org/abs/2204.14025v1 )

ライセンス: Link先を確認
Jo\~ao Palmeiro, Beatriz Malveiro, Rita Costa, David Polido, Ricardo Moreira, Pedro Bizarro(参考訳) データストリーム上の機械学習は、複数のドメインにますます存在する。 しかし、しばしばデータ分散シフトがあり、機械学習モデルが誤った判断を下す可能性がある。 ドリフトの発生を自動で検出する方法はあるが、人間の分析は、しばしばデータ科学者によって、問題の原因を診断し、システムを調整するために不可欠である。 我々は,不正検出の文脈におけるデータ特徴の変化の根本的な要因を調査する作業において,データサイエンティストを支援する視覚分析ツールであるData+Shiftを提案する。 設計要件はデータサイエンティストとのインタビューから導き出された。 Data+ShiftはJupyterLabに統合されており、他のデータサイエンスツールと併用することができる。 我々は、データサイエンティストが不正検出のユースケースにこのツールを使用したシンクオード実験で、我々のアプローチを検証した。

Machine learning on data streams is increasingly more present in multiple domains. However, there is often data distribution shift that can lead machine learning models to make incorrect decisions. While there are automatic methods to detect when drift is happening, human analysis, often by data scientists, is essential to diagnose the causes of the problem and adjust the system. We propose Data+Shift, a visual analytics tool to support data scientists in the task of investigating the underlying factors of shift in data features in the context of fraud detection. Design requirements were derived from interviews with data scientists. Data+Shift is integrated with JupyterLab and can be used alongside other data science tools. We validated our approach with a think-aloud experiment where a data scientist used the tool for a fraud detection use case.
翻訳日:2022-05-02 15:06:13 公開日:2022-04-29
# 深層学習に基づくUGCビデオの非参照品質評価モデル

A Deep Learning based No-reference Quality Assessment Model for UGC Videos ( http://arxiv.org/abs/2204.14047v1 )

ライセンス: Link先を確認
Wei Sun, Xiongkuo Min, Wei Lu, Guangtao Zhai(参考訳) ユーザ生成コンテンツ(UGC)ビデオの品質評価は、エンドユーザの視聴体験を確保する上で重要な役割を果たす。 以前のUGCビデオ品質評価(VQA)研究では、画像認識モデルまたは画像品質評価(IQA)モデルを使用して、品質回帰のためのUGCビデオのフレームレベルの特徴を抽出した。 本稿では,映像フレームの生画素から高品質な空間特徴表現を直接学習するために,エンドツーエンドの空間特徴抽出ネットワークを訓練することにより,この問題に対処する,非常にシンプルで効果的なUGC VQAモデルを提案する。 また,空間的特徴がモデル化できない時間的歪みを測定するために,運動特徴を抽出する。 提案モデルでは,空間的特徴と密集したフレーム(ビデオチャンク)を,非常に低い空間分解能で抽出し,動作特徴を抽出し,計算複雑性を低減した。 より優れた品質認識機能では、単純な多層認識層(MLP)ネットワークのみを用いてチャンクレベルの品質スコアに回帰し、時間平均プーリング戦略を採用してビデオレベルの品質スコアを得る。 さらに,空間分解能の異なるVQAの問題を解決するために,人間の視覚システムのコントラスト感度関数から,マルチスケールの重みを求めるマルチスケールな品質融合戦略を導入する。 実験の結果,提案モデルは5つのUGC VQAデータベース上で最高の性能を示し,提案モデルの有効性を示した。 コードは公開される予定だ。

Quality assessment for User Generated Content (UGC) videos plays an important role in ensuring the viewing experience of end-users. Previous UGC video quality assessment (VQA) studies either use the image recognition model or the image quality assessment (IQA) models to extract frame-level features of UGC videos for quality regression, which are regarded as the sub-optimal solutions because of the domain shifts between these tasks and the UGC VQA task. In this paper, we propose a very simple but effective UGC VQA model, which tries to address this problem by training an end-to-end spatial feature extraction network to directly learn the quality-aware spatial feature representation from raw pixels of the video frames. We also extract the motion features to measure the temporal-related distortions that the spatial features cannot model. The proposed model utilizes very sparse frames to extract spatial features and dense frames (i.e. the video chunk) with a very low spatial resolution to extract motion features, which thereby has low computational complexity. With the better quality-aware features, we only use the simple multilayer perception layer (MLP) network to regress them into the chunk-level quality scores, and then the temporal average pooling strategy is adopted to obtain the video-level quality score. We further introduce a multi-scale quality fusion strategy to solve the problem of VQA across different spatial resolutions, where the multi-scale weights are obtained from the contrast sensitivity function of the human visual system. The experimental results show that the proposed model achieves the best performance on five popular UGC VQA databases, which demonstrates the effectiveness of the proposed model. The code will be publicly available.
翻訳日:2022-05-02 15:06:01 公開日:2022-04-29
# マスカーとゲインの同時選択による音環境の自律的拡張

Autonomous In-Situ Soundscape Augmentation via Joint Selection of Masker and Gain ( http://arxiv.org/abs/2204.13883v1 )

ライセンス: Link先を確認
Karn N. Watcharasupat, Kenneth Ooi, Bhan Lam, Trevor Wong, Zhen-Ting Ong, and Woon-Seng Gan(参考訳) 音環境拡張システムにおけるマスカの選択と再生利得レベルは,その環境全体の音響的快適性を向上させる上で重要である。 伝統的に、適切なマスキングとゲインレベルの選択は、対象人口を代表しない専門家の意見や、時間のかかる労働集約的なリスニングテストによって知らされてきた。 さらに、マスカとゲインの静的な選択は、実世界のサウンドスケープの動的な性質に柔軟性がないことが多い。 本研究では,学習モデルを用いて,与えられた音環境に対して最適なマスカと利得レベルを同時選択した。 提案モデルは高度にモジュール化されたビルディングブロックで設計され,多数のマスカを素早く探索し,組み合わせを得られるように最適化された推論プロセスを実現する。 さらに,デジタルゲインレベルを条件とした特徴領域の音場拡張,推論時間における計算コストの高い波形ドメイン混合プロセス,および新しいマスキングに必要な退屈な事前校正プロセスを導入している。 提案システムは,440名以上の参加者による拡張音環境に対する主観的反応の大規模データセット上で検証され,モデルがマスカの複合効果を予測し,その利得レベルが知覚的快感レベルに及ぼす影響を確認した。

The selection of maskers and playback gain levels in a soundscape augmentation system is crucial to its effectiveness in improving the overall acoustic comfort of a given environment. Traditionally, the selection of appropriate maskers and gain levels has been informed by expert opinion, which may not representative of the target population, or by listening tests, which can be time-consuming and labour-intensive. Furthermore, the resulting static choices of masker and gain are often inflexible to the dynamic nature of real-world soundscapes. In this work, we utilized a deep learning model to perform joint selection of the optimal masker and its gain level for a given soundscape. The proposed model was designed with highly modular building blocks, allowing for an optimized inference process that can quickly search through a large number of masker and gain combinations. In addition, we introduced the use of feature-domain soundscape augmentation conditioned on the digital gain level, eliminating the computationally expensive waveform-domain mixing process during inference time, as well as the tedious pre-calibration process required for new maskers. The proposed system was validated on a large-scale dataset of subjective responses to augmented soundscapes with more than 440 participants, ensuring the ability of the model to predict combined effect of the masker and its gain level on the perceptual pleasantness level.
翻訳日:2022-05-02 15:04:24 公開日:2022-04-29
# 時系列のトポロジカルデータ分析:時間的濾過と単セルゲノミクスへの応用

Topological Data Analysis in Time Series: Temporal Filtration and Application to Single-Cell Genomics ( http://arxiv.org/abs/2204.14048v1 )

ライセンス: Link先を確認
Baihan Lin(参考訳) 細胞-細胞共生と発生のダイナミックスの間の従来の関係が発達する過程で、細胞個体群がどのように増殖し、分化し、競争するか、すなわち細胞生態学の理解を妨げている。 近年のRNAシークエンシング(RNA-seq)の進歩により、細胞特異的転写プログラムの遺伝子発現プロファイルの類似性を特徴付けるネットワークグラフを構築し、代数トポロジで情報を得た要約統計を用いてこれらのグラフを体系的に解析することにより、そのようなリンクを記述できる可能性がある。 単細胞トポロジカル単純解析(scTSA)を提案する。 このアプローチを、異なる発達段階の細胞のローカルネットワークからの単細胞遺伝子発現プロファイルに適用すると、これまで見られなかった細胞生態のトポロジーが明らかになる。 これらのネットワークには、より複雑な居住形態の出現を導くための空洞に束ねられた単細胞プロファイルのcliqueが多数含まれている。 これらのネットワークのトポロジ的単純化アーキテクチャを用いて,これらの生態パターンを可視化する。 38,731細胞,25細胞タイプ,12時間ステップにまたがるゼブラフィッシュ胚発生の単一細胞RNA-seqデータに基づいて,本研究は,胃癌を最も重要なステージとして強調し,発生生物学におけるコンセンサスと一致させた。 非線形、モデル非依存、教師なしのフレームワークとして、このアプローチは、複数スケールの細胞系統の追跡、重要な段階の同定、擬似時間系列の作成にも応用できる。

The absence of a conventional association between the cell-cell cohabitation and its emergent dynamics into cliques during development has hindered our understanding of how cell populations proliferate, differentiate, and compete, i.e. the cell ecology. With the recent advancement of the single-cell RNA-sequencing (RNA-seq), we can potentially describe such a link by constructing network graphs that characterize the similarity of the gene expression profiles of the cell-specific transcriptional programs, and analyzing these graphs systematically using the summary statistics informed by the algebraic topology. We propose the single-cell topological simplicial analysis (scTSA). Applying this approach to the single-cell gene expression profiles from local networks of cells in different developmental stages with different outcomes reveals a previously unseen topology of cellular ecology. These networks contain an abundance of cliques of single-cell profiles bound into cavities that guide the emergence of more complicated habitation forms. We visualize these ecological patterns with topological simplicial architectures of these networks, compared with the null models. Benchmarked on the single-cell RNA-seq data of zebrafish embryogenesis spanning 38,731 cells, 25 cell types and 12 time steps, our approach highlights the gastrulation as the most critical stage, consistent with consensus in developmental biology. As a nonlinear, model-independent, and unsupervised framework, our approach can also be applied to tracing multi-scale cell lineage, identifying critical stages, or creating pseudo-time series.
翻訳日:2022-05-02 15:02:08 公開日:2022-04-29
# 低ランク信号を用いたデータセットのワンウェイマッチング

One-Way Matching of Datasets with Low Rank Signals ( http://arxiv.org/abs/2204.13858v1 )

ライセンス: Link先を確認
Shuxiao Chen, Sizun Jiang, Zongming Ma, Garry P. Nolan, Bokai Zhu(参考訳) 低階信号を用いた一対のデータセットの一方向マッチングについて検討する。 定型化モデルでは,まず情報理論上のマッチング限界を導出する。 次に、投影されたデータに対する線形割当は収束速度が速くなり、時にはこのタスクの最適度が最小になることを示す。 理論誤差境界はシミュレートされた例によって近似される。 さらに,2つの単一セルデータ例に対するマッチング手法の実用化について述べる。

We study one-way matching of a pair of datasets with low rank signals. Under a stylized model, we first derive information-theoretic limits of matching. We then show that linear assignment with projected data achieves fast rates of convergence and sometimes even minimax rate optimality for this task. The theoretical error bounds are corroborated by simulated examples. Furthermore, we illustrate practical use of the matching procedure on two single-cell data examples.
翻訳日:2022-05-02 15:00:58 公開日:2022-04-29
# (参考訳) 有害テキストの扱いと提示

Handling and Presenting Harmful Text ( http://arxiv.org/abs/2204.14256v1 )

ライセンス: CC BY 4.0
Leon Derczynski, Hannah Rose Kirk, Abeba Birhane, Bertie Vidgen(参考訳) テキストデータは深刻な危害をもたらす可能性がある。 These harms can be categorised along three axes: (1) the harm type (e.g. misinformation, hate speech or racial stereotypes) (2) whether it is \textit{elicited} as a feature of the research design from directly studying harmful content (e.g. training a hate speech classifier or auditing unfiltered large-scale datasets) versus \textit{spuriously} invoked from working on unrelated problems (e.g. language generation or part of speech tagging) but with datasets that nonetheless contain harmful content, and (3) who it affects, from the humans (mis)represented in the data to those handling or labelling the data to readers and reviewers of publications produced from the data. nlpでは、テキストによる害がどのように処理され、提示され、議論されるべきかという未解決の問題であるが、害のリスクをもたらすコンテンツに対する作業を停止することは不可能である。 そこで,本研究では,テキスト障害の研究を反映したリソースであるtextsc{HarmCheck}を紹介する。 我々は,NLPコミュニティにおける倫理的,責任的,敬意的な研究を促進することを願っている。

Textual data can pose a risk of serious harm. These harms can be categorised along three axes: (1) the harm type (e.g. misinformation, hate speech or racial stereotypes) (2) whether it is \textit{elicited} as a feature of the research design from directly studying harmful content (e.g. training a hate speech classifier or auditing unfiltered large-scale datasets) versus \textit{spuriously} invoked from working on unrelated problems (e.g. language generation or part of speech tagging) but with datasets that nonetheless contain harmful content, and (3) who it affects, from the humans (mis)represented in the data to those handling or labelling the data to readers and reviewers of publications produced from the data. It is an unsolved problem in NLP as to how textual harms should be handled, presented, and discussed; but, stopping work on content which poses a risk of harm is untenable. Accordingly, we provide practical advice and introduce \textsc{HarmCheck}, a resource for reflecting on research into textual harms. We hope our work encourages ethical, responsible, and respectful research in the NLP community.
翻訳日:2022-05-02 15:00:21 公開日:2022-04-29
# SATfeatPy - 満足度のためのPythonベースの特徴抽出システム

SATfeatPy -- A Python-based Feature Extraction System for Satisfiability ( http://arxiv.org/abs/2204.14116v1 )

ライセンス: Link先を確認
Benjamin Provan-Bessell, Marco Dalla, Andrea Visentin, Barry O'Sullivan(参考訳) 特徴抽出は、SAT解決への機械学習手法の適用における基本的な課題である。 解法ポートフォリオと満足度分類のアルゴリズム選択と構成に使用される。 cnfインスタンスから有意義な属性を抽出するための多くのアプローチが提案されている。 多くは動作/更新された実装がなく、限定的な記述は再現性に影響を与える明快さを欠いている。 さらに、文献は特徴の比較を欠いている。 本稿では,CNF形式のSAT問題に対する特徴抽出技術を提供するSATfeatPyを紹介する。 このパッケージは、この分野の主要な論文から得られるすべての構造的および統計的特徴の実装を提供する。 ライブラリは、詳細な機能説明とともに、最新の、使いやすいPythonパッケージで提供される。 3000のSATインスタンスとUNSATインスタンスのデータセットから,ライブラリを用いて生成した5つの特徴セットを用いて,SAT/UNSATの高精度な分類と問題カテゴリ分類を示す。 最後に,SATインスタンスの本来の構造を予測するための特徴と重要性をアブレーション研究で比較した。

Feature extraction is a fundamental task in the application of machine learning methods to SAT solving. It is used in algorithm selection and configuration for solver portfolios and satisfiability classification. Many approaches have been proposed to extract meaningful attributes from CNF instances. Most of them lack a working/updated implementation, and the limited descriptions lack clarity affecting the reproducibility. Furthermore, the literature misses a comparison among the features. This paper introduces SATfeatPy, a library that offers feature extraction techniques for SAT problems in the CNF form. This package offers the implementation of all the structural and statistical features from there major papers in the field. The library is provided in an up-to-date, easy-to-use Python package alongside a detailed feature description. We show the high accuracy of SAT/UNSAT and problem category classification, using five sets of features generated using our library from a dataset of 3000 SAT and UNSAT instances, over ten different classes of problems. Finally, we compare the usefulness of the features and importance for predicting a SAT instance's original structure in an ablation study.
翻訳日:2022-05-02 14:43:03 公開日:2022-04-29
# 実世界転がりシャッター補正のための適応ワープ学習

Learning Adaptive Warping for Real-World Rolling Shutter Correction ( http://arxiv.org/abs/2204.13886v1 )

ライセンス: Link先を確認
Mingdeng Cao, Zhihang Zhong, Jiahao Wang, Yinqiang Zheng, Yujiu Yang(参考訳) 本稿では, 実世界のローリングシャッター補正データセットであるBS-RSCと, 歪み映像中のRSフレームを補正するための対応するモデルを提案する。 ビデオキャプチャのためのCMOSベースのセンサーを備えた消費者市場のモバイルデバイスは、ビデオ取得プロセス中に相対的な動きが発生するとローリングシャッター効果が生じ、RSエフェクト除去技術が要求される。 しかし,現状のrs補正法は,動作が多様でモデル化が困難であるため,実際のシナリオではrs効果を除去できないことが多い。 そこで本研究では,実世界のRS補正データセットBS-RSCを提案する。 ビームスプリッターベースの取得システムにより、対応する地上真理を持つ実歪み映像を同時に記録する。 BS-RSCはダイナミックシーンにおけるカメラとオブジェクトの両方のさまざまな動きを含んでいる。 さらに,適応ウォーピングを用いたrs補正モデルを提案する。 我々のモデルは、学習したRS特徴を予測された複数の変位場と適応的にグローバルシャッターにワープすることができる。 これらの歪んだ特徴を集約し、粗大な戦略で高品質なグローバルシャッターフレームに再構成する。 実験の結果,提案手法の有効性が示され,我々のデータセットは実世界のRS効果を除去するモデルの能力を向上させることができる。

This paper proposes the first real-world rolling shutter (RS) correction dataset, BS-RSC, and a corresponding model to correct the RS frames in a distorted video. Mobile devices in the consumer market with CMOS-based sensors for video capture often result in rolling shutter effects when relative movements occur during the video acquisition process, calling for RS effect removal techniques. However, current state-of-the-art RS correction methods often fail to remove RS effects in real scenarios since the motions are various and hard to model. To address this issue, we propose a real-world RS correction dataset BS-RSC. Real distorted videos with corresponding ground truth are recorded simultaneously via a well-designed beam-splitter-based acquisition system. BS-RSC contains various motions of both camera and objects in dynamic scenes. Further, an RS correction model with adaptive warping is proposed. Our model can warp the learned RS features into global shutter counterparts adaptively with predicted multiple displacement fields. These warped features are aggregated and then reconstructed into high-quality global shutter frames in a coarse-to-fine strategy. Experimental results demonstrate the effectiveness of the proposed method, and our dataset can improve the model's ability to remove the RS effects in the real world.
翻訳日:2022-05-02 14:42:47 公開日:2022-04-29
# SideRT: 単一画像深度推定のためのリアルタイムPure Transformerアーキテクチャ

SideRT: A Real-time Pure Transformer Architecture for Single Image Depth Estimation ( http://arxiv.org/abs/2204.13892v1 )

ライセンス: Link先を確認
Chang Shu, Ziming Chen, Lei Chen, Kuan Ma, Minghui Wang and Haibing Ren(参考訳) 単一の画像から深さを推定するにはコンテキストモデリングが不可欠であるため、研究者はグローバルなコンテキストの獲得に多大な努力を払った。 多くのグローバル操作は、畳み込みの局所性を克服するために伝統的なcnnベースのアーキテクチャのために設計されている。 本来は長距離依存関係をキャプチャするために設計されたアテンション機構やトランスフォーマーの方がよいが、アーキテクチャが複雑になり、推論速度が低下する可能性がある。 本稿では, リアルタイムに優れた予測を実現するために, sidert と呼ばれる純粋トランスフォーマーアーキテクチャを提案する。 より良いグローバルコンテキストを捉えるために、クロススケールアテンション(CSA)とマルチスケールリファインメント(MSR)モジュールは、異なるスケールの機能を効率的に融合するために協調して動作するように設計されている。 CSAモジュールは高い意味的類似性の融合機能に重点を置いており、MSRモジュールは対応する位置で機能を融合することを目指している。 これら2つのモジュールは、軽量で効果的なモデルを構築した畳み込みのないいくつかの学習可能なパラメータを含んでいる。 このアーキテクチャは、リアルタイム(51.3 FPS)で最先端のパフォーマンスを達成し、より小さなバックボーンSwin-T(83.1 FPS)上での適切なパフォーマンス低下により、はるかに高速になる。 さらに、その性能は以前の最先端技術を大きく上回り、キッティではアブスレルメートル法を6.9%、ニュアンスでは9.7%改善した。 私たちの知る限りでは、トランスフォーマーベースのネットワークが単一の画像深度推定分野でリアルタイムに最先端のパフォーマンスを達成できることを示す最初の作品です。 コードはもうすぐ利用可能になる。

Since context modeling is critical for estimating depth from a single image, researchers put tremendous effort into obtaining global context. Many global manipulations are designed for traditional CNN-based architectures to overcome the locality of convolutions. Attention mechanisms or transformers originally designed for capturing long-range dependencies might be a better choice, but usually complicates architectures and could lead to a decrease in inference speed. In this work, we propose a pure transformer architecture called SideRT that can attain excellent predictions in real-time. In order to capture better global context, Cross-Scale Attention (CSA) and Multi-Scale Refinement (MSR) modules are designed to work collaboratively to fuse features of different scales efficiently. CSA modules focus on fusing features of high semantic similarities, while MSR modules aim to fuse features at corresponding positions. These two modules contain a few learnable parameters without convolutions, based on which a lightweight yet effective model is built. This architecture achieves state-of-the-art performances in real-time (51.3 FPS) and becomes much faster with a reasonable performance drop on a smaller backbone Swin-T (83.1 FPS). Furthermore, its performance surpasses the previous state-of-the-art by a large margin, improving AbsRel metric 6.9% on KITTI and 9.7% on NYU. To the best of our knowledge, this is the first work to show that transformer-based networks can attain state-of-the-art performance in real-time in the single image depth estimation field. Code will be made available soon.
翻訳日:2022-05-02 14:42:29 公開日:2022-04-29
# 画像検索における双方向互換トレーニングによるプライバシ保護モデルの改善

Privacy-Preserving Model Upgrades with Bidirectional Compatible Training in Image Retrieval ( http://arxiv.org/abs/2204.13919v1 )

ライセンス: Link先を確認
Shupeng Su, Binjie Zhang, Yixiao Ge, Xuyuan Xu, Yexin Wang, Chun Yuan, Ying Shan(参考訳) 画像検索におけるプライバシ保存モデルの課題は、生のギャラリー画像にアクセスすることなく、急速に進化する新しいモデルの利点を享受することにある。 バックフィルのない方法で新しいモデルを直接デプロイできる、すなわち、新しいクエリは古いギャラリー機能と直接比較できる、後方互換性のあるトレーニングを導入した先駆的な作業である。 可能な解決策にもかかわらず、シーケンシャルモデルのアップグレードにおける改善は、固定および低品質の古いギャラリー埋め込みによって徐々に制限される。 この目的のために,双方向対応型トレーニング(bict)と呼ばれる新しいモデルアップグレードパラダイムを提案し,後方互換型新モデルの組込み空間に向けて,前方互換型トレーニングにより旧ギャラリー組込みをアップグレードする。 我々はBiCTによる顕著な改善を検証するための総合的な実験を行い、後方互換性の不都合な損失重みが後方検索と前方検索の両方に重要であることを興味深い観察を行った。 要約すると、プライバシ保護モデルアップグレードと呼ばれる新しい価値ある問題を、適切なソリューションBiCTで導入する。 我々の手法を最大限に活用するために、いくつかの興味深い洞察が提案されている。

The task of privacy-preserving model upgrades in image retrieval desires to reap the benefits of rapidly evolving new models without accessing the raw gallery images. A pioneering work introduced backward-compatible training, where the new model can be directly deployed in a backfill-free manner, i.e., the new query can be directly compared to the old gallery features. Despite a possible solution, its improvement in sequential model upgrades is gradually limited by the fixed and under-quality old gallery embeddings. To this end, we propose a new model upgrade paradigm, termed Bidirectional Compatible Training (BiCT), which will upgrade the old gallery embeddings by forward-compatible training towards the embedding space of the backward-compatible new model. We conduct comprehensive experiments to verify the prominent improvement by BiCT and interestingly observe that the inconspicuous loss weight of backward compatibility actually plays an essential role for both backward and forward retrieval performance. To summarize, we introduce a new and valuable problem named privacy-preserving model upgrades, with a proper solution BiCT. Several intriguing insights are further proposed to get the most out of our method.
翻訳日:2022-05-02 14:42:02 公開日:2022-04-29
# AdaInt:リアルタイム画像強調による3次元ルックアップテーブルの適応間隔学習

AdaInt: Learning Adaptive Intervals for 3D Lookup Tables on Real-time Image Enhancement ( http://arxiv.org/abs/2204.13983v1 )

ライセンス: Link先を確認
Canqian Yang, Meiguang Jin, Xu Jia, Yi Xu, Ying Chen(参考訳) 3Dルックアップテーブル(3D LUT)はリアルタイム画像強調タスクのための高効率ツールであり、離散化された3D格子にわずかにサンプリングすることで、非線形な3D色変換をモデル化する。 従来の研究は、フレキシブルエンハンスメントのためのLUTの画像適応出力カラー値の学習に取り組んできたが、サンプリング戦略の重要性は無視されている。 彼らは、LUT変換における一様サンプリング点間の(トリ-)線形補間が、色変換の局所的非線形性をモデル化できないため、学習したLUTの表現性を制限し、準最適サンプリング点割り当てを採用する。 AdaInt(Adaptive Intervals Learning)は,3次元カラー空間における非一様サンプリング間隔を適応的に学習することにより,より柔軟なサンプリングポイント割り当てを実現する機構である。 このようにして、3D LUTは、高非線形変換を必要とする色域の高密度サンプリングと、近線形変換のためのスパースサンプリングを行うことで、その能力を高めることができる。 提案したAdaIntは、3D LUT方式のコンパクトで効率的なプラグアンドプレイモジュールとして実装できる。 AdaIntのエンドツーエンド学習を可能にするために、AiLUT変換(Adaptive Interval LUT Transform)と呼ばれる新しい微分演算子を設計し、非一様3D LUTの入力色を特定し、サンプリング間隔の勾配を与える。 実験により、AdaIntを組み込んだメソッドは、2つの公開ベンチマークデータセットで最新性能を達成でき、オーバーヘッドは無視できる。 ソースコードはhttps://github.com/ImCharlesY/AdaInt.comで公開されています。

The 3D Lookup Table (3D LUT) is a highly-efficient tool for real-time image enhancement tasks, which models a non-linear 3D color transform by sparsely sampling it into a discretized 3D lattice. Previous works have made efforts to learn image-adaptive output color values of LUTs for flexible enhancement but neglect the importance of sampling strategy. They adopt a sub-optimal uniform sampling point allocation, limiting the expressiveness of the learned LUTs since the (tri-)linear interpolation between uniform sampling points in the LUT transform might fail to model local non-linearities of the color transform. Focusing on this problem, we present AdaInt (Adaptive Intervals Learning), a novel mechanism to achieve a more flexible sampling point allocation by adaptively learning the non-uniform sampling intervals in the 3D color space. In this way, a 3D LUT can increase its capability by conducting dense sampling in color ranges requiring highly non-linear transforms and sparse sampling for near-linear transforms. The proposed AdaInt could be implemented as a compact and efficient plug-and-play module for a 3D LUT-based method. To enable the end-to-end learning of AdaInt, we design a novel differentiable operator called AiLUT-Transform (Adaptive Interval LUT Transform) to locate input colors in the non-uniform 3D LUT and provide gradients to the sampling intervals. Experiments demonstrate that methods equipped with AdaInt can achieve state-of-the-art performance on two public benchmark datasets with a negligible overhead increase. Our source code is available at https://github.com/ImCharlesY/AdaInt.
翻訳日:2022-05-02 14:40:08 公開日:2022-04-29
# シングルビデオからの物理パラメータ推論のためのニューラルインプシティ表現

Neural Implicit Representations for Physical Parameter Inference from a Single Video ( http://arxiv.org/abs/2204.14030v1 )

ライセンス: Link先を確認
Florian Hofherr, Lukas Koestler, Florian Bernard, Daniel Cremers(参考訳) ニューラルネットワークは最近、様々な物理システムを分析し、基盤となるダイナミクスを特定するのに使われている。 既存の手法は目覚ましい結果を得るが、トレーニングデータに対する強い需要と、配布外データに対する弱い一般化能力によって制限される。 これらの制約を克服するために,視覚的観察から直接識別可能な動的シーン表現を得るために,外観モデルのためのニューラル暗黙表現と物理現象をモデル化するためのニューラル常微分方程式(ODE)を組み合わせることを提案する。 提案モデルには,いくつかの特長がある。 (i)大規模なトレーニングデータセットを必要とする既存のアプローチとは対照的に、単一のビデオから物理的パラメータを特定できる。 (II)ニューラル暗示表現を用いることで,高解像度映像の処理と写真リアル画像の合成が可能となる。 (iii)埋め込み神経odeは、解釈可能な物理的パラメータの識別を可能にする既知のパラメトリック形式を有する。 (iv)状態空間における長期予測。 (v)さらに、物理パラメータを修飾した新しいシーンの写実的レンダリングが可能となる。

Neural networks have recently been used to analyze diverse physical systems and to identify the underlying dynamics. While existing methods achieve impressive results, they are limited by their strong demand for training data and their weak generalization abilities to out-of-distribution data. To overcome these limitations, in this work we propose to combine neural implicit representations for appearance modeling with neural ordinary differential equations (ODEs) for modelling physical phenomena to obtain a dynamic scene representation that can be identified directly from visual observations. Our proposed model combines several unique advantages: (i) Contrary to existing approaches that require large training datasets, we are able to identify physical parameters from only a single video. (ii) The use of neural implicit representations enables the processing of high-resolution videos and the synthesis of photo-realistic images. (iii) The embedded neural ODE has a known parametric form that allows for the identification of interpretable physical parameters, and (iv) long-term prediction in state space. (v) Furthermore, the photo-realistic rendering of novel scenes with modified physical parameters becomes possible.
翻訳日:2022-05-02 14:39:36 公開日:2022-04-29
# アニメスタイル認識の難解なベンチマーク

A Challenging Benchmark of Anime Style Recognition ( http://arxiv.org/abs/2204.14034v1 )

ライセンス: Link先を確認
Haotang Li, Shengtao Guo, Kailin Lyu, Xiao Yang, Tianchen Chen, Jianqing Zhu, Huanqiang Zeng(参考訳) 異なるアニメの役割の2つのイメージを与えられたアニメスタイル認識(ASR)は、抽象的な絵画スタイルを学習し、2つのイメージが同じ作品から来ているかどうかを判断することを目的としている。 顔認識、虹彩認識、人物の再識別などの生体認証とは異なり、ASRははるかに大きな意味的ギャップに悩まされるが、あまり注目されない。 本稿では,ASRベンチマークを提案する。 まず,190個のアニメ作品の20,937枚の画像と,少なくとも10個の異なる役割を持つ大規模ASRデータセット(LSASRD)を収集する。 大規模な作品に加えて、LSASRDには、複雑な照明、様々なポーズ、劇場色、誇張された構成など、困難な要素のリストが含まれている。 次に,asrモデルが役割の識別的特徴を学ぶのではなく,抽象的な絵画スタイルを学ぶことを検証するために,問合せとギャラリーイメージが異なる役割から来なければならないasrの性能を評価するためのクロスロールプロトコルを設計する。 最後に、LSASRDのベースライン性能を構築するために、2つの強力な人物識別手法、すなわちAGWとTransReIDを適用した。 驚いたことに、TransReIDはLSASRD上で42.24%のmAPしか取得していない。 したがって、大きな意味的ギャップのASRタスクは、深く長期的な研究に値すると信じている。 データセットとコードはhttps://github.com/nkjcqvcpi/asrで公開します。

Given two images of different anime roles, anime style recognition (ASR) aims to learn abstract painting style to determine whether the two images are from the same work, which is an interesting but challenging problem. Unlike biometric recognition, such as face recognition, iris recognition, and person re-identification, ASR suffers from a much larger semantic gap but receives less attention. In this paper, we propose a challenging ASR benchmark. Firstly, we collect a large-scale ASR dataset (LSASRD), which contains 20,937 images of 190 anime works and each work at least has ten different roles. In addition to the large-scale, LSASRD contains a list of challenging factors, such as complex illuminations, various poses, theatrical colors and exaggerated compositions. Secondly, we design a cross-role protocol to evaluate ASR performance, in which query and gallery images must come from different roles to validate an ASR model is to learn abstract painting style rather than learn discriminative features of roles. Finally, we apply two powerful person re-identification methods, namely, AGW and TransReID, to construct the baseline performance on LSASRD. Surprisingly, the recent transformer model (i.e., TransReID) only acquires a 42.24% mAP on LSASRD. Therefore, we believe that the ASR task of a huge semantic gap deserves deep and long-term research. We will open our dataset and code at https://github.com/nkjcqvcpi/ASR.
翻訳日:2022-05-02 14:39:19 公開日:2022-04-29
# C3-STISR:3軸超解像

C3-STISR: Scene Text Image Super-resolution with Triple Clues ( http://arxiv.org/abs/2204.14044v1 )

ライセンス: Link先を確認
Minyi Zhao, Miao Wang, Fan Bai, Bingjia Li, Jie Wang, Shuigeng Zhou(参考訳) シーンテキスト画像スーパーレゾリューション(stisr)は,低解像度シーンテキスト画像からのテキスト認識において重要な前処理課題である。 最近のアプローチでは、認識者のフィードバックを超解像を導く手がかりとして使っている。 しかし、認識手がかりを直接使うには2つの問題がある。 1)互換性。 これは確率分布の形で、ピクセルレベルのタスクであるSTISRとの明らかなモードギャップを持つ。 2)不正確。 通常、誤った情報を含むため、メインタスクを誤解させ、超解像性能を低下させる。 本稿では,認識者のフィードバック,視覚情報,言語情報を超解像誘導の手がかりとして活用する新しい手法C3-STISRを提案する。 ここでは、認識者が予測したテキストの画像から視覚的手がかりが得られ、これはSTISRタスクと情報的かつより互換性があり、一方言語的手がかりは、予測されたテキストを修正できる事前訓練された文字レベル言語モデルによって生成される。 超解像のための包括的かつ統一的なガイダンスを生成するために,トリプルクロスモーダル手がかりのための効果的な抽出・融合機構を設計する。 TextZoomの大規模な実験により、C3-STISRはSOTA法よりも忠実度と認識性能が優れていることが示された。 コードはhttps://github.com/zhaominyiz/C3-STISRで入手できる。

Scene text image super-resolution (STISR) has been regarded as an important pre-processing task for text recognition from low-resolution scene text images. Most recent approaches use the recognizer's feedback as clues to guide super-resolution. However, directly using recognition clue has two problems: 1) Compatibility. It is in the form of probability distribution, has an obvious modal gap with STISR - a pixel-level task; 2) Inaccuracy. it usually contains wrong information, thus will mislead the main task and degrade super-resolution performance. In this paper, we present a novel method C3-STISR that jointly exploits the recognizer's feedback, visual and linguistical information as clues to guide super-resolution. Here, visual clue is from the images of texts predicted by the recognizer, which is informative and more compatible with the STISR task; while linguistical clue is generated by a pre-trained character-level language model, which is able to correct the predicted texts. We design effective extraction and fusion mechanisms for the triple cross-modal clues to generate a comprehensive and unified guidance for super-resolution. Extensive experiments on TextZoom show that C3-STISR outperforms the SOTA methods in fidelity and recognition performance. Code is available in https://github.com/zhaominyiz/C3-STISR.
翻訳日:2022-05-02 14:38:55 公開日:2022-04-29
# siamese視覚追跡のための学習ローカライズ・アウェア・ターゲット信頼度

Learning Localization-aware Target Confidence for Siamese Visual Tracking ( http://arxiv.org/abs/2204.14093v1 )

ライセンス: Link先を確認
Jiahao Nie, Han Wu, Zhiwei He, Yuxiang Yang, Mingyu Gao, Zhekang Dong(参考訳) シームズ追跡のパラダイムは大きな成功をおさめ、分類と回帰による効果的な外見の識別とサイズ推定を提供する。 このようなパラダイムは一般的に分類と回帰を独立に最適化するが、タスクのミスアライメントにつながる(正確な予測ボックスには高い目標の信頼性スコアがない)。 本稿では,このミスアライメントを軽減するために,SiamLAと呼ばれる新しいトラッキングパラダイムを提案する。 このパラダイムでは、ローカライズ・アウェアの信頼度スコアを生成するために、シンプルで効果的なローカライズ・アウェアコンポーネントが導入されている。 具体的には,LADL(Localization-Aware dynamic label)の損失とLALS(Localization-Aware label smoothing)の戦略により,分類と回帰の協調的な最適化を実現し,分類スコアが外観的類似性だけでなく位置状態を認識することを可能にする。 さらに,LAFA(Localization-Aware Feature aggregate)モジュールを中心に,位置品質スコアを生成して分類スコアを更に修正する,別のローカライゼーションブランチを提案する。 したがって、結果の目標信頼度スコアは、位置状態に対してより識別され、正確な予測ボックスを高いスコアとして予測する傾向にある。 GOT-10k、TrackingNet、LaSOT、TNL2K、TB100、VOT2018を含む6つの挑戦的なベンチマークで大規模な実験が行われた。 当社のSiamLAは精度と効率の両面で最先端のパフォーマンスを実現しています。 さらに,我々の追跡パラダイムは比較的安定しており,本パラダイムが現実の応用の可能性を示している。

Siamese tracking paradigm has achieved great success, providing effective appearance discrimination and size estimation by the classification and regression. While such a paradigm typically optimizes the classification and regression independently, leading to task misalignment (accurate prediction boxes have no high target confidence scores). In this paper, to alleviate this misalignment, we propose a novel tracking paradigm, called SiamLA. Within this paradigm, a series of simple, yet effective localization-aware components are introduced, to generate localization-aware target confidence scores. Specifically, with the proposed localization-aware dynamic label (LADL) loss and localization-aware label smoothing (LALS) strategy, collaborative optimization between the classification and regression is achieved, enabling classification scores to be aware of location state, not just appearance similarity. Besides, we propose a separate localization branch, centered on a localization-aware feature aggregation (LAFA) module, to produce location quality scores to further modify the classification scores. Consequently, the resulting target confidence scores, are more discriminative for the location state, allowing accurate prediction boxes tend to be predicted as high scores. Extensive experiments are conducted on six challenging benchmarks, including GOT-10k, TrackingNet, LaSOT, TNL2K, OTB100 and VOT2018. Our SiamLA achieves state-of-the-art performance in terms of both accuracy and efficiency. Furthermore, a stability analysis reveals that our tracking paradigm is relatively stable, implying the paradigm is potential to real-world applications.
翻訳日:2022-05-02 14:38:35 公開日:2022-04-29
# 領域適応検出トランスの転送性の向上

Improving Transferability for Domain Adaptive Detection Transformers ( http://arxiv.org/abs/2204.14195v1 )

ライセンス: Link先を確認
Kaixiong Gong, Shuang Li, Shugang Li, Rui Zhang, Chi Harold Liu, Qiang Chen(参考訳) DETR型検出器はドメイン内のシナリオで際立っているが、ドメインシフト設定におけるそれらの特性は未探索である。 本稿では,ドメインシフト設定に基づくDETR型検出器を用いた簡易かつ効果的なベースラインの構築を目的とする。 例えば、バックボーンのドメインシフトとデコーダ出力機能の緩和は、良い結果を得るのに優れている。 また、両方の部分における高度なドメインアライメントメソッドは、パフォーマンスをさらに向上させる。 そこで,我々は,オブジェクト認識アライメント(oaa)モジュールと最適なトランスポートベースアライメント(ota)モジュールを提案し,バックボーンと検出器の出力に関する包括的ドメインアライメントを実現する。 OAAモジュールは、バックボーン出力の擬似ラベルによって識別される前景領域を整列し、ドメイン不変な機能をもたらす。 OTAモジュールはスライスされたワッサースタイン距離を利用して、デコーダ出力の領域ギャップを最小限にしつつ、位置情報の保持を最大化する。 提案手法は,提案手法に解析結果とアライメントモジュールを実装し,ドメインシフト設定上でDETR型検出器をベンチマークする。 様々なドメイン適応シナリオの実験により,本手法の有効性が検証された。

DETR-style detectors stand out amongst in-domain scenarios, but their properties in domain shift settings are under-explored. This paper aims to build a simple but effective baseline with a DETR-style detector on domain shift settings based on two findings. For one, mitigating the domain shift on the backbone and the decoder output features excels in getting favorable results. For another, advanced domain alignment methods in both parts further enhance the performance. Thus, we propose the Object-Aware Alignment (OAA) module and the Optimal Transport based Alignment (OTA) module to achieve comprehensive domain alignment on the outputs of the backbone and the detector. The OAA module aligns the foreground regions identified by pseudo-labels in the backbone outputs, leading to domain-invariant based features. The OTA module utilizes sliced Wasserstein distance to maximize the retention of location information while minimizing the domain gap in the decoder outputs. We implement the findings and the alignment modules into our adaptation method, and it benchmarks the DETR-style detector on the domain shift settings. Experiments on various domain adaptive scenarios validate the effectiveness of our method.
翻訳日:2022-05-02 14:38:04 公開日:2022-04-29
# 完全校正内視鏡のEndoMapperデータセット

EndoMapper dataset of complete calibrated endoscopy procedures ( http://arxiv.org/abs/2204.14240v1 )

ライセンス: Link先を確認
Pablo Azagra, Carlos Sostres, \'Angel Ferrandez, Luis Riazuelo, Clara Tomasini, Oscar Le\'on Barbed, Javier Morlana, David Recasens, Victor M. Batlle, Juan J. G\'omez-Rodr\'iguez, Richard Elvira, Julia L\'opez, Cristina Oriol, Javier Civera, Juan D. Tard\'os, Ana Cristina Murillo, Angel Lanas and Jos\'e M.M. Montiel(参考訳) コンピュータ支援システムは医学で広く使われている。 内視鏡検査では,ポリープなどの病態の自動検出に焦点が当てられているが,内視鏡の局所化とナビゲーションは医師が手動で行う。 この研究を拡大し、空間人工知能を内科にもたらすためには、完全な手順からのデータが必要である。 このデータは、3Dマッピングとローカライゼーションシステムの構築に利用され、例えば、探索中の盲点検出、自動ポリープ測定、前回の探索で見つかったポリープへの医師の誘導、そしてそれらを比較しやすいように整列した同じ領域の以前の画像の検索などを行うことができる。 これらのシステムは、医師の負担を軽減しつつ、手順の質と精度を改善します。 本報告では, 経時的, 注意深い検診, 医用データの二次的利用を含む, 定期的な医療実践中に得られた内視鏡的完全配列の最初のコレクションであるEndomapperデータセットを紹介する。 元々の目的は、実内視鏡データにおけるvslam(visual concurrent localization and mapping)法の開発と評価を容易にすることである。 データセットの最初のリリースは15時間以上のビデオを含む59のシーケンスで構成されている。 これはまた、計算された幾何学的および測光的内視鏡の校正と元の校正ビデオの両方を含む最初の内視鏡的データセットである。 データセットに関連するメタデータとアノテーションは、解剖学的ランドマークやプロシージャラベリングの記述、ツールセグメンテーションマスク、colmap 3dリコンストラクション、同一患者からのシーケンスのような特別なケースに関連する基底とメタデータによるシミュレーションシーケンスなどによって異なる。 この情報は、内視鏡的vslamおよび他の研究ラインにおける研究を改善し、新しい研究ラインを作成する。

Computer-assisted systems are becoming broadly used in medicine. In endoscopy, most research focuses on automatic detection of polyps or other pathologies, but localization and navigation of the endoscope is completely performed manually by physicians. To broaden this research and bring spatial Artificial Intelligence to endoscopies, data from complete procedures are needed. This data will be used to build a 3D mapping and localization systems that can perform special task like, for example, detect blind zones during exploration, provide automatic polyp measurements, guide doctors to a polyp found in a previous exploration and retrieve previous images of the same area aligning them for easy comparison. These systems will provide an improvement in the quality and precision of the procedures while lowering the burden on the physicians. This paper introduces the Endomapper dataset, the first collection of complete endoscopy sequences acquired during regular medical practice, including slow and careful screening explorations, making secondary use of medical data. Its original purpose is to facilitate the development and evaluation of VSLAM (Visual Simultaneous Localization and Mapping) methods in real endoscopy data. The first release of the dataset is composed of 59 sequences with more than 15 hours of video. It is also the first endoscopic dataset that includes both the computed geometric and photometric endoscope calibration with the original calibration videos. Meta-data and annotations associated to the dataset varies from anatomical landmark and description of the procedure labeling, tools segmentation masks, COLMAP 3D reconstructions, simulated sequences with groundtruth and meta-data related to special cases, such as sequences from the same patient. This information will improve the research in endoscopic VSLAM, as well as other research lines, and create new research lines.
翻訳日:2022-05-02 14:37:45 公開日:2022-04-29
# CLIP-Art:ファイングラインドアート分類のためのコントラスト前訓練

CLIP-Art: Contrastive Pre-training for Fine-Grained Art Classification ( http://arxiv.org/abs/2204.14244v1 )

ライセンス: Link先を確認
Marcos V. Conde, Kerem Turgutlu(参考訳) アートワークにおける既存のコンピュータビジョン研究は、アートワークの細かな属性認識と、そのコストのかかる作成のために注釈付きデータセットのキュレーションの欠如に苦しむ。 私たちの知る限り、私たちはCLIP(Contrastive Language- Image Pre-Training)を使用して、さまざまなアートイメージとテキスト記述ペアでニューラルネットワークをトレーニングする最初の方法の1つです。 CLIPは、フリーフォームのアート記述や、もし利用可能であれば、きめ細かいラベルから直接学習することができる。 Modelのゼロショット機能は、タスクを直接最適化することなく、与えられた画像の正確な自然言語記述を予測できる。 このアプローチは,インスタンス検索と細粒度アーティファクト属性認識という2つの課題を解決することを目指している。 iMet Datasetは、最大の注釈付きアートワークデータセットであると考えています。 このベンチマークでは、自己スーパービジョンのみを使用して、競争結果を達成しました。

Existing computer vision research in artwork struggles with artwork's fine-grained attributes recognition and lack of curated annotated datasets due to their costly creation. To the best of our knowledge, we are one of the first methods to use CLIP (Contrastive Language-Image Pre-Training) to train a neural network on a variety of artwork images and text descriptions pairs. CLIP is able to learn directly from free-form art descriptions, or, if available, curated fine-grained labels. Model's zero-shot capability allows predicting accurate natural language description for a given image, without directly optimizing for the task. Our approach aims to solve 2 challenges: instance retrieval and fine-grained artwork attribute recognition. We use the iMet Dataset, which we consider the largest annotated artwork dataset. In this benchmark we achieved competitive results using only self-supervision.
翻訳日:2022-05-02 14:37:14 公開日:2022-04-29
# OSSGAN: 半スーパービジョンのオープンセット画像生成

OSSGAN: Open-Set Semi-Supervised Image Generation ( http://arxiv.org/abs/2204.14249v1 )

ライセンス: Link先を確認
Kai Katsumata and Duc Minh Vo and Hideki Nakayama(参考訳) 我々は、オープンセット半教師付き画像生成と呼ばれる条件付きGANの挑戦的なトレーニングスキームを導入し、トレーニングデータセットは2つの部分から構成される。 (i)ラベル付きデータ及び (ii)ラベル付きデータクラスの1つに属するサンプル、すなわちクローズドセット、およびラベル付きデータクラスのどれにも属さないサンプル、すなわちオープンセットを含むラベル付きデータ。 ラベルのないデータがクローズドセットのサンプルのみを含む、既存の半教師付き画像生成タスクとは異なり、我々のタスクはより一般的であり、オープンセットのサンプルを表示することによって、実際にデータ収集コストを下げる。 エントロピー正則化により、ラベル付きデータに基づいてトレーニングされた分類器は、cGANのトレーニングにおける標本の重要度を信頼性として定量化することができ、ラベルなしデータにすべてのサンプルを使用できる。 本研究はOSSGANを設計し,未ラベル画像が興味あるクラスに属するか否かを判断するための手がかりとして,ラベル付きおよび未ラベルデータの統合を円滑に行う。 Tiny ImageNetとImageNetの実験結果は、教師付きBigGANおよび半教師付きメソッドよりも顕著に改善されている。 私たちのコードはhttps://github.com/raven38/ossganで利用可能です。

We introduce a challenging training scheme of conditional GANs, called open-set semi-supervised image generation, where the training dataset consists of two parts: (i) labeled data and (ii) unlabeled data with samples belonging to one of the labeled data classes, namely, a closed-set, and samples not belonging to any of the labeled data classes, namely, an open-set. Unlike the existing semi-supervised image generation task, where unlabeled data only contain closed-set samples, our task is more general and lowers the data collection cost in practice by allowing open-set samples to appear. Thanks to entropy regularization, the classifier that is trained on labeled data is able to quantify sample-wise importance to the training of cGAN as confidence, allowing us to use all samples in unlabeled data. We design OSSGAN, which provides decision clues to the discriminator on the basis of whether an unlabeled image belongs to one or none of the classes of interest, smoothly integrating labeled and unlabeled data during training. The results of experiments on Tiny ImageNet and ImageNet show notable improvements over supervised BigGAN and semi-supervised methods. Our code is available at https://github.com/raven38/OSSGAN.
翻訳日:2022-05-02 14:37:00 公開日:2022-04-29
# MIMIC-IV用データ処理パイプライン

An Extensive Data Processing Pipeline for MIMIC-IV ( http://arxiv.org/abs/2204.13841v1 )

ライセンス: Link先を確認
Mehak Gupta, Brennan Gallamoza, Nicolas Cutrona, Pranjal Dhakal, Raphael Poulain, Rahmatollah Beheshti(参考訳) さまざまな臨床業務のための電子健康記録(EHR)データに機械学習手法を適用する研究が増えている。 この成長する研究領域は、EHRデータセットのアクセシビリティの制限と、異なるモデリングフレームワークの再現性を明らかにしている。 これらの制限の1つの理由は、標準化された前処理パイプラインの欠如である。 MIMICは、多くの研究で使われている生のフォーマットで自由に利用できるEHRデータセットである。 標準化された前処理ステップがないことは、データセットをより広く採用するための大きな障壁となる。 また、下流のタスクで異なるコホートが使われ、同様の研究結果を比較する能力が制限される。 対照的に、さまざまなパフォーマンス指標を使用して、モデル結果を比較する能力を大幅に削減することができる。 本研究では,icuおよび非icu関連臨床時系列予測タスクのための第4版の模倣データセット (mimic-iv) の予測と評価を行う。

An increasing amount of research is being devoted to applying machine learning methods to electronic health record (EHR) data for various clinical tasks. This growing area of research has exposed the limitation of accessibility of EHR datasets for all, as well as the reproducibility of different modeling frameworks. One reason for these limitations is the lack of standardized pre-processing pipelines. MIMIC is a freely available EHR dataset in a raw format that has been used in numerous studies. The absence of standardized pre-processing steps serves as a major barrier to the wider adoption of the dataset. It also leads to different cohorts being used in downstream tasks, limiting the ability to compare the results among similar studies. Contrasting studies also use various distinct performance metrics, which can greatly reduce the ability to compare model results. In this work, we provide an end-to-end fully customizable pipeline to extract, clean, and pre-process data; and to predict and evaluate the fourth version of the MIMIC dataset (MIMIC-IV) for ICU and non-ICU-related clinical time-series prediction tasks.
翻訳日:2022-05-02 14:35:22 公開日:2022-04-29
# vpnets: ソースフリーダイナミクス学習のためのボリューム保存ニューラルネットワーク

VPNets: Volume-preserving neural networks for learning source-free dynamics ( http://arxiv.org/abs/2204.13843v1 )

ライセンス: Link先を確認
Aiqing Zhu, Beibei Zhu, Jiawei Zhang, Yifa Tang, Jian Liu(参考訳) トラジェクトリデータを用いて未知のソースレス力学系を学習するためのボリューム保存ネットワーク(VPNet)を提案する。 R-VPNet と LA-VPNet という2つのネットワークアーキテクチャを実現するために,我々は3つのモジュールを提案している。 提案モデルの特徴は,本質的な容積保存である点である。 さらに、対応する近似定理が証明され、提案したVPNセットの表現性を理論的に保証し、ソースフリーダイナミクスを学習する。 数値実験により,VP-Netの有効性,一般化能力,構造保存特性を実証した。

We propose volume-preserving networks (VPNets) for learning unknown source-free dynamical systems using trajectory data. We propose three modules and combine them to obtain two network architectures, coined R-VPNet and LA-VPNet. The distinct feature of the proposed models is that they are intrinsic volume-preserving. In addition, the corresponding approximation theorems are proved, which theoretically guarantee the expressivity of the proposed VPNets to learn source-free dynamics. The effectiveness, generalization ability and structure-preserving property of the VP-Nets are demonstrated by numerical experiments.
翻訳日:2022-05-02 14:35:02 公開日:2022-04-29
# RoSA:Node-Nodeグラフコントラスト学習のためのロバストな自己調整フレームワーク

RoSA: A Robust Self-Aligned Framework for Node-Node Graph Contrastive Learning ( http://arxiv.org/abs/2204.13846v1 )

ライセンス: Link先を確認
Yun Zhu, Jianhao Guo, Fei Wu, Siliang Tang(参考訳) グラフコントラスト学習は近年大きく進歩している。 しかし、既存の作品は、非アライメントノード-ノードのコントラストを検討することは滅多にない。 本稿では,ノードレベル表現学習における非整合拡張ビューの利用に着目した,新しいグラフコントラスト学習手法rosaを提案する。 まず、地球移動者の距離を利用して、ビュー間のアライメントを必要としない対照的な目的として、一方のビューの分布を他方に変換する最小の努力をモデル化する。 次に,サンプルの多様性を高め,モデルの堅牢性を高めるための補助的手法として,対人訓練を導入する。 実験結果から,RoSAは相同性,非相同性,動的グラフ上で,一連のグラフ比較学習フレームワークより優れており,作業の有効性が検証された。 我々の知る限りでは、RoSAは非整列ノードグラフの対照的な学習問題に焦点を当てた最初の研究である。 我々のコードは以下の通りである。 \href{https://github.com/ZhuYun97/RoSA}{\textt{https://github.com/ZhuYun97/RoSA}}

Graph contrastive learning has gained significant progress recently. However, existing works have rarely explored non-aligned node-node contrasting. In this paper, we propose a novel graph contrastive learning method named RoSA that focuses on utilizing non-aligned augmented views for node-level representation learning. First, we leverage the earth mover's distance to model the minimum effort to transform the distribution of one view to the other as our contrastive objective, which does not require alignment between views. Then we introduce adversarial training as an auxiliary method to increase sampling diversity and enhance the robustness of our model. Experimental results show that RoSA outperforms a series of graph contrastive learning frameworks on homophilous, non-homophilous and dynamic graphs, which validates the effectiveness of our work. To the best of our awareness, RoSA is the first work focuses on the non-aligned node-node graph contrastive learning problem. Our codes are available at: \href{https://github.com/ZhuYun97/RoSA}{\texttt{https://github.com/ZhuYun97/RoSA}}
翻訳日:2022-05-02 14:34:53 公開日:2022-04-29
# 指数積分器を用いた拡散モデルの高速サンプリング

Fast Sampling of Diffusion Models with Exponential Integrator ( http://arxiv.org/abs/2204.13902v1 )

ライセンス: Link先を確認
Qinsheng Zhang, Yongxin Chen(参考訳) 過去数年間、ジェネレーションモデリングタスクにおける高忠実度サンプルの生成において、拡散モデル—(DM)の大きな成功を目撃してきた。 dmの主な制限は、通常、所望の精度に達するために学習された拡散プロセスの数百から数千時間の離散化ステップを必要とする、悪名高いサンプリング手順である。 本研究の目的は,dmsのサンプル品質を保ちながら,ステップ数をはるかに少なくした高速サンプリング手法を開発することである。 そこで本研究では,DMのサンプリング手順を体系的に解析し,識別方法が最重要となる試料品質に影響を与える重要な因子を同定する。 学習した拡散過程を精査して拡散指数積分器サンプリング(DEIS)を提案する。 これは通常の微分方程式(odes)を離散化するために設計された指数積分器に基づいており、学習拡散過程の半線形構造を利用して離散化誤差を減少させる。 提案手法は任意のDMに適用可能であり,10ステップ以内で高忠実度サンプルを生成することができる。 実験では、1つのA6000 GPUで約3分かかり、CIFAR10から50k$の画像を生成する。 さらに,事前に訓練したDMを直接使用することにより,CIFAR10上での3.37 FIDと9.74 インセプションスコアなど,スコア関数の評価値~(NFE)が制限された場合に,最先端のサンプリング性能を実現する。

The past few years have witnessed the great success of Diffusion models~(DMs) in generating high-fidelity samples in generative modeling tasks. A major limitation of the DM is its notoriously slow sampling procedure which normally requires hundreds to thousands of time discretization steps of the learned diffusion process to reach the desired accuracy. Our goal is to develop a fast sampling method for DMs with much less number of steps while retaining high sample quality. To this end, we systematically analyze the sampling procedure in DMs and identify key factors that affect the sample quality, among which the method of discretization is most crucial. By carefully examining the learned diffusion process, we propose Diffusion Exponential Integrator Sampler~(DEIS). It is based on the Exponential Integrator designed for discretizing ordinary differential equations (ODEs) and leverages a semilinear structure of the learned diffusion process to reduce the discretization error. The proposed method can be applied to any DMs and can generate high-fidelity samples in as few as 10 steps. In our experiments, it takes about 3 minutes on one A6000 GPU to generate $50k$ images from CIFAR10. Moreover, by directly using pre-trained DMs, we achieve the state-of-art sampling performance when the number of score function evaluation~(NFE) is limited, e.g., 3.37 FID and 9.74 Inception score with only 15 NFEs on CIFAR10.
翻訳日:2022-05-02 14:33:07 公開日:2022-04-29
# 深層学習システムのための不確実性推定

Tailored Uncertainty Estimation for Deep Learning Systems ( http://arxiv.org/abs/2204.13963v1 )

ライセンス: Link先を確認
Joachim Sicking, Maram Akila, Jan David Schneider, Fabian H\"uger, Peter Schlicht, Tim Wirtz, Stefan Wrobel(参考訳) 不確実性推定は、ディープラーニング(DL)システムをより信頼性の高いものにする可能性がある。 しかし、不確実性推定の標準的な手法は、例えば推定品質、一般化能力、計算複雑性など、強度と弱さの特定の組み合わせと共に現れる。 不確実な定量化の可能性を実際に活用するためには、特定のユースケースの要件によく適合する特性を持つ推定器が必要である。 本研究では,まず,これらの要求を構造化し,形作る枠組みを提案し,次に不確実性推定手法の選択を指導し,その選択を検証し,構造的弱点を明らかにするための戦略を提供する。 この意味で調整された不確実性推定に寄与することで、我々のフレームワークは信頼できるdlシステムを育むのに役立つ。 さらに、EUなどの先進的な機械学習規制が、機械学習システムの技術的適切性を示す証拠を必要とすることを予測している。 我々のフレームワークは不確実性をモデル化するシステムコンポーネントに対してそのような証拠を提供する。

Uncertainty estimation bears the potential to make deep learning (DL) systems more reliable. Standard techniques for uncertainty estimation, however, come along with specific combinations of strengths and weaknesses, e.g., with respect to estimation quality, generalization abilities and computational complexity. To actually harness the potential of uncertainty quantification, estimators are required whose properties closely match the requirements of a given use case. In this work, we propose a framework that, firstly, structures and shapes these requirements, secondly, guides the selection of a suitable uncertainty estimation method and, thirdly, provides strategies to validate this choice and to uncover structural weaknesses. By contributing tailored uncertainty estimation in this sense, our framework helps to foster trustworthy DL systems. Moreover, it anticipates prospective machine learning regulations that require, e.g., in the EU, evidences for the technical appropriateness of machine learning systems. Our framework provides such evidences for system components modeling uncertainty.
翻訳日:2022-05-02 14:32:43 公開日:2022-04-29
# 部分的・開放的・部分的適応のための未発見断層の生成制御

Controlled Generation of Unseen Faults for Partial and OpenSet&Partial Domain Adaptation ( http://arxiv.org/abs/2204.14068v1 )

ライセンス: Link先を確認
Katharina Rombach, Dr. Gabriel Michau and Prof. Dr. Olga Fink(参考訳) 新たな運用条件は、トレーニングとテストデータ分布のドメインギャップによって、障害診断モデルのパフォーマンスが低下する可能性がある。 このようなドメインシフトを克服するためにいくつかのドメイン適応アプローチが提案されているが、2つのドメインのラベル空間が一致しない場合、それらの適用は制限される。 トレーニングされたモデルの転送性を改善するため、特に正常なデータクラスのみを2つのドメイン間で共有するセットアップにおいて、部分的およびOpenSet&Partialドメイン適応のためのWasserstein GANに基づく新しいフレームワークを提案する。 主なコントリビューションは制御されたフォールトデータ生成であり、ターゲットドメイン内の正常なサンプルとソースドメイン内の障害サンプルにのみアクセスすることで、対象ドメイン内の未観測の障害タイプと重大度レベルを生成することができる。 提案手法は,異なる領域適応条件下でのドメインギャップをブリッジする能力を評価するために,2つの障害診断事例を対象とした部分的および部分的ドメイン適応実験を行った。 その結果、フレームワークの汎用性と、合成されたフォールトデータは、特にドメインギャップが大きい場合において、ドメインギャップをブリッジするのに役立ちます。

New operating conditions can result in a performance drop of fault diagnostics models due to the domain gap between the training and the testing data distributions. While several domain adaptation approaches have been proposed to overcome such domain shifts, their application is limited if the label spaces of the two domains are not congruent. To improve the transferability of the trained models, particularly in setups where only the healthy data class is shared between the two domains, we propose a new framework based on a Wasserstein GAN for Partial and OpenSet&Partial domain adaptation. The main contribution is the controlled fault data generation that enables to generate unobserved fault types and severity levels in the target domain by having only access to the healthy samples in the target domain and faulty samples in the source domain. To evaluate the ability of the proposed method to bridge domain gaps in different domain adaption settings, we conduct Partial as well as OpenSet&Partial domain adaptation experiments on two bearing fault diagnostics case studies. The results show the versatility of the framework and that the synthetically generated fault data helps bridging the domain gaps, especially in instances where the domain gap is large.
翻訳日:2022-05-02 14:32:28 公開日:2022-04-29
# ワイドニューラルネットワークとディープニューラルネットワークによる分類の最適化

Wide and Deep Neural Networks Achieve Optimality for Classification ( http://arxiv.org/abs/2204.14126v1 )

ライセンス: Link先を確認
Adityanarayanan Radhakrishnan, Mikhail Belkin, Caroline Uhler(参考訳) ニューラルネットワークはドメイン間の分類タスクに使用されるが、機械学習における長年のオープン問題は、標準手順を用いて訓練されたニューラルネットワークが分類に最適であるかどうか、すなわち、任意のデータ分布の誤分類の確率を最小化するかどうかを決定することである。 本研究では,最適性を実現するニューラルネットワーク分類器の明示的集合を同定し,構築する。 実際に有効なニューラルネットワークは、通常、幅も深さも大きいので、無限に深いネットワークを分析します。 特に、無限大のニューラルネットワークとニューラルタンジェントカーネルの最近の接続を用いて、最適性を達成できるネットワーク構築に使用できる明示的なアクティベーション関数を提供する。 興味深いことに、これらのアクティベーション機能はシンプルで実装が容易であるが、ReLUやSigmoidのような一般的なアクティベーションとは異なっている。 More generally, we create a taxonomy of infinitely wide and deep networks and show that these models implement one of three well-known classifiers depending on the activation function used: (1) 1-nearest neighbor (model predictions are given by the label of the nearest training example); (2) majority vote (model predictions are given by the label of the class with greatest representation in the training set); or (3) singular kernel classifiers (a set of classifiers containing those that achieve optimality). その結果,過度の深度が有害な回帰タスクとは対照的に,分類タスクにディープネットワークを使用することのメリットが強調された。

While neural networks are used for classification tasks across domains, a long-standing open problem in machine learning is determining whether neural networks trained using standard procedures are optimal for classification, i.e., whether such models minimize the probability of misclassification for arbitrary data distributions. In this work, we identify and construct an explicit set of neural network classifiers that achieve optimality. Since effective neural networks in practice are typically both wide and deep, we analyze infinitely wide networks that are also infinitely deep. In particular, using the recent connection between infinitely wide neural networks and Neural Tangent Kernels, we provide explicit activation functions that can be used to construct networks that achieve optimality. Interestingly, these activation functions are simple and easy to implement, yet differ from commonly used activations such as ReLU or sigmoid. More generally, we create a taxonomy of infinitely wide and deep networks and show that these models implement one of three well-known classifiers depending on the activation function used: (1) 1-nearest neighbor (model predictions are given by the label of the nearest training example); (2) majority vote (model predictions are given by the label of the class with greatest representation in the training set); or (3) singular kernel classifiers (a set of classifiers containing those that achieve optimality). Our results highlight the benefit of using deep networks for classification tasks, in contrast to regression tasks, where excessive depth is harmful.
翻訳日:2022-05-02 14:32:07 公開日:2022-04-29
# エバポ呼吸分割のための特徴セット最適化による機械学習モデル構築フレームワーク

A Framework for Constructing Machine Learning Models with Feature Set Optimisation for Evapotranspiration Partitioning ( http://arxiv.org/abs/2204.14142v1 )

ライセンス: Link先を確認
Adam Stapleton, Elke Eichelmann, Mark Roantree(参考訳) 蒸発散の要因のより深い理解と、その構成部品(蒸発と蒸発)のモデリングは、今後数十年にわたって世界中の水資源の監視と管理において重要な意味を持つ可能性がある。 本研究では、候補セットから最適な機械学習アルゴリズムを識別し、最適な予測特徴の選択と、予測精度を重視したランキング機能を選択するフレームワークを開発した。 実験では,4つの湿地にまたがる3つの特徴セットを8つの候補機械学習アルゴリズムに入力し,96の実験構成を提供した。 このパラメータの多さから,本研究では, 類似性にもかかわらず, ウェットランドのすべてのサイトを対象にした, 最適な機械学習アルゴリズムや特徴セットが存在しないことを示す。 特徴の重要さを調べる際に発見された重要な発見は、蒸発散との関係を一般に調べていないメタンフラックスが、さらなる生物学的プロセスの理解に寄与する可能性があることである。

A deeper understanding of the drivers of evapotranspiration and the modelling of its constituent parts (evaporation and transpiration) could be of significant importance to the monitoring and management of water resources globally over the coming decades. In this work, we developed a framework to identify the best performing machine learning algorithm from a candidate set, select optimal predictive features as well as ranking features in terms of their importance to predictive accuracy. Our experiments used 3 separate feature sets across 4 wetland sites as input into 8 candidate machine learning algorithms, providing 96 sets of experimental configurations. Given this high number of parameters, our results show strong evidence that there is no singularly optimal machine learning algorithm or feature set across all of the wetland sites studied despite their similarities. A key finding discovered when examining feature importance is that methane flux, a feature whose relationship with evapotranspiration is not generally examined, may contribute to further biophysical process understanding.
翻訳日:2022-05-02 14:29:46 公開日:2022-04-29
# AIシステムにおける責任ある信頼のための設計:コミュニケーションの視点から

Designing for Responsible Trust in AI Systems: A Communication Perspective ( http://arxiv.org/abs/2204.13828v1 )

ライセンス: Link先を確認
Q. Vera Liao and S. Shyam Sundar(参考訳) 現在の文献と「AIにおける信頼」に関する大衆の談話は、しばしば信頼に値するAIの基礎となる原則に焦点が当てられている。 aiシステムは信頼性のレベルが異なるため、次の2つの疑問が浮かび上がっている: 異なるユーザによる適切かつ公平な信頼判断を確実にするために、ai信頼性はどのように責任を持って伝達されるべきなのか、そして、ユーザを騙して信頼を得るためにどのように守ることができるのか? コミュニケーション理論や技術信頼に関する文献から、matchと呼ばれる概念モデルを構築し、信頼性の手がかりを通じてaiシステムにおいて信頼性がいかに伝達されるか、そしてこれらの手がかりがどのように人々が信頼の判断を行うためにどのように処理されるかを記述する。 AI生成コンテンツ以外にも、私たちは透明性とインタラクションを、AIシステムの余裕として強調しています。 多様なユーザの認知過程を照らし、信頼判断とその潜在的な限界を明らかにすることにより、技術制作者に対して、ターゲットユーザに対して信頼できる信頼性を選択するための意識的な判断と、業界として、この空間を規制し、悪質な使用を防止するように求めます。 これらの目標に向けて、保証された信頼性基準と高価な信頼性基準の概念を定義し、技術クリエイターが使用する適切な基準を特定するための要件チェックリストを提案する。 我々は、実践者がMATCHを使ってAIシステムを責任を持って設計する方法を説明するための仮説的なユースケースを提示し、AIに対する責任ある信頼を促進することを目的とした研究と産業の取り組みの今後の方向性について議論する。

Current literature and public discourse on "trust in AI" are often focused on the principles underlying trustworthy AI, with insufficient attention paid to how people develop trust. Given that AI systems differ in their level of trustworthiness, two open questions come to the fore: how should AI trustworthiness be responsibly communicated to ensure appropriate and equitable trust judgments by different users, and how can we protect users from deceptive attempts to earn their trust? We draw from communication theories and literature on trust in technologies to develop a conceptual model called MATCH, which describes how trustworthiness is communicated in AI systems through trustworthiness cues and how those cues are processed by people to make trust judgments. Besides AI-generated content, we highlight transparency and interaction as AI systems' affordances that present a wide range of trustworthiness cues to users. By bringing to light the variety of users' cognitive processes to make trust judgments and their potential limitations, we urge technology creators to make conscious decisions in choosing reliable trustworthiness cues for target users and, as an industry, to regulate this space and prevent malicious use. Towards these goals, we define the concepts of warranted trustworthiness cues and expensive trustworthiness cues, and propose a checklist of requirements to help technology creators identify appropriate cues to use. We present a hypothetical use case to illustrate how practitioners can use MATCH to design AI systems responsibly, and discuss future directions for research and industry efforts aimed at promoting responsible trust in AI.
翻訳日:2022-05-02 14:29:10 公開日:2022-04-29
# 深部デジタル診断パッチ分類器における画像と入力解像度の影響の理解

Understanding the impact of image and input resolution on deep digital pathology patch classifiers ( http://arxiv.org/abs/2204.13829v1 )

ライセンス: Link先を確認
Eu Wern Teh, Graham W. Taylor(参考訳) 我々は,専門的アノテーションが高価であり,したがって不足しているDigital Pathology(DP)におけるアノテーションの効率的な学習について考察する。 画像と入力解像度がDPパッチ分類性能に及ぼす影響について検討する。 我々は,PCamとCRCの2つの癌パッチ分類データセットを用いて,本研究の結果を検証した。 本実験では,アノテーションやアノテーションに富んだ環境において,画像と入力解像度の両方を操作することで,パッチ分類性能の向上が期待できることを示す。 両データセットにおける画像と入力解像度の正の相関とパッチ分類精度を示す。 画像と入力解像度を活用することで、PCamデータセット上の元の画像解像度の100%のデータでトレーニングされたモデルと比較して、1%以上のデータでトレーニングされた最終モデルは同等に機能する。

We consider annotation efficient learning in Digital Pathology (DP), where expert annotations are expensive and thus scarce. We explore the impact of image and input resolution on DP patch classification performance. We use two cancer patch classification datasets PCam and CRC, to validate the results of our study. Our experiments show that patch classification performance can be improved by manipulating both the image and input resolution in annotation-scarce and annotation-rich environments. We show a positive correlation between the image and input resolution and the patch classification accuracy on both datasets. By exploiting the image and input resolution, our final model trained on < 1% of data performs equally well compared to the model trained on 100% of data in the original image resolution on the PCam dataset.
翻訳日:2022-05-02 14:28:12 公開日:2022-04-29
# (参考訳) 多言語プロンプト:多言語マルチタスクプロンプトレイニング

Polyglot Prompt: Multilingual Multitask PrompTraining ( http://arxiv.org/abs/2204.14264v1 )

ライセンス: CC BY 4.0
Jinlan Fu, See-Kiong Ng, Pengfei Liu(参考訳) 異なる言語から異なるタスクを(タスク/言語固有のモジュールを使わずに)モノリシックなフレームワークでモデル化できるだろうか? これを実現するメリットは、低リソースシナリオでトレーニングされたシステムが、他の言語やタスクによって支援されるだけでなく、将来の多言語研究のための新たなドアを開くことだ。 学習フレームワークであるPolyglot Promptを開発し、適切な多言語プロンプトエンジニアリングの後、異なる言語やタスクの統一的な意味空間を学習するためのプロンプト手法を導入する。 対象分類,感情分類,名前付きエンティティ認識,質問応答,自然言語推論,要約,24のデータセット,49の言語を包括的に評価し,マルチリンガル・マルチタスク・プロンプト・トレーニングの有効性を示すとともに,いくつかの興味深い知見を提案する。 例えば、英語のプロンプトは多言語であるため、他の言語のタスクサンプルに直接適用することで改善される可能性がある。 また, 解釈可能な多言語評価手法を提案し, 提案手法である多言語多言語プロンプトトレーニングがどのように機能するかを示す。 すべてのデータセットを最高の設定でリリースし、すぐにコードをリリースします。

This paper aims for a potential architectural breakthrough for multilingual learning and asks: could different tasks from different languages be modeled in a monolithic framework (without any task/language-specific module)? The benefit of achieving this is not only that systems trained on low resources scenario can be assisted by more other languages and tasks, but opening new doors for future multilingual research. We approach this goal by developing a learning framework Polyglot Prompt, where prompting methods are introduced to learn a unified semantic space for different languages and tasks after proper multilingual prompt engineering. Experimentally, we perform a comprehensive evaluation on 6 tasks (topic classification, sentiment classification, named entity recognition, question answering, natural language inference, summarization), 24 datasets, and 49 languages, which shows the efficacy of multilingual multitask prompting training and suggests several interesting observations. e.g., English prompts are polyglots since directly applying them to task samples in other languages could result in a better improvement. We also present an interpretable multilingual evaluation methodology and show how the proposed framework, multilingual multitask prompt training, works. We release all datasets prompted in the best setting and will release our code soon.
翻訳日:2022-05-02 14:26:21 公開日:2022-04-29
# QRelScore: コンテキスト認識の関連性をより深く理解した生成した質問を評価する

QRelScore: Better Evaluating Generated Questions with Deeper Understanding of Context-aware Relevance ( http://arxiv.org/abs/2204.13921v1 )

ライセンス: Link先を確認
Xiaoqiang Wang, Bang Liu, Siliang Tang, Lingfei Wu(参考訳) 質問生成を評価するための既存のメトリクスは、コストのかかる人間の参照を必要とするだけでなく、生成の入力コンテキストを考慮しても失敗し、生成された質問と入力コンテキストの関係性に関する深い理解が欠如している。 その結果、正当で合理的な候補者の質問を誤って罰する可能性がある。 (i)文脈による複雑な推論、又は (ii)文脈において複数の証拠が根拠となる。 本稿では,$\underline{\textbf{QRelScore}$, $\underline{\textbf{Rel}}$evance Evaluation metric for $\underline{\textbf{Q}}$uestion Generationを提案する。 BERTやGPT2のような既製の言語モデルに基づいて、QRelScoreは単語レベルの階層マッチングと文レベルのプロンプトベースの生成の両方を使用して、複数の証拠から複雑な推論と多種多様な生成に対処する。 既存の測定値と比較すると、QRelScoreは人間による判断と高い相関性を持ちながら、敵のサンプルに対してより堅牢であることを示す。

Existing metrics for assessing question generation not only require costly human reference but also fail to take into account the input context of generation, rendering the lack of deep understanding of the relevance between the generated questions and input contexts. As a result, they may wrongly penalize a legitimate and reasonable candidate question when it (i) involves complicated reasoning with the context or (ii) can be grounded by multiple evidences in the context. In this paper, we propose $\textbf{QRelScore}$, a context-aware $\underline{\textbf{Rel}}$evance evaluation metric for $\underline{\textbf{Q}}$uestion Generation. Based on off-the-shelf language models such as BERT and GPT2, QRelScore employs both word-level hierarchical matching and sentence-level prompt-based generation to cope with the complicated reasoning and diverse generation from multiple evidences, respectively. Compared with existing metrics, our experiments demonstrate that QRelScore is able to achieve a higher correlation with human judgments while being much more robust to adversarial samples.
翻訳日:2022-05-02 13:51:27 公開日:2022-04-29
# 「私の鼻が走っている」「あなたもcooughing?」:解釈可能な問合せ論理を持つ医療診断エージェントの構築

"My nose is running.""Are you also coughing?": Building A Medical Diagnosis Agent with Interpretable Inquiry Logics ( http://arxiv.org/abs/2204.13953v1 )

ライセンス: Link先を確認
Wenge Liu, Yi Cheng, Hao Wang, Jianheng Tangi, Yafei Liu, Ruihui Zhao, Wenjie Li, Yefeng Zheng, Xiaodan Liang(参考訳) 近年,遠隔医療の普及に伴い,Dialogue Systems for Medical Diagnosis (DSMD) の開発が注目されている。 システム構築に余分な人材と専門知識を必要とする初期の研究とは異なり、最近の研究は純粋にデータ駆動の方法でdsmdを構築する方法に焦点を当てた。 しかし、従来のデータ駆動DSMD手法は、医療アプリケーションにとって重要なシステム解釈可能性を見落としており、同時にデータ空間の問題にも悩まされていた。 本稿では,データ駆動DSMDに解釈可能性をもたらす方法について検討する。 具体的には,実際の医師の問合せ論理を合理的に模倣してdsmdの対話マネージャを実装するための,より解釈可能な意思決定プロセスを提案する。 さらに,DSMDデータセットを新たに収集し,既存のデータセットよりもスケールが大きく,パターンも多様であり,高品質である。 実験の結果,3つのデータセットでそれぞれ診断精度が7.7%,10.0%,3.0%向上し,合理的決定プロセスとモデル設計の有効性が示された。 私たちのコードとgmd-12データセットはhttps://github.com/lwgkzl/br-agentで利用可能です。

With the rise of telemedicine, the task of developing Dialogue Systems for Medical Diagnosis (DSMD) has received much attention in recent years. Different from early researches that needed to rely on extra human resources and expertise to help construct the system, recent researches focused on how to build DSMD in a purely data-driven manner. However, the previous data-driven DSMD methods largely overlooked the system interpretability, which is critical for a medical application, and they also suffered from the data sparsity issue at the same time. In this paper, we explore how to bring interpretability to data-driven DSMD. Specifically, we propose a more interpretable decision process to implement the dialogue manager of DSMD by reasonably mimicking real doctors' inquiry logics, and we devise a model with highly transparent components to conduct the inference. Moreover, we collect a new DSMD dataset, which has a much larger scale, more diverse patterns and is of higher quality than the existing ones. The experiments show that our method obtains 7.7%, 10.0%, 3.0% absolute improvement in diagnosis accuracy respectively on three datasets, demonstrating the effectiveness of its rational decision process and model design. Our codes and the GMD-12 dataset are available at https://github.com/lwgkzl/BR-Agent.
翻訳日:2022-05-02 13:51:08 公開日:2022-04-29
# 気候と天候:感情認識による抑うつ検出の検査

Climate and Weather: Inspecting Depression Detection via Emotion Recognition ( http://arxiv.org/abs/2204.14099v1 )

ライセンス: Link先を確認
Wen Wu, Mengyue Wu, Kai Yu(参考訳) 自動うつ病検出は注目度を高めているが、依然として困難な課題である。 心理研究は、うつ病の感情は感情の表現と知覚と密接に関連しており、うつ病検出のために感情認識の知識を伝達できるかどうかの調査を動機づけていることを示唆している。 本稿では,抑うつ検出のための感情認識モデルから抽出された事前学習された特徴を用いて,感情モダリティを音声とテキストと融合させ,マルチモーダル抑うつ検出を行う。 提案した感情伝達により,DAIC-WOZの抑うつ検出性能が向上し,トレーニング安定性が向上する。 うつ病患者によって表現される感情がどのように認識されるかの分析は、うつ病と感情の関係をさらに理解するための手がかりとなる。

Automatic depression detection has attracted increasing amount of attention but remains a challenging task. Psychological research suggests that depressive mood is closely related with emotion expression and perception, which motivates the investigation of whether knowledge of emotion recognition can be transferred for depression detection. This paper uses pretrained features extracted from the emotion recognition model for depression detection, further fuses emotion modality with audio and text to form multimodal depression detection. The proposed emotion transfer improves depression detection performance on DAIC-WOZ as well as increases the training stability. The analysis of how the emotion expressed by depressed individuals is further perceived provides clues for further understanding of the relationship between depression and emotion.
翻訳日:2022-05-02 13:50:44 公開日:2022-04-29
# OPERA:テキスト上での操作駆動離散推論

OPERA:Operation-Pivoted Discrete Reasoning over Text ( http://arxiv.org/abs/2204.14166v1 )

ライセンス: Link先を確認
Yongwei Zhou, Junwei Bao, Chaoqun Duan, Haipeng Sun, Jiahui Liang, Yifan Wang, Jing Zhao, Youzheng Wu, Xiaodong He, Tiejun Zhao(参考訳) 記号演算、例えば加算、ソート、計数を含む離散的推論を必要とする機械読解(mrc)は難しい課題である。 この性質により、意味解析に基づく手法は解釈可能だが複雑な論理形式を予測する。 しかし、論理形式の生成は非自明であり、論理形式における少しの摂動さえも間違った答えにつながる。 この問題を軽減するために,様々なタイプの回答を直接予測し,改善を実現するマルチ予測手法を提案する。 しかし、シンボリック操作の利用を無視し、推論能力と解釈能力の欠如に遭遇する。 これらの2種類の手法の利点を継承するため,我々は,ニューラルモジュールとしての軽量なシンボリック演算(論理形式との比較)を用いて推論能力と解釈性を向上させる,操作駆動型離散推論フレームワークOPERAを提案する。 具体的には、まず操作を選択し、それからソフトに実行し、回答推論手順をシミュレートする。 DROPとRACENumのデータセットに関する大規模な実験は、OPERAの推論能力を示している。 さらに、さらなる分析によってその解釈性が検証される。

Machine reading comprehension (MRC) that requires discrete reasoning involving symbolic operations, e.g., addition, sorting, and counting, is a challenging task. According to this nature, semantic parsing-based methods predict interpretable but complex logical forms. However, logical form generation is nontrivial and even a little perturbation in a logical form will lead to wrong answers. To alleviate this issue, multi-predictor -based methods are proposed to directly predict different types of answers and achieve improvements. However, they ignore the utilization of symbolic operations and encounter a lack of reasoning ability and interpretability. To inherit the advantages of these two types of methods, we propose OPERA, an operation-pivoted discrete reasoning framework, where lightweight symbolic operations (compared with logical forms) as neural modules are utilized to facilitate the reasoning ability and interpretability. Specifically, operations are first selected and then softly executed to simulate the answer reasoning procedure. Extensive experiments on both DROP and RACENum datasets show the reasoning ability of OPERA. Moreover, further analysis verifies its interpretability.
翻訳日:2022-05-02 13:50:31 公開日:2022-04-29
# (参考訳) 術前脳腫瘍イメージング : セグメンテーションと標準化報告のためのモデルとソフトウェア

Preoperative brain tumor imaging: models and software for segmentation and standardized reporting ( http://arxiv.org/abs/2204.14199v1 )

ライセンス: CC BY 4.0
D. Bouget, A. Pedersen, A. S. Jakola, V. Kavouridis, K. E. Emblem, R. S. Eijgelaar, I. Kommers, H. Ardon, F. Barkhof, L. Bello, M. S. Berger, M. C. Nibali, J. Furtner, S. Hervey-Jumper, A. J. S. Idema, B. Kiesel, A. Kloet, E. Mandonnet, D. M. J. M\"uller, P. A. Robe, M. Rossi, T. Sciortino, W. Van den Brink, M. Wagemakers, G. Widhalm, M. G. Witte, A. H. Zwinderman, P. C. De Witt Hamer, O. Solheim, I. Reinertsen(参考訳) 脳腫瘍を患っている患者は、術前mrスキャンのセットに基づいて、複数の学際チームによって予後推定と治療決定が行われる。 現在,腫瘍検出および臨床報告作成のための標準化および自動手法の欠如は大きなハードルとなっている。 本研究では, 最大4000例のコホートを通して, グリオブラスト腫, 下級グリオーマ, 髄膜腫, 転移について検討した。 腫瘍のセグメンテーションモデルは、前処理手順やプロトコルが異なるagu-netアーキテクチャを用いて訓練された。 音量,距離,確率的側面をカバーするvoxelと患者側での指標を用いて,セグメンテーション性能を詳細に評価した。 最後に、2つのソフトウェアソリューションが開発され、トレーニングされたモデルの簡単な使用と、raidionicsとraidionics-slicerの標準化された臨床レポートの生成が可能になった。 セグメンテーション性能は4種類の脳腫瘍に対して非常に均一であり, 平均正のDiceは80%から90%, 患者側のリコールは88%から98%, 患者側の精度は95%であった。 弊社のRaidionicsソフトウェアでは、CPUをサポートしたデスクトップコンピュータ上で動作し、MRIボリュームの寸法に応じて16秒から54秒で腫瘍の分画を行うことができる。 腫瘍セグメンテーションと特徴計算を含む標準化された臨床報告の生成には,5~15分が必要である。 トレーニングされたすべてのモデルは、ソフトウェアソリューションと検証メトリクスの計算の両方のソースコードと一緒にオープンアクセスされました。 将来的には、手動入力を置き換えるために、脳腫瘍のタイプを自動分類する必要がある。 最後に、両ソフトウェアソリューションに術後のセグメンテーションを含めることが、術後の標準化された臨床報告の完全生成の鍵となる。

For patients suffering from brain tumor, prognosis estimation and treatment decisions are made by a multidisciplinary team based on a set of preoperative MR scans. Currently, the lack of standardized and automatic methods for tumor detection and generation of clinical reports represents a major hurdle. In this study, we investigate glioblastomas, lower grade gliomas, meningiomas, and metastases, through four cohorts of up to 4000 patients. Tumor segmentation models were trained using the AGU-Net architecture with different preprocessing steps and protocols. Segmentation performances were assessed in-depth using a wide-range of voxel and patient-wise metrics covering volume, distance, and probabilistic aspects. Finally, two software solutions have been developed, enabling an easy use of the trained models and standardized generation of clinical reports: Raidionics and Raidionics-Slicer. Segmentation performances were quite homogeneous across the four different brain tumor types, with an average true positive Dice ranging between 80% and 90%, patient-wise recall between 88% and 98%, and patient-wise precision around 95%. With our Raidionics software, running on a desktop computer with CPU support, tumor segmentation can be performed in 16 to 54 seconds depending on the dimensions of the MRI volume. For the generation of a standardized clinical report, including the tumor segmentation and features computation, 5 to 15 minutes are necessary. All trained models have been made open-access together with the source code for both software solutions and validation metrics computation. In the future, an automatic classification of the brain tumor type would be necessary to replace manual user input. Finally, the inclusion of post-operative segmentation in both software solutions will be key for generating complete post-operative standardized clinical reports.
翻訳日:2022-05-02 13:48:27 公開日:2022-04-29
# 臨床ノートによる暴力リスク予測の理解

Making sense of violence risk predictions using clinical notes ( http://arxiv.org/abs/2204.13976v1 )

ライセンス: Link先を確認
Pablo Mosteiro, Emil Rijcken, Kalliopi Zervanou, Uzay Kaymak, Floortje Scheepers, Marco Spruit(参考訳) 精神医学施設における暴力リスク評価は、介入によって暴力事件を避けることができる。 エレクトロニック・ヘルス・レコーズ(EHR)に記載された臨床記録は、その潜在能力にはほとんど使われていない貴重な資料である。 これまでの研究では、このようなノートを用いて精神科患者の暴力リスクを許容できる性能で評価しようと試みている。 しかし、なぜ分類が機能するのか、どのように改善できるかは説明されていない。 臨床ノート分析の文脈で分類器の品質をよりよく理解するための2つの方法を探る:トピックモデルを用いたランダム森林と評価基準の選択。 これらの手法は、我々のデータと方法論の両方をより深く理解し、この理解に基づいて構築された改善モデルに取り組むための基盤を構築する。 これは、新しいデータに対する評価された分類器の一般化に関して特に重要である。

Violence risk assessment in psychiatric institutions enables interventions to avoid violence incidents. Clinical notes written by practitioners and available in electronic health records (EHR) are valuable resources that are seldom used to their full potential. Previous studies have attempted to assess violence risk in psychiatric patients using such notes, with acceptable performance. However, they do not explain why classification works and how it can be improved. We explore two methods to better understand the quality of a classifier in the context of clinical note analysis: random forests using topic models, and choice of evaluation metric. These methods allow us to understand both our data and our methodology more profoundly, setting up the groundwork to work on improved models that build upon this understanding. This is particularly important when it comes to the generalizability of evaluated classifiers to new data, a trustworthiness problem that is of great interest due to the increased availability of new data in electronic format.
翻訳日:2022-05-02 13:44:54 公開日:2022-04-29
# H2H:計算とコミュニケーションの認識による異種システムマッピングの不均一モデル

H2H: Heterogeneous Model to Heterogeneous System Mapping with Computation and Communication Awareness ( http://arxiv.org/abs/2204.13852v1 )

ライセンス: Link先を確認
Xinyi Zhang, Cong Hao, Peipei Zhou, Alex Jones, Jingtong Hu(参考訳) 現実世界の問題の複雑な性質は、機械学習(ml)モデルとハードウェアシステムの両方に異質性を要求する。 MLモデルの異質性は、マルチセンサーの知覚とマルチタスク学習、すなわちマルチモードマルチタスク(MMMT)から来ており、多様なディープニューラルネットワーク(DNN)層と計算パターンをもたらす。 システムの不均一性は、複数の専用アクセラレータをひとつのシステムに統合する一般的な方法となり、多様な処理コンポーネントから生じる。 したがって、ヘテロジニアスモデルからヘテロジニアスシステムマッピング(H2H)への新たな問題が発生する。 従来のマッピングアルゴリズムは効率のよい計算に重点を置いているが,本研究では,システム効率を向上させるためには計算と通信を同時に考慮することが不可欠である。 本稿では,H2Hマッピングアルゴリズムを提案する。通信の計算をわずかに交換することで,システム全体のレイテンシと消費電力を大幅に削減できる。 従来の計算優先マッピングアルゴリズムと比較して, 15%-74%の遅延低減と23%-64%の省エネ化を実証し, MAESTROモデルによる性能評価を行った。

The complex nature of real-world problems calls for heterogeneity in both machine learning (ML) models and hardware systems. The heterogeneity in ML models comes from multi-sensor perceiving and multi-task learning, i.e., multi-modality multi-task (MMMT), resulting in diverse deep neural network (DNN) layers and computation patterns. The heterogeneity in systems comes from diverse processing components, as it becomes the prevailing method to integrate multiple dedicated accelerators into one system. Therefore, a new problem emerges: heterogeneous model to heterogeneous system mapping (H2H). While previous mapping algorithms mostly focus on efficient computations, in this work, we argue that it is indispensable to consider computation and communication simultaneously for better system efficiency. We propose a novel H2H mapping algorithm with both computation and communication awareness; by slightly trading computation for communication, the system overall latency and energy consumption can be largely reduced. The superior performance of our work is evaluated based on MAESTRO modeling, demonstrating 15%-74% latency reduction and 23%-64% energy reduction compared with existing computation-prioritized mapping algorithms.
翻訳日:2022-05-02 13:44:40 公開日:2022-04-29
# 次元性低減の局所的説明

Local Explanation of Dimensionality Reduction ( http://arxiv.org/abs/2204.14012v1 )

ライセンス: Link先を確認
Avraam Bardos, Ioannis Mollas, Nick Bassiliades, Grigorios Tsoumakas(参考訳) 次元性低減(DR)は高次元データを作成・解析するための一般的な手法である。 削減されたデータ表現は計算量が少なく、管理や視覚化が容易だが、オリジナルの情報のかなりの割合を保っている。 これらの利点とは別に、これらの減少した表現は、ほとんどの状況で解釈することが困難または不可能であり、特にDRアプローチが元の空間のどの特徴がそれらの構成に繋がったかについてのさらなる情報を提供していない場合である。 この問題は、機械学習モデルの不透明さに対処するExplainable Artificial IntelligenceのサブフィールドであるInterpretable Machine Learningによって解決される。 しかし、Interpretable Machine Learningに関する現在の研究は、教師なしタスクに焦点を合わせており、ディメンダリティリダクションのような教師なしタスクは未探索のままである。 本稿では,DR手法の出力を局所的に解釈できる技術であるLXDRを紹介する。 実験結果と2つのLXDR使用例を示し,その有用性を評価した。

Dimensionality reduction (DR) is a popular method for preparing and analyzing high-dimensional data. Reduced data representations are less computationally intensive and easier to manage and visualize, while retaining a significant percentage of their original information. Aside from these advantages, these reduced representations can be difficult or impossible to interpret in most circumstances, especially when the DR approach does not provide further information about which features of the original space led to their construction. This problem is addressed by Interpretable Machine Learning, a subfield of Explainable Artificial Intelligence that addresses the opacity of machine learning models. However, current research on Interpretable Machine Learning has been focused on supervised tasks, leaving unsupervised tasks like Dimensionality Reduction unexplored. In this paper, we introduce LXDR, a technique capable of providing local interpretations of the output of DR techniques. Experiment results and two LXDR use case examples are presented to evaluate its usefulness.
翻訳日:2022-05-02 13:44:18 公開日:2022-04-29
# イベントベース多房者アンサンブルデータのためのベイズ情報基準

Bayesian Information Criterion for Event-based Multi-trial Ensemble data ( http://arxiv.org/abs/2204.14096v1 )

ライセンス: Link先を確認
Kaidi Shao, Nikos K. Logothetis, Michel Besserve(参考訳) 一過性の繰り返し現象は、神経科学や気象学といった多くの科学分野において普遍的である。 time inhomogenous vector autoregressive models (var) は、そのような現象に関連する事象の周辺システムダイナミクスを特徴付けるために用いられ、我々が「trial」と呼ぶ過渡現象の1つの発生に関連する複数の時間窓において、システムの進化のサンプルを収集する多次元データを活用することで学習することができる。 しかしながら、Akaike や Bayesian Information Criteria (AIC/BIC) に依存した最適なVARモデル順序選択法は、通常、マルチトライアルデータのために設計されていない。 ここでは, 事象検出後に収集される多施設間アンサンブルデータに対するBIC手法を導出する。 二変量arモデルを用いて多変量bicが実モデルの順序を復元できることを示す。 また、シミュレーションされた過渡事象と実データを用いて、マルチリアルBICが動的システムモデリングのための十分小さなモデルオーダーを推定できることを実証する。

Transient recurring phenomena are ubiquitous in many scientific fields like neuroscience and meteorology. Time inhomogenous Vector Autoregressive Models (VAR) may be used to characterize peri-event system dynamics associated with such phenomena, and can be learned by exploiting multi-dimensional data gathering samples of the evolution of the system in multiple time windows comprising, each associated with one occurrence of the transient phenomenon, that we will call "trial". However, optimal VAR model order selection methods, commonly relying on the Akaike or Bayesian Information Criteria (AIC/BIC), are typically not designed for multi-trial data. Here we derive the BIC methods for multi-trial ensemble data which are gathered after the detection of the events. We show using simulated bivariate AR models that the multi-trial BIC is able to recover the real model order. We also demonstrate with simulated transient events and real data that the multi-trial BIC is able to estimate a sufficiently small model order for dynamic system modeling.
翻訳日:2022-05-02 13:43:19 公開日:2022-04-29
# covid-net us-x:拡張線形凸超音波強調学習によるconvex超音波画像からの新型コロナウイルス患者検出のための深層ニューラルネットワーク

COVID-Net US-X: Enhanced Deep Neural Network for Detection of COVID-19 Patient Cases from Convex Ultrasound Imaging Through Extended Linear-Convex Ultrasound Augmentation Learning ( http://arxiv.org/abs/2204.13851v1 )

ライセンス: Link先を確認
E. Zhixuan Zeng, Adrian Florea, and Alexander Wong(参考訳) 世界人口が新型コロナウイルス(COVID-19)のパンデミックの影響を受け続けている中、新型コロナウイルス(COVID-19)の臨床ワークフローにおいて、低コストで効果的な画像モダリティとして、ポイント・オブ・ケア・超音波(POCUS)画像の使用が増えている。 新型コロナウイルス(covid-19)の臨床ワークフローでpocusが広く採用されている大きな障壁は、pocus検査を解釈できる専門家臨床医の不足であり、この課題に取り組むためにディープラーニングによる臨床判断支援システムにかなりの関心が寄せられている。 POCUS を用いた COVID-19 スクリーニングのためのディープニューラルネットワークを構築する上での大きな課題は、超音波画像(凸対線形プローブなど)を捉えるために使用されるプローブの種類が不均一であることであり、視覚的な外観が全く異なることである。 本研究では, 拡張線形凸型超音波増幅学習が深層ニューラルネットワークの生成に与える影響について検討し, 凸型プローブデータとともに凸型プローブデータにデータ拡張を行い, 凸型プローブデータによく似たように変換した。 機械駆動型設計探索戦略(COVID-Net US-Xと呼ぶ)を通じて設計された効率的な深層カラム型反慣性畳み込みニューラルネットワークを用いた実験結果から、提案した線形凸超音波拡張学習は、テスト精度が5.1%、AUCが13.6%向上した。

As the global population continues to face significant negative impact by the on-going COVID-19 pandemic, there has been an increasing usage of point-of-care ultrasound (POCUS) imaging as a low-cost and effective imaging modality of choice in the COVID-19 clinical workflow. A major barrier with widespread adoption of POCUS in the COVID-19 clinical workflow is the scarcity of expert clinicians that can interpret POCUS examinations, leading to considerable interest in deep learning-driven clinical decision support systems to tackle this challenge. A major challenge to building deep neural networks for COVID-19 screening using POCUS is the heterogeneity in the types of probes used to capture ultrasound images (e.g., convex vs. linear probes), which can lead to very different visual appearances. In this study, we explore the impact of leveraging extended linear-convex ultrasound augmentation learning on producing enhanced deep neural networks for COVID-19 assessment, where we conduct data augmentation on convex probe data alongside linear probe data that have been transformed to better resemble convex probe data. Experimental results using an efficient deep columnar anti-aliased convolutional neural network designed via a machined-driven design exploration strategy (which we name COVID-Net US-X) show that the proposed extended linear-convex ultrasound augmentation learning significantly increases performance, with a gain of 5.1% in test accuracy and 13.6% in AUC.
翻訳日:2022-05-02 13:42:06 公開日:2022-04-29
# Por Qu\'e N\~ao Utiliser Alla Spr{\aa}k? Few-Shot Inter-Lingual Transferにおけるグラディエント最適化を用いた混合学習

Por Qu\'e N\~ao Utiliser Alla Spr{\aa}k? Mixed Training with Gradient Optimization in Few-Shot Cross-Lingual Transfer ( http://arxiv.org/abs/2204.13869v1 )

ライセンス: Link先を確認
Haoran Xu, Kenton Murray(参考訳) 少ない言語間転送学習の現在の最先端は、まずソース言語で豊富なラベル付きデータをトレーニングし、次にターゲット言語でいくつかの例を微調整し、ターゲット適応(target-adapting)と呼ぶ。 本稿では,本手法の欠点について述べるとともに,ソースデータとターゲットデータの両方に対して,新しい勾配レベル最適化法である \textit{stochasticgradient surgery} を用いて訓練を行うための1段階混合訓練法を提案する。 ターゲット適応時に1つの言語にフォーカスする以前の研究とは異なり、我々は1つのモデルを使って全てのターゲット言語を同時に処理し、過度に言語固有のモデルを避ける。 さらに,本論文では,大規模ターゲット開発セットを用いたモデル選択の非現実性について述べる。 さらに,本手法は対象言語に対して開発自由であり,過度に適合する問題を回避できることを示す。 最大48言語にまたがる4種類のNLPタスクについて大規模な実験を行った。 提案手法は,NERタスクの平均値が7.36%,Punjabiが17.60%,など,言語的に言語的に言語的に離れた言語に対して,すべてのタスクに対する最先端の性能と目標適応性能を高いマージンで向上させる。

The current state-of-the-art for few-shot cross-lingual transfer learning first trains on abundant labeled data in the source language and then fine-tunes with a few examples on the target language, termed target-adapting. Though this has been demonstrated to work on a variety of tasks, in this paper we show some deficiencies of this approach and propose a one-step mixed training method that trains on both source and target data with \textit{stochastic gradient surgery}, a novel gradient-level optimization. Unlike the previous studies that focus on one language at a time when target-adapting, we use one model to handle all target languages simultaneously to avoid excessively language-specific models. Moreover, we discuss the unreality of utilizing large target development sets for model selection in previous literature. We further show that our method is both development-free for target languages, and is also able to escape from overfitting issues. We conduct a large-scale experiment on 4 diverse NLP tasks across up to 48 languages. Our proposed method achieves state-of-the-art performance on all tasks and outperforms target-adapting by a large margin, especially for languages that are linguistically distant from the source language, e.g., 7.36% F1 absolute gain on average for the NER task, up to 17.60% on Punjabi.
翻訳日:2022-05-02 13:41:18 公開日:2022-04-29
# 言語間主観性分類のためのチェコ語データセット

Czech Dataset for Cross-lingual Subjectivity Classification ( http://arxiv.org/abs/2204.13915v1 )

ライセンス: Link先を確認
Pavel P\v{r}ib\'a\v{n}, Josef Steinberger(参考訳) 本稿では,映画レビューと説明から,手作業による主観文と客観的文の注釈付き10kのチェコ主観データセットを提案する。 私たちの主な動機は、チェコ語と英語の間で知識を伝達する事前学習された多言語モデルの能力をテストするためのベンチマークとして、既存の英語データセットで使用できる信頼できるデータセットを提供することです。 2つのアノテータはデータセットにコーエンの 'k{appa} インターアノテータ合意の 0.83 に達した。 私たちの知る限りでは、これはチェコ語で最初の主観データセットです。 また、200kのラベル付き文からなる追加データセットも作成しました。 どちらのデータセットも研究目的で自由に利用できる。 さらに、トレーニング済みのBERT風モデルを5つ微調整し、新しいデータセットの単言語ベースラインを設定し、93.56%の精度を達成する。 既存の英語データセットのモデルを微調整し、現在の最先端の結果と同等の結果を得た。 最後に,チェコ語と英語の間でゼロショット言語間主観性分類を行い,クロスリンガルベンチマークとしてデータセットの有用性を検証する。 言語間および単言語間の結果と多言語モデルによる言語間の知識伝達能力を比較し,議論する。

In this paper, we introduce a new Czech subjectivity dataset of 10k manually annotated subjective and objective sentences from movie reviews and descriptions. Our prime motivation is to provide a reliable dataset that can be used with the existing English dataset as a benchmark to test the ability of pre-trained multilingual models to transfer knowledge between Czech and English and vice versa. Two annotators annotated the dataset reaching 0.83 of the Cohen's \k{appa} inter-annotator agreement. To the best of our knowledge, this is the first subjectivity dataset for the Czech language. We also created an additional dataset that consists of 200k automatically labeled sentences. Both datasets are freely available for research purposes. Furthermore, we fine-tune five pre-trained BERT-like models to set a monolingual baseline for the new dataset and we achieve 93.56% of accuracy. We fine-tune models on the existing English dataset for which we obtained results that are on par with the current state-of-the-art results. Finally, we perform zero-shot cross-lingual subjectivity classification between Czech and English to verify the usability of our dataset as the cross-lingual benchmark. We compare and discuss the cross-lingual and monolingual results and the ability of multilingual models to transfer knowledge between languages.
翻訳日:2022-05-02 13:40:51 公開日:2022-04-29
# (参考訳) エンドツーエンドの会話質問応答:タスク,データセット,モデル

End-to-end Spoken Conversational Question Answering: Task, Dataset and Model ( http://arxiv.org/abs/2204.14272v1 )

ライセンス: CC BY 4.0
Chenyu You, Nuo Chen, Fenglin Liu, Shen Ge, Xian Wu, Yuexian Zou(参考訳) 音声質問応答では、システムは関連する音声書き起こし内の連続したテキストスパンからの質問に答えるように設計されている。 しかし、人間が知識を探ったり、試したりする最も自然な方法は、人間の会話である。 そこで本研究では,音声文書から複雑な対話フローをモデル化することを目的とした音声対話質問応答タスク(scqa)を提案する。 本研究の目的は,音声記録に基づく対話型質問処理システムの構築と,情報収集システムによる様々なモダリティからより多くの手がかりを提供する可能性を探ることである。 そこで本研究では,高ノイズなデータを持つ音声書き起こしを自動生成する代わりに,モーダル情報を効果的に取り込み,よりきめ細かな音声・言語モダリティ表現を実現する,新しい統一型データ蒸留手法DDNetを提案する。 さらに,音声とテキストのアライメントを向上し,知識伝達のプロセスを容易にする,シンプルで斬新な機構であるDual Attentionを提案する。 対話型対話におけるSCQAシステムの能力を評価するために,4k会話から40万以上の質問応答対を持つ音声対話型質問応答データセット(Spoken-CoQA)を作成した。 既存の最先端手法の性能は,我々のデータセットで著しく低下しているため,クロスモーダル情報統合の必要性が示される。 提案手法は,対話型質問応答タスクにおいて優れた性能が得られることを示す。

In spoken question answering, the systems are designed to answer questions from contiguous text spans within the related speech transcripts. However, the most natural way that human seek or test their knowledge is via human conversations. Therefore, we propose a new Spoken Conversational Question Answering task (SCQA), aiming at enabling the systems to model complex dialogue flows given the speech documents. In this task, our main objective is to build the system to deal with conversational questions based on the audio recordings, and to explore the plausibility of providing more cues from different modalities with systems in information gathering. To this end, instead of directly adopting automatically generated speech transcripts with highly noisy data, we propose a novel unified data distillation approach, DDNet, which effectively ingests cross-modal information to achieve fine-grained representations of the speech and language modalities. Moreover, we propose a simple and novel mechanism, termed Dual Attention, by encouraging better alignments between audio and text to ease the process of knowledge transfer. To evaluate the capacity of SCQA systems in a dialogue-style interaction, we assemble a Spoken Conversational Question Answering (Spoken-CoQA) dataset with more than 40k question-answer pairs from 4k conversations. The performance of the existing state-of-the-art methods significantly degrade on our dataset, hence demonstrating the necessity of cross-modal information integration. Our experimental results demonstrate that our proposed method achieves superior performance in spoken conversational question answering tasks.
翻訳日:2022-05-02 13:37:34 公開日:2022-04-29
# 多言語トークン化訓練における言語不均衡へのニューラルマシン翻訳の頑健性

How Robust is Neural Machine Translation to Language Imbalance in Multilingual Tokenizer Training? ( http://arxiv.org/abs/2204.14268v1 )

ライセンス: Link先を確認
Shiyue Zhang, Vishrav Chaudhary, Naman Goyal, James Cross, Guillaume Wenzek, Mohit Bansal, Francisco Guzman(参考訳) 多言語トークン化器は多言語ニューラルマシン翻訳の基本的な構成要素である。 多言語コーパスから訓練されている。 歪んだデータ分布は有害であると考えられるため、通常、サンプリング戦略はコーパス内の言語のバランスをとるために使用される。 しかし、トークン化学習における言語不均衡が下流のパフォーマンスに与える影響について体系的に答える研究はほとんどない。 本研究では,トークン化学習コーパスにおいて,言語間のデータ比率が変化するにつれて翻訳性能がどう変化するかを分析する。 言語が均等にサンプリングされた場合、比較的優れたパフォーマンスがしばしば見られるが、下流のパフォーマンスは、通常予想していたよりも言語不均衡に対して堅牢である。 UNKレートと文字レベルに近い2つの特徴は、タスクを実行する前に下流のパフォーマンスが低いことを警告することができる。 また,トークン化学習のための言語サンプリングとモデルトレーニングのためのサンプリングを区別し,後者に対してより敏感なモデルを示す。

A multilingual tokenizer is a fundamental component of multilingual neural machine translation. It is trained from a multilingual corpus. Since a skewed data distribution is considered to be harmful, a sampling strategy is usually used to balance languages in the corpus. However, few works have systematically answered how language imbalance in tokenizer training affects downstream performance. In this work, we analyze how translation performance changes as the data ratios among languages vary in the tokenizer training corpus. We find that while relatively better performance is often observed when languages are more equally sampled, the downstream performance is more robust to language imbalance than we usually expected. Two features, UNK rate and closeness to the character level, can warn of poor downstream performance before performing the task. We also distinguish language sampling for tokenizer training from sampling for model training and show that the model is more sensitive to the latter.
翻訳日:2022-05-02 13:17:42 公開日:2022-04-29
# データ表現の分布特性に基づく文逆例の検出

Detecting Textual Adversarial Examples Based on Distributional Characteristics of Data Representations ( http://arxiv.org/abs/2204.13853v1 )

ライセンス: Link先を確認
Na Liu, Mark Dras, Wei Emma Zhang(参考訳) ディープニューラルネットワークは、様々な機械学習タスクにおいて最先端のパフォーマンスを達成したが、敵の例は、正しく分類された入力に小さな非ランダムな摂動を加えることで構築され、高度に表現力のあるディープ分類器を誤った予測に騙すことに成功した。 自然言語タスクにおける敵意攻撃へのアプローチは、文字レベル、単語レベル、句レベル、文レベルのテキスト摂動を用いて過去5年間に急増している。 対人訓練のような積極的な手法による攻撃に対する防御には、NLPではいくつかの研究があるが、画像処理文献に見られるようなテキスト対人例の検出を通じて、防御に対する効果的な汎用的なアプローチは存在しない。 本稿では,このギャップを埋めるための2つの新しいリアクティブ手法を提案する。NLPの限られたアプリケーションベースラインは,学習表現の分布特性を完全にベースとしており,画像処理文献(局所内在的次元性(LID))から1つを適応させ,新しいもの(MDRE)を提案する。 Adapted LIDとMDREは、MultiNLIデータセットに関して、IMDBデータセットだけでなく、文字レベル、単語レベル、フレーズレベルの攻撃に対して、最先端の結果を得る。 今後の研究のために、コードを公開します。

Although deep neural networks have achieved state-of-the-art performance in various machine learning tasks, adversarial examples, constructed by adding small non-random perturbations to correctly classified inputs, successfully fool highly expressive deep classifiers into incorrect predictions. Approaches to adversarial attacks in natural language tasks have boomed in the last five years using character-level, word-level, phrase-level, or sentence-level textual perturbations. While there is some work in NLP on defending against such attacks through proactive methods, like adversarial training, there is to our knowledge no effective general reactive approaches to defence via detection of textual adversarial examples such as is found in the image processing literature. In this paper, we propose two new reactive methods for NLP to fill this gap, which unlike the few limited application baselines from NLP are based entirely on distribution characteristics of learned representations: we adapt one from the image processing literature (Local Intrinsic Dimensionality (LID)), and propose a novel one (MultiDistance Representation Ensemble Method (MDRE)). Adapted LID and MDRE obtain state-of-the-art results on character-level, word-level, and phrase-level attacks on the IMDB dataset as well as on the later two with respect to the MultiNLI dataset. For future research, we publish our code.
翻訳日:2022-05-02 13:17:12 公開日:2022-04-29
# repro: 公開研究コードの再現性とユーザビリティを向上させるためのオープンソースライブラリ

Repro: An Open-Source Library for Improving the Reproducibility and Usability of Publicly Available Research Code ( http://arxiv.org/abs/2204.13848v1 )

ライセンス: Link先を確認
Daniel Deutsch and Dan Roth(参考訳) 本稿では,研究コードの再現性とユーザビリティ向上を目的としたオープンソースライブラリReproを紹介する。 このライブラリは、Dockerコンテナ内の研究者がリリースしたソフトウェアを実行するための軽量Python APIを提供する。 各パッケージの環境設定はDockerによって処理されるため、ユーザは自分で設定を行う必要はない。 Reproがインストールされると、ユーザは現在ライブラリでサポートされている30以上の論文のコードを実行できる。 研究者はReproに研究コードを含めることによって、他人に提供される価値を期待し、独自の研究コードのサポートを追加することを検討している。

We introduce Repro, an open-source library which aims at improving the reproducibility and usability of research code. The library provides a lightweight Python API for running software released by researchers within Docker containers which contain the exact required runtime configuration and dependencies for the code. Because the environment setup for each package is handled by Docker, users do not have to do any configuration themselves. Once Repro is installed, users can run the code for the 30+ papers currently supported by the library. We hope researchers see the value provided to others by including their research code in Repro and consider adding support for their own research code.
翻訳日:2022-05-02 13:16:46 公開日:2022-04-29
# GenDR: 一般化した差別化可能なレンダラー

GenDR: A Generalized Differentiable Renderer ( http://arxiv.org/abs/2204.13845v1 )

ライセンス: Link先を確認
Felix Petersen, Bastian Goldluecke, Christian Borgelt, Oliver Deussen(参考訳) 本稿では,微分可能レンダラの一般化ファミリーを提示・検討する。 異なるレンダリングに必要なコンポーネントをスクラッチから議論し、各コンポーネントの要件を形式化する。 これは softras や dib-r のような既存の微分可能レンダラーを一般化し、様々な平滑化分布を配列して、多くの合理的な設定をカバーする。 人気のShapeNet 3D再構成ベンチマークを用いて, 微分可能なレンダラインスタンスの配列を評価し, 結果の意味を分析した。 驚くべきことに、単純な一様分布は13クラス以上の平均で最高の結果をもたらすが、一般に分布の最適選択はタスクに大きく依存する。

In this work, we present and study a generalized family of differentiable renderers. We discuss from scratch which components are necessary for differentiable rendering and formalize the requirements for each component. We instantiate our general differentiable renderer, which generalizes existing differentiable renderers like SoftRas and DIB-R, with an array of different smoothing distributions to cover a large spectrum of reasonable settings. We evaluate an array of differentiable renderer instantiations on the popular ShapeNet 3D reconstruction benchmark and analyze the implications of our results. Surprisingly, the simple uniform distribution yields the best overall results when averaged over 13 classes; in general, however, the optimal choice of distribution heavily depends on the task.
翻訳日:2022-05-02 13:14:07 公開日:2022-04-29
# (参考訳) フレア埋め込みとグラディエントによるフェデレーション学習におけるバックドアアタック

Backdoor Attacks in Federated Learning by Rare Embeddings and Gradient Ensembling ( http://arxiv.org/abs/2204.14017v1 )

ライセンス: CC BY 4.0
KiYoon Yoo, Nojun Kwak(参考訳) 最近の連合学習の進歩は、分散データセットで学習する有望な能力を示している。 しかし、この枠組みに参加する敵が敵対的目的のためにグローバルモデルに毒を盛る可能性があるため、かなりの作業が懸念されている。 本稿では,テキスト分類とシーケンス・ツー・シーケンスタスクにおいて,テキスト分類およびNLPモデルのtextit{rare 単語埋め込みによるバックドア攻撃に対するモデル中毒の可能性を検討する。 テキスト分類では,クリーンな文のパフォーマンスを損なうことなく,モデルの出力を操作できる敵クライアントは 1 % 未満である。 より複雑なデータセットの場合、敵のクライアントの0.1\%だけがグローバルモデルを効果的に汚染するのに十分である。 また,すべての実験環境におけるバックドア性能を向上させるための,勾配アンサンブルと呼ばれる協調学習手法を提案する。

Recent advances in federated learning have demonstrated its promising capability to learn on decentralized datasets. However, a considerable amount of work has raised concerns due to the potential risks of adversaries participating in the framework to poison the global model for an adversarial purpose. This paper investigates the feasibility of model poisoning for backdoor attacks through \textit{rare word embeddings of NLP models} in text classification and sequence-to-sequence tasks. In text classification, less than 1\% of adversary clients suffices to manipulate the model output without any drop in the performance of clean sentences. For a less complex dataset, a mere 0.1\% of adversary clients is enough to poison the global model effectively. We also propose a technique specialized in the federated learning scheme called gradient ensemble, which enhances the backdoor performance in all experimental settings.
翻訳日:2022-05-02 13:11:29 公開日:2022-04-29
# シーンテキスト検出のための視覚言語事前学習

Vision-Language Pre-Training for Boosting Scene Text Detectors ( http://arxiv.org/abs/2204.13867v1 )

ライセンス: Link先を確認
Sibo Song, Jianqiang Wan, Zhibo Yang, Jun Tang, Wenqing Cheng, Xiang Bai, Cong Yao(参考訳) 近年,視覚言語共同表現学習は様々なシナリオにおいて非常に効果的であることが証明されている。 本稿では,視覚と言語という2つのモダリティの相互的相互作用に関わるタスクであるシーンテキスト検出に視覚-言語共同学習を応用する。 具体的には,シーンテキスト検出器の性能向上のために,視覚言語事前学習を通して文脈化された共同表現を学ぶことを提案する。 この目的に向けて,画像エンコーダ,テキストエンコーダ,クロスモーダルエンコーダを用いた事前学習アーキテクチャと,画像テキストコントラスト学習(itc),マスク言語モデリング(mlm),word-in-image prediction(wip)という3つのプリテキストタスクを考案する。 事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができ、下流のテキスト検出タスクにおいて既存のシーンテキスト検出器(EASTやPSENetなど)に容易に利益をもたらすことができる。 標準ベンチマークによる大規模な実験により,提案手法は各種テキスト検出器の性能を大幅に向上し,従来の事前学習手法よりも優れていた。 コードと事前訓練されたモデルは公開される。

Recently, vision-language joint representation learning has proven to be highly effective in various scenarios. In this paper, we specifically adapt vision-language joint learning for scene text detection, a task that intrinsically involves cross-modal interaction between the two modalities: vision and language, since text is the written form of language. Concretely, we propose to learn contextualized, joint representations through vision-language pre-training, for the sake of enhancing the performance of scene text detectors. Towards this end, we devise a pre-training architecture with an image encoder, a text encoder and a cross-modal encoder, as well as three pretext tasks: image-text contrastive learning (ITC), masked language modeling (MLM) and word-in-image prediction (WIP). The pre-trained model is able to produce more informative representations with richer semantics, which could readily benefit existing scene text detectors (such as EAST and PSENet) in the down-stream text detection task. Extensive experiments on standard benchmarks demonstrate that the proposed paradigm can significantly improve the performance of various representative text detectors, outperforming previous pre-training approaches. The code and pre-trained models will be publicly released.
翻訳日:2022-05-02 12:52:12 公開日:2022-04-29
# 自然言語のフィードバックから学ぶ

Learning from Natural Language Feedback ( http://arxiv.org/abs/2204.14146v1 )

ライセンス: Link先を確認
J\'er\'emy Scheurer, Jon Ander Campos, Jun Shern Chan, Angelica Chen, Kyunghyun Cho, Ethan Perez(参考訳) 事前訓練された言語モデルは、例えば攻撃的なテキストや事実的に不正確な要約を生成するなど、私たちの好みに沿った方法でタスクを実行しないことが多い。 最近の研究は、単純な人間評価の形式から学ぶことによって、上記の問題にアプローチしている: モデル生成タスク出力のペアの比較。 比較フィードバックは人間の嗜好に関する限られた情報を伝える。 本稿では,人間評価ごとにより多くの情報を伝える自然言語フィードバックから学ぶことを提案する。 3段階学習アルゴリズムを用いてモデル出力の言語フィードバックから学習する。 まず、初期出力とフィードバックに基づいて言語モデルを条件付け、多くの改良点を生成する。 第二に、フィードバックと最もよく似たリファインメントを選択します。 第3に,インプットに対して選択されたリファインメントの可能性を最大化するために,言語モデルを微調整する。 合成実験において、まず言語モデルがフィードバックを正確に組み込んで改良を行うかどうかを評価し、大きな言語モデル(175Bパラメータ)のみがそうであることを確認した。 人間の手書きフィードバックのサンプルは100程度しかなく, 学習アルゴリズムはGPT-3モデルを微調整し, ほぼ人間レベルの要約を行う。

Pretrained language models often do not perform tasks in ways that are in line with our preferences, e.g., generating offensive text or factually incorrect summaries. Recent work approaches the above issue by learning from a simple form of human evaluation: comparisons between pairs of model-generated task outputs. Comparison feedback conveys limited information about human preferences per human evaluation. Here, we propose to learn from natural language feedback, which conveys more information per human evaluation. We learn from language feedback on model outputs using a three-step learning algorithm. First, we condition the language model on the initial output and feedback to generate many refinements. Second, we choose the refinement with the highest similarity to the feedback. Third, we finetune a language model to maximize the likelihood of the chosen refinement given the input. In synthetic experiments, we first evaluate whether language models accurately incorporate feedback to produce refinements, finding that only large language models (175B parameters) do so. Using only 100 samples of human-written feedback, our learning algorithm finetunes a GPT-3 model to roughly human-level summarization.
翻訳日:2022-05-02 12:51:51 公開日:2022-04-29
# 構造学習における不確かさ

Tractable Uncertainty for Structure Learning ( http://arxiv.org/abs/2204.14170v1 )

ライセンス: Link先を確認
Benjie Wang, Matthew Wicker, Marta Kwiatkowska(参考訳) ベイズ構造学習は、与えられたデータを生成するための因果有向非巡回グラフ(DAG)上の不確実性を捉えることができる。 本研究では,確率的回路に依存した近似後部推論のフレームワークであるTructure Learning (TRUST) のトラクタブル不確かさを後部信念の表現として提示する。 サンプルベースの後部近似とは対照的に、我々の表現はよりリッチなDAG空間を捉えつつ、有用な推論クエリの範囲を抽出することができる。 確率回路が構造学習手法の強化表現としてどのように使用できるかを実証的に示し、推論された構造の品質と後続の不確実性の両方を改善する。 また,TRUSTの表現能力が向上し,条件付きクエリ応答における競合手法よりも優れていた。

Bayesian structure learning allows one to capture uncertainty over the causal directed acyclic graph (DAG) responsible for generating given data. In this work, we present Tractable Uncertainty for STructure learning (TRUST), a framework for approximate posterior inference that relies on probabilistic circuits as the representation of our posterior belief. In contrast to sample-based posterior approximations, our representation can capture a much richer space of DAGs, while being able to tractably answer a range of useful inference queries. We empirically show how probabilistic circuits can be used as an augmented representation for structure learning methods, leading to improvement in both the quality of inferred structures and posterior uncertainty. Experimental results also demonstrate the improved representational capacity of TRUST, outperforming competing methods on conditional query answering.
翻訳日:2022-05-02 12:51:33 公開日:2022-04-29
# ノイズの修正:スタイルガンの転送学習のための音源特徴の分離

Fix the Noise: Disentangling Source Feature for Transfer Learning of StyleGAN ( http://arxiv.org/abs/2204.14079v1 )

ライセンス: Link先を確認
Dongyeun Lee, Jae Young Lee, Doyeon Kim, Jaehyun Choi, Junmo Kim(参考訳) StyleGANの転送学習は、特にドメイン翻訳において、様々なタスクを解く大きな可能性を示している。 これまで、トランスファー学習中に重みを交換または凍結することでソースモデルを利用したが、それらは視覚品質とソース機能の制御に制限がある。 言い換えると、それらは計算上要求される追加のモデルを必要とし、滑らかな遷移を防ぐ制御ステップを制限している。 本稿では,これらの制約を克服するための新しいアプローチを提案する。 切り替えや凍結の代わりに、生成品質を改善するために単純な特徴マッチング損失を導入する。 さらに,ソース特性の程度を制御するために,提案手法であるfixnoiseを用いてターゲットモデルを訓練し,対象特徴空間の分断部分空間にのみソース特徴を保存する。 本手法は,不連続な特徴空間により,単一モデルにおける音源特性の程度を円滑に制御できる。 広範な実験により,提案手法が従来よりも一貫性と現実的な画像を生成することを実証した。

Transfer learning of StyleGAN has recently shown great potential to solve diverse tasks, especially in domain translation. Previous methods utilized a source model by swapping or freezing weights during transfer learning, however, they have limitations on visual quality and controlling source features. In other words, they require additional models that are computationally demanding and have restricted control steps that prevent a smooth transition. In this paper, we propose a new approach to overcome these limitations. Instead of swapping or freezing, we introduce a simple feature matching loss to improve generation quality. In addition, to control the degree of source features, we train a target model with the proposed strategy, FixNoise, to preserve the source features only in a disentangled subspace of a target feature space. Owing to the disentangled feature space, our method can smoothly control the degree of the source features in a single model. Extensive experiments demonstrate that the proposed method can generate more consistent and realistic images than previous works.
翻訳日:2022-05-02 12:51:18 公開日:2022-04-29
# Flamingo:Few-Shot Learningのためのビジュアル言語モデル

Flamingo: a Visual Language Model for Few-Shot Learning ( http://arxiv.org/abs/2204.14198v1 )

ライセンス: Link先を確認
Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech, Iain Barr, Yana Hasson, Karel Lenc, Arthur Mensch, Katie Millican, Malcolm Reynolds, Roman Ring, Eliza Rutherford, Serkan Cabi, Tengda Han, Zhitao Gong, Sina Samangooei, Marianne Monteiro, Jacob Menick, Sebastian Borgeaud, Andrew Brock, Aida Nematzadeh, Sahand Sharifzadeh, Mikolaj Binkowski, Ricardo Barreira, Oriol Vinyals, Andrew Zisserman, Karen Simonyan(参考訳) 一握りの注釈付き例だけで、多数のタスクに迅速に適応できるモデルを構築することは、マルチモーダル機械学習研究のオープンチャレンジである。 この機能を備えたビジュアル言語モデル(VLM)のファミリーであるFlamingoを紹介します。 Flamingoモデルには、次のような重要なアーキテクチャ革新が含まれている。 (i)強力な事前訓練された視覚のみと言語のみのモデルをブリッジする。 (ii)任意にインターリーブされた視覚及びテキストデータのシーケンスを処理し、 (iii)画像や動画を入力としてシームレスに取り込みます。 柔軟性のおかげで、Flamingoモデルは、任意にインターリーブされたテキストとイメージを含む大規模なマルチモーダルWebコーパスでトレーニングすることができる。 提案するフラミンゴモデルの徹底的な評価を行い,様々な画像および映像理解ベンチマークに迅速に適応する能力の探索と測定を行った。 例えば、視覚的質問回答のようなオープンエンドタスクでは、モデルにどの質問に答えなければならないか、シーンやイベントを記述する能力を評価するキャプションタスク、複数の選択された視覚的質問回答のようなクローズエンドタスクなどがある。 このスペクトル上の任意のタスクに対して、1つのflamingoモデルが、単にタスク固有の例をモデルに促すだけで、少数の学習のための新しい状態を達成することができることを実証する。 これらのベンチマークの多くにおいて、Flamingoは何千倍ものタスク固有のデータに基づいて微調整されたモデルの性能を上回っている。

Building models that can be rapidly adapted to numerous tasks using only a handful of annotated examples is an open challenge for multimodal machine learning research. We introduce Flamingo, a family of Visual Language Models (VLM) with this ability. Flamingo models include key architectural innovations to: (i) bridge powerful pretrained vision-only and language-only models, (ii) handle sequences of arbitrarily interleaved visual and textual data, and (iii) seamlessly ingest images or videos as inputs. Thanks to their flexibility, Flamingo models can be trained on large-scale multimodal web corpora containing arbitrarily interleaved text and images, which is key to endow them with in-context few-shot learning capabilities. We perform a thorough evaluation of the proposed Flamingo models, exploring and measuring their ability to rapidly adapt to a variety of image and video understanding benchmarks. These include open-ended tasks such as visual question-answering, where the model is prompted with a question which it has to answer, captioning tasks, which evaluate the ability to describe a scene or an event, and close-ended tasks such as multiple choice visual question-answering. For tasks lying anywhere on this spectrum, we demonstrate that a single Flamingo model can achieve a new state of the art for few-shot learning, simply by prompting the model with task-specific examples. On many of these benchmarks, Flamingo actually surpasses the performance of models that are fine-tuned on thousands of times more task-specific data.
翻訳日:2022-05-02 12:51:02 公開日:2022-04-29
# (参考訳) 誤情報検出システムにおける正義:アルゴリズム,利害関係者,潜在的損害の分析

Justice in Misinformation Detection Systems: An Analysis of Algorithms, Stakeholders, and Potential Harms ( http://arxiv.org/abs/2204.13568v2 )

ライセンス: CC BY 4.0
Terrence Neumann and Maria De-Arteaga and Sina Fazelpour(参考訳) ソーシャルメディア上の誤報の規模と急増に直面した多くのプラットフォームやファクトチェック組織は、誤報検出パイプラインの重要な部分を自動化するアルゴリズムに目を向けている。 スケールの課題に対する有望な解決策を提供する一方で、アルゴリズムの誤情報検出に関連する倫理的・社会的リスクは十分に理解されていない。 本稿では,情報正義の概念を取り入れ,表現,参加,利益と負担の分配,誤情報検出パイプラインの信頼性に関する正義の問題を解明するための枠組みを構築した。 枠組みは,(1)パイプライン内の3つのアルゴリズム段階における利害関係者の不正がいかに成立するか,(2)これらの不正を評価するための実証的尺度を提案し,(3)これらの害の潜在的な原因を特定する。 このフレームワークは、研究者、政策立案者、実践者がこれらのアルゴリズムに関連する潜在的な害やリスクを判断し、このドメインにおけるアルゴリズム的公正監査の設計のための概念的ガイダンスを提供する。

Faced with the scale and surge of misinformation on social media, many platforms and fact-checking organizations have turned to algorithms for automating key parts of misinformation detection pipelines. While offering a promising solution to the challenge of scale, the ethical and societal risks associated with algorithmic misinformation detection are not well-understood. In this paper, we employ and extend upon the notion of informational justice to develop a framework for explicating issues of justice relating to representation, participation, distribution of benefits and burdens, and credibility in the misinformation detection pipeline. Drawing on the framework: (1) we show how injustices materialize for stakeholders across three algorithmic stages in the pipeline; (2) we suggest empirical measures for assessing these injustices; and (3) we identify potential sources of these harms. This framework should help researchers, policymakers, and practitioners reason about potential harms or risks associated with these algorithms and provide conceptual guidance for the design of algorithmic fairness audits in this domain.
翻訳日:2022-05-02 11:50:29 公開日:2022-04-29
# (参考訳) ゼロショット多言語抽出要約のためのニューラルラベル探索

Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization ( http://arxiv.org/abs/2204.13512v2 )

ライセンス: CC BY 4.0
Ruipeng Jia, Xingxing Zhang, Yanan Cao, Shi Wang, Zheng Lin, Furu Wei(参考訳) ゼロショットの多言語抽出テキスト要約では、モデルは典型的には英語の要約データセットで訓練され、他の言語の要約データセットに適用される。 英語の金の要約と文書が与えられると、抽出要約のための文レベルのラベルは通常ヒューリスティックスを使用して生成される。 しかし、これらの単言語ラベルは、異なる言語間の統語的あるいは意味的な相違があるため、他の言語のデータセットでは最適ではないかもしれない。 このようにして、英語データセットを他の言語に翻訳し、ヒューリスティックスを用いて異なるラベルセットを再び取得することができる。 これら異なるラベルセットの情報を完全に活用するため,我々は,これらのラベルセットの階層的重みと要約モデルを同時に学習するnlssum(neural label search for summarization)を提案する。 mlsumデータセットとwikilinguaデータセットの多言語ゼロショット要約実験を行い,これら2つのデータセットの人的評価と自動評価の両方を用いて,最先端の結果を得る。

In zero-shot multilingual extractive text summarization, a model is typically trained on English summarization dataset and then applied on summarization datasets of other languages. Given English gold summaries and documents, sentence-level labels for extractive summarization are usually generated using heuristics. However, these monolingual labels created on English datasets may not be optimal on datasets of other languages, for that there is the syntactic or semantic discrepancy between different languages. In this way, it is possible to translate the English dataset to other languages and obtain different sets of labels again using heuristics. To fully leverage the information of these different sets of labels, we propose NLSSum (Neural Label Search for Summarization), which jointly learns hierarchical weights for these different sets of labels together with our summarization model. We conduct multilingual zero-shot summarization experiments on MLSUM and WikiLingua datasets, and we achieve state-of-the-art results using both human and automatic evaluations across these two datasets.
翻訳日:2022-05-02 11:26:39 公開日:2022-04-29
# 説明・公平感・判断の関係について

On the Relationship Between Explanations, Fairness Perceptions, and Decisions ( http://arxiv.org/abs/2204.13156v2 )

ライセンス: Link先を確認
Jakob Schoeffer, Maria De-Arteaga, Niklas Kuehl(参考訳) aiベースのシステムのレコメンデーションは誤りか不公平かが知られている。 したがって、人間は最終決定者となることがしばしば提案される。 以前の研究は、人間の意思決定者が意思決定の質を高め、偏見を和らげる、すなわち人間とAIの相補性を促進するために、説明が不可欠であると主張している。 これらのメリットを具現化するためには、人間はAIレコメンデーションを適切に頼り、意思決定の分配的公正性を高めるために必要なアルゴリズムレコメンデーションを無効にすべきである。 しかし、この文献は、説明が実際にそのような相補性をもたらすかどうかに関する決定的な実証的な証拠を提供していない。 この作品では、 (a)説明、公平感、信頼、分配的公平性の関係を明確化する概念的枠組みを提供する。 (b)説明と公正の交点における矛盾した研究結果の理解(一見)に当てはめ、 (c) 研究質問の定式化及び実験の設計に関する結束的含意を導出する。

It is known that recommendations of AI-based systems can be incorrect or unfair. Hence, it is often proposed that a human be the final decision-maker. Prior work has argued that explanations are an essential pathway to help human decision-makers enhance decision quality and mitigate bias, i.e., facilitate human-AI complementarity. For these benefits to materialize, explanations should enable humans to appropriately rely on AI recommendations and override the algorithmic recommendation when necessary to increase distributive fairness of decisions. The literature, however, does not provide conclusive empirical evidence as to whether explanations enable such complementarity in practice. In this work, we (a) provide a conceptual framework to articulate the relationships between explanations, fairness perceptions, reliance, and distributive fairness, (b) apply it to understand (seemingly) contradictory research findings at the intersection of explanations and fairness, and (c) derive cohesive implications for the formulation of research questions and the design of experiments.
翻訳日:2022-05-02 11:12:00 公開日:2022-04-29