このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220516となっている論文です。

PDF登録状況(公開日: 20220516)

TitleAuthorsAbstract論文公表日・翻訳日
# CTスキャンによる肺・COVID-19病変の深層学習モデルの総合的比較

Comprehensive Comparison of Deep Learning Models for Lung and COVID-19 Lesion Segmentation in CT scans ( http://arxiv.org/abs/2009.06412v6 )

ライセンス: Link先を確認
Paschalis Bizopoulos, Nicholas Vretos and Petros Daras(参考訳) 近年,医学画像分割におけるdeep learning (dl) 法の利用が爆発的に増加している。 しかし、フィールドの信頼性は、精度/性能評価のための共通基準の欠如と、以前の研究が評価に異なるデータセットを使用しているという事実によって妨げられている。 本稿では,CT(Computerized Tomography)スキャンにおける肺のDLモデルとCOVID-19の病変セグメンテーションの広範な比較を行い,医療画像セグメンテーションモデルのベンチマークとして使用することができる。 4つのDLアーキテクチャ(Unet, Linknet, FPN, PSPNet)と25のランダム初期化および事前訓練エンコーダ(VGG, DenseNet, ResNet, ResNext, DPN, MobileNet, Xception, Inception-v4, EfficientNet)を組み合わせて200の試験モデルを構築する。 肺の分節, 病変の分節, 病変の分節の3つの実験を, オリジナルの肺マスクを用いて行った。 トレーニング/バリデーションには100個のCTスキャンイメージ(トレーニングには80、バリデーションには20、テストには9個のCTスキャンボリュームから829個のイメージで構成される公開データセットが使用される。 実験毎に最適なアーキテクチャエンコーダモデルと、実験、アーキテクチャ、エンコーダごとに平均dice結果を含む複数の調査結果が提供されている。 最後に、前処理ステップとして肺マスクを使用する場合や、事前訓練されたモデルを使用する場合の上限を定量化する。 3つの実験のためのソースコードと600の事前学習されたモデルを提供し、gpu能力のない実験セットアップの微調整に適している。

Recently there has been an explosion in the use of Deep Learning (DL) methods for medical image segmentation. However the field's reliability is hindered by the lack of a common base of reference for accuracy/performance evaluation and the fact that previous research uses different datasets for evaluation. In this paper, an extensive comparison of DL models for lung and COVID-19 lesion segmentation in Computerized Tomography (CT) scans is presented, which can also be used as a benchmark for testing medical image segmentation models. Four DL architectures (Unet, Linknet, FPN, PSPNet) are combined with 25 randomly initialized and pretrained encoders (variations of VGG, DenseNet, ResNet, ResNext, DPN, MobileNet, Xception, Inception-v4, EfficientNet), to construct 200 tested models. Three experimental setups are conducted for lung segmentation, lesion segmentation and lesion segmentation using the original lung masks. A public COVID-19 dataset with 100 CT scan images (80 for train, 20 for validation) is used for training/validation and a different public dataset consisting of 829 images from 9 CT scan volumes for testing. Multiple findings are provided including the best architecture-encoder models for each experiment as well as mean Dice results for each experiment, architecture and encoder independently. Finally, the upper bounds improvements when using lung masks as a preprocessing step or when using pretrained models are quantified. The source code and 600 pretrained models for the three experiments are provided, suitable for fine-tuning in experimental setups without GPU capabilities.
翻訳日:2022-10-20 04:21:13 公開日:2022-05-16
# 深層強化学習における転校学習:調査

Transfer Learning in Deep Reinforcement Learning: A Survey ( http://arxiv.org/abs/2009.07888v5 )

ライセンス: Link先を確認
Zhuangdi Zhu, Kaixiang Lin, Anil K. Jain, and Jiayu Zhou(参考訳) 強化学習は、シーケンシャルな意思決定問題を解決するための学習パラダイムである。 近年,深層ニューラルネットワークの急速な発展に伴い,強化学習が著しく進展している。 ロボット工学やゲームプレイングといった多くの分野における強化学習の有望な展望とともに、翻訳学習は、強化学習が直面する様々な課題に取り組み、外部の専門知識から知識を移譲して学習プロセスの効率化と有効性を促進する。 本研究では,深層強化学習の文脈における転校学習アプローチの最近の進歩を体系的に調査する。 具体的には,最先端のトランスファー学習のアプローチを分類するためのフレームワークを提供し,それらの目標,方法論,互換性のある強化学習バックボーン,実践的応用について分析する。 また,強化学習の観点からは,転校学習と関連する他の話題との関係を導き,今後の研究の進展を待ち受けている課題を探究する。

Reinforcement learning is a learning paradigm for solving sequential decision-making problems. Recent years have witnessed remarkable progress in reinforcement learning upon the fast development of deep neural networks. Along with the promising prospects of reinforcement learning in numerous domains such as robotics and game-playing, transfer learning has arisen to tackle various challenges faced by reinforcement learning, by transferring knowledge from external expertise to facilitate the efficiency and effectiveness of the learning process. In this survey, we systematically investigate the recent progress of transfer learning approaches in the context of deep reinforcement learning. Specifically, we provide a framework for categorizing the state-of-the-art transfer learning approaches, under which we analyze their goals, methodologies, compatible reinforcement learning backbones, and practical applications. We also draw connections between transfer learning and other relevant topics from the reinforcement learning perspective and explore their potential challenges that await future research progress.
翻訳日:2022-10-17 22:52:44 公開日:2022-05-16
# マルコフ信号または隠れマルコフ信号を用いた線形モデルのレプリカ解析

Replica Analysis of the Linear Model with Markov or Hidden Markov Signal Priors ( http://arxiv.org/abs/2009.13370v4 )

ライセンス: Link先を確認
Lan V. Truong(参考訳) 本稿では,線形モデルの自由エネルギー,平均的相互情報,最小平均二乗誤差(MMSE)を,(1)ソースはマルコフ連鎖によって生成され,(2)ソースは隠れマルコフモデルを介して生成されるという仮定の下で推定する。 我々の推定は統計物理学におけるレプリカ法に基づいている。 後平均推定器の下では、マルコフ源または隠れマルコフ源を持つ線形モデルは、マルコフ連鎖の確率行列のマンハッタンノルムを持つ左のペロン・フロベニウス固有ベクトルに従う状態分布がエンコーダとデコーダの両方で利用可能な状態情報を持つ単一入力のawgnチャネルに分解される。 その結果,レプリカ法で得られた自由エネルギーとmsesは,metropolis-hastingsアルゴリズムやよく知られた近似メッセージパッシングアルゴリズムによって達成されたものに近いことがわかった。

This paper estimates free energy, average mutual information, and minimum mean square error (MMSE) of a linear model under two assumptions: (1) the source is generated by a Markov chain, (2) the source is generated via a hidden Markov model. Our estimates are based on the replica method in statistical physics. We show that under the posterior mean estimator, the linear model with Markov sources or hidden Markov sources is decoupled into single-input AWGN channels with state information available at both encoder and decoder where the state distribution follows the left Perron-Frobenius eigenvector with unit Manhattan norm of the stochastic matrix of Markov chains. Numerical results show that the free energies and MSEs obtained via the replica method are closely approximate to their counterparts achieved by the Metropolis-Hastings algorithm or some well-known approximate message passing algorithms in the research literature.
翻訳日:2022-10-13 21:31:02 公開日:2022-05-16
# 幅有界ニューラルネットワークのアトラクション盆地の位相特性と表現性

Topological properties of basins of attraction and expressiveness of width bounded neural networks ( http://arxiv.org/abs/2011.04923v4 )

ライセンス: Link先を確認
Hans-Peter Beise, Steve Dias Da Cruz(参考訳) Radhakrishnanなど。 著者らは,通常のsgd法で学習したオートエンコーダが,トレーニングデータの周りにアトラクションの盆地を形成することを実証的に示した。 入力次元を超えない幅のネットワーク関数を考察し、この状況ではアトラクションの流域が有界であり、その補関数が有界成分を持つことができないことを示す。 これらの結果の条件は, 後者の研究のいくつかの実験で満たされ, そこで提案された問題に対処する。 また,より制限的な条件下では,アトラクションの流域が経路接続されていることも示している。 この結果における条件の厳密性は,いくつかの例によって示される。 最後に、上記の結果を証明するために用いられる議論により、連続関数の空間において、境界幅条件を満たすスカラー値ニューラルネットワーク関数が密集しない理由を導出することができる。

In Radhakrishnan et al. [2020], the authors empirically show that autoencoders trained with usual SGD methods shape out basins of attraction around their training data. We consider network functions of width not exceeding the input dimension and prove that in this situation basins of attraction are bounded and their complement cannot have bounded components. Our conditions in these results are met in several experiments of the latter work and we thus address a question posed therein. We also show that under some more restrictive conditions the basins of attraction are path-connected. The tightness of the conditions in our results is demonstrated by means of several examples. Finally, the arguments used to prove the above results allow us to derive a root cause why scalar-valued neural network functions that fulfill our bounded width condition are not dense in spaces of continuous functions.
翻訳日:2022-09-27 06:30:23 公開日:2022-05-16
# ラマン増幅器を用いたスペクトル空間パワー進化設計の実験的検証

Experimental Validation of Spectral-Spatial Power Evolution Design Using Raman Amplifiers ( http://arxiv.org/abs/2206.07658v1 )

ライセンス: Link先を確認
Mehran Soltani, Francesco Da Ros, Andrea Carena, Darko Zibar(参考訳) 周波数とファイバー距離という2つの領域で信号パワーの進化を共同で形成できる機械学習可能なラマン増幅フレームワークを実験的に検証した。 提案実験は,4つの1次対向伝搬ラマンポンプを最適化することにより,Cバンド全体の増幅に対処する。

We experimentally validate a machine learning-enabled Raman amplification framework, capable of jointly shaping the signal power evolution in two domains: frequency and fiber distance. The proposed experiment addresses the amplification in the whole C-band, by optimizing four first-order counter-propagating Raman pumps.
翻訳日:2022-06-19 23:28:17 公開日:2022-05-16
# (参考訳) 暗号通貨は殺すのか? 電力消費炭素フットプリントとビットコイン取引の関係

Does Crypto Kill? Relationship between Electricity Consumption Carbon Footprints and Bitcoin Transactions ( http://arxiv.org/abs/2206.03227v1 )

ライセンス: CC BY 4.0
Altanai Bisht, Arielle Wilson, Zachary Jeffreys, Shadrokh Samavi(参考訳) 暗号通貨はセキュリティのために人気が高まり、偽造は不可能になっている。 しかし、これらのデジタル通貨は、そのアルゴリズムの複雑さと、作業や採掘の証明のための分散システム設計のために、大きな炭素フットプリントを作り出したと批判されている。 暗号通貨取引の炭素フットプリントは、グリーンまたは再生可能燃料源よりも炭素豊富な燃料源に依存していると仮定する。 このようなトランザクションをモデル化し、発電パターンと関連付けて炭素コストを見積り、分析するための機械学習フレームワークを提供する。

Cryptocurrencies are gaining more popularity due to their security, making counterfeits impossible. However, these digital currencies have been criticized for creating a large carbon footprint due to their algorithmic complexity and decentralized system design for proof of work and mining. We hypothesize that the carbon footprint of cryptocurrency transactions has a higher dependency on carbon-rich fuel sources than green or renewable fuel sources. We provide a machine learning framework to model such transactions and correlate them with the electricity generation patterns to estimate and analyze their carbon cost.
翻訳日:2022-06-12 23:31:39 公開日:2022-05-16
# (参考訳) マルチレベル2次元バーコード再放送検出のためのマルチスケールテクスチャと残留記述子の利用

Fusing Multiscale Texture and Residual Descriptors for Multilevel 2D Barcode Rebroadcasting Detection ( http://arxiv.org/abs/2205.11242v1 )

ライセンス: CC BY 4.0
Anselmo Ferreira, Changcheng Chen and Mauro Barni(参考訳) 2Dバーコードは現在、広告、モバイル支払い、製品認証に広く使われている。 しかし、製品認証に関するアプリケーションでは、認証スキームをバイパスするために、本物の2dバーコードを違法にコピーして偽造製品に添付することができる。 本稿では,プロプライエタリな2dバーコードパターンを用い,マルチメディア解析手法を用いて,コピー(リブロードキャスト)攻撃によるスキャニングやプリントアーティファクトの分析を行う。 違法コピー中に導入されたバーコードテクスチャの歪みを定量化するために,多様かつ相補的な特徴セットを提案する。 提案する特徴は,多スケールなテクスチャの外観と関心分布の点を特徴付けるグローバルな記述子と局所的な記述子から構成される。 提案する記述子を,既存のテクスチャ記述子や,クロスデータセットやクロスサイズなど,さまざまなシナリオにおけるディープラーニングベースのアプローチと比較する。 実環境における提案手法の実用性を明らかにする実験結果が得られた。

Nowadays, 2D barcodes have been widely used for advertisement, mobile payment, and product authentication. However, in applications related to product authentication, an authentic 2D barcode can be illegally copied and attached to a counterfeited product in such a way to bypass the authentication scheme. In this paper, we employ a proprietary 2D barcode pattern and use multimedia forensics methods to analyse the scanning and printing artefacts resulting from the copy (rebroadcasting) attack. A diverse and complementary feature set is proposed to quantify the barcode texture distortions introduced during the illegal copying process. The proposed features are composed of global and local descriptors, which characterize the multi-scale texture appearance and the points of interest distribution, respectively. The proposed descriptors are compared against some existing texture descriptors and deep learning-based approaches under various scenarios, such as cross-datasets and cross-size. Experimental results highlight the practicality of the proposed method in real-world settings.
翻訳日:2022-06-06 07:18:23 公開日:2022-05-16
# (参考訳) 血管内光コヒーレンストモグラフィーの機械学習による石灰化冠動脈ステント拡大の予測

Prediction of stent under-expansion in calcified coronary arteries using machine-learning on intravascular optical coherence tomography ( http://arxiv.org/abs/2205.10354v1 )

ライセンス: CC BY 4.0
Yazan Gharaibeh, Juhwan Lee, Vladislav N. Zimin, Chaitanya Kolluru, Luis A. P. Dallan, Gabriel T. R. Pereira, Armando Vergara-Martel, Justin N. Kim, Ammar Hoori, Pengfei Dong, Peshala T. Gamage, Linxia Gu, Hiram G. Bezerra, Sadeer Al-Kindi, and David L. Wilson(参考訳) BACKGROUND 介入前のステント過小評価のリスクを慎重に評価することは、プレステントプラーク修正戦略の適用を含む治療計画に役立つ。 目的】著明な石灰化冠動脈病変の存在下でのステント拡張は依然として困難である。 深層学習セグメンテーション(deep learning segmentation, 深層学習セグメンテーション, 深層学習)の研究に基づいて, プラーク修正の必要性を示唆する病変属性を用いた自動機械学習手法を開発した。 冠動脈病変110例から術前および術後の光学コヒーレンス断層像データを得た。 画像中のルーメンと石灰化をディープラーニングを用いて分割し,病変毎に多数の特徴を抽出した。 病変に沿ってステント拡張を解析し,フレーム,セグメンテーション,全レシオン分析を可能にした。 我々は,後遺症領域の予測とステント拡張指数(SEI)の算出のために回帰モデルを訓練した。 SEI < or >/=80%のステントは, それぞれ「アンダー展開」と「ウェル展開」に分類された。 結果 (根-mean-square-error = 0.04+/-0.02 mm2, r = 0.94+/-0.04, p < 0.0001) はガウス回帰モデルを訓練するためにルーメンと石灰化の両方の特徴を用いた。 未拡張分類の結果(auc=0.85+/-0.02)は他のアプローチに比べて著しく改善した。 結語 石灰化とルーメンの特徴を用いてステント拡張の危険のある病変を同定した。 以上の結果から,プリステント画像を用いることで,医師にプラーク修正アプローチを適用する必要性が示唆された。

BACKGROUND Careful evaluation of the risk of stent under-expansions before the intervention will aid treatment planning, including the application of a pre-stent plaque modification strategy. OBJECTIVES It remains challenging to achieve a proper stent expansion in the presence of severely calcified coronary lesions. Building on our work in deep learning segmentation, we created an automated machine learning approach that uses lesion attributes to predict stent under-expansion from pre-stent images, suggesting the need for plaque modification. METHODS Pre- and post-stent intravascular optical coherence tomography image data were obtained from 110 coronary lesions. Lumen and calcifications in pre-stent images were segmented using deep learning, and numerous features per lesion were extracted. We analyzed stent expansion along the lesion, enabling frame, segmental, and whole-lesion analyses. We trained regression models to predict the poststent lumen area and then to compute the stent expansion index (SEI). Stents with an SEI < or >/= 80% were classified as "under-expanded" and "well-expanded," respectively. RESULTS Best performance (root-mean-square-error = 0.04+/-0.02 mm2, r = 0.94+/-0.04, p < 0.0001) was achieved when we used features from both the lumen and calcification to train a Gaussian regression model for a segmental analysis over a segment length of 31 frames. Under-expansion classification results (AUC=0.85+/-0.02) were significantly improved over other approaches. CONCLUSIONS We used calcifications and lumen features to identify lesions at risk of stent under-expansion. Results suggest that the use of pre-stent images can inform physicians of the need to apply plaque modification approaches.
翻訳日:2022-06-06 07:09:13 公開日:2022-05-16
# 適応型ac-OPFソリューションの学習のためのトポロジ対応グラフニューラルネットワーク

Topology-aware Graph Neural Networks for Learning Feasible and Adaptive ac-OPF Solutions ( http://arxiv.org/abs/2205.10129v1 )

ライセンス: Link先を確認
Shaohui Liu, Chengyang Wu, Hao Zhu(参考訳) 最適電力フロー(OPF)問題を解くことは、リアルタイム電力グリッド運用におけるシステムの効率性と信頼性を確保するための基本的な課題である。 我々は,リアルタイムac-OPF問題の最適解を予測するために,新しいトポロジインフォームドグラフニューラルネットワーク(GNN)アプローチを開発した。 グリッドトポロジをNNモデルに組み込むため,提案したGNN-for-OPFフレームワークは,位置境界価格と電圧の等級の局所性特性を革新的に活用する。 さらに,一般OPF学習のための物理認識型(ac-)フロー実現可能性正規化手法を開発した。 提案手法の利点は, モデルの複雑さの低減, 一般化性の向上, 実現可能性の保証などである。 グリッドトポロジー連続性の下でグラフ部分空間の安定性を解析的に理解することにより,提案するgnnが効率的な再訓練戦略によりグリッドトポロジーに迅速に適応できることを示す。 様々な大きさのテストシステムの数値テストにより,提案するgnnベースの学習フレームワークの予測精度,フロー実現性,トポロジー適応性が検証された。

Solving the optimal power flow (OPF) problem is a fundamental task to ensure the system efficiency and reliability in real-time electricity grid operations. We develop a new topology-informed graph neural network (GNN) approach for predicting the optimal solutions of real-time ac-OPF problem. To incorporate grid topology to the NN model, the proposed GNN-for-OPF framework innovatively exploits the locality property of locational marginal prices and voltage magnitude. Furthermore, we develop a physics-aware (ac-)flow feasibility regularization approach for general OPF learning. The advantages of our proposed designs include reduced model complexity, improved generalizability and feasibility guarantees. By providing the analytical understanding on the graph subspace stability under grid topology contingency, we show the proposed GNN can quickly adapt to varying grid topology by an efficient re-training strategy. Numerical tests on various test systems of different sizes have validated the prediction accuracy, improved flow feasibility, and topology adaptivity capability of our proposed GNN-based learning framework.
翻訳日:2022-05-29 20:40:20 公開日:2022-05-16
# 知識グラフを用いた論理的クエリのニューラルネットワークモデル

Neural-Symbolic Models for Logical Queries on Knowledge Graphs ( http://arxiv.org/abs/2205.10128v1 )

ライセンス: Link先を確認
Zhaocheng Zhu, Mikhail Galkin, Zuobai Zhang, Jian Tang(参考訳) 知識グラフ上の複雑な一階述語論理(FOL)クエリを答えることは、マルチホップ推論の基本的な課題である。 伝統的な記号法は完全な知識グラフを横切り、答えを抽出し、各ステップに良い解釈を与える。 最近のニューラルメソッドは複雑なクエリの幾何埋め込みを学習する。 これらの手法は不完全な知識グラフに一般化することができるが、その推論プロセスは解釈が難しい。 本稿では,両世界の利点を享受するニューラルシンボリックモデルであるグラフニューラルネットワーククエリ実行器(GNN-QE)を提案する。 GNN-QEは複雑なFOLクエリをファジィ集合上の関係予測と論理演算に分解し、中間変数の解釈可能性を提供する。 リンク不足を推論するために、GNN-QEは知識グラフ補完からグラフニューラルネットワークを適用して関係予測を実行し、製品ファジィ論理で論理演算をモデル化する。 3つのデータセットに対する大規模な実験により、GNN-QEはFOLクエリに応答する以前の最先端モデルよりも大幅に改善されている。 一方、GNN-QEは明確な監督なしに回答数を予測でき、中間変数の可視化を提供する。

Answering complex first-order logic (FOL) queries on knowledge graphs is a fundamental task for multi-hop reasoning. Traditional symbolic methods traverse a complete knowledge graph to extract the answers, which provides good interpretation for each step. Recent neural methods learn geometric embeddings for complex queries. These methods can generalize to incomplete knowledge graphs, but their reasoning process is hard to interpret. In this paper, we propose Graph Neural Network Query Executor (GNN-QE), a neural-symbolic model that enjoys the advantages of both worlds. GNN-QE decomposes a complex FOL query into relation projections and logical operations over fuzzy sets, which provides interpretability for intermediate variables. To reason about the missing links, GNN-QE adapts a graph neural network from knowledge graph completion to execute the relation projections, and models the logical operations with product fuzzy logic. Extensive experiments on 3 datasets show that GNN-QE significantly improves over previous state-of-the-art models in answering FOL queries. Meanwhile, GNN-QE can predict the number of answers without explicit supervision, and provide visualizations for intermediate variables.
翻訳日:2022-05-29 20:26:47 公開日:2022-05-16
# 進化によって機能化するニューラルネットワーク

An Artificial Neural Network Functionalized by Evolution ( http://arxiv.org/abs/2205.10118v1 )

ライセンス: Link先を確認
Fabien Furfaro and Avner Bar-Hen and Geoffroy Berthelot(参考訳) 人工ニューラルネットワークのトポロジは、その性能に大きな影響を及ぼす。 効率的なトポロジを特徴づけることは人工知能における有望な研究の分野である。 しかし、これは簡単な作業ではなく、主に畳み込みニューラルネットワークを通じて実験されている。 本稿では,フィードフォワードニューラルネットワークのテンソル計算と擬似ダーウィン機構を組み合わせたハイブリッドモデルを提案する。 これにより、戦略の解明、制御問題、パターン認識タスクに適したトポロジを見つけることができる。 特に、このモデルは進化の初期段階に適応したトポロジーと、ロボット工学、ビッグデータ、人工生命に応用できる「構造収束」を提供することができる。

The topology of artificial neural networks has a significant effect on their performance. Characterizing efficient topology is a field of promising research in Artificial Intelligence. However, it is not a trivial task and it is mainly experimented on through convolutional neural networks. We propose a hybrid model which combines the tensor calculus of feed-forward neural networks with Pseudo-Darwinian mechanisms. This allows for finding topologies that are well adapted for elaboration of strategies, control problems or pattern recognition tasks. In particular, the model can provide adapted topologies at early evolutionary stages, and 'structural convergence', which can found applications in robotics, big-data and artificial life.
翻訳日:2022-05-29 20:26:03 公開日:2022-05-16
# poincar\'{e}不均一グラフニューラルネットワークによる逐次推薦

Poincar\'{e} Heterogeneous Graph Neural Networks for Sequential Recommendation ( http://arxiv.org/abs/2205.11233v1 )

ライセンス: Link先を確認
Naicheng Guo, Xiaolei Liu, Shaoshuai Li, Qiongxu Ma, Kaixin Gao, Bing Han, Lin Zheng, Xiaobo Guo(参考訳) シーケンシャルレコメンデーション(SR)は、ユーザの行動進化からシーケンシャルパターンをキャプチャすることで、ユーザの好みを学習する。 多くの研究で議論されているように、SR のユーザ・イテム相互作用は一般に、階層構造に昇降できる固有のパワー・ロー分布を示す。 従来の手法では、ユークリッド空間下でユーザイデムの分割化を経験的に行うことで、実際のオンラインシナリオにおけるユーザイデム表現の歪みを引き起こすことがある。 本稿では,逐次パターン情報とsrシナリオのデータに含まれる階層情報を同時にモデル化するために,poincar\'{e}ベースのヘテロジニアスグラフニューラルネットワークであるphgrを提案する。 具体的には、階層的な情報を明示的に把握するために、まず、各ユーザの認識領域をグローバルな視点から改善するために、すべてのユーザ・イテム相互作用を疎外して重み付きユーザ・イテム不均一グラフを構築する。 すると、大域表現の出力は、局所有向アイテム-等質グラフの畳み込みを補完するために使われる。 新たな双曲的内積作用素を定義することにより、大域的および局所的なグラフ表現学習は、ポアンカル(英語版)球とユークリッド空間の間の一般的な射影演算ではなく、ポインカル(英語版)球内で直接実行される。 さらに,逐次依存情報を明示的に把握するために,poincar\'{e} 球空間下での2種類の時間的注意操作を設計する。 公共および金融業界のデータセットに対する実証的な評価は、PHGRがいくつかの比較方法より優れていることを示している。

Sequential recommendation (SR) learns users' preferences by capturing the sequential patterns from users' behaviors evolution. As discussed in many works, user-item interactions of SR generally present the intrinsic power-law distribution, which can be ascended to hierarchy-like structures. Previous methods usually handle such hierarchical information by making user-item sectionalization empirically under Euclidean space, which may cause distortion of user-item representation in real online scenarios. In this paper, we propose a Poincar\'{e}-based heterogeneous graph neural network named PHGR to model the sequential pattern information as well as hierarchical information contained in the data of SR scenarios simultaneously. Specifically, for the purpose of explicitly capturing the hierarchical information, we first construct a weighted user-item heterogeneous graph by aliening all the user-item interactions to improve the perception domain of each user from a global view. Then the output of the global representation would be used to complement the local directed item-item homogeneous graph convolution. By defining a novel hyperbolic inner product operator, the global and local graph representation learning are directly conducted in Poincar\'{e} ball instead of commonly used projection operation between Poincar\'{e} ball and Euclidean space, which could alleviate the cumulative error issue of general bidirectional translation process. Moreover, for the purpose of explicitly capturing the sequential dependency information, we design two types of temporal attention operations under Poincar\'{e} ball space. Empirical evaluations on datasets from the public and financial industry show that PHGR outperforms several comparison methods.
翻訳日:2022-05-29 20:24:42 公開日:2022-05-16
# 不均衡学習のためのニューロカオスの特徴変換と分類

Neurochaos Feature Transformation and Classification for Imbalanced Learning ( http://arxiv.org/abs/2205.06742v2 )

ライセンス: Link先を確認
Deeksha Sethi and Nithin Nagaraj and Harikrishnan N B(参考訳) 制限付きと不均衡なデータから学ぶことは、人工知能コミュニティでは難しい問題だ。 リアルタイムシナリオでは、データが通常不均衡なレアなイベントから意思決定を要求する。 これらの状況は一般的に医学的応用、サイバーセキュリティ、破滅的な予測などに発生する。 これにより、不均衡なデータから学習できる学習アルゴリズムの開発が動機となる。 人間の脳は不均衡なデータから無力に学習する。 ヒト脳におけるカオス性神経細胞の発火に触発され、ニューロカオス学習(NL)と呼ばれる新しい学習アルゴリズムが最近提案された。 NLは、特徴変換、ニューロカオス特徴抽出(CFX)、分類の3つのブロックに分類される。 本研究では,不均衡学習における分類におけるニューロカオス特徴変換と抽出の有効性について検討した。 本稿では,ニューロカオスに基づく特徴変換と,従来のMLアルゴリズムとのユニークな組み合わせを提案する。 本研究では, 医療診断, 銀行券不正検出, 環境応用, 音声-デジタル分類に関するデータセットを探索した。 本研究では,高訓練法と低訓練法の両方で実験を行った。 前者では、9つのデータセットのうち5つは、CFX機能を使用した後のマクロF1スコアのパフォーマンス向上を示している。 最も高いパフォーマンス向上は、CFX+Decision Treeを使用したStatlog(Heart)データセットの25.97%である。 低トレーニングサンプルレジーム(クラス1つから9つのトレーニングサンプルまで)では、cfx+random forestを用いたhabermanのサバイバルデータセットで144.38%のパフォーマンス向上が得られた。 NLは、CFXと任意のML分類器を組み合わせることで、パフォーマンスを向上する、大きな柔軟性を提供します。

Learning from limited and imbalanced data is a challenging problem in the Artificial Intelligence community. Real-time scenarios demand decision-making from rare events wherein the data are typically imbalanced. These situations commonly arise in medical applications, cybersecurity, catastrophic predictions etc. This motivates the development of learning algorithms capable of learning from imbalanced data. Human brain effortlessly learns from imbalanced data. Inspired by the chaotic neuronal firing in the human brain, a novel learning algorithm namely Neurochaos Learning (NL) was recently proposed. NL is categorized in three blocks: Feature Transformation, Neurochaos Feature Extraction (CFX), and Classification. In this work, the efficacy of neurochaos feature transformation and extraction for classification in imbalanced learning is studied. We propose a unique combination of neurochaos based feature transformation and extraction with traditional ML algorithms. The explored datasets in this study revolve around medical diagnosis, banknote fraud detection, environmental applications and spoken-digit classification. In this study, experiments are performed in both high and low training sample regime. In the former, five out of nine datasets have shown a performance boost in terms of macro F1-score after using CFX features. The highest performance boost obtained is 25.97% for Statlog (Heart) dataset using CFX+Decision Tree. In the low training sample regime (from just one to nine training samples per class), the highest performance boost of 144.38% is obtained for Haberman's Survival dataset using CFX+Random Forest. NL offers enormous flexibility of combining CFX with any ML classifier to boost its performance, especially for learning tasks with limited and imbalanced data.
翻訳日:2022-05-22 12:14:23 公開日:2022-05-16
# (参考訳) 一般化ツァリエントロピー強化学習におけるアドバンテージ学習によるKL正規化の促進

Enforcing KL Regularization in General Tsallis Entropy Reinforcement Learning via Advantage Learning ( http://arxiv.org/abs/2205.07885v1 )

ライセンス: CC BY 4.0
Lingwei Zhu, Zheng Chen, Eiji Uchibe, Takamitsu Matsubara(参考訳) 強化学習における最大ツァリスエントロピー(MTE)フレームワークは、広く使われているシャノンエントロピーやスパースエントロピーなどのフレキシブルなモデリング選択によって近年人気を集めている。 しかし、ノンシャノンエントロピーは、感度やクローズドフォームポリシー表現の欠如により、近似誤差とその後のアンダーパフォーマンスに悩まされる。 そこで本稿では,Munchausen DQN(MDQN)をモチーフとしたMTEにおいて,KL(Kulback-Leibler)正則化を暗黙的に実施することで,柔軟性と経験的性能のトレードオフを改善することを提案する。 我々はMDQNとアドバンテージラーニングの接続を図り、MDQNはMTEフレームワークへの一般化に失敗することを示した。 提案手法であるTsallis Advantage Learning (TAL) は,様々な非閉形Tsallisエントロピーに対してTsallis-DQNを大幅に改善するだけでなく,最先端の最大シャノンエントロピーアルゴリズムに匹敵する性能を示す。

Maximum Tsallis entropy (MTE) framework in reinforcement learning has gained popularity recently by virtue of its flexible modeling choices including the widely used Shannon entropy and sparse entropy. However, non-Shannon entropies suffer from approximation error and subsequent underperformance either due to its sensitivity or the lack of closed-form policy expression. To improve the tradeoff between flexibility and empirical performance, we propose to strengthen their error-robustness by enforcing implicit Kullback-Leibler (KL) regularization in MTE motivated by Munchausen DQN (MDQN). We do so by drawing connection between MDQN and advantage learning, by which MDQN is shown to fail on generalizing to the MTE framework. The proposed method Tsallis Advantage Learning (TAL) is verified on extensive experiments to not only significantly improve upon Tsallis-DQN for various non-closed-form Tsallis entropies, but also exhibits comparable performance to state-of-the-art maximum Shannon entropy algorithms.
翻訳日:2022-05-19 02:09:31 公開日:2022-05-16
# (参考訳) 模擬表現学習の実証的研究

An Empirical Investigation of Representation Learning for Imitation ( http://arxiv.org/abs/2205.07886v1 )

ライセンス: CC BY 4.0
Xin Chen, Sam Toyer, Cody Wild, Scott Emmons, Ian Fischer, Kuang-Huei Lee, Neel Alex, Steven H Wang, Ping Luo, Stuart Russell, Pieter Abbeel, Rohin Shah(参考訳) 模倣学習は、エージェントがデプロイメント中に自分自身を見つける可能性のある完全な状況を扱うために、大きなデモセットを必要とすることが多い。 しかし、専門家によるデモの収集は高価である。 視覚、強化学習、NLPにおける最近の研究は、補助的な表現学習の目的が、高価なタスク固有の大量のデータの必要性を減らすことを示している。 EIRLIは模倣学習に類似した効果が適用されるかどうかを実証研究する。 本研究では,表現学習アルゴリズムを構築するためのモジュラーフレームワークを提案する。 評価した設定では、画像に基づく表現学習のための既存のアルゴリズムは、画像拡張を伴うよく調整されたベースラインに対して制限された値を提供する。 この結果を説明するために,模倣学習と表現学習が画像分類などの大きなメリットをもたらす他の設定との差異について検討する。 最後に、我々の発見を再現し、再利用可能なコンポーネントから新しい表現学習アルゴリズムを作成するためのモジュラーフレームワークを提供する、文書化されたコードベースをリリースする。

Imitation learning often needs a large demonstration set in order to handle the full range of situations that an agent might find itself in during deployment. However, collecting expert demonstrations can be expensive. Recent work in vision, reinforcement learning, and NLP has shown that auxiliary representation learning objectives can reduce the need for large amounts of expensive, task-specific data. Our Empirical Investigation of Representation Learning for Imitation (EIRLI) investigates whether similar benefits apply to imitation learning. We propose a modular framework for constructing representation learning algorithms, then use our framework to evaluate the utility of representation learning for imitation across several environment suites. In the settings we evaluate, we find that existing algorithms for image-based representation learning provide limited value relative to a well-tuned baseline with image augmentations. To explain this result, we investigate differences between imitation learning and other settings where representation learning has provided significant benefit, such as image classification. Finally, we release a well-documented codebase which both replicates our findings and provides a modular framework for creating new representation learning algorithms out of reusable components.
翻訳日:2022-05-19 01:49:32 公開日:2022-05-16
# (参考訳) 超高速X線CTのためのデータ駆動補間

Data-Driven Interpolation for Super-Scarce X-Ray Computed Tomography ( http://arxiv.org/abs/2205.07888v1 )

ライセンス: CC BY 4.0
Emilien Valat, Katayoun Farrahi, Thomas Blumensath(参考訳) 本稿では,X線トモグラフィー画像の再構成を,自己監督的手法を用いて欠落した画像の補間によって行う。 そこで我々は、浅層ニューラルネットワークを訓練し、2つの隣接する取得を中間角度で推定値に組み合わせる。 この手順は、標準手法を用いて再構成したり、正規化手法を用いてさらに強化された測定シーケンスを生成する。 初期決定論的補間と機械学習の強化による獲得の順序を改善する手法とは異なり、我々は一度に1つの測定を推測することに集中する。 これにより、メソッドを3dにスケールし、計算を高速かつ重要なものにし、現在のメソッドよりも補間が大幅に改善される。 また, 画像やボリュームではなく, 一連の測定を処理しなければならないことも確認した。 補間法とアップサンプリング法を比較して,後者が著しく性能が低いことを示す。 提案手法の性能を決定論的補間法とアップサンプリング法と比較し,機械学習を用いた最先端のプロジェクションデータ拡張手法と組み合わせて使用しても性能が向上することを示した。 これらの結果は、プロジェクション空間と画像空間の両方において、大きなバイオメディカルデータセット上の2次元および3次元イメージングに対して得られる。

We address the problem of reconstructing X-Ray tomographic images from scarce measurements by interpolating missing acquisitions using a self-supervised approach. To do so, we train shallow neural networks to combine two neighbouring acquisitions into an estimated measurement at an intermediate angle. This procedure yields an enhanced sequence of measurements that can be reconstructed using standard methods, or further enhanced using regularisation approaches. Unlike methods that improve the sequence of acquisitions using an initial deterministic interpolation followed by machine-learning enhancement, we focus on inferring one measurement at once. This allows the method to scale to 3D, the computation to be faster and crucially, the interpolation to be significantly better than the current methods, when they exist. We also establish that a sequence of measurements must be processed as such, rather than as an image or a volume. We do so by comparing interpolation and up-sampling methods, and find that the latter significantly under-perform. We compare the performance of the proposed method against deterministic interpolation and up-sampling procedures and find that it outperforms them, even when used jointly with a state-of-the-art projection-data enhancement approach using machine-learning. These results are obtained for 2D and 3D imaging, on large biomedical datasets, in both projection space and image space.
翻訳日:2022-05-19 01:27:46 公開日:2022-05-16
# (参考訳) 物理インフォームドニューラルネットワークとグラフネットワークのためのスケーラブルアルゴリズム

Scalable algorithms for physics-informed neural and graph networks ( http://arxiv.org/abs/2205.08332v1 )

ライセンス: CC BY 4.0
Khemraj Shukla, Mengjia Xu, Nathaniel Trask and George Em Karniadakis(参考訳) 物理インフォームド機械学習(PIML)は、いくつかのデータも利用可能な複雑なマルチスケールプロセスによって管理される複雑な物理的および生物学的システムをシミュレートする、有望な新しいアプローチとして登場した。 いくつかのケースでは、利用可能なデータから隠れた物理学の一部を発見することが目的であり、PIMLは従来の手法が失敗する可能性のある問題に対して特に有効であることが示されている。 深層ニューラルネットワークのトレーニングがビッグデータを必要とする商用機械学習とは異なり、PIMLのビッグデータは利用できない。 代わりに、物理法則を用いて得られた追加情報からネットワークを訓練し、時空領域のランダムな点で評価することができる。 このような物理インフォームド機械学習は、マルチモーダルデータとマルチ忠実データを数学的モデルに統合し、ニューラルネットワークやグラフネットワークを用いてそれらを実装している。 本稿では、主にフィードフォワードニューラルネットワークと自動微分に基づく物理学情報ニューラルネットワーク(PINN)を用いて、物理を機械学習に組み込む際の一般的なトレンドについて概説する。 より複雑なシステムやシステムや非構造化データに対して、グラフニューラルネットワーク(GNN)はいくつかの異なる利点を示し、ここでは、グラフ外部計算に基づいてGNNを用いて物理インフォームド学習を行い、微分演算子を構築する方法について概観する。 本稿では,前向き問題と逆向き問題の両方について代表的な例を示し,大規模エンジニアリング問題に対するPINN,PIGN,さらに広範なGNNのスケールアップにどのような進歩が必要かを論じる。

Physics-informed machine learning (PIML) has emerged as a promising new approach for simulating complex physical and biological systems that are governed by complex multiscale processes for which some data are also available. In some instances, the objective is to discover part of the hidden physics from the available data, and PIML has been shown to be particularly effective for such problems for which conventional methods may fail. Unlike commercial machine learning where training of deep neural networks requires big data, in PIML big data are not available. Instead, we can train such networks from additional information obtained by employing the physical laws and evaluating them at random points in the space-time domain. Such physics-informed machine learning integrates multimodality and multifidelity data with mathematical models, and implements them using neural networks or graph networks. Here, we review some of the prevailing trends in embedding physics into machine learning, using physics-informed neural networks (PINNs) based primarily on feed-forward neural networks and automatic differentiation. For more complex systems or systems of systems and unstructured data, graph neural networks (GNNs) present some distinct advantages, and here we review how physics-informed learning can be accomplished with GNNs based on graph exterior calculus to construct differential operators; we refer to these architectures as physics-informed graph networks (PIGNs). We present representative examples for both forward and inverse problems and discuss what advances are needed to scale up PINNs, PIGNs and more broadly GNNs for large-scale engineering problems.
翻訳日:2022-05-19 01:16:58 公開日:2022-05-16
# (参考訳) 超次元計算における循環データから学ぶ基底ハイパーベクトルの拡張

An Extension to Basis-Hypervectors for Learning from Circular Data in Hyperdimensional Computing ( http://arxiv.org/abs/2205.07920v1 )

ライセンス: CC BY 4.0
Igor Nunes, Mike Heddes, Tony Givargis, Alexandru Nicolau(参考訳) hyperdimensional computing (hdc) は、高次元ランダム空間の性質に基づく計算フレームワークである。 これは特に、組み込みシステムやIoTなどのリソース制約のある環境での機械学習に役立ち、正確性、効率、堅牢性のバランスが良好である。 エンコーディングと呼ばれるハイパースペースへの情報のマッピングは、HDCにおいて最も重要な段階である。 中心は基本超ベクトルであり、有意義な情報の最小単位を表す責任がある。 本稿では,基本超ベクトル集合に関する詳細な研究を行い,hdc一般への実際的貢献について述べる。 1)実数値を符号化するレベルハイパーベクターの改良を提案する。 2)hdcを用いた機械学習において,これまで扱ったことのない重要な情報である円形データから学習する手法を提案する。 実験の結果、これらの寄与は円データによる分類と回帰の両方において、かなり正確なモデルをもたらすことが示された。

Hyperdimensional Computing (HDC) is a computation framework based on properties of high-dimensional random spaces. It is particularly useful for machine learning in resource-constrained environments, such as embedded systems and IoT, as it achieves a good balance between accuracy, efficiency and robustness. The mapping of information to the hyperspace, named encoding, is the most important stage in HDC. At its heart are basis-hypervectors, responsible for representing the smallest units of meaningful information. In this work we present a detailed study on basis-hypervector sets, which leads to practical contributions to HDC in general: 1) we propose an improvement for level-hypervectors, used to encode real numbers; 2) we introduce a method to learn from circular data, an important type of information never before addressed in machine learning with HDC. Empirical results indicate that these contributions lead to considerably more accurate models for both classification and regression with circular data.
翻訳日:2022-05-19 00:40:05 公開日:2022-05-16
# (参考訳) 高次元付加モデルのための分散特徴選択

Distributed Feature Selection for High-dimensional Additive Models ( http://arxiv.org/abs/2205.07932v1 )

ライセンス: CC BY 4.0
Yifan He and Yong Zhou and Yang Feng(参考訳) 分散統計学習は、学習タスクを複数のローカルマシンに分割し、その後に結果を集計する、大規模なデータを扱う一般的な戦略である。 しかし、既存の研究の多くは、サンプルが分割された場合を考える。 本研究では,高次元のスパース加法モデルの下で特徴を分割する新しいアルゴリズムDDAC-SpAMを提案する。 新しいアルゴリズムは分割、復号化、征服の3つのステップを含んでいる。 その結果,各局所推定器は,変数間の相関構造に厳密な制約を課すことなく,各加算成分のスパーシティパターンを一貫して復元できることがわかった。 集計推定器の理論解析と合成データおよび実データを用いた実験結果から,ddac-spamアルゴリズムはスパース加法モデルに適合する性能と競合性を示す。

Distributed statistical learning is a common strategy for handling massive data where we divide the learning task into multiple local machines and aggregate the results afterward. However, most existing work considers the case where the samples are divided. In this work, we propose a new algorithm, DDAC-SpAM, that divides features under the high-dimensional sparse additive model. The new algorithm contains three steps: divide, decorrelate, and conquer. We show that after the decorrelation operation, every local estimator can recover the sparsity pattern for each additive component consistently without imposing strict constraints to the correlation structure among variables. Theoretical analysis of the aggregated estimator and empirical results on synthetic and real data illustrate that the DDAC-SpAM algorithm is effective and competitive in fitting sparse additive models.
翻訳日:2022-05-19 00:26:57 公開日:2022-05-16
# (参考訳) データ増強による多層パーセプトロンの核物理学への応用

Application of multilayer perceptron with data augmentation in nuclear physics ( http://arxiv.org/abs/2205.07953v1 )

ライセンス: CC BY 4.0
H\"useyin Bahtiyar, Derya Soydaner, Esra Y\"uksel(参考訳) ニューラルネットワークは信頼性と強力なツールとして機能するため、多くの科学分野で人気がある。 ニューラルネットの核物理学研究への応用は、核物性の予測に成功しているため、近年も人気が高まっている。 本研究では,データ拡張がニューラルネットワークモデルの予測能力に与える影響について検討する。 文献に分類タスクに用いられる様々なデータ拡張技術があるが、この領域は回帰問題に非常に限定されている。 結合エネルギーの予測は回帰問題として統計的に定義されており、核物理学におけるデータ拡張の利用に加えて、この研究は一般の回帰問題に寄与する。 データ拡張のための実験的不確実性を用いて、トレーニングデータセットのサイズを人工的に増加させ、テストセットにおけるモデル予測と実験データとのルート平均二乗誤差の変化を調べる。 われわれが知る限り、核物理学研究のためにデータ拡張技術が実装されたのはこれが初めてだ。 その結果,データ拡張により予測誤差が減少し,モデルが安定化し,過剰フィッティングが防止されることがわかった。 MLPモデルの深度が異なる外挿能力もAME2020質量表で新たに測定された核に対して試験された。

Neural networks have become popular in many fields of science since they serve as reliable and powerful tools. Application of the neural networks to the nuclear physics studies has also become popular in recent years because of their success in the prediction of nuclear properties. In this work, we study the effect of the data augmentation on the predictive power of the neural network models. Even though there are various data augmentation techniques used for classification tasks in the literature, this area is still very limited for regression problems. As predicting the binding energies is statistically defined as a regression problem, in addition to using data augmentation for nuclear physics, this study contributes to this field for regression in general. Using the experimental uncertainties for data augmentation, the size of training data set is artificially boosted and the changes in the root-mean-square error between the model predictions on test set and the experimental data are investigated. As far as we know, this is the first time that data augmentation techniques have been implemented for nuclear physics research. Our results show that the data augmentation decreases the prediction errors, stabilizes the model and prevents overfitting. The extrapolation capabilities of the MLP models with different depths are also tested for newly measured nuclei in AME2020 mass table.
翻訳日:2022-05-19 00:25:50 公開日:2022-05-16
# (参考訳) TOCH: モーションリファインメントのためのハンドに対応する時空間オブジェクト

TOCH: Spatio-Temporal Object Correspondence to Hand for Motion Refinement ( http://arxiv.org/abs/2205.07982v1 )

ライセンス: CC BY 4.0
Keyang Zhou, Bharat Bhatnagar, Jan Eric Lenssen, Gerard Pons-Moll(参考訳) 本稿では,データプリエントを用いた不正確な3次元ハンドオブジェクトインタラクションシーケンスを精錬する手法であるtochを提案する。 既存のハンドトラッカー、特にごく少数のカメラに頼っているものは、しばしば視覚的に非現実的な結果をもたらす。 このようなエラーを修正するには、インタラクションの時間的側面を推論する必要があるが、以前のほとんどの作業は静的な把握とコンタクトに焦点を当てている。 本手法のコアはTOCHフィールドであり,インタラクション中の手と物体の対応をモデル化するための新しい時空間表現である。 キーコンポーネントは、オブジェクトに対する手の位置をエンコードするポイントワイズオブジェクト中心表現である。 この新しい表現を活用し、時間的デノイジングオートエンコーダを持つ可算なトーチ場の潜在多様体を学習する。 実験により、TOCHは静的なつかみや接触に限られる3次元手オブジェクト相互作用モデルより優れていることが示された。 さらに,本手法は接触前後でも円滑に相互作用する。 1つの訓練されたTOCHモデルを用いて、その有用性を定量的かつ質的に示す。 1) 既設RGB/RGB-D手指再建法による誤再建結果の補正 2)非騒音化,及び 3)オブジェクト間の転送の把握。 コードとトレーニングされたモデルをプロジェクトページのhttp://virtual humans.mpi-inf.mpg.de/toch/で公開します。

We present TOCH, a method for refining incorrect 3D hand-object interaction sequences using a data prior. Existing hand trackers, especially those that rely on very few cameras, often produce visually unrealistic results with hand-object intersection or missing contacts. Although correcting such errors requires reasoning about temporal aspects of interaction, most previous work focus on static grasps and contacts. The core of our method are TOCH fields, a novel spatio-temporal representation for modeling correspondences between hands and objects during interaction. The key component is a point-wise object-centric representation which encodes the hand position relative to the object. Leveraging this novel representation, we learn a latent manifold of plausible TOCH fields with a temporal denoising auto-encoder. Experiments demonstrate that TOCH outperforms state-of-the-art (SOTA) 3D hand-object interaction models, which are limited to static grasps and contacts. More importantly, our method produces smooth interactions even before and after contact. Using a single trained TOCH model, we quantitatively and qualitatively demonstrate its usefulness for 1) correcting erroneous reconstruction results from off-the-shelf RGB/RGB-D hand-object reconstruction methods, 2) de-noising, and 3) grasp transfer across objects. We will release our code and trained model on our project page at http://virtualhumans.mpi-inf.mpg.de/toch/
翻訳日:2022-05-19 00:16:09 公開日:2022-05-16
# (参考訳) 画像分割のための形状モーメントを用いたテスト時間適応

Test-Time Adaptation with Shape Moments for Image Segmentation ( http://arxiv.org/abs/2205.07983v1 )

ライセンス: CC BY 4.0
Mathilde Bateson, Herv\'e Lombaert, Ismail Ben Ayed(参考訳) 教師付き学習は分布シフトの下で一般化に失敗することがよく知られている。 典型的な臨床環境では、ソースデータはアクセス不能であり、ターゲットの分布はいくつかのサンプルで表現される。 セグメンテーションのためのテスト時間単一サブジェクト適応について検討し、この課題に取り組むための形状誘導エントロピー最小化目標を提案する。 単一のテスト対象に対する推論では、バッチ正規化のスケールとバイアスパラメータに関して損失を最小限に抑えることができる。 本研究は, 様々な形状を前もって統合し, 妥当な解への適応を導く可能性を示し, mri-to-ctによる心筋分画の適応と前立腺分画のクロスサイト適応という2つの難解なシナリオでその方法を検証する。 提案手法は既存のテスト時間適応手法よりも大幅に優れた性能を示す。 さらに驚くことに、これは最先端のドメイン適応法よりも優れているが、適応中に追加のターゲットデータに対するトレーニングを禁じている。 本研究は,セグメンテーション適応における対象データに対するトレーニングの有用性を疑問視し,テスト時間推定における形状先行の効果を指摘する。 私たちのフレームワークは、様々なプリエントの統合やセグメンテーションネットワークの適応に簡単に使えますし、コードも利用可能です。

Supervised learning is well-known to fail at generalization under distribution shifts. In typical clinical settings, the source data is inaccessible and the target distribution is represented with a handful of samples: adaptation can only happen at test time on a few or even a single subject(s). We investigate test-time single-subject adaptation for segmentation, and propose a Shape-guided Entropy Minimization objective for tackling this task. During inference for a single testing subject, our loss is minimized with respect to the batch normalization's scale and bias parameters. We show the potential of integrating various shape priors to guide adaptation to plausible solutions, and validate our method in two challenging scenarios: MRI-to-CT adaptation of cardiac segmentation and cross-site adaptation of prostate segmentation. Our approach exhibits substantially better performances than the existing test-time adaptation methods. Even more surprisingly, it fares better than state-of-the-art domain adaptation methods, although it forgoes training on additional target data during adaptation. Our results question the usefulness of training on target data in segmentation adaptation, and points to the substantial effect of shape priors on test-time inference. Our framework can be readily used for integrating various priors and for adapting any segmentation network, and our code is available.
翻訳日:2022-05-19 00:15:05 公開日:2022-05-16
# (参考訳) 翻訳アーティファクトの脱バイアス化に向けて

Towards Debiasing Translation Artifacts ( http://arxiv.org/abs/2205.08001v1 )

ライセンス: CC BY 4.0
Koel Dutta Chowdhury, Rricha Jalota, Cristina Espa\~na-Bonet, and Josef van Genabith(参考訳) 言語間自然言語処理は、トレーニングデータの翻訳からテストセットの翻訳に至るまで、人間か機械によって異なるレベルで翻訳に依存する。 しかし、同じ言語の原文と比較すると、翻訳は翻訳語と呼ばれる特徴を持っている。 これまでの研究では、これらの翻訳成果物が様々な言語横断タスクのパフォーマンスに影響を与えることが示されている。 そこで本研究では,確立されたバイアス除去手法を拡張し,翻訳文の削減手法を提案する。 反復的ヌル空間投影 (inlp) アルゴリズムを用い, デバイアス処理前後の分類精度を計測することにより, 文と単語レベルでの翻訳量が減少することを示す。 自然言語推論(nli)タスクにおける翻訳文のデバイアスの有効性を評価し,このバイアスの低減によりnli精度が向上することを示す。 我々の知る限りでは、これは潜伏埋め込み空間で表現される翻訳語をデビアスする最初の研究である。

Cross-lingual natural language processing relies on translation, either by humans or machines, at different levels, from translating training data to translating test sets. However, compared to original texts in the same language, translations possess distinct qualities referred to as translationese. Previous research has shown that these translation artifacts influence the performance of a variety of cross-lingual tasks. In this work, we propose a novel approach to reducing translationese by extending an established bias-removal technique. We use the Iterative Null-space Projection (INLP) algorithm, and show by measuring classification accuracy before and after debiasing, that translationese is reduced at both sentence and word level. We evaluate the utility of debiasing translationese on a natural language inference (NLI) task, and show that by reducing this bias, NLI accuracy improves. To the best of our knowledge, this is the first study to debias translationese as represented in latent embedding space.
翻訳日:2022-05-19 00:05:31 公開日:2022-05-16
# (参考訳) CascadER:知識グラフリンク予測のためのクロスモーダルカスケーディング

CascadER: Cross-Modal Cascading for Knowledge Graph Link Prediction ( http://arxiv.org/abs/2205.08012v1 )

ライセンス: CC BY 4.0
Tara Safavi, Doug Downey, Tom Hope(参考訳) 知識グラフ(kg)リンク予測は、自然言語処理、情報検索、バイオメディシンへの応用を含む、人工知能における基本的なタスクである。 近年,知識グラフ埋め込み (KGE) と文脈言語モデル (LM) を組み合わせたアンサンブルを用いて,KGにおけるクロスモーダル情報を活用することで,有望な結果が得られた。 しかし,(1) 既存のアンサンブルは,(1) ランキングの精度向上の観点からは一貫して有効ではないか,(2) 深層言語モデルとのペアランキングの組合せ爆発問題により,大規模データセットでは不効率である。 本稿では,効率を向上しつつ,完全アンサンブルのランキング精度を維持するための新しい階層型ランキングアーキテクチャCascaderを提案する。 CascadER は LM を用いてより効率的な KGE の出力を再現し、KGE の精度向上を最大化しながら LM を最小限に呼び出すことを目的とした適応的なサブセット選択方式に依存する。 大規模な実験では、CascadERはKGEベースラインよりも最大9ポイントMRRを改善し、4つのベンチマークで新しい最先端性能を設定し、競合するクロスモーダルベースラインよりも1桁以上の効率を改善する。 実験により, モデルの多様性と個々のモデルの信頼性信号の保存がCascadERの有効性を説明し, クロスモーダル・カスケードアーキテクチャへの有望な方向性を提案する。 コードと事前訓練されたモデルはhttps://github.com/tsafavi/cascader.comで入手できる。

Knowledge graph (KG) link prediction is a fundamental task in artificial intelligence, with applications in natural language processing, information retrieval, and biomedicine. Recently, promising results have been achieved by leveraging cross-modal information in KGs, using ensembles that combine knowledge graph embeddings (KGEs) and contextual language models (LMs). However, existing ensembles are either (1) not consistently effective in terms of ranking accuracy gains or (2) impractically inefficient on larger datasets due to the combinatorial explosion problem of pairwise ranking with deep language models. In this paper, we propose a novel tiered ranking architecture CascadER to maintain the ranking accuracy of full ensembling while improving efficiency considerably. CascadER uses LMs to rerank the outputs of more efficient base KGEs, relying on an adaptive subset selection scheme aimed at invoking the LMs minimally while maximizing accuracy gain over the KGE. Extensive experiments demonstrate that CascadER improves MRR by up to 9 points over KGE baselines, setting new state-of-the-art performance on four benchmarks while improving efficiency by one or more orders of magnitude over competitive cross-modal baselines. Our empirical analyses reveal that diversity of models across modalities and preservation of individual models' confidence signals help explain the effectiveness of CascadER, and suggest promising directions for cross-modal cascaded architectures. Code and pretrained models are available at https://github.com/tsafavi/cascader.
翻訳日:2022-05-18 23:53:57 公開日:2022-05-16
# (参考訳) ランダム圧縮リハーサルによる3次元点雲の連続学習

Continual learning on 3D point clouds with random compressed rehearsal ( http://arxiv.org/abs/2205.08013v1 )

ライセンス: CC BY 4.0
Maciej Zamorski, Micha{\l} Stypu{\l}kowski, Konrad Karanowski, Tomasz Trzci\'nski, Maciej Zi\k{e}ba(参考訳) 現代のディープニューラルネットワークは、例えば3dポイントクラウドデータの文脈で、視覚推論に適用した場合に最先端の結果を提供する。 ポイントクラウドは3次元環境の正確なモデリングのための重要なデータタイプであるが、この種のデータの効果的な処理は困難である。 大規模でパラメータの高いネットワークアーキテクチャと継続的にストリーミングされるデータの世界では、追加データに基づいてトレーニング可能な機械学習モデルの必要性が高まっている。 残念なことに、現在利用可能なモデルは、過去の知識を失うことなく、追加データのトレーニングを完全に活用できない。 破滅的な忘れ」と呼ばれるこの現象と戦うことは、継続的な学習の主な目的の1つである。 ディープニューラルネットワークの継続的学習は、主に2dコンピュータビジョン、自然言語処理、強化学習、ロボット工学において、活発な研究分野である。 しかし、3Dコンピュータビジョンでは、ポイントクラウド構造を利用するために特別に設計された連続的な学習ソリューションはほとんどない。 本研究では,3Dポイントクラウドデータ上で連続学習が可能なニューラルネットワークアーキテクチャを提案する。 我々は,過去データの圧縮された集合を保存するために点雲構造特性を利用する。 学習プロセスのレギュライゼーション方法としてリハーサルとリコンストラクションを用いることで、タスクが事前に分かっている場合と、モデルにタスク情報が不明な場合の困難なシナリオという、2つの連続学習設定を考慮した、最もポピュラーなポイントクラウドデータセットの既存のソリューションと比較して、壊滅的な忘れ方を大幅に減らすことができる。

Contemporary deep neural networks offer state-of-the-art results when applied to visual reasoning, e.g., in the context of 3D point cloud data. Point clouds are important datatype for precise modeling of three-dimensional environments, but effective processing of this type of data proves to be challenging. In the world of large, heavily-parameterized network architectures and continuously-streamed data, there is an increasing need for machine learning models that can be trained on additional data. Unfortunately, currently available models cannot fully leverage training on additional data without losing their past knowledge. Combating this phenomenon, called catastrophic forgetting, is one of the main objectives of continual learning. Continual learning for deep neural networks has been an active field of research, primarily in 2D computer vision, natural language processing, reinforcement learning, and robotics. However, in 3D computer vision, there are hardly any continual learning solutions specifically designed to take advantage of point cloud structure. This work proposes a novel neural network architecture capable of continual learning on 3D point cloud data. We utilize point cloud structure properties for preserving a heavily compressed set of past data. By using rehearsal and reconstruction as regularization methods of the learning process, our approach achieves a significant decrease of catastrophic forgetting compared to the existing solutions on several most popular point cloud datasets considering two continual learning settings: when a task is known beforehand, and in the challenging scenario of when task information is unknown to the model.
翻訳日:2022-05-18 23:32:32 公開日:2022-05-16
# 複数辞書学習に基づく多孔質メディアの多元的再構築

Multiscale reconstruction of porous media based on multiple dictionaries learning ( http://arxiv.org/abs/2205.08278v1 )

ライセンス: Link先を確認
Pengcheng Yan, Qizhi Teng, Xiaohai He, Zhenchuan Ma, Ningning Zhang(参考訳) 微細構造のデジタルモデリングは多孔質媒体の物性と輸送特性を研究する上で重要である。 多孔質媒体のマルチスケールモデリングは、大視野の高分解能3次元孔構造モデルにおいて、マクロ孔とマイクロ孔を正確に特徴付けることができる。 本稿では,ホモロジー高分解能細孔構造からのエッジパターンとマイクロ細孔パターンを低分解能細孔構造に導入し,細孔構造モデルを構築するマルチディクショナリ学習に基づくマルチスケール再構成アルゴリズムを提案する。 実験結果の質的・定量的比較により,多スケール復元の結果は複雑な細孔形状と細孔表面形態の観点から実高分解能細孔構造と類似していることがわかった。 マルチスケール再構成結果の幾何学的,位相的,透過性特性は,実際の高分解能孔構造とほぼ同一である。 実験では,提案アルゴリズムは入力のサイズによらず,マルチスケールで再構成可能であることも実証した。 本研究は多孔質媒体のマルチスケールモデリングに有効な手法を提供する。

Digital modeling of the microstructure is important for studying the physical and transport properties of porous media. Multiscale modeling for porous media can accurately characterize macro-pores and micro-pores in a large-FoV (field of view) high-resolution three-dimensional pore structure model. This paper proposes a multiscale reconstruction algorithm based on multiple dictionaries learning, in which edge patterns and micro-pore patterns from homology high-resolution pore structure are introduced into low-resolution pore structure to build a fine multiscale pore structure model. The qualitative and quantitative comparisons of the experimental results show that the results of multiscale reconstruction are similar to the real high-resolution pore structure in terms of complex pore geometry and pore surface morphology. The geometric, topological and permeability properties of multiscale reconstruction results are almost identical to those of the real high-resolution pore structures. The experiments also demonstrate the proposal algorithm is capable of multiscale reconstruction without regard to the size of the input. This work provides an effective method for fine multiscale modeling of porous media.
翻訳日:2022-05-18 14:58:12 公開日:2022-05-16
# 遺伝的アルゴリズムによる説明誘導公平性検査

Explanation-Guided Fairness Testing through Genetic Algorithm ( http://arxiv.org/abs/2205.08335v1 )

ライセンス: Link先を確認
Ming Fan, Wenying Wei, Wuxia Jin, Zijiang Yang, Ting Liu(参考訳) 公正性特性は信頼されたAIシステムの重要な特性である。 多くの研究が個別の公平性テストのための多様な方法を提案している。 しかし、それらは3つの大きな制限、すなわち低効率、低効率、モデル固有性に悩まされている。 本研究は遺伝的アルゴリズム(GA)による説明誘導フェアネステスト手法であるExpGAを提案する。 ExpGAは、解釈可能な方法によって生成された説明結果を用いて、品質の高い初期種子を採取し、特徴値をわずかに修正することで識別サンプルを誘導する傾向にある。 ExpGAは、フィットネス値を最適化して識別サンプル候補を検索するためにGAを採用する。 この説明結果とGAの組み合わせにより、ExpGAは効率的かつ効果的に差別的個人を検出することができる。 さらに、ExpGAはテストされたモデルの予測確率のみを必要とするため、様々なモデルに対してより良い一般化能力が得られる。 表とテキストのデータセットを含む複数の実世界のベンチマーク実験では、expgaが4つの最先端のアプローチよりも高い効率性と有効性を示している。

The fairness characteristic is a critical attribute of trusted AI systems. A plethora of research has proposed diverse methods for individual fairness testing. However, they are suffering from three major limitations, i.e., low efficiency, low effectiveness, and model-specificity. This work proposes ExpGA, an explanationguided fairness testing approach through a genetic algorithm (GA). ExpGA employs the explanation results generated by interpretable methods to collect high-quality initial seeds, which are prone to derive discriminatory samples by slightly modifying feature values. ExpGA then adopts GA to search discriminatory sample candidates by optimizing a fitness value. Benefiting from this combination of explanation results and GA, ExpGA is both efficient and effective to detect discriminatory individuals. Moreover, ExpGA only requires prediction probabilities of the tested model, resulting in a better generalization capability to various models. Experiments on multiple real-world benchmarks, including tabular and text datasets, show that ExpGA presents higher efficiency and effectiveness than four state-of-the-art approaches.
翻訳日:2022-05-18 14:57:57 公開日:2022-05-16
# 慣性信号を用いたモビリティコンテキストの自動検出

Automated Mobility Context Detection with Inertial Signals ( http://arxiv.org/abs/2205.08409v1 )

ライセンス: Link先を確認
Antonio Bevilacqua, Lisa Alcock, Brian Caulfield, Eran Gazit, Clint Hansen, Neil Ireson, Georgiana Ifrim(参考訳) 運動機能のリモートモニタリングは、特に高齢者や、歩行能力に悪影響を及ぼす病態に影響を受ける被験者の間で、健康評価の強力なアプローチである。 これはウェアラブルセンサーデバイスの継続的な開発によってさらにサポートされ、徐々に小さく、安くなり、エネルギー効率が向上している。 外部環境と移動環境は歩行性能に影響を及ぼすため、歩行エピソードを遠隔で分析する場合の最大の課題の1つは、これらのエピソードが発生した状況を検出する能力である。 本研究の主な目的は,日常の運動機能の遠隔監視におけるコンテキスト検出である。 我々は,ウェアラブル加速度計でサンプリングされた慣性信号が,歩行関連活動を屋内または屋外のいずれかに分類するための信頼できる情報を提供するかを理解することを目的とする。 本研究は,(1)歩行エピソード中にサンプリングされた入力慣性信号から抽出された歩行記述子と特徴を,古典的機械学習アルゴリズムとともに,(2)入力慣性信号を時系列データとして扱い,エンドツーエンドの時系列分類器を活用する,という2つのアプローチを検討する。 9人の健常者から収集したデータに基づいて,2つのアプローチを直接比較した。 その結果,室内外コンテキストを慣性データストリームから導出することに成功した。 また,時系列分類モデルはどの特徴ベースモデルよりも精度が高く,効率と使いやすさは保たれている。

Remote monitoring of motor functions is a powerful approach for health assessment, especially among the elderly population or among subjects affected by pathologies that negatively impact their walking capabilities. This is further supported by the continuous development of wearable sensor devices, which are getting progressively smaller, cheaper, and more energy efficient. The external environment and mobility context have an impact on walking performance, hence one of the biggest challenges when remotely analysing gait episodes is the ability to detect the context within which those episodes occurred. The primary goal of this paper is the investigation of context detection for remote monitoring of daily motor functions. We aim to understand whether inertial signals sampled with wearable accelerometers, provide reliable information to classify gait-related activities as either indoor or outdoor. We explore two different approaches to this task: (1) using gait descriptors and features extracted from the input inertial signals sampled during walking episodes, together with classic machine learning algorithms, and (2) treating the input inertial signals as time series data and leveraging end-to-end state-of-the-art time series classifiers. We directly compare the two approaches through a set of experiments based on data collected from 9 healthy individuals. Our results indicate that the indoor/outdoor context can be successfully derived from inertial data streams. We also observe that time series classification models achieve better accuracy than any other feature-based models, while preserving efficiency and ease of use.
翻訳日:2022-05-18 14:57:41 公開日:2022-05-16
# 機械学習強化ランダム場シミュレーションによる高速かつ現実的な大規模構造

Fast and realistic large-scale structure from machine-learning-augmented random field simulations ( http://arxiv.org/abs/2205.07898v1 )

ライセンス: Link先を確認
Davide Piras, Benjamin Joachimi, Francisco Villaescusa-Navarro(参考訳) 宇宙における暗黒物質分布の高精度化による数千のシミュレーションを作成することは、現在および今後の宇宙科学調査の活用を促進する上で難しいが重要な課題である。 多くの安価なn$-bodyシミュレーションの代替案が提案されているが、小規模で非線形なスケールの統計を再現できないことが多い。 これらの代替案の中で、共通近似は対数正規分布で表され、これはそれ自身の制限も伴うが、高分解能密度場に対しても計算が極めて高速である。 本研究では,予測された対数正規暗黒物質密度場を,n$-bodyシミュレーションで得られたより現実的な暗黒物質マップに変換するために,機械学習モデルを訓練する。 我々は,Fourier相の情報を活用して,学習データとして使用する対数正規写像とシミュレートマップの高度に相関したペアを生成する手順について詳述する。 本研究では,様々なフィールド解像度,赤方偏移,宇宙パラメータを用いた各種統計テストを比較し,その頑健性を証明し,現在の限界を説明する。 拡張対数正規確率場は、最大波数1 \h \ \\rm{mpc}^{-1}$までのパワースペクトルを再現し、双スペクトルとピーク数は10%以内であり、常に誤差バー内である。 最後に,提案手法を既存ツールと統合し,弱レンズ解析のためのより高精度な球面確率場を得る計画について述べる。

Producing thousands of simulations of the dark matter distribution in the Universe with increasing precision is a challenging but critical task to facilitate the exploitation of current and forthcoming cosmological surveys. Many inexpensive substitutes to full $N$-body simulations have been proposed, even though they often fail to reproduce the statistics of the smaller, non-linear scales. Among these alternatives, a common approximation is represented by the lognormal distribution, which comes with its own limitations as well, while being extremely fast to compute even for high-resolution density fields. In this work, we train a machine learning model to transform projected lognormal dark matter density fields to more realistic dark matter maps, as obtained from full $N$-body simulations. We detail the procedure that we follow to generate highly correlated pairs of lognormal and simulated maps, which we use as our training data, exploiting the information of the Fourier phases. We demonstrate the performance of our model comparing various statistical tests with different field resolutions, redshifts and cosmological parameters, proving its robustness and explaining its current limitations. The augmented lognormal random fields reproduce the power spectrum up to wavenumbers of $1 \ h \ \rm{Mpc}^{-1}$, the bispectrum and the peak counts within 10%, and always within the error bars, of the fiducial target simulations. Finally, we describe how we plan to integrate our proposed model with existing tools to yield more accurate spherical random fields for weak lensing analysis, going beyond the lognormal approximation.
翻訳日:2022-05-18 14:56:39 公開日:2022-05-16
# Logic#によるエキスパートシステム。 C#のオブジェクト指向コンテキストにおける論理プログラミングのための新しいモデリングフレームワーク

Expert Systems with Logic#. A Novel Modeling Framework for Logic Programming in an Object-Oriented Context of C# ( http://arxiv.org/abs/2205.07985v1 )

ライセンス: Link先を確認
F. Lorenz, M. G\"unther(参考訳) 本稿では,オブジェクト指向言語で専門家システムの論理プログラミングを直接宣言する手法を提案する。

We present a novel approach how logic programming for expert systems can be declared directly in an object-oriented language.
翻訳日:2022-05-18 14:24:01 公開日:2022-05-16
# 野生における議論の多様性--Redditの"Change My View"における仮定と定義から因果関係と逸話へ

The Diversity of Argument-Making in the Wild: from Assumptions and Definitions to Causation and Anecdote in Reddit's "Change My View" ( http://arxiv.org/abs/2205.07938v1 )

ライセンス: Link先を確認
Robin W. Na and Simon DeDeo(参考訳) 人はどんな議論をするのか、他人にどんな影響を及ぼすのか? 議論の規範的制約は哲学そのものと同じくらい古いが、実際には議論の多様性についてはほとんど知られていない。 我々はNLPツールを使ってRedditのサイトChange My View (r/CMV)から議論のパターンを抽出する。 これは6つの異なる議論パターンを示している: 慣れ親しんだ推論的および帰納的形式だけでなく、定義、関連性、可能性と原因、個人的な経験に関する議論も示す。 r/CMVのデータもまた効果の差を明らかにしている: 個人的経験と、より少ない範囲において、因果関係や例についての議論は、人の見解を変える可能性が高い。 最後に,2軸モデルである「対人的」と「対人的」の2つのモデルが,個人間の戦略的差異の約80%を占めることを明らかにする。

What kinds of arguments do people make, and what effect do they have on others? Normative constraints on argument-making are as old as philosophy itself, but little is known about the diversity of arguments made in practice. We use NLP tools to extract patterns of argument-making from the Reddit site "Change My View" (r/CMV). This reveals six distinct argument patterns: not just the familiar deductive and inductive forms, but also arguments about definitions, relevance, possibility and cause, and personal experience. Data from r/CMV also reveal differences in efficacy: personal experience and, to a lesser extent, arguments about causation and examples, are most likely to shift a person's view, while arguments about relevance are the least. Finally, our methods reveal a gradient of argument-making preferences among users: a two-axis model, of "personal--impersonal" and "concrete--abstract", can account for nearly 80% of the strategy variance between individuals.
翻訳日:2022-05-18 14:23:18 公開日:2022-05-16
# Budge プログラミング言語

The Budge programming language ( http://arxiv.org/abs/2205.07979v1 )

ライセンス: Link先を確認
Boro Sitnikovski(参考訳) G\"odelナンバリングと素因数分解に基づいて、明示的なスコープループで拡張され、プログラム構成が容易な、単純で難解なプログラミング言語を提案する。 構文とセマンティクスを示し、いくつかのサンプルプログラムとそれらの評価を提供する。 インタプリタの実装もいくつか提供します。

We present a simple, esoteric programming language based on G\"odel numbering and prime factorization, enhanced with explicit, scoped loops, allowing for easy program composition. We will show the syntax and semantics and then provide a few example programs and their evaluation. We will also provide a few interpreter implementations.
翻訳日:2022-05-18 14:22:58 公開日:2022-05-16
# 分解・強化学習による多フィールドパケット分類

Many Field Packet Classification with Decomposition and Reinforcement Learning ( http://arxiv.org/abs/2205.07973v1 )

ライセンス: Link先を確認
Hasibul Jamil, Ning Yang and Ning Weng(参考訳) スケーラブルなパケット分類は、ファイアウォール、侵入検知、差別化サービスといったスケーラブルなネットワークアプリケーションをサポートするための重要な要件である。 コアネットワークにおけるラインレートの増大に伴い,手作業によるヒューリスティックスアプローチを用いて,スケーラブルなパケット分類ソリューションを設計することが大きな課題となる。 本稿では,多分野の異なるルールセットのための効率的なデータ構造を構築することにより,スケーラブルな学習ベースパケット分類エンジンを提案する。 本手法は, フィールドを部分集合に分解し, それらの部分集合上の決定木を, 深い強化学習手順を用いて構築する。 ルールセットの与えられたフィールドを分解するために、各フィールドの標準偏差のような異なるグループ化メトリクスを検討し、多様性指標(DI)と呼ばれる新しい指標を導入する。 深部強化学習を用いて各スキームの異なる分解スキームと決定木について検討し,結果を比較した。 その結果、SD分解測定値がDI測定値よりも11.5%速く、ランダム2より25%速く、ランダム1より40%速くなっていることがわかった。 さらに、学習に基づく選択法は、規則セットの独立性から、様々な規則セットに適用することができる。

Scalable packet classification is a key requirement to support scalable network applications like firewalls, intrusion detection, and differentiated services. With ever increasing in the line-rate in core networks, it becomes a great challenge to design a scalable packet classification solution using hand-tuned heuristics approaches. In this paper, we present a scalable learning-based packet classification engine by building an efficient data structure for different ruleset with many fields. Our method consists of the decomposition of fields into subsets and building separate decision trees on those subsets using a deep reinforcement learning procedure. To decompose given fields of a ruleset, we consider different grouping metrics like standard deviation of individual fields and introduce a novel metric called diversity index (DI). We examine different decomposition schemes and construct decision trees for each scheme using deep reinforcement learning and compare the results. The results show that the SD decomposition metrics results in 11.5% faster than DI metrics, 25% faster than random 2 and 40% faster than random 1. Furthermore, our learning-based selection method can be applied to varying rulesets due to its ruleset independence.
翻訳日:2022-05-18 14:19:21 公開日:2022-05-16
# DNAエンコードライブラリによる部分製品認識機械学習

Partial Product Aware Machine Learning on DNA-Encoded Libraries ( http://arxiv.org/abs/2205.08020v1 )

ライセンス: Link先を確認
Polina Binder, Meghan Lawler, LaShadric Grady, Neil Carlson, Sumudu Leelananda, Svetlana Belyanskaya, Joe Franklin, Nicolas Tilmans, Henri Palacci(参考訳) DNAエンコードライブラリー(DEL)は、タンパク質標的に対する小さな分子の高速な大規模スクリーニングに用いられる。 これらの組み合わせライブラリーは、化学とDNAリゲーションのサイクルを通じて構築され、大量のDNAタグ付き分子を生成する。 DELデータに基づく機械学習モデルの訓練は、元のDELと異なる関心の分子を予測するのに有効であることが示されている。 機械学習の化学特性予測手法は、興味のある性質が単一の化学構造と関連しているという仮定に依存する。 DNAエンコードされたライブラリーの文脈では、これは全ての化学反応が望まれる生成物を完全に生成するという仮定と等価である。 しかし実際には、多段階の化学合成は時に部分的な分子を生成する。 従って、DELのそれぞれのユニークなDNAタグは、可能な分子の集合に対応する。 ここでは, 反応収率データを利用して, 与えられたDNAタグに対応する分子の集合を列挙する。 本稿では,よりリッチなデータセットを用いたカスタムGNNのトレーニングにより,精度と一般化性能が向上することを示す。

DNA encoded libraries (DELs) are used for rapid large-scale screening of small molecules against a protein target. These combinatorial libraries are built through several cycles of chemistry and DNA ligation, producing large sets of DNA-tagged molecules. Training machine learning models on DEL data has been shown to be effective at predicting molecules of interest dissimilar from those in the original DEL. Machine learning chemical property prediction approaches rely on the assumption that the property of interest is linked to a single chemical structure. In the context of DNA-encoded libraries, this is equivalent to assuming that every chemical reaction fully yields the desired product. However, in practice, multi-step chemical synthesis sometimes generates partial molecules. Each unique DNA tag in a DEL therefore corresponds to a set of possible molecules. Here, we leverage reaction yield data to enumerate the set of possible molecules corresponding to a given DNA tag. This paper demonstrates that training a custom GNN on this richer dataset improves accuracy and generalization performance.
翻訳日:2022-05-18 14:16:55 公開日:2022-05-16
# SAP HANAにおける記録ワークロードデータの再生中のエラーの自動分類とルート原因決定

Automatic Error Classification and Root Cause Determination while Replaying Recorded Workload Data at SAP HANA ( http://arxiv.org/abs/2205.08029v1 )

ライセンス: Link先を確認
Neetha Jambigi, Thomas Bach, Felix Schabernack, Michael Felderer(参考訳) 社内テスト中にこれらのワークロードを再生するためにデータベースシステムの顧客ワークロードをキャプチャすることは、ソフトウェアの品質保証に有益である。 しかし、このようなリプレイが大量の偽陽性警告を発生させることで、結果の信頼性が低下したり、分析に時間がかかります。 したがって、アラートの根本原因を属性とする機械学習ベースのアプローチを設計する。 これは品質保証にいくつかの利点をもたらし、例えば警告が正か正かを分類することができる。 提案手法は手作業を大幅に削減し,データベースシステムSAP HANAの全体的な品質保証を改善する。 我々は,我々のアプローチの問題点,設計と結果について議論し,さらなる研究を必要とする可能性のある実用上の限界を示す。

Capturing customer workloads of database systems to replay these workloads during internal testing can be beneficial for software quality assurance. However, we experienced that such replays can produce a large amount of false positive alerts that make the results unreliable or time consuming to analyze. Therefore, we design a machine learning based approach that attributes root causes to the alerts. This provides several benefits for quality assurance and allows for example to classify whether an alert is true positive or false positive. Our approach considerably reduces manual effort and improves the overall quality assurance for the database system SAP HANA. We discuss the problem, the design and result of our approach, and we present practical limitations that may require further research.
翻訳日:2022-05-18 14:16:41 公開日:2022-05-16
# 自動データサイエンスにおけるセマンティクスに関する調査

A Survey on Semantics in Automated Data Science ( http://arxiv.org/abs/2205.08018v1 )

ライセンス: Link先を確認
Udayan Khurana and Kavitha Srinivas and Horst Samulowitz(参考訳) データサイエンティストは常識推論とドメイン知識を活用して、予測モデルを構築するためのデータを理解し、強化する。 近年、自動機械学習のためのツールや技術が急増しているのを目撃している。 データサイエンティストはモデル構築を助けるために様々なツールを使うことができるが、概念の意味的理解を必要とする"em feature engineering"のような他の多くの側面は手作業のままである。 本稿では,現在の自動データサイエンスソリューションと機械学習の重要な欠点について述べる。 データサイエンス自動化のための新しいツールと組み合わせて、データに対する基本的なセマンティック推論を活用することで、一貫性と説明可能なデータ拡張と変換を実現する方法について論じる。 さらに、セマンティクスは、データサイエンティストが「em信頼」、「emバイアス」、「em説明可能性」に関連する課題に対処することで、新しい方法で支援することができる。

Data Scientists leverage common sense reasoning and domain knowledge to understand and enrich data for building predictive models. In recent years, we have witnessed a surge in tools and techniques for {\em automated machine learning}. While data scientists can employ various such tools to help with model building, many other aspects such as {\em feature engineering} that require semantic understanding of concepts, remain manual to a large extent. In this paper we discuss important shortcomings of current automated data science solutions and machine learning. We discuss how leveraging basic semantic reasoning on data in combination with novel tools for data science automation can help with consistent and explainable data augmentation and transformation. Moreover, semantics can assist data scientists in a new manner by helping with challenges related to {\em trust}, {\em bias}, and {\em explainability}.
翻訳日:2022-05-18 14:01:08 公開日:2022-05-16
# 画像空間における疎視的対実的説明

Sparse Visual Counterfactual Explanations in Image Space ( http://arxiv.org/abs/2205.07972v1 )

ライセンス: Link先を確認
Valentyn Boreiko, Maximilian Augustin, Francesco Croce, Philipp Berens, Matthias Hein(参考訳) 画像空間における視覚偽物説明(visual counterfactual explanations, vces)は、画像のどの変化で分類器の判断が変わるかを示すため、画像分類器の判断を理解する上で重要なツールである。 画像空間におけるそれらの生成は困難であり、逆例の問題により頑健なモデルを必要とする。 画像空間でvcを生成する既存の技術は、背景のスプリアスな変化に苦しむ。 私たちの新しいvcsの摂動モデルと、新しいオートフランク・ウルフスキームによる効率的な最適化は、オブジェクト中心のvcsをかなり少なくします。 さらに,imagenetデータセットのスプリアス機能により,イメージネット分類器の望ましくない動作を検出するためにvcsが使用できることを示すとともに,データ生成分布の推定がvcsに対してどのように利用されるかについて議論する。

Visual counterfactual explanations (VCEs) in image space are an important tool to understand decisions of image classifiers as they show under which changes of the image the decision of the classifier would change. Their generation in image space is challenging and requires robust models due to the problem of adversarial examples. Existing techniques to generate VCEs in image space suffer from spurious changes in the background. Our novel perturbation model for VCEs together with its efficient optimization via our novel Auto-Frank-Wolfe scheme yields sparse VCEs which are significantly more object-centric. Moreover, we show that VCEs can be used to detect undesired behavior of ImageNet classifiers due to spurious features in the ImageNet dataset and discuss how estimates of the data-generating distribution can be used for VCEs.
翻訳日:2022-05-18 14:00:54 公開日:2022-05-16
# 統計的モデルにおけるパラメータ推定のための指数的ステップサイズ増加

An Exponentially Increasing Step-size for Parameter Estimation in Statistical Models ( http://arxiv.org/abs/2205.07999v1 )

ライセンス: Link先を確認
Nhat Ho and Tongzheng Ren and Sujay Sanghavi and Purnamrita Sarkar and Rachel Ward(参考訳) 固定あるいは減衰するステップサイズを持つ勾配降下(GD)を用いることは、制約のない最適化問題において標準的なプラクティスである。 しかし、損失関数が局所凸である場合、そのようなステップサイズのスケジュールは損失関数の平坦な曲率を探索できないため、gdを人工的に遅くする。 そこで本研究では,GDアルゴリズムのステップサイズを指数関数的に増加させることを提案する。 損失関数の均質な仮定の下では、提案した \emph{exponential step size gradient} (EGD) アルゴリズムの反復が最適解に線形に収束することを示した。 この最適化の知見を生かして、サンプルサイズが無限大となると、損失関数が局所凸となる非正則統計モデルの下でパラメータ推定を解くためのEGDアルゴリズムを検討する。 我々は,GDアルゴリズムの反復数であるemph{polynomial}数とは対照的に,EGDの反復は対数的な反復数の後,真のパラメータ内の最終的な統計的半径に達することを示した。 したがって、EGDアルゴリズムの総計算複雑性は \emph{optimal} であり、非正規統計モデルにおけるパラメータ推定の解法として GD よりも指数関数的に安価である。 我々の知る限りでは、非正規統計モデルにおけるパラメータ推定の統計量とアルゴリズム計算の複雑さの間の長年のギャップを解消する。 最後に、多項式リンク関数を持つ一般化線形モデルや位置ガウス混合モデルなど、統計モデルのいくつかのクラスに対する一般理論のターゲット応用を提案する。

Using gradient descent (GD) with fixed or decaying step-size is standard practice in unconstrained optimization problems. However, when the loss function is only locally convex, such a step-size schedule artificially slows GD down as it cannot explore the flat curvature of the loss function. To overcome that issue, we propose to exponentially increase the step-size of the GD algorithm. Under homogeneous assumptions on the loss function, we demonstrate that the iterates of the proposed \emph{exponential step size gradient descent} (EGD) algorithm converge linearly to the optimal solution. Leveraging that optimization insight, we then consider using the EGD algorithm for solving parameter estimation under non-regular statistical models whose the loss function becomes locally convex when the sample size goes to infinity. We demonstrate that the EGD iterates reach the final statistical radius within the true parameter after a logarithmic number of iterations, which is in stark contrast to a \emph{polynomial} number of iterations of the GD algorithm. Therefore, the total computational complexity of the EGD algorithm is \emph{optimal} and exponentially cheaper than that of the GD for solving parameter estimation in non-regular statistical models. To the best of our knowledge, it resolves a long-standing gap between statistical and algorithmic computational complexities of parameter estimation in non-regular statistical models. Finally, we provide targeted applications of the general theory to several classes of statistical models, including generalized linear models with polynomial link functions and location Gaussian mixture models.
翻訳日:2022-05-18 13:27:51 公開日:2022-05-16
# アラビア語 Hate Speech 2022: MultiTask Learning with Self-Correction for Hate Speech Classification (英語)

Meta AI at Arabic Hate Speech 2022: MultiTask Learning with Self-Correction for Hate Speech Classification ( http://arxiv.org/abs/2205.07960v1 )

ライセンス: Link先を確認
Badr AlKhamissi, Mona Diab(参考訳) 本稿では,アラビア・ファイングレード・ヘイト音声検出共有タスクに取り組み,その3つのサブタスクに対して報告されたベースラインよりも大幅に改善したことを示す。 タスクは、ツイートが(1)攻撃的言語を含むか、(2)ヘイトスピーチを含むか、(2)ヘイトスピーチであるか否かを予測し、(3)きめ細かいヘイトスピーチラベルを6つのカテゴリのうちの1つから予測することである。 最後の解決策は、マルチタスク学習と、ヘイトスピーチのサブタスクで82.7%の自己整合性補正手法を用いたモデルのアンサンブルである。

In this paper, we tackle the Arabic Fine-Grained Hate Speech Detection shared task and demonstrate significant improvements over reported baselines for its three subtasks. The tasks are to predict if a tweet contains (1) Offensive language; and whether it is considered (2) Hate Speech or not and if so, then predict the (3) Fine-Grained Hate Speech label from one of six categories. Our final solution is an ensemble of models that employs multitask learning and a self-consistency correction method yielding 82.7% on the hate speech subtask -- reflecting a 3.4% relative improvement compared to previous work.
翻訳日:2022-05-18 13:26:44 公開日:2022-05-16
# アラビア語の質問に対する多言語資源のハーネス化

Harnessing Multilingual Resources to Question Answering in Arabic ( http://arxiv.org/abs/2205.08024v1 )

ライセンス: Link先を確認
Khalid Alnajjar and Mika H\"am\"al\"ainen(参考訳) 論文の目標は、クルアーンに与えられた質問に対する答えを予測することである。 答えは常に文中に見られるので、モデルのタスクは、答えがどこから始まり、どこで終わるかを予測することです。 最初のデータセットはかなり小さいので、多言語BERTを使用して、アラビア語以外の言語で利用可能なデータを使用してトレーニングデータを拡張します。 さらに、宗教的な言説に特有の領域である大きなアラビア語コーパスをクロールする。 提案手法は2つのステップから構成される。まずはBERTモデルをトレーニングして,パス内の可能な回答のセットを予測する。 最後に、別のBERTモデルを用いて、最初のBERTモデルによって生成される候補回答をランク付けする。

The goal of the paper is to predict answers to questions given a passage of Qur'an. The answers are always found in the passage, so the task of the model is to predict where an answer starts and where it ends. As the initial data set is rather small for training, we make use of multilingual BERT so that we can augment the training data by using data available for languages other than Arabic. Furthermore, we crawl a large Arabic corpus that is domain specific to religious discourse. Our approach consists of two steps, first we train a BERT model to predict a set of possible answers in a passage. Finally, we use another BERT based model to rank the candidate answers produced by the first BERT model.
翻訳日:2022-05-18 13:26:32 公開日:2022-05-16
# lost in compression: 赤外画像中の可変サイズ物体検出におけるロス画像圧縮の影響

Lost in Compression: the Impact of Lossy Image Compression on Variable Size Object Detection within Infrared Imagery ( http://arxiv.org/abs/2205.08002v1 )

ライセンス: Link先を確認
Neelanjan Bhowmik, Jack W. Barker, Yona Falinie A. Gaus, Toby P. Breckon(参考訳) ロスシー画像圧縮戦略は、データを縮小形式に符号化することで、データのより効率的な保存と送信を可能にする。 これは、ストレージ対応の少ない環境で、より大きなデータセットでトレーニングを可能にするために必須です。 しかし、このような圧縮は、弱い圧縮を適用して圧縮された画像が視覚的に同一である場合でも、深層畳み込みニューラルネットワーク(CNN)アーキテクチャの性能が著しく低下する可能性がある。 本研究では、赤外線(熱)画像に6つの離散レベルの圧縮値(95, 75, 50, 15, 10, 5})の損失JPEG圧縮法を適用する。 本研究は, 損失圧縮の増大が, 特徴的に多様な物体検出アーキテクチャ(Cascade-RCNN, FSAF, Deformable DETR)の性能に与える影響を, データセット内に存在する物体の大きさの変化に対して定量的に評価した。 非圧縮データをベースラインとしてトレーニングおよび評価する場合、flirデータセット全体でカスケードr-cnnを用いて0.823の最大平均精度(map)を達成する。 損失のある圧縮の影響は、3つのCNNアーキテクチャ全体にわたって、より高い圧縮レベル(15, 10, 5)においてより極端である。 しかし、失われた圧縮画像による再訓練モデルでは、cnnの3モデル全てで平均76%(より高い圧縮レベル5)のパフォーマンスが改善された。 さらに,圧縮レベルに関して,異なる対象領域 {tiny, small, medium, large} の相対感度を示す。 小型・小型の物体は中型・大型の物体よりも圧縮に敏感であることを示す。 全体として、カスケードR-CNNは、ほとんどの対象領域カテゴリで最大mAPを得る。

Lossy image compression strategies allow for more efficient storage and transmission of data by encoding data to a reduced form. This is essential enable training with larger datasets on less storage-equipped environments. However, such compression can cause severe decline in performance of deep Convolution Neural Network (CNN) architectures even when mild compression is applied and the resulting compressed imagery is visually identical. In this work, we apply the lossy JPEG compression method with six discrete levels of increasing compression {95, 75, 50, 15, 10, 5} to infrared band (thermal) imagery. Our study quantitatively evaluates the affect that increasing levels of lossy compression has upon the performance of characteristically diverse object detection architectures (Cascade-RCNN, FSAF and Deformable DETR) with respect to varying sizes of objects present in the dataset. When training and evaluating on uncompressed data as a baseline, we achieve maximal mean Average Precision (mAP) of 0.823 with Cascade R-CNN across the FLIR dataset, outperforming prior work. The impact of the lossy compression is more extreme at higher compression levels (15, 10, 5) across all three CNN architectures. However, re-training models on lossy compressed imagery notably ameliorated performances for all three CNN models with an average increment of ~76% (at higher compression level 5). Additionally, we demonstrate the relative sensitivity of differing object areas {tiny, small, medium, large} with respect to the compression level. We show that tiny and small objects are more sensitive to compression than medium and large objects. Overall, Cascade R-CNN attains the maximal mAP across most of the object area categories.
翻訳日:2022-05-18 13:06:10 公開日:2022-05-16
# 異方性土壌適応流を伴う脂肪管変分推論

Fat-Tailed Variational Inference with Anisotropic Tail Adaptive Flows ( http://arxiv.org/abs/2205.07918v1 )

ライセンス: Link先を確認
Feynman Liang, Liam Hodgkinson, Michael W. Mahoney(参考訳) 脂肪尾密度は、ロバストモデルやスケール混合物における後縁分布や辺縁分布として一般的に発生するが、ガウス型変分推論がテール減衰を正確に捉えることができない場合の課題を呈する。 まず, 尾部が尾部崩壊率にどのように影響するかを定量化し, 理論を非リプシッツ多項式流に拡張することにより, リプシッツ流の尾部に関する先行理論を改善する。 そこで我々は,尾異方性に敏感な多変量尾パラメータの代替理論を開発した。 そこで我々は, テール等方性分布のみをモデル化できる(すなわち, 各方向において同じテールパラメータを持つ分布)という, 既存のフローベース手法を悩ませる基本的な問題を明らかにする。 これを緩和し、テールアニソトロピックターゲットのモデリングを可能にするために、異方性テールアダプティブフロー(ATAF)を提案する。 人工目標と現実目標の両方の実験結果から、ATAFは先行研究と競合し、適切な尾異方性を示す。

While fat-tailed densities commonly arise as posterior and marginal distributions in robust models and scale mixtures, they present challenges when Gaussian-based variational inference fails to capture tail decay accurately. We first improve previous theory on tails of Lipschitz flows by quantifying how the tails affect the rate of tail decay and by expanding the theory to non-Lipschitz polynomial flows. Then, we develop an alternative theory for multivariate tail parameters which is sensitive to tail-anisotropy. In doing so, we unveil a fundamental problem which plagues many existing flow-based methods: they can only model tail-isotropic distributions (i.e., distributions having the same tail parameter in every direction). To mitigate this and enable modeling of tail-anisotropic targets, we propose anisotropic tail-adaptive flows (ATAF). Experimental results on both synthetic and real-world targets confirm that ATAF is competitive with prior work while also exhibiting appropriate tail-anisotropy.
翻訳日:2022-05-18 13:02:04 公開日:2022-05-16
# サーロゲート損失最小値の$\mathscr{h}$-consistency estimation error

$\mathscr{H}$-Consistency Estimation Error of Surrogate Loss Minimizers ( http://arxiv.org/abs/2205.08017v1 )

ライセンス: Link先を確認
Pranjal Awasthi, Anqi Mao, Mehryar Mohri, Yutao Zhong(参考訳) 本稿では,推定誤差のサーロゲート損失推定誤差について詳細に検討する。 そのような保証を $\mathscr{H}$-consistency estimation error bounds と呼ぶ。 これらの保証は$\mathscr{H}$-calibrationや$\mathscr{H}$-consistencyよりもはるかに強い。 また、$\mathscr{H}$ がすべての可測関数の族であるとき、文献から導かれる同様の過大な誤差境界よりも情報的である。 このような保証を提供する一般的な定理を,分布依存と分布非依存の両方において証明する。 境界が厳密であることを示し、凸性仮定をモデュロする。 また,過去の過大な誤差境界を,我々の一般結果の特別な場合として回収できることも示す。 次に、ゼロ1損失の場合、サロゲート損失の複数の選択、および1つの隠蔽層を持つ線形関数とニューラルネットワークのファミリーに対して、一連の明示的な境界を示す。 その場合、より好ましい分布依存保証が証明される。 また、逆数損失の場合には、$\rho$-margin, hinge あるいは sigmoid 損失の上限と、同じ2つの一般仮説集合の上限に基づいて、サロゲート損失を持つ一連の明示的な境界を示す。 ここでも,自然分布的仮定の下でこれらの保証のいくつかの強化を証明します。 最後に,我々の限界と厳密性を示すシミュレーションの結果を報告する。

We present a detailed study of estimation errors in terms of surrogate loss estimation errors. We refer to such guarantees as $\mathscr{H}$-consistency estimation error bounds, since they account for the hypothesis set $\mathscr{H}$ adopted. These guarantees are significantly stronger than $\mathscr{H}$-calibration or $\mathscr{H}$-consistency. They are also more informative than similar excess error bounds derived in the literature, when $\mathscr{H}$ is the family of all measurable functions. We prove general theorems providing such guarantees, for both the distribution-dependent and distribution-independent settings. We show that our bounds are tight, modulo a convexity assumption. We also show that previous excess error bounds can be recovered as special cases of our general results. We then present a series of explicit bounds in the case of the zero-one loss, with multiple choices of the surrogate loss and for both the family of linear functions and neural networks with one hidden-layer. We further prove more favorable distribution-dependent guarantees in that case. We also present a series of explicit bounds in the case of the adversarial loss, with surrogate losses based on the supremum of the $\rho$-margin, hinge or sigmoid loss and for the same two general hypothesis sets. Here too, we prove several enhancements of these guarantees under natural distributional assumptions. Finally, we report the results of simulations illustrating our bounds and their tightness.
翻訳日:2022-05-18 13:01:45 公開日:2022-05-16
# モデル抽出に対する自己監督学習の欠陥について

On the Difficulty of Defending Self-Supervised Learning against Model Extraction ( http://arxiv.org/abs/2205.07890v1 )

ライセンス: Link先を確認
Adam Dziedzic, Nikita Dhawan, Muhammad Ahmad Kaleem, Jonas Guan, Nicolas Papernot(参考訳) SSL(Self Supervised Learning)は、複雑な入力を明示的なラベルに頼ることなく表現に変換するモデルを訓練するMLパラダイムである。 これらの表現は、複数の下流タスクの効率的な学習を可能にする類似構造を符号化する。 最近、ML-as-a-Serviceプロバイダは、推論APIよりも訓練済みのSSLモデルの提供を開始した。 しかし、これらのモデルのトレーニングに要する高コストとAPIによるエクスポージャーの両方が、ブラックボックス抽出を現実的なセキュリティ脅威にしている。 したがって、sslに対するモデル盗み攻撃を探求する。 ラベルを出力する分類器の伝統的なモデル抽出とは異なり、被害者のモデルは表現を出力し、これらの表現は分類器が出力する低次元の予測スコアに比べてかなり高い次元を示す。 我々は,被害者の盗まれた表現を直接トレーニングする手法がクエリー効率が高く,下流モデルの精度が高いことを発見した。 そして、モデル抽出に対する既存の防御が不十分であり、sslの特異性に簡単には適合しないことを示す。

Self-Supervised Learning (SSL) is an increasingly popular ML paradigm that trains models to transform complex inputs into representations without relying on explicit labels. These representations encode similarity structures that enable efficient learning of multiple downstream tasks. Recently, ML-as-a-Service providers have commenced offering trained SSL models over inference APIs, which transform user inputs into useful representations for a fee. However, the high cost involved to train these models and their exposure over APIs both make black-box extraction a realistic security threat. We thus explore model stealing attacks against SSL. Unlike traditional model extraction on classifiers that output labels, the victim models here output representations; these representations are of significantly higher dimensionality compared to the low-dimensional prediction scores output by classifiers. We construct several novel attacks and find that approaches that train directly on a victim's stolen representations are query efficient and enable high accuracy for downstream models. We then show that existing defenses against model extraction are inadequate and not easily retrofitted to the specificities of SSL.
翻訳日:2022-05-18 12:58:52 公開日:2022-05-16
# ゲームで遊ぶための深い見習い学習

Deep Apprenticeship Learning for Playing Games ( http://arxiv.org/abs/2205.07959v1 )

ライセンス: Link先を確認
Dejan Markovikj(参考訳) 過去10年間で、ディープラーニングは、入力データが異なるレベルの抽象化で表現される機械学習タスクで大きな成功を収めました。 深層ニューラルネットワークを用いた強化学習の最近の研究により、報酬関数が利用できない複雑な多次元タスクに対して、専門家の振る舞いに基づく学習モデルの設計の可能性を検討する。 本研究では,強化学習における教師付き学習手法に関する先行研究に基づいて,新しい見習い学習手法を提案する。 本手法は,アタリゲームからの映像フレームに適用し,人工エージェントによるゲームプレイの指導を行う。 報告された結果は、強化学習における最先端の成果とは比較にならないが、このようなアプローチが将来高いパフォーマンスを達成できる可能性があり、さらなる研究に価値があることを実証する。

In the last decade, deep learning has achieved great success in machine learning tasks where the input data is represented with different levels of abstractions. Driven by the recent research in reinforcement learning using deep neural networks, we explore the feasibility of designing a learning model based on expert behaviour for complex, multidimensional tasks where reward function is not available. We propose a novel method for apprenticeship learning based on the previous research on supervised learning techniques in reinforcement learning. Our method is applied to video frames from Atari games in order to teach an artificial agent to play those games. Even though the reported results are not comparable with the state-of-the-art results in reinforcement learning, we demonstrate that such an approach has the potential to achieve strong performance in the future and is worthwhile for further research.
翻訳日:2022-05-18 12:35:47 公開日:2022-05-16
# (参考訳) PillarNet:高性能ピラーベース3Dオブジェクト検出

PillarNet: High-Performance Pillar-based 3D Object Detection ( http://arxiv.org/abs/2205.07403v1 )

ライセンス: CC BY-SA 4.0
Guangsheng Shi, Ruifeng Li and Chao Ma(参考訳) リアルタイムかつ高性能な3Dオブジェクト検出は、自動運転にとって重要な課題である。 最近のトップパフォーマンスの3Dオブジェクト検出器は、主にポイントベースまたは3Dボクセルベースの畳み込みに依存している。 対照的に、柱ベースの手法は単に2次元の畳み込みを使い、少ない計算資源を消費するが、検出精度においてボクセルベースの手法よりもはるかに遅れている。 本稿では,柱型検出器とボクセル型検出器の主な性能ギャップを調べた結果,PillarNetと呼ばれるリアルタイムかつ高性能な柱型検出器を開発した。 提案するPillarNetは,効率的な柱特徴学習のためのエンコーダネットワーク,空間意味的特徴融合のためのネックネットワーク,そして一般的に使用される検出ヘッドからなる。 2Dコンボリューションのみを使用して、PillarNetはオプションの柱サイズに柔軟性があり、VGGNetやResNetのような古典的な2D CNNバックボーンと互換性がある。 さらに、PillarNetは、IoU対応予測ブランチとともに、方向分離されたIoU回帰損失の恩恵を受ける。 大規模なnuScenes DatasetとWaymo Open Datasetの大規模な実験結果から、提案したPillarNetは、最先端の3D検出器に対して、有効性と効率の点で優れた性能を示している。

Real-time and high-performance 3D object detection is of critical importance for autonomous driving. Recent top-performing 3D object detectors mainly rely on point-based or 3D voxel-based convolutions, which are both computationally inefficient for onboard deployment. In contrast, pillar-based methods use merely 2D convolutions, which consume less computation resources, but they lag far behind their voxel-based counterparts in detection accuracy. In this paper, by examining the primary performance gap between pillar- and voxel-based detectors, we develop a real-time and high-performance pillar-based detector, dubbed PillarNet. The proposed PillarNet consists of a powerful encoder network for effective pillar feature learning, a neck network for spatial-semantic feature fusion and the commonly used detect head. Using only 2D convolutions, PillarNet is flexible to an optional pillar size and compatible with classical 2D CNN backbones, such as VGGNet and ResNet. Additionally, PillarNet benefits from an orientation-decoupled IoU regression loss along with the IoU-aware prediction branch. Extensive experimental results on the large-scale nuScenes Dataset and Waymo Open Dataset demonstrate that the proposed PillarNet performs well over the state-of-the-art 3D detectors in terms of effectiveness and efficiency.
翻訳日:2022-05-18 01:56:18 公開日:2022-05-16
# (参考訳) GPTが誰について知っていること

What GPT Knows About Who is Who ( http://arxiv.org/abs/2205.07407v1 )

ライセンス: CC BY 4.0
Xiaohan Yang, Eduardo Peynetti, Vasco Meerman, Chris Tanner(参考訳) 会話や言語を理解する上で重要なタスクであるコリファレンス解決は,大規模な言語モデル(llm)による広範なメリットをまだ確認できていない。 さらに、コリファレンスレゾリューションシステムは、主に教師付きラベルに依存しており、非常に高価で注釈が難しいため、迅速なエンジニアリングのために熟成している。 本稿では,qaに基づくプロンプトエンジニアリング手法を紹介し,事前学習されたllmsの能力とコリファレンス解決タスクに対する限界を識別する。 実験の結果, GPT-2 と GPT-Neo は有効な答えを返すことができるが, コアフェレント参照を識別する能力は制限され, 即効性があり, 矛盾する結果が得られた。

Coreference resolution -- which is a crucial task for understanding discourse and language at large -- has yet to witness widespread benefits from large language models (LLMs). Moreover, coreference resolution systems largely rely on supervised labels, which are highly expensive and difficult to annotate, thus making it ripe for prompt engineering. In this paper, we introduce a QA-based prompt-engineering method and discern \textit{generative}, pre-trained LLMs' abilities and limitations toward the task of coreference resolution. Our experiments show that GPT-2 and GPT-Neo can return valid answers, but that their capabilities to identify coreferent mentions are limited and prompt-sensitive, leading to inconsistent results.
翻訳日:2022-05-18 01:34:33 公開日:2022-05-16
# (参考訳) データ理論と測度の学習難しさを探る

Exploring the Learning Difficulty of Data Theory and Measure ( http://arxiv.org/abs/2205.07427v1 )

ライセンス: CC BY 4.0
Weiyao Zhu, Ou Wu, Fengguang Su, and Yingjun Deng(参考訳) 機械学習には学習難易度が不可欠であり(例えば、学習難易度に基づく重み付け学習戦略)、従来の文献では多くの学習難易度尺度が提案されている。 しかし、今日まで学習困難に関する包括的な調査は行われておらず、既存のほとんどすべての測度は厳密な理論的基礎なしでヒューリスティックに定義されている。 加えて、多くの研究において重要であるにもかかわらず、簡単で硬いサンプルの正式な定義はない。 本研究は, サンプルの学習困難に対するパイロット理論的研究を試みている。 まず,一般化誤差に対するバイアス分散トレードオフ理論に基づいて,学習難易度の理論定義を提案する。 提案した定義に基づいて, 容易かつ硬いサンプルの理論的定義を確立する。 学習難易度の実際的な尺度は、形式的な定義にもインスパイアされている。 次に,難易度に基づく重み付け戦略を学ぶための特性について考察する。 その後、機械学習における古典的な重み付け法は、探索された性質からよく説明できる。 第3に,提案手法は,いくつかの難易度因子の観点から,その推論可能性と優越性を検証するために評価されている。 これらの実験の比較は,提案手法が実験全体の他の尺度を大きく上回ることを示している。

As learning difficulty is crucial for machine learning (e.g., difficulty-based weighting learning strategies), previous literature has proposed a number of learning difficulty measures. However, no comprehensive investigation for learning difficulty is available to date, resulting in that nearly all existing measures are heuristically defined without a rigorous theoretical foundation. In addition, there is no formal definition of easy and hard samples even though they are crucial in many studies. This study attempts to conduct a pilot theoretical study for learning difficulty of samples. First, a theoretical definition of learning difficulty is proposed on the basis of the bias-variance trade-off theory on generalization error. Theoretical definitions of easy and hard samples are established on the basis of the proposed definition. A practical measure of learning difficulty is given as well inspired by the formal definition. Second, the properties for learning difficulty-based weighting strategies are explored. Subsequently, several classical weighting methods in machine learning can be well explained on account of explored properties. Third, the proposed measure is evaluated to verify its reasonability and superiority in terms of several main difficulty factors. The comparison in these experiments indicates that the proposed measure significantly outperforms the other measures throughout the experiments.
翻訳日:2022-05-18 01:25:02 公開日:2022-05-16
# (参考訳) パラメトリックベイズ学習ゲームにおけるシェープリー値の収束性について

On the Convergence of the Shapley Value in Parametric Bayesian Learning Games ( http://arxiv.org/abs/2205.07428v1 )

ライセンス: CC BY 4.0
Lucas Agussurja, Xinyi Xu, Bryan Kian Hsiang Low(参考訳) コントリビューションの測定は、Shapley値が最もよく知られた解の概念である協調ゲーム理論における古典的な問題である。 本稿では,プレイヤーがそれらのデータを用いてベイズ推定を行うパラメトリックベイズ学習ゲームにおいて,シャプリー値の収束特性を定式化し,その特徴関数として後方主kl発散を用いる。 任意の2人のプレイヤーに対して、一定の規則性条件下では、そのシャプリー値の差は、特徴関数が結合フィッシャー情報の対数行列に比例する制限ゲームにおけるシャプリー値の差に収束することを示す。 アプリケーションとして、漸近的にShapley-fairであるオンライン協調学習フレームワークを提示する。 この結果から,KL 分岐のコストのかかる計算を行なわずに実現可能となった。 漁業情報の一貫した推定は必要である。 このフレームワークの有効性は実世界データを用いた実験によって実証される。

Measuring contributions is a classical problem in cooperative game theory where the Shapley value is the most well-known solution concept. In this paper, we establish the convergence property of the Shapley value in parametric Bayesian learning games where players perform a Bayesian inference using their combined data, and the posterior-prior KL divergence is used as the characteristic function. We show that for any two players, under some regularity conditions, their difference in Shapley value converges in probability to the difference in Shapley value of a limiting game whose characteristic function is proportional to the log-determinant of the joint Fisher information. As an application, we present an online collaborative learning framework that is asymptotically Shapley-fair. Our result enables this to be achieved without any costly computations of posterior-prior KL divergences. Only a consistent estimator of the Fisher information is needed. The framework's effectiveness is demonstrated with experiments using real-world data.
翻訳日:2022-05-18 01:22:42 公開日:2022-05-16
# (参考訳) データ駆動型ディープニューラルネットワークと物理情報ニューラルネットワークのための最適化器の最適化

Optimizing the optimizer for data driven deep neural networks and physics informed neural networks ( http://arxiv.org/abs/2205.07430v1 )

ライセンス: CC BY 4.0
John Taylor, Wenyi Wang, Biswajit Bala, Tomasz Bednarz(参考訳) パラメータの少ないニューラルネットワークに適合するモデルの品質を決定する上で,オプティマイザが果たす役割について検討する。 適応運動量を用いた一階勾配に基づく最適化のためのアルゴリズムadam,レベンバーグ・マーカルト法(lm)法,ブロイデン法,フレッチャー法,ゴールドファーブ法,シャンノ法(bfgs)法,およびbfgsの低メモリ版lbfgs法の性能について検討した。 これらのオプティマイザを使用することで、いくつかのパラメータを持つニューラルネットワークを使用してy = sinc(10x)関数に適合する。 この関数は可変振幅と一定周波数を持つ。 我々は,関数の高振幅成分が最初に嵌合され,Adam,BFGS,LBFGSは関数の低振幅成分に収まるのに苦労していることを観察した。 また,BFGSとLMオプティマイザを用いた物理情報ニューラルネットワーク(PINN)を用いてバーガース方程式を解く。 少量から中程度の重みを持つ例では、LMアルゴリズムは機械の精度に迅速に収束でき、他の最適化アルゴリズムよりも大きな利点がある。 さらに,Adamオプティマイザを様々なモデルで検討した結果,LMオプティマイザが達成したモデルに適合するためには,最大26倍のパラメータを含む多数の隠れ単位を持つより深いモデルが必要であることがわかった。 LMオプティマイザの結果は、パラメータがはるかに少ないビルドモデルの可能性を示している。 我々はすべてのメソッドをKerasとTensorFlow 2.0で実装しました。

We investigate the role of the optimizer in determining the quality of the model fit for neural networks with a small to medium number of parameters. We study the performance of Adam, an algorithm for first-order gradient-based optimization that uses adaptive momentum, the Levenberg and Marquardt (LM) algorithm a second order method, Broyden,Fletcher,Goldfarb and Shanno algorithm (BFGS) a second order method and LBFGS, a low memory version of BFGS. Using these optimizers we fit the function y = sinc(10x) using a neural network with a few parameters. This function has a variable amplitude and a constant frequency. We observe that the higher amplitude components of the function are fitted first and the Adam, BFGS and LBFGS struggle to fit the lower amplitude components of the function. We also solve the Burgers equation using a physics informed neural network(PINN) with the BFGS and LM optimizers. For our example problems with a small to medium number of weights, we find that the LM algorithm is able to rapidly converge to machine precision offering significant benefits over other optimizers. We further investigated the Adam optimizer with a range of models and found that Adam optimiser requires much deeper models with large numbers of hidden units containing up to 26x more parameters, in order to achieve a model fit close that achieved by the LM optimizer. The LM optimizer results illustrate that it may be possible build models with far fewer parameters. We have implemented all our methods in Keras and TensorFlow 2.
翻訳日:2022-05-18 00:58:54 公開日:2022-05-16
# (参考訳) 精神状態の因果解析による行動説明 : 予備報告

Behaviour Explanation via Causal Analysis of Mental States: A Preliminary Report ( http://arxiv.org/abs/2205.07443v1 )

ライセンス: CC BY 4.0
Shakil M. Khan(参考訳) 実際の原因の新たな行動理論的形式化に着想を得たkhan and lesp\'erance (2021) は、最近、認識的効果、因果的知識のダイナミクスをモデル化し、観察された効果の原因となる行動の知覚を可能にする因果的知識の最初の説明を提案した。 これまでにこれらの問題を特に研究する研究は行われていない。 しかし、その形式化は、心の理論、すなわち動機づけの重要な側面を無視するため、心的状態の因果分析を通じて説明をモデル化するのに十分な表現力を持っていない。 本稿では, 因果効果に関する因果推論を支援するために, それらの研究について述べる。 この枠組みでは、動機づけ状態の原因を推論し、モチベーション調整行動が観察された影響の原因となることを許容する。 本稿では,この形式化と目標認識モデルを用いて,コミュニケーション型マルチエージェントコンテキストにおけるエージェント動作を説明する。

Inspired by a novel action-theoretic formalization of actual cause, Khan and Lesp\'erance (2021) recently proposed a first account of causal knowledge that supports epistemic effects, models causal knowledge dynamics, and allows sensing actions to be causes of observed effects. To date, no other study has looked specifically at these issues. But their formalization is not sufficiently expressive enough to model explanations via causal analysis of mental states as it ignores a crucial aspect of theory of mind, namely motivations. In this paper, we build on their work to support causal reasoning about conative effects. In our framework, one can reason about causes of motivational states, and we allow motivation-altering actions to be causes of observed effects. We illustrate that this formalization along with a model of goal recognition can be utilized to explain agent behaviour in communicative multiagent contexts.
翻訳日:2022-05-18 00:44:27 公開日:2022-05-16
# (参考訳) DareFightingICEにおける深層強化学習ブラインドAI

A Deep Reinforcement Learning Blind AI in DareFightingICE ( http://arxiv.org/abs/2205.07444v1 )

ライセンス: CC BY 4.0
Thai Van Nguyen, Xincheng Dai, Ibrahim Khan, Ruck Thawonmas, Hai V. Pham(参考訳) 本稿では,IEEE CoG 2022 の DareFightingICE コンペティションにおいて,音声を DareFightingICE プラットフォームに入力する深層強化学習AIを提案する。 この作業では、音声のみを入力として使用するAIをブラインドAIと呼ぶ。 最先端のAIは、主に環境によって提供される視覚的または構造化された観察に依存しているが、音のみからゲームを学ぶことは、まだ新しいものであり、難しい。 我々は、音声データを処理するための異なるアプローチを提案し、視覚障害者のAIにプロキシポリシー最適化アルゴリズムを使用する。 また,この課題に対して,提案する音響設計の評価にブラインドaiを活用し,3つの指標を定義することを提案する。 実験の結果,ブラインドaiだけでなく,提案する3つの指標の有効性が示された。

This paper presents a deep reinforcement learning AI that uses sound as the input on the DareFightingICE platform at the DareFightingICE Competition in IEEE CoG 2022. In this work, an AI that only uses sound as the input is called blind AI. While state-of-the-art AIs rely mostly on visual or structured observations provided by their environments, learning to play games from only sound is still new and thus challenging. We propose different approaches to process audio data and use the Proximal Policy Optimization algorithm for our blind AI. We also propose to use our blind AI in evaluation of sound designs submitted to the competition and define three metrics for this task. The experimental results show the effectiveness of not only our blind AI but also the proposed three metrics.
翻訳日:2022-05-18 00:21:58 公開日:2022-05-16
# (参考訳) 線形幅を有する無限深度ReLUインプリシトネットワークのグラディエントDescentによる最適化

Gradient Descent Optimizes Infinite-Depth ReLU Implicit Networks with Linear Widths ( http://arxiv.org/abs/2205.07463v1 )

ライセンス: CC BY 4.0
Tianxiang Gao, Hongyang Gao(参考訳) これらの暗黙のモデルは、メモリと計算資源をはるかに少なくしながら、最先端のディープネットワークと競合する性能を達成することができる。 しかし、勾配降下(GD)のような一階法が暗黙のネットワーク上でどのように収束するかという理論的理解は限られている。 このような問題は、標準フィードフォワードネットワークでは研究されているが、暗黙のネットワークには多くの層があるため、暗黙のモデルの場合はまだ興味深い。 対応する平衡方程式は、訓練中にnoまたは複数の解を許容する。 本稿では,非線形ReLU活性化暗黙ネットワークにおける勾配流(GF)と勾配勾配の収束について検討する。 そこで,我々は,暗黙の層の重み行列をスケールするための固定スカラーを導入することで,十分小さいスケーリング定数が存在することを示し,トレーニング中も平衡方程式がうまく配置されていることを示す。 その結果,暗黙的ネットワークの幅$m$が,サンプルサイズ$n$,すなわち$m=\omega(n)$ で \textit{linear} であれば,gf と gd がともに線形レートで大域的最小値に収束することを証明する。

Implicit deep learning has recently become popular in the machine learning community since these implicit models can achieve competitive performance with state-of-the-art deep networks while using significantly less memory and computational resources. However, our theoretical understanding of when and how first-order methods such as gradient descent (GD) converge on \textit{nonlinear} implicit networks is limited. Although this type of problem has been studied in standard feed-forward networks, the case of implicit models is still intriguing because implicit networks have \textit{infinitely} many layers. The corresponding equilibrium equation probably admits no or multiple solutions during training. This paper studies the convergence of both gradient flow (GF) and gradient descent for nonlinear ReLU activated implicit networks. To deal with the well-posedness problem, we introduce a fixed scalar to scale the weight matrix of the implicit layer and show that there exists a small enough scaling constant, keeping the equilibrium equation well-posed throughout training. As a result, we prove that both GF and GD converge to a global minimum at a linear rate if the width $m$ of the implicit network is \textit{linear} in the sample size $N$, i.e., $m=\Omega(N)$.
翻訳日:2022-05-18 00:10:43 公開日:2022-05-16
# (参考訳) $q$-Munchausen強化学習

$q$-Munchausen Reinforcement Learning ( http://arxiv.org/abs/2205.07467v1 )

ライセンス: CC BY 4.0
Lingwei Zhu, Zheng Chen, Eiji Uchibe, Takamitsu Matsubara(参考訳) 最近成功したMunchausen Reinforcement Learning (M-RL)は、現在の確率ポリシーの対数で報酬関数を増強することにより、暗黙のKL正規化を特徴としている。 ボルツマン・ソフトマックス・ポリシーでは大きな改善が見られたが、ツァリス・スパースマックス・ポリシーが検討されると、拡張はほぼすべての問題に対して平坦な学習曲線をもたらす。 従来の対数と tsallis エントロピーの非対数的(一般化された)性質の不一致によるものである。 そこで,tsallis統計文献から着想を得て,$q$-logarithm/exponential関数を用いてm-rlのミスマッチを補正する手法を提案する。 提案する定式化は最大tsallisエントロピー枠組みの下で暗黙のtsallis kl正規化をもたらす。 このようなM-RLの定式化は、ベンチマーク問題において再び優れた性能を達成し、様々なエントロピー指標を持つより一般的なM-RLに光を当てる。

The recently successful Munchausen Reinforcement Learning (M-RL) features implicit Kullback-Leibler (KL) regularization by augmenting the reward function with logarithm of the current stochastic policy. Though significant improvement has been shown with the Boltzmann softmax policy, when the Tsallis sparsemax policy is considered, the augmentation leads to a flat learning curve for almost every problem considered. We show that it is due to the mismatch between the conventional logarithm and the non-logarithmic (generalized) nature of Tsallis entropy. Drawing inspiration from the Tsallis statistics literature, we propose to correct the mismatch of M-RL with the help of $q$-logarithm/exponential functions. The proposed formulation leads to implicit Tsallis KL regularization under the maximum Tsallis entropy framework. We show such formulation of M-RL again achieves superior performance on benchmark problems and sheds light on more general M-RL with various entropic indices $q$.
翻訳日:2022-05-17 23:23:17 公開日:2022-05-16
# (参考訳) 下流タスク性能を予測するマニフォールド特性

Manifold Characteristics That Predict Downstream Task Performance ( http://arxiv.org/abs/2205.07477v1 )

ライセンス: CC BY 4.0
Ruan van der Merwe, Gregory Newman, Etienne Barnard(参考訳) プリトレーニング法は通常、線形分類器の精度、転送学習性能、または表現多様体(rm)の低次元射影を視覚的に検査することによって比較される。 rm を直接調査することで,メソッド間の差異をより明確に理解することができ,より詳細な比較が可能となる。 この目的のために、異なるrmを測定し比較するためのフレームワークと新しいメトリックを提案する。 また,各種予習法のrm特性について検討し,報告する。 これらの特徴は、入力データに順次大きな局所変化を適用し、ホワイトノイズインジェクションとPGD(Projected Gradient Descent)対向攻撃を用いて、各データポイントを追跡することで測定される。 各データポイントの移動距離と連続した変更間の距離の相対的変化を算出した。 自己教師付きメソッドは,変更が大きなが一定のサイズ変化をもたらすrmを学習し,完全な教師付きメソッドよりも滑らかなrmを示す。 次に、これらの測定値を1つのメトリクス、Representation Manifold Quality Metric (RMQM)に組み合わせて、大きな値が大きなステップサイズと低いステップサイズを示し、RMQMが下流タスクのパフォーマンスと正の相関を示す。

Pretraining methods are typically compared by evaluating the accuracy of linear classifiers, transfer learning performance, or visually inspecting the representation manifold's (RM) lower-dimensional projections. We show that the differences between methods can be understood more clearly by investigating the RM directly, which allows for a more detailed comparison. To this end, we propose a framework and new metric to measure and compare different RMs. We also investigate and report on the RM characteristics for various pretraining methods. These characteristics are measured by applying sequentially larger local alterations to the input data, using white noise injections and Projected Gradient Descent (PGD) adversarial attacks, and then tracking each datapoint. We calculate the total distance moved for each datapoint and the relative change in distance between successive alterations. We show that self-supervised methods learn an RM where alterations lead to large but constant size changes, indicating a smoother RM than fully supervised methods. We then combine these measurements into one metric, the Representation Manifold Quality Metric (RMQM), where larger values indicate larger and less variable step sizes, and show that RMQM correlates positively with performance on downstream tasks.
翻訳日:2022-05-17 23:00:32 公開日:2022-05-16
# (参考訳) 重み付きモデルカウントを超えた効率的な知識コンパイル

Efficient Knowledge Compilation Beyond Weighted Model Counting ( http://arxiv.org/abs/2205.07496v1 )

ライセンス: CC BY 4.0
Rafael Kiesel, Pietro Totis and Angelika Kimmig(参考訳) 論理プログラミングの量的拡張は、しばしばいわゆる第2レベルの推論タスク(すなわち、加算と乗算の上の最大化や正規化のような第3の操作を含む問題)の解を必要とし、したがって分布意味論の下で確率論的論理プログラミングの設定を数えるよく知られた重み付けまたは代数的モデルを超えた。 この種の問題に対する汎用フレームワークとして,2次代数モデルカウント (2amc) を導入する。 2AMCは(代数的な)モデルであり、すべての既存のSATが命題の満足度を測るものであるため、解決するのは非常に難しい。 KC(Knowledge Compilation)に基づく第1レベルの手法は、結果の回路に可変順序制約を課すことにより、特定の2AMCインスタンスに適用されている。 しかし、これらの制約は回路サイズを大幅に増加させ、そのようなアプローチの効率を低下させる。 2AMC問題の論理構造を利用して、これらの制約の一部を省略し、負の効果を制限できることが示される。 さらに,kcの性能を優先的に保証して,十分な制約セットを静的に生成する戦略を導入し,実装する。 いくつかのベンチマークやタスクにおける経験的評価は、理論的な結果が実際より効率的な解決に変換できることを確認します。 TPLPの受容についての検討

Quantitative extensions of logic programming often require the solution of so called second level inference tasks, i.e., problems that involve a third operation, such as maximization or normalization, on top of addition and multiplication, and thus go beyond the well-known weighted or algebraic model counting setting of probabilistic logic programming under the distribution semantics. We introduce Second Level Algebraic Model Counting (2AMC) as a generic framework for these kinds of problems. As 2AMC is to (algebraic) model counting what forall-exists-SAT is to propositional satisfiability, it is notoriously hard to solve. First level techniques based on Knowledge Compilation (KC) have been adapted for specific 2AMC instances by imposing variable order constraints on the resulting circuit. However, those constraints can severely increase the circuit size and thus decrease the efficiency of such approaches. We show that we can exploit the logical structure of a 2AMC problem to omit parts of these constraints, thus limiting the negative effect. Furthermore, we introduce and implement a strategy to generate a sufficient set of constraints statically, with a priori guarantees for the performance of KC. Our empirical evaluation on several benchmarks and tasks confirms that our theoretical results can translate into more efficient solving in practice. Under consideration for acceptance in TPLP.
翻訳日:2022-05-17 22:45:36 公開日:2022-05-16
# (参考訳) フェアシェア:可能性、支配、インセンティブ

Fair Shares: Feasibility, Domination and Incentives ( http://arxiv.org/abs/2205.07519v1 )

ライセンス: CC BY 4.0
Moshe Babaioff and Uriel Feige(参考訳) 我々は、金額の異なる商品のセット$M$を、均等に権利を付与されたエージェントに公平に割り当てるが、金銭的譲渡は行わない。 すべてのエージェント$i$は、特定のクラスの評価関数から$v_i$を持つ。 Share $s$ は、ペア $(v_i,n)$ を値にマッピングする関数であり、$M$ から $n$ エージェントへの割り当てがエージェント $i$ を少なくとも $s(v_i,n)$ に等しい値の束を与えるのに失敗すると、これは$i$ が$i$ に対して公平でないことを示す証拠となる。 そのような解釈が理にかなうためには、共有が実現可能でありたい。つまり、クラスのどの評価においても、すべてのエージェントに少なくとも彼女の共有を与えるアロケーションがある。 マクシミンのシェアは、付加価値に対する実現可能なシェアの自然な候補であった。 しかし, 黒川, Procaccia, Wang [2018] は実現不可能であることを示している。 実現可能な共有の家族の体系的な研究を開始する。 真理測定が暗黙の保証を最大化するなら、シェアは \emph{self maximizing} であると言う。 すべての実現可能な共有は、自己の最大化と実現可能な共有によって支配されていることを示している。 我々は,多項式時間計算可能な自己最大化可能な共有株を特定し,最も高い共有価値を提供する。 すべての自己最大化(SM)可能なシェアを支配しているSM支配可能なシェアは、追加的な評価(およびそれ以上)には存在しないことを示す。 その結果、支配性は支配性に緩和され、乗算係数は$\rho$($\rho$-dominatingと呼ばれる)となる。 付加的評価については、実行可能、自己最大化、多項式時間計算が可能な共有を示す。 n$エージェントに対しては、$\frac{2n}{3n-1}$-dominatingというシェアを提示します。 2つのエージェントに対して、そのようなシェアは(1- \epsilon)$-dominateである。 さらに、これらの共有のために、各エージェントに少なくともシェアを与える割り当てを計算する多時間アルゴリズムを提案する。

We consider fair allocation of a set $M$ of indivisible goods to $n$ equally-entitled agents, with no monetary transfers. Every agent $i$ has a valuation $v_i$ from some given class of valuation functions. A share $s$ is a function that maps a pair $(v_i,n)$ to a value, with the interpretation that if an allocation of $M$ to $n$ agents fails to give agent $i$ a bundle of value at least equal to $s(v_i,n)$, this serves as evidence that the allocation is not fair towards $i$. For such an interpretation to make sense, we would like the share to be feasible, meaning that for any valuations in the class, there is an allocation that gives every agent at least her share. The maximin share was a natural candidate for a feasible share for additive valuations. However, Kurokawa, Procaccia and Wang [2018] show that it is not feasible. We initiate a systematic study of the family of feasible shares. We say that a share is \emph{self maximizing} if truth-telling maximizes the implied guarantee. We show that every feasible share is dominated by some self-maximizing and feasible share. We seek to identify those self-maximizing feasible shares that are polynomial time computable, and offer the highest share values. We show that a SM-dominating feasible share -- one that dominates every self-maximizing (SM) feasible share -- does not exist for additive valuations (and beyond). Consequently, we relax the domination property to that of domination up to a multiplicative factor of $\rho$ (called $\rho$-dominating). For additive valuations we present shares that are feasible, self-maximizing and polynomial-time computable. For $n$ agents we present such a share that is $\frac{2n}{3n-1}$-dominating. For two agents we present such a share that is $(1 - \epsilon)$-dominating. Moreover, for these shares we present poly-time algorithms that compute allocations that give every agent at least her share.
翻訳日:2022-05-17 22:16:07 公開日:2022-05-16
# (参考訳) Prompting to Distill: Reinforced Promptによるデータフリーな知識蒸留の促進

Prompting to Distill: Boosting Data-Free Knowledge Distillation via Reinforced Prompt ( http://arxiv.org/abs/2205.07523v1 )

ライセンス: CC BY 4.0
Xinyin Ma, Xinchao Wang, Gongfan Fang, Yongliang Shen and Weiming Lu(参考訳) data-free knowledge distillation(dfkd)は、オリジナルのトレーニングデータの依存をなくし、知識蒸留を行い、最近、事前学習された言語モデルを加速する素晴らしい結果を得ている。 dfkdの核心は、非圧縮モデルのパラメータを反転させることで合成データセットを再構築することである。 しかし、DFKDの以前のアプローチは、再建のためのターゲットデータ分布の手作りの先行に大きく依存しており、必然的に偏りがあり、本質的な分布を捉えるのにしばしば無能である。 そこで,本研究では,学習言語を活用し,意味的にも文法的にも効果的に合成文を調和させるプロンプトベース手法であるpromptdfdを提案する。 具体的には、prompdfdは事前学習された生成モデルを利用して言語を事前提供し、データ合成を制御するために強化されたトピックプロンジャを導入し、生成されたサンプルを理論的に関連し、意味的に妥当なものとし、従って下流タスクに適合させる。 本実験で示すように, 本手法は合成品質を大幅に改善し, 蒸留性能を大幅に向上させる。 場合によっては、PromptDFDは、データ駆動の知識蒸留の結果と、元のトレーニングデータへのアクセス結果に匹敵する結果もたらします。

Data-free knowledge distillation (DFKD) conducts knowledge distillation via eliminating the dependence of original training data, and has recently achieved impressive results in accelerating pre-trained language models. At the heart of DFKD is to reconstruct a synthetic dataset by inverting the parameters of the uncompressed model. Prior DFKD approaches, however, have largely relied on hand-crafted priors of the target data distribution for the reconstruction, which can be inevitably biased and often incompetent to capture the intrinsic distributions. To address this problem, we propose a prompt-based method, termed as PromptDFD, that allows us to take advantage of learned language priors, which effectively harmonizes the synthetic sentences to be semantically and grammatically correct. Specifically, PromptDFD leverages a pre-trained generative model to provide language priors and introduces a reinforced topic prompter to control data synthesis, making the generated samples thematically relevant and semantically plausible, and thus friendly to downstream tasks. As shown in our experiments, the proposed method substantially improves the synthesis quality and achieves considerable improvements on distillation performance. In some cases, PromptDFD even gives rise to results on par with those from the data-driven knowledge distillation with access to the original training data.
翻訳日:2022-05-17 22:14:49 公開日:2022-05-16
# (参考訳) 多層ネットワークを用いた学術論文の量的談話結合解析

Quantitative Discourse Cohesion Analysis of Scientific Scholarly Texts using Multilayer Networks ( http://arxiv.org/abs/2205.07532v1 )

ライセンス: CC BY 4.0
Vasudha Bhatnagar, Swagata Duari, S.K. Gupta(参考訳) 談話の結束はテキスト理解を促進し、読者が一貫性のある物語を作るのを助ける。 本研究では,多層ネットワーク表現を用いた学術文献の談話凝集度を計算学的に解析し,文書の書字品質を定量化する。 学術文献の階層構造を生かして,節レベルと文書レベルのメトリクスを設計・評価し,テキストの語彙結合度を評価する。 既存のコヒーション分析ツールを用いて計算した指標と比較することにより,提案する指標を検証するために,公開データセットとコントラストサンプルのキュレーションセットを使用する。 提案指標は既存の凝集指標と一致している。 また、セクションレベルおよびドキュメントレベルのメトリクスの助けを借りて、原稿の改善の可能性について著者にポインタを提供するために、分析フレームワークchiaa (check it again, author) も提示します。 提案したCHIAAフレームワークは,テキスト中の領域を凝集ギャップでローカライズすることで書き方を改善するために,著者に対して明確かつ正確な処方料を付与する。 実験データセットにおける凝集欠陥テキストからの簡潔な例を用いて,CHIAAフレームワークの有効性を示す。

Discourse cohesion facilitates text comprehension and helps the reader form a coherent narrative. In this study, we aim to computationally analyze the discourse cohesion in scientific scholarly texts using multilayer network representation and quantify the writing quality of the document. Exploiting the hierarchical structure of scientific scholarly texts, we design section-level and document-level metrics to assess the extent of lexical cohesion in text. We use a publicly available dataset along with a curated set of contrasting examples to validate the proposed metrics by comparing them against select indices computed using existing cohesion analysis tools. We observe that the proposed metrics correlate as expected with the existing cohesion indices. We also present an analytical framework, CHIAA (CHeck It Again, Author), to provide pointers to the author for potential improvements in the manuscript with the help of the section-level and document-level metrics. The proposed CHIAA framework furnishes a clear and precise prescription to the author for improving writing by localizing regions in text with cohesion gaps. We demonstrate the efficacy of CHIAA framework using succinct examples from cohesion-deficient text excerpts in the experimental dataset.
翻訳日:2022-05-17 21:58:10 公開日:2022-05-16
# (参考訳) 強化学習を用いたオンスカイ適応光学制御に向けて

Towards on-sky adaptive optics control using reinforcement learning ( http://arxiv.org/abs/2205.07554v1 )

ライセンス: CC BY 4.0
J. Nousiainen, C. Rajani, M. Kasper, T. Helin, S. Y. Haffert, C. V\'erinaud, J. R. Males, K. Van Gorkom, L. M. Close, J. D. Long, A. D. Hedglen, O. Guyon, L. Schatz, M. Kautz, J. Lumbres, A. Rodack, J.M. Knight, K. Miller(参考訳) 居住可能な太陽系外惑星の直接イメージングは、地上の非常に大きな望遠鏡で、次世代の高コントラストイメージング機器の第一の科学ケースである。 この要求の大きい科学目標を達成するため、装置にはeXtreme Adaptive Optics (XAO)システムが搭載されており、数千のアクチュエータをキロヘルツから数キロヘルツのフレームレートで制御する。 居住可能な太陽系外惑星の多くは、現在のXAO系の制御法則が強い残差を残しているホスト星から小さな角状分離点に位置しており、現在、静的行列ベースの波面再構成や積分器制御のようなAO制御戦略は時間的遅延に悩まされており、制御系の幾何学の動的変動に敏感である。 そこで本研究では,これらの制約に対処し,ao補正を大幅に改善し,冠状点拡散関数の残留磁束を低減させる制御手法を提案する。 我々は、AOの強化学習における以前の作業を拡張した。 改良された方法はPO4AOと呼ばれ、動的モデルを学び、ポリシーと呼ばれる制御ニューラルネットワークを最適化する。 8mおよび40mの望遠鏡開口症例に対するピラミッド波面センシングによるXAOの数値シミュレーションにより,本手法を導入して検討する。 我々はさらにPO4AOを実装し、ステワード研究所でMagAO-Xを用いた実験を行った。 PO4AOは、DMとピラミッドWFSの制御領域内の3-5因子による数値シミュレーションにおいて、シミュレーションおよび実験室でのコロナコントラストを改善することにより、望ましい性能を提供する。 提案手法は、通常5~10秒のタイムスケールで、トレーニングも容易であり、推定時間は十分小さく ((<ms) であり、非常に大きな望遠鏡でも、現在利用可能なハードウェアを持つXAOのリアルタイム制御に使用できる。

The direct imaging of potentially habitable Exoplanets is one prime science case for the next generation of high contrast imaging instruments on ground-based extremely large telescopes. To reach this demanding science goal, the instruments are equipped with eXtreme Adaptive Optics (XAO) systems which will control thousands of actuators at a framerate of kilohertz to several kilohertz. Most of the habitable exoplanets are located at small angular separations from their host stars, where the current XAO systems' control laws leave strong residuals.Current AO control strategies like static matrix-based wavefront reconstruction and integrator control suffer from temporal delay error and are sensitive to mis-registration, i.e., to dynamic variations of the control system geometry. We aim to produce control methods that cope with these limitations, provide a significantly improved AO correction and, therefore, reduce the residual flux in the coronagraphic point spread function. We extend previous work in Reinforcement Learning for AO. The improved method, called PO4AO, learns a dynamics model and optimizes a control neural network, called a policy. We introduce the method and study it through numerical simulations of XAO with Pyramid wavefront sensing for the 8-m and 40-m telescope aperture cases. We further implemented PO4AO and carried out experiments in a laboratory environment using MagAO-X at the Steward laboratory. PO4AO provides the desired performance by improving the coronagraphic contrast in numerical simulations by factors 3-5 within the control region of DM and Pyramid WFS, in simulation and in the laboratory. The presented method is also quick to train, i.e., on timescales of typically 5-10 seconds, and the inference time is sufficiently small (< ms) to be used in real-time control for XAO with currently available hardware even for extremely large telescopes.
翻訳日:2022-05-17 21:27:22 公開日:2022-05-16
# (参考訳) Heroes, Villains, Victims, GPT-3 -- トレーニングデータなしのキャラクタロールの自動抽出

Heroes, Villains, and Victims, and GPT-3 -- Automated Extraction of Character Roles Without Training Data ( http://arxiv.org/abs/2205.07557v1 )

ライセンス: CC BY 4.0
Dominik Stammbach, Maria Antoniak, Elliott Ash(参考訳) 本稿では,事前学習された大規模言語モデルを用いて,物語テキストから文字の役割を訓練データなしで抽出する方法を示す。 ゼロショットの質問回答プロンプトで検索すると、GPT-3は、新聞記事、映画の要約、政治演説など、様々な領域の英雄、悪役、犠牲者を識別できる。

This paper shows how to use large-scale pre-trained language models to extract character roles from narrative texts without training data. Queried with a zero-shot question-answering prompt, GPT-3 can identify the hero, villain, and victim in diverse domains: newspaper articles, movie plot summaries, and political speeches.
翻訳日:2022-05-17 20:59:49 公開日:2022-05-16
# (参考訳) 非定常相互依存型タスクの自律的オープンディビジョン学習

Autonomous Open-Ended Learning of Tasks with Non-Stationary Interdependencies ( http://arxiv.org/abs/2205.07562v1 )

ライセンス: CC BY 4.0
Alejandro Romero, Gianluca Baldassarre, Richard J. Duro, Vieri Giuliano Santucci(参考訳) 自律的なオープンエンド学習は、機械学習とロボット工学において重要なアプローチであり、ユーザーが割り当てられたタスクを必要とせずに、目標と運動スキルを獲得できる人工知能の設計を可能にする。 このアプローチの重要な課題は、エージェントが可能な限り短時間で可能な限り多くのタスクで能力を発揮するための戦略を開発することである。 固有のモチベーションは、目標間のトレーニング時間を適切に割り当てるタスクに依存しないシグナルを生成することが証明されている。 内在的な動機づけのあるオープンディビジョン学習の分野の著作の大部分は、目標が互いに独立しているシナリオに焦点を当てているが、相互依存的なタスクの自律的獲得を研究した事例はごくわずかであり、目標が非定常的な相互依存を伴うような対処シナリオも少ない。 過去の研究に基づいて、意思決定のレベルでこれらの重要な問題に取り組む(すなわち、目標を適切に選択するための戦略を構築する)とともに、マルコフ決定プロセスとしてサブタスクの選択を扱い、本質的に生成されたモチベーションに基づいて相互依存のスキルを適切に学習できる階層的アーキテクチャを提案する。 特に、まず、アーキテクチャ(ゴール選択)のより高いレベルにおいて、タスク間の関係に関する情報を取り入れることの重要性を示す前のシステムの解析を深く掘り下げた。 次に,H-GRAILを導入する。H-GRAILは,自律的に獲得したタスクのシーケンスを格納する新たな学習層を追加し,相互依存が定常的でない場合に修正できるシステムである。 すべてのシステムは実際のロボットシナリオでテストされ、Baxterロボットは複数の相互依存的なタスクを実行する。

Autonomous open-ended learning is a relevant approach in machine learning and robotics, allowing the design of artificial agents able to acquire goals and motor skills without the necessity of user assigned tasks. A crucial issue for this approach is to develop strategies to ensure that agents can maximise their competence on as many tasks as possible in the shortest possible time. Intrinsic motivations have proven to generate a task-agnostic signal to properly allocate the training time amongst goals. While the majority of works in the field of intrinsically motivated open-ended learning focus on scenarios where goals are independent from each other, only few of them studied the autonomous acquisition of interdependent tasks, and even fewer tackled scenarios where goals involve non-stationary interdependencies. Building on previous works, we tackle these crucial issues at the level of decision making (i.e., building strategies to properly select between goals), and we propose a hierarchical architecture that treating sub-tasks selection as a Markov Decision Process is able to properly learn interdependent skills on the basis of intrinsically generated motivations. In particular, we first deepen the analysis of a previous system, showing the importance of incorporating information about the relationships between tasks at a higher level of the architecture (that of goal selection). Then we introduce H-GRAIL, a new system that extends the previous one by adding a new learning layer to store the autonomously acquired sequences of tasks to be able to modify them in case the interdependencies are non-stationary. All systems are tested in a real robotic scenario, with a Baxter robot performing multiple interdependent reaching tasks.
翻訳日:2022-05-17 20:43:08 公開日:2022-05-16
# (参考訳) 化学変圧器圧縮による分子モデリングの訓練と推論の促進

Chemical transformer compression for accelerating both training and inference of molecular modeling ( http://arxiv.org/abs/2205.07582v1 )

ライセンス: CC BY 4.0
Yi Yu and Karl Borjesson(参考訳) 量子構造活性相関(QSAR)や仮想スクリーニング(VS)などの応用において優れた性能を持つトランスフォーマーモデルが分子科学で開発されている。 しかし、他のタイプのモデルと比較すると、それらは大きいため、トレーニングと推論プロセスの両方に要する時間を短縮するハードウェア要件が高い。 本研究は,分子科学におけるトランスフォーマーのサイズを減らすために,クロス層パラメータ共有(CLPS)と知識蒸留(KD)を用いる。 どちらの手法も、元のBERTモデルと競合するQSAR予測性能を持つだけでなく、パラメータ効率も高い。 さらに, CLPSとKDを二状態化学ネットワークに統合することにより, 新しい深層化学変圧器モデルDeLiCaTeを導入する。 DeLiCaTeは、一般的なドメインとタスク固有の知識をキャプチャし、それぞれパラメータとレイヤの数を10倍から3倍に削減するため、トレーニングと推論の両方が4倍高速になる。 一方、QSARとVSモデリングでは同等のパフォーマンスを実現している。 さらに, モデル圧縮戦略は, 有機医薬品や材料設計に有効な生成トランスフォーマーモデルを作成するための経路となることを期待する。

Transformer models have been developed in molecular science with excellent performance in applications including quantitative structure-activity relationship (QSAR) and virtual screening (VS). Compared with other types of models, however, they are large, which results in a high hardware requirement to abridge time for both training and inference processes. In this work, cross-layer parameter sharing (CLPS), and knowledge distillation (KD) are used to reduce the sizes of transformers in molecular science. Both methods not only have competitive QSAR predictive performance as compared to the original BERT model, but also are more parameter efficient. Furthermore, by integrating CLPS and KD into a two-state chemical network, we introduce a new deep lite chemical transformer model, DeLiCaTe. DeLiCaTe captures general-domains as well as task-specific knowledge, which lead to a 4x faster rate of both training and inference due to a 10- and 3-times reduction of the number of parameters and layers, respectively. Meanwhile, it achieves comparable performance in QSAR and VS modeling. Moreover, we anticipate that the model compression strategy provides a pathway to the creation of effective generative transformer models for organic drug and material design.
翻訳日:2022-05-17 20:34:16 公開日:2022-05-16
# (参考訳) 二項分類の基本法則

Fundamental Laws of Binary Classification ( http://arxiv.org/abs/2205.07589v1 )

ライセンス: CC BY 4.0
Denise M. Reeves(参考訳) 最小リスク二項分類システムの識別関数を見つけることは、新しい幾何学的軌跡問題であり、二項分類の基本的な軌跡方程式のシステムを解かなければならない。 We show that a discriminant function of a minimum risk binary classification system is the solution of a locus equation that represents the geometric locus of the decision boundary of the system, wherein the discriminant function is connected to the decision boundary by an intrinsic eigen-coordinate system in such a manner that the discriminant function is represented by a geometric locus of a novel principal eigenaxis -- formed by a dual locus of likelihood components and principal eigenaxis components. We demonstrate that a minimum risk binary classification system acts to jointly minimize its eigenenergy and risk by locating a point of equilibrium wherein critical minimum eigenenergies exhibited by the system are symmetrically concentrated in such a manner that the geometric locus of the novel principal eigenaxis of the system exhibits symmetrical dimensions and densities, such that counteracting and opposing forces and influences of the system are symmetrically balanced with each other -- about the geometric center of the locus of the novel principal eigenaxis -- whereon the statistical fulcrum of the system is located. これにより、最小リスク二分分類システムは、システムで提示される全許容固有エネルギーと期待されるリスクとが、システムの決定空間内で共同で最小化される統計平衡状態を満たすので、システムは、分類誤差の最小確率を示す。

Finding discriminant functions of minimum risk binary classification systems is a novel geometric locus problem -- that requires solving a system of fundamental locus equations of binary classification -- subject to deep-seated statistical laws. We show that a discriminant function of a minimum risk binary classification system is the solution of a locus equation that represents the geometric locus of the decision boundary of the system, wherein the discriminant function is connected to the decision boundary by an intrinsic eigen-coordinate system in such a manner that the discriminant function is represented by a geometric locus of a novel principal eigenaxis -- formed by a dual locus of likelihood components and principal eigenaxis components. We demonstrate that a minimum risk binary classification system acts to jointly minimize its eigenenergy and risk by locating a point of equilibrium wherein critical minimum eigenenergies exhibited by the system are symmetrically concentrated in such a manner that the geometric locus of the novel principal eigenaxis of the system exhibits symmetrical dimensions and densities, such that counteracting and opposing forces and influences of the system are symmetrically balanced with each other -- about the geometric center of the locus of the novel principal eigenaxis -- whereon the statistical fulcrum of the system is located. Thereby, a minimum risk binary classification system satisfies a state of statistical equilibrium wherein the total allowed eigenenergy and the expected risk exhibited by the system are jointly minimized within the decision space of the system, so that the system exhibits the minimum probability of classification error.
翻訳日:2022-05-17 20:25:41 公開日:2022-05-16
# (参考訳) 自律エージェント制御のための進化的戦略と強化学習方法の質的差異

Qualitative Differences Between Evolutionary Strategies and Reinforcement Learning Methods for Control of Autonomous Agents ( http://arxiv.org/abs/2205.07592v1 )

ライセンス: CC BY 4.0
Nicola Milano and Stefano Nolfi(参考訳) 本稿では,OpenAI-ES進化戦略とPPO強化学習アルゴリズムという2つの一般的な最先端アルゴリズムに着目し,進化戦略と強化学習アルゴリズムの質的な違いを分析する。 我々は、メソッドがどのように異なるかを分析する。 (i)一般的な効力 (ii)軽微な報酬に対処できる能力 (iii)極小解の発見力・能力 (iv)報酬形成への依存、及び (v)環境の変動に対応する能力 ベンチマーク問題における2つの手法を用いて訓練したエージェントの行動戦略と性能の分析により,従来の研究では同定されなかった質的差異を実証し,2つの手法の相対的弱さを同定し,その弱さを緩和する方法を提案する。 報酬関数の特徴は、OpenAI-ESやPPOだけでなく、代替強化学習アルゴリズムにも質的に異なる強い影響があることを示し、それによって、報酬関数の特性をアルゴリズムに最適化することが重要であることを示す。

In this paper we analyze the qualitative differences between evolutionary strategies and reinforcement learning algorithms by focusing on two popular state-of-the-art algorithms: the OpenAI-ES evolutionary strategy and the Proximal Policy Optimization (PPO) reinforcement learning algorithm -- the most similar methods of the two families. We analyze how the methods differ with respect to: (i) general efficacy, (ii) ability to cope with sparse rewards, (iii) propensity/capacity to discover minimal solutions, (iv) dependency on reward shaping, and (v) ability to cope with variations of the environmental conditions. The analysis of the performance and of the behavioral strategies displayed by the agents trained with the two methods on benchmark problems enable us to demonstrate qualitative differences which were not identified in previous studies, to identify the relative weakness of the two methods, and to propose ways to ameliorate some of those weakness. We show that the characteristics of the reward function has a strong impact which vary qualitatively not only for the OpenAI-ES and the PPO but also for alternative reinforcement learning algorithms, thus demonstrating the importance of optimizing the characteristic of the reward function to the algorithm used.
翻訳日:2022-05-17 20:24:08 公開日:2022-05-16
# (参考訳) 聴覚行動認識のための耐雑音性学習

Noise-Tolerant Learning for Audio-Visual Action Recognition ( http://arxiv.org/abs/2205.07611v1 )

ライセンス: CC BY 4.0
Haochen Han, Qinghua Zheng, Minnan Luo, Kaiyao Miao, Feng Tian and Yan Chen(参考訳) 近年,マルチモーダル学習(multi-modal learning)により,複数のモダリティの統合によるモデルの性能向上や堅牢性の向上が注目されている。 様々なマルチモーダル学習手法が提案され、優れた認識結果を提供するが、これらの手法のほとんどは高品質なマニュアルアノテーションに依存し、マルチモーダルデータのモダリティが関連する意味情報を提供すると仮定する。 残念ながら、最も広く使われているビデオデータセットはインターネットから収集され、必然的にノイズラベルとノイズ対応を含んでいる。 この問題を解決するために,音声・視覚行動認識タスクをプロキシとして使用し,雑音ラベルと雑音対応の両方に反干渉モデルパラメータを求めるための雑音耐性学習フレームワークを提案する。 本手法は2つの位相から成り,モダリティ間の固有相関によるノイズの修正を目標とする。 まず、ノイズ耐性コントラストトレーニングフェーズを行い、ノイズラベルに影響を受けないロバストなモデルパラメータを学習する。 雑音応答の影響を低減するため,異なるモード間の整合性を調整するクロスモーダル雑音推定成分を提案する。 ノイズ対応がインスタンスレベルに存在するため、ノイズ対応の干渉をさらに緩和するためにカテゴリレベルのコントラスト損失が提案されている。 次に, ハイブリッド教師付き学習フェーズにおいて, 特徴間の距離メトリックを計算し, 補足的監督に用いる補正ラベルを得る。 さらに,実世界のデータセットにおける雑音対応について検討し,合成および実雑音データを用いた包括的実験を行う。 その結果,最先端手法と比較して,提案手法の利点を検証した。

Recently, video recognition is emerging with the help of multi-modal learning, which focuses on integrating multiple modalities to improve the performance or robustness of a model. Although various multi-modal learning methods have been proposed and offer remarkable recognition results, almost all of these methods rely on high-quality manual annotations and assume that modalities among multi-modal data provide relevant semantic information. Unfortunately, most widely used video datasets are collected from the Internet and inevitably contain noisy labels and noisy correspondence. To solve this problem, we use the audio-visual action recognition task as a proxy and propose a noise-tolerant learning framework to find anti-interference model parameters to both noisy labels and noisy correspondence. Our method consists of two phases and aims to rectify noise by the inherent correlation between modalities. A noise-tolerant contrastive training phase is performed first to learn robust model parameters unaffected by the noisy labels. To reduce the influence of noisy correspondence, we propose a cross-modal noise estimation component to adjust the consistency between different modalities. Since the noisy correspondence existed at the instance level, a category-level contrastive loss is proposed to further alleviate the interference of noisy correspondence. Then in the hybrid supervised training phase, we calculate the distance metric among features to obtain corrected labels, which are used as complementary supervision. In addition, we investigate the noisy correspondence in real-world datasets and conduct comprehensive experiments with synthetic and real noise data. The results verify the advantageous performance of our method compared to state-of-the-art methods.
翻訳日:2022-05-17 20:09:01 公開日:2022-05-16
# (参考訳) 自己スーパービジョンによるスケーラブル車両再識別

Scalable Vehicle Re-Identification via Self-Supervision ( http://arxiv.org/abs/2205.07613v1 )

ライセンス: CC BY 4.0
Pirazh Khorramshahi, Vineet Shenoy, Rama Chellappa(参考訳) インテリジェントトランスポートアプリケーションでは,コンピュータビジョン技術が成熟するにつれて,大規模かつリアルタイムなデプロイメントにおいて,その効率性とスケーラビリティを問うべき時が来た。 これらの技術の中には、都市規模の車両分析システムにおける重要な要素の1つである車両再識別がある。 多くの車両用re-idの最先端ソリューションは、既存のre-idベンチマークの精度向上と計算複雑性の無視に重点を置いている。 精度と計算効率の要求のバランスをとるために,本研究では,推論時間に単一ネットワークしか使用せず,最先端の手法でよく見られる複雑な計算要求のアドオンモジュールが不要な,自己教師付きトレーニングによって強化された,シンプルで効果的なハイブリッドソリューションを提案する。 広範な実験を通じて,本手法は,自己監督および強化車両再識別 (ssbver) と呼ばれ,開発時に追加のオーバヘッドを導入することなく,精度の面では最先端の代替手段と同等であることを示した。 さらに,我々のアプローチは,様々なリソース制約を緩和し,一貫して精度を向上する,異なるバックボーンアーキテクチャに一般化されていることを示す。

As Computer Vision technologies become more mature for intelligent transportation applications, it is time to ask how efficient and scalable they are for large-scale and real-time deployment. Among these technologies is Vehicle Re-Identification which is one of the key elements in city-scale vehicle analytics systems. Many state-of-the-art solutions for vehicle re-id mostly focus on improving the accuracy on existing re-id benchmarks and often ignore computational complexity. To balance the demands of accuracy and computational efficiency, in this work we propose a simple yet effective hybrid solution empowered by self-supervised training which only uses a single network during inference time and is free of intricate and computation-demanding add-on modules often seen in state-of-the-art approaches. Through extensive experiments, we show our approach, termed Self-Supervised and Boosted VEhicle Re-Identification (SSBVER), is on par with state-of-the-art alternatives in terms of accuracy without introducing any additional overhead during deployment. Additionally we show that our approach, generalizes to different backbone architectures which facilitates various resource constraints and consistently results in a significant accuracy boost.
翻訳日:2022-05-17 19:48:50 公開日:2022-05-16
# (参考訳) リジェクトのモデル非依存局所説明

Model Agnostic Local Explanations of Reject ( http://arxiv.org/abs/2205.07623v1 )

ライセンス: CC BY 4.0
Andr\'e Artelt, Roel Visser, Barbara Hammer(参考訳) 安全クリティカルな分野における機械学習に基づく意思決定システムの適用には、信頼性の高い確実性予測が必要である。 リジェクションオプションは、システムによってなされる予測の十分な高い確実性を保証する一般的な方法である。 不確実なサンプルを拒絶することは重要であるが、特定のサンプルが拒絶された理由を説明することも重要である。 しかし、一般的な拒絶オプションの説明は依然として未解決の問題である。 解釈可能なモデルと反事実的説明を用いて,任意の拒絶オプションを局所的に説明するためのモデル非依存手法を提案する。

The application of machine learning based decision making systems in safety critical areas requires reliable high certainty predictions. Reject options are a common way of ensuring a sufficiently high certainty of predictions made by the system. While being able to reject uncertain samples is important, it is also of importance to be able to explain why a particular sample was rejected. However, explaining general reject options is still an open problem. We propose a model agnostic method for locally explaining arbitrary reject options by means of interpretable models and counterfactual explanations.
翻訳日:2022-05-17 19:47:45 公開日:2022-05-16
# (参考訳) てんかん発作検出における特徴選択のための超次元計算符号化

Hyperdimensional computing encoding for feature selection on the use case of epileptic seizure detection ( http://arxiv.org/abs/2205.07654v1 )

ライセンス: CC BY 4.0
Una Pale, Tomas Teijeiro, David Atienza(参考訳) 医療の展望は、症状治療に焦点を当てた反応的な介入から、より積極的な予防、オールワンサイズからパーソナライズされた医療、集中的なパラダイムから分散パラダイムへと移行しています。 ウェアラブルIoTデバイスと継続的監視のための新しいアルゴリズムがこの移行の重要なコンポーネントである。 超次元(HD)コンピューティングは、IoTデバイスやバイオメディカルアプリケーションに興味深いさまざまな側面を持つ神経科学研究にインスパイアされた、新たなMLパラダイムである。 ここでは、脳波(EEG)信号やHDベクトルに関連する全ての情報など、時空間データの最適符号化のトピックについて検討する。 さらに,適切な符号化を選択することで,HDコンピューティングフレームワークを用いて特徴選択を行う方法を示す。 我々の知る限りでは、文献におけるHDコンピューティングを用いた機能選択を行うための最初のアプローチである。 その結果、MLコミュニティが機能選択やチャネル選択に関連する複数の方向の研究をさらに促進し、モデル解釈可能性を高めることができると信じている。

The healthcare landscape is moving from the reactive interventions focused on symptoms treatment to a more proactive prevention, from one-size-fits-all to personalized medicine, and from centralized to distributed paradigms. Wearable IoT devices and novel algorithms for continuous monitoring are essential components of this transition. Hyperdimensional (HD) computing is an emerging ML paradigm inspired by neuroscience research with various aspects interesting for IoT devices and biomedical applications. Here we explore the not yet addressed topic of optimal encoding of spatio-temporal data, such as electroencephalogram (EEG) signals, and all information it entails to the HD vectors. Further, we demonstrate how the HD computing framework can be used to perform feature selection by choosing an adequate encoding. To the best of our knowledge, this is the first approach to performing feature selection using HD computing in the literature. As a result, we believe it can support the ML community to further foster the research in multiple directions related to feature and channel selection, as well as model interpretability.
翻訳日:2022-05-17 19:39:17 公開日:2022-05-16
# (参考訳) PUCK:イベントベースのカメラのための並列表面と畳み込みカーネル追跡

PUCK: Parallel Surface and Convolution-kernel Tracking for Event-Based Cameras ( http://arxiv.org/abs/2205.07657v1 )

ライセンス: CC BY 4.0
Luna Gava, Marco Monforte, Massimiliano Iacono, Chiara Bartolozzi, Arren Glover(参考訳) 低レイテンシと精度は、システムの信頼性と安定性に影響を与えるため、目標との高速インタラクションのためにビジョンをロボットに統合する際の基本的な要件である。 このようなシナリオでは、制御ループ全体においてセンサとアルゴリズムの選択が重要である。 イベントカメラの技術は、動的環境における高速な視覚的センシングを保証できるが、ロボットのエゴモーションによって引き起こされる高いデータ速度に追従する追跡アルゴリズムが必要である。 本稿では,EROS(Exponential Reduced Ordinal Surface)データ表現を利用してイベント・バイ・イベント処理とトラッキング処理を分離する新しいトラッキング手法を提案する。 後者は畳み込みカーネルを用いて平面上を移動する円ターゲットを検出して追従する。 最先端のイベントベーストラッキングのベンチマークを行うため,今後,icubロボットが目標に正確に到達できるように制御する目的で,表面上で滑るエアホッケーパックを追跡するタスクを提案する。 実験の結果,ロボットの動作中と移動中の両方において,低レイテンシと追跡精度の最良の妥協が達成された。

Low latency and accuracy are fundamental requirements when vision is integrated in robots for high-speed interaction with targets, since they affect system reliability and stability. In such a scenario, the choice of the sensor and algorithms is important for the entire control loop. The technology of event-cameras can guarantee fast visual sensing in dynamic environments, but requires a tracking algorithm that can keep up with the high data rate induced by the robot ego-motion while maintaining accuracy and robustness to distractors. In this paper, we introduce a novel tracking method that leverages the Exponential Reduced Ordinal Surface (EROS) data representation to decouple event-by-event processing and tracking computation. The latter is performed using convolution kernels to detect and follow a circular target moving on a plane. To benchmark state-of-the-art event-based tracking, we propose the task of tracking the air hockey puck sliding on a surface, with the future aim of controlling the iCub robot to reach the target precisely and on time. Experimental results demonstrate that our algorithm achieves the best compromise between low latency and tracking accuracy both when the robot is still and when moving.
翻訳日:2022-05-17 19:22:59 公開日:2022-05-16
# (参考訳) DirichletからRubinへ - ボーナスのないRLでの最適探索

From Dirichlet to Rubin: Optimistic Exploration in RL without Bonuses ( http://arxiv.org/abs/2205.07704v1 )

ライセンス: CC BY 4.0
Daniil Tiapkin, Denis Belomestny, Eric Moulines, Alexey Naumov, Sergey Samsonov, Yunhao Tang, Michal Valko, Pierre Menard(参考訳) 我々は,多腕包帯に対するBayes-UCBアルゴリズムの自然な拡張として,表層・ステージ依存・エピソードマルコフ決定過程における強化学習のためのBayes-UCBVIアルゴリズムを提案する。 提案手法では,Q値関数の後続の量子化を,最適Q値関数の上限値として用いる。 Bayes-UCBVI の場合、$\widetilde{O}(\sqrt{H^3SAT})$ ここで$H$はひとつのエピソードの長さ、$S$は状態の数、$A$はアクションの数、$T$は$\Omega(\sqrt{H^3SAT})$の低いバウンドの$\Omega(\sqrt{H^3SAT})$と一致する$H,S,A,T$は十分大きな$T$である。 我々の知る限りでは、このアルゴリズムはバーンスタインのようなボーナスやノイズを必要とせずに、horizon $h$(および$s$)の最適依存を得る最初のアルゴリズムである。 我々の分析に不可欠なのは、独立利害関係を持つ重み付きディリクレ和に対する新しい細粒度の反集中結合である。 次に、ベイズ-UCBVI が表の設定を超えて容易に拡張可能であることを説明し、我々のアルゴリズムとベイズブートストラップの強い関係を示す(Rubin, 1981)。

We propose the Bayes-UCBVI algorithm for reinforcement learning in tabular, stage-dependent, episodic Markov decision process: a natural extension of the Bayes-UCB algorithm by Kaufmann et al. (2012) for multi-armed bandits. Our method uses the quantile of a Q-value function posterior as upper confidence bound on the optimal Q-value function. For Bayes-UCBVI, we prove a regret bound of order $\widetilde{O}(\sqrt{H^3SAT})$ where $H$ is the length of one episode, $S$ is the number of states, $A$ the number of actions, $T$ the number of episodes, that matches the lower-bound of $\Omega(\sqrt{H^3SAT})$ up to poly-$\log$ terms in $H,S,A,T$ for a large enough $T$. To the best of our knowledge, this is the first algorithm that obtains an optimal dependence on the horizon $H$ (and $S$) without the need for an involved Bernstein-like bonus or noise. Crucial to our analysis is a new fine-grained anti-concentration bound for a weighted Dirichlet sum that can be of independent interest. We then explain how Bayes-UCBVI can be easily extended beyond the tabular setting, exhibiting a strong link between our algorithm and Bayesian bootstrap (Rubin, 1981).
翻訳日:2022-05-17 19:10:47 公開日:2022-05-16
# (参考訳) 自律運転における3次元物体検出のための多様性に基づく能動学習の探索

Exploring Diversity-based Active Learning for 3D Object Detection in Autonomous Driving ( http://arxiv.org/abs/2205.07708v1 )

ライセンス: CC BY 4.0
Zhihao Liang, Xun Xu, Shengheng Deng, Lile Cai, Tao Jiang, Kui Jia(参考訳) 3Dオブジェクト検出は、最近、自動運転車(AV)に大きな可能性を秘めているため、多くの注目を集めている。 ディープラーニングベースのオブジェクト検出器の成功は、特に3Dバウンディングボックスアノテーションにおいて、大規模なアノテーション付きデータセットが利用可能であることに依存している。 本研究では,多様性に基づくアクティブラーニング(AL)をアノテーションの負担を軽減するための潜在的解決策として検討する。 アノテーションの予算が限られているため、人間が注釈を付けるための最も情報性の高いフレームとオブジェクトだけが自動的に選択される。 技術的には、AVデータセットに提供されるマルチモーダル情報の利点を生かし、選択したサンプルの空間的・時間的多様性を強制する新しい取得関数を提案する。 提案手法を現実的なアノテーションコスト測定に基づく他のAL戦略と比較し,フレームのアノテートと3次元バウンディングボックスの現実的なコストを考慮に入れた。 提案手法がnuScenesデータセットに与える影響を実証し,既存のAL戦略よりも優れていることを示す。

3D object detection has recently received much attention due to its great potential in autonomous vehicle (AV). The success of deep learning based object detectors relies on the availability of large-scale annotated datasets, which is time-consuming and expensive to compile, especially for 3D bounding box annotation. In this work, we investigate diversity-based active learning (AL) as a potential solution to alleviate the annotation burden. Given limited annotation budget, only the most informative frames and objects are automatically selected for human to annotate. Technically, we take the advantage of the multimodal information provided in an AV dataset, and propose a novel acquisition function that enforces spatial and temporal diversity in the selected samples. We benchmark the proposed method against other AL strategies under realistic annotation cost measurement, where the realistic costs for annotating a frame and a 3D bounding box are both taken into consideration. We demonstrate the effectiveness of the proposed method on the nuScenes dataset and show that it outperforms existing AL strategies significantly.
翻訳日:2022-05-17 19:08:44 公開日:2022-05-16
# (参考訳) ワンショット構成サブゴールによる新しいタスクへの一般化

Generalizing to New Tasks via One-Shot Compositional Subgoals ( http://arxiv.org/abs/2205.07716v1 )

ライセンス: CC BY-SA 4.0
Xihan Bian and Oscar Mendez and Simon Hadfield(参考訳) 以前は見つからなかったタスクをほとんど監督せずに一般化する能力は、現代の機械学習研究において重要な課題である。 それはまた、将来の"General AI"の基盤でもある。 現実世界のアプリケーションにデプロイされる人工知能エージェントは、未知の環境に適応しなければならない。 研究者はしばしば、試行錯誤学習を通じて、新しいタスクへのオンライン適応を提供するために強化と模倣学習に頼っている。 しかし、これは多くのタイムステップや大量のサブタスクを完了させる複雑なタスクでは困難である。 これらの「長い地平線」タスクはサンプルの非効率性に悩まされ、エージェントが必要な長期計画を実行するために学習するまでに非常に長い訓練時間を要する。 本研究では,適応型「近未来」サブゴールを用いた模倣学習エージェントを訓練することにより,これらの課題に対処しようとするCASEを紹介する。 これらの部分環は、学習された潜在表現空間における合成演算を用いて各ステップで再計算される。 標準的な長期タスクの学習効率の向上に加えて、異なる環境におけるタスクに対する単一の参照軌跡のみを考慮し、これまで見られなかったタスクに対してワンショットの一般化を可能にする。 実験の結果,提案手法は,従来の作曲模倣学習手法を30%も上回っていることがわかった。

The ability to generalize to previously unseen tasks with little to no supervision is a key challenge in modern machine learning research. It is also a cornerstone of a future "General AI". Any artificially intelligent agent deployed in a real world application, must adapt on the fly to unknown environments. Researchers often rely on reinforcement and imitation learning to provide online adaptation to new tasks, through trial and error learning. However, this can be challenging for complex tasks which require many timesteps or large numbers of subtasks to complete. These "long horizon" tasks suffer from sample inefficiency and can require extremely long training times before the agent can learn to perform the necessary longterm planning. In this work, we introduce CASE which attempts to address these issues by training an Imitation Learning agent using adaptive "near future" subgoals. These subgoals are recalculated at each step using compositional arithmetic in a learned latent representation space. In addition to improving learning efficiency for standard long-term tasks, this approach also makes it possible to perform one-shot generalization to previously unseen tasks, given only a single reference trajectory for the task in a different environment. Our experiments show that the proposed approach consistently outperforms the previous state-of-the-art compositional Imitation Learning approach by 30%.
翻訳日:2022-05-17 18:51:02 公開日:2022-05-16
# (参考訳) 合理的音声行為フレームワークによる表現の参照:確率論的アプローチ

Referring Expressions with Rational Speech Act Framework: A Probabilistic Approach ( http://arxiv.org/abs/2205.07795v1 )

ライセンス: CC BY 4.0
Hieu Le, Taufiq Daryanto, Fabian Zhafransyah, Derry Wijaya, Elizabeth Coppock, Sang Chin(参考訳) 本稿では,複雑な視覚シーンでオブジェクトを選択することを目的とした参照表現生成(reg)タスクに焦点を当てる。 この問題に対する一般的な理論的アプローチの1つは、タスクを「話者」エージェントがターゲットエリアを最もよく記述し、「リスナー」エージェントがターゲットを識別する表現を生成する2エージェント協調スキームとしてモデル化することである。 最近のREGシステムは、話者/リスナーエージェントを表現するためにディープラーニングアプローチを使用している。 人間の言語行動を正確に予測できるベイズ的手法であるRational Speech Act framework (RSA)は、単純な視覚シーンを含むおもちゃのデータセットに高品質で説明可能な表現を生成することが示されている。 しかし、大規模な問題への応用はほとんど未解明のままである。 本稿では,多段階プロセスにおける複雑な視覚シーンを含む大規模データセットに対して,確率論的rsaフレームワークとディープラーニング手法の組み合わせを適用する。 我々は、RefCOCOとRefCOCO+データセットの実験を行い、我々のアプローチを他のエンドツーエンドのディープラーニングアプローチと比較し、RSAのバリエーションを重要コントリビューションを強調します。 実験の結果,SOTA深層学習手法よりも精度が低いが,本手法は人間の理解において類似のRSAアプローチより優れており,限られたデータシナリオ下でのエンドツーエンド深層学習よりも有利であることがわかった。 最後に,具体的な例を用いて表現生成過程の詳細な分析を行い,誤りの種類や生成プロセスの欠陥を体系的に把握し,将来的な改善の可能な領域を特定する。

This paper focuses on a referring expression generation (REG) task in which the aim is to pick out an object in a complex visual scene. One common theoretical approach to this problem is to model the task as a two-agent cooperative scheme in which a `speaker' agent would generate the expression that best describes a targeted area and a `listener' agent would identify the target. Several recent REG systems have used deep learning approaches to represent the speaker/listener agents. The Rational Speech Act framework (RSA), a Bayesian approach to pragmatics that can predict human linguistic behavior quite accurately, has been shown to generate high quality and explainable expressions on toy datasets involving simple visual scenes. Its application to large scale problems, however, remains largely unexplored. This paper applies a combination of the probabilistic RSA framework and deep learning approaches to larger datasets involving complex visual scenes in a multi-step process with the aim of generating better-explained expressions. We carry out experiments on the RefCOCO and RefCOCO+ datasets and compare our approach with other end-to-end deep learning approaches as well as a variation of RSA to highlight our key contribution. Experimental results show that while achieving lower accuracy than SOTA deep learning methods, our approach outperforms similar RSA approach in human comprehension and has an advantage over end-to-end deep learning under limited data scenario. Lastly, we provide a detailed analysis on the expression generation process with concrete examples, thus providing a systematic view on error types and deficiencies in the generation process and identifying possible areas for future improvements.
翻訳日:2022-05-17 18:41:27 公開日:2022-05-16
# (参考訳) GraphHD:超次元計算を用いた効率的なグラフ分類

GraphHD: Efficient graph classification using hyperdimensional computing ( http://arxiv.org/abs/2205.07826v1 )

ライセンス: CC BY 4.0
Igor Nunes, Mike Heddes, Tony Givargis, Alexandru Nicolau, Alex Veidenbaum(参考訳) kanervaが開発した超次元コンピューティング(hdc)は、神経科学に触発された機械学習の計算モデルである。 HDCは、高次元性、ランダム性、情報のホログラフィック表現などの生体神経系の特性を利用して、正確性、効率、堅牢性の間のバランスを良くする。 HDCモデルは、さまざまな学習アプリケーション、特に人気が高まっているIoT(Internet of Things)のようなリソース制限設定において、すでに有用であることが証明されている。 HDCの現在の作業から欠落している学習タスクの1つのクラスは、グラフ分類である。 グラフは情報表現の最も重要な形態の1つであるが、今日では一般的にはHDCアルゴリズムはグラフ学習問題に適用されていない。 さらに、計算能力に制限のあるiotとセンサネットワークのグラフ学習は、全体的な設計方法論に課題をもたらす。 本稿では,hdcを用いたグラフ分類のベースラインアプローチとしてgraphhd$-$aを提案する。 実世界のグラフ分類問題に対するgraphhdの評価を行う。 以上の結果から,提案モデルでは,最新のグラフニューラルネットワーク(GNN)と比較して,トレーニング時間と推論時間は平均14.6$\times$と2.0$\times$よりも高速であることがわかった。

Hyperdimensional Computing (HDC) developed by Kanerva is a computational model for machine learning inspired by neuroscience. HDC exploits characteristics of biological neural systems such as high-dimensionality, randomness and a holographic representation of information to achieve a good balance between accuracy, efficiency and robustness. HDC models have already been proven to be useful in different learning applications, especially in resource-limited settings such as the increasingly popular Internet of Things (IoT). One class of learning tasks that is missing from the current body of work on HDC is graph classification. Graphs are among the most important forms of information representation, yet, to this day, HDC algorithms have not been applied to the graph learning problem in a general sense. Moreover, graph learning in IoT and sensor networks, with limited compute capabilities, introduce challenges to the overall design methodology. In this paper, we present GraphHD$-$a baseline approach for graph classification with HDC. We evaluate GraphHD on real-world graph classification problems. Our results show that when compared to the state-of-the-art Graph Neural Networks (GNNs) the proposed model achieves comparable accuracy, while training and inference times are on average 14.6$\times$ and 2.0$\times$ faster, respectively.
翻訳日:2022-05-17 18:29:36 公開日:2022-05-16
# (参考訳) PINNのデータレギュレーションによる景観工学の損失

Loss Landscape Engineering via Data Regulation on PINNs ( http://arxiv.org/abs/2205.07843v1 )

ライセンス: CC BY 4.0
Vignesh Gopakumar, Stanislas Pamela, Debasmita Samaddar(参考訳) 物理インフォームドニューラルネットワークは、自動微分と残留損失を用いたよく定義された偏微分方程式の解のパラメータ化において、ユニークな有用性を示している。 理論上は収束の保証を提供するが、実際には必要な訓練体制は正確で要求される傾向にある。 本稿では,PINNに関連する損失状況の理解と,PINNの最適化が根本的に困難である理由について考察する。 我々は、スパースデータや粗いデータをレギュレータとして供給することで、PINNがソリューションに向かってよりよく収束することを実証する。 データは、PINNに関連するロスランドスケープのトポロジーを規制し、変形させ、ミニミザーにとって容易にトラバースできるようにする。 PINNのデータレギュレーションは、ラベリングされたデータがソリューションの近傍にネットワークをプッシュし、それを解に微調整するハイブリッドな教師なしトレーニングアプローチを呼び出すことにより、収束に必要な最適化を容易にする。

Physics-Informed Neural Networks have shown unique utility in parameterising the solution of a well-defined partial differential equation using automatic differentiation and residual losses. Though they provide theoretical guarantees of convergence, in practice the required training regimes tend to be exacting and demanding. Through the course of this paper, we take a deep dive into understanding the loss landscapes associated with a PINN and how that offers some insight as to why PINNs are fundamentally hard to optimise for. We demonstrate how PINNs can be forced to converge better towards the solution, by way of feeding in sparse or coarse data as a regulator. The data regulates and morphs the topology of the loss landscape associated with the PINN to make it easily traversable for the minimiser. Data regulation of PINNs helps ease the optimisation required for convergence by invoking a hybrid unsupervised-supervised training approach, where the labelled data pushes the network towards the vicinity of the solution, and the unlabelled regime fine-tunes it to the solution.
翻訳日:2022-05-17 18:18:51 公開日:2022-05-16
# 双相最適化による超低レイテンシANN-SNN変換の無損失化

Towards Lossless ANN-SNN Conversion under Ultra-Low Latency with Dual-Phase Optimization ( http://arxiv.org/abs/2205.07473v1 )

ライセンス: Link先を確認
Ziming Wang, Shuang Lian, Yuhao Zhang, Xiaoxin Cui, Rui Yan and Huajin Tang(参考訳) 非同期離散イベントで動作するスパイキングニューラルネットワーク(SNN)は、より高いエネルギー効率を示す。 ディープSNNを実装するための一般的なアプローチは、ANNにおける効率的なトレーニングとSNNにおける効率的な推論を組み合わせたANN-SNN変換である。 しかし、以前の作業では、ロスレス変換を達成するために数千の時間ステップが必要だった。 本稿では,まず,SNNにおける負または過フロー残留膜電位の誤表現の根本原因を同定する。 さらに,SNNとANN間の変換誤差を系統的に解析し,それを量子化誤差,クリッピング誤差,残留膜電位表現誤差の3つに分解する。 そこで本研究では,これらの誤差を最小化する2相変換アルゴリズムを提案する。 その結果,本モデルは深層アーキテクチャ (ResNet と VGGnet) との精度・遅延トレードオフの両面でSOTAを実現する。 具体的には、最新の結果と比較して、SOTAの精度を16$\times$ speedupで報告する。 一方、損失のない変換は少なくとも2$\times$高速な推論性能で実行される。

Spiking neural network (SNN) operating with asynchronous discrete events shows higher energy efficiency. A popular approach to implement deep SNNs is ANN-SNN conversion combining both efficient training in ANNs and efficient inference in SNNs. However, the previous works mostly required thousands of time steps to achieve lossless conversion. In this paper, we first identify the underlying cause, i.e., misrepresentation of the negative or overflow residual membrane potential in SNNs. Furthermore, we systematically analyze the conversion error between SNNs and ANNs, and then decompose it into three folds: quantization error, clipping error, and residual membrane potential representation error. With such insights, we propose a dual-phase conversion algorithm to minimize those errors. As a result, our model achieves SOTA in both accuracy and accuracy-delay tradeoff with deep architectures (ResNet and VGG net). Specifically, we report SOTA accuracy within 16$\times$ speedup compared with the latest results. Meanwhile, lossless conversion is performed with at least 2$\times$ faster reasoning performance.
翻訳日:2022-05-17 18:06:45 公開日:2022-05-16
# インターベンション放射線療法(brachytherapy)におけるディープラーニングの利用 : オープンソースとオープンデータを中心に

The use of deep learning in interventional radiotherapy (brachytherapy): a review with a focus on open source and open data ( http://arxiv.org/abs/2205.07516v1 )

ライセンス: Link先を確認
Tobias Fechter, Ilias Sachpazidis, Dimos Baltas(参考訳) 深層学習は、ほとんどすべての医学分野において最も重要な技術の一つに進んだ。 特に、医療画像に関連する地域では、大きな役割を果たしている。 しかし、介入放射線療法(ブラキセラピー)の深層学習はまだ初期段階にある。 本総説では, 介入放射線療法と直接関連分野における深層学習の役割について検討し, 検討した。 さらに、最新の開発を要約した。 ディープラーニングアルゴリズムの結果を再現するには、ソースコードとトレーニングデータの両方が必要である。 そのため、この研究の第2の焦点は、オープンソース、オープンデータ、オープンモデルの可用性の分析であった。 本分析では, 介入放射線療法のいくつかの領域において, 深層学習がすでに重要な役割を担っていることが示された。 それにもかかわらず、その影響は年々増大しており、部分的に自己推進的だが密接な関連分野の影響も受けている。 オープンソース、データ、モデルの数は増えていますが、さまざまな研究グループではまだ少なく、均等に分散しています。 コード、データ、モデルを公開することの難しさは再現性を制限し、単機能データセットに対する評価を制限する。 要約すると、深層学習は介入放射線療法のワークフローを積極的に変えるが、再現可能な結果や標準化された評価方法に関しては改善の余地がある。

Deep learning advanced to one of the most important technologies in almost all medical fields. Especially in areas, related to medical imaging it plays a big role. However, in interventional radiotherapy (brachytherapy) deep learning is still in an early phase. In this review, first, we investigated and scrutinised the role of deep learning in all processes of interventional radiotherapy and directly related fields. Additionally we summarised the most recent developments. To reproduce results of deep learning algorithms both source code and training data must be available. Therefore, a second focus of this work was on the analysis of the availability of open source, open data and open models. In our analysis, we were able to show that deep learning plays already a major role in some areas of interventional radiotherapy, but is still hardly presented in others. Nevertheless, its impact is increasing with the years, partly self-propelled but also influenced by closely related fields. Open source, data and models are growing in number but are still scarce and unevenly distributed among different research groups. The reluctance in publishing code, data and models limits reproducibility and restricts evaluation to mono-institutional datasets. Summarised, deep learning will change positively the workflow of interventional radiotherapy but there is room for improvement when it comes to reproducible results and standardised evaluation methods.
翻訳日:2022-05-17 18:06:30 公開日:2022-05-16
# 強化学習に基づく論理合成の再考

Rethinking Reinforcement Learning based Logic Synthesis ( http://arxiv.org/abs/2205.07614v1 )

ライセンス: Link先を確認
Chao Wang, Chen Chen, Dong Li, Bin Wang(参考訳) 近年,演算子列最適化問題をマルコフ決定過程として定式化し,論理合成に強化学習を用いている。 しかし,広範な実験により,学習した方針が回路特性(すなわち状態)から独立な決定を行なえ,演算子の観点である程度不変な演算子列が得られることが判明した。 そこで本研究では, 臨界演算子を自動的に認識し, 非検出回路に一般化可能な共通演算子列を生成するrl方式を開発した。 本アルゴリズムは,EPFLベンチマーク,プライベートデータセット,産業規模での回路で検証する。 実験結果から, 遅延, 面積, 実行時間のバランスが良好であり, 工業利用に有効であることが示唆された。

Recently, reinforcement learning has been used to address logic synthesis by formulating the operator sequence optimization problem as a Markov decision process. However, through extensive experiments, we find out that the learned policy makes decisions independent from the circuit features (i.e., states) and yields an operator sequence that is permutation invariant to some extent in terms of operators. Based on these findings, we develop a new RL-based method that can automatically recognize critical operators and generate common operator sequences generalizable to unseen circuits. Our algorithm is verified on both the EPFL benchmark, a private dataset and a circuit at industrial scale. Experimental results demonstrate that it achieves a good balance among delay, area and runtime, and is practical for industrial usage.
翻訳日:2022-05-17 18:06:10 公開日:2022-05-16
# 深層強化学習政策を攻撃・擁護する

Attacking and Defending Deep Reinforcement Learning Policies ( http://arxiv.org/abs/2205.07626v1 )

ライセンス: Link先を確認
Chao Wang(参考訳) 近年の研究では、DRL(Deep reinforcement Learning)ポリシが敵攻撃に対して脆弱であることが示されており、DRLの安全クリティカルシステムへの適用に対する懸念が高まっている。 本研究では,DRLポリシーのロバスト性に着目し,ロバスト最適化の観点から敵攻撃に対するロバスト性を検討する。 ロバスト最適化の枠組み内では、ポリシーの期待値の最小化によって最適な敵の攻撃が与えられ、ポリシーの最悪の場合の性能を向上させることで、適切な防御機構を実現する必要がある。 攻撃者は一般に訓練環境にアクセスできないことを考慮し、環境と対話することなくポリシーの期待した戻りを最小化しようとする欲求攻撃アルゴリズムと、最大限の形式で敵の訓練を行う防衛アルゴリズムを提案する。 アタリゲーム環境での実験では、我々の攻撃アルゴリズムは既存の攻撃アルゴリズムよりも効果的で、ポリシーの戻りが悪く、我々の防衛アルゴリズムは、既存の防御手法よりも多くの敵攻撃(提案された攻撃アルゴリズムを含む)に対してロバストなポリシーを生成する。

Recent studies have shown that deep reinforcement learning (DRL) policies are vulnerable to adversarial attacks, which raise concerns about applications of DRL to safety-critical systems. In this work, we adopt a principled way and study the robustness of DRL policies to adversarial attacks from the perspective of robust optimization. Within the framework of robust optimization, optimal adversarial attacks are given by minimizing the expected return of the policy, and correspondingly a good defense mechanism should be realized by improving the worst-case performance of the policy. Considering that attackers generally have no access to the training environment, we propose a greedy attack algorithm, which tries to minimize the expected return of the policy without interacting with the environment, and a defense algorithm, which performs adversarial training in a max-min form. Experiments on Atari game environments show that our attack algorithm is more effective and leads to worse return of the policy than existing attack algorithms, and our defense algorithm yields policies more robust than existing defense methods to a range of adversarial attacks (including our proposed attack algorithm).
翻訳日:2022-05-17 18:05:56 公開日:2022-05-16
# シンボル文字列操作によるOoD検出器のコーナ優先化

Prioritizing Corners in OoD Detectors via Symbolic String Manipulation ( http://arxiv.org/abs/2205.07736v1 )

ライセンス: Link先を確認
Chih-Hong Cheng, Changshun Wu, Emmanouil Seferis, Saddek Bensalem(参考訳) ディープニューラルネットワーク(DNN)の安全性を保証するためには、トレーニングデータセットから離れた急激な入力をフィルタリングするため、OoD監視技術が不可欠である。 本稿では,oodモニタをシステム的にテストすることで,入力データポイントをインディストリビューションとしてモニタがテストするケースを回避するが,dnnはスプリアス出力予測を生成する。 訓練データセットから学習した超矩形の集合により特徴空間に特徴付けられる「分布内」の定義を考える。 これにより、機能空間で利用可能なトレーニングデータから離れた超矩形のコーナーを見つけることができる。 具体的には、各データポイントの抽象的な位置を有限長のバイナリ文字列としてエンコードし、すべてのバイナリ文字列の和はバイナリ決定図(BDD)を用いてコンパクトに格納する。 トレーニングセット内のすべてのデータポイントから離れたコーナーを象徴的に抽出するためにBDDを使用する方法を紹介します。 テストケースの生成とは別に、提案したコーナーを使ってDNNを微調整して、過度に自信を持って予測しないようにする方法について説明する。 結果は、番号や交通標識の認識などの例で評価される。

For safety assurance of deep neural networks (DNNs), out-of-distribution (OoD) monitoring techniques are essential as they filter spurious input that is distant from the training dataset. This paper studies the problem of systematically testing OoD monitors to avoid cases where an input data point is tested as in-distribution by the monitor, but the DNN produces spurious output predictions. We consider the definition of "in-distribution" characterized in the feature space by a union of hyperrectangles learned from the training dataset. Thus the testing is reduced to finding corners in hyperrectangles distant from the available training data in the feature space. Concretely, we encode the abstract location of every data point as a finite-length binary string, and the union of all binary strings is stored compactly using binary decision diagrams (BDDs). We demonstrate how to use BDDs to symbolically extract corners distant from all data points within the training set. Apart from test case generation, we explain how to use the proposed corners to fine-tune the DNN to ensure that it does not predict overly confidently. The result is evaluated over examples such as number and traffic sign recognition.
翻訳日:2022-05-17 18:05:37 公開日:2022-05-16
# jr2net:圧縮スペクトルイメージングのための非線形表現・リカバリネットワーク

JR2net: A Joint Non-Linear Representation and Recovery Network for Compressive Spectral Imaging ( http://arxiv.org/abs/2205.07770v1 )

ライセンス: Link先を確認
Brayan Monroy, Jorge Bacca, Henry Arguello(参考訳) 深層学習モデルは、圧縮スペクトルイメージング(CSI)回復の最先端である。 これらの方法は、画像生成装置としてディープニューラルネットワーク(dnn)を使用し、圧縮された測定値からスペクトル画像への非線形マッピングを学ぶ。 例えば、ディープスペクトル事前アプローチでは、最適化アルゴリズムの畳み込みオートエンコーダネットワーク(CAE)を使用して、非線形表現を用いてスペクトル像を復元する。 しかし、CAEトレーニングは、CSI問題に対するスペクトル画像の最適な表現を保証しないリカバリ問題から切り離されている。 本研究は,表現と回復タスクを単一最適化問題にリンクする非線形表現と回復ネットワーク(JR2net)を提案する。 JR2netは、非線形な低次元表現を学習し、エンドツーエンドアプローチで訓練されたスペクトル画像復元を同時に行うADMM定式化に従って最適化されたネットワークで構成されている。 実験の結果,psnrにおける2.57dbの改善と,最先端手法の約2000倍の高速化が得られた。

Deep learning models are state-of-the-art in compressive spectral imaging (CSI) recovery. These methods use a deep neural network (DNN) as an image generator to learn non-linear mapping from compressed measurements to the spectral image. For instance, the deep spectral prior approach uses a convolutional autoencoder network (CAE) in the optimization algorithm to recover the spectral image by using a non-linear representation. However, the CAE training is detached from the recovery problem, which does not guarantee optimal representation of the spectral images for the CSI problem. This work proposes a joint non-linear representation and recovery network (JR2net), linking the representation and recovery task into a single optimization problem. JR2net consists of an optimization-inspired network following an ADMM formulation that learns a non-linear low-dimensional representation and simultaneously performs the spectral image recovery, trained via the end-to-end approach. Experimental results show the superiority of the proposed method with improvements up to 2.57 dB in PSNR and performance around 2000 times faster than state-of-the-art methods.
翻訳日:2022-05-17 18:05:18 公開日:2022-05-16
# 分散データストリーム上のフェデレーション異常検出

Federated Anomaly Detection over Distributed Data Streams ( http://arxiv.org/abs/2205.07829v1 )

ライセンス: Link先を確認
Paula Raissa Silva, Jo\~ao Viangre, Jo\~ao Gama(参考訳) 通信ネットワークデータの共有は、例えば、ハイアグリゲーションレベルであっても、プライバシー法や規制、その他の重要な倫理上の懸念により、現在非常に制限されている。 これにより、組織、地域、州にまたがるデータを散乱させ、大規模にデータを利用するAIメソッドの使用を阻害する。 このようなデータを管理し、モデルを構築し、計算を行うプラットフォームを構築する必要がある。 本研究では,異常検出,フェデレーション学習,データストリーム間のブリッジ構築手法を提案する。 作業の包括的な目標は、分散データストリーム上でのフェデレーション環境での異常を検出することだ。 この研究は、異常検出のための連合学習環境にデータストリームアルゴリズムを適用し、堅牢なフレームワークを提供し、実世界の分散デプロイメントシナリオで実用性を示すことで、最先端のアルゴリズムを補完する。

Sharing of telecommunication network data, for example, even at high aggregation levels, is nowadays highly restricted due to privacy legislation and regulations and other important ethical concerns. It leads to scattering data across institutions, regions, and states, inhibiting the usage of AI methods that could otherwise take advantage of data at scale. It creates the need to build a platform to control such data, build models or perform calculations. In this work, we propose an approach to building the bridge among anomaly detection, federated learning, and data streams. The overarching goal of the work is to detect anomalies in a federated environment over distributed data streams. This work complements the state-of-the-art by adapting the data stream algorithms in a federated learning setting for anomaly detection and by delivering a robust framework and demonstrating the practical feasibility in a real-world distributed deployment scenario.
翻訳日:2022-05-17 18:04:58 公開日:2022-05-16
# 選挙の予測周波数行列:計算,幾何学,選好学習

Expected Frequency Matrices of Elections: Computation, Geometry, and Preference Learning ( http://arxiv.org/abs/2205.07831v1 )

ライセンス: Link先を確認
Niclas Boehmer, Robert Bredereck, Edith Elkind, Piotr Faliszewski, Stanis{\l}aw Szufa(参考訳) 我々は、Szufa et al.(AAMAS 2020)の「選挙マップ」アプローチを用いて、よく知られた投票分布を分析する。 それぞれに対して、その周波数行列を計算するための明示的な公式または効率的なアルゴリズムを与え、サンプル投票で与えられた候補が所定の位置に現れる確率をキャプチャする。 これらの行列を用いて分布の「スケルトン写像」を描き、その堅牢性を評価し、その性質を分析する。 我々はさらに、現実の選挙の性質を特定するためにそれらを使用する。

We use the "map of elections" approach of Szufa et al. (AAMAS 2020) to analyze several well-known vote distributions. For each of them, we give an explicit formula or an efficient algorithm for computing its frequency matrix, which captures the probability that a given candidate appears in a given position in a sampled vote. We use these matrices to draw the "skeleton map" of distributions, evaluate its robustness, and analyze its properties. We further use them to identify the nature of several real-world elections.
翻訳日:2022-05-17 18:03:39 公開日:2022-05-16
# 農業モニタリングのための大型衛星画像時系列データキューブ

A Data Cube of Big Satellite Image Time-Series for Agriculture Monitoring ( http://arxiv.org/abs/2205.07752v1 )

ライセンス: Link先を確認
Thanassis Drivas, Vasileios Sitokonstantinou, Iason Tsardanidis, Alkiviadis Koukos, Charalampos Kontoes, Vassilia Karathanassi(参考訳) 共通農業政策(CAP)の近代化は、大規模かつ頻繁な農地の監視を必要とする。 この方向に向かって、自由でオープンな衛星データ(すなわちセンチネルミッション)は、要求される高い空間的および時間的解像度の地球観測の源として広く用いられてきた。 それでも、CAPを大規模に監視することは、ビッグデータの問題であり、インフラストラクチャやノウハウの観点から迅速に適応する必要があるCAP有給機関に負担をかける。 したがって、巨大な衛星データの取得、保管、処理、利用のための効率的で使いやすいツールが必要である。 本稿では,光学式および合成開口レーダ(SAR)画像を多次元立方体に検出し,前処理し,インデックス化するための,モジュール化されたエンドツーエンドフレームワークである農業監視データキューブ(ADC)を提案する。 私たちはadc上に強力なツールセットも提供しています。 一 下流機械学習タスクを供給するための大衛星データの分析可能な特徴空間の生成 二 CAPの監視に係わるサービスによる衛星画像時系列解析(SITS)の支持(トレンドやイベントの検知、成長状況の監視等)。 SITS分析から抽出した知識と機械学習タスクはデータキューブに戻り、複雑で多面的な地理空間的クエリに効率的に答えられるスケーラブルな国固有の知識ベースを構築する。

The modernization of the Common Agricultural Policy (CAP) requires the large scale and frequent monitoring of agricultural land. Towards this direction, the free and open satellite data (i.e., Sentinel missions) have been extensively used as the sources for the required high spatial and temporal resolution Earth observations. Nevertheless, monitoring the CAP at large scales constitutes a big data problem and puts a strain on CAP paying agencies that need to adapt fast in terms of infrastructure and know-how. Hence, there is a need for efficient and easy-to-use tools for the acquisition, storage, processing and exploitation of big satellite data. In this work, we present the Agriculture monitoring Data Cube (ADC), which is an automated, modular, end-to-end framework for discovering, pre-processing and indexing optical and Synthetic Aperture Radar (SAR) images into a multidimensional cube. We also offer a set of powerful tools on top of the ADC, including i) the generation of analysis-ready feature spaces of big satellite data to feed downstream machine learning tasks and ii) the support of Satellite Image Time-Series (SITS) analysis via services pertinent to the monitoring of the CAP (e.g., detecting trends and events, monitoring the growth status etc.). The knowledge extracted from the SITS analyses and the machine learning tasks returns to the data cube, building scalable country-specific knowledge bases that can efficiently answer complex and multi-faceted geospatial queries.
翻訳日:2022-05-17 18:01:50 公開日:2022-05-16
# メトロポリスモンテカルロを用いたニューラルネットワークの学習と適応型

Training neural networks using Metropolis Monte Carlo and an adaptive variant ( http://arxiv.org/abs/2205.07408v1 )

ライセンス: Link先を確認
Stephen Whitelam, Viktor Selin, Ian Benlolo, Isaac Tamblyn(参考訳) 損失関数を最小化してニューラルネットワークをトレーニングするためのツールとして,ゼロ温度モンテカルロアルゴリズムを検討した。 理論的な根拠で予想され、他の著者によって実証的に示されているように、メトロポリス・モンテカルロは勾配降下と同等の精度でニューラルネットワークを訓練できる。 ニューラルネットワークのパラメータ数が大きくなると、metropolisアルゴリズムが自動的に失敗することはない。 ニューラルネットワークの構造やニューロンの活性化が強い異種性である場合にフェールし、これらの制限を克服するために適応的なモンテカルロアルゴリズムであるaMCを導入する。 モンテカルロ法の本質的確率性により、AMCは勾配が小さすぎるニューラルネットワークを訓練することができ、勾配降下によるトレーニングが可能である。 分子シミュレーションでは、モンテカルロ法が勾配に基づくニューラルネットワークの訓練法を補完し、異なるネットワークアーキテクチャや原理へのアクセスを可能にすることを示唆している。

We examine the zero-temperature Metropolis Monte Carlo algorithm as a tool for training a neural network by minimizing a loss function. We find that, as expected on theoretical grounds and shown empirically by other authors, Metropolis Monte Carlo can train a neural net with an accuracy comparable to that of gradient descent, if not necessarily as quickly. The Metropolis algorithm does not fail automatically when the number of parameters of a neural network is large. It can fail when a neural network's structure or neuron activations are strongly heterogenous, and we introduce an adaptive Monte Carlo algorithm, aMC, to overcome these limitations. The intrinsic stochasticity of the Monte Carlo method allows aMC to train neural networks in which the gradient is too small to allow training by gradient descent. We suggest that, as for molecular simulation, Monte Carlo methods offer a complement to gradient-based methods for training neural networks, allowing access to a distinct set of network architectures and principles.
翻訳日:2022-05-17 18:00:22 公開日:2022-05-16
# TNN7:ニューロモルフィックTNNの高度に最適化された設計を実装するカスタムマクロスイート

TNN7: A Custom Macro Suite for Implementing Highly Optimized Designs of Neuromorphic TNNs ( http://arxiv.org/abs/2205.07410v1 )

ライセンス: Link先を確認
Harideep Nair, Prabhu Vellaisamy, Santha Bhasuthkar, and John Paul Shen(参考訳) 哺乳類のネオコルテックスに触発されたTNNは、エネルギー効率のよいオンライン感覚処理能力を示す。 最近の研究は、TNNの実装のためのマイクロアーキテクチャ設計フレームワークを提案し、視覚および時系列アプリケーション上での競合性能を示した。 TNN7は、予測 7nm Process Design Kit (PDK) を用いて開発された9つの高度に最適化されたカスタムマクロのスイートで、TNN設計フレームワークの効率、モジュール性、柔軟性を向上させる。 2つのアプリケーションのためのTNNプロトタイプは、TNN7の評価に使用される。 競合性能を提供する教師なしの時系列クラスタリングTNNは40UWのパワーと0.05mm^2の範囲で実装でき、MNISTエラー率1%の4層TNNは18mWと24.63mm^2しか消費しない。 提案したマクロは電力,遅延,面積,エネルギー遅延生成物をそれぞれ14%,16%,28%,45%削減する。 さらに、TNN7を使用することで、TNN設計の合成ランタイム(3倍以上)を大幅に削減し、高スケールのTNN実装を実現することができる。

Temporal Neural Networks (TNNs), inspired from the mammalian neocortex, exhibit energy-efficient online sensory processing capabilities. Recent works have proposed a microarchitecture design framework for implementing TNNs and demonstrated competitive performance on vision and time-series applications. Building on them, this work proposes TNN7, a suite of nine highly optimized custom macros developed using a predictive 7nm Process Design Kit (PDK), to enhance the efficiency, modularity and flexibility of the TNN design framework. TNN prototypes for two applications are used for evaluation of TNN7. An unsupervised time-series clustering TNN delivering competitive performance can be implemented within 40 uW power and 0.05 mm^2 area, while a 4-layer TNN that achieves an MNIST error rate of 1% consumes only 18 mW and 24.63 mm^2. On average, the proposed macros reduce power, delay, area, and energy-delay product by 14%, 16%, 28%, and 45%, respectively. Furthermore, employing TNN7 significantly reduces the synthesis runtime of TNN designs (by more than 3x), allowing for highly-scaled TNN implementations to be realized.
翻訳日:2022-05-17 18:00:06 公開日:2022-05-16
# 高モデル不確実性下での混合癌治療の薬物投与に対する学習に基づく感度分析とフィードバック設計

Learning-Based sensitivity analysis and feedback design for drug delivery of mixed therapy of cancer in the presence of high model uncertainties ( http://arxiv.org/abs/2205.07482v1 )

ライセンス: Link先を確認
Mazen Alamir(参考訳) 本稿では, 治療結果の感度を, 患者固有のパラメータの高分散を回避可能とし, 薬物提供フィードバック戦略を定義するパラメータの選択を可能にする手法を提案する。 より正確には、与えられた初期条件に対するフィードバック療法の成功/失敗の確率を不確実性のクラウド上で決定する最も流動的なパラメータを抽出し、ランク付けすることができる方法が与えられる。 さらに、使用される薬物の量に対する期待の予測者も導出することができる。 これにより、腫瘍の安全な収縮を保証し、使用中の異なる薬物量の重み付けを最小化できる効率的な確率最適化フレームワークを設計することができる。 この枠組みは、化学療法薬、免疫学ワクチン、免疫療法薬という3つの組み合わせ薬物を含むがんの混合治療の例を用いて示され、検証される。 最後に、この特定の場合において、ダッシュボードは、結果の確率と関連する薬物使用を還元状態空間におけるiso値曲線として要約する最も影響の大きい状態成分の2d空間に構築できることが示される。

In this paper, a methodology is proposed that enables to analyze the sensitivity of the outcome of a therapy to unavoidable high dispersion of the patient specific parameters on one hand and to the choice of the parameters that define the drug delivery feedback strategy on the other hand. More precisely, a method is given that enables to extract and rank the most influent parameters that determine the probability of success/failure of a given feedback therapy for a given set of initial conditions over a cloud of realizations of uncertainties. Moreover predictors of the expectations of the amounts of drugs being used can also be derived. This enables to design an efficient stochastic optimization framework that guarantees safe contraction of the tumor while minimizing a weighted sum of the quantities of the different drugs being used. The framework is illustrated and validated using the example of a mixed therapy of cancer involving three combined drugs namely: a chemotherapy drug, an immunology vaccine and an immunotherapy drug. Finally, in this specific case, it is shown that dash-boards can be built in the 2D-space of the most influent state components that summarize the outcomes' probabilities and the associated drug usage as iso-values curves in the reduced state space.
翻訳日:2022-05-17 17:59:42 公開日:2022-05-16
# モンテカルロイベント生成のための条件付きボルンマシン

Conditional Born machine for Monte Carlo events generation ( http://arxiv.org/abs/2205.07674v1 )

ライセンス: Link先を確認
Oriel Kiss, Michele Grossi, Enrique Kajomovitz and Sofia Vallecorsa(参考訳) 生成モデリングは、量子測定の確率的性質をランダムソースとして利用できる、短期量子デバイスにとって有望なタスクである。 いわゆるBorn Machineは純粋に量子モデルであり、量子的に確率分布を生成することを約束する。 本稿では,モンテカルロシミュレーションへのボルンマシンの適用例を示し,多変量分布と条件分布にそのリーチを広げる。 モデルは(ノイズの多い)シミュレータとIBM Quantum超伝導量子ハードウェア上で実行される。 より具体的には、高エネルギー・物理衝突型加速器実験でミューオンと検出器材料の間の散乱過程から生じるミューオン力担体(mfc)を発生させる。 mfcは、暗黒物質の候補である標準モデル理論の枠組みを超えて現れるボソンである。 実証的な証拠から、ボルンマシンはモンテカルロシミュレーションから来るデータセットの基盤となる分布を再現でき、同様の複雑さを持つ古典的な機械学習ベースの生成モデルと競合することが示されている。

Generative modeling is a promising task for near-term quantum devices, which can use the stochastic nature of quantum measurements as random source. So called Born machines are purely quantum models and promise to generate probability distributions in a quantum way, inaccessible to classical computers. This paper presents an application of Born machines to Monte Carlo simulations and extends their reach to multivariate and conditional distributions. Models are run on (noisy) simulators and IBM Quantum superconducting quantum hardware. More specifically, Born machines are used to generate muonic force carriers (MFC) events resulting from scattering processes between muons and the detector material in high-energy-physics colliders experiments. MFCs are bosons appearing in beyond the standard model theoretical frameworks, which are candidates for dark matter. Empirical evidences suggest that Born machines can reproduce the underlying distribution of datasets coming from Monte Carlo simulations, and are competitive with classical machine learning-based generative models of similar complexity.
翻訳日:2022-05-17 17:59:23 公開日:2022-05-16
# スマートフォンのデータからcovid-19検出を改善するl3-netディープオーディオ埋め込み

L3-Net Deep Audio Embeddings to Improve COVID-19 Detection from Smartphone Data ( http://arxiv.org/abs/2205.07682v1 )

ライセンス: Link先を確認
Mattia Giovanni Campana, Andrea Rovati, Franca Delmastro, Elena Pagani(参考訳) スマートフォンやウェアラブルデバイスは、人工知能と共に、新しい疾患の発生を早期に認識し、新しいアウトブレイクの発生を避けるために、低コストで広く普及したソリューションを導入することで、パンデミックコントロールにおけるゲームチェンジャーを表現できる。 近年のいくつかの研究は、機械学習と手作り音響特徴を用いて、音声から新型コロナウイルスの診断信号を検出することを約束している。 本稿では,最近提案された深層埋込みモデルL3-Netによる生の呼吸録音から有意な特徴を自動的に抽出する能力について検討し,スマートフォンデータから新型コロナウイルス陽性と陰性を識別する標準的な機械学習分類器の性能を向上させることを目的とする。 提案モデルを3つのデータセット上で評価し,得られた結果と2つの参照結果を比較した。 その結果、l3-netと手作りの機能の組み合わせは、被験者に依存しない実験でaucの観点から他の作品のパフォーマンスを28.57%上回ることがわかった。 この結果は、さまざまな深層オーディオ埋め込みに関するさらなる調査への道を開くものであり、また、異なる疾患の自動検出にも役立つ。

Smartphones and wearable devices, along with Artificial Intelligence, can represent a game-changer in the pandemic control, by implementing low-cost and pervasive solutions to recognize the development of new diseases at their early stages and by potentially avoiding the rise of new outbreaks. Some recent works show promise in detecting diagnostic signals of COVID-19 from voice and coughs by using machine learning and hand-crafted acoustic features. In this paper, we decided to investigate the capabilities of the recently proposed deep embedding model L3-Net to automatically extract meaningful features from raw respiratory audio recordings in order to improve the performances of standard machine learning classifiers in discriminating between COVID-19 positive and negative subjects from smartphone data. We evaluated the proposed model on 3 datasets, comparing the obtained results with those of two reference works. Results show that the combination of L3-Net with hand-crafted features overcomes the performance of the other works of 28.57% in terms of AUC in a set of subject-independent experiments. This result paves the way to further investigation on different deep audio embeddings, also for the automatic detection of different diseases.
翻訳日:2022-05-17 17:59:04 公開日:2022-05-16
# (参考訳) CurFi:カーブフィッティングを用いた最適な回帰分析モデルを見つける自動化ツール

CurFi: An automated tool to find the best regression analysis model using curve fitting ( http://arxiv.org/abs/2205.07804v1 )

ライセンス: CC BY 4.0
Ayon Roy, Tausif Al Zubayer, Nafisa Tabassum, Muhammad Nazrul Islam, Md. Abdus Sattar(参考訳) 回帰分析は、主に1つ以上の独立変数と依存変数の関係を探索するよく知られた定量的研究手法である。 複数の独立変数を持つ大規模データセットで手動で回帰分析を行うのは面倒なことだ。 回帰分析の自動化システムは、研究者や専門家でないユーザーにとっても大いに役立つだろう。 そこで本研究の目的は,自動湾曲フィッティングシステムの設計と開発である。 結果として、線形回帰モデルを用いて曲線をデータセットに適合させ、最適な適合モデルを見つけるための曲線フィッティングシステム「curfi」が開発された。 システムはデータセットをアップロードし、データセットをトレーニングセットとテストセットに分割し、データセットから関連する特徴とラベルを選択します。 開発ツールは、限られた技術的知識を持つユーザにとって優れたリソースであり、"CurFi"システムを使用してデータセットに最適な回帰モデルを見つけることもできるでしょう。

Regression analysis is a well known quantitative research method that primarily explores the relationship between one or more independent variables and a dependent variable. Conducting regression analysis manually on large datasets with multiple independent variables can be tedious. An automated system for regression analysis will be of great help for researchers as well as non-expert users. Thus, the objective of this research is to design and develop an automated curve fitting system. As outcome, a curve fitting system named "CurFi" was developed that uses linear regression models to fit a curve to a dataset and to find out the best fit model. The system facilitates to upload a dataset, split the dataset into training set and test set, select relevant features and label from the dataset; and the system will return the best fit linear regression model after training is completed. The developed tool would be a great resource for the users having limited technical knowledge who will also be able to find the best fit regression model for a dataset using the developed "CurFi" system.
翻訳日:2022-05-17 17:57:26 公開日:2022-05-16
# エッジデバイスにおけるジョイントインテント検出とスロットフィリングのための高速注意ネットワーク

A Fast Attention Network for Joint Intent Detection and Slot Filling on Edge Devices ( http://arxiv.org/abs/2205.07646v1 )

ライセンス: Link先を確認
Liang Huang, Senjie Liang, Feiyang Ye, Nan Gao(参考訳) インテント検出とスロット充填は、自然言語理解における2つの主なタスクであり、タスク指向対話システムにおいて重要な役割を果たす。 両タスクの合同学習により推論精度が向上し,最近の研究で人気がある。 しかし、ほとんどのジョイントモデルでは推論遅延を無視し、エッジに対話システムをデプロイする必要性を満たせない。 本稿では,FAN(Fast Attention Network)を用いて,接続意図検出とスロット充足処理を行い,精度とレイテンシの両立を保証した。 具体的には,インテントとスロット間の情報交換を強化し,セマンティクスの精度を2%以上向上させる,クリーンでパラメータ改良されたアテンションモジュールを提案する。 FANは異なるエンコーダで実装でき、各速度レベルでより正確なモデルを提供する。 我々のJetson Nanoプラットフォームにおける実験により,FANは1秒あたり15発の発話を少ない精度で推定し,エッジデバイス上での有効性と効率性を示した。

Intent detection and slot filling are two main tasks in natural language understanding and play an essential role in task-oriented dialogue systems. The joint learning of both tasks can improve inference accuracy and is popular in recent works. However, most joint models ignore the inference latency and cannot meet the need to deploy dialogue systems at the edge. In this paper, we propose a Fast Attention Network (FAN) for joint intent detection and slot filling tasks, guaranteeing both accuracy and latency. Specifically, we introduce a clean and parameter-refined attention module to enhance the information exchange between intent and slot, improving semantic accuracy by more than 2%. FAN can be implemented on different encoders and delivers more accurate models at every speed level. Our experiments on the Jetson Nano platform show that FAN inferences fifteen utterances per second with a small accuracy drop, showing its effectiveness and efficiency on edge devices.
翻訳日:2022-05-17 17:40:41 公開日:2022-05-16
# ct金属アーティファクト削減のための適応畳み込み辞書ネットワーク

Adaptive Convolutional Dictionary Network for CT Metal Artifact Reduction ( http://arxiv.org/abs/2205.07471v1 )

ライセンス: Link先を確認
Hong Wang, Yuexiang Li, Deyu Meng, Yefeng Zheng(参考訳) 深層ニューラルネットワークの成功に触発されて、学習に基づく手法は、ct画像における金属人工物還元(mar)の有望な性能を得た。 しかし、既存のアプローチのほとんどは、この特定のMARタスクの基礎となる本質的な事前知識をネットワーク設計に組み込むことに重点を置いている。 そこで本研究では,モデルベースと学習ベースを併用した適応畳み込み辞書ネットワーク(ACDNet)を提案する。 具体的には、金属アーチファクトの先行構造、例えば非局所反復的ストレキングパターンを探索し、それらを明示的な重み付き畳み込み辞書モデルとしてエンコードする。 そして、モデルを解決するため、単純なyet効率のアルゴリズムを慎重に設計する。 提案するアルゴリズムの全ての反復部分ステップをネットワークモジュールに展開することにより,事前構造をmarタスクの明確な解釈可能性である,ディープネットワークに明示的に埋め込む。 さらに、ACDNetは、トレーニングデータを介して、アーティファクトフリーCT画像の事前を自動で学習し、その内容に基づいて各入力CT画像の表現カーネルを適応的に調整することができる。 そこで,本手法は,モデルに基づく手法の明確な解釈可能性を継承し,学習に基づく手法の強力な表現能力を維持する。 総合的な実験を合成データセットと臨床データセットで行い、ACDNetの有効性とモデル一般化の点で優位性を示した。 {\color{blue}{{\textit{Code は {\url{https://github.com/hongwang01/ACDNet}} で入手できる。 }}}}

Inspired by the great success of deep neural networks, learning-based methods have gained promising performances for metal artifact reduction (MAR) in computed tomography (CT) images. However, most of the existing approaches put less emphasis on modelling and embedding the intrinsic prior knowledge underlying this specific MAR task into their network designs. Against this issue, we propose an adaptive convolutional dictionary network (ACDNet), which leverages both model-based and learning-based methods. Specifically, we explore the prior structures of metal artifacts, e.g., non-local repetitive streaking patterns, and encode them as an explicit weighted convolutional dictionary model. Then, a simple-yet-effective algorithm is carefully designed to solve the model. By unfolding every iterative substep of the proposed algorithm into a network module, we explicitly embed the prior structure into a deep network, \emph{i.e.,} a clear interpretability for the MAR task. Furthermore, our ACDNet can automatically learn the prior for artifact-free CT images via training data and adaptively adjust the representation kernels for each input CT image based on its content. Hence, our method inherits the clear interpretability of model-based methods and maintains the powerful representation ability of learning-based methods. Comprehensive experiments executed on synthetic and clinical datasets show the superiority of our ACDNet in terms of effectiveness and model generalization. {\color{blue}{{\textit{Code is available at {\url{https://github.com/hongwang01/ACDNet}}.}}}}
翻訳日:2022-05-17 17:37:30 公開日:2022-05-16
# 乱れた屋内環境におけるトポロジカルな特徴に基づく物体認識

Topologically Persistent Features-based Object Recognition in Cluttered Indoor Environments ( http://arxiv.org/abs/2205.07479v1 )

ライセンス: Link先を確認
Ekta U. Samani and Ashis G. Banerjee(参考訳) 屋内環境におけるオクルード物体の認識は, 移動ロボットにとって難しい課題である。 本研究は,オブジェクトポイント雲の3次元形状を捉えた新しいスライシングに基づく位相ディスクリプタを提案する。 これにより、occludedオブジェクトと対応するunoccludedオブジェクトの記述子間の類似性が生まれ、トレーニングされたモデルのライブラリを使用してオブジェクトの統一性に基づく認識が可能になる。 本発明のディスクリプタは、オブジェクトの点雲を複数の2次元スライスに分割し、スライス上に濾過(単体錯体のネスト配列)を構築し、スライスのさらなるスライスを模倣することにより、永続的ホモロジー生成特徴により詳細な形状をキャプチャする。 パフォーマンス評価にはベンチマークデータセットから9種類のクラッタ化されたシーンを使用しています。 提案手法は,DGCNNとSimpleViewという,最先端のディープラーニングベースのポイントクラウド分類手法よりも優れている。

Recognition of occluded objects in unseen indoor environments is a challenging problem for mobile robots. This work proposes a new slicing-based topological descriptor that captures the 3D shape of object point clouds to address this challenge. It yields similarities between the descriptors of the occluded and the corresponding unoccluded objects, enabling object unity-based recognition using a library of trained models. The descriptor is obtained by partitioning an object's point cloud into multiple 2D slices and constructing filtrations (nested sequences of simplicial complexes) on the slices to mimic further slicing of the slices, thereby capturing detailed shapes through persistent homology-generated features. We use nine different sequences of cluttered scenes from a benchmark dataset for performance evaluation. Our method outperforms two state-of-the-art deep learning-based point cloud classification methods, namely, DGCNN and SimpleView.
翻訳日:2022-05-17 17:37:05 公開日:2022-05-16
# アトラスを用いた胎児・新生児脳セグメンテーションと解析のための自動パイプライン

An automatic pipeline for atlas-based fetal and neonatal brain segmentation and analysis ( http://arxiv.org/abs/2205.07575v1 )

ライセンス: Link先を確認
Urru, Andrea and Nakaki, Ayako and Benkarim, Oualid and Crovetto, Francesca and Segales, Laura and Comte, Valentin and Hahner, Nadine and Eixarch, Elisenda and Gratac\'os, Eduard and Crispi, F\`atima and Piella, Gemma and Gonz\'alez Ballester, Miguel A(参考訳) 磁気共鳴画像(MRI)における周産期脳構造の自動分割は、脳の成長とその関連合併症の研究において最も重要である。 成人と小児のMRIデータには異なる方法が存在するが、周産期画像解析のための自動ツールが欠如している。 本研究では、胎児および新生児の分節のための新しいパイプラインを開発した。 また, 新規登録法に基づく2つの胎児腺腫の創出と, そのパイプライン内でのアトラスを用いたセグメンテーションについて報告する。 パイプラインはまた、曲率、厚み、sulcal depth、局所的なジャイロ化指数など、皮質表面とピアル表面の抽出や計算特性も可能である。 その結果,新たなテンプレートの導入とセグメンテーション戦略は,専門家のアノテーションと比較して正確な結果をもたらすとともに,早期および後期の胎児脳に対する参照パイプライン(Human Connectome Project (dHCP)の開発)と比較して,パフォーマンスが向上することがわかった。

The automatic segmentation of perinatal brain structures in magnetic resonance imaging (MRI) is of utmost importance for the study of brain growth and related complications. While different methods exist for adult and pediatric MRI data, there is a lack for automatic tools for the analysis of perinatal imaging. In this work, a new pipeline for fetal and neonatal segmentation has been developed. We also report the creation of two new fetal atlases, and their use within the pipeline for atlas-based segmentation, based on novel registration methods. The pipeline is also able to extract cortical and pial surfaces and compute features, such as curvature, thickness, sulcal depth, and local gyrification index. Results show that the introduction of the new templates together with our segmentation strategy leads to accurate results when compared to expert annotations, as well as better performances when compared to a reference pipeline (developing Human Connectome Project (dHCP)), for both early and late-onset fetal brains.
翻訳日:2022-05-17 17:36:46 公開日:2022-05-16
# VQBB:ベクトル量子化ブラウン橋による画像から画像への変換

VQBB: Image-to-image Translation with Vector Quantized Brownian Bridge ( http://arxiv.org/abs/2205.07680v1 )

ライセンス: Link先を確認
Bo Li, Kaitao Xue, Bin Liu, Yu-Kun Lai(参考訳) 画像から画像への翻訳はコンピュータビジョンにおいて重要かつ困難な問題である。 Pixel2Pixelのような既存のアプローチでは、DualGANはGANの不安定さに悩まされており、タスクを1対1のマッピングとしてモデル化するため、多様な出力を生成することができない。 拡散モデルは高品質で多様な画像を生成することができるが、現在の条件拡散モデルは、逆処理で付加されるガウス雑音による画像間翻訳タスクの条件画像と高い類似性を維持することはできない。 この問題に対処するために,新しいベクトル量子化ブラウン橋(vqbb)拡散モデルが提案されている。 一方、ブラウン橋拡散過程は既存のマルコフ拡散法よりも正確で柔軟な2つの領域間の変換をモデル化することができる。 著者らが知る限り、画像から画像への変換のために提案されたブラウン橋の拡散過程の最初の作品である。 一方,提案手法は,量子化潜在空間における拡散過程を収束させることにより,学習効率と翻訳精度を向上させる。 最後に,提案手法の性能を数値実験により検証した。

Image-to-image translation is an important and challenging problem in computer vision. Existing approaches like Pixel2Pixel, DualGAN suffer from the instability of GAN and fail to generate diverse outputs because they model the task as a one-to-one mapping. Although diffusion models can generate images with high quality and diversity, current conditional diffusion models still can not maintain high similarity with the condition image on image-to-image translation tasks due to the Gaussian noise added in the reverse process. To address these issues, a novel Vector Quantized Brownian Bridge(VQBB) diffusion model is proposed in this paper. On one hand, Brownian Bridge diffusion process can model the transformation between two domains more accurate and flexible than the existing Markov diffusion methods. As far as the authors know, it is the first work for Brownian Bridge diffusion process proposed for image-to-image translation. On the other hand, the proposed method improved the learning efficiency and translation accuracy by confining the diffusion process in the quantized latent space. Finally, numerical experimental results validated the performance of the proposed method.
翻訳日:2022-05-17 17:34:25 公開日:2022-05-16
# 責任あるAIに倫理的価値を優先するグループ

How Different Groups Prioritize Ethical Values for Responsible AI ( http://arxiv.org/abs/2205.07722v1 )

ライセンス: Link先を確認
Maurice Jakesch, Zana Bu\c{c}inca, Saleema Amershi, Alexandra Olteanu(参考訳) 民間企業、公共機関、学術団体は、人工知能技術に責任があると考える倫理的価値を概説している。 彼らの推奨は一連の中央値に収束するが、より代表的な人々が相互作用するai技術にとって重要であり、影響を受ける可能性のある価値についてはほとんど知られていない。 本研究では,米国住民の代表的サンプル(n=743),群集労働者のサンプル(n=755),およびai実践者のサンプル(n=175)の3つのグループに対して,責任あるai値の認識と優先順位付けを行った。 我々の結果は共通の懸念を実証的に裏付けている。AI実践者の価値観の優先順位は一般大衆と異なる。 米国代表のサンプルと比較すると、AI実践者は責任あるAIの価値を重要視せず、異なる価値のセットを強調しているように見える。 対照的に、自己同一性のある女性と黒人の回答者は、責任あるaiの価値が他のグループよりも重要であると考えた。 意外なことに、差別の経験を報告する参加者よりもリベラルな参加者の方が、他のグループよりも公平を優先する傾向があった。 私たちの発見は、誰が責任あるAIを定義するかに注意を払うことの重要性を強調します。

Private companies, public sector organizations, and academic groups have outlined ethical values they consider important for responsible artificial intelligence technologies. While their recommendations converge on a set of central values, little is known about the values a more representative public would find important for the AI technologies they interact with and might be affected by. We conducted a survey examining how individuals perceive and prioritize responsible AI values across three groups: a representative sample of the US population (N=743), a sample of crowdworkers (N=755), and a sample of AI practitioners (N=175). Our results empirically confirm a common concern: AI practitioners' value priorities differ from those of the general public. Compared to the US-representative sample, AI practitioners appear to consider responsible AI values as less important and emphasize a different set of values. In contrast, self-identified women and black respondents found responsible AI values more important than other groups. Surprisingly, more liberal-leaning participants, rather than participants reporting experiences with discrimination, were more likely to prioritize fairness than other groups. Our findings highlight the importance of paying attention to who gets to define responsible AI.
翻訳日:2022-05-17 17:34:09 公開日:2022-05-16
# (参考訳) 動きを予想する: 教師なしのビデオと画像のセグメンテーション

Guess What Moves: Unsupervised Video and Image Segmentation by Anticipating Motion ( http://arxiv.org/abs/2205.07844v1 )

ライセンス: CC BY 4.0
Subhabrata Choudhury, Laurynas Karazija, Iro Laina, Andrea Vedaldi, Christian Rupprecht(参考訳) オプティカルフローで測定されたモーションは、画像やビデオで物体を発見し、学習するための強力な手がかりを提供する。 しかし、外見に比較すると、物体が動かなければ見えないというような盲点がいくつかある。 本研究では,モーションベースと外観ベースセグメンテーションの強みを組み合わせたアプローチを提案する。 画像セグメンテーションネットワークを監督し,単純な動きパターンを含む可能性が高く,オブジェクトに対応する可能性のある領域を予測することを提案する。 このネットワークを2つのモードで適用する。 教師なしのビデオセグメンテーションモードでは、ネットワークはラベルなしのビデオのコレクションで訓練され、学習プロセス自体がこれらのビデオのセグメンテーションのアルゴリズムとして使用される。 教師なし画像分割モデルでは、ビデオを用いてネットワークを学習し、独立した静止画像のセグメント化に適用する。 これにより、教師なしのビデオや画像のセグメンテーションにおいて、強力な実験結果が得られ、DAVISなどのベンチマークでは、時には5\%のIoUギャップで、その性能を著しく上回っている。

Motion, measured via optical flow, provides a powerful cue to discover and learn objects in images and videos. However, compared to using appearance, it has some blind spots, such as the fact that objects become invisible if they do not move. In this work, we propose an approach that combines the strengths of motion-based and appearance-based segmentation. We propose to supervise an image segmentation network, tasking it with predicting regions that are likely to contain simple motion patterns, and thus likely to correspond to objects. We apply this network in two modes. In the unsupervised video segmentation mode, the network is trained on a collection of unlabelled videos, using the learning process itself as an algorithm to segment these videos. In the unsupervised image segmentation model, the network is learned using videos and applied to segment independent still images. With this, we obtain strong empirical results in unsupervised video and image segmentation, significantly outperforming the state of the art on benchmarks such as DAVIS, sometimes with a $5\%$ IoU gap.
翻訳日:2022-05-17 17:27:42 公開日:2022-05-16
# (参考訳) 計算理論と実験におけるエッジプラズマ乱流モデリングのための物理インフォーム機械学習技術

Physics-informed machine learning techniques for edge plasma turbulence modelling in computational theory and experiment ( http://arxiv.org/abs/2205.07838v1 )

ライセンス: CC BY 4.0
Abhilash Mathews(参考訳) エッジプラズマ乱流は磁気閉じ込め核融合装置の性能に不可欠である。 理論と実験の両面でのエッジ乱流をよりよく理解するために、偏微分方程式に制約された物理インフォームドディープラーニングフレームワークを開発し、電子圧の部分的な観測から2流体理論と整合した乱流場を正確に学習する。 この計算は従来の平衡モデルでは不可能である。 この手法により、静電二流体理論と電磁ジロキネティックモデリングの乱流場の第1直接的定量的比較を、磁化ヘリカルプラズマの低正規化圧力下での総合的な一致で行った。 これらの計算手法を実験核融合プラズマに変換するために,HeI線放射の輝度測定を局所プラズマ変動に変換する新しい手法が,中性輸送物理と原子ヘリウムの3^3D - 2^3P$遷移に対する衝突放射理論を統合した新しいディープラーニングフレームワークを用いて実証された。 この論文では、Alcator C-Modトカマクの高速カメラデータを用いて、単一スペクトル線を用いた核融合プラズマにおける乱流電子密度、電子温度、中性密度の2次元時間依存性の実験的な測定を行った。 この実験データを用いて, 純粋なトロイダル場を持つ軸対称核融合プラズマの枠組みの下で, ドリフト還元ブラジンスキー理論と整合した2次元乱流電場の初期推定を計算した。 粒子およびエネルギー源への原子ヘリウム効果の包含は、電場と電子圧の相関を強化するとともに、${\bf E \times B}$フローとせん断速度に影響を及ぼす乱流場振幅を拡大する。

Edge plasma turbulence is critical to the performance of magnetic confinement fusion devices. Towards better understanding edge turbulence in both theory and experiment, a custom-built physics-informed deep learning framework constrained by partial differential equations is developed to accurately learn turbulent fields consistent with the two-fluid theory from partial observations of electron pressure. This calculation is not otherwise possible using conventional equilibrium models. With this technique, the first direct quantitative comparisons of turbulent fields between electrostatic two-fluid theory and electromagnetic gyrokinetic modelling are demonstrated with good overall agreement found in magnetized helical plasmas at low normalized pressure. To translate these computational techniques to experimental fusion plasmas, a novel method to translate brightness measurements of HeI line radiation into local plasma fluctuations is demonstrated via a newly created deep learning framework that integrates neutral transport physics and collisional radiative theory for the $3^3 D - 2^3 P$ transition in atomic helium. Using fast camera data on the Alcator C-Mod tokamak, this thesis presents the first 2-dimensional time-dependent experimental measurements of the turbulent electron density, electron temperature, and neutral density in a fusion plasma using a single spectral line. With this experimentally inferred data, initial estimates of the 2-dimensional turbulent electric field consistent with drift-reduced Braginskii theory under the framework of an axisymmetric fusion plasma with purely toroidal field are calculated. The inclusion of atomic helium effects on particle and energy sources are found to strengthen correlations between the electric field and electron pressure while broadening turbulent field amplitudes which impact ${\bf E \times B}$ flows and shearing rates.
翻訳日:2022-05-17 16:58:39 公開日:2022-05-16
# 高速ポイントクラウド登録のための対応グラフの信頼性に基づく新しい外れ値除去戦略

A New Outlier Removal Strategy Based on Reliability of Correspondence Graph for Fast Point Cloud Registration ( http://arxiv.org/abs/2205.07404v1 )

ライセンス: Link先を確認
Li Yan, Pengcheng Wei, Hong Xie, Jicheng Dai, Hao Wu, Ming Huang(参考訳) 登録は、ポイントクラウド処理において基本的なが重要なタスクである。 対応性に基づく点雲登録では、点特徴法による対応が極めて高い外れ値比をもたらす可能性がある。 現在の手法は、低い効率、正確性、リコールレートに苦しんでいる。 本稿では, 点雲登録における6自由度補正プロセスを記述するために, シンプルで直感的な手法を用い, 対応グラフの信頼性に基づく外乱除去戦略を提案する。 この方法は、与えられた対応に従って対応するグラフを構築し、最適な候補選択のためのグラフノードの信頼性度とグラフエッジの信頼性度の概念を設計し、グローバルな最大コンセンサスセットを得る。 提案手法は, 段階的整合パラメータ推定とともに, 高速かつ高精度な外乱除去を実現することができる。 シミュレーションや実世界のデータセットに挑戦する大規模な実験により,対応外乱比が99%を超えても,提案手法は有効点雲登録が可能であり,その効率は最先端よりも優れていることが示された。 コードはhttps://github.com/WPC-WHU/GRORで公開されている。

Registration is a basic yet crucial task in point cloud processing. In correspondence-based point cloud registration, matching correspondences by point feature techniques may lead to an extremely high outlier ratio. Current methods still suffer from low efficiency, accuracy, and recall rate. We use a simple and intuitive method to describe the 6-DOF (degree of freedom) curtailment process in point cloud registration and propose an outlier removal strategy based on the reliability of the correspondence graph. The method constructs the corresponding graph according to the given correspondences and designs the concept of the reliability degree of the graph node for optimal candidate selection and the reliability degree of the graph edge to obtain the global maximum consensus set. The presented method could achieve fast and accurate outliers removal along with gradual aligning parameters estimation. Extensive experiments on simulations and challenging real-world datasets demonstrate that the proposed method can still perform effective point cloud registration even the correspondence outlier ratio is over 99%, and the efficiency is better than the state-of-the-art. Code is available at https://github.com/WPC-WHU/GROR.
翻訳日:2022-05-17 16:58:11 公開日:2022-05-16
# 3Dポイントクラウドのトランスフォーマー:サーベイ

Transformers in 3D Point Clouds: A Survey ( http://arxiv.org/abs/2205.07417v1 )

ライセンス: Link先を確認
Dening Lu, Qian Xie, Mingqiang Wei, Linlin Xu, Jonathan Li(参考訳) 近年、トランスフォーマーモデルは長距離依存性モデリングの顕著な能力を持つことが証明されている。 彼らは自然言語処理(NLP)と画像処理の両方で満足な結果を得た。 この大きな成果は、様々な3Dタスクに適用するために、3Dポイントクラウド処理の研究者の間で大きな関心を呼んだ。 固有な置換不変性と強力なグローバルな特徴学習能力のため、3Dトランスフォーマーはポイントクラウド処理と解析に適している。 最先端の非トランスフォーマーアルゴリズムと比較して、競争力やパフォーマンスが向上している。 この調査は、様々なタスク(ポイントクラウドの分類、セグメンテーション、オブジェクト検出など)用に設計された3dトランスフォーマーの包括的な概要を提供することを目的としている。 まず、一般的なTransformerの基本コンポーネントを導入し、その2Dおよび3Dフィールドでの応用を簡潔に説明する。 次に,3種類の分類法(トランスフォーマティブ・インプリメンテーションに基づく分類法,データ表現に基づく分類法,タスクに基づく分類法)を提案し,複数の視点から関連する手法を分析する。 さらに,性能向上のために設計された3次元自己保持機構の変種についても検討する。 3Dトランスフォーマーの優位性を示すために,ポイントクラウド分類,セグメンテーション,オブジェクト検出の観点から,トランスフォーマーベースのアルゴリズムの性能を比較した。 最後に,3次元変換器の開発にメリットを期待しながら,将来的な3つの研究方向を指摘する。

In recent years, Transformer models have been proven to have the remarkable ability of long-range dependencies modeling. They have achieved satisfactory results both in Natural Language Processing (NLP) and image processing. This significant achievement sparks great interest among researchers in 3D point cloud processing to apply them to various 3D tasks. Due to the inherent permutation invariance and strong global feature learning ability, 3D Transformers are well suited for point cloud processing and analysis. They have achieved competitive or even better performance compared to the state-of-the-art non-Transformer algorithms. This survey aims to provide a comprehensive overview of 3D Transformers designed for various tasks (e.g. point cloud classification, segmentation, object detection, and so on). We start by introducing the fundamental components of the general Transformer and providing a brief description of its application in 2D and 3D fields. Then, we present three different taxonomies (i.e., Transformer implementation-based taxonomy, data representation-based taxonomy, and task-based taxonomy) for method classification, which allows us to analyze involved methods from multiple perspectives. Furthermore, we also conduct an investigation of 3D self-attention mechanism variants designed for performance improvement. To demonstrate the superiority of 3D Transformers, we compare the performance of Transformer-based algorithms in terms of point cloud classification, segmentation, and object detection. Finally, we point out three potential future research directions, expecting to provide some benefit references for the development of 3D Transformers.
翻訳日:2022-05-17 16:57:51 公開日:2022-05-16
# 残差フィルタを用いた画像誤り隠蔽のための周波数選択補間

Frequency selective extrapolation with residual filtering for image error concealment ( http://arxiv.org/abs/2205.07476v1 )

ライセンス: Link先を確認
J\'an Koloda, J\"urgen Seiler, Andr\'e Kaup, Victoria S\'anchez, Antonio M. Peinado(参考訳) 信号外挿の目的は、未知の信号部品を既知のサンプルから推定することである。 このタスクは、画像およびビデオ通信におけるエラーの隠蔽に特に重要である。 高品質な再構成を得るためには, 基礎となる信号について仮定し, この不確定な問題を解決する必要がある。 既存の再構成アルゴリズムのうち、周波数選択補間(fse)は、画像信号が周波数領域でスパースに表現できると仮定して高い性能を達成する。 しかし、FSEは自然画像の低パス動作を考慮していない。 本稿では,この事前知識をモデリングを考慮した修正FSEを提案し,PSNRの有意な利得を得た。

The purpose of signal extrapolation is to estimate unknown signal parts from known samples. This task is especially important for error concealment in image and video communication. For obtaining a high quality reconstruction, assumptions have to be made about the underlying signal in order to solve this underdetermined problem. Among existent reconstruction algorithms, frequency selective extrapolation (FSE) achieves high performance by assuming that image signals can be sparsely represented in the frequency domain. However, FSE does not take into account the low-pass behaviour of natural images. In this paper, we propose a modified FSE that takes this prior knowledge into account for the modelling, yielding significant PSNR gains.
翻訳日:2022-05-17 16:57:25 公開日:2022-05-16
# 超解像能率のための残留局所特徴ネットワーク

Residual Local Feature Network for Efficient Super-Resolution ( http://arxiv.org/abs/2205.07514v1 )

ライセンス: Link先を確認
Fangyuan Kong, Mingxi Li, Songwei Liu, Ding Liu, Jingwen He, Yang Bai, Fangmin Chen, Lean Fu(参考訳) ディープラーニングに基づくアプローチは、シングルイメージ超解像(SISR)において大きなパフォーマンスを実現している。 しかし,近年の高解像度化ではパラメータやFLOPの削減に焦点が当てられ,複雑な層接続戦略による機能利用の改善により,より強力な特徴を集約している。 これらの構造は、より高速な実行を実現するために必要とされないため、リソース制約のあるデバイスにデプロイすることは困難である。 本研究では,Residual Local Feature Network (RLFN)を提案する。 主なアイデアは、3つの畳み込みレイヤを局所的な特徴学習に使い、特徴集約を単純化し、モデルの性能と推論時間の間に良いトレードオフをもたらす。 さらに,一般的なコントラスト損失を再検討し,特徴抽出器の中間的特徴の選択が性能に多大な影響を与えていることを確認する。 さらに,新しい多段階ウォームスタートトレーニング戦略を提案する。 各段において、前段からの事前訓練重量を利用してモデル性能を向上させる。 改良されたコントラスト損失とトレーニング戦略と組み合わせて、提案したRLFNは、PSNRとSSIMの両方をSR用に維持しつつ、実行時にすべての最先端の効率的な画像SRモデルより優れている。 さらに、ntire 2022の効率的なスーパーレゾリューションチャレンジのランタイムトラックで1位を獲得しました。 コードはhttps://github.com/fyan111/rlfnで入手できる。

Deep learning based approaches has achieved great performance in single image super-resolution (SISR). However, recent advances in efficient super-resolution focus on reducing the number of parameters and FLOPs, and they aggregate more powerful features by improving feature utilization through complex layer connection strategies. These structures may not be necessary to achieve higher running speed, which makes them difficult to be deployed to resource-constrained devices. In this work, we propose a novel Residual Local Feature Network (RLFN). The main idea is using three convolutional layers for residual local feature learning to simplify feature aggregation, which achieves a good trade-off between model performance and inference time. Moreover, we revisit the popular contrastive loss and observe that the selection of intermediate features of its feature extractor has great influence on the performance. Besides, we propose a novel multi-stage warm-start training strategy. In each stage, the pre-trained weights from previous stages are utilized to improve the model performance. Combined with the improved contrastive loss and training strategy, the proposed RLFN outperforms all the state-of-the-art efficient image SR models in terms of runtime while maintaining both PSNR and SSIM for SR. In addition, we won the first place in the runtime track of the NTIRE 2022 efficient super-resolution challenge. Code will be available at https://github.com/fyan111/RLFN.
翻訳日:2022-05-17 16:57:15 公開日:2022-05-16
# RSNA脳内出血検出競争に対するトランスフォーマーを用いた有効解法

An Effective Transformer-based Solution for RSNA Intracranial Hemorrhage Detection Competition ( http://arxiv.org/abs/2205.07556v1 )

ライセンス: Link先を確認
Fangxin Shang, Siqi Wang, Yehui Yang(参考訳) 本研究では, RSNA-IHDコンペティション(2019)において, 勝者ソリューションの性能を超える脳内出血検出(IHD)を効果的に行う方法を提案する。 一方、私たちのモデルは、勝者のソリューションと比較して、クォーターパラメータと10%フロップしか取らない。 IHDタスクは、入力された脳CTのスライス毎の出血カテゴリを予測する必要がある。 北米放射線学会(RSNA)が2019年に開催したIHDコンペティションのトップ5ソリューションについてレビューする。 ほとんど全てのトップソリューションは、2次元畳み込みネットワークとシーケンシャルモデル(双方向GRUまたはLSTM)に依存し、それぞれスライス内およびスライス間の特徴を抽出する。 上位のソリューションはすべてモデルアンサンブルを活用することでパフォーマンスを高め、モデル番号は7から31に変化する。 近年,コンピュータビジョンシステム,特にトランスフォーマティブモデルにおいて,多くの進歩が見られたため,ihdタスクのスライス内およびスライス間ビューにおける特徴を抽出するトランスフォーマティブ・ベースの手法を導入する。 さらに、半教師付きメソッドをワークフローに組み込んで、パフォーマンスをさらに改善します。 コードは、https://aistudio.baidu.com/aistudio/projectdetail/3995861で入手できる。

We present an effective method for Intracranial Hemorrhage Detection (IHD) which exceeds the performance of the winner solution in RSNA-IHD competition (2019). Meanwhile, our model only takes quarter parameters and ten percent FLOPs compared to the winner's solution. The IHD task needs to predict the hemorrhage category of each slice for the input brain CT. We review the top-5 solutions for the IHD competition held by the Radiological Society of North America(RSNA) in 2019. Nearly all the top solutions rely on 2D convolutional networks and sequential models (Bidirectional GRU or LSTM) to extract intra-slice and inter-slice features, respectively. All the top solutions enhance the performance by leveraging the model ensemble, and the model number varies from 7 to 31. In the past years, since much progress has been made in the computer vision regime especially Transformer-based models, we introduce the Transformer-based techniques to extract the features in both intra-slice and inter-slice views for IHD tasks. Additionally, a semi-supervised method is embedded into our workflow to further improve the performance. The code is available athttps://aistudio.baidu.com/aistudio/projectdetail/3995861.
翻訳日:2022-05-17 16:56:55 公開日:2022-05-16
# CONSENT: 単語分類のための文脈感性変換器

CONSENT: Context Sensitive Transformer for Bold Words Classification ( http://arxiv.org/abs/2205.07683v1 )

ライセンス: Link先を確認
Ionut-Catalin Sandu and Daniel Voinea and Alin-Ionut Popa(参考訳) これは、完全に訓練可能なエンドツーエンドのディープラーニングパイプライン内でコンテキスト依存オブジェクトを分類するための、シンプルで効果的なコンテキストに敏感なトランスフォーマーフレームワークです。 本稿では,大胆な単語検出の課題について,提案手法を実証する。 未知のフォントタイプ(例えば、arial, calibri, helvetica)のテキストを含む画像が与えられたとき、未知言語は、様々な照明、角度歪み、スケールの変動の度合いで取られ、すべての単語を抽出し、エンドツーエンドのトランスフォーマーベースのニューラルネットワークアンサンブルを使用して文脈依存のバイナリ分類(太字と非太字)を学ぶ。 この枠組みの拡張性を証明するために,手形を描いた2ドルの絵を描いたシーケンスで得られた勝者を決定するようにモデルを訓練することにより,ロックペーパー・シッシャのゲームにおける最先端技術に対する競争結果を示す。

We present CONSENT, a simple yet effective CONtext SENsitive Transformer framework for context-dependent object classification within a fully-trainable end-to-end deep learning pipeline. We exemplify the proposed framework on the task of bold words detection proving state-of-the-art results. Given an image containing text of unknown font-types (e.g. Arial, Calibri, Helvetica), unknown language, taken under various degrees of illumination, angle distortion and scale variation, we extract all the words and learn a context-dependent binary classification (i.e. bold versus non-bold) using an end-to-end transformer-based neural network ensemble. To prove the extensibility of our framework, we demonstrate competitive results against state-of-the-art for the game of rock-paper-scissors by training the model to determine the winner given a sequence with $2$ pictures depicting hand poses.
翻訳日:2022-05-17 16:56:32 公開日:2022-05-16
# FvOR:多視点オブジェクト再構成のためのロバストな関節形状とポース最適化

FvOR: Robust Joint Shape and Pose Optimization for Few-view Object Reconstruction ( http://arxiv.org/abs/2205.07763v1 )

ライセンス: Link先を確認
Zhenpei Yang, Zhile Ren, Miguel Angel Bautista, Zaiwei Zhang, Qi Shan, Qixing Huang(参考訳) 数枚の画像から正確な3Dオブジェクトモデルを再構築することは、コンピュータビジョンにおいて難しい問題である。 最先端のアプローチは通常、正確なカメラのポーズを入力として想定するが、現実的な環境では入手が難しい。 本稿では,ノイズの多い入力ポーズを持つ数枚の画像から正確な3次元モデルを予測する学習型オブジェクト再構成手法FvORを提案する。 このアプローチの中核は,学習可能なニューラルネットワークモジュールを用いた3次元形状とカメラポーズ推定を共同で洗練する,高速でロバストなマルチビュー再構成アルゴリズムである。 この問題に対する最先端のアプローチをShapeNet上で徹底的にベンチマークする。 我々のアプローチはクラスで最高の結果を得る。 また、最近の最適化ベースのアプローチ IDR よりも2桁高速である。 我々のコードは \url{https://github.com/zhenpeiyang/FvOR/} でリリースされる。

Reconstructing an accurate 3D object model from a few image observations remains a challenging problem in computer vision. State-of-the-art approaches typically assume accurate camera poses as input, which could be difficult to obtain in realistic settings. In this paper, we present FvOR, a learning-based object reconstruction method that predicts accurate 3D models given a few images with noisy input poses. The core of our approach is a fast and robust multi-view reconstruction algorithm to jointly refine 3D geometry and camera pose estimation using learnable neural network modules. We provide a thorough benchmark of state-of-the-art approaches for this problem on ShapeNet. Our approach achieves best-in-class results. It is also two orders of magnitude faster than the recent optimization-based approach IDR. Our code is released at \url{https://github.com/zhenpeiyang/FvOR/}
翻訳日:2022-05-17 16:56:13 公開日:2022-05-16
# タグとccgの強い等価性

Strong Equivalence of TAG and CCG ( http://arxiv.org/abs/2205.07743v1 )

ライセンス: Link先を確認
Andreas Maletti and Lena Katharina Schiffer (Universit\"at Leipzig)(参考訳) 木結合文法(英: Tree-adjoining grammar、TAG)と結合圏文法(英: combinatory categorial grammar、CCG、英: combinatory categorial grammar、CCG、英: combinatory categorial grammar、略称:CCG)は、文字列上で同じ表現力を持つことが知られている2つのよく確立された文脈依存文法形式である。 木への表現力も本質的に一致することが示されている。 実際、空の弦に対するレキシコン成分のない CCG と、次数 2 の次数 1 次規則は、その完全な表現力に十分である。

Tree-adjoining grammar (TAG) and combinatory categorial grammar (CCG) are two well-established mildly context-sensitive grammar formalisms that are known to have the same expressive power on strings (i.e., generate the same class of string languages). It is demonstrated that their expressive power on trees also essentially coincides. In fact, CCG without lexicon entries for the empty string and only first-order rules of degree at most 2 are sufficient for its full expressive power.
翻訳日:2022-05-17 16:54:10 公開日:2022-05-16
# 証明アシスタントにおける自然言語仕様

Natural Language Specifications in Proof Assistants ( http://arxiv.org/abs/2205.07811v1 )

ライセンス: Link先を確認
Colin S. Gordon, Sergey Matskevich(参考訳) 対話型証明アシスタントは、人間によって設計された数学的クレームの証明を、実装に高い信頼性で確認するために、慎重に構築されたコンピュータプログラムである。 しかし、これは、自然言語でなされた主張から誤訳されたかもしれない形式的主張の真理のみを証明している。 証明アシスタントを使用して自然言語仕様に関してソフトウェアの正当性を正式に検証する場合、これは特に問題となる。 形式的から形式的への翻訳は、正確さの監査が難しい困難で時間を要するプロセスであり続けている。 本稿は,証明アシスタント自体の信頼性と監査性を確立するために用いられる原則を補完する形で,既存の証明アシスタント内で自然言語仕様をサポートすることができる,と論じる。

Interactive proof assistants are computer programs carefully constructed to check a human-designed proof of a mathematical claim with high confidence in the implementation. However, this only validates truth of a formal claim, which may have been mistranslated from a claim made in natural language. This is especially problematic when using proof assistants to formally verify the correctness of software with respect to a natural language specification. The translation from informal to formal remains a challenging, time-consuming process that is difficult to audit for correctness. This paper argues that it is possible to build support for natural language specifications within existing proof assistants, in a way that complements the principles used to establish trust and auditability in proof assistants themselves.
翻訳日:2022-05-17 16:53:56 公開日:2022-05-16
# 確率時系列予測のためのマルチスケール注意フロー

Multi-scale Attention Flow for Probabilistic Time Series Forecasting ( http://arxiv.org/abs/2205.07493v1 )

ライセンス: Link先を確認
Shibo Feng and Ke Xu and Jiaxiang Wu and Pengcheng Wu and Fan Lin and Peilin Zhao(参考訳) 多変量時系列の確率予測は、非常に難しいが実用的な課題である。 一方, 相互作用する時系列間の相互相関を効果的に捉え, 正確な分布モデリングを実現することが課題である。 一方、時系列の多変量時間ダイナミクスをモデル化するために、時系列内の文脈情報をより正確にキャプチャする方法を検討する必要がある。 本研究では,マルチスケールアテンション正規化フロー(MANF)と呼ばれる新しい非自己回帰型ディープラーニングモデルを提案し,マルチスケールアテンションと相対位置情報を統合し,多変量データ分布を条件付き正規化フローで表現する。 さらに,自己回帰モデリング手法と比較して,累積誤差の影響を回避し,時間の複雑さを増すことはない。 大規模な実験により,多くの多変量データセットの最先端性能が得られた。

The probability prediction of multivariate time series is a notoriously challenging but practical task. On the one hand, the challenge is how to effectively capture the cross-series correlations between interacting time series, to achieve accurate distribution modeling. On the other hand, we should consider how to capture the contextual information within time series more accurately to model multivariate temporal dynamics of time series. In this work, we proposed a novel non-autoregressive deep learning model, called Multi-scale Attention Normalizing Flow(MANF), where we integrate multi-scale attention and relative position information and the multivariate data distribution is represented by the conditioned normalizing flow. Additionally, compared with autoregressive modeling methods, our model avoids the influence of cumulative error and does not increase the time complexity. Extensive experiments demonstrate that our model achieves state-of-the-art performance on many popular multivariate datasets.
翻訳日:2022-05-17 16:49:12 公開日:2022-05-16
# ジョブショップスケジューリングのための問題分解とマルチショットASP解決

Problem Decomposition and Multi-shot ASP Solving for Job-shop Scheduling ( http://arxiv.org/abs/2205.07537v1 )

ライセンス: Link先を確認
Mohammed M. S. El-Kholany, Martin Gebser and Konstantin Schekotihin(参考訳) ジョブショップスケジューリング問題(jsp:job-shop scheduling problem)は、マシンを共有するタスクをできるだけ早く処理できるような順序に配置する、よく知られた挑戦的な組合せ最適化問題である。 本稿では,マルチショット応答集合プログラミング (asp) による処理の逐次スケジュールと最適化が可能な時間窓への問題分解を提案する。 分解の目的は、高度に複雑なスケジューリングタスクを、バランスのとれた操作数で管理可能なサブプロブレムに分割することで、優れた品質や最適な部分的なソリューションを、少数のランタイムで確実に見つけることにある。 問題分解は、ジョブ内のオペレーションの優先順位を尊重する必要があり、時間によって最適化された部分スケジュールは、インスタンス全体の同様のランタイムで得られるよりも優れたグローバルソリューションをもたらすべきである。 時間ウィンドウの数とサイズ、およびそれらの操作を選択するためのヒューリスティックの観点から、様々な分解戦略を考案し、検討する。 さらに,時間窓重なりと圧縮を反復スケジューリングプロセスに組み込むことにより,部分スケジュールに制限されたウィンドウ毎の最適化制限を克服する。 複数のサイズのJSPベンチマークセットに対する実験により、マルチショットASPによる逐次最適化により、全問題におけるグローバルな最適化よりも実行時限界内でのスケジュールが大幅に改善されることが示された。 得られたソリューションの品質は、まだ最先端の制約プログラミングシステムの背後にあるが、我々のマルチショット解決アプローチは、より大きなインスタンスサイズに近づき、問題分解による優れたスケーラビリティを示す。

The Job-shop Scheduling Problem (JSP) is a well-known and challenging combinatorial optimization problem in which tasks sharing a machine are to be arranged in a sequence such that encompassing jobs can be completed as early as possible. In this paper, we propose problem decomposition into time windows whose operations can be successively scheduled and optimized by means of multi-shot Answer Set Programming (ASP) solving. Decomposition aims to split highly complex scheduling tasks into better manageable sub-problems with a balanced number of operations so that good quality or even optimal partial solutions can be reliably found in a small fraction of runtime. Problem decomposition must respect the precedence of operations within their jobs and partial schedules optimized by time windows should yield better global solutions than obtainable in similar runtime on the entire instance. We devise and investigate a variety of decomposition strategies in terms of the number and size of time windows as well as heuristics for choosing their operations. Moreover, we incorporate time window overlapping and compression techniques into the iterative scheduling process to counteract window-wise optimization limitations restricted to partial schedules. Our experiments on JSP benchmark sets of several sizes show that successive optimization by multi-shot ASP solving leads to substantially better schedules within the runtime limit than global optimization on the full problem, where the gap increases with the number of operations to schedule. While the obtained solution quality still remains behind a state-of-the-art Constraint Programming system, our multi-shot solving approach comes closer the larger the instance size, demonstrating good scalability by problem decomposition.
翻訳日:2022-05-17 16:46:18 公開日:2022-05-16
# ecpc:高次元予測のための汎用コデータモデルのためのRパッケージ

ecpc: An R-package for generic co-data models for high-dimensional prediction ( http://arxiv.org/abs/2205.07640v1 )

ライセンス: Link先を確認
Mirrelijn M. van Nee, Lodewyk F.A. Wessels and Mark A. van de Wiel(参考訳) 高次元予測はサンプルよりも多くの変数を持つデータを考える。 一般的な研究目標は、最良の予測器を見つけるか、変数を選択することである。 先行情報をコデータ形式で活用し、サンプルではなく変数に補完的なデータを提供することで、結果を改善することができる。 我々は,適応リッジペナルティを一般化した線形およびcoxモデルについて検討し,変数固有のリッジペナルティをコデータに適用することにより,より重要な変数に対してより重み付けを行う。 R-package ecpcはもともと、分類的コデータ、すなわち変数のグループ、連続コデータを含む、様々な、おそらくは複数のコデータソースを収容していた。 しかし、連続的なコデータは適応的離散化によって処理され、潜在的に非効率なモデリングと情報の喪失が引き起こされた。 本稿では、一般的なコデータモデル、特に連続コデータのためのメソッドとソフトウェアの拡張について述べる。 基礎は古典的な線形回帰モデルであり、コデータ上の事前分散重みを回帰する。 コデータ変数は経験的ベイズモーメント推定によって推定される。 古典回帰フレームワークに推定手順を配置した後、一般化された加法および形状制約付きコデータモデルの拡張は簡単である。 さらに,R-package squeezyを用いて,リッジのペナルティを弾性ネットのペナルティに変換する方法を示した。 シミュレーション研究において、まず、拡張から元の方法への連続コデータに対する様々なコデータモデルを比較する。 次に,変数選択性能を他の変数選択法と比較する。 さらに,本論文では,本パッケージの使用例をいくつか紹介する。

High-dimensional prediction considers data with more variables than samples. Generic research goals are to find the best predictor or to select variables. Results may be improved by exploiting prior information in the form of co-data, providing complementary data not on the samples, but on the variables. We consider adaptive ridge penalised generalised linear and Cox models, in which the variable specific ridge penalties are adapted to the co-data to give a priori more weight to more important variables. The R-package ecpc originally accommodated various and possibly multiple co-data sources, including categorical co-data, i.e. groups of variables, and continuous co-data. Continuous co-data, however, was handled by adaptive discretisation, potentially inefficiently modelling and losing information. Here, we present an extension to the method and software for generic co-data models, particularly for continuous co-data. At the basis lies a classical linear regression model, regressing prior variance weights on the co-data. Co-data variables are then estimated with empirical Bayes moment estimation. After placing the estimation procedure in the classical regression framework, extension to generalised additive and shape constrained co-data models is straightforward. Besides, we show how ridge penalties may be transformed to elastic net penalties with the R-package squeezy. In simulation studies we first compare various co-data models for continuous co-data from the extension to the original method. Secondly, we compare variable selection performance to other variable selection methods. Moreover, we demonstrate use of the package in several examples throughout the paper.
翻訳日:2022-05-17 16:45:49 公開日:2022-05-16
# HARNet: 実現されたボラティリティ予測のための畳み込みニューラルネットワーク

HARNet: A Convolutional Neural Network for Realized Volatility Forecasting ( http://arxiv.org/abs/2205.07719v1 )

ライセンス: Link先を確認
Rafael Reisenhofer, Xandro Bayer, Nikolaus Hautsch(参考訳) 多くのアプリケーション領域におけるディープニューラルネットワークの成功にもかかわらず、ニューラルネットワークモデルは、ボラティリティ予測の文脈で広く採用されていない。 本研究では,HAR(Heterogeneous Autoregressive)モデルや最先端のディープニューラルネットワークモデルといった,確立された時系列アプローチの概念的ギャップを埋めることを目的としている。 新たに導入されたharnetは、拡張された畳み込み層の階層構造に基づいており、モデルパラメータ数におけるモデルの受容野の指数関数的成長を促進する。 HARNetは最適化の前に、HARNetがそれぞれのベースラインHARモデルと同一の予測を行うような明示的な初期化スキームを可能にする。 特に、QLIKEエラーを損失関数として考えると、このアプローチはHARNetの最適化を著しく安定化させる。 我々は,HARNetsのパフォーマンスを3つの異なる市場指標に対して評価する。 この評価に基づいて,HARNetの最適化に関する明確なガイドラインを定式化し,各HARベースラインモデルの予測精度を大幅に向上できることを示す。 HARNetで学習したフィルタ重みの質的分析において,過去の情報の予測力に関する明確なパターンを報告する。 前週、昨日、前日の情報の中でも、昨日のボラティリティは、今日の実現されたボラティリティ予測に最も貢献している。 モロバは前月以内に、過去へさらに進むと、1週間の重要性がほぼ直線的に減少する。

Despite the impressive success of deep neural networks in many application areas, neural network models have so far not been widely adopted in the context of volatility forecasting. In this work, we aim to bridge the conceptual gap between established time series approaches, such as the Heterogeneous Autoregressive (HAR) model, and state-of-the-art deep neural network models. The newly introduced HARNet is based on a hierarchy of dilated convolutional layers, which facilitates an exponential growth of the receptive field of the model in the number of model parameters. HARNets allow for an explicit initialization scheme such that before optimization, a HARNet yields identical predictions as the respective baseline HAR model. Particularly when considering the QLIKE error as a loss function, we find that this approach significantly stabilizes the optimization of HARNets. We evaluate the performance of HARNets with respect to three different stock market indexes. Based on this evaluation, we formulate clear guidelines for the optimization of HARNets and show that HARNets can substantially improve upon the forecasting accuracy of their respective HAR baseline models. In a qualitative analysis of the filter weights learnt by a HARNet, we report clear patterns regarding the predictive power of past information. Among information from the previous week, yesterday and the day before, yesterday's volatility makes by far the most contribution to today's realized volatility forecast. Moroever, within the previous month, the importance of single weeks diminishes almost linearly when moving further into the past.
翻訳日:2022-05-17 16:45:27 公開日:2022-05-16
# 高次元スパースモデルにおけるロバストテスト

Robust Testing in High-Dimensional Sparse Models ( http://arxiv.org/abs/2205.07488v1 )

ライセンス: Link先を確認
Anand Jerry George and Cl\'ement L. Canonne(参考訳) 2つの異なる観測モデルの下で高次元スパース信号ベクトルのノルムを頑健にテストする問題を考える。 最初のモデルでは、分布 $\mathcal{N}\left(\theta,I_d\right)$ (未知の$\theta$) から$n$、すなわち$d.d.サンプルを与えられる。 $\|\theta\|_0\le s$ という約束のもと、ある入力パラメータ $\gamma>0$ に対して $\|\theta\|_2=0$ または $\|\theta\|_2>\gamma$ を正しく区別したい。 このタスクの任意のアルゴリズムには$n=\Omega\left(s\log\frac{ed}{s}\right)$サンプルが必要である。 また、sparsityの他の一般的な概念、すなわち$0 < q < 2$ に対して$\|\theta\|_q\le s$ に結果を拡張します。 2つ目の観測モデルでは、データはスパース線形回帰モデルに従って生成され、共変量はガウスであり、回帰係数(符号)は$s$-スパースであることが知られている。 ここでも、データの$\epsilon$-fractionが任意に破損していると仮定する。 回帰係数のノルムを確実に検定するアルゴリズムには、少なくとも$n=\Omega\left(\min(s\log d,{1}/{\gamma^4})\right)$サンプルが必要である。 この2つの設定におけるテストの複雑さは、ロバスト性制約の下で著しく増加することを示す。 これは、ロバスト平均テストとロバスト共分散テストで行われた最近の観測と一致している。

We consider the problem of robustly testing the norm of a high-dimensional sparse signal vector under two different observation models. In the first model, we are given $n$ i.i.d. samples from the distribution $\mathcal{N}\left(\theta,I_d\right)$ (with unknown $\theta$), of which a small fraction has been arbitrarily corrupted. Under the promise that $\|\theta\|_0\le s$, we want to correctly distinguish whether $\|\theta\|_2=0$ or $\|\theta\|_2>\gamma$, for some input parameter $\gamma>0$. We show that any algorithm for this task requires $n=\Omega\left(s\log\frac{ed}{s}\right)$ samples, which is tight up to logarithmic factors. We also extend our results to other common notions of sparsity, namely, $\|\theta\|_q\le s$ for any $0 < q < 2$. In the second observation model that we consider, the data is generated according to a sparse linear regression model, where the covariates are i.i.d. Gaussian and the regression coefficient (signal) is known to be $s$-sparse. Here too we assume that an $\epsilon$-fraction of the data is arbitrarily corrupted. We show that any algorithm that reliably tests the norm of the regression coefficient requires at least $n=\Omega\left(\min(s\log d,{1}/{\gamma^4})\right)$ samples. Our results show that the complexity of testing in these two settings significantly increases under robustness constraints. This is in line with the recent observations made in robust mean testing and robust covariance testing.
翻訳日:2022-05-17 15:53:19 公開日:2022-05-16
# 線形分類器を用いた自己学習のシャープ漸近

Sharp Asymptotics of Self-training with Linear Classifier ( http://arxiv.org/abs/2205.07739v1 )

ライセンス: Link先を確認
Takashi Takahashi(参考訳) セルフトレーニング(ST)は、半教師付き学習における単純で標準的なアプローチであり、多くの機械学習問題にうまく適用されている。 stの性能は、精細化ステップで使用される教師付き学習方法と、与えられたデータの性質に大きく依存するので、具体的な設定では、簡潔な理論による一般的な性能保証がゆるくなり得る。 しかし、STの性能が各学習シナリオの様々な詳細に依存することを強く予測する理論的手法は限られている。 本研究では、統計物理学の非厳密なレプリカ法を用いて、STにより訓練されたモデルの一般化能力を鋭く特徴づける新しい理論枠組みを開発する。 2成分ガウス混合物からデータを生成する際にリッジ正規化クロスエントロピー損失を最小化する線形モデルのstを考える。 その結果、各反復におけるSTの一般化性能は、決定論的自己整合方程式の集合を満たす有限個の変数によって著しく特徴づけられることを示した。 これらの自己整合方程式を数値的に解くことにより、ラベルバイアスが小さく、適度に多くの繰り返しが使用される場合、STの一般化性能が教師付き学習法に非常に単純な正規化スケジュールでアプローチできることが分かる。

Self-training (ST) is a straightforward and standard approach in semi-supervised learning, successfully applied to many machine learning problems. The performance of ST strongly depends on the supervised learning method used in the refinement step and the nature of the given data; hence, a general performance guarantee from a concise theory may become loose in a concrete setup. However, the theoretical methods that sharply predict how the performance of ST depends on various details for each learning scenario are limited. This study develops a novel theoretical framework for sharply characterizing the generalization abilities of the models trained by ST using the non-rigorous replica method of statistical physics. We consider the ST of the linear model that minimizes the ridge-regularized cross-entropy loss when the data are generated from a two-component Gaussian mixture. Consequently, we show that the generalization performance of ST in each iteration is sharply characterized by a small finite number of variables, which satisfy a set of deterministic self-consistent equations. By numerically solving these self-consistent equations, we find that ST's generalization performance approaches to the supervised learning method with a very simple regularization schedule when the label bias is small and a moderately large number of iterations are used.
翻訳日:2022-05-17 15:52:48 公開日:2022-05-16
# 自然言語処理による手続きの推論:チュートリアル

Reasoning about Procedures with Natural Language Processing: A Tutorial ( http://arxiv.org/abs/2205.07455v1 )

ライセンス: Link先を確認
Li Zhang(参考訳) このチュートリアルでは、主に自然言語処理において、手順の研究を包括的かつ深く見ていく。 手順は、ある目標を達成するための一連のステップである。 自然言語における手順の理解には長い歴史があり、最近の技術進歩によって実現されたブレークスルーがある。 まず、人間のアノテーションやwebリソースからの抽出によって、手順を収集するための確立されたアプローチについて論じる。 そこで我々は,どの手順を推論できるのか,またその表現方法について異なる角度で検討する。 最後に、手続き的知識が現実世界に適用できるシナリオを列挙する。

This tutorial provides a comprehensive and in-depth view of the research on procedures, primarily in Natural Language Processing. A procedure is a sequence of steps intended to achieve some goal. Understanding procedures in natural language has a long history, with recent breakthroughs made possible by advances in technology. First, we discuss established approaches to collect procedures, by human annotation or extraction from web resources. Then, we examine different angles from which procedures can be reasoned about, as well as ways to represent them. Finally, we enumerate scenarios where procedural knowledge can be applied to the real world.
翻訳日:2022-05-17 15:47:06 公開日:2022-05-16
# 非自己回帰機械翻訳のための有向非巡回変圧器

Directed Acyclic Transformer for Non-Autoregressive Machine Translation ( http://arxiv.org/abs/2205.07459v1 )

ライセンス: Link先を確認
Fei Huang, Hao Zhou, Yang Liu, Hang Li, Minlie Huang(参考訳) 非自己回帰変換器(NAT)は、すべてのトークンを並列に生成することでデコード遅延を著しく低減する。 しかし、このような独立した予測は、NATが複数の可能な翻訳を生成するトークン間の依存関係をキャプチャすることを防ぐ。 本稿では,DAGの各経路が特定の翻訳に対応するDAG(Directed Acyclic Transfomer)の隠れ状態を表すDA-Transformerを提案する。 DAG全体は同時に複数の翻訳をキャプチャし、非自己回帰的な高速な予測を容易にする。 WMTベンチマークの生のトレーニングデータから、DA-Transformerは、知識蒸留に頼ることなく自己回帰変換器と競合する結果を得る最初のNATモデルである、平均で約3BLEUのNATよりも大幅に優れていた。

Non-autoregressive Transformers (NATs) significantly reduce the decoding latency by generating all tokens in parallel. However, such independent predictions prevent NATs from capturing the dependencies between the tokens for generating multiple possible translations. In this paper, we propose Directed Acyclic Transfomer (DA-Transformer), which represents the hidden states in a Directed Acyclic Graph (DAG), where each path of the DAG corresponds to a specific translation. The whole DAG simultaneously captures multiple translations and facilitates fast predictions in a non-autoregressive fashion. Experiments on the raw training data of WMT benchmark show that DA-Transformer substantially outperforms previous NATs by about 3 BLEU on average, which is the first NAT model that achieves competitive results with autoregressive Transformers without relying on knowledge distillation.
翻訳日:2022-05-17 15:46:58 公開日:2022-05-16
# 言語モデルの前提は言語のモデルではありません

A Precis of Language Models are not Models of Language ( http://arxiv.org/abs/2205.07634v1 )

ライセンス: Link先を確認
Csaba Veres(参考訳) 自然言語処理は、人工知能の現在の復活における主要な応用分野の1つであり、ニューラルネットワークが先導している。 言語処理に成功しているにもかかわらず、Large Neural Language Modelsは自然言語の包括的モデルとして不適であることを示す。 より広い意味は、AIに関する過度な楽観主義にもかかわらず、現代のニューラルモデルは認識の理解における革命を表現していないということである。

Natural Language Processing is one of the leading application areas in the current resurgence of Artificial Intelligence, spearheaded by Artificial Neural Networks. We show that despite their many successes at performing linguistic tasks, Large Neural Language Models are ill-suited as comprehensive models of natural language. The wider implication is that, in spite of the often overbearing optimism about AI, modern neural models do not represent a revolution in our understanding of cognition.
翻訳日:2022-05-17 15:46:41 公開日:2022-05-16
# CQR-SQL: コンテキスト依存型テキスト-SQLパーサを強化した会話型質問修正

CQR-SQL: Conversational Question Reformulation Enhanced Context-Dependent Text-to-SQL Parsers ( http://arxiv.org/abs/2205.07686v1 )

ライセンス: Link先を確認
Dongling Xiao, Linzheng Chai, Qian-Wen Zhang, Zhao Yan, Zhoujun Li, Yunbo Cao(参考訳) コンテキスト依存のテキスト-to-SQLは、マルチターン質問をデータベース関連のSQLクエリに変換するタスクである。 既存のメソッドは通常、現在のsqlパースのために履歴コンテキストや予測済みのsqlをフルに利用することに集中するが、コリファレンスやellipsis、ユーザフォーカスの変更など、スキーマや会話依存を明確に理解することを無視している。 本稿では,CQR-SQLを提案する。CQR学習を用いて,スキーマを明示的に活用し,文脈依存をSQL解析のために分離する。 具体的には、まずスキーマ拡張再帰的CQR法を提案し、ドメイン関連自己完結型質問を生成する。 次に、CQR-SQLモデルを用いて、スキーマ基底整合タスクとツリー構造SQL解析整合タスクを通じて、マルチターン質問と補助自己完結質問のセマンティクスを同一の潜伏空間にマッピングし、適切なコンテキスト理解によってSQL解析の能力を高める。 執筆時点で、私たちのCQR-SQLは、コンテキスト依存の2つのテキスト-SQLベンチマークSParCとCoSQLで、最先端の結果を新たに達成しています。

Context-dependent text-to-SQL is the task of translating multi-turn questions into database-related SQL queries. Existing methods typically focus on making full use of history context or previously predicted SQL for currently SQL parsing, while neglecting to explicitly comprehend the schema and conversational dependency, such as co-reference, ellipsis and user focus change. In this paper, we propose CQR-SQL, which uses auxiliary Conversational Question Reformulation (CQR) learning to explicitly exploit schema and decouple contextual dependency for SQL parsing. Specifically, we first present a schema enhanced recursive CQR method to produce domain-relevant self-contained questions. Secondly, we train CQR-SQL models to map the semantics of multi-turn questions and auxiliary self-contained questions into the same latent space through schema grounding consistency task and tree-structured SQL parsing consistency task, which enhances the abilities of SQL parsing by adequately contextual understanding. At the time of writing, our CQR-SQL achieves new state-of-the-art results on two context-dependent text-to-SQL benchmarks SParC and CoSQL.
翻訳日:2022-05-17 15:46:34 公開日:2022-05-16
# ペルシャの抽象的意味表現

Persian Abstract Meaning Representation ( http://arxiv.org/abs/2205.07712v1 )

ライセンス: Link先を確認
Reza Takhshid, Razieh Shojaei, Zahra Azin, Mohammad Bahrani(参考訳) 抽象的意味表現(Abstract Meaning Representation, AMR)は、文全体の意味構造を表すアノテーションフレームワークである。 当初から、AMRはインターリングアとして振る舞うことを意図していなかったが、普遍的な意味表現フレームワークを設計するという考え方に進展した。 したがって、言語の違いに基づいて異なる言語のためのAMRアノテーションガイドラインを開発することが重要である。 本稿では,ペルシャの抽象的意味表現(pamr)の注釈仕様について詳述し,ペルシャのamrの最初の金本位制として「小王子」のペルシア語訳を付記した。 さらに,ペルシャ特有の構文構成がamrアノテーションにどのように影響するかを述べる。

Abstract Meaning Representation (AMR) is an annotation framework representing the semantic structure of a sentence as a whole. From the beginning, AMR was not intended to act as an interlingua; however, it has made progress towards the idea of designing a universal meaning representation framework. Accordingly, developing AMR annotation guidelines for different languages, based on language divergences, is of significant importance. In this paper, we elaborate on Persian Abstract Meaning Representation (PAMR) annotation specifications, based on which we annotated the Persian translation of "The Little Prince" as the first gold standard for Persian AMR. Moreover, we describe how some Persian-specific syntactic constructions would result in different AMR annotations.
翻訳日:2022-05-17 15:46:14 公開日:2022-05-16
# (参考訳) 単一量子ビットネイティブ量子ニューラルネットワークのパワーと限界

Power and limitations of single-qubit native quantum neural networks ( http://arxiv.org/abs/2205.07848v1 )

ライセンス: CC BY 4.0
Zhan Yu, Hongshun Yao, Mujin Li, Xin Wang(参考訳) 量子ニューラルネットワーク(QNN)は、機械学習、化学、最適化の応用を確立するための主要な戦略として登場した。 QNNの応用は広く研究されているが、その理論的基礎はいまだに理解されていない。 本稿では、インターリーブ符号化回路ブロックとトレーニング可能な回路ブロックからなる量子ニューラルネットワークをデータ再ロードする際の表現能力に関する理論的枠組みを定式化する。 まず、単一量子ニューラルネットワークは、モデルを部分フーリエ級数にマッピングすることで、任意の単変量関数を近似できることを示す。 従来の研究における存在の理解以外にも、特に量子信号処理への接続を探求することで、トレーニング可能なゲートのパラメータと動作するフーリエ係数の正確な相関関係を確立する。 次に,周波数スペクトルとフーリエ係数の柔軟性を解析し,多変量関数近似に対する単一量子化qnnの限界について考察する。 さらに,単量子ネイティブqnnの表現率と限界を数値実験により実証する。 応用として,実世界の多次元データを分類する能力を示すマルチ量子ビット量子ニューラルネットワークの自然拡張を提案する。 これらの結果により、QNNの理解が向上し、機械学習タスクのための強力なQNNを設計するための有用なガイドラインが提供されると思います。

Quantum neural networks (QNNs) have emerged as a leading strategy to establish applications in machine learning, chemistry, and optimization. While the applications of QNN have been widely investigated, its theoretical foundation remains less understood. In this paper, we formulate a theoretical framework for the expressive ability of data re-uploading quantum neural networks that consist of interleaved encoding circuit blocks and trainable circuit blocks. First, we prove that single-qubit quantum neural networks can approximate any univariate function by mapping the model to a partial Fourier series. Beyond previous works' understanding of existence, we in particular establish the exact correlations between the parameters of the trainable gates and the working Fourier coefficients, by exploring connections to quantum signal processing. Second, we discuss the limitations of single-qubit native QNNs on approximating multivariate functions by analyzing the frequency spectrum and the flexibility of Fourier coefficients. We further demonstrate the expressivity and limitations of single-qubit native QNNs via numerical experiments. As applications, we introduce natural extensions to multi-qubit quantum neural networks, which exhibit the capability of classifying real-world multi-dimensional data. We believe these results would improve our understanding of QNNs and provide a helpful guideline for designing powerful QNNs for machine learning tasks.
翻訳日:2022-05-17 15:40:27 公開日:2022-05-16
# 逆浄化のための拡散モデル

Diffusion Models for Adversarial Purification ( http://arxiv.org/abs/2205.07460v1 )

ライセンス: Link先を確認
Weili Nie, Brandon Guo, Yujia Huang, Chaowei Xiao, Arash Vahdat, Anima Anandkumar(参考訳) 対人浄化とは、生成モデルを用いて対人摂動を除去する防衛方法の分類である。 これらの手法は攻撃の形式や分類モデルに前提を定めておらず、既存の分類器を未発見の脅威から防御することができる。 しかし、現在の成績は敵の訓練方法に遅れている。 本研究は, 対向的浄化に拡散モデルを用いたDiffPureを提案する: 対向的例として, 前方拡散プロセスの後, 少量の雑音で拡散し, 逆生成過程によりクリーンな画像を復元する。 本手法を効率的でスケーラブルな方法で強適応攻撃に対して評価するために,逆生成プロセスのフルグラデーションを計算するための随伴法を提案する。 CIFAR-10, ImageNet, CelebA-HQ, ResNet, WideResNet, ViT の3つの分類器アーキテクチャによる画像データセットの大規模な実験により,我々の手法が最先端の成果を達成し, 現状の対向訓練や対向的浄化方法よりも優れていることを示す。 プロジェクトページ: https://diffpure.github.io。

Adversarial purification refers to a class of defense methods that remove adversarial perturbations using a generative model. These methods do not make assumptions on the form of attack and the classification model, and thus can defend pre-existing classifiers against unseen threats. However, their performance currently falls behind adversarial training methods. In this work, we propose DiffPure that uses diffusion models for adversarial purification: Given an adversarial example, we first diffuse it with a small amount of noise following a forward diffusion process, and then recover the clean image through a reverse generative process. To evaluate our method against strong adaptive attacks in an efficient and scalable way, we propose to use the adjoint method to compute full gradients of the reverse generative process. Extensive experiments on three image datasets including CIFAR-10, ImageNet and CelebA-HQ with three classifier architectures including ResNet, WideResNet and ViT demonstrate that our method achieves the state-of-the-art results, outperforming current adversarial training and adversarial purification methods, often by a large margin. Project page: https://diffpure.github.io.
翻訳日:2022-05-17 15:17:47 公開日:2022-05-16
# バイオメカニカル拘束型脊椎CT/MRIレジストレーション

Weakly-supervised Biomechanically-constrained CT/MRI Registration of the Spine ( http://arxiv.org/abs/2205.07568v1 )

ライセンス: Link先を確認
Bailiang Jian, Mohammad Farid Azampour, Francesca De Benetti, Johannes Oberreuter, Christina Bukas, Alexandra S. Gersing, Sarah C. Foreman, Anna-Sophia Dietrich, Jon Rischewski, Jan S. Kirschke, Nassir Navab, Thomas Wendler(参考訳) CTとMRIは、脊椎疾患の診断と治療計画において最も重要な2つの指標である。 CTは骨構造を分析し、MRIは軟部組織に関する情報を提供する。 したがって、両方の様相の情報を融合することは非常に有益である。 この融合の最初のステップは登録です。 椎体周囲の軟部組織は変形するが、各椎体は厳格に動くことが制限される。 本稿では,各脊椎の剛性と容積を保存し,登録精度を最大化しながら,弱教師付き深層学習フレームワークを提案する。 この目的を達成するために、ネットワークをトレーニングするための解剖学的損失を導入する。 また,CTにおける椎体自動分割はMRIと対比してより正確な結果をもたらすため,CTラベルマップのみに依存するよう,これらの損失を特に設計する。 本手法は167例の社内データセットを用いて評価した。 以上の結果から, 解剖学的損失は, 精度を保ちつつ, 推定変換の可能性を高めることが示唆された。

CT and MRI are two of the most informative modalities in spinal diagnostics and treatment planning. CT is useful when analysing bony structures, while MRI gives information about the soft tissue. Thus, fusing the information of both modalities can be very beneficial. Registration is the first step for this fusion. While the soft tissues around the vertebra are deformable, each vertebral body is constrained to move rigidly. We propose a weakly-supervised deep learning framework that preserves the rigidity and the volume of each vertebra while maximizing the accuracy of the registration. To achieve this goal, we introduce anatomy-aware losses for training the network. We specifically design these losses to depend only on the CT label maps since automatic vertebra segmentation in CT gives more accurate results contrary to MRI. We evaluate our method on an in-house dataset of 167 patients. Our results show that adding the anatomy-aware losses increases the plausibility of the inferred transformation while keeping the accuracy untouched.
翻訳日:2022-05-17 15:17:25 公開日:2022-05-16
# 農業モニタリングのための空間間データ提供に向けて

Towards Space-to-Ground Data Availability for Agriculture Monitoring ( http://arxiv.org/abs/2205.07721v1 )

ライセンス: Link先を確認
George Choumos, Alkiviadis Koukos, Vasileios Sitokonstantinou, Charalampos Kontoes(参考訳) 機械学習の最近の進歩と、空間的および時間的解像度の高い広い領域をカバーする、自由でオープンなビッグアースデータ(例えば、センチネルミッション)の可用性により、多くの農業モニタリングアプリケーションを実現している。 1つの例は、共通農業政策(CAP)の補助金配分の制御である。 CAPの大規模モニタリングに向けて,高度リモートセンシングシステムを開発した。 それでも、衛星画像の空間分解能は、すべての分野で正確な決定を行うのに必ずしも適切ではない。 本研究では,衛星からフィールドまでの空間間データ可用性の概念を導入し,異なる情報源の相補的特性を最大限に活用する。 我々は、2017年のユトレヒト地域の草原用クラウドソーシングプラットフォームMapillaryのストリートレベル画像とともに、Sentinel-1レーダとSentinel-2光画像時系列を含む地上空間データセットを提案する。 草地分類の下流課題を通じて,本データセットの多面的有用性を示す。 これらの異なるデータ領域で機械学習とディープラーニングのアルゴリズムを訓練し、決定の信頼性を高めるための融合技術の可能性を強調する。

The recent advances in machine learning and the availability of free and open big Earth data (e.g., Sentinel missions), which cover large areas with high spatial and temporal resolution, have enabled many agriculture monitoring applications. One example is the control of subsidy allocations of the Common Agricultural Policy (CAP). Advanced remote sensing systems have been developed towards the large-scale evidence-based monitoring of the CAP. Nevertheless, the spatial resolution of satellite images is not always adequate to make accurate decisions for all fields. In this work, we introduce the notion of space-to-ground data availability, i.e., from the satellite to the field, in an attempt to make the best out of the complementary characteristics of the different sources. We present a space-to-ground dataset that contains Sentinel-1 radar and Sentinel-2 optical image time-series, as well as street-level images from the crowdsourcing platform Mapillary, for grassland fields in the area of Utrecht for 2017. The multifaceted utility of our dataset is showcased through the downstream task of grassland classification. We train machine and deep learning algorithms on these different data domains and highlight the potential of fusion techniques towards increasing the reliability of decisions.
翻訳日:2022-05-17 15:17:10 公開日:2022-05-16
# (参考訳) 多次元局所精度を用いた階層型多ラベル分類の意思決定

Decision Making for Hierarchical Multi-label Classification with Multidimensional Local Precision Rate ( http://arxiv.org/abs/2205.07833v1 )

ライセンス: CC BY 4.0
Yuting Ye, Christine Ho, Ci-Ren Jiang, Wayne Tai Lee, Haiyan Huang(参考訳) 階層型マルチラベル分類(HMC)は過去数十年で注目されている。 クラス間の階層的関係が利用可能であり、各オブジェクトが1つ以上のクラスに割り当てられるマルチラベル分類とともに組み込む必要がある場合に適用できる。 HMCには2つの重要な課題がある。 一 分類の精度を最適化する一方 二 所定のクラス階層を確保すること。 これらの課題に対処するため,本論文では,各クラスの各対象に対して,多次元局所精度(mLPR)と呼ばれる新しい統計モデルを導入する。 実数mLPRの下位順序で単純にクラス間でオブジェクトをソートすることで行われる分類決定は、理論上、クラス階層を確実にし、ヒット曲線の下の領域に関連する目的関数であるCATCHの最大化につながることが示される。 このアプローチは、CATCHとmLPRの望ましい統計的性質のおかげで、追加の制約なしに1つの目的関数における両方の課題を処理する最初の方法である。 しかし実際には、真のmLPRは利用できない。 これに対し、階層を尊重しながら推定mLPRを用いてCATCHの実証バージョンを最大化する新しいアルゴリズムであるHierRankを導入する。 提案手法は,合成データセットと2つの実データセットで評価され,精度,リコール,F_1$スコアなどの指標に基づく評価基準における比較手法よりも優れていることがわかった。

Hierarchical multi-label classification (HMC) has drawn increasing attention in the past few decades. It is applicable when hierarchical relationships among classes are available and need to be incorporated along with the multi-label classification whereby each object is assigned to one or more classes. There are two key challenges in HMC: i) optimizing the classification accuracy, and meanwhile ii) ensuring the given class hierarchy. To address these challenges, in this article, we introduce a new statistic called the multidimensional local precision rate (mLPR) for each object in each class. We show that classification decisions made by simply sorting objects across classes in descending order of their true mLPRs can, in theory, ensure the class hierarchy and lead to the maximization of CATCH, an objective function we introduce that is related to the area under a hit curve. This approach is the first of its kind that handles both challenges in one objective function without additional constraints, thanks to the desirable statistical properties of CATCH and mLPR. In practice, however, true mLPRs are not available. In response, we introduce HierRank, a new algorithm that maximizes an empirical version of CATCH using estimated mLPRs while respecting the hierarchy. The performance of this approach was evaluated on a synthetic data set and two real data sets; ours was found to be superior to several comparison methods on evaluation criteria based on metrics such as precision, recall, and $F_1$ score.
翻訳日:2022-05-17 15:14:09 公開日:2022-05-16
# SQ-VAE:自己アニール確率量子化による離散表現の変分ベイズ

SQ-VAE: Variational Bayes on Discrete Representation with Self-annealed Stochastic Quantization ( http://arxiv.org/abs/2205.07547v1 )

ライセンス: Link先を確認
Yuhta Takida, Takashi Shibuya, WeiHsiang Liao, Chieh-Hsin Lai, Junki Ohmura, Toshimitsu Uesaka, Naoki Murata, Shusuke Takahashi, Toshiyuki Kumakura, Yuki Mitsufuji(参考訳) ベクトル量子化変分オートエンコーダ(VQ-VAE)の注目すべき問題は、学習された離散表現がコードブックのフル容量のごく一部しか使用していないことである。 我々は、慎重に設計されたヒューリスティックスを含むVQ-VAEのトレーニングスキームがこの問題の根底にあると仮定する。 本稿では,確率的量子化変分オートエンコーダ(SQ-VAE)と呼ばれる,新しい確率的量子化と量子化により,標準的なVAEを拡張する新たなトレーニング手法を提案する。 sq-vaeでは、量子化はトレーニングの初期段階では確率的だが、徐々に決定論的量子化へと収束する傾向が観察される。 実験の結果,SQ-VAEは共通のヒューリスティックを使わずに,コードブックの利用率を向上させることがわかった。 さらに,視覚・音声関連タスクにおいて,SQ-VAEがVAEやVQ-VAEよりも優れていることを示す。

One noted issue of vector-quantized variational autoencoder (VQ-VAE) is that the learned discrete representation uses only a fraction of the full capacity of the codebook, also known as codebook collapse. We hypothesize that the training scheme of VQ-VAE, which involves some carefully designed heuristics, underlies this issue. In this paper, we propose a new training scheme that extends the standard VAE via novel stochastic dequantization and quantization, called stochastically quantized variational autoencoder (SQ-VAE). In SQ-VAE, we observe a trend that the quantization is stochastic at the initial stage of the training but gradually converges toward a deterministic quantization, which we call self-annealing. Our experiments show that SQ-VAE improves codebook utilization without using common heuristics. Furthermore, we empirically show that SQ-VAE is superior to VAE and VQ-VAE in vision- and speech-related tasks.
翻訳日:2022-05-17 15:10:40 公開日:2022-05-16
# 解釈可能な機械学習による害虫発生予測

Pest presence prediction using interpretable machine learning ( http://arxiv.org/abs/2205.07723v1 )

ライセンス: Link先を確認
Ornela Nanushi and Vasileios Sitokonstantinou and Ilias Tsoumas and Charalampos Kontoes(参考訳) ヘリコバパ・アルミゲラ(helcoverpa armigera)は、綿花作物の深刻な害虫であり、リントの収量と品質を脅かす。 現場における昆虫の存在に関するタイムリーな知識は、効果的な農業介入に不可欠である。 気候条件と植生条件は、作物の害虫発生の鍵となる要因として特定されている。 本研究では,ギリシャの綿花畑におけるボラワーム害の発症を予測するために,地球観測植生指標,数値気象予報,昆虫捕集を用いた解釈可能な分類装置であるExplainable Boosting Machineを適用した。 このアプローチのガラス箱の性質は、モデルの主要因とそれら間の相互作用に関する重要な洞察を与えてくれる。 モデル解釈性は,我々のアプローチの信頼性を増すとともに,運用ファームマネジメントシナリオにおける迅速な採用とコンテキストベース実装の可能性を高める。 本研究の成果は十分であり,グローバルおよびローカルな説明可能性の分析を通じて,ドライバの重要性は文献に則っている。

Helicoverpa Armigera, or cotton bollworm, is a serious insect pest of cotton crops that threatens the yield and the quality of lint. The timely knowledge of the presence of the insects in the field is crucial for effective farm interventions. Meteo-climatic and vegetation conditions have been identified as key drivers of crop pest abundance. In this work, we applied an interpretable classifier, i.e., Explainable Boosting Machine, which uses earth observation vegetation indices, numerical weather predictions and insect trap catches to predict the onset of bollworm harmfulness in cotton fields in Greece. The glass-box nature of our approach provides significant insight on the main drivers of the model and the interactions among them. Model interpretability adds to the trustworthiness of our approach and therefore its potential for rapid uptake and context-based implementation in operational farm management scenarios. Our results are satisfactory and the importance of drivers, through our analysis on global and local explainability, is in accordance with the literature.
翻訳日:2022-05-17 15:10:23 公開日:2022-05-16
# kgrgrl:知識グラフ報酬指導強化学習に基づくユーザの許可推論手法

KGRGRL: A User's Permission Reasoning Method Based on Knowledge Graph Reward Guidance Reinforcement Learning ( http://arxiv.org/abs/2205.07502v1 )

ライセンス: Link先を確認
Lei Zhang, Yu Pan, Yi Liu, Qibin Zheng, Zhisong Pan(参考訳) 一般に、複数のドメインサイバースペースセキュリティアセスメントは、ユーザの許可を推論することで実装できる。 しかし、既存の手法では物理ドメインや社会ドメインの情報が含まれているが、サイバースペースの包括的な表現は提供されていない。 既存の推論方法は専門家による規則にも基づいていて、結果として非効率性や知性が低下する。 この課題に対処するために、複数のドメインサイバースペースの標準的なセマンティック記述を提供するために、複数のドメインサイバースペースの知識グラフ(KG)を作成する。 その後,強化学習に基づく利用者の許可推論手法を提案する。 サイバースペースのすべてのパーミッションはノードとして表現され、エージェントはユーザーの初期パーミッションとサイバースペースkgに従って、ユーザが持つすべてのパーミッションを見つけるように訓練される。 我々は,報酬情報設定の強化学習において,サイバースペースKGの特徴に基づく10の報酬設定ルールを設定した。 実験の結果,提案手法はユーザのパーミッションに関する推論を成功させ,ユーザのパーミッション推論方法の知性レベルを向上できることがわかった。 同時に,提案手法のf1値はtranslating embedded (transe) 法よりも6%高い値を示した。

In general, multiple domain cyberspace security assessments can be implemented by reasoning user's permissions. However, while existing methods include some information from the physical and social domains, they do not provide a comprehensive representation of cyberspace. Existing reasoning methods are also based on expert-given rules, resulting in inefficiency and a low degree of intelligence. To address this challenge, we create a Knowledge Graph (KG) of multiple domain cyberspace in order to provide a standard semantic description of the multiple domain cyberspace. Following that, we proposed a user's permissions reasoning method based on reinforcement learning. All permissions in cyberspace are represented as nodes, and an agent is trained to find all permissions that user can have according to user's initial permissions and cyberspace KG. We set 10 reward setting rules based on the features of cyberspace KG in the reinforcement learning of reward information setting, so that the agent can better locate user's all permissions and avoid blindly finding user's permissions. The results of the experiments showed that the proposed method can successfully reason about user's permissions and increase the intelligence level of the user's permissions reasoning method. At the same time, the F1 value of the proposed method is 6% greater than that of the Translating Embedding (TransE) method.
翻訳日:2022-05-17 15:03:53 公開日:2022-05-16
# 到達性制約付き強化学習

Reachability Constrained Reinforcement Learning ( http://arxiv.org/abs/2205.07536v1 )

ライセンス: Link先を確認
Dongjie Yu, Haitong Ma, Shengbo Eben Li, Jianyu Chen(参考訳) 安全制約の満足度が現実世界の問題に不可欠であるため、制約強化学習(crl)は近年大きな関心を集めている。 しかし, 既存のCRL法では, 累積コストの削減に厳格な定義と安全性の保証が欠如している。 一方、安全制御研究においては、安全は一定の状態制約を持続的に満たすものとして定義される。 このような永続的安全性は、与えられた環境に対して最適な最大実現可能集合が存在する状態空間のサブセット(実現可能集合)でのみ可能である。 近年,制御障壁関数 (CBF) や安全指標 (SI) といったエネルギーベースの手法を用いてCRLによる安全制御を取り入れた最近の研究は,学習方針の性能を損なう可能性集合の事前の保守的推定を活用している。 そこで本研究では,到達可能性解析を用いて最大の実現可能性集合を特徴付けるリーチビリティCRL(RCRL)法を提案する。 確立された自己整合性条件で実現可能な設定を特徴付け,CRLの制約として安全値関数を学習し,使用することができる。 また、マルチ時間スケール確率近似理論を用いて、提案アルゴリズムが局所最適化に収束し、最大の実現可能な集合が保証されることを示す。 安全制御ジャムやセーフティガイムなどの異なるベンチマークにおける実験結果は、最先端のCRLベースラインと比較して、学習可能なセット、最適基準における性能、RCRLの制約満足度を検証する。

Constrained Reinforcement Learning (CRL) has gained significant interest recently, since the satisfaction of safety constraints is critical for real world problems. However, existing CRL methods constraining discounted cumulative costs generally lack rigorous definition and guarantee of safety. On the other hand, in the safe control research, safety is defined as persistently satisfying certain state constraints. Such persistent safety is possible only on a subset of the state space, called feasible set, where an optimal largest feasible set exists for a given environment. Recent studies incorporating safe control with CRL using energy-based methods such as control barrier function (CBF), safety index (SI) leverage prior conservative estimation of feasible sets, which harms performance of the learned policy. To deal with this problem, this paper proposes a reachability CRL (RCRL) method by using reachability analysis to characterize the largest feasible sets. We characterize the feasible set by the established self-consistency condition, then a safety value function can be learned and used as constraints in CRL. We also use the multi-time scale stochastic approximation theory to prove that the proposed algorithm converges to a local optimum, where the largest feasible set can be guaranteed. Empirical results on different benchmarks such as safe-control-gym and Safety-Gym validate the learned feasible set, the performance in optimal criteria, and constraint satisfaction of RCRL, compared to state-of-the-art CRL baselines.
翻訳日:2022-05-17 15:03:33 公開日:2022-05-16
# 参加制約を考慮した効率的な計画アルゴリズム

Efficient Algorithms for Planning with Participation Constraints ( http://arxiv.org/abs/2205.07767v1 )

ライセンス: Link先を確認
Hanrui Zhang, Yu Cheng, Vincent Conitzer(参考訳) 我々は,[zhang et al., 2022]に導入された参加制約による計画の問題を考える。 この問題では、プリンシパルがマルコフ決定プロセスのアクションを選択し、プリンシパルとエージェントの別々のユーティリティが生成される。 しかし、エージェントは、期待する前向きの効用が負になるたびに、プロセスの終了を選択できる。 プリンシパルは、エージェントが常に参加し続けたいという制約の下で、彼女の期待するユーティリティを最大化するポリシーを計算し、コミットすることを目指している。 この問題に対する最初の多項式時間正確なアルゴリズムを有限水平設定に提供し、以前は加法$\varepsilon$-approximationアルゴリズムのみが知られていた。 このアプローチは、入力のサイズで時間多項式を実行するアルゴリズムと$\log(1/\varepsilon)$を与え、$\varepsilon$の加算誤差まで最適となるポリシーを返す(数え切れない)無限ホリゾンの場合にも拡張できる。

We consider the problem of planning with participation constraints introduced in [Zhang et al., 2022]. In this problem, a principal chooses actions in a Markov decision process, resulting in separate utilities for the principal and the agent. However, the agent can and will choose to end the process whenever his expected onward utility becomes negative. The principal seeks to compute and commit to a policy that maximizes her expected utility, under the constraint that the agent should always want to continue participating. We provide the first polynomial-time exact algorithm for this problem for finite-horizon settings, where previously only an additive $\varepsilon$-approximation algorithm was known. Our approach can also be extended to the (discounted) infinite-horizon case, for which we give an algorithm that runs in time polynomial in the size of the input and $\log(1/\varepsilon)$, and returns a policy that is optimal up to an additive error of $\varepsilon$.
翻訳日:2022-05-17 15:03:09 公開日:2022-05-16
# エルゴード変分流

Ergodic variational flows ( http://arxiv.org/abs/2205.07475v1 )

ライセンス: Link先を確認
Zuheng Xu, Naitong Chen, Trevor Campbell(参考訳) この研究は、抽出可能なサンプリングと密度評価を可能にするだけでなく、MCMCのような収束を保証する新しい種類の変分族(エルゴード変動流)を提示する。 エルゴード変分流は、測度保存写像とエルゴード写像を初期基準分布に繰り返し適用した混合からなる。 この収束性は, 変動パラメータの値によらず, 異なるパラメータ値がより速く, より緩やかな収束をもたらすが, 変化パラメータの値によらず, 流れの段数が増えるにつれて, ターゲットに対して変動分布が弱く, 総変量に収束する穏やかな条件を提供する。 さらに、ハミルトン力学と決定論的運動量リフレッシュメントを組み合わせた一般族の特定インスタンス化を開発する。 シミュレーションおよび実データ実験は収束理論を実証的に検証し、この手法によって生成されたサンプルが最先端のMCMC法に匹敵する品質であることを示す。

This work presents a new class of variational family -- ergodic variational flows -- that not only enables tractable i.i.d. sampling and density evaluation, but also comes with MCMC-like convergence guarantees. Ergodic variational flows consist of a mixture of repeated applications of a measure-preserving and ergodic map to an initial reference distribution. We provide mild conditions under which the variational distribution converges weakly and in total variation to the target as the number of steps in the flow increases; this convergence holds regardless of the value of variational parameters, although different parameter values may result in faster or slower convergence. Further, we develop a particular instantiation of the general family using Hamiltonian dynamics combined with deterministic momentum refreshment. Simulated and real data experiments provide an empirical verification of the convergence theory and demonstrate that samples produced by the method are of comparable quality to a state-of-the-art MCMC method.
翻訳日:2022-05-17 15:00:17 公開日:2022-05-16
# 高次元大規模最適化のためのモデル集約手法

A model aggregation approach for high-dimensional large-scale optimization ( http://arxiv.org/abs/2205.07525v1 )

ライセンス: Link先を確認
Haowei Wang, Ercong Zhang, Szu Hui Ng, Giulia Pedrielli(参考訳) ベイズ最適化(BO)は機械学習やシミュレーション最適化に広く用いられている。 これらの分野における計算資源の増大と記憶能力の増大により、高次元および大規模問題が増えつつある。 本研究では,高次元大規模最適化問題を効率的に解くため,ベイズ最適化(MamBO)アルゴリズムにおけるモデル集約手法を提案する。 mamboは、サブサンプリングとサブスペース埋め込みの組み合わせを使って、高次元と大規模の問題に集合的に対処している。 このサロゲートモデルの不確実性問題は、埋め込み文献や実践においてほとんど無視され、問題が高次元でデータに制限がある場合に悪化する。 提案手法は,これらの低次元サロゲートモデルリスクを低減し,BOアルゴリズムのロバスト性を向上させる。 我々は,提案する集合的サロゲートモデルに対する漸近境界を導出し,マンボの収束を証明する。 ベンチマーク数値実験により,本アルゴリズムは他の高次元boアルゴリズムよりも優れ,あるいは同等の性能が得られることが示された。 さらに、顔検出のための機械学習アルゴリズムのカスケード分類器にmamboを適用することにより、mamboはベンチマーク設定よりも高い分類精度を達成し、他の高次元boアルゴリズムよりも計算速度が高い設定を見出した。

Bayesian optimization (BO) has been widely used in machine learning and simulation optimization. With the increase in computational resources and storage capacities in these fields, high-dimensional and large-scale problems are becoming increasingly common. In this study, we propose a model aggregation method in the Bayesian optimization (MamBO) algorithm for efficiently solving high-dimensional large-scale optimization problems. MamBO uses a combination of subsampling and subspace embeddings to collectively address high dimensionality and large-scale issues; in addition, a model aggregation method is employed to address the surrogate model uncertainty issue that arises when embedding is applied. This surrogate model uncertainty issue is largely ignored in the embedding literature and practice, and it is exacerbated when the problem is high-dimensional and data are limited. Our proposed model aggregation method reduces these lower-dimensional surrogate model risks and improves the robustness of the BO algorithm. We derive an asymptotic bound for the proposed aggregated surrogate model and prove the convergence of MamBO. Benchmark numerical experiments indicate that our algorithm achieves superior or comparable performance to other commonly used high-dimensional BO algorithms. Moreover, we apply MamBO to a cascade classifier of a machine learning algorithm for face detection, and the results reveal that MamBO finds settings that achieve higher classification accuracy than the benchmark settings and is computationally faster than other high-dimensional BO algorithms.
翻訳日:2022-05-17 14:59:58 公開日:2022-05-16
# Wasserstein t-Sne

Wasserstein t-SNE ( http://arxiv.org/abs/2205.07531v1 )

ライセンス: Link先を確認
Fynn Bachmann, Philipp Hennig, Dmitry Kobak(参考訳) 科学的データセットは階層構造を持つことが多く、例えば調査では、個々の参加者(サンプル)は地理的領域のようなより高いレベル(単位)にグループ化されることがある。 これらの設定において、しばしば、サンプルレベルではなくユニットレベルの構造を探索することに関心が向けられる。 単位は平均間の距離に基づいて比較できるが、これはサンプルの単位内分布を無視する。 本稿では,単位内分布の形状を考慮したwasserstein距離メトリックを用いた階層的データセット探索分析手法を開発した。 対のワッサーシュタイン距離の行列に基づいて、t-SNEを用いて単位の2次元埋め込みを構築する。 距離行列はガウス分布で各単位を近似することで効率的に計算できるが、正確なワッサーシュタイン距離を計算するスケーラブルな方法も提供する。 我々は合成データを用いてwasserstein t-sneの有効性を実証し、2017年のドイツ議会選挙のデータに適用し、投票所をサンプルとして、投票地区を単位として検討した。 その結果、埋め込みによってデータに意味のある構造が明らかになった。

Scientific datasets often have hierarchical structure: for example, in surveys, individual participants (samples) might be grouped at a higher level (units) such as their geographical region. In these settings, the interest is often in exploring the structure on the unit level rather than on the sample level. Units can be compared based on the distance between their means, however this ignores the within-unit distribution of samples. Here we develop an approach for exploratory analysis of hierarchical datasets using the Wasserstein distance metric that takes into account the shapes of within-unit distributions. We use t-SNE to construct 2D embeddings of the units, based on the matrix of pairwise Wasserstein distances between them. The distance matrix can be efficiently computed by approximating each unit with a Gaussian distribution, but we also provide a scalable method to compute exact Wasserstein distances. We use synthetic data to demonstrate the effectiveness of our Wasserstein t-SNE, and apply it to data from the 2017 German parliamentary election, considering polling stations as samples and voting districts as units. The resulting embedding uncovers meaningful structure in the data.
翻訳日:2022-05-17 14:59:36 公開日:2022-05-16
# 合成関数を最適に学習するガウス過程回帰の不可能性について

On the inability of Gaussian process regression to optimally learn compositional functions ( http://arxiv.org/abs/2205.07764v1 )

ライセンス: Link先を確認
Matteo Giordano and Kolyan Ray and Johannes Schmidt-Hieber(参考訳) 対象関数が構成構造を持つ場合、深いガウス過程先行がガウス過程先行よりも優れていることを厳密に証明する。 そこで本研究では,連続回帰モデルにおけるガウス過程回帰に対する後部収縮率の情報理論の下限について検討する。 真函数が一般化加法関数であれば、任意の平均零ガウス過程に基づく後続法は、標本サイズ$n$で多項式的に最適である因子によって、ミニマックス速度よりも厳密に遅い速度でのみ真理を回復できることを示す。

We rigorously prove that deep Gaussian process priors can outperform Gaussian process priors if the target function has a compositional structure. To this end, we study information-theoretic lower bounds for posterior contraction rates for Gaussian process regression in a continuous regression model. We show that if the true function is a generalized additive function, then the posterior based on any mean-zero Gaussian process can only recover the truth at a rate that is strictly slower than the minimax rate by a factor that is polynomially suboptimal in the sample size $n$.
翻訳日:2022-05-17 14:59:15 公開日:2022-05-16
# (参考訳) 単語はどの会社に保管されますか。 J.R. Firth & Zellig Harrisの分布意味論の再検討

What company do words keep? Revisiting the distributional semantics of J.R. Firth & Zellig Harris ( http://arxiv.org/abs/2205.07750v1 )

ライセンス: CC BY-SA 4.0
Mikael Brunila and Jack LaViolette(参考訳) 単語埋め込みの力は、同様の単語が同様の文脈で現れるという言語理論に起因している。 このアイデアは、イギリスの言語学者J・R・ファース(J.R. Firth)とアメリカの同僚であるゼリグ・ハリス(Zellig Harris)は、しばしば「分配的意味論(distributional semantics)」の発明で知られている。 FirthとHarrisはいずれも主要なNLP教科書や多くの基礎論文に引用されているが、それらの理論の内容と相違は議論されることがほとんどない。 彼らの研究をよく読むことで、我々は2つの異なる意味論を多くの点で別々に発見する。 ひとつは言語形式の内部的な作業に特化しており、もう一方は、他の言語要素だけでなく、より広い文化的・状況的な文脈においても、新しい会社で言葉を考えるように呼びかけています。 これらの理論は、NLPにおける現在の議論の観点からは対照的に、Firthにおいて、より文化的に根ざした意味論の考え方へと分野を導くことができる人物を発見した。 文脈」という拡張概念が, 比較階層化と合成拡張という2つの異なる戦略を通して実際にモデル化される可能性を考える。

The power of word embeddings is attributed to the linguistic theory that similar words will appear in similar contexts. This idea is specifically invoked by noting that "you shall know a word by the company it keeps," a quote from British linguist J.R. Firth who, along with his American colleague Zellig Harris, is often credited with the invention of "distributional semantics." While both Firth and Harris are cited in all major NLP textbooks and many foundational papers, the content and differences between their theories is seldom discussed. Engaging in a close reading of their work, we discover two distinct and in many ways divergent theories of meaning. One focuses exclusively on the internal workings of linguistic forms, while the other invites us to consider words in new company - not just with other linguistic elements, but also in a broader cultural and situational context. Contrasting these theories from the perspective of current debates in NLP, we discover in Firth a figure who could guide the field towards a more culturally grounded notion of semantics. We consider how an expanded notion of "context" might be modeled in practice through two different strategies: comparative stratification and syntagmatic extension
翻訳日:2022-05-17 14:57:00 公開日:2022-05-16
# 信頼できるグラフニューラルネットワーク:側面、方法、トレンド

Trustworthy Graph Neural Networks: Aspects, Methods and Trends ( http://arxiv.org/abs/2205.07424v1 )

ライセンス: Link先を確認
He Zhang, Bang Wu, Xingliang Yuan, Shirui Pan, Hanghang Tong, Jian Pei(参考訳) グラフニューラルネットワーク(GNN)は、レコメンデーションシステムや質問応答といった日々の応用から、生命科学における薬物発見や天体物理学におけるn-bodyシミュレーションといった最先端技術まで、さまざまな現実シナリオのための有能なグラフ学習手法として登場した。 しかし、タスクパフォーマンスだけがGNNの要件ではない。 パフォーマンス指向のGNNは、敵の攻撃に対する脆弱性、不利なグループに対する説明不能な差別、エッジコンピューティング環境における過剰なリソース消費などの潜在的な副作用を示してきた。 こうした意図しない害を避けるには、信頼性に特徴付けられる有能なGNNを構築する必要がある。 そこで本稿では,様々なコンピューティング技術の観点から,信頼性の高いGNNを構築するための包括的なロードマップを提案する。 本調査では,信頼性,説明可能性,プライバシー,公正性,説明責任,環境保全の6つの側面から,基本概念を紹介し,信頼に値するGNNに対する既存の取り組みを包括的に要約する。 さらに、信頼に値するGNNの上の6つの側面の複雑な相互アスペクト関係を強調した。 最後に,信頼度の高いgnnの研究と産業化を促進するためのトレンドの方向性について概説する。

Graph neural networks (GNNs) have emerged as a series of competent graph learning methods for diverse real-world scenarios, ranging from daily applications like recommendation systems and question answering to cutting-edge technologies such as drug discovery in life sciences and n-body simulation in astrophysics. However, task performance is not the only requirement for GNNs. Performance-oriented GNNs have exhibited potential adverse effects like vulnerability to adversarial attacks, unexplainable discrimination against disadvantaged groups, or excessive resource consumption in edge computing environments. To avoid these unintentional harms, it is necessary to build competent GNNs characterised by trustworthiness. To this end, we propose a comprehensive roadmap to build trustworthy GNNs from the view of the various computing technologies involved. In this survey, we introduce basic concepts and comprehensively summarise existing efforts for trustworthy GNNs from six aspects, including robustness, explainability, privacy, fairness, accountability, and environmental well-being. Additionally, we highlight the intricate cross-aspect relations between the above six aspects of trustworthy GNNs. Finally, we present a thorough overview of trending directions for facilitating the research and industrialisation of trustworthy GNNs.
翻訳日:2022-05-17 14:27:43 公開日:2022-05-16
# スケーラブルな深層学習による高次元動的最適輸送の解法

A scalable deep learning approach for solving high-dimensional dynamic optimal transport ( http://arxiv.org/abs/2205.07521v1 )

ライセンス: Link先を確認
Wei Wan, Yuejin Zhang, Chenglong Bao, Bin Dong, Zuoqiang Shi(参考訳) 最適輸送の動的定式化は科学計算や機械学習への関心が高まり、その計算はPDE制約の最適化問題を解く必要がある。 古典的ユーレアン離散化に基づくアプローチは、高次元速度場の近似から生じる次元性の呪いに悩まされる。 本研究では,高次元空間における動的最適輸送を解くためのディープラーニングに基づく手法を提案する。 本手法は,速度場の注意深く設計された表現,特性に沿ったpde制約の離散化,モンテカルロ法による高次元積分の計算の3つの主成分を含む。 具体的には、速度場の表現において、時間における古典的結節基底関数と、H1-ノルム正規化を伴う空間領域における深部ニューラルネットワークを適用する。 この技術は、時間と空間の両方における速度場の規則性を促進し、その特性に沿った離散化は、トレーニングプロセス中に安定である。 提案手法をテストするために, 広範囲な数値実験を行った。 最適輸送の他の解法と比較して,本手法は高次元ケースにおいてより正確な結果を与えることができ,次元に関して非常に優れたスケーラビリティを有する。 最後に,本手法を群集運動問題などのより複雑なケースに拡張する。

The dynamic formulation of optimal transport has attracted growing interests in scientific computing and machine learning, and its computation requires to solve a PDE-constrained optimization problem. The classical Eulerian discretization based approaches suffer from the curse of dimensionality, which arises from the approximation of high-dimensional velocity field. In this work, we propose a deep learning based method to solve the dynamic optimal transport in high dimensional space. Our method contains three main ingredients: a carefully designed representation of the velocity field, the discretization of the PDE constraint along the characteristics, and the computation of high dimensional integral by Monte Carlo method in each time step. Specifically, in the representation of the velocity field, we apply the classical nodal basis function in time and the deep neural networks in space domain with the H1-norm regularization. This technique promotes the regularity of the velocity field in both time and space such that the discretization along the characteristic remains to be stable during the training process. Extensive numerical examples have been conducted to test the proposed method. Compared to other solvers of optimal transport, our method could give more accurate results in high dimensional cases and has very good scalability with respect to dimension. Finally, we extend our method to more complicated cases such as crowd motion problem.
翻訳日:2022-05-17 14:26:30 公開日:2022-05-16
# 潜在構造対応シークエンシャルオートエンコーダを用いた進化ドメインへの一般化

Generalizing to Evolving Domains with Latent Structure-Aware Sequential Autoencoder ( http://arxiv.org/abs/2205.07649v1 )

ライセンス: Link先を確認
Tiexin Qin and Shiqi Wang and Haoliang Li(参考訳) ドメインの一般化は、機械学習システムの一般化能力を改善することを目的としている。 既存の領域一般化技術は、OODデータによる一般化問題に対処するため、定常および離散的な環境に導入されている。 しかし、非定常環境(例えば、自走車システム、センサー測度など)における現実的なタスクの多くは、より複雑で連続的に進化するドメインドリフトを伴い、ドメイン一般化の問題に対する新たな課題を引き起こす。 本稿では、ドメイン一般化の進化問題として上記の設定を定式化する。 具体的には,非定常環境における分布シフトを考慮した共変量シフトと概念シフトという2つの主要な要因を同定することを目的として,ディープニューラルネットワークの潜時空間における基盤となる連続構造を探索することにより,ドメインの一般化の進化に対処する,Latent Structure-aware Sequential Autoencoder (LSSAE) という確率的フレームワークを提案する。 合成および実世界の両方のデータセットに対する実験結果から, LSSAEは進化する領域一般化設定に基づいて, 優れた性能が得られることが示された。

Domain generalization aims to improve the generalization capability of machine learning systems to out-of-distribution (OOD) data. Existing domain generalization techniques embark upon stationary and discrete environments to tackle the generalization issue caused by OOD data. However, many real-world tasks in non-stationary environments (e.g. self-driven car system, sensor measures) involve more complex and continuously evolving domain drift, which raises new challenges for the problem of domain generalization. In this paper, we formulate the aforementioned setting as the problem of evolving domain generalization. Specifically, we propose to introduce a probabilistic framework called Latent Structure-aware Sequential Autoencoder (LSSAE) to tackle the problem of evolving domain generalization via exploring the underlying continuous structure in the latent space of deep neural networks, where we aim to identify two major factors namely covariate shift and concept shift accounting for distribution shift in non-stationary environments. Experimental results on both synthetic and real-world datasets show that LSSAE can lead to superior performances based on the evolving domain generalization setting.
翻訳日:2022-05-17 14:26:09 公開日:2022-05-16
# 気道確率モデルを用いた勾配に基づく反事実説明

Gradient-based Counterfactual Explanations using Tractable Probabilistic Models ( http://arxiv.org/abs/2205.07774v1 )

ライセンス: Link先を確認
Xiaoting Shao, Kristian Kersting(参考訳) counterfactual exampleは、機械学習モデルに対するポストホックな説明の魅力的なクラスである。 クラス$y_1$の入力$x$が与えられた場合、その逆ファクトは、他のクラス$y_0$の対照的な例である。 現在のアプローチは、主に複雑な最適化によってこのタスクを解決している: 対物的な結果の損失に基づいて目的関数を定義する ハードまたはソフトな制約で$y_0$ を指定し、ブラックボックスとしてこの関数を最適化する。 しかし、この「深層学習」アプローチは、かなり遅く、たまにトリッキーであり、非現実的な反事実的な例をもたらす可能性がある。 本研究では, 確率モデルに基づく2つの勾配計算のみを用いて, これらの問題に対処する新しい手法を提案する。 まず、制約のない反ファクトの$u$ of $x$を計算し、反ファクトの結果$y_0$を誘導する。 そして、高い密度領域に$u$を適応させ、その結果$x^{\prime}$となる。 実証的な証拠は我々のアプローチの優位性を示している。

Counterfactual examples are an appealing class of post-hoc explanations for machine learning models. Given input $x$ of class $y_1$, its counterfactual is a contrastive example $x^\prime$ of another class $y_0$. Current approaches primarily solve this task by a complex optimization: define an objective function based on the loss of the counterfactual outcome $y_0$ with hard or soft constraints, then optimize this function as a black-box. This "deep learning" approach, however, is rather slow, sometimes tricky, and may result in unrealistic counterfactual examples. In this work, we propose a novel approach to deal with these problems using only two gradient computations based on tractable probabilistic models. First, we compute an unconstrained counterfactual $u$ of $x$ to induce the counterfactual outcome $y_0$. Then, we adapt $u$ to higher density regions, resulting in $x^{\prime}$. Empirical evidence demonstrates the dominant advantages of our approach.
翻訳日:2022-05-17 14:25:46 公開日:2022-05-16
# 行列に基づくRenyiエントロピーの最適ランダム化近似

Optimal Randomized Approximations for Matrix based Renyi's Entropy ( http://arxiv.org/abs/2205.07426v1 )

ライセンス: Link先を確認
Yuxin Dong and Tieliang Gong and Shujian Yu and Chen Li(参考訳) 行列に基づくRenyiのエントロピーにより、基礎となる分布の確率密度を見積もることなく、与えられたデータから直接情報量を測定することができ、多くの統計的学習や推論タスクで広く採用されている。 しかし、この新たな情報量を正確に計算するには、半正定値行列(SPD)$A$の固有スペクトルへのアクセスが必要である。 そこで本稿では,任意の$\alpha \in r^+$ 順序を持つ行列系レーニーのエントロピーに対する確率的トレース近似を応用し,エントロピー近似を行列ベクトル乗算問題に変換することで複雑性を低減した。 具体的には、整数順序 $\alpha$case と多項式級数近似 (taylor と chebyshev) に対するランダム近似 (taylor と chebyshev) を非整数級数 $\alpha$case に対して開発し、全体の時間複雑性は $o(n^2sm)$ となり、ここで $s,m \ll n$ はそれぞれベクトルクエリ数と多項式次数を表す。 理論的には、全ての近似アルゴリズムに対する統計的保証を確立し、近似誤差$\varepsilon$に対してsとmの明示的な順序を与え、両パラメータの最適収束率を対数係数まで示す。 大規模シミュレーションと実世界の応用は、開発した近似の有効性を検証し、無視できない精度の損失を伴う顕著なスピードアップを示す。

The Matrix-based Renyi's entropy enables us to directly measure information quantities from given data without the costly probability density estimation of underlying distributions, thus has been widely adopted in numerous statistical learning and inference tasks. However, exactly calculating this new information quantity requires access to the eigenspectrum of a semi-positive definite (SPD) matrix $A$ which grows linearly with the number of samples $n$, resulting in a $O(n^3)$ time complexity that is prohibitive for large-scale applications. To address this issue, this paper takes advantage of stochastic trace approximations for matrix-based Renyi's entropy with arbitrary $\alpha \in R^+$ orders, lowering the complexity by converting the entropy approximation to a matrix-vector multiplication problem. Specifically, we develop random approximations for integer order $\alpha$ cases and polynomial series approximations (Taylor and Chebyshev) for non-integer $\alpha$ cases, leading to a $O(n^2sm)$ overall time complexity, where $s,m \ll n$ denote the number of vector queries and the polynomial order respectively. We theoretically establish statistical guarantees for all approximation algorithms and give explicit order of s and m with respect to the approximation error $\varepsilon$, showing optimal convergence rate for both parameters up to a logarithmic factor. Large-scale simulations and real-world applications validate the effectiveness of the developed approximations, demonstrating remarkable speedup with negligible loss in accuracy.
翻訳日:2022-05-17 14:22:40 公開日:2022-05-16
# (参考訳) 視覚質問応答のためのニューロシンボリックaspパイプライン

A Neuro-Symbolic ASP Pipeline for Visual Question Answering ( http://arxiv.org/abs/2205.07548v1 )

ライセンス: CC BY 4.0
Thomas Eiter, Nelson Higuera, Johannes Oetsch, and Michael Pritz(参考訳) 本稿では,神経シンボリック視覚質問応答(vqa)パイプラインを提案する。このパイプラインは,オブジェクトやそれに関連する質問のシーンを示す画像で構成された,よく知られたデータセットである。 私たちのパイプラインは (i)オブジェクト分類とclevrシーンのバウンディングボックス予測のためのニューラルネットワークのトレーニング (II)高信頼予測のしきい値を決定するニューラルネットワークの予測値の分布に関する統計的解析、及び 3)CLEVR質問とネットワーク予測を翻訳し,信頼度閾値を論理プログラムに渡すことで,ASPソルバを用いて回答を計算できるようにする。 選択規則を活用し,決定論的かつ非決定論的シーンエンコーディングを考える。 実験の結果,ニューラルネットワークが決定論的アプローチと比較してトレーニングが不十分であっても,非決定論的シーンの符号化は良好な結果が得られることがわかった。 これは、ネットワーク予測が完璧でない場合、堅牢なVQAシステムを構築する上で重要である。 さらに,非決定論を合理的な選択に制限することは,関連する神経象徴的アプローチと比較して,精度を損なうことなく,より効率的な実装を可能にすることを示す。 この研究はTPLPの受け入れを検討中である。

We present a neuro-symbolic visual question answering (VQA) pipeline for CLEVR, which is a well-known dataset that consists of pictures showing scenes with objects and questions related to them. Our pipeline covers (i) training neural networks for object classification and bounding-box prediction of the CLEVR scenes, (ii) statistical analysis on the distribution of prediction values of the neural networks to determine a threshold for high-confidence predictions, and (iii) a translation of CLEVR questions and network predictions that pass confidence thresholds into logic programs so that we can compute the answers using an ASP solver. By exploiting choice rules, we consider deterministic and non-deterministic scene encodings. Our experiments show that the non-deterministic scene encoding achieves good results even if the neural networks are trained rather poorly in comparison with the deterministic approach. This is important for building robust VQA systems if network predictions are less-than perfect. Furthermore, we show that restricting non-determinism to reasonable choices allows for more efficient implementations in comparison with related neuro-symbolic approaches without loosing much accuracy. This work is under consideration for acceptance in TPLP.
翻訳日:2022-05-17 14:20:37 公開日:2022-05-16
# hls4mlを用いた自動運転車用fpgaのリアルタイムセマンティクスセグメンテーション

Real-time semantic segmentation on FPGAs for autonomous vehicles with hls4ml ( http://arxiv.org/abs/2205.07690v1 )

ライセンス: Link先を確認
Nicol\`o Ghielmetti, Vladimir Loncar, Maurizio Pierini, Marcel Roed, Sioni Summers, Thea Aarrestad, Christoffer Petersson, Hampus Linander, Jennifer Ngadiuba, Kelvin Lin, Philip Harris(参考訳) 本稿では,フィールドプログラム可能なゲートアレイが,自律運転に関連するリアルタイムセマンティックセグメンテーションタスクのハードウェアアクセラレータとして機能するかを検討する。 ENet畳み込みニューラルネットワークアーキテクチャの圧縮バージョンを考慮すると、Xilinx ZCU102評価ボード上で利用可能なリソースの30%未満を使用して、画像毎の4.9ミリ秒の完全なオンチップデプロイメントを実演する。 車両が複数のカメラから同時に入力を受けるユースケースに対応して、バッチサイズを10に増やすと、画像あたりのレイテンシを3msに短縮する。 本研究では,アグレッシブフィルタの削減と異種量子化学習,畳み込み層の実装により,Cityscapesデータセットの精度を維持しつつ,消費電力と資源利用を著しく低減できることを示す。

In this paper, we investigate how field programmable gate arrays can serve as hardware accelerators for real-time semantic segmentation tasks relevant for autonomous driving. Considering compressed versions of the ENet convolutional neural network architecture, we demonstrate a fully-on-chip deployment with a latency of 4.9 ms per image, using less than 30% of the available resources on a Xilinx ZCU102 evaluation board. The latency is reduced to 3 ms per image when increasing the batch size to ten, corresponding to the use case where the autonomous vehicle receives inputs from multiple cameras simultaneously. We show, through aggressive filter reduction and heterogeneous quantization-aware training, and an optimized implementation of convolutional layers, that the power consumption and resource utilization can be significantly reduced while maintaining accuracy on the Cityscapes dataset.
翻訳日:2022-05-17 14:01:21 公開日:2022-05-16
# AI教師試験:教育対話におけるブレンダーとGPT-3の教育能力の測定

The AI Teacher Test: Measuring the Pedagogical Ability of Blender and GPT-3 in Educational Dialogues ( http://arxiv.org/abs/2205.07540v1 )

ライセンス: Link先を確認
Ana\"is Tack and Chris Piech(参考訳) BlenderやGPT-3のような最先端の生成モデルが優れたAI教師であり、学生に教育対話で返信できるかどうかをどうやって検証できるのか? AI教師のテストの設計は難しい。評価方法は非常に必要だが、教育能力を測定するための既製のソリューションはない。 本稿では,AI教師試験の最初の試みについて報告する。 私たちは、現実世界の対話の中で、人間の教師と並行して会話エージェントを実行し、異なるエージェントが生徒にどう反応するかをシミュレートし、これらの反応を3つの能力の観点から比較する、という洞察に関するソリューションを構築しました。 本手法は,教育における比較判断の信頼性を基盤として,確率モデルとベイジアンサンプリングを用いて教育能力の推定を行う。 会話エージェント(特にBlender)は、会話の取り込みにおいてよく機能するが、実の教師よりも、特に有益性(Blender: {\Delta} ability = -0.75; GPT-3: {\Delta} ability = -0.93)に関して、定量的に劣ることがわかった。

How can we test whether state-of-the-art generative models, such as Blender and GPT-3, are good AI teachers, capable of replying to a student in an educational dialogue? Designing an AI teacher test is challenging: although evaluation methods are much-needed, there is no off-the-shelf solution to measuring pedagogical ability. This paper reports on a first attempt at an AI teacher test. We built a solution around the insight that you can run conversational agents in parallel to human teachers in real-world dialogues, simulate how different agents would respond to a student, and compare these counterpart responses in terms of three abilities: speak like a teacher, understand a student, help a student. Our method builds on the reliability of comparative judgments in education and uses a probabilistic model and Bayesian sampling to infer estimates of pedagogical ability. We find that, even though conversational agents (Blender in particular) perform well on conversational uptake, they are quantifiably worse than real teachers on several pedagogical dimensions, especially with regard to helpfulness (Blender: {\Delta} ability = -0.75; GPT-3: {\Delta} ability = -0.93).
翻訳日:2022-05-17 13:58:58 公開日:2022-05-16
# 意味空間における分布仮説の限界を評価する:信頼に基づく関係知識と共起の影響

Assessing the Limits of the Distributional Hypothesis in Semantic Spaces: Trait-based Relational Knowledge and the Impact of Co-occurrences ( http://arxiv.org/abs/2205.07603v1 )

ライセンス: Link先を確認
Mark Anderson and Jose Camacho-Collados(参考訳) 分布モデルやディープラーニングの普及によるNLPの性能向上は,相互解釈可能性の低下をもたらしている。 このことが、ニューラルネットワークが自然言語についてどのように学習するかに焦点を絞った。 データ駆動モデルの開発に使用されるデータに焦点を当てた作業もあるが、典型的には、この作業はデータに関する問題、例えば有害なバイアスの強調とオフセットを強調することを目的としている。 この研究は、モデルが自然言語の有意義な表現を捉えるのに必要なデータについて、比較的議論の余地のない経路に寄与する。 これは、英語とスペイン語のセマンティックスペースが、特定の種類の関係知識、すなわち概念に関連する特性(例えばバナナ・イエロー)をいかにうまく捉えているかを評価し、この文脈における共起の役割を探求する。

The increase in performance in NLP due to the prevalence of distributional models and deep learning has brought with it a reciprocal decrease in interpretability. This has spurred a focus on what neural networks learn about natural language with less of a focus on how. Some work has focused on the data used to develop data-driven models, but typically this line of work aims to highlight issues with the data, e.g. highlighting and offsetting harmful biases. This work contributes to the relatively untrodden path of what is required in data for models to capture meaningful representations of natural language. This entails evaluating how well English and Spanish semantic spaces capture a particular type of relational knowledge, namely the traits associated with concepts (e.g. bananas-yellow), and exploring the role of co-occurrences in this context.
翻訳日:2022-05-17 13:58:34 公開日:2022-05-16
# 分類によるバイナリ化:ソフト機能は本当に必要か?

Binarizing by Classification: Is soft function really necessary? ( http://arxiv.org/abs/2205.07433v1 )

ライセンス: Link先を確認
Yefei He, Luoming Zhang, Weijia Wu, Hong Zhou(参考訳) binary neural networkは$sign$関数を利用して実値のバイナリ化を行い、その非導出性はバックプロパゲーション中に必然的に大きな勾配エラーをもたらす。 グラデーションを近似するために多くのハンドデザインソフト関数が提案されているが、そのメカニズムは明確ではなく、バイナリモデルと全精度モデルの間には大きな性能ギャップがある。 そこで本研究では,ネットワークのバイナリ化をバイナリ分類問題として扱い,マルチレイヤ・パーセプトロン(mlp)を分類器として用いることを提案する。 MLPベースの分類器は理論上任意の連続関数に適合し、特定のソフト関数を使わずにネットワークとバックプロパゲート勾配を二項化するために適応的に学習される。 この観点から、単純な線形関数でさえ、以前の複雑なソフト関数よりも優れていることを実験的に証明する。 大規模な実験により,提案手法は画像分類と人間のポーズ推定の双方において驚くべき性能を示した。 具体的には、ImageNetデータセット上でResNet-34の65.7%のトップ1精度を実現し、2.8%の絶対的な改善を実現した。 挑戦的なMicrosoft COCOキーポイントデータセットを評価する際、提案手法によりバイナリネットワークは、いくつかの完全精度の手法と同等に、初めて60.6のmAPを達成できる。

Binary neural network leverages the $Sign$ function to binarize real values, and its non-derivative property inevitably brings huge gradient errors during backpropagation. Although many hand-designed soft functions have been proposed to approximate gradients, their mechanism is not clear and there are still huge performance gaps between binary models and their full-precision counterparts. To address this, we propose to tackle network binarization as a binary classification problem and use a multi-layer perceptron (MLP) as the classifier. The MLP-based classifier can fit any continuous function theoretically and is adaptively learned to binarize networks and backpropagate gradients without any specific soft function. With this view, we further prove experimentally that even a simple linear function can outperform previous complex soft functions. Extensive experiments demonstrate that the proposed method yields surprising performance both in image classification and human pose estimation tasks. Specifically, we achieve 65.7% top-1 accuracy of ResNet-34 on ImageNet dataset, with an absolute improvement of 2.8%. When evaluating on the challenging Microsoft COCO keypoint dataset, the proposed method enables binary networks to achieve a mAP of 60.6 for the first time, on par with some full-precision methods.
翻訳日:2022-05-17 13:57:57 公開日:2022-05-16
# ReDFeat:マルチモーダル特徴学習のための再結合検出と記述

ReDFeat: Recoupling Detection and Description for Multimodal Feature Learning ( http://arxiv.org/abs/2205.07439v1 )

ライセンス: Link先を確認
Yuxin Deng and Jiayi Ma(参考訳) 検出と記述を組み合わせた深層学習に基づく局所特徴抽出アルゴリズムは、画像マッチングに大きな進歩をもたらした。 しかし、このようなフレームワークのエンドツーエンドのトレーニングは、検出の強い監督の欠如と、検出と記述の間の不適切な結合のため、非常に不安定である。 問題は、ほとんどのメソッドが事前トレーニングに大きく依存する、クロスモーダルなシナリオで拡大されます。 本稿では,ロバスト特徴量の検出確率をピーク・繰り返しにし,高い検出スコアを有する特徴を最適化中に強調する,相互重み付け戦略を用いて,マルチモーダル特徴学習の検出と記述に関する独立した制約を解消する。 以前の研究と異なり、これらの重量は後方伝播から切り離され、検出された不明瞭な特徴の確率は直接抑制されず、訓練はより安定する。 さらに,大きな受容場を有し,学習可能な非最大抑制層を備える検出器であるスーパー検出器を提案する。 最後に,交差可視,赤外線,近赤外,合成開口レーダ画像ペアを含むベンチマークを構築し,特徴マッチングと画像登録タスクの性能評価を行う。 大規模な実験では、ReDFeatという名前の、再コールされた検出と記述でトレーニングされた機能が、ベンチマークの過去の最先端を上回り、モデルはスクラッチから容易にトレーニングできることを示した。

Deep-learning-based local feature extraction algorithms that combine detection and description have made significant progress in visible image matching. However, the end-to-end training of such frameworks is notoriously unstable due to the lack of strong supervision of detection and the inappropriate coupling between detection and description. The problem is magnified in cross-modal scenarios, in which most methods heavily rely on the pre-training. In this paper, we recouple independent constraints of detection and description of multimodal feature learning with a mutual weighting strategy, in which the detected probabilities of robust features are forced to peak and repeat, while features with high detection scores are emphasized during optimization. Different from previous works, those weights are detached from back propagation so that the detected probability of indistinct features would not be directly suppressed and the training would be more stable. Moreover, we propose the Super Detector, a detector that possesses a large receptive field and is equipped with learnable non-maximum suppression layers, to fulfill the harsh terms of detection. Finally, we build a benchmark that contains cross visible, infrared, near-infrared and synthetic aperture radar image pairs for evaluating the performance of features in feature matching and image registration tasks. Extensive experiments demonstrate that features trained with the recoulped detection and description, named ReDFeat, surpass previous state-of-the-arts in the benchmark, while the model can be readily trained from scratch.
翻訳日:2022-05-17 13:57:32 公開日:2022-05-16
# 動的特徴集約によるロバスト表現

Robust Representation via Dynamic Feature Aggregation ( http://arxiv.org/abs/2205.07466v1 )

ライセンス: Link先を確認
Haozhe Liu, Haoqin Ji, Yuexiang Li, Nanjun He, Haoqian Wu, Feng Liu, Linlin Shen, Yefeng Zheng(参考訳) deep convolutional neural network (cnn)ベースのモデルは、敵の攻撃に対して脆弱である。 考えられる理由の1つは、CNNベースのモデルの埋め込み空間がスパースであり、その結果、対数サンプルの生成のための大きな空間が生じることである。 本研究では,新しい正規化法を用いて埋め込み空間を圧縮するための動的特徴集約法を提案する。 特に、2つの試料間の凸結合は凝集のピボットと見なされる。 埋め込み空間において、選択されたサンプルはピボットの表現に類似するように誘導される。 一方、そのような正規化の自明な解を緩和するために、モデルの最後の完全連結層は直交分類器に置き換えられ、異なるクラスに対する埋め込みコードは直交的に別々に処理される。 正規化と直交分類器により、よりコンパクトな埋め込み空間が得られるため、敵攻撃に対するモデルロバスト性が向上する。 様々な攻撃方法に対するcifar-10の平均精度は56.91%であり、これは37.31%の差で固形ベースライン(混合)を大幅に上回っている。 より驚くべきことに,提案手法は,学習されたコンパクトな特徴空間により,アウト・オブ・ディストリビューション(OOD)検出の最先端性能を達成できることを示す。 CIFAR-10をIDデータセットとし、LSUNをOODデータセットとした場合、0.937のF1スコアを得る。 コードはhttps://github.com/HaozheLiu-ST/DynamicFeatureAggregationで入手できる。

Deep convolutional neural network (CNN) based models are vulnerable to the adversarial attacks. One of the possible reasons is that the embedding space of CNN based model is sparse, resulting in a large space for the generation of adversarial samples. In this study, we propose a method, denoted as Dynamic Feature Aggregation, to compress the embedding space with a novel regularization. Particularly, the convex combination between two samples are regarded as the pivot for aggregation. In the embedding space, the selected samples are guided to be similar to the representation of the pivot. On the other side, to mitigate the trivial solution of such regularization, the last fully-connected layer of the model is replaced by an orthogonal classifier, in which the embedding codes for different classes are processed orthogonally and separately. With the regularization and orthogonal classifier, a more compact embedding space can be obtained, which accordingly improves the model robustness against adversarial attacks. An averaging accuracy of 56.91% is achieved by our method on CIFAR-10 against various attack methods, which significantly surpasses a solid baseline (Mixup) by a margin of 37.31%. More surprisingly, empirical results show that, the proposed method can also achieve the state-of-the-art performance for out-of-distribution (OOD) detection, due to the learned compact feature space. An F1 score of 0.937 is achieved by the proposed method, when adopting CIFAR-10 as in-distribution (ID) dataset and LSUN as OOD dataset. Code is available at https://github.com/HaozheLiu-ST/DynamicFeatureAggregation.
翻訳日:2022-05-17 13:57:07 公開日:2022-05-16
# Deep Spectral Methods: Unsupervised Semantic Segmentation and Localization のための驚くほど強力なベースライン

Deep Spectral Methods: A Surprisingly Strong Baseline for Unsupervised Semantic Segmentation and Localization ( http://arxiv.org/abs/2205.07839v1 )

ライセンス: Link先を確認
Luke Melas-Kyriazi and Christian Rupprecht and Iro Laina and Andrea Vedaldi(参考訳) 教師なしのローカライゼーションとセグメンテーションは、ラベル付きデータなしでイメージを意味的に意味のあるセグメントに分解する、長年にわたるコンピュータビジョンの課題である。 これらのタスクは、高密度な画像アノテーションを得ることの困難さとコストのため、教師なしの環境で特に興味深いが、既存の教師なしのアプローチは、複数のオブジェクトを含む複雑なシーンで苦労している。 深層学習に基づく既存の手法とは違って,画像分解をグラフ分割問題として考えることで,従来のスペクトル分割法から着想を得た。 具体的には,自己教師付きネットワークによる特徴親和行列のラプラシアンの固有ベクトルについて検討する。 これらの固有ベクトルはすでにイメージを意味のあるセグメントに分解しており、シーン内のオブジェクトのローカライズに容易に利用できる。 さらに、データセットにまたがってこれらのセグメントに関連する特徴をクラスタリングすることにより、よく定義された名前付き領域、すなわち意味セグメンテーションを得ることができる。 複雑なデータセット (pascal voc, ms-coco) の実験により、我々の単純なスペクトル法は教師なしの局所化とセグメンテーションにおいて有意なマージンで最先端を上回っていることが示されている。 さらに,背景の除去や合成など,複雑な画像編集作業にも容易に利用することができる。

Unsupervised localization and segmentation are long-standing computer vision challenges that involve decomposing an image into semantically-meaningful segments without any labeled data. These tasks are particularly interesting in an unsupervised setting due to the difficulty and cost of obtaining dense image annotations, but existing unsupervised approaches struggle with complex scenes containing multiple objects. Differently from existing methods, which are purely based on deep learning, we take inspiration from traditional spectral segmentation methods by reframing image decomposition as a graph partitioning problem. Specifically, we examine the eigenvectors of the Laplacian of a feature affinity matrix from self-supervised networks. We find that these eigenvectors already decompose an image into meaningful segments, and can be readily used to localize objects in a scene. Furthermore, by clustering the features associated with these segments across a dataset, we can obtain well-delineated, nameable regions, i.e. semantic segmentations. Experiments on complex datasets (Pascal VOC, MS-COCO) demonstrate that our simple spectral method outperforms the state-of-the-art in unsupervised localization and segmentation by a significant margin. Furthermore, our method can be readily used for a variety of complex image editing tasks, such as background removal and compositing.
翻訳日:2022-05-17 13:56:38 公開日:2022-05-16
# (参考訳) 潜時変時対話政策のための連続的後部テーピング

Taming Continuous Posteriors for Latent Variational Dialogue Policies ( http://arxiv.org/abs/2205.07633v1 )

ライセンス: CC BY 4.0
Marin Vlastelica, Patrick Ernst, Gyuri Szarvas(参考訳) タスク指向対話 (tod) システムでは, 潜在行動強化学習 (rl) における不定形変分推論の活用が, 対話成功の最適化に有効であることが示されている。 これまで、カテゴリー後部はパフォーマンスの主要な要因の1つとして議論されてきた。 本研究では、潜在作用RLに対するガウス変分後部を再検討し、分類学よりも優れた性能が得られることを示す。 学習手順を簡素化し,適切な応答コヒーレンスを維持するために潜在対話政策を定式化する手法を提案する。 連続潜時表現を用いることで,MultiWOZベンチマーク上での対話成功率の状態を達成し,応答コヒーレンスにおけるカテゴリー潜時手法とよく比較する。

Utilizing amortized variational inference for latent-action reinforcement learning (RL) has been shown to be an effective approach in Task-oriented Dialogue (ToD) systems for optimizing dialogue success. Until now, categorical posteriors have been argued to be one of the main drivers of performance. In this work we revisit Gaussian variational posteriors for latent-action RL and show that they can yield even better performance than categoricals. We achieve this by simplifying the training procedure and propose ways to regularize the latent dialogue policy to retain good response coherence. Using continuous latent representations our model achieves state of the art dialogue success rate on the MultiWOZ benchmark, and also compares well to categorical latent methods in response coherence.
翻訳日:2022-05-17 13:53:08 公開日:2022-05-16
# Miutsu:NTUのTaskBot for the Alexa Prize

Miutsu: NTU's TaskBot for the Alexa Prize ( http://arxiv.org/abs/2205.07446v1 )

ライセンス: Link先を確認
Yen-Ting Lin, Hui-Chi Kuo, Ze-Song Xu, Ssu Chiu, Chieh-Chi Hung, Yi-Cheng Chen, Chao-Wei Huang, Yun-Nung Chen(参考訳) 本稿では,台湾国立大学のAlexa Prize TaskBotであるMiutsuを紹介する。 システム設計とアーキテクチャの目標を概観し,質問応答,タスク検索,ソーシャルチャット,さまざまな会話モジュールなど,提案する中核要素について詳述する。 複雑なタスクを扱う際に、堅牢で魅力的な会話を提供するために対話フローを提案する。 我々は,競争中の直面する課題と今後の課題について議論する。

This paper introduces Miutsu, National Taiwan University's Alexa Prize TaskBot, which is designed to assist users in completing tasks requiring multiple steps and decisions in two different domains -- home improvement and cooking. We overview our system design and architectural goals, and detail the proposed core elements, including question answering, task retrieval, social chatting, and various conversational modules. A dialogue flow is proposed to provide a robust and engaging conversation when handling complex tasks. We discuss the faced challenges during the competition and potential future work.
翻訳日:2022-05-17 13:30:30 公開日:2022-05-16
# FactPEGASUS:抽象要約のためのファクタリティを考慮した事前学習と微調整

FactPEGASUS: Factuality-Aware Pre-training and Fine-tuning for Abstractive Summarization ( http://arxiv.org/abs/2205.07830v1 )

ライセンス: Link先を確認
David Wan, Mohit Bansal(参考訳) 我々は,(1)ペガサス(zhang et al., 2020)の文選択戦略を補強し,重要かつ事実である疑似要約を作成すること,(2)微調整のための3つの補完的要素を導入すること,という,事前学習と微調整の間の事実性の問題に対処する抽象的要約モデルであるfactpegasusを提案する。 補正器は、参照要約に存在する幻覚を取り除き、対比器は、非事実要約と事実要約とをよりよく区別するためにコントラスト学習を使用し、コネクタは、知識の伝達を改善するために、事前訓練と微調整の間のギャップを橋渡しする。 3つの下流タスクの実験により、FactPEGASUSは複数の自動メトリクスと人間によって評価された事実性を大幅に改善することを示した。 分析の結果,FactPEGASUSはゼロショットや少数ショットの設定において,本来の事前学習目標よりも現実的であり,強靭なベースラインよりも現実的行動が頑健であり,事実性の向上に全力を注いでいないことが示唆された。 私たちのコードとデータは、https://github.com/meetdavidwan/factpegasusで公開されている。

We present FactPEGASUS, an abstractive summarization model that addresses the problem of factuality during pre-training and fine-tuning: (1) We augment the sentence selection strategy of PEGASUS's (Zhang et al., 2020) pre-training objective to create pseudo-summaries that are both important and factual; (2) We introduce three complementary components for fine-tuning. The corrector removes hallucinations present in the reference summary, the contrastor uses contrastive learning to better differentiate nonfactual summaries from factual ones, and the connector bridges the gap between the pre-training and fine-tuning for better transfer of knowledge. Experiments on three downstream tasks demonstrate that FactPEGASUS substantially improves factuality evaluated by multiple automatic metrics and humans. Our thorough analysis suggests that FactPEGASUS is more factual than using the original pre-training objective in zero-shot and few-shot settings, retains factual behavior more robustly than strong baselines, and does not rely entirely on becoming more extractive to improve factuality. Our code and data are publicly available at: https://github.com/meetdavidwan/factpegasus
翻訳日:2022-05-17 13:30:20 公開日:2022-05-16
# 深層強化学習におけるプライマリーバイアス

The Primacy Bias in Deep Reinforcement Learning ( http://arxiv.org/abs/2205.07802v1 )

ライセンス: Link先を確認
Evgenii Nikishin, Max Schwarzer, Pierluca D'Oro, Pierre-Luc Bacon, Aaron Courville(参考訳) この研究は、深層強化学習(RL)アルゴリズムの共通の欠陥を識別する: 初期の相互作用に頼り、後で遭遇した有用な証拠を無視する傾向である。 徐々に成長するデータセットのトレーニングのため、深いRLエージェントは、初期の経験に過度に適合するリスクを負い、学習プロセスの他の部分に悪影響を及ぼす。 認知科学にインスパイアされたこの効果を、プライマリーバイアス(priminacy bias)と呼ぶ。 一連の実験を通じて、このバイアスを悪化させる深層rlのアルゴリズム的側面を解析する。 次に,エージェントの一部を定期的に再設定することによってプライマリシーバイアスに取り組む,単純かつ一般に適用可能な機構を提案する。 このメカニズムを離散(Atari 100k)と連続動作(DeepMind Control Suite)の両方のアルゴリズムに適用し、その性能を継続的に改善する。

This work identifies a common flaw of deep reinforcement learning (RL) algorithms: a tendency to rely on early interactions and ignore useful evidence encountered later. Because of training on progressively growing datasets, deep RL agents incur a risk of overfitting to earlier experiences, negatively affecting the rest of the learning process. Inspired by cognitive science, we refer to this effect as the primacy bias. Through a series of experiments, we dissect the algorithmic aspects of deep RL that exacerbate this bias. We then propose a simple yet generally-applicable mechanism that tackles the primacy bias by periodically resetting a part of the agent. We apply this mechanism to algorithms in both discrete (Atari 100k) and continuous action (DeepMind Control Suite) domains, consistently improving their performance.
翻訳日:2022-05-17 13:29:56 公開日:2022-05-16
# (参考訳) 独立部分の個別学習(TIPSy-GAN) : 教師なし対人2次元から3次元姿勢推定における精度と安定性の向上

"Teaching Independent Parts Separately"(TIPSy-GAN) : Improving Accuracy and Stability in Unsupervised Adversarial 2D to 3D Human Pose Estimation ( http://arxiv.org/abs/2205.05980v2 )

ライセンス: CC BY 4.0
Peter Hardy and Srinandan Dasmahapatra and Hansung Kim(参考訳) 教師なし対人2次元から3次元のポーズ推定における精度と安定性を改善するための新しいアプローチであるTIPSy-GANを提案する。 本研究では,人間の運動骨格を空間的共依存構造として捉えるべきではないことを実証する。 実際、トレーニング中に完全な2Dポーズが提供されると、キーポイントの3D座標が他のすべてのキーポイントの2D位置と空間的に共依存していることが学習される固有のバイアスがある。 この理論を解明するために, 先行するアプローチを踏襲するが, 運動骨格, 背骨, 脚の空間的に独立した部位で2つの生成器を訓練する。 評価誤差を低減し,トレーニング中に新たな一貫性制約を導入するためには,2次元再投影自己矛盾サイクルの改善が鍵となる。 TIPSyはこれらのジェネレータからの知識蒸留によって生成され、2次元のポーズ全体の3次元座標を予測できる。 さらに,教師なしシナリオのトレーニングに要する時間について,先行研究で未解決の疑問に対処する。 本研究では,2つの独立発電機の安定性が,対向ネットワークの不安定化により崩壊する単独発電機よりも向上したことを示す。 TIPSyは、ベースラインのソロジェネレータと比べて平均誤差を18%減少させる。 TIPSyは他の教師なしアプローチを改善し、Human3.6MとMPI-INF-3DHPデータセットの評価において、教師なしアプローチと弱教師付きアプローチに強く反対する。

We present TIPSy-GAN, a new approach to improve the accuracy and stability in unsupervised adversarial 2D to 3D human pose estimation. In our work we demonstrate that the human kinematic skeleton should not be assumed as one spatially codependent structure. In fact, we believe when a full 2D pose is provided during training, there is an inherent bias learned where the 3D coordinate of a keypoint is spatially codependent on the 2D locations of all other keypoints. To investigate our theory we follow previous adversarial approaches but train two generators on spatially independent parts of the kinematic skeleton, the torso and the legs. We find that improving the 2D reprojection self-consistency cycle is key to lowering the evaluation error and therefore introduce new consistency constraints during training. A TIPSy is produced model via knowledge distillation from these generators which can predict the 3D coordinates for the entire 2D pose with improved results. Furthermore, we address the question left unanswered in prior work detailing how long to train for a truly unsupervised scenario. We show that two independent generators training adversarially has improved stability than that of a solo generator which will collapse due to the adversarial network becoming unstable. TIPSy decreases the average error by 18% when compared to that of a baseline solo generator. TIPSy improves upon other unsupervised approaches while also performing strongly against supervised and weakly-supervised approaches during evaluation on both the Human3.6M and MPI-INF-3DHP dataset.
翻訳日:2022-05-17 12:49:09 公開日:2022-05-16
# (参考訳) 入射再投射ネットワークによる単眼的人体デジタル化

Monocular Human Digitization via Implicit Re-projection Networks ( http://arxiv.org/abs/2205.06468v2 )

ライセンス: CC BY 4.0
Min-Gyu Park, Ju-Mi Kang, Je Woo Kim, Ju Hong Yoon(参考訳) 画像から3次元モデルを生成する手法を提案する。 フレームワークの鍵となるのは、両面の直交深度マップとカラー画像が単一の視点で投影された画像から予測できることである。 私たちのフレームワークは3つのネットワークで構成されています。 第1のネットワークは、通常の地図を予測して、衣服や顔領域のしわなどの幾何学的詳細を復元する。 第2のネットワークは、予測された正規地図を用いて、フロント及びバックビューのシェード削除画像を予測する。 最後のマルチヘッドネットワークは、通常の地図と日陰のない画像の両方を取り込み、マルチヘッドアテンションゲートを介して測光情報と幾何情報を選択的に融合しながら深度マップを予測する。 実験の結果,最先端手法に対する各種評価指標を用いて,視覚的に有望な結果と競争力を示すことができた。

We present an approach to generating 3D human models from images. The key to our framework is that we predict double-sided orthographic depth maps and color images from a single perspective projected image. Our framework consists of three networks. The first network predicts normal maps to recover geometric details such as wrinkles in the clothes and facial regions. The second network predicts shade-removed images for the front and back views by utilizing the predicted normal maps. The last multi-headed network takes both normal maps and shade-free images and predicts depth maps while selectively fusing photometric and geometric information through multi-headed attention gates. Experimental results demonstrate that our method shows visually plausible results and competitive performance in terms of various evaluation metrics over state-of-the-art methods.
翻訳日:2022-05-17 12:29:36 公開日:2022-05-16
# 分散型SGDにおける重機現象

Heavy-Tail Phenomenon in Decentralized SGD ( http://arxiv.org/abs/2205.06689v2 )

ライセンス: Link先を確認
Mert Gurbuzbalaban, Yuanhan Hu, Umut Simsekli, Kun Yuan, Lingjiong Zhu(参考訳) 近年の理論的研究により、ガウスデータによる線形回帰のような驚くほど単純な設定でも「乗法雑音」による確率的最適化において重項が現れることが示されている。 これらの研究はいくつかの興味深い現象を明らかにしているが、現代の機械学習アプリケーションで自然に発生する分散型設定を除外する従来の確率最適化問題を考察している。 本稿では,分散確率勾配降下(de-sgd)におけるヘビーテールの出現と,分散がテール挙動に及ぼす影響について検討する。 まず、各計算ノードの損失関数がコンパクト領域の外側で連続的に微分可能であり、強い凸であるとき、DEC-SGDの法則は多項式的に減衰する(重)尾を持つ分布に収束することを示す。 次に,各ノードにおける損失が二次的である場合について,より明示的な制御を行うために,各ノードのネットワークのステップサイズ,バッチサイズ,および位相特性の関数としてテールインデックスを推定可能であることを示す。 次に,D-SGDが集中型SGDよりも重い尾を持つことを示す理論的,実証的な結果を示す。 また,ノードがデータを分散するが通信しない非分離sgdと比較した。 我々の理論は、テールとネットワーク構造の間の興味深い相互作用を明らかにしている: ステップサイズとネットワークサイズ(de-sgdが、レジームに応じて切断されたsgdよりも軽いかより重いテールを持つことができる2つのパラメータのレジーム(ステップサイズとネットワークサイズ)を識別する。 最後に, 理論的結果を支援するため, 合成データとニューラルネットワークの両方で数値実験を行った。

Recent theoretical studies have shown that heavy-tails can emerge in stochastic optimization due to `multiplicative noise', even under surprisingly simple settings, such as linear regression with Gaussian data. While these studies have uncovered several interesting phenomena, they consider conventional stochastic optimization problems, which exclude decentralized settings that naturally arise in modern machine learning applications. In this paper, we study the emergence of heavy-tails in decentralized stochastic gradient descent (DE-SGD), and investigate the effect of decentralization on the tail behavior. We first show that, when the loss function at each computational node is twice continuously differentiable and strongly convex outside a compact region, the law of the DE-SGD iterates converges to a distribution with polynomially decaying (heavy) tails. To have a more explicit control on the tail exponent, we then consider the case where the loss at each node is a quadratic, and show that the tail-index can be estimated as a function of the step-size, batch-size, and the topological properties of the network of the computational nodes. Then, we provide theoretical and empirical results showing that DE-SGD has heavier tails than centralized SGD. We also compare DE-SGD to disconnected SGD where nodes distribute the data but do not communicate. Our theory uncovers an interesting interplay between the tails and the network structure: we identify two regimes of parameters (stepsize and network size), where DE-SGD can have lighter or heavier tails than disconnected SGD depending on the regime. Finally, to support our theoretical results, we provide numerical experiments conducted on both synthetic data and neural networks.
翻訳日:2022-05-17 11:48:20 公開日:2022-05-16