このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220511となっている論文です。

PDF登録状況(公開日: 20220511)

TitleAuthorsAbstract論文公表日・翻訳日
# 物質移動学習と感度解析を用いた物理インフォームドディープコロケーション法による非均一媒体の3次元ポテンシャル問題の解析

Analysis of three dimensional potential problems in non-homogeneous media with physics-informed deep collocation method using material transfer learning and sensitivity analysis ( http://arxiv.org/abs/2010.12060v2 )

ライセンス: Link先を確認
Hongwei Guo, Xiaoying Zhuang, Pengwan Chen, Naif Alajlan and Timon Rabczuk(参考訳) 本研究では,非均一媒体における3次元ポテンシャル問題に対する深層コロケーション法を提案する。 このアプローチは、非均一偏微分方程式の解を最適化問題に還元する物質移動学習を伴う物理情報ニューラルネットワークを利用する。 我々は、スムーズなアクティベーション関数、コロケーション点生成のためのサンプリング方法、最適化器の組み合わせを含む、物理情報ニューラルネットワークの異なるコフィギュレーションを試験した。 物質移動学習技術は, 物質次数やパラメータの異なる非均一媒質に応用され, 提案手法の汎用性と堅牢性を高めた。 ネットワーク構成の最も影響力のあるパラメータを特定するために,グローバルな感度解析を行った。 最後に、DCMの収束証明を提供する。 このアプローチはいくつかのベンチマーク問題を通じて検証され、異なる素材のバリエーションをテストする。

In this work, we present a deep collocation method for three dimensional potential problems in nonhomogeneous media. This approach utilizes a physics informed neural network with material transfer learning reducing the solution of the nonhomogeneous partial differential equations to an optimization problem. We tested different cofigurations of the physics informed neural network including smooth activation functions, sampling methods for collocation points generation and combined optimizers. A material transfer learning technique is utilised for nonhomogeneous media with different material gradations and parameters, which enhance the generality and robustness of the proposed method. In order to identify the most influential parameters of the network configuration, we carried out a global sensitivity analysis. Finally, we provide a convergence proof of our DCM. The approach is validated through several benchmark problems, also testing different material variations.
翻訳日:2022-10-11 11:46:41 公開日:2022-05-11
# インフォメーションサブサンプリングのための最大サンプル条件付き確率

Maximum sampled conditional likelihood for informative subsampling ( http://arxiv.org/abs/2011.05988v3 )

ライセンス: Link先を確認
HaiYing Wang and Jae Kwang Kim(参考訳) サブサンプリングは、計算資源が限られているときに大量のデータセットから情報を抽出する計算学的に効果的な手法である。 サブサンプルを全データから取り出した後、ほとんどの利用可能な方法は、逆確率重み付き(IPW)客観的関数を使ってモデルパラメータを推定する。 IPW推定器は、選択したサブサンプルの情報を十分に活用していない。 本稿では,サンプルデータに基づく最大条件付き確率推定器(MSCLE)を提案する。 我々は,MSCLEの漸近正規性を確立し,その漸近分散共分散行列がIPW推定器を含む漸近的非偏差推定器群の中で最小であることを証明した。 さらに、L-最適サブサンプリング確率による漸近的な結果について議論し、一般化線形モデルによる推定手順を説明する。 提案手法の実用性を評価するための数値実験を行った。

Subsampling is a computationally effective approach to extract information from massive data sets when computing resources are limited. After a subsample is taken from the full data, most available methods use an inverse probability weighted (IPW) objective function to estimate the model parameters. The IPW estimator does not fully utilize the information in the selected subsample. In this paper, we propose to use the maximum sampled conditional likelihood estimator (MSCLE) based on the sampled data. We established the asymptotic normality of the MSCLE and prove that its asymptotic variance covariance matrix is the smallest among a class of asymptotically unbiased estimators, including the IPW estimator. We further discuss the asymptotic results with the L-optimal subsampling probabilities and illustrate the estimation procedure with generalized linear models. Numerical experiments are provided to evaluate the practical performance of the proposed method.
翻訳日:2022-09-27 01:13:11 公開日:2022-05-11
# Contrastive Graph Convolutional Network を用いたハイパースペクトル画像分類

Hyperspectral Image Classification With Contrastive Graph Convolutional Network ( http://arxiv.org/abs/2205.11237v1 )

ライセンス: Link先を確認
Wentao Yu, Sheng Wan, Guangyu Li, Jian Yang, Chen Gong(参考訳) 近年,グラフ畳み込みネットワーク (GCN) がハイパースペクトル画像 (HSI) 分類で広く利用されている。 しかし、ラベル付きピクセルの数はHSIでは非常に限られているため、利用可能な監視情報は通常不十分であり、既存のGCNベースのメソッドの表現能力は必然的に低下する。 本稿では,コントラストグラフ畳み込みネットワーク(ConGCN, Contrastive Graph Convolutional Network, コントラストグラフ畳み込みネットワーク)と呼ばれるスペクトル情報と空間関係の両方に含まれる監視信号を調べるために, コントラスト学習を用いたGCNモデルを提案する。 まず、スペクトル情報から十分な監視信号をマイニングするために、同一のノードの異なるビューと同一のランドカバーカテゴリのノードとの一致を最大化するために、半教師付きコントラスト損失関数を利用する。 第二に、HSIにおける貴重な空間関係を抽出するために、グラフ生成損失関数を利用して、グラフトポロジに含まれる補助的な監視信号を調べる。 さらに,HSIのスペクトル空間的先行を柔軟に組み込むことにより,その後のコントラスト表現学習を支援する適応グラフ拡張手法を考案した。 4つの典型的なベンチマークデータセットの広範な実験結果は、質的および定量的にcongcnの有効性を確証している。

Recently, Graph Convolutional Network (GCN) has been widely used in Hyperspectral Image (HSI) classification due to its satisfactory performance. However, the number of labeled pixels is very limited in HSI, and thus the available supervision information is usually insufficient, which will inevitably degrade the representation ability of most existing GCN-based methods. To enhance the feature representation ability, in this paper, a GCN model with contrastive learning is proposed to explore the supervision signals contained in both spectral information and spatial relations, which is termed Contrastive Graph Convolutional Network (ConGCN), for HSI classification. First, in order to mine sufficient supervision signals from spectral information, a semi-supervised contrastive loss function is utilized to maximize the agreement between different views of the same node or the nodes from the same land cover category. Second, to extract the precious yet implicit spatial relations in HSI, a graph generative loss function is leveraged to explore supplementary supervision signals contained in the graph topology. In addition, an adaptive graph augmentation technique is designed to flexibly incorporate the spectral-spatial priors of HSI, which helps facilitate the subsequent contrastive representation learning. The extensive experimental results on four typical benchmark datasets firmly demonstrate the effectiveness of the proposed ConGCN in both qualitative and quantitative aspects.
翻訳日:2022-05-29 20:40:02 公開日:2022-05-11
# dual branch prior-segnet:プランニングスキャンと補助セグメンテーション損失を用いた介入型cbctのためのcnn

Dual Branch Prior-SegNet: CNN for Interventional CBCT using Planning Scan and Auxiliary Segmentation Loss ( http://arxiv.org/abs/2205.10353v1 )

ライセンス: Link先を確認
Philipp Ernst, Suhita Ghosh, Georg Rose, Andreas N\"urnberger(参考訳) 本稿では,高品質プランニングスキャンを組み込んだsparse view interventional cbct再構成のためのdual branch prior-netの拡張を提案する。 追加のヘッドは、セグメント介入機器を学習し、リコンストラクションタスクをガイドする。 事前スキャンは、訓練中に最大+-5degでミスアライメントされる。 実験の結果,提案モデルであるDual Branch Prior-SegNetは, >2.8dB PSNRで評価されたモデルよりも有意に優れていた。 堅牢な wrt も保持する。 回転は+-5.5degまで。

This paper proposes an extension to the Dual Branch Prior-Net for sparse view interventional CBCT reconstruction incorporating a high quality planning scan. An additional head learns to segment interventional instruments and thus guides the reconstruction task. The prior scans are misaligned by up to +-5deg in-plane during training. Experiments show that the proposed model, Dual Branch Prior-SegNet, significantly outperforms any other evaluated model by >2.8dB PSNR. It also stays robust wrt. rotations of up to +-5.5deg.
翻訳日:2022-05-29 20:38:02 公開日:2022-05-11
# (参考訳) MAS2HP:2次元HPモデルにおけるタンパク質構造予測のためのマルチエージェントシステム

MAS2HP: A Multi Agent System to predict protein structure in 2D HP model ( http://arxiv.org/abs/2205.08451v1 )

ライセンス: CC BY 4.0
Hossein Parineh, Nasser Mozayani(参考訳) タンパク質構造予測 (psp) は計算生物学の分野で未解決の問題である。 タンパク質構造予測の問題はタンパク質のネイティブコンフォメーションを予測することであり、そのアミノ酸の配列は知られている。 現在のコンピュータシステムの処理限界に関して、タンパク質の全ての原子シミュレーションは一般的に実践的ではなく、いくつかのタンパク質の縮小モデルが提案されている。 さらに, 還元モデルにおいても計算が本質的に困難であることから, 主に人工知能に基づく計算手法が提案されている。 エージェントベースモデリングは、相互作用するアイテムからなるシステムの比較的新しいモデリング方法である。 本稿では,2次元疎水性-親水性モデルにおけるエージェントベースモデリング(ABM)を用いたタンパク質構造予測の新しい手法を提案する。 先述の論文で紹介された最初のステップは一次エネルギーを得るために線形配列を偏らせることであり、次のステップは、事前定義されたルールセットでabmを使用し、可能な限りの時間とステップで最適なコンフォーメーションを見つけることである。 この方法はNETLOGOで実装された。 我々はこのアルゴリズムを2次元疎水性-親水性格子モデルにおいて20-50メルのベンチマークシーケンスで検証した。 提案手法は,他のアルゴリズムと比較して,非常に短い時間で最もよく知られたコンフォメーションを見つけることができる。 pspシミュレーションの大きな問題は、シーケンス長が増加すると、有効な構造を予測するのに費やされる時間が指数関数的に増加することである。 対照的にmas2hpを用いることで、使用時間に対するシーケンス長の増加が指数関数的に線形に変化した。

Protein Structure Prediction (PSP) is an unsolved problem in the field of computational biology. The problem of protein structure prediction is about predicting the native conformation of a protein, while its sequence of amino acids is known. Regarding processing limitations of current computer systems, all-atom simulations for proteins are typically unpractical; several reduced models of proteins have been proposed. Additionally, due to intrinsic hardness of calculations even in reduced models, many computational methods mainly based on artificial intelligence have been proposed to solve the problem. Agent-based modeling is a relatively new method for modeling systems composed of interacting items. In this paper we proposed a new approach for protein structure prediction by using agent-based modeling (ABM) in two dimensional hydrophobic-hydrophilic model. We broke the whole process of protein structure prediction into two steps: the first step, which was introduced in our previous paper, is about biasing the linear sequence to gain a primary energy, and the next step, which will be explained in this paper, is about using ABM with a predefined set of rules, to find the best conformation in the least possible amount of time and steps. This method was implemented in NETLOGO. We have tested this algorithm on several benchmark sequences ranging from 20 to 50-mers in two dimensional Hydrophobic-Hydrophilic lattice models. Comparing to the result of the other algorithms, our method is capable of finding the best known conformations in a significantly shorter time. A major problem in PSP simulation is that as the sequence length increases the time consumed to predict a valid structure will exponentially increase. In contrast, by using MAS2HP the effect of increase in sequence length on spent time has changed from exponentially to linear.
翻訳日:2022-05-22 13:20:19 公開日:2022-05-11
# (参考訳) 技術者のための量子機械学習入門

An Introduction to Quantum Machine Learning for Engineers ( http://arxiv.org/abs/2205.09510v1 )

ライセンス: CC BY 4.0
Osvaldo Simeone(参考訳) 現在のノイズの多い中間スケール量子(NISQ)時代には、ゲートベースの量子コンピュータをプログラムするための支配的なパラダイムとして量子機械学習が登場しつつある。 量子機械学習では、量子回路のゲートはパラメータ化され、パラメータはデータと回路の出力の測定に基づいて古典的な最適化によって調整される。 パラメタライズド量子回路(PQC)は組合せ最適化問題を効率的に解決し、確率的生成モデルを実装し、推論(分類と回帰)を行う。 このモノグラフは、確率と線形代数の背景を持つエンジニアの聴衆に対して、自己完結した量子機械学習入門を提供する。 量子演算と測定を記述するのに必要な背景、概念、ツールを最初に記述する。 次に、パラメトリゼーション量子回路、変分量子固有解法、および教師なしおよび教師なし量子機械学習の定式化をカバーする。

In the current noisy intermediate-scale quantum (NISQ) era, quantum machine learning is emerging as a dominant paradigm to program gate-based quantum computers. In quantum machine learning, the gates of a quantum circuit are parametrized, and the parameters are tuned via classical optimization based on data and on measurements of the outputs of the circuit. Parametrized quantum circuits (PQCs) can efficiently address combinatorial optimization problems, implement probabilistic generative models, and carry out inference (classification and regression). This monograph provides a self-contained introduction to quantum machine learning for an audience of engineers with a background in probability and linear algebra. It first describes the necessary background, concepts, and tools necessary to describe quantum operations and measurements. Then, it covers parametrized quantum circuits, the variational quantum eigensolver, as well as unsupervised and supervised quantum machine learning formulations.
翻訳日:2022-05-22 13:09:29 公開日:2022-05-11
# (参考訳) スマートかつ継続的なコミッショニングのためのオントロジーのレビュー

A review of ontologies for smart and continuous commissioning ( http://arxiv.org/abs/2205.07636v1 )

ライセンス: CC BY-SA 4.0
Sara Gilani, Caroline Quinn, J.J. McArthur (Faculty of Engineering and Architectural Science, Ryerson University, Toronto, Canada)(参考訳) 建築物のスマートかつ連続的なコミッショニング(SCCx)は、設計と運用性能のギャップを著しく減らす可能性がある。 オントロジは、マシンによるデータの可読性と推論を促進するため、SCCxにおいて重要な役割を果たす。 オントロジーの理解を深めるためには、それらを SCCx に組み込む必要がある。 本稿では,2014年以降のsccx領域におけるデータオントロジーの構築に関する最新研究を,データ型の構築,一般的なアプローチ,アプリケーションに基づいて分類することで批判的に評価する。 情報モデリングと構築管理システムの2つの主要領域のデータ型は,既存のオントロジーの大部分で検討されている。 既存のオントロジーの批判的分析から,(1)鍵性能指標計算,(2)建築性能の改善,(3)故障検出と診断の3つの主な応用が明らかである。 文献レビューに見られる大きなギャップは、SCCxの全体論的なオントロジーと、そのようなアプローチをどのように評価すべきかについての洞察である。 本研究は,SCCx関連データ型の同定,オントロジー性能の評価,オープンソースアプローチの創出など,今後の研究の必要性を示唆するものである。

Smart and continuous commissioning (SCCx) of buildings can result in a significant reduction in the gap between design and operational performance. Ontologies play an important role in SCCx as they facilitate data readability and reasoning by machines. A better understanding of ontologies is required in order to develop and incorporate them in SCCx. This paper critically reviews the state-of-the-art research on building data ontologies since 2014 within the SCCx domain through sorting them based on building data types, general approaches, and applications. The data types of two main domains of building information modeling and building management system have been considered in the majority of existing ontologies. Three main applications are evident from a critical analysis of existing ontologies: (1) key performance indicator calculation, (2) building performance improvement, and (3) fault detection and diagnosis. The key gaps found in the literature review are a holistic ontology for SCCx and insight on how such approaches should be evaluated. Based on these findings, this study provides recommendations for future necessary research including: identification of SCCx-related data types, assessment of ontology performance, and creation of open-source approaches.
翻訳日:2022-05-22 13:08:28 公開日:2022-05-11
# (参考訳) データ前処理、ニューラルネットワークモデル、トレーディング戦略を含む金融時系列データと互換性のあるディープニューラルネットワークフレームワーク

Compatible deep neural network framework with financial time series data, including data preprocessor, neural network model and trading strategy ( http://arxiv.org/abs/2205.08382v1 )

ライセンス: CC BY 4.0
Mohammadmahdi Ghahramani, Hamid Esmaeili Najafabadi(参考訳) 経験から、株式と暗号通貨市場の取引は高い利益をもたらす可能性があることが示されている。 この光の中で、最近、市場行動の解釈と予測に機械学習とディープラーニングを適用する方法について、かなりの努力が注がれている。 この研究は、新しいディープニューラルネットワークアーキテクチャと、それらをモデルに供給する前に財務データを準備する方法の新しいアイデアを紹介する。 データ準備部では、まず技術的な指標を使って多くの機能を生成し、それから機能エンジニアリングにXGBoostモデルを適用する。 データを3つのカテゴリに分割し、分離したオートエンコーダを用いて、2番目のステップでハイレベルな混合特徴を抽出する。 このデータ前処理は価格変動を予測するために導入される。 モデリングに関しては、異なる畳み込み層、長い短期記憶ユニット、およびいくつかの完全接続層がバイナリ分類を行うように設計されている。 この研究は、訓練されたモデル出力を活用するためのトレーディング戦略も導入している。 この手法を評価するために3つの異なるデータセットが使用され、その結果、このフレームワークが有益でロバストな予測を私たちに提供できることが示されている。

Experience has shown that trading in stock and cryptocurrency markets has the potential to be highly profitable. In this light, considerable effort has been recently devoted to investigate how to apply machine learning and deep learning to interpret and predict market behavior. This research introduces a new deep neural network architecture and a novel idea of how to prepare financial data before feeding them to the model. In the data preparation part, the first step is to generate many features using technical indicators and then apply the XGBoost model for feature engineering. Splitting data into three categories and using separate autoencoders, we extract high-level mixed features at the second step. This data preprocessing is introduced to predict price movements. Regarding modeling, different convolutional layers, an long short-term memory unit, and several fully-connected layers have been designed to perform binary classification. This research also introduces a trading strategy to exploit the trained model outputs. Three different datasets are used to evaluate this method, where results indicate that this framework can provide us with profitable and robust predictions.
翻訳日:2022-05-22 13:07:25 公開日:2022-05-11
# Sparse View Cone Beam Computed Tomography ボリューム再構成のための2次元UNet

Primal-Dual UNet for Sparse View Cone Beam Computed Tomography Volume Reconstruction ( http://arxiv.org/abs/2205.07866v1 )

ライセンス: Link先を確認
Philipp Ernst, Soumick Chatterjee, Georg Rose, Andreas N\"urnberger(参考訳) 本稿では,スパースビューct再構成のための初歩的unetをコーンビーム投影に適用し,スライスではなくボリューム全体の再構成を行うように修正した。 実験の結果,提案手法のPSNRは直接FDK再構成と比較して10dB増加し,修正されたPrimal-Dual Networkに比べて約3dB向上した。 提示されたネットワークは最適化されていない。 メモリ消費やハイパーパラメータは概念実証としてのみ機能し、低解像度のプロジェクションやボリュームに限定される。

In this paper, the Primal-Dual UNet for sparse view CT reconstruction is modified to be applicable to cone beam projections and perform reconstructions of entire volumes instead of slices. Experiments show that the PSNR of the proposed method is increased by 10dB compared to the direct FDK reconstruction and almost 3dB compared to the modified original Primal-Dual Network when using only 23 projections. The presented network is not optimized wrt. memory consumption or hyperparameters but merely serves as a proof of concept and is limited to low resolution projections and volumes.
翻訳日:2022-05-22 11:18:13 公開日:2022-05-11
# マルチモーダル感情検出アルゴリズムのバイアスと公正性

Bias and Fairness on Multimodal Emotion Detection Algorithms ( http://arxiv.org/abs/2205.08383v1 )

ライセンス: Link先を確認
Matheus Schmitz, Rehan Ahmed, Jimi Cao(参考訳) 多くの研究で、機械学習アルゴリズムは人種や性別などの保護された属性をラッチし、1つまたは複数のグループに対して体系的に差別する予測を生成することが示されている。 これまで、偏見と公平性の研究の大半は、単調なモデルに関するものだった。 本研究では,感情認識システムに存在するバイアスを,活用されたモダリティと関連づけて検討し,マルチモーダルアプローチがシステムのバイアスや公平性に与える影響について検討する。 我々は、音声、テキスト、ビデオのモダリティ、およびそれらすべての多様性の組み合わせを考慮し、テキストだけではバイアスが少ないこと、モデルのパフォーマンスの大部分を考慮し、モデルパフォーマンスと並行してバイアスと公平性が望まれるマルチモーダル感情認識システムの価値に対する疑問を提起する。

Numerous studies have shown that machine learning algorithms can latch onto protected attributes such as race and gender and generate predictions that systematically discriminate against one or more groups. To date the majority of bias and fairness research has been on unimodal models. In this work, we explore the biases that exist in emotion recognition systems in relationship to the modalities utilized, and study how multimodal approaches affect system bias and fairness. We consider audio, text, and video modalities, as well as all possible multimodal combinations of those, and find that text alone has the least bias, and accounts for the majority of the models' performances, raising doubts about the worthiness of multimodal emotion recognition systems when bias and fairness are desired alongside model performance.
翻訳日:2022-05-22 10:58:29 公開日:2022-05-11
# CV4Code:Visual Code Representationによるソースコード理解

CV4Code: Sourcecode Understanding via Visual Code Representations ( http://arxiv.org/abs/2205.08585v1 )

ライセンス: Link先を確認
Ruibo Shi, Lili Tao, Rohan Saphal, Fran Silavong, Sean J. Moran(参考訳) ソースコード理解のためのコンパクトで効果的なコンピュータビジョン手法CV4Codeを提案する。 本手法は,各スニペットを2次元画像として扱うことで,コードスニペットから得られるコンテキスト情報と構造情報を活用し,そのコンテキストを自然にエンコードし,その基盤となる構造情報を明示的な空間表現で保持する。 画像としてスニペットを符号化するために,ソースコード画像の高速生成を容易にするASCII符号点に基づく画像表現を提案し,RGB画素表現から生じる符号化の冗長性を排除した。 さらに、ソースコードを画像として扱うため、語彙解析(分岐)も構文木解析も必要とせず、提案されたメソッドを特定のプログラミング言語に依存せず、アプリケーションパイプラインの観点から軽量にする。 CV4Codeは抽象構文木(AST)に依存するメソッドでは不可能な、構文的に正しくないコードをデファチュアライズすることができる。 本稿では,畳み込みネットワークとトランスフォーマーネットワークを学習して,その2次元表現から直接ソースコードの関数的タスク,すなわちその2次元表現を予測し,潜在空間からの埋め込みを用いて検索設定における2つのコードスニペットの類似度スコアを導出することにより,cv4codeの有効性を示す。 実験の結果,同じタスクとデータ構成を持つ他のメソッドと比較して,最先端のパフォーマンスを実現することができた。 ソースコード理解を画像処理タスクの一形態として扱うことのメリットを初めて示す。

We present CV4Code, a compact and effective computer vision method for sourcecode understanding. Our method leverages the contextual and the structural information available from the code snippet by treating each snippet as a two-dimensional image, which naturally encodes the context and retains the underlying structural information through an explicit spatial representation. To codify snippets as images, we propose an ASCII codepoint-based image representation that facilitates fast generation of sourcecode images and eliminates redundancy in the encoding that would arise from an RGB pixel representation. Furthermore, as sourcecode is treated as images, neither lexical analysis (tokenisation) nor syntax tree parsing is required, which makes the proposed method agnostic to any particular programming language and lightweight from the application pipeline point of view. CV4Code can even featurise syntactically incorrect code which is not possible from methods that depend on the Abstract Syntax Tree (AST). We demonstrate the effectiveness of CV4Code by learning Convolutional and Transformer networks to predict the functional task, i.e. the problem it solves, of the source code directly from its two-dimensional representation, and using an embedding from its latent space to derive a similarity score of two code snippets in a retrieval setup. Experimental results show that our approach achieves state-of-the-art performance in comparison to other methods with the same task and data configurations. For the first time we show the benefits of treating sourcecode understanding as a form of image processing task.
翻訳日:2022-05-22 10:58:13 公開日:2022-05-11
# 単純なコントラストグラフクラスタリング

Simple Contrastive Graph Clustering ( http://arxiv.org/abs/2205.07865v1 )

ライセンス: Link先を確認
Yue Liu, Xihong Yang, Sihang Zhou, Xinwang Liu(参考訳) コントラスト学習は最近、その有望なパフォーマンスでディープグラフクラスタリングに多くの注目を集めている。 しかし、複雑なデータ拡張と時間を要するグラフ畳み込み操作は、これらの方法の効率を損なう。 この問題を解決するために,ネットワークアーキテクチャ,データ拡張,目的関数の観点から既存の手法を改善するための単純なコントラストグラフクラスタリング(SCGC)アルゴリズムを提案する。 アーキテクチャに関しては,ネットワークには前処理とネットワークバックボーンという2つの主要な部分がある。 単純なローパス復調操作は、独立処理として隣接情報集約を行い、バックボーンには2つの多層パーセプトロン(MLP)のみを含む。 データ拡張のために、グラフに複雑な操作を導入する代わりに、パラメータの共有されていないシアムエンコーダを設計し、ノード埋め込みを直接破壊することで、同じ頂点の2つの拡張ビューを構築する。 最後に、目的関数について、さらにクラスタリング性能を向上させるために、学習ネットワークの識別能力を高めるために、新たなクロスビュー構造一貫性目的関数を設計する。 7つのベンチマークデータセットの大規模な実験結果から,提案アルゴリズムの有効性と優位性を検証した。 重要な点として、我々のアルゴリズムは、最近のコントラストの高いディープクラスタリング競合よりも、平均して7倍のスピードアップを達成している。

Contrastive learning has recently attracted plenty of attention in deep graph clustering for its promising performance. However, complicated data augmentations and time-consuming graph convolutional operation undermine the efficiency of these methods. To solve this problem, we propose a Simple Contrastive Graph Clustering (SCGC) algorithm to improve the existing methods from the perspectives of network architecture, data augmentation, and objective function. As to the architecture, our network includes two main parts, i.e., pre-processing and network backbone. A simple low-pass denoising operation conducts neighbor information aggregation as an independent pre-processing, and only two multilayer perceptrons (MLPs) are included as the backbone. For data augmentation, instead of introducing complex operations over graphs, we construct two augmented views of the same vertex by designing parameter un-shared siamese encoders and corrupting the node embeddings directly. Finally, as to the objective function, to further improve the clustering performance, a novel cross-view structural consistency objective function is designed to enhance the discriminative capability of the learned network. Extensive experimental results on seven benchmark datasets validate our proposed algorithm's effectiveness and superiority. Significantly, our algorithm outperforms the recent contrastive deep clustering competitors with at least seven times speedup on average.
翻訳日:2022-05-22 10:57:26 公開日:2022-05-11
# (参考訳) 大規模言語モデルを用いた文脈認識短縮拡張

Context-Aware Abbreviation Expansion Using Large Language Models ( http://arxiv.org/abs/2205.03767v3 )

ライセンス: CC BY 4.0
Shanqing Cai, Subhashini Venugopalan, Katrin Tomanek, Ajit Narayanan, Meredith Ringel Morris, Michael P. Brenner(参考訳) 重度運動障害のある人に対するAAC(Augmentative and Alternative Communication)におけるテキスト入力の高速化の必要性から,フレーズを単語初期文字として積極的に省略するパラダイムを提案する。 我々のアプローチは、事前訓練された大言語モデル(LLM)のパワーで会話コンテキストを活用することで、略語をフルフレーズに拡張することである。 4つの公開会話データセットのゼロショット、少数ショット、微調整実験により、ダイアログの初期回転に対する応答に対して、64Bパラメータを持つLLMは、省略長が最大10までのフレーズの70%以上を正確に拡張できることを示す。 単一の会話の形に少量の文脈を含めると、文脈を持たない場合に比べて略語拡大の精度が2倍以上になる。 さらに、騒音データに対する微調整により、タイポノイズに対するモデルのロバスト性を高めることができる。

Motivated by the need for accelerating text entry in augmentative and alternative communication (AAC) for people with severe motor impairments, we propose a paradigm in which phrases are abbreviated aggressively as primarily word-initial letters. Our approach is to expand the abbreviations into full-phrase options by leveraging conversation context with the power of pretrained large language models (LLMs). Through zero-shot, few-shot, and fine-tuning experiments on four public conversation datasets, we show that for replies to the initial turn of a dialog, an LLM with 64B parameters is able to exactly expand over 70% of phrases with abbreviation length up to 10, leading to an effective keystroke saving rate of up to about 77% on these exact expansions. Including a small amount of context in the form of a single conversation turn more than doubles abbreviation expansion accuracies compared to having no context, an effect that is more pronounced for longer phrases. Additionally, the robustness of models against typo noise can be enhanced through fine-tuning on noisy data.
翻訳日:2022-05-15 04:43:04 公開日:2022-05-11
# (参考訳) 柔軟な動的ストリーム分析のためのエッジクラウド統合フレームワーク

An Edge-Cloud Integrated Framework for Flexible and Dynamic Stream Analytics ( http://arxiv.org/abs/2205.04622v2 )

ライセンス: CC BY 4.0
Xin Wang, Azim Khan, Jianwu Wang, Aryya Gangopadhyay, Carl E. Busart, Jade Freeman(参考訳) IoT(Internet of Things)やエッジコンピューティング,クラウドコンピューティングの普及に伴い,IoTセンサデータ上でのリアルタイムトレンド予測やオブジェクト検出など,ストリーム分析アプリケーションの開発がますます進んでいる。 ストリーム分析の一般的なタイプの1つは、recurrent neural network(rnn)のディープラーニングモデルに基づく時系列あるいはシーケンスデータ予測と予測である。 処理対象のデータが前もって利用可能で変更されないと仮定した従来の分析とは違って、ストリーム分析では、継続的に生成されるデータと、データトレンド/分散(コンセプトドリフト)が変更され、予測/予測精度が時間とともに低下する可能性がある。 もうひとつの課題は,ストリーム分析に最適なリソースプロビジョニングを提供することによる,全体的なレイテンシの向上だ。 本稿では,rnnベースのストリーム分析において,エッジリソースとクラウドリソースを最大限に活用し,精度とレイテンシを向上させる方法について検討する。 本稿では,エッジ上の低レイテンシ推論とクラウド上の高容量トレーニングをサポートするハイブリッドストリーム分析のための,エッジクラウド統合フレームワークを提案する。 我々は,エッジ中心,クラウド中心,エッジクラウド統合といったハイブリッド学習フレームワークの柔軟な展開について検討する。 さらに,このハイブリッド学習フレームワークは,過去のデータに基づいて事前学習したrnnモデルと,最新のデータに基づいて周期的に再訓練された別のrnnモデルから推定結果を動的に結合することができる。 実世界とシミュレートされたストリームデータセットを用いて,提案するエッジクラウドデプロイメントが,レイテンシの観点から3つのデプロイメントタイプの中で最も優れていることを示す。 実験では,3つのコンセプトドリフトシナリオすべてにおいて,動的学習手法が最善の学習手法であることを示す。

With the popularity of Internet of Things (IoT), edge computing and cloud computing, more and more stream analytics applications are being developed including real-time trend prediction and object detection on top of IoT sensing data. One popular type of stream analytics is the recurrent neural network (RNN) deep learning model based time series or sequence data prediction and forecasting. Different from traditional analytics that assumes data to be processed are available ahead of time and will not change, stream analytics deals with data that are being generated continuously and data trend/distribution could change (aka concept drift), which will cause prediction/forecasting accuracy to drop over time. One other challenge is to find the best resource provisioning for stream analytics to achieve good overall latency. In this paper, we study how to best leverage edge and cloud resources to achieve better accuracy and latency for RNN-based stream analytics. We propose a novel edge-cloud integrated framework for hybrid stream analytics that support low latency inference on the edge and high capacity training on the cloud. We study the flexible deployment of our hybrid learning framework, namely edge-centric, cloud-centric and edge-cloud integrated. Further, our hybrid learning framework can dynamically combine inference results from an RNN model pre-trained based on historical data and another RNN model re-trained periodically based on the most recent data. Using real-world and simulated stream datasets, our experiments show the proposed edge-cloud deployment is the best among all three deployment types in terms of latency. For accuracy, the experiments show our dynamic learning approach performs the best among all learning approaches for all three concept drift scenarios.
翻訳日:2022-05-14 21:50:40 公開日:2022-05-11
# (参考訳) 周波数アテンションを用いた対人検知器に対する対人パッチのパワーアップ

Using Frequency Attention to Make Adversarial Patch Powerful Against Person Detector ( http://arxiv.org/abs/2205.04638v2 )

ライセンス: CC BY 4.0
Xiaochun Lei, Chang Lu, Zetao Jiang, Zhaoting Gong, Xiang Cai, Linjun Lu(参考訳) ディープニューラルネットワーク(DNN)は敵の攻撃に対して脆弱である。 特に、対象検出器は、画像に特定の逆パッチを適用することで攻撃される。 しかし、前処理中にパッチが縮小するので、敵のパッチを用いて物体検出器を攻撃する既存のアプローチは、中小規模のターゲットに対する攻撃成功率を低下させる。 本稿では、パッチ生成を誘導する周波数領域アテンションモジュールである周波数モジュール(FRAN)を提案する。 敵パッチの攻撃能力を最適化するために周波数領域注意を導入した最初の研究である。 本手法は,大規模標的の攻撃成功率を低下させることなく,ヨーロフ3を攻撃しながら人間検出器を騙すための最先端攻撃法よりも,中小ターゲットの攻撃成功率を4.18%,3.89%向上させる。

Deep neural networks (DNNs) are vulnerable to adversarial attacks. In particular, object detectors may be attacked by applying a particular adversarial patch to the image. However, because the patch shrinks during preprocessing, most existing approaches that employ adversarial patches to attack object detectors would diminish the attack success rate on small and medium targets. This paper proposes a Frequency Module(FRAN), a frequency-domain attention module for guiding patch generation. This is the first study to introduce frequency domain attention to optimize the attack capabilities of adversarial patches. Our method increases the attack success rates of small and medium targets by 4.18% and 3.89%, respectively, over the state-of-the-art attack method for fooling the human detector while assaulting YOLOv3 without reducing the attack success rate of big targets.
翻訳日:2022-05-14 21:07:49 公開日:2022-05-11
# (参考訳) セマンティックセグメンテーションのためのSTDC-MAネットワーク

STDC-MA Network for Semantic Segmentation ( http://arxiv.org/abs/2205.04639v2 )

ライセンス: CC BY 4.0
Xiaochun Lei, Linjun Lu, Zetao Jiang, Zhaoting Gong, Chang Lu, Jiaming Liang(参考訳) セマンティクスセグメンテーションは、空間的およびセマンティクス情報を高い要求する方法で、自動運転とインテリジェントトランスポーテーションに広く適用されている。 ここではこれらの要求を満たすためにSTDC-MAネットワークを提案する。 第一に、STDC-Seg構造は軽量で効率的な構造を確保するためにSTDC-MAで使用される。 次に、機能アライメントモジュール(fam)を用いて、高レベル特徴と低レベル特徴のオフセットを理解し、高レベル特徴マップのアップサンプリングに関連する画素オフセットの問題を解決する。 提案手法は,高次特徴と低次特徴との効果的な融合を実現する。 1つの画像の2つの異なる入力サイズから注目領域間の関係を明らかにするために階層的多スケール注意機構を採用する。 この関係を通じて、多くの注意を払っている領域をセグメント化結果に統合し、入力画像の非集中領域を減らし、マルチスケール特徴の有効利用を改善する。 STDC-MAは、小さなオブジェクトのセグメンテーション精度を改善しつつ、STDC-Segネットワークとしてセグメンテーション速度を維持する。 STDC-MAはCityscapesの検証セットで検証された。 STDC-MAのセグメンテーション結果は、0.5xスケールの入力で76.81% mIOUに達し、STDC-Segよりも3.61%高い。

Semantic segmentation is applied extensively in autonomous driving and intelligent transportation with methods that highly demand spatial and semantic information. Here, an STDC-MA network is proposed to meet these demands. First, the STDC-Seg structure is employed in STDC-MA to ensure a lightweight and efficient structure. Subsequently, the feature alignment module (FAM) is applied to understand the offset between high-level and low-level features, solving the problem of pixel offset related to upsampling on the high-level feature map. Our approach implements the effective fusion between high-level features and low-level features. A hierarchical multiscale attention mechanism is adopted to reveal the relationship among attention regions from two different input sizes of one image. Through this relationship, regions receiving much attention are integrated into the segmentation results, thereby reducing the unfocused regions of the input image and improving the effective utilization of multiscale features. STDC- MA maintains the segmentation speed as an STDC-Seg network while improving the segmentation accuracy of small objects. STDC-MA was verified on the verification set of Cityscapes. The segmentation result of STDC-MA attained 76.81% mIOU with the input of 0.5x scale, 3.61% higher than STDC-Seg.
翻訳日:2022-05-14 20:57:54 公開日:2022-05-11
# (参考訳) 部分閉塞が歩行者検出性に及ぼす影響

The Impact of Partial Occlusion on Pedestrian Detectability ( http://arxiv.org/abs/2205.04812v2 )

ライセンス: CC BY 4.0
Shane Gilroy, Darragh Mullins, Edward Jones, Ashkan Parsi and Martin Glavin(参考訳) 脆弱な道路利用者のロバスト検出は、自動運転車を異種交通に配備するための安全上重要な要件である。 最も複雑な課題の1つは、対象の物体が、他の前景の物体の障害物によって、センサーに部分的にしか利用できない部分閉塞である。 多くの主要な歩行者検出ベンチマークは部分閉塞に対するアノテーションを提供しているが、それぞれのベンチマークは閉塞の発生と重症度の定義で大きく異なる。 近年の研究では、これらの症例では高い主観性が咬合レベルを分類するために用いられており、咬合は部分的および重閉塞などの2~3つの広いカテゴリに分類される。 これにより、どのベンチマークが使われているかによって、歩行者検出モデルのパフォーマンスが不正確または矛盾していることを報告できる。 本研究は, 歩行者検出モデルの客観的評価を容易にするため, 部分閉塞歩行者検出のための新しい客観的ベンチマークを提案する。 7つの歩行者検出モデルを用いて,0~99%の閉塞レベルについて評価を行った。 その結果, 歩行者検出性能は低下し, 歩行者咬合レベルが上昇するにつれて偽陰性検出数が増加することがわかった。 人気の高い歩行者検出ルーチン7つのうち、CenterNetは、SSDliteに続いて、全体的なパフォーマンスが最も高い。 RetinaNetの全体的な検出性能は、オクルージョンレベルの範囲で最低である。

Robust detection of vulnerable road users is a safety critical requirement for the deployment of autonomous vehicles in heterogeneous traffic. One of the most complex outstanding challenges is that of partial occlusion where a target object is only partially available to the sensor due to obstruction by another foreground object. A number of leading pedestrian detection benchmarks provide annotation for partial occlusion, however each benchmark varies greatly in their definition of the occurrence and severity of occlusion. Recent research demonstrates that a high degree of subjectivity is used to classify occlusion level in these cases and occlusion is typically categorized into 2 to 3 broad categories such as partially and heavily occluded. This can lead to inaccurate or inconsistent reporting of pedestrian detection model performance depending on which benchmark is used. This research introduces a novel, objective benchmark for partially occluded pedestrian detection to facilitate the objective characterization of pedestrian detection models. Characterization is carried out on seven popular pedestrian detection models for a range of occlusion levels from 0-99%. Results demonstrate that pedestrian detection performance degrades, and the number of false negative detections increase as pedestrian occlusion level increases. Of the seven popular pedestrian detection routines characterized, CenterNet has the greatest overall performance, followed by SSDlite. RetinaNet has the lowest overall detection performance across the range of occlusion levels.
翻訳日:2022-05-14 15:05:09 公開日:2022-05-11
# (参考訳) NLP研究における気候意識

Towards Climate Awareness in NLP Research ( http://arxiv.org/abs/2205.05071v2 )

ライセンス: CC BY 4.0
Daniel Hershcovich, Nicolas Webersinke, Mathias Kraus, Julia Anna Bingler and Markus Leippold(参考訳) AIの気候の影響、特にNLPの研究は、計算モデルのトレーニングと実行にますます使われている膨大な量のエネルギーを考えると、深刻な問題となっている。 これにより、効率の良いNLPに焦点が当てられる。 しかし、この重要なイニシアチブは、NLP研究の系統的な気候報告を可能にする単純なガイドラインを欠いている。 われわれは、この欠落が、環境影響のより徹底的な調査を可能にする、NLPレポートの重要人物がほとんどいない理由の1つだと論じている。 本稿では,実験と基礎となるコンピュータハードウェアに関する限られた情報のみを有効利用することを目的とした,気候評価モデルカードを提案する。 このステップがnlp研究の環境影響に対する認識を高める上で不可欠である理由を説明し,より詳細な議論への道筋を開く。

The climate impact of AI, and NLP research in particular, has become a serious issue given the enormous amount of energy that is increasingly being used for training and running computational models. Consequently, increasing focus is placed on efficient NLP. However, this important initiative lacks simple guidelines that would allow for systematic climate reporting of NLP research. We argue that this deficiency is one of the reasons why very few publications in NLP report key figures that would allow a more thorough examination of environmental impact. As a remedy, we propose a climate performance model card with the primary purpose of being practically usable with only limited information about experiments and the underlying computer hardware. We describe why this step is essential to increase awareness about the environmental impact of NLP research and, thereby, paving the way for more thorough discussions.
翻訳日:2022-05-14 09:32:10 公開日:2022-05-11
# (参考訳) 説明可能な計算創造性

Explainable Computational Creativity ( http://arxiv.org/abs/2205.05682v1 )

ライセンス: CC BY 4.0
Maria Teresa Llano and Mark d'Inverno and Matthew Yee-King and Jon McCormack and Alon Ilsar and Alison Pease and Simon Colton(参考訳) コンピュータ・クリエイティビティ(cc)分野のシステムとのヒューマンコラボレーションは、しばしば浅い相互作用に制限され、そこでは、システムや人間の創造プロセスは、ユーザーからの(あるいはほとんど)介入なしに、そしてどのように展開する決定が行われるかについての議論なしに、独立して実行される。 フルイットフルな共同創造には、アイデアの議論、前/その他の作業との比較、漸進的な改善と修正などを含む継続的な対話が必要です。 これらの相互作用にとって、コミュニケーションは本質的な要素である。 つまり、ccシステムに対して声を出して、プロセスと意思決定を説明し、創造的な協力者から真剣に考慮されるようにアイデアをサポートし、創造的なプロセスをさらに改善するためにこれらの議論から学ぶという、彼らのプロセスとユーザの間の双方向コミュニケーションチャネルを可能にするということだ。 そこで本研究では,ccシステムのための設計原則のセットを提案する。

Human collaboration with systems within the Computational Creativity (CC) field is often restricted to shallow interactions, where the creative processes, of systems and humans alike, are carried out in isolation, without any (or little) intervention from the user, and without any discussion about how the unfolding decisions are taking place. Fruitful co-creation requires a sustained ongoing interaction that can include discussions of ideas, comparisons to previous/other works, incremental improvements and revisions, etc. For these interactions, communication is an intrinsic factor. This means giving a voice to CC systems and enabling two-way communication channels between them and their users so that they can: explain their processes and decisions, support their ideas so that these are given serious consideration by their creative collaborators, and learn from these discussions to further improve their creative processes. For this, we propose a set of design principles for CC systems that aim at supporting greater co-creation and collaboration with their human collaborators.
翻訳日:2022-05-14 06:08:44 公開日:2022-05-11
# (参考訳) 共同創設者の毛布の下での因果発見

Causal discovery under a confounder blanket ( http://arxiv.org/abs/2205.05715v1 )

ライセンス: CC BY 4.0
David Watson and Ricardo Silva(参考訳) 観測データから因果関係を推定することは容易ではないが、高次元では特に難しい。 これらの用途では、因果探索アルゴリズムは一般的にパラメトリックな制限や極端な空間的制約を必要とする。 これらの仮定を緩和し、より専門的な問題に焦点をあてる。すなわち、因果的に(おそらく大きい)共芽体の集合、すなわち$\textit{confounder blanket}$から導かれる変数の有向非巡回部分グラフを復元する。 これは、動的生体分子サブシステムに因果関係の背景情報を提供する遺伝データを提供する場合など、多くの設定で有用である。 情報的回答が見つかれば実際に満足しなければならないという構造的仮定の下では、多項式時間の複雑さを維持しながら、低あるいは高間隔のグラフを許容する。 これらの条件下で因果関係を同定するための健全で完全なアルゴリズムを導出し、線形および非線形システムに対して証明可能な誤差制御を伴うテスト手順を実装する。 我々は様々なシミュレーション設定にアプローチを示します。

Inferring causal relationships from observational data is rarely straightforward, but the problem is especially difficult in high dimensions. For these applications, causal discovery algorithms typically require parametric restrictions or extreme sparsity constraints. We relax these assumptions and focus on an important but more specialized problem, namely recovering a directed acyclic subgraph of variables known to be causally descended from some (possibly large) set of confounding covariates, i.e. a $\textit{confounder blanket}$. This is useful in many settings, for example when studying a dynamic biomolecular subsystem with genetic data providing causally relevant background information. Under a structural assumption that, we argue, must be satisfied in practice if informative answers are to be found, our method accommodates graphs of low or high sparsity while maintaining polynomial time complexity. We derive a sound and complete algorithm for identifying causal relationships under these conditions and implement testing procedures with provable error control for linear and nonlinear systems. We demonstrate our approach on a range of simulation settings.
翻訳日:2022-05-14 05:56:07 公開日:2022-05-11
# (参考訳) 構造化、フレキシブル、ロバスト:分散推論タスクにおける人間のような振る舞いに向けた大規模言語モデルのベンチマークと改善

Structured, flexible, and robust: benchmarking and improving large language models towards more human-like behavior in out-of-distribution reasoning tasks ( http://arxiv.org/abs/2205.05718v1 )

ライセンス: CC BY 4.0
Katherine M. Collins, Catherine Wong, Jiahai Feng, Megan Wei, and Joshua B. Tenenbaum(参考訳) 私たちは物語を語り、説明し、言葉を通じて私たちの信念と目標を表現します。 明らかな証拠は、言語が学習の構造化に発達的な役割を担っていることを示唆している。 言語だけで統計パターンを学習することで、人間のような思考のどれ程を捉えることができるのか? 我々はまず,人間と分布型大言語モデル(LLM)を比較するための新しい課題ベンチマークを提出する。 本ベンチマークは,2つの問題解決領域(計画と説明生成)を含み,言語で表現された新たな分散問題への一般化が要求される。 このベンチマークでは、人間はLSMよりもはるかに堅牢であることが分かりました。 次に、構造的シンボリック推論モジュールで分散LLMを増強するハイブリッドParse-and-Solveモデルを提案する。 このモデルは配布外計画問題への堅牢な適応を示し、人間的な推論のためのハイブリッドAIモデルの可能性を実証している。

Human language offers a powerful window into our thoughts -- we tell stories, give explanations, and express our beliefs and goals through words. Abundant evidence also suggests that language plays a developmental role in structuring our learning. Here, we ask: how much of human-like thinking can be captured by learning statistical patterns in language alone? We first contribute a new challenge benchmark for comparing humans and distributional large language models (LLMs). Our benchmark contains two problem-solving domains (planning and explanation generation) and is designed to require generalization to new, out-of-distribution problems expressed in language. We find that humans are far more robust than LLMs on this benchmark. Next, we propose a hybrid Parse-and-Solve model, which augments distributional LLMs with a structured symbolic reasoning module. We find that this model shows more robust adaptation to out-of-distribution planning problems, demonstrating the promise of hybrid AI models for more human-like reasoning.
翻訳日:2022-05-14 05:14:40 公開日:2022-05-11
# (参考訳) 単一のビデオからの多様なビデオ生成

Diverse Video Generation from a Single Video ( http://arxiv.org/abs/2205.05725v1 )

ライセンス: CC BY 4.0
Niv Haim, Ben Feinstein, Niv Granot, Assaf Shocher, Shai Bagon, Tali Dekel, Michal Irani(参考訳) GANは、単一のビデオでトレーニングされた生成および操作タスクを実行することができる。 しかし、これらの単一のビデオGANは、単一のビデオでトレーニングするのに不合理な時間を必要とし、ほとんど実用的ではない。 本稿では,単一のビデオから生成するためのGANの必要性を問うとともに,様々な生成および操作タスクのための非パラメトリックベースラインを導入する。 我々は、古典的な時空パッチ・アレスト近傍アプローチを復活させ、学習することなくスケーラブルな無条件生成モデルに適用する。 この単純なベースラインは、視覚的品質と現実主義(量的および質的評価によって確認される)におけるシングルビデオganを驚くほど上回っており、不釣り合いに高速である(ランタイムは数日から数秒に短縮される)。 われわれのアプローチは簡単にフルHDビデオにスケールできる。 また、ビデオの類似や時空間再ターゲティングのデモにも、同じフレームワークを使用します。 これらの観察から、古典的なアプローチはこれらのタスクにおいて、重い深層学習機械を著しく上回っていることが分かる。 これにより、シングルビデオ生成と操作タスクの新たなベースラインが設定され、重要ではない – 単一のビデオからさまざまな生成が、初めて現実的に可能になった。

GANs are able to perform generation and manipulation tasks, trained on a single video. However, these single video GANs require unreasonable amount of time to train on a single video, rendering them almost impractical. In this paper we question the necessity of a GAN for generation from a single video, and introduce a non-parametric baseline for a variety of generation and manipulation tasks. We revive classical space-time patches-nearest-neighbors approaches and adapt them to a scalable unconditional generative model, without any learning. This simple baseline surprisingly outperforms single-video GANs in visual quality and realism (confirmed by quantitative and qualitative evaluations), and is disproportionately faster (runtime reduced from several days to seconds). Our approach is easily scaled to Full-HD videos. We also use the same framework to demonstrate video analogies and spatio-temporal retargeting. These observations show that classical approaches significantly outperform heavy deep learning machinery for these tasks. This sets a new baseline for single-video generation and manipulation tasks, and no less important -- makes diverse generation from a single video practically possible for the first time.
翻訳日:2022-05-14 05:04:52 公開日:2022-05-11
# (参考訳) 文法エラーは頻度が高いもの、重要なもの

Some Grammatical Errors are Frequent, Others are Important ( http://arxiv.org/abs/2205.05730v1 )

ライセンス: CC BY 4.0
Leshem Choshen, Ofir Shifman, Omri Abend(参考訳) 文法的誤り訂正では、システムは正しい誤りの数によって評価される。 しかし、すべてのエラータイプが等しく重要であるかどうかを誰も評価していない。 ヒトに対する異なる文法的誤り型の重要性を定量化する手法を提案および適用する。 いくつかの稀なエラーは混乱していると見なされるが、他の一般的なエラーはそうではない。 これはシステムと評価の両方を改善するための可能な方向に影響する。

In Grammatical Error Correction, systems are evaluated by the number of errors they correct. However, no one has assessed whether all error types are equally important. We provide and apply a method to quantify the importance of different grammatical error types to humans. We show that some rare errors are considered disturbing while other common ones are not. This affects possible directions to improve both systems and their evaluation.
翻訳日:2022-05-14 04:54:51 公開日:2022-05-11
# (参考訳) 小児・青年精神科における計算行動認識:統計的・機械学習分析計画

Computational behavior recognition in child and adolescent psychiatry: A statistical and machine learning analysis plan ( http://arxiv.org/abs/2205.05737v1 )

ライセンス: CC BY 4.0
Nicole N. L{\o}nfeldt, Flavia D. Frumosu, A.-R. Cecilie Mora-Jensen, Nicklas Leander Lund, Sneha Das, A. Katrine Pagsberg, Line K. H. Clemmensen(参考訳) モチベーション: 行動観察は心理的現象の研究と評価において重要な資源であるが、費用がかかり、時間がかかり、バイアスに敏感である。 そこで我々は,人工知能(AI)ツールを用いた心理療法と研究のために,人間の行動のコーディングを自動化することを目的とする。 ここでは,分析計画を提案する。 方法: 強迫性障害(ocd)25名, 精神診断(no-ocd)のない12名を対象に, 金本位制半構造化診断面接のビデオ分析を行う。 年齢は8歳から17歳。 ビデオから特徴を抽出し、行動の評価を計算し、特定の行動コーディングマニュアルを使用するように訓練されたメンタルヘルスの専門家が作成した行動の評価と比較する。 我々は多変量分散分析(manova)を用いてocd診断が計算から派生した行動評価に及ぼす影響をテストする。 生成された機能を使ってバイナリ分類モデルを構築し、OCD/no-OCDクラスを分類する。 考察:ここでは,データの事前処理,分析,および結果の公開とその解釈に関する事前定義された計画を示す。 提案された研究の課題は、AIアプローチが視覚のみに基づく行動評価を導き出そうとするのに対して、人間は行動を評価するために視覚的、パラ言語的、言語的手がかりを使用することである。 もうひとつの課題は、子供ではなく主に大人に訓練された身体および顔の動きの検出に機械学習モデルを使用することだ。 もしaiツールが有望な結果を示すなら、この事前登録分析計画は解釈バイアスを減らすのに役立つかもしれない。 治験登録:臨床試験.gov - h-18010607

Motivation: Behavioral observations are an important resource in the study and evaluation of psychological phenomena, but it is costly, time-consuming, and susceptible to bias. Thus, we aim to automate coding of human behavior for use in psychotherapy and research with the help of artificial intelligence (AI) tools. Here, we present an analysis plan. Methods: Videos of a gold-standard semi-structured diagnostic interview of 25 youth with obsessive-compulsive disorder (OCD) and 12 youth without a psychiatric diagnosis (no-OCD) will be analyzed. Youth were between 8 and 17 years old. Features from the videos will be extracted and used to compute ratings of behavior, which will be compared to ratings of behavior produced by mental health professionals trained to use a specific behavioral coding manual. We will test the effect of OCD diagnosis on the computationally-derived behavior ratings using multivariate analysis of variance (MANOVA). Using the generated features, a binary classification model will be built and used to classify OCD/no-OCD classes. Discussion: Here, we present a pre-defined plan for how data will be pre-processed, analyzed and presented in the publication of results and their interpretation. A challenge for the proposed study is that the AI approach will attempt to derive behavioral ratings based solely on vision, whereas humans use visual, paralinguistic and linguistic cues to rate behavior. Another challenge will be using machine learning models for body and facial movement detection trained primarily on adults and not on children. If the AI tools show promising results, this pre-registered analysis plan may help reduce interpretation bias. Trial registration: ClinicalTrials.gov - H-18010607
翻訳日:2022-05-14 04:49:13 公開日:2022-05-11
# (参考訳) DisARM: 有害なミームを狙った被害者を検知

DISARM: Detecting the Victims Targeted by Harmful Memes ( http://arxiv.org/abs/2205.05738v1 )

ライセンス: CC BY 4.0
Shivam Sharma, Md. Shad Akhtar, Preslav Nakov, Tanmoy Chakraborty(参考訳) インターネットミームは、ウェブ上でのコミュニケーション手段としてますます人気が高まっている。 通常、ユーモアを誘発することを目的としているが、憎しみ、荒らし、サイバーいじめ、特定の個人、コミュニティ、社会を政治的、社会文化的、心理的な理由から標的にするためにますます使われてきた。 これまでの研究は有害で憎悪的で攻撃的なミームの発見に重点を置いてきたが、攻撃対象を特定することは依然として困難で未調査の分野である。 ここではこのギャップを埋めることを目指しています。 特に、対象者の名前、組織、コミュニティ(ies)など、各ミームに被害者をアノテートするデータセットを作成します。 次に、名前付きエンティティ認識と人物識別を用いて、ミームが参照しているすべてのエンティティを検知するフレームワークであるdisARM(hARmful Memesが対象とするvIctimSの検出)を提案し、ミームがこれらのエンティティを害するかどうかを分類するために、新しいコンテキスト化されたマルチモーダルディープニューラルネットワークを組み込む。 3つのテストの設定でいくつかの系統的な実験を行いました。 (a)すべて訓練中に見られる。 (b)訓練上の有害な標的とは見なされず、 (c)訓練では全く見られなかった。 評価結果から,disARMは10の単一モード・マルチモーダルシステムより有意に優れていた。 最後に、 DisARM は解釈可能であり、相対的に一般化可能であり、有害なターゲット識別に対する相対誤差を複数の強力なマルチモーダルライバルに対して最大9ポイントまで低減できることを示す。

Internet memes have emerged as an increasingly popular means of communication on the Web. Although typically intended to elicit humour, they have been increasingly used to spread hatred, trolling, and cyberbullying, as well as to target specific individuals, communities, or society on political, socio-cultural, and psychological grounds. While previous work has focused on detecting harmful, hateful, and offensive memes, identifying whom they attack remains a challenging and underexplored area. Here we aim to bridge this gap. In particular, we create a dataset where we annotate each meme with its victim(s) such as the name of the targeted person(s), organization(s), and community(ies). We then propose DISARM (Detecting vIctimS targeted by hARmful Memes), a framework that uses named entity recognition and person identification to detect all entities a meme is referring to, and then, incorporates a novel contextualized multimodal deep neural network to classify whether the meme intends to harm these entities. We perform several systematic experiments on three test setups, corresponding to entities that are (a) all seen while training, (b) not seen as a harmful target on training, and (c) not seen at all on training. The evaluation results show that DISARM significantly outperforms ten unimodal and multimodal systems. Finally, we show that DISARM is interpretable and comparatively more generalizable and that it can reduce the relative error rate for harmful target identification by up to 9 points absolute over several strong multimodal rivals.
翻訳日:2022-05-14 04:41:21 公開日:2022-05-11
# (参考訳) 質問によるビデオ検索の学習

Learning to Retrieve Videos by Asking Questions ( http://arxiv.org/abs/2205.05739v1 )

ライセンス: CC BY 4.0
Avinash Madasu, Junier Oliva, Gedas Bertasius(参考訳) 従来のテキストからビデオへの検索システムの大部分は静的な環境で動作する。 これは、初期クエリに曖昧さがある場合、サブ最適であり、多くの誤った検索ビデオにつながる可能性がある。 この制限を克服するために,複数ラウンドのダイアログを介してaiエージェントと対話できる対話(vired)を用いたビデオ検索のための新しいフレームワークを提案する。 このフレームワークの重要な貢献は,ビデオ検索性能を最大化する質問を学習する,新しいマルチモーダル質問生成器である。 マルチモーダル質問生成器は i) ユーザとのインタラクションの最終ラウンド中に検索したビデオ候補と (ii)全対話を文書化したテキストに基づく対話履歴は,映像検索に関連する視覚的・言語的手がかりを取り入れた質問を生成する。 さらに,最大有意な質問を生成するために,質問生成者を誘導するigs(information-guided supervisor)を提案する。 AVSDデータセット上での対話型ViReDフレームワークの有効性を検証し,従来の非対話型ビデオ検索システムよりも対話型手法の方が優れた性能を示した。 さらに,提案手法は実際の人間との相互作用を含む現実世界の環境にも一般化し,枠組みの堅牢性や汎用性を実証する。

The majority of traditional text-to-video retrieval systems operate in static environments, i.e., there is no interaction between the user and the agent beyond the initial textual query provided by the user. This can be suboptimal if the initial query has ambiguities, which would lead to many falsely retrieved videos. To overcome this limitation, we propose a novel framework for Video Retrieval using Dialog (ViReD), which enables the user to interact with an AI agent via multiple rounds of dialog. The key contribution of our framework is a novel multimodal question generator that learns to ask questions that maximize the subsequent video retrieval performance. Our multimodal question generator uses (i) the video candidates retrieved during the last round of interaction with the user and (ii) the text-based dialog history documenting all previous interactions, to generate questions that incorporate both visual and linguistic cues relevant to video retrieval. Furthermore, to generate maximally informative questions, we propose an Information-Guided Supervision (IGS), which guides the question generator to ask questions that would boost subsequent video retrieval accuracy. We validate the effectiveness of our interactive ViReD framework on the AVSD dataset, showing that our interactive method performs significantly better than traditional non-interactive video retrieval systems. Furthermore, we also demonstrate that our proposed approach also generalizes to the real-world settings that involve interactions with real humans, thus, demonstrating the robustness and generality of our framework
翻訳日:2022-05-14 04:13:52 公開日:2022-05-11
# (参考訳) ニューラルネットワークに対する個別公平性保証

Individual Fairness Guarantees for Neural Networks ( http://arxiv.org/abs/2205.05763v1 )

ライセンス: CC BY 4.0
Elias Benussi (1), Andrea Patane (1), Matthew Wicker (1), Luca Laurenti (2) and Marta Kwiatkowska (1) ((1) University of Oxford, (2) TU Delft)(参考訳) フィードフォワードニューラルネットワーク(NN)の個々人の公正性(IF)を認証する問題を考察する。 特に、$\epsilon$-$\delta$-if の定式化は、nn とデータから学習した類似度メトリックが与えられたとき、任意の$\epsilon$類似の個人間の出力の差が最大決定許容値 $\delta \geq 0$ によって制限されることを要求する。 マハラノビス距離を含む様々な指標を用いて、nnの非線形性を入力空間上でグローバルに下・上限に分割線形関数を用いて最適化問題を近似する手法を提案する。 我々は、この計算を混合整数線形計画問題の解としてエンコードし、フェアネスベンチマークに広く用いられている4つのデータセット上でIF保証を計算するのに使用できることを示した。 この定式化は、NN損失を変更することで、トレーニング時のモデルの公平性を促進できることを示すとともに、我々のアプローチが最先端の手法よりもはるかに公平なNNを生成することを実証的に確認する。

We consider the problem of certifying the individual fairness (IF) of feed-forward neural networks (NNs). In particular, we work with the $\epsilon$-$\delta$-IF formulation, which, given a NN and a similarity metric learnt from data, requires that the output difference between any pair of $\epsilon$-similar individuals is bounded by a maximum decision tolerance $\delta \geq 0$. Working with a range of metrics, including the Mahalanobis distance, we propose a method to overapproximate the resulting optimisation problem using piecewise-linear functions to lower and upper bound the NN's non-linearities globally over the input space. We encode this computation as the solution of a Mixed-Integer Linear Programming problem and demonstrate that it can be used to compute IF guarantees on four datasets widely used for fairness benchmarking. We show how this formulation can be used to encourage models' fairness at training time by modifying the NN loss, and empirically confirm our approach yields NNs that are orders of magnitude fairer than state-of-the-art methods.
翻訳日:2022-05-14 03:58:22 公開日:2022-05-11
# (参考訳) 深層学習と合成メディア

Deep Learning and Synthetic Media ( http://arxiv.org/abs/2205.05764v1 )

ライセンス: CC BY 4.0
Rapha\"el Milli\`ere(参考訳) ディープラーニングアルゴリズムは、オーディオビジュアルメディアの作り方を急速に変化させている。 ディープ・ラーニング(deep learning)で生成された合成オーディオ・ビジュアル・メディアは、しばしば「ディープフェイクス(deepfakes)」というラベルで口頭で表現され、多くの印象的な特徴を持っている。 この技術開発によって引き起こされた倫理的懸念に多くの注意が向けられている。 ここでは、合成オーディオヴィジュアルメディアの概念に関する一連の問題、オーディオヴィジュアルメディアのより広い分類分野における位置づけ、そして、より伝統的なメディア合成手法とどのように異なるかに焦点を当てる。 メディア操作と生成のための深層学習パイプラインの重要な特徴をレビューした後、このようなパイプラインで生成された「ディープフェイク」と関連する合成メディアは、従来の方法よりも漸進的な改善を提供するだけでなく、従来の分類学的区別に挑戦し、真に新しい種類のオーディオビジュアルメディアへの道を拓いていると論じる。

Deep learning algorithms are rapidly changing the way in which audiovisual media can be produced. Synthetic audiovisual media generated with deep learning - often subsumed colloquially under the label "deepfakes" - have a number of impressive characteristics; they are increasingly trivial to produce, and can be indistinguishable from real sounds and images recorded with a sensor. Much attention has been dedicated to ethical concerns raised by this technological development. Here, I focus instead on a set of issues related to the notion of synthetic audiovisual media, its place within a broader taxonomy of audiovisual media, and how deep learning techniques differ from more traditional approaches to media synthesis. After reviewing important etiological features of deep learning pipelines for media manipulation and generation, I argue that "deepfakes" and related synthetic media produced with such pipelines do not merely offer incremental improvements over previous methods, but challenge traditional taxonomical distinctions, and pave the way for genuinely novel kinds of audiovisual media.
翻訳日:2022-05-14 03:26:42 公開日:2022-05-11
# (参考訳) MEWS:リアルタイムソーシャルメディア操作検出と分析

MEWS: Real-time Social Media Manipulation Detection and Analysis ( http://arxiv.org/abs/2205.05783v1 )

ライセンス: CC BY 4.0
Trenton W. Ford, Michael Yankoski, Michael Yankoski, Tom Henry, Farah Khashman, Katherine R. Dearstyne and Tim Weninger(参考訳) 本稿ではMEWS(Misinformation Early Warning System)のベータバージョンについて述べる。 ソーシャルメディアプラットフォーム上に出現し拡散するソーシャルメディアイメージ間の関係を、ほぼリアルタイムで判断するために使用される、摂取、操作検出、グラフ化アルゴリズムの様々な側面について記述する。 これらの様々な技術を単一の処理パイプラインに組み合わせることで、MEWSは操作されたメディアアイテムを発生時に識別し、特定のアイテムが個々のソーシャルメディアプラットフォーム、あるいは複数のプラットフォーム上でトレンドになり始めたときを特定することができる。 操作されたコンテンツの急速な拡散に続く新しい操作の出現は、偽情報キャンペーンを示唆している。

This article presents a beta-version of MEWS (Misinformation Early Warning System). It describes the various aspects of the ingestion, manipulation detection, and graphing algorithms employed to determine--in near real-time--the relationships between social media images as they emerge and spread on social media platforms. By combining these various technologies into a single processing pipeline, MEWS can identify manipulated media items as they arise and identify when these particular items begin trending on individual social media platforms or even across multiple platforms. The emergence of a novel manipulation followed by rapid diffusion of the manipulated content suggests a disinformation campaign.
翻訳日:2022-05-14 02:57:51 公開日:2022-05-11
# (参考訳) 確率回路上の制約緩和によるクレダルベイズネットワークのロバスト性保証

Robustness Guarantees for Credal Bayesian Networks via Constraint Relaxation over Probabilistic Circuits ( http://arxiv.org/abs/2205.05793v1 )

ライセンス: CC BY 4.0
Hjalmar Wijk, Benjie Wang, Marta Kwiatkowska(参考訳) 多くの領域において、分布シフトを受ける決定関数の性能(例えば予測精度)と環境の不確実性に関する最悪の保証が重要である。 本研究では,不確実性がパラメータのクレダル集合によって表現される環境の形式的パラメトリックモデルであるクレダルベイズネットワークに関して,決定関数のロバスト性を定量化する手法を開発した。 特に,最大限界確率(MARmax)問題,すなわち,干潟集合のパラメータに対して得られる事象の最大確率(誤分類など)を決定する問題に対処する。 確率回路上の制約付き最適化問題に問題を忠実に伝達する手法を開発した。 簡単な制約緩和を行うことで、回路の大きさの線形時間におけるmarmax上の保証された上限を得る方法を示す。 さらに理論上、この制約緩和を元のベイズネットワーク構造の観点から特徴づけ、境界の厳密性についての洞察を与える。 提案手法を実装し,上界が密接に近く,他の手法と比較してスケーラビリティが向上していることを示す実験的な証拠を提供する。

In many domains, worst-case guarantees on the performance (e.g., prediction accuracy) of a decision function subject to distributional shifts and uncertainty about the environment are crucial. In this work we develop a method to quantify the robustness of decision functions with respect to credal Bayesian networks, formal parametric models of the environment where uncertainty is expressed through credal sets on the parameters. In particular, we address the maximum marginal probability (MARmax) problem, that is, determining the greatest probability of an event (such as misclassification) obtainable for parameters in the credal set. We develop a method to faithfully transfer the problem into a constrained optimization problem on a probabilistic circuit. By performing a simple constraint relaxation, we show how to obtain a guaranteed upper bound on MARmax in linear time in the size of the circuit. We further theoretically characterize this constraint relaxation in terms of the original Bayesian network structure, which yields insight into the tightness of the bound. We implement the method and provide experimental evidence that the upper bound is often near tight and demonstrates improved scalability compared to other methods.
翻訳日:2022-05-14 02:53:27 公開日:2022-05-11
# (参考訳) 平均回帰マルコフ決定過程に対する確率的一階法

Stochastic first-order methods for average-reward Markov decision processes ( http://arxiv.org/abs/2205.05800v1 )

ライセンス: CC BY 4.0
Tianjiao Li, Feiyang Wu and Guanghui Lan(参考訳) 平均回帰マルコフ決定過程 (amdps) の問題を調査し, 政策評価と最適化に強い理論的保証を持つ新しい一階法を開発した。 既存のオン・ポリティクス評価手法は、最適化されていない収束率と、不十分なランダムな政策、例えば決定論的政策、探査の欠如に苦しむ。 そこで本研究では,ランダム化ポリシーに対する線形関数近似と最適収束保証を併用した新しい分散分散分散時間差法(vrtd)と,同等の収束保証を満たさない不完全分散時間差法(evrtd)を開発した。 さらに,政策最適化の全体的サンプル複雑性を改善する上で不可欠な,政策評価のバイアスに基づく線形収束率を確立する。 一方、割引MDPの政策勾配法に関する有限サンプル分析における集中的な研究と比較して、AMDPの政策勾配法に関する既存の研究は、基礎となるマルコフ過程(例えば、Abbasi-Yadkori et al., 2019)の制約的な仮定の下での後悔境界に主に焦点を絞っている。 この目的に向けて,確率的政策ミラー降下 (spmd) の平均回帰型 (lan, 2022) を開発した。 我々は、生成モデル(ユニチェーン仮定)とマルコフ雑音モデル(エルゴード仮定)の両方の下でポリシー勾配法を用いてAMDPを解くために、最初の$\widetilde{\mathcal{O}}(\epsilon^{-2})$サンプル複雑性を確立する。 この境界は正規化AMDPを解くために$\widetilde{\mathcal{O}}(\epsilon^{-1})$にさらに改善することができる。 我々の理論上の利点は数値実験によって裏付けられる。

We study the problem of average-reward Markov decision processes (AMDPs) and develop novel first-order methods with strong theoretical guarantees for both policy evaluation and optimization. Existing on-policy evaluation methods suffer from sub-optimal convergence rates as well as failure in handling insufficiently random policies, e.g., deterministic policies, for lack of exploration. To remedy these issues, we develop a novel variance-reduced temporal difference (VRTD) method with linear function approximation for randomized policies along with optimal convergence guarantees, and an exploratory variance-reduced temporal difference (EVRTD) method for insufficiently random policies with comparable convergence guarantees. We further establish linear convergence rate on the bias of policy evaluation, which is essential for improving the overall sample complexity of policy optimization. On the other hand, compared with intensive research interest in finite sample analysis of policy gradient methods for discounted MDPs, existing studies on policy gradient methods for AMDPs mostly focus on regret bounds under restrictive assumptions on the underlying Markov processes (see, e.g., Abbasi-Yadkori et al., 2019), and they often lack guarantees on the overall sample complexities. Towards this end, we develop an average-reward variant of the stochastic policy mirror descent (SPMD) (Lan, 2022). We establish the first $\widetilde{\mathcal{O}}(\epsilon^{-2})$ sample complexity for solving AMDPs with policy gradient method under both the generative model (with unichain assumption) and Markovian noise model (with ergodic assumption). This bound can be further improved to $\widetilde{\mathcal{O}}(\epsilon^{-1})$ for solving regularized AMDPs. Our theoretical advantages are corroborated by numerical experiments.
翻訳日:2022-05-14 02:31:55 公開日:2022-05-11
# (参考訳) 次元適応型機械学習に基づく量子状態再構成

Dimension-adaptive machine-learning-based quantum state reconstruction ( http://arxiv.org/abs/2205.05804v1 )

ライセンス: CC BY 4.0
Sanjaya Lohani, Sangita Regmi, Joseph M. Lukens, Ryan T. Glasser, Thomas A. Searles, Brian T. Kirby(参考訳) 我々は,$m$ qubitsのみをトレーニングした機械学習ベースの再構成システムを用いて,$m$ qubitsのシステム上で量子状態再構成を行うアプローチを提案する。 このアプローチは、トレーニングに使用されるモデルの次元と考慮中のシステムの次元を正確に一致させる必要性を取り除く。 我々は,1,2,3量子ビットのランダムサンプリングシステムに対して,少なくとも1つの追加量子ビットを含むシステムにのみ訓練された機械学習ベースの手法を用いて量子状態再構成を行う手法を実証した。 このテクニックは、次元可変状態再構成のために単一のニューラルネットワークを活用して、各ヒルベルト空間のための専用の機械学習システムをトレーニングする必要をなくし、リソースの全体的な節約を提供することができる。

We introduce an approach for performing quantum state reconstruction on systems of $n$ qubits using a machine-learning-based reconstruction system trained exclusively on $m$ qubits, where $m\geq n$. This approach removes the necessity of exactly matching the dimensionality of a system under consideration with the dimension of a model used for training. We demonstrate our technique by performing quantum state reconstruction on randomly sampled systems of one, two, and three qubits using machine-learning-based methods trained exclusively on systems containing at least one additional qubit. The reconstruction time required for machine-learning-based methods scales significantly more favorably than the training time; hence this technique can offer an overall savings of resources by leveraging a single neural network for dimension-variable state reconstruction, obviating the need to train dedicated machine-learning systems for each Hilbert space.
翻訳日:2022-05-14 02:30:29 公開日:2022-05-11
# (参考訳) suber: 字幕品質の自動評価のための指標

SubER: A Metric for Automatic Evaluation of Subtitle Quality ( http://arxiv.org/abs/2205.05805v1 )

ライセンス: CC BY-SA 4.0
Patrick Wilken, Panayota Georgakopoulou, Evgeny Matusov(参考訳) 本稿では, 自動生成字幕の品質評価について, 機械翻訳音声や翻訳音声の品質だけでなく, 線分節や字幕タイミングの質についても検討する。 本稿では,これらすべての字幕特性を考慮に入れたシフト付き編集距離に基づく新しい指標SubERを提案する。 書き起こし、翻訳、字幕品質を評価するための既存の指標と比較する。 編集後シナリオにおける注意深い人的評価は、新しい指標が編集後作業と人的評価スコアとの相関が高く、WERやBLEUのような字幕テキストのみを考慮したベースラインメトリクスよりも優れており、セグメンテーションとタイミング機能を統合するための既存の方法であることを示している。

This paper addresses the problem of evaluating the quality of automatically generated subtitles, which includes not only the quality of the machine-transcribed or translated speech, but also the quality of line segmentation and subtitle timing. We propose SubER - a single novel metric based on edit distance with shifts that takes all of these subtitle properties into account. We compare it to existing metrics for evaluating transcription, translation, and subtitle quality. A careful human evaluation in a post-editing scenario shows that the new metric has a high correlation with the post-editing effort and direct human assessment scores, outperforming baseline metrics considering only the subtitle text, such as WER and BLEU, and existing methods to integrate segmentation and timing features.
翻訳日:2022-05-14 02:15:45 公開日:2022-05-11
# 代数機械学習と化学への応用

Algebraic Machine Learning with an Application to Chemistry ( http://arxiv.org/abs/2205.05795v1 )

ライセンス: Link先を確認
Ezzeddine El Sai, Parker Gara, Markus J. Pflaum(参考訳) 科学応用で使われるデータがより複雑になるにつれて、その幾何学やトポロジーの研究は、データ分析プロセスにおいてますます普及している。 これは例えば、永続ホモロジーのようなトポロジカルツールへの関心が高まる中で見られる。 しかし、トポロジカルツールは本質的に、データの基本空間に関する粗い情報のみを提供することに限られている。 一方、より幾何学的なアプローチは、基礎となる空間が滑らかな多様体であると主張する多様体仮説に優先的に依拠する。 この仮定は、基礎空間が特異点を含む多くの物理モデルに対して失敗する。 本稿では,スムーズな仮定を必要とせず,微粒な幾何学的情報を捉える機械学習パイプラインを開発する。 この手法は微分幾何学や滑らかな多様体の代わりに代数幾何学や代数多様体の範囲内で働く。 バラエティ仮説の設定では、サンプルデータを用いて基礎となるバラエティを見つけることが学習問題となる。 我々は、この学習問題を、固有値計算の観点で解決する最大Aポストエリオリ最適化問題に投入した。 基礎となる多様体を見出し, gr\"obner基底と数値解法を用いてその幾何学的情報を明らかにする。 特に,基礎となる多様体の特異点近傍にある点を数値的に検出するためのヒューリスティックを提案する。

As data used in scientific application become more complex, studying their geometry and topology has become an increasingly prevalent part of the data analysis process. This can be seen for example with the growing interest in topological tools such as persistent homology. However, on the one hand, topological tools are inherently limited to providing only coarse information about the underlying space of the data. On the other hand, more geometric approaches rely predominately on the manifold hypothesis, which asserts that the underlying space is a smooth manifold. This assumption fails for many physical models where the underlying space contains singularities. In this paper we develop a machine learning pipeline that captures fine-grain geometric information without having to rely on any smoothness assumptions. Our approach involves working within the scope of algebraic geometry and algebraic varieties instead of differential geometry and smooth manifolds. In the setting of the variety hypothesis, the learning problem becomes to find the underlying variety using sample data. We cast this learning problem into a Maximum A Posteriori optimization problem which we solve in terms of an eigenvalue computation. Having found the underlying variety, we explore the use of Gr\"obner bases and numerical methods to reveal information about its geometry. In particular, we propose a heuristic for numerically detecting points lying near the singular locus of the underlying variety.
翻訳日:2022-05-13 14:47:16 公開日:2022-05-11
# eFedDNN: 軌道モード推論のためのアンサンブルに基づくフェデレーションディープニューラルネットワーク

eFedDNN: Ensemble based Federated Deep Neural Networks for Trajectory Mode Inference ( http://arxiv.org/abs/2205.05756v1 )

ライセンス: Link先を確認
Daniel Opoku Mensah and Godwin Badu-Marfo and Ranwa Al Mallah and Bilal Farooq(参考訳) スマートモビリティシステムにおける最も重要なデータソースとして、GPSトラジェクトリは、ユーザの移動モードを特定するのに役立つ。 しかし、これらのGPSデータセットにはユーザーの個人情報(例えば、自宅の位置)が含まれており、多くのユーザーが第三者とプライベート情報を共有できない。 したがって、ユーザのプライバシーを保護しながら旅行モードを識別することは重要な問題である。 この課題に対処するために、私たちは、ユーザのローカルトレーニングされたモデルにアクセスすることによって、堅牢なグローバルモデルを協調的にトレーニングすることを目的とした、プライバシ保存型機械学習技術であるfederated learning(fl)を使用します。 具体的には,新しいアンサンブルに基づくフェデレートディープニューラルネットワーク(eFedDNN)を設計した。 このアンサンブル法は,ユーザがFLを用いて学習した異なるモデルの出力を組み合わせ,文献で報告された同等のモデルを上回る精度を示す。 モントリオールの実際のオープンアクセスデータセットに関する大規模な実験的研究は、提案した推論モデルが、プライバシーを損なうことなく、ユーザの移動モードを正確に識別できることを示した。

As the most significant data source in smart mobility systems, GPS trajectories can help identify user travel mode. However, these GPS datasets may contain users' private information (e.g., home location), preventing many users from sharing their private information with a third party. Hence, identifying travel modes while protecting users' privacy is a significant issue. To address this challenge, we use federated learning (FL), a privacy-preserving machine learning technique that aims at collaboratively training a robust global model by accessing users' locally trained models but not their raw data. Specifically, we designed a novel ensemble-based Federated Deep Neural Network (eFedDNN). The ensemble method combines the outputs of the different models learned via FL by the users and shows an accuracy that surpasses comparable models reported in the literature. Extensive experimental studies on a real-world open-access dataset from Montreal demonstrate that the proposed inference model can achieve accurate identification of users' mode of travel without compromising privacy.
翻訳日:2022-05-13 14:30:05 公開日:2022-05-11
# 『十分な情報がない』:自動意思決定における情報フェアネスと信頼感の知覚に及ぼす説明の影響

"There Is Not Enough Information": On the Effects of Explanations on Perceptions of Informational Fairness and Trustworthiness in Automated Decision-Making ( http://arxiv.org/abs/2205.05758v1 )

ライセンス: Link先を確認
Jakob Schoeffer, Niklas Kuehl, Yvette Machowski(参考訳) 自動意思決定システム(ADS)は、連続的な意思決定にますます利用されている。 これらのシステムは、しばしば洗練されたが不透明な機械学習モデルに依存しており、与えられた決定がどのように到達したかを理解することができない。 本研究は,情報公平性(プロセスとその成果の適切な情報提供や説明を行うか否か)に対する人々の認識と,システムに関する様々な種類の情報を提供する場合の基盤となるADSの信頼性を評価するために,人間による研究を行う。 より具体的には、自動融資承認の領域でADSをインスタンス化し、文献で一般的に使用されるさまざまな説明を生成する。 参加者が見ることのできる情報の量をランダム化するために、あるグループに他のグループと同じ説明と追加の説明を加える。 定量的分析から、人々の(自己評価された)AIリテラシーだけでなく、さまざまな情報量も、知覚された情報公正性に大きく影響し、その結果、ADSの信頼感に肯定的に関係していることが明らかとなった。 定性的フィードバックの包括的分析は、説明のために人々のデシラタに光を当てる (i)一貫性(人々の期待と異なる説明の両方) (二)特徴と結果の単調な関係の開示、及び (iii)推薦の実施性。

Automated decision systems (ADS) are increasingly used for consequential decision-making. These systems often rely on sophisticated yet opaque machine learning models, which do not allow for understanding how a given decision was arrived at. In this work, we conduct a human subject study to assess people's perceptions of informational fairness (i.e., whether people think they are given adequate information on and explanation of the process and its outcomes) and trustworthiness of an underlying ADS when provided with varying types of information about the system. More specifically, we instantiate an ADS in the area of automated loan approval and generate different explanations that are commonly used in the literature. We randomize the amount of information that study participants get to see by providing certain groups of people with the same explanations as others plus additional explanations. From our quantitative analyses, we observe that different amounts of information as well as people's (self-assessed) AI literacy significantly influence the perceived informational fairness, which, in turn, positively relates to perceived trustworthiness of the ADS. A comprehensive analysis of qualitative feedback sheds light on people's desiderata for explanations, among which are (i) consistency (both with people's expectations and across different explanations), (ii) disclosure of monotonic relationships between features and outcome, and (iii) actionability of recommendations.
翻訳日:2022-05-13 14:26:35 公開日:2022-05-11
# バイアス測定の非バイアス化

De-biasing "bias" measurement ( http://arxiv.org/abs/2205.05770v1 )

ライセンス: Link先を確認
Kristian Lum, Yunfeng Zhang, Amanda Bower(参考訳) モデルのパフォーマンスが社会的または文化的に関係のあるグループ、例えば人種、性別、あるいは多くのグループの交差点で異なる場合、それはしばしば「バイアスド」と呼ばれる。 過去数年間のアルゴリズムフェアネスの研究の多くは、モデルフェアネスの様々な定義(グループワイドのモデル性能格差が欠如している)の開発と、そのような「バイアス」の排除に重点を置いてきたが、厳密な測定を行う作業ははるかに少ない。 実際には、多面的意思決定プロセスへの入力として機能しうる、高品質で人間の消化可能なモデル性能の相違と関連する不確実性の定量化が重要である。 本稿では,集団モデルの性能差を測定するために用いられる指標の多くが,それらが表す基礎となる量の統計的偏りの推定値であることを示す。 これは、特にメンバー数が少ないカテゴリからなる敏感な変数の場合、異なる次元に沿った相対的なグループ毎のモデルパフォーマンスの差について誤解を招く結果をもたらす可能性がある。 本稿では,グループ間のモデル性能のばらつきの非バイアス推定と不確実性定量化を行う「二重補正分散推定器」を提案する。 概念的にはシンプルで、統計ソフトウェアパッケージや数値最適化なしで容易に実装できる。 シミュレーションにより本手法の有効性を実証し,モデル群別モデル性能差の統計的偏差は群間モデル性能差の統計的に有意であることを示す一方で,モデル性能の統計的偏差を推定した群別モデル性能差は,もはや統計的に有意ではないことを示す。

When a model's performance differs across socially or culturally relevant groups--like race, gender, or the intersections of many such groups--it is often called "biased." While much of the work in algorithmic fairness over the last several years has focused on developing various definitions of model fairness (the absence of group-wise model performance disparities) and eliminating such "bias," much less work has gone into rigorously measuring it. In practice, it important to have high quality, human digestible measures of model performance disparities and associated uncertainty quantification about them that can serve as inputs into multi-faceted decision-making processes. In this paper, we show both mathematically and through simulation that many of the metrics used to measure group-wise model performance disparities are themselves statistically biased estimators of the underlying quantities they purport to represent. We argue that this can cause misleading conclusions about the relative group-wise model performance disparities along different dimensions, especially in cases where some sensitive variables consist of categories with few members. We propose the "double-corrected" variance estimator, which provides unbiased estimates and uncertainty quantification of the variance of model performance across groups. It is conceptually simple and easily implementable without statistical software package or numerical optimization. We demonstrate the utility of this approach through simulation and show on a real dataset that while statistically biased estimators of model group-wise model performance disparities indicate statistically significant between-group model performance disparities, when accounting for statistical bias in the estimator, the estimated group-wise disparities in model performance are no longer statistically significant.
翻訳日:2022-05-13 14:26:12 公開日:2022-05-11
# 注意強化残差畳み込みニューラルネットワークによるCSIを用いた屋内位置推定

CSI-based Indoor Localization via Attention-Augmented Residual Convolutional Neural Network ( http://arxiv.org/abs/2205.05775v1 )

ライセンス: Link先を確認
Bowen Zhang and Houssem Sifaou and Geoffrey Ye Li(参考訳) 深層学習はチャネル状態情報(CSI)-フィンガープリント屋内ローカライゼーションシステムに広く採用されている。 これらのシステムは通常、高次元CSIから物理位置へのマッピングを学習する測位ネットワークと、歴史的CSIを使用して測位誤差を低減するトラッキングシステムという2つの主要な部分から構成される。 本稿では,高精度で汎用性の高い新しいローカライズシステムを提案する。 一方、既存の畳み込みニューラルネットワーク(CNN)ベースの位置決めネットワークの受容領域は制限されており、CSIの有用な情報としての性能は十分に調査されていない。 そこで本研究では,csiにおける局所情報とグローバルコンテキストを徹底的に活用するための注意喚起残差cnnを提案する。 一方、トラッキングシステムの汎用性を考慮すると、トラッキングシステムをcsi環境から切り離し、すべての環境における1つのトラッキングシステムを可能にする。 具体的には,追跡問題をデノージングタスクとして再設計し,事前の深い軌道で解決する。 さらに,慣性測定ユニットの精度差がトラッキング性能に悪影響を及ぼすかを調査し,プラグ・アンド・プレイを用いて精度差問題を解決する。 実験では,既存の手法よりも性能向上と汎用性向上に優れることを示す。

Deep learning has been widely adopted for channel state information (CSI)-fingerprinting indoor localization systems. These systems usually consist of two main parts, i.e., a positioning network that learns the mapping from high-dimensional CSI to physical locations and a tracking system that utilizes historical CSI to reduce the positioning error. This paper presents a new localization system with high accuracy and generality. On the one hand, the receptive field of the existing convolutional neural network (CNN)-based positioning networks is limited, restricting their performance as useful information in CSI is not explored thoroughly. As a solution, we propose a novel attention-augmented Residual CNN to utilize the local information and global context in CSI exhaustively. On the other hand, considering the generality of a tracking system, we decouple the tracking system from the CSI environments so that one tracking system for all environments becomes possible. Specifically, we remodel the tracking problem as a denoising task and solve it with deep trajectory prior. Furthermore, we investigate how the precision difference of inertial measurement units will adversely affect the tracking performance and adopt plug-and-play to solve the precision difference problem. Experiments show the superiority of our methods over existing approaches in performance and generality improvement.
翻訳日:2022-05-13 14:25:44 公開日:2022-05-11
# ハイパーグラフ分割による局所モチーフクラスタリング

Local Motif Clustering via (Hyper)Graph Partitioning ( http://arxiv.org/abs/2205.06176v1 )

ライセンス: Link先を確認
Adil Chhabra, Marcelo Fonseca Faraj and Christian Schulz(参考訳) グラフ上で広く使われている操作は局所クラスタリングである。すなわち、グラフ全体を処理することなく、シードノード周辺のよく特性化されたコミュニティを抽出する。 近年,局所的モチーフクラスタリングが提案されている。モチーフの分布に基づく局所クラスタを探索する。 この局所クラスタリングの観点は比較的新しいため、これまでエッジベースの局所クラスタリングに用いられてきた統計的および数値的手法の拡張が提案されている。 本研究では,シードノード周辺のモチーフ分布を表現するハイパーグラフとグラフモデルを構築した。 グラフ分割のための高度な組合せアルゴリズムを用いてこれらのモデルを解く。 トライアングルモチーフを用いた広範囲な実験において、我々のアルゴリズムは平均3分の1のモチーフコンダクタンス値でコミュニティを計算し、最先端ツールMAPPRが計算したコミュニティと比較して平均6.3倍高速である。

A widely-used operation on graphs is local clustering, i.e., extracting a well-characterized community around a seed node without the need to process the whole graph. Recently local motif clustering has been proposed: it looks for a local cluster based on the distribution of motifs. Since this local clustering perspective is relatively new, most approaches proposed for it are extensions of statistical and numerical methods previously used for edge-based local clustering, while the available combinatorial approaches are still few and relatively simple. In this work, we build a hypergraph and a graph model which both represent the motif-distribution around the seed node. We solve these models using sophisticated combinatorial algorithms designed for (hyper)graph partitioning. In extensive experiments with the triangle motif, we observe that our algorithm computes communities with a motif conductance value being one third on average in comparison against the communities computed by the state-of-the-art tool MAPPR while being 6.3 times faster on average.
翻訳日:2022-05-13 14:25:03 公開日:2022-05-11
# 単一クラス監視によるマルチクラス3dオブジェクト検出

Multi-Class 3D Object Detection with Single-Class Supervision ( http://arxiv.org/abs/2205.05703v1 )

ライセンス: Link先を確認
Mao Ye, Chenxi Liu, Maoqing Yao, Weiyue Wang, Zhaoqi Leng, Charles R. Qi, Dragomir Anguelov(参考訳) 多くのロボティクスアプリケーションでは、マルチクラスの3D検出器が必要であるが、完全なラベル付きデータセットによるトレーニングは、ラベル付けコストがかかる可能性がある。 別のアプローチとして、非結合データサンプルに単一クラスラベルをターゲットとするものがある。 本稿では,これらの単一クラスラベル付きデータを用いて,マルチクラス3Dオブジェクト検出モデルのトレーニングに関心がある。 まず、部分監督や半監督といった関連する概念に関して、Single-Class Supervision(SCS)の設定のユニークなスタンスを詳述することから始める。 次に,マルチクラスバージョンのレンジスパースネット(rsn)をトレーニングするケーススタディに基づいて,教師付き学習から疑似ラベル付けまで,アルゴリズムのスペクトルを適応させ,scs設定の特性を十分に活用し,最も効果的なアルゴリズムと実践を特定するために広範なアブレーション研究を行う。 Waymo Open Datasetでの実証実験は、SCSの下での適切なトレーニングが、ラベルのコストを節約しながら、完全な監視トレーニングに近づいたり、マッチしたりできることを示している。

While multi-class 3D detectors are needed in many robotics applications, training them with fully labeled datasets can be expensive in labeling cost. An alternative approach is to have targeted single-class labels on disjoint data samples. In this paper, we are interested in training a multi-class 3D object detection model, while using these single-class labeled data. We begin by detailing the unique stance of our "Single-Class Supervision" (SCS) setting with respect to related concepts such as partial supervision and semi supervision. Then, based on the case study of training the multi-class version of Range Sparse Net (RSN), we adapt a spectrum of algorithms -- from supervised learning to pseudo-labeling -- to fully exploit the properties of our SCS setting, and perform extensive ablation studies to identify the most effective algorithm and practice. Empirical experiments on the Waymo Open Dataset show that proper training under SCS can approach or match full supervision training while saving labeling costs.
翻訳日:2022-05-13 14:24:47 公開日:2022-05-11
# 深層学習BERTモデルとTVP-VARモデルに基づく中国の投資家感情・株式市場流動性・ボラティリティの経時変化に関する研究

A time-varying study of Chinese investor sentiment, stock market liquidity and volatility: Based on deep learning BERT model and TVP-VAR model ( http://arxiv.org/abs/2205.05719v1 )

ライセンス: Link先を確認
Chenrui Zhang, Xinyi Wu, Hailu Deng, Huiwei Zhang(参考訳) 2018年1月1日から2019年12月31日まで、イーストモニーのウェブサイトにある深セン株指数バーの注釈データに基づいて。 本稿では,深層学習bertモデルを用いて組込み投資家感情を抽出し,tvp-varモデルを用いて投資感情,株式市場流動性,ボラティリティの時間的変動関係について検討する。 その結果、投資家の感情が株式市場の流動性とボラティリティに与える影響が強くなっている。 逆効果は比較的小さいが、株式市場の状態とともにより発音される。 いずれの場合も、反応は短期的には中長期よりも顕著であり、その影響は非対称であり、市場が下向きの渦巻状態にある場合には衝撃が強くなる。

Based on the commentary data of the Shenzhen Stock Index bar on the EastMoney website from January 1, 2018 to December 31, 2019. This paper extracts the embedded investor sentiment by using a deep learning BERT model and investigates the time-varying linkage between investment sentiment, stock market liquidity and volatility using a TVP-VAR model. The results show that the impact of investor sentiment on stock market liquidity and volatility is stronger. Although the inverse effect is relatively small, it is more pronounced with the state of the stock market. In all cases, the response is more pronounced in the short term than in the medium to long term, and the impact is asymmetric, with shocks stronger when the market is in a downward spiral.
翻訳日:2022-05-13 14:20:36 公開日:2022-05-11
# Tiny Robot Learning:資源制約型ロボットにおける機械学習の課題と方向性

Tiny Robot Learning: Challenges and Directions for Machine Learning in Resource-Constrained Robots ( http://arxiv.org/abs/2205.05748v1 )

ライセンス: Link先を確認
Sabrina M. Neuman, Brian Plancher, Bardienus P. Duisterhof, Srivatsan Krishnan, Colby Banbury, Mark Mazumder, Shvetank Prakash, Jason Jabbour, Aleksandra Faust, Guido C.H.E. de Croon, and Vijay Janapa Reddi(参考訳) 機械学習(ML)は、コンピュータシステムにまたがる普及したツールとなっている。 MLシステム設計の課題をストレステストする新たなアプリケーションは、リソースに制約された低コストの自律ロボットにMLをデプロイする、小さなロボット学習である。 ロボット学習は組み込みシステム、ロボット工学、MLの交差点にあり、これらの領域の課題を複雑にしている。 小型ロボット学習は、サイズ、重量、面積、パワー(SWAP)の制約、センサー、アクチュエータ、計算ハードウェアの制限、エンドツーエンドのシステムトレードオフ、デプロイメントシナリオの多様化といった課題に直面する。 簡潔なロボット学習は、これらの課題を念頭に設計するMLモデルを必要とし、総合的なMLシステム設計とアジャイル開発のための自動エンドツーエンド設計ツールの必要性を明らかにするための十字架を提供する。 本稿では,小型ロボットの学習空間を簡潔に調査し,重要な課題を詳述し,MLシステム設計における将来的な仕事の機会を提案する。

Machine learning (ML) has become a pervasive tool across computing systems. An emerging application that stress-tests the challenges of ML system design is tiny robot learning, the deployment of ML on resource-constrained low-cost autonomous robots. Tiny robot learning lies at the intersection of embedded systems, robotics, and ML, compounding the challenges of these domains. Tiny robot learning is subject to challenges from size, weight, area, and power (SWAP) constraints; sensor, actuator, and compute hardware limitations; end-to-end system tradeoffs; and a large diversity of possible deployment scenarios. Tiny robot learning requires ML models to be designed with these challenges in mind, providing a crucible that reveals the necessity of holistic ML system design and automated end-to-end design tools for agile development. This paper gives a brief survey of the tiny robot learning space, elaborates on key challenges, and proposes promising opportunities for future work in ML system design.
翻訳日:2022-05-13 14:19:29 公開日:2022-05-11
# データサイエンティストと対象者間のモデルパフォーマンスコミュニケーションのための可視化ガイドライン

Visualization Guidelines for Model Performance Communication Between Data Scientists and Subject Matter Experts ( http://arxiv.org/abs/2205.05749v1 )

ライセンス: Link先を確認
Ashley Suh, Gabriel Appleby, Erik W. Anderson, Luca Finelli, Remco Chang, Dylan Cashman(参考訳) モデルのパフォーマンスの複雑さを示すことは、データサイエンティストと主題の専門家のコラボレーションを脅かすコミュニケーションボトルネックである。 正確さとエラーのメトリクスだけでは、モデル全体、そのリスク、強み、限界などを伝えることができません。 結果として、弱点が明確に理解されていない場合、モデルが予期せぬ方法で失敗する可能性がある。 あるいは、被写体の専門家は、慣れ親しんだが疑わしいサブスタンダードな手法を好まないため、モデルは使われないかもしれない。 本稿では,データ科学者と対象者間のコミュニケーションの媒体として可視化の有効利用を提案する。 本研究は,モデル性能コミュニケーションにおける共通プラクティスと,課題の専門家と意思決定者との理解のギャップについて論じる。 我々は,データ科学者と同一組織における課題専門家の両方のインタビューに基づいて,一連のコミュニケーションガイドラインとモデルパフォーマンスのコミュニケーションのための視覚化を導出する。 本研究は, モデルパフォーマンスのプレゼンテーションにおけるガイドラインの有効性を評価するために, 課題の専門家とともに追跡研究を行う。 提案ガイドラインにより,提案モデルのトレードオフを主題の専門家に認識させることができた。 参加者は、現在のコミュニケーション方法がモデルのパフォーマンスをしっかりと理解せず、モデルの使用に対する信頼性を損なう可能性があることに気づきました。

Presenting the complexities of a model's performance is a communication bottleneck that threatens collaborations between data scientists and subject matter experts. Accuracy and error metrics alone fail to tell the whole story of a model - its risks, strengths, and limitations - making it difficult for subject matter experts to feel confident in deciding to use a model. As a result, models may fail in unexpected ways if their weaknesses are not clearly understood. Alternatively, models may go unused, as subject matter experts disregard poorly presented models in favor of familiar, yet arguably substandard methods. In this paper, we propose effective use of visualization as a medium for communication between data scientists and subject matter experts. Our research addresses the gap between common practices in model performance communication and the understanding of subject matter experts and decision makers. We derive a set of communication guidelines and recommended visualizations for communicating model performance based on interviews of both data scientists and subject matter experts at the same organization. We conduct a follow-up study with subject matter experts to evaluate the efficacy of our guidelines in presentations of model performance with and without our recommendations. We find that our proposed guidelines made subject matter experts more aware of the tradeoffs of the presented model. Participants realized that current communication methods left them without a robust understanding of the model's performance, potentially giving them misplaced confidence in the use of the model.
翻訳日:2022-05-13 14:19:10 公開日:2022-05-11
# LSI: 学習された二次インデックス構造

LSI: A Learned Secondary Index Structure ( http://arxiv.org/abs/2205.05769v1 )

ライセンス: Link先を確認
Andreas Kipf, Dominik Horn, Pascal Pfeil, Ryan Marcus, Tim Kraska(参考訳) 学習された索引構造は、B木などの伝統的な指標と比較して、良好なルックアップ性能と空間消費を実現することが示されている。 しかし、ほとんどの学習されたインデックス研究は、ベースデータをソートするプライマリインデックス設定に焦点を当てている。 本研究では,学習指標がセカンダリインデックス設定において優位性を維持するかどうかを検討する。 本研究では,未分類データのインデックス化に学習指標を使用する最初の試みであるLearnered secondary Index(LSI)を紹介する。 LSIは、学習したインデックスを置換ベクトル上に構築することで、ランダムアクセスを使用して、未分類のベースデータ上でバイナリ検索を行うことができる。 さらに,lsiを指紋ベクターで拡張し,等式検索を高速化する。 LSIは最先端のセカンダリインデックスに匹敵するルックアップ性能を実現し,空間効率を最大6倍に向上することを示す。

Learned index structures have been shown to achieve favorable lookup performance and space consumption compared to their traditional counterparts such as B-trees. However, most learned index studies have focused on the primary indexing setting, where the base data is sorted. In this work, we investigate whether learned indexes sustain their advantage in the secondary indexing setting. We introduce Learned Secondary Index (LSI), a first attempt to use learned indexes for indexing unsorted data. LSI works by building a learned index over a permutation vector, which allows binary search to performed on the unsorted base data using random access. We additionally augment LSI with a fingerprint vector to accelerate equality lookups. We show that LSI achieves comparable lookup performance to state-of-the-art secondary indexes while being up to 6x more space efficient.
翻訳日:2022-05-13 14:18:48 公開日:2022-05-11
# スタークラフトにおける自動カリキュラム学習による1人の人間デモから複数の異種アクターをガイドする学習II

Learning to Guide Multiple Heterogeneous Actors from a Single Human Demonstration via Automatic Curriculum Learning in StarCraft II ( http://arxiv.org/abs/2205.05784v1 )

ライセンス: Link先を確認
Nicholas Waytowich, James Hare, Vinicius G. Goecks, Mark Mittrick, John Richardson, Anjon Basak, Derrik E. Asher(参考訳) 伝統的に、直接行動クローニングによる人間のデモンストレーションからの学習は、エージェントが動作している時に遭遇する最も可能性の高いシナリオをカバーする大量の高品質なデータにアクセスできるため、高性能なポリシーにつながる可能性がある。 しかし、現実のシナリオでは、専門家のデータは限られており、人間の専門家が示さなかった状況を扱うのに十分な行動方針を学習するエージェントを訓練することが望まれる。 もう一つの選択肢は、深い強化学習を通さずにこれらのポリシーを学習することであるが、StarCraft IIのような高次元の状態や行動空間を持つ複雑なタスクにおいて、高い計算時間を必要とする。 自動カリキュラム学習は、エージェントの現在の能力に応じて解決すべき課題の難易度を調整することにより、深層強化学習を高速化する技術によって構成された最近のメカニズムである。 しかし、適切なカリキュラムを設計することは、十分に複雑なタスクには困難であり、訓練中のエージェント探索を導く方法として人間のデモンストレーションを活用する。 本研究では,複数の異種アクターを指揮する深層強化学習エージェントを訓練し,タスクの開始位置と全体的な難易度を1人の人間による実演から自動生成するカリキュラムで制御することを目的とする。 自動カリキュラム学習により訓練されたエージェントは、最先端の強化学習ベースラインを上回り、実戦シナリオをモデル化したStarCraft IIのシミュレーションコマンドと制御タスクにおいて、人間の専門家のパフォーマンスに匹敵することを示す。

Traditionally, learning from human demonstrations via direct behavior cloning can lead to high-performance policies given that the algorithm has access to large amounts of high-quality data covering the most likely scenarios to be encountered when the agent is operating. However, in real-world scenarios, expert data is limited and it is desired to train an agent that learns a behavior policy general enough to handle situations that were not demonstrated by the human expert. Another alternative is to learn these policies with no supervision via deep reinforcement learning, however, these algorithms require a large amount of computing time to perform well on complex tasks with high-dimensional state and action spaces, such as those found in StarCraft II. Automatic curriculum learning is a recent mechanism comprised of techniques designed to speed up deep reinforcement learning by adjusting the difficulty of the current task to be solved according to the agent's current capabilities. Designing a proper curriculum, however, can be challenging for sufficiently complex tasks, and thus we leverage human demonstrations as a way to guide agent exploration during training. In this work, we aim to train deep reinforcement learning agents that can command multiple heterogeneous actors where starting positions and overall difficulty of the task are controlled by an automatically-generated curriculum from a single human demonstration. Our results show that an agent trained via automated curriculum learning can outperform state-of-the-art deep reinforcement learning baselines and match the performance of the human expert in a simulated command and control task in StarCraft II modeled over a real military scenario.
翻訳日:2022-05-13 14:18:35 公開日:2022-05-11
# RITA:生成タンパク質配列モデルのスケールアップに関する研究

RITA: a Study on Scaling Up Generative Protein Sequence Models ( http://arxiv.org/abs/2205.05789v1 )

ライセンス: Link先を確認
Daniel Hesslow, Niccol\'o Zanichelli, Pascal Notin, Iacopo Poli and Debora Marks(参考訳) 本稿では、uniref-100データベースに属する2億8000万以上のタンパク質配列に基づいて、最大120億のパラメータを持つタンパク質配列の自己回帰生成モデルであるritaを紹介する。 このような生成モデルはタンパク質の設計を大いに加速する可能性を秘めている。 タンパク質ドメインにおける自己回帰トランスフォーマーのモデルサイズで機能がどのように進化するかを示す最初の体系的研究を行い、次回のアミノ酸予測、ゼロショット適合性、酵素機能予測においてRITAモデルを評価する。 我々は,研究コミュニティの利益のために,RITAモデルをオープンにリリースする。

In this work we introduce RITA: a suite of autoregressive generative models for protein sequences, with up to 1.2 billion parameters, trained on over 280 million protein sequences belonging to the UniRef-100 database. Such generative models hold the promise of greatly accelerating protein design. We conduct the first systematic study of how capabilities evolve with model size for autoregressive transformers in the protein domain: we evaluate RITA models in next amino acid prediction, zero-shot fitness, and enzyme function prediction, showing benefits from increased scale. We release the RITA models openly, to the benefit of the research community.
翻訳日:2022-05-13 14:18:08 公開日:2022-05-11
# 金属添加物製造時に発生する気孔分布の深部学習発電機

Deep-Learned Generators of Porosity Distributions Produced During Metal Additive Manufacturing ( http://arxiv.org/abs/2205.05794v1 )

ライセンス: Link先を確認
Francis Ogoke, Kyle Johnson, Michael Glinsky, Chris Laursen, Sharlotte Kramer, Amir Barati Farimani(参考訳) レーザー粉末層融合法は, 局所制御を増強した複雑な部品を大量生産できるため, 金属添加物製造法として広く採用されている。 しかし、am生成部品は好ましくない細孔性を受け、印刷部品の特性に負の影響を及ぼす。 したがって、効果的部品を作成するには細孔の制御が不可欠である。 ポーロシティ分布の正確な理解は、潜在的な疲労と障害ゾーンを正確にシミュレートするために不可欠である。 合成多孔質組織の生成に関するこれまでの研究は、高密度の等方性多孔質分布を生成することに成功したが、しばしばスペーサー、境界依存性の細孔分布を持つ場合に適用できない。 我々の研究は、生成問題を構成部品に分解することで、これらの制約を考慮し、このギャップを埋める。 生成的逆境ネットワークとマラート散乱変換に基づく自己相関法を組み合わせて, 個々の細孔形状と表面粗さの新たな実現法を構築し, 確率的に再構成して多孔質印刷部を実現する枠組みを提案する。 生成した部品は, 近接距離, 細孔体積, 細孔異方性, 散乱変換に基づく自己相関などの統計的および次元的指標に基づいて, 既存のポロシティ分布と比較する。

Laser Powder Bed Fusion has become a widely adopted method for metal Additive Manufacturing (AM) due to its ability to mass produce complex parts with increased local control. However, AM produced parts can be subject to undesirable porosity, negatively influencing the properties of printed components. Thus, controlling porosity is integral for creating effective parts. A precise understanding of the porosity distribution is crucial for accurately simulating potential fatigue and failure zones. Previous research on generating synthetic porous microstructures have succeeded in generating parts with high density, isotropic porosity distributions but are often inapplicable to cases with sparser, boundary-dependent pore distributions. Our work bridges this gap by providing a method that considers these constraints by deconstructing the generation problem into its constitutive parts. A framework is introduced that combines Generative Adversarial Networks with Mallat Scattering Transform-based autocorrelation methods to construct novel realizations of the individual pore geometries and surface roughness, then stochastically reconstruct them to form realizations of a porous printed part. The generated parts are compared to the existing experimental porosity distributions based on statistical and dimensional metrics, such as nearest neighbor distances, pore volumes, pore anisotropies and scattering transform based auto-correlations.
翻訳日:2022-05-13 14:17:58 公開日:2022-05-11
# 点雲の表面表現

Surface Representation for Point Clouds ( http://arxiv.org/abs/2205.05740v1 )

ライセンス: Link先を確認
Haoxi Ran, Jun Liu, Chengjie Wang(参考訳) ほとんどの先行研究は座標による点雲の形状を表している。 しかし、局所幾何学を直接記述するには不十分である。 本稿では, 点雲の局所構造を記述する新しい表現である, \textbf{RepSurf} (representative surfaces) を提案する。 我々は,三角形メッシュに触発されたrepsurf,三角形repsurf,傘repsurfの2つの変種と,コンピュータグラフィックスにおける傘曲率について検討した。 RepSurfの表現は、表面再構成後の予め定義された幾何学的先行値によって計算する。 repsurfは、不規則な点との無償のコラボレーションにより、ほとんどのポイントクラウドモデルのためのプラグアンドプレイモジュールとなる。 PointNet++(SSGバージョン)のシンプルなベースラインに基づいて、Umbrella RepSurfは、パフォーマンスと効率の観点から、さまざまなベンチマークの分類、セグメンテーション、検出において、これまでの最先端をはるかに上回っている。 パラメータの約 \textbf{0.008M} , \textbf{0.04G} FLOPs および \textbf{1.12ms} の推論時間の増加に伴い,ModelNet40では \textbf{94.7\%} (+0.5\%) , ScanObjectNNでは \textbf{84.6\%} (+1.8\%) , S3DIS 6-foldでは \textbf{74.3\%} (+0.8\%) mIoU, ScanNetでは \textb{70.0\%} (+1.6\%) mIoU が得られる。 検出のために、RepSurf を用いた過去の最先端検出器は、ScanNetV2 上で \textbf{71.2\%} (+2.1\%) mAP$\mathit{_{25}}$, \textbf{54.8\%} (+2.0\%) mAP$\mathit{_{50}}$, SUN RGB-D 上で \textbf{64.9\%} (+1.9\%) mAP$\mathit{_{_{25}}$, \textbf{47.7\%} (+2.5\%) mAP$\mathit{_{50}}$を得る。 私たちの軽量なTriangular RepSurfは、これらのベンチマークでも優れた性能を発揮しています。 コードは \url{https://github.com/hancyran/RepSurf} で公開されている。

Most prior work represents the shapes of point clouds by coordinates. However, it is insufficient to describe the local geometry directly. In this paper, we present \textbf{RepSurf} (representative surfaces), a novel representation of point clouds to \textbf{explicitly} depict the very local structure. We explore two variants of RepSurf, Triangular RepSurf and Umbrella RepSurf inspired by triangle meshes and umbrella curvature in computer graphics. We compute the representations of RepSurf by predefined geometric priors after surface reconstruction. RepSurf can be a plug-and-play module for most point cloud models thanks to its free collaboration with irregular points. Based on a simple baseline of PointNet++ (SSG version), Umbrella RepSurf surpasses the previous state-of-the-art by a large margin for classification, segmentation and detection on various benchmarks in terms of performance and efficiency. With an increase of around \textbf{0.008M} number of parameters, \textbf{0.04G} FLOPs, and \textbf{1.12ms} inference time, our method achieves \textbf{94.7\%} (+0.5\%) on ModelNet40, and \textbf{84.6\%} (+1.8\%) on ScanObjectNN for classification, while \textbf{74.3\%} (+0.8\%) mIoU on S3DIS 6-fold, and \textbf{70.0\%} (+1.6\%) mIoU on ScanNet for segmentation. For detection, previous state-of-the-art detector with our RepSurf obtains \textbf{71.2\%} (+2.1\%) mAP$\mathit{_{25}}$, \textbf{54.8\%} (+2.0\%) mAP$\mathit{_{50}}$ on ScanNetV2, and \textbf{64.9\%} (+1.9\%) mAP$\mathit{_{25}}$, \textbf{47.7\%} (+2.5\%) mAP$\mathit{_{50}}$ on SUN RGB-D. Our lightweight Triangular RepSurf performs its excellence on these benchmarks as well. The code is publicly available at \url{https://github.com/hancyran/RepSurf}.
翻訳日:2022-05-13 13:08:56 公開日:2022-05-11
# 低リソース音声認識のためのメタ学習の改善

Improved Meta Learning for Low Resource Speech Recognition ( http://arxiv.org/abs/2205.06182v1 )

ライセンス: Link先を確認
Satwinder Singh, Ruili Wang, Feng Hou(参考訳) 本稿では,従来のモデル非依存メタ学習(MAML)アプローチを改善する低リソース音声認識のための新しいメタ学習フレームワークを提案する。 MAMLはシンプルだが強力なメタ学習アプローチである。 しかし、MAMLは、トレーニング不安定性や収束速度の遅いといったいくつかのコア欠陥を提示する。 これらの問題に対処するために、我々はマルチステップロス(MSL)を採用する。 MSLは、MAMLの内ループの各ステップにおける損失を計算し、重み付けされた重要ベクトルと組み合わせることを目的としている。 重要なベクトルは、最後のステップでの損失が前のステップよりも重要であることを保証します。 実験により,MSLはトレーニング手順の安定性を著しく向上し,システム全体の精度も向上することが示された。 提案方式は,MAMLに基づく低リソースASRシステムにおいて,文字誤り率や安定した訓練行動で性能を向上する。

We propose a new meta learning based framework for low resource speech recognition that improves the previous model agnostic meta learning (MAML) approach. The MAML is a simple yet powerful meta learning approach. However, the MAML presents some core deficiencies such as training instabilities and slower convergence speed. To address these issues, we adopt multi-step loss (MSL). The MSL aims to calculate losses at every step of the inner loop of MAML and then combines them with a weighted importance vector. The importance vector ensures that the loss at the last step has more importance than the previous steps. Our empirical evaluation shows that MSL significantly improves the stability of the training procedure and it thus also improves the accuracy of the overall system. Our proposed system outperforms MAML based low resource ASR system on various languages in terms of character error rates and stable training behavior.
翻訳日:2022-05-13 13:05:41 公開日:2022-05-11
# 音声・視覚多人数音声認識とアクティブ話者選択について

A Closer Look at Audio-Visual Multi-Person Speech Recognition and Active Speaker Selection ( http://arxiv.org/abs/2205.05684v1 )

ライセンス: Link先を確認
Otavio Braga, Olivier Siohan(参考訳) 音声・視覚自動音声認識は、雑音条件下での頑健なASRに対する有望なアプローチである。 しかし、近年まで、単一の話し手の映像が音声と一致していると仮定し、複数の人が画面に映っているときの推測時にアクティブな話者を選択することは別個の問題として、孤立して研究されてきた。 代替として、近年の研究では、話者選択問題を直接完全に微分可能なモデルに焼き込むことで、2つの問題を同時に注意メカニズムで解決する提案がなされている。 興味深い発見は、トレーニング時にこの対応が明示的に提供されないにもかかわらず、注意が間接的に音声と発話面の関係を学習することであった。 本研究は, この関係をさらに調査し, 両問題間の相互作用について検討する。 5万時間以上のyoutube公開動画をトレーニングデータとして実験を行い、まず、アクティブな話者選択タスクにおける注意層の精度を評価した。 第2に,様々な雑音条件下でのハード決定境界と並列面のトラック数を利用して,エンド・ツー・エンド・モデルが少なくとも大きな2ステップ・システムとして機能することを示す。

Audio-visual automatic speech recognition is a promising approach to robust ASR under noisy conditions. However, up until recently it had been traditionally studied in isolation assuming the video of a single speaking face matches the audio, and selecting the active speaker at inference time when multiple people are on screen was put aside as a separate problem. As an alternative, recent work has proposed to address the two problems simultaneously with an attention mechanism, baking the speaker selection problem directly into a fully differentiable model. One interesting finding was that the attention indirectly learns the association between the audio and the speaking face even though this correspondence is never explicitly provided at training time. In the present work we further investigate this connection and examine the interplay between the two problems. With experiments involving over 50 thousand hours of public YouTube videos as training data, we first evaluate the accuracy of the attention layer on an active speaker selection task. Secondly, we show under closer scrutiny that an end-to-end model performs at least as well as a considerably larger two-step system that utilizes a hard decision boundary under various noise conditions and number of parallel face tracks.
翻訳日:2022-05-13 13:02:58 公開日:2022-05-11
# 低次元線形モデルのシステム同定によるブリッジングモデルの安全性とモデルフリー強化学習

Bridging Model-based Safety and Model-free Reinforcement Learning through System Identification of Low Dimensional Linear Models ( http://arxiv.org/abs/2205.05787v1 )

ライセンス: Link先を確認
Zhongyu Li, Jun Zeng, Akshay Thirugnanam, Koushil Sreenath(参考訳) 動的ロボットのモデルベース安全性とモデルフリー強化学習(RL)は、モデルベース手法が正式な安全保証を提供することができるのに対して、RLベースの手法は、フルオーダーシステムダイナミクスから学習することでロボットの俊敏性を活用することができるため、魅力的である。 しかし、この問題に対処する現在のアプローチは主に単純なシステムに限られている。 本稿では、RLポリシーで制御されるシステムの低次元モデルを明確に見つけ、そのモデルに安定性と安全性の保証を適用することにより、モデルベース安全性とモデルフリー強化学習を組み合わせる新しい手法を提案する。 複合型二足歩行ロボットcassieを例として,ハイブリッドダイナミクスとアンダーアクチュレーションを備えた高次元非線形システムと,そのrlベースの歩行制御器を用いた。 低次元力学モデルは閉ループ系の力学を捉えるのに十分であることを示す。 このモデルが線形であり,漸近安定であり,すべての次元の制御入力にまたがって分離されることを示す。 さらに、異なるRL制御ポリシーを用いても、そのような線形性が存在することを実証する。 このような結果は、rlと最適制御の関係を理解するための興味深い方向を示している: rlが訓練中に非線形システムを線形化する傾向があるかどうか。 さらに,本手法では,制御バリア機能を有するモデル予測制御など,安全クリティカルな最適制御フレームワークによる保証をcassieを用いた自律ナビゲーションの例として実現し,rlベースの制御による機敏さを活用できることを示す。

Bridging model-based safety and model-free reinforcement learning (RL) for dynamic robots is appealing since model-based methods are able to provide formal safety guarantees, while RL-based methods are able to exploit the robot agility by learning from the full-order system dynamics. However, current approaches to tackle this problem are mostly restricted to simple systems. In this paper, we propose a new method to combine model-based safety with model-free reinforcement learning by explicitly finding a low-dimensional model of the system controlled by a RL policy and applying stability and safety guarantees on that simple model. We use a complex bipedal robot Cassie, which is a high dimensional nonlinear system with hybrid dynamics and underactuation, and its RL-based walking controller as an example. We show that a low-dimensional dynamical model is sufficient to capture the dynamics of the closed-loop system. We demonstrate that this model is linear, asymptotically stable, and is decoupled across control input in all dimensions. We further exemplify that such linearity exists even when using different RL control policies. Such results point out an interesting direction to understand the relationship between RL and optimal control: whether RL tends to linearize the nonlinear system during training in some cases. Furthermore, we illustrate that the found linear model is able to provide guarantees by safety-critical optimal control framework, e.g., Model Predictive Control with Control Barrier Functions, on an example of autonomous navigation using Cassie while taking advantage of the agility provided by the RL-based controller.
翻訳日:2022-05-13 13:01:55 公開日:2022-05-11
# (参考訳) 非正規強化学習に対する状態分布マッチングアプローチ

A State-Distribution Matching Approach to Non-Episodic Reinforcement Learning ( http://arxiv.org/abs/2205.05212v1 )

ライセンス: CC BY 4.0
Archit Sharma, Rehaan Ahmad, Chelsea Finn(参考訳) 強化学習(RL)は試行錯誤による学習の枠組みを提供するが、RLアルゴリズムを現実世界に翻訳することは依然として困難である。 現実の応用への大きなハードルは、人間やロボットのような具体化されたエージェントが遭遇する現実世界の連続的および非エポゾディックな性質とは対照的に、試行錯誤後に環境がリセットされるエピソード的な環境におけるアルゴリズムの開発から生じる。 以前の作業では、フォワードポリシーがタスクを解決し、後方ポリシーが環境をリセットする、という交互なアプローチが検討されてきたが、下位ポリシーがエージェントをリセットすべき初期状態分布は何か? そこで本研究では,いくつかの実演を想定して,提示された実演における状態分布に合致する後方方針を訓練する新しいメダリストであるメダリストを提案する。 これによりエージェントはタスク関連状態に近い状態となり、フォワードポリシーのために簡単で難しい開始状態が混在する。 実験の結果,MEDAL は EARL ベンチマークから得られた3つの疎逆連続制御タスクにおいて,従来の手法と一致し,性能に優れることがわかった。

While reinforcement learning (RL) provides a framework for learning through trial and error, translating RL algorithms into the real world has remained challenging. A major hurdle to real-world application arises from the development of algorithms in an episodic setting where the environment is reset after every trial, in contrast with the continual and non-episodic nature of the real-world encountered by embodied agents such as humans and robots. Prior works have considered an alternating approach where a forward policy learns to solve the task and the backward policy learns to reset the environment, but what initial state distribution should the backward policy reset the agent to? Assuming access to a few demonstrations, we propose a new method, MEDAL, that trains the backward policy to match the state distribution in the provided demonstrations. This keeps the agent close to the task-relevant states, allowing for a mix of easy and difficult starting states for the forward policy. Our experiments show that MEDAL matches or outperforms prior methods on three sparse-reward continuous control tasks from the EARL benchmark, with 40% gains on the hardest task, while making fewer assumptions than prior works.
翻訳日:2022-05-13 08:55:56 公開日:2022-05-11
# (参考訳) VAEとGANを一般化した統一f分割フレームワーク

A Unified f-divergence Framework Generalizing VAE and GAN ( http://arxiv.org/abs/2205.05214v1 )

ライセンス: CC BY 4.0
Jaime Roquero Gimenez and James Zou(参考訳) 確率距離の多様な尺度を柔軟に取り入れる深層生成モデルの開発は重要な研究分野である。 本稿では, VAEとf-GANの両方を組み込んだf-divergence生成モデルの統一的な数学的枠組みを開発し,一般のf-divergencesによる学習を可能にする。 f-GMにより、ネットワークの構造や学習手順を変更することなく、実験者がf分割関数を柔軟に設計することができる。 f-GMは、ジェネレータ、推論ネットワーク、密度推定器の3つのコンポーネントを共同でモデル化する。 したがって、潜在変数のサンプリング、後方推定、および任意のデータムの可能性の評価を同時に行うことができる。 f-GM はエンコーダ・デコーダ GAN のクラスに属する:我々の密度推定器は、潜在符号と観測空間の結合空間におけるサンプル間の判別器の役割を担っていると解釈できる。 本稿では,f-GM が標準 VAE と f-GAN を特殊ケースとして自然に単純化し,異なるエンコーダ・デコーダ GAN アーキテクチャ間の接続を示す。 f-GMは一般的なネットワークアーキテクチャとオプティマイザと互換性がある。 我々はこれを応用して、f-発散の異なる選択のモード崩壊や画像のシャープネスといった効果を実験的に探索する。

Developing deep generative models that flexibly incorporate diverse measures of probability distance is an important area of research. Here we develop an unified mathematical framework of f-divergence generative model, f-GM, that incorporates both VAE and f-GAN, and enables tractable learning with general f-divergences. f-GM allows the experimenter to flexibly design the f-divergence function without changing the structure of the networks or the learning procedure. f-GM jointly models three components: a generator, a inference network and a density estimator. Therefore it simultaneously enables sampling, posterior inference of the latent variable as well as evaluation of the likelihood of an arbitrary datum. f-GM belongs to the class of encoder-decoder GANs: our density estimator can be interpreted as playing the role of a discriminator between samples in the joint space of latent code and observed space. We prove that f-GM naturally simplifies to the standard VAE and to f-GAN as special cases, and illustrates the connections between different encoder-decoder GAN architectures. f-GM is compatible with general network architecture and optimizer. We leverage it to experimentally explore the effects -- e.g. mode collapse and image sharpness -- of different choices of f-divergence.
翻訳日:2022-05-13 08:34:37 公開日:2022-05-11
# (参考訳) 条件付きDSVAEによるゼロショット音声変換の改善に向けて

Towards Improved Zero-shot Voice Conversion with Conditional DSVAE ( http://arxiv.org/abs/2205.05227v1 )

ライセンス: CC BY 4.0
Jiachen Lian and Chunlei Zhang and Gopala Krishna Anumanchipalli and Dong Yu(参考訳) ゼロショットノンパラレル音声変換(VC)には,コンテンツと発話スタイルの情報の分離が不可欠である。 本研究は,情報分解のバックボーンとして,不連続な逐次変分オートエンコーダ(dsvae)を用いた新しい枠組みについて検討した。 ゼロショットVCでは、ある発話からコンテンツ埋め込みと話者埋め込みを同時に切り離すことが可能であることを示した。 そこで本研究では,DSVAEベースラインにおけるコンテンツブランチの事前分布に関する懸念を提起し,方向性を継続する。 ランダム初期化事前分布は,学習過程中の音声構造情報を減らすためにコンテンツ埋め込みを強制するが,これは望ましい性質ではない。 ここでは、より多くの音声情報を保存したより優れたコンテンツ埋め込みの実現を目指す。 条件付きdsvaeは,事前モデリングの条件としてコンテンツバイアスを許容し,後方分布からサンプリングしたコンテンツ埋め込みを再構成する新しいモデルである。 VCTKデータセットを用いた実験では、条件付きDSVAEから導出されるコンテンツ埋め込みがランダム性を克服し、より優れた音素分類精度、安定した発声、および競合するDSVAEベースラインと比較してゼロショットVC性能を実現することを示した。

Disentangling content and speaking style information is essential for zero-shot non-parallel voice conversion (VC). Our previous study investigated a novel framework with disentangled sequential variational autoencoder (DSVAE) as the backbone for information decomposition. We have demonstrated that simultaneous disentangling content embedding and speaker embedding from one utterance is feasible for zero-shot VC. In this study, we continue the direction by raising one concern about the prior distribution of content branch in the DSVAE baseline. We find the random initialized prior distribution will force the content embedding to reduce the phonetic-structure information during the learning process, which is not a desired property. Here, we seek to achieve a better content embedding with more phonetic information preserved. We propose conditional DSVAE, a new model that enables content bias as a condition to the prior modeling and reshapes the content embedding sampled from the posterior distribution. In our experiment on the VCTK dataset, we demonstrate that content embeddings derived from the conditional DSVAE overcome the randomness and achieve a much better phoneme classification accuracy, a stabilized vocalization and a better zero-shot VC performance compared with the competitive DSVAE baseline.
翻訳日:2022-05-13 08:23:01 公開日:2022-05-11
# (参考訳) コスト予算配分による階層的制約付き確率的最短経路計画

Hierarchical Constrained Stochastic Shortest Path Planning via Cost Budget Allocation ( http://arxiv.org/abs/2205.05228v1 )

ライセンス: CC BY 4.0
Sungkweon Hong and Brian C. Williams(参考訳) 確率的逐次決定は、各ハイレベルなアクションがプリミティブな状態とアクションでさらに計画される問題において階層的な構造を必要とすることが多い。 さらに、多くの現実世界のアプリケーションでは、リスク測定や燃料消費といった二次コストの制約を満たす計画が必要となる。 本稿では,これら2つの重要な要件を満たす階層的制約付き確率的最短経路問題(hc-ssp)を提案する。 HC-SSPは多くの実世界のアプリケーションでそのような計画要件をモデル化するための有用なフレームワークを提供するが、結果として生じる問題は複雑化しており、ユーザがリアルタイムでリスクに敏感なアプリケーションに適用できないような最適なソリューションを見つけるのが困難である。 この問題に対処するため,提案アルゴリズムでは,分岐とバウンドのスキームに基づく下層計画問題に対して,コスト予算を反復的に割り当て,実現可能な解を高速かつ漸進的に更新するアルゴリズムを提案する。 提案手法を避難シナリオで実証し,最先端の数学的プログラミング手法よりも優れていることを示す。

Stochastic sequential decision making often requires hierarchical structure in the problem where each high-level action should be further planned with primitive states and actions. In addition, many real-world applications require a plan that satisfies constraints on the secondary costs such as risk measure or fuel consumption. In this paper, we propose a hierarchical constrained stochastic shortest path problem (HC-SSP) that meets those two crucial requirements in a single framework. Although HC-SSP provides a useful framework to model such planning requirements in many real-world applications, the resulting problem has high complexity and makes it difficult to find an optimal solution fast which prevents user from applying it to real-time and risk-sensitive applications. To address this problem, we present an algorithm that iteratively allocates cost budget to lower level planning problems based on branch-and-bound scheme to find a feasible solution fast and incrementally update the incumbent solution. We demonstrate the proposed algorithm in an evacuation scenario and prove the advantage over a state-of-the-art mathematical programming based approach.
翻訳日:2022-05-13 08:09:22 公開日:2022-05-11
# (参考訳) 多段階強化学習のための協調政策の開発

Developing cooperative policies for multi-stage reinforcement learning tasks ( http://arxiv.org/abs/2205.05230v1 )

ライセンス: CC BY 4.0
Jordan Erskine, Chris Lehnert(参考訳) 多くの階層的強化学習アルゴリズムは、より高い推論レベルでタスクを解決するために、一連の独立したスキルを基礎として利用している。 これらのアルゴリズムは、独立ではなく協力的なスキルを使う価値を考慮しない。 本稿では,連続エージェントが長期水平多段階タスクを協調的に解決できる協調的協調政策(CCP)手法を提案する。 この方法は、各エージェントのポリシーを変更して、現在のエージェントと次のエージェントの批評家の両方を最大化する。 批評家を協調的に最大化することで、各エージェントはそのタスクに有益な行動を取ることができる。 この手法をマルチルームmazeドメインとpeg in hole manipulationドメインで使用することにより,協調ポリシは,複数のナイーブポリシ,ドメイン全体でトレーニングされた1つのエージェント,その他の逐次hrlアルゴリズムを上回ることができた。

Many hierarchical reinforcement learning algorithms utilise a series of independent skills as a basis to solve tasks at a higher level of reasoning. These algorithms don't consider the value of using skills that are cooperative instead of independent. This paper proposes the Cooperative Consecutive Policies (CCP) method of enabling consecutive agents to cooperatively solve long time horizon multi-stage tasks. This method is achieved by modifying the policy of each agent to maximise both the current and next agent's critic. Cooperatively maximising critics allows each agent to take actions that are beneficial for its task as well as subsequent tasks. Using this method in a multi-room maze domain and a peg in hole manipulation domain, the cooperative policies were able to outperform a set of naive policies, a single agent trained across the entire domain, as well as another sequential HRL algorithm.
翻訳日:2022-05-13 07:52:03 公開日:2022-05-11
# (参考訳) バウンディングボックスによるサルエント物体検出

Salient Object Detection via Bounding-box Supervision ( http://arxiv.org/abs/2205.05245v1 )

ライセンス: CC BY 4.0
Mengqi He, Jing Zhang, Wenxin Yu(参考訳) 完全教師付き塩分検出モデルの成功は、多数のピクセル単位のラベルに依存する。 本稿では,ラベル付け作業の軽減を図るため,バウンディングボックスに基づく弱教師付きサリエンシ検出について検討する。 境界ボックスアノテーションを考慮すれば、境界ボックス内のピクセルには広範なラベリングノイズが含まれている可能性がある。 しかし、大量の背景が除外されているため、前景境界ボックス領域は、より複雑な背景を含まないため、収穫した前景領域のみを用いて手作りの特徴に基づく塩分検出を行うことができる。 従来の手工芸品の特徴が十分に表現されていないため, ノイズの多いサリエンシマップに導かれるため, さらに, 予測構造を正規化するために, 構造に配慮した自己監督的損失を導入する。 また、バウンディングボックス外の画素は背景であるべきであり、正確な背景領域を正確にローカライズするために部分クロスエントロピー損失関数を用いることができる。 6つのベンチマークRGBサリエンシデータセットの実験結果から,本モデルの有効性が示された。

The success of fully supervised saliency detection models depends on a large number of pixel-wise labeling. In this paper, we work on bounding-box based weakly-supervised saliency detection to relieve the labeling effort. Given the bounding box annotation, we observe that pixels inside the bounding box may contain extensive labeling noise. However, as a large amount of background is excluded, the foreground bounding box region contains a less complex background, making it possible to perform handcrafted features-based saliency detection with only the cropped foreground region. As the conventional handcrafted features are not representative enough, leading to noisy saliency maps, we further introduce structure-aware self-supervised loss to regularize the structure of the prediction. Further, we claim that pixels outside the bounding box should be background, thus partial cross-entropy loss function can be used to accurately localize the accurate background region. Experimental results on six benchmark RGB saliency datasets illustrate the effectiveness of our model.
翻訳日:2022-05-13 07:36:40 公開日:2022-05-11
# (参考訳) 機械学習実践における評価ギャップ

Evaluation Gaps in Machine Learning Practice ( http://arxiv.org/abs/2205.05256v1 )

ライセンス: CC BY 4.0
Ben Hutchinson, Negar Rostamzadeh, Christina Greer, Katherine Heller, Vinodkumar Prabhakaran(参考訳) 機械学習(ML)モデルのアプリケーションエコシステムに対する適切性に対する信頼性の高い判断を形成することは、その責任を負う上で重要であり、害、利益、責任を含む幅広い要因を検討する必要がある。 しかし実際には、MLモデルの評価は、限られた範囲の非文脈化予測行動のみに焦点を当てることが多い。 評価対象の理想化範囲と実際の評価対象の狭間における評価ギャップについて検討した。 コンピュータビジョンと自然言語処理のコミュニティにおける最近の著名なカンファレンスの論文の実証研究を通じて、我々はいくつかの評価手法に焦点をあてた。 これらの手法で使用されるメトリクスとテストデータ分布を考慮し、フィールドにどの特性が集中しているかを注意し、評価中に頻繁に無視されるか、あるいは傍観される性質を明らかにする。 これらの特性を研究することで、機械学習分野が規範的な影響を持つコミットメントの範囲を暗黙的に仮定することを示し、これには連続性へのコミットメント、文脈からの抽象可能性、影響の定量性、評価におけるモデル入力の限られた役割、異なる障害モードの等価性が含まれる。 これらの仮定に光を当てることで、MLモデルの信頼性をしっかりと検証するための、より文脈化された評価手法への道を指して、MLシステムコンテキストに対する彼らの適切性に疑問を呈することができる。

Forming a reliable judgement of a machine learning (ML) model's appropriateness for an application ecosystem is critical for its responsible use, and requires considering a broad range of factors including harms, benefits, and responsibilities. In practice, however, evaluations of ML models frequently focus on only a narrow range of decontextualized predictive behaviours. We examine the evaluation gaps between the idealized breadth of evaluation concerns and the observed narrow focus of actual evaluations. Through an empirical study of papers from recent high-profile conferences in the Computer Vision and Natural Language Processing communities, we demonstrate a general focus on a handful of evaluation methods. By considering the metrics and test data distributions used in these methods, we draw attention to which properties of models are centered in the field, revealing the properties that are frequently neglected or sidelined during evaluation. By studying these properties, we demonstrate the machine learning discipline's implicit assumption of a range of commitments which have normative impacts; these include commitments to consequentialism, abstractability from context, the quantifiability of impacts, the limited role of model inputs in evaluation, and the equivalence of different failure modes. Shedding light on these assumptions enables us to question their appropriateness for ML system contexts, pointing the way towards more contextualized evaluation methodologies for robustly examining the trustworthiness of ML models
翻訳日:2022-05-13 07:24:33 公開日:2022-05-11
# (参考訳) 単目的・多目的凸最適化のための新しい運動量係数をもつ大域収束高速反復収縮保持アルゴリズム

A globally convergent fast iterative shrinkage-thresholding algorithm with a new momentum factor for single and multi-objective convex optimization ( http://arxiv.org/abs/2205.05262v1 )

ライセンス: CC BY 4.0
Hiroki Tanabe, Ellen H. Fukuda, and Nobuo Yamashita(参考訳) 微分可能関数と凸関数の和で表される目的関数を最小化する凸合成最適化は、機械学習や信号/画像処理で広く使われている。 Fast Iterative Shrinkage Thresholding Algorithm (FISTA) はこの問題を解く典型的な方法であり、大域収束率は$O(1 / k^2)$である。 近年、これはO(1 / k^2)$大域収束率の証明とともに多目的最適化に拡張されている。 しかし、その運動量係数は古典的であり、イテレートの収束は証明されていない。 本研究では,追加のハイパーパラメータ$(a, b)$を導入することで,単一目的の場合においても新しい一般運動量係数を持つ加速度近位勾配法を提案する。 提案手法はまた,任意の$(a,b)$に対して大域収束率$O(1/k^2)$を持ち,さらに,a$が正のとき,生成した反復列が弱パレート解に収束することを示す。 さらに、様々な$(a,b)$で数値結果を報告し、これらの選択のいくつかが古典的な運動量因子よりも良い結果をもたらすことを示す。

Convex-composite optimization, which minimizes an objective function represented by the sum of a differentiable function and a convex one, is widely used in machine learning and signal/image processing. Fast Iterative Shrinkage Thresholding Algorithm (FISTA) is a typical method for solving this problem and has a global convergence rate of $O(1 / k^2)$. Recently, this has been extended to multi-objective optimization, together with the proof of the $O(1 / k^2)$ global convergence rate. However, its momentum factor is classical, and the convergence of its iterates has not been proven. In this work, introducing some additional hyperparameters $(a, b)$, we propose another accelerated proximal gradient method with a general momentum factor, which is new even for the single-objective cases. We show that our proposed method also has a global convergence rate of $O(1/k^2)$ for any $(a,b)$, and further that the generated sequence of iterates converges to a weak Pareto solution when $a$ is positive, an essential property for the finite-time manifold identification. Moreover, we report numerical results with various $(a,b)$, showing that some of these choices give better results than the classical momentum factors.
翻訳日:2022-05-13 06:53:35 公開日:2022-05-11
# (参考訳) 物理概念のための教師なし機械学習

Unsupervised machine learning for physical concepts ( http://arxiv.org/abs/2205.05279v1 )

ライセンス: CC BY 4.0
Ruyu Yang(参考訳) 近年、科学者の科学研究を支援するために機械学習が用いられている。 人間の科学的理論は一連の概念に基づいている。 実験データから概念を学習する方法は、重要な第一歩となるでしょう。 教師なし機械学習を用いて解釈可能な物理概念を抽出するハイブリッド手法を提案する。 この方法は2つの段階からなる。 まず、実験データのベッチ数を見つける必要があります。 次に,ベッチ数から有意な物理変数を抽出するために,変分オートエンコーダネットワークを用いる。 おもちゃのモデルでプロトコルをテストし、その仕組みを示します。

In recent years, machine learning methods have been used to assist scientists in scientific research. Human scientific theories are based on a series of concepts. How machine learns the concepts from experimental data will be an important first step. We propose a hybrid method to extract interpretable physical concepts through unsupervised machine learning. This method consists of two stages. At first, we need to find the Betti numbers of experimental data. Secondly, given the Betti numbers, we use a variational autoencoder network to extract meaningful physical variables. We test our protocol on toy models and show how it works.
翻訳日:2022-05-13 05:52:28 公開日:2022-05-11
# (参考訳) 協調学習確率的u-netによる空中超音波を用いた可視・視認性:プライバシーを意識した人間の分節化

Invisible-to-Visible: Privacy-Aware Human Segmentation using Airborne Ultrasound via Collaborative Learning Probabilistic U-Net ( http://arxiv.org/abs/2205.05293v1 )

ライセンス: CC BY 4.0
Risako Tanigawa, Yasunori Ishii, Kazuki Kozuka and Takayoshi Yamashita(参考訳) カラー画像は視覚的に容易に理解でき、色やテクスチャといった多くの情報を得ることができる。 セグメンテーションなどのタスクで、高度に広く使われている。 一方,屋内の個人セグメンテーションでは,プライバシを考慮した個人データを収集する必要がある。 本研究では,見えない情報,特に空中超音波による人体セグメンテーションのための新しい課題を提案する。 まず、超音波を反射型超音波指向性画像(ultrasound image)に変換し、目に見えない情報からセグメンテーションを行う。 超音波画像は人の位置を大まかに識別できるが、詳細な形状は曖昧である。 そこで本研究では,超音波とセグメント画像を同時に使用し,潜在空間のパラメータを比較することで超音波とセグメント画像の確率分布を閉じる協調学習確率的u-netを提案する。 推論では、超音波画像のみを使用してセグメント化結果を得ることができる。 性能検証の結果,提案手法は従来の確率的u-netや他の変分オートエンコーダモデルよりも高精度に人間のセグメンテーションを推定できた。

Color images are easy to understand visually and can acquire a great deal of information, such as color and texture. They are highly and widely used in tasks such as segmentation. On the other hand, in indoor person segmentation, it is necessary to collect person data considering privacy. We propose a new task for human segmentation from invisible information, especially airborne ultrasound. We first convert ultrasound waves to reflected ultrasound directional images (ultrasound images) to perform segmentation from invisible information. Although ultrasound images can roughly identify a person's location, the detailed shape is ambiguous. To address this problem, we propose a collaborative learning probabilistic U-Net that uses ultrasound and segmentation images simultaneously during training, closing the probabilistic distributions between ultrasound and segmentation images by comparing the parameters of the latent spaces. In inference, only ultrasound images can be used to obtain segmentation results. As a result of performance verification, the proposed method could estimate human segmentations more accurately than conventional probabilistic U-Net and other variational autoencoder models.
翻訳日:2022-05-13 05:41:38 公開日:2022-05-11
# (参考訳) サブスペース学習機械(SLM)の方法論と性能

Subspace Learning Machine (SLM): Methodology and Performance ( http://arxiv.org/abs/2205.05296v1 )

ライセンス: CC BY 4.0
Hongyu Fu, Yijing Yang, Vinod K. Mishra, C.-C. Jay Kuo(参考訳) 本研究では,feedforward multilayer perceptron (ff-mlp) , decision tree (dt) およびextreme learning machine (elm) に触発されて,subspace learning machine (slm) と呼ばれる新しい分類モデルを提案する。 slm はまず、各入力特徴の判別力を調べることにより、識別部分空間 $s^0$ を識別する。 次に、$S^0$ の関数の確率的射影を使って 1D の部分空間を生成し、それぞれに最適な分割を求める。 これは超平面で$s^0$を分配することと同値である。 最高の$q$パーティションを選択し、その間に$2q$パーティションされたサブスペースが生成される。 決定ツリーのルートノードと2q$サブスペースの交差点に$S^0$を、深さ1の子ノードに割り当てます。 分割処理は各子ノードに再帰的に適用され、SLMツリーを構築する。 子ノードのサンプルが十分に純粋な場合、分割処理が終了し、各葉ノードが予測を行う。 このアイデアは回帰に一般化することができ、サブスペース学習回帰器(SLR)へと導かれる。 さらに、SLM/SLR木のアンサンブルはより強力な予測因子となる。 SLM/SLR木,アンサンブル,古典型分類器/回帰器間の性能ベンチマーク実験を行った。

Inspired by the feedforward multilayer perceptron (FF-MLP), decision tree (DT) and extreme learning machine (ELM), a new classification model, called the subspace learning machine (SLM), is proposed in this work. SLM first identifies a discriminant subspace, $S^0$, by examining the discriminant power of each input feature. Then, it uses probabilistic projections of features in $S^0$ to yield 1D subspaces and finds the optimal partition for each of them. This is equivalent to partitioning $S^0$ with hyperplanes. A criterion is developed to choose the best $q$ partitions that yield $2q$ partitioned subspaces among them. We assign $S^0$ to the root node of a decision tree and the intersections of $2q$ subspaces to its child nodes of depth one. The partitioning process is recursively applied at each child node to build an SLM tree. When the samples at a child node are sufficiently pure, the partitioning process stops and each leaf node makes a prediction. The idea can be generalized to regression, leading to the subspace learning regressor (SLR). Furthermore, ensembles of SLM/SLR trees can yield a stronger predictor. Extensive experiments are conducted for performance benchmarking among SLM/SLR trees, ensembles and classical classifiers/regressors.
翻訳日:2022-05-13 05:30:25 公開日:2022-05-11
# (参考訳) インクリメンタルソース精度推定による弱監視

Weak Supervision with Incremental Source Accuracy Estimation ( http://arxiv.org/abs/2205.05302v1 )

ライセンス: CC BY 4.0
Richard Gresham Correro(参考訳) リアルタイムデータにラベルを生成したいという欲求により,弱監督源の依存性構造と精度を漸進的に推定する手法を開発した。 提案手法は,まず管理ソースに関連付けられた依存関係構造を推定し,新たなデータ受信時に推定ソースの精度を反復的に更新する。 公開データセットとヒューリスティック関数を用いてトレーニングされた既成の分類モデルを用いて,本手法が既存のオフライン手法と一致する精度で確率ラベルを生成することを示す。

Motivated by the desire to generate labels for real-time data we develop a method to estimate the dependency structure and accuracy of weak supervision sources incrementally. Our method first estimates the dependency structure associated with the supervision sources and then uses this to iteratively update the estimated source accuracies as new data is received. Using both off-the-shelf classification models trained using publicly-available datasets and heuristic functions as supervision sources we show that our method generates probabilistic labels with an accuracy matching that of existing off-line methods.
翻訳日:2022-05-13 05:09:39 公開日:2022-05-11
# (参考訳) 説明可能な意思決定アルゴリズムと説明可能な意思決定アルゴリズムの対立

The Conflict Between Explainable and Accountable Decision-Making Algorithms ( http://arxiv.org/abs/2205.05306v1 )

ライセンス: CC BY 4.0
Gabriel Lima, Nina Grgi\'c-Hla\v{c}a, Jin Keun Jeong, Meeyoung Cha(参考訳) 意思決定アルゴリズムは、誰が医療プログラムに登録され、雇用されるべきかといった重要な決定に使われています。 これらのシステムは、現在高リスクシナリオにデプロイされているが、多くは彼らの決定を説明することができない。 この制限により、説明可能な人工知能(XAI)イニシアチブは、法的要件に準拠し、信頼を促進し、説明責任を維持するためにアルゴリズムを説明できるようにする。 本稿では,自律型AIシステムによって引き起こされる責任問題の解決に,説明可能性がどの程度役立つのかを問う。 ポストホックな説明を提供するxaiシステムは非難に値するエージェントと見なすことができ、意思決定プロセスにおいて開発者の責任を負うことができると提案する。 さらに,xaiは,説明可能なアルゴリズムを制御しているという誤った認識により,アルゴリズム的意思決定(すなわち患者)を受けるような,脆弱な利害関係者に対する責任の帰属を誤ったものにする可能性がある。 この説明可能性と説明責任の対立は、デザイナーがアルゴリズムと患者を道徳的および法的スケープゴートとして使用する場合、さらに悪化する可能性がある。 我々は,アルゴリズムによる意思決定の社会技術的プロセスにおいて,この緊張にどのようにアプローチするか,デザイナーが責任を負うことを防ぐための厳しい規制を守るための一連の勧告で結論付けた。

Decision-making algorithms are being used in important decisions, such as who should be enrolled in health care programs and be hired. Even though these systems are currently deployed in high-stakes scenarios, many of them cannot explain their decisions. This limitation has prompted the Explainable Artificial Intelligence (XAI) initiative, which aims to make algorithms explainable to comply with legal requirements, promote trust, and maintain accountability. This paper questions whether and to what extent explainability can help solve the responsibility issues posed by autonomous AI systems. We suggest that XAI systems that provide post-hoc explanations could be seen as blameworthy agents, obscuring the responsibility of developers in the decision-making process. Furthermore, we argue that XAI could result in incorrect attributions of responsibility to vulnerable stakeholders, such as those who are subjected to algorithmic decisions (i.e., patients), due to a misguided perception that they have control over explainable algorithms. This conflict between explainability and accountability can be exacerbated if designers choose to use algorithms and patients as moral and legal scapegoats. We conclude with a set of recommendations for how to approach this tension in the socio-technical process of algorithmic decision-making and a defense of hard regulation to prevent designers from escaping responsibility.
翻訳日:2022-05-13 05:00:46 公開日:2022-05-11
# (参考訳) Deep Depth Completion: 調査

Deep Depth Completion: A Survey ( http://arxiv.org/abs/2205.05335v1 )

ライセンス: CC BY 4.0
Junjie Hu, Chenyu Bao, Mete Ozay, Chenyou Fan, Qing Gao, Honghai Liu, Tin Lun Lam(参考訳) 深度補正は、深度センサから取得したスパースマップから高密度画素幅の深さを予測することを目的としている。 自動運転、3D再構築、拡張現実、ロボットナビゲーションなど、さまざまな応用において重要な役割を果たす。 このタスクの最近の成功は、ディープラーニングベースのソリューションによって実証され、支配されている。 本稿では,本論文で初めて,読者が研究動向をより深く把握し,現在の進歩を明確に理解するための総合的な文献レビューを行う。 本研究では,ネットワークアーキテクチャ,損失関数,ベンチマークデータセット,学習戦略の設計的側面から,既存の手法を分類する新しい分類法を提案する。 また,屋内データセットと屋外データセットを含む2つのベンチマークデータセットにおけるモデル性能の定量的比較を行った。 最後に,先行研究の課題を議論し,今後の研究方向性に関する洞察を読者に提供する。

Depth completion aims at predicting dense pixel-wise depth from a sparse map captured from a depth sensor. It plays an essential role in various applications such as autonomous driving, 3D reconstruction, augmented reality, and robot navigation. Recent successes on the task have been demonstrated and dominated by deep learning based solutions. In this article, for the first time, we provide a comprehensive literature review that helps readers better grasp the research trends and clearly understand the current advances. We investigate the related studies from the design aspects of network architectures, loss functions, benchmark datasets, and learning strategies with a proposal of a novel taxonomy that categorizes existing methods. Besides, we present a quantitative comparison of model performance on two widely used benchmark datasets, including an indoor and an outdoor dataset. Finally, we discuss the challenges of prior works and provide readers with some insights for future research directions.
翻訳日:2022-05-13 04:39:36 公開日:2022-05-11
# (参考訳) マルチタスクガウスベイズネットワークの学習

Learning Multitask Gaussian Bayesian Networks ( http://arxiv.org/abs/2205.05343v1 )

ライセンス: CC BY 4.0
Shuai Liu, Yixuan Qiu, Baojuan Li, Huaning Wang and Xiangyu Chang(参考訳) 大うつ病(MDD)は、脳の機能的接続変化の研究を必要とするが、この変化は、静止状態の機能的磁気共鳴画像(rs-fMRI)データによって発見できる。 単一のMDD患者に対する脳機能的接続の変化を特定することの問題点を考察する。 fMRIスキャンで収集されるデータの量は、個々の分析に十分な情報を提供するには限られているため、これは特に困難である。 さらに、RS-fMRIデータは通常、不完全性、疎性、変動性、高次元性、高雑音の特徴を持つ。 これらの課題に対処するために,MDD患者に対する個別の疾患誘発変化を識別できるマルチタスクガウスベイズネットワーク(MTGBN)を提案する。 このような疾患によって引き起こされる変化は、観測からシステムの構造理解までのネットワーク構造を関連するタスクから学ぶためのツールと、ある程度の類似性を示していると仮定する。 まず、各患者をタスクとして観察クラスに分類し、事前知識をエンコードするデフォルト共分散行列を共有するすべてのタスクから学習することで、このデータクラスのガウスベイズネットワーク(gbns)を学習する。 この設定は、限られたデータからより多くの情報を学ぶのに役立つ。 次に、完全確率関数の閉形式式を導出し、モンテカルロ予想最大化(MCEM)アルゴリズムを用いて、ほぼ最高のベイズネットワーク構造を効率的に探索する。 最後に,シミュレーションおよび実世界のrs-fMRIデータを用いて,本手法の性能を評価する。

Major depressive disorder (MDD) requires study of brain functional connectivity alterations for patients, which can be uncovered by resting-state functional magnetic resonance imaging (rs-fMRI) data. We consider the problem of identifying alterations of brain functional connectivity for a single MDD patient. This is particularly difficult since the amount of data collected during an fMRI scan is too limited to provide sufficient information for individual analysis. Additionally, rs-fMRI data usually has the characteristics of incompleteness, sparsity, variability, high dimensionality and high noise. To address these problems, we proposed a multitask Gaussian Bayesian network (MTGBN) framework capable for identifying individual disease-induced alterations for MDD patients. We assume that such disease-induced alterations show some degrees of similarity with the tool to learn such network structures from observations to understanding of how system are structured jointly from related tasks. First, we treat each patient in a class of observation as a task and then learn the Gaussian Bayesian networks (GBNs) of this data class by learning from all tasks that share a default covariance matrix that encodes prior knowledge. This setting can help us to learn more information from limited data. Next, we derive a closed-form formula of the complete likelihood function and use the Monte-Carlo Expectation-Maximization(MCEM) algorithm to search for the approximately best Bayesian network structures efficiently. Finally, we assess the performance of our methods with simulated and real-world rs-fMRI data.
翻訳日:2022-05-13 03:46:29 公開日:2022-05-11
# (参考訳) 変分オートエンコーダを用いたMMSEチャネル推定

Variational Autoencoder Leveraged MMSE Channel Estimation ( http://arxiv.org/abs/2205.05345v1 )

ライセンス: CC BY 4.0
Michael Baur, Benedikt Fesl, Michael Koller, Wolfgang Utschick(参考訳) 本稿では,データ駆動チャネル推定のための変分オートエンコーダ(vae)を提案する。 真かつ未知のチャネル分布は、vaeによって新しい方法で条件付きガウス分布としてモデル化され、各第1および第2次条件付きモーメントによってパラメータ化される。 その結果、vaeの潜在サンプルに条件づけられた変種における線形最小平均二乗誤差(lmmse)推定器は最適なmse推定器に近似することがわかった。 さらに,VAEに基づくチャネル推定器がMMSEチャネル推定器を近似する方法について論じる。 本稿では,トレーニングと推定に使用するデータが異なる3種類のVAE推定器を提案する。 まず,推定時にVAEの入力時に完全に既知のチャネル状態が与えられると,推定シナリオのベンチマーク結果として機能する推定器が得られることを示す。 次に,訓練段階においてのみ,あるいは全く必要とされない完全既知のチャネル状態情報が必要となるような,実現可能なアプローチを提案する。 3GPP と QuaDRiGa のチャネルデータによるシミュレーション結果から,他のチャネル推定法と比較して,実用的アプローチとVAE 手法の優位性が小さいことを示す。

We propose to utilize a variational autoencoder (VAE) for data-driven channel estimation. The underlying true and unknown channel distribution is modeled by the VAE as a conditional Gaussian distribution in a novel way, parameterized by the respective first and second order conditional moments. As a result, it can be observed that the linear minimum mean square error (LMMSE) estimator in its variant conditioned on the latent sample of the VAE approximates an optimal MSE estimator. Furthermore, we argue how a VAE-based channel estimator can approximate the MMSE channel estimator. We propose three variants of VAE estimators that differ in the data used during training and estimation. First, we show that given perfectly known channel state information at the input of the VAE during estimation, which is impractical, we obtain an estimator that can serve as a benchmark result for an estimation scenario. We then propose practically feasible approaches, where perfectly known channel state information is only necessary in the training phase or is not needed at all. Simulation results on 3GPP and QuaDRiGa channel data attest a small performance loss of the practical approaches and the superiority of our VAE approaches in comparison to other related channel estimation methods.
翻訳日:2022-05-13 03:45:14 公開日:2022-05-11
# (参考訳) パーキンソン病の複雑な2面スマートウォッチ検査を機械学習精度を保つ効率的な片面検査に還元する

Reducing a complex two-sided smartwatch examination for Parkinson's Disease to an efficient one-sided examination preserving machine learning accuracy ( http://arxiv.org/abs/2205.05361v1 )

ライセンス: CC BY 4.0
Alexander Brenner, Michael Fujarski, Tobias Warnecke and Julian Varghese(参考訳) 近年、スマートコンシューマデバイスからのセンサは、運動障害の識別においてデジタルバイオマーカーとして機能する可能性が高まっている。 広く利用可能なスマートウォッチの使用により、私たちはParkinson's Disease (PD)の研究に先立ち、技術に基づく評価を行う参加者を記録しました。 対象は、PD患者、差動診断(DD)、健康管理(HC)など504名で、2つのスマートウォッチと2つのスマートフォンを総合的に利用した。 我々の知る限りでは、この研究は2手同期スマートウォッチの最大のPDサンプルサイズを提供した。 PDスクリーニングにおける今後のホームベースアセスメントシステムを確立するため,一方の尺度のみを用いて大幅に削減されたアセスメントに基づいてシステムの性能を体系的に評価し,分類精度を維持できるかどうかを検討した。

Sensors from smart consumer devices have demonstrated high potential to serve as digital biomarkers in the identification of movement disorders in recent years. With the usage of broadly available smartwatches we have recorded participants performing technology-based assessments in a prospective study to research Parkinson's Disease (PD). In total, 504 participants, including PD patients, differential diagnoses (DD) and healthy controls (HC), were captured with a comprehensive system utilizing two smartwatches and two smartphones. To the best of our knowledge, this study provided the largest PD sample size of two-hand synchronous smartwatch measurements. To establish a future easy-to use home-based assessment system in PD screening, we systematically evaluated the performance of the system based on a significantly reduced set of assessments with only one-sided measures and assessed, whether we can maintain classification accuracy.
翻訳日:2022-05-13 03:32:31 公開日:2022-05-11
# (参考訳) CVTT: 時間を通してのクロスバリデーション

CVTT: Cross-Validation Through Time ( http://arxiv.org/abs/2205.05393v1 )

ライセンス: CC BY 4.0
Sergey Kolesnikov, Mikhail Andronov(参考訳) 推薦システム評価の実践的側面は,研究コミュニティにおいて活発に議論されているトピックである。 現在の評価手法の多くは、モデル比較の簡単なアプローチとして、単一値のメトリクスにパフォーマンスをもたらすが、これは時間とともにメソッドの安定したパフォーマンスを強く仮定することに基づいている。 本稿では,手法の連続的な性能をなくすことで,共同データ・メソッド効果の貴重な洞察を失う可能性があると論じる。 本稿では,クロスバリデーション思考時間(CVTT)手法を提案し,より詳細な評価を行い,時間とともにクロスバリデーションのパフォーマンスをモデル化する。 提案手法を用いて、一般的なRecSysアルゴリズムの性能を様々なメトリクスやデータセットに対して詳細に分析する。 また、モデルの性能への影響を分析するために、いくつかのデータ準備と評価戦略を比較した。 その結果、モデルの性能は時間とともに大きく変化し、データと評価のセットアップがそれに顕著な影響を与えうることがわかった。

The practical aspects of evaluating recommender systems is an actively discussed topic in the research community. While many current evaluation techniques bring performance down to a single-value metric as a straightforward approach for model comparison, it is based on a strong assumption of the methods' stable performance over time. In this paper, we argue that leaving out a method's continuous performance can lead to losing valuable insight into joint data-method effects. We propose the Cross-Validation Thought Time (CVTT) technique to perform more detailed evaluations, which focus on model cross-validation performance over time. Using the proposed technique, we conduct a detailed analysis of popular RecSys algorithms' performance against various metrics and datasets. We also compare several data preparation and evaluation strategies to analyze their impact on model performance. Our results show that model performance can vary significantly over time, and both data and evaluation setup can have a marked effect on it.
翻訳日:2022-05-13 03:27:31 公開日:2022-05-11
# (参考訳) 確率的変分平滑化モデルチェック

Stochastic Variational Smoothed Model Checking ( http://arxiv.org/abs/2205.05398v1 )

ライセンス: CC BY 4.0
Luca Bortolussi, Francesca Cairoli, Ginevra Carbone, Paolo Pulcini(参考訳) パラメトリック確率モデルのモデルチェックは、モデルのパラメータの関数としてある性質の満足度確率をチェックするものとして表現することができる。 smoothed model checking (smmc) はガウス過程(gp)を利用して、シミュレーションによって得られた限られた観測集合からパラメータ空間全体の満足度関数を推定する。 このアプローチは、統計的に不確実性の定量化を伴う正確な再構成を提供する。 しかし、GPのスケーラビリティの問題を継承している。 本稿では、確率論的機械学習の最近の進歩を利用して、この制限を推し進め、ベイジアン推定のsmMCを大規模データセットにスケーラブルにし、パラメータ集合の次元の観点からより大きなモデルに適用できるようにする。 本稿では,SVI(Stochastic Variational Inference)を利用して,smMC問題の後部分布を近似する手法であるStochastic Variational Smoothed Model Checking (SV-smMC)を提案する。 SVIの強度と柔軟性により、SV-smMCはガウス過程(GP)とベイズニューラルネットワーク(BNN)の2つの代替確率モデルに適用できる。 さらに、SVIは推論を簡単に並列化し、GPUアクセラレーションを可能にする。 本稿では, SV-smMCのスケーラビリティ, 計算効率, 再構成された満足度関数の精度について, smMCとSV-smMCの性能を比較した。

Model-checking for parametric stochastic models can be expressed as checking the satisfaction probability of a certain property as a function of the parameters of the model. Smoothed model checking (smMC) leverages Gaussian Processes (GP) to infer the satisfaction function over the entire parameter space from a limited set of observations obtained via simulation. This approach provides accurate reconstructions with statistically sound quantification of the uncertainty. However, it inherits the scalability issues of GP. In this paper, we exploit recent advances in probabilistic machine learning to push this limitation forward, making Bayesian inference of smMC scalable to larger datasets, enabling its application to larger models in terms of the dimension of the parameter set. We propose Stochastic Variational Smoothed Model Checking (SV-smMC), a solution that exploits stochastic variational inference (SVI) to approximate the posterior distribution of the smMC problem. The strength and flexibility of SVI make SV-smMC applicable to two alternative probabilistic models: Gaussian Processes (GP) and Bayesian Neural Networks (BNN). Moreover, SVI makes inference easily parallelizable and it enables GPU acceleration. In this paper, we compare the performances of smMC against those of SV-smMC by looking at the scalability, the computational efficiency and at the accuracy of the reconstructed satisfaction function.
翻訳日:2022-05-13 03:15:32 公開日:2022-05-11
# (参考訳) 歩行者咬合レベル分類のための客観的手法

An Objective Method for Pedestrian Occlusion Level Classification ( http://arxiv.org/abs/2205.05412v1 )

ライセンス: CC BY 4.0
Shane Gilroy, Martin Glavin, Edward Jones and Darragh Mullins(参考訳) 歩行者検出は、自動運転車の運転支援システムの最も安全性に重要な特徴の一つである。 最も複雑な検出課題の1つは部分的閉塞であり、対象物体が他の前景物体による妨害によってセンサーに部分的にしか利用できない。 現在の歩行者検出ベンチマークでは、これらのシナリオにおけるアルゴリズム性能を評価するために部分閉塞のアノテーションを提供しているが、それぞれのベンチマークは、閉塞の発生と重症度の定義において大きく異なる。 加えて、現在の閉塞レベルアノテーション法は、人間のアノテーションによる高い主観性を含む。 これは、どのベンチマークが使用されるかによって、部分的に閉塞された歩行者に対するアルゴリズムの検出性能が不正確または一貫性のない報告につながる可能性がある。 本研究では,歩行者の咬合レベル分類のための新しい客観的手法を提案する。 閉塞レベル分類は、視認可能な歩行者キーポイントの識別と、新しい2次元体表面積推定法を用いて達成される。 実験の結果,提案手法は画像中の歩行者のピクセル単位の咬合レベルを反映しており,自己閉塞,切断,閉塞間歩行者などのエッジケースを含むあらゆる形態の咬合に有効であることがわかった。

Pedestrian detection is among the most safety-critical features of driver assistance systems for autonomous vehicles. One of the most complex detection challenges is that of partial occlusion, where a target object is only partially available to the sensor due to obstruction by another foreground object. A number of current pedestrian detection benchmarks provide annotation for partial occlusion to assess algorithm performance in these scenarios, however each benchmark varies greatly in their definition of the occurrence and severity of occlusion. In addition, current occlusion level annotation methods contain a high degree of subjectivity by the human annotator. This can lead to inaccurate or inconsistent reporting of an algorithm's detection performance for partially occluded pedestrians, depending on which benchmark is used. This research presents a novel, objective method for pedestrian occlusion level classification for ground truth annotation. Occlusion level classification is achieved through the identification of visible pedestrian keypoints and through the use of a novel, effective method of 2D body surface area estimation. Experimental results demonstrate that the proposed method reflects the pixel-wise occlusion level of pedestrians in images and is effective for all forms of occlusion, including challenging edge cases such as self-occlusion, truncation and inter-occluding pedestrians.
翻訳日:2022-05-13 02:54:11 公開日:2022-05-11
# (参考訳) ALIGNMEET:ミーティングアノテーション、アライメント、評価のための総合ツール

ALIGNMEET: A Comprehensive Tool for Meeting Annotation, Alignment, and Evaluation ( http://arxiv.org/abs/2205.05433v1 )

ライセンス: CC BY 4.0
Peter Pol\'ak, Muskaan Singh, Anna Nedoluzhko, Ond\v{r}ej Bojar(参考訳) 要約は難しい問題であり、さらに難しいのは、手動で要約を作成し、修正し、評価することだ。 会議設定において、入力が多人数対話であるときに問題の深刻度が増大する。 そこで本研究では,アノテーション,アライメント,評価の総合的なツールであるALIGNMEETについて紹介する。 このツールは、エラーを起こすリスクを軽減しつつ、高速なアノテーションのための効率的で明確なインターフェースを提供することを目的としている。 さらに,会議時間に関する総合的な品質評価を可能にする評価モードも追加する。 私たちの知る限りでは、そのようなツールは利用できません。 ツールをオープンソースとしてリリースしています。 PyPIから直接インストールすることもできる。

Summarization is a challenging problem, and even more challenging is to manually create, correct, and evaluate the summaries. The severity of the problem grows when the inputs are multi-party dialogues in a meeting setup. To facilitate the research in this area, we present ALIGNMEET, a comprehensive tool for meeting annotation, alignment, and evaluation. The tool aims to provide an efficient and clear interface for fast annotation while mitigating the risk of introducing errors. Moreover, we add an evaluation mode that enables a comprehensive quality evaluation of meeting minutes. To the best of our knowledge, there is no such tool available. We release the tool as open source. It is also directly installable from PyPI.
翻訳日:2022-05-13 02:37:22 公開日:2022-05-11
# (参考訳) 深層学習と弱信号解析を用いた新興技術の検出とその進化

Detecting Emerging Technologies and their Evolution using Deep Learning and Weak Signal Analysis ( http://arxiv.org/abs/2205.05449v1 )

ライセンス: CC BY 4.0
Ashkan Ebadi and Alain Auger and Yvan Gauthier(参考訳) 新興技術は経済に大きな影響を与え、戦略的安定に影響を及ぼす可能性がある。 しかし、新興技術の早期発見は依然として困難である。 新興テクノロジをタイムリーかつ信頼性の高い方法で識別するためには,関連する科学技術動向とその関連文献を総合的に検討する必要がある。 この試験は一般的にドメインの専門家によって行われ、洞察を得るためにかなりの時間と労力を要する。 S&Tトレンドから新興技術を特定するためのドメインエキスパートの使用は、大量の情報を分析し、アセスメントに主観性を導入する能力を制限する可能性がある。 意思決定支援システムは、環境の定常的かつ継続的な監視を通じて、正確で信頼性の高い証拠に基づく指標を提供し、セキュリティと経済の繁栄を変える可能性のある新興技術のシグナルを特定するのに役立つ。 例えば、超音速の研究分野は、最近、重要な技術、商業、および国家安全保障に影響を及ぼすいくつかの進歩を目撃している。 本研究では,深層学習と弱信号解析を利用して,超音速科学論文から将来の兆候を識別できる多層定量的手法を提案する。 提案されたフレームワークは、戦略的プランナーやドメインの専門家が新興技術トレンドを特定し監視するのに役立つ。

Emerging technologies can have major economic impacts and affect strategic stability. Yet, early identification of emerging technologies remains challenging. In order to identify emerging technologies in a timely and reliable manner, a comprehensive examination of relevant scientific and technological (S&T) trends and their related references is required. This examination is generally done by domain experts and requires significant amounts of time and effort to gain insights. The use of domain experts to identify emerging technologies from S&T trends may limit the capacity to analyse large volumes of information and introduce subjectivity in the assessments. Decision support systems are required to provide accurate and reliable evidence-based indicators through constant and continuous monitoring of the environment and help identify signals of emerging technologies that could alter security and economic prosperity. For example, the research field of hypersonics has recently witnessed several advancements having profound technological, commercial, and national security implications. In this work, we present a multi-layer quantitative approach able to identify future signs from scientific publications on hypersonics by leveraging deep learning and weak signal analysis. The proposed framework can help strategic planners and domain experts better identify and monitor emerging technology trends.
翻訳日:2022-05-13 02:23:17 公開日:2022-05-11
# (参考訳) イベント抽出のための低データ設定における粗粒データの利用

Utilizing coarse-grained data in low-data settings for event extraction ( http://arxiv.org/abs/2205.05468v1 )

ライセンス: CC BY 4.0
Osman Mutlu(参考訳) イベント情報抽出システムのテキストデータの注釈付けは難しく、高価で、エラーを起こしやすい。 より多くの文書に注釈をつけるのではなく、より入手しやすい粗粒度データ(文書や文ラベル)の統合の可能性を検討する。 トークン分類のメインタスクに加えて,文書と文のバイナリ分類という2つの補助タスクを備えたマルチタスクモデルを利用する。 上記の統合のために,様々なデータレジームを用いた一連の実験を行う。 その結果、余分な粗いデータを導入することで、改善と堅牢性が向上する一方で、いかなるイベントに関する情報も持たない負のドキュメントを追加するだけで利益が得られます。

Annotating text data for event information extraction systems is hard, expensive, and error-prone. We investigate the feasibility of integrating coarse-grained data (document or sentence labels), which is far more feasible to obtain, instead of annotating more documents. We utilize a multi-task model with two auxiliary tasks, document and sentence binary classification, in addition to the main task of token classification. We perform a series of experiments with varying data regimes for the aforementioned integration. Results show that while introducing extra coarse-grained data offers greater improvement and robustness, a gain is still possible with only the addition of negative documents that have no information on any event.
翻訳日:2022-05-13 02:06:03 公開日:2022-05-11
# (参考訳) DeepFilterNet2: 組み込みデバイスによるフルバンドオーディオのリアルタイム音声強調

DeepFilterNet2: Towards Real-Time Speech Enhancement on Embedded Devices for Full-Band Audio ( http://arxiv.org/abs/2205.05474v1 )

ライセンス: CC BY-SA 4.0
Hendrik Schr\"oter, Alberto N. Escalante-B., Tobias Rosenkranz, Andreas Maier(参考訳) ディープラーニングベースの音声強調は大幅に改善され、最近はフルバンドオーディオ(48kHz)にも拡張された。 しかし、多くのアプローチは計算の複雑さがかなり高く、時間的畳み込みや注意によるリアルタイム利用には大きな時間的バッファを必要とする。 どちらも、組み込みデバイスでは実現不可能なアプローチだ。 この研究はさらにDeepFilterNetを拡張し、効率的な音声強調(SE)を可能にする音声の調和構造を利用する。 トレーニング手順、データ拡張、ネットワーク構造におけるいくつかの最適化は、ノートブックのCore-i5 CPU上でのリアルタイム係数を0.04に抑えながら、最先端のSEパフォーマンスをもたらす。 これにより,組込みデバイス上でリアルタイムに動作可能なアルゴリズムが実現される。 deepfilternetフレームワークはオープンソースライセンスで入手することができる。

Deep learning-based speech enhancement has seen huge improvements and recently also expanded to full band audio (48 kHz). However, many approaches have a rather high computational complexity and require big temporal buffers for real time usage e.g. due to temporal convolutions or attention. Both make those approaches not feasible on embedded devices. This work further extends DeepFilterNet, which exploits harmonic structure of speech allowing for efficient speech enhancement (SE). Several optimizations in the training procedure, data augmentation, and network structure result in state-of-the-art SE performance while reducing the real-time factor to 0.04 on a notebook Core-i5 CPU. This makes the algorithm applicable to run on embedded devices in real-time. The DeepFilterNet framework can be obtained under an open source license.
翻訳日:2022-05-13 02:05:11 公開日:2022-05-11
# (参考訳) 連続表現学習のためのコントラスト教師付き蒸留

Contrastive Supervised Distillation for Continual Representation Learning ( http://arxiv.org/abs/2205.05476v1 )

ライセンス: CC BY 4.0
Tommaso Barletti, Niccolo' Biondi, Federico Pernici, Matteo Bruni, Alberto Del Bimbo(参考訳) 本稿では,ニューラルネットワークモデルを逐次学習し,視覚検索タスクにおける破滅的な忘れを軽減させる連続表現学習問題に対する新たなトレーニング手順を提案する。 Contrastive Supervised Distillation (CSD) と呼ばれる本手法は, 識別的特徴を学習しながら, 特徴忘れを減らす。 これは、学生モデルが教師モデルから対照的に学習される蒸留環境でラベル情報を活用することで達成される。 大規模な実験により、CSDは破滅的な忘れを軽減し、最先端の手法より優れていることが示されている。 また,視覚検索タスクで評価された特徴忘れは,分類タスクほど破滅的ではないことを示す。 コード・アット: https://github.com/niccobiondi/contrastivesuperviseddistillation。

In this paper, we propose a novel training procedure for the continual representation learning problem in which a neural network model is sequentially learned to alleviate catastrophic forgetting in visual search tasks. Our method, called Contrastive Supervised Distillation (CSD), reduces feature forgetting while learning discriminative features. This is achieved by leveraging labels information in a distillation setting in which the student model is contrastively learned from the teacher model. Extensive experiments show that CSD performs favorably in mitigating catastrophic forgetting by outperforming current state-of-the-art methods. Our results also provide further evidence that feature forgetting evaluated in visual retrieval tasks is not as catastrophic as in classification tasks. Code at: https://github.com/NiccoBiondi/ContrastiveSupervisedDistillation.
翻訳日:2022-05-13 01:53:13 公開日:2022-05-11
# (参考訳) 深層学習による結核とcovid-19の分類

Automatic Tuberculosis and COVID-19 cough classification using deep learning ( http://arxiv.org/abs/2205.05480v1 )

ライセンス: CC BY 4.0
Madhurananda Pahar, Marisa Klopper, Byron Reeve, Rob Warren, Grant Theron, Andreas Diacon and Thomas Niesler(参考訳) そこで本研究では,結核(tb)をcovid-19(covid-19-coough)と健康なcough(coough)と区別できる,ディープラーニングを用いた自動cough分類器を提案する。 TBとCOVID-19はどちらも呼吸器疾患で、有意な症状を呈し、毎年数千人の命が失われている。 coughオーディオ録音は、屋内と屋外の両方で収集され、世界中の被験者からスマートフォンを使ってアップロードされた。 データは、CNN、LSTM、Resnet50の訓練および評価に使用された1.68時間TBの生地、18.54分、47人のTB患者から1.69時間の健康的な生地、229人のCOVID-19患者、1498人の健康的な患者を含む。 これら3つの深い建築は、2.14時間のくしゃみ、2.91時間のスピーチ、2.79時間のノイズで事前訓練された。 SMOTEデータバランシング技術とF1スコアやAUCなどのパフォーマンス指標を用いて,データセットのクラス不均衡に対処した。 その結果,2級(tb対covid-19)のresnet50と3級(tb対covid-19対健康)のcough分類タスクから,0.9259と0.8631のf1-scoreの最高値が得られた。 ディープトランスファー学習の適用により、分類器の性能が向上し、クロスバリデーション・フォールドを一般化するにつれて、より堅牢になった。 彼らの業績は世界保健機関(WHO)が設定したTBトリアージテストの要求を上回る。 最高のパフォーマンスを生み出す特徴は、ヒトの耳によってTBとCOVID-19の生地の違いが認識できないことを示唆するMFCCのより高い順序を含んでいる。 このタイプのcoughオーディオ分類は非接触でコスト効率が高く、スマートフォンに簡単にデプロイできるため、tbとcovid-19スクリーニングの両方に優れたツールとなる。

We present a deep learning based automatic cough classifier which can discriminate tuberculosis (TB) coughs from COVID-19 coughs and healthy coughs. Both TB and COVID-19 are respiratory disease, have cough as a predominant symptom and claim thousands of lives each year. The cough audio recordings were collected at both indoor and outdoor settings and also uploaded using smartphones from subjects around the globe, thus contain various levels of noise. This cough data include 1.68 hours of TB coughs, 18.54 minutes of COVID-19 coughs and 1.69 hours of healthy coughs from 47 TB patients, 229 COVID-19 patients and 1498 healthy patients and were used to train and evaluate a CNN, LSTM and Resnet50. These three deep architectures were also pre-trained on 2.14 hours of sneeze, 2.91 hours of speech and 2.79 hours of noise for improved performance. The class-imbalance in our dataset was addressed by using SMOTE data balancing technique and using performance metrics such as F1-score and AUC. Our study shows that the highest F1-scores of 0.9259 and 0.8631 have been achieved from a pre-trained Resnet50 for two-class (TB vs COVID-19) and three-class (TB vs COVID-19 vs healthy) cough classification tasks, respectively. The application of deep transfer learning has improved the classifiers' performance and makes them more robust as they generalise better over the cross-validation folds. Their performances exceed the TB triage test requirements set by the world health organisation (WHO). The features producing the best performance contain higher order of MFCCs suggesting that the differences between TB and COVID-19 coughs are not perceivable by the human ear. This type of cough audio classification is non-contact, cost-effective and can easily be deployed on a smartphone, thus it can be an excellent tool for both TB and COVID-19 screening.
翻訳日:2022-05-13 01:41:43 公開日:2022-05-11
# (参考訳) 映像シーンセグメンテーションのためのシーン一貫性表現学習

Scene Consistency Representation Learning for Video Scene Segmentation ( http://arxiv.org/abs/2205.05487v1 )

ライセンス: CC BY 4.0
Haoqian Wu, Keyu Chen, Yanan Luo, Ruizhi Qiao, Bo Ren, Haozhe Liu, Weicheng Xie, Linlin Shen(参考訳) 映画やテレビ番組のような長期ビデオは様々なシーンで構成されており、それぞれが同じ意味のストーリーを共有する一連のショットを表している。 モデルがビデオのストーリーラインを理解して、シーンの開始と終了の場所を理解する必要があるため、長期的なビデオから適切なシーン境界を見つけることは難しい作業である。 そこで本稿では,ラベルのない長期ビデオからより優れたショット表現を学習するための,効果的な自己監視学習(SSL)フレームワークを提案する。 具体的には,シーンの一貫性を実現するためのSSLスキームを提案するとともに,モデルの一般化性を高めるためのデータ拡張とシャッフル手法を提案する。 先行手法のようにシーン境界特徴を明示的に学習する代わりに,ショット特徴の品質を検証するために,帰納的バイアスの少ないバニラ時間モデルを導入する。 本手法は,映像シーンセグメンテーションのタスクにおける最先端性能を実現する。 さらに,映像シーンセグメンテーション手法の性能を評価するための,より公平で合理的なベンチマークを提案する。 コードは利用可能である。

A long-term video, such as a movie or TV show, is composed of various scenes, each of which represents a series of shots sharing the same semantic story. Spotting the correct scene boundary from the long-term video is a challenging task, since a model must understand the storyline of the video to figure out where a scene starts and ends. To this end, we propose an effective Self-Supervised Learning (SSL) framework to learn better shot representations from unlabeled long-term videos. More specifically, we present an SSL scheme to achieve scene consistency, while exploring considerable data augmentation and shuffling methods to boost the model generalizability. Instead of explicitly learning the scene boundary features as in the previous methods, we introduce a vanilla temporal model with less inductive bias to verify the quality of the shot features. Our method achieves the state-of-the-art performance on the task of Video Scene Segmentation. Additionally, we suggest a more fair and reasonable benchmark to evaluate the performance of Video Scene Segmentation methods. The code is made available.
翻訳日:2022-05-13 01:23:39 公開日:2022-05-11
# (参考訳) ロボットをプロアクティブにする2つの方法:人間の意図を推論するか、未来を推論するか

Two ways to make your robot proactive: reasoning about human intentions, or reasoning about possible futures ( http://arxiv.org/abs/2205.05492v1 )

ライセンス: CC BY 4.0
Sera Buyukgoz, Jasmin Grosinger, Mohamed Chetouani and Alessandro Saffiotti(参考訳) 人間と空間を共有するロボットは、役に立つために積極的に行動する必要がある。 プロアクティブなロボットは、人間の利益を期待して、自身のイニシアチブで行動することができる。 本研究では,ロボットをアクティブにするための2つの方法を検討する。 1つの方法は人間の意図を認識し、あなたが交差しようとしているドアを開くなど、それらを満たすために行動することである。 もう1つの方法は、将来起こりうる脅威や機会を推論し、雨が予測されてから傘を取るように勧めるなど、予防や育児を行うことである。 本稿では,これら2種類の行動を実現するためのアプローチを提案する。 そこで我々は,意図と予測という2つの要因を推論することで,能動的ロボット行動を生成するシステムを提案する。 我々は,本システムについて,家庭内ロボットと人間を含む実例で紹介する。 まず、このユースケースを2つの別々のプロアクティブシステム、すなわちインテントベースと予測ベースで実行し、統合システムで実行します。 その結果, 統合システムでは, 能動性に必要とされる様々な側面を考慮に入れることができることがわかった。

Robots sharing their space with humans need to be proactive in order to be helpful. Proactive robots are able to act on their own initiative in an anticipatory way to benefit humans. In this work, we investigate two ways to make robots proactive. One way is to recognize humans' intentions and to act to fulfill them, like opening the door that you are about to cross. The other way is to reason about possible future threats or opportunities and to act to prevent or to foster them, like recommending you to take an umbrella since rain has been forecasted. In this paper, we present approaches to realize these two types of proactive behavior. We then present an integrated system that can generate proactive robot behavior by reasoning on both factors: intentions and predictions. We illustrate our system on a sample use case including a domestic robot and a human. We first run this use case with the two separate proactive systems, intention-based and prediction-based, and then run it with our integrated system. The results show that the integrated system is able to take into account a broader variety of aspects that are needed for proactivity.
翻訳日:2022-05-13 01:12:19 公開日:2022-05-11
# (参考訳) 微小循環解析のための深層学習とコンピュータビジョン技術 : レビュー

Deep Learning and Computer Vision Techniques for Microcirculation Analysis: A Review ( http://arxiv.org/abs/2205.05493v1 )

ライセンス: CC BY 4.0
Maged Abdalla Helmy Mohamed Abdou, Trung Tuyen Truong, Eric Jul, Paulo Ferreira(参考訳) 微小循環画像の解析は、敗血症のような生命を脅かす病気の早期の兆候を明らかにする可能性がある。 微小循環画像中の毛細血管密度と毛細血管分布を定量化することは、重症患者の生物学的マーカーとして使用できる。 これらの生物学的マーカーの定量化は、労働集約的であり、時間を要する。 様々な性能を持つコンピュータビジョン技術は、上記の課題に照らしてこれらの微小循環画像の解析を自動化するために使用できる。 本稿では,50以上の研究論文を調査し,マイクロサーキュレーション画像の解析を自動化するための最も重要かつ有望なコンピュータビジョンアルゴリズムについて述べる。 さらに, マイクロサーキュレーション画像の解析を行うため, 他研究者が現在使用している手法について検討する。 この調査は、他の研究者がマイクロ循環分析システムやアルゴリズムを開発するための技術ガイドブックとして機能するため、高い臨床関連性がある。

The analysis of microcirculation images has the potential to reveal early signs of life-threatening diseases like sepsis. Quantifying the capillary density and the capillary distribution in microcirculation images can be used as a biological marker to assist critically ill patients. The quantification of these biological markers is labor-intensive, time-consuming, and subject to interobserver variability. Several computer vision techniques with varying performance can be used to automate the analysis of these microcirculation images in light of the stated challenges. In this paper, we present a survey of over 50 research papers and present the most relevant and promising computer vision algorithms to automate the analysis of microcirculation images. Furthermore, we present a survey of the methods currently used by other researchers to automate the analysis of microcirculation images. This survey is of high clinical relevance because it acts as a guidebook of techniques for other researchers to develop their microcirculation analysis systems and algorithms.
翻訳日:2022-05-13 00:50:54 公開日:2022-05-11
# (参考訳) textmatcher: 画像とテキストを比較するクロスタッチニューラルネットワーク

TextMatcher: Cross-Attentional Neural Network to Compare Image and Text ( http://arxiv.org/abs/2205.05507v1 )

ライセンス: CC BY-SA 4.0
Valentina Arrigoni, Luisa Repele, Dario Marino Saccavino(参考訳) 単行テキストと候補テキストの書き起こしを含む画像が与えられた場合、その画像に表されるテキストが候補テキストに対応するかどうかを評価することが目的である。 この問題に特化して設計された最初の機械学習モデルを考案する。 提案したモデルであるTextMatcherは,画像とテキストの埋め込み表現にクロスアテンション機構を適用して2つの入力を比較し,エンドツーエンドでトレーニングする。 一般的なIAMデータセット上で,TextMatcherの実証性能を広範囲に評価した。 その結果、関連する問題のために設計されたベースラインや既存のモデルと比較して、TextMatcherは様々な設定で高いパフォーマンスを達成し、同時に推論時に高速に動作できることが判明した。 また,銀行列の自動処理に関する実世界のアプリケーションシナリオでtextmatcherを紹介する。

We study a novel multimodal-learning problem, which we call text matching: given an image containing a single-line text and a candidate text transcription, the goal is to assess whether the text represented in the image corresponds to the candidate text. We devise the first machine-learning model specifically designed for this problem. The proposed model, termed TextMatcher, compares the two inputs by applying a cross-attention mechanism over the embedding representations of image and text, and it is trained in an end-to-end fashion. We extensively evaluate the empirical performance of TextMatcher on the popular IAM dataset. Results attest that, compared to a baseline and existing models designed for related problems, TextMatcher achieves higher performance on a variety of configurations, while at the same time running faster at inference time. We also showcase TextMatcher in a real-world application scenario concerning the automatic processing of bank cheques.
翻訳日:2022-05-13 00:10:01 公開日:2022-05-11
# (参考訳) 時系列予測のための効率的な自動ディープラーニング

Efficient Automated Deep Learning for Time Series Forecasting ( http://arxiv.org/abs/2205.05511v1 )

ライセンス: CC BY 4.0
Difan Deng, Florian Karl, Frank Hutter, Bernd Bischl, Marius Lindauer(参考訳) 近年、自動機械学習(automl)、特に自動ディープラーニング(autodl)システムの効率が大幅に向上しているが、最近の研究は表型、画像、nlpのタスクに焦点を当てている。 これまでのところ、こうしたタスクに異なる新しいアーキテクチャを適用する大きな成功にもかかわらず、時系列予測のための一般的なAutoDLフレームワークにはほとんど注意が払われていない。 本稿では,時系列予測のためのデータ処理パイプライン全体のニューラルアーキテクチャとハイパーパラメータの協調最適化のための効率的な手法を提案する。 一般的なnas検索空間とは対照的に、我々は様々な最先端アーキテクチャをカバーする新しいニューラルネットワーク検索空間を設計し、様々なdlアプローチで効率的なマクロ検索を可能にした。 このような大きな構成空間を効率的に探索するために,マルチフィデリティ最適化を伴うベイズ最適化を用いる。 異なる予測データセット上で効率の良い多重忠実度最適化を実現するために,様々な予算タイプを実証的に検討する。 さらに,提案システムであるauto-pytorch-tsをいくつかの確立されたベースラインと比較し,複数のデータセットで比較した。

Recent years have witnessed tremendously improved efficiency of Automated Machine Learning (AutoML), especially Automated Deep Learning (AutoDL) systems, but recent work focuses on tabular, image, or NLP tasks. So far, little attention has been paid to general AutoDL frameworks for time series forecasting, despite the enormous success in applying different novel architectures to such tasks. In this paper, we propose an efficient approach for the joint optimization of neural architecture and hyperparameters of the entire data processing pipeline for time series forecasting. In contrast to common NAS search spaces, we designed a novel neural architecture search space covering various state-of-the-art architectures, allowing for an efficient macro-search over different DL approaches. To efficiently search in such a large configuration space, we use Bayesian optimization with multi-fidelity optimization. We empirically study several different budget types enabling efficient multi-fidelity optimization on different forecasting datasets. Furthermore, we compared our resulting system, dubbed Auto-PyTorch-TS, against several established baselines and show that it significantly outperforms all of them across several datasets.
翻訳日:2022-05-12 23:56:58 公開日:2022-05-11
# (参考訳) 友人の近さと反事実の近さ: 抽象的な設定において、最も近いものから学ぶことを改善する

Keep Your Friends Close and Your Counterfactuals Closer: Improved Learning From Closest Rather Than Plausible Counterfactual Explanations in an Abstract Setting ( http://arxiv.org/abs/2205.05515v1 )

ライセンス: CC BY 4.0
Ulrike Kuhl and Andr\'e Artelt and Barbara Hammer(参考訳) 対実的説明(CFE)は、モデル入力の変更が特定の方法で予測を変更したことを強調している。 CFEは、説明可能な人工知能(XAI)のための心理的基盤のソリューションとして、かなりの注目を集めている。 最近の技術革新は、自動生成cfeの計算可能性の概念を導入し、その頑健性を高める。 しかし,このような制約がユーザエクスペリエンスや行動に与える影響は,まだ不明である。 本研究では,初級ユーザを対象とした反復学習設計において,計算可能なCFEの客観的および主観的ユーザビリティを評価する。 私たちは、抽象的なシナリオを中心に展開する、ゲームのような新しい実験デザインに依存しています。 以上の結果から,初歩的なユーザは,望まれる結果につながる最小限の変更を生み出す最も近いCFEよりも,計算上妥当なメリットが少ないことがわかった。 ゲーム後調査における回答は,両グループ間の主観的ユーザエクスペリエンスの差異を示さなかった。 心理学的妥当性を比較的類似性として考えると、最も近い条件のユーザがCFEを計算学的に妥当なものよりも心理的に妥当な体験をしているという事実によって説明できる。 要約すると、我々の研究は、XAIアプローチの設計段階において、人間の行動、嗜好、精神モデルを組み込むことの必要性を批判的に確認し、計算の可否と心理的可否の定義の微妙な相違を強調している。 再現可能な研究の関心事として、すべてのソースコード、取得したユーザデータ、現在の研究の評価スクリプトが利用可能である。

Counterfactual explanations (CFEs) highlight what changes to a model's input would have changed its prediction in a particular way. CFEs have gained considerable traction as a psychologically grounded solution for explainable artificial intelligence (XAI). Recent innovations introduce the notion of computational plausibility for automatically generated CFEs, enhancing their robustness by exclusively creating plausible explanations. However, practical benefits of such a constraint on user experience and behavior is yet unclear. In this study, we evaluate objective and subjective usability of computationally plausible CFEs in an iterative learning design targeting novice users. We rely on a novel, game-like experimental design, revolving around an abstract scenario. Our results show that novice users actually benefit less from receiving computationally plausible rather than closest CFEs that produce minimal changes leading to the desired outcome. Responses in a post-game survey reveal no differences in terms of subjective user experience between both groups. Following the view of psychological plausibility as comparative similarity, this may be explained by the fact that users in the closest condition experience their CFEs as more psychologically plausible than the computationally plausible counterpart. In sum, our work highlights a little-considered divergence of definitions of computational plausibility and psychological plausibility, critically confirming the need to incorporate human behavior, preferences and mental models already at the design stages of XAI approaches. In the interest of reproducible research, all source code, acquired user data, and evaluation scripts of the current study are available: https://github.com/ukuhl/PlausibleAlienZoo
翻訳日:2022-05-12 23:33:26 公開日:2022-05-11
# (参考訳) 凍結言語モデルを用いた臨床即興学習

Clinical Prompt Learning with Frozen Language Models ( http://arxiv.org/abs/2205.05535v1 )

ライセンス: CC BY 4.0
Niall Taylor, Yi Zhang, Dan Joyce, Alejo Nevado-Holgado, Andrey Kormilitzin(参考訳) プロンプトラーニングは、自然言語処理(nlp)の分野で新しいパラダイムであり、多くの自然言語タスクにおいて印象的なパフォーマンスを示し、ベンチマークテキストデータセットをフル、少数、ゼロショットのトレーニング評価設定で提供する。 近年,大規模だが凍結した事前学習言語モデル (PLM) が,より小型だが微調整されたモデルよりも高速に学習できることが観察されている。 しかし、近年のNLPの動向と同様に、GPT-3のような最大のPLMでも、特定のドメイン(例えば医療用テキスト)では性能が良くなく、また、ステート・オブ・ザ・アート(SoTA)を達成するための一般的な実践は、下流タスクにおけるPLMの事前訓練と微調整によって構成されている。 非GPU環境においてデータが頻繁に保持される臨床環境では、微調整の大きなPLMへの依存が問題であり、特殊なドメインモデルを訓練するより効率的な手法が不可欠である。 臨床的に有意な意思決定課題における即時学習の有効性について検討し,従来の微調整法と直接比較した。 結果の一部はプロンプト学習文献と一致しており、トレーニング可能なパラメータが大幅に少なくなり、トレーニングデータが少なく、従来の微調整とマッチしたり改善したりすることができる。 そこで我々は,即時学習が臨床環境に適用可能な計算資源コストを低減し,PLMの増大に伴う微調整の代替となることを論じる。 この研究で提示された実験を再現するための補完コードは、https://github.com/NtaylorOX/Public_Clinical_Promptにある。

Prompt learning is a new paradigm in the Natural Language Processing (NLP) field which has shown impressive performance on a number of natural language tasks with common benchmarking text datasets in full, few-shot, and zero-shot train-evaluation setups. Recently, it has even been observed that large but frozen pre-trained language models (PLMs) with prompt learning outperform smaller but fine-tuned models. However, as with many recent NLP trends, the performance of even the largest PLMs such as GPT-3 do not perform well on specialized domains (e.g. medical text), and the common practice to achieve State of the Art (SoTA) results still consists of pre-training and fine-tuning the PLMs on downstream tasks. The reliance on fine-tuning large PLMs is problematic in clinical settings where data is often held in non-GPU environments, and more resource efficient methods of training specialized domain models is crucial. We investigated the viability of prompt learning on clinically meaningful decision tasks and directly compared with more traditional fine-tuning methods. Results are partially in line with the prompt learning literature, with prompt learning able to match or improve on traditional fine-tuning with substantially fewer trainable parameters and requiring less training data. We argue that prompt learning therefore provides lower computational resource costs applicable to clinical settings, that can serve as an alternative to fine-tuning ever increasing in size PLMs. Complementary code to reproduce experiments presented in this work can be found at: https://github.com/NtaylorOX/Public_Clinical_Prompt.
翻訳日:2022-05-12 22:53:36 公開日:2022-05-11
# (参考訳) 科学データに対するネットワーク内キャッシュのアクセス動向

Access Trends of In-network Cache for Scientific Data ( http://arxiv.org/abs/2205.05563v1 )

ライセンス: CC BY-SA 4.0
Ruize Han, Alex Sim, Kesheng Wu, Inder Monga, Chin Guok, Frank W\"urthwein, Diego Davila, Justas Balcas, Harvey Newman(参考訳) 科学的なコラボレーションは、自分たちの仕事のために大量のデータに依存しており、その多くは、そのデータを世界中のユーザコミュニティに複製するために階層化されたシステムを使用している。 コミュニティ内の各ユーザは、分析タスクのために異なるデータのサブセットを選択することが多いが、研究グループのメンバーは、しばしば同様のデータオブジェクトを必要とする関連する研究トピックに取り組んでいる。 したがって、かなりの量のデータ共有が可能となる。 本研究では,南カリフォルニアペタバイトスケールキャッシュとして知られるフェデレーションストレージキャッシュのアクセストレースについて検討する。 このキャッシュシステムによるアクセスパターンとネットワークトラフィック削減の可能性を調べることにより、キャッシュ利用の予測可能性と、より一般的なネットワーク内データキャッシュの可能性を検討することを目的とする。 本研究は,この分散ストレージキャッシュにより,研究期間中にネットワークトラフィックを2.35パーセント削減できることを示す。 さらに, 機械学習モデルにより, 0.88 の精度でキャッシュ利用を予測できることを示した。 これは、そのようなキャッシュの使用が予測可能であり、ネットワーク内キャッシュのような複雑なネットワークリソースを管理するのに有用であることを示している。

Scientific collaborations are increasingly relying on large volumes of data for their work and many of them employ tiered systems to replicate the data to their worldwide user communities. Each user in the community often selects a different subset of data for their analysis tasks; however, members of a research group often are working on related research topics that require similar data objects. Thus, there is a significant amount of data sharing possible. In this work, we study the access traces of a federated storage cache known as the Southern California Petabyte Scale Cache. By studying the access patterns and potential for network traffic reduction by this caching system, we aim to explore the predictability of the cache uses and the potential for a more general in-network data caching. Our study shows that this distributed storage cache is able to reduce the network traffic volume by a factor of 2.35 during a part of the study period. We further show that machine learning models could predict cache utilization with an accuracy of 0.88. This demonstrates that such cache usage is predictable, which could be useful for managing complex networking resources such as in-network caching.
翻訳日:2022-05-12 22:27:04 公開日:2022-05-11
# (参考訳) 重金属音楽における悲鳴検出

Scream Detection in Heavy Metal Music ( http://arxiv.org/abs/2205.05580v1 )

ライセンス: CC BY 4.0
Vedant Kalbag, Alexander Lerch(参考訳) 悲鳴やグロールのようなハーシュのボーカル効果は、伝統的に歌われたボーカルよりもヘビーメタルのボーカルでより一般的である。 本稿では,重金属音楽における極端な発声手法の検出と分類の問題,特に異なる発声技法の同定について考察する。 分類のための入力表現として,ケプストラム,スペクトル,時間的特徴を含む様々な特徴表現の適合性について検討した。 この作品の主な貢献は (i)多種多様なジャンルのヘビーメタル曲280分以上からなる手作業による注釈付きデータセットで、ヘビーメタル音楽における異種の極端声技術の発生を統計的に分析したもの (ii)重金属声帯分類のための入力特徴表現の系統的検討

Harsh vocal effects such as screams or growls are far more common in heavy metal vocals than the traditionally sung vocal. This paper explores the problem of detection and classification of extreme vocal techniques in heavy metal music, specifically the identification of different scream techniques. We investigate the suitability of various feature representations, including cepstral, spectral, and temporal features as input representations for classification. The main contributions of this work are (i) a manually annotated dataset comprised of over 280 minutes of heavy metal songs of various genres with a statistical analysis of occurrences of different extreme vocal techniques in heavy metal music, and (ii) a systematic study of different input feature representations for the classification of heavy metal vocals
翻訳日:2022-05-12 22:15:41 公開日:2022-05-11
# パラメトリック近似最適化に基づく微分方程式の自動解法

Automated differential equation solver based on the parametric approximation optimization ( http://arxiv.org/abs/2205.05383v1 )

ライセンス: Link先を確認
Alexander Hvatov and Tatiana Tikhonova(参考訳) 微分方程式解の数値解法は、その方法が正しい問題に適用された場合、解に向かって収束する離散場を得ることができる。 それにもかかわらず、数値的手法は方程式の制限されたクラスを持ち、与えられたパラメータ集合や範囲との収束が証明される。 少数の「チープで汚い」数値法のみが、より低い近似順序価格でパラメータチューニングをせずに幅広い種類の方程式に収束する。 本稿では,最適化アルゴリズムを用いてパラメータ化近似を用いた解を求める手法を提案する。 その結果は専門家ほど正確ではないかもしれない。 しかし、アルゴリズムのパラメータが変更されることなく、多種多様な方程式を自動で解くことができる。

The numerical methods for differential equation solution allow obtaining a discrete field that converges towards the solution if the method is applied to the correct problem. Nevertheless, the numerical methods have the restricted class of the equations, on which the convergence with a given parameter set or range is proved. Only a few "cheap and dirty" numerical methods converge on a wide class of equations without parameter tuning with the lower approximation order price. The article presents a method that uses an optimization algorithm to obtain a solution using the parameterized approximation. The result may not be as precise as an expert one. However, it allows solving the wide class of equations in an automated manner without the algorithm's parameters change.
翻訳日:2022-05-12 22:01:35 公開日:2022-05-11
# DNAデータ保存, シークエンシングDNA

DNA data storage, sequencing data-carrying DNA ( http://arxiv.org/abs/2205.05488v1 )

ライセンス: Link先を確認
Jasmine Quah, Omer Sella, Thomas Heinis(参考訳) DNAはその密度、耐久性、持続可能性のために次のアーカイブ記憶媒体として有力候補である。 生命科学において自然に発生するDNAを解析するために、何十年にもわたって開発されてきた技術を利用して、データの読み書きを行う。 それまで見えなかった生物学的DNAの精度を高めるために、シークエンシングはベースコールとして知られるディープラーニングモデルの拡張とトレーニングに依存している。 このモデル複雑性の増大は、計算とデータセットの両方において、かなりのリソースを必要とする。 また、dnaを記憶媒体とするコンパクトな読み取りヘッドの可能性も排除している。 私たちは、DNAデータ保存のために生命科学のシークエンシングモデルを盲目的に使用するのをやめる必要があると論じています。 ライフサイエンスの応用ではDNAを制御できませんが、DNAデータストレージの場合、その書き方や特定の書き込みヘッドを制御します。 具体的には、データ転送DNAをアライメントマーカーとエラー訂正コードで変調して組み込んで、より高い忠実性を確保し、機械学習モデルが実行するいくつかの作業を実行することができる。 本稿では,深部モデルサイズと誤り訂正符号の精度トレードオフについて検討する。 モデルサイズが107MBから始めて, モデル圧縮による精度の低下を, DNA配列の単純な誤り訂正符号を用いて補償できることを示す。 実験では, モデルのサイズが大幅に減少しても, 使用する誤り訂正符号に不適切なペナルティが生じることがなく, 携帯型データ搬送型DNA読取ヘッドへの道が開かれた。 また,モデル圧縮と誤り訂正符号の併用により,圧縮や誤り訂正符号を使わずに読み出し精度が向上することを示す。

DNA is a leading candidate as the next archival storage media due to its density, durability and sustainability. To read (and write) data DNA storage exploits technology that has been developed over decades to sequence naturally occurring DNA in the life sciences. To achieve higher accuracy for previously unseen, biological DNA, sequencing relies on extending and training deep machine learning models known as basecallers. This growth in model complexity requires substantial resources, both computational and data sets. It also eliminates the possibility of a compact read head for DNA as a storage medium. We argue that we need to depart from blindly using sequencing models from the life sciences for DNA data storage. The difference is striking: for life science applications we have no control over the DNA, however, in the case of DNA data storage, we control how it is written, as well as the particular write head. More specifically, data-carrying DNA can be modulated and embedded with alignment markers and error correcting codes to guarantee higher fidelity and to carry out some of the work that the machine learning models perform. In this paper, we study accuracy trade-offs between deep model size and error correcting codes. We show that, starting with a model size of 107MB, the reduced accuracy from model compression can be compensated by using simple error correcting codes in the DNA sequences. In our experiments, we show that a substantial reduction in the size of the model does not incur an undue penalty for the error correcting codes used, therefore paving the way for portable data-carrying DNA read head. Crucially, we show that through the joint use of model compression and error correcting codes, we achieve a higher read accuracy than without compression and error correction codes.
翻訳日:2022-05-12 22:01:26 公開日:2022-05-11
# トレーニングラベルの重要事項の選択:定量的MRIパラメータ推定におけるディープラーニングの最適活用法

Choice of training label matters: how to best use deep learning for quantitative MRI parameter estimation ( http://arxiv.org/abs/2205.05587v1 )

ライセンス: Link先を確認
Sean C. Epstein, Timothy J. P. Bray, Margaret Hall-Craggs and Hui Zhang(参考訳) 定量的MRIのパラメータ推定手法として,ディープラーニング(DL)が普及している。 教師付き学習または自己教師付き学習のいずれかに依存する、さまざまな競合実装が提案されている。 自己監督的なアプローチは、しばしば教師なし(unsupervised)と呼ばれ、オートエンコーダ(auto-encoder)に基づいて緩やかに行われている。 これら2つの学習パラダイムは、異なる強みを持つことが示されている。 特に、自己教師型アプローチは、監督型アプローチよりも低いバイアスパラメータ推定を提供している。 この結果は直観に反する - 教師付きラベルに事前知識を組み込むことで、理論的には、精度が向上するはずだ。 本研究では,この教師付きアプローチの明らかな限界が,基礎訓練ラベルのナイーブな選択に起因していることを示す。 故意に基礎的でないラベルをトレーニングすることにより,教師あり学習フレームワーク内で,自己教師あり手法に関連する低バイアスパラメータ推定を再現し,改良できることを示す。 このアプローチは、教師付き学習に基づく単一の統一的なディープラーニングパラメータ推定フレームワークのステージを設定し、トレーニングラベルを注意深く調整することでバイアスと分散のトレードオフが生まれる。

Deep learning (DL) is gaining popularity as a parameter estimation method for quantitative MRI. A range of competing implementations have been proposed, relying on either supervised or self-supervised learning. Self-supervised approaches, sometimes referred to as unsupervised, have been loosely based on auto-encoders, whereas supervised methods have, to date, been trained on groundtruth labels. These two learning paradigms have been shown to have distinct strengths. Notably, self-supervised approaches have offered lower-bias parameter estimates than their supervised alternatives. This result is counterintuitive - incorporating prior knowledge with supervised labels should, in theory, lead to improved accuracy. In this work, we show that this apparent limitation of supervised approaches stems from the naive choice of groundtruth training labels. By training on labels which are deliberately not groundtruth, we show that the low-bias parameter estimation previously associated with self-supervised methods can be replicated - and improved on - within a supervised learning framework. This approach sets the stage for a single, unifying, deep learning parameter estimation framework, based on supervised learning, where trade-offs between bias and variance are made by careful adjustment of training label.
翻訳日:2022-05-12 22:01:00 公開日:2022-05-11
# 物質のコントラスト学習段階のための簡易な枠組み

A simple framework for contrastive learning phases of matter ( http://arxiv.org/abs/2205.05607v1 )

ライセンス: Link先を確認
Xiao-Qi Han, Sheng-Song Xu, Zhen Feng, Rong-Qiang He, and Zhong-Yi Lu(参考訳) 凝縮マッター物理学における主なタスクは、物質の相と対応する相転移を認識し、分類し、特徴付けることである。 この新しい分野における多くの調査にもかかわらず、通常、異なるシナリオに対して異なる方法とテクニックが必要である。 本稿では,視覚表現のコントラスト学習における最近の発展に触発された,物体のコントラスト学習のためのシンプルなフレームワークであるSimCLPを提案する。 本稿では,古典的,量子的,単粒子的,多体的,従来的,トポロジ的など,いくつかの代表的なシステムにおけるこのフレームワークの成功例を示す。 SimCLPは柔軟で、手動の特徴工学や事前知識といった通常の負担を伴わない。 唯一の前提条件は、十分な状態設定を準備することだ。 さらに、表現ベクトルとラベルを生成し、それゆえ他の問題に取り組むのに役立つ。 従ってsimclpは、未探索の相転移を識別するための汎用的なツールを開発するための代替手段となる。

A main task in condensed-matter physics is to recognize, classify, and characterize phases of matter and the corresponding phase transitions, for which machine learning provides a new class of research tools due to the remarkable development in computing power and algorithms. Despite much exploration in this new field, usually different methods and techniques are needed for different scenarios. Here, we present SimCLP: a simple framework for contrastive learning phases of matter, which is inspired by the recent development in contrastive learning of visual representations. We demonstrate the success of this framework on several representative systems, including classical and quantum, single-particle and many-body, conventional and topological. SimCLP is flexible and free of usual burdens such as manual feature engineering and prior knowledge. The only prerequisite is to prepare enough state configurations. Furthermore, it can generate representation vectors and labels and hence help tackle other problems. SimCLP therefore paves an alternative way to the development of a generic tool for identifying unexplored phase transitions.
翻訳日:2022-05-12 22:00:38 公開日:2022-05-11
# プロセスおよび温度スケーラブル形状に基づくCMOSアナログ回路の理論と実装

Theory and Implementation of Process and Temperature Scalable Shape-based CMOS Analog Circuits ( http://arxiv.org/abs/2205.05664v1 )

ライセンス: Link先を確認
Pratik Kumar, Ankita Nandi, Shantanu Chakrabartty, Chetan Singh Thakur(参考訳) アナログコンピューティングは、高い計算密度とエネルギー効率を達成する可能性から、デジタルコンピューティングにとって魅力的なものである。 しかし、デバイス間のばらつきと、既存の設計をプロセスノードに移植する際の課題は、機械学習(ML)アプリケーションにおけるアナログ計算の潜在能力を最大限活用する上で大きな障害となっている。 本研究は、アナログMLプロセッサをデジタル設計に類似した設計を行うための新しいアナログコンピューティングフレームワークを提案する。 私たちの研究の中心は形状ベースのアナログコンピューティング(S-AC)です。 デバイスプリミティブを使用して、他の非線形形状を導出できるロバストなプロト関数を生成する。 S-ACパラダイムにより、ユーザーは計算精度をシリコン回路領域と電力でトレードオフできる。 これにより、ユーザーは真の電力効率でスケーラブルなアナログアーキテクチャを構築でき、同じ合成アナログ回路はトランジスタの様々なバイアス状態を横断し、同時にプロセスノードにわたってスケールすることができる。 概念実証として、平面CMOS 180nmとFinFET 7nmプロセスノードで標準MLタスクを実行するためによく使われる数学的関数の実装を示す。 合成形状に基づくMLアーキテクチャは、異なるプロセスノードにおける標準データセットの分類精度について実証されている。

Analog computing is attractive to its digital counterparts due to its potential for achieving high compute density and energy efficiency. However, the device-to-device variability and challenges in porting existing designs to advance process nodes have posed a major hindrance in harnessing the full potential of analog computations for Machine Learning (ML) applications. This work proposes a novel analog computing framework for designing an analog ML processor similar to that of a digital design - where the designs can be scaled and ported to advanced process nodes without architectural changes. At the core of our work lies shape-based analog computing (S-AC). It utilizes device primitives to yield a robust proto-function through which other non-linear shapes can be derived. S-AC paradigm also allows the user to trade off computational precision with silicon circuit area and power. Thus allowing users to build a truly power-efficient and scalable analog architecture where the same synthesized analog circuit can operate across different biasing regimes of transistors and simultaneously scale across process nodes. As a proof of concept, we show the implementation of commonly used mathematical functions for carrying standard ML tasks in both planar CMOS 180nm and FinFET 7nm process nodes. The synthesized Shape-based ML architecture has been demonstrated for its classification accuracy on standard data sets at different process nodes.
翻訳日:2022-05-12 22:00:24 公開日:2022-05-11
# (参考訳) フェデレーション学習におけるブロックチェーンベースのセキュアクライアント選択

Blockchain-based Secure Client Selection in Federated Learning ( http://arxiv.org/abs/2205.05611v1 )

ライセンス: CC BY 4.0
Truc Nguyen, Phuc Thai, Tre' R. Jeter, Thang N. Dinh, My T. Thai(参考訳) 大規模分散学習における連合学習(federated learning, fl)の可能性は大きいが、現在のシステムは、クライアントがトレーニングしたローカルモデルが中央サーバに露出しているという事実から、いくつかのプライバシの問題にさらされている。 その結果,サーバからローカルモデルを隠蔽するために,FLのセキュアアグリゲーションプロトコルが開発された。 しかし,クライアント選択プロセスの操作により,サーバはセキュアなアグリゲーションを回避して被害者のローカルモデルを学ぶことができ,セキュアなアグリゲーションだけではプライバシ保護には不十分であることを示す。 この問題に取り組むため,我々はブロックチェーン技術を利用して検証可能なクライアント選択プロトコルを提案する。 ブロックチェーンの不変性と透明性のため、提案プロトコルはクライアントのランダムな選択を強制し、サーバがその判断で選択プロセスを制御できないようにする。 この攻撃に対して当社のプロトコルが安全であることを示すセキュリティ証明を提示する。 さらに、ethereumライクなブロックチェーンでいくつかの実験を行い、ソリューションの実現性と実用性を実証しました。

Despite the great potential of Federated Learning (FL) in large-scale distributed learning, the current system is still subject to several privacy issues due to the fact that local models trained by clients are exposed to the central server. Consequently, secure aggregation protocols for FL have been developed to conceal the local models from the server. However, we show that, by manipulating the client selection process, the server can circumvent the secure aggregation to learn the local models of a victim client, indicating that secure aggregation alone is inadequate for privacy protection. To tackle this issue, we leverage blockchain technology to propose a verifiable client selection protocol. Owing to the immutability and transparency of blockchain, our proposed protocol enforces a random selection of clients, making the server unable to control the selection process at its discretion. We present security proofs showing that our protocol is secure against this attack. Additionally, we conduct several experiments on an Ethereum-like blockchain to demonstrate the feasibility and practicality of our solution.
翻訳日:2022-05-12 21:57:32 公開日:2022-05-11
# RLOP:数理的観点からみたオプション価格のRL法

RLOP: RL Methods in Option Pricing from a Mathematical Perspective ( http://arxiv.org/abs/2205.05600v1 )

ライセンス: Link先を確認
Ziheng Chen(参考訳) 抽象 この研究では、ポートフォリオの複製を通じてオプション価格のRLメソッドを可能にする数学の観点から、修正QLBSとRLOPモデルという2つの環境を構築します。 環境仕様(ソースコードはhttps://github.com/owen8877/rlop)、学習アルゴリズム、ニューラルネットワークによるエージェントパラメータ化を実装しています。 学習した最適ヘッジ戦略をbs予測と比較する。 様々な要因が最適価格と位置にどのように影響するかを考察・検討した。

Abstract In this work, we build two environments, namely the modified QLBS and RLOP models, from a mathematics perspective which enables RL methods in option pricing through replicating by portfolio. We implement the environment specifications (the source code can be found at https://github.com/owen8877/RLOP), the learning algorithm, and agent parametrization by a neural network. The learned optimal hedging strategy is compared against the BS prediction. The effect of various factors is considered and studied based on how they affect the optimal price and position.
翻訳日:2022-05-12 21:40:11 公開日:2022-05-11
# 不確実性量子化による暗号化ネットワークトラフィックアプリケーションラベリングのための拡張型機械学習

Extensible Machine Learning for Encrypted Network Traffic Application Labeling via Uncertainty Quantification ( http://arxiv.org/abs/2205.05628v1 )

ライセンス: Link先を確認
Steven Jorgensen, John Holodnak, Jensen Dempsey, Karla de Souza, Ananditha Raghunath, Vernon Rivet, Noah DeMoes, Andr\'es Alejos, and Allan Wollaber (MIT Lincoln Laboratory)(参考訳) 暗号化されたネットワークトラフィックの増加に伴い、サイバーセキュリティアナリストは、ネットワーク上のトラフィックを解明するマシンラーニング(ML)技術に目を向けている。 しかし、既知のトラフィック機能がネットワーク間でシフトし、トレーニングセットの配布外にある新しいトラフィックが出現するにつれて、MLモデルは不安定になる可能性がある。 この動的環境に確実に適応するためには、MLモデルは、サイバーセキュリティ領域でほとんど注目を集めていない予測に文脈化された不確実性定量化を提供する必要がある。 不確かさの定量化は、モデルがそのラベルの割り当てでどのクラスを選択するべきかが不確かで、トラフィックが事前訓練されたクラスに属さない場合にも必要である。 ラベル付き仮想プライベートネットワーク(VPN)暗号化ネットワークトラフィックを10のアプリケーションで生成し,5つのアプリケーションカテゴリに対応する,新たなパブリックなネットワークトラフィックデータセットを提案する。 また、控えめなデータ要件で迅速にトレーニングし、キャリブレーションされた予測確率と解釈可能な ‘out-of-distribution'' (OOD)スコアを提供し、新しいトラフィックサンプルをフラグ付けするMLフレームワークを提案する。 我々は,いわゆるマハラノビス距離のp値から校正OOD値を計算する方法について述べる。 我々は,本フレームワークがデータセット上で0.98のF1スコアを達成し,(1)類似アプリケーションのデータ,(2)既存カテゴリのアプリケーショントラフィック,(3)新しいカテゴリのアプリケーショントラフィックなど,企業ネットワークに拡張可能であることを実証した。 モデルは不確実なトラフィックを正しくフラグ付けし、再トレーニングすると、新しいデータを正確に組み込む。 また、特定の暗号化プロトコルで発生するパケットサイズを均一にする際の性能(F1スコア0.97)も示す。

With the increasing prevalence of encrypted network traffic, cyber security analysts have been turning to machine learning (ML) techniques to elucidate the traffic on their networks. However, ML models can become stale as known traffic features can shift between networks and as new traffic emerges that is outside of the distribution of the training set. In order to reliably adapt in this dynamic environment, ML models must additionally provide contextualized uncertainty quantification to their predictions, which has received little attention in the cyber security domain. Uncertainty quantification is necessary both to signal when the model is uncertain about which class to choose in its label assignment and when the traffic is not likely to belong to any pre-trained classes. We present a new, public dataset of network traffic that includes labeled, Virtual Private Network (VPN)-encrypted network traffic generated by 10 applications and corresponding to 5 application categories. We also present an ML framework that is designed to rapidly train with modest data requirements and provide both calibrated, predictive probabilities as well as an interpretable ``out-of-distribution'' (OOD) score to flag novel traffic samples. We describe how to compute a calibrated OOD score from p-values of the so-called relative Mahalanobis distance. We demonstrate that our framework achieves an F1 score of 0.98 on our dataset and that it can extend to an enterprise network by testing the model: (1) on data from similar applications, (2) on dissimilar application traffic from an existing category, and (3) on application traffic from a new category. The model correctly flags uncertain traffic and, upon retraining, accurately incorporates the new data. We additionally demonstrate good performance (F1 score of 0.97) when packet sizes are made to be uniform, as occurs for certain encryption protocols.
翻訳日:2022-05-12 21:40:01 公開日:2022-05-11
# Smooth and strong-convex-Strongly-Concave Minimax Optimizationのための第1次最適アルゴリズム

The First Optimal Algorithm for Smooth and Strongly-Convex-Strongly-Concave Minimax Optimization ( http://arxiv.org/abs/2205.05653v1 )

ライセンス: Link先を確認
Dmitry Kovalev, Alexander Gasnikov(参考訳) 本稿では,スムーズかつ強凸・強凸極小最適化問題を再考する。 zhang et al. (2021) と ibrahim et al. (2020) は、下限の $\omega\left (\sqrt{\kappa_x\kappa_y} \log \frac{1}{\epsilon}\right) を、$\epsilon$-accurate の解を見つけるのに必要な勾配評価の数に基づいて定式化した。 lin et al. (2020) と wang と li (2020) のアルゴリズムは勾配評価複雑性$\mathcal{o}\left( \sqrt{\kappa_x\kappa_y}\log^3\frac{1}{\epsilon}\right)$ と $\mathcal{o}\left( \sqrt{\kappa_x\kappa_y}\log^3 (\kappa_x\kappa_y)\log\frac{1}{\epsilon}\right)$ を持つ。 この根本的な問題は、$\mathcal{O}\left(\sqrt{\kappa_x\kappa_y}\log\frac{1}{\epsilon}\right)$グラデーション評価の複雑さによって解決する。 アルゴリズムを3つのステップで設計します (i)点共役関数による最小化問題として元の問題を再構成する。 (ii) 近似点アルゴリズムの特定の変種を再構成問題に適用する。 3) 単調包摂における演算子ノルム低減のための最適アルゴリズムを用いて, 近似演算子を不正確に計算する。

In this paper, we revisit the smooth and strongly-convex-strongly-concave minimax optimization problem. Zhang et al. (2021) and Ibrahim et al. (2020) established the lower bound $\Omega\left(\sqrt{\kappa_x\kappa_y} \log \frac{1}{\epsilon}\right)$ on the number of gradient evaluations required to find an $\epsilon$-accurate solution, where $\kappa_x$ and $\kappa_y$ are condition numbers for the strong convexity and strong concavity assumptions. However, the existing state-of-the-art methods do not match this lower bound: algorithms of Lin et al. (2020) and Wang and Li (2020) have gradient evaluation complexity $\mathcal{O}\left( \sqrt{\kappa_x\kappa_y}\log^3\frac{1}{\epsilon}\right)$ and $\mathcal{O}\left( \sqrt{\kappa_x\kappa_y}\log^3 (\kappa_x\kappa_y)\log\frac{1}{\epsilon}\right)$, respectively. We fix this fundamental issue by providing the first algorithm with $\mathcal{O}\left(\sqrt{\kappa_x\kappa_y}\log\frac{1}{\epsilon}\right)$ gradient evaluation complexity. We design our algorithm in three steps: (i) we reformulate the original problem as a minimization problem via the pointwise conjugate function; (ii) we apply a specific variant of the proximal point algorithm to the reformulated problem; (iii) we compute the proximal operator inexactly using the optimal algorithm for operator norm reduction in monotone inclusions.
翻訳日:2022-05-12 21:39:30 公開日:2022-05-11
# パノラマイメージングの展望とシーン理解への応用

Review on Panoramic Imaging and Its Applications in Scene Understanding ( http://arxiv.org/abs/2205.05570v1 )

ライセンス: Link先を確認
Shaohua Gao, Kailun Yang, Hao Shi, Kaiwei Wang, Jian Bai(参考訳) 高速通信と人工知能技術の急速な発展により、現実世界のシーンに対する人間の認識は、より小さな視野(FoV)と低次元のシーン検出装置の使用に限定されなくなった。 パノラマイメージングは、環境認識と測定のための次世代の知的機器として出現する。 しかし、大規模な写真撮影の必要性を満たしながら、パノラマイメージング機器は高解像度、盲目領域、小型化、多次元の知的知覚を有することが期待されており、次世代のインテリジェント機器に向けた人工知能手法と組み合わせることで、360度現実環境をより深く理解し、より全体論的に認識することができる。 幸いなことに、自由曲面、薄板光学、メタサーフェスの最近の進歩は、環境に対する人間の知覚に対処するための革新的なアプローチを提供し、従来の光学イメージングを超えて有望なアイデアを提供する。 本稿では,パノラマイメージングシステムの基本原則を紹介し,パノラマイメージングシステムのアーキテクチャ,特徴,機能について述べる。 その後,パノラマイメージングにおける自由曲面,薄板光学,メタサーフェスの幅広い応用可能性と優れた設計可能性について詳細に論じる。 次に,パノラマイメージングシステムの性能向上に寄与する手法について,詳細な解析を行った。 さらに,シーン理解におけるパノラマ画像の応用について,自律運転とロボット工学,パノラマ意味画像分割,パノラマ深度推定,パノラマ視覚定位など,詳細な分析を行う。 最後に,パノラマイメージング機器の将来の可能性と研究の方向性について考察した。

With the rapid development of high-speed communication and artificial intelligence technologies, human perception of real-world scenes is no longer limited to the use of small Field of View (FoV) and low-dimensional scene detection devices. Panoramic imaging emerges as the next generation of innovative intelligent instruments for environmental perception and measurement. However, while satisfying the need for large-FoV photographic imaging, panoramic imaging instruments are expected to have high resolution, no blind area, miniaturization, and multi-dimensional intelligent perception, and can be combined with artificial intelligence methods towards the next generation of intelligent instruments, enabling deeper understanding and more holistic perception of 360-degree real-world surrounding environments. Fortunately, recent advances in freeform surfaces, thin-plate optics, and metasurfaces provide innovative approaches to address human perception of the environment, offering promising ideas beyond conventional optical imaging. In this review, we begin with introducing the basic principles of panoramic imaging systems, and then describe the architectures, features, and functions of various panoramic imaging systems. Afterwards, we discuss in detail the broad application prospects and great design potential of freeform surfaces, thin-plate optics, and metasurfaces in panoramic imaging. We then provide a detailed analysis on how these techniques can help enhance the performance of panoramic imaging systems. We further offer a detailed analysis of applications of panoramic imaging in scene understanding for autonomous driving and robotics, spanning panoramic semantic image segmentation, panoramic depth estimation, panoramic visual localization, and so on. Finally, we cast a perspective on future potential and research directions for panoramic imaging instruments.
翻訳日:2022-05-12 21:38:17 公開日:2022-05-11
# HULC:Pose Manifold SmplingとDense Contact Guidanceを用いた3次元モーションキャプチャ

HULC: 3D Human Motion Capture with Pose Manifold Sampling and Dense Contact Guidance ( http://arxiv.org/abs/2205.05677v1 )

ライセンス: Link先を確認
Soshi Shimada, Vladislav Golyanik, Patrick P\'erez, Weipeng Xu, Christian Theobalt(参考訳) マーカーレスモノキュラー3dモーションキャプチャ(mocap)とシーンインタラクションは、拡張現実、ロボティクス、仮想アバター生成に関連する困難な研究テーマである。 単眼の奥行きの曖昧さのため、既存の手法で捉えた3d運動は、しばしば不正確な身体-感覚間の貫通、ジッター、体浮きといった深刻なアーティファクトを含む。 これらの問題に対処するために,シーン形状を認識した3次元ヒューマン・モキャップの新しいアプローチであるHULCを提案する。 HULCは3Dのポーズと体表面の密接な接触を推定し、3Dの局所化を改善した。 さらに, 誤った身体環境間ネットワークを解消する新しいポーズ多様体サンプリングに基づく3次元ポーズ軌道最適化を提案する。 提案手法は, 既存のシーン認識型モカプアルゴリズムに比べ, 構造的入力は少ないが, 物理的に表現可能なポーズを生成する: hulcは, 様々な実験や測定値において, 既存のアプローチを大幅に上回っている。

Marker-less monocular 3D human motion capture (MoCap) with scene interactions is a challenging research topic relevant for extended reality, robotics and virtual avatar generation. Due to the inherent depth ambiguity of monocular settings, 3D motions captured with existing methods often contain severe artefacts such as incorrect body-scene inter-penetrations, jitter and body floating. To tackle these issues, we propose HULC, a new approach for 3D human MoCap which is aware of the scene geometry. HULC estimates 3D poses and dense body-environment surface contacts for improved 3D localisations, as well as the absolute scale of the subject. Furthermore, we introduce a 3D pose trajectory optimisation based on a novel pose manifold sampling that resolves erroneous body-environment inter-penetrations. Although the proposed method requires less structured inputs compared to existing scene-aware monocular MoCap algorithms, it produces more physically-plausible poses: HULC significantly and consistently outperforms the existing approaches in various experiments and on different metrics.
翻訳日:2022-05-12 21:37:47 公開日:2022-05-11
# (参考訳) 臨床現場における糖尿病網膜症診断のための深層学習システムの有用性

Performance of a deep learning system for detection of referable diabetic retinopathy in real clinical settings ( http://arxiv.org/abs/2205.05554v1 )

ライセンス: CC BY-SA 4.0
Ver\'onica S\'anchez-Guti\'errez, Paula Hern\'andez-Mart\'inez, Francisco J. Mu\~noz-Negrete, Jonne Engelberts, Allison M. Luger, Mark J.J.P. van Grinsven(参考訳) 背景: RetCAD v.1.3.1 (Thirona, Nijmegen, オランダ) は, 3次病院検診プログラムにおいて, 定期的な臨床実践中に取得したカラー眼底画像のデータセット上で, 参照可能な糖尿病網膜症(DR)を自動的に検出し, この人工知能を応用した作業負荷の低減を解析した。 方法:2019年2月から12月までのスクリーニングプログラムに参加した糖尿病患者3189人の6325人の眼から,7195個の非骨髄性眼底画像を用いてソフトウェアの評価を行った。 ソフトウェアは各カラーフント画像に対してDR重度スコアを生成し、アイレベルスコアに組み合わせた。 このスコアは、レシーバ操作特性(ROC)曲線解析を用いて、人間の専門家によって設定された基準基準と比較された。 結果:人工知能(AI)ソフトウェアは、参照可能なDRを検出するために、ROC曲線(AUC)値0.988[0.981:0.993]の領域を達成し、DR用のRetCADソフトウェアの感度は90.53%、特異性は97.13%である。 作業負荷の96%削減は、偽陰性のわずか6件のコストで達成できた。 結論: AIソフトウェアは、参照可能なDRケースの大部分を正しく識別し、チェックが必要なケースの96%をワークロードで削減すると同時に、本当のケースがほとんどないため、トリアージの道具として使用することができる。

Background: To determine the ability of a commercially available deep learning system, RetCAD v.1.3.1 (Thirona, Nijmegen, The Netherlands) for the automatic detection of referable diabetic retinopathy (DR) on a dataset of colour fundus images acquired during routine clinical practice in a tertiary hospital screening program, analyzing the reduction of workload that can be released incorporating this artificial intelligence-based technology. Methods: Evaluation of the software was performed on a dataset of 7195 nonmydriatic fundus images from 6325 eyes of 3189 diabetic patients attending our screening program between February to December of 2019. The software generated a DR severity score for each colour fundus image which was combined into an eye-level score. This score was then compared with a reference standard as set by a human expert using receiver operating characteristic (ROC) curve analysis. Results: The artificial intelligence (AI) software achieved an area under the ROC curve (AUC) value of 0.988 [0.981:0.993] for the detection of referable DR. At the proposed operating point, the sensitivity of the RetCAD software for DR is 90.53% and specificity is 97.13%. A workload reduction of 96% could be achieved at the cost of only 6 false negatives. Conclusions: The AI software correctly identified the vast majority of referable DR cases, with a workload reduction of 96% of the cases that would need to be checked, while missing almost no true cases, so it may therefore be used as an instrument for triage.
翻訳日:2022-05-12 21:32:25 公開日:2022-05-11
# プロキシ差別とは何か?

What is Proxy Discrimination? ( http://arxiv.org/abs/2205.05265v1 )

ライセンス: Link先を確認
Michael Carl Tschantz(参考訳) プロキシ差別のほぼ普遍的な非難は、それが何であるかについての意見の相違を隠している。 本研究は,先行研究におけるプロキシとプロキシの識別に関する様々な概念を調査し,共通の枠組みで表現する。 これらの概念は、統計的依存関係、因果効果、意図に様々な影響を与える。 それぞれの表記法と概念全体の制限と使用について論じている。

The near universal condemnation of proxy discrimination hides a disagreement over what it is. This work surveys various notions of proxy and proxy discrimination found in prior work and represents them in a common framework. These notions variously turn on statistical dependencies, causal effects, and intentions. It discusses the limitations and uses of each notation and of the concept as a whole.
翻訳日:2022-05-12 21:20:31 公開日:2022-05-11
# 小児集中治療室におけるてんかん発作危険児のトリアージ支援のための機械学習

Machine Learning to Support Triage of Children at Risk for Epileptic Seizures in the Pediatric Intensive Care Unit ( http://arxiv.org/abs/2205.05389v1 )

ライセンス: Link先を確認
Raphael Azriel, Cecil D. Hahn, Thomas De Cooman, Sabine Van Huffel, Eric T. Payne, Kristin L. McBain, Danny Eytan and Joachim A. Behar(参考訳) 目的: 小児集中治療室(PICU)に入院した重度の小児ではてんかん発作が比較的多く, 診断・治療の標的となっている。 これらの発作のほとんどは、明らかな臨床症状を持たないが、死と死亡に大きな影響を与える。 PICU内の発作の危険にさらされていると考えられる子供たちは、連続脳波(cEEG)を用いて監視される。 cEEGモニタリングコストは非常に高く、利用可能なマシンの数が常に限られているため、臨床医はリソースを割り当てるために、認識されたリスクに応じて患者をトリアージすることに頼る必要がある。 本研究の目的は、心電図(ECG)と呼ばれるPICUのユビキタスに記録された信号を用いて、重度小児の発作リスク評価を改善するコンピュータ支援ツールを開発することである。 アプローチ:心電図記録から抽出した特徴と患者の臨床データをもとに,患者レベルの新しいデータ駆動モデルを開発した。 主な結果: 予測された特徴は年齢, 脳損傷, 発病原因, qrs領域であった。 先行臨床データを持たない患者に対しては,ECG記録1時間を用いて,ランダム森林分類器の分類性能は,受信操作特性曲線(AUROC)スコア0.84の範囲に到達した。 ECGの特徴と臨床歴を組み合わせると、AUROCは0.87に達した。 意義: 実際の臨床シナリオから, 臨床診断支援トリアージツールは, 臨床標準よりも59%以上, 肯定的な予測値を向上させることができると推定した。

Objective: Epileptic seizures are relatively common in critically-ill children admitted to the pediatric intensive care unit (PICU) and thus serve as an important target for identification and treatment. Most of these seizures have no discernible clinical manifestation but still have a significant impact on morbidity and mortality. Children that are deemed at risk for seizures within the PICU are monitored using continuous-electroencephalogram (cEEG). cEEG monitoring cost is considerable and as the number of available machines is always limited, clinicians need to resort to triaging patients according to perceived risk in order to allocate resources. This research aims to develop a computer aided tool to improve seizures risk assessment in critically-ill children, using an ubiquitously recorded signal in the PICU, namely the electrocardiogram (ECG). Approach: A novel data-driven model was developed at a patient-level approach, based on features extracted from the first hour of ECG recording and the clinical data of the patient. Main results: The most predictive features were the age of the patient, the brain injury as coma etiology and the QRS area. For patients without any prior clinical data, using one hour of ECG recording, the classification performance of the random forest classifier reached an area under the receiver operating characteristic curve (AUROC) score of 0.84. When combining ECG features with the patients clinical history, the AUROC reached 0.87. Significance: Taking a real clinical scenario, we estimated that our clinical decision support triage tool can improve the positive predictive value by more than 59% over the clinical standard.
翻訳日:2022-05-12 21:20:27 公開日:2022-05-11
# グループスパルシリティを用いたリーク型reluニューラルネットワークの学習のための拡張ラグランジアンアルゴリズム

An Inexact Augmented Lagrangian Algorithm for Training Leaky ReLU Neural Network with Group Sparsity ( http://arxiv.org/abs/2205.05428v1 )

ライセンス: Link先を確認
Wei Liu, Xin Liu, Xiaojun Chen(参考訳) グループスパース正規化用語を用いたリーク型reluネットワークは近年広く利用されている。 しかし、そのようなネットワークのトレーニングは非滑らかな非凸最適化問題をもたらし、定常点を決定論的に計算するためのアプローチが欠如している。 本稿では,従来の最適化問題において,補助変数と追加制約を導入することで,まず多層合成項を解く。 新しいモデルは、空でない有界な解集合を持ち、その実現可能な集合は、マンガサリアン・オフショヴィッツ制約条件を満たす。 さらに,新しいモデルと本来の問題との関係を示す。 注目すべきは、新しいモデルを解くための不正確な拡張ラグランジアンアルゴリズムを提案し、アルゴリズムのKKT点への収束を示すことである。 数値実験により,本アルゴリズムは既知のアルゴリズムよりもばらばらなリーク型reluニューラルネットワークの訓練に有効であることが示された。

The leaky ReLU network with a group sparse regularization term has been widely used in the recent years. However, training such a network yields a nonsmooth nonconvex optimization problem and there exists a lack of approaches to compute a stationary point deterministically. In this paper, we first resolve the multi-layer composite term in the original optimization problem by introducing auxiliary variables and additional constraints. We show the new model has a nonempty and bounded solution set and its feasible set satisfies the Mangasarian-Fromovitz constraint qualification. Moreover, we show the relationship between the new model and the original problem. Remarkably, we propose an inexact augmented Lagrangian algorithm for solving the new model and show the convergence of the algorithm to a KKT point. Numerical experiments demonstrate that our algorithm is more efficient for training sparse leaky ReLU neural networks than some well-known algorithms.
翻訳日:2022-05-12 21:19:50 公開日:2022-05-11
# 校正は公平な要件か? 道徳哲学・意思決定論の観点からの議論

Is calibration a fairness requirement? An argument from the point of view of moral philosophy and decision theory ( http://arxiv.org/abs/2205.05512v1 )

ライセンス: Link先を確認
Michele Loi and Christoph Heitz(参考訳) 本稿では,機械学習文学における統計的公正性の2つの基準の道徳的分析について述べる。 1)グループ間の校正 2) グループ間での偽陽性と偽陰性率の等価性。 本稿では,いずれの尺度も支持する道徳的議論に焦点をあてる。 グループキャリブレーションと偽陽性と偽陰性率平等の対立は、実践者間のグループフェアネス定義に関する議論の中心的な問題の一つである。 徹底的な道徳分析のためには、公正という用語の意味を明確化し、適切に定義する必要がある。 我々の論文では、公平性は(非)差別と同等であり、これは集団公平性に関する議論における正当な理解である。 より具体的には、Lippert-Rasmussen教授のこの定義に対する扱いで使われるという意味で、プライマー・ファシエの誤った差別と等価である。 本稿では,集団校正の違反が不公平である場合もあれば,不公平ではない場合もあると論じる。 これは、既に文献で進歩している主張と一致しており、アルゴリズム的公正性は文脈に敏感な方法で定義されるべきである。 最も重要な実践的意味は、フェアネスが群間キャリブレーションや偽陽性/偽陰性率の等式を必要とする例に基づく議論は一般化しないということである。 グループキャリブレーションは、あるケースではフェアネス要件であるが、別のケースではそうではない。

In this paper, we provide a moral analysis of two criteria of statistical fairness debated in the machine learning literature: 1) calibration between groups and 2) equality of false positive and false negative rates between groups. In our paper, we focus on moral arguments in support of either measure. The conflict between group calibration vs. false positive and false negative rate equality is one of the core issues in the debate about group fairness definitions among practitioners. For any thorough moral analysis, the meaning of the term fairness has to be made explicit and defined properly. For our paper, we equate fairness with (non-)discrimination, which is a legitimate understanding in the discussion about group fairness. More specifically, we equate it with prima facie wrongful discrimination in the sense this is used in Prof. Lippert-Rasmussen's treatment of this definition. In this paper, we argue that a violation of group calibration may be unfair in some cases, but not unfair in others. This is in line with claims already advanced in the literature, that algorithmic fairness should be defined in a way that is sensitive to context. The most important practical implication is that arguments based on examples in which fairness requires between-group calibration, or equality in the false-positive/false-negative rates, do no generalize. For it may be that group calibration is a fairness requirement in one case, but not in another.
翻訳日:2022-05-12 21:19:36 公開日:2022-05-11
# 地中データからのホットエレクトロンフリーエネルギーの予測

Predicting hot electrons free energies from ground-state data ( http://arxiv.org/abs/2205.05591v1 )

ライセンス: Link先を確認
Chiheb Ben Mahmoud, Federico Grasselli, Michele Ceriotti(参考訳) 機械学習のポテンシャルは通常、原子位置のみに依存し、シミュレーション温度に依存しない、ボルン=オッペンハイマーエネルギー表面で訓練される。 これは金属において重要な熱励起電子の影響を無視し、温かい高密度物質の記述に必須である。 これらの効果の正確な物理的説明には、核が温度依存の電子自由エネルギーに移動する必要がある。 本研究では,任意の電子温度における自由エネルギーの機械学習予測手法を提案する。 本手法は, ガス巨星と褐色小星のコア条件下での金属液体水素のベンチマークを行う。

Machine-learning potentials are usually trained on the ground-state, Born-Oppenheimer energy surface, which depends exclusively on the atomic positions and not on the simulation temperature. This disregards the effect of thermally-excited electrons, that is important in metals, and essential to the description of warm dense matter. An accurate physical description of these effects requires that the nuclei move on a temperature-dependent electronic free energy. We propose a method to obtain machine-learning predictions of this free energy at an arbitrary electron temperature using exclusively training data from ground-state calculations, avoiding the need to train temperature-dependent potentials. We benchmark our method on metallic liquid hydrogen at the conditions of the core of gas giants and brown dwarfs.
翻訳日:2022-05-12 21:19:14 公開日:2022-05-11
# (参考訳) doublematch: セルフスーパービジョンによる半教師付き学習の改善

DoubleMatch: Improving Semi-Supervised Learning with Self-Supervision ( http://arxiv.org/abs/2205.05575v1 )

ライセンス: CC BY 4.0
Erik Wallin, Lennart Svensson, Fredrik Kahl, Lars Hammarstrand(参考訳) 教師付き学習の成功を受けて、半教師付き学習(SSL)がますます人気が高まっている。 SSLは、ラベル付きトレーニングセットに加えて、未ラベルデータの巨大なコレクションを使用してモデルを適合させる一連のメソッドである。 最近成功したsslメソッドのほとんどは、疑似ラベル法に基づいている: 自信のあるモデル予測がトレーニングラベルとして機能する。 これらの手法は多くのベンチマークデータセットで印象的な結果を示しているが、このアプローチの欠点は、ラベルのないデータがトレーニング中に使用されるわけではないことである。 本論文では,疑似ラベル法と自己教師付き損失を組み合わせた新しいsslアルゴリズムであるdoublematchを提案する。 本手法は,既存のSSL手法と比較してトレーニング時間を短縮しつつ,複数のベンチマークデータセット上で最先端の精度を実現する。 コードはhttps://github.com/walline/doublematch.comで入手できる。

Following the success of supervised learning, semi-supervised learning (SSL) is now becoming increasingly popular. SSL is a family of methods, which in addition to a labeled training set, also use a sizable collection of unlabeled data for fitting a model. Most of the recent successful SSL methods are based on pseudo-labeling approaches: letting confident model predictions act as training labels. While these methods have shown impressive results on many benchmark datasets, a drawback of this approach is that not all unlabeled data are used during training. We propose a new SSL algorithm, DoubleMatch, which combines the pseudo-labeling technique with a self-supervised loss, enabling the model to utilize all unlabeled data in the training process. We show that this method achieves state-of-the-art accuracies on multiple benchmark datasets while also reducing training times compared to existing SSL methods. Code is available at https://github.com/walline/doublematch.
翻訳日:2022-05-12 21:17:10 公開日:2022-05-11
# (参考訳) NTIRE 2022 効率的超解法への挑戦:方法と結果

NTIRE 2022 Challenge on Efficient Super-Resolution: Methods and Results ( http://arxiv.org/abs/2205.05675v1 )

ライセンス: CC BY 4.0
Yawei Li and Kai Zhang and Radu Timofte and Luc Van Gool and Fangyuan Kong and Mingxi Li and Songwei Liu and Zongcai Du and Ding Liu and Chenhui Zhou and Jingyi Chen and Qingrui Han and Zheyuan Li and Yingqi Liu and Xiangyu Chen and Haoming Cai and Yu Qiao and Chao Dong and Long Sun and Jinshan Pan and Yi Zhu and Zhikai Zong and Xiaoxiao Liu and Zheng Hui and Tao Yang and Peiran Ren and Xuansong Xie and Xian-Sheng Hua and Yanbo Wang and Xiaozhong Ji and Chuming Lin and Donghao Luo and Ying Tai and Chengjie Wang and Zhizhong Zhang and Yuan Xie and Shen Cheng and Ziwei Luo and Lei Yu and Zhihong Wen and Qi Wu1 and Youwei Li and Haoqiang Fan and Jian Sun and Shuaicheng Liu and Yuanfei Huang and Meiguang Jin and Hua Huang and Jing Liu and Xinjian Zhang and Yan Wang and Lingshun Long and Gen Li and Yuanfan Zhang and Zuowei Cao and Lei Sun and Panaetov Alexander and Yucong Wang and Minjie Cai and Li Wang and Lu Tian and Zheyuan Wang and Hongbing Ma and Jie Liu and Chao Chen and Yidong Cai and Jie Tang and Gangshan Wu and Weiran Wang and Shirui Huang and Honglei Lu and Huan Liu and Keyan Wang and Jun Chen and Shi Chen and Yuchun Miao and Zimo Huang and Lefei Zhang and Mustafa Ayazo\u{g}lu and Wei Xiong and Chengyi Xiong and Fei Wang and Hao Li and Ruimian Wen and Zhijing Yang and Wenbin Zou and Weixin Zheng and Tian Ye and Yuncheng Zhang and Xiangzhen Kong and Aditya Arora and Syed Waqas Zamir and Salman Khan and Munawar Hayat and Fahad Shahbaz Khan and Dandan Gaoand Dengwen Zhouand Qian Ning and Jingzhu Tang and Han Huang and Yufei Wang and Zhangheng Peng and Haobo Li and Wenxue Guan and Shenghua Gong and Xin Li and Jun Liu and Wanjun Wang and Dengwen Zhou and Kun Zeng and Hanjiang Lin and Xinyu Chen and Jinsheng Fang(参考訳) 本稿では,NTIRE 2022の高効率単一画像超解像問題について,提案手法と結果に着目して検討する。 課題のタスクは、低解像度画像と対応する高解像度画像のペアに基づいて、倍率$\times$4の入力画像を超解くことだった。 DIV2K検証セット上で少なくとも29.00dBのPSNRを維持しつつ、実行時、パラメータ、FLOP、アクティベーション、メモリ消費といったいくつかの指標に従って測定された効率の向上を達成するシングルイメージ超解像ネットワークを設計することを目的としていた。 IMDNは効率測定のベースラインとして設定されている。 課題はメイントラック(ランタイム)、サブトラック1(モデル複雑さ)、サブトラック2(オーバーパフォーマンス)の3トラックであった。 メイントラックでは,提案書の実際の実行時性能を評価した。 チームのランクは、検証セットとテストセット上の平均ランタイムの絶対値によって直接決定されました。 サブトラック1ではパラメータ数とFLOPが考慮された。 そして、この2つの指標の個々のランキングを要約して、このトラックの最終的なランキングを決定する。 サブトラック2では,実行時,パラメータカウント,FLOP,アクティベーション,メモリ消費といった5つの指標について検討した。 サブトラックと同様に、5つの指標のランキングがまとめられ、最終ランキングが決定される。 このチャレンジには303人の登録参加者が参加し、43チームが有効な応募を行った。 彼らは効率の良い単一画像の超解像で最先端の計測を行う。

This paper reviews the NTIRE 2022 challenge on efficient single image super-resolution with focus on the proposed solutions and results. The task of the challenge was to super-resolve an input image with a magnification factor of $\times$4 based on pairs of low and corresponding high resolution images. The aim was to design a network for single image super-resolution that achieved improvement of efficiency measured according to several metrics including runtime, parameters, FLOPs, activations, and memory consumption while at least maintaining the PSNR of 29.00dB on DIV2K validation set. IMDN is set as the baseline for efficiency measurement. The challenge had 3 tracks including the main track (runtime), sub-track one (model complexity), and sub-track two (overall performance). In the main track, the practical runtime performance of the submissions was evaluated. The rank of the teams were determined directly by the absolute value of the average runtime on the validation set and test set. In sub-track one, the number of parameters and FLOPs were considered. And the individual rankings of the two metrics were summed up to determine a final ranking in this track. In sub-track two, all of the five metrics mentioned in the description of the challenge including runtime, parameter count, FLOPs, activations, and memory consumption were considered. Similar to sub-track one, the rankings of five metrics were summed up to determine a final ranking. The challenge had 303 registered participants, and 43 teams made valid submissions. They gauge the state-of-the-art in efficient single image super-resolution.
翻訳日:2022-05-12 20:59:26 公開日:2022-05-11
# RustSEG -- ディープラーニングによる腐食の自動セグメンテーション

RustSEG -- Automated segmentation of corrosion using deep learning ( http://arxiv.org/abs/2205.05426v1 )

ライセンス: Link先を確認
B. Burton, W.T. Nash, N. Birbilis(参考訳) 腐食のインフラの検査は、資格のある技術者や検査官が手作業で行う作業である。 この検査作業は手間がかかり、遅く、しばしば複雑なアクセスを必要とする。 近年,深層学習に基づくアルゴリズムが腐食の自動検出における可能性と性能を明らかにしている。 しかし, 自動腐食検出のための画像のセグメンテーションに関する研究は, モデルトレーニングに必要な画素ごとのラベル付きデータセットが不足しているため, これまでに限られている。 ここでは,ピクセル単位のラベル付きデータセットを必要とせずに,腐食検出のための画像を正確にセグメント化することが可能な,新しいディープラーニング手法(rustseg)を提案する。 RustSEG法は、まずディープラーニング技術を用いて、画像中に腐食が存在するかどうか(すなわち分類タスク)を判定し、次に、腐食が存在する場合、元の画像のピクセルがその分類決定に寄与するかを調べる。 最後に、その予測をピクセルレベルのセグメンテーションマスクに洗練することができる。 理想的な場合、画像内の腐食の正確なマスクを生成でき、ピクセル単位のトレーニングデータ無しで腐食の自動セグメント化が可能であり、インフラ検査の大幅なハードルに対処できる。

The inspection of infrastructure for corrosion remains a task that is typically performed manually by qualified engineers or inspectors. This task of inspection is laborious, slow, and often requires complex access. Recently, deep learning based algorithms have revealed promise and performance in the automatic detection of corrosion. However, to date, research regarding the segmentation of images for automated corrosion detection has been limited, due to the lack of availability of per-pixel labelled data sets which are required for model training. Herein, a novel deep learning approach (termed RustSEG) is presented, that can accurately segment images for automated corrosion detection, without the requirement of per-pixel labelled data sets for training. The RustSEG method will first, using deep learning techniques, determine if corrosion is present in an image (i.e. a classification task), and then if corrosion is present, the model will examine what pixels in the original image contributed to that classification decision. Finally, the method can refine its predictions into a pixel-level segmentation mask. In ideal cases, the method is able to generate precise masks of corrosion in images, demonstrating that the automated segmentation of corrosion without per-pixel training data is possible, addressing a significant hurdle in automated infrastructure inspection.
翻訳日:2022-05-12 20:57:54 公開日:2022-05-11
# NMR:自律運転のためのニューラルマニフォールド表現

NMR: Neural Manifold Representation for Autonomous Driving ( http://arxiv.org/abs/2205.05551v1 )

ライセンス: Link先を確認
Unnikrishnan R. Nair, Sarthak Sharma, Midhun S. Menon, Srikanth Vidapanakal(参考訳) 自律運転は、シーンの意味論の時空間的性質についての効率的な推論を必要とする。 最近のアプローチは、エンドツーエンドのトレーニング可能なシステムにおいて、知覚、予測、計画を含む自動運転スタックの従来のモジュラーアーキテクチャを融合させることに成功した。 このようなシステムは、解釈可能な中間トレーサブルな射影表現を持つ共有潜在空間の埋め込みを要求する。 このようなデプロイに成功した表現のひとつが、Ego-frameにおけるシーンのBird's-Eye View(BEV)表現である。 しかしながら、非歪なBEVの基本的な仮定は、エゴ車周りの世界の局所的共計画性である。 この仮定は非常に制限的であり、道路は概して勾配を持っている。 結果として生じる歪みは、経路計画の非効率性と誤りをもたらす。 この制限を克服するために、我々は自律運転タスクの表現であるニューラルマニフォールド表現(NMR)を提案し、これは、エゴ車を中心にした有限地平線上の多様体上の意味論を推論し、道点を予測することを学習する。 周辺単眼像の潜伏高次元埋め込みと部分的エゴ・ベシクル状態に適用した反復的注意機構を用いてこれを行う。 この表現は、表面幾何学の認識と一致した動きと行動計画を生成するのに役立つ。 本稿では,BEV占有格子のエッジ適応被覆損失とそれに伴う誘導流場に基づくサンプリングアルゴリズムを提案し,計算オーバーヘッドを最小限に抑えながら表面多様体を生成する。 CARLAとSynTHIA-SFに対するアプローチの有効性を検証することを目的としている。

Autonomous driving requires efficient reasoning about the Spatio-temporal nature of the semantics of the scene. Recent approaches have successfully amalgamated the traditional modular architecture of an autonomous driving stack comprising perception, prediction, and planning in an end-to-end trainable system. Such a system calls for a shared latent space embedding with interpretable intermediate trainable projected representation. One such successfully deployed representation is the Bird's-Eye View(BEV) representation of the scene in ego-frame. However, a fundamental assumption for an undistorted BEV is the local coplanarity of the world around the ego-vehicle. This assumption is highly restrictive, as roads, in general, do have gradients. The resulting distortions make path planning inefficient and incorrect. To overcome this limitation, we propose Neural Manifold Representation (NMR), a representation for the task of autonomous driving that learns to infer semantics and predict way-points on a manifold over a finite horizon, centered on the ego-vehicle. We do this using an iterative attention mechanism applied on a latent high dimensional embedding of surround monocular images and partial ego-vehicle state. This representation helps generate motion and behavior plans consistent with and cognizant of the surface geometry. We propose a sampling algorithm based on edge-adaptive coverage loss of BEV occupancy grid and associated guidance flow field to generate the surface manifold while incurring minimal computational overhead. We aim to test the efficacy of our approach on CARLA and SYNTHIA-SF.
翻訳日:2022-05-12 20:57:33 公開日:2022-05-11
# ブラインド音源分離のためのガウススケール混合に基づく一般化高速マルチチャネル非負行列分解

Generalized Fast Multichannel Nonnegative Matrix Factorization Based on Gaussian Scale Mixtures for Blind Source Separation ( http://arxiv.org/abs/2205.05330v1 )

ライセンス: Link先を確認
Mathieu Fontaine (LTCI, RIKEN AIP), Kouhei Sekiguchi (RIKEN AIP), Aditya Nugraha (RIKEN AIP), Yoshiaki Bando (AIST, RIKEN AIP), Kazuyoshi Yoshii (RIKEN AIP)(参考訳) 本稿では,高速多チャンネル非負行列分解(fast multichannel non negative matrix factorization, fastmnmf)と呼ばれる,最先端の多彩なブラインド音源分離法の拡張について,統一的な視点から述べる。 そのような拡張を導出する一般的な方法は、確率関数の多変量複素ガウス分布をその重尾一般化(例えば、多変量複素ガウス分布 t とレプトルティック一般化ガウス分布)に置き換え、対応するパラメータ最適化アルゴリズムをテーラーメイクすることである。 ガウススケール混合(gsm)と呼ばれるより広いクラス、すなわち、分散が正のランダムスカラー(インパルス変数)によって摂動されるガウス分布の混合物を用いて、gsm-fastmnmfを提案し、インパルス変数の確率密度関数が解析式を持たない場合でも、期待最大化アルゴリズムを開発する。 既存の重み付きfastmnmf拡張はgsm-fastmnmfのインスタンスであり、正規逆ガウス分布、学生 t およびガウス分布を含む一般化双曲型分布に基づく新しいインスタンスを特殊ケースとして導出する。 実験の結果, 正規逆ガウスのFastMNMFは, 音声強調と分離において, 最先端のFastMNMF拡張およびIRRMAモデルよりも高い性能を示した。

This paper describes heavy-tailed extensions of a state-of-the-art versatile blind source separation method called fast multichannel nonnegative matrix factorization (FastMNMF) from a unified point of view. The common way of deriving such an extension is to replace the multivariate complex Gaussian distribution in the likelihood function with its heavy-tailed generalization, e.g., the multivariate complex Student's t and leptokurtic generalized Gaussian distributions, and tailor-make the corresponding parameter optimization algorithm. Using a wider class of heavy-tailed distributions called a Gaussian scale mixture (GSM), i.e., a mixture of Gaussian distributions whose variances are perturbed by positive random scalars called impulse variables, we propose GSM-FastMNMF and develop an expectationmaximization algorithm that works even when the probability density function of the impulse variables have no analytical expressions. We show that existing heavy-tailed FastMNMF extensions are instances of GSM-FastMNMF and derive a new instance based on the generalized hyperbolic distribution that include the normal-inverse Gaussian, Student's t, and Gaussian distributions as the special cases. Our experiments show that the normalinverse Gaussian FastMNMF outperforms the state-of-the-art FastMNMF extensions and ILRMA model in speech enhancement and separation in terms of the signal-to-distortion ratio.
翻訳日:2022-05-12 20:54:32 公開日:2022-05-11
# (参考訳) 縦長ユーザテキストから変化のモーメントを識別する

Identifying Moments of Change from Longitudinal User Text ( http://arxiv.org/abs/2205.05593v1 )

ライセンス: CC BY 4.0
Adam Tsakalidis, Federico Nanni, Anthony Hills, Jenny Chim, Jiayu Song, Maria Liakata(参考訳) オンラインプラットフォームで共有されているコンテンツを通じて観察される個人の行動やムードの変化の特定がますます重要になっている。 この話題に関する最新の研究は、どちらにも焦点を当てている。 (a)リスクのある個人、又は複数の役職が与えられた特定の精神状態のある個人を識別すること (b)ポストレベルで同等のラベルを提供する。 そのような作業の欠点は、強い時間的要素の欠如と、個人の軌道に沿って縦断的な評価を行えず、タイムリーな介入を可能にすることである。 ここでは、オンラインで共有されたコンテンツに基づいて個人の変化の瞬間を特定する新しいタスクを定義する。 私たちが考える変化は、突然の気分の変化(スイッチ)または段階的な気分の進行(エスカレーション)です。 変更の瞬間をキャプチャするための詳細なガイドラインと、手動で注釈付きユーザタイムライン(18.7Kの投稿)500のコーパスを作成しました。 我々は、関連するタスクからインスピレーションを得た様々なベースラインモデルを開発し、文脈を考慮した逐次モデリングによって最高のパフォーマンスが得られることを示す。 また,時間窓のレアイベントをキャプチャする新たなメトリクスも導入する。

Identifying changes in individuals' behaviour and mood, as observed via content shared on online platforms, is increasingly gaining importance. Most research to-date on this topic focuses on either: (a) identifying individuals at risk or with a certain mental health condition given a batch of posts or (b) providing equivalent labels at the post level. A disadvantage of such work is the lack of a strong temporal component and the inability to make longitudinal assessments following an individual's trajectory and allowing timely interventions. Here we define a new task, that of identifying moments of change in individuals on the basis of their shared content online. The changes we consider are sudden shifts in mood (switches) or gradual mood progression (escalations). We have created detailed guidelines for capturing moments of change and a corpus of 500 manually annotated user timelines (18.7K posts). We have developed a variety of baseline models drawing inspiration from related tasks and show that the best performance is obtained through context aware sequential modelling. We also introduce new metrics for capturing rare events in temporal windows.
翻訳日:2022-05-12 20:51:09 公開日:2022-05-11
# (参考訳) テキスト分類のための量子自己注意ニューラルネットワーク

Quantum Self-Attention Neural Networks for Text Classification ( http://arxiv.org/abs/2205.05625v1 )

ライセンス: CC BY 4.0
Guangxi Li, Xuanqiang Zhao, Xin Wang(参考訳) 量子コンピューティングの新たな方向性は、自然言語処理(NLP)を含むさまざまな人工知能分野における有意義な量子応用を確立することである。 構文解析に基づくいくつかの取り組みは量子NLP(QNLP)の研究の扉を開いたが、過剰な構文前処理や構文依存ネットワークアーキテクチャのような制限は、より大規模で現実的なデータセットでは実行不可能である。 本稿では,これらの制約を補う量子自己認識ニューラルネットワーク(QSANN)と呼ばれる,新しいシンプルなネットワークアーキテクチャを提案する。 具体的には,量子ニューラルネットワークに自己アテンション機構を導入し,ガウス射影量子自己アテンションを自己アテンションの知覚可能な量子バージョンとして利用する。 その結果、QSANNは大規模データセット上で有効でスケーラブルであり、短期量子デバイス上で実装可能な望ましい特性を有する。 特に、我々のQSANNは、構文解析に基づくQNLPモデルと、公開データセット上のテキスト分類タスクの数値実験において、単純な古典的自己アテンションニューラルネットワークより優れている。 さらに,本手法は低レベル量子雑音に対するロバスト性を示す。

An emerging direction of quantum computing is to establish meaningful quantum applications in various fields of artificial intelligence, including natural language processing (NLP). Although some efforts based on syntactic analysis have opened the door to research in Quantum NLP (QNLP), limitations such as heavy syntactic preprocessing and syntax-dependent network architecture make them impracticable on larger and real-world data sets. In this paper, we propose a new simple network architecture, called the quantum self-attention neural network (QSANN), which can make up for these limitations. Specifically, we introduce the self-attention mechanism into quantum neural networks and then utilize a Gaussian projected quantum self-attention serving as a sensible quantum version of self-attention. As a result, QSANN is effective and scalable on larger data sets and has the desirable property of being implementable on near-term quantum devices. In particular, our QSANN outperforms the best existing QNLP model based on syntactic analysis as well as a simple classical self-attention neural network in numerical experiments of text classification tasks on public data sets. We further show that our method exhibits robustness to low-level quantum noises.
翻訳日:2022-05-12 20:26:46 公開日:2022-05-11
# グラフ上での機械学習の公正性に関する調査

A Survey on Fairness for Machine Learning on Graphs ( http://arxiv.org/abs/2205.05396v1 )

ライセンス: Link先を確認
Manvi Choudhary and Charlotte Laclau and Christine Largeron(参考訳) 今日、グラフによってモデル化された複雑な現象の分析は、決定が社会的に強い影響をもたらす多くの現実世界のアプリケーションドメインにおいて重要な役割を果たす。 しかし、多くの研究や論文が、機械学習モデルが個人間の異なる扱いと不公平な結果をもたらす可能性があることを最近明らかにしている。 すなわち、(1)グラフデータは非iidであり、この仮定は、公正な機械学習における多くの既存の研究を無効にする可能性がある、(2)関係データと異なる種類の公平性を評価するのに適切なメトリック定義、(3)モデルの正確性と公平性の間の良好なトレードオフを見つけるのに困難となるアルゴリズム的挑戦である。 この調査は、リレーショナルデータに対する公平性に特化した最初の調査である。 グラフマイニングの公平性に関する最新技術の包括的なレビューと,オープンな課題と今後のトレンドの特定を目的とする。 特に,いくつかのアプリケーションドメインと関連するグラフマイニングタスクを,後続のエッジ予測とノード分類に焦点をあてて提示することから始める。 グラフマイニングプロセスのさまざまなレベルで潜在的なバイアスを評価するために提案されたさまざまな指標を思い出し、グラフに対する公正な機械学習の領域における最近の貢献を包括的に概観し、前処理、内処理、後処理モデルに分類する。 また,既存のグラフデータ,合成および実世界のベンチマークについても述べる。 最後に,グラフ上でのアルゴリズム的公正性の研究を推し進める5つの可能性を示す。

Nowadays, the analysis of complex phenomena modeled by graphs plays a crucial role in many real-world application domains where decisions can have a strong societal impact. However, numerous studies and papers have recently revealed that machine learning models could lead to potential disparate treatment between individuals and unfair outcomes. In that context, algorithmic contributions for graph mining are not spared by the problem of fairness and present some specific challenges related to the intrinsic nature of graphs: (1) graph data is non-IID, and this assumption may invalidate many existing studies in fair machine learning, (2) suited metric definitions to assess the different types of fairness with relational data and (3) algorithmic challenge on the difficulty of finding a good trade-off between model accuracy and fairness. This survey is the first one dedicated to fairness for relational data. It aims to present a comprehensive review of state-of-the-art techniques in fairness on graph mining and identify the open challenges and future trends. In particular, we start by presenting several sensible application domains and the associated graph mining tasks with a focus on edge prediction and node classification in the sequel. We also recall the different metrics proposed to evaluate potential bias at different levels of the graph mining process; then we provide a comprehensive overview of recent contributions in the domain of fair machine learning for graphs, that we classify into pre-processing, in-processing and post-processing models. We also propose to describe existing graph data, synthetic and real-world benchmarks. Finally, we present in detail five potential promising directions to advance research in studying algorithmic fairness on graphs.
翻訳日:2022-05-12 20:05:44 公開日:2022-05-11
# 訓練データ制限のある生成型逆ネットワークを用いた非定常確率場の生成

Generation of non-stationary stochastic fields using Generative Adversarial Networks with limited training data ( http://arxiv.org/abs/2205.05469v1 )

ライセンス: Link先を確認
Alhasan Abdellatif, Ahmed H. Elsheikh, Daniel Busby, Philippe Berthet(参考訳) 観測データに基づく地質相の生成の文脈では、すべての可能な条件に対応するサンプルはトレーニングセットでは一般に利用できないため、これらの実現は訓練された生成モデルの一般化能力に大きく依存する。 この問題は非定常場に適用するとより複雑になる。 本研究では,非定常的な空間モードを持つ地質学的チャネル化パターンのデータセットに対してGAN(Generative Adversarial Networks)モデルをトレーニングする際の問題点を考察し,与えられたトレーニングセットにない新しい空間モードにおける一般化能力を改善するための訓練と自己条件設定を検討する。 本手法は,空間条件(非定常写像)と実現条件の相関関係を,追加の損失項を使わずに効果的に学習し,実現段階においてコストのかかる最適化問題を解くことを可能にした。 実データと人工データに基づいてトレーニングされた我々のモデルは、ターゲットマップと強い相関を持つトレーニングサンプルを超えて、地質学的に賞賛できる実現を生成できた。

In the context of generating geological facies conditioned on observed data, samples corresponding to all possible conditions are not generally available in the training set and hence the generation of these realizations depends primary on the generalization capability of the trained generative model. The problem becomes more complex when applied on non-stationary fields. In this work, we investigate the problem of training Generative Adversarial Networks (GANs) models against a dataset of geological channelized patterns that has a few non-stationary spatial modes and examine the training and self-conditioning settings that improve the generalization capability at new spatial modes that were never seen in the given training set. The developed training method allowed for effective learning of the correlation between the spatial conditions (i.e. non-stationary maps) and the realizations implicitly without using additional loss terms or solving a costly optimization problem at the realization generation phase. Our models, trained on real and artificial datasets were able to generate geologically-plausible realizations beyond the training samples with a strong correlation with the target maps.
翻訳日:2022-05-12 20:05:17 公開日:2022-05-11
# 模倣による遅延強化学習

Delayed Reinforcement Learning by Imitation ( http://arxiv.org/abs/2205.05569v1 )

ライセンス: Link先を確認
Pierre Liotet, Davide Maran, Lorenzo Bisi, Marcello Restelli(参考訳) エージェントの観察や相互作用が遅れると、古典的な強化学習ツールは通常失敗する。 本稿では,この問題に対する単純かつ新しい効率的な解法を提案する。 遅延のない環境では、効率的なポリシーが知られ、容易に学習できると仮定するが、そのタスクは実践上の遅延に悩まされ、それらを考慮に入れたいと考える。 本稿では、遅延しないデモから遅延環境での動作方法を学ぶための模倣学習法に基づく新しいアルゴリズム、Delayed Imitation with Dataset Aggregation (DIDA)を提案する。 本稿では,DIDAの実践設計の指針となるアプローチに関する理論的分析を行う。 これらの結果は,遅延タスクと非遅延タスク間の性能を平滑性条件下で制限することにより,遅延強化学習文献にも一般的に興味を寄せている。 ロボットの移動,古典的制御,取引など,様々なタスクにおいて,DIDAが顕著なサンプル効率で高い性能が得られることを示す。

When the agent's observations or interactions are delayed, classic reinforcement learning tools usually fail. In this paper, we propose a simple yet new and efficient solution to this problem. We assume that, in the undelayed environment, an efficient policy is known or can be easily learned, but the task may suffer from delays in practice and we thus want to take them into account. We present a novel algorithm, Delayed Imitation with Dataset Aggregation (DIDA), which builds upon imitation learning methods to learn how to act in a delayed environment from undelayed demonstrations. We provide a theoretical analysis of the approach that will guide the practical design of DIDA. These results are also of general interest in the delayed reinforcement learning literature by providing bounds on the performance between delayed and undelayed tasks, under smoothness conditions. We show empirically that DIDA obtains high performances with a remarkable sample efficiency on a variety of tasks, including robotic locomotion, classic control, and trading.
翻訳日:2022-05-12 20:04:58 公開日:2022-05-11
# 深層アーキテクチャの接続性が重要 - きめ細かな分析

Deep Architecture Connectivity Matters for Its Convergence: A Fine-Grained Analysis ( http://arxiv.org/abs/2205.05662v1 )

ライセンス: Link先を確認
Wuyang Chen, Wei Huang, Xinyu Gong, Boris Hanin, Zhangyang Wang(参考訳) 人間またはオートmlアルゴリズムによって設計されたadvanced deep neural networks(dnn)はますます複雑になっている。 多様な操作は複雑な接続パターン、例えば様々な種類のスキップ接続によって接続される。 これらのトポロジカルな組成は実験的に有効であり、損失景観を滑らかにし、一般に勾配流を促進するために観察される。 しかしながら、dnnのキャパシティやトレーサビリティへの影響に関する原則的な理解を導出し、ある特定の接続パターンが他よりも優れている理由や側面を理解することは、いまだに不可能である。 本研究では,DNNの粒度勾配降下訓練における接続パターンがDNNの収束に与える影響を理論的に評価する。 広帯域ネットワークのニューラルネットワークガウス過程(NNGP)を解析することにより、NNGPカーネルのスペクトルが特定の接続パターンを介してどのように伝播し、それが収束率の境界にどのように影響するかを記述することができる。 この結果の実際的な含意として,"予期せぬ"接続パターンを単純に濾過することで,評価するモデル数を削減し,オーバーヘッドを伴わずに大規模ニューラルネットワークの探索を著しく高速化できることを示す。 コードはhttps://github.com/chenwydj/architecture_convergenceでリリースされる。

Advanced deep neural networks (DNNs), designed by either human or AutoML algorithms, are growing increasingly complex. Diverse operations are connected by complicated connectivity patterns, e.g., various types of skip connections. Those topological compositions are empirically effective and observed to smooth the loss landscape and facilitate the gradient flow in general. However, it remains elusive to derive any principled understanding of their effects on the DNN capacity or trainability, and to understand why or in which aspect one specific connectivity pattern is better than another. In this work, we theoretically characterize the impact of connectivity patterns on the convergence of DNNs under gradient descent training in fine granularity. By analyzing a wide network's Neural Network Gaussian Process (NNGP), we are able to depict how the spectrum of an NNGP kernel propagates through a particular connectivity pattern, and how that affects the bound of convergence rates. As one practical implication of our results, we show that by a simple filtration on "unpromising" connectivity patterns, we can trim down the number of models to evaluate, and significantly accelerate the large-scale neural architecture search without any overhead. Codes will be released at https://github.com/chenwydj/architecture_convergence.
翻訳日:2022-05-12 20:04:43 公開日:2022-05-11
# 外部バリデード治療選択

Externally Valid Treatment Choice ( http://arxiv.org/abs/2205.05561v1 )

ライセンス: Link先を確認
Christopher Adjaho and Timothy Christensen(参考訳) 本研究は, 対象個体群における福祉保障が, 実験個体群と類似する, または, 異なる可能性があるという観点から, 外部的に有効な学習治療(あるいは政策)ルールの問題を考える。 実験と対象個体間の潜在的な結果の分布と共変量の変化を許容する。 本論文の主な貢献は2つある。 まず,実験人口における社会福祉を最大化する政策が,潜在的成果の分配(共変量ではない)が変化した場合の社会福祉に最適である,というフォーマルな感覚を提供する。 したがって、実証的福祉の最大化など、実験的な集団において良好な後悔の保証を有する政策学習方法は、潜在的な成果における一連の変化に関して外部的に有効である。 第2に,潜在成果と共変量の同時分布の変化にロバストな政策学習手法を開発した。 本手法は実験データや観測データで用いることができる。

We consider the problem of learning treatment (or policy) rules that are externally valid in the sense that they have welfare guarantees in target populations that are similar to, but possibly different from, the experimental population. We allow for shifts in both the distribution of potential outcomes and covariates between the experimental and target populations. This paper makes two main contributions. First, we provide a formal sense in which policies that maximize social welfare in the experimental population remain optimal for the "worst-case" social welfare when the distribution of potential outcomes (but not covariates) shifts. Hence, policy learning methods that have good regret guarantees in the experimental population, such as empirical welfare maximization, are externally valid with respect to a class of shifts in potential outcomes. Second, we develop methods for policy learning that are robust to shifts in the joint distribution of potential outcomes and covariates. Our methods may be used with experimental or observational data.
翻訳日:2022-05-12 20:01:49 公開日:2022-05-11
# 並列数値法の正確性, 収束性, 再現性に対する効率的な要約アルゴリズム

An Efficient Summation Algorithm for the Accuracy, Convergence and Reproducibility of Parallel Numerical Methods ( http://arxiv.org/abs/2205.05339v1 )

ライセンス: Link先を確認
Farah Benmouhoub (UPVD), Pierre-Lo\"ic Garoche (ENAC), Matthieu Martel (UPVD)(参考訳) 現在、並列コンピューティングは、工学と科学の両方において、いくつかのアプリケーション分野においてユビキタスである。 計算はIEEE754標準で指定された浮動小数点演算に依存する。 この文脈では、どこでも使われる基本的な計算ブロックは、数列の和である。 この和は浮動小数点演算において多くの数値誤差を負う。 この問題を軽減するために,浮動小数点数の列を要約する新しい並列アルゴリズムを導入した。 このアルゴリズムはプロセッサの数で容易にスケールアップでき、最初に同じ指数の数を追加する。 本稿では, その効率性について, 精度, 収束性, 再現性など, 様々な特性について広範な分析を行った。 提案手法の有用性を示すために,シンプソン法,ヤコビ法,lu因子分解法,反復パワー法などの代表的な数値手法を選択した。

Nowadays, parallel computing is ubiquitous in several application fields, both in engineering and science. The computations rely on the floating-point arithmetic specified by the IEEE754 Standard. In this context, an elementary brick of computation, used everywhere, is the sum of a sequence of numbers. This sum is subject to many numerical errors in floating-point arithmetic. To alleviate this issue, we have introduced a new parallel algorithm for summing a sequence of floating-point numbers. This algorithm which scales up easily with the number of processors, adds numbers of the same exponents first. In this article, our main contribution is an extensive analysis of its efficiency with respect to several properties: accuracy, convergence and reproducibility. In order to show the usefulness of our algorithm, we have chosen a set of representative numerical methods which are Simpson, Jacobi, LU factorization and the Iterated power method.
翻訳日:2022-05-12 20:01:11 公開日:2022-05-11
# 終末対話行動分類のためのニューラルプロソディエンコーダ

A neural prosody encoder for end-ro-end dialogue act classification ( http://arxiv.org/abs/2205.05590v1 )

ライセンス: Link先を確認
Kai Wei, Dillon Knox, Martin Radfar, Thanh Tran, Markus Muller, Grant P. Strimel, Nathan Susanj, Athanasios Mouchtaris, Maurizio Omologo(参考訳) 対話行動分類(DAC)は,対話システムにおける言語理解にとって重要な課題である。 エネルギーやピッチなどの韻律的特徴はDACに有用であることが示されている。 その重要性にもかかわらず、音声信号から直接対話を推論するエンドツーエンド(E2E)DACモデルに韻律的特徴を統合するためのニューラルアプローチについてはほとんど研究されていない。 本研究では,発話中の異なるレベルに共起する韻律現象を特徴付ける必要性を考慮したE2Eニューラルアーキテクチャを提案する。 このアーキテクチャの新たな部分は、韻律的特徴の重要性を評価し、E2E DACに必要なコア情報を選択的に保持する学習可能なゲーティング機構である。 提案モデルでは,3つのベンチマークデータセットに対して,DACの精度を1.07%向上させる。

Dialogue act classification (DAC) is a critical task for spoken language understanding in dialogue systems. Prosodic features such as energy and pitch have been shown to be useful for DAC. Despite their importance, little research has explored neural approaches to integrate prosodic features into end-to-end (E2E) DAC models which infer dialogue acts directly from audio signals. In this work, we propose an E2E neural architecture that takes into account the need for characterizing prosodic phenomena co-occurring at different levels inside an utterance. A novel part of this architecture is a learnable gating mechanism that assesses the importance of prosodic features and selectively retains core information necessary for E2E DAC. Our proposed model improves DAC accuracy by 1.07% absolute across three publicly available benchmark datasets.
翻訳日:2022-05-12 19:59:23 公開日:2022-05-11
# 距離保存品質と線形割当ソートを用いたグリッドレイアウトの評価と生成の改善

Improved Evaluation and Generation of Grid Layouts using Distance Preservation Quality and Linear Assignment Sorting ( http://arxiv.org/abs/2205.04255v2 )

ライセンス: Link先を確認
Kai Uwe Barthel, Nico Hezel, Klaus Jung and Konstantin Schall(参考訳) 類似性によってソートされた画像は、より多くの画像を同時に見ることができ、ストックフォトエージェンシーやeコマースアプリケーションにとって非常に有用である。 視覚的に並べ替えられたグリッドレイアウトは、グリッドに近接する画像が、その類似性に可能な限り近いように配置しようとする。 このようなアレンジメントを評価するための様々な指標が存在するが、人間の知覚品質と測定値の相関に関する実験的な証拠は少ない。 本稿では,アレンジメントの品質評価のための新しい指標として,距離保存品質(dpq)を提案する。 広汎なユーザテストでは,DPQと画像検索タスクの品質と性能の相関が,他の指標と比較して強いことがわかった。 さらに,FLAS(Fast Linear Assignment Sorting)を,視覚的なグリッドレイアウト作成のための新しいアルゴリズムとして導入する。 FLASは、実行時間と計算資源を改善しながら、非常に優れたソート品質を実現する。

Images sorted by similarity enables more images to be viewed simultaneously, and can be very useful for stock photo agencies or e-commerce applications. Visually sorted grid layouts attempt to arrange images so that their proximity on the grid corresponds as closely as possible to their similarity. Various metrics exist for evaluating such arrangements, but there is low experimental evidence on correlation between human perceived quality and metric value. We propose Distance Preservation Quality (DPQ) as a new metric to evaluate the quality of an arrangement. Extensive user testing revealed stronger correlation of DPQ with user-perceived quality and performance in image retrieval tasks compared to other metrics. In addition, we introduce Fast Linear Assignment Sorting (FLAS) as a new algorithm for creating visually sorted grid layouts. FLAS achieves very good sorting qualities while improving run time and computational resources.
翻訳日:2022-05-12 19:59:11 公開日:2022-05-11
# (参考訳) ニューラルネットワーク圧縮のためのランダムチャネルプルーニングの再検討

Revisiting Random Channel Pruning for Neural Network Compression ( http://arxiv.org/abs/2205.05676v1 )

ライセンス: CC BY 4.0
Yawei Li, Kamil Adamczewski, Wen Li, Shuhang Gu, Radu Timofte, Luc Van Gool(参考訳) チャネル(または3Dフィルタ)プルーニングは、ニューラルネットワークの推論を加速する有効な方法である。 この現実的な問題を解決するアルゴリズムが急増しており、それぞれが何らかの方法で効果的であると主張されている。 しかし、アルゴリズムを直接比較するベンチマークは不足しており、主にアルゴリズムの複雑さと、特定のネットワーク構成やトレーニング手順のようなカスタム設定のためである。 チャネルプルーニングのさらなる発展には,公正なベンチマークが重要である。 一方、最近の研究では、プルーニングアルゴリズムによって発見されたチャネル構成は、事前訓練された重み付けと同じくらい重要であることが示されている。 これにより、チャネルプルーニングは新しい役割、すなわち最適なチャネル構成を探索する。 本稿では,ランダムな探索により,プルーンドモデルのチャネル構成を決定することを試みる。 提案手法は,異なる手法,すなわちランダムプルーニングと比較してどのように振る舞うかを比較する新しい方法を提供する。 この単純な戦略は他のチャネルプルーニング手法と比較して非常にうまく機能することを示す。 また,この条件下では,異なるチャネル重要度評価手法に驚くほど明確な勝者は存在せず,その研究成果を先進的なチャネル構成探索手法に傾けることができることを示した。

Channel (or 3D filter) pruning serves as an effective way to accelerate the inference of neural networks. There has been a flurry of algorithms that try to solve this practical problem, each being claimed effective in some ways. Yet, a benchmark to compare those algorithms directly is lacking, mainly due to the complexity of the algorithms and some custom settings such as the particular network configuration or training procedure. A fair benchmark is important for the further development of channel pruning. Meanwhile, recent investigations reveal that the channel configurations discovered by pruning algorithms are at least as important as the pre-trained weights. This gives channel pruning a new role, namely searching the optimal channel configuration. In this paper, we try to determine the channel configuration of the pruned models by random search. The proposed approach provides a new way to compare different methods, namely how well they behave compared with random pruning. We show that this simple strategy works quite well compared with other channel pruning methods. We also show that under this setting, there are surprisingly no clear winners among different channel importance evaluation methods, which then may tilt the research efforts into advanced channel configuration searching methods.
翻訳日:2022-05-12 19:56:29 公開日:2022-05-11
# DcnnGrasp:適応正規化学習による正確なGraspパターン認識を目指して

DcnnGrasp: Towards Accurate Grasp Pattern Recognition with Adaptive Regularizer Learning ( http://arxiv.org/abs/2205.05218v1 )

ライセンス: Link先を確認
Xiaoqin Zhang, Ziwei Huang, Jingjing Zheng, Shuo Wang, and Xianta Jiang(参考訳) パターン認識のタスクは、視覚情報に応じて対象物の適切な把握タイプを導出することを目的としている。 現在の最先端手法は、パターン認識に不可欠なオブジェクトのカテゴリ情報を無視している。 本稿では,物体分類と把握パターン認識の連成学習を実現するために,二分岐畳み込みニューラルネットワーク(DcnnGrasp)を提案する。 DcnnGraspは、パターン認識の有効性を向上させるために、オブジェクトカテゴリ分類を補助タスクとして利用する。 一方、適応正則化器を用いたジョイントクロスエントロピーと呼ばれる新たな損失関数は、後方を最大化し、モデル性能を大幅に向上させる。 さらに,新たな損失関数に基づいて,2つのタスクの協調学習を最大化するためのトレーニング戦略を提案する。 実験はrgb-d object dataset, hit-gprec dataset, amsterdam library of object images (aloi), columbia university image library (coil-100), meganepro dataset 1を含む5つの家庭用オブジェクトデータセットで実施された。 実験の結果,提案手法はいくつかの最先端手法を用いて,パターン認識における競合性能を実現することができた。 特に、rgb-dオブジェクトデータセットで新しいオブジェクトをテストする場合、この手法は世界的精度の点で、第2位を15%近く上回っていた。

The task of grasp pattern recognition aims to derive the applicable grasp types of an object according to the visual information. Current state-of-the-art methods ignore category information of objects which is crucial for grasp pattern recognition. This paper presents a novel dual-branch convolutional neural network (DcnnGrasp) to achieve joint learning of object category classification and grasp pattern recognition. DcnnGrasp takes object category classification as an auxiliary task to improve the effectiveness of grasp pattern recognition. Meanwhile, a new loss function called joint cross-entropy with an adaptive regularizer is derived through maximizing a posterior, which significantly improves the model performance. Besides, based on the new loss function, a training strategy is proposed to maximize the collaborative learning of the two tasks. The experiment was performed on five household objects datasets including the RGB-D Object dataset, Hit-GPRec dataset, Amsterdam library of object images (ALOI), Columbia University Image Library (COIL-100), and MeganePro dataset 1. The experimental results demonstrated that the proposed method can achieve competitive performance on grasp pattern recognition with several state-of-the-art methods. Specifically, our method even outperformed the second-best one by nearly 15% in terms of global accuracy for the case of testing a novel object on the RGB-D Object dataset.
翻訳日:2022-05-12 19:36:37 公開日:2022-05-11
# 時空間ハンドインハンド:周期計画型相互学習による時空間ビデオ超解法

Spatial-Temporal Space Hand-in-Hand: Spatial-Temporal Video Super-Resolution via Cycle-Projected Mutual Learning ( http://arxiv.org/abs/2205.05264v1 )

ライセンス: Link先を確認
Mengshun Hu and Kui Jiang and Liang Liao and Jing Xiao and Junjun Jiang and Zheng Wang(参考訳) 時空間ビデオ超解法(ST-VSR)は高解像度(HR)と高フレームレート(HFR)の超解像ビデオを生成することを目的としている。 直感的には、S-VSR(Spatial Video Super-Resolution)とT-VSR(T-VSR)の2つのサブタスクを直接組み合わせてST-VSRを完成させるが、相互関係は無視する。 具体的には 1)T-VSRからS-VSR:時間的相関は、より深い手がかりを持つ正確な空間的詳細表現に役立つ。 2) S-VSR から T-VSR へ : 空間情報が豊富で時間的予測の洗練に寄与する。 そこで本研究では,S-VSR と T-VSR の相互学習を通じて空間時間相関をフル活用する,ST-VSR のための一段階型Cycle-Projected Mutual Learning Network (CycMu-Net) を提案する。 具体的には、空間的特徴と時間的特徴が完全に融合して蒸留され、高品質な映像再構成を支援する反復的上下投影による相互情報の利用を提案する。 ベンチマークデータセットに関する広範な実験に加えて,提案するcycmu-netをs-vsrおよびt-vsrタスクと比較し,提案手法が最先端手法を大幅に上回っていることを示す。

Spatial-Temporal Video Super-Resolution (ST-VSR) aims to generate super-resolved videos with higher resolution(HR) and higher frame rate (HFR). Quite intuitively, pioneering two-stage based methods complete ST-VSR by directly combining two sub-tasks: Spatial Video Super-Resolution (S-VSR) and Temporal Video Super-Resolution(T-VSR) but ignore the reciprocal relations among them. Specifically, 1) T-VSR to S-VSR: temporal correlations help accurate spatial detail representation with more clues; 2) S-VSR to T-VSR: abundant spatial information contributes to the refinement of temporal prediction. To this end, we propose a one-stage based Cycle-projected Mutual learning network (CycMu-Net) for ST-VSR, which makes full use of spatial-temporal correlations via the mutual learning between S-VSR and T-VSR. Specifically, we propose to exploit the mutual information among them via iterative up-and-down projections, where the spatial and temporal features are fully fused and distilled, helping the high-quality video reconstruction. Besides extensive experiments on benchmark datasets, we also compare our proposed CycMu-Net with S-VSR and T-VSR tasks, demonstrating that our method significantly outperforms state-of-the-art methods.
翻訳日:2022-05-12 19:36:09 公開日:2022-05-11
# refine: クロスドメインマイニングのための微調整前の再ランダム化

ReFine: Re-randomization before Fine-tuning for Cross-domain Few-shot Learning ( http://arxiv.org/abs/2205.05282v1 )

ライセンス: Link先を確認
Jaehoon Oh, Sungnyun Kim, Namgyu Ho, Jin-Hwa Kim, Hwanjun Song, Se-Young Yun(参考訳) ソースドメインとターゲットドメインの極端に異なるターゲットサンプルがほとんどないクロスドメイン少ショットラーニング(CD-FSL)が最近注目されている。 CD-FSLでは、一般的に、一般的なラベル付きソースドメインデータセット上でニューラルネットワークを事前訓練し、ターゲットドメインデータに転送するトランスファーラーニングベースのアプローチが開発されている。 ラベル付きデータセットはターゲットデータに適切な初期パラメータを提供することができるが、ソースとターゲットのドメイン差はターゲットドメインの微調整を妨げる可能性がある。 本稿では,ターゲットデータに適応する前に,ソース領域に適合するパラメータを再分散する簡易かつ強力な手法を提案する。 再ランダム化は、ソース事前訓練されたモデルのソース固有のパラメータをリセットし、ターゲットドメインの微調整を容易にする。

Cross-domain few-shot learning (CD-FSL), where there are few target samples under extreme differences between source and target domains, has recently attracted huge attention. For CD-FSL, recent studies generally have developed transfer learning based approaches that pre-train a neural network on popular labeled source domain datasets and then transfer it to target domain data. Although the labeled datasets may provide suitable initial parameters for the target data, the domain difference between the source and target might hinder the fine-tuning on the target domain. This paper proposes a simple yet powerful method that re-randomizes the parameters fitted on the source domain before adapting to the target data. The re-randomization resets source-specific parameters of the source pre-trained model and thus facilitates fine-tuning on the target domain, improving few-shot performance.
翻訳日:2022-05-12 19:35:41 公開日:2022-05-11
# 境界トランスフォーマによる任意形状テキスト検出

Arbitrary Shape Text Detection via Boundary Transformer ( http://arxiv.org/abs/2205.05320v1 )

ライセンス: Link先を確認
Shi-Xue Zhang, Xiaobin Zhu, Chun Yang, Xu-Cheng Yin(参考訳) 任意形状テキスト検出は、様々なスケール、ランダムな回転、曲線形状などの複雑さと多様性のために難しい課題である。 本稿では,後処理をすることなくテキスト境界を正確にかつ直接特定できる境界変換器を備えた任意の形状のテキスト検出器を提案する。 本手法は主に境界変圧器モジュールと繰り返し最適化された境界変圧器モジュールからなる。 多層拡張畳み込みからなる境界提案モジュールは、境界トランスの最適化を導く一方、粗い境界提案を生成するために重要な事前情報(分類マップ、距離フィールド、方向フィールドを含む)を計算する。 境界トランスフォーマモジュールは、エンコーダ-デコーダ構造を採用しており、エンコーダは、単純な多層パーセプトロンネットワーク(mlp)である一方、残留接続のある多層トランスフォーマブロックで構成されている。 先行情報の指導の下,境界変圧器モジュールは,境界変形による粗境界提案を段階的に改良する。 さらに、エネルギー最小化制約と、各境界最適化ステップに対するエネルギー単調なエネルギー減少制約を導入する新しい境界エネルギー損失(BEL)を提案する。 公開および挑戦的なデータセットに関する大規模な実験は、我々の手法の最先端性能と有望な効率を実証している。

Arbitrary shape text detection is a challenging task due to its complexity and variety, e.g, various scales, random rotations, and curve shapes. In this paper, we propose an arbitrary shape text detector with a boundary transformer, which can accurately and directly locate text boundaries without any post-processing. Our method mainly consists of a boundary proposal module and an iteratively optimized boundary transformer module. The boundary proposal module consisting of multi-layer dilated convolutions will compute important prior information (including classification map, distance field, and direction field) for generating coarse boundary proposals meanwhile guiding the optimization of boundary transformer. The boundary transformer module adopts an encoder-decoder structure, in which the encoder is constructed by multi-layer transformer blocks with residual connection while the decoder is a simple multi-layer perceptron network (MLP). Under the guidance of prior information, the boundary transformer module will gradually refine the coarse boundary proposals via boundary deformation in an iterative manner. Furthermore, we propose a novel boundary energy loss (BEL) which introduces an energy minimization constraint and an energy monotonically decreasing constraint for every boundary optimization step. Extensive experiments on publicly available and challenging datasets demonstrate the state-of-the-art performance and promising efficiency of our method.
翻訳日:2022-05-12 19:35:24 公開日:2022-05-11
# 不確実性推定による船体軌道予測のための再帰的エンコーダ・デコーダネットワーク

Recurrent Encoder-Decoder Networks for Vessel Trajectory Prediction with Uncertainty Estimation ( http://arxiv.org/abs/2205.05404v1 )

ライセンス: Link先を確認
Samuele Capobianco, Nicola Forti, Leonardo M. Millefiori, Paolo Braca, and Peter Willett(参考訳) 船舶軌道予測のための最近の深層学習手法は, 過去の自動識別システム(AIS)データから複雑な海洋パターンを学習し, 数時間の予測地平線で将来の船舶位置のシーケンスを正確に予測することができる。 しかし、海上監視アプリケーションでは、精度の高い予測の不確実性を確実に定量化することが重要である。 本稿では,再帰的なエンコーダ・デコーダ・ニューラルネットの振舞いの予測だけでなく,ベイジアンモデルによる認識の不確かさの予測も行うことで,軌跡予測タスクのディープラーニングフレームワークを拡張した。 ラベル付きまたはラベル付き入力データに基づく2つの異なるモデルの予測性能を比較し,不確かさの定量化と精度の向上を,船(例えば,予定の目的地)の意図に関する追加情報を用いて強調する。

Recent deep learning methods for vessel trajectory prediction are able to learn complex maritime patterns from historical Automatic Identification System (AIS) data and accurately predict sequences of future vessel positions with a prediction horizon of several hours. However, in maritime surveillance applications, reliably quantifying the prediction uncertainty can be as important as obtaining high accuracy. This paper extends deep learning frameworks for trajectory prediction tasks by exploring how recurrent encoder-decoder neural networks can be tasked not only to predict but also to yield a corresponding prediction uncertainty via Bayesian modeling of epistemic and aleatoric uncertainties. We compare the prediction performance of two different models based on labeled or unlabeled input data to highlight how uncertainty quantification and accuracy can be improved by using, if available, additional information on the intention of the ship (e.g., its planned destination).
翻訳日:2022-05-12 19:35:03 公開日:2022-05-11
# 重み付けによる神経特徴の融合に基づくマルチラベルロゴ認識と検索

Multi-Label Logo Recognition and Retrieval based on Weighted Fusion of Neural Features ( http://arxiv.org/abs/2205.05419v1 )

ライセンス: Link先を確認
Marisa Bernabeu, Antonio Javier Gallego, Antonio Pertusa(参考訳) ロゴの分類は画像分類の特別な場合であり、テキスト、画像、または両方の組み合わせのみを含んでいる可能性がある。 本研究では,ロゴ画像のマルチラベル分類と類似性検索を行うシステムを提案する。 この方法は、その形状、色、ビジネスセクタ、意味論、一般的な特徴、またはユーザが確立した特徴の組み合わせに基づいて、最も類似したロゴを取得することができる。 これは、ロゴの特定の特性に特化している複数のラベルネットワークを用いて行われる。 これらのネットワークから抽出された特徴を組み合わせ、確立された検索基準に従って類似検索を行う。 ロゴのテキストは分類と無関係な場合があるため、前処理段階を施して削除し、全体的な性能を向上させる。 提案手法は,商標を索引付けする一連のメタデータを含む階層的ウィーン分類システムで構築されたEUTMデータセットを用いて評価される。 また、著名なロゴトポロジーとウィーンの比較を行い、デザイナーがそれらの対応を理解するのを助ける。 実験の結果, 定量的, 質的にも, 信頼性の高い結果が得られ, 最先端の成果を上回った。 また,ブランドのセマンティクスや分類は主観的であることが多いため,提案手法の信頼性を評価するため,グラフィックデザインの学生や専門家も調査した。

Logo classification is a particular case of image classification, since these may contain only text, images, or a combination of both. In this work, we propose a system for the multi-label classification and similarity search of logo images. The method allows obtaining the most similar logos on the basis of their shape, color, business sector, semantics, general characteristics, or a combination of such features established by the user. This is done by employing a set of multi-label networks specialized in certain characteristics of logos. The features extracted from these networks are combined to perform the similarity search according to the search criteria established. Since the text of logos is sometimes irrelevant for the classification, a preprocessing stage is carried out to remove it, thus improving the overall performance. The proposed approach is evaluated using the European Union Trademark (EUTM) dataset, structured with the hierarchical Vienna classification system, which includes a series of metadata with which to index trademarks. We also make a comparison between well known logo topologies and Vienna in order to help designers understand their correspondences. The experimentation carried out attained reliable performance results, both quantitatively and qualitatively, which outperformed the state-of-the-art results. In addition, since the semantics and classification of brands can often be subjective, we also surveyed graphic design students and professionals in order to assess the reliability of the proposed method.
翻訳日:2022-05-12 19:34:47 公開日:2022-05-11
# モバイルでの顔検出:5つの実装と分析

Face Detection on Mobile: Five Implementations and Analysis ( http://arxiv.org/abs/2205.05572v1 )

ライセンス: Link先を確認
Kostiantyn Khabarlak(参考訳) 多くのケースでは、スマートフォンや他の高ポータブルデバイス上での顔検出が不可欠である。 アプリケーションには、モバイルフェイスアクセス制御システム、ドライバステータストラッキング、感情認識などが含まれる。 モバイルデバイスは処理能力が限られており、顔検出アプリケーションが動作してもバッテリー寿命が長い。 したがって、アルゴリズムの品質と複雑さの適切なバランスを取ることが重要です。 この作業では、モバイルに5つのアルゴリズムを適用します。 これらのアルゴリズムは手作りまたはニューラルネットワークベースの機能に基づいており、Viola-Jones(Haar Cascade)、LPP、HOG、MCCNN、BlazeFaceが含まれる。 入力画像解像度の異なる異なるデバイス上でのこれらのアルゴリズムの推論時間を解析する。 我々は、モバイルの顔アクセス制御システムや、潜在的に他のモバイルアプリケーションに最適なアルゴリズムを提供する。 興味深いことに、ケースドアルゴリズムは顔のないシーンでは高速に動作し、BlazeFaceは空のシーンでは遅い。 この行動の発散は実際は役に立つかもしれない。

In many practical cases face detection on smartphones or other highly portable devices is a necessity. Applications include mobile face access control systems, driver status tracking, emotion recognition, etc. Mobile devices have limited processing power and should have long-enough battery life even with face detection application running. Thus, striking the right balance between algorithm quality and complexity is crucial. In this work we adapt 5 algorithms to mobile. These algorithms are based on handcrafted or neural-network-based features and include: Viola-Jones (Haar cascade), LBP, HOG, MTCNN, BlazeFace. We analyze inference time of these algorithms on different devices with different input image resolutions. We provide guidance, which algorithms are the best fit for mobile face access control systems and potentially other mobile applications. Interestingly, we note that cascaded algorithms perform faster on scenes without faces, while BlazeFace is slower on empty scenes. Exploiting this behavior might be useful in practice.
翻訳日:2022-05-12 19:33:34 公開日:2022-05-11
# TDT:完全注釈付きビデオなしで検知器の追跡を指導する

TDT: Teaching Detectors to Track without Fully Annotated Videos ( http://arxiv.org/abs/2205.05583v1 )

ライセンス: Link先を確認
Shuzhi Yu, Guanhang Wu, Chunhui Gu, Mohammed E. Fathy(参考訳) 近年,ジョイントモデルを用いて1回のフォワードパスにおける検出と外観の埋め込みの両方を予測するワンステージトラッカが注目され,マルチオブジェクトトラッキング(mot)ベンチマークで最先端の結果を得た。 しかし、彼らの成功は、追跡データに完全に注釈付けされたビデオが利用できることに依存しており、それは高価で入手が困難である。 これはモデル一般化を制限することができる。 比較として、別々に検出と埋め込みを行う2段階のアプローチは、データの注釈付けが容易であるため、より遅いが、トレーニングが容易である。 データ蒸留法による2つの世界のベストを組み合わせることを提案する。 具体的には、Re-IDデータセットに基づいて訓練された教師埋め込みを用いて、検出データセットの擬似外観埋め込みラベルを生成する。 次に、拡張データセットを使用して、これら擬似埋め込みを完全な畳み込み方式でレグレッションできる検出器を訓練する。 提案した1段階のソリューションは,2段階のソリューションと品質が一致するが,3倍高速である。 教師の組込み機はトレーニング中に追跡データを見ていないが,提案したトラッカーは,完全ラベル付き追跡データでトレーニングされた人気トラッカー(JDEなど)と競合する性能を発揮する。

Recently, one-stage trackers that use a joint model to predict both detections and appearance embeddings in one forward pass received much attention and achieved state-of-the-art results on the Multi-Object Tracking (MOT) benchmarks. However, their success depends on the availability of videos that are fully annotated with tracking data, which is expensive and hard to obtain. This can limit the model generalization. In comparison, the two-stage approach, which performs detection and embedding separately, is slower but easier to train as their data are easier to annotate. We propose to combine the best of the two worlds through a data distillation approach. Specifically, we use a teacher embedder, trained on Re-ID datasets, to generate pseudo appearance embedding labels for the detection datasets. Then, we use the augmented dataset to train a detector that is also capable of regressing these pseudo-embeddings in a fully-convolutional fashion. Our proposed one-stage solution matches the two-stage counterpart in quality but is 3 times faster. Even though the teacher embedder has not seen any tracking data during training, our proposed tracker achieves competitive performance with some popular trackers (e.g. JDE) trained with fully labeled tracking data.
翻訳日:2022-05-12 19:33:20 公開日:2022-05-11
# Video-ReTime: タイムリマッピングの速さを学習する

Video-ReTime: Learning Temporally Varying Speediness for Time Remapping ( http://arxiv.org/abs/2205.05609v1 )

ライセンス: Link先を確認
Simon Jenni, Markus Woodson, Fabian Caba Heilbron(参考訳) 本稿では,所望の目標時間に合わせて時間的に再マップされたビデオを生成する方法を提案する。 本手法は,ビデオ再生速度の時間変化を認識・正確に局所化するために,自己スーパービジョンを通してニューラルネットワークを訓練する。 動画を再生するために 1.個々のビデオフレームの遅さを推測するためにモデルを使用する。 2. 時間フレームのサブサンプリングを最適化し、モデルのスローネス予測と整合する。 本モデルは,従来の手法よりも高精度で,再生速度の変動を正確に検出できることを実証する。 さらに,対象時間を正確に制御し,より長い動画に対してよりロバストに実行できるようにするビデオ再見積の最適化を提案する。 本研究では,動画の速度向上,行動認識への伝達,ユーザ研究による質的評価を行った。

We propose a method for generating a temporally remapped video that matches the desired target duration while maximally preserving natural video dynamics. Our approach trains a neural network through self-supervision to recognize and accurately localize temporally varying changes in the video playback speed. To re-time videos, we 1. use the model to infer the slowness of individual video frames, and 2. optimize the temporal frame sub-sampling to be consistent with the model's slowness predictions. We demonstrate that this model can detect playback speed variations more accurately while also being orders of magnitude more efficient than prior approaches. Furthermore, we propose an optimization for video re-timing that enables precise control over the target duration and performs more robustly on longer videos than prior methods. We evaluate the model quantitatively on artificially speed-up videos, through transfer to action recognition, and qualitatively through user studies.
翻訳日:2022-05-12 19:32:58 公開日:2022-05-11
# (参考訳) 勾配圧縮による分散適応最適化について

On Distributed Adaptive Optimization with Gradient Compression ( http://arxiv.org/abs/2205.05632v1 )

ライセンス: CC BY 4.0
Xiaoyun Li, Belhal Karimi, Ping Li(参考訳) 勾配平均化と適応AMSGradアルゴリズムに基づく分散最適化フレームワークCompum-AMSについて検討する。 勾配伝達プロセスにおける通信コストを低減するために, 誤差フィードバックによるグラディエント圧縮を適用した。 COMP-AMSの収束解析により、圧縮された勾配平均化戦略は標準AMSGradと同じ収束率を示し、また、局所労働者数に対して線形スピードアップ効果を示す。 最近提案された分散適応方式のプロトコルと比較して、Compum-AMSはシンプルで便利である。 理論的知見を正当化するための数値実験を行い, 提案手法は, 通信量を大幅に削減した完全勾配AMSGradと同等のテスト精度を達成できることを実証した。 シンプルさと効率性により、Computer-AMSは適応勾配法のための分散トレーニングフレームワークとして役立つ。

We study COMP-AMS, a distributed optimization framework based on gradient averaging and adaptive AMSGrad algorithm. Gradient compression with error feedback is applied to reduce the communication cost in the gradient transmission process. Our convergence analysis of COMP-AMS shows that such compressed gradient averaging strategy yields same convergence rate as standard AMSGrad, and also exhibits the linear speedup effect w.r.t. the number of local workers. Compared with recently proposed protocols on distributed adaptive methods, COMP-AMS is simple and convenient. Numerical experiments are conducted to justify the theoretical findings, and demonstrate that the proposed method can achieve same test accuracy as the full-gradient AMSGrad with substantial communication savings. With its simplicity and efficiency, COMP-AMS can serve as a useful distributed training framework for adaptive gradient methods.
翻訳日:2022-05-12 19:26:26 公開日:2022-05-11
# repsr: 構造再パラメータ化とバッチ正規化を用いた効率的なvgg型超解像ネットワークの訓練

RepSR: Training Efficient VGG-style Super-Resolution Networks with Structural Re-Parameterization and Batch Normalization ( http://arxiv.org/abs/2205.05671v1 )

ライセンス: Link先を確認
Xintao Wang, Chao Dong, Ying Shan(参考訳) 本稿では,構造的再パラメータ化手法を用いて,効率的なVGG型超解像(SR)ネットワークのトレーニングについて検討する。 再パラメータ化の一般的なパイプラインは、まずマルチブランチトポロジーを持つネットワークをトレーニングし、効率的な推論のためにそれらを標準の3x3畳み込みにマージする。 本研究では,これらの設計を再検討し,SRネットワークの再パラメータ化に必要なコンポーネントについて検討する。 まず、バッチ正規化(BN)は、トレーニングを非線形にし、最終的なパフォーマンスを改善するために重要であることに気付きます。 しかし、BNは通常SRでは無視され、パフォーマンスを低下させ、不快な成果物を導入する。 BN問題の原因を慎重に分析し、単純で効果的な解決策を提案する。 特に,通常通りミニバッチ統計を持つsrネットワークをトレーニングし,その後,トレーニング期間中に人口統計を使用するように切り替えた。 我々は BN を SR に再導入することに成功したが、さらに SR に適した再パラメータ化可能なブロック、すなわち RepSR を設計した。 クリーンな残留経路と、改良されたBNと2つの拡張およびスクイーズ畳み込み経路で構成されている。 広範な実験により,従来のsr再パラメータ化法よりも優れた性能を,異なるモデルサイズで達成できることが実証された。 さらに、我々のRepSRは、従来のSR手法よりもパフォーマンスと実際の実行時間(スループット)のトレードオフが優れている。 コードはhttps://github.com/TencentARC/RepSR.comから入手できる。

This paper explores training efficient VGG-style super-resolution (SR) networks with the structural re-parameterization technique. The general pipeline of re-parameterization is to train networks with multi-branch topology first, and then merge them into standard 3x3 convolutions for efficient inference. In this work, we revisit those primary designs and investigate essential components for re-parameterizing SR networks. First of all, we find that batch normalization (BN) is important to bring training non-linearity and improve the final performance. However, BN is typically ignored in SR, as it usually degrades the performance and introduces unpleasant artifacts. We carefully analyze the cause of BN issue and then propose a straightforward yet effective solution. In particular, we first train SR networks with mini-batch statistics as usual, and then switch to using population statistics at the later training period. While we have successfully re-introduced BN into SR, we further design a new re-parameterizable block tailored for SR, namely RepSR. It consists of a clean residual path and two expand-and-squeeze convolution paths with the modified BN. Extensive experiments demonstrate that our simple RepSR is capable of achieving superior performance to previous SR re-parameterization methods among different model sizes. In addition, our RepSR can achieve a better trade-off between performance and actual running time (throughput) than previous SR methods. Codes will be available at https://github.com/TencentARC/RepSR.
翻訳日:2022-05-12 18:54:40 公開日:2022-05-11
# KOTEのユーザガイド: 韓国のオンラインコメントの感情データセット

User Guide for KOTE: Korean Online Comments Emotions Dataset ( http://arxiv.org/abs/2205.05300v1 )

ライセンス: Link先を確認
Duyoung Jeon and Junho Lee and Cheongtag Kim(参考訳) データから肯定的あるいは否定的な感情分析は、感情的意味の徹底的な検証の欠如にもかかわらず、テキストの感情的側面を認識するために主に用いられてきた。 近年、この限界を超えるために、単に原子価以上のラベルを付けたコーパスが建てられている。 しかし、ほとんどの韓国感情コーパスはインスタンス数が少なく、限られた範囲の感情をカバーしている。 KOTEデータセットを紹介する。 KOTEには50k(250k)の韓国のオンラインコメントが含まれており、それぞれ43の感情ラベルまたは1つの特別なラベル(NO EMOTION)をクラウドソーシング(Ps = 3,048)によって手動でラベル付けされている。 43の感情の感情分類は、単語埋め込み空間で表現された韓国感情概念のクラスター分析によって体系的に確立される。 また,コーパスにおける社会的差別の微調整と分析の結果について述べる。

Sentiment analysis that classifies data into positive or negative has been dominantly used to recognize emotional aspects of texts, despite the deficit of thorough examination of emotional meanings. Recently, corpora labeled with more than just valence are built to exceed this limit. However, most Korean emotion corpora are small in the number of instances and cover a limited range of emotions. We introduce KOTE dataset. KOTE contains 50k (250k cases) Korean online comments, each of which is manually labeled for 43 emotion labels or one special label (NO EMOTION) by crowdsourcing (Ps = 3,048). The emotion taxonomy of the 43 emotions is systematically established by cluster analysis of Korean emotion concepts expressed on word embedding space. After explaining how KOTE is developed, we also discuss the results of finetuning and analysis for social discrimination in the corpus.
翻訳日:2022-05-12 18:50:50 公開日:2022-05-11
# 長文文書からの問合せに基づくキーワード抽出

Query-Based Keyphrase Extraction from Long Documents ( http://arxiv.org/abs/2205.05391v1 )

ライセンス: Link先を確認
Martin Docekal, Pavel Smrz(参考訳) 自然言語処理におけるトランスフォーマーベースのアーキテクチャは、長い文書を処理する必要がある場合に問題となる入力サイズ制限を強制する。 本稿では,キーフレーズを抽出すべきトピックを定義するクエリとしてグローバルコンテキストを維持しながら,長い文書をチャンクすることで,キーフレーズ抽出におけるこの問題を克服する。 開発したシステムは、事前学習されたBERTモデルを用いて、与えられたテキストがキーフレーズを形成する確率を推定する。 InspecとSemEvalという2つの一般的なデータセットと、大きな新しいデータセットを用いて、さまざまなコンテキストサイズを実験した。 その結果,クエリの短いコンテキストでは,長いドキュメントのクエリを使わずに長いコンテキストを克服できることがわかった。

Transformer-based architectures in natural language processing force input size limits that can be problematic when long documents need to be processed. This paper overcomes this issue for keyphrase extraction by chunking the long documents while keeping a global context as a query defining the topic for which relevant keyphrases should be extracted. The developed system employs a pre-trained BERT model and adapts it to estimate the probability that a given text span forms a keyphrase. We experimented using various context sizes on two popular datasets, Inspec and SemEval, and a large novel dataset. The presented results show that a shorter context with a query overcomes a longer one without the query on long documents.
翻訳日:2022-05-12 18:50:35 公開日:2022-05-11
# KETOD:知識に富んだタスク指向対話

KETOD: Knowledge-Enriched Task-Oriented Dialogue ( http://arxiv.org/abs/2205.05589v1 )

ライセンス: Link先を確認
Zhiyu Chen, Bing Liu, Seungwhan Moon, Chinnadhurai Sankar, Paul Crook, William Yang Wang(参考訳) 対話システム研究における既存の研究は主にタスク指向の対話とチットチャットを別々のドメインとして扱う。 ユーザと自然にシームレスに会話できる人間のようなアシスタントを構築するためには,双方の対話を効果的に行う対話システムを構築することが重要である。 本研究では,タスク指向対話と知識接地型チットチャットを単一モデルに効果的に統合する方法を検討する。 そこで我々は,関連するエンティティ知識に基づいてタスク指向の対話をchit-chatで自然に強化する,ketod(knowledge-enriched task-oriented dialogue)という新しいデータセットを作成した。 また,提案課題に対して,SimpleToDPlus と Combiner という2つの新しいモデルを提案する。 自動評価と人的評価の両方の実験結果から,提案手法は,競争力のあるタスク指向対話性能を維持しつつ,知識に富んだ応答生成の性能を大幅に向上させることができることが示された。 われわれの新しいデータセットは将来の研究にとって貴重なリソースになるだろう。 私たちのデータセットとコードは、 \url{https://github.com/facebookresearch/ketod}で公開されている。

Existing studies in dialogue system research mostly treat task-oriented dialogue and chit-chat as separate domains. Towards building a human-like assistant that can converse naturally and seamlessly with users, it is important to build a dialogue system that conducts both types of conversations effectively. In this work, we investigate how task-oriented dialogue and knowledge-grounded chit-chat can be effectively integrated into a single model. To this end, we create a new dataset, KETOD (Knowledge-Enriched Task-Oriented Dialogue), where we naturally enrich task-oriented dialogues with chit-chat based on relevant entity knowledge. We also propose two new models, SimpleToDPlus and Combiner, for the proposed task. Experimental results on both automatic and human evaluations show that the proposed methods can significantly improve the performance in knowledge-enriched response generation while maintaining a competitive task-oriented dialog performance. We believe our new dataset will be a valuable resource for future studies. Our dataset and code are publicly available at \url{https://github.com/facebookresearch/ketod}.
翻訳日:2022-05-12 18:50:24 公開日:2022-05-11
# 臨床ノートからのオントロジに基づく希少疾患の表現型化

Ontology-Based and Weakly Supervised Rare Disease Phenotyping from Clinical Notes ( http://arxiv.org/abs/2205.05656v1 )

ライセンス: Link先を確認
Hang Dong, V\'ictor Su\'arez-Paniagua, Huayu Zhang, Minhong Wang, Arlene Casey, Emma Davidson, Jiaoyan Chen, Beatrice Alex, William Whiteley, Honghan Wu(参考訳) 計算テキスト表現型付け(compute text phenotyping)は、特定の疾患や特徴を有する患者を臨床ノートから識別する手法である。 機械学習やドメインの専門家によるデータアノテーションの必要性から、希少な疾患の特定は困難である。 本稿では,2方向変換器(BERTなど)から事前学習した文脈表現を用いたオントロジーと弱い監督手法を提案する。 オントロジーベースのフレームワークには2つのステップがある。 一 統一医療言語システム(UMLS)における概念への言及を文脈的にリンクすることで表現型を抽出し、名前付きエンティティ認識リンク(NER+L)ツール、SemEHR、カスタマイズされた規則及び文脈参照表現による弱い監督を行う。 (II) Orphanet Rare Disease Ontology (ORDO)におけるUMLS概念と希少疾患との整合性。 弱教師付きアプローチは、ドメインの専門家による注釈付きデータなしで、テキスト-UMLSリンクを改善するための表現型確認モデルを学ぶために提案される。 本研究は,米国と英国の2つの機関から排出サマリーと放射線学報告の3つの臨床データセットについて検討した。 MIMIC-III放電サマリーからレア疾患UMLS表現型を抽出し81.4%の精度と91.4%のリコールを得た。 パイプライン処理全体の臨床ノートは、ほとんどが構造化データ(icdコード)に格納されていないまれな疾患の症例を表面化することができる。 MIMIC-III, NHS Taysideの放射線検査所見は, 放電サマリーと一致していた。 我々は,弱い監督手法の有用性を議論し,今後の研究の方向性を提案する。

Computational text phenotyping is the practice of identifying patients with certain disorders and traits from clinical notes. Rare diseases are challenging to be identified due to few cases available for machine learning and the need for data annotation from domain experts. We propose a method using ontologies and weak supervision, with recent pre-trained contextual representations from Bi-directional Transformers (e.g. BERT). The ontology-based framework includes two steps: (i) Text-to-UMLS, extracting phenotypes by contextually linking mentions to concepts in Unified Medical Language System (UMLS), with a Named Entity Recognition and Linking (NER+L) tool, SemEHR, and weak supervision with customised rules and contextual mention representation; (ii) UMLS-to-ORDO, matching UMLS concepts to rare diseases in Orphanet Rare Disease Ontology (ORDO). The weakly supervised approach is proposed to learn a phenotype confirmation model to improve Text-to-UMLS linking, without annotated data from domain experts. We evaluated the approach on three clinical datasets of discharge summaries and radiology reports from two institutions in the US and the UK. Our best weakly supervised method achieved 81.4% precision and 91.4% recall on extracting rare disease UMLS phenotypes from MIMIC-III discharge summaries. The overall pipeline processing clinical notes can surface rare disease cases, mostly uncaptured in structured data (manually assigned ICD codes). Results on radiology reports from MIMIC-III and NHS Tayside were consistent with the discharge summaries. We discuss the usefulness of the weak supervision approach and propose directions for future studies.
翻訳日:2022-05-12 18:50:07 公開日:2022-05-11
# プロセスマイニングにおける確率的および非決定論的事象データ:プロセス分析技術における不確かさの埋め込み

Probabilistic and Non-Deterministic Event Data in Process Mining: Embedding Uncertainty in Process Analysis Techniques ( http://arxiv.org/abs/2205.04827v2 )

ライセンス: Link先を確認
Marco Pegoraro(参考訳) プロセスマイニングは、イベントログと呼ばれるデータベースで収集されたイベントデータを解析するプロセスサイエンスのサブフィールドである。 近年,プロセスマイニング分析の幅広い産業応用により,新たな種類のイベントデータが注目されている。 本稿では,不確実な事象データについて検討する。 このようなデータには、イベントログに記録された属性に関連付けられたインプレシションの量を記述するメタ属性が含まれている。 我々は,不確実事象データの例を示し,プロセスマイニングにおける不確実性に関する技術の現状を示し,この研究の方向性に関する課題を明らかにした。

Process mining is a subfield of process science that analyzes event data collected in databases called event logs. Recently, novel types of event data have become of interest due to the wide industrial application of process mining analyses. In this paper, we examine uncertain event data. Such data contain meta-attributes describing the amount of imprecision tied with attributes recorded in an event log. We provide examples of uncertain event data, present the state of the art in regard of uncertainty in process mining, and illustrate open challenges related to this research direction.
翻訳日:2022-05-12 18:48:30 公開日:2022-05-11
# メタチューリングテスト

The Meta-Turing Test ( http://arxiv.org/abs/2205.05268v1 )

ライセンス: Link先を確認
Toby Walsh(参考訳) チューリングのオリジナルの模倣ゲームにおいて、人間と機械の間に固有の非対称性を取り除くチューリングテストの代替案を提案する。 この新しいテストでは、人間と機械の両方がお互いを判断する。 これにより、単純な偽装に対してテストがより堅牢になる、と私たちは主張する。 また,テストをさらに改善するための改良も少なからず提案する。 これらの改良はチューリングのオリジナルの模倣ゲームにも適用できる。

We propose an alternative to the Turing test that removes the inherent asymmetry between humans and machines in Turing's original imitation game. In this new test, both humans and machines judge each other. We argue that this makes the test more robust against simple deceptions. We also propose a small number of refinements to improve further the test. These refinements could be applied also to Turing's original imitation game.
翻訳日:2022-05-12 18:47:44 公開日:2022-05-11
# ステレオ画像インパインティングのための反復幾何認識クロスガイダンスネットワーク

Iterative Geometry-Aware Cross Guidance Network for Stereo Image Inpainting ( http://arxiv.org/abs/2205.03825v2 )

ライセンス: Link先を確認
Ang Li, Shanshan Zhao, Qingjie Zhang, Qiuhong Ke(参考訳) 現在、単一の画像インパインティングは、深い畳み込みニューラルネットワークに基づく有望な結果を達成している。 しかし、欠落領域を持つステレオ画像のインペインティングは、十分に検討されていないため、重要ではあるが異なる問題である。 ステレオ画像インパインティングの重要な要件は、ステレオ一貫性である。 そこで我々は,IGGNet(Iterative Geometry-Aware Cross Guidance Network)を提案する。 IGGNetには、Geometry-Aware Attention (GAA)モジュールとIterative Cross Guidance (ICG)戦略という2つの重要な要素が含まれている。 GAAモジュールは、エピポーラ幾何学の手がかりに依存し、ある視点から別の視点への幾何学的ガイダンスを学ぶ。 しかし、既存の欠落領域からの学習指導は困難である。 この問題に対処するため、ICG戦略が提案され、2つのビューの欠落した領域を反復的に絞り込むことができる。 実験の結果,提案ネットワークは,最新のステレオイメージインペインティングモデルと最先端のシングルイメージインペインティングモデルよりも優れていることがわかった。

Currently, single image inpainting has achieved promising results based on deep convolutional neural networks. However, inpainting on stereo images with missing regions has not been explored thoroughly, which is also a significant but different problem. One crucial requirement for stereo image inpainting is stereo consistency. To achieve it, we propose an Iterative Geometry-Aware Cross Guidance Network (IGGNet). The IGGNet contains two key ingredients, i.e., a Geometry-Aware Attention (GAA) module and an Iterative Cross Guidance (ICG) strategy. The GAA module relies on the epipolar geometry cues and learns the geometry-aware guidance from one view to another, which is beneficial to make the corresponding regions in two views consistent. However, learning guidance from co-existing missing regions is challenging. To address this issue, the ICG strategy is proposed, which can alternately narrow down the missing regions of the two views in an iterative manner. Experimental results demonstrate that our proposed network outperforms the latest stereo image inpainting model and state-of-the-art single image inpainting models.
翻訳日:2022-05-12 18:47:39 公開日:2022-05-11
# (参考訳) プラットフォーム・ユーザ関係がアルゴリズム的説明責任をどのように形作るか--インドにおけるインスタントローンプラットフォームと金融ストレスユーザーを事例として

How Platform-User Power Relations Shape Algorithmic Accountability: A Case Study of Instant Loan Platforms and Financially Stressed Users in India ( http://arxiv.org/abs/2205.05661v1 )

ライセンス: CC BY 4.0
Divya Ramesh, Vaishnav Kameswaran, Ding Wang, Nithya Sambasivan(参考訳) 責任あるAIに必要な説明責任は、監査や説明責任といった透明性メカニズムを通じて促進される。 しかしながら、以前の研究は、これらのメカニズムの成功はグローバル・ノースの文脈に限られている可能性を示唆しており、様々な社会・政治条件における現在の介入の限界を理解することは、政策立案者がより広い説明責任を促進するのに不可欠である。 そこで我々は,グローバル・サウス・セッティングにおける,脆弱なユーザと高リスクなAIシステムとの間の既存のインタラクションにおける説明責任の仲介について検討した。 インドにおけるインスタントローンプラットフォームの利用者29名の質的研究について報告する。 その結果,インスタントローンの「ブーム」に対して,利用者は過酷な感情を抱いており,ローンプラットフォームに対する大きな義務を感じていた。 ユーザーは厳しい条件や条件を受け入れ、機密データを過度に共有し、未知の銀行に高い手数料を支払うことで義務を果たす。 ユーザは、虐待、繰り返し負債、差別、プライバシの害、自己損などの危害のリスクにもかかわらず、こうした行為を継続することで、ローンプラットフォームへの依存を示しました。 ユーザはローンプラットフォームに激怒する代わりに、ネガティブな経験の責任を負い、高いパワーを持つローンプラットフォームを説明責任から解放しました。 我々は、説明責任はプラットフォームとユーザ間の力関係によって形成されており、アルゴリズムによる説明責任の育成に純粋に技術的アプローチを採用することを政策立案者に警告する。 代わりに、ユーザエージェンシーを強化し、意味のある透明性を実現し、デザイナとユーザの関係を再構築し、より広い説明責任に対する実践者の批判的なリフレクションを促すような、配置された介入を要求します。 私たちは、インドのFinTechアプリケーションにAIを責任を持ってデプロイすることの意味で締めくくります。

Accountability, a requisite for responsible AI, can be facilitated through transparency mechanisms such as audits and explainability. However, prior work suggests that the success of these mechanisms may be limited to Global North contexts; understanding the limitations of current interventions in varied socio-political conditions is crucial to help policymakers facilitate wider accountability. To do so, we examined the mediation of accountability in the existing interactions between vulnerable users and a 'high-risk' AI system in a Global South setting. We report on a qualitative study with 29 financially-stressed users of instant loan platforms in India. We found that users experienced intense feelings of indebtedness for the 'boon' of instant loans, and perceived huge obligations towards loan platforms. Users fulfilled obligations by accepting harsh terms and conditions, over-sharing sensitive data, and paying high fees to unknown and unverified lenders. Users demonstrated a dependence on loan platforms by persisting with such behaviors despite risks of harms such as abuse, recurring debts, discrimination, privacy harms, and self-harm to them. Instead of being enraged with loan platforms, users assumed responsibility for their negative experiences, thus releasing the high-powered loan platforms from accountability obligations. We argue that accountability is shaped by platform-user power relations, and urge caution to policymakers in adopting a purely technical approach to fostering algorithmic accountability. Instead, we call for situated interventions that enhance agency of users, enable meaningful transparency, reconfigure designer-user relations, and prompt a critical reflection in practitioners towards wider accountability. We conclude with implications for responsibly deploying AI in FinTech applications in India and beyond.
翻訳日:2022-05-12 18:42:11 公開日:2022-05-11
# 協調型マルチエージェント強化学習のための分散フレームワーク

Efficient Distributed Framework for Collaborative Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2205.05248v1 )

ライセンス: Link先を確認
Shuhan Qi, Shuhao Zhang, Xiaohan Hou, Jiajia Zhang, Xuan Wang, Jing Xiao(参考訳) 不完全な情報環境に対するマルチエージェント強化学習は研究者の注目を集めている。 しかし, サンプル収集が遅く, サンプル探索が不十分なため, 不安定なモデルイテレーションや訓練効率の低下など, マルチエージェント強化学習の課題がまだ残っている。 さらに、既存の分散フレームワークのほとんどは単エージェント強化学習のために提案されており、マルチエージェントには適していない。 本稿では,アクター-ワーク-ラーナーアーキテクチャに基づく分散MARLフレームワークを設計する。 このフレームワークでは、複数の非同期環境相互作用モジュールを同時にデプロイすることができ、サンプル収集速度とサンプルの多様性を大幅に改善する。 一方、コンピューティングリソースをフル活用するために、モデルイテレーションを環境相互作用から切り離し、ポリシーイテレーションを加速させます。 最後に,maca軍事シミュレーション環境および不完全情報特性を有するsmacリアルタイム戦略ゲーム環境における提案フレームワークの有効性を検証した。

Multi-agent reinforcement learning for incomplete information environments has attracted extensive attention from researchers. However, due to the slow sample collection and poor sample exploration, there are still some problems in multi-agent reinforcement learning, such as unstable model iteration and low training efficiency. Moreover, most of the existing distributed framework are proposed for single-agent reinforcement learning and not suitable for multi-agent. In this paper, we design an distributed MARL framework based on the actor-work-learner architecture. In this framework, multiple asynchronous environment interaction modules can be deployed simultaneously, which greatly improves the sample collection speed and sample diversity. Meanwhile, to make full use of computing resources, we decouple the model iteration from environment interaction, and thus accelerate the policy iteration. Finally, we verified the effectiveness of propose framework in MaCA military simulation environment and the SMAC 3D realtime strategy gaming environment with imcomplete information characteristics.
翻訳日:2022-05-12 18:13:06 公開日:2022-05-11
# グラフ畳み込みニューラルネットワークを用いた時空間関連表現とプロセスモニタリングへの応用

Spatial-temporal associations representation and application for process monitoring using graph convolution neural network ( http://arxiv.org/abs/2205.05250v1 )

ライセンス: Link先を確認
Hao Ren, Chunhua Yang, Xiaojun Liang, Zhiwen Chen, and Weihua Gui(参考訳) 産業プロセスデータは、動作条件の動的変化を反映しており、主に異なる時間における異なる変数間の動的関連の不規則な変化を指す。 そして、この関連したプロセス監視に関する知識は、常によりリッチな操作条件情報を持ち、現在の研究で十分な注意を払っていない動的な監視データにおいて暗黙的に存在します。 この目的のために,空間ベースグラフ畳み込みニューラルネットワーク(SGCN)に基づく新しいプロセス監視手法を提案し,時間とともに動作状態を表すために使用できる動的アソシエーションの特性について述べる。 Spatia-temporal graph は、時間とともに動的に変化するノード属性(動的エッジ特徴)の特徴を表現するために使われる。 そして、ある時点における変数の監視の間の関連を、特定の時点における静的グラフネットワークのスナップショットを定義するノード属性とみなすことができる。 最後に、グラフ構造とノード属性を含むスナップショットをモデル入力として使用し、集約および読み出しステップを備えた空間ベースの畳み込みグラフニューラルネットワークによるグラフ分類を実装する。 本手法の有効性と適用性は,本手法のベンチマークおよび実例適用実験により実証した。

Industrial process data reflects the dynamic changes of operation conditions, which mainly refer to the irregular changes in the dynamic associations between different variables in different time. And this related associations knowledge for process monitoring is often implicit in these dynamic monitoring data which always have richer operation condition information and have not been paid enough attention in current research. To this end, a new process monitoring method based on spatial-based graph convolution neural network (SGCN) is proposed to describe the characteristics of the dynamic associations which can be used to represent the operation status over time. Spatia-temporal graphs are firstly defined, which can be used to represent the characteristics of node attributes (dynamic edge features) dynamically changing with time. Then, the associations between monitoring variables at a certain time can be considered as the node attributes to define a snapshot of the static graph network at the certain time. Finally, the snapshot containing graph structure and node attributes is used as model inputs which are processed to implement graph classification by spatial-based convolution graph neural network with aggregate and readout steps. The feasibility and applicability of this proposed method are demonstrated by our experimental results of benchmark and practical case application.
翻訳日:2022-05-12 18:12:52 公開日:2022-05-11
# 階層型協調型ハイパーパラメータチューニング

Hierarchical Collaborative Hyper-parameter Tuning ( http://arxiv.org/abs/2205.05272v1 )

ライセンス: Link先を確認
Ahmad Esmaeili, Zahra Ghorrati, Eric Matson(参考訳) ハイパーパラメータチューニングは、マシンラーニングソリューションを構築する上で最も重要なステージのひとつだ。 本稿では,機械学習モデルにおける任意のハイパーパラメータの任意の集合に対する近似値を決定する分散手法の開発にマルチエージェントシステムを利用する方法を示す。 提案手法は,ハイパーパラメータ値の協調探索手法として,分散した階層型エージェントベースアーキテクチャを用いる。 提案したジェネリックモデルを用いてランダム化エージェントに基づくチューニング手法を開発し,その動作を機械学習とグローバル関数最適化の両方に適用した。 実験結果によると,提案モデルは,分類誤差と関数評価,特に高次元において,基礎となるランダム化調律戦略の2つを上回った。

Hyper-parameter Tuning is among the most critical stages in building machine learning solutions. This paper demonstrates how multi-agent systems can be utilized to develop a distributed technique for determining near-optimal values for any arbitrary set of hyper-parameters in a machine learning model. The proposed method employs a distributedly formed hierarchical agent-based architecture for the cooperative searching procedure of tuning hyper-parameter values. The presented generic model is used to develop a guided randomized agent-based tuning technique, and its behavior is investigated in both machine learning and global function optimization applications. According the empirical results, the proposed model outperformed both of its underlying randomized tuning strategies in terms of classification error and function evaluations, notably in higher number of dimensions.
翻訳日:2022-05-12 18:12:33 公開日:2022-05-11
# 組合せ帯域割り当てにおけるグループのランク付け

Ranked Prioritization of Groups in Combinatorial Bandit Allocation ( http://arxiv.org/abs/2205.05659v1 )

ライセンス: Link先を確認
Lily Xu, Arpita Biswas, Fei Fang, Milind Tambe(参考訳) レンジャーパトロールによる密猟の防止は絶滅危惧種の野生生物を保護し、国連の持続可能な開発目標15に直接貢献する。 コンビニアル・バンディットは限られたパトロール資源を割り当てるために使われてきたが、既存のアプローチでは、それぞれの場所が様々な割合で複数の種の生息地であることを見落としている。 一部の種がより脆弱な場合には、これらの動物により多くの保護を与える必要があるが、残念ながら、既存の組み合わせ型バンディットアプローチは重要な種を優先する手段を提供していない。 このギャップを埋めるために,(1)報奨の最大化と種に対する優先順位付けを両立させる新しい組合せバンディットの目的を提案する。 この目的をリプシッツ連続報酬関数の重み付き線形和として表現できることを示す。 2) 優先順位付けに基づく目標を最適化する組合せ動作を選択するアルゴリズムである rankcucb を提供し,漸近的な no-regret を達成することを証明した。 3) 実世界の野生生物保全データを用いて, 絶滅危惧種の成績が最大38%向上することを示す。 不正なロギングや過剰漁の防止など,他の課題への適応に加えて,本アルゴリズムでは,重み付き線形目的の一般組合せバンディット問題に対処する。

Preventing poaching through ranger patrols protects endangered wildlife, directly contributing to the UN Sustainable Development Goal 15 of life on land. Combinatorial bandits have been used to allocate limited patrol resources, but existing approaches overlook the fact that each location is home to multiple species in varying proportions, so a patrol benefits each species to differing degrees. When some species are more vulnerable, we ought to offer more protection to these animals; unfortunately, existing combinatorial bandit approaches do not offer a way to prioritize important species. To bridge this gap, (1) We propose a novel combinatorial bandit objective that trades off between reward maximization and also accounts for prioritization over species, which we call ranked prioritization. We show this objective can be expressed as a weighted linear sum of Lipschitz-continuous reward functions. (2) We provide RankedCUCB, an algorithm to select combinatorial actions that optimize our prioritization-based objective, and prove that it achieves asymptotic no-regret. (3) We demonstrate empirically that RankedCUCB leads to up to 38% improvement in outcomes for endangered species using real-world wildlife conservation data. Along with adapting to other challenges such as preventing illegal logging and overfishing, our no-regret algorithm addresses the general combinatorial bandit problem with a weighted linear objective.
翻訳日:2022-05-12 18:12:03 公開日:2022-05-11
# ニューロイメージングのための安全なフェデレーション学習

Secure Federated Learning for Neuroimaging ( http://arxiv.org/abs/2205.05249v1 )

ライセンス: Link先を確認
Dimitris Stripelis, Umang Gupta, Hamza Saleem, Nikhil Dhinagar, Tanmay Ghai, Rafael Sanchez, Chrysovalantis Anastasiou, Armaghan Asghar, Greg Ver Steeg, Srivatsan Ravi, Muhammad Naveed, Paul M. Thompson, Jose Luis Ambite(参考訳) バイオメディカルデータの量は急速に増え続けている。 しかし、セキュリティ、プライバシー、規制上の懸念から、共同分析のために複数のサイトからデータを収集する能力は依然として困難である。 本研究では,複数のデータソースに分散したニューラルネットワークのトレーニングを可能にする,セキュアなフェデレーション学習アーキテクチャであるmetisflを提案する。 各サイトは、しばらくの間、ニューラルネットワークをプライベートデータ上でトレーニングし、ニューラルネットワークパラメータ(ウェイト、勾配)をフェデレーションコントローラと共有し、ローカルモデルを集約し、結果のコミュニティモデルを各サイトに送信し、プロセスが繰り返される。 私たちのアーキテクチャは強力なセキュリティとプライバシを提供します。 まず、サンプルデータは決してサイトを離れない。 第二に、神経パラメータは送信前に暗号化され、コミュニティモデルは完全正則暗号で計算される。 最後に,情報理論的な手法を用いて,神経モデルからの情報漏洩を制限し,興味のあるサイトがメンバシップアタックを行うのを防ぐ。 私たちはこのアーキテクチャを神経画像で示します。 具体的には,複数の部位に分布する磁気共鳴イメージングデータセットから,アルツハイマー病を分類し,脳年齢を推定する訓練用ニューラルモデルについて検討した。

The amount of biomedical data continues to grow rapidly. However, the ability to collect data from multiple sites for joint analysis remains challenging due to security, privacy, and regulatory concerns. We present a Secure Federated Learning architecture, MetisFL, which enables distributed training of neural networks over multiple data sources without sharing data. Each site trains the neural network over its private data for some time, then shares the neural network parameters (i.e., weights, gradients) with a Federation Controller, which in turn aggregates the local models, sends the resulting community model back to each site, and the process repeats. Our architecture provides strong security and privacy. First, sample data never leaves a site. Second, neural parameters are encrypted before transmission and the community model is computed under fully-homomorphic encryption. Finally, we use information-theoretic methods to limit information leakage from the neural model to prevent a curious site from performing membership attacks. We demonstrate this architecture in neuroimaging. Specifically, we investigate training neural models to classify Alzheimer's disease, and estimate Brain Age, from magnetic resonance imaging datasets distributed across multiple sites, including heterogeneous environments where sites have different amounts of data, statistical distributions, and computational capabilities.
翻訳日:2022-05-12 18:08:17 公開日:2022-05-11
# CNN-LSTMを用いたマルチモーダルMRIと臨床データ融合による脳卒中患者の予後予測

CNN-LSTM Based Multimodal MRI and Clinical Data Fusion for Predicting Functional Outcome in Stroke Patients ( http://arxiv.org/abs/2205.05545v1 )

ライセンス: Link先を確認
Nima Hatami and Tae-Hee Cho and Laura Mechtouff and Omer Faruk Eker and David Rousseau and Carole Frindel(参考訳) 脳卒中患者の管理には臨床結果予測が重要である。 機械学習の観点から考えると、主な課題の1つは、入院時の異種データ、すなわち多次元の画像データとスカラーである臨床データを扱うことである。 本稿では,マルチモーダル畳み込みニューラルネットワーク-long short-term memory(cnn-lstm)に基づくアンサンブルモデルを提案する。 各MR画像モジュールに対して、専用ネットワークは、修正されたランキンスケール(mRS)を使用して臨床結果の予備的な予測を提供する。 最終mRSスコアは、臨床メタデータによって重み付けされた特定の種類のMR画像専用の各モジュールの予備確率をこの年齢または国立衛生ストローク尺度(NIHSS)にマージすることによって得られる。 実験の結果,提案モデルがベースラインを越え,mr画像の時空間的コンテキストをディープラーニングアーキテクチャで自動的にエンコードする独自の方法が得られた。 最も高いAUC (0.77) はNIHSSで提案されたモデルで達成された。

Clinical outcome prediction plays an important role in stroke patient management. From a machine learning point-of-view, one of the main challenges is dealing with heterogeneous data at patient admission, i.e. the image data which are multidimensional and the clinical data which are scalars. In this paper, a multimodal convolutional neural network - long short-term memory (CNN-LSTM) based ensemble model is proposed. For each MR image module, a dedicated network provides preliminary prediction of the clinical outcome using the modified Rankin scale (mRS). The final mRS score is obtained by merging the preliminary probabilities of each module dedicated to a specific type of MR image weighted by the clinical metadata, here age or the National Institutes of Health Stroke Scale (NIHSS). The experimental results demonstrate that the proposed model surpasses the baselines and offers an original way to automatically encode the spatio-temporal context of MR images in a deep learning architecture. The highest AUC (0.77) was achieved for the proposed model with NIHSS.
翻訳日:2022-05-12 18:07:56 公開日:2022-05-11
# マルチパーソン音声/視覚自動音声認識

End-to-End Multi-Person Audio/Visual Automatic Speech Recognition ( http://arxiv.org/abs/2205.05586v1 )

ライセンス: Link先を確認
Otavio Braga, Takaki Makino, Olivier Siohan, Hank Liao(参考訳) 従来,視覚信号の発話面が音声と一致する顔であるという仮定のもと,音声・視覚自動音声認識が研究されてきた。 しかし、より現実的な環境では、複数の顔がスクリーン上にある可能性がある場合、A/V ASRシステムに供給する顔を決定する必要がある。 本研究は、A/V ASRの最近の進歩を一歩進め、複数の人が同時にスクリーン上にいるシナリオ(複数人A/V ASR)を考える。 ビデオ内の複数の顔トラックを処理できる完全微分可能なA/V ASRモデルを提案する。 話者の顔選択のための2つの異なるモデルと1つの顔トラック上のオーディオ・ビジュアルasrに頼る代わりに、適切な顔ビデオトラックをソフト選択できるasrエンコーダに注意層を導入する。 YouTubeビデオの30k時間以上でトレーニングされたA/Vシステムで行った実験では、音声のみの代わりに視覚信号を使用することのメリットを示しながら、音声のオラクル選択と比較して、WER劣化の少ない適切な顔トラックを自動選択できることが示されている。

Traditionally, audio-visual automatic speech recognition has been studied under the assumption that the speaking face on the visual signal is the face matching the audio. However, in a more realistic setting, when multiple faces are potentially on screen one needs to decide which face to feed to the A/V ASR system. The present work takes the recent progress of A/V ASR one step further and considers the scenario where multiple people are simultaneously on screen (multi-person A/V ASR). We propose a fully differentiable A/V ASR model that is able to handle multiple face tracks in a video. Instead of relying on two separate models for speaker face selection and audio-visual ASR on a single face track, we introduce an attention layer to the ASR encoder that is able to soft-select the appropriate face video track. Experiments carried out on an A/V system trained on over 30k hours of YouTube videos illustrate that the proposed approach can automatically select the proper face tracks with minor WER degradation compared to an oracle selection of the speaking face while still showing benefits of employing the visual signal instead of the audio alone.
翻訳日:2022-05-12 18:07:40 公開日:2022-05-11
# (参考訳) オブジェクト構造に関する言語から概念ライブラリを識別する

Identifying concept libraries from language about object structure ( http://arxiv.org/abs/2205.05666v1 )

ライセンス: CC BY 4.0
Catherine Wong, William P. McCarthy, Gabriel Grand, Yoni Friedman, Joshua B. Tenenbaum, Jacob Andreas, Robert D. Hawkins, Judith E. Fan(参考訳) 私たちの視覚世界に対する理解は、オブジェクトを意味のある部分、属性、関係に解析する能力を含む、オブジェクトの命名を超えています。 本研究では,自然言語記述を多種多様な2Kプロシージャ生成オブジェクトの集合に活用して,人々が使用する部分と,これらを他よりも好むべき原則を特定する。 我々は,各ライブラリで表現されたプログラムが,人間の言語とどのように一致しているかを評価するために,機械翻訳のツールを用いて,異なる部分概念を含むプログラムライブラリの空間を探索する際の問題を定式化する。 自然言語を大規模に構成されたプログラム表現と組み合わせることで、各オブジェクトの簡潔な記述を許容するレキシコンと、レキシコン自体のサイズを最小化する部分概念を統治する基本的な情報理論上のトレードオフが発見される。

Our understanding of the visual world goes beyond naming objects, encompassing our ability to parse objects into meaningful parts, attributes, and relations. In this work, we leverage natural language descriptions for a diverse set of 2K procedurally generated objects to identify the parts people use and the principles leading these parts to be favored over others. We formalize our problem as search over a space of program libraries that contain different part concepts, using tools from machine translation to evaluate how well programs expressed in each library align to human language. By combining naturalistic language at scale with structured program representations, we discover a fundamental information-theoretic tradeoff governing the part concepts people name: people favor a lexicon that allows concise descriptions of each object, while also minimizing the size of the lexicon itself.
翻訳日:2022-05-12 18:06:01 公開日:2022-05-11
# 事前学習型言語モデルの構築

Making Pre-trained Language Models Good Long-tailed Learners ( http://arxiv.org/abs/2205.05461v1 )

ライセンス: Link先を確認
Chen Zhang, Lei Ren, Jingang Wang, Wei Wu, Dawei Song(参考訳) プロンプトチューニングは、事前訓練された知識を効果的に活用する能力によって、数発の分類において魅力的な性能を示している。 このことは、尾クラスが直感的にほとんどショットしないため、プロンプトチューニングが長い尾の分類に有望な選択であるという仮説を確認する動機となっている。 この目的を達成するために,仮説を検証するための実証研究を行う。 その結果,プロンプトチューニングにより,事前学習した言語モデルが,少なくとも長尾学習者に対して有効であることを示す。 そこで我々は, プロンプトチューニングとファインチューニングのギャップを段階的に埋めることにより, 長期的分類において, プロンプトチューニングが良好な性能を発揮する理由を直観的に検討する。 要約すると、分類器の構造とパラメータ化が、あまり重要でない入力構造と比較して、優れた長尾学習者を作る鍵となる。 最後に, 数発分類への適用性を検証する。

Prompt-tuning has shown appealing performance in few-shot classification by virtue of its capability in effectively exploiting pre-trained knowledge. This motivates us to check the hypothesis that prompt-tuning is also a promising choice for long-tailed classification, since the tail classes are intuitively few-shot ones. To achieve this aim, we conduct empirical studies to examine the hypothesis. The results demonstrate that prompt-tuning exactly makes pre-trained language models at least good long-tailed learners. For intuitions on why prompt-tuning can achieve good performance in long-tailed classification, we carry out an in-depth analysis by progressively bridging the gap between prompt-tuning and commonly used fine-tuning. The summary is that the classifier structure and parameterization form the key to making good long-tailed learners, in comparison with the less important input structure. Finally, we verify the applicability of our finding to few-shot classification.
翻訳日:2022-05-12 17:51:19 公開日:2022-05-11
# NDGGNET-ノード独立ゲート型グラフニューラルネットワーク

NDGGNET-A Node Independent Gate based Graph Neural Networks ( http://arxiv.org/abs/2205.05348v1 )

ライセンス: Link先を確認
Ye Tang, Xuesong Yang, Xinrui Liu, Xiwei Zhao, Zhangang Lin, Changping Peng(参考訳) グラフニューラルネットワーク(GNN)は、構造データのためのアーキテクチャであり、多数のタスクに採用され、リンク予測、ノード分類、グラフ分類などの素晴らしい結果を得た。 一般に、あるグラフのあるノードに対して、従来のGNNレイヤはワンホップの隣人からの集約と見なすことができるため、スタックされたレイヤのセットはマルチホップ内でノードの状態を取得して更新することができる。 疎結合なノードでは、単一のGNN層を通じて十分な情報を取得することは困難であり、直接接続されるノードは少ないだけでなく、高次隣の情報を伝播することができない。 しかし、層数が増加するにつれて、GNNモデルは接続密度の高いノードに対して過度に滑らかになる傾向にあり、その結果精度が低下する。 この問題に取り組むため、本論文では、通常のgnnモデルがより多くの層に対応できる新しいフレームワークを定義する。 具体的には,ノード度に基づくゲートを用いてレイヤの重みを動的に調整し,情報収集能力を高め,過度なスムース化の可能性を低減させる。 実験結果から,提案モデルがモデル深度を効果的に向上し,複数のデータセットで良好に動作できることが示唆された。

Graph Neural Networks (GNNs) is an architecture for structural data, and has been adopted in a mass of tasks and achieved fabulous results, such as link prediction, node classification, graph classification and so on. Generally, for a certain node in a given graph, a traditional GNN layer can be regarded as an aggregation from one-hop neighbors, thus a set of stacked layers are able to fetch and update node status within multi-hops. For nodes with sparse connectivity, it is difficult to obtain enough information through a single GNN layer as not only there are only few nodes directly connected to them but also can not propagate the high-order neighbor information. However, as the number of layer increases, the GNN model is prone to over-smooth for nodes with the dense connectivity, which resulting in the decrease of accuracy. To tackle this issue, in this thesis, we define a novel framework that allows the normal GNN model to accommodate more layers. Specifically, a node-degree based gate is employed to adjust weight of layers dynamically, that try to enhance the information aggregation ability and reduce the probability of over-smoothing. Experimental results show that our proposed model can effectively increase the model depth and perform well on several datasets.
翻訳日:2022-05-12 17:49:11 公開日:2022-05-11
# 深部Q-Learningにおける行動一般化ギャップの特徴付け

Characterizing the Action-Generalization Gap in Deep Q-Learning ( http://arxiv.org/abs/2205.05588v1 )

ライセンス: Link先を確認
Zhiyuan Zhou, Cameron Allen, Kavosh Asadi, George Konidaris(参考訳) 離散的行動空間における深層q学習の行動一般化能力について検討した。 エージェントは新しいタスクで過去の経験から学んだ知識を使用できるため、効率的な強化学習(rl)には一般化が不可欠である。 しかし、関数近似は状態入力を一般化する自然な方法で深いRLエージェントを提供するが、同じ一般化機構は離散的な動作出力には適用されない。 しかし、驚くべきことに、このタイプの関数近似器を使用するDeep Q-Networks (DQN) は、依然として控えめな動作一般化を実現することができる。 まず,行動類似性に関する専門家の知識を用いて行動一般化を評価する手法を提案し,行動一般化が学習の高速化につながることを実証的に確認し,また,異なる領域における行動一般化のギャップ(DQNと専門家の学習性能の違い)を特徴付ける。 DQNはいくつかの単純な領域での作用よりも一般化できるが、作用空間が大きくなるにつれてその作用能力は低下する。

We study the action generalization ability of deep Q-learning in discrete action spaces. Generalization is crucial for efficient reinforcement learning (RL) because it allows agents to use knowledge learned from past experiences on new tasks. But while function approximation provides deep RL agents with a natural way to generalize over state inputs, the same generalization mechanism does not apply to discrete action outputs. And yet, surprisingly, our experiments indicate that Deep Q-Networks (DQN), which use exactly this type of function approximator, are still able to achieve modest action generalization. Our main contribution is twofold: first, we propose a method of evaluating action generalization using expert knowledge of action similarity, and empirically confirm that action generalization leads to faster learning; second, we characterize the action-generalization gap (the difference in learning performance between DQN and the expert) in different domains. We find that DQN can indeed generalize over actions in several simple domains, but that its ability to do so decreases as the action space grows larger.
翻訳日:2022-05-12 17:48:48 公開日:2022-05-11
# 回転対称モデルを用いた畳み込みニューラルネットワーク画像分類器の解析

Analysis of convolutional neural network image classifiers in a rotationally symmetric model ( http://arxiv.org/abs/2205.05500v1 )

ライセンス: Link先を確認
Michael Kohler and Benjamin Walter(参考訳) 畳み込みニューラルネットワーク画像分類器を定義し、最適な誤分類リスクに向かう推定の誤分類リスクの収束率を分析する。 ここでは、イメージを関数空間の値を持つランダム変数とみなし、離散サンプルを有限格子上の関数値としてのみ観察する。 入力画像の部分の回転に対するある種の対称性を含む機能的後部確率に関する適切な構造的・滑らかな仮定の下で、畳み込みニューラルネットワークに基づく最小二乗プラグイン分類器は、解像度依存誤差項を無視した場合、二乗画像分類における次元性の呪いを回避することができることを示す。 シミュレーションおよび実データに適用することにより、分類器の有限サンプルサイズ挙動を分析する。

Convolutional neural network image classifiers are defined and the rate of convergence of the misclassification risk of the estimates towards the optimal misclassification risk is analyzed. Here we consider images as random variables with values in some functional space, where we only observe discrete samples as function values on some finite grid. Under suitable structural and smoothness assumptions on the functional a posteriori probability, which includes some kind of symmetry against rotation of subparts of the input image, it is shown that least squares plug-in classifiers based on convolutional neural networks are able to circumvent the curse of dimensionality in binary image classification if we neglect a resolution-dependent error term. The finite sample size behavior of the classifier is analyzed by applying it to simulated and real data.
翻訳日:2022-05-12 17:45:58 公開日:2022-05-11
# 双目的ベイズ最適化における超体積改善の確率分布

Probability Distribution of Hypervolume Improvement in Bi-objective Bayesian Optimization ( http://arxiv.org/abs/2205.05505v1 )

ライセンス: Link先を確認
Hao Wang, Kaifeng Yang, Michael Affenzeller, Michael Emmerich(参考訳) この研究は、ベイズ最適化の双目的一般化のための超体積改善(HVI)の確率分布の正確な表現を提供する。 ここでは,単一目的の改善ではなく,パレート前線の現在の最良近似に関するハイパーボリューム指標の改善を検討する。 ガウス過程回帰モデルは、両方の目的関数に基づいて独立に訓練され、ベクトル値の対象関数の予測モデルとして機能する二変量分離ガウス分布となる。 いくつかのHVIベースの取得関数(改善の確率と高信頼境界)もHVIの正確な分布の助けを借りて活用される。 さらに,モンテカルロサンプリングによる近似よりも正確な分布の数値的精度と効率が優れていることを示す。 最後に,広く適用されたzdt問題集合上での分布平均取得関数のベンチマークを行い,多目的ベイズ最適化におけるhviの正確な分布の利点を示す。

This work provides the exact expression of the probability distribution of the hypervolume improvement (HVI) for bi-objective generalization of Bayesian optimization. Here, instead of a single-objective improvement, we consider the improvement of the hypervolume indicator concerning the current best approximation of the Pareto front. Gaussian process regression models are trained independently on both objective functions, resulting in a bi-variate separated Gaussian distribution serving as a predictive model for the vector-valued objective function. Some commonly HVI-based acquisition functions (probability of improvement and upper confidence bound) are also leveraged with the help of the exact distribution of HVI. In addition, we show the superior numerical accuracy and efficiency of the exact distribution compared to the commonly used approximation by Monte-Carlo sampling. Finally, we benchmark distribution-leveraged acquisition functions on the widely applied ZDT problem set, demonstrating a significant advantage of using the exact distribution of HVI in multi-objective Bayesian optimization.
翻訳日:2022-05-12 17:45:44 公開日:2022-05-11
# OTFPF:3次元オーバーラップConvNeXtを用いた脳年齢推定のための最適輸送型特徴ピラミッド融合ネットワーク

OTFPF: Optimal Transport-Based Feature Pyramid Fusion Network for Brain Age Estimation with 3D Overlapped ConvNeXt ( http://arxiv.org/abs/2205.04684v2 )

ライセンス: Link先を確認
Yu Fu, Yanyan Huang, Yalin Wang, Shunjie Dong, Le Xue, Xunzhao Yin, Qianqian Yang, Yiyu Shi, Cheng Zhuo(参考訳) t1-weighted magnetic resonance image (t1 mri) のディープニューラルネットワークを用いて、健康な脳の年代を予測でき、予測された脳年齢は老化に関連する疾患や疾患を検出する効果的なバイオマーカーとなる可能性がある。 本稿では、T1 MRIを用いた脳年齢推定のための、最適輸送に基づく特徴ピラミッド融合(OTFPF)ネットワークと呼ばれるエンドツーエンドのニューラルネットワークアーキテクチャを提案する。 OTFPFは、最適輸送に基づく特徴ピラミッド融合(OTFPF)モジュール、3D重なり合うConvNeXt (3D OL-ConvNeXt)モジュール、融合モジュールの3つのタイプから構成される。 これらのモジュールは、OTFPFネットワークの脳の半マルチモーダルおよびマルチレベル特徴ピラミッド情報の理解を強化し、その推定性能を大幅に改善する。 近年の最先端モデルと比較すると,提案した OTFPF はより高速に収束し,性能が向上する。 11,728のMRIによる実験では、OTFPFネットワークは正確な脳年齢推定が可能であり、平均絶対誤差(MAE)は2.097、Pearson's correlation coefficient(PCC)は0.993、Spearman's rank correlation coefficient(SRCC)は0.989である。 広帯域の定量的実験とアブレーション実験は、OTFPFネットワークの優位性と合理性を示す。 コードと実装の詳細はGitHubで公開される。 最終決定後、https://github.com/ZJU-Brain/OTFPF。

Chronological age of healthy brain is able to be predicted using deep neural networks from T1-weighted magnetic resonance images (T1 MRIs), and the predicted brain age could serve as an effective biomarker for detecting aging-related diseases or disorders. In this paper, we propose an end-to-end neural network architecture, referred to as optimal transport based feature pyramid fusion (OTFPF) network, for the brain age estimation with T1 MRIs. The OTFPF consists of three types of modules: Optimal Transport based Feature Pyramid Fusion (OTFPF) module, 3D overlapped ConvNeXt (3D OL-ConvNeXt) module and fusion module. These modules strengthen the OTFPF network's understanding of each brain's semi-multimodal and multi-level feature pyramid information, and significantly improve its estimation performances. Comparing with recent state-of-the-art models, the proposed OTFPF converges faster and performs better. The experiments with 11,728 MRIs aged 3-97 years show that OTFPF network could provide accurate brain age estimation, yielding mean absolute error (MAE) of 2.097, Pearson's correlation coefficient (PCC) of 0.993 and Spearman's rank correlation coefficient (SRCC) of 0.989, between the estimated and chronological ages. Widespread quantitative experiments and ablation experiments demonstrate the superiority and rationality of OTFPF network. The codes and implement details will be released on GitHub: https://github.com/ZJU-Brain/OTFPF after final decision.
翻訳日:2022-05-12 17:45:31 公開日:2022-05-11
# 連続的ディープフェイク検出ベンチマーク:データセット、メソッド、本質

A Continual Deepfake Detection Benchmark: Dataset, Methods, and Essentials ( http://arxiv.org/abs/2205.05467v1 )

ライセンス: Link先を確認
Chuqiao Li, Zhiwu Huang, Danda Pani Paudel, Yabin Wang, Mohamad Shahbazi, Xiaopeng Hong, Luc Van Gool(参考訳) ディープフェイクを検出するためのベンチマークやテクニックが数多く登場している。 しかし、現実世界のシナリオで徐々に現れるディープフェイクの検出を研究する研究はほとんどない。 そこで,本研究では,未知の生成モデルと未知の生成モデルの両方から,新たなディープフェイクのコレクションに対して連続的なディープフェイク検出ベンチマーク(CDDB)を提案する。 提案したCDDBは, 難易度, 難易度, 長期にわたる深度タスクの検出に関する複数の評価を, 適切な尺度を用いて設計する。 さらに,連続視覚認識によく用いられる多クラスインクリメンタル学習手法を,連続的ディープフェイク検出問題に適応させるために,複数の手法を適用した。 提案したCDDB上で,適応型を含むいくつかの手法を評価する。 提案するベンチマークでは,標準連続学習の共通部分について検討する。 本研究は, 連続的なディープフェイク検出の文脈におけるこれらの重要事項に関する新たな知見を提供する。 提案されたCDDBは、既存のベンチマークよりも明らかに困難であり、将来の研究に適切な評価方法を提供する。 ベンチマークデータセットとソースコードは公開される予定だ。

There have been emerging a number of benchmarks and techniques for the detection of deepfakes. However, very few works study the detection of incrementally appearing deepfakes in the real-world scenarios. To simulate the wild scenes, this paper suggests a continual deepfake detection benchmark (CDDB) over a new collection of deepfakes from both known and unknown generative models. The suggested CDDB designs multiple evaluations on the detection over easy, hard, and long sequence of deepfake tasks, with a set of appropriate measures. In addition, we exploit multiple approaches to adapt multiclass incremental learning methods, commonly used in the continual visual recognition, to the continual deepfake detection problem. We evaluate several methods, including the adapted ones, on the proposed CDDB. Within the proposed benchmark, we explore some commonly known essentials of standard continual learning. Our study provides new insights on these essentials in the context of continual deepfake detection. The suggested CDDB is clearly more challenging than the existing benchmarks, which thus offers a suitable evaluation avenue to the future research. Our benchmark dataset and the source code will be made publicly available.
翻訳日:2022-05-12 17:45:03 公開日:2022-05-11
# (参考訳) RISP:クロスドメインパラメータ推定のための微分可能シミュレーションとレンダリングによるレンダリング不変状態予測器

RISP: Rendering-Invariant State Predictor with Differentiable Simulation and Rendering for Cross-Domain Parameter Estimation ( http://arxiv.org/abs/2205.05678v1 )

ライセンス: CC0 1.0
Pingchuan Ma, Tao Du, Joshua B. Tenenbaum, Wojciech Matusik, Chuang Gan(参考訳) この研究は、レンダリング構成がアクセス不能なビデオから直接物理系の動的動きを特徴付けるパラメータを特定することを検討する。 既存のソリューションは大量のトレーニングデータを必要とするか、未知のレンダリング設定の汎用性を欠いている。 本稿では、ドメインのランダム化と微分可能なレンダリング勾配を組み合わせた新しい手法を提案する。 我々の核となるアイデアはレンダリング不変状態予測(risp)ネットワークを訓練することであり、画像の違いをレンダリング構成、例えば照明、シャドー、物質反射などに依存しない状態差に変換する。 この予測器を訓練するために、微分可能レンダリングからの勾配を用いて、分散のレンダリングにおいて新たな損失を定式化する。 さらに、この損失の勾配を計算するための効率的な2階法を提案し、現代のディープラーニングフレームワークにシームレスに統合できるようにする。 本手法は剛体および変形体シミュレーション環境において, 状態推定, システム同定, 模倣学習, 振動運動制御の4つのタスクを用いて評価する。 さらに,実世界の実例における本手法の有効性を実証する。その動き列の映像から,クワッドローターの状態と動作シーケンスを推測する。 既存の手法と比較して,提案手法は再構成誤差を著しく低減し,未知のレンダリング構成の一般化性が向上する。

This work considers identifying parameters characterizing a physical system's dynamic motion directly from a video whose rendering configurations are inaccessible. Existing solutions require massive training data or lack generalizability to unknown rendering configurations. We propose a novel approach that marries domain randomization and differentiable rendering gradients to address this problem. Our core idea is to train a rendering-invariant state-prediction (RISP) network that transforms image differences into state differences independent of rendering configurations, e.g., lighting, shadows, or material reflectance. To train this predictor, we formulate a new loss on rendering variances using gradients from differentiable rendering. Moreover, we present an efficient, second-order method to compute the gradients of this loss, allowing it to be integrated seamlessly into modern deep learning frameworks. We evaluate our method in rigid-body and deformable-body simulation environments using four tasks: state estimation, system identification, imitation learning, and visuomotor control. We further demonstrate the efficacy of our approach on a real-world example: inferring the state and action sequences of a quadrotor from a video of its motion sequences. Compared with existing methods, our approach achieves significantly lower reconstruction errors and has better generalizability among unknown rendering configurations.
翻訳日:2022-05-12 17:42:27 公開日:2022-05-11
# webビデオから視覚的な質問に答える学習

Learning to Answer Visual Questions from Web Videos ( http://arxiv.org/abs/2205.05019v2 )

ライセンス: Link先を確認
Antoine Yang, Antoine Miech, Josef Sivic, Ivan Laptev, Cordelia Schmid(参考訳) 最近のビジュアル質問応答の方法は、大規模な注釈付きデータセットに依存している。 しかし、ビデオに対する質問や回答のマニュアルアノテーションは面倒で高価であり、スケーラビリティを損なう。 本稿では,手動アノテーションを回避し,自動クロスモーダル監視によるビデオ質問応答のための大規模トレーニングデータセットを作成することを提案する。 テキストデータに基づいて学習した質問生成トランスを活用し,書き起こされたビデオナレーションから質問応答ペアを生成する。 ナレーションされたビデオがあれば、howtovqa69mデータセットを69mのビデオクェリアンワートリプレットで自動的に生成します。 本データセットにおける多様な回答のオープンな語彙を扱うために,ビデオ検索マルチモーダル変換器と応答変換器との対比損失に基づくトレーニング手順を提案する。 ゼロショットビデオQAタスクとビデオQA特徴量評価設定を導入し、特に稀な回答に対して優れた結果を示す。 さらに,本手法は,MSRVTT-QA,ActivityNet-QA,MSVD-QA,How2QAデータセット上での競合的な結果を得る。 また、ビデオQAデータセット生成アプローチがWebビデオとテキストデータの別のソースに一般化されることを示す。 本手法は,WebVidデータセットからWebVidVQA3Mデータセットを生成するために用いられる。 最後に、言語バイアスの低減と高品質なマニュアルアノテーションを備えた新しいビデオQAデータセットであるiVQAを紹介する。 コード、データセット、トレーニングされたモデルはhttps://antoyang.github.io/just-ask.htmlで利用可能である。

Recent methods for visual question answering rely on large-scale annotated datasets. Manual annotation of questions and answers for videos, however, is tedious, expensive and prevents scalability. In this work, we propose to avoid manual annotation and generate a large-scale training dataset for video question answering making use of automatic cross-modal supervision. We leverage a question generation transformer trained on text data and use it to generate question-answer pairs from transcribed video narrations. Given narrated videos, we then automatically generate the HowToVQA69M dataset with 69M video-question-answer triplets. To handle the open vocabulary of diverse answers in this dataset, we propose a training procedure based on a contrastive loss between a video-question multi-modal transformer and an answer transformer. We introduce the zero-shot VideoQA task and the VideoQA feature probe evaluation setting and show excellent results, in particular for rare answers. Furthermore, our method achieves competitive results on MSRVTT-QA, ActivityNet-QA, MSVD-QA and How2QA datasets. We also show that our VideoQA dataset generation approach generalizes to another source of web video and text data. We use our method to generate the WebVidVQA3M dataset from the WebVid dataset, i.e., videos with alt-text annotations, and show its benefits for training VideoQA models. Finally, for a detailed evaluation we introduce iVQA, a new VideoQA dataset with reduced language bias and high-quality manual annotations. Code, datasets and trained models are available at https://antoyang.github.io/just-ask.html
翻訳日:2022-05-12 17:21:53 公開日:2022-05-11
# 変圧器を用いた物体検出のための自己教師あり学習手法の実証的研究

An Empirical Study Of Self-supervised Learning Approaches For Object Detection With Transformers ( http://arxiv.org/abs/2205.05543v1 )

ライセンス: Link先を確認
Gokul Karthik Kumar, Sahal Shaji Mullappilly, Abhishek Singh Gehlot(参考訳) マスク付き言語モデリングのような自己教師付き学習(SSL)手法は、様々な自然言語処理タスクのためにトランスフォーマーモデルを事前訓練することで、大きなパフォーマンス向上を示した。 追従研究は、視覚変換器におけるマスク画像モデリングのような類似の手法を適用し、画像分類タスクの改善を実証した。 オブジェクト検出変換器 (DETR, Deformable DETR) では、変換器エンコーダモジュールが画像空間ではなく、畳み込みニューラルネットワーク (CNN) によって抽出された特徴空間を一般の視覚変換器のように入力するので、このような単純な自己監督法は徹底的に研究されない。 しかし、cnn特徴マップは依然として空間的関係を維持しており、この特性を利用して、事前学習およびマルチタスク学習環境でオブジェクト検出トランスフォーマのエンコーダをトレーニングする自己教師付き学習手法を設計する。 本稿では,画像再構成,マスク画像モデリング,jigsawに基づく一般的な自己教師あり手法について検討する。 iSAIDデータセットにおける予備実験は、事前学習とマルチタスク学習の両方において初期のエポックにおけるDETRの高速収束を示すが、Deformable DETRを用いたマルチタスク学習では同様の改善は見られない。 DETR と Deformable DETR の実験コードは https://github.com/gokulkarthik/detr と https://github.com/gokulkarthik/deformable-DETR でそれぞれ公開されている。

Self-supervised learning (SSL) methods such as masked language modeling have shown massive performance gains by pretraining transformer models for a variety of natural language processing tasks. The follow-up research adapted similar methods like masked image modeling in vision transformer and demonstrated improvements in the image classification task. Such simple self-supervised methods are not exhaustively studied for object detection transformers (DETR, Deformable DETR) as their transformer encoder modules take input in the convolutional neural network (CNN) extracted feature space rather than the image space as in general vision transformers. However, the CNN feature maps still maintain the spatial relationship and we utilize this property to design self-supervised learning approaches to train the encoder of object detection transformers in pretraining and multi-task learning settings. We explore common self-supervised methods based on image reconstruction, masked image modeling and jigsaw. Preliminary experiments in the iSAID dataset demonstrate faster convergence of DETR in the initial epochs in both pretraining and multi-task learning settings; nonetheless, similar improvement is not observed in the case of multi-task learning with Deformable DETR. The code for our experiments with DETR and Deformable DETR are available at https://github.com/gokulkarthik/detr and https://github.com/gokulkarthik/Deformable-DETR respectively.
翻訳日:2022-05-12 17:21:31 公開日:2022-05-11
# 関係性三重項抽出: 1 つのステップは十分

Relational Triple Extraction: One Step is Enough ( http://arxiv.org/abs/2205.05270v1 )

ライセンス: Link先を確認
Yu-Ming Shang, Heyan Huang, Xin Sun, Wei Wei, Xian-Ling Mao(参考訳) 非構造化テキストからリレーショナルトリプルを抽出することは、自然言語処理と知識グラフ構築において不可欠である。 既存のアプローチは通常、2つの基本的なステップを含む: (1) 頭と尾の実体の境界位置を見つける; (2) 特定のトークンを連結して三重項を形成する。 しかし、従来の手法のほとんど全てがエラー蓄積の問題に悩まされており、すなわち、ステップ(1)における各エンティティの境界認識誤差は、最終三重項に蓄積される。 そこで本研究では,三重抽出タスクを再検討する新たな視点を導入し,DirectRelというシンプルなモデルを提案する。 具体的には、まず文中のトークンシーケンスを列挙して候補エンティティを生成し、次に三重抽出タスクを"head $\rightarrow$ tail"二部グラフ上のリンク問題に変換する。 これにより、すべてのトリプルを1ステップで直接抽出することができる。 広く使われている2つのデータセットの広範な実験結果から、提案されたモデルは最先端のベースラインよりも優れた性能を示す。

Extracting relational triples from unstructured text is an essential task in natural language processing and knowledge graph construction. Existing approaches usually contain two fundamental steps: (1) finding the boundary positions of head and tail entities; (2) concatenating specific tokens to form triples. However, nearly all previous methods suffer from the problem of error accumulation, i.e., the boundary recognition error of each entity in step (1) will be accumulated into the final combined triples. To solve the problem, in this paper, we introduce a fresh perspective to revisit the triple extraction task, and propose a simple but effective model, named DirectRel. Specifically, the proposed model first generates candidate entities through enumerating token sequences in a sentence, and then transforms the triple extraction task into a linking problem on a "head $\rightarrow$ tail" bipartite graph. By doing so, all triples can be directly extracted in only one step. Extensive experimental results on two widely used datasets demonstrate that the proposed model performs better than the state-of-the-art baselines.
翻訳日:2022-05-12 17:17:49 公開日:2022-05-11
# ファウショットテキスト分類のための統一型プロンプトチューニングに向けて

Towards Unified Prompt Tuning for Few-shot Text Classification ( http://arxiv.org/abs/2205.05313v1 )

ライセンス: Link先を確認
Jianing Wang, Chengyu Wang, Fuli Luo, Chuanqi Tan, Minghui Qiu, Fei Yang, Qiuhui Shi, Songfang Huang, Ming Gao(参考訳) プロンプトに基づく微調整により、タスク固有のプロンプトを用いることで、数ショットのテキスト分類における事前訓練言語モデル(PLM)の性能が向上した。 しかし、PLMは事前トレーニング中にプロンプトスタイルの表現に慣れていないため、下流タスクでは数ショットの学習性能が制限される。 モデルが特定のNLPタスクに適応する前に、いくつかの素早い知識を得られることが望ましい。 我々は、Unified Prompt Tuning (UPT) フレームワークを提示し、非ターゲットNLPデータセットからのセマンティクスを明示的にキャプチャすることで、BERTスタイルのモデルのより少ないテキスト分類を実現する。 UPTでは、異なるNLPタスク間での協調学習のための新しいパラダイムであるPrompt-Options-Verbalizerが提案され、PLMはタスク不変な知識の獲得を余儀なくされた。 さらに,PLMの一般化能力を向上させるために,知識向上型選択マスケッド言語モデリングという自己教師型タスクを設計する。 複数のタスクにまたがるマルチタスク学習の後、plmは低リソース設定で、異なるターゲットタスクに対してより迅速な調整を行うことができる。 様々なNLPタスクに対する実験により、UTTはプロンプトベースファインチューニングの最先端を一貫して上回っていることが示された。

Prompt-based fine-tuning has boosted the performance of Pre-trained Language Models (PLMs) on few-shot text classification by employing task-specific prompts. Yet, PLMs are unfamiliar with prompt-style expressions during pre-training, which limits the few-shot learning performance on downstream tasks. It would be desirable if the models can acquire some prompting knowledge before adaptation to specific NLP tasks. We present the Unified Prompt Tuning (UPT) framework, leading to better few-shot text classification for BERT-style models by explicitly capturing prompting semantics from non-target NLP datasets. In UPT, a novel paradigm Prompt-Options-Verbalizer is proposed for joint prompt learning across different NLP tasks, forcing PLMs to capture task-invariant prompting knowledge. We further design a self-supervised task named Knowledge-enhanced Selective Masked Language Modeling to improve the PLM's generalization abilities for accurate adaptation to previously unseen tasks. After multi-task learning across multiple tasks, the PLM can be better prompt-tuned towards any dissimilar target tasks in low-resourced settings. Experiments over a variety of NLP tasks show that UPT consistently outperforms state-of-the-arts for prompt-based fine-tuning.
翻訳日:2022-05-12 17:17:32 公開日:2022-05-11
# building for tomorrow: テキスト分類器の時間的持続性の評価

Building for Tomorrow: Assessing the Temporal Persistence of Text Classifiers ( http://arxiv.org/abs/2205.05435v1 )

ライセンス: Link先を確認
Rabab Alkhalifa, Elena Kochkina, Arkaitz Zubiaga(参考訳) テキスト分類モデルの性能は、語彙変化のような自然に発生するデータの変化によって、訓練に使用されるデータよりも、分類される新しいデータが時間とともに低下する可能性がある。 これに対する解決策は、モデルを再トレーニングするために、新しいデータを継続的にラベル付けすることである。 すべての埋め込みモデルと分類アルゴリズムは、時間とともに同様のパフォーマンス低下を示し、いくつかのタスクやデータセットにおいて、パフォーマンス低下は他のタスクよりも顕著か? これらの課題に答えるために,6~19年にわたる3つのデータセットの縦断分類実験を行った。 これらの実験から得られた発見は、時間とともにパフォーマンスを維持することを目的として、テキスト分類モデルの設計を通知し、時間的に離れたトレーニングデータからトレーニングされた分類モデルにどの程度依存できるか、データセットの特徴がこれに与える影響を議論する。

Performance of text classification models can drop over time when new data to be classified is more distant in time from the data used for training, due to naturally occurring changes in the data, such as vocabulary change. A solution to this is to continually label new data to retrain the model, which is, however, often unaffordable to be performed regularly due to its associated cost. This raises important research questions on the design of text classification models that are intended to persist over time: do all embedding models and classification algorithms exhibit similar performance drops over time and is the performance drop more prominent in some tasks or datasets than others? With the aim of answering these research questions, we perform longitudinal classification experiments on three datasets spanning between 6 and 19 years. Findings from these experiments inform the design of text classification models with the aim of preserving performance over time, discussing the extent to which one can rely on classification models trained from temporally distant training data, as well as how the characteristics of the dataset impact this.
翻訳日:2022-05-12 17:17:09 公開日:2022-05-11
# aggpose:乳児ポーズ推定のための深部集約視覚トランスフォーマ

AggPose: Deep Aggregation Vision Transformer for Infant Pose Estimation ( http://arxiv.org/abs/2205.05277v1 )

ライセンス: Link先を確認
Xu Cao, Xiaoye Li, Liya Ma, Yi Huang, Xuan Feng, Zening Chen, Hongwu Zeng, Jianguo Cao(参考訳) 新生児の運動とポーズアセスメントにより、経験豊富な小児科医は神経発達障害を予測でき、関連する疾患に早期に介入することができる。 しかしながら、人間のポーズ推定手法の最新のAIアプローチのほとんどは大人に焦点を当てており、幼児ポーズ推定の公的なベンチマークが欠如している。 本稿では,幼児のポーズデータセットと人間のポーズ推定のためのDeep Aggregation Vision Transformerを提案することで,このギャップを埋める。 Transformer + MLPを特徴マップ内の高分解能層集約に一般化し、異なる視覚レベル間の情報融合を可能にする。 cocoポーズデータセットを事前トレーニングし,新たにリリースした大規模幼児ポーズ推定データセットに適用する。 その結果, aggposeは, 異なる解像度のマルチスケール特徴を効果的に学習でき, 乳児ポーズ推定の性能を大幅に向上できることがわかった。 AggPoseは幼児のポーズ推定データセットにおいてHRFormerとTokenPoseのハイブリッドモデルよりも優れていることを示す。 さらに,AggPose は COCO val で HRFormer を 0.7% AP で上回っている。 私たちのコードはgithub.com/SZAR-LAB/AggPoseで利用可能です。

Movement and pose assessment of newborns lets experienced pediatricians predict neurodevelopmental disorders, allowing early intervention for related diseases. However, most of the newest AI approaches for human pose estimation methods focus on adults, lacking publicly benchmark for infant pose estimation. In this paper, we fill this gap by proposing infant pose dataset and Deep Aggregation Vision Transformer for human pose estimation, which introduces a fast trained full transformer framework without using convolution operations to extract features in the early stages. It generalizes Transformer + MLP to high-resolution deep layer aggregation within feature maps, thus enabling information fusion between different vision levels. We pre-train AggPose on COCO pose dataset and apply it on our newly released large-scale infant pose estimation dataset. The results show that AggPose could effectively learn the multi-scale features among different resolutions and significantly improve the performance of infant pose estimation. We show that AggPose outperforms hybrid model HRFormer and TokenPose in the infant pose estimation dataset. Moreover, our AggPose outperforms HRFormer by 0.7% AP on COCO val pose estimation on average. Our code is available at github.com/SZAR-LAB/AggPose.
翻訳日:2022-05-12 17:16:16 公開日:2022-05-11
# AutoLC:リモートセンシング画像ランドコーバー分類のための検索軽量化とトップパフォーマンスアーキテクチャ

AutoLC: Search Lightweight and Top-Performing Architecture for Remote Sensing Image Land-Cover Classification ( http://arxiv.org/abs/2205.05369v1 )

ライセンス: Link先を確認
Chenyu Zheng, Junjue Wang, Ailong Ma, Yanfei Zhong(参考訳) 土地被覆分類は、リモートセンシングコミュニティにおいて、長い間ホットで困難な課題だった。 大規模な高分解能リモートセンシング(HRS)画像が利用可能であり、手動で自動設計された畳み込みニューラルネットワーク(CNN)は、近年、HRSの土地被覆分類において高い潜在能力を示している。 特に、前者は、軽量なアーキテクチャを生成できる間、より良いパフォーマンスを達成できる。 残念ながら、どちらも欠点があります。 一方,自然画像処理では手作業によるcnnがほぼ提案されているため,hrs画像の処理は非常に冗長で非効率になる。 一方,高密度予測タスクのためのニューラルアーキテクチャサーチ(NAS)技術は主にエンコーダ・デコーダアーキテクチャに基づいており,エンコーダの自動設計にのみ焦点をあてているため,複雑なHRSシーンに直面する場合の洗練されたマッピングの復元が依然として困難である。 それらの欠陥を克服し,HRSの土地被覆分類問題を改善するために,二つの手法の利点を組み合わせたAutoLCを提案する。 まず,階層型検索空間を考案し,勾配型検索戦略に基づく軽量エンコーダを得る。 第二に、検索したエンコーダ自体に適応する軽量だが高性能なデコーダを慎重に設計する。 最後に、LoveDAランドカバーデータセットの実験結果から、我々のAutoLC法は、非常に少ない計算量で、最先端のマニュアルおよび自動手法よりも優れていることを示した。

Land-cover classification has long been a hot and difficult challenge in remote sensing community. With massive High-resolution Remote Sensing (HRS) images available, manually and automatically designed Convolutional Neural Networks (CNNs) have already shown their great latent capacity on HRS land-cover classification in recent years. Especially, the former can achieve better performance while the latter is able to generate lightweight architecture. Unfortunately, they both have shortcomings. On the one hand, because manual CNNs are almost proposed for natural image processing, it becomes very redundant and inefficient to process HRS images. On the other hand, nascent Neural Architecture Search (NAS) techniques for dense prediction tasks are mainly based on encoder-decoder architecture, and just focus on the automatic design of the encoder, which makes it still difficult to recover the refined mapping when confronting complicated HRS scenes. To overcome their defects and tackle the HRS land-cover classification problems better, we propose AutoLC which combines the advantages of two methods. First, we devise a hierarchical search space and gain the lightweight encoder underlying gradient-based search strategy. Second, we meticulously design a lightweight but top-performing decoder that is adaptive to the searched encoder of itself. Finally, experimental results on the LoveDA land-cover dataset demonstrate that our AutoLC method outperforms the state-of-art manual and automatic methods with much less computational consumption.
翻訳日:2022-05-12 17:15:55 公開日:2022-05-11
# READ: 自動運転のための大規模ニューラルシーンレンダリング

READ: Large-Scale Neural Scene Rendering for Autonomous Driving ( http://arxiv.org/abs/2205.05509v1 )

ライセンス: Link先を確認
Zhuopeng Li, Lu Li, Zeyu Ma, Ping Zhang, Junbo Chen, Jianke Zhu(参考訳) フリービューフォトリアリスティック画像の合成はマルチメディアにおける重要な課題である。 高度運転支援システム(ADAS)の開発と、その自動運転車への応用により、様々なシナリオの実験が課題となる。 写実的なストリートシーンは画像から画像への変換によって合成できるが、3d情報がないためコヒーレントなシーンは生成できない。 本稿では,多種多様なサンプリング手法を用いて,pc上での大規模運転シナリオを合成可能な自律運転シーン~(read)を合成する,大規模ニューラルネットワークレンダリング手法を提案する。 運転シナリオを表現するために,スパースポイントクラウドからニューラルネットワーク記述子を学習するための「オメガ」レンダリングネットワークを提案する。 我々のモデルは現実的な運転シーンを合成できるだけでなく、運転シーンの縫い付けや編集もできる。 実験により,我々のモデルは大規模運転シナリオにおいて良好に動作することが示された。

Synthesizing free-view photo-realistic images is an important task in multimedia. With the development of advanced driver assistance systems~(ADAS) and their applications in autonomous vehicles, experimenting with different scenarios becomes a challenge. Although the photo-realistic street scenes can be synthesized by image-to-image translation methods, which cannot produce coherent scenes due to the lack of 3D information. In this paper, a large-scale neural rendering method is proposed to synthesize the autonomous driving scene~(READ), which makes it possible to synthesize large-scale driving scenarios on a PC through a variety of sampling schemes. In order to represent driving scenarios, we propose an {\omega} rendering network to learn neural descriptors from sparse point clouds. Our model can not only synthesize realistic driving scenes but also stitch and edit driving scenes. Experiments show that our model performs well in large-scale driving scenarios.
翻訳日:2022-05-12 17:15:29 公開日:2022-05-11
# (参考訳) 少ないショットパラメーター効率のファインチューニングは文脈学習より優れ、より正確である

Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning ( http://arxiv.org/abs/2205.05638v1 )

ライセンス: CC BY 4.0
Haokun Liu, Derek Tam, Mohammed Muqeeth, Jay Mohta, Tenghao Huang, Mohit Bansal, Colin Raffel(参考訳) few-shot in-context learning (icl)は、事前学習された言語モデルが、少数のトレーニングサンプルを入力の一部として入力することで、勾配ベースのトレーニングなしで、事前学習済みのタスクを実行可能にする。 ICLは、予測が行われるたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。 パラメータ効率の良い微調整(例えば、アダプタモジュール、プロンプトチューニング、スパース更新メソッドなど)は、モデルの新たなタスク実行を可能にするために、小さなパラメータセットをトレーニングする代替パラダイムを提供する。 本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。 その過程で,学習ベクトルによるアクティベーションをスケールする(ia)$^3$と呼ばれる新しいパラメータ効率の良い微調整法を導入する。 また、タスク固有のチューニングや修正なしに新しいタスクに適用できるT-Fewと呼ばれるT0モデルに基づく簡単なレシピを提案する。 我々は、RAFTベンチマークに適用し、超人的性能を初めて達成し、最先端の精度を6%向上させることにより、完全に見えないタスクに対するT-Fewの有効性を検証する。 私たちの実験で使われたコードはすべて公開されています。

Few-shot in-context learning (ICL) enables pre-trained language models to perform a previously-unseen task without any gradient-based training by feeding a small number of training examples as part of the input. ICL incurs substantial computational, memory, and storage costs because it involves processing all of the training examples every time a prediction is made. Parameter-efficient fine-tuning (e.g. adapter modules, prompt tuning, sparse update methods, etc.) offers an alternative paradigm where a small set of parameters are trained to enable a model to perform the new task. In this paper, we rigorously compare few-shot ICL and parameter-efficient fine-tuning and demonstrate that the latter offers better accuracy as well as dramatically lower computational costs. Along the way, we introduce a new parameter-efficient fine-tuning method called (IA)$^3$ that scales activations by learned vectors, attaining stronger performance while only introducing a relatively tiny amount of new parameters. We also propose a simple recipe based on the T0 model called T-Few that can be applied to new tasks without task-specific tuning or modifications. We validate the effectiveness of T-Few on completely unseen tasks by applying it to the RAFT benchmark, attaining super-human performance for the first time and outperforming the state-of-the-art by 6% absolute. All of the code used in our experiments is publicly available.
翻訳日:2022-05-12 17:12:41 公開日:2022-05-11
# Re-Annotatorとしての事前学習言語モデル

Pre-trained Language Models as Re-Annotators ( http://arxiv.org/abs/2205.05368v1 )

ライセンス: Link先を確認
Chang Shu(参考訳) アノテーションのノイズはデータセットで広く見られるが、欠陥のあるコーパスを手動で修正するのは時間がかかり、エラーが発生しやすい。 したがって、事前訓練された言語モデルにおける事前知識と全てのアノテーションの統一性を考慮し、(1)アノテーションの信頼性を示すアノテーション不整合検出、(2)異常アノテーションの修正を行うアノテーションエラー補正という2つのタスクを通じて、コーパス内のアノテーションノイズを自動的に低減しようとする。 本研究では,事前訓練された言語モデルから意味センシティブなアノテーション表現を取得する方法を検討する。 我々は,隣接する一貫性に基づくアノテーションの不整合の可能性を明らかにするために,新たな信頼度スコアを提案した。 次に,事前学習言語モデルに基づく分類器を,アノテーション修正のためのクロスバリデーションで微調整する。 アノテーション補正器は,(1)ケルネル密度推定によるソフトラベリングと(2)新しい遠点のコントラスト損失の2つのアプローチでさらに詳しく検討する。 関係抽出における再アノテーションについて検討し、文書レベルの再アノテーションを評価するために新しい手動修正データセットRe-DocREDを作成する。 提案する信頼度スコアは、tacredとdocredの非一貫性を検出する際に、93.4と72.5のバイナリf1を達成する有望な一致を示す。 さらに、遠隔ピアコントラスト学習と不確実なラベルに基づく近隣認識分類器は、それぞれTACREDおよびDocREDのアノテーションの修正において、マクロF1を66.2および57.8まで達成する。 これらの改善は単に理論的なものではなく、自動分断されたトレーニングセットは最先端の関係抽出モデルで最大3.6%のパフォーマンス改善を示す。

Annotation noise is widespread in datasets, but manually revising a flawed corpus is time-consuming and error-prone. Hence, given the prior knowledge in Pre-trained Language Models and the expected uniformity across all annotations, we attempt to reduce annotation noise in the corpus through two tasks automatically: (1) Annotation Inconsistency Detection that indicates the credibility of annotations, and (2) Annotation Error Correction that rectifies the abnormal annotations. We investigate how to acquire semantic sensitive annotation representations from Pre-trained Language Models, expecting to embed the examples with identical annotations to the mutually adjacent positions even without fine-tuning. We proposed a novel credibility score to reveal the likelihood of annotation inconsistencies based on the neighbouring consistency. Then, we fine-tune the Pre-trained Language Models based classifier with cross-validation for annotation correction. The annotation corrector is further elaborated with two approaches: (1) soft labelling by Kernel Density Estimation and (2) a novel distant-peer contrastive loss. We study the re-annotation in relation extraction and create a new manually revised dataset, Re-DocRED, for evaluating document-level re-annotation. The proposed credibility scores show promising agreement with human revisions, achieving a Binary F1 of 93.4 and 72.5 in detecting inconsistencies on TACRED and DocRED respectively. Moreover, the neighbour-aware classifiers based on distant-peer contrastive learning and uncertain labels achieve Macro F1 up to 66.2 and 57.8 in correcting annotations on TACRED and DocRED respectively. These improvements are not merely theoretical: Rather, automatically denoised training sets demonstrate up to 3.6% performance improvement for state-of-the-art relation extraction models.
翻訳日:2022-05-12 16:47:47 公開日:2022-05-11
# Few-Shot Claim Veracity 分類におけるPairwise Semantic difference の集約

Aggregating Pairwise Semantic Differences for Few-Shot Claim Veracity Classification ( http://arxiv.org/abs/2205.05646v1 )

ライセンス: Link先を確認
Xia Zeng, Arkaitz Zubiaga(参考訳) 自動ファクトチェックパイプラインの一部として、クレームの正確性分類タスクは、クレームが関連する証拠の一部によってサポートされているかどうかを判断する。 ラベル付きクレーム-エビデンスペアの収集の複雑さは、特に新しいドメインを扱う場合、データセットの不足につながる。 本稿では, クレーム・エビデンス・ペアのペアのセマンティックな差異を集約する, 数ショットのクレームの精度分類のためのベクトルベースの新しい手法SEEDを紹介する。 我々は、クラス内のクレーム-エビデンスペアの平均意味的差異をキャプチャするクラス代表ベクトルをシミュレートし、新しいインスタンスの分類に使用できるという仮説に基づいて構築する。 本手法の性能を,言語モデルのパープレキシティを活かした最先端の可逆性分類法と同様に,微調整されたbert/robertaモデルを含む競合ベースラインと比較した。 FEVERとSCIFACTデータセットで実施された実験は、数ショット設定で競合ベースラインよりも一貫して改善されている。 私たちのコードは利用可能です。

As part of an automated fact-checking pipeline, the claim veracity classification task consists in determining if a claim is supported by an associated piece of evidence. The complexity of gathering labelled claim-evidence pairs leads to a scarcity of datasets, particularly when dealing with new domains. In this paper, we introduce SEED, a novel vector-based method to few-shot claim veracity classification that aggregates pairwise semantic differences for claim-evidence pairs. We build on the hypothesis that we can simulate class representative vectors that capture average semantic differences for claim-evidence pairs in a class, which can then be used for classification of new instances. We compare the performance of our method with competitive baselines including fine-tuned BERT/RoBERTa models, as well as the state-of-the-art few-shot veracity classification method that leverages language model perplexity. Experiments conducted on the FEVER and SCIFACT datasets show consistent improvements over competitive baselines in few-shot settings. Our code is available.
翻訳日:2022-05-12 16:47:15 公開日:2022-05-11
# AutoKE:科学機械学習のための自動知識埋め込みフレームワーク

AutoKE: An automatic knowledge embedding framework for scientific machine learning ( http://arxiv.org/abs/2205.05390v1 )

ライセンス: Link先を確認
Mengge Du, Yuntian Chen, Dongxiao Zhang(参考訳) 知識埋め込みの手法としてニューラルネットワークに物理的制約を課すことは、制御方程式によって記述される物理問題の解決において大きな進歩を遂げた。 しかし、多くの工学的問題において、制御方程式はしばしば複素部分微分や確率的物理場を含む複雑な形式を持ち、実装の観点から大きな不便をもたらす。 本稿では,科学的な機械学習フレームワークであるautokeを提案し,このフレームワークが物理的知識を組み込むプロセスを効果的に自動化できることを示す例として,貯水池フロー問題を取り上げる。 AutoKEでは、関心の物理的変数を予測するために、ディープニューラルネットワーク(DNN)で構成されるエミュレータが構築されている。 任意に複雑な方程式を解析し、式パーサモジュールを介して計算グラフに自動変換することができ、自動微分によりエミュレーターから支配方程式への適合性を評価する。 さらに、損失関数の固定重みをラグランジアン双対法を組み込むことにより適応重みに置き換える。 ニューラルネットワーク検索(nas)もautokeに導入され、特定の問題に応じてエミュレータの最適なネットワークアーキテクチャを選択する。 最後に,エミュレータのスケーラビリティを向上させるために転送学習を適用する。 実験では、このフレームワークは様々な物理的問題によって検証され、物理的な知識を重い手書きコードなしでエミュレータに自動的に埋め込むことができる。 その結果,エミュレータは正確な予測を行うだけでなく,伝達学習による高効率の類似問題にも適用可能であることがわかった。

Imposing physical constraints on neural networks as a method of knowledge embedding has achieved great progress in solving physical problems described by governing equations. However, for many engineering problems, governing equations often have complex forms, including complex partial derivatives or stochastic physical fields, which results in significant inconveniences from the perspective of implementation. In this paper, a scientific machine learning framework, called AutoKE, is proposed, and a reservoir flow problem is taken as an instance to demonstrate that this framework can effectively automate the process of embedding physical knowledge. In AutoKE, an emulator comprised of deep neural networks (DNNs) is built for predicting the physical variables of interest. An arbitrarily complex equation can be parsed and automatically converted into a computational graph through the equation parser module, and the fitness of the emulator to the governing equation is evaluated via automatic differentiation. Furthermore, the fixed weights in the loss function are substituted with adaptive weights by incorporating the Lagrangian dual method. Neural architecture search (NAS) is also introduced into the AutoKE to select an optimal network architecture of the emulator according to the specific problem. Finally, we apply transfer learning to enhance the scalability of the emulator. In experiments, the framework is verified by a series of physical problems in which it can automatically embed physical knowledge into an emulator without heavy hand-coding. The results demonstrate that the emulator can not only make accurate predictions, but also be applied to similar problems with high efficiency via transfer learning.
翻訳日:2022-05-12 16:46:55 公開日:2022-05-11
# さっさと投げるな! 公正意思決定におけるラベルなしデータの有用性

Don't Throw it Away! The Utility of Unlabeled Data in Fair Decision Making ( http://arxiv.org/abs/2205.04790v2 )

ライセンス: Link先を確認
Miriam Rateike, Ayan Majumdar, Olga Mineeva, Krishna P. Gummadi, Isabel Valera(参考訳) 意思決定アルゴリズムは、実際には、様々なバイアスを示すデータに基づいて訓練されることが多い。 意思決定者は、しばしば、社会的に健全なグループに均等に分散される、または偏見のないと想定される、根本的真実的目標に基づいて決定を下そうとする。 多くの実践的な環境では、地平線を直接観測することはできず、代わりに、データ内の地平線(すなわちバイアス付きラベル)の偏りのあるプロキシ尺度を頼らなければならない。 さらに、データはしばしば選択的にラベル付けされ、例えばバイアスラベルでさえ、ポジティブな判断を受けたデータのごく一部しか観察されない。 ラベルと選択バイアスを克服するために、最近の研究は、確率的かつ探索的な決定政策を学習することを提案する。 一 各段階における新政策のオンライン研修及び 二 パフォーマンスの制約として公正を課すこと。 しかし、既存のアプローチではラベル付きデータのみを使用し、大量のラベル付きデータを無視し、異なるタイミングで学習された決定ポリシーの安定性とばらつきに悩まされる。 本稿では,実用的公正意思決定のための変分オートエンコーダに基づく新しい手法を提案する。 本手法はラベル付きデータとラベルなしデータの両方を活用する非バイアスデータ表現を学習し,その表現を用いてオンラインプロセスでポリシーを学習する。 合成データを用いて,本手法が低分散の接地面に応じて最適(フェア)ポリシーに収束することを実証的に検証した。 実世界の実験では、我々のトレーニングアプローチはより安定した学習プロセスを提供するだけでなく、より公平で実用性の高いポリシーも提供します。

Decision making algorithms, in practice, are often trained on data that exhibits a variety of biases. Decision-makers often aim to take decisions based on some ground-truth target that is assumed or expected to be unbiased, i.e., equally distributed across socially salient groups. In many practical settings, the ground-truth cannot be directly observed, and instead, we have to rely on a biased proxy measure of the ground-truth, i.e., biased labels, in the data. In addition, data is often selectively labeled, i.e., even the biased labels are only observed for a small fraction of the data that received a positive decision. To overcome label and selection biases, recent work proposes to learn stochastic, exploring decision policies via i) online training of new policies at each time-step and ii) enforcing fairness as a constraint on performance. However, the existing approach uses only labeled data, disregarding a large amount of unlabeled data, and thereby suffers from high instability and variance in the learned decision policies at different times. In this paper, we propose a novel method based on a variational autoencoder for practical fair decision-making. Our method learns an unbiased data representation leveraging both labeled and unlabeled data and uses the representations to learn a policy in an online process. Using synthetic data, we empirically validate that our method converges to the optimal (fair) policy according to the ground-truth with low variance. In real-world experiments, we further show that our training approach not only offers a more stable learning process but also yields policies with higher fairness as well as utility than previous approaches.
翻訳日:2022-05-12 16:46:33 公開日:2022-05-11
# アニメーション線形射影を用いた非線形モデルの局所的説明

Exploring Local Explanations of Nonlinear Models Using Animated Linear Projections ( http://arxiv.org/abs/2205.05359v1 )

ライセンス: Link先を確認
Nicholas Spyrison and Dianne Cook(参考訳) 非線形モデルの予測能力の増大は、その項の解釈可能性のコストがかかる。 このトレードオフは、eXplainable AI(XAI)の出現につながった。 xaiは、モデルがどのように予測器を使って局所的な説明で予測し、あるインスタンスの近傍における線形特徴の重要性をポイント見積りするかについて、光を当てようとしている。 これらは線形射影と見なすことができ、予測モデル表面を横断する予測を行うために使われる特徴間の相互作用をよりよく理解するためにさらに研究することができる。 ここでは, いずれの事例においても, 対話的線形補間を行い, カテゴリー的(ペンギン種, チョコレート種) および定量的(靴・足の給与, 住宅価格) な出力の例を示す。 これらのメソッドは、CRANで利用可能なRパッケージのcheemで実装されている。

The increased predictive power of nonlinear models comes at the cost of interpretability of its terms. This trade-off has led to the emergence of eXplainable AI (XAI). XAI attempts to shed light on how models use predictors to arrive at a prediction with local explanations, a point estimate of the linear feature importance in the vicinity of one instance. These can be considered linear projections and can be further explored to understand better the interactions between features used to make predictions across the predictive model surface. Here we describe interactive linear interpolation used for exploration at any instance and illustrate with examples with categorical (penguin species, chocolate types) and quantitative (soccer/football salaries, house prices) output. The methods are implemented in the R package cheem, available on CRAN.
翻訳日:2022-05-12 16:46:08 公開日:2022-05-11