このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220403となっている論文です。

PDF登録状況(公開日: 20220403)

TitleAuthorsAbstract論文公表日・翻訳日
# 完全畳み込みニューラルネットワークを用いた医用画像分割のための転送学習の批判的評価

Critical Assessment of Transfer Learning for Medical Image Segmentation with Fully Convolutional Neural Networks ( http://arxiv.org/abs/2006.00356v2 )

ライセンス: Link先を確認
Davood Karimi, Simon K. Warfield, Ali Gholipour(参考訳) 転送学習は機械学習モデルのトレーニングに広く使われている。 本稿では,医用画像分割のための完全畳み込みネットワーク(FCN)の訓練における伝達学習の役割について検討する。 実験の結果,移動学習は目標タスクのトレーニング時間を短縮するが,セグメンテーション精度の向上はタスク/データ依存度が高いことがわかった。 セグメンテーションタスクがより困難であり、目標トレーニングデータがより小さい場合には、精度の大幅な改善が観察される。 医用画像分割訓練において, FCNの畳み込みフィルタがほとんど変化せず, 収束時にもランダムに見えることが観察された。 さらに,ネットワークのエンコーダ部をランダムな値で凍結し,デコーダ部のみをトレーニングすることにより,極めて正確なFCNを構築することができることを示す。 少なくとも医療画像のセグメンテーションでは、この発見はエンコーダセクションがデータ/タスク固有の表現を学ぶ必要があるという共通の信念に挑戦する。 我々は,fcn表現の進化を考察し,転校学習がトレーニングダイナミクスに及ぼす影響についてより深い知見を得る。 解析の結果, 転置学習によるfcnsはランダム初期化を施したfcnsと異なる表現を学習するが, 転置学習によるfcnsの変動はランダム初期化を施したfcnsと同等であることがわかった。 さらに、機能の再利用は初期のエンコーダ層に限定されない。 これらの知見は新たな洞察を与え、医用画像分割のためのFCNの訓練方法を提案する。

Transfer learning is widely used for training machine learning models. Here, we study the role of transfer learning for training fully convolutional networks (FCNs) for medical image segmentation. Our experiments show that although transfer learning reduces the training time on the target task, the improvement in segmentation accuracy is highly task/data-dependent. Larger improvements in accuracy are observed when the segmentation task is more challenging and the target training data is smaller. We observe that convolutional filters of an FCN change little during training for medical image segmentation, and still look random at convergence. We further show that quite accurate FCNs can be built by freezing the encoder section of the network at random values and only training the decoder section. At least for medical image segmentation, this finding challenges the common belief that the encoder section needs to learn data/task-specific representations. We examine the evolution of FCN representations to gain a better insight into the effects of transfer learning on the training dynamics. Our analysis shows that although FCNs trained via transfer learning learn different representations than FCNs trained with random initialization, the variability among FCNs trained via transfer learning can be as high as that among FCNs trained with random initialization. Moreover, feature reuse is not restricted to the early encoder layers; rather, it can be more significant in deeper layers. These findings offer new insights and suggest alternative ways of training FCNs for medical image segmentation.
翻訳日:2022-11-26 17:50:26 公開日:2022-04-03
# マルコフデータのオンライン非負CP辞書学習

Online nonnegative CP-dictionary learning for Markovian data ( http://arxiv.org/abs/2009.07612v4 )

ライセンス: Link先を確認
Hanbaek Lyu and Christopher Strohmeier and Deanna Needell(参考訳) Online Tensor Factorization (OTF)は、マルチモーダルデータのストリーミングから低次元の解釈可能な特徴を学習するための基本的なツールである。 OTFの様々なアルゴリズム的・理論的側面が近年研究されているが、目的関数の定常点に対する一般収束保証は、i.d.の場合においても、不整合や疎結合の仮定を伴わない。 本研究では,一般制約下でのテンソル値データのストリームからCANDECOMP/PARAFAC(CP)ベースを学習するアルゴリズムを提案する。 このアルゴリズムは、データテンソルの列がマルコフ連鎖によって生成されるという仮説の下で、目的関数の定常点の集合にほぼ確実に収束することを証明する。 我々の設定は、古典的なi.d.ケースと、独立またはMCMCサンプリングによって生成されたデータストリームを含む幅広いアプリケーションコンテキストをカバーする。 この結果は,大域収束解析におけるOTFとオンライン行列分解のギャップを埋める。 実験により,本アルゴリズムは合成データと実世界のデータの両方において,非負のテンソル分解タスクの標準アルゴリズムよりもはるかに高速に収束することを示す。 また, 画像, 映像, 時系列データを用いて, テンソル構造を利用して同一テンソルデータから定性的に異なるcpディクショナリを学習する方法を示す。

Online Tensor Factorization (OTF) is a fundamental tool in learning low-dimensional interpretable features from streaming multi-modal data. While various algorithmic and theoretical aspects of OTF have been investigated recently, a general convergence guarantee to stationary points of the objective function without any incoherence or sparsity assumptions is still lacking even for the i.i.d. case. In this work, we introduce a novel algorithm that learns a CANDECOMP/PARAFAC (CP) basis from a given stream of tensor-valued data under general constraints, including nonnegativity constraints that induce interpretability of the learned CP basis. We prove that our algorithm converges almost surely to the set of stationary points of the objective function under the hypothesis that the sequence of data tensors is generated by an underlying Markov chain. Our setting covers the classical i.i.d. case as well as a wide range of application contexts including data streams generated by independent or MCMC sampling. Our result closes a gap between OTF and Online Matrix Factorization in global convergence analysis \commHL{for CP-decompositions}. Experimentally, we show that our algorithm converges much faster than standard algorithms for nonnegative tensor factorization tasks on both synthetic and real-world data. Also, we demonstrate the utility of our algorithm on a diverse set of examples from image, video, and time-series data, illustrating how one may learn qualitatively different CP-dictionaries from the same tensor data by exploiting the tensor structure in multiple ways.
翻訳日:2022-10-17 23:37:37 公開日:2022-04-03
# mcw-net:マルチレベル接続と広域非ローカルブロックを用いた単一イメージデレーシング

MCW-Net: Single Image Deraining with Multi-level Connections and Wide Regional Non-local Blocks ( http://arxiv.org/abs/2009.13990v4 )

ライセンス: Link先を確認
Yeachan Park, Myeongho Jeon, Junho Lee and Myungjoo Kang(参考訳) 最近の畳み込みニューラルネットワークに基づく研究は、雨の流れを捉えることに成功している。 しかし、詳細回復の難しさはまだ残っている。 本稿では,降雨画像の背景テクスチャを適切に復元するために,マルチレベル接続と広域非局所ブロックネットワーク(MCW-Net)を提案する。 既存のエンコーダデコーダベースのイメージデライニングモデルとは異なり、mcw-netは以下の2つの手法により、追加のブランチなしで情報利用を最大化することでパフォーマンスを向上させる。 第1の方法は、エンコーダネットワークのマルチレベル特徴をデコーダネットワークに繰り返し接続するマルチレベル接続である。 マルチレベル接続はデコードプロセスにすべてのレベルの特徴情報を使用するよう促す。 マルチレベル接続では、チャネル毎の注意が、現在のレベルのデコードプロセスにおいてどのレベルの特徴が重要であるかを知るために考慮される。 第2の方法は広域非局所ブロックである。 降雨ストリークは主に垂直分布を示すため,画像のグリッドを水平方向のパッチに分割し,各地域に対して非局所的な操作を施し,豪雨のない背景情報を探索する。 人工および実世界の雨のデータセットにおける実験結果は、提案モデルが既存の最先端モデルを大幅に上回っていることを示している。 さらに, 共同デラリニングとセグメンテーション実験の結果, 我々のモデルが他の視覚タスクに効果的に寄与していることが証明された。

A recent line of convolutional neural network-based works has succeeded in capturing rain streaks. However, difficulties in detailed recovery still remain. In this paper, we present a multi-level connection and wide regional non-local block network (MCW-Net) to properly restore the original background textures in rainy images. Unlike existing encoder-decoder-based image deraining models that improve performance with additional branches, MCW-Net improves performance by maximizing information utilization without additional branches through the following two proposed methods. The first method is a multi-level connection that repeatedly connects multi-level features of the encoder network to the decoder network. Multi-level connection encourages the decoding process to use the feature information of all levels. In multi-level connection, channel-wise attention is considered to learn which level of features is important in the decoding process of the current level. The second method is a wide regional non-local block. As rain streaks primarily exhibit a vertical distribution, we divide the grid of the image into horizontally-wide patches and apply a non-local operation to each region to explore the rich rain-free background information. Experimental results on both synthetic and real-world rainy datasets demonstrate that the proposed model significantly outperforms existing state-of-the-art models. Furthermore, the results of the joint deraining and segmentation experiment prove that our model contributes effectively to other vision tasks.
翻訳日:2022-10-13 06:37:00 公開日:2022-04-03
# グリッパー・オブジェクト相互作用の動的表現によるハイ・DOFリーチング・アンド・グラスピングの学習

Learning High-DOF Reaching-and-Grasping via Dynamic Representation of Gripper-Object Interaction ( http://arxiv.org/abs/2204.13998v1 )

ライセンス: Link先を確認
Qijin She, Ruizhen Hu, Juzhan Xu, Min Liu, Kai Xu, and Hui Huang(参考訳) 我々は, 深い強化学習を伴う握り動作の学習共同計画を通じて, 高DOFリーチ・グラスピングの課題にアプローチする。 そこで本研究では, 対象物体とグリップの空間的相互作用を特徴付ける把握状態の効果的な表現法を提案する。 グリップとオブジェクトの相互作用を表現するために,2つの近接した3次元幾何学オブジェクト間のボロノイ図であるInteraction Bisector Surface (IBS)を採用した。 IBSは, 対象物に対する空間的関係で各指のきめ細かい制御を適切に通知するため, 状態表現として驚くほど有効であることがわかった。 高速なIBS近似、ベクトルベース報酬、効果的なトレーニング戦略などの技術的貢献とともに、優れたサンプル効率、動的適応性、クロスカテゴリ一般性を備えた高DOFグルーピングの強力な制御モデル学習を容易にする。 実験により, 滑らかな把持動作を伴う複雑な形状に対して, 高品質でデクタラスな把持が得られた。

We approach the problem of high-DOF reaching-and-grasping via learning joint planning of grasp and motion with deep reinforcement learning. To resolve the sample efficiency issue in learning the high-dimensional and complex control of dexterous grasping, we propose an effective representation of grasping state characterizing the spatial interaction between the gripper and the target object. To represent gripper-object interaction, we adopt Interaction Bisector Surface (IBS) which is the Voronoi diagram between two close by 3D geometric objects and has been successfully applied in characterizing spatial relations between 3D objects. We found that IBS is surprisingly effective as a state representation since it well informs the fine-grained control of each finger with spatial relation against the target object. This novel grasp representation, together with several technical contributions including a fast IBS approximation, a novel vector-based reward and an effective training strategy, facilitate learning a strong control model of high-DOF grasping with good sample efficiency, dynamic adaptability, and cross-category generality. Experiments show that it generates high-quality dexterous grasp for complex shapes with smooth grasping motions.
翻訳日:2022-05-09 00:05:24 公開日:2022-04-03
# (参考訳) クエリ理解のためのグラフ強化BERT

Graph Enhanced BERT for Query Understanding ( http://arxiv.org/abs/2204.06522v1 )

ライセンス: CC BY 4.0
Juanhui Li, Yao Ma, Wei Zeng, Suqi Cheng, Jiliang Tang, Shuaiqiang Wang, Dawei Yin(参考訳) クエリ理解は、ユーザの検索意図を探求し、ユーザが最も望ましい情報を見つけるのを促進する上で、重要な役割を果たす。 しかし、短大であいまいなクエリから意味情報を取り込む必要があり、タスク固有のラベル付きデータを必要とすることが多いため、本質的に困難である。 近年,PLM(Pre-trained Language Model)は,大規模コーパスから一般的な意味情報を抽出できるため,様々な自然言語処理タスクを進歩させている。 したがって、問合せ理解に PLM を採用する前例のない機会がある。 しかし、クエリ理解の目的と既存の事前学習戦略との間にはギャップがある - クエリ理解の目標は検索性能の向上であり、既存の戦略はこの目標をほとんど考慮しない。 したがって、クエリ理解に直接適用することは最適ではない。 一方、検索ログには、クエリ間のユーザークリックと、コンテンツを超えたクエリに関するリッチなユーザの検索行動情報を提供するurlが含まれている。 そこで本稿では,検索ログを探索することで,このギャップを埋めることを目的とする。 特に,検索ログを事前学習に組み込むために,まずノードがクエリであるクエリグラフを構築し,同じURLをクリックした場合に2つのクエリが接続される。 次に,クエリコンテンツとクエリグラフの両方を活用可能な,グラフ強化事前学習フレームワークGE-BERTを提案する。 言い換えれば、GE-BERTはクエリのセマンティック情報とユーザの行動情報の両方をキャプチャできる。 様々な問合せ理解タスクに関する大規模な実験により,提案手法の有効性が示された。

Query understanding plays a key role in exploring users' search intents and facilitating users to locate their most desired information. However, it is inherently challenging since it needs to capture semantic information from short and ambiguous queries and often requires massive task-specific labeled data. In recent years, pre-trained language models (PLMs) have advanced various natural language processing tasks because they can extract general semantic information from large-scale corpora. Therefore, there are unprecedented opportunities to adopt PLMs for query understanding. However, there is a gap between the goal of query understanding and existing pre-training strategies -- the goal of query understanding is to boost search performance while existing strategies rarely consider this goal. Thus, directly applying them to query understanding is sub-optimal. On the other hand, search logs contain user clicks between queries and urls that provide rich users' search behavioral information on queries beyond their content. Therefore, in this paper, we aim to fill this gap by exploring search logs. In particular, to incorporate search logs into pre-training, we first construct a query graph where nodes are queries and two queries are connected if they lead to clicks on the same urls. Then we propose a novel graph-enhanced pre-training framework, GE-BERT, which can leverage both query content and the query graph. In other words, GE-BERT can capture both the semantic information and the users' search behavioral information of queries. Extensive experiments on various query understanding tasks have demonstrated the effectiveness of the proposed framework.
翻訳日:2022-04-17 08:00:07 公開日:2022-04-03
# (参考訳) 文書画像の教師なし背景分離のための信頼スコア

Confidence Score for Unsupervised Foreground Background Separation of Document Images ( http://arxiv.org/abs/2204.04044v1 )

ライセンス: CC BY 4.0
Soumyadeep Dey and Pratik Jawanpuria(参考訳) 前景背景分離は文書画像解析において重要な問題である。 一般的な教師なし双対化法(ソーヴォーラのアルゴリズムなど)では、ピクセルを前景や背景として分類するために適応しきい値を用いる。 本研究では,このようなアルゴリズムにおける分類の信頼度スコアを計算するための新しい手法を提案する。 このスコアは、予測の信頼性レベルに関する洞察を提供する。 提案手法の計算複雑性は基礎となる2値化アルゴリズムと同じである。 提案するスコアは,文書のバイナリ化,文書画像のクリーンアップ,テクスチャの追加など,さまざまなアプリケーションにおいて有用性を示す。

Foreground-background separation is an important problem in document image analysis. Popular unsupervised binarization methods (such as the Sauvola's algorithm) employ adaptive thresholding to classify pixels as foreground or background. In this work, we propose a novel approach for computing confidence scores of the classification in such algorithms. This score provides an insight of the confidence level of the prediction. The computational complexity of the proposed approach is the same as the underlying binarization algorithm. Our experiments illustrate the utility of the proposed scores in various applications like document binarization, document image cleanup, and texture addition.
翻訳日:2022-04-17 07:43:29 公開日:2022-04-03
# escm$^2$: クリック後変換率推定のための空間偽のマルチタスクモデル

ESCM$^2$: Entire Space Counterfactual Multi-Task Model for Post-Click Conversion Rate Estimation ( http://arxiv.org/abs/2204.05125v1 )

ライセンス: Link先を確認
Hao Wang, Tai-Wei Chang, Tianqiao Liu, Jianmin Huang, Zhichao Chen, Chao Yu, Ruopeng Li, Wei Chu(参考訳) クリック後の変換率の正確な推定は、サンプル選択バイアスやデータのスパーシティの問題に直面してきたレコメンダシステムの構築に不可欠である。 スペース全体のマルチタスクモデル(esmm)のメソッドは、データのスパーシティ問題に対処するために$impression\rightarrow click \rightarrow conversion$という、ユーザアクションのシーケンシャルなパターンを利用する。 しかし、彼らは依然としてCVR推定の不偏性を保証することに失敗している。 本稿では,(1) ESMM の CVR が本質的に基礎的真理よりも高い不連続推定バイアス (IEB) ,(2) CTCVR 推定における潜在的独立優先性 (PIP) ,(2) ESMM がクリックから変換への因果性を見落としているリスクがある,という2つの問題を理論的に証明する。 この目的のために、ESMMの正則化器として反ファクトリスクミミライザを用いたEntire Space Counterfactual Multi-task Modelling (ESCM$^2$) を考案し、IEBとPIPの両問題に同時に対処する。 オフラインデータセットとオンライン環境に関する大規模な実験により、提案したESCM$^2$は、固有のIPBとPIPの問題を大幅に軽減し、ベースラインモデルよりも優れたパフォーマンスを実現することができることを示した。

Accurate estimation of post-click conversion rate is critical for building recommender systems, which has long been confronted with sample selection bias and data sparsity issues. Methods in the Entire Space Multi-task Model (ESMM) family leverage the sequential pattern of user actions, i.e. $impression\rightarrow click \rightarrow conversion$ to address data sparsity issue. However, they still fail to ensure the unbiasedness of CVR estimates. In this paper, we theoretically demonstrate that ESMM suffers from the following two problems: (1) Inherent Estimation Bias (IEB), where the estimated CVR of ESMM is inherently higher than the ground truth; (2) Potential Independence Priority (PIP) for CTCVR estimation, where there is a risk that the ESMM overlooks the causality from click to conversion. To this end, we devise a principled approach named Entire Space Counterfactual Multi-task Modelling (ESCM$^2$), which employs a counterfactual risk miminizer as a regularizer in ESMM to address both IEB and PIP issues simultaneously. Extensive experiments on offline datasets and online environments demonstrate that our proposed ESCM$^2$ can largely mitigate the inherent IEB and PIP issues and achieve better performance than baseline models.
翻訳日:2022-04-17 07:08:09 公開日:2022-04-03
# (参考訳) 森林火災管理のための意味センサネットワークオントロジーに基づく意思決定支援システム

Semantic Sensor Network Ontology based Decision Support System for Forest Fire Management ( http://arxiv.org/abs/2204.03059v1 )

ライセンス: CC BY 4.0
Ritesh Chandra, Sonali Agarwal, Navjot Singh(参考訳) 森林はすべての国にとって重要な資産である。 破壊されると環境に悪影響を及ぼす可能性があり、森林火災が主な原因の1つである。 火災予報は火災の危険を測定するために広く使われ、茂みの警告を発するために使用される。 また、緊急管理資源の需要を予測するためにも使用できる。 センサネットワークは、医療、環境モニタリング、ホームオートメーションなど、さまざまな産業におけるデータ収集と処理能力で人気を高めている。 セマンティックセンサーネットワークは、風速、温度、相対湿度などの様々な気候環境を収集できる。 しかし,センサが生成するデータストリームの処理に関わるさまざまな問題から,火災気象指標の推定は困難である。 そのため、森林火災検出の重要性は日々増大している。 基盤となるSemantic Sensor Network(SSN)オントロジーは、開発者は、火災天気指標の計算ルールと、変換データセットをResource Description Framework(RDF)に変換するために構築されている。 本研究は,火災気象指標の算出規則の策定に関わる様々なステップについて述べる。 さらに本研究では,火災の気象指標の経年変化を可視化するwebベースのマッピングインタフェースを提案する。 推論ルールの助けを借りて、SSNオントロジーを使用して意思決定支援システムを設計し、SPARQLを介してクエリする。 提案する火災管理システムは,状況に応じて行動し,オープンワールドの推論と一般意味論をサポートし,すべてのオントロジーに追従する。

The forests are significant assets for every country. When it gets destroyed, it may negatively impact the environment, and forest fire is one of the primary causes. Fire weather indices are widely used to measure fire danger and are used to issue bushfire warnings. It can also be used to predict the demand for emergency management resources. Sensor networks have grown in popularity in data collection and processing capabilities for a variety of applications in industries such as medical, environmental monitoring, home automation etc. Semantic sensor networks can collect various climatic circumstances like wind speed, temperature, and relative humidity. However, estimating fire weather indices is challenging due to the various issues involved in processing the data streams generated by the sensors. Hence, the importance of forest fire detection has increased day by day. The underlying Semantic Sensor Network (SSN) ontologies are built to allow developers to create rules for calculating fire weather indices and also the convert dataset into Resource Description Framework (RDF). This research describes the various steps involved in developing rules for calculating fire weather indices. Besides, this work presents a Web-based mapping interface to help users visualize the changes in fire weather indices over time. With the help of the inference rule, it designed a decision support system using the SSN ontology and query on it through SPARQL. The proposed fire management system acts according to the situation, supports reasoning and the general semantics of the open-world followed by all the ontologies
翻訳日:2022-04-09 10:42:53 公開日:2022-04-03
# (参考訳) BigDL 2.0:ラプテストから分散クラスタへのAIパイプラインのシームレススケーリング

BigDL 2.0: Seamless Scaling of AI Pipelines from Laptops to Distributed Cluster ( http://arxiv.org/abs/2204.01715v1 )

ライセンス: CC BY-SA 4.0
Jason Dai, Ding Ding, Dongjie Shi, Shengsheng Huang, Jiao Wang, Xin Qiu, Kai Huang, Guoqiong Song, Yang Wang, Qiyuan Gong, Jiaming Song, Shan Yu, Le Zheng, Yina Chen, Junwei Deng, Ge Song(参考訳) ほとんどのAIプロジェクトは、単一のラップトップ上で動作するPythonノートブックから始まるが、大規模なデータセット(実験と運用デプロイメントの両方)を扱うためには、通常、山ほどの苦労を経る必要がある。 これらは通常、データサイエンティストが利用可能なハードウェアリソース(SIMD命令、マルチプロセッシング、量子化、メモリ割り当て最適化、データパーティショニング、分散コンピューティングなど)を十分に活用するために、多くの手動およびエラーが発生します。 To address this challenge, we have open sourced BigDL 2.0 at https://github.com/intel-analytics/BigDL/ under Apache 2.0 license (combining the original BigDL and Analytics Zoo projects); using BigDL 2.0, users can simply build conventional Python notebooks on their laptops (with possible AutoML support), which can then be transparently accelerated on a single node (with up-to 9.6x speedup in our experiments), and seamlessly scaled out to a large cluster (across several hundreds servers in real-world use cases). BigDL 2.0は、実世界の多くのユーザ(Mastercard、Burger King、Inspurなど)にすでに採用されています。

Most AI projects start with a Python notebook running on a single laptop; however, one usually needs to go through a mountain of pains to scale it to handle larger dataset (for both experimentation and production deployment). These usually entail many manual and error-prone steps for the data scientists to fully take advantage of the available hardware resources (e.g., SIMD instructions, multi-processing, quantization, memory allocation optimization, data partitioning, distributed computing, etc.). To address this challenge, we have open sourced BigDL 2.0 at https://github.com/intel-analytics/BigDL/ under Apache 2.0 license (combining the original BigDL and Analytics Zoo projects); using BigDL 2.0, users can simply build conventional Python notebooks on their laptops (with possible AutoML support), which can then be transparently accelerated on a single node (with up-to 9.6x speedup in our experiments), and seamlessly scaled out to a large cluster (across several hundreds servers in real-world use cases). BigDL 2.0 has already been adopted by many real-world users (such as Mastercard, Burger King, Inspur, etc.) in production.
翻訳日:2022-04-07 04:42:14 公開日:2022-04-03
# (参考訳) コントラスト学習による細粒度騒音モデルの推定

Estimating Fine-Grained Noise Model via Contrastive Learning ( http://arxiv.org/abs/2204.01716v1 )

ライセンス: CC BY 4.0
Yunhao Zou and Ying Fu(参考訳) 画像のデノイングは、効果的なディープデノワザーを活用すべく、前例のない進歩を遂げた。 実世界の騒音性能を改善するために、より現実的な訓練データ合成のためのより良いノイズモデルの開発と、非盲検者誘導のための騒音レベル関数の推定という2つの典型的な解決策が近年使われている。 本研究では,ノイズモデリングと推定を併用し,現実的なノイズ画像生成のための革新的なノイズモデル推定とノイズ合成パイプラインを提案する。 具体的には,細粒度統計ノイズモデルを用いた雑音推定モデルと対比的に学習する。 次に、推定ノイズパラメータを用いて、カメラ固有のノイズ分布をモデル化し、現実的なノイズトレーニングデータを合成する。 私たちの研究で最も印象的な点は、複数のセンサーのノイズモデルを校正することで、私たちのモデルは他のカメラを予測するために拡張できることです。 言い換えれば、画像のみをテストする未知のセンサのカメラ固有ノイズモデルを、不適切なキャリブレーションフレームやペアのノイズ/クリーンデータなしで推定できる。 提案するパイプラインは,最先端の実ノイズモデリング手法と競合する性能を持つ深いデノイザを内包する。

Image denoising has achieved unprecedented progress as great efforts have been made to exploit effective deep denoisers. To improve the denoising performance in realworld, two typical solutions are used in recent trends: devising better noise models for the synthesis of more realistic training data, and estimating noise level function to guide non-blind denoisers. In this work, we combine both noise modeling and estimation, and propose an innovative noise model estimation and noise synthesis pipeline for realistic noisy image generation. Specifically, our model learns a noise estimation model with fine-grained statistical noise model in a contrastive manner. Then, we use the estimated noise parameters to model camera-specific noise distribution, and synthesize realistic noisy training data. The most striking thing for our work is that by calibrating noise models of several sensors, our model can be extended to predict other cameras. In other words, we can estimate cameraspecific noise models for unknown sensors with only testing images, without laborious calibration frames or paired noisy/clean data. The proposed pipeline endows deep denoisers with competitive performances with state-of-the-art real noise modeling methods.
翻訳日:2022-04-07 04:28:43 公開日:2022-04-03
# (参考訳) RestoreX-AI: 説明可能なAIシステムによる画像復元のための対照的なアプローチ

RestoreX-AI: A Contrastive Approach towards Guiding Image Restoration via Explainable AI Systems ( http://arxiv.org/abs/2204.01719v1 )

ライセンス: CC BY 4.0
Aboli Marathe, Pushkar Jain, Rahee Walambe, Ketan Kotecha(参考訳) 自動運転車やドローンのような現代のアプリケーションは、堅牢な物体検出技術に大きく依存している。 しかし、天候の悪化は物体の検出を妨げ、ナビゲーションと信頼性に深刻な脅威をもたらす可能性がある。 したがって, 効率的な脱臭, 脱灰, 修復技術が必要である。 生成的な逆ネットワークとトランスフォーマーは画像復元に広く採用されている。 しかし、これらの方法の訓練は不安定で時間を要することが多い。 さらに、オブジェクト検出(OD)に使用する場合、これらの方法で生成された出力画像は、画像の明瞭さに関わらず満足できない結果が得られる可能性がある。 本研究では,修復モデルによる画像の評価とポストトレーニングによる画像の評価により,この問題の緩和に向けた対照的なアプローチを提案する。 このアプローチでは、ODタスクに対する復元画像の有用性を予測するために、ODスコアとアテンションマップを組み合わせる。 条件付きganの2つの新しい利用事例と,提案手法のodタスクにおけるマルチウェザー破壊に対するロバスト性を調べるトランスフォーマー法を用いて実験を行った。 ダスト竜巻や降雪などの悪天候条件下では,入力画像と復元画像の間に平均178%のmAP増加が達成された。 より高ノイズ化ではOD性能が向上せず, 逆にノイズ生成画像が良好な結果を示す症例を報告する。 我々は、人間と機械の認識のギャップを埋める説明可能性フレームワークの必要性を、特に自動運転車の堅牢な物体検出の文脈で結論づける。

Modern applications such as self-driving cars and drones rely heavily upon robust object detection techniques. However, weather corruptions can hinder the object detectability and pose a serious threat to their navigation and reliability. Thus, there is a need for efficient denoising, deraining, and restoration techniques. Generative adversarial networks and transformers have been widely adopted for image restoration. However, the training of these methods is often unstable and time-consuming. Furthermore, when used for object detection (OD), the output images generated by these methods may provide unsatisfactory results despite image clarity. In this work, we propose a contrastive approach towards mitigating this problem, by evaluating images generated by restoration models during and post training. This approach leverages OD scores combined with attention maps for predicting the usefulness of restored images for the OD task. We conduct experiments using two novel use-cases of conditional GANs and two transformer methods that probe the robustness of the proposed approach on multi-weather corruptions in the OD task. Our approach achieves an averaged 178 percent increase in mAP between the input and restored images under adverse weather conditions like dust tornadoes and snowfall. We report unique cases where greater denoising does not improve OD performance and conversely where noisy generated images demonstrate good results. We conclude the need for explainability frameworks to bridge the gap between human and machine perception, especially in the context of robust object detection for autonomous vehicles.
翻訳日:2022-04-07 04:27:45 公開日:2022-04-03
# (参考訳) 多言語およびマルチモーダル乱用検出

Multilingual and Multimodal Abuse Detection ( http://arxiv.org/abs/2204.02263v1 )

ライセンス: CC BY 4.0
Rini Sharon, Heet Shah, Debdoot Mukherjee, Vikram Gupta(参考訳) ソーシャルメディアプラットフォームにおける乱暴なコンテンツの存在は、健康で安全なソーシャルメディアのやりとりを著しく妨げているため、望ましくない。 自動乱用検出はテキスト領域で広く研究されているが、音声乱用検出はまだ未調査のままである。 本稿では,多言語ソーシャルメディアにおけるマルチモーダルな視点から,会話音声における乱用検出を試みる。 我々のキーとなる仮説は、音声のモデル化とともに、他のモダリティからの識別情報を組み込むことが、このタスクに非常に有益であるということである。 提案手法であるmadaは,音声そのもの以外の2つのモダリティ,すなわち乱用音声で表現された基礎的感情と,対応するテキスト形式にカプセル化された意味情報に注目している。 観測の結果、MADAはADIMAデータセットにおけるオーディオのみのアプローチよりも優れていることが示された。 提案手法を10の異なる言語でテストし,複数のモダリティを用いて0.6%-5.2%の範囲で一貫したゲインを観測した。 また,全てのモダリティの寄与を研究するための広範なアブレーション実験を行い,すべてのモダリティを併用しながら最高の結果を観察する。 さらに,基礎となる感情と虐待的行動との間に強い相関があることを実証的に確認する実験を行った。

The presence of abusive content on social media platforms is undesirable as it severely impedes healthy and safe social media interactions. While automatic abuse detection has been widely explored in textual domain, audio abuse detection still remains unexplored. In this paper, we attempt abuse detection in conversational audio from a multimodal perspective in a multilingual social media setting. Our key hypothesis is that along with the modelling of audio, incorporating discriminative information from other modalities can be highly beneficial for this task. Our proposed method, MADA, explicitly focuses on two modalities other than the audio itself, namely, the underlying emotions expressed in the abusive audio and the semantic information encapsulated in the corresponding textual form. Observations prove that MADA demonstrates gains over audio-only approaches on the ADIMA dataset. We test the proposed approach on 10 different languages and observe consistent gains in the range 0.6%-5.2% by leveraging multiple modalities. We also perform extensive ablation experiments for studying the contributions of every modality and observe the best results while leveraging all the modalities together. Additionally, we perform experiments to empirically confirm that there is a strong correlation between underlying emotions and abusive behaviour.
翻訳日:2022-04-07 04:17:05 公開日:2022-04-03
# 高不均衡データセットにおける皮膚病変検出のための中心配向マージンフリートリップレット損失による深部クラスタリング

Deep Clustering via Center-Oriented Margin Free-Triplet Loss for Skin Lesion Detection in Highly Imbalanced Datasets ( http://arxiv.org/abs/2204.02275v1 )

ライセンス: Link先を確認
Saban Ozturk and Tolga Cukur(参考訳) メラノーマは治療可能な致命的な皮膚がんであり、早期に診断すると生存率が劇的に上昇する。 学習に基づく手法は,皮膚鏡像からのメラノーマの検出に有意な期待を持っている。 しかし、メラノーマは稀な疾患であるため、既存の皮膚病変のデータベースには良性サンプルと悪性サンプルの高度に不均衡な数が含まれている。 逆に、この不均衡は多数派クラスの統計的支配のために分類モデルに実質的なバイアスをもたらす。 そこで本研究では,デルモスコピック画像の潜在空間埋め込みに基づく深層クラスタリング手法を提案する。 クラスタリングは、畳み込みニューラルネットワークのバックボーンからのイメージ埋め込みに強制される、新たなセンター指向のマージンフリー三重項損失(COM-Triplet)を使用して実現される。 提案手法は,分類誤差を最小限に抑えるために,最大分離クラスタセンターを形成することを目的としている。 ラベル付きデータの必要性を回避するため,ガウス混合モデルにより生成された擬似ラベルに基づいてCOM-Tripletを実装することを提案する。 総合的な実験により、COM-Triplet損失によるディープクラスタリングはトリプルト損失によるクラスタリングよりも優れており、教師なしと教師なしの両方の設定における競合する分類器が優れていることが示された。

Melanoma is a fatal skin cancer that is curable and has dramatically increasing survival rate when diagnosed at early stages. Learning-based methods hold significant promise for the detection of melanoma from dermoscopic images. However, since melanoma is a rare disease, existing databases of skin lesions predominantly contain highly imbalanced numbers of benign versus malignant samples. In turn, this imbalance introduces substantial bias in classification models due to the statistical dominance of the majority class. To address this issue, we introduce a deep clustering approach based on the latent-space embedding of dermoscopic images. Clustering is achieved using a novel center-oriented margin-free triplet loss (COM-Triplet) enforced on image embeddings from a convolutional neural network backbone. The proposed method aims to form maximally-separated cluster centers as opposed to minimizing classification error, so it is less sensitive to class imbalance. To avoid the need for labeled data, we further propose to implement COM-Triplet based on pseudo-labels generated by a Gaussian mixture model. Comprehensive experiments show that deep clustering with COM-Triplet loss outperforms clustering with triplet loss, and competing classifiers in both supervised and unsupervised settings.
翻訳日:2022-04-06 13:10:42 公開日:2022-04-03
# 1ショット集合決定集合に対するメタラーニングアプローチ:正しく選択する方法を正しく選択する

Meta-Learning Approaches for a One-Shot Collective-Decision Aggregation: Correctly Choosing how to Choose Correctly ( http://arxiv.org/abs/2204.01721v1 )

ライセンス: Link先を確認
Hilla Shinitzky, Yuval Shahar, Ortal Parpara, Michal Ezrets and Raz Klein(参考訳) 複数の集団メンバーが与えられた決定問題に関する選択を単一のソリューションに集約することは、集団のインテリジェンスと効果的なクラウドソーシングに不可欠である。 様々なアグリゲーション技術があり、その一部は単純で時折効果的な決定論的アグリゲーションルールに導かれる。 しかし、これらの手法の効率は異なる条件下でも異なる領域内でも不安定であることが示されている。 その他の方法は、主に意思決定者の以前の回答や、それに関する追加情報の提供から学ぶことに依存する。 本研究では,単発機械学習に基づくアグリゲーションアプローチを2つ紹介する。 最初の予測では、メタ認知的なものなど、集団の選択に関する複数の特徴が与えられた場合、アグリゲーションメソッドが最善である。 第二は、各方法による選択が与えられた場合に、どの決定が最適かを直接予測する。 文脈に敏感な方法で集団意思決定事例を特徴付けるメタ認知的特徴工学アプローチを提案する。 さらに, 標準集約法が失敗すると予測される場合に対処するために, 新たな集約法であるdevil's-advocate aggregatorを提案する。 実験結果から,提案手法のいずれを用いた場合も,各ルールに基づく集計手法の統一適用と比較して,良好な解答が得られた場合の割合が有意に増加することがわかった。 また,悪魔の擁護者アグリゲータの重要性を実証する。

Aggregating successfully the choices regarding a given decision problem made by the multiple collective members into a single solution is essential for exploiting the collective's intelligence and for effective crowdsourcing. There are various aggregation techniques, some of which come down to a simple and sometimes effective deterministic aggregation rule. However, it has been shown that the efficiency of those techniques is unstable under varying conditions and within different domains. Other methods mainly rely on learning from the decision-makers previous responses or the availability of additional information about them. In this study, we present two one-shot machine-learning-based aggregation approaches. The first predicts, given multiple features about the collective's choices, including meta-cognitive ones, which aggregation method will be best for a given case. The second directly predicts which decision is optimal, given, among other things, the selection made by each method. We offer a meta-cognitive feature-engineering approach for characterizing a collective decision-making case in a context-sensitive fashion. In addition, we offer a new aggregation method, the Devil's-Advocate aggregator, to deal with cases in which standard aggregation methods are predicted to fail. Experimental results show that using either of our proposed approaches increases the percentage of successfully aggregated cases (i.e., cases in which the correct answer is returned) significantly, compared to the uniform application of each rule-based aggregation method. We also demonstrate the importance of the Devil's Advocate aggregator.
翻訳日:2022-04-06 13:06:04 公開日:2022-04-03
# 医用画像分割のためのexemplar learning

Exemplar Learning for Medical Image Segmentation ( http://arxiv.org/abs/2204.01713v1 )

ライセンス: Link先を確認
Qing En, Yuhong Guo(参考訳) 医用画像アノテーションは通常、専門家の知識を必要とするため、時間と高価なデータアノテーションコストが発生する。 この負担を軽減するために,医用画像分割のための自動学習過程を単一注釈画像例から探索する,新しい学習シナリオであるExemplar Learning (EL)を提案する。 この革新的な学習タスクは、医療画像のセグメンテーションに特に適しており、すべての臓器のカテゴリを1つの画像に一度に提示することができる。 そこで本研究では,この課題に対処するために,医療画像セグメント化のためのexemplar learning-based synthesis net(elsnet)フレームワークを提案する。 具体的には、画像セグメンテーションのための2つの新しいモジュールを紹介する: 与えられた例から注釈付きサンプルを合成することによってトレーニングセットを豊かにし、多様化する例誘導合成モジュールと、対比自己教師付き学習を通じてベースセグメンテーションモデルの識別能力を高める画素プロトタイプベースのコントラスト埋め込みモジュールである。 さらに,予測された擬似セグメンテーションラベルを用いたラベル付きデータを利用したセグメンテーションモデルトレーニングのための2段階プロセスを展開する。 この新たな学習フレームワークを評価するため,複数の臓器セグメント化データセットについて広範な実験を行い,詳細な分析を行った。 実験結果は,提案手法が効果的なセグメンテーション結果を生成することを示す。

Medical image annotation typically requires expert knowledge and hence incurs time-consuming and expensive data annotation costs. To reduce this burden, we propose a novel learning scenario, Exemplar Learning (EL), to explore automated learning processes for medical image segmentation from a single annotated image example. This innovative learning task is particularly suitable for medical image segmentation, where all categories of organs can be presented in one single image for annotation all at once. To address this challenging EL task, we propose an Exemplar Learning-based Synthesis Net (ELSNet) framework for medical image segmentation that enables innovative exemplar-based data synthesis, pixel-prototype based contrastive embedding learning, and pseudo-label based exploitation of the unlabeled data. Specifically, ELSNet introduces two new modules for image segmentation: an exemplar-guided synthesis module, which enriches and diversifies the training set by synthesizing annotated samples from the given exemplar, and a pixel-prototype based contrastive embedding module, which enhances the discriminative capacity of the base segmentation model via contrastive self-supervised learning. Moreover, we deploy a two-stage process for segmentation model training, which exploits the unlabeled data with predicted pseudo segmentation labels. To evaluate this new learning framework, we conduct extensive experiments on several organ segmentation datasets and present an in-depth analysis. The empirical results show that the proposed exemplar learning framework produces effective segmentation results.
翻訳日:2022-04-06 12:53:24 公開日:2022-04-03
# (参考訳) 個人化モバイル健康情報サービスにおける身体活動の動的推奨:深層強化学習アプローチ

Dynamic physical activity recommendation on personalised mobile health information service: A deep reinforcement learning approach ( http://arxiv.org/abs/2204.00961v1 )

ライセンス: CC BY 4.0
Ji Fang, Vincent CS Lee, Haiyan Wang(参考訳) モバイルヘルス(mHealth)情報サービスは、身体活動を増やし、健康を改善したいユーザーにとって、医療管理を容易にする。 しかしながら、個人間の活動嗜好の違い、順守問題、将来の健康成果の不確実性は、mhealth情報サービスの効果を減少させる可能性がある。 現在の健康サービスシステムは、通常、ユーザ固有のニーズを満たさない固定的なエクササイズ計画に基づいて推奨を提供する。 本稿では,個人化されたmhealth情報サービスにおける身体活動促進に関する身体活動推薦決定を,データ駆動モデルの構築により効率的に行う方法を提案する。 本研究では,ユーザの長期的健康効果を最大化する上で,時間的特性を考慮した個人のための最適な運動計画を選択するためのリアルタイムインタラクションモデルを提案する。 我々は、個人化されたAIモジュールからなるmHealth情報サービスシステムのためのフレームワークを構築し、身体活動に関する科学的知識に基づいて個別の運動性能を評価し、mHealth人工知能システムの認識を高めることができる。 深層強化学習(drl)手法は,mhealth情報サービスシステムの学習能力を向上させるための2つの手法を組み合わせたものである。 長期記憶(LSTM)ネットワークと深層ニューラルネットワーク(DNN)技術を組み合わせたハイブリッドニューラルネットワークを構築し、時系列データから個別の運動行動を推定する深層学習手法を提案する。 非同期アドバンテージアクタ-クリティックアルゴリズムに基づく強化学習法を適用し,探索と搾取による最適方針を求める。

Mobile health (mHealth) information service makes healthcare management easier for users, who want to increase physical activity and improve health. However, the differences in activity preference among the individual, adherence problems, and uncertainty of future health outcomes may reduce the effect of the mHealth information service. The current health service system usually provides recommendations based on fixed exercise plans that do not satisfy the user specific needs. This paper seeks an efficient way to make physical activity recommendation decisions on physical activity promotion in personalised mHealth information service by establishing data-driven model. In this study, we propose a real-time interaction model to select the optimal exercise plan for the individual considering the time-varying characteristics in maximising the long-term health utility of the user. We construct a framework for mHealth information service system comprising a personalised AI module, which is based on the scientific knowledge about physical activity to evaluate the individual exercise performance, which may increase the awareness of the mHealth artificial intelligence system. The proposed deep reinforcement learning (DRL) methodology combining two classes of approaches to improve the learning capability for the mHealth information service system. A deep learning method is introduced to construct the hybrid neural network combing long-short term memory (LSTM) network and deep neural network (DNN) techniques to infer the individual exercise behavior from the time series data. A reinforcement learning method is applied based on the asynchronous advantage actor-critic algorithm to find the optimal policy through exploration and exploitation.
翻訳日:2022-04-06 10:04:54 公開日:2022-04-03
# (参考訳) アフリカ系アメリカ人英語の自動方言密度推定

Automatic Dialect Density Estimation for African American English ( http://arxiv.org/abs/2204.00967v1 )

ライセンス: CC BY 4.0
Alexander Johnson, Kevin Everson, Vijay Ravi, Anissa Gladney, Mari Ostendorf, Abeer Alwan(参考訳) 本稿では,非標準方言の特徴を含む発話中の単語の割合として方言密度が定義されるアフリカ系アメリカ人英語(aae)方言の方言密度の自動予測について検討する。 本稿では,音声ファイルのASRテキストから抽出した情報と韻律情報に加えて,一般的なXベクトル表現やComParE特徴セットなどの音響・言語モデリング機能について検討する。 限定ラベル付きデータの問題を解決するために,低次元タスク関連表現に韻律とXベクトル特徴を投影する弱教師付きモデルを用いる。 次に、XGBoostモデルを用いて、これらの特徴から話者の方言密度を予測し、推論時に最も重要なものを示す。 我々は、これらの機能の有用性を、与えられたタスクに対して単独と組み合わせで評価する。 この作業は手書き文字起こしに依存しないもので、CORAALデータベースの音声セグメントで実行される。 本データベースでは,aae音声に対する予測的・根拠的真理弁証密度尺度と有意な相関関係を示し,この研究を音声技術におけるバイアスの説明と緩和のためのツールとして提案する。

In this paper, we explore automatic prediction of dialect density of the African American English (AAE) dialect, where dialect density is defined as the percentage of words in an utterance that contain characteristics of the non-standard dialect. We investigate several acoustic and language modeling features, including the commonly used X-vector representation and ComParE feature set, in addition to information extracted from ASR transcripts of the audio files and prosodic information. To address issues of limited labeled data, we use a weakly supervised model to project prosodic and X-vector features into low-dimensional task-relevant representations. An XGBoost model is then used to predict the speaker's dialect density from these features and show which are most significant during inference. We evaluate the utility of these features both alone and in combination for the given task. This work, which does not rely on hand-labeled transcripts, is performed on audio segments from the CORAAL database. We show a significant correlation between our predicted and ground truth dialect density measures for AAE speech in this database and propose this work as a tool for explaining and mitigating bias in speech technology.
翻訳日:2022-04-06 10:03:43 公開日:2022-04-03
# (参考訳) DST: データフリーブラックボックス攻撃のための動的代替訓練

DST: Dynamic Substitute Training for Data-free Black-box Attack ( http://arxiv.org/abs/2204.00972v1 )

ライセンス: CC BY 4.0
Wenxuan Wang, Xuelin Qian, Yanwei Fu, Xiangyang Xue(参考訳) 様々なコンピュータビジョンタスクにおけるディープニューラルネットワークモデルの幅広い応用により、モデル脆弱性を敵の例に研究する研究がますます増えている。 データフリーブラックボックス攻撃シナリオでは、既存の手法は知識蒸留にインスパイアされ、通常、生成したデータを入力として、ターゲットモデルから知識を学ぶために代替モデルを訓練する。 しかし、置換モデルは常に静的なネットワーク構造を持ち、様々なターゲットモデルやタスクに対する攻撃能力を制限する。 本稿では,対象モデルからより高速に学習する代用モデルの促進を目的とした,新しい動的代用トレーニング攻撃法を提案する。 具体的には、異なる対象モデルやタスクに応じて動的ゲートを介して最適な代替モデル構造を適応的に生成する動的置換構造学習戦略を提案する。 さらに,生成したトレーニングデータの品質を向上させるために,タスク駆動型グラフ型構造情報学習制約を導入し,対象モデルからの複数出力からの置換モデル学習構造関係の促進を図る。 提案手法の有効性を検証するために,いくつかのデータセットにおける最先端の競合相手と比較して優れた性能を実現するための広範囲な実験が行われている。

With the wide applications of deep neural network models in various computer vision tasks, more and more works study the model vulnerability to adversarial examples. For data-free black box attack scenario, existing methods are inspired by the knowledge distillation, and thus usually train a substitute model to learn knowledge from the target model using generated data as input. However, the substitute model always has a static network structure, which limits the attack ability for various target models and tasks. In this paper, we propose a novel dynamic substitute training attack method to encourage substitute model to learn better and faster from the target model. Specifically, a dynamic substitute structure learning strategy is proposed to adaptively generate optimal substitute model structure via a dynamic gate according to different target models and tasks. Moreover, we introduce a task-driven graph-based structure information learning constrain to improve the quality of generated training data, and facilitate the substitute model learning structural relationships from the target model multiple outputs. Extensive experiments have been conducted to verify the efficacy of the proposed attack method, which can achieve better performance compared with the state-of-the-art competitors on several datasets.
翻訳日:2022-04-06 09:52:38 公開日:2022-04-03
# (参考訳) BinsFormer: 単眼深度推定のためのアダプティブビンの再検討

BinsFormer: Revisiting Adaptive Bins for Monocular Depth Estimation ( http://arxiv.org/abs/2204.00987v1 )

ライセンス: CC BY 4.0
Zhenyu Li, Xuyang Wang, Xianming Liu, Junjun Jiang(参考訳) 単眼深度推定はコンピュータビジョンの基本的な課題であり、注目を集めている。 近年、予測確率分布と離散ビンの線形結合により連続的な深さを推定するモデル性能を高めるための分類回帰タスクとして再編成されている。 本稿では,分類回帰に基づく深度推定に適したBinsFormerという新しいフレームワークを提案する。 主に、特定のタスクにおいて2つの重要なコンポーネントに焦点を当てている。 1)適応型ビンと適切な生成 2)確率分布とビン予測との十分な相互作用 具体的には, ビン生成にトランスフォーマデコーダを用い, 直接セットツーセット予測問題として新規に検討した。 さらに,空間幾何学情報を包括的に理解し,奥行きマップを粗い方法で推定するために,マルチスケールデコーダ構造を統合する。 さらに,推定精度を向上させるために,補助環境分類タスクから有用な情報を暗黙的に学習できる追加的なシーン理解クエリを提案する。 KITTI、NYU、SUN RGB-Dデータセットに関する大規模な実験は、BinsFormerが最先端のモノクル深度推定法をはるかに上回っていることを示している。 コードおよび事前トレーニングされたモデルは、 \url{https://github.com/zhyever/Monocular-Depth-Estimation-Toolbox}で公開される。

Monocular depth estimation is a fundamental task in computer vision and has drawn increasing attention. Recently, some methods reformulate it as a classification-regression task to boost the model performance, where continuous depth is estimated via a linear combination of predicted probability distributions and discrete bins. In this paper, we present a novel framework called BinsFormer, tailored for the classification-regression-based depth estimation. It mainly focuses on two crucial components in the specific task: 1) proper generation of adaptive bins and 2) sufficient interaction between probability distribution and bins predictions. To specify, we employ the Transformer decoder to generate bins, novelly viewing it as a direct set-to-set prediction problem. We further integrate a multi-scale decoder structure to achieve a comprehensive understanding of spatial geometry information and estimate depth maps in a coarse-to-fine manner. Moreover, an extra scene understanding query is proposed to improve the estimation accuracy, which turns out that models can implicitly learn useful information from an auxiliary environment classification task. Extensive experiments on the KITTI, NYU, and SUN RGB-D datasets demonstrate that BinsFormer surpasses state-of-the-art monocular depth estimation methods with prominent margins. Code and pretrained models will be made publicly available at \url{https://github.com/zhyever/Monocular-Depth-Estimation-Toolbox}.
翻訳日:2022-04-06 09:36:41 公開日:2022-04-03
# (参考訳) 多言語機械読解におけるゼロショット言語間伝達のための意味表現の学習

Learning Disentangled Semantic Representations for Zero-Shot Cross-Lingual Transfer in Multilingual Machine Reading Comprehension ( http://arxiv.org/abs/2204.00996v1 )

ライセンス: CC BY 4.0
injuan Wu, Shaojuan Wu, Xiaowang Zhang, Deyi Xiong, Shizhan Chen, Zhiqiang Zhuang, Zhiyong Feng(参考訳) 多言語事前学習モデルは、機械読取理解(MRC)において、リッチリソースから低リソース言語への転送知識をゼロショット化することができる。 しかし、異なる言語における固有の言語的不一致は、ゼロショット転送によって予測される回答スパンが対象言語の構文的制約に反する可能性がある。 本稿では,シメセマンティック・ディスタングルメント・モデル(SSDM)を用いた,多言語事前学習モデルで学習した表現の構文から意味論を解離させる新しい多言語MRCフレームワークを提案する。 意味的知識のみを対象言語に明示的に転送するために,意味的および構文的エンコーディングと不等角化に適した2つの損失群を提案する。 3つの多言語MRCデータセット(XQuAD,MLQA,TyDi QA)の実験結果から,mBERTとXLM-100に基づくモデルに対する提案手法の有効性が示された。 コードは、https://github.com/wulinjuan/SSDM_MRCで入手できる。

Multilingual pre-trained models are able to zero-shot transfer knowledge from rich-resource to low-resource languages in machine reading comprehension (MRC). However, inherent linguistic discrepancies in different languages could make answer spans predicted by zero-shot transfer violate syntactic constraints of the target language. In this paper, we propose a novel multilingual MRC framework equipped with a Siamese Semantic Disentanglement Model (SSDM) to disassociate semantics from syntax in representations learned by multilingual pre-trained models. To explicitly transfer only semantic knowledge to the target language, we propose two groups of losses tailored for semantic and syntactic encoding and disentanglement. Experimental results on three multilingual MRC datasets (i.e., XQuAD, MLQA, and TyDi QA) demonstrate the effectiveness of our proposed approach over models based on mBERT and XLM-100. Code is available at:https://github.com/wulinjuan/SSDM_MRC.
翻訳日:2022-04-06 09:35:40 公開日:2022-04-03
# (参考訳) 画像塗布における領域認識の注意

Region-aware Attention for Image Inpainting ( http://arxiv.org/abs/2204.01004v1 )

ライセンス: CC BY 4.0
Zhilin Huang, Chujun Qin, Zhenyu Weng and Yuesheng Zhu(参考訳) 近年の注目画像のインパインティング手法は, 画像内の長距離依存性をモデル化することによって, 進歩を遂げている。 しかし,各画素ペア間の相関は,常に不測の特徴によって誤解されるため,ぼやけた内容を生成する傾向がある。 この問題に対処するため、我々は新しい地域対応アテンション(RA)モジュールを提案する。 単一試料中の各画素対間の相関を直接計算し、異なる試料間の相関を考慮することにより、ホール内の無効情報の誤認を回避することができる。 一方、学習可能な領域辞書(LRD)を導入し、データセット全体に重要な情報を格納し、相関モデリングを単純化するだけでなく、情報の冗長性を回避する。 アーキテクチャにRAを適用することで、現実的な詳細で意味論的に妥当な結果を生成することができる。 CelebA, Places2およびParis StreetViewデータセットの大規模な実験は、既存の手法と比較して、我々の手法の優位性を検証する。

Recent attention-based image inpainting methods have made inspiring progress by modeling long-range dependencies within a single image. However, they tend to generate blurry contents since the correlation between each pixel pairs is always misled by ill-predicted features in holes. To handle this problem, we propose a novel region-aware attention (RA) module. By avoiding the directly calculating corralation between each pixel pair in a single samples and considering the correlation between different samples, the misleading of invalid information in holes can be avoided. Meanwhile, a learnable region dictionary (LRD) is introduced to store important information in the entire dataset, which not only simplifies correlation modeling, but also avoids information redundancy. By applying RA in our architecture, our methodscan generate semantically plausible results with realistic details. Extensive experiments on CelebA, Places2 and Paris StreetView datasets validate the superiority of our method compared with existing methods.
翻訳日:2022-04-06 09:17:53 公開日:2022-04-03
# (参考訳) DBSCANクラスタリングによる無伴奏ソロ歌唱におけるピッチドリフトの計算解析

A Computational Analysis of Pitch Drift in Unaccompanied Solo Singing using DBSCAN Clustering ( http://arxiv.org/abs/2204.01009v1 )

ライセンス: CC BY 4.0
Sepideh Shafiei and S. Hakam(参考訳) 伴奏のないボーカリストは通常、意図せず調律を変更し、長い演奏中に開始点よりも高いピッチまたは低いピッチで終わる。 この現象はピッチドリフトと呼ばれ、演奏者の技量や演奏の長さや難易度など、様々な要素に依存する。 本稿では、ピッチヒストグラムとDBSCANクラスタリングを用いて、伴奏のない声道演奏におけるピッチドリフトを測定するための計算手法を提案する。

Unaccompanied vocalists usually change the tuning unintentionally and end up with a higher or lower pitch than the starting point during a long performance. This phenomenon is called pitch drift, which is dependent on various elements, such as the skill of the performer, and the length and difficulty of the performance. In this paper, we propose a computational method for measuring pitch drift in the course of an unaccompanied vocal performance, using pitch histogram and DBSCAN clustering.
翻訳日:2022-04-06 09:05:57 公開日:2022-04-03
# (参考訳) STCrowd: 群衆シーンにおける歩行者の知覚のためのマルチモーダルデータセット

STCrowd: A Multimodal Dataset for Pedestrian Perception in Crowded Scenes ( http://arxiv.org/abs/2204.01026v1 )

ライセンス: CC BY 4.0
Peishan Cong and Xinge Zhu and Feng Qiao and Yiming Ren and Xidong Peng and Yuenan Hou and Lan Xu and Ruigang Yang and Dinesh Manocha and Yuexin Ma(参考訳) 3D空間における歩行者の正確な検出と追跡は、回転、ポーズ、スケールの大きなバリエーションのために困難である。 密集した密集した集団にとって、状況はさらに悪化する。 しかし、既存のベンチマークは2Dアノテーションのみを提供するか、低密度の歩行者分布を持つ限られた3Dアノテーションを持つかのいずれかであり、特に混雑したシーンにおいて信頼性の高い歩行者認識システムを構築するのが困難である。 混み合ったシナリオにおいて歩行者知覚アルゴリズムをより良く評価するために,大規模マルチモーダルデータセットstcrowdを導入する。 特にSTCrowdには、平均して219件の歩行者インスタンスと20件の人件数があり、さまざまなレベルの閉塞がある。 我々は、同期したLiDAR点雲とカメラ画像、対応する3Dラベルと関節IDを提供する。 STCrowdは、LiDARのみ、画像のみ、センサー融合に基づく歩行者検出とトラッキングなど、さまざまなタスクに使用できる。 私たちはほとんどのタスクのベースラインを提供します。 さらに, 歩行者の疎グローバル分布と密度変化局所分布の特質を考慮し, 混み合ったシーンにおける歩行者の認識を高めるために, 密度対応階層型ヒートマップアグリゲーション(DHA)を提案する。 大規模な実験により,本手法は各種データセットにおける歩行者検出の最先端性能を実現する。

Accurately detecting and tracking pedestrians in 3D space is challenging due to large variations in rotations, poses and scales. The situation becomes even worse for dense crowds with severe occlusions. However, existing benchmarks either only provide 2D annotations, or have limited 3D annotations with low-density pedestrian distribution, making it difficult to build a reliable pedestrian perception system especially in crowded scenes. To better evaluate pedestrian perception algorithms in crowded scenarios, we introduce a large-scale multimodal dataset,STCrowd. Specifically, in STCrowd, there are a total of 219 K pedestrian instances and 20 persons per frame on average, with various levels of occlusion. We provide synchronized LiDAR point clouds and camera images as well as their corresponding 3D labels and joint IDs. STCrowd can be used for various tasks, including LiDAR-only, image-only, and sensor-fusion based pedestrian detection and tracking. We provide baselines for most of the tasks. In addition, considering the property of sparse global distribution and density-varying local distribution of pedestrians, we further propose a novel method, Density-aware Hierarchical heatmap Aggregation (DHA), to enhance pedestrian perception in crowded scenes. Extensive experiments show that our new method achieves state-of-the-art performance for pedestrian detection on various datasets.
翻訳日:2022-04-06 09:03:11 公開日:2022-04-03
# (参考訳) 単一等角射影画像からの自己教師付き360{\deg}深度推定

Distortion-Aware Self-Supervised 360{\deg} Depth Estimation from A Single Equirectangular Projection Image ( http://arxiv.org/abs/2204.01027v1 )

ライセンス: CC BY 4.0
Yuya Hasegawa, Ikehata Satoshi, Kiyoharu Aizawa(参考訳) 360{\deg}画像はここ数年で広く利用できるようになった。 本稿では,オープン環境下での単一の360{\deg}画像深度予測のための新しい手法を提案する。 360{\deg}画像からの深度予測は2つの理由から容易ではない。 ひとつは、監視データセットの制限 - 現在利用可能なデータセットは、屋内シーンに限られている。 もうひとつは、座標と歪みを持つ360{\deg}画像に一般的に使用される等角射影フォーマット(ERP)による問題である。 6つの視点画像を生成するために立方体マッププロジェクションを使用し、視点深度予測のために動画像を用いた自己教師付き学習を適用する方法が1つ存在する。 既存の方法と異なり、直接ERPフォーマットを使用します。 本研究では,ERP を協調変換するフレームワークと,ERP に関連する問題に対処する歪み対応アップサンプリングモジュールを提案し,オープン環境に対する自己教師付き学習手法を拡張した。 実験ではまず,評価のためのデータセットを構築し,屋外シーンの深度予測を定量的に評価した。 最先端技術よりも優れていることを示す。

360{\deg} images are widely available over the last few years. This paper proposes a new technique for single 360{\deg} image depth prediction under open environments. Depth prediction from a 360{\deg} single image is not easy for two reasons. One is the limitation of supervision datasets - the currently available dataset is limited to indoor scenes. The other is the problems caused by Equirectangular Projection Format (ERP), commonly used for 360{\deg} images, that are coordinate and distortion. There is only one method existing that uses cube map projection to produce six perspective images and apply self-supervised learning using motion pictures for perspective depth prediction to deal with these problems. Different from the existing method, we directly use the ERP format. We propose a framework of direct use of ERP with coordinate conversion of correspondences and distortion-aware upsampling module to deal with the ERP related problems and extend a self-supervised learning method for open environments. For the experiments, we firstly built a dataset for the evaluation, and quantitatively evaluate the depth prediction in outdoor scenes. We show that it outperforms the state-of-the-art technique
翻訳日:2022-04-06 08:46:26 公開日:2022-04-03
# (参考訳) 仮想トライオンのためのスタイルベースグローバル外観フロー

Style-Based Global Appearance Flow for Virtual Try-On ( http://arxiv.org/abs/2204.01046v1 )

ライセンス: CC BY 4.0
Sen He, Yi-Zhe Song, Tao Xiang(参考訳) 画像ベースの仮想試着は、ショップの衣服を着ている人の画像に合わせることを目的としている。 これを実現するための鍵となるステップは、人物画像中の対象の衣服と対応する体部とを空間的に整列させる衣服ウォーピングである。 従来の手法は通常、局所的なフロー推定モデルを採用する。 したがって、それらは本質的には、難しい身体のポーズ/閉塞や、人や衣服のイメージ間の大きなミスアライメントに影響を受けやすい(図参照)。 ~\ref{fig:fig1})。 この限界を克服するために,本研究では,新しいグローバルな外観フロー推定モデルを提案する。 外観フロー推定に初めてStyleGANベースのアーキテクチャが採用された。 これにより、グローバルなスタイルのベクトルを利用して、上記の課題に対処するための全体像コンテキストを符号化できる。 StyleGANフロージェネレータを誘導して局所的な衣服変形により多くの注意を払うため、局所的なコンテキストを追加するためにフローリファインメントモジュールが導入された。 仮想試行ベンチマークによる実験結果から,本手法が新たな最先端性能を実現することを示す。 特に、参照画像がフルボディであるような 'in-the-wild' のアプリケーションシナリオでは、衣料画像との大きなミスアライメントが生じる(図)。 ~\ref{fig:fig1} top)。 コードは以下の通り。 \url{https://github.com/SenHe/Flow-Style-VTON}。

Image-based virtual try-on aims to fit an in-shop garment into a clothed person image. To achieve this, a key step is garment warping which spatially aligns the target garment with the corresponding body parts in the person image. Prior methods typically adopt a local appearance flow estimation model. They are thus intrinsically susceptible to difficult body poses/occlusions and large mis-alignments between person and garment images (see Fig.~\ref{fig:fig1}). To overcome this limitation, a novel global appearance flow estimation model is proposed in this work. For the first time, a StyleGAN based architecture is adopted for appearance flow estimation. This enables us to take advantage of a global style vector to encode a whole-image context to cope with the aforementioned challenges. To guide the StyleGAN flow generator to pay more attention to local garment deformation, a flow refinement module is introduced to add local context. Experiment results on a popular virtual try-on benchmark show that our method achieves new state-of-the-art performance. It is particularly effective in a `in-the-wild' application scenario where the reference image is full-body resulting in a large mis-alignment with the garment image (Fig.~\ref{fig:fig1} Top). Code is available at: \url{https://github.com/SenHe/Flow-Style-VTON}.
翻訳日:2022-04-06 08:32:48 公開日:2022-04-03
# (参考訳) 勾配降下の不安定収束を理解する

Understanding the unstable convergence of gradient descent ( http://arxiv.org/abs/2204.01050v1 )

ライセンス: CC BY 4.0
Kwangjun Ahn, Jingzhao Zhang, Suvrit Sra(参考訳) 既存の(統計的)勾配降下の分析のほとんどは、l$-smoothコストに対して、ステップサイズが2/l$未満である条件に依存している。 しかし、機械学習アプリケーションではステップサイズはしばしばこの条件を満たさないが、(確率的な)勾配降下は不安定な方法で収束する。 まず,不安定な収束現象を第一原理から検討し,その背後にある主要な原因を明らかにする。 また、その主特性とそれらの相互関係を識別し、理論と実験の両方に裏付けられた透明な視点を提供する。

Most existing analyses of (stochastic) gradient descent rely on the condition that for $L$-smooth cost, the step size is less than $2/L$. However, many works have observed that in machine learning applications step sizes often do not fulfill this condition, yet (stochastic) gradient descent converges, albeit in an unstable manner. We investigate this unstable convergence phenomenon from first principles, and elucidate key causes behind it. We also identify its main characteristics, and how they interrelate, offering a transparent view backed by both theory and experiments.
翻訳日:2022-04-06 08:31:48 公開日:2022-04-03
# (参考訳) グラフ問題に対する学習に基づくアプローチ:調査

Learning-Based Approaches for Graph Problems: A Survey ( http://arxiv.org/abs/2204.01057v1 )

ライセンス: CC BY 4.0
Kai Siong Yow and Siqiang Luo(参考訳) 長年にわたり、NP完全であるグラフ問題の多くは、幅広い研究者によって研究されてきた。 有名な例としては、グラフ彩色、巡回セールスマン問題、部分グラフ同型などがある。 これらの問題の多くは、通常、厳密なアルゴリズム、近似アルゴリズム、ヒューリスティックスによって解決される。 しかし、これらのメソッドにはいくつかの欠点がある。 最近の研究では、グラフを使って表現できる構造化データの新しいパターンを見つけるのに役立つため、これらの問題を解決するために機械学習技術のような学習ベースのフレームワークが採用されている。 この研究の方向性は、かなりの注目を集めた。 本調査では,従来のグラフ問題を中心に,学習に基づくアプローチが問題に対処するための体系的な検討を行っている。 本稿では,各フレームワークの概要を説明し,フレームワークの設計と性能に関する分析を行う。 潜在的な研究課題も提案されている。 究極的には、この調査はより明確な洞察を与え、この分野の問題の研究における研究コミュニティの足掛かりとして使用できる。

Over the years, many graph problems specifically those in NP-complete are studied by a wide range of researchers. Some famous examples include graph colouring, travelling salesman problem and subgraph isomorphism. Most of these problems are typically addressed by exact algorithms, approximate algorithms and heuristics. There are however some drawback for each of these methods. Recent studies have employed learning-based frameworks such as machine learning techniques in solving these problems, given that they are useful in discovering new patterns in structured data that can be represented using graphs. This research direction has successfully attracted a considerable amount of attention. In this survey, we provide a systematic review mainly on classic graph problems in which learning-based approaches have been proposed in addressing the problems. We discuss the overview of each framework, and provide analyses based on the design and performance of the framework. Some potential research questions are also suggested. Ultimately, this survey gives a clearer insight and can be used as a stepping stone to the research community in studying problems in this field.
翻訳日:2022-04-06 08:17:12 公開日:2022-04-03
# (参考訳) 有限幅におけるランダム完全連結ニューラルネットワークの相関関数

Correlation Functions in Random Fully Connected Neural Networks at Finite Width ( http://arxiv.org/abs/2204.01058v1 )

ライセンス: CC BY 4.0
Boris Hanin(参考訳) 本稿は、ガウスのランダムな重みとバイアスを持つ完全連結ニューラルネットワークと、大きなパラメータである$n$に比例する$L$隠れ層について考察する。 多項式境界非線型性に対して、ネットワーク出力とその導関数の結合相関関数に対して1/n$の強推定を与える。 さらに、これらの相関関数の正確な階層的再帰を求め、$\mathrm{ReLU}$ や $\tanh$ を含む非線形のクラスに対する多くの特別なケースを解く。 いずれの場合も、奥行き比$L/n$は、個々のニューロンにおける変動のスケールとニューロン間相関の大きさの両方を制御し、有効なネットワーク深さの役割を担っている。 これを、いわゆる爆発・消滅勾配問題(exploding and disappearing gradient problem)のいくぶん単純化したバージョンの研究に使用し、l/n$ が大きければ、この特定の変種が発生することを証明します。 この記事の重要なアイデアのいくつかは、ロバーツとヤイダの最近のモノグラフにおいて、物理学レベルの厳密さで最初に開発された。

This article considers fully connected neural networks with Gaussian random weights and biases and $L$ hidden layers, each of width proportional to a large parameter $n$. For polynomially bounded non-linearities we give sharp estimates in powers of $1/n$ for the joint correlation functions of the network output and its derivatives. Moreover, we obtain exact layerwise recursions for these correlation functions and solve a number of special cases for classes of non-linearities including $\mathrm{ReLU}$ and $\tanh$. We find in both cases that the depth-to-width ratio $L/n$ plays the role of an effective network depth, controlling both the scale of fluctuations at individual neurons and the size of inter-neuron correlations. We use this to study a somewhat simplified version of the so-called exploding and vanishing gradient problem, proving that this particular variant occurs if and only if $L/n$ is large. Several of the key ideas in this article were first developed at a physics level of rigor in a recent monograph with Roberts and Yaida.
翻訳日:2022-04-06 08:16:25 公開日:2022-04-03
# (参考訳) task2dial: コモンセンス強化タスクベース対話のための新しいタスクとデータセット

Task2Dial: A Novel Task and Dataset for Commonsense enhanced Task-based Dialogue Grounded in Documents ( http://arxiv.org/abs/2204.01061v1 )

ライセンス: CC BY 4.0
Carl Strathearn and Dimitra Gkatzia(参考訳) 本稿では,コモンセンスエンハンスドタスクベースの対話を文書に基礎づけた新しいタスクについて述べるとともに,タスク2ディアルデータセットについて述べる。そこでは情報提供者(ig)が情報従者(if)に指示(文書を相談することで)を提供し,その処理を成功させる。 このユニークな設定では、IFは、基礎となる文書に根拠がなく、答えるために常識知識を必要とする、明確化の質問をすることができる。 Task2Dial データセットは、(1) 人間の参照テキストは、他の文書地上の対話データセットよりもより語彙的なリッチさとバリエーションを示し、(2) このセットから生成するには、基礎となる文書から命令応答が修正された場合のパラフレーズを必要とする、(3) 質問は必ずしも文書に基礎づけられるとは限らないため、常識的な知識を必要とする、(4) タスクステップを順に提供する必要がある、といった、新しい課題を提起する。 task2dialデータセットは、既存のデータセットの12.94と12に対して、平均18.15$のターン数と19.79トークンの対話を含んでいる。 このように、このデータセットからの学習は、より自然で、多様で、テンプレートライクなシステム発話が少ないことを約束します。

This paper proposes a novel task on commonsense-enhanced task-based dialogue grounded in documents and describes the Task2Dial dataset, a novel dataset of document-grounded task-based dialogues, where an Information Giver (IG) provides instructions (by consulting a document) to an Information Follower (IF), so that the latter can successfully complete the task. In this unique setting, the IF can ask clarification questions which may not be grounded in the underlying document and require commonsense knowledge to be answered. The Task2Dial dataset poses new challenges: (1) its human reference texts show more lexical richness and variation than other document-grounded dialogue datasets; (2) generating from this set requires paraphrasing as instructional responses might have been modified from the underlying document; (3) requires commonsense knowledge, since questions might not necessarily be grounded in the document; (4) generating requires planning based on context, as task steps need to be provided in order. The Task2Dial dataset contains dialogues with an average $18.15$ number of turns and 19.79 tokens per turn, as compared to 12.94 and 12 respectively in existing datasets. As such, learning from this dataset promises more natural, varied and less template-like system utterances.
翻訳日:2022-04-06 08:14:35 公開日:2022-04-03
# (参考訳) In Rain or Shine: 自動運転車の耐候性向上のためのデータセットバイアスの理解と克服

In Rain or Shine: Understanding and Overcoming Dataset Bias for Improving Robustness Against Weather Corruptions for Autonomous Vehicles ( http://arxiv.org/abs/2204.01062v1 )

ライセンス: CC BY 4.0
Aboli Marathe, Rahee Walambe, Ketan Kotecha, Deepak Kumar Jain(参考訳) 自律運転タスクで特に対象検出(OD)に使用されるいくつかの一般的なコンピュータビジョン(CV)データセットは、天気や照明条件など様々な要因によるバイアスを示す。 これらのバイアスはモデルの一般化性を損なう可能性があり、新規データセットや未発見データセットのodには効果がない。 特に自動運転では、車両とその周囲にとって極めて高いリスクと安全を証明できるかもしれない。 この研究は、これらのデータセットをよりよく理解することに焦点を当てている。 このようなバイアスを軽減する方法により、ODモデルの性能が向上し、ロバスト性も向上する。 バイアス緩和研究のための簡易かつ効果的なODフレームワークを提案する。 このフレームワークを用いて、一般的なデータセットのパフォーマンスを分析し、モデルの性能に大きな違いを観察する。 また, 認識バイアスを軽減するために, 知識伝達技術と合成画像破壊技術を提案する。 最後に,DAWNデータセットを用いてODタスクの検証を行い,実世界の「グッドウェザー」バイアスを緩和する手法の有効性を実証した。 実験の結果,提案手法は平均4倍改善によりベースライン法を上回った。

Several popular computer vision (CV) datasets, specifically employed for Object Detection (OD) in autonomous driving tasks exhibit biases due to a range of factors including weather and lighting conditions. These biases may impair a model's generalizability, rendering it ineffective for OD in novel and unseen datasets. Especially, in autonomous driving, it may prove extremely high risk and unsafe for the vehicle and its surroundings. This work focuses on understanding these datasets better by identifying such "good-weather" bias. Methods to mitigate such bias which allows the OD models to perform better and improve the robustness are also demonstrated. A simple yet effective OD framework for studying bias mitigation is proposed. Using this framework, the performance on popular datasets is analyzed and a significant difference in model performance is observed. Additionally, a knowledge transfer technique and a synthetic image corruption technique are proposed to mitigate the identified bias. Finally, using the DAWN dataset, the findings are validated on the OD task, demonstrating the effectiveness of our techniques in mitigating real-world "good-weather" bias. The experiments show that the proposed techniques outperform baseline methods by averaged fourfold improvement.
翻訳日:2022-04-06 08:01:09 公開日:2022-04-03
# (参考訳) データカード:責任あるaiのための故意で透明なデータセットドキュメント

Data Cards: Purposeful and Transparent Dataset Documentation for Responsible AI ( http://arxiv.org/abs/2204.01075v1 )

ライセンス: CC BY 4.0
Mahima Pushkarna (1), Andrew Zaldivar (1), Oddur Kjartansson (1) ((1) Google Research)(参考訳) 研究と産業が多数の下流タスクが可能な大規模モデルへと進むにつれ、モデルにニュアンスを与えるマルチモーダルデータセットを理解する複雑さが急速に増大する。 データセットの起源、開発、意図、倫理的考察、進化を明確かつ徹底的に理解することは、モデルの責任とインフォームドな展開、特に人向きのコンテキストやリスクの高いドメインにおいて必要なステップとなる。 しかし、この理解の重荷は、しばしば文書の知性、簡潔さ、包括性にかかっている。 関連するすべてのデータセットのドキュメンテーションに一貫性と互換性が必要であり、そのようなドキュメンテーションはユーザ中心の製品として扱う必要がある。 本稿では,産業や研究の現場において,データセットの透明性,目的性,人間中心のドキュメントを育成するためのデータカードを提案する。 データカードは、AI開発に責任を持つデータセットのライフサイクルを通じて、ステークホルダが必要とするMLデータセットのさまざまな側面に関する重要な事実の要約である。 これらの要約は、データを形成するプロセスと合理性の説明を提供し、それゆえ、上流ソース、データ収集およびアノテーションメソッド、トレーニングおよび評価方法、意図的な使用、またはモデルパフォーマンスに影響する決定を提供する。 また、実世界のユーティリティと人間中心性でData Cardを基盤とするフレームワークも提示します。 2つのケーススタディを用いて,ドメイン,組織構造,オーディエンスグループにまたがる採用を支援する望ましい特性について報告する。 最後に,20枚以上のデータカードのデプロイから学んだ教訓を紹介する。

As research and industry moves towards large-scale models capable of numerous downstream tasks, the complexity of understanding multi-modal datasets that give nuance to models rapidly increases. A clear and thorough understanding of a dataset's origins, development, intent, ethical considerations and evolution becomes a necessary step for the responsible and informed deployment of models, especially those in people-facing contexts and high-risk domains. However, the burden of this understanding often falls on the intelligibility, conciseness, and comprehensiveness of the documentation. It requires consistency and comparability across the documentation of all datasets involved, and as such documentation must be treated as a user-centric product in and of itself. In this paper, we propose Data Cards for fostering transparent, purposeful and human-centered documentation of datasets within the practical contexts of industry and research. Data Cards are structured summaries of essential facts about various aspects of ML datasets needed by stakeholders across a dataset's lifecycle for responsible AI development. These summaries provide explanations of processes and rationales that shape the data and consequently the models, such as upstream sources, data collection and annotation methods; training and evaluation methods, intended use; or decisions affecting model performance. We also present frameworks that ground Data Cards in real-world utility and human-centricity. Using two case studies, we report on desirable characteristics that support adoption across domains, organizational structures, and audience groups. Finally, we present lessons learned from deploying over 20 Data Cards.
翻訳日:2022-04-06 07:51:49 公開日:2022-04-03
# (参考訳) 顔: AI Blitz XIIIソリューション

Faces: AI Blitz XIII Solutions ( http://arxiv.org/abs/2204.01081v1 )

ライセンス: CC BY 4.0
Andrew Melnik, Eren Akbulut, Jannik Sheikh, Kira Loos, Michael Buettner, Tobias Lenze(参考訳) AI Blitz XIII Facesはwww.aicrowd.comプラットフォーム上でホストされ、知覚分類、年齢予測、マスク予測、顔認識、フェイスデブラリングの5つの問題で構成された。 我々のチームはGLaDOSが2位になった。 ここでは、ソリューションと結果を紹介する。 コードの実装: https://github.com/ndrwmlnk/ai-blitz-xiii

AI Blitz XIII Faces challenge hosted on www.aicrowd.com platform consisted of five problems: Sentiment Classification, Age Prediction, Mask Prediction, Face Recognition, and Face De-Blurring. Our team GLaDOS took second place. Here we present our solutions and results. Code implementation: https://github.com/ndrwmlnk/ai-blitz-xiii
翻訳日:2022-04-06 07:50:38 公開日:2022-04-03
# (参考訳) 推薦のための仮想関係知識グラフ

Virtual Relational Knowledge Graphs for Recommendation ( http://arxiv.org/abs/2204.01089v1 )

ライセンス: CC BY 4.0
Lingyun Lu and Bang Wang and Zizhuo Zhang and Shenghao Liu and Han Xu(参考訳) 知識グラフをサイド情報として組み込むことはレコメンデーションシステムにおいて新たなトレンドとなっている。 近年の研究では、アイテムを知識グラフの実体とみなし、グラフニューラルネットワークを活用してアイテムエンコーディングを支援しつつ、個々の関係タイプを個別に検討している。 しかしながら、関係型は多すぎることが多く、場合によっては1つの関係型はエンティティが少なすぎる。 全ての関連型をアイテムエンコーディングに利用することは効率的でも効果的でもないことを論じる。 本稿では,アイテム表現学習における異なる関係の影響を明示的に区別するvrkg4recモデル(virtual relational knowledge graphs for recommendation)を提案する。 まず,教師なし学習方式を用いて仮想関係グラフ(VRKG)を構築する。 また、ノードを符号化するための局所重み付き平滑化(LWS)機構を設計し、ノードの埋め込みによってのみ繰り返し更新するが、追加のトレーニングパラメータは含まない。 また,ユーザ表現学習のためのLWS機構も導入し,ユーザ表現の学習を支援するために,関係知識を持つ項目のエンコーディングを利用する。 実験結果は、2つの公開データセットにおいて、vrkg4recモデルが最先端のメソッドよりも優れていることを検証します。

Incorporating knowledge graph as side information has become a new trend in recommendation systems. Recent studies regard items as entities of a knowledge graph and leverage graph neural networks to assist item encoding, yet by considering each relation type individually. However, relation types are often too many and sometimes one relation type involves too few entities. We argue that it is not efficient nor effective to use every relation type for item encoding. In this paper, we propose a VRKG4Rec model (Virtual Relational Knowledge Graphs for Recommendation), which explicitly distinguish the influence of different relations for item representation learning. We first construct virtual relational graphs (VRKGs) by an unsupervised learning scheme. We also design a local weighted smoothing (LWS) mechanism for encoding nodes, which iteratively updates a node embedding only depending on the embedding of its own and its neighbors, but involve no additional training parameters. We also employ the LWS mechanism on a user-item bipartite graph for user representation learning, which utilizes encodings of items with relational knowledge to help training representations of users. Experiment results on two public datasets validate that our VRKG4Rec model outperforms the state-of-the-art methods.
翻訳日:2022-04-06 07:41:37 公開日:2022-04-03
# (参考訳) De-Pois Poisoning Defenseを破る

Breaking the De-Pois Poisoning Defense ( http://arxiv.org/abs/2204.01090v1 )

ライセンス: CC BY 4.0
Alaa Anani, Mohamed Ghanem and Lotfy Abdel Khaliq(参考訳) 機械学習モデルに対する攻撃は、その概念以来、終わりのない猫とマウスのゲームのような非常に永続的で回避的な問題だった。 このような攻撃の主な変種は、mlモデルを間接的に操作できる毒殺攻撃である。 長年にわたり、提案された効果的な防御モデルの大部分は、攻撃者が採用されていることを認識していない場合にのみ有効であることが観察されてきた。 本稿では,攻撃非依存のデポア防御は,そのルールの例外ではないことを示す。 実際、この脆弱性はデポア防御モデルの構造を知っている攻撃者による最も単純なホワイトボックスおよびブラックボックス攻撃に対するものである。 本質的には、De-Poisディフェンスは、ターゲットモデルに渡す前に、毒データを検出するために使用できる批判モデルに依存している。 私たちの研究では、この毒物保護層を、批評家モデルを複製して、批評家とターゲットの両方のモデルを同時に構成したグラデーションサインアタックを実行することで壊します。

Attacks on machine learning models have been, since their conception, a very persistent and evasive issue resembling an endless cat-and-mouse game. One major variant of such attacks is poisoning attacks which can indirectly manipulate an ML model. It has been observed over the years that the majority of proposed effective defense models are only effective when an attacker is not aware of them being employed. In this paper, we show that the attack-agnostic De-Pois defense is hardly an exception to that rule. In fact, we demonstrate its vulnerability to the simplest White-Box and Black-Box attacks by an attacker that knows the structure of the De-Pois defense model. In essence, the De-Pois defense relies on a critic model that can be used to detect poisoned data before passing it to the target model. In our work, we break this poison-protection layer by replicating the critic model and then performing a composed gradient-sign attack on both the critic and target models simultaneously -- allowing us to bypass the critic firewall to poison the target model.
翻訳日:2022-04-06 07:35:58 公開日:2022-04-03
# (参考訳) pmuBAGE: 発電システムイベント用の生成PMUデータのベンチマーク機能 - Part I: 概要と結果

pmuBAGE: The Benchmarking Assortment of Generated PMU Data for Power System Events -- Part I: Overview and Results ( http://arxiv.org/abs/2204.01095v1 )

ライセンス: CC BY 4.0
Brandon Foggo, Koji Yamashita, Nanpeng Yu(参考訳) pmuGE (phasor measurement unit Generator of Events) は,電力系統イベントデータのための最初のデータ駆動生成モデルである。 我々は、このモデルを何千もの実際のイベントでトレーニングし、pmuBAGE (Benchmarking Assortment of Generated PMU Events) というデータセットを作成しました。 データセットは、約1000のラベル付きイベントデータのインスタンスで構成され、ファーザー計測ユニット(PMU)データ分析のベンチマーク評価を促進する。 データセットは、この分野の研究者や実践者がオンラインで利用できる。 PMUデータは、特にイベント期間をカバーするものを得るのは難しい。 それでも、電力システムの問題は最近、データ駆動機械学習ソリューション(PMUデータを得るのに十分な幸運な研究者によって作られたソリューション)による驚くべき進歩を目の当たりにした。 非常にアクセスしやすい標準ベンチマークデータセットは、この分野で成功した機械学習技術の開発を劇的に加速する。 本稿では,電力系統イベントのイベント参加分解に基づく新しい学習手法を提案し,システム異常時にPMUデータの生成モデルを学習できるようにする。 このモデルは、トレーニングに使用するPMUの差分プライバシーを妥協することなく、非常に現実的なイベントデータを生成することができる。 データセットは、pmuBAGE Github Repository - https://github.com/NanpengYu/pmuBAGEで使用することができる。 パートi - これは2つの部分からなる論文のパートiです。 第1部では、pmuBAGEの高レベルな概要、pmuBAGEの作成、およびそれをテストする実験について述べる。 第2部では、その世代で使用された正確なモデルについてより詳細に論じる。

We present pmuGE (phasor measurement unit Generator of Events), one of the first data-driven generative model for power system event data. We have trained this model on thousands of actual events and created a dataset denoted pmuBAGE (the Benchmarking Assortment of Generated PMU Events). The dataset consists of almost 1000 instances of labeled event data to encourage benchmark evaluations on phasor measurement unit (PMU) data analytics. The dataset is available online for use by any researcher or practitioner in the field. PMU data are challenging to obtain, especially those covering event periods. Nevertheless, power system problems have recently seen phenomenal advancements via data-driven machine learning solutions - solutions created by researchers who were fortunate enough to obtain such PMU data. A highly accessible standard benchmarking dataset would enable a drastic acceleration of the development of successful machine learning techniques in this field. We propose a novel learning method based on the Event Participation Decomposition of Power System Events, which makes it possible to learn a generative model of PMU data during system anomalies. The model can create highly realistic event data without compromising the differential privacy of the PMUs used to train it. The dataset is available online for any researcher to use at the pmuBAGE Github Repository - https://github.com/NanpengYu/pmuBAGE. Part I - This is part I of a two part paper. In part I, we describe a high level overview of pmuBAGE, its creation, and the experiments used to test it. Part II will discuss the exact models used in its generation in far more detail.
翻訳日:2022-04-06 07:29:45 公開日:2022-04-03
# (参考訳) 文書レベル関係抽出のためのシーケンシャル・ツー・シーケンスアプローチ

A sequence-to-sequence approach for document-level relation extraction ( http://arxiv.org/abs/2204.01098v1 )

ライセンス: CC0 1.0
John Giorgi and Gary D. Bader and Bo Wang(参考訳) 多くの関係が文境界を越えているという事実によって、文書レベルの関係抽出(DocRE)への関心が高まっている。 DocREは、エンティティの参照間の複雑な相互作用をキャプチャするために、文内および複数の情報を統合する必要がある。 既存のメソッドのほとんどはパイプラインベースで、入力としてエンティティを必要とする。 しかし、エンティティや関係を抽出する共同学習は、共有パラメータやトレーニングステップにより、パフォーマンスを改善し、より効率的になる。 本稿では,docre(entity extraction, coreference resolution and relation extraction)のサブタスクをエンドツーエンドで学習し,タスク固有のコンポーネントのパイプラインを置き換える,シーケンスからシーケンスへのアプローチであるseq2relを開発した。 エンティティヒントと呼ばれる単純な戦略を用いて、我々のアプローチをいくつかの一般的なバイオメディカルデータセット上の既存のパイプラインベースの手法と比較します。 また、これらのデータセットの最初のエンドツーエンドの結果を将来の比較のために報告する。 最後に、私たちのモデルでは、エンドツーエンドのアプローチがパイプラインベースのアプローチよりも優れています。 私たちのコード、データ、トレーニングされたモデルは、 {\small{\url{https://github.com/johngiorgi/seq2rel}}}で利用可能です。 オンラインデモは {\small{\url{https://share.streamlit.io/johngiorgi/seq2rel/main/demo.py}}}で見ることができる。

Motivated by the fact that many relations cross the sentence boundary, there has been increasing interest in document-level relation extraction (DocRE). DocRE requires integrating information within and across sentences, capturing complex interactions between mentions of entities. Most existing methods are pipeline-based, requiring entities as input. However, jointly learning to extract entities and relations can improve performance and be more efficient due to shared parameters and training steps. In this paper, we develop a sequence-to-sequence approach, seq2rel, that can learn the subtasks of DocRE (entity extraction, coreference resolution and relation extraction) end-to-end, replacing a pipeline of task-specific components. Using a simple strategy we call entity hinting, we compare our approach to existing pipeline-based methods on several popular biomedical datasets, in some cases exceeding their performance. We also report the first end-to-end results on these datasets for future comparison. Finally, we demonstrate that, under our model, an end-to-end approach outperforms a pipeline-based approach. Our code, data and trained models are available at {\small{\url{https://github.com/johngiorgi/seq2rel}}}. An online demo is available at {\small{\url{https://share.streamlit.io/johngiorgi/seq2rel/main/demo.py}}}.
翻訳日:2022-04-06 07:15:43 公開日:2022-04-03
# (参考訳) 逆ロバストなセグメンテーションモデルは知覚整合勾配を学習する

Adversarially robust segmentation models learn perceptually-aligned gradients ( http://arxiv.org/abs/2204.01099v1 )

ライセンス: CC BY 4.0
Pedro Sandoval-Segura(参考訳) セマンティクスセグメンテーションネットワークに対する敵意訓練の効果は十分に検討されていない。 従来の研究では、画像合成に逆学習した画像分類器を使用できることが示されているが、逆学習したセグメント化ネットワークをどのように活用するかは、まだ分かっていない。 単純なオプティマイザを用いて,逆訓練された意味セグメンテーションネットワークを用いて画像インパインティングと生成を行うことができることを示す。 実験により, 対向学習されたセグメンテーションネットワークは, より堅牢で, 知覚的に整合した勾配を示し, 可視像の塗布に有効であることが確認された。 我々は、逆向きに頑健なモデルが人間の視覚とより知覚的に整合した勾配を示すという仮説の裏側に、さらなる重みをつけようとしている。 画像合成を通じて、知覚的に整列した勾配はニューラルネットワークの学習表現をよりよく理解し、ニューラルネットワークをより解釈しやすいものにするのに役立つと主張する。

The effects of adversarial training on semantic segmentation networks has not been thoroughly explored. While previous work has shown that adversarially-trained image classifiers can be used to perform image synthesis, we have yet to understand how best to leverage an adversarially-trained segmentation network to do the same. Using a simple optimizer, we demonstrate that adversarially-trained semantic segmentation networks can be used to perform image inpainting and generation. Our experiments demonstrate that adversarially-trained segmentation networks are more robust and indeed exhibit perceptually-aligned gradients which help in producing plausible image inpaintings. We seek to place additional weight behind the hypothesis that adversarially robust models exhibit gradients that are more perceptually-aligned with human vision. Through image synthesis, we argue that perceptually-aligned gradients promote a better understanding of a neural network's learned representations and aid in making neural networks more interpretable.
翻訳日:2022-04-06 06:53:47 公開日:2022-04-03
# (参考訳) 手続きデータによるバイアスの調整

Adjusting for Bias with Procedural Data ( http://arxiv.org/abs/2204.01108v1 )

ライセンス: CC BY 4.0
Shesh Narayan Gupta, Nicholas Bear Brown(参考訳) 今や3dソフトウェアは、本物の画像とほとんど区別できないほどリアルな画像を生成できる。 実際のデータセットは3Dレンダリングデータで拡張できるのか? 私たちはこの質問を調査します。 本稿では,画像データセットにおけるバイアス調整のための3次元レンダリングデータ,手続きデータの利用について述べる。 動物画像の誤り解析を行い、いくつかの動物品種の誤分類が主にデータ問題であることを示す。 そして、分類の悪い品種の手続き的画像を作成し、手続き的データに基づいてさらに訓練されたモデルは、実データ上での成績の悪い品種の分類をより良くします。 このアプローチは、希少な疾患や、モデルの正確性や公平性を改善する可能性のあるデータバイアスを含む、未表現のグループの視覚的データ向上に有効であると考えています。 結果表現は実データから直接学習した表現に匹敵するか、あるいは優れていますが、優れた性能には3dレンダリングされた手続きデータ生成に注意が必要です。 3D画像データセットは、実際のデータセットの圧縮および整理されたコピーと見なすことができ、データセットがますます扱いにくくなり、欠落し、プライベートになりつつ、より手続き的なデータが増大する未来を想像する。 本稿では,このような未来において視覚表現学習を扱うためのいくつかの手法を提案する。

3D softwares are now capable of producing highly realistic images that look nearly indistinguishable from the real images. This raises the question: can real datasets be enhanced with 3D rendered data? We investigate this question. In this paper we demonstrate the use of 3D rendered data, procedural, data for the adjustment of bias in image datasets. We perform error analysis of images of animals which shows that the misclassification of some animal breeds is largely a data issue. We then create procedural images of the poorly classified breeds and that model further trained on procedural data can better classify poorly performing breeds on real data. We believe that this approach can be used for the enhancement of visual data for any underrepresented group, including rare diseases, or any data bias potentially improving the accuracy and fairness of models. We find that the resulting representations rival or even out-perform those learned directly from real data, but that good performance requires care in the 3D rendered procedural data generation. 3D image dataset can be viewed as a compressed and organized copy of a real dataset, and we envision a future where more and more procedural data proliferate while datasets become increasingly unwieldy, missing, or private. This paper suggests several techniques for dealing with visual representation learning in such a future.
翻訳日:2022-04-06 06:39:40 公開日:2022-04-03
# (参考訳) 学習したセキュリティポリシーの対話的検証システム

A System for Interactive Examination of Learned Security Policies ( http://arxiv.org/abs/2204.01126v1 )

ライセンス: CC BY-SA 4.0
Kim Hammar and Rolf Stadler(参考訳) 本稿では,学習したセキュリティポリシーを相互に検証するシステムを提案する。 ユーザはMarkov決定プロセスのエピソードを制御された方法でトラバースし、セキュリティポリシによって引き起こされるアクションを追跡することができる。 ソフトウェアデバッガと同様に、ユーザは任意のタイミングでエピソードを継続または停止し、パラメータや関心の確率分布を検査することができる。 このシステムは、所定のポリシーの構造と、エッジケースにおけるポリシーの振る舞いに関する洞察を可能にする。 本稿では,ネットワーク侵入ユースケースを用いてシステムを示す。 攻撃中、ITインフラの状態の進化とセキュリティポリシーによって規定される行動について検討する。 実証のための政策は、段階的にポリシーを学習するシミュレーションシステムと、シミュレーションを駆動する統計を生成するエミュレーションシステムとを含む強化学習アプローチによって得られた。

We present a system for interactive examination of learned security policies. It allows a user to traverse episodes of Markov decision processes in a controlled manner and to track the actions triggered by security policies. Similar to a software debugger, a user can continue or or halt an episode at any time step and inspect parameters and probability distributions of interest. The system enables insight into the structure of a given policy and in the behavior of a policy in edge cases. We demonstrate the system with a network intrusion use case. We examine the evolution of an IT infrastructure's state and the actions prescribed by security policies while an attack occurs. The policies for the demonstration have been obtained through a reinforcement learning approach that includes a simulation system where policies are incrementally learned and an emulation system that produces statistics that drive the simulation runs.
翻訳日:2022-04-06 06:24:32 公開日:2022-04-03
# (参考訳) SE(3)同変ベクトルニューロンを用いた形状粗い絡み合い

Shape-Pose Disentanglement using SE(3)-equivariant Vector Neurons ( http://arxiv.org/abs/2204.01159v1 )

ライセンス: CC BY 4.0
Oren Katzir, Dani Lischinski, Daniel Cohen-Or(参考訳) 本研究では,点雲を標準形状表現に符号化するための教師なし手法を提案する。 私たちのエンコーダは安定で一貫性があり、形状エンコーディングは純粋にポーズ不変であり、抽出された回転と変換は、同じクラスの異なる入力形状を共通の標準的なポーズに意味的に整列することができる。 具体的には、回転同変ニューラルネットワークであるベクトルニューロンネットワークに基づく自動エンコーダの設計を行い、その層は、回転同変のみに加えて、翻訳同変性を提供するために拡張される。 得られたエンコーダは、構成によってポーズ不変な形状を符号化し、オブジェクトのクラスに対して一貫した正則的なポーズを学習することに集中することができる。 定量的・定性的な実験は,我々のアプローチの優れた安定性と一貫性を検証する。

We introduce an unsupervised technique for encoding point clouds into a canonical shape representation, by disentangling shape and pose. Our encoder is stable and consistent, meaning that the shape encoding is purely pose-invariant, while the extracted rotation and translation are able to semantically align different input shapes of the same class to a common canonical pose. Specifically, we design an auto-encoder based on Vector Neuron Networks, a rotation-equivariant neural network, whose layers we extend to provide translation-equivariance in addition to rotation-equivariance only. The resulting encoder produces pose-invariant shape encoding by construction, enabling our approach to focus on learning a consistent canonical pose for a class of objects. Quantitative and qualitative experiments validate the superior stability and consistency of our approach.
翻訳日:2022-04-06 06:20:33 公開日:2022-04-03
# (参考訳) 実用的制約と代名詞参照の曖昧さ:可能性と不可能

Pragmatic constraints and pronoun reference disambiguation: the possible and the impossible ( http://arxiv.org/abs/2204.01166v1 )

ライセンス: CC BY-SA 4.0
Ernest Davis(参考訳) テキストと談話を理解することの曖昧さは、しばしば一般的な実践的知識と文脈固有の情報の両方を応用する必要がある。 AIと言語学の研究において、これは主に、参照者が近くの前のテキストで明示的に記述されている場合に研究されている。 しかし、自然文の代名詞は、前述したような暗黙の実体、コレクション、出来事を指すことが多く、その場合、曖昧さを解消するために実践的な知識を使う必要性が増し、知識の特徴づけがより困難になる。 時折拡張された文学テキストは、非常に複雑な参照パターンと非常に豊かな知識と微妙な知識の両方を用いる。 実際、テキスト中の参照語から遠く離れた代名詞を持つことも時々可能である。 反対の方向では、代名詞の使用は注意の焦点や、平行構文構造の好みのような形式的な制約の影響を受けており、これらは非常に強いので、現実的な知識がそれらを克服するのに十分ではない。

Pronoun disambiguation in understanding text and discourse often requires the application of both general pragmatic knowledge and context-specific information. In AI and linguistics research, this has mostly been studied in cases where the referent is explicitly stated in the preceding text nearby. However, pronouns in natural text often refer to entities, collections, or events that are only implicit mentioned previously; in those cases the need to use pragmatic knowledge to disambiguate becomes much more acute and the characterization of the knowledge becomes much more difficult. Extended literary texts at times employ both extremely complex patterns of reference and extremely rich and subtle forms of knowledge. Indeed, it is occasionally possible to have a pronoun that is far separated from its referent in a text. In the opposite direction, pronoun use is affected by considerations of focus of attention and by formal constraints such as a preference for parallel syntactic structures; these can be so strong that no pragmatic knowledge suffices to overrule them.
翻訳日:2022-04-06 06:01:32 公開日:2022-04-03
# (参考訳) わずかなショットタンパク質生成

Few Shot Protein Generation ( http://arxiv.org/abs/2204.01168v1 )

ライセンス: CC BY 4.0
Soumya Ram and Tristan Bepler(参考訳) MSA-to- Protein Transformerは、多列配列アライメント(MSA)で表されるタンパク質ファミリーに条件付けられたタンパク質配列の生成モデルである。 タンパク質ファミリーの生成モデルを学ぶ既存のアプローチとは異なり、msa-タンパク質トランスフォーマーは複数の配列アライメントの学習されたエンコーディングに基づいて配列生成し、専用のファミリーモデルへの適合を回避している。 MSA-to-タンパク質トランスフォーマーは,Pfamにおける多列配列の多列配列の訓練により,訓練中に観察されていないタンパク質ファミリーを一般化し,特にMSAが小さい場合には,従来のファミリーモデリング手法より優れる。 我々の生成的アプローチは、エピスタシスやインデルを正確にモデル化し、他のアプローチとは異なり、正確な推論と効率的なサンプリングを可能にします。 MSA-to- Protein変換器のタンパク質配列モデリング能力を実証し、包括的なベンチマーク実験において代替配列モデリング手法と比較する。

We present the MSA-to-protein transformer, a generative model of protein sequences conditioned on protein families represented by multiple sequence alignments (MSAs). Unlike existing approaches to learning generative models of protein families, the MSA-to-protein transformer conditions sequence generation directly on a learned encoding of the multiple sequence alignment, circumventing the need for fitting dedicated family models. By training on a large set of well-curated multiple sequence alignments in Pfam, our MSA-to-protein transformer generalizes well to protein families not observed during training and outperforms conventional family modeling approaches, especially when MSAs are small. Our generative approach accurately models epistasis and indels and allows for exact inference and efficient sampling unlike other approaches. We demonstrate the protein sequence modeling capabilities of our MSA-to-protein transformer and compare it with alternative sequence modeling approaches in comprehensive benchmark experiments.
翻訳日:2022-04-06 05:50:18 公開日:2022-04-03
# (参考訳) 露出バイアスが重要な理由: 言語生成における誤り蓄積の模倣学習視点

Why Exposure Bias Matters: An Imitation Learning Perspective of Error Accumulation in Language Generation ( http://arxiv.org/abs/2204.01171v1 )

ライセンス: CC BY 4.0
Kushal Arora, Layla El Asri, Hareesh Bahuleyan, Jackie Chi Kit Cheung(参考訳) 現在の言語生成モデルは、反復、一貫性の欠如、幻覚といった問題に苦しむ。 しばしば繰り返される仮説は、生成モデルの脆さは、トレーニングと生成手順のミスマッチ(露出バイアスとも呼ばれる)によって引き起こされるというものである。 本稿では,模擬学習の観点から露出バイアスを解析し,この仮説を検証する。 露光バイアスがエラーの蓄積を招き、なぜ過度にこの蓄積を捉えられなかったのかを分析し、この蓄積が世代品質の低下をもたらすことを実証的に示す。 これらの実験を再現するソースコードはhttps://github.com/kushalarora/quantifying_exposure_biasで入手できる。

Current language generation models suffer from issues such as repetition, incoherence, and hallucinations. An often-repeated hypothesis is that this brittleness of generation models is caused by the training and the generation procedure mismatch, also referred to as exposure bias. In this paper, we verify this hypothesis by analyzing exposure bias from an imitation learning perspective. We show that exposure bias leads to an accumulation of errors, analyze why perplexity fails to capture this accumulation, and empirically show that this accumulation results in poor generation quality. Source code to reproduce these experiments is available at https://github.com/kushalarora/quantifying_exposure_bias
翻訳日:2022-04-06 05:33:18 公開日:2022-04-03
# (参考訳) perfect: 言語モデルによるプロンプトフリーかつ効率的なマイノリティ学習

PERFECT: Prompt-free and Efficient Few-shot Learning with Language Models ( http://arxiv.org/abs/2204.01172v1 )

ライセンス: CC BY 4.0
Rabeeh Karimi Mahabadi, Luke Zettlemoyer, James Henderson, Marzieh Saeidi, Lambert Mathias, Veselin Stoyanov, and Majid Yazdani(参考訳) 事前訓練されたマスク付き言語モデル (PLM) を微調整するための現在の手法は、PLMが採点できるクローゼ形式に変換するために、新しいタスクごとに慎重に設計されたプロンプトと動詞化器を必要とする。 本研究では,手工芸に頼らずに数発のPLMの微調整を簡便かつ効率的に行うPERFECTを提案する。 まず、手動で設計したタスクプロンプトをタスク固有のアダプタに置き換えることで、サンプル効率の良い微調整を可能にし、メモリとストレージのコストをそれぞれ5倍と100倍に削減できることを示します。 第二に、手作りの動詞を使わずに、モデル語彙に縛られず、複雑な自動回帰復号を避けることができる、ファインチューニング中に新しいマルチトークンラベル埋め込みを学習する。 これらの埋め込みは、限られたデータから学習できるだけでなく、100倍近いトレーニングと推論を可能にする。 幅広い数発のNLPタスクの実験では、PERFECTはシンプルで効率的であるが、既存の最先端の数発の学習方法よりも優れていることが示されている。 私たちのコードはhttps://github.com/rabeehk/perfect.comで公開されています。

Current methods for few-shot fine-tuning of pretrained masked language models (PLMs) require carefully engineered prompts and verbalizers for each new task to convert examples into a cloze-format that the PLM can score. In this work, we propose PERFECT, a simple and efficient method for few-shot fine-tuning of PLMs without relying on any such handcrafting, which is highly effective given as few as 32 data points. PERFECT makes two key design choices: First, we show that manually engineered task prompts can be replaced with task-specific adapters that enable sample-efficient fine-tuning and reduce memory and storage costs by roughly factors of 5 and 100, respectively. Second, instead of using handcrafted verbalizers, we learn new multi-token label embeddings during fine-tuning, which are not tied to the model vocabulary and which allow us to avoid complex auto-regressive decoding. These embeddings are not only learnable from limited data but also enable nearly 100x faster training and inference. Experiments on a wide range of few-shot NLP tasks demonstrate that PERFECT, while being simple and efficient, also outperforms existing state-of-the-art few-shot learning methods. Our code is publicly available at https://github.com/rabeehk/perfect.
翻訳日:2022-04-06 05:18:01 公開日:2022-04-03
# TDAの成果:SDM2022におけるデータサイエンス・人工知能・機械学習ワークショップへのトポロジカルデータ分析の適用

Proceedings of TDA: Applications of Topological Data Analysis to Data Science, Artificial Intelligence, and Machine Learning Workshop at SDM 2022 ( http://arxiv.org/abs/2204.01142v1 )

ライセンス: Link先を確認
R. W. R. Darling, John A. Emanuello, Emilie Purvine, and Ahmad Ridley(参考訳) トポロジカル・データ・アナリティクス(TDA)は、幾何学的・代数的トポロジ、圏論、コンビネータの技法を借りて複雑な高次元データの「形」を研究するための厳密な枠組みである。 この分野の研究はここ数年で大きく成長し、ゲノム学、自然言語処理、医学、サイバーセキュリティ、エネルギー、気候変動といった分野における実用的な応用に深く根ざした理論をもたらした。 これらの領域のいくつかでは、AIとMLのテクニックの強化にもTDAが使用されている。 この領域では、専門家(理論家と実践家の両方)と非専門家を集結するワークショップによって、さらなる有用性が得られていると考えています。 現在、純粋数学者の活発なコミュニティがあり、tdaの理論的および計算的側面の開発と探求に関心がある。 応用数学者や他の実践家もコミュニティに存在しているが、多数派を代表していない。 このワークショップの主な目的は、TDAに対するより広い関心のコミュニティを成長させることである。 政府、学界、産業全体から、これらのグループ間の有意義な交流を育むことで、問題と解決空間を相互に包括的に認識することのみを達成できる新たなシナジーを創出したいと考えています。

Topological Data Analysis (TDA) is a rigorous framework that borrows techniques from geometric and algebraic topology, category theory, and combinatorics in order to study the "shape" of such complex high-dimensional data. Research in this area has grown significantly over the last several years bringing a deeply rooted theory to bear on practical applications in areas such as genomics, natural language processing, medicine, cybersecurity, energy, and climate change. Within some of these areas, TDA has also been used to augment AI and ML techniques. We believe there is further utility to be gained in this space that can be facilitated by a workshop bringing together experts (both theorists and practitioners) and non-experts. Currently there is an active community of pure mathematicians with research interests in developing and exploring the theoretical and computational aspects of TDA. Applied mathematicians and other practitioners are also present in community but do not represent a majority. This speaks to the primary aim of this workshop which is to grow a wider community of interest in TDA. By fostering meaningful exchanges between these groups, from across the government, academia, and industry, we hope to create new synergies that can only come through building a mutual comprehensive awareness of the problem and solution spaces.
翻訳日:2022-04-05 17:28:42 公開日:2022-04-03
# 時間知覚型コールドスタート勧告のための動的メタラーニングモデル

A Dynamic Meta-Learning Model for Time-Sensitive Cold-Start Recommendations ( http://arxiv.org/abs/2204.00970v1 )

ライセンス: Link先を確認
Krishna Prasad Neupane, Ervine Zheng, Yu Kong, Qi Yu(参考訳) 本稿では,最近比較的非アクティブなインタラクションを持つユーザに注目した,新しい動的レコメンデーションモデルを提案する。 これらの時間に敏感なコールドスタートユーザに対して効果的なレコメンデーションを行うことは、レコメンデーションシステムのユーザベースを維持する上で重要である。 近年のインタラクションが乏しいため,ユーザの現在の好みを正確に把握することは困難である。 歴史的相互作用を頼りにすれば、最近の関心に合わない時代遅れのレコメンデーションにつながるかもしれない。 提案モデルでは,過去のユーザとイテムのインタラクションを活用し,ユーザの嗜好を動的に分解し,ユーザの行動に影響を及ぼす時間固有表現と時間進化表現に分解する。 これらの潜在要因は、正確かつタイムリーなレコメンデーションを達成するために、最適化されたアイテム埋め込みとさらに相互作用する。 実世界のデータに対する実験は、提案された時間に敏感なコールドスタートレコメンデーションモデルの有効性を示すのに役立つ。

We present a novel dynamic recommendation model that focuses on users who have interactions in the past but turn relatively inactive recently. Making effective recommendations to these time-sensitive cold-start users is critical to maintain the user base of a recommender system. Due to the sparse recent interactions, it is challenging to capture these users' current preferences precisely. Solely relying on their historical interactions may also lead to outdated recommendations misaligned with their recent interests. The proposed model leverages historical and current user-item interactions and dynamically factorizes a user's (latent) preference into time-specific and time-evolving representations that jointly affect user behaviors. These latent factors further interact with an optimized item embedding to achieve accurate and timely recommendations. Experiments over real-world data help demonstrate the effectiveness of the proposed time-sensitive cold-start recommendation model.
翻訳日:2022-04-05 17:03:48 公開日:2022-04-03
# Webフィッシング検出の限界と緩和に向けて

Towards Web Phishing Detection Limitations and Mitigation ( http://arxiv.org/abs/2204.00985v1 )

ライセンス: Link先を確認
Alsharif Abuadbba, Shuo Wang, Mahathir Almashor, Muhammed Ejaz Ahmed, Raj Gaire, Seyit Camtepe, Surya Nepal(参考訳) Webフィッシングは依然として、ほとんどのデータ漏洩の原因となる深刻なサイバー脅威だ。 機械学習(ML)ベースのアンチフィッシング検出器は効果的な対策と見なされ、Webブラウザやソフトウェア製品にも採用されている。 しかし、PhishTank や VirusTotal (VT) のようなプラットフォームに1時間平均10Kのフィッシングリンクが報告されているため、このようなMLベースのソリューションの欠陥はゼロに置かれる。 まず最初に、フィッシングサイトが、Facebookなどの主要ブランドをターゲットにした13Kのフィッシングページを深く掘り下げて、MLベースの検出をバイパスする方法を探る。 その結果,(1) フィッシングURLを曖昧にするための良質なサービスの利用,(2) フィッシングと良質なページのHTML構造間の高い類似性,(3) 究極のフィッシングコンテンツをJavascript内に隠蔽し,クライアント上でのみ実行すること,(4) IDやドキュメントなどの新しいコンテンツに対する一般的な認証情報やクレジットカードを超越すること,(5) フィッシングコンテンツが人間との対話の後に隠蔽されること,などが確認できた。 我々は,mlモデルが垂直的特徴空間(webページコンテンツ)に依存することの根本原因を考察する。 これらのソリューションは、ページ内に存在するフィッシャーにのみ依存する。 そこで,ロジスティック回帰に基づくよりレジリエントなモデルであるAnti-SubtlePhishを提案する。 これは信頼されたサービスが記録したもの(例えばpagerank)に対する疑わしいページの最終レンダリング間の相関変数を調べるものだ。 1)と(2)を倒すために、WHOIS、PageRank、およびページ分析の情報を関連付ける。 (3),(4),(5)と戦うために,ページをレンダリングした後の特徴を相関付けする。 100kフィッシング/良性サイトを用いた実験では、有望な精度(98.8%)を示した。 また,手作業で作成した0日間のフィッシングページに対して,最初の4日間でvtベンダーが記録した0%と比較して100%精度が向上した。

Web phishing remains a serious cyber threat responsible for most data breaches. Machine Learning (ML)-based anti-phishing detectors are seen as an effective countermeasure, and are increasingly adopted by web-browsers and software products. However, with an average of 10K phishing links reported per hour to platforms such as PhishTank and VirusTotal (VT), the deficiencies of such ML-based solutions are laid bare. We first explore how phishing sites bypass ML-based detection with a deep dive into 13K phishing pages targeting major brands such as Facebook. Results show successful evasion is caused by: (1) use of benign services to obscure phishing URLs; (2) high similarity between the HTML structures of phishing and benign pages; (3) hiding the ultimate phishing content within Javascript and running such scripts only on the client; (4) looking beyond typical credentials and credit cards for new content such as IDs and documents; (5) hiding phishing content until after human interaction. We attribute the root cause to the dependency of ML-based models on the vertical feature space (webpage content). These solutions rely only on what phishers present within the page itself. Thus, we propose Anti-SubtlePhish, a more resilient model based on logistic regression. The key augmentation is the inclusion of a horizontal feature space, which examines correlation variables between the final render of suspicious pages against what trusted services have recorded (e.g., PageRank). To defeat (1) and (2), we correlate information between WHOIS, PageRank, and page analytics. To combat (3), (4) and (5), we correlate features after rendering the page. Experiments with 100K phishing/benign sites show promising accuracy (98.8%). We also obtained 100% accuracy against 0-day phishing pages that were manually crafted, comparing well to the 0% recorded by VT vendors over the first four days.
翻訳日:2022-04-05 17:01:04 公開日:2022-04-03
# 対流損失関数を用いた深層学習のための微分プライベートフレームワーク

A Differentially Private Framework for Deep Learning with Convexified Loss Functions ( http://arxiv.org/abs/2204.01049v1 )

ライセンス: Link先を確認
Zhigang Lu, Hassan Jameel Asghar, Mohamed Ali Kaafar, Darren Webb, Peter Dickinson(参考訳) 差分プライバシー(DP)は、基礎となるトレーニングセットのプライバシーを保護するためにディープラーニングに応用されている。 既存のDP実践は、客観的摂動、勾配摂動、出力摂動の3つのカテゴリに分類される。 主に3つの問題を抱えている。 まず、目的関数の条件は、一般的なディープラーニングタスクにおける目的摂動を制限する。 第2に、勾配摂動は、各エポックにおける過剰なインジェクションノイズによる、十分なプライバシー利用のトレードオフを達成できない。 第3に、トレーニングしたモデルパラメータをノイズスケールパラメータとして大域的感度のゆるい上限のため、出力摂動法の高可用性は保証されない。 これらの問題に対処するために,モデルパラメータのグローバル感度の上限をより厳密に分析する。 この大域的感度に基づくブラックボックス環境下では, 対流損失関数を訓練したベースライン非プライベートニューラルネットワークの出力層において, ランダムにサンプリングされたニューロンにdpノイズを注入する(指数関数機構を介して)新しい出力摂動フレームワークを提案する。 我々は、ベースライン非プライベートモデルへの精度損失と、ブラックボックスメンバーシップ推論(MI)攻撃に対するプライバシリークによる、我々のフレームワークと、一般的に使用されている6つの実世界のデータセットに対するオープンソースの差分的確率勾配勾配(DP-SGD)アプローチを実証的に比較した。 実験により,ベースラインモデルがMI攻撃下で観測可能なプライバシリークが発生した場合,本フレームワークはDP-SGD実装よりも優れたプライバシユーティリティトレードオフを実現し,多数のクエリに対して,全体的なプライバシ予算が$\epsilon \leq 1$であることが確認された。

Differential privacy (DP) has been applied in deep learning for preserving privacy of the underlying training sets. Existing DP practice falls into three categories - objective perturbation, gradient perturbation and output perturbation. They suffer from three main problems. First, conditions on objective functions limit objective perturbation in general deep learning tasks. Second, gradient perturbation does not achieve a satisfactory privacy-utility trade-off due to over-injected noise in each epoch. Third, high utility of the output perturbation method is not guaranteed because of the loose upper bound on the global sensitivity of the trained model parameters as the noise scale parameter. To address these problems, we analyse a tighter upper bound on the global sensitivity of the model parameters. Under a black-box setting, based on this global sensitivity, to control the overall noise injection, we propose a novel output perturbation framework by injecting DP noise into a randomly sampled neuron (via the exponential mechanism) at the output layer of a baseline non-private neural network trained with a convexified loss function. We empirically compare the privacy-utility trade-off, measured by accuracy loss to baseline non-private models and the privacy leakage against black-box membership inference (MI) attacks, between our framework and the open-source differentially private stochastic gradient descent (DP-SGD) approaches on six commonly used real-world datasets. The experimental evaluations show that, when the baseline models have observable privacy leakage under MI attacks, our framework achieves a better privacy-utility trade-off than existing DP-SGD implementations, given an overall privacy budget $\epsilon \leq 1$ for a large number of queries.
翻訳日:2022-04-05 17:00:29 公開日:2022-04-03
# rgb-dセンサを用いたダイナミックスラムとパンオプティカルセグメンテーションによる視覚障害者の屋内ナビゲーション支援

Indoor Navigation Assistance for Visually Impaired People via Dynamic SLAM and Panoptic Segmentation with an RGB-D Sensor ( http://arxiv.org/abs/2204.01154v1 )

ライセンス: Link先を確認
Wenyan Ou, Jiaming Zhang, Kunyu Peng, Kailun Yang, Gerhard Jaworek, Karin M\"uller, Rainer Stiefelhagen(参考訳) 身近な屋内環境の探索と障害物回避は視覚障害者にとって困難である。 現在,屋内シーンのマッピングに基づく静的障害物回避手法がいくつかある。 動的障害物を識別する問題を解決するため,RGB-Dセンサによるシーンの動的情報検出支援システムを提案する。 システムが画像をキャプチャすると、パノプティックセグメンテーションを行い、以前の動的オブジェクト情報を取得する。 画像から抽出したスパース特徴点と深度情報により、ユーザのポーズを推定することができる。 エゴモーション推定の後、動的オブジェクトを識別して追跡することができる。 そして、音響フィードバックによりユーザへ渡される、追跡された動的オブジェクトのポーズと速度を推定することができる。

Exploring an unfamiliar indoor environment and avoiding obstacles is challenging for visually impaired people. Currently, several approaches achieve the avoidance of static obstacles based on the mapping of indoor scenes. To solve the issue of distinguishing dynamic obstacles, we propose an assistive system with an RGB-D sensor to detect dynamic information of a scene. Once the system captures an image, panoptic segmentation is performed to obtain the prior dynamic object information. With sparse feature points extracted from images and the depth information, poses of the user can be estimated. After the ego-motion estimation, the dynamic object can be identified and tracked. Then, poses and speed of tracked dynamic objects can be estimated, which are passed to the users through acoustic feedback.
翻訳日:2022-04-05 16:56:15 公開日:2022-04-03
# インド英語アクセントのための音声のエンドツーエンド自動音声認識(asr)

Deep Speech Based End-to-End Automated Speech Recognition (ASR) for Indian-English Accents ( http://arxiv.org/abs/2204.00977v1 )

ライセンス: Link先を確認
Priyank Dubey, Bilal Shah(参考訳) 自動音声認識(automated speech recognition, asr)は,発話波形から音声認識を導出するコンピュータ科学と言語学の学際的応用である。 軍では、高性能戦闘機、ヘリコプター、航空管制など、いくつかの用途がある。 軍事音声認識以外は、医療、障害者、その他多くの分野で使用されている。 ASRは活発な研究分野である。 音声テキスト(STT)のモデルとアルゴリズムが提案されている。 最新のもののひとつがmozilla deep speechであり、baiduのdeep speech research論文に基づいている。 deep speechは、エンドツーエンドのディープラーニングを用いて開発された最先端の音声認識システムであり、複数のgpu(graphical processing unit)を使用して、最適化されたrecurrent neural network(rnn)トレーニングシステムを使用してトレーニングされる。 この訓練は、主にアメリカ英語アクセントデータセットを使用して行われ、他の英語アクセントへの一般化性が低下する。 インドは広大な多様性の国である。 これはスピーチで見ることができ、国によって異なるいくつかの英語のアクセントがある。 本研究では,最新のディープラーニングモデルであるdeepspeech-0.9.3を用いて,インド英語アクセントのエンドツーエンド音声認識システムを開発した。 この研究は、Deep Speech ASRシステムをさらに最適化し改善するために、微調整とデータ引数を利用する。 インド英語アクセントのindic ttsデータは、事前学習された深層音声モデルの転送学習と微調整に使用される。 インド英語アクセントのための訓練されていないモデル、訓練されたモデル、および他の利用可能な音声認識サービスの中で、一般的な比較を行う。

Automated Speech Recognition (ASR) is an interdisciplinary application of computer science and linguistics that enable us to derive the transcription from the uttered speech waveform. It finds several applications in Military like High-performance fighter aircraft, helicopters, air-traffic controller. Other than military speech recognition is used in healthcare, persons with disabilities and many more. ASR has been an active research area. Several models and algorithms for speech to text (STT) have been proposed. One of the most recent is Mozilla Deep Speech, it is based on the Deep Speech research paper by Baidu. Deep Speech is a state-of-art speech recognition system is developed using end-to-end deep learning, it is trained using well-optimized Recurrent Neural Network (RNN) training system utilizing multiple Graphical Processing Units (GPUs). This training is mostly done using American-English accent datasets, which results in poor generalizability to other English accents. India is a land of vast diversity. This can even be seen in the speech, there are several English accents which vary from state to state. In this work, we have used transfer learning approach using most recent Deep Speech model i.e., deepspeech-0.9.3 to develop an end-to-end speech recognition system for Indian-English accents. This work utilizes fine-tuning and data argumentation to further optimize and improve the Deep Speech ASR system. Indic TTS data of Indian-English accents is used for transfer learning and fine-tuning the pre-trained Deep Speech model. A general comparison is made among the untrained model, our trained model and other available speech recognition services for Indian-English Accents.
翻訳日:2022-04-05 16:35:20 公開日:2022-04-03
# WCEシークエンスを用いたマルチスケール機能融合による消化管ポリープと腫瘍検出

Gastrointestinal Polyps and Tumors Detection Based on Multi-scale Feature-fusion with WCE Sequences ( http://arxiv.org/abs/2204.01012v1 )

ライセンス: Link先を確認
Zhuo Falin, Liu Haihua and Pan Ning(参考訳) Wireless Capsule Endoscopy(WCE) has been widely used for the screening of gastrointestinal(GI) diseases, especially the small intestine, due to its advantages of non-invasive and painless imaging of the entire digestive tract.However, the huge amount of image data captured by WCE makes manual reading a process that requires a huge amount of tasks and can easily lead to missed detection and false detection of lesions.Therefore, In this paper, we propose a \textbf{T}wo-stage \textbf{M}ulti-scale \textbf{F}eature-fusion learning network(\textbf{TMFNet}) to automatically detect small intestinal polyps and tumors in WCE image sequences. 具体的には、TMFNetは病変検出ネットワークと病変識別ネットワークから構成される。 Among them, the former improves the feature extraction module and detection module based on the traditional Faster R-CNN network, and readjusts the parameters of the anchor in the region proposal network(RPN) module;the latter combines residual structure and feature pyramid structure are used to build a small intestinal lesion recognition network based on feature fusion, for reducing the false positive rate of the former and improve the overall accuracy.We used 22,335 WCE images in the experiment, with a total of 123,092 lesion regions used to train the detection framework of this paper. 実験では、病院の消化器科が提供した実際のwce画像データセットで検出フレームワークを訓練し、テストする。 RPMの最終モデルの感度, 偽陽性, 精度はそれぞれ98.81$\%$, 7.43$\%$, 92.57$\%$であったが, 病変画像の対応する結果は98.75$\%$, 5.62$\%$, 94.39$\%$であった。 本論文で提案するアルゴリズムモデルは,検出効果と性能において,他の検出アルゴリズムよりも明らかに優れている。

Wireless Capsule Endoscopy(WCE) has been widely used for the screening of gastrointestinal(GI) diseases, especially the small intestine, due to its advantages of non-invasive and painless imaging of the entire digestive tract.However, the huge amount of image data captured by WCE makes manual reading a process that requires a huge amount of tasks and can easily lead to missed detection and false detection of lesions.Therefore, In this paper, we propose a \textbf{T}wo-stage \textbf{M}ulti-scale \textbf{F}eature-fusion learning network(\textbf{TMFNet}) to automatically detect small intestinal polyps and tumors in WCE image sequences. Specifically, TMFNet consists of lesion detection network and lesion identification network. Among them, the former improves the feature extraction module and detection module based on the traditional Faster R-CNN network, and readjusts the parameters of the anchor in the region proposal network(RPN) module;the latter combines residual structure and feature pyramid structure are used to build a small intestinal lesion recognition network based on feature fusion, for reducing the false positive rate of the former and improve the overall accuracy.We used 22,335 WCE images in the experiment, with a total of 123,092 lesion regions used to train the detection framework of this paper. In the experiment, the detection framework is trained and tested on the real WCE image dataset provided by the hospital gastroenterology department. The sensitivity, false positive and accuracy of the final model on the RPM are 98.81$\%$, 7.43$\%$ and 92.57$\%$, respectively.Meanwhile,the corresponding results on the lesion images were 98.75$\%$, 5.62$\%$ and 94.39$\%$. The algorithm model proposed in this paper is obviously superior to other detection algorithms in detection effect and performance
翻訳日:2022-04-05 16:31:33 公開日:2022-04-03
# 未知雑音分布下における適応確率mpc

Adaptive Stochastic MPC under Unknown Noise Distribution ( http://arxiv.org/abs/2204.01107v1 )

ライセンス: Link先を確認
Charis Stamouli, Anastasios Tsiamis, Manfred Morari, George J. Pappas(参考訳) 本稿では,線形系における確率的MPC(SMPC)問題について,未知の雑音分布下での確率状態制約とハード入力制約に対処する。 まず,確率状態制約を明示的な雑音統計量のみに依存する決定論的制約として再構成する。 これらの再構成制約に基づき, 分布的ロバストかつロバストに安定なベンチマークsmpcアルゴリズムを, 既知の雑音統計の理想的な設定のために設計する。 そして,このベンチマーク制御を用いて,未知の修正状態制約の時間均一な満足度を高い確率で保証しつつ,必要なノイズ統計をオンラインで学習する,堅牢で安定した適応型SMPCスキームを導出する。 後者は、経験的ノイズ統計に依存し、時間とともに均一に有効である信頼区間を用いて達成される。 さらに、予測された制約のオンライン適応を考慮し、より多くのノイズサンプルを収集し、より優れたノイズ統計値を求めることにより、時間とともに制御性能が向上する。 さらに, 連続する複数のターゲットの追跡問題では, 頑健なチューブベースMPCと比較して, オンラインのアトラクション領域が拡大する。 本手法の有効性を示すため,DC-DCコンバータの数値シミュレーションを行った。

In this paper, we address the stochastic MPC (SMPC) problem for linear systems, subject to chance state constraints and hard input constraints, under unknown noise distribution. First, we reformulate the chance state constraints as deterministic constraints depending only on explicit noise statistics. Based on these reformulated constraints, we design a distributionally robust and robustly stable benchmark SMPC algorithm for the ideal setting of known noise statistics. Then, we employ this benchmark controller to derive a novel robustly stable adaptive SMPC scheme that learns the necessary noise statistics online, while guaranteeing time-uniform satisfaction of the unknown reformulated state constraints with high probability. The latter is achieved through the use of confidence intervals which rely on the empirical noise statistics and are valid uniformly over time. Moreover, control performance is improved over time as more noise samples are gathered and better estimates of the noise statistics are obtained, given the online adaptation of the estimated reformulated constraints. Additionally, in tracking problems with multiple successive targets our approach leads to an online-enlarged domain of attraction compared to robust tube-based MPC. A numerical simulation of a DC-DC converter is used to demonstrate the effectiveness of the developed methodology.
翻訳日:2022-04-05 16:26:30 公開日:2022-04-03
# Seemo: 住宅における窓ガラスの早期視認性評価のための新しいツール

Seemo: A new tool for early design window view satisfaction evaluation in residential buildings ( http://arxiv.org/abs/2204.01164v1 )

ライセンス: Link先を確認
Jaeha Kim, Michael Kent, Katharina Kral, Timur Dogan(参考訳) 生活の約90%は屋内で過ごすため、室内空間のデザインは生活者の幸福に大きな影響を与える可能性がある。 外への適切な視点は、居住する幸福に関連する最も引用される屋内品質の1つである。 しかし, 都市化や密度化の傾向から, デザイナーは, 利用者のニーズに応えうるコンテンツ群を外部に提供し, ビューを提供するのに苦労する可能性がある。 ビュー満足度をよりよく理解し、アーキテクトに信頼できる設計フィードバックを提供するためには、既存のビュー満足度データを拡張して、より広範なビューシナリオや居住者を捉える必要があります。 ほとんどの関連する研究は、簡単に使えるアーリーデザイン分析ツールがないために、アーキテクチャの実践において難しいままである。 しかしながら、ビューの早期評価は、建物のオリエンテーション、計画レイアウト、ファサード設計などの初期設計における設計決定がビュー品質を改善するために有利である。 そこで本稿では,590のウィンドウビューを用いた181の参加者ビュー満足度調査の結果を示す。 調査データは、ツリーリグレッションモデルをトレーニングして、ビュー満足度を予測するために使用される。 予測性能はケーススタディを通して既存のビューアセスメントフレームワークと比較した。 その結果、新しい予測はフレームワークよりも調査結果よりも正確であることが判明した。 さらに,ほとんどの応答において予測性能は概ね高く,信頼性が検証された。 本稿では,早期設計におけるビュー分析を容易にするために,CAD環境におけるビューパラメータの計算に満足度予測モデルとレイキャストツールを統合した。

People spend approximately 90% of their lives indoors, and thus arguably, the indoor space design can significantly influence occupant well-being. Adequate views to the outside are one of the most cited indoor qualities related to occupant well-being. However, due to urbanization and densification trends, designers may have difficulties in providing vistas and views to the outside with an assortment of content, which can support the needs of their occupants. To better understand occupant view satisfaction and provide reliable design feedback to architects, existing view satisfaction data must be expanded to capture a wider variety of view scenarios and occupants. Most related research remains challenging in architectural practice due to a lack of easy-to-use early-design analysis tools. However, early assessment of view can be advantageous as design decisions in early design, such as building orientation, plan layout, and facade design, can improve the view quality. This paper, hence, presents results from a 181 participant view satisfaction survey with 590 window views. The survey data is used to train a tree-regression model to predict view satisfaction. The prediction performance was compared to an existing view assessment framework through case studies. The result showed that the new prediction is more accurate to the surveyed result than the framework. Further, the prediction performance was generally high for most responses, verifying the reliability. To facilitate view analysis in early design, this paper describes integrating the satisfaction prediction model and a ray-casting tool to compute view parameters in the CAD environment.
翻訳日:2022-04-05 16:06:12 公開日:2022-04-03
# AutoOpt:最適化問題に対するメタヒューリスティックの自動設計手法フレームワーク

AutoOpt: A Methodological Framework of Automatically Designing Metaheuristics for Optimization Problems ( http://arxiv.org/abs/2204.00998v1 )

ライセンス: Link先を確認
Qi Zhao, Bai Yan, Yuhui Shi(参考訳) メタヒューリスティックスは勾配のない問題に依存しない探索アルゴリズムである。 彼らは学術や産業で様々な最適化問題を解くことに大きな成功を収めた。 自動メタヒューリスティックデザインは人造デザインに代わる有望な選択肢である。 本稿では,様々な最適化問題に対するメタヒューリスティックスの自動設計のための,汎用的で包括的な方法論フレームワークAutoOptを提案する。 AutoOptは: 1) 設計アルゴリズムの性能を評価するための二段階基準 2) アルゴリズムが設計される場所から決定空間の一般的なスキーマ 3) 設計したアルゴリズムを表すグラフと実数に基づく混合表現。 4) 設計プロセスを実施するためのモデルフリー手法。 autooptは、最適化問題のためのメタヒューリスティックの設計に苦労している学術研究者や実践ユーザに役立つ。 実世界のケーススタディでは、AutoOptの有効性と効率が示されている。

Metaheuristics are gradient-free and problem-independent search algorithms. They have gained huge success in solving various optimization problems in academia and industry. Automated metaheuristic design is a promising alternative to human-made design. This paper proposes a general and comprehensive methodological framework, AutoOpt, for automatically designing metaheuristics for various optimization problems. AutoOpt consists of: 1) a bi-level criterion to evaluate the designed algorithms' performance; 2) a general schema of the decision space from where the algorithms will be designed; 3) a mixed graph- and real number-based representation to represent the designed algorithms; and 4) a model-free method to conduct the design process. AutoOpt benefits academic researchers and practical users struggling to design metaheuristics for optimization problems. A real-world case study demonstrates AutoOpt's effectiveness and efficiency.
翻訳日:2022-04-05 16:00:55 公開日:2022-04-03
# ロバスト話者検証のための選択的カーネル注意

Selective Kernel Attention for Robust Speaker Verification ( http://arxiv.org/abs/2204.01005v1 )

ライセンス: Link先を確認
Sung Hwan Mun, Jee-weon Jung and Nam Soo Kim(参考訳) 近年の最先端話者認証アーキテクチャはマルチスケール処理と周波数チャネルアテンション技術を採用している。 しかし、これらのテクニックの受容フィールドは、ほとんどの畳み込み層が1, 3, 5のような特定のカーネルサイズで動作するように固定されているため、その潜在能力は利用されなかったかもしれない。 我々は,選択的カーネルアテンション(ska)機構を導入することで,この研究をさらに改善することを目指している。 SKA機構により、各畳み込み層は、前層の出力を使用して周波数とチャネル領域の両方を利用するアテンション機構に基づいて、データ駆動方式でカーネルサイズを適応的に選択することができる。 本稿では,2つのモジュールをECAPA-TDNNモデルの前に適用し,もう1つのモジュールをRes2Netバックボーンブロックと組み合わせるSKA機構を用いた3つのモジュール変種を提案する。 実験結果から,提案手法は,誤差率と最小検出コストの両面で,従来の3つの評価プロトコルよりも常に優れていることがわかった。 さらに,SKAモジュールの動作状況の解明を支援する詳細な解析を行う。

Recent state-of-the-art speaker verification architectures adopt multi-scale processing and frequency-channel attention techniques. However, their full potential may not have been exploited because these techniques' receptive fields are fixed where most convolutional layers operate with specified kernel sizes such as 1, 3 or 5. We aim to further improve this line of research by introducing a selective kernel attention (SKA) mechanism. The SKA mechanism allows each convolutional layer to adaptively select the kernel size in a data-driven fashion based on an attention mechanism that exploits both frequency and channel domain using the previous layer's output. We propose three module variants using the SKA mechanism whereby two modules are applied in front of an ECAPA-TDNN model, and the other is combined with the Res2Net backbone block. Experimental results demonstrate that our proposed model consistently outperforms the conventional counterpart on the three different evaluation protocols in terms of both equal error rate and minimum detection cost function. In addition, we present a detailed analysis that helps understand how the SKA module works.
翻訳日:2022-04-05 16:00:47 公開日:2022-04-03
# AdaFace: 顔認識のための品質適応マージン

AdaFace: Quality Adaptive Margin for Face Recognition ( http://arxiv.org/abs/2204.00964v1 )

ライセンス: Link先を確認
Minchul Kim, Anil K. Jain, Xiaoming Liu(参考訳) 低品質の顔データセットの認識は、顔属性が曖昧で劣化しているため困難である。 マージンに基づく損失関数の進歩は、埋め込み空間における顔の識別性を高めた。 さらに, 適応損失の影響について検討し, 誤分類(ハード)例にさらに重要度を割り当てた。 本研究では,損失関数の適応性,すなわち画像品質の別の側面を紹介する。 誤分類されたサンプルを画像の質に応じて調整する戦略を論じる。 具体的には, 試料の画質の相対的重要性は, 試料の画質に基づけるべきである。 画像品質に基づいて異なる難易度のサンプルを強調する新たな損失関数を提案する。 本手法は,画像の画質を特徴規範で近似することにより,適応マージン関数としてこれを実現する。 AdaFaceは,4つのデータセット(IJB-B,IJB-C,IJB-S,TinyFace)上で,最先端(SoTA)の顔認識性能を向上させる。 コードとモデルはhttps://github.com/mk-minchul/AdaFaceで公開されている。

Recognition in low quality face datasets is challenging because facial attributes are obscured and degraded. Advances in margin-based loss functions have resulted in enhanced discriminability of faces in the embedding space. Further, previous studies have studied the effect of adaptive losses to assign more importance to misclassified (hard) examples. In this work, we introduce another aspect of adaptiveness in the loss function, namely the image quality. We argue that the strategy to emphasize misclassified samples should be adjusted according to their image quality. Specifically, the relative importance of easy or hard samples should be based on the sample's image quality. We propose a new loss function that emphasizes samples of different difficulties based on their image quality. Our method achieves this in the form of an adaptive margin function by approximating the image quality with feature norms. Extensive experiments show that our method, AdaFace, improves the face recognition performance over the state-of-the-art (SoTA) on four datasets (IJB-B, IJB-C, IJB-S and TinyFace). Code and models are released in https://github.com/mk-minchul/AdaFace.
翻訳日:2022-04-05 15:33:18 公開日:2022-04-03
# neural global shutter:グローバルリセット機能を備えたローリングシャッターカメラからビデオの復元を学ぶ

Neural Global Shutter: Learn to Restore Video from a Rolling Shutter Camera with Global Reset Feature ( http://arxiv.org/abs/2204.00974v1 )

ライセンス: Link先を確認
Zhixiang Wang, Xiang Ji, Jia-Bin Huang, Shin'ichi Satoh, Xiao Zhou and Yinqiang Zheng(参考訳) ほとんどのコンピュータビジョンシステムは歪みのない画像を入力とする。 しかし、広く使われているローリングシャッター(rs)イメージセンサーは、撮影中にカメラや物体が動き出すと幾何学的歪みが発生する。 rs歪みの補正に関する広範な研究が行われている。 しかし、既存の作品の多くは、シーンや動きの前提に大きく依存している。 さらに、運動推定ステップは、重い流れのワープによって過度に単純化されるか、計算的に非効率である。 本稿では,ローリングシャッターとグローバルリセット機能(RSGR)を用いて,クリーンなグローバルシャッター(GS)ビデオの復元を行う。 この機能により、修正問題をデブロアのようなものにし、不正確でコストのかかる運動推定をなくすことができる。 まず、ペアのrsgr/gsビデオをキャプチャする光学システムを構築する。 第2に,空間変動rsgr歪みを補正するための空間的および時間的設計を組み込んだ新しいアルゴリズムを開発した。 第3に,既存の画像から画像への変換アルゴリズムは,歪んだRSGR入力からクリーンなGSビデオを復元できることを示した。 私たちの成果は視覚的に魅力的なだけでなく、下流のタスクにも有益です。 最先端のRSGRソリューションと比較して,我々のRSGRソリューションは有効性と効率の両面で優れている。 ハードウェアを変更することなく容易に実現できることを考えると、当社のRSGRソリューションは、歪みのない動画を低ノイズで低予算で撮影するRSGRソリューションを置き換えることができると信じている。

Most computer vision systems assume distortion-free images as inputs. The widely used rolling-shutter (RS) image sensors, however, suffer from geometric distortion when the camera and object undergo motion during capture. Extensive researches have been conducted on correcting RS distortions. However, most of the existing work relies heavily on the prior assumptions of scenes or motions. Besides, the motion estimation steps are either oversimplified or computationally inefficient due to the heavy flow warping, limiting their applicability. In this paper, we investigate using rolling shutter with a global reset feature (RSGR) to restore clean global shutter (GS) videos. This feature enables us to turn the rectification problem into a deblur-like one, getting rid of inaccurate and costly explicit motion estimation. First, we build an optic system that captures paired RSGR/GS videos. Second, we develop a novel algorithm incorporating spatial and temporal designs to correct the spatial-varying RSGR distortion. Third, we demonstrate that existing image-to-image translation algorithms can recover clean GS videos from distorted RSGR inputs, yet our algorithm achieves the best performance with the specific designs. Our rendered results are not only visually appealing but also beneficial to downstream tasks. Compared to the state-of-the-art RS solution, our RSGR solution is superior in both effectiveness and efficiency. Considering it is easy to realize without changing the hardware, we believe our RSGR solution can potentially replace the RS solution in taking distortion-free videos with low noise and low budget.
翻訳日:2022-04-05 15:32:57 公開日:2022-04-03
# POS-BERT:ポイントクラウドワンステージBERT事前トレーニング

POS-BERT: Point Cloud One-Stage BERT Pre-Training ( http://arxiv.org/abs/2204.00989v1 )

ライセンス: Link先を確認
Kexue Fu, Peng Gao, ShaoLei Liu, Renrui Zhang, Yu Qiao, Manning Wang(参考訳) 近年,Transformerとマスク付き言語モデリングを組み合わせた事前学習パラダイムが,NLP,画像,BERTなどの点雲において大きな成功を収めている。 しかしながら、BERT を NLP から点クラウドへ直接拡張するには、事前トレーニング前に固定された離散変分オートエンコーダ (dVAE) を訓練する必要がある。 BERT と MoCo にヒントを得て,一段階の BERT 事前学習手法である POS-BERT を提案する。 具体的には、マスクパッチモデリング(MPM)タスクを用いてポイントクラウド事前トレーニングを行い、対応するトークン化器出力の監督の下でマスクパッチ情報を復元する。 Point-BERTと異なり、トークン化剤は極端に訓練され凍結されている。 本稿では,動的に更新された運動量エンコーダをトークン化器として使用し,動的監視信号をトレーニングプロセスとともに出力する。 さらに、ハイレベルな意味表現を学ぶために、異なる変換ポイントクラウド間のクラストークン一貫性を最大化するために、コントラスト学習を組み合わせる。 POS-BERTは、高品質な事前学習機能を抽出し、ダウンストリームタスクを促進し、パフォーマンスを向上させることを実証している。 POS-BERT は,モデルNet40 上の特徴抽出や線形SVM の訓練に微調整のない事前学習モデルを用いて,ポイント-BERT を超える最先端の分類精度を 3.5 % で達成する。 さらに,本手法は,微調整分類,少数ショット分類,部分分割などの下流タスクを大幅に改善した。 コードは \url{https://github.com/fukexue/pos-bert} で利用可能である。

Recently, the pre-training paradigm combining Transformer and masked language modeling has achieved tremendous success in NLP, images, and point clouds, such as BERT. However, directly extending BERT from NLP to point clouds requires training a fixed discrete Variational AutoEncoder (dVAE) before pre-training, which results in a complex two-stage method called Point-BERT. Inspired by BERT and MoCo, we propose POS-BERT, a one-stage BERT pre-training method for point clouds. Specifically, we use the mask patch modeling (MPM) task to perform point cloud pre-training, which aims to recover masked patches information under the supervision of the corresponding tokenizer output. Unlike Point-BERT, its tokenizer is extra-trained and frozen. We propose to use the dynamically updated momentum encoder as the tokenizer, which is updated and outputs the dynamic supervision signal along with the training process. Further, in order to learn high-level semantic representation, we combine contrastive learning to maximize the class token consistency between different transformation point clouds. Extensive experiments have demonstrated that POS-BERT can extract high-quality pre-training features and promote downstream tasks to improve performance. Using the pre-training model without any fine-tuning to extract features and train linear SVM on ModelNet40, POS-BERT achieves the state-of-the-art classification accuracy, which exceeds Point-BERT by 3.5\%. In addition, our approach has significantly improved many downstream tasks, such as fine-tuned classification, few-shot classification, part segmentation. The code and trained-models will be available at: \url{https://github.com/fukexue/POS-BERT}.
翻訳日:2022-04-05 15:32:30 公開日:2022-04-03
# 高周波部品の再検討による視覚変換器の改良

Improving Vision Transformers by Revisiting High-frequency Components ( http://arxiv.org/abs/2204.00993v1 )

ライセンス: Link先を確認
Jiawang Bai, Li Yuan, Shu-Tao Xia, Shuicheng Yan, Zhifeng Li, and Wei Liu(参考訳) トランスモデルは様々なビジョンタスクを扱う上で有望な効果を示した。 しかし、CNN(Convolutional Neural Network)モデルのトレーニングに比べ、ViT(Vision Transformer)モデルのトレーニングはより難しく、大規模なトレーニングセットに依存している。 この観察を説明するために、VTモデルはCNNモデルよりも画像の高周波成分の捕捉に効果が低いと仮定し、周波数解析により検証する。 この発見に触発されて、我々はまず、新しい周波数視点からViTモデルを改善する既存の技術の効果を調査し、いくつかの技術(例えばRandAugment)の成功は、高周波コンポーネントのより良い使用に起因することが判明した。 そして、このViTモデルの不足を補うために、敵対的訓練を通じて画像の高周波成分を直接増強するHATを提案する。 vit-bの+1.2%、swain-bの0.5%、imagenet-1kデータのみを使用する先進モデルvolo-d5から87.3%まで、一貫してvitモデルのパフォーマンスを向上させることが可能であり、その優位性は配信外データにも維持され、下流タスクに転送される。

The transformer models have shown promising effectiveness in dealing with various vision tasks. However, compared with training Convolutional Neural Network (CNN) models, training Vision Transformer (ViT) models is more difficult and relies on the large-scale training set. To explain this observation we make a hypothesis that ViT models are less effective in capturing the high-frequency components of images than CNN models, and verify it by a frequency analysis. Inspired by this finding, we first investigate the effects of existing techniques for improving ViT models from a new frequency perspective, and find that the success of some techniques (e.g., RandAugment) can be attributed to the better usage of the high-frequency components. Then, to compensate for this insufficient ability of ViT models, we propose HAT, which directly augments high-frequency components of images via adversarial training. We show that HAT can consistently boost the performance of various ViT models (e.g., +1.2% for ViT-B, +0.5% for Swin-B), and especially enhance the advanced model VOLO-D5 to 87.3% that only uses ImageNet-1K data, and the superiority can also be maintained on out-of-distribution data and transferred to downstream tasks.
翻訳日:2022-04-05 15:32:00 公開日:2022-04-03
# TransRAC:反復行動計数のための変圧器とのマルチスケール時間相関の符号化

TransRAC: Encoding Multi-scale Temporal Correlation with Transformers for Repetitive Action Counting ( http://arxiv.org/abs/2204.01018v1 )

ライセンス: Link先を確認
Huazhang Hu, Sixun Dong, Yiqun Zhao, Dongze Lian, Zhengxin Li, Shenghua Gao(参考訳) 反復行動のカウントは、身体運動などの人間の活動で広く見られる。 既存の方法は短いビデオで反復的なアクションカウントを行うことに集中しており、より現実的なシナリオでは長いビデオを扱うのは難しい。 データ駆動時代において、そのような一般化能力の劣化は主に、長いビデオデータセットの欠如に起因する。 この限界を補うために,多種多様なビデオ長をカバーする新しい大規模反復的アクションカウントデータセットと,映像内で動作中断や動作不整合が発生するようなより現実的な状況を紹介する。 さらに、アノテーションを数値値と共にカウントするだけでなく、アクションサイクルの詳細なアノテーションも提供します。 このようなデータセットには、約20,000のアノテーションを備えた1,451のビデオが含まれている。 より現実的なシナリオに向けて繰り返し行動計数を行うために、我々はさらに、性能と効率の両面を考慮した変換器によるマルチスケール時間相関の符号化を提案する。 さらに,アクションサイクルの細粒度アノテーションの助けを借りて,行動周期を予測するための密度マップ回帰に基づく手法を提案する。 提案手法は,全データセットにおける最先端の手法よりも優れており,微調整をせずに未確認データセットの性能も向上する。 データセットとコードは利用可能だ。

Counting repetitive actions are widely seen in human activities such as physical exercise. Existing methods focus on performing repetitive action counting in short videos, which is tough for dealing with longer videos in more realistic scenarios. In the data-driven era, the degradation of such generalization capability is mainly attributed to the lack of long video datasets. To complement this margin, we introduce a new large-scale repetitive action counting dataset covering a wide variety of video lengths, along with more realistic situations where action interruption or action inconsistencies occur in the video. Besides, we also provide a fine-grained annotation of the action cycles instead of just counting annotation along with a numerical value. Such a dataset contains 1,451 videos with about 20,000 annotations, which is more challenging. For repetitive action counting towards more realistic scenarios, we further propose encoding multi-scale temporal correlation with transformers that can take into account both performance and efficiency. Furthermore, with the help of fine-grained annotation of action cycles, we propose a density map regression-based method to predict the action period, which yields better performance with sufficient interpretability. Our proposed method outperforms state-of-the-art methods on all datasets and also achieves better performance on the unseen dataset without fine-tuning. The dataset and code are available.
翻訳日:2022-04-05 15:31:35 公開日:2022-04-03
# ES6D: 計算効率と対称性を考慮した6D Pose回帰フレームワーク

ES6D: A Computation Efficient and Symmetry-Aware 6D Pose Regression Framework ( http://arxiv.org/abs/2204.01080v1 )

ライセンス: Link先を確認
Ningkai Mo and Wanshui Gan and Naoto Yokoya and Shifeng Chen(参考訳) 本稿では,1枚のRGB-D画像から剛体物体の6次元ポーズを推定する計算効率のよい回帰フレームワークを提案する。 このフレームワークは、XYZNetと呼ばれる完全な畳み込みネットワークを使用して、RGB-Dデータからポイントワイズ機能を効率的に抽出するシンプルなアーキテクチャで設計され、後処理なしで直接6Dポーズを回帰する。 対称対象の場合、1つの対象は複数の接地真実のポーズを持ち、この1対多の関係は推定の曖昧さをもたらす。 この曖昧性問題を解決するために、平均(最大)グループプリミティブ距離(A(M)GPD)と呼ばれる対称性不変ポーズ距離計量を設計する。 提案したA(M)GPD損失は回帰ネットワークを正しい状態に収束させることができ、すなわち、A(M)GPD損失面のすべてのミニマを正しいポーズにマッピングする。 YCB-VideoデータセットとT-LESSデータセットの大規模な実験は、提案フレームワークの最高精度と低計算コストにおいて、かなり優れた性能を示す。

In this paper, a computation efficient regression framework is presented for estimating the 6D pose of rigid objects from a single RGB-D image, which is applicable to handling symmetric objects. This framework is designed in a simple architecture that efficiently extracts point-wise features from RGB-D data using a fully convolutional network, called XYZNet, and directly regresses the 6D pose without any post refinement. In the case of symmetric object, one object has multiple ground-truth poses, and this one-to-many relationship may lead to estimation ambiguity. In order to solve this ambiguity problem, we design a symmetry-invariant pose distance metric, called average (maximum) grouped primitives distance or A(M)GPD. The proposed A(M)GPD loss can make the regression network converge to the correct state, i.e., all minima in the A(M)GPD loss surface are mapped to the correct poses. Extensive experiments on YCB-Video and T-LESS datasets demonstrate the proposed framework's substantially superior performance in top accuracy and low computational cost.
翻訳日:2022-04-05 15:29:29 公開日:2022-04-03
# BNV-Fusion:バイレベルニューラルボリュームフュージョンを用いた高密度3次元再構成

BNV-Fusion: Dense 3D Reconstruction using Bi-level Neural Volume Fusion ( http://arxiv.org/abs/2204.01139v1 )

ライセンス: Link先を確認
Kejie Li, Yansong Tang, Victor Adrian Prisacariu, Philip H.S. Torr(参考訳) 深度画像のストリームからのDense 3D再構成は多くの複合現実とロボットの応用の鍵となる。 tsdf(truncated signed distance function)に基づく手法は,長年にわたってフィールドを進化させてきたが,tsdfボリューム表現は,ノイズ測定に対するロバスト性とディテールのレベル維持とのバランスをとっていた。 本稿では,近年の神経暗黙的表現とニューラルネットワークによる3次元再構成の進歩を活かしたbi-level neural volume fusion (bnv-fusion)を提案する。 新たな深度マップをグローバルな暗黙的表現に漸進的に統合するために,設計による効率性と再現性の両方を考慮した新しい二段階融合戦略を提案する。 提案手法を定量的に定性的に評価し,既存手法よりも有意な改善を示した。

Dense 3D reconstruction from a stream of depth images is the key to many mixed reality and robotic applications. Although methods based on Truncated Signed Distance Function (TSDF) Fusion have advanced the field over the years, the TSDF volume representation is confronted with striking a balance between the robustness to noisy measurements and maintaining the level of detail. We present Bi-level Neural Volume Fusion (BNV-Fusion), which leverages recent advances in neural implicit representations and neural rendering for dense 3D reconstruction. In order to incrementally integrate new depth maps into a global neural implicit representation, we propose a novel bi-level fusion strategy that considers both efficiency and reconstruction quality by design. We evaluate the proposed method on multiple datasets quantitatively and qualitatively, demonstrating a significant improvement over existing methods.
翻訳日:2022-04-05 15:29:08 公開日:2022-04-03
# 自律走行におけるレーダー知覚の時間的関係

Exploiting Temporal Relations on Radar Perception for Autonomous Driving ( http://arxiv.org/abs/2204.01184v1 )

ライセンス: Link先を確認
Peizhao Li, Pu Wang, Karl Berntorp, Hongfu Liu(参考訳) 自動車用レーダセンサを用いた自律走行における物体認識問題を考える。 Lidarセンサーと比較すると、レーダーは費用対効果が高く、全天候条件下では自律運転の認識に堅牢である。 しかし、レーダー信号は角度分解能の低下と周囲の物体の認識精度に苦しむ。 本研究では,自動車用レーダーの能力を高めるために,連続するエゴ中心の鳥眼視レーダー画像フレームからの時間情報を利用してレーダ物体認識を行う。 我々は、オブジェクトの存在と属性(サイズ、向きなど)の整合性を活用し、連続するレーダ画像内のオブジェクト間の関係を明示的にモデル化する時間的関係層を提案する。 オブジェクト検出と複数オブジェクト追跡の両方において,複数のベースライン手法と比較して,本手法の優位性を示す。

We consider the object recognition problem in autonomous driving using automotive radar sensors. Comparing to Lidar sensors, radar is cost-effective and robust in all-weather conditions for perception in autonomous driving. However, radar signals suffer from low angular resolution and precision in recognizing surrounding objects. To enhance the capacity of automotive radar, in this work, we exploit the temporal information from successive ego-centric bird-eye-view radar image frames for radar object recognition. We leverage the consistency of an object's existence and attributes (size, orientation, etc.), and propose a temporal relational layer to explicitly model the relations between objects within successive radar images. In both object detection and multiple object tracking, we show the superiority of our method compared to several baseline approaches.
翻訳日:2022-04-05 15:28:52 公開日:2022-04-03
# 高容量ストレージを用いたkNN画像分類システムの再検討

Revisiting a kNN-based Image Classification System with High-capacity Storage ( http://arxiv.org/abs/2204.01186v1 )

ライセンス: Link先を確認
Kengo Nakata, Youyang Ng, Daisuke Miyashita, Asuka Maki, Yu-Chieh Lin, Jun Deguchi(参考訳) ディープニューラルネットワークを用いた既存の画像分類システムでは、画像分類に必要な知識はモデルパラメータに暗黙的に格納される。 ユーザがこの知識を更新したい場合は、モデルパラメータを微調整する必要がある。 さらに、ユーザは推測結果の有効性を検証できないし、その結果に対する知識の寄与度も評価できない。 本稿では,画像特徴量マップやラベル,オリジナル画像などの画像分類に関する知識を,モデルパラメータではなく外部の高容量ストレージに格納するシステムについて検討する。 本システムは,入力画像の分類において,データベースのようなストレージを指す。 知識を高めるため,本システムはモデルパラメータを微調整するのではなくデータベースを更新する。 我々は、kNN(k-Nearest Neighbor)分類器を再検討し、システムでそれを利用する。 kNNアルゴリズムによって参照される近隣のサンプルを解析することにより、過去の知識がどのように推論結果に使われているかを理解することができる。 本システムは,事前トレーニング後のモデルパラメータを微調整せずにImageNetデータセット上で79.8%,タスクインクリメンタル学習環境でのSplit CIFAR-100データセット上で90.8%の精度を実現する。

In existing image classification systems that use deep neural networks, the knowledge needed for image classification is implicitly stored in model parameters. If users want to update this knowledge, then they need to fine-tune the model parameters. Moreover, users cannot verify the validity of inference results or evaluate the contribution of knowledge to the results. In this paper, we investigate a system that stores knowledge for image classification, such as image feature maps, labels, and original images, not in model parameters but in external high-capacity storage. Our system refers to the storage like a database when classifying input images. To increase knowledge, our system updates the database instead of fine-tuning model parameters, which avoids catastrophic forgetting in incremental learning scenarios. We revisit a kNN (k-Nearest Neighbor) classifier and employ it in our system. By analyzing the neighborhood samples referred by the kNN algorithm, we can interpret how knowledge learned in the past is used for inference results. Our system achieves 79.8% top-1 accuracy on the ImageNet dataset without fine-tuning model parameters after pretraining, and 90.8% accuracy on the Split CIFAR-100 dataset in the task incremental learning setting.
翻訳日:2022-04-05 15:28:39 公開日:2022-04-03
# Yiddishのパート・オブ・スペル: Yiddish Book Center Corpus のタグ付けへの第一歩

A Part-of-Speech Tagger for Yiddish: First Steps in Tagging the Yiddish Book Center Corpus ( http://arxiv.org/abs/2204.01175v1 )

ライセンス: Link先を確認
Seth Kulick, Neville Ryant, Beatrice Santorini, Joel Wallenberg(参考訳) 本稿では,yiddish (the first one, to the best of our knowledge) のためのタガーの構築と評価について述べる。 これは、言語研究のためにYiddishテキストに音声タグと構文構造を自動的に割り当てる大規模なプロジェクトの第一歩である。 現在の作業には、Penn Parsed Corpus of Historical Yiddish (PPCHY) (Santorini, 2021) の80Kワードサブセットと、Yiddish Book Center (YBC) の OCR'd Yiddish テキストの6億5000万ワードの2つのリソースを組み合わせています。 我々はYBCコーパスに単語埋め込みを計算し、これらの埋め込みはPPCHYで訓練・評価されたタグモデルを用いて使用される。 ybcコーパスのyiddish正書法には多くの綴りの矛盾があり、単純な非文脈化埋め込みであっても、最初の「標準化」なしに綴りの変種間の関係を捉えることができるという証拠がある。 組込みの有無に関わらず、10倍のクロスバリデーションスプリットにおけるタグ性能を評価し,組込みがタグ性能を改善することを示す。 しかしながら、多くの作業が完了し続けており、追加のアノテートトレーニングやテストデータの必要性など、次のステップについて議論することで、結論付けています。

We describe the construction and evaluation of a part-of-speech tagger for Yiddish (the first one, to the best of our knowledge). This is the first step in a larger project of automatically assigning part-of-speech tags and syntactic structure to Yiddish text for purposes of linguistic research. We combine two resources for the current work - an 80K word subset of the Penn Parsed Corpus of Historical Yiddish (PPCHY) (Santorini, 2021) and 650 million words of OCR'd Yiddish text from the Yiddish Book Center (YBC). We compute word embeddings on the YBC corpus, and these embeddings are used with a tagger model trained and evaluated on the PPCHY. Yiddish orthography in the YBC corpus has many spelling inconsistencies, and we present some evidence that even simple non-contextualized embeddings are able to capture the relationships among spelling variants without the need to first "standardize" the corpus. We evaluate the tagger performance on a 10-fold cross-validation split, with and without the embeddings, showing that the embeddings improve tagger performance. However, a great deal of work remains to be done, and we conclude by discussing some next steps, including the need for additional annotated training and test data.
翻訳日:2022-04-05 14:49:03 公開日:2022-04-03
# fedgbf:グラデーションブースティングとバッキングによる効率的な垂直フェデレーション学習フレームワーク

FedGBF: An efficient vertical federated learning framework via gradient boosting and bagging ( http://arxiv.org/abs/2204.00976v1 )

ライセンス: Link先を確認
Yujin Han, Pan Du, Kai Yang(参考訳) データプライバシとセキュリティの問題を解決するためのフェデレーション学習が最近注目を集めている。 しかし,既存のフェデレーション強化モデルでは,弱ベース学習者による決定木モデルが逐次構築され,冗長なブースティングステップと対話性の高い通信コストが生じる。 対照的に、連合型バッグングモデルは複数決定木を並列に構築することで時間を節約するが、性能損失に悩まされる。 そこで本研究では,federated gradient boosting forest(federated gradient boosting forest, fedgbf)と呼ばれる垂直フェデレーション環境における新しいモデルを提案する。 FedGBFは、強化のためのベースラーナとして、決定木を並列に構築することで、ブースティングとバッグングの優先順位を同時に統合する。 FedGBFの後、ハイパーパラメータチューニングの問題が高まっている。 次に,各森林のパラメータを動的に変化させ,複雑さを低減させる動的feedgbfを提案する。 最後に,ベンチマークデータセットに基づく実験により,本手法が優れていることを示す。

Federated learning, conducive to solving data privacy and security problems, has attracted increasing attention recently. However, the existing federated boosting model sequentially builds a decision tree model with the weak base learner, resulting in redundant boosting steps and high interactive communication costs. In contrast, the federated bagging model saves time by building multi-decision trees in parallel, but it suffers from performance loss. With the aim of obtaining an outstanding performance with less time cost, we propose a novel model in a vertically federated setting termed as Federated Gradient Boosting Forest (FedGBF). FedGBF simultaneously integrates the boosting and bagging's preponderance by building the decision trees in parallel as a base learner for boosting. Subsequent to FedGBF, the problem of hyperparameters tuning is rising. Then we propose the Dynamic FedGBF, which dynamically changes each forest's parameters and thus reduces the complexity. Finally, the experiments based on the benchmark datasets demonstrate the superiority of our method.
翻訳日:2022-04-05 14:15:30 公開日:2022-04-03
# マルチセンサー融合を用いたロボットナビゲーションの能動的異常検出

Proactive Anomaly Detection for Robot Navigation with Multi-Sensor Fusion ( http://arxiv.org/abs/2204.01146v1 )

ライセンス: Link先を確認
Tianchen Ji, Arun Narenthiran Sivakumar, Girish Chowdhary, Katherine Driggs-Campbell(参考訳) ナビゲーションアルゴリズムの急速な進歩にもかかわらず、移動ロボットはナビゲーションの失敗につながるような異常な振る舞いをしばしば生み出す。 このような異常な動作を検出する能力は、高度な自律性を達成するための現代ロボットの重要な要素である。 反応異常検出手法は、現在のロボットの状態に基づいて異常なタスク実行を特定し、実際の故障が起こる前にロボットに警告する能力がない。 このような警告遅延は、ロボットと周辺オブジェクトの両方に潜在的な損傷があるため、望ましくない。 本稿では,非構造環境および不確実環境におけるロボットナビゲーションのためのproactive anomaly detection network (paad)を提案する。 PAADは、予測制御器からの計画された動きと知覚モジュールからの現在の観測に基づいて、将来の故障の確率を予測する。 マルチセンサ信号は、フィールド環境で見られるようなセンサ閉塞の存在下で、堅牢な異常検出を実現するために効果的に融合される。 フィールドロボットデータを用いた実験は,従来の手法よりも優れた故障識別性能を示し,乱れ検出率を低く保ちながら,異常な動作をリアルタイムで捉えることができることを示した。 コード、データセット、ビデオはhttps://github.com/tianchenji/PAADで入手できる。

Despite the rapid advancement of navigation algorithms, mobile robots often produce anomalous behaviors that can lead to navigation failures. The ability to detect such anomalous behaviors is a key component in modern robots to achieve high-levels of autonomy. Reactive anomaly detection methods identify anomalous task executions based on the current robot state and thus lack the ability to alert the robot before an actual failure occurs. Such an alert delay is undesirable due to the potential damage to both the robot and the surrounding objects. We propose a proactive anomaly detection network (PAAD) for robot navigation in unstructured and uncertain environments. PAAD predicts the probability of future failure based on the planned motions from the predictive controller and the current observation from the perception module. Multi-sensor signals are fused effectively to provide robust anomaly detection in the presence of sensor occlusion as seen in field environments. Our experiments on field robot data demonstrates superior failure identification performance than previous methods, and that our model can capture anomalous behaviors in real-time while maintaining a low false detection rate in cluttered fields. Code, dataset, and video are available at https://github.com/tianchenji/PAAD
翻訳日:2022-04-05 14:13:57 公開日:2022-04-03
# センタウアのためのベイズ適応pomdpを用いた最良応答ベイズ強化学習

Best-Response Bayesian Reinforcement Learning with Bayes-adaptive POMDPs for Centaurs ( http://arxiv.org/abs/2204.01160v1 )

ライセンス: Link先を確認
Mustafa Mert \c{C}elikok, Frans A. Oliehoek, Samuel Kaski(参考訳) centaurは半人半人半人意思決定者であり、aiの目標は人間を補完することである。 そのためには、AIは人間の目標と制約を認識し、それらを助ける手段を持っていなければならない。 エージェントをベイズ的ベストレスポンスモデルを用いてモデル化するシーケンシャルゲームとして,人間とAIの相互作用の新たな定式化を提案する。 このケースでは、有界人間によるより良い意思決定を支援するというAIの問題は、ベイズ対応のPOMDPに還元される。 シミュレーション実験では、AIの将来行動について主観的に楽観的な人間のためのフレームワークのインスタンス化を検討する。 以上の結果から,人間のモデルと組み合わせることで,AIは人間の限界を推測し,より良い判断を下すことができることがわかった。 我々は、機械が人間の助けを借りて、自身の限界を改善できる方法について議論する。 AIの行動が人間に受け入れられるためには、マシンは彼らの信念が十分に一致していることを確認する必要があるが、信念の整合はコストがかかる可能性がある。 このトレードオフの予備的理論的解析とタスク構造への依存について述べる。

Centaurs are half-human, half-AI decision-makers where the AI's goal is to complement the human. To do so, the AI must be able to recognize the goals and constraints of the human and have the means to help them. We present a novel formulation of the interaction between the human and the AI as a sequential game where the agents are modelled using Bayesian best-response models. We show that in this case the AI's problem of helping bounded-rational humans make better decisions reduces to a Bayes-adaptive POMDP. In our simulated experiments, we consider an instantiation of our framework for humans who are subjectively optimistic about the AI's future behaviour. Our results show that when equipped with a model of the human, the AI can infer the human's bounds and nudge them towards better decisions. We discuss ways in which the machine can learn to improve upon its own limitations as well with the help of the human. We identify a novel trade-off for centaurs in partially observable tasks: for the AI's actions to be acceptable to the human, the machine must make sure their beliefs are sufficiently aligned, but aligning beliefs might be costly. We present a preliminary theoretical analysis of this trade-off and its dependence on task structure.
翻訳日:2022-04-05 14:13:41 公開日:2022-04-03
# ビザンチン・ロバスト連合線形バンド

Byzantine-Robust Federated Linear Bandits ( http://arxiv.org/abs/2204.01155v1 )

ライセンス: Link先を確認
Ali Jadbabaie, Haochuan Li, Jian Qian, Yi Tian(参考訳) 本稿では,分散エージェントの大規模な集合が共同で共通の線形バンディットモデルを学習するフェデレート環境での線形バンディット最適化問題について検討する。 この設定に適用される標準的なフェデレーション学習アルゴリズムは、少数のエージェントに対するビザンチン攻撃に対して脆弱である。 幾何中央値を利用するロバストアグリゲーションオラクルを用いた新しいアルゴリズムを提案する。 提案するアルゴリズムは,約半数以下のエージェントに対するビザンチン攻撃に対して頑健であり,$t$ステップの通信ステップに対して$\mathcal{o}(\sqrt{t})$で後悔するサブ線形$\tilde{\mathcal{o}}({t^{3/4}})が得られることを証明した。 さらに,木に基づく機構によりアルゴリズムを微分プライベートにする。 最後に,汚職のレベルが小さいことが分かっている場合,平均オラクルの幾何学的中央値を用いてロバストアグリゲーションを行うことで,後悔の限界がさらに改善されることを示す。

In this paper, we study a linear bandit optimization problem in a federated setting where a large collection of distributed agents collaboratively learn a common linear bandit model. Standard federated learning algorithms applied to this setting are vulnerable to Byzantine attacks on even a small fraction of agents. We propose a novel algorithm with a robust aggregation oracle that utilizes the geometric median. We prove that our proposed algorithm is robust to Byzantine attacks on fewer than half of agents and achieves a sublinear $\tilde{\mathcal{O}}({T^{3/4}})$ regret with $\mathcal{O}(\sqrt{T})$ steps of communication in $T$ steps. Moreover, we make our algorithm differentially private via a tree-based mechanism. Finally, if the level of corruption is known to be small, we show that using the geometric median of mean oracle for robust aggregation further improves the regret bound.
翻訳日:2022-04-05 14:13:07 公開日:2022-04-03
# 没入部分多様体をサスマン軌道定理によるデータに適合させる

Fitting an immersed submanifold to data via Sussmann's orbit theorem ( http://arxiv.org/abs/2204.01119v1 )

ライセンス: Link先を確認
Joshua Hanson, Maxim Raginsky(参考訳) 本稿では,有限次元ユークリッド空間の没入部分多様体をランダムサンプルに適合させるアプローチについて述べる。 周囲空間から所望の部分多様体への再構成写像は、各点を(正または負の)時間タプルにマッピングするエンコーダと、固定された初期点から始まる有限個のベクトル場に沿って流れる流れの合成によって与えられるデコーダの合成として実装される。 エンコーダはフローの時間を提供します。 エンコーダ・デコーダマップは、経験的リスク最小化により得られ、与えられたエンコーダ・デコーダマップのクラス上の最小期待再構成誤差に対する過大なリスクに対して高い確率バウンドが与えられる。 提案されたアプローチは、再構成写像の像が実際に没入した部分多様体に含まれることを保証するサスマンの軌道定理を根本的に活用する。

This paper describes an approach for fitting an immersed submanifold of a finite-dimensional Euclidean space to random samples. The reconstruction mapping from the ambient space to the desired submanifold is implemented as a composition of an encoder that maps each point to a tuple of (positive or negative) times and a decoder given by a composition of flows along finitely many vector fields starting from a fixed initial point. The encoder supplies the times for the flows. The encoder-decoder map is obtained by empirical risk minimization, and a high-probability bound is given on the excess risk relative to the minimum expected reconstruction error over a given class of encoder-decoder maps. The proposed approach makes fundamental use of Sussmann's orbit theorem, which guarantees that the image of the reconstruction map is indeed contained in an immersed submanifold.
翻訳日:2022-04-05 14:08:59 公開日:2022-04-03
# 多言語モデルに対する効率的なアノテーション獲得について

On Efficiently Acquiring Annotations for Multilingual Models ( http://arxiv.org/abs/2204.01016v1 )

ライセンス: Link先を確認
Joel Ruben Antony Moniz, Barun Patra, Matthew R. Gormley(参考訳) 与えられた問題に対して複数の言語をサポートするタスクを課すと、アノテーション予算が等しく分かれた各言語に対するモデルトレーニングと、高リソース言語でのトレーニングと、残りの言語へのゼロショット転送という2つのアプローチが生まれている。 本研究では,単一モデルを用いた複数言語共同学習の戦略が,前述の代替手法よりも大幅に優れていることを示す。 また、アクティブラーニングが追加で補完的なメリットをもたらすことも示しています。 この単純なアプローチにより、アノテーションの予算を不確実な言語に問い合わせることによって、モデルをデータ効率を高めることができることを示す。 提案手法は,4言語対応の分類タスク,4言語対応のシーケンスタグ付けタスク,5言語対応の依存関係解析タスクの多種多様なタスクにおいて有効であることを示す。 提案手法は,制約付き予算下での多言語環境でのモデル構築において,他の実現可能な選択肢よりも大幅に優れる。

When tasked with supporting multiple languages for a given problem, two approaches have arisen: training a model for each language with the annotation budget divided equally among them, and training on a high-resource language followed by zero-shot transfer to the remaining languages. In this work, we show that the strategy of joint learning across multiple languages using a single model performs substantially better than the aforementioned alternatives. We also demonstrate that active learning provides additional, complementary benefits. We show that this simple approach enables the model to be data efficient by allowing it to arbitrate its annotation budget to query languages it is less certain on. We illustrate the effectiveness of our proposed method on a diverse set of tasks: a classification task with 4 languages, a sequence tagging task with 4 languages and a dependency parsing task with 5 languages. Our proposed method, whilst simple, substantially outperforms the other viable alternatives for building a model in a multilingual setting under constrained budgets.
翻訳日:2022-04-05 13:35:53 公開日:2022-04-03
# DeepONets を用いた不確かさと部分未知のシステムの双方向モデリング

Bi-fidelity Modeling of Uncertain and Partially Unknown Systems using DeepONets ( http://arxiv.org/abs/2204.00997v1 )

ライセンス: Link先を確認
Subhayan De, Malik Hassanaly, Matthew Reynolds, Ryan N. King, and Alireza Doostan(参考訳) 大規模複雑な物理システムのモデリングにおける最近の進歩は、研究の焦点をデータ駆動技術に移している。 しかし、複雑なシステムをシミュレートしてデータセットを生成するには、かなりの計算資源が必要になる。 同様に、実験データセットの取得も困難である。 これらのシステムでは、しばしば計算的に安価であるが、一般に不正確なモデル(低忠実度モデル)が利用可能である。 本稿では,非線形演算子近似に適したニューラルネットワークアーキテクチャであるdeep operator network (deeponet) を用いて,実システムの応答と低忠実度応答との差を,実システムの応答と実システムの応答との小さなトレーニングデータセットの存在下でモデル化する,複雑な物理システムに対する双忠実性モデリング手法を提案する。 パラメトリック不確実性を持ち、部分的には未知なモデルシステムにアプローチを適用する。 3つの数値例は、不確かで部分的に未知の複雑な物理系をモデル化する提案手法の有効性を示すために用いられる。

Recent advances in modeling large-scale complex physical systems have shifted research focuses towards data-driven techniques. However, generating datasets by simulating complex systems can require significant computational resources. Similarly, acquiring experimental datasets can prove difficult as well. For these systems, often computationally inexpensive, but in general inaccurate, models, known as the low-fidelity models, are available. In this paper, we propose a bi-fidelity modeling approach for complex physical systems, where we model the discrepancy between the true system's response and low-fidelity response in the presence of a small training dataset from the true system's response using a deep operator network (DeepONet), a neural network architecture suitable for approximating nonlinear operators. We apply the approach to model systems that have parametric uncertainty and are partially unknown. Three numerical examples are used to show the efficacy of the proposed approach to model uncertain and partially unknown complex physical systems.
翻訳日:2022-04-05 13:31:52 公開日:2022-04-03
# ハイパースペクトル画像分類のためのsparrow探索アルゴリズムにより最適化されたkernel extreme learning machine

Kernel Extreme Learning Machine Optimized by the Sparrow Search Algorithm for Hyperspectral Image Classification ( http://arxiv.org/abs/2204.00973v1 )

ライセンス: Link先を確認
Zhixin Yan, Jiawei Huang, Kehua Xiang(参考訳) ハイパースペクトル画像分類アルゴリズムの分類性能と一般化性を向上させるために,マルチスケール全変動(mstv)を用いてスペクトル特徴を抽出し,局所二分パターン(lbp)を用いて空間特徴を抽出し,特徴重ね合わせを行い,ハイパースペクトル画像の融合特徴を得る。 高収束と強大域探索能力を持つ新しい群知能最適化法であるsparrow search algorithm (ssa) を用いて、kernel extreme learning machine (kelm) のカーネルパラメータと正規化係数を最適化する。 本稿では,マルチスケール核融合型超スペクトル画像分類法(mls-kelm)を提案する。 mls-kelmの分類性能を検証するためにインドパインズ、パヴィア大学、ヒューストン2013データセットを選択し、zy1-02dハイパースペクトルデータに適用した。 実験の結果,MLS-KELMは他の一般的な分類法と比較して,分類性能と一般化能力が優れており,MLS-KELMは小試料の場合において強い堅牢性を示した。

To improve the classification performance and generalization ability of the hyperspectral image classification algorithm, this paper uses Multi-Scale Total Variation (MSTV) to extract the spectral features, local binary pattern (LBP) to extract spatial features, and feature superposition to obtain the fused features of hyperspectral images. A new swarm intelligence optimization method with high convergence and strong global search capability, the Sparrow Search Algorithm (SSA), is used to optimize the kernel parameters and regularization coefficients of the Kernel Extreme Learning Machine (KELM). In summary, a multiscale fusion feature hyperspectral image classification method (MLS-KELM) is proposed in this paper. The Indian Pines, Pavia University and Houston 2013 datasets were selected to validate the classification performance of MLS-KELM, and the method was applied to ZY1-02D hyperspectral data. The experimental results show that MLS-KELM has better classification performance and generalization ability compared with other popular classification methods, and MLS-KELM shows its strong robustness in the small sample case.
翻訳日:2022-04-05 13:29:50 公開日:2022-04-03
# ビジュアル質問応答のための質問駆動グラフ融合ネットワーク

Question-Driven Graph Fusion Network For Visual Question Answering ( http://arxiv.org/abs/2204.00975v1 )

ライセンス: Link先を確認
Yuxi Qian, Yuncong Hu, Ruonan Wang, Fangxiang Feng and Xiaojie Wang(参考訳) 既存のVisual Question Answering (VQA)モデルは、複雑な質問に答えるために画像内のオブジェクト間の様々な視覚的関係を探索してきた。 そこで本研究では,質問駆動グラフ融合ネットワーク(QD-GFN)を提案する。 まず,3つのグラフアテンションネットワークによる画像の意味的,空間的,暗黙的な視覚的関係をモデル化し,質問情報を用いて3つのグラフの集約プロセスを導出する。 実験の結果,我々のQD-GFNはVQA 2.0とVQA-CP v2データセットの両方において先行技術よりも優れていた。 さらに分析した結果,新しいグラフ集約法とオブジェクトフィルタリング機構が,モデルの性能向上に重要な役割を果たすことがわかった。

Existing Visual Question Answering (VQA) models have explored various visual relationships between objects in the image to answer complex questions, which inevitably introduces irrelevant information brought by inaccurate object detection and text grounding. To address the problem, we propose a Question-Driven Graph Fusion Network (QD-GFN). It first models semantic, spatial, and implicit visual relations in images by three graph attention networks, then question information is utilized to guide the aggregation process of the three graphs, further, our QD-GFN adopts an object filtering mechanism to remove question-irrelevant objects contained in the image. Experiment results demonstrate that our QD-GFN outperforms the prior state-of-the-art on both VQA 2.0 and VQA-CP v2 datasets. Further analysis shows that both the novel graph aggregation method and object filtering mechanism play a significant role in improving the performance of the model.
翻訳日:2022-04-05 13:10:10 公開日:2022-04-03