このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220413となっている論文です。

PDF登録状況(公開日: 20220413)

TitleAuthorsAbstract論文公表日・翻訳日
# 強化学習を用いたセル接続型UAVの適応高さ最適化

Adaptive Height Optimisation for Cellular-Connected UAVs using Reinforcement Learning ( http://arxiv.org/abs/2007.13695v3 )

ライセンス: Link先を確認
Erika Fonseca, Boris Galkin, Ramy Amer, Luiz A. DaSilva, and Ivana Dusparic(参考訳) セルラー接続型UAVへの信頼性の高い接続を提供することは非常に困難であり、その性能はBSの密度や高さといった周囲環境の性質に大きく依存する。 一方、高層建築物は、地上BSからの望ましくない干渉信号を遮断し、UAVとサービスBSとの接続性を改善する可能性がある。 このような環境下でのUAVの接続性に対処するため,本研究では,UAVの高度を動的に最適化するRLアルゴリズムを提案する。 提案手法は,BSの数や密度が変化する一連の生成環境と,アイルランドのダブリンでの実験から得られた実世界データを用いたシナリオの2つの設定で評価される。 その結果,提案手法はシナリオに応じて,UAVのQoSを6%から41%改善することがわかった。 また、建物よりも高い高さを飛ぶ場合、建物密度の変化はUAV QoSに影響を与えないという結論に達した。 一方、BS密度はUAV QoSに悪影響を及ぼし、より多くのBSがより多くの干渉を発生させ、UAV性能を低下させる。

Providing reliable connectivity to cellular-connected UAV can be very challenging; their performance highly depends on the nature of the surrounding environment, such as density and heights of the ground BSs. On the other hand, tall buildings might block undesired interference signals from ground BSs, thereby improving the connectivity between the UAVs and their serving BSs. To address the connectivity of UAVs in such environments, this paper proposes a RL algorithm to dynamically optimise the height of a UAV as it moves through the environment, with the goal of increasing the throughput or spectrum efficiency that it experiences. The proposed solution is evaluated in two settings: using a series of generated environments where we vary the number of BS and building densities, and in a scenario using real-world data obtained from an experiment in Dublin, Ireland. Results show that our proposed RL-based solution improves UAVs QoS by 6% to 41%, depending on the scenario. We also conclude that, when flying at heights higher than the buildings, building density variation has no impact on UAV QoS. On the other hand, BS density can negatively impact UAV QoS, with higher numbers of BSs generating more interference and deteriorating UAV performance.
翻訳日:2022-11-06 11:37:41 公開日:2022-04-13
# CaCL:Diffuse画像パターンの弱教師付きセグメンテーションのためのクラス認識型コードブック学習

CaCL: Class-aware Codebook Learning for Weakly Supervised Segmentation on Diffuse Image Patterns ( http://arxiv.org/abs/2011.00794v2 )

ライセンス: Link先を確認
Ruining Deng, Quan Liu, Shunxing Bao, Aadarsh Jha, Catie Chang, Bryan A. Millis, Matthew J. Tyska, Yuankai Huo(参考訳) バイオメディカル・イメージ分析において、バイオメディカル・ラーニングは、画像のアノテーション(分類)からピクセルワイド・ラベル(セグメンテーション)を実現するために急速に進歩してきた。 現在のコンピュータビジョンコミュニティの弱い教師付き学習アルゴリズムは、主に焦点オブジェクト(例えば犬や猫)向けに設計されている。 しかし、そのようなアルゴリズムは生体医用画像(例えば顕微鏡画像の染色や蛍光など)の拡散パターンに最適化されていない。 本稿では,拡散画像パターンに対する弱教師付き学習を実現するために,クラス認識型コードブック学習(CaCL)アルゴリズムを提案する。 具体的には、ヒト十二指腸の組織像からブラシ境界領域に発現するタンパク質にCaCLアルゴリズムを配置する。 我々は,(1)新しいコードブック学習の観点から,弱教師付きセグメンテーションにアプローチする,(2)caclアルゴリズムは焦点オブジェクトではなく拡散画像パターンを分割する,(3)提案手法は,ベクトル量子化変分オートエンコーダ(vq-vae)に基づくマルチタスクフレームワークに,共同画像再構成,分類,特徴埋め込み,セグメンテーションによって実装する,という3つの特徴がある。 実験の結果,本手法はベースラインの弱教師付きアルゴリズムと比較して優れた性能を示した。 コードはhttps://github.com/ddrrnn123/caclで入手できる。

Weakly supervised learning has been rapidly advanced in biomedical image analysis to achieve pixel-wise labels (segmentation) from image-wise annotations (classification), as biomedical images naturally contain image-wise labels in many scenarios. The current weakly supervised learning algorithms from the computer vision community are largely designed for focal objects (e.g., dogs and cats). However, such algorithms are not optimized for diffuse patterns in biomedical imaging (e.g., stains and fluorescence in microscopy imaging). In this paper, we propose a novel class-aware codebook learning (CaCL) algorithm to perform weakly supervised learning for diffuse image patterns. Specifically, the CaCL algorithm is deployed to segment protein expressed brush border regions from histological images of human duodenum. Our contribution is three-fold: (1) we approach the weakly supervised segmentation from a novel codebook learning perspective; (2) the CaCL algorithm segments diffuse image patterns rather than focal objects; and (3) the proposed algorithm is implemented in a multi-task framework based on Vector Quantised-Variational AutoEncoder (VQ-VAE) via joint image reconstruction, classification, feature embedding, and segmentation. The experimental results show that our method achieved superior performance compared with baseline weakly supervised algorithms. The code is available at https://github.com/ddrrnn123/CaCL.
翻訳日:2022-09-30 12:15:11 公開日:2022-04-13
# 書き手特性を持つ新しい高分解能手書き文字データの導入

Introducing a new high-resolution handwritten digits data set with writer characteristics ( http://arxiv.org/abs/2011.07946v3 )

ライセンス: Link先を確認
C\'edric Beaulac, Jeffrey S. Rosenthal(参考訳) この記事のコントリビューションは2つあります。 まず、収集した手書きの数字データセットを新たに導入する。 手書きの高解像度画像を含む この記事のコントリビューションは2つだ。 まず、収集した新しい手書きの数字データセットを紹介します。 これは手書き文字の高解像度画像と、よく知られたMNISTデータベースでは利用できない様々な文字の特徴を含んでいる。 収集された複数のライター特性は、データセットの新規性であり、新たな研究機会を生み出します。 データセットはオンラインで公開されている。 次に、この新しいデータセットを分析します。 まずは単純な教師付きタスクから始めます。 収集した文字特性の予測可能性,それらの特徴のいくつかを分類課題における予測要因として利用すること,高分解能画像が分類精度に与える影響を評価する。 オンライン上にすでに存在する手書き桁データセットを多量に活用して,様々な分類タスクの精度を向上し,顕著な成功を収めることができる。 最後に、この新たなデータセットが提供する生成的視点を実証し、特定の著者の執筆スタイルを模倣した画像を生成することができる。 データセットにはユニークな特徴があり、我々の分析はベンチマークを確立し、この新しいデータセットで実現可能な新しい機会をいくつか示す。

The contributions in this article are two-fold. First, we introduce a new hand-written digit data set that we collected. It contains high-resolution images of hand-written The contributions in this article are two-fold. First, we introduce a new handwritten digit data set that we collected. It contains high-resolution images of handwritten digits together with various writer characteristics which are not available in the well-known MNIST database. The multiple writer characteristics gathered are a novelty of our data set and create new research opportunities. The data set is publicly available online. Second, we analyse this new data set. We begin with simple supervised tasks. We assess the predictability of the writer characteristics gathered, the effect of using some of those characteristics as predictors in classification task and the effect of higher resolution images on classification accuracy. We also explore semi-supervised applications; we can leverage the high quantity of handwritten digits data sets already existing online to improve the accuracy of various classifications task with noticeable success. Finally, we also demonstrate the generative perspective offered by this new data set; we are able to generate images that mimics the writing style of specific writers. The data set has unique and distinct features and our analysis establishes benchmarks and showcases some of the new opportunities made possible with this new data set.
翻訳日:2022-09-29 22:42:06 公開日:2022-04-13
# 外部パッチ補間による外乱検出

Detecting Outliers with Foreign Patch Interpolation ( http://arxiv.org/abs/2011.04197v2 )

ライセンス: Link先を確認
Jeremy Tan, Benjamin Hou, James Batten, Huaqi Qiu, Bernhard Kainz(参考訳) 医用画像では、異常/超強度、小さな変形、あるいは完全に変化する解剖を含むことができる。 これらの異常を検出するには、正常画像と異常画像の両方に存在する特徴を学ぶことが有用である。 しかし、これは広範囲の異常があり、また正常な解剖学が自然に変化する可能性があるため困難である。 そのため、通常の解剖学の自然変動を利用して、様々な合成異常を生み出す。 具体的には、2つの独立したサンプルから同じパッチ領域を抽出し、両方のパッチ間の補間に置き換える。 補間係数、パッチサイズ、パッチ位置は、均一分布からランダムにサンプリングされる。 広範囲の残差エンコーダデコーダを訓練し、パッチとその補間係数の画素ワイズ予測を行う。 これにより、ネットワークは普通に期待する機能を学び、外国のパターンが導入されている場所を特定することができる。 補間係数の推定は、外れ値の導出に適している。 一方、ピクセル単位の出力は、同じモデルを使ってピクセル単位と主題単位の予測を可能にする。

In medical imaging, outliers can contain hypo/hyper-intensities, minor deformations, or completely altered anatomy. To detect these irregularities it is helpful to learn the features present in both normal and abnormal images. However this is difficult because of the wide range of possible abnormalities and also the number of ways that normal anatomy can vary naturally. As such, we leverage the natural variations in normal anatomy to create a range of synthetic abnormalities. Specifically, the same patch region is extracted from two independent samples and replaced with an interpolation between both patches. The interpolation factor, patch size, and patch location are randomly sampled from uniform distributions. A wide residual encoder decoder is trained to give a pixel-wise prediction of the patch and its interpolation factor. This encourages the network to learn what features to expect normally and to identify where foreign patterns have been introduced. The estimate of the interpolation factor lends itself nicely to the derivation of an outlier score. Meanwhile the pixel-wise output allows for pixel- and subject- level predictions using the same model.
翻訳日:2022-09-28 01:18:03 公開日:2022-04-13
# (参考訳) 認知的・社会的・感情的特徴に基づく機械学習を用いた学生学習の進歩と欠点の動的診断

Dynamic Diagnosis of the Progress and Shortcomings of Student Learning using Machine Learning based on Cognitive, Social, and Emotional Features ( http://arxiv.org/abs/2204.13989v1 )

ライセンス: CC BY 4.0
Alex Doboli, Simona Doboli, Ryan Duke, Sangjin Hong and Wendy Tang(参考訳) 学歴、学習スタイル、キャリアと人生の目標、民族性、年齢、社会的および感情的な特徴、コースの負荷と仕事のスケジュールといった学生の多様性は、新しいスキルの学習、ピアメンタリング、サンプル設定など、教育におけるユニークな機会を提供する。 しかし、学生の多様性は、学生が時間とともに学び、進歩していく方法に多様性を加えることでも困難である。 単一の指導アプローチは効果がなく、その結果、生徒は潜在能力を満たさない。 自動サポートは、学生の学習を継続的に評価し、必要な介入を行うことで、伝統的な教育の限界に対処できる。 本稿では、データ分析と機械学習に基づく新しい手法について論じ、学習の進歩と欠点を計測し、因果診断し、学習を最適化するために個人が得た知見を活用する。 診断は、学習の欠点の原因を明らかにすることを目的とした、動的診断形成評価に関するものである。 この方法論は難易度を4つのカテゴリに分類している: 記憶からのリコール、概念調整、概念修正、問題分解(サブ問題)、概念の組み合わせ。 データモデルは、4つのチャレンジタイプと学生の学習軌跡のそれぞれの発生を予測しています。 モデルは、理解されていない概念に対処するために、リアルタイムで学生固有の介入(例えば学習方法)を自動生成するために使用することができる。 本システムでは,各学生の背景,能力,状況,進捗状況に教材をカスタマイズし,多様性に関連した学習体験を活用し,学習能力を解き放つための新しい適応的教育的アプローチを実現することを想定する。

Student diversity, like academic background, learning styles, career and life goals, ethnicity, age, social and emotional characteristics, course load and work schedule, offers unique opportunities in education, like learning new skills, peer mentoring and example setting. But student diversity can be challenging too as it adds variability in the way in which students learn and progress over time. A single teaching approach is likely to be ineffective and result in students not meeting their potential. Automated support could address limitations of traditional teaching by continuously assessing student learning and implementing needed interventions. This paper discusses a novel methodology based on data analytics and Machine Learning to measure and causally diagnose the progress and shortcomings of student learning, and then utilizes the insight gained on individuals to optimize learning. Diagnosis pertains to dynamic diagnostic formative assessment, which aims to uncover the causes of learning shortcomings. The methodology groups learning difficulties into four categories: recall from memory, concept adjustment, concept modification, and problem decomposition into sub-goals (sub-problems) and concept combination. Data models are predicting the occurrence of each of the four challenge types, as well as a student's learning trajectory. The models can be used to automatically create real-time, student-specific interventions (e.g., learning cues) to address less understood concepts. We envision that the system will enable new adaptive pedagogical approaches to unleash student learning potential through customization of the course material to the background, abilities, situation, and progress of each student; and leveraging diversity-related learning experiences.
翻訳日:2022-05-09 05:56:00 公開日:2022-04-13
# エッジ対応メタバース:メタバースとモバイルエッジコンピューティングの収束

Edge-enabled Metaverse: The Convergence of Metaverse and Mobile Edge Computing ( http://arxiv.org/abs/2205.02764v1 )

ライセンス: Link先を確認
Sahraoui Dhelim, Tahar Kechadi, Liming Chen, Nyothiri Aung, Huansheng Ning and Luigi Atzori(参考訳) metaverseは、ユーザーが仮想世界をナビゲートするためにアバターによって表現される仮想環境である。 最先端のMetaverseアーキテクチャは、アバター物理エミュレーションとグラフィックレンダリング計算のためのクラウドベースのアプローチに依存している。 このような集中型設計は、低品質の可視化など、クラウドアクセスに必要な長時間の遅延によって引き起こされるいくつかの欠点に苦しむため、好ましくない。 本稿では,仮想宇宙における衝突検出や3次元物理学の仮想シミュレーションなど,重いタスクに必要な計算コストを満たすために,エッジデバイスを用いたパワー計算を行う,エッジ対応分散コンピューティングパラダイムを活用したメタバースアプリケーションのためのフォグエッジハイブリッドコンピューティングアーキテクチャを提案する。 衝突検出や物理エミュレーションなどのメタバースにおけるエンティティに関連する計算コストは、関連する物理エンティティのエンドデバイスで実行される。 提案手法の有効性を証明するため,分散社会メタバースアプリケーションをシミュレーションする。 シミュレーションの結果,従来のクラウドベースのMetaverseアプリケーションと比較して,提案アーキテクチャでは遅延を50%削減できることがわかった。

The Metaverse is a virtual environment where users are represented by avatars to navigate a virtual world, which has strong links with the physical one. State-of-the-art Metaverse architectures rely on a cloud-based approach for avatar physics emulation and graphics rendering computation. Such centralized design is unfavorable as it suffers from several drawbacks caused by the long latency required for cloud access, such as low quality visualization. To solve this issue, in this paper, we propose a Fog-Edge hybrid computing architecture for Metaverse applications that leverage an edge-enabled distributed computing paradigm, which makes use of edge devices computing power to fulfil the required computational cost for heavy tasks such as collision detection in virtual universe and computation of 3D physics in virtual simulation. The computational cost related to an entity in the Metaverse such as collision detection or physics emulation are performed at the end-device of the associated physical entity. To prove the effectiveness of the proposed architecture, we simulate a distributed social metaverse application. Simulation results shows that the proposed architecture can reduce the latency by 50% when compared with the legacy cloud-based Metaverse applications.
翻訳日:2022-05-09 00:06:26 公開日:2022-04-13
# Eコマーススナップと検索アプリケーションのためのクロスドメインコンテンツベース画像検索のスケーリング

Scaling Cross-Domain Content-Based Image Retrieval for E-commerce Snap and Search Application ( http://arxiv.org/abs/2204.11593v1 )

ライセンス: Link先を確認
Isaac Kwan Yin Chung, Minh Tran, and Eran Nussinovitch(参考訳) 本稿では、ECIR 2022における業界講演で、カスケード法と視覚検索と分類機能の組み合わせを用いて、大規模なクロスドメインコンテンツベースの画像検索の主な課題にどのようにアプローチするかを説明する。 具体的には、eコマース利用のためのデータのスケールと、クエリとギャラリーの画像プールのドメイン間特性を扱うことができるシステムを提案する。 実世界のeコマーススナップおよび検索ユースケースに適用されたアプローチと、そのランク付けと遅延性能への影響について紹介する。

In this industry talk at ECIR 2022, we illustrate how we approach the main challenges from large scale cross-domain content-based image retrieval using a cascade method and a combination of our visual search and classification capabilities. Specifically, we present a system that is able to handle the scale of the data for e-commerce usage and the cross-domain nature of the query and gallery image pools. We showcase the approach applied in real-world e-commerce snap and search use case and its impact on ranking and latency performance.
翻訳日:2022-05-01 09:26:47 公開日:2022-04-13
# (参考訳) IIITDWD-ShankarB@ Dravidian-CodeMixi-HASOC2021: mBERTによる南インドの言語における攻撃的内容の同定

IIITDWD-ShankarB@ Dravidian-CodeMixi-HASOC2021: mBERT based model for identification of offensive content in south Indian languages ( http://arxiv.org/abs/2204.10195v1 )

ライセンス: CC BY 4.0
Shankar Biradar, Sunil Saumya(参考訳) 近年、攻撃的なコンテンツに多くの焦点が当てられている。 ソーシャルメディアが生み出す攻撃的コンテンツの量は、警戒速度で増加している。 これにより、これまで以上にこの問題に対処する必要が生じた。 これらの問題に対処するため、"Dravidian-Code Mixed HASOC-2020"の主催者が2つの課題を生み出した。 タスク1はマラヤラム語データにおける攻撃的コンテンツの識別を伴い、タスク2はマラヤラム語とタミル語の混成文を含む。 私たちのチームはタスク2に参加しました。 提案モデルでは,多言語BERTを用いて特徴抽出を行い,特徴抽出に3つの異なる分類器を用いた。 モデルは,マラヤラムデータで0.70の重み付きf1スコアを,5位に,タミル符号混合データでは0.573の重み付きf1スコアを,11位にランク付けした。

In recent years, there has been a lot of focus on offensive content. The amount of offensive content generated by social media is increasing at an alarming rate. This created a greater need to address this issue than ever before. To address these issues, the organizers of "Dravidian-Code Mixed HASOC-2020" have created two challenges. Task 1 involves identifying offensive content in Malayalam data, whereas Task 2 includes Malayalam and Tamil Code Mixed Sentences. Our team participated in Task 2. In our suggested model, we experiment with multilingual BERT to extract features, and three different classifiers are used on extracted features. Our model received a weighted F1 score of 0.70 for Malayalam data and was ranked fifth; we also received a weighted F1 score of 0.573 for Tamil Code Mixed data and were ranked eleventh.
翻訳日:2022-04-24 16:55:17 公開日:2022-04-13
# (参考訳) 衛星画像時系列分類のための時間畳み込みニューラルネットワークの検討

Investigating Temporal Convolutional Neural Networks for Satellite Image Time Series Classification ( http://arxiv.org/abs/2204.08461v1 )

ライセンス: CC BY 4.0
James Brock, Zahraa S. Abdallah(参考訳) 地球表面の衛星画像時系列(SITS)は詳細な土地被覆地図を提供し、その空間次元と時間次元は一貫して改善されている。 これらの画像時系列は、地球表面の正確な最新の土地被覆マップを作成することを目的とした開発システムにとって不可欠なものである。 適用範囲は広いが,生態系マッピングや植生プロセス監視,人為的土地利用変化追跡など,注目すべき例がある。 近年、SITS分類の手法は有益であるが、これらの手法はデータの時間的次元を生かしたネイティブなメカニズムを欠いている傾向にあり、一般に、広範囲なデータ前処理が極めて長い訓練時間をもたらす。 これらの欠点を克服するため,本稿では,新たに提案されたSITS分類手法,すなわちテンポラルCNNについて検討・拡張する。 2つのベンチマークs sittingデータセットで包括的な実験を行い、両データセットのベンチマークアルゴリズムに対して、テンポラリcnnが優れた性能または競合性能を示すことを実証した。 テンポラリcnnsアーキテクチャの調査は、新しいデータセットのためにモデルを最適化する非自明なタスクも強調した。

Satellite Image Time Series (SITS) of the Earth's surface provide detailed land cover maps, with their quality in the spatial and temporal dimensions consistently improving. These image time series are integral for developing systems that aim to produce accurate, up-to-date land cover maps of the Earth's surface. Applications are wide-ranging, with notable examples including ecosystem mapping, vegetation process monitoring and anthropogenic land-use change tracking. Recently proposed methods for SITS classification have demonstrated respectable merit, but these methods tend to lack native mechanisms that exploit the temporal dimension of the data; commonly resulting in extensive data pre-processing prohibitively long training times. To overcome these shortcomings, this paper seeks to study and enhance the newly proposed method for SITS classification from literature; namely Temporal CNNs. Comprehensive experiments are carried out on two benchmark SITS datasets with the results demonstrating that Temporal CNNs display a superior or competitive performance to the benchmark algorithms for both datasets. Investigations into the Temporal CNNs architecture also highlighted the non-trivial task of optimising the model for a new dataset.
翻訳日:2022-04-24 16:40:09 公開日:2022-04-13
# (参考訳) CapillaryX:ディープラーニングを用いたリアルタイム医療画像分析のためのソフトウェア設計パターン

CapillaryX: A Software Design Pattern for Analyzing Medical Images in Real-time using Deep Learning ( http://arxiv.org/abs/2204.08462v1 )

ライセンス: CC BY 4.0
Maged Abdalla Helmy Abdou, Paulo Ferreira, Eric Jul, Tuyen Trung Truong(参考訳) デジタル画像の最近の進歩、例えば、キャプチャされたピクセル数の増加は、これらの画像から処理および分析するデータの量も増加したことを意味する。 ディープラーニングアルゴリズムは、大量のデータでトレーニングされた場合の高精度さから、そのような画像を分析するための最先端技術である。 それにもかかわらず、そのような分析にはかなりの計算能力が必要であり、時間とリソースを要求できるアルゴリズムである。 このような高い要求は、サードパーティのクラウドサービスプロバイダを使って満たすことができる。 しかし、このようなサービスを使って医用画像を分析すると、いくつかの法的およびプライバシー上の課題が生じ、必ずしもリアルタイムな結果が得られない。 本稿では、ディープラーニングを用いて、ローカルかつ並列に医療画像をリアルタイムで分析できるコンピューティングアーキテクチャを提供する。 局所画像処理を現代マルチコアプロセッサ上で効率的にするために、並列実行を利用して、ディープニューラルネットワークのリソース集約要求を相殺する。 本研究は,手術システムを開発した微小循環画像における血管の定量化という,特定の医学・産業のケーススタディに焦点を当てた。 現在、e-healthアプリケーションの一部として、産業、臨床研究の現場で使用されている。 その結果,本システムはシリアルシステムよりも約78%高速であり,マスタスレーブ並列システムアーキテクチャよりも12%高速であった。

Recent advances in digital imaging, e.g., increased number of pixels captured, have meant that the volume of data to be processed and analyzed from these images has also increased. Deep learning algorithms are state-of-the-art for analyzing such images, given their high accuracy when trained with a large data volume of data. Nevertheless, such analysis requires considerable computational power, making such algorithms time- and resource-demanding. Such high demands can be met by using third-party cloud service providers. However, analyzing medical images using such services raises several legal and privacy challenges and does not necessarily provide real-time results. This paper provides a computing architecture that locally and in parallel can analyze medical images in real-time using deep learning thus avoiding the legal and privacy challenges stemming from uploading data to a third-party cloud provider. To make local image processing efficient on modern multi-core processors, we utilize parallel execution to offset the resource-intensive demands of deep neural networks. We focus on a specific medical-industrial case study, namely the quantifying of blood vessels in microcirculation images for which we have developed a working system. It is currently used in an industrial, clinical research setting as part of an e-health application. Our results show that our system is approximately 78% faster than its serial system counterpart and 12% faster than a master-slave parallel system architecture.
翻訳日:2022-04-24 16:07:43 公開日:2022-04-13
# 地球の高分解能天蓋の高さモデル

A high-resolution canopy height model of the Earth ( http://arxiv.org/abs/2204.08322v1 )

ライセンス: Link先を確認
Nico Lang, Walter Jetz, Konrad Schindler, Jan Dirk Wegner(参考訳) 世界中の植生の高度の変化は、地球規模の炭素循環の基本であり、生態系の機能とその生物多様性の中心である。 地理的に明確で理想的には、地球生態系を管理し、気候変動を緩和し、生物多様性の喪失を防ぐために高度に解決された情報が必要である。 ここでは,2020年10mの地中サンプリング距離において,世界初となる,壁から壁までのキャノピーの高さマップを示す。 GEDIのような専用の宇宙ミッションは、前例のない範囲でスパース高さのデータを提供するが、Sentinel-2のような光学衛星画像は世界中に密集した観測を提供するが、垂直構造を直接測定することはできない。 我々は,gediをセンチネル-2と融合することにより,センチネル-2画像からキャノピー高さを抽出し,これらの推定値の不確かさを定量化する確率的ディープラーニングモデルを開発した。 提案手法は,衛星画像からキャノピー高さを推定する際によく発生する飽和効果を低減し,炭素量の高い高層キャノピーを解消する。 地図によると、世界総面積のわずか5%が30m以上の木に覆われている。 このようなデータは保護にとって重要な役割を担っている。例えば、これらの高い天蓋の34%だけが保護区域内にある。 我々のモデルは、一貫した不確実性のあるグローバルマッピングを可能にし、継続的なモニタリングをサポートし、変化を検出し、意思決定に通知する。 このアプローチは森林保全における継続的な取り組みに役立ち、気候、炭素、生物多様性モデリングの進歩を促進する可能性がある。

The worldwide variation in vegetation height is fundamental to the global carbon cycle and central to the functioning of ecosystems and their biodiversity. Geospatially explicit and, ideally, highly resolved information is required to manage terrestrial ecosystems, mitigate climate change, and prevent biodiversity loss. Here, we present the first global, wall-to-wall canopy height map at 10 m ground sampling distance for the year 2020. No single data source meets these requirements: dedicated space missions like GEDI deliver sparse height data, with unprecedented coverage, whereas optical satellite images like Sentinel-2 offer dense observations globally, but cannot directly measure vertical structures. By fusing GEDI with Sentinel-2, we have developed a probabilistic deep learning model to retrieve canopy height from Sentinel-2 images anywhere on Earth, and to quantify the uncertainty in these estimates. The presented approach reduces the saturation effect commonly encountered when estimating canopy height from satellite images, allowing to resolve tall canopies with likely high carbon stocks. According to our map, only 5% of the global landmass is covered by trees taller than 30 m. Such data play an important role for conservation, e.g., we find that only 34% of these tall canopies are located within protected areas. Our model enables consistent, uncertainty-informed worldwide mapping and supports an ongoing monitoring to detect change and inform decision making. The approach can serve ongoing efforts in forest conservation, and has the potential to foster advances in climate, carbon, and biodiversity modelling.
翻訳日:2022-04-24 15:47:30 公開日:2022-04-13
# 動作認識のための3次元畳み込みネットワーク:スポーツジェスチャ認識への応用

3D Convolutional Networks for Action Recognition: Application to Sport Gesture Recognition ( http://arxiv.org/abs/2204.08460v1 )

ライセンス: Link先を確認
Pierre-Etienne Martin (LaBRI, MPI-EVA, UB), J Benois-Pineau, R P\'eteri, A Zemmari, J Morlier(参考訳) 3d畳み込みネットワークは、コヒーレントな時空間的チャンクへのビデオセグメンテーションや、ターゲット分類に関する分類といったタスクを実行するための良い方法である。 この章では、卓球のストロークのような反復的なアクションを伴う連続的なビデオの分類に興味がある。 無料マーカーの少ない環境下で撮影されたこれらのビデオは、セグメンテーションと分類の両方の観点からの挑戦を表している。 3d convnetsは、ウィンドウベースのアプローチでこれらの問題を解決するための効率的なツールである。

3D convolutional networks is a good means to perform tasks such as video segmentation into coherent spatio-temporal chunks and classification of them with regard to a target taxonomy. In the chapter we are interested in the classification of continuous video takes with repeatable actions, such as strokes of table tennis. Filmed in a free marker less ecological environment, these videos represent a challenge from both segmentation and classification point of view. The 3D convnets are an efficient tool for solving these problems with window-based approaches.
翻訳日:2022-04-24 15:47:07 公開日:2022-04-13
# 忠実な要約のための参照を改訂する学習

Learning to Revise References for Faithful Summarization ( http://arxiv.org/abs/2204.10290v1 )

ライセンス: Link先を確認
Griffin Adams, Han-Chin Shing, Qing Sun, Christopher Winestock, Kathleen McKeown, No\'emie Elhadad(参考訳) 自然発生のデータセットを持つ多くの現実世界のシナリオでは、参照要約は騒がしく、ソーステキストから推測できない情報を含んでいる。 大きなニュースコーパスでは、低品質サンプルを除去することで、モデル幻覚を減らすことが示されている。 しかし、この方法はより小型でノイズの多いコーパスではほとんどテストされていない。 すべてのデータを保持しながら参照品質を向上させるために,新しいアプローチを提案する。 根底からの監督がなければ、支援文に対する合成支援代替手段を構築し、対照的な学習を用いて、不誠実な修正を回避/促進する。 推論では,提案する参照文を過剰に生成し,忠実さと抽象性のバランスをとる最終版を選択する。 電子健康記録(EHR)と呼ばれるノイズの多い音源から小さなコーパスを抽出し,複数のノートから病院入院を要約する作業を行う。 原文・フィルタ・改訂参考文献のトレーニングモデルでは,(1)改訂基準からの学習は,フィルタリング(18.4\%対3.8\%)よりも幻覚率を有意に低減し,(2)抽象的(vs抽出的)リビジョンからの学習はコヒーレンス,妥当性,忠実性を改善し,(3)ノイズデータの再処理を超えて,事前学習目的として,ポストホックエディタとしてタスクにスタンドアロンの値を与える。

In many real-world scenarios with naturally occurring datasets, reference summaries are noisy and contain information that cannot be inferred from the source text. On large news corpora, removing low quality samples has been shown to reduce model hallucinations. Yet, this method is largely untested for smaller, noisier corpora. To improve reference quality while retaining all data, we propose a new approach: to revise--not remove--unsupported reference content. Without ground-truth supervision, we construct synthetic unsupported alternatives to supported sentences and use contrastive learning to discourage/encourage (un)faithful revisions. At inference, we vary style codes to over-generate revisions of unsupported reference sentences and select a final revision which balances faithfulness and abstraction. We extract a small corpus from a noisy source--the Electronic Health Record (EHR)--for the task of summarizing a hospital admission from multiple notes. Training models on original, filtered, and revised references, we find (1) learning from revised references reduces the hallucination rate substantially more than filtering (18.4\% vs 3.8\%), (2) learning from abstractive (vs extractive) revisions improves coherence, relevance, and faithfulness, (3) beyond redress of noisy data, the revision task has standalone value for the task: as a pre-training objective and as a post-hoc editor.
翻訳日:2022-04-24 15:45:03 公開日:2022-04-13
# Face Swapからモバイルデバイスへの移行 - 軽量フレームワークと教師付きトレーニングソリューション

Migrating Face Swap to Mobile Devices: A lightweight Framework and A Supervised Training Solution ( http://arxiv.org/abs/2204.08339v1 )

ライセンス: Link先を確認
Haiming Yu and Hao Zhu and Xiangju Lu and Junhui Liu(参考訳) 既存のフェイススワップ手法は、視覚的に妥当な結果を生成するのに十分な容量のために、大規模なネットワークに大きく依存している。 本研究では,顔交換のための軽量なGANであるMobileFSGANを提案する。 軽量エンコーダ-デコーダ構造は、特に画像合成タスク用に設計されており、わずか10.2mbで、モバイルデバイス上でリアルタイムに動作可能である。 このような小さなネットワークのトレーニングの不安定さに対処すべく,顔属性編集技術を用いたfstripletsデータセットを構築した。 FSTripletsはソースターゲットのトレーニング三つ子を提供し、ピクセルレベルのラベルを初めてトレーニングプロセスを監督する。 また,効率のよいバックプロパゲーションのために,マルチスケールの勾配損失を設計した。 実験結果から,本モデルは最先端手法に匹敵する性能を示し,ネットワークパラメータの数を著しく削減した。 コードとデータセットがリリースされた。

Existing face swap methods rely heavily on large-scale networks for adequate capacity to generate visually plausible results, which inhibits its applications on resource-constraint platforms. In this work, we propose MobileFSGAN, a novel lightweight GAN for face swap that can run on mobile devices with much fewer parameters while achieving competitive performance. A lightweight encoder-decoder structure is designed especially for image synthesis tasks, which is only 10.2MB and can run on mobile devices at a real-time speed. To tackle the unstability of training such a small network, we construct the FSTriplets dataset utilizing facial attribute editing techniques. FSTriplets provides source-target-result training triplets, yielding pixel-level labels thus for the first time making the training process supervised. We also designed multi-scale gradient losses for efficient back-propagation, resulting in faster and better convergence. Experimental results show that our model reaches comparable performance towards state-of-the-art methods, while significantly reducing the number of network parameters. Codes and the dataset have been released.
翻訳日:2022-04-24 15:44:35 公開日:2022-04-13
# 心理療法セッションの神経トピックモデリング

Neural Topic Modeling of Psychotherapy Sessions ( http://arxiv.org/abs/2204.10189v1 )

ライセンス: Link先を確認
Baihan Lin, Djallel Bouneffouf, Guillermo Cecchi, Ravi Tejwani(参考訳) 本研究では,音声録音から解析した心理療法セッションの書き起こしから異なる精神疾患の局所的傾向を学ぶために,異なる神経話題モデリング手法を比較する。 また,ターンレベルの解像度で時系列としてトピックの類似性を解析することで,この追加的な解釈性を行動に組み込むために,時間モデルも取り入れた。 このトピックモデリングフレームワークは、セラピストが自分の戦略を最適に決定し、精神療法の有効性を向上させるための解釈可能な洞察を提供することができると考えています。

In this work, we compare different neural topic modeling methods in learning the topical propensities of different psychiatric conditions from the psychotherapy session transcripts parsed from speech recordings. We also incorporate temporal modeling to put this additional interpretability to action by parsing out topic similarities as a time series in a turn-level resolution. We believe this topic modeling framework can offer interpretable insights for the therapist to optimally decide his or her strategy and improve the psychotherapy effectiveness.
翻訳日:2022-04-24 15:29:14 公開日:2022-04-13
# スマートフォン上でのバイタルサインの効率的な深層学習に基づく推定

Efficient Deep Learning-based Estimation of the Vital Signs on Smartphones ( http://arxiv.org/abs/2204.08989v1 )

ライセンス: Link先を確認
Taha Samavati, Mahdi Farvardin(参考訳) 今日では、日常生活におけるスマートフォンの普及と、これらのデバイスの計算能力の向上により、多くの複雑なタスクを配置できるようになった。 バイタルサインの連続的モニタリングの必要性、特に高齢者や特定の疾患の患者に対して、スマートフォンを用いてバイタルサインを推定できるアルゴリズムの開発は、世界中の研究者を惹きつけている。 このようなアルゴリズムは入力PSG信号を処理してバイタルサイン(ハートレートと酸素飽和レベル)を推定する。 これらの方法は、予測ステップの前に入力信号に複数の前処理ステップを適用することが多い。 これにより、これらの手法の計算複雑性が増大し、限られた数のモバイルデバイスでしか実行できない。 さらに、複数の前処理ステップは、最適な結果を得るためにいくつかの手作りのステージの設計も必要である。 本研究では,ディープラーニングによるモバイルベースバイタルサイン推定の新しいエンドツーエンドソリューションを提案する。 提案手法は前処理を必要としない。 完全畳み込み型アーキテクチャを用いることで,提案したモデルのパラメータ数は平均して,完全連結層を予測ヘッドとして使用する通常のアーキテクチャの4分の1である。 その結果、提案モデルでは、過度に適合する確率と計算量が少なくなった。 35人の男性と27人の女性から収集された62のビデオを含むバイタルサイン推定のための公開データセットも提供されている。 実験結果は,最先端の予測精度を示す。

Nowadays, due to the widespread use of smartphones in everyday life and the improvement of computational capabilities of these devices, many complex tasks can now be deployed on them. Concerning the need for continuous monitoring of vital signs, especially for the elderly or those with certain types of diseases, the development of algorithms that can estimate vital signs using smartphones has attracted researchers worldwide. Such algorithms estimate vital signs (heart rate and oxygen saturation level) by processing an input PPG signal. These methods often apply multiple pre-processing steps to the input signal before the prediction step. This can increase the computational complexity of these methods, meaning only a limited number of mobile devices can run them. Furthermore, multiple pre-processing steps also require the design of a couple of hand-crafted stages to obtain an optimal result. This research proposes a novel end-to-end solution to mobile-based vital sign estimation by deep learning. The proposed method does not require any pre-processing. Due to the use of fully convolutional architecture, the parameter count of our proposed model is, on average, a quarter of the ordinary architectures that use fully-connected layers as the prediction heads. As a result, the proposed model has less over-fitting chance and computational complexity. A public dataset for vital sign estimation, including 62 videos collected from 35 men and 27 women, is also provided. The experimental results demonstrate state-of-the-art estimation accuracy.
翻訳日:2022-04-24 15:28:49 公開日:2022-04-13
# ディエンスビデオキャプションのためのセマンティック・アウェア事前学習

Semantic-Aware Pretraining for Dense Video Captioning ( http://arxiv.org/abs/2204.07449v1 )

ライセンス: Link先を確認
Teng Wang, Zhu Liu, Feng Zheng, Zhichao Lu, Ran Cheng, Ping Luo(参考訳) 本報告では, activitynet challenge 2021 におけるイベント密接化タスクに対する我々のアプローチの詳細について述べる。 本稿では,高レベルな意味概念を認識するための学習機能を実現する,高次映像キャプションのためのセマンティクス対応事前学習手法を提案する。 異なるモダリティの様々なビデオ特徴をイベントキャプションモジュールに入力し、正確で意味のある文を生成する。 最終的なアンサンブルモデルでは,テストセットの10.00 METEORスコアが達成される。

This report describes the details of our approach for the event dense-captioning task in ActivityNet Challenge 2021. We present a semantic-aware pretraining method for dense video captioning, which empowers the learned features to recognize high-level semantic concepts. Diverse video features of different modalities are fed into an event captioning module to generate accurate and meaningful sentences. Our final ensemble model achieves a 10.00 METEOR score on the test set.
翻訳日:2022-04-18 11:54:35 公開日:2022-04-13
# (参考訳) 単目的連続性景観評価のための深層学習に基づく特徴自由アプローチの収集

A Collection of Deep Learning-based Feature-Free Approaches for Characterizing Single-Objective Continuous Fitness Landscapes ( http://arxiv.org/abs/2204.05752v2 )

ライセンス: CC BY 4.0
Moritz Vinzent Seiler and Raphael Patrick Prager and Pascal Kerschke and Heike Trautmann(参考訳) 探索的景観解析は単目的連続最適化問題の景観を数値的に特徴づける強力な手法である。 ランドスケープの洞察は、問題を理解するだけでなく、ベンチマークセットの多様性と構成を評価するためにも重要である。 これらの特徴が不確実な有用性にもかかわらず、彼ら自身の病気と欠点に悩まされている。 したがって、本研究では最適化ランドスケープを特徴付ける様々なアプローチのコレクションを提供する。 従来の景観の特徴と同様に、小さな初期サンプルが必要である。 しかし、そのサンプルに基づく機能を計算する代わりに、元のサンプルの代替表現を開発する。 これらは点雲から2D画像まで多岐にわたるため、完全に機能なしである。 我々は,BBOBテストベッド上で考案された手法を実証し,Deep Learningの助けを借りて,マルチモーダリティの度合いやファンネル構造の存在など,高度で専門家による景観特性の予測を行った。 私たちのアプローチの品質は、従来のランドスケープ機能に依存するメソッドと同等です。 そこで我々は,問題理解やアルゴリズム設計などの問題情報と,自動アルゴリズム設定と選択を併用した,すべての研究領域に対するエキサイティングな新しい視点を提供する。

Exploratory Landscape Analysis is a powerful technique for numerically characterizing landscapes of single-objective continuous optimization problems. Landscape insights are crucial both for problem understanding as well as for assessing benchmark set diversity and composition. Despite the irrefutable usefulness of these features, they suffer from their own ailments and downsides. Hence, in this work we provide a collection of different approaches to characterize optimization landscapes. Similar to conventional landscape features, we require a small initial sample. However, instead of computing features based on that sample, we develop alternative representations of the original sample. These range from point clouds to 2D images and, therefore, are entirely feature-free. We demonstrate and validate our devised methods on the BBOB testbed and predict, with the help of Deep Learning, the high-level, expert-based landscape properties such as the degree of multimodality and the existence of funnel structures. The quality of our approaches is on par with methods relying on the traditional landscape features. Thereby, we provide an exciting new perspective on every research area which utilizes problem information such as problem understanding and algorithm design as well as automated algorithm configuration and selection.
翻訳日:2022-04-16 08:52:27 公開日:2022-04-13
# (参考訳) OccAMレーザー:LiDARデータを用いた3次元物体検出のためのOcclusion-based Attribution Maps

OccAM's Laser: Occlusion-based Attribution Maps for 3D Object Detectors on LiDAR Data ( http://arxiv.org/abs/2204.06577v1 )

ライセンス: CC BY 4.0
David Schinagl, Georg Krispel, Horst Possegger, Peter M. Roth, Horst Bischof(参考訳) LiDAR点雲における3次元物体検出は学術や産業において十分に確立されているが、これらのモデルの説明可能性はほとんど探索されていない分野である。 本稿では,これらのモデルの挙動をよりよく理解するために,検出対象に対する帰属マップを生成する手法を提案する。 これらのマップは、特定のオブジェクトを予測する上で、各3Dポイントの重要性を示している。 アーキテクチャに関する事前の知識も、パラメータやアクティベーション、勾配といったモデルの内部へのアクセスも必要ありません。 我々の効率的な摂動に基づくアプローチは、入力点クラウドのランダムに生成されたサブセットを用いてモデルをテストすることにより、各点の重要性を実証的に推定する。 我々のサブサンプリング戦略は、深さ依存点密度などのLiDARデータの特別な特性を考慮に入れている。 本稿では,属性マップの詳細な評価を行い,それらが解釈可能かつ高情報であることを示す。 さらに,最近の3次元オブジェクト検出アーキテクチャの帰属マップを比較し,意思決定プロセスに関する洞察を提供する。

While 3D object detection in LiDAR point clouds is well-established in academia and industry, the explainability of these models is a largely unexplored field. In this paper, we propose a method to generate attribution maps for the detected objects in order to better understand the behavior of such models. These maps indicate the importance of each 3D point in predicting the specific objects. Our method works with black-box models: We do not require any prior knowledge of the architecture nor access to the model's internals, like parameters, activations or gradients. Our efficient perturbation-based approach empirically estimates the importance of each point by testing the model with randomly generated subsets of the input point cloud. Our sub-sampling strategy takes into account the special characteristics of LiDAR data, such as the depth-dependent point density. We show a detailed evaluation of the attribution maps and demonstrate that they are interpretable and highly informative. Furthermore, we compare the attribution maps of recent 3D object detection architectures to provide insights into their decision-making processes.
翻訳日:2022-04-16 07:38:49 公開日:2022-04-13
# (参考訳) 野生における微粒化検出のための照明不変能動カメラ再局在

Illumination-Invariant Active Camera Relocalization for Fine-Grained Change Detection in the Wild ( http://arxiv.org/abs/2204.06580v1 )

ライセンス: CC BY 4.0
Nan Li, Wei Feng, Qian Zhang(参考訳) ACR(Active Camera Relocalization)は、コンピュータビジョンにおける新しい問題であり、細粒度変化検出(FGCD)におけるカメラポーズの誤調整による画像歪みによる誤報を著しく低減する。 ACRが支持できる実りある成果にもかかわらず、相対的なポーズ推定の不安定な結果、特に照明条件が制御不能な屋外のシーン、すなわち2回の観測では高い照度が得られているため、依然として困難な問題である。 本稿では,照明不変のアクティブカメラ再局在化法について検討し,相対的なポーズ推定とスケール推定の両方において改善する。 平面セグメントを中間表現として,特徴マッチングを容易にすることにより,照明変動下でのポーズ推定のロバスト性と信頼性をさらに高める。 さらに,画像ワープ誤差を最小化することにより,各ACRイテレーションの絶対スケールを得る線形システムを構築し,ACRプロセスの時間消費を大幅に削減し,最先端のACR戦略よりも1.6ドル近い速度で処理する。 我々の研究は、実世界の文化的遺産のきめ細かい変化監視タスクの実現可能性を大幅に拡大します。 大規模実験と実世界の応用により,ACRタスクを用いたポーズ推定手法の有効性とロバスト性を検証した。

Active camera relocalization (ACR) is a new problem in computer vision that significantly reduces the false alarm caused by image distortions due to camera pose misalignment in fine-grained change detection (FGCD). Despite the fruitful achievements that ACR can support, it still remains a challenging problem caused by the unstable results of relative pose estimation, especially for outdoor scenes, where the lighting condition is out of control, i.e., the twice observations may have highly varied illuminations. This paper studies an illumination-invariant active camera relocalization method, it improves both in relative pose estimation and scale estimation. We use plane segments as an intermediate representation to facilitate feature matching, thus further boosting pose estimation robustness and reliability under lighting variances. Moreover, we construct a linear system to obtain the absolute scale in each ACR iteration by minimizing the image warping error, thus, significantly reduce the time consume of ACR process, it is nearly $1.6$ times faster than the state-of-the-art ACR strategy. Our work greatly expands the feasibility of real-world fine-grained change monitoring tasks for cultural heritages. Extensive experiments tests and real-world applications verify the effectiveness and robustness of the proposed pose estimation method using for ACR tasks.
翻訳日:2022-04-16 07:21:01 公開日:2022-04-13
# (参考訳) 化学物質,疾患,遺伝子間の生物医学的関係を抽出するための遠隔指導コーパス

A Distant Supervision Corpus for Extracting Biomedical Relationships Between Chemicals, Diseases and Genes ( http://arxiv.org/abs/2204.06584v1 )

ライセンス: CC BY 4.0
Dongxu Zhang, Sunil Mohan, Michaela Torkar, Andrew McCallum(参考訳) マルチクラス多層文書レベル生物医学的関係抽出モデルの訓練と評価のための新しいデータセットであるchemdisgeneを紹介する。 本データセットは, 化学物質, 疾患, 遺伝子に言及した80万件の生物医学研究を要約し, 人体の専門家が18種類の生物医学的関係をラベル付けした部分(評価対象)と, 残りの部分(トレーニング対象)をCTDデータベースから約78倍の精度で遠縁にラベル付けした部分を含む。 類似の既存のデータセットと比較すると、当社のデータセットはかなり大きく、クリーンで、エンティティへの参照をリンクするアノテーションも含まれている。 また、新しいデータセットでトレーニングおよび評価した3つのベースラインディープニューラルネットワーク関係抽出モデルも提供する。

We introduce ChemDisGene, a new dataset for training and evaluating multi-class multi-label document-level biomedical relation extraction models. Our dataset contains 80k biomedical research abstracts labeled with mentions of chemicals, diseases, and genes, portions of which human experts labeled with 18 types of biomedical relationships between these entities (intended for evaluation), and the remainder of which (intended for training) has been distantly labeled via the CTD database with approximately 78\% accuracy. In comparison to similar preexisting datasets, ours is both substantially larger and cleaner; it also includes annotations linking mentions to their entities. We also provide three baseline deep neural network relation extraction models trained and evaluated on our new dataset.
翻訳日:2022-04-16 06:57:48 公開日:2022-04-13
# (参考訳) 選好型リワード学習における因果コンフュージョンの検討

A Study of Causal Confusion in Preference-Based Reward Learning ( http://arxiv.org/abs/2204.06601v1 )

ライセンス: CC BY 4.0
Jeremy Tien, Jerry Zhi-Yang He, Zackory Erickson, Anca D. Dragan, Daniel Brown(参考訳) 選好に基づく報酬学習によるロボットポリシーの学習は、ロボットの振る舞いをカスタマイズする手段として人気が高まっている。 しかし、近年では、嗜好から報酬関数を学ぶことは、相関関係を刺激し、ゲームやハッキング行為を報奨する傾向があるという逸話が増えている。 強化学習と模倣学習の両方において、因果的混乱と報奨ゲーム行動の逸話的、経験的、理論的分析があり、状態から行動へ直接マッピングする手法があるが、選好から報酬関数を学習する文脈における因果的混乱に関する最初の体系的研究を提供する。 本研究を容易にするために,ペアワイズ軌道嗜好のオフラインデータセットから学習する際の因果混乱を観察する3つの選好学習ベンチマークドメインを同定した。 そこで本研究では,この因果的混乱に対する洞察を得るために,学習データの種類,報酬モデル能力,特徴次元など,さまざまな要因の影響を調査する感度分析を行った。 本研究は,2方向の選好から得られる学習報酬が,刺激的な特徴やモデル容量の増加に対して非常に敏感であり,非不快であることを示す。 ビデオ、コード、補足結果はhttps://sites.google.com/view/causal-reward-confusionで入手できる。

Learning robot policies via preference-based reward learning is an increasingly popular method for customizing robot behavior. However, in recent years, there has been a growing body of anecdotal evidence that learning reward functions from preferences is prone to spurious correlations and reward gaming or hacking behaviors. While there is much anecdotal, empirical, and theoretical analysis of causal confusion and reward gaming behaviors both in reinforcement learning and imitation learning approaches that directly map from states to actions, we provide the first systematic study of causal confusion in the context of learning reward functions from preferences. To facilitate this study, we identify a set of three preference learning benchmark domains where we observe causal confusion when learning from offline datasets of pairwise trajectory preferences: a simple reacher domain, an assistive feeding domain, and an itch-scratching domain. To gain insight into this observed causal confusion, we present a sensitivity analysis that explores the effect of different factors--including the type of training data, reward model capacity, and feature dimensionality--on the robustness of rewards learned from preferences. We find evidence that learning rewards from pairwise trajectory preferences is highly sensitive and non-robust to spurious features and increasing model capacity, but not as sensitive to the type of training data. Videos, code, and supplemental results are available at https://sites.google.com/view/causal-reward-confusion.
翻訳日:2022-04-16 06:40:11 公開日:2022-04-13
# (参考訳) EHRKit: 電子健康記録テキストのためのPython自然言語処理ツールキット

EHRKit: A Python Natural Language Processing Toolkit for Electronic Health Record Texts ( http://arxiv.org/abs/2204.06604v1 )

ライセンス: CC0 1.0
Irene Li, Keen You, Xiangru Tang, Yujie Qiao, Lucas Huang, Chia-Chun Hsieh, Benjamin Rosand, Dragomir Radev(参考訳) 電子健康記録(Electronic Health Record, EHR)は、医療システムにおいて重要な部分であり、医療提供、運営、研究に影響を与える。 非構造化テキストは、EHRの構造化情報にもかかわらず多くの注目を集めており、エキサイティングな研究分野となっている。 最近のニューラル自然言語処理(NLP)法の成功は、構造化されていない臨床ノートを処理するための新しい方向性につながった。 本研究では,臨床テキストのためのピソンライブラリ EHRKit を開発した。 MIMIC-III固有の機能とタスク固有の機能である。 第1部では、基本的な検索、情報検索、情報抽出を含むMIMIC-III NOTEEVENTSデータにアクセスするためのインターフェースのリストを紹介する。 第2部では、名前付きエンティティ認識、要約、機械翻訳など、最大12のオフセットnlpタスクのために、多くのサードパーティライブラリを統合する。

The Electronic Health Record (EHR) is an essential part of the modern medical system and impacts healthcare delivery, operations, and research. Unstructured text is attracting much attention despite structured information in the EHRs and has become an exciting research field. The success of the recent neural Natural Language Processing (NLP) method has led to a new direction for processing unstructured clinical notes. In this work, we create a python library for clinical texts, EHRKit. This library contains two main parts: MIMIC-III-specific functions and tasks specific functions. The first part introduces a list of interfaces for accessing MIMIC-III NOTEEVENTS data, including basic search, information retrieval, and information extraction. The second part integrates many third-party libraries for up to 12 off-shelf NLP tasks such as named entity recognition, summarization, machine translation, etc.
翻訳日:2022-04-16 06:22:23 公開日:2022-04-13
# (参考訳) 競合するホメオスタティックドライブを用いた強化学習エージェントのモジュール性

Modularity benefits reinforcement learning agents with competing homeostatic drives ( http://arxiv.org/abs/2204.06608v1 )

ライセンス: CC BY 4.0
Zack Dulberg, Rachit Dubey, Isabel M. Berwian, Jonathan D. Cohen(参考訳) 矛盾するニーズのバランスが問題となるのは知性だ。 標準強化学習アルゴリズムは、異なる目的固有の報酬を1つの数字に組み合わせる必要があるスカラー報酬を最大化する。 あるいは、異なる目的に責任を持つ専門的なモジュールが、それぞれが互いに独立した報酬に基づいて、異なる行動提案を意思決定プロセスに送信するなど、アクション価値のレベルで異なる目的を組み合わせることもできる。 この研究において、我々はこの代替戦略の潜在的な利点を探求する。 生物学的に関係のある多目的問題,変数集合の連続的ホメオスタシスを調査し,モノリシックなディープQネットワークとモジュールネットワークを比較し,各変数に対する専用Qラーナと比較する。 私たちはモジュラーエージェントを見つけました。 a) 最小限の外来的に決定された探索を必要とする。 b) 試料効率を向上し,及び c) ドメイン外の摂動に対してより堅牢である。

The problem of balancing conflicting needs is fundamental to intelligence. Standard reinforcement learning algorithms maximize a scalar reward, which requires combining different objective-specific rewards into a single number. Alternatively, different objectives could also be combined at the level of action value, such that specialist modules responsible for different objectives submit different action suggestions to a decision process, each based on rewards that are independent of one another. In this work, we explore the potential benefits of this alternative strategy. We investigate a biologically relevant multi-objective problem, the continual homeostasis of a set of variables, and compare a monolithic deep Q-network to a modular network with a dedicated Q-learner for each variable. We find that the modular agent: a) requires minimal exogenously determined exploration; b) has improved sample efficiency; and c) is more robust to out-of-domain perturbation.
翻訳日:2022-04-16 06:12:33 公開日:2022-04-13
# (参考訳) 命令集合アーキテクチャ識別のための自然言語処理手法

A Natural Language Processing Approach for Instruction Set Architecture Identification ( http://arxiv.org/abs/2204.06624v1 )

ライセンス: CC BY 4.0
Dinuka Sahabandu, Sukarno Mertoguno, Radha Poovendran(参考訳) ソフトウェアのバイナリ解析は、プログラム脆弱性評価やマルウェア検出など、サイバー法医学の応用において重要なステップである。 これは、ソフトウェアによって実行される命令を解釈することを含み、しばしばソフトウェアのバイナリファイルデータをアセンブリ言語に変換する必要がある。 変換プロセスはバイナリファイルのターゲット命令セットアーキテクチャ(ISA)に関する情報を必要とする。 しかし、isa情報はコンパイルエラー、部分ダウンロード、ファイルメタデータの破壊などによりバイナリファイルに含まれない可能性がある。 機械学習(ML)は、バイナリファイルのオブジェクトコードセクションのバイナリデータを使用して、ターゲットISAを識別するために使用できる有望な方法論である。 本稿では,MLに基づくISA識別手法の精度とスケーラビリティを向上させるために,バイナリコード特徴抽出モデルを提案する。 我々の特徴抽出モデルは、ISAに関するドメイン知識がない場合に利用できる。 具体的には、自然言語処理(NLP)からモデルに適用する。 一 バイナリコードでよく見られる連続したバイトパターンを識別すること 二 バイナリファイルに対する各バイトパターンの意義を推定すること、及び 三 ISAの区別における各バイトパターンの関連性を推定すること。 符号化されたバイナリの文字レベル特徴を導入し、各ISA固有のきめ細かいビットパターンを特定する。 12の異なるISAのバイナリを持つデータセットを使用して、アプローチを評価します。 経験的評価の結果,MLによるISA識別におけるバイトレベルの特徴は,バイトヒストグラムやバイトパターンのシグネチャに基づく最先端の特徴よりも8%高い精度が得られた。 文字レベルの機能は、精度を97%以上維持しながら、最大16倍のサイズを削減できることを観察した。

Binary analysis of software is a critical step in cyber forensics applications such as program vulnerability assessment and malware detection. This involves interpreting instructions executed by software and often necessitates converting the software's binary file data to assembly language. The conversion process requires information about the binary file's target instruction set architecture (ISA). However, ISA information might not be included in binary files due to compilation errors, partial downloads, or adversarial corruption of file metadata. Machine learning (ML) is a promising methodology that can be used to identify the target ISA using binary data in the object code section of binary files. In this paper we propose a binary code feature extraction model to improve the accuracy and scalability of ML-based ISA identification methods. Our feature extraction model can be used in the absence of domain knowledge about the ISAs. Specifically, we adapt models from natural language processing (NLP) to i) identify successive byte patterns commonly observed in binary codes, ii) estimate the significance of each byte pattern to a binary file, and iii) estimate the relevance of each byte pattern in distinguishing between ISAs. We introduce character-level features of encoded binaries to identify fine-grained bit patterns inherent to each ISA. We use a dataset with binaries from 12 different ISAs to evaluate our approach. Empirical evaluations show that using our byte-level features in ML-based ISA identification results in an 8% higher accuracy than the state-of-the-art features based on byte-histograms and byte pattern signatures. We observe that character-level features allow reducing the size of the feature set by up to 16x while maintaining accuracy above 97%.
翻訳日:2022-04-16 06:06:32 公開日:2022-04-13
# (参考訳) ファジィ論理を用いた最適森林分類法の提案

A Novel Approach for Optimum-Path Forest Classification Using Fuzzy Logic ( http://arxiv.org/abs/2204.06635v1 )

ライセンス: CC BY 4.0
Renato W. R. de Souza, Jo\~ao V. C. de Oliveira, Leandro A. Passos, Weiping Ding, Jo\~ao P. Papa, and Victor Hugo C. de Albuquerque(参考訳) 過去数十年間、ファジィ論理は多くの研究領域において重要な役割を担ってきた。 グラフベースのパターン認識は、グラフ理論の背景を使って特徴空間を分割する柔軟性から、非常に重要であることが示されている。 数年前、最適化パスフォレスト(opf)と呼ばれる教師あり、半教師あり、教師なしの学習のための新しいフレームワークが、計算負荷が低いことに加えて、いくつかのアプリケーションにおいて競合の結果と共に提案された。 本稿では,教師なしの方法でサンプルのメンバシップを学習する標準opf分類器の改良版であるファジィ最適パスフォレストを提案する。 このような情報は、最も関連するトレーニングサンプルを特定するために使用され、分類ステップを改善する。 12の公開データセットで実施した実験では,提案手法の堅牢性が強調されている。

In the past decades, fuzzy logic has played an essential role in many research areas. Alongside, graph-based pattern recognition has shown to be of great importance due to its flexibility in partitioning the feature space using the background from graph theory. Some years ago, a new framework for both supervised, semi-supervised, and unsupervised learning named Optimum-Path Forest (OPF) was proposed with competitive results in several applications, besides comprising a low computational burden. In this paper, we propose the Fuzzy Optimum-Path Forest, an improved version of the standard OPF classifier that learns the samples' membership in an unsupervised fashion, which are further incorporated during supervised training. Such information is used to identify the most relevant training samples, thus improving the classification step. Experiments conducted over twelve public datasets highlight the robustness of the proposed approach, which behaves similarly to standard OPF in worst-case scenarios.
翻訳日:2022-04-16 05:46:04 公開日:2022-04-13
# (参考訳) clifford回路は、$\textsf{rp}=\textsf{np}$の場合のみ、適切なpac学習が可能である。

Clifford Circuits can be Properly PAC Learned if and only if $\textsf{RP}=\textsf{NP}$ ( http://arxiv.org/abs/2204.06638v1 )

ライセンス: CC BY 4.0
Daniel Liang(参考訳) 入力状態、測定、確率のデータセットを考えると、量子回路に関連する測定確率を効率的に予測することは可能か? Caro and Datta (2020) の最近の研究は、情報理論的な意味でPAC学習量子回路の問題を研究し、計算効率に関するオープンな疑問を残した。 特に、効率的な学習が可能な回路の候補クラスはクリフォード回路であり、そのような回路によって生成される対応する状態の集合は安定化状態と呼ばれ、効率的にpac学習可能であることが知られている(rocchetto 2018)。 ここでは、CNOT回路の適切な学習が、$\textsf{RP} = \textsf{NP}$でない限り、古典的な学習者にとって難しいことを示す。 古典的なクリフォード回路のアナログと部分集合として、これはクリフォード回路の硬度結果にも自然に導かれる。 さらに、$\textsf{RP} = \textsf{NP}$ であれば、CNOT と Clifford 回路に対して効率的な適切な学習アルゴリズムが存在することを示す。 同様の議論により、そのような回路に対する効率的な固有量子学習器が存在するのは、$\textsf{NP} \subseteq \textsf{RQP}$である。

Given a dataset of input states, measurements, and probabilities, is it possible to efficiently predict the measurement probabilities associated with a quantum circuit? Recent work of Caro and Datta (2020) studied the problem of PAC learning quantum circuits in an information theoretic sense, leaving open questions of computational efficiency. In particular, one candidate class of circuits for which an efficient learner might have been possible was that of Clifford circuits, since the corresponding set of states generated by such circuits, called stabilizer states, are known to be efficiently PAC learnable (Rocchetto 2018). Here we provide a negative result, showing that proper learning of CNOT circuits is hard for classical learners unless $\textsf{RP} = \textsf{NP}$. As the classical analogue and subset of Clifford circuits, this naturally leads to a hardness result for Clifford circuits as well. Additionally, we show that if $\textsf{RP} = \textsf{NP}$ then there would exist efficient proper learning algorithms for CNOT and Clifford circuits. By similar arguments, we also find that an efficient proper quantum learner for such circuits exists if and only if $\textsf{NP} \subseteq \textsf{RQP}$.
翻訳日:2022-04-16 05:26:41 公開日:2022-04-13
# (参考訳) ニューラルシンボリック編集文法によるトランスフォーマーによるバグの修正

Fix Bugs with Transformer through a Neural-Symbolic Edit Grammar ( http://arxiv.org/abs/2204.06643v1 )

ライセンス: CC BY 4.0
Yaojie Hu, Xingjian Shi, Qiang Zhou, Lee Pike(参考訳) 本稿では,トランスフォーマーを用いた新しいコード修復手法NSEditを紹介する。 バグを含むソースコードのみを考えると、NSEditはバグを修正することができる編集シーケンスを予測する。 編集文法は正規言語として定式化され、Transformerはそれをニューラルシンボリックスクリプティングインターフェースとして使用して編集プログラムを生成する。 変換器を修正し、編集場所を選択するためのポインタネットワークを追加します。 ビームサーチによって生成された編集シーケンスを再ランクするために、再ランカのアンサンブルを訓練する。 オーバーフィッティングを減らすために、検証セットのリランカーを微調整します。 NSEditは様々なコード修復データセットに基づいて評価され、CodeXGLUEベンチマークのTufanoの小さなデータセットで新しい最先端の精度(24.04\%$)を達成した。 NSEditは、パッケージからパッケージまでプログラムが異なる場合、バグの多いプログラムが具体的であれば、堅牢に動作する。 提案手法の詳細な分析を行い,各コンポーネントの有効性を実証する。

We introduce NSEdit (neural-symbolic edit), a novel Transformer-based code repair method. Given only the source code that contains bugs, NSEdit predicts an editing sequence that can fix the bugs. The edit grammar is formulated as a regular language, and the Transformer uses it as a neural-symbolic scripting interface to generate editing programs. We modify the Transformer and add a pointer network to select the edit locations. An ensemble of rerankers are trained to re-rank the editing sequences generated by beam search. We fine-tune the rerankers on the validation set to reduce over-fitting. NSEdit is evaluated on various code repair datasets and achieved a new state-of-the-art accuracy ($24.04\%$) on the Tufano small dataset of the CodeXGLUE benchmark. NSEdit performs robustly when programs vary from packages to packages and when buggy programs are concrete. We conduct detailed analysis on our methods and demonstrate the effectiveness of each component.
翻訳日:2022-04-16 05:03:01 公開日:2022-04-13
# (参考訳) metro: モデル生成信号を用いた大規模自動符号化言語モデルの効率的なデノーミングプリトレーニング

METRO: Efficient Denoising Pretraining of Large Scale Autoencoding Language Models with Model Generated Signals ( http://arxiv.org/abs/2204.06644v1 )

ライセンス: CC BY 4.0
Payal Bajaj, Chenyan Xiong, Guolin Ke, Xiaodong Liu, Di He, Saurabh Tiwary, Tie-Yan Liu, Paul Bennett, Xia Song, Jianfeng Gao(参考訳) 本稿では,補助モデルにより生成された学習信号を用いて,大規模自動符号化言語モデルの事前学習を行う。 ELECTRAを起源とするこのトレーニング戦略は、数億のパラメータのスケールで事前トレーニングモデルに対するサンプル効率を実証している。 そこで本研究では,本研究は,モデルの有効性を損なうことなく,事前学習された言語モデルの高速化,安定化,強化のために最近開発された最善のモデリング技術を取り入れた,"model generated denoising training objective"(metro)というレシピを提案する。 結果、最大54億のパラメータからなるMETRO-LMは、GLUE、SuperGLUE、SQuADベンチマークで新しい最先端を実現する。 さらに重要なことに、metro-lmは、モデルサイズが大幅に小さく、事前訓練コストが低く、以前の大型モデルよりも優れた性能を持つ。

We present an efficient method of pretraining large-scale autoencoding language models using training signals generated by an auxiliary model. Originated in ELECTRA, this training strategy has demonstrated sample-efficiency to pretrain models at the scale of hundreds of millions of parameters. In this work, we conduct a comprehensive empirical study, and propose a recipe, namely "Model generated dEnoising TRaining Objective" (METRO), which incorporates some of the best modeling techniques developed recently to speed up, stabilize, and enhance pretrained language models without compromising model effectiveness. The resultant models, METRO-LM, consisting of up to 5.4 billion parameters, achieve new state-of-the-art on the GLUE, SuperGLUE, and SQuAD benchmarks. More importantly, METRO-LM are efficient in that they often outperform previous large models with significantly smaller model sizes and lower pretraining cost.
翻訳日:2022-04-16 04:43:44 公開日:2022-04-13
# (参考訳) マンモグラフィ検診における偽陽性の低減のための深層学習アルゴリズム

A deep learning algorithm for reducing false positives in screening mammography ( http://arxiv.org/abs/2204.06671v1 )

ライセンス: CC BY 4.0
Stefano Pedemonte, Trevor Tsue, Brent Mombourquette, Yen Nhi Truong Vu, Thomas Matthews, Rodrigo Morales Hoil, Meet Shah, Nikita Ghare, Naomi Zingman-Daniels, Susan Holley, Catherine M. Appleton, Jason Su, and Richard L. Wahl(参考訳) マンモグラフィーのスクリーニングは早期発見と治療を可能にし、乳癌の結果を改善する。 しかし、スクリーニング試験による追加撮影に対する偽陽性のコールバックは、不要な手順、患者の不安、財政的負担を引き起こす。 この研究は、乳がんに不審でないマンモグラムを特定することによって、偽陽性を減らすAIアルゴリズムを示す。 123,248個の2dデジタルマンモグラム(6,161個のがん)を用いて癌の有無を判定するアルゴリズムを訓練し,米国15箇所と英国3箇所から14,831例の検診(1,026例)を振り返り調査した。 米国の最大部位(マンモグラム11,592例,癌101例)におけるアルゴリズムの振り返り評価 a) がん検出率は影響を受けていない(p=0.02、1000回の試験で0.25がん) b) 診断試験のコールバックを標準臨床読解値と比較して31.1%削減する。 c) 良性針生検の7.4%減少、及び d) 放射線技師の解釈を必要とするスクリーニング試験を41.6%削減した。 この研究は、偽陽性、不要な処置、患者の不安、費用を減らし、患者や医療システムに役立つ半自律乳がんスクリーニングシステムの基礎を築いた。

Screening mammography improves breast cancer outcomes by enabling early detection and treatment. However, false positive callbacks for additional imaging from screening exams cause unnecessary procedures, patient anxiety, and financial burden. This work demonstrates an AI algorithm that reduces false positives by identifying mammograms not suspicious for breast cancer. We trained the algorithm to determine the absence of cancer using 123,248 2D digital mammograms (6,161 cancers) and performed a retrospective study on 14,831 screening exams (1,026 cancers) from 15 US and 3 UK sites. Retrospective evaluation of the algorithm on the largest of the US sites (11,592 mammograms, 101 cancers) a) left the cancer detection rate unaffected (p=0.02, non-inferiority margin 0.25 cancers per 1000 exams), b) reduced callbacks for diagnostic exams by 31.1% compared to standard clinical readings, c) reduced benign needle biopsies by 7.4%, and d) reduced screening exams requiring radiologist interpretation by 41.6% in the simulated clinical workflow. This work lays the foundation for semi-autonomous breast cancer screening systems that could benefit patients and healthcare systems by reducing false positives, unnecessary procedures, patient anxiety, and expenses.
翻訳日:2022-04-16 04:14:13 公開日:2022-04-13
# (参考訳) GAP: 知識グラフからテキスト生成のためのグラフ対応言語モデルフレームワーク

GAP: A Graph-aware Language Model Framework for Knowledge Graph-to-Text Generation ( http://arxiv.org/abs/2204.06674v1 )

ライセンス: CC BY 4.0
Anthony Colas, Mehrdad Alvandipour, Daisy Zhe Wang(参考訳) KG-to-text生成の最近の改良は、微調整タスクの性能向上を図った補助的な事前訓練タスクによるものである。 これらのタスクは広範な計算資源を必要とするが、限界的な改善を示唆しているだけである。 ここでは、既存の事前学習言語モデルにグラフ認識要素を融合させることで、最先端のモデルより優れ、追加の事前訓練タスクによって課されるギャップを埋めることができることを示す。 本研究では, 周辺情報を捕捉するマスク構造と, 接続型に依存したグラフ注意重みにバイアスを与える新しい型エンコーダを提案する。 2つのKG-to-textベンチマークデータセットの実験では、これらのモデルの品質が向上し、パラメータが減り、追加の事前訓練タスクが不要であることが示されている。 問題をフレームワークとして定式化することにより、提案した様々なコンポーネントを交換し、グラフにあるトポロジおよび型情報に基づいて、KG-to-text生成モデルを解釈し始めることができる。

Recent improvements in KG-to-text generation are due to additional auxiliary pre-trained tasks designed to give the fine-tune task a boost in performance. These tasks require extensive computational resources while only suggesting marginal improvements. Here, we demonstrate that by fusing graph-aware elements into existing pre-trained language models, we are able to outperform state-of-the-art models and close the gap imposed by additional pre-train tasks. We do so by proposing a mask structure to capture neighborhood information and a novel type encoder that adds a bias to the graph-attention weights depending on the connection type. Experiments on two KG-to-text benchmark datasets show these models to be superior in quality while involving fewer parameters and no additional pre-trained tasks. By formulating the problem as a framework, we can interchange the various proposed components and begin interpreting KG-to-text generative models based on the topological and type information found in a graph.
翻訳日:2022-04-16 04:00:10 公開日:2022-04-13
# (参考訳) スケッチの幾何学的理解

Geometric Understanding of Sketches ( http://arxiv.org/abs/2204.06675v1 )

ライセンス: CC BY 4.0
Raghav Brahmadesam Venkataramaiyer(参考訳) スケッチは初心者や専門家によるユビキタスな表現ツールとして使われる。 本論文では,システムによるスケッチの幾何学的理解を支援する2つの手法と,ユーザが下流のタスクを達成できるようにする2つの方法について考察する。 最初の作品では、2d線描画をグラフ構造として解釈し、ロボットによる物理的再構築によってその効果を示す。 問題を解決するために、2ステップのパイプラインを設定します。 従来,グラフの頂点をピクセル単位の精度で推定していた。 本研究では,ピクセルレベル推定のための教師付き設定下で学習した深層畳み込みニューラルネットワークと,クラスタリングのための連結成分分析を組み合わせた。 その後,フィードバックループに基づくエッジ推定手法を提案する。 このグラフ解釈を補完するために、さらにロボットのレジブルなasciiフォーマットへのデータ交換を行い、ロボットに線画の複製を教える。 第2の研究では、3dジオメトリに関する情報を明示的にアクセスすることなく、スケッチベースのシステムの3dジオメトリの理解をテストする。 目的は、3Dオブジェクトの輪郭のようなスケッチを照明とテクスチャ情報で仕上げることである。 本研究では,深い畳み込みニューラルネットワークとしてモデル化された条件分布を,対向的な条件下で学習するためのデータ駆動型アプローチを提案する。 この手法自体は、標準グラフィックパイプラインに続く構成的固体形状を用いた合成データ生成によってさらに支持される。 提案手法の有効性を検証するため,一般的なスケッチベースのワークフローにプラグインされたユーザインタフェースを設計し,簡単なタスクベースのエクササイズをアーティストのために設定する。 その後、フォーム探索がアプリケーションに追加の効用であることも判明した。

Sketching is used as a ubiquitous tool of expression by novices and experts alike. In this thesis I explore two methods that help a system provide a geometric machine-understanding of sketches, and in-turn help a user accomplish a downstream task. The first work deals with interpretation of a 2D-line drawing as a graph structure, and also illustrates its effectiveness through its physical reconstruction by a robot. We setup a two-step pipeline to solve the problem. Formerly, we estimate the vertices of the graph with sub-pixel level accuracy. We achieve this using a combination of deep convolutional neural networks learned under a supervised setting for pixel-level estimation followed by the connected component analysis for clustering. Later we follow it up with a feedback-loop-based edge estimation method. To complement the graph-interpretation, we further perform data-interchange to a robot legible ASCII format, and thus teach a robot to replicate a line drawing. In the second work, we test the 3D-geometric understanding of a sketch-based system without explicit access to the information about 3D-geometry. The objective is to complete a contour-like sketch of a 3D-object, with illumination and texture information. We propose a data-driven approach to learn a conditional distribution modelled as deep convolutional neural networks to be trained under an adversarial setting; and we validate it against a human-in-the-loop. The method itself is further supported by synthetic data generation using constructive solid geometry following a standard graphics pipeline. In order to validate the efficacy of our method, we design a user-interface plugged into a popular sketch-based workflow, and setup a simple task-based exercise, for an artist. Thereafter, we also discover that form-exploration is an additional utility of our application.
翻訳日:2022-04-16 03:40:22 公開日:2022-04-13
# (参考訳) DRAGON : 最新のワークロードのためのハードウェアシミュレーションと最適化ツールスイート

DRAGON : A suite of Hardware Simulation and Optimization tools for Modern Workloads ( http://arxiv.org/abs/2204.06676v1 )

ライセンス: CC BY 4.0
Khushal Sethi(参考訳) ハードウェア設計者がハードウェア設計をシミュレートし、ハードウェア設計を最適化して、特定のワークロードを効率的に実行するハードウェアシミュレーションおよび最適化ツールのスイートであるdragonを紹介する。 DRAGONツールチェーンは、ハードウェアモデルジェネレータ(DGen)、ハードウェアシミュレータ(DSim)、ハードウェア最適化器(DOpt)というツールを提供する。 本研究では,シミュレーションに基づくアルゴリズム実行手法(データフローグラフとして表現)とアーキテクチャ/技術(記述言語で表現される)を用いて,ハードウェアモデルを作成し,そのアルゴリズムをハードウェア上にマップする。 我々は、以前公開された作品(6, 7)よりも5倍優れたアーキテクチャと回路を生成し、100倍と1000倍のコンピュータシステムを改善するための技術ターゲットを提供することができます。 結論として、テクノロジとアーキテクチャのエンドツーエンドの探索と最適化のための、新たなオープンソースで高速で説明可能なツールチェーンが作成されている。

We introduce DRAGON, a suite of hardware simulation and optimization tools that enable hardware designers to simulate hardware designs, and to optimize hardware designs to efficiently execute certain workloads. The DRAGON toolchain provides the following tools: Hardware Model Generator (DGen), Hardware Simulator (DSim) and Hardware Optimizer (DOpt). Our work uses a simulation based method of running algorithms (represented as data-flow graphs) and architectures/technology (represented in a description language) to create the hardware model and then maps the algorithms on the hardware. We are able to generate architectures and circuits that are 5x better than previously published works [6, 7] and provide technology targets for improving to 100x and 1000x better computing systems. In conclusion, a new open-source, fast and explainable toolchain for end-to-end exploration and optimization of technologies and architectures is created.
翻訳日:2022-04-16 03:28:08 公開日:2022-04-13
# リッジ回帰のためのスケッチアルゴリズムと下限

Sketching Algorithms and Lower Bounds for Ridge Regression ( http://arxiv.org/abs/2204.06653v1 )

ライセンス: Link先を確認
Praneeth Kacham and David P. Woodruff(参考訳) リッジ回帰問題に対して 1+\varepsilon$ の近似解を計算するスケッチベースの反復アルゴリズムを与える。 $\min_x \|{ax-b}\|_2^2 +\lambda\|{x}\|_2^2$ ここで$a \in \mathbb{r}^{n \times d}$ は $d \ge n$ である。 我々のアルゴリズムは、一定回数の反復(入力に一定回数のパスを要求する)に対して、Chowdhuryらの初期の作業を改善するため、スケッチ行列は、$\epsilon$に依存するより弱い近似行列乗算(AMM)保証と、一定の部分空間の埋め込み保証を必要とする。 以前の作業では、スケッチマトリックスが$\epsilon$に依存する部分空間埋め込み保証を持つ必要がある。 例えば、$$$$の反復で1+\varepsilon$の近似解を生成するには、入力に$$$のパスを必要とするが、このアルゴリズムでは、$m= o(n\sigma^2/\lambda\varepsilon)$ とスパルシティパラメータ $s = o(\log(n))$ を持つ osnap の埋め込みを必要とするが、chowdhury の以前のアルゴリズムでは、osnap の行数が同じ場合、$s = o(\sqrt{\sigma^2/\lambda\varepsilon} \cdot \log(n)$ である。 また,このアルゴリズムは,カーネルリッジ回帰の高速化にも利用できることを示した。 最後に,本アルゴリズムに必要なスケッチサイズは,ammの斜めスケッチ行列の下限を証明し,リッジ回帰アルゴリズムの自然な枠組みに本質的に最適であることを示す。 ammのスケッチサイズの下限は独立した興味を持つかもしれない。

We give a sketching-based iterative algorithm that computes $1+\varepsilon$ approximate solutions for the ridge regression problem $\min_x \|{Ax-b}\|_2^2 +\lambda\|{x}\|_2^2$ where $A \in \mathbb{R}^{n \times d}$ with $d \ge n$. Our algorithm, for a constant number of iterations (requiring a constant number of passes over the input), improves upon earlier work of Chowdhury et al., by requiring that the sketching matrix only has a weaker Approximate Matrix Multiplication (AMM) guarantee that depends on $\epsilon$, along with a constant subspace embedding guarantee. The earlier work instead requires that the sketching matrix have a subspace embedding guarantee that depends on $\epsilon$. For example, to produce a $1+\varepsilon$ approximate solution in $1$ iteration, which requires $2$ passes over the input, our algorithm requires the OSNAP embedding to have $m= O(n\sigma^2/\lambda\varepsilon)$ rows with a sparsity parameter $s = O(\log(n))$, whereas the earlier algorithm of Chowdhury et al., with the same number of rows of OSNAP requires a sparsity $s = O(\sqrt{\sigma^2/\lambda\varepsilon} \cdot \log(n))$, where $\sigma = \|{A}\|_2$ is the spectral norm of the matrix $A$. We also show that this algorithm can be used to give faster algorithms for kernel ridge regression. Finally, we show that the sketch size required for our algorithm is essentially optimal for a natural framework of algorithms for ridge regression by proving lower bounds on oblivious sketching matrices for AMM. The sketch size lower bounds for AMM may be of independent interest.
翻訳日:2022-04-15 14:34:49 公開日:2022-04-13
# LDPC符号:連続変動ベイズ推定を用いた非定常チャネルノイズの追跡

LDPC codes: tracking non-stationary channel noise using sequential variational Bayesian estimates ( http://arxiv.org/abs/2204.07037v1 )

ライセンス: Link先を確認
J du Toit, J du Preez, R Wolhuter(参考訳) 本稿では,確率的グラフィカルモデルを用いたLDPC符号の非定常信号-雑音比の逐次学習手法を提案する。 我々は,LDPCコードをクラスタグラフとして表現し,LTRIPアルゴリズムと呼ばれる汎用クラスタグラフ構築アルゴリズムを用いて表現する。 チャネルノイズ推定器はグローバルガンマクラスタであり,非定常ノイズ変動のベイズ追跡を可能にするために拡張されている。 提案モデルを実世界の5gドライブテストデータで評価する。 その結果,本モデルでは,非定常チャネルノイズの追跡が可能であり,実際の平均チャネルノイズの知識を固定したLDPCコードよりも優れていることがわかった。

We present a sequential Bayesian learning method for tracking non-stationary signal-to-noise ratios in LDPC codes using probabilistic graphical models. We represent the LDPC code as a cluster graph using a general purpose cluster graph construction algorithm called the layered trees running intersection property (LTRIP) algorithm. The channel noise estimator is a global Gamma cluster, which we extend to allow for Bayesian tracking of non-stationary noise variation. We evaluate our proposed model on real-world 5G drive test data. Our results show that our model is capable of tracking non-stationary channel noise, which outperforms an LDPC code with a fixed knowledge of the actual average channel noise.
翻訳日:2022-04-15 14:29:33 公開日:2022-04-13
# 協力型自律型マルチロボットミッション:ゲームにインスパイアされた監視制御インターフェース

Copiloting Autonomous Multi-Robot Missions: A Game-inspired Supervisory Control Interface ( http://arxiv.org/abs/2204.06647v1 )

ライセンス: Link先を確認
Marcel Kaufmann, Robert Trybula, Ryan Stonebraker, Michael Milano, Gustavo J. Correa, Tiago S. Vaquero, Kyohei Otsu, Ali-akbar Agha-mohammadi, Giovanni Beltrame(参考訳) 新たなテクノロジと能力の現実的な展開は、大変です。 例えば、DARPA Subterranean (SubT) Challengeは、ロボットプラットフォームと自律能力の3つの1年の開発推進を目標にしている。 マルチエージェントシステムは伝統的に、制御されたテスト(倉庫など)を可能にする制御および構造化された環境にデプロイされるが、SubTチャレンジは、故障時にロボットが喪失するリスクを負う様々な種類の未知の地下環境をターゲットにしている。 本研究では,ゲームにインスパイアされたインタフェース,自律的なミッションアシスタントを導入し,異種マルチエージェントシステムを用いて課題の多い環境でテストおよびデプロイを行う。 この作業により、マルチエージェントシステムのヒューマン・スーパーバイザリー制御が改善され、アプリケーション切り替え、タスク計画、実行、検証のオーバーヘッドが軽減されると同時に、このヒューマン・自律型チームプラットフォームで利用可能な探索時間も向上する。

Real-world deployment of new technology and capabilities can be daunting. The recent DARPA Subterranean (SubT) Challenge, for instance, aimed at the advancement of robotic platforms and autonomy capabilities in three one-year development pushes. While multi-agent systems are traditionally deployed in controlled and structured environments that allow for controlled testing (e.g., warehouses), the SubT challenge targeted various types of unknown underground environments that imposed the risk of robot loss in the case of failure. In this work, we introduce a video game-inspired interface, an autonomous mission assistant, and test and deploy these using a heterogeneous multi-agent system in challenging environments. This work leads to improved human-supervisory control for a multi-agent system reducing overhead from application switching, task planning, execution, and verification while increasing available exploration time with this human-autonomy teaming platform.
翻訳日:2022-04-15 13:55:53 公開日:2022-04-13
# 合成データに基づくソルダ継手の寿命予測のための異なる機械学習アルゴリズムの性能評価

Performance Assessment of different Machine Learning Algorithm for Life-Time Prediction of Solder Joints based on Synthetic Data ( http://arxiv.org/abs/2204.06627v1 )

ライセンス: Link先を確認
Stefan Muench, Darshankumar Bhat, Leonhard Heindel, Peter Hantschke, Mike Roellig, Markus Kaestner(参考訳) 本稿では,温度-時間曲線を用いた電子部品の半田接触による損傷進行予測手法を提案する。 この目的のために、2つの機械学習アルゴリズムであるMultilayer PerceptronとLong Short-Term Memory Networkをトレーニングし、その予測精度と必要なトレーニングデータ量と比較する。 トレーニングは、自動車アプリケーションに現実的な、通常分散された合成データを使用して実行される。 表面実装技術構成における単純なバイポーラチップ抵抗の有限要素モデルを用いて合成データを数値計算する。 その結果、両方の機械学習アルゴリズムは、蓄積したクリープひずみの予測に適切な精度を示す。 トレーニングデータの長さは350時間(トレーニングデータの12.5%)で、両モデルとも、多層パーセプトロンでは$r^2$、長期短期記憶ネットワークでは$r^2$、 0.87と常に適合する性能を示している。 蓄積したクリープひずみの予測誤差は350時間トレーニングデータで10%未満であり、さらなるデータを使用すると5%未満に低下する。 したがって,両手法は電子デバイス上での寿命予測に有効である。

This paper proposes a computationally efficient methodology to predict the damage progression in solder contacts of electronic components using temperature-time curves. For this purpose, two machine learning algorithms, a Multilayer Perceptron and a Long Short-Term Memory network, are trained and compared with respect to their prediction accuracy and the required amount of training data. The training is performed using synthetic, normally distributed data that is realistic for automotive applications. A finite element model of a simple bipolar chip resistor in surface mount technology configuration is used to numerically compute the synthetic data. As a result, both machine learning algorithms show a relevant accuracy for the prediction of accumulated creep strains. With a training data length of 350 hours (12.5% of the available training data), both models show a constantly good fitting performance of $R^2$ of 0.72 for the Multilayer Perceptron and $R^2$ of 0.87 for the Long Short-Term Memory network. The prediction errors of the accumulated creep strains are less than 10% with an amount of 350 hours training data and decreases to less than 5 % when using further data. Therefore, both approaches are promising for the lifetime prediction directly on the electronic device.
翻訳日:2022-04-15 13:36:24 公開日:2022-04-13
# 分散機械学習のためのジョイントコアセットの構築と量子化

Joint Coreset Construction and Quantization for Distributed Machine Learning ( http://arxiv.org/abs/2204.06652v1 )

ライセンス: Link先を確認
Hanlin Lu, Changchang Liu, Shiqiang Wang, Ting He, Vijay Narayanan, Kevin S. Chan, Stephen Pasteris(参考訳) coresetは、大きなデータセットの小さな重み付けされた要約であり、通信と計算コストを大幅に削減しながら、機械学習(ml)タスクに証明可能なエラー境界を提供することを目指している。 MLエラー境界とコストのトレードオフを改善するために,コアセット構築プロセスに量子化技術を統合するための最初のフレームワークを提案する。 具体的には,コアセット構成と量子化の組み合わせによるml誤差境界を理論的に解析する。 そこで我々は,固定予算の通信コストでML誤差を最小化する最適化問題を定式化した。 大規模データセットのスケーラビリティを向上させるため,目的関数の2つのプロキシを同定し,効率的なアルゴリズムを開発する。 複数のノード上のデータに対して、MLエラーを最小化しながら通信予算をノードに割り当てる新しいアルゴリズムを設計する。 複数の実世界のデータセットに対する広範な実験を通じて,提案アルゴリズムの有効性と効率性を示す。 特に、我々のアルゴリズムは、ほとんどの場合、10%未満のML性能低下で90%以上のデータ削減を達成した。

Coresets are small, weighted summaries of larger datasets, aiming at providing provable error bounds for machine learning (ML) tasks while significantly reducing the communication and computation costs. To achieve a better trade-off between ML error bounds and costs, we propose the first framework to incorporate quantization techniques into the process of coreset construction. Specifically, we theoretically analyze the ML error bounds caused by a combination of coreset construction and quantization. Based on that, we formulate an optimization problem to minimize the ML error under a fixed budget of communication cost. To improve the scalability for large datasets, we identify two proxies of the original objective function, for which efficient algorithms are developed. For the case of data on multiple nodes, we further design a novel algorithm to allocate the communication budget to the nodes while minimizing the overall ML error. Through extensive experiments on multiple real-world datasets, we demonstrate the effectiveness and efficiency of our proposed algorithms for a variety of ML tasks. In particular, our algorithms have achieved more than 90% data reduction with less than 10% degradation in ML performance in most cases.
翻訳日:2022-04-15 13:36:03 公開日:2022-04-13
# 回帰のための深層関係学習とその脳年齢推定への応用

Deep Relation Learning for Regression and Its Application to Brain Age Estimation ( http://arxiv.org/abs/2204.06598v1 )

ライセンス: Link先を確認
Sheng He, Yanfang Feng, P. Ellen Grant, Yangming Ou(参考訳) 時間回帰のためのほとんどのディープラーニングモデルは、単一の入力画像に基づいて推定を直接出力し、異なる画像間の関係を無視する。 本稿では,一対の入力画像間で異なる関係を学習することを目的として,回帰のための深層関係学習を提案する。 4つの非線形関係:「累積関係」、「相対関係」、「最大関係」、「最小関係」である。 これら4つの関係は、特徴抽出と関係回帰という2つの部分を持つ1つのディープニューラルネットワークから同時に学習される。 我々は、効率的な畳み込みニューラルネットワークを用いて、入力画像から深い特徴を抽出し、関係学習にトランスフォーマーを適用する。 提案手法は,脳年齢推定のための5倍のクロスバリデーションを用いて,0~97歳以上の6,049名の統合データセットを用いて評価した。 実験の結果,提案手法は平均絶対誤差(MAE)を2.38年で達成し,T検定において統計的に有意(p$<0.05)を持つ8種類の最先端アルゴリズムのMAEよりも低い値を示した。

Most deep learning models for temporal regression directly output the estimation based on single input images, ignoring the relationships between different images. In this paper, we propose deep relation learning for regression, aiming to learn different relations between a pair of input images. Four non-linear relations are considered: "cumulative relation", "relative relation", "maximal relation" and "minimal relation". These four relations are learned simultaneously from one deep neural network which has two parts: feature extraction and relation regression. We use an efficient convolutional neural network to extract deep features from the pair of input images and apply a Transformer for relation learning. The proposed method is evaluated on a merged dataset with 6,049 subjects with ages of 0-97 years using 5-fold cross-validation for the task of brain age estimation. The experimental results have shown that the proposed method achieved a mean absolute error (MAE) of 2.38 years, which is lower than the MAEs of 8 other state-of-the-art algorithms with statistical significance (p$<$0.05) in paired T-test (two-side).
翻訳日:2022-04-15 13:18:11 公開日:2022-04-13
# 顔の計量的再構築に向けて

Towards Metrical Reconstruction of Human Faces ( http://arxiv.org/abs/2204.06607v1 )

ライセンス: Link先を確認
Wojciech Zielonka and Timo Bolkart and Justus Thies(参考訳) 顔の再構築と追跡は、AR/VR、人間と機械の相互作用、および医療応用における多くの応用の構成要素である。 これらの応用のほとんどは、特に再構成された対象がメートル法的な文脈(すなわち既知の大きさの参照対象が存在する場合)に置かれたときに、メートル法的に正しい形状の予測に依存する。 被写体の距離や寸法を測定するアプリケーション(例えば、メガネフレームに事実上適合する)にはメートル法的な再構成も必要である。 1枚の画像から顔の復元を行う最先端の手法は、大規模な2次元画像データセットを自己監督的にトレーニングする。 しかし、視点投影の性質のため、実際の顔次元を再構築することができず、平均的な人間の顔の予測でさえ、計量的な意味でこれらの手法よりも優れる。 顔の実際の形状を学習するために,教師付きトレーニング手法を提案する。 このタスクには大規模な3Dデータセットが存在しないため、我々は注釈付きで、小・中規模のデータベースを統一した。 結果として得られた統一データセットは、2k以上のidを持つ中規模データセットであり、トレーニングは純粋に過剰フィッティングにつながる。 この目的のために,大規模2d画像データセットに事前学習した顔認識ネットワークを活用し,表情,照明,カメラ変更に頑健な顔特徴を提供する。 これらの特徴を用いて、顔形状推定器を教師付きで訓練し、顔認識ネットワークの堅牢性と一般化を継承する。 MICA (MetrIC fAce) と呼ばれる本手法は, 現行の非メトリックベンチマーク, および基準ベンチマーク(それぞれ NoW の平均誤差を15%, 24%) において, 最先端の復元手法よりも高い性能を示した。

Face reconstruction and tracking is a building block of numerous applications in AR/VR, human-machine interaction, as well as medical applications. Most of these applications rely on a metrically correct prediction of the shape, especially, when the reconstructed subject is put into a metrical context (i.e., when there is a reference object of known size). A metrical reconstruction is also needed for any application that measures distances and dimensions of the subject (e.g., to virtually fit a glasses frame). State-of-the-art methods for face reconstruction from a single image are trained on large 2D image datasets in a self-supervised fashion. However, due to the nature of a perspective projection they are not able to reconstruct the actual face dimensions, and even predicting the average human face outperforms some of these methods in a metrical sense. To learn the actual shape of a face, we argue for a supervised training scheme. Since there exists no large-scale 3D dataset for this task, we annotated and unified small- and medium-scale databases. The resulting unified dataset is still a medium-scale dataset with more than 2k identities and training purely on it would lead to overfitting. To this end, we take advantage of a face recognition network pretrained on a large-scale 2D image dataset, which provides distinct features for different faces and is robust to expression, illumination, and camera changes. Using these features, we train our face shape estimator in a supervised fashion, inheriting the robustness and generalization of the face recognition network. Our method, which we call MICA (MetrIC fAce), outperforms the state-of-the-art reconstruction methods by a large margin, both on current non-metric benchmarks as well as on our metric benchmarks (15% and 24% lower average error on NoW, respectively).
翻訳日:2022-04-15 13:17:53 公開日:2022-04-13
# ビデオオブジェクト分割のための適応メモリ管理

Adaptive Memory Management for Video Object Segmentation ( http://arxiv.org/abs/2204.06626v1 )

ライセンス: Link先を確認
Ali Pourganjalikhan and Charalambos Poullis(参考訳) マッチングベースのネットワークは、将来の推論のために各kフレームを外部メモリバンクに格納することで、ビデオオブジェクトセグメンテーション(vos)タスクの最先端のパフォーマンスを達成している。 中間フレームの予測を格納することで、ネットワークは現在のフレーム内のオブジェクトをセグメンテーションするためのより豊富な手がかりを提供する。 しかし、ビデオの長さによってメモリバンクのサイズは徐々に増加し、推論速度が遅くなり、任意の長さの動画を扱うのは現実的ではない。 本稿では、半教師付きビデオオブジェクトセグメンテーション(VOS)のためのマッチングベースネットワークのための適応型メモリバンク戦略を提案する。 機能は、前のフレームのオブジェクトのセグメンテーションにおける重要性に基づいてインデックスされる。 インデックスに基づいて、新しい機能に対応するために重要でない機能を捨てます。 DAVIS 2016, DAVIS 2017 および Youtube-VOS において,本手法が固定サイズのメモリバンクを用いた第1次および第2次戦略を立案し, 最大サイズのメモリバンクによる全k戦略に匹敵する性能を発揮することを示す実験を行った。 さらに,提案手法は1kで最大80%,1次および2次戦略で35%向上することを示す実験を行った。

Matching-based networks have achieved state-of-the-art performance for video object segmentation (VOS) tasks by storing every-k frames in an external memory bank for future inference. Storing the intermediate frames' predictions provides the network with richer cues for segmenting an object in the current frame. However, the size of the memory bank gradually increases with the length of the video, which slows down inference speed and makes it impractical to handle arbitrary length videos. This paper proposes an adaptive memory bank strategy for matching-based networks for semi-supervised video object segmentation (VOS) that can handle videos of arbitrary length by discarding obsolete features. Features are indexed based on their importance in the segmentation of the objects in previous frames. Based on the index, we discard unimportant features to accommodate new features. We present our experiments on DAVIS 2016, DAVIS 2017, and Youtube-VOS that demonstrate that our method outperforms state-of-the-art that employ first-and-latest strategy with fixed-sized memory banks and achieves comparable performance to the every-k strategy with increasing-sized memory banks. Furthermore, experiments show that our method increases inference speed by up to 80% over the every-k and 35% over first-and-latest strategies.
翻訳日:2022-04-15 13:17:01 公開日:2022-04-13
# 部分的バンディットフィードバック下における一般化エキスパート列に対する2次後悔境界

Second Order Regret Bounds Against Generalized Expert Sequences under Partial Bandit Feedback ( http://arxiv.org/abs/2204.06660v1 )

ライセンス: Link先を確認
Kaan Gokcesu, Hakan Gokcesu(参考訳) 部分的バンディットフィードバック設定下でのエキスパートアドバイスの問題を調査し,逐次的ミニマックス最適アルゴリズムを作成する。 本アルゴリズムは,従来の帯域幅フィードバックとは対照的に,逆向きに損失を明らかにすることのできる,より一般的な部分的監視設定で動作する。 本アルゴリズムは,一般専門家選択系列に対して後悔して解析する普遍的予測手法を採用している。 本研究は,多くの設定(切り替えや文脈の専門家設定など)をカバーする一般的な競争クラスに対して行われ,競争クラスにおける専門家選択シーケンスを手作業で決定する。 我々の後悔境界は二乗損失の和の2次境界であり、アルゴリズムの正規化された後悔は損失列の任意のアフィン変換の下で不変である。 我々のアルゴリズムは真にオンラインであり、損失シーケンスに関する予備情報を使用しない。

We study the problem of expert advice under partial bandit feedback setting and create a sequential minimax optimal algorithm. Our algorithm works with a more general partial monitoring setting, where, in contrast to the classical bandit feedback, the losses can be revealed in an adversarial manner. Our algorithm adopts a universal prediction perspective, whose performance is analyzed with regret against a general expert selection sequence. The regret we study is against a general competition class that covers many settings (such as the switching or contextual experts settings) and the expert selection sequences in the competition class are determined by the application at hand. Our regret bounds are second order bounds in terms of the sum of squared losses and the normalized regret of our algorithm is invariant under arbitrary affine transforms of the loss sequence. Our algorithm is truly online and does not use any preliminary information about the loss sequences.
翻訳日:2022-04-15 13:03:32 公開日:2022-04-13
# MITのスーパークラウドワークロード分類チャレンジ

The MIT Supercloud Workload Classification Challenge ( http://arxiv.org/abs/2204.05839v2 )

ライセンス: Link先を確認
Benny J. Tang, Qiqi Chen, Matthew L. Weiss, Nathan Frey, Joseph McDonald, David Bestor, Charles Yee, William Arcand, Chansup Byun, Daniel Edelman, Matthew Hubbell, Michael Jones, Jeremy Kepner, Anna Klein, Adam Michaleas, Peter Michaleas, Lauren Milechin, Julia Mullen, Andrew Prout, Albert Reuther, Antonio Rosa, Andrew Bowne, Lindsey McEvoy, Baolin Li, Devesh Tiwari, Vijay Gadepally, Siddharth Samsi(参考訳) ハイパフォーマンスコンピューティング(HPC)センターとクラウドプロバイダは、異種ハードウェア上でますます多様なアプリケーションの集合をサポートする。 人工知能(AI)と機械学習(ML)のワークロードが計算ワークロードのシェアを拡大するにつれ、リソースの最適化、アロケーション、新しいAIフレームワークのデプロイに対する新たなアプローチが求められている。 計算ワークロードとその利用特性を識別することで、hpcシステムは利用可能なリソースとアプリケーション要求をよりよく一致させることができる。 データセンタインスツルメンテーションを活用することで、ワークロードを特定し、運用効率を改善するために研究者やデータセンタオペレータにフィードバックを提供するaiベースのアプローチを開発することが可能になる。 この研究を可能にするために、我々はmit supercloudクラスタからの詳細な監視ログを提供するmit supercloudデータセットをリリースした。 このデータセットには、ジョブ、メモリ使用量、ファイルシステムログによるcpuとgpuの利用が含まれている。 本稿では,このデータセットに基づくワークロード分類の課題について述べる。 ワークロード分類の新しいアプローチの開発や,既存のアプローチに基づいた初期結果の提示に使用可能なラベル付きデータセットを導入する。 この課題の目標は、既存の方法よりも高い精度を達成できる計算ワークロードの分析において、アルゴリズムによるイノベーションを促進することである。 データとコードは、Datacenter ChallengeのWebサイト(https://dcc.mit.edu.com)から公開される。

High-Performance Computing (HPC) centers and cloud providers support an increasingly diverse set of applications on heterogenous hardware. As Artificial Intelligence (AI) and Machine Learning (ML) workloads have become an increasingly larger share of the compute workloads, new approaches to optimized resource usage, allocation, and deployment of new AI frameworks are needed. By identifying compute workloads and their utilization characteristics, HPC systems may be able to better match available resources with the application demand. By leveraging datacenter instrumentation, it may be possible to develop AI-based approaches that can identify workloads and provide feedback to researchers and datacenter operators for improving operational efficiency. To enable this research, we released the MIT Supercloud Dataset, which provides detailed monitoring logs from the MIT Supercloud cluster. This dataset includes CPU and GPU usage by jobs, memory usage, and file system logs. In this paper, we present a workload classification challenge based on this dataset. We introduce a labelled dataset that can be used to develop new approaches to workload classification and present initial results based on existing approaches. The goal of this challenge is to foster algorithmic innovations in the analysis of compute workloads that can achieve higher accuracy than existing methods. Data and code will be made publicly available via the Datacenter Challenge website : https://dcc.mit.edu.
翻訳日:2022-04-15 12:29:41 公開日:2022-04-13
# 顔モデルにおける構造的差異の推定

Estimating Structural Disparities for Face Models ( http://arxiv.org/abs/2204.06562v1 )

ライセンス: Link先を確認
Shervin Ardeshir, Cristina Segalin, Nathan Kallus(参考訳) 機械学習では、データポイントの異なるサブポピュレーション(グループ)間で、モデルの性能や結果の差を測定することで、しばしば不一致のメトリクスが定義される。 したがって、不一致定量化への入力はモデルの予測値$\hat{y}$、予測値$y$の基底ラベル、データポイントに対するグループラベル$g$で構成される。 各グループのモデルの性能は、特定のグループ内のデータポイントに対して$\hat{y}$と$y$を比較して計算し、その結果、異なるグループ間でのパフォーマンスの相違を計算することができる。 しかし、多くの現実世界のシナリオでは、トレーニングや検証期間中にグループラベル(g$)が大規模に利用できない場合や、センシティブな情報である場合が多いため、それらを収集することは実現可能でも望ましくない場合もある。 その結果、分類群間での異質性指標の評価は不可能である。 一方、多くのシナリオにおいて、ノイズの多いグループ化は、ある種のプロキシを使って得ることができるかもしれない。 本稿では,人間の顔に訓練されたコンピュータビジョンモデルや,顔属性予測や影響推定などのタスクについて,このような分析を行う。 実験の結果,既定の顔認識モデルから得られる埋め込みは,そのような推定のプロキシとして有意義に機能する可能性が示唆された。

In machine learning, disparity metrics are often defined by measuring the difference in the performance or outcome of a model, across different sub-populations (groups) of datapoints. Thus, the inputs to disparity quantification consist of a model's predictions $\hat{y}$, the ground-truth labels for the predictions $y$, and group labels $g$ for the data points. Performance of the model for each group is calculated by comparing $\hat{y}$ and $y$ for the datapoints within a specific group, and as a result, disparity of performance across the different groups can be calculated. In many real world scenarios however, group labels ($g$) may not be available at scale during training and validation time, or collecting them might not be feasible or desirable as they could often be sensitive information. As a result, evaluating disparity metrics across categorical groups would not be feasible. On the other hand, in many scenarios noisy groupings may be obtainable using some form of a proxy, which would allow measuring disparity metrics across sub-populations. Here we explore performing such analysis on computer vision models trained on human faces, and on tasks such as face attribute prediction and affect estimation. Our experiments indicate that embeddings resulting from an off-the-shelf face recognition model, could meaningfully serve as a proxy for such estimation.
翻訳日:2022-04-15 12:26:03 公開日:2022-04-13
# ハードアテンショントランスフォーマーによる形式言語認識:回路複雑性からの視点

Formal Language Recognition by Hard Attention Transformers: Perspectives from Circuit Complexity ( http://arxiv.org/abs/2204.06618v1 )

ライセンス: Link先を確認
Yiding Hao, Dana Angluin, and Robert Frank(参考訳) 本稿では, トランスフォーマーエンコーダの3つの形式モデルについて分析し, 自己注意機構の形式が異なる: ユニークなハードアテンション (UHAT) , 一般化されたユニークなハードアテンション (GUHAT) , 平均的なハードアテンション (AHAT) 。 文字列アクセプタとみなすUHATおよびGUHATトランスフォーマーは,一定の深さと多項式サイズを持つブール回路の族で認識可能な言語であるAC$^0$の形式言語しか認識できないことを示す。 これらの言語はac$^0$ (furst et al., 1984) の外にあるため、この上界がハーンの (2020) を仮定すると、guhat はディック言語やパリティ言語を認識できない。 対照的に、非AC$^0$言語 MAJORITY と DYCK-1 は AHAT ネットワークによって認識可能であり、AHAT が UHAT と GUHAT が認識できない言語を認識できることを意味する。

This paper analyzes three formal models of Transformer encoders that differ in the form of their self-attention mechanism: unique hard attention (UHAT); generalized unique hard attention (GUHAT), which generalizes UHAT; and averaging hard attention (AHAT). We show that UHAT and GUHAT Transformers, viewed as string acceptors, can only recognize formal languages in the complexity class AC$^0$, the class of languages recognizable by families of Boolean circuits of constant depth and polynomial size. This upper bound subsumes Hahn's (2020) results that GUHAT cannot recognize the DYCK languages or the PARITY language, since those languages are outside AC$^0$ (Furst et al., 1984). In contrast, the non-AC$^0$ languages MAJORITY and DYCK-1 are recognizable by AHAT networks, implying that AHAT can recognize languages that UHAT and GUHAT cannot.
翻訳日:2022-04-15 12:22:32 公開日:2022-04-13
# Wassmap: Wasserstein isometric mapping for Image Manifold Learning

Wassmap: Wasserstein Isometric Mapping for Image Manifold Learning ( http://arxiv.org/abs/2204.06645v1 )

ライセンス: Link先を確認
Keaton Hamm, Nick Henscheid, Shujie Kang(参考訳) 本稿では,既存の大域的非線形次元化アルゴリズムの欠点を解決するパラメータフリーな非線形次元化手法であるwassmapを提案する。 wassmapは、wasserstein空間における確率測度を介して画像を表現し、関連する測度間のペアワイズ二次wasserstein距離を使用して、低次元、略等距離埋め込みを生成する。 このアルゴリズムは,一定の生成尺度の翻訳や拡張によって生成された画像を含む画像多様体のパラメータを正確に復元できることを示す。 さらに,関数データから離散データに復元結果を転送するための理論的ブリッジを提供することにより,離散測度から生成した多様体からパラメータを離散バージョンが検索することを示す。 様々な画像データ多様体上で提案されたアルゴリズムをテストした結果、wassmapは他のグローバル手法と比較して優れた埋め込みが得られることがわかった。

In this paper, we propose Wasserstein Isometric Mapping (Wassmap), a parameter-free nonlinear dimensionality reduction technique that provides solutions to some drawbacks in existing global nonlinear dimensionality reduction algorithms in imaging applications. Wassmap represents images via probability measures in Wasserstein space, then uses pairwise quadratic Wasserstein distances between the associated measures to produce a low-dimensional, approximately isometric embedding. We show that the algorithm is able to exactly recover parameters of some image manifolds including those generated by translations or dilations of a fixed generating measure. Additionally, we show that a discrete version of the algorithm retrieves parameters from manifolds generated from discrete measures by providing a theoretical bridge to transfer recovery results from functional data to discrete data. Testing of the proposed algorithms on various image data manifolds show that Wassmap yields good embeddings compared with other global techniques.
翻訳日:2022-04-15 12:22:08 公開日:2022-04-13
# CAMERO: ウェイトシェアリングを伴う摂動言語モデルの一貫性規則化

CAMERO: Consistency Regularized Ensemble of Perturbed Language Models with Weight Sharing ( http://arxiv.org/abs/2204.06625v1 )

ライセンス: Link先を確認
Chen Liang, Pengcheng He, Yelong Shen, Weizhu Chen, Tuo Zhao(参考訳) モデルアンサンブルは、低分散かつよく一般化されたモデルを生成する一般的なアプローチである。 しかし、これは大きなメモリと推論コストを発生させるが、現実のデプロイメントには手頃ではないことが多い。 既存の作業は、モデル間で重量を共有することに頼っている。 しかし、共有重量の割合を増大させると、結果として得られるモデルは類似する傾向にあり、モデルのアンサンブルを使用する利点は減少する。 メモリコストを抑えつつアンサンブルの利点を維持するため,CAMEROと呼ばれる摂動モデルに基づく一貫性規則化アンサンブル学習手法を提案する。 具体的には、すべてのモデルで底層重みを共有し、異なるモデルの隠れ表現に異なる摂動を適用し、モデルの多様性を効果的に促進することができる。 一方,モデル多様性による分散を制御するために,摂動モデルにまたがる予測一貫性調整器を適用する。 大規模言語モデルを用いた実験により,cameroはアンサンブルモデルの一般化性能を大幅に向上させた。 具体的には、CAMEROはGLUEベンチマークで8つのBERTベースモデルの標準アンサンブルを0.7で上回り、モデルサイズはかなり小さい(114.2M対880.6M)。

Model ensemble is a popular approach to produce a low-variance and well-generalized model. However, it induces large memory and inference costs, which are often not affordable for real-world deployment. Existing work has resorted to sharing weights among models. However, when increasing the proportion of the shared weights, the resulting models tend to be similar, and the benefits of using model ensemble diminish. To retain ensemble benefits while maintaining a low memory cost, we propose a consistency-regularized ensemble learning approach based on perturbed models, named CAMERO. Specifically, we share the weights of bottom layers across all models and apply different perturbations to the hidden representations for different models, which can effectively promote the model diversity. Meanwhile, we apply a prediction consistency regularizer across the perturbed models to control the variance due to the model diversity. Our experiments using large language models demonstrate that CAMERO significantly improves the generalization performance of the ensemble model. Specifically, CAMERO outperforms the standard ensemble of 8 BERT-base models on the GLUE benchmark by 0.7 with a significantly smaller model size (114.2M vs. 880.6M).
翻訳日:2022-04-15 12:19:16 公開日:2022-04-13
# 凸ハル可能性サンプリングアルゴリズムによる代表データ取得

Achieving Representative Data via Convex Hull Feasibility Sampling Algorithms ( http://arxiv.org/abs/2204.06664v1 )

ライセンス: Link先を確認
Laura Niss, Yuekai Sun, Ambuj Tewari(参考訳) トレーニングデータのバイアスサンプリングは、機械学習システムにおけるアルゴリズムバイアスの主な原因である。 このようなアルゴリズムバイアスをトレーニング中に軽減しようとする方法は数多く存在するが、最も直接的かつ明白な方法は、より代表的なトレーニングデータを集めることだ。 本稿では,少数グループが与えられたデータ集合から適切に表現される訓練データセットを組み立てる作業について考察する。 本質的にこれは、与えられた点が未知の分布の集合から手段の凸殻にあるかどうかを決定する適応サンプリング問題である。 得られたデータから代表的データセットを収集できるかどうかを高信頼で判断するために,適応的なサンプリング手法を提案する。 また,ベルヌーイのシミュレーションと多項的設定における政策の有効性を実証する。

Sampling biases in training data are a major source of algorithmic biases in machine learning systems. Although there are many methods that attempt to mitigate such algorithmic biases during training, the most direct and obvious way is simply collecting more representative training data. In this paper, we consider the task of assembling a training dataset in which minority groups are adequately represented from a given set of data sources. In essence, this is an adaptive sampling problem to determine if a given point lies in the convex hull of the means from a set of unknown distributions. We present adaptive sampling methods to determine, with high confidence, whether it is possible to assemble a representative dataset from the given data sources. We also demonstrate the efficacy of our policies in simulations in the Bernoulli and a multinomial setting.
翻訳日:2022-04-15 12:18:24 公開日:2022-04-13
# 文字中心のビデオサムネイル検索

Character-focused Video Thumbnail Retrieval ( http://arxiv.org/abs/2204.06563v1 )

ライセンス: Link先を確認
Shervin Ardeshir, Nagendra Kamath, Hossein Taghavi(参考訳) ビデオサムネイルの候補として文字中心のビデオフレームの検索について検討する。 映像の各フレームをキャラクタに基づいて評価するために、キャラクタ(顔)を2つの側面で評価する: 顔表現: 顔がビデオサムネイルに入るのに許容される表情を持つかどうかを測定するために、cnnモデルを訓練する。 このモデルは、ビデオのランダムフレームから抽出された顔と、アートワーク/thumbnailsから抽出された顔とを区別するように訓練されている。 プロミネンスとインタラクション:サムネイル内のキャラクタは、アルゴリズムが非表現フレームを候補として提案することを防ぎ、ビデオにおいて重要なキャラクタであるべきである。 顔のクラスタリングを用いて、映像中の文字を識別し、文字のプロミネンス(出現頻度)とそれらの相互作用(共起)をキャプチャするグラフを形成する。 このグラフを用いて、各候補フレームに存在する文字の関連性を推定する。 上記の2つの基準に基づいて各顔が得点されると、フレーム内のすべての顔のスコアを組み合わせてフレームレベルスコアを推定する。

We explore retrieving character-focused video frames as candidates for being video thumbnails. To evaluate each frame of the video based on the character(s) present in it, characters (faces) are evaluated in two aspects: Facial-expression: We train a CNN model to measure whether a face has an acceptable facial expression for being in a video thumbnail. This model is trained to distinguish faces extracted from artworks/thumbnails, from faces extracted from random frames of videos. Prominence and interactions: Character(s) in the thumbnail should be important character(s) in the video, to prevent the algorithm from suggesting non-representative frames as candidates. We use face clustering to identify the characters in the video, and form a graph in which the prominence (frequency of appearance) of the character(s), and their interactions (co-occurrence) are captured. We use this graph to infer the relevance of the characters present in each candidate frame. Once every face is scored based on the two criteria above, we infer frame level scores by combining the scores for all the faces within a frame.
翻訳日:2022-04-15 12:18:13 公開日:2022-04-13
# AIモデルと医療専門家のコミュニケーションギャップを評価する--AIによる臨床的意思決定における説明可能性、有用性、信頼

Assessing the communication gap between AI models and healthcare professionals: explainability, utility and trust in AI-driven clinical decision-making ( http://arxiv.org/abs/2204.05030v2 )

ライセンス: Link先を確認
Oskar Wysocki, Jessica Katharine Davies, Markel Vigo, Anne Caroline Armstrong, D\'onal Landers, Rebecca Lee and Andr\'e Freitas(参考訳) 本稿では,臨床診断支援のための機械学習モデル(ML)の実用的評価フレームワークを提案する。 本研究は, 臨床的文脈に実用的に組み込まれたml説明モデルにおいて, よりニュアンス的な役割を明らかにした。 安全と信頼のメカニズムとしての説明に対する医療専門家(HCP)の一般的な肯定的な態度にもかかわらず、かなりの参加者に対して、確証バイアス、過度なモデルのアクセント付け、モデルとの相互作用への取り組みの増加に負の効果があった。 また、主要な目的関数の1つと矛盾し、標準説明モデルはモデルの限界に対する批判的な理解をサポートする能力が限られていた。 しかし, 臨床領域における説明の役割を再考する新たな有意な効果として, 自動化バイアスの低減, 曖昧な臨床症例(HCPが決定に不確実な場合)への対処, 新規ドメイン知識獲得における経験の浅いHCPの支援などが挙げられる。

This paper contributes with a pragmatic evaluation framework for explainable Machine Learning (ML) models for clinical decision support. The study revealed a more nuanced role for ML explanation models, when these are pragmatically embedded in the clinical context. Despite the general positive attitude of healthcare professionals (HCPs) towards explanations as a safety and trust mechanism, for a significant set of participants there were negative effects associated with confirmation bias, accentuating model over-reliance and increased effort to interact with the model. Also, contradicting one of its main intended functions, standard explanatory models showed limited ability to support a critical understanding of the limitations of the model. However, we found new significant positive effects which repositions the role of explanations within a clinical context: these include reduction of automation bias, addressing ambiguous clinical cases (cases where HCPs were not certain about their decision) and support of less experienced HCPs in the acquisition of new domain knowledge.
翻訳日:2022-04-15 11:47:23 公開日:2022-04-13
# 室内家具レイアウト生成のための構造化グラフ変動オートエンコーダ

Structured Graph Variational Autoencoders for Indoor Furniture layout Generation ( http://arxiv.org/abs/2204.04867v2 )

ライセンス: Link先を確認
Aditya Chattopadhyay, Xi Zhang, David Paul Wipf, Himanshu Arora, Rene Vidal(参考訳) 室内3Dシーンのレイアウトを生成するための構造化グラフ変分オートエンコーダを提案する。 部屋の種類(リビングルームや図書館など)や部屋のレイアウト(床や壁などの部屋の要素)を考えると、私たちの建築は部屋のタイプやレイアウトと整合したオブジェクト(ソファ、テーブル、椅子などの家具)のコレクションを生成します。 これは、生成されたシーンは複数の制約を満たすべきであるため、難しい問題である。例えば、各オブジェクトは部屋の中に横たわり、2つのオブジェクトは同じボリュームを占有できない。 これらの課題に対処するために,これらの関係を属性グラフ上のソフト制約として符号化する深層生成モデルを提案する(例えば,ノードがクラス,ポーズ,サイズなどの部屋や家具の要素の属性をキャプチャし,エッジが相対方向などの幾何学的関係をキャプチャする)。 アーキテクチャは、入力グラフを構造化された潜在空間にマッピングするグラフエンコーダと、潜在コードとルームグラフを与えられた家具グラフを生成するグラフデコーダで構成されている。 潜在空間は、高度に構造化されたシーンの生成を容易にする自己回帰前処理でモデル化される。 また,マッチング学習と制約学習を組み合わせた効率的な学習手法を提案する。 3D-FRONTデータセットを用いた実験により,本手法は多様で室内レイアウトに適応したシーンを生成する。

We present a structured graph variational autoencoder for generating the layout of indoor 3D scenes. Given the room type (e.g., living room or library) and the room layout (e.g., room elements such as floor and walls), our architecture generates a collection of objects (e.g., furniture items such as sofa, table and chairs) that is consistent with the room type and layout. This is a challenging problem because the generated scene should satisfy multiple constrains, e.g., each object must lie inside the room and two objects cannot occupy the same volume. To address these challenges, we propose a deep generative model that encodes these relationships as soft constraints on an attributed graph (e.g., the nodes capture attributes of room and furniture elements, such as class, pose and size, and the edges capture geometric relationships such as relative orientation). The architecture consists of a graph encoder that maps the input graph to a structured latent space, and a graph decoder that generates a furniture graph, given a latent code and the room graph. The latent space is modeled with auto-regressive priors, which facilitates the generation of highly structured scenes. We also propose an efficient training procedure that combines matching and constrained learning. Experiments on the 3D-FRONT dataset show that our method produces scenes that are diverse and are adapted to the room layout.
翻訳日:2022-04-15 11:46:44 公開日:2022-04-13
# (参考訳) CLIPラテントを用いた階層型テキストコンディション画像生成

Hierarchical Text-Conditional Image Generation with CLIP Latents ( http://arxiv.org/abs/2204.06125v1 )

ライセンス: CC BY 4.0
Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, Mark Chen(参考訳) CLIPのような対照的なモデルでは、セマンティクスとスタイルの両方をキャプチャするイメージの堅牢な表現を学ぶことが示されている。 これらの表現を画像生成に活用するために,テキストキャプションによってクリップ画像の埋め込みを生成するプリミティブと,画像の埋め込みに条件づけられた画像を生成するデコーダという2段階モデルを提案する。 画像表現を明示的に生成することで、フォトリアリズムやキャプションの類似性が最小限に抑えられ、画像の多様性が向上することを示す。 画像表現に条件付けされたデコーダは、その意味とスタイルの両方を保持するイメージのバリエーションを生成できると同時に、画像表現から欠落する非意味の詳細も変更できる。 さらに、CLIPの結合埋め込み空間は、ゼロショット方式で言語誘導の画像操作を可能にする。 我々は、デコーダの拡散モデルを用いて、先行する自己回帰モデルと拡散モデルの両方を実験し、後者の方が計算効率が高く、高品質なサンプルを生成することを発見した。

Contrastive models like CLIP have been shown to learn robust representations of images that capture both semantics and style. To leverage these representations for image generation, we propose a two-stage model: a prior that generates a CLIP image embedding given a text caption, and a decoder that generates an image conditioned on the image embedding. We show that explicitly generating image representations improves image diversity with minimal loss in photorealism and caption similarity. Our decoders conditioned on image representations can also produce variations of an image that preserve both its semantics and style, while varying the non-essential details absent from the image representation. Moreover, the joint embedding space of CLIP enables language-guided image manipulations in a zero-shot fashion. We use diffusion models for the decoder and experiment with both autoregressive and diffusion models for the prior, finding that the latter are computationally more efficient and produce higher-quality samples.
翻訳日:2022-04-14 23:31:04 公開日:2022-04-13
# (参考訳) Impossible Triangle: 事前訓練された言語モデルの次は何か?

Impossible Triangle: What's Next for Pre-trained Language Models? ( http://arxiv.org/abs/2204.06130v1 )

ライセンス: CC BY 4.0
Chenguang Zhu, Michael Zeng(参考訳) 大規模事前訓練型言語モデル(PLM)の最近の開発は、タスク固有の微調整やゼロショット/少数ショット学習のパフォーマンスの観点から、様々なNLPタスクにおけるモデルの能力を大幅に改善している。 しかし、そのようなモデルの多くは、少数の機関が事前訓練、微調整、さらには展開に使える巨大なサイズを伴っている。 本稿では,PLMモデルを用いた場合の現在の障害を,インポッシブル・トライアングルの観点から考察する。 1)適度なモデルサイズ、 2)最先端の数発学習能力、及び 3)最先端の微調整能力。 既存のPLMモデルは、Impossible Triangleの1つ以上の特性を欠いていると論じる。 これらのplmの欠落した特性を改善するために、知識蒸留、データ拡張、即興学習など様々な技術が提案されており、実シナリオにおけるplmの適用に必然的に追加の作業をもたらす。 次に、PLMの今後の研究方向性について考察を行い、Impossible Triangleを実現し、タスクをいくつかの重要なフェーズに分割する。

Recent development of large-scale pre-trained language models (PLM) have significantly improved the capability of models in various NLP tasks, in terms of performance after task-specific fine-tuning and zero-shot / few-shot learning. However, many of such models come with a dauntingly huge size that few institutions can afford to pre-train, fine-tune or even deploy, while moderate-sized models usually lack strong generalized few-shot learning capabilities. In this paper, we first elaborate the current obstacles of using PLM models in terms of the Impossible Triangle: 1) moderate model size, 2) state-of-the-art few-shot learning capability, and 3) state-of-the-art fine-tuning capability. We argue that all existing PLM models lack one or more properties from the Impossible Triangle. To remedy these missing properties of PLMs, various techniques have been proposed, such as knowledge distillation, data augmentation and prompt learning, which inevitably brings additional work to the application of PLMs in real scenarios. We then offer insights into future research directions of PLMs to achieve the Impossible Triangle, and break down the task into several key phases.
翻訳日:2022-04-14 23:10:31 公開日:2022-04-13
# (参考訳) ハミルトン学習を用いた多次元時系列の量子生成モデル

A quantum generative model for multi-dimensional time series using Hamiltonian learning ( http://arxiv.org/abs/2204.06150v1 )

ライセンス: CC BY 4.0
Haim Horowitz, Pooja Rao, Santosh Kumar Radha(参考訳) 合成データ生成は、さまざまなドメインのデータ可用性問題に対処するための有望なソリューションであることが証明されている。 さらに難しいのは合成時系列データの生成であり、時間的ダイナミクス、すなわち生成された時系列は時間を通して変数間の元の関係を尊重しなければならない。 最近提案されたgenerative adversarial networks (gans) やquantum-gansといった手法は、時系列特有の時間的相関に適切に対応できない。 このような特徴を符号化する手法として,量子力学をシミュレートするために,量子コンピュータの性質を用いる。 まず、与えられた時系列が量子プロセスによって生成されると仮定し、その後、量子機械学習を用いて量子プロセスを学ぶ。 次に、学習したモデルを用いてサンプル外の時系列を生成し、学習した時系列のユニークな複雑な特徴をキャプチャすることを示す。 また,この手法を用いてモデル化できる時系列のクラスについても検討する。 最後に,11量子ビットトラップイオン量子マシン上で提案アルゴリズムを実験的に実証した。

Synthetic data generation has proven to be a promising solution for addressing data availability issues in various domains. Even more challenging is the generation of synthetic time series data, where one has to preserve temporal dynamics, i.e., the generated time series must respect the original relationships between variables across time. Recently proposed techniques such as generative adversarial networks (GANs) and quantum-GANs lack the ability to attend to the time series specific temporal correlations adequately. We propose using the inherent nature of quantum computers to simulate quantum dynamics as a technique to encode such features. We start by assuming that a given time series can be generated by a quantum process, after which we proceed to learn that quantum process using quantum machine learning. We then use the learned model to generate out-of-sample time series and show that it captures unique and complex features of the learned time series. We also study the class of time series that can be modeled using this technique. Finally, we experimentally demonstrate the proposed algorithm on an 11-qubit trapped-ion quantum machine.
翻訳日:2022-04-14 23:04:10 公開日:2022-04-13
# (参考訳) 制御可能な人物画像合成のためのニューラルテクスチャ抽出と分布

Neural Texture Extraction and Distribution for Controllable Person Image Synthesis ( http://arxiv.org/abs/2204.06160v1 )

ライセンス: CC BY 4.0
Yurui Ren, Xiaoqing Fan, Ge Li, Shan Liu, Thomas H. Li(参考訳) 身体のポーズや外観を明示的に制御した参照画像から人間を再レンダリングすることを目的とした、制御可能な人物画像合成タスクに対処する。 人物画像が高度に構造化されていることを観察し,参照画像の意味的実体を抽出・配布することで所望の画像を生成することを提案する。 この目的を達成するために,二重注意に基づくニューラルテクスチャ抽出と分布操作について述べる。 この操作は、まず参照特徴マップから意味的ニューラルテクスチャを抽出する。 そして、ターゲットポーズから学習した空間分布に応じて抽出した神経テクスチャを分配する。 我々のモデルは、任意のポーズで人間の画像を予測するために訓練されており、異なるセマンティクスの出現を表す、絡み合った表現力のある神経テクスチャを抽出することを奨励している。 絡み合った表現はさらに明示的な外観制御を可能にする。 異なる参照画像の神経テクスチャを融合させて、関心領域の外観を制御することができる。 実験による比較は,提案モデルの優越性を示す。 コードはhttps://github.com/RenYurui/Neural-Texture-Extraction-Distributionで公開されている。

We deal with the controllable person image synthesis task which aims to re-render a human from a reference image with explicit control over body pose and appearance. Observing that person images are highly structured, we propose to generate desired images by extracting and distributing semantic entities of reference images. To achieve this goal, a neural texture extraction and distribution operation based on double attention is described. This operation first extracts semantic neural textures from reference feature maps. Then, it distributes the extracted neural textures according to the spatial distributions learned from target poses. Our model is trained to predict human images in arbitrary poses, which encourages it to extract disentangled and expressive neural textures representing the appearance of different semantic entities. The disentangled representation further enables explicit appearance control. Neural textures of different reference images can be fused to control the appearance of the interested areas. Experimental comparisons show the superiority of the proposed model. Code is available at https://github.com/RenYurui/Neural-Texture-Extraction-Distribution.
翻訳日:2022-04-14 22:31:48 公開日:2022-04-13
# (参考訳) ViViD++: 可視性データセットのビジョン

ViViD++: Vision for Visibility Dataset ( http://arxiv.org/abs/2204.06183v1 )

ライセンス: CC BY 4.0
Alex Junho Lee, Younggun Cho, Young-sik Shin, Ayoung Kim, Hyun Myung(参考訳) 本稿では,様々な輝度条件を対象とする多彩な視覚データ形式をキャプチャするデータセットを提案する。 RGBカメラはノイズ除去と直感的な情報を提供するが、照明条件の変化は視覚センサーに基づくロボットアプリケーションにとって破滅的な失敗をもたらす可能性がある。 照明問題を克服するアプローチとしては、より堅牢なアルゴリズムやサーマルカメラやイベントカメラなどの視覚センサーの開発がある。 代替センサーの可能性にもかかわらず、代替視覚センサーを備えたデータセットはまだ少ない。 そこで我々は,車載やハンドヘルドなどの代替視覚センサから記録されたデータセットを,同じ空間で繰り返し,異なる条件で提供した。 我々は,協調型視覚センサから可視情報を取得することを目指している。 センサシステムは、赤外放射量、構造反射による深度、輝度の瞬時変化を測定することで、可視光強度とは独立してデータを収集する。 これらの測定結果と慣性センサーと接地構造を併用し, 照明不良下でのロバストな視力SLAMの開発を行う。 完全なデータセットは、https://visibilitydataset.github.io/で入手できる。

In this paper, we present a dataset capturing diverse visual data formats that target varying luminance conditions. While RGB cameras provide nourishing and intuitive information, changes in lighting conditions potentially result in catastrophic failure for robotic applications based on vision sensors. Approaches overcoming illumination problems have included developing more robust algorithms or other types of visual sensors, such as thermal and event cameras. Despite the alternative sensors' potential, there still are few datasets with alternative vision sensors. Thus, we provided a dataset recorded from alternative vision sensors, by handheld or mounted on a car, repeatedly in the same space but in different conditions. We aim to acquire visible information from co-aligned alternative vision sensors. Our sensor system collects data more independently from visible light intensity by measuring the amount of infrared dissipation, depth by structured reflection, and instantaneous temporal changes in luminance. We provide these measurements along with inertial sensors and ground-truth for developing robust visual SLAM under poor illumination. The full dataset is available at: https://visibilitydataset.github.io/
翻訳日:2022-04-14 22:18:00 公開日:2022-04-13
# (参考訳) GAに基づく特徴選択と文脈統合を用いたディープラーニングモデル

Deep Learning Model with GA based Feature Selection and Context Integration ( http://arxiv.org/abs/2204.06189v1 )

ライセンス: CC BY 4.0
Ranju Mandal, Basim Azam, Brijesh Verma, Mengjie Zhang(参考訳) ディープラーニングモデルはコンピュータビジョンと画像処理アプリケーションで非常に成功している。 画像セグメンテーションの多くのトップパフォーマンス手法は、その誕生以来、深層CNNモデルに基づいている。 しかし、深層cnnモデルは複雑な多層アーキテクチャを持つにもかかわらず、視覚機能と並行してグローバルおよびローカルコンテキストの統合に失敗している。 本稿では,視覚特徴と並行して,グローバルおよびローカルな文脈情報に独立して同化あるいは学習する,新たな3層ディープラーニングモデルを提案する。 提案モデルの新規性は,視覚層における遺伝的アルゴリズム(GA)に最適化された特徴を学習するために1-vs-Allバイナリクラスベースの学習者が導入され,次いで画像のグローバルなコンテキストとローカルなコンテキストを学習するコンテキスト層が導入されたことである。 stanford backgroundとcamvidベンチマーク画像解析データセットをモデル評価に用いた結果,有望な結果が得られた。 経験的分析により、グローバルおよびローカルなコンテキスト情報で最適化されたビジュアル機能は、精度の向上と最先端のディープcnnモデルに匹敵する安定した予測に重要な役割を果たすことが明らかとなった。

Deep learning models have been very successful in computer vision and image processing applications. Since its inception, Many top-performing methods for image segmentation are based on deep CNN models. However, deep CNN models fail to integrate global and local context alongside visual features despite having complex multi-layer architectures. We propose a novel three-layered deep learning model that assiminlate or learns independently global and local contextual information alongside visual features. The novelty of the proposed model is that One-vs-All binary class-based learners are introduced to learn Genetic Algorithm (GA) optimized features in the visual layer, followed by the contextual layer that learns global and local contexts of an image, and finally the third layer integrates all the information optimally to obtain the final class label. Stanford Background and CamVid benchmark image parsing datasets were used for our model evaluation, and our model shows promising results. The empirical analysis reveals that optimized visual features with global and local contextual information play a significant role to improve accuracy and produce stable predictions comparable to state-of-the-art deep CNN models.
翻訳日:2022-04-14 22:03:59 公開日:2022-04-13
# (参考訳) ニューラルランゲージモデルにおける構成構成の探索

Probing for Constituency Structure in Neural Language Models ( http://arxiv.org/abs/2204.06201v1 )

ライセンス: CC BY 4.0
David Arps, Younes Samih, Laura Kallmeyer, Hassan Sajjad(参考訳) 本稿では,文脈的言語モデル(lms)が暗黙的に構文構造を学習するかを検討する。 具体的には,Penn Treebank (PTB) に代表される構成構造に着目した。 診断分類器に基づく標準検定手法を用いて,RoBERTaなどのLMのニューロン活性化における異なるカテゴリの構成成分の表現精度を評価する。 また,提案手法が,暗黙的な意味論的一般化ではなく,統語論的知識に焦点をあてることを確実にするために,構文構造を維持しながら構成成分をランダムに置換して得られるptb版,すなわち,意味的に不定形だが統語的によく形成されたptb版についても実験を行った。 我々は4つの事前学習されたトランスフォマーlmsが操作されたデータにおいても探索作業において高い性能を得られることを見出し、それらの表現における意味的および構文的知識を分離でき、構成情報は実際にlmによって学習されていることを示唆する。 さらに,完全な選挙区木をLM表現から線形に分離できることを示す。

In this paper, we investigate to which extent contextual neural language models (LMs) implicitly learn syntactic structure. More concretely, we focus on constituent structure as represented in the Penn Treebank (PTB). Using standard probing techniques based on diagnostic classifiers, we assess the accuracy of representing constituents of different categories within the neuron activations of a LM such as RoBERTa. In order to make sure that our probe focuses on syntactic knowledge and not on implicit semantic generalizations, we also experiment on a PTB version that is obtained by randomly replacing constituents with each other while keeping syntactic structure, i.e., a semantically ill-formed but syntactically well-formed version of the PTB. We find that 4 pretrained transfomer LMs obtain high performance on our probing tasks even on manipulated data, suggesting that semantic and syntactic knowledge in their representations can be separated and that constituency information is in fact learned by the LM. Moreover, we show that a complete constituency tree can be linearly separated from LM representations.
翻訳日:2022-04-14 21:43:04 公開日:2022-04-13
# (参考訳) 画像解析のための最適統合層を用いたコンテキストベースディープラーニングアーキテクチャ

Context-based Deep Learning Architecture with Optimal Integration Layer for Image Parsing ( http://arxiv.org/abs/2204.06214v1 )

ライセンス: CC BY 4.0
Ranju Mandal, Basim Azam, and Brijesh Verma(参考訳) ディープラーニングモデルは最近、画像解析タスクで効率的になっている。 しかし、ディープラーニングモデルは、視覚情報と文脈情報を同時に活用することができない。 提案した3層コンテキストベースディープアーキテクチャは、コンテキストを視覚情報と明示的に統合することができる。 ここでの新たなアイデアは、バイナリクラスベースの学習者から視覚的特徴を学習する視覚層、コンテキストを学習するコンテキスト層、そして遺伝的アルゴリズムベースの最適融合を通じて学習して最終的な決定を生成する統合層を持つことである。 ベンチマークデータセットで評価した場合の実験結果は有望である。 さらなる分析により、最適化されたネットワーク重みはパフォーマンスを改善し、安定した予測ができることが示された。

Deep learning models have been efficient lately on image parsing tasks. However, deep learning models are not fully capable of exploiting visual and contextual information simultaneously. The proposed three-layer context-based deep architecture is capable of integrating context explicitly with visual information. The novel idea here is to have a visual layer to learn visual characteristics from binary class-based learners, a contextual layer to learn context, and then an integration layer to learn from both via genetic algorithm-based optimal fusion to produce a final decision. The experimental outcomes when evaluated on benchmark datasets are promising. Further analysis shows that optimized network weights can improve performance and make stable predictions.
翻訳日:2022-04-14 21:24:54 公開日:2022-04-13
# (参考訳) 本当にそうなの? コンテンツ駆動型オーディオ・ビジュアルディープフェイクデータセットと時間的偽造ローカライズのためのマルチモーダル法

Do You Really Mean That? Content Driven Audio-Visual Deepfake Dataset and Multimodal Method for Temporal Forgery Localization ( http://arxiv.org/abs/2204.06228v1 )

ライセンス: CC BY 4.0
Zhixi Cai, Kalin Stefanov, Abhinav Dhall, Munawar Hayat(参考訳) 社会的影響が大きいため、ディープフェイク検出はコンピュータビジョンコミュニティで活発に注目を集めている。 多くのディープフェイク検出方法は、ビデオ全体やランダムな場所における個人性、顔の特徴、対向的摂動に基づく時空間的変化に依存し、コンテンツの意味はそのまま維持する。 しかし、洗練されたディープフェイクは、ビデオ/オーディオ操作のごく一部しか含んでおらず、コンテンツの意味を例えば、感情の観点から完全に反転させることができる。 このギャップに対処するために、我々は、時間的フォージェリローカライゼーションの学習のために明示的に設計された、Localized Audio Visual DeepFake (LAV-DF)と呼ばれるコンテンツ駆動型オーディオビジュアルディープフェイクデータセットを導入する。 具体的には、ビデオ全体の感情極性を変えるために、戦略的場所でコンテンツ駆動の音声・視覚操作を行う。 提案したデータセットをベンチマークするベースライン手法は、3DCNNモデルであり、このモデルはBundary Aware Temporal Forgery Detection (BA-TFD)と呼ばれ、コントラスト、バウンダリマッチング、フレーム分類損失関数を通じてガイドされる。 広範に定量的に分析した結果,時間的偽造位置推定とディープフェイク検出の両課題において,提案手法の強い性能を示した。

Due to its high societal impact, deepfake detection is getting active attention in the computer vision community. Most deepfake detection methods rely on identity, facial attribute and adversarial perturbation based spatio-temporal modifications at the whole video or random locations, while keeping the meaning of the content intact. However, a sophisticated deepfake may contain only a small segment of video/audio manipulation, through which the meaning of the content can be, for example, completely inverted from sentiment perspective. To address this gap, we introduce a content driven audio-visual deepfake dataset, termed as Localized Audio Visual DeepFake (LAV-DF), explicitly designed for the task of learning temporal forgery localization. Specifically, the content driven audio-visual manipulations are performed at strategic locations in order to change the sentiment polarity of the whole video. Our baseline method for benchmarking the proposed dataset is a 3DCNN model, termed as Boundary Aware Temporal Forgery Detection (BA-TFD), which is guided via contrastive, boundary matching and frame classification loss functions. Our extensive quantitative analysis demonstrates the strong performance of the proposed method for both task of temporal forgery localization and deepfake detection.
翻訳日:2022-04-14 21:15:28 公開日:2022-04-13
# (参考訳) 質問の書き直しは会話の回答に役立つか?

Can Question Rewriting Help Conversational Question Answering? ( http://arxiv.org/abs/2204.06239v1 )

ライセンス: CC BY 4.0
Etsuko Ishii, Yan Xu, Samuel Cahyawijaya, Bryan Wilie(参考訳) 質問書き換え (qr) とは,対話履歴間の依存関係を理解するための課題を,自己完結型で整理することを目的とした,対話的質問応答 (cqa) のサブタスクである。 もっともらしいが、QRをCQAの緩和方法として正当化する証拠はほとんどない。 CQAにおけるQRの有効性を検証するために,QRとCQAタスクを統合した強化学習手法を検討した。 しかし、RL法はエンドツーエンドのベースラインと同等であることがわかった。 障害の分析を行い,cqaにおけるqr活用の難しさについて述べる。

Question rewriting (QR) is a subtask of conversational question answering (CQA) aiming to ease the challenges of understanding dependencies among dialogue history by reformulating questions in a self-contained form. Despite seeming plausible, little evidence is available to justify QR as a mitigation method for CQA. To verify the effectiveness of QR in CQA, we investigate a reinforcement learning approach that integrates QR and CQA tasks and does not require corresponding QR datasets for targeted CQA. We find, however, that the RL method is on par with the end-to-end baseline. We provide an analysis of the failure and describe the difficulty of exploiting QR for CQA.
翻訳日:2022-04-14 20:57:12 公開日:2022-04-13
# (参考訳) 多視点潜在変数モデルにおけるドメイン知識の符号化:構造的疎結合によるベイズ的アプローチ

Encoding Domain Knowledge in Multi-view Latent Variable Models: A Bayesian Approach with Structured Sparsity ( http://arxiv.org/abs/2204.06242v1 )

ライセンス: CC BY 4.0
Arber Qoku and Florian Buettner(参考訳) 多くの現実世界のシステムは、単一のソースからのデータだけでなく、複数のデータビューによって記述される。 例えば、ゲノム医学では、患者は異なる分子層からのデータによって説明することができる。 これにより、解釈可能な方法でデータビュー内とデータビュー間のばらつきを解消できるマルチビューモデルの必要性が高まる。 構造的疎性を持つ潜在変数モデルは、このモデリングタスクに対処するために一般的に使用されるツールであるが、専門のドメインエキスパートを通じて各因子を直接検査し解釈する必要があるため、解釈しにくい。 本稿では、ドメインインフォームド・マルチビュー潜在変数モデルに対する新しいアプローチであるMuVIを提案し、本質的に説明可能な方法でマルチビューデータの解析を容易にする。 私たちのモデルは i)機能セットの形式でノイズの多いドメインの専門知識を統合することができる。 (ii)符号化されたドメイン知識のノイズに対して堅牢である。 (iii)特定可能な要因、及び (iv)は、がん患者の実世界のマルチビューデータセットにおいて、解釈可能かつ生物学的に有意な変動軸を推測することができる。

Many real-world systems are described not only by data from a single source but via multiple data views. For example, in genomic medicine, a patient can be described by data from different molecular layers. This raises the need for multi-view models that are able to disentangle variation within and across data views in an interpretable manner. Latent variable models with structured sparsity are a commonly used tool to address this modeling task but interpretability is cumbersome since it requires a direct inspection and interpretation of each factor via a specialized domain expert. Here, we propose MuVI, a novel approach for domain-informed multi-view latent variable models, facilitating the analysis of multi-view data in an inherently explainable manner. We demonstrate that our model (i) is able to integrate noisy domain expertise in form of feature sets, (ii) is robust to noise in the encoded domain knowledge, (iii) results in identifiable factors and (iv) is able to infer interpretable and biologically meaningful axes of variation in a real-world multi-view dataset of cancer patients.
翻訳日:2022-04-14 20:43:23 公開日:2022-04-13
# (参考訳) 繰り返しヒューマン・イン・ザ・ループ更新による医用画像セグメンテーションの迅速なモデル転送:ctにおけるマルチオルガンセグメンテーションのためのラベル付き公開からラベル付き臨床データセットへ

Rapid model transfer for medical image segmentation via iterative human-in-the-loop update: from labelled public to unlabelled clinical datasets for multi-organ segmentation in CT ( http://arxiv.org/abs/2204.06243v1 )

ライセンス: CC BY 4.0
Wenao Ma, Shuang Zheng, Lei Zhang, Huimao Zhang, Qi Dou(参考訳) 深層学習による医用画像解析の顕著な成功にもかかわらず、臨床応用のためにaiモデルをあるデータセットから別のデータセットに迅速に転送する方法については、まだ調査中である。 本稿では,大規模ラベル付きデータセットからCTにおけるマルチ組織セグメント化のための大規模アンラベリングデータセットへのセグメンテーションモデルを効率的に転送するための,新規で汎用的なヒューマン・イン・ザ・ループ方式を提案する。 そこで本研究では,小規模のラベル付きデータセットから学習し,ヒューマンマシンインタラクションのプロセスを開始するための粗いアノテーションを生成するignatorネットワークを提案する。 そして、大規模データセットにサステナネットワークを使用し、新しい注釈付きデータに対して反復的に更新します。 さらに,アノテータが初期アノテーション作業量を削減するための柔軟なラベリング戦略を提案する。 プライベートデータセットで評価した各主題におけるアノテーションのモデル性能と時間コストを報告し、分析する。 以上の結果から,本手法はDiceで19.7%向上するだけでなく, モデル移行時の手指ラベリングのコストを1CTあたり13.87分から1.51分に短縮し, 有望な電位で臨床的有用性を示した。

Despite the remarkable success on medical image analysis with deep learning, it is still under exploration regarding how to rapidly transfer AI models from one dataset to another for clinical applications. This paper presents a novel and generic human-in-the-loop scheme for efficiently transferring a segmentation model from a small-scale labelled dataset to a larger-scale unlabelled dataset for multi-organ segmentation in CT. To achieve this, we propose to use an igniter network which can learn from a small-scale labelled dataset and generate coarse annotations to start the process of human-machine interaction. Then, we use a sustainer network for our larger-scale dataset, and iteratively updated it on the new annotated data. Moreover, we propose a flexible labelling strategy for the annotator to reduce the initial annotation workload. The model performance and the time cost of annotation in each subject evaluated on our private dataset are reported and analysed. The results show that our scheme can not only improve the performance by 19.7% on Dice, but also expedite the cost time of manual labelling from 13.87 min to 1.51 min per CT volume during the model transfer, demonstrating the clinical usefulness with promising potentials.
翻訳日:2022-04-14 20:26:47 公開日:2022-04-13
# (参考訳) ネットワークダウンスケーリングによる大規模多目的影響最大化

Large-scale multi-objective influence maximisation with network downscaling ( http://arxiv.org/abs/2204.06250v1 )

ライセンス: CC BY 4.0
Elia Cunegatti, Giovanni Iacca, Doina Bucur(参考訳) ネットワーク内で最も影響力のあるノードを見つけることは、様々な種類のネットワークベースの問題に対していくつかの応用が可能な計算上難しい問題である。 影響最大化(IM)問題に対処するためのいくつかの手法が提案されているが、ネットワークサイズが大きくなると、その実行環境は良くない。 本稿では,ネットワークのダウンスケーリングに基づく手法を提案する。この手法により,マルチオブジェクト進化アルゴリズム (MOEA) は,元のネットワークの関連性を保ちながら,縮小スケールネットワーク上のIM問題を解くことができる。 ダウンスケールされたソリューションは、PageRankなどの集中度メトリクスに基づいたメカニズムを使用して、元のネットワークにスケールアップされる。 提案手法の有効性は,従来のネットワークに比べて10倍以上に向上し,CELFと比較して最大8,2 % の時間短縮が可能であった。

Finding the most influential nodes in a network is a computationally hard problem with several possible applications in various kinds of network-based problems. While several methods have been proposed for tackling the influence maximisation (IM) problem, their runtime typically scales poorly when the network size increases. Here, we propose an original method, based on network downscaling, that allows a multi-objective evolutionary algorithm (MOEA) to solve the IM problem on a reduced scale network, while preserving the relevant properties of the original network. The downscaled solution is then upscaled to the original network, using a mechanism based on centrality metrics such as PageRank. Our results on eight large networks (including two with $\sim$50k nodes) demonstrate the effectiveness of the proposed method with a more than 10-fold runtime gain compared to the time needed on the original network, and an up to $82\%$ time reduction compared to CELF.
翻訳日:2022-04-14 20:18:28 公開日:2022-04-13
# (参考訳) ディープラーニング研究のための実験標準:自然言語処理の視点から

Experimental Standards for Deep Learning Research: A Natural Language Processing Perspective ( http://arxiv.org/abs/2204.06251v1 )

ライセンス: CC BY 4.0
Dennis Ulmer, Elisa Bassignana, Max M\"uller-Eberstein, Daniel Varab, Mike Zhang, Christian Hardmeier, Barbara Plank(参考訳) ディープラーニング(DL)の分野は過去10年間で爆発的な成長を遂げており、自然言語処理(NLP)にも大きな影響を与えている。 しかし、他の分野のDL技術と同様に、より確立された分野と比較して、共通の実験基準が欠如している。 基礎的な科学的原則から始まり、DLの実験的な標準に関する議論を単一の、広く適用可能な方法論に精査する。 これらのベストプラクティスに従うことは、実験的な証拠を強化し、再現性を改善し、科学的進歩を可能にするために重要である。 これらの標準はさらにパブリックリポジトリに収集され、将来のニーズに透過的に適応するのに役立つ。

The field of Deep Learning (DL) has undergone explosive growth during the last decade, with a substantial impact on Natural Language Processing (NLP) as well. Yet, as with other fields employing DL techniques, there has been a lack of common experimental standards compared to more established disciplines. Starting from fundamental scientific principles, we distill ongoing discussions on experimental standards in DL into a single, widely-applicable methodology. Following these best practices is crucial to strengthening experimental evidence, improve reproducibility and enable scientific progress. These standards are further collected in a public repository to help them transparently adapt to future needs.
翻訳日:2022-04-14 19:50:43 公開日:2022-04-13
# (参考訳) 自己適応型システムにおける大規模適応空間の効率化のためのディープラーニング

Deep Learning for Effective and Efficient Reduction of Large Adaptation Spaces in Self-Adaptive Systems ( http://arxiv.org/abs/2204.06254v1 )

ライセンス: CC BY 4.0
Danny Weyns and Omid Gheibi and Federico Quin and Jeroen Van Der Donckt(参考訳) 現在多くのソフトウェアシステムは、リソースの可用性の急激な変化や予期せぬユーザー行動など、不確実な運用条件に直面している。 適切な緩和がなければ、不確実性はシステムの目標を危険にさらす可能性がある。 自己適応はそのような不確実性に取り組む一般的なアプローチである。 システム目標が損なわれた場合、自己適応システムは、可能な適応オプション、すなわち適応空間を分析して再設定する最適な適応オプションを選択する必要がある。 しかし、厳密な手法を用いて大規模な適応空間を解析することは資源と時間を要するか、あるいは実現不可能である。 この問題を解決する1つのアプローチは、適応空間を減らすためにオンライン機械学習を使用することである。 しかし、既存のアプローチでは、学習者を定義するために機能エンジニアリングを行うためのドメイン専門知識が必要であり、特定の目標に対してのみオンライン適応スペースの削減をサポートする。 これらの制限に対処するため、我々は「適応空間削減のための深層学習プラス」 -- 略してDLASeR+を示す。 DLASeR+は、機能エンジニアリングを必要としないオンライン適応スペース削減のための拡張可能な学習フレームワークを提供すると同時に、3種類の適応目標(しきい値、最適化、セットポイント目標)をサポートする。 我々は,internet-of-thingsアプリケーションの2つのインスタンスでdlaser+を評価する。 dlaser+を,学習に依存する適応空間削減のための徹底分析と2つの最先端手法を適用したベースラインと比較した。 その結果、DLASeR+は、徹底的な分析手法と比較して適応目標の実現に無視できる効果があり、最先端のアプローチを超える3つの一般的な適応目標をサポートします。

Many software systems today face uncertain operating conditions, such as sudden changes in the availability of resources or unexpected user behavior. Without proper mitigation these uncertainties can jeopardize the system goals. Self-adaptation is a common approach to tackle such uncertainties. When the system goals may be compromised, the self-adaptive system has to select the best adaptation option to reconfigure by analyzing the possible adaptation options, i.e., the adaptation space. Yet, analyzing large adaptation spaces using rigorous methods can be resource- and time-consuming, or even be infeasible. One approach to tackle this problem is by using online machine learning to reduce adaptation spaces. However, existing approaches require domain expertise to perform feature engineering to define the learner, and support online adaptation space reduction only for specific goals. To tackle these limitations, we present 'Deep Learning for Adaptation Space Reduction Plus' -- DLASeR+ in short. DLASeR+ offers an extendable learning framework for online adaptation space reduction that does not require feature engineering, while supporting three common types of adaptation goals: threshold, optimization, and set-point goals. We evaluate DLASeR+ on two instances of an Internet-of-Things application with increasing sizes of adaptation spaces for different combinations of adaptation goals. We compare DLASeR+ with a baseline that applies exhaustive analysis and two state-of-the-art approaches for adaptation space reduction that rely on learning. Results show that DLASeR+ is effective with a negligible effect on the realization of the adaptation goals compared to an exhaustive analysis approach, and supports three common types of adaptation goals beyond the state-of-the-art approaches.
翻訳日:2022-04-14 19:08:57 公開日:2022-04-13
# (参考訳) 自動音声認識のための自己批判的シーケンス学習

Self-critical Sequence Training for Automatic Speech Recognition ( http://arxiv.org/abs/2204.06260v1 )

ライセンス: CC BY 4.0
Chen Chen, Yuchen Hu, Nana Hou, Xiaofeng Qi, Heqing Zou, Eng Siong Chng(参考訳) 自動音声認識(asr)タスクはシーケンス対シーケンスモデルによって顕著な成功を収めているが、そのトレーニングとテストの間には、パフォーマンス低下につながる可能性のある2つの大きなミスマッチがある。 1) 一般的に使用されるクロスエントロピー基準は, 単語誤り率(WER)によって評価されるのに対して, ログ類似度は最大化することを目的としている。 2) 教師の指導方法は, 学習中の根拠真理に依存するため, 実験前にモデルが自身の予測に晒されることは一度もない。 本稿では,学習手順をテストフェーズに近づけるために,自己臨界シーケンストレーニング(self-critical sequence training,scst)と呼ばれる最適化手法を提案する。 強化学習(RL)に基づく手法として、SCSTはトレーニング基準とWERを関連付けるためにカスタマイズされた報酬関数を利用する。 さらに、教師の強制への依存を取り除き、推論手順に関してモデルを調和させる。 その結果,提案したSCSTは,WERの基準値に対して,それぞれ8.7%,7.8%の相対的な改善が得られた。

Although automatic speech recognition (ASR) task has gained remarkable success by sequence-to-sequence models, there are two main mismatches between its training and testing that might lead to performance degradation: 1) The typically used cross-entropy criterion aims to maximize log-likelihood of the training data, while the performance is evaluated by word error rate (WER), not log-likelihood; 2) The teacher-forcing method leads to the dependence on ground truth during training, which means that model has never been exposed to its own prediction before testing. In this paper, we propose an optimization method called self-critical sequence training (SCST) to make the training procedure much closer to the testing phase. As a reinforcement learning (RL) based method, SCST utilizes a customized reward function to associate the training criterion and WER. Furthermore, it removes the reliance on teacher-forcing and harmonizes the model with respect to its inference procedure. We conducted experiments on both clean and noisy speech datasets, and the results show that the proposed SCST respectively achieves 8.7% and 7.8% relative improvements over the baseline in terms of WER.
翻訳日:2022-04-14 19:07:46 公開日:2022-04-13
# (参考訳) TangoBERT: カスケードアーキテクチャによる推論コストの削減

TangoBERT: Reducing Inference Cost by using Cascaded Architecture ( http://arxiv.org/abs/2204.06271v1 )

ライセンス: CC BY 4.0
Jonathan Mamou, Oren Pereg, Moshe Wasserblat, Roy Schwartz(参考訳) 多くのNLPタスクにおいてBERT、RoBERTa、XLNetのような大きなトランスフォーマーベースモデルの顕著な成功は、高い計算負荷とエネルギー消費のために、金銭的および環境的コストの増大をもたらす。 この計算負荷を推論時間で低減するために,まず,効率が良く精度の低い第1階層モデルでインスタンスを処理し,その一部をより効率の悪い第2階層モデルで処理する,カスケードモデルアーキテクチャであるTangoBERTを提案する。 第2階層モデルを適用するかどうかの決定は、第1階層モデルによって生成される信頼スコアに基づいて行われる。 提案手法は,多層トランスモデルに基づく標準的なカスケード手法と比較して,実用上の利点がいくつかある。 まず、より高速な向上(平均レイテンシの低下)を可能にする。 第二に、カスケーディングのバッチサイズ最適化を利用して、相対的推論コストの削減を増大させる。 我々はTangoBERT推論CPUの高速化を4つのテキスト分類GLUEタスクと1つの読解タスクで報告する。 実験の結果、TangoBERTは効率的な早期出口ベースラインモデルより優れており、SST-2タスクではCPU速度8.2倍の精度で93.9%の精度を実現している。

The remarkable success of large transformer-based models such as BERT, RoBERTa and XLNet in many NLP tasks comes with a large increase in monetary and environmental cost due to their high computational load and energy consumption. In order to reduce this computational load in inference time, we present TangoBERT, a cascaded model architecture in which instances are first processed by an efficient but less accurate first tier model, and only part of those instances are additionally processed by a less efficient but more accurate second tier model. The decision of whether to apply the second tier model is based on a confidence score produced by the first tier model. Our simple method has several appealing practical advantages compared to standard cascading approaches based on multi-layered transformer models. First, it enables higher speedup gains (average lower latency). Second, it takes advantage of batch size optimization for cascading, which increases the relative inference cost reductions. We report TangoBERT inference CPU speedup on four text classification GLUE tasks and on one reading comprehension task. Experimental results show that TangoBERT outperforms efficient early exit baseline models; on the the SST-2 task, it achieves an accuracy of 93.9% with a CPU speedup of 8.2x.
翻訳日:2022-04-14 18:58:26 公開日:2022-04-13
# (参考訳) 逆行性攻撃による過パラメータ線形回帰

Overparameterized Linear Regression under Adversarial Attacks ( http://arxiv.org/abs/2204.06274v1 )

ライセンス: CC BY 4.0
Ant\^onio H. Ribeiro and Thomas B. Sch\"on(参考訳) 機械学習モデルが重要なアプリケーションで使われるようになると、その脆弱性と脆さが懸念される。 敵攻撃はこれらの脆弱性を研究するための一般的なフレームワークである。 本研究では, 対向攻撃の面における線形回帰の誤差について検討する。 従来のリスクとパラメータ規範の観点で誤差の境界を提供し、これらの境界をどのように活用できるかを示し、非敵対的な設定から分析して敵のリスクを研究することができる。 これらの結果の有用性は, 過パラメータ線形モデルが可逆的ロバストであるか否かについて光を当てることで示される。 線形モデルに機能を追加することは、さらなる堅牢性や脆さの源になる可能性がある。 これらの違いは、スケーリングとランダム射影の$\ell_1$と$\ell_2$ノルムの集中性に起因する。 また,本提案手法は,凸最適化問題として,逆訓練をいかに解くかを示す。 これは、敵の訓練やその他の正規化手法が推定モデルの堅牢性にどのように影響するかを研究するためのツールとして使用される。

As machine learning models start to be used in critical applications, their vulnerabilities and brittleness become a pressing concern. Adversarial attacks are a popular framework for studying these vulnerabilities. In this work, we study the error of linear regression in the face of adversarial attacks. We provide bounds of the error in terms of the traditional risk and the parameter norm and show how these bounds can be leveraged and make it possible to use analysis from non-adversarial setups to study the adversarial risk. The usefulness of these results is illustrated by shedding light on whether or not overparameterized linear models can be adversarially robust. We show that adding features to linear models might be either a source of additional robustness or brittleness. We show that these differences appear due to scaling and how the $\ell_1$ and $\ell_2$ norms of random projections concentrate. We also show how the reformulation we propose allows for solving adversarial training as a convex optimization problem. This is then used as a tool to study how adversarial training and other regularization methods might affect the robustness of the estimated models.
翻訳日:2022-04-14 18:45:26 公開日:2022-04-13
# (参考訳) Curriculum: 自然言語理解における言語現象の広域ベンチマーク

Curriculum: A Broad-Coverage Benchmark for Linguistic Phenomena in Natural Language Understanding ( http://arxiv.org/abs/2204.06283v1 )

ライセンス: CC BY 4.0
Zeming Chen, Qiyue Gao(参考訳) 大きなトランスフォーマー言語モデルの時代において、言語評価は、自然言語理解におけるモデルの能力と限界の診断において重要な役割を担っている。 しかし、現在の評価手法にはいくつかの重大な欠点がある。 特に、言語モデルが言語理解と推論に不可欠な言語スキルをいかにうまく捉えているかについての洞察を与えていない。 そのため、既存のモデルでは難しい言語理解の側面を効果的にマップできないため、モデルやデータセットの潜在的な制限を見つけることは困難である。 本稿では,広範囲言語現象評価のためのNLIベンチマークの新たな形式としてCurriculumを紹介した。 カリキュラムには、36種類の主要な言語現象をカバーするデータセットと、言語モデルが言語現象の異なるタイプの推論スキルをいかにうまく捉えているかを診断するための評価手順が含まれている。 この言語表現型ベンチマークは,モデル行動の診断とモデル学習品質の検証に有効なツールであることを示す。 さらに,既存のベンチマークデータセットと最新モデルの限界に関する洞察を与え,データセット,モデルアーキテクチャ,学習目標の再設計に関する今後の研究を奨励する。

In the age of large transformer language models, linguistic evaluation play an important role in diagnosing models' abilities and limitations on natural language understanding. However, current evaluation methods show some significant shortcomings. In particular, they do not provide insight into how well a language model captures distinct linguistic skills essential for language understanding and reasoning. Thus they fail to effectively map out the aspects of language understanding that remain challenging to existing models, which makes it hard to discover potential limitations in models and datasets. In this paper, we introduce Curriculum as a new format of NLI benchmark for evaluation of broad-coverage linguistic phenomena. Curriculum contains a collection of datasets that covers 36 types of major linguistic phenomena and an evaluation procedure for diagnosing how well a language model captures reasoning skills for distinct types of linguistic phenomena. We show that this linguistic-phenomena-driven benchmark can serve as an effective tool for diagnosing model behavior and verifying model learning quality. In addition, Our experiments provide insight into the limitation of existing benchmark datasets and state-of-the-art models that may encourage future research on re-designing datasets, model architectures, and learning objectives.
翻訳日:2022-04-14 18:07:59 公開日:2022-04-13
# (参考訳) 20$\leq$SNR$<$30のLAMOST DR8低分解能スペクトルからの恒星大気パラメータの推定

Estimation of stellar atmospheric parameters from LAMOST DR8 low-resolution spectra with 20$\leq$SNR$<$30 ( http://arxiv.org/abs/2204.06301v1 )

ライセンス: CC BY 4.0
Xiangru Li, Zhu Wang, Si Zeng, Caixiu Liao, Bing Du, X. Kong, Haining Li(参考訳) 推定された恒星大気パラメータの精度は、スペクトル信号対雑音比(SNR)の低下とともに明らかに低下し、特にSNR$<$30の場合、この種の観測は膨大な量である。 したがって、これらのスペクトルのパラメータ推定性能を向上させることは有用であり、この研究は20$\leq$snr$<30の最も低いdrm8低分解能スペクトルに対する(t_\textt{eff}, \log~g$, [fe/h])推定問題を研究した。 機械学習技術に基づくデータ駆動手法を提案する。 第一に、このスキームは、可溶性収縮・選択演算子(LASSO)によってスペクトルから恒星の大気パラメータ感受性の特徴を検出し、非効率なデータ成分と無関係なデータを拒否した。 第2に、LASSO特徴量から恒星大気パラメータを推定するために多層パーセプトロン法(MLP)を用いた。 最後に,APOGEE(Apache Point Observatory Galactic Evolution Experiment)の高分解能スペクトルから,その推定値と基準値との整合性を計算・解析し,LASSO-MLPの性能を評価した。 実験により、$T_\texttt{eff}, \log~g$, [Fe/H] の平均絶対誤差 (MAE) が LASP (137.6 K, 0.195 dex, 0.091 dex) からLASSO-MLP (84.32 K, 0.137 dex, 0.063 dex) に還元され、恒星大気パラメータ推定の顕著な改善が示されている。 さらに、LASSO-MLPを用いたLAMOST DR8から20$\leq$SNR$<30で1,162,760の低分解能スペクトルの恒星大気パラメータを推定し、科学的探索とアルゴリズム研究のための推定カタログ、学習モデル、実験コード、訓練モデル、トレーニングデータおよびテストデータをリリースした。

The accuracy of the estimated stellar atmospheric parameter decreases evidently with the decreasing of spectral signal-to-noise ratio (SNR) and there are a huge amount of this kind observations, especially in case of SNR$<$30. Therefore, it is helpful to improve the parameter estimation performance for these spectra and this work studied the ($T_\texttt{eff}, \log~g$, [Fe/H]) estimation problem for LAMOST DR8 low-resolution spectra with 20$\leq$SNR$<$30. We proposed a data-driven method based on machine learning techniques. Firstly, this scheme detected stellar atmospheric parameter-sensitive features from spectra by the Least Absolute Shrinkage and Selection Operator (LASSO), rejected ineffective data components and irrelevant data. Secondly, a Multi-layer Perceptron (MLP) method was used to estimate stellar atmospheric parameters from the LASSO features. Finally, the performance of the LASSO-MLP was evaluated by computing and analyzing the consistency between its estimation and the reference from the APOGEE (Apache Point Observatory Galactic Evolution Experiment) high-resolution spectra. Experiments show that the Mean Absolute Errors (MAE) of $T_\texttt{eff}, \log~g$, [Fe/H] are reduced from the LASP (137.6 K, 0.195 dex, 0.091 dex) to LASSO-MLP (84.32 K, 0.137 dex, 0.063 dex), which indicate evident improvements on stellar atmospheric parameter estimation. In addition, this work estimated the stellar atmospheric parameters for 1,162,760 low-resolution spectra with 20$\leq$SNR$<$30 from LAMOST DR8 using LASSO-MLP, and released the estimation catalog, learned model, experimental code, trained model, training data and test data for scientific exploration and algorithm study.
翻訳日:2022-04-14 17:52:57 公開日:2022-04-13
# (参考訳) 深層学習による頭蓋欠陥の自動再構成とインプラントモデリング

Deep Learning-based Framework for Automatic Cranial Defect Reconstruction and Implant Modeling ( http://arxiv.org/abs/2204.06310v1 )

ライセンス: CC BY-SA 4.0
Marek Wodzinski, Mateusz Daniol, Miroslaw Socha, Daria Hemmerling, Maciej Stanuch, Andrzej Skalski(参考訳) 本研究の目的は、頭蓋骨欠損のパーソナライズとインプラントモデリングのためのロバストで高速で完全自動的な方法を提案することである。 改良されたU-Netアーキテクチャを用いた2段階の深層学習手法を提案する。また, 3Dプリンティングが可能なモデルの自動生成に続いて, インプラント形状を改善するための専用反復手順を提案する。 異なるデータセットの事例を組み合わせた不完全な画像登録に基づくクロスケース拡張を提案する。 異なる増補戦略に関するアブレーション研究を行い、他の最先端手法と比較する。 我々は,MICCAI会議と共同で,AutoImplant 2021チャレンジで導入された3つのデータセットについて評価を行った。 本研究では,Dice係数と境界Dice係数とハウスドルフ距離を用いて定量的評価を行う。 平均ディス係数、境界ディス係数、およびハースドルフ距離の95%はそれぞれ0.91、0.94、.53mmである。 混合現実における3Dプリンティングと可視化による質的評価を行い,インプラントの有用性を確認する。 3dプリンティングの準備が整った頭蓋インプラントモデルの作成を可能にする完全パイプラインを提案する。 記述された手法は、AutoImplant 2021の課題タスクで1位を獲得した方法の大幅に拡張されたバージョンである。 ソースコードを自由にリリースし、オープンデータセットとともに、結果を完全に再現可能にします。 頭蓋欠損の自動再建により、パーソナライズされたインプラントを極めて短時間で製造することができ、3Dプリンティングプロセスを直接実施することができる。 さらに,複合現実感における欠陥再構成の有用性を示し,手術時間を更に短縮する可能性を示した。

The goal of this work is to propose a robust, fast, and fully automatic method for personalized cranial defect reconstruction and implant modeling. We propose a two-step deep learning-based method using a modified U-Net architecture to perform the defect reconstruction, and a dedicated iterative procedure to improve the implant geometry, followed by automatic generation of models ready for 3-D printing. We propose a cross-case augmentation based on imperfect image registration combining cases from different datasets. We perform ablation studies regarding different augmentation strategies and compare them to other state-of-the-art methods. We evaluate the method on three datasets introduced during the AutoImplant 2021 challenge, organized jointly with the MICCAI conference. We perform the quantitative evaluation using the Dice and boundary Dice coefficients, and the Hausdorff distance. The average Dice coefficient, boundary Dice coefficient, and the 95th percentile of Hausdorff distance are 0.91, 0.94, and 1.53 mm respectively. We perform an additional qualitative evaluation by 3-D printing and visualization in mixed reality to confirm the implant's usefulness. We propose a complete pipeline that enables one to create the cranial implant model ready for 3-D printing. The described method is a greatly extended version of the method that scored 1st place in all AutoImplant 2021 challenge tasks. We freely release the source code, that together with the open datasets, makes the results fully reproducible. The automatic reconstruction of cranial defects may enable manufacturing personalized implants in a significantly shorter time, possibly allowing one to perform the 3-D printing process directly during a given intervention. Moreover, we show the usability of the defect reconstruction in mixed reality that may further reduce the surgery time.
翻訳日:2022-04-14 17:41:36 公開日:2022-04-13
# (参考訳) HuBERT-EE:効率的な音声認識のための初期出力HuBERT

HuBERT-EE: Early Exiting HuBERT for Efficient Speech Recognition ( http://arxiv.org/abs/2204.06328v1 )

ライセンス: CC BY-SA 4.0
Ji Won Yoon, Beom Jun Woo, and Nam Soo Kim(参考訳) Hidden-unit BERT (HuBERT) やwav2vec 2.0のような自己教師型モデルによる事前トレーニングは、自動音声認識(ASR)に大きな改善をもたらした。 しかしながら、これらのモデルは通常、優れた性能を達成するために高価な計算コストを必要とし、推論速度を遅くする。 モデル効率を改善するために,モデルが推論を動的に停止できる早期終了方式,すなわち HuBERT-EE を提案する。 HuBERT-EEでは、中間層に複数の早期出口分岐を追加し、各分岐を使用して予測が早期に終了できるかどうかを決定する。 LibriSpeechデータセットの実験結果から,HuBERT-EEは単語誤り率(WER)とレイテンシのトレードオフを同時にバランスしながら,大規模HuBERTモデルの推論を高速化できることがわかった。

Pre-training with self-supervised models, such as Hidden-unit BERT (HuBERT) and wav2vec 2.0, has brought significant improvements in automatic speech recognition (ASR). However, these models usually require an expensive computational cost to achieve outstanding performance, slowing down the inference speed. To improve the model efficiency, we propose an early exit scheme for ASR, namely HuBERT-EE, that allows the model to stop the inference dynamically. In HuBERT-EE, multiple early exit branches are added at the intermediate layers, and each branch is used to decide whether a prediction can be exited early. Experimental results on the LibriSpeech dataset show that HuBERT-EE can accelerate the inference of a large-scale HuBERT model while simultaneously balancing the trade-off between the word error rate (WER) performance and the latency.
翻訳日:2022-04-14 17:24:57 公開日:2022-04-13
# (参考訳) ツイートの健康参照分類のための多種多様な言語モデルを訓練するための新しいアプローチ

A Novel Approach to Train Diverse Types of Language Models for Health Mention Classification of Tweets ( http://arxiv.org/abs/2204.06337v1 )

ライセンス: CC0 1.0
Pervaiz Iqbal Khan, Imran Razzak, Andreas Dengel, Sheraz Ahmed(参考訳) 健康に言及する分類は、病語を含む所定のテキストにおける疾患検出を扱う。 しかし、病気用語の非健康的かつ比定的な使用は、タスクに課題を加えます。 近年,多くのNLPタスクにおいて,正規化の手段としての対人訓練が普及している。 本稿では,対人訓練を含むツイートの健全な分類のための言語モデルを学習するための新しいアプローチを提案する。 ガウス雑音を用いた様々なレベルのツイート例に対して,トランスフォーマーモデルの表現に摂動を加えることで,敵対的な例を生成する。 さらに,新たな目的関数としてコントラスト損失を用いる。 提案手法をPHM2017データセット拡張バージョンで評価した。 その結果,提案手法により,ベースライン法に比べて分類器の性能が大幅に向上した。 さらに,従来の層にノイズを加えるとモデルの性能が向上する一方,中間層にノイズを加えるとモデルの性能が低下することを示す。 最後に、最終層へのノイズ付加は、中間層へのノイズ付加よりも優れている。

Health mention classification deals with the disease detection in a given text containing disease words. However, non-health and figurative use of disease words adds challenges to the task. Recently, adversarial training acting as a means of regularization has gained popularity in many NLP tasks. In this paper, we propose a novel approach to train language models for health mention classification of tweets that involves adversarial training. We generate adversarial examples by adding perturbation to the representations of transformer models for tweet examples at various levels using Gaussian noise. Further, we employ contrastive loss as an additional objective function. We evaluate the proposed method on the PHM2017 dataset extended version. Results show that our proposed approach improves the performance of classifier significantly over the baseline methods. Moreover, our analysis shows that adding noise at earlier layers improves models' performance whereas adding noise at intermediate layers deteriorates models' performance. Finally, adding noise towards the final layers performs better than the middle layers noise addition.
翻訳日:2022-04-14 17:14:55 公開日:2022-04-13
# (参考訳) CRUSH: コンテキスト正規化とユーザによる自己教師型ヘイト音声検出

CRUSH: Contextually Regularized and User anchored Self-supervised Hate speech Detection ( http://arxiv.org/abs/2204.06389v1 )

ライセンス: CC BY 4.0
Parag Dutta, Souvic Chakraborty, Sumegh Roychowdhury, Animesh Mukherjee(参考訳) 過去10年間、ソーシャルネットワーキングプラットフォームを通じて人々の交流が急増している。 これらのソーシャルプラットフォームには肯定的な側面がいくつかあるが、この増加はサイバーいじめとヘイトスピーチの繁殖地となった。 NLPの最近の進歩は、しばしばそのような憎悪な内容の拡散を緩和するために使われてきた。 ヘイトスピーチ検出のタスクは通常,ソーシャルネットワークの文脈に適用できるため,ユーザ主導の自己スーパービジョンと文脈正規化を用いたヘイトスピーチ検出のフレームワークであるcrashを導入する。 提案手法は,2種類のタスクと複数のポピュラーなソーシャルメディアデータセットにおいて,過去の手法よりも1~12%の精度向上を実現している。

The last decade has witnessed a surge in the interaction of people through social networking platforms. While there are several positive aspects of these social platforms, the proliferation has led them to become the breeding ground for cyber-bullying and hate speech. Recent advances in NLP have often been used to mitigate the spread of such hateful content. Since the task of hate speech detection is usually applicable in the context of social networks, we introduce CRUSH, a framework for hate speech detection using user-anchored self-supervision and contextual regularization. Our proposed approach secures ~ 1-12% improvement in test set metrics over best performing previous approaches on two types of tasks and multiple popular english social media datasets.
翻訳日:2022-04-14 17:02:18 公開日:2022-04-13
# (参考訳) モノラル音声合成のための時間畳み込みネットワークの知覚場解析

Receptive Field Analysis of Temporal Convolutional Networks for Monaural Speech Dereverberation ( http://arxiv.org/abs/2204.06439v1 )

ライセンス: CC BY 4.0
William Ravenscroft, Stefan Goetze, Thomas Hain(参考訳) 発声残響は頑健な音声処理タスクにおいてしばしば重要な要件である。 Supervised Deep Learning(DL)モデルは、単一チャネル音声の残響に対する最先端のパフォーマンスを提供する。 時間畳み込みネットワーク(TCN)は、音声強調タスクのシーケンスモデリングに一般的に使用される。 TCNの特徴は、個々の出力フレームを生成するために観測できる入力フレームの数を決定する特定のモデル構成に依存して、受容野(RF)を持つことである。 tcnはシミュレーション音声データの非残響化が可能であることが示されているが、特にrfに焦点をあてた詳細な分析は文献にはまだ欠けている。 本稿では,TCNのモデルサイズとRFによる残響特性の解析を行う。 より大きなT60値を持つ室インパルス応答(RIR)を含むように拡張されたWHAMRコーパスを用いた実験では、より小さなTNモデルのトレーニングにおいて、より大きなRFが大幅な性能向上を示す。 また、RT60値が大きいRIRを除去する場合、TNはより広いRFの恩恵を受けることが示されている。

Speech dereverberation is often an important requirement in robust speech processing tasks. Supervised deep learning (DL) models give state-of-the-art performance for single-channel speech dereverberation. Temporal convolutional networks (TCNs) are commonly used for sequence modelling in speech enhancement tasks. A feature of TCNs is that they have a receptive field (RF) dependant on the specific model configuration which determines the number of input frames that can be observed to produce an individual output frame. It has been shown that TCNs are capable of performing dereverberation of simulated speech data, however a thorough analysis, especially with focus on the RF is yet lacking in the literature. This paper analyses dereverberation performance depending on the model size and the RF of TCNs. Experiments using the WHAMR corpus which is extended to include room impulse responses (RIRs) with larger T60 values demonstrate that a larger RF can have significant improvement in performance when training smaller TCN models. It is also demonstrated that TCNs benefit from a wider RF when dereverberating RIRs with larger RT60 values.
翻訳日:2022-04-14 16:49:48 公開日:2022-04-13
# (参考訳) 音声病理は自動話者検証におけるバイオマーカーか?

Is Speech Pathology a Biomarker in Automatic Speaker Verification? ( http://arxiv.org/abs/2204.06450v1 )

ライセンス: CC BY 4.0
Soroosh Tayebi Arasteh, Tobias Weise, Maria Schuster, Elmar N\"oth, Andreas Maier, Seung Hee Yang(参考訳) 深層学習(DL)の進歩とデータ駆動型音声処理手法への関心の高まりにより、医療分野における音声データ科学者にとっての大きな課題は、病的音声の匿名化である。 本稿では,病的音声データを調査し,その話者の妥当性を健常者と比較する。 様々な年齢の音声・音声障害を有する2000人以上の被験者を対象とした大規模言語コーパスを用いて,DLベースの自動話者検証(ASV)技術を適用した。 その結果,平均等誤差率 (eer) は0.86%であり,標準偏差は0.16%であった。 さらに, 年齢, 病理, 記録環境, 発話時間など, ASV の外部影響因子の詳細な分析を行い, それぞれの効果について検討した。 以上の結果から,音声病理はASVの潜在的なバイオマーカーである可能性が示唆された。 これは病理音声データの匿名化に高い関心を持つ可能性がある。

With the advancements in deep learning (DL) and an increasing interest in data-driven speech processing methods, a major challenge for speech data scientists in the healthcare domain is the anonymization of pathological speech, which is a required step to be able to make them accessible as a public training resource. In this paper, we investigate pathological speech data and compare their speaker verifiability with that of healthy individuals. We utilize a large pathological speech corpus of more than 2,000 test subjects with various speech and voice disorders from different ages and apply DL-based automatic speaker verification (ASV) techniques. As a result, we obtained a mean equal error rate (EER) of 0.86% with a standard deviation of 0.16%, which is a factor of three lower than comparable healthy speech databases. We further perform detailed analyses of external influencing factors on ASV such as age, pathology, recording environment, and utterance length, to explore their respective effect. Our findings indicate that speech pathology is a potential biomarker in ASV. This is potentially of high interest for the anonymization of pathological speech data.
翻訳日:2022-04-14 16:38:21 公開日:2022-04-13
# (参考訳) WSSS4LUAD : 肺腺癌に対する弱温存組織分節手術のグランドチャレンジ

WSSS4LUAD: Grand Challenge on Weakly-supervised Tissue Semantic Segmentation for Lung Adenocarcinoma ( http://arxiv.org/abs/2204.06455v1 )

ライセンス: CC BY 4.0
Chu Han, Xipeng Pan, Lixu Yan, Huan Lin, Bingbing Li, Su Yao, Shanshan Lv, Zhenwei Shi, Jinhai Mai, Jiatai Lin, Bingchao Zhao, Zeyan Xu, Zhizhen Wang, Yumeng Wang, Chunhui Lin, Lijian Mao, Min Wu, Luwen Duan, Jingsong Zhu, Dong Hu, Zijie Fang, Yang Chen, Yongbing Zhang, Yi Li, Yiwen Zou, Yiduo Yu, Xiaomeng Li, Haiming Li, Yanfen Cui, Guoqiang Han, Yan Xu, Jun Xu, Huihua Yang, Chunming Li, Zhenbing Liu, Cheng Lu, Xin Chen, Changhong Liang, Qingling Zhang, Zaiyi Liu(参考訳) 肺がんは世界中でがん死の主要な原因であり、腺癌(LUAD)は最も一般的な亜型である。 病理像の潜在的価値をエクスプロイトすることは、腫瘍学における精密医療を促進することができる。 組織分割は病理組織画像解析の基本的な上流課題である。 既存のディープラーニングモデルはセグメンテーション性能が優れているが、十分なピクセルレベルのアノテーションが必要である。 LUADのラベル資源を充実させ,アノテーションの取り組みを緩和するために,この挑戦を組織し,LUADの病理組織像に対する弱い教師付きセマンティックセグメンテーション技術を求める。 参加者は、パッチレベルラベルのみの腫瘍上皮、腫瘍関連ストローマおよび正常組織を分割するアルゴリズムを設計する必要がある。 この課題には10,091のパッチレベルアノテーション(トレーニングセット)と1億3000万以上のラベル付きピクセル(検証とテストセット)が含まれ、67のWSI(GDPHから47、TCGAから20)が含まれている。 すべてのラベルは、aiモデルの助けを借りて、病理学者がループ内パイプラインで生成し、ラベルレビューボードによってチェックされた。 532の登録のうち、28のチームが1000以上の応募でテストフェーズの結果を提出した。 最後に、第1チームは0.8413(腫瘍: 0.8389、ストローマ: 0.7931、正常: 0.8919)のmiouを達成した。 トップクラスのチームの技術報告によると、依然としてCAMはWSSSで最も人気のあるアプローチである。 より信頼性の高いサンプルを生成するために、カットミックスデータ拡張が広く採用されている。 この課題の成功により、パッチレベルのアノテーションによるWSSSアプローチは、アノテーションの労力を減らしながら、従来のピクセルアノテーションを置き換えることができると信じています。 LUADの計算病理学と、より新しいWSSS技術の研究を促進するために、データセット全体がリリースされた。

Lung cancer is the leading cause of cancer death worldwide, and adenocarcinoma (LUAD) is the most common subtype. Exploiting the potential value of the histopathology images can promote precision medicine in oncology. Tissue segmentation is the basic upstream task of histopathology image analysis. Existing deep learning models have achieved superior segmentation performance but require sufficient pixel-level annotations, which is time-consuming and expensive. To enrich the label resources of LUAD and to alleviate the annotation efforts, we organize this challenge WSSS4LUAD to call for the outstanding weakly-supervised semantic segmentation techniques for histopathology images of LUAD. Participants have to design the algorithm to segment tumor epithelial, tumor-associated stroma and normal tissue with only patch-level labels. This challenge includes 10,091 patch-level annotations (the training set) and over 130 million labeled pixels (the validation and test sets), from 67 WSIs (47 from GDPH, 20 from TCGA). All the labels were generated by a pathologist-in-the-loop pipeline with the help of AI models and checked by the label review board. Among 532 registrations, 28 teams submitted the results in the test phase with over 1,000 submissions. Finally, the first place team achieved mIoU of 0.8413 (tumor: 0.8389, stroma: 0.7931, normal: 0.8919). According to the technical reports of the top-tier teams, CAM is still the most popular approach in WSSS. Cutmix data augmentation has been widely adopted to generate more reliable samples. With the success of this challenge, we believe that WSSS approaches with patch-level annotations can replace the traditional pixel annotations while reducing the annotation efforts. The entire dataset has been released to encourage more researches on computational pathology in LUAD and more novel WSSS techniques.
翻訳日:2022-04-14 16:25:40 公開日:2022-04-13
# (参考訳) 非線形フィルタリングのためのハイブリッドニューラルネットワーク強化物理モデル

Hybrid Neural Network Augmented Physics-based Models for Nonlinear Filtering ( http://arxiv.org/abs/2204.06471v1 )

ライセンス: CC BY 4.0
Tales Imbiriba, Ahmet Demirkaya, Jind\v{r}ich Dun\'ik, Ond\v{r}ej Straka, Deniz Erdo\u{g}mu\c{s}, Pau Closas(参考訳) 本稿では,ベイズ非線形潜在空間推定のためのハイブリッドニューラルネットワーク拡張物理モデリング(APBM)フレームワークを提案する。 提案したAPBM戦略は,新しい操作条件が成立するか,あるいは物理に基づくモデルが不十分(あるいは不完全)である場合のモデル適応を可能にする。 apbmsと推定手法の利点の一つは、推定状態の物理的解釈可能性を維持する能力である。 さらに,モデル全体に対するニューラルネットワークの寄与を制御するための制約フィルタリング手法を提案する。 また, 推定密度フィルタリング手法と立方体積分則を利用して, 非線形モデルや高次元潜在空間を容易に扱える柔軟な推定戦略を提案する。 最後に,非線形・不完全計測モデルと加速度モデルを用いて目標追跡シナリオを活用し,本手法の有効性を示す。

In this paper we present a hybrid neural network augmented physics-based modeling (APBM) framework for Bayesian nonlinear latent space estimation. The proposed APBM strategy allows for model adaptation when new operation conditions come into play or the physics-based model is insufficient (or incomplete) to properly describe the latent phenomenon. One advantage of the APBMs and our estimation procedure is the capability of maintaining the physical interpretability of estimated states. Furthermore, we propose a constraint filtering approach to control the neural network contributions to the overall model. We also exploit assumed density filtering techniques and cubature integration rules to present a flexible estimation strategy that can easily deal with nonlinear models and high-dimensional latent spaces. Finally, we demonstrate the efficacy of our methodology by leveraging a target tracking scenario with nonlinear and incomplete measurement and acceleration models, respectively.
翻訳日:2022-04-14 15:53:40 公開日:2022-04-13
# (参考訳) 多言語言語モデル適応微調整:アフリカ言語の研究

Multilingual Language Model Adaptive Fine-Tuning: A Study on African Languages ( http://arxiv.org/abs/2204.06487v1 )

ライセンス: CC BY 4.0
Jesujoba O. Alabi, David Ifeoluwa Adelani, Marius Mosbach, Dietrich Klakow(参考訳) 多言語事前学習言語モデル(PLM)は、高リソース言語と低リソース言語の両方において、いくつかの下流タスクにおいて顕著な性能を示した。 しかし、事前学習中の言語、特にアフリカの言語には、依然として大きなパフォーマンス低下がある。 新しい言語に適応するための最も効果的なアプローチの1つは、言語適応微調整(LAFT)である。 しかし、大きな単言語テキストを持つアフリカの言語は少ないため、それぞれの言語に適応することは大きなディスク空間を個別に取り、単一の言語に特化していたため、結果モデルの言語間転送能力を制限する。 本稿では,多言語適応型微調整(MAFT)を,アフリカ大陸で広く話されている17の最も音源の多いアフリカ諸言語と,英語,フランス語,アラビア語の3言語で実施し,言語間移動学習を促進する。 さらに、多言語 PLM をさらに専門化するため、MAFT 以前の非アフリカ文字スクリプトに対応する埋め込み層から語彙トークンを除去し、モデルサイズを約 50 % 削減した。 AfriBERTa と XLM-R の2つの多言語 PLM と3つの NLP タスク (NER,ニューストピック分類,感情分類) に対する評価は,LAFT を個々の言語に適用する上で,ディスクスペースを大幅に削減しつつ競合することを示している。 最後に,我々の適応型PLMは,パラメータ効率の良い微調整手法のゼロショット・クロスランガル変換能力も向上することを示した。

Multilingual pre-trained language models (PLMs) have demonstrated impressive performance on several downstream tasks on both high resourced and low-resourced languages. However, there is still a large performance drop for languages unseen during pre-training, especially African languages. One of the most effective approaches to adapt to a new language is language adaptive fine-tuning (LAFT) -- fine-tuning a multilingual PLM on monolingual texts of a language using the same pre-training objective. However, African languages with large monolingual texts are few, and adapting to each of them individually takes large disk space and limits the cross-lingual transfer abilities of the resulting models because they have been specialized for a single language. In this paper, we perform multilingual adaptive fine-tuning (MAFT) on 17 most-resourced African languages and three other high-resource languages widely spoken on the African continent -- English, French, and Arabic to encourage cross-lingual transfer learning. Additionally, to further specialize the multilingual PLM, we removed vocabulary tokens from the embedding layer that corresponds to non-African writing scripts before MAFT, thus reducing the model size by around 50\%. Our evaluation on two multilingual PLMs (AfriBERTa and XLM-R) and three NLP tasks (NER, news topic classification, and sentiment classification) shows that our approach is competitive to applying LAFT on individual languages while requiring significantly less disk space. Finally, we show that our adapted PLM also improves the zero-shot cross-lingual transfer abilities of parameter efficient fine-tuning methods.
翻訳日:2022-04-14 15:40:46 公開日:2022-04-13
# (参考訳) 公正政策学習による多様性向上と整合した臨床試験サイト

Clinical trial site matching with improved diversity using fair policy learning ( http://arxiv.org/abs/2204.06501v1 )

ライセンス: CC BY 4.0
Rakshith S Srinivasa, Cheng Qian, Brandon Theodorou, Jeffrey Spaeder, Cao Xiao, Lucas Glass, Jimeng Sun(参考訳) パンデミックは、医療における信頼性と効率的な臨床試験の重要性を強調している。 臨床試験が行われる試験場は、主に医療の専門知識と大規模な患者グループへのアクセスの観点から、実現可能性に基づいて選択される。 近年,臨床試験における多様性と包括性の問題の重要性が高まっている。 異なる患者群は、異なる医療薬や治療の効果を経験し得るため、臨床試験に含める必要がある。 これらの集団は民族、共生、年齢、経済的要因に基づいていた。 したがって、実現可能性と多様性の両方を考慮に入れた試験的サイト選択の手法を設計することが重要かつ緊急の目標である。 本稿では,この問題を公平性制約付きランキング問題として定式化する。 機械学習における公正性の原理を用いて、臨床試験の記述を潜在的な試験現場のリストにマップするモデルを学ぶ。 既存のフェアネスフレームワークとは異なり、各トライアルサイトのグループメンバーシップは非バイナリであり、各トライアルサイトは複数のグループから患者にアクセスすることができる。 このようなマルチグループメンバーシップシナリオに対処するために、人口動態の公平度基準を提案する。 本手法を実世界の480の臨床試験で検証し,本モデルが多種多様な患者へのアクセスを提供するとともに,多種多様な患者を対象とする試験施設のリストを作成した。

The ongoing pandemic has highlighted the importance of reliable and efficient clinical trials in healthcare. Trial sites, where the trials are conducted, are chosen mainly based on feasibility in terms of medical expertise and access to a large group of patients. More recently, the issue of diversity and inclusion in clinical trials is gaining importance. Different patient groups may experience the effects of a medical drug/ treatment differently and hence need to be included in the clinical trials. These groups could be based on ethnicity, co-morbidities, age, or economic factors. Thus, designing a method for trial site selection that accounts for both feasibility and diversity is a crucial and urgent goal. In this paper, we formulate this problem as a ranking problem with fairness constraints. Using principles of fairness in machine learning, we learn a model that maps a clinical trial description to a ranked list of potential trial sites. Unlike existing fairness frameworks, the group membership of each trial site is non-binary: each trial site may have access to patients from multiple groups. We propose fairness criteria based on demographic parity to address such a multi-group membership scenario. We test our method on 480 real-world clinical trials and show that our model results in a list of potential trial sites that provides access to a diverse set of patients while also ensuing a high number of enrolled patients.
翻訳日:2022-04-14 15:17:12 公開日:2022-04-13
# (参考訳) インド英語の発音変化の受信語に対する検討

Study of Indian English Pronunciation Variabilities relative to Received Pronunciation ( http://arxiv.org/abs/2204.06502v1 )

ライセンス: CC BY 4.0
Priyanshi Pal, Shelly Jain, Anil Vuppala, Chiranjeevi Yarra, Prasanta Ghosh(参考訳) イギリス英語やアメリカ英語とは対照的に、音素レベルでの発音データはインド英語(IE)では少ない。 これによりインド英語の発音を学ぶのが難しくなった。 さらにieには多くの種類があり、l2英語に様々なネイティブ言語の影響がある。 インド英語は過去にいくつかの言語研究によって研究されてきた。 このような特徴付けのための音韻規則は報告されているが、インドの多様な発音データに適用できる範囲は未検討のままである。 我々はie多様体の多様性に富み、出生率バランスの取れた方法でキュレートされたコーパスであるindictimitを考える。 インドの様々な地域に対応する80人の話者のデータを含んでいる。 本稿では,ie の音声規則を検証し,このコーパス上でデータ駆動方式で導出した未探索の規則を報告する手法を提案する。 また,どのルールが他のルールよりも顕著に観察されているかという定量的情報も提供し,それに伴うIEの関連性に寄与する。

In contrast to British or American English, labeled pronunciation data on the phonetic level is scarce for Indian English (IE). This has made it challenging to study pronunciations of Indian English. Moreover, IE has many varieties, resulting from various native language influences on L2 English. Indian English has been studied in the past, by a few linguistic works. They report phonetic rules for such characterisation, however, the extent to which they can be applied to a diverse large-scale Indian pronunciation data remains under-examined. We consider a corpus, IndicTIMIT, which is rich in the diversity of IE varieties and is curated in a nativity balanced manner. It contains data from 80 speakers corresponding to various regions of India. We present an approach to validate the phonetic rules of IE along with reporting unexplored rules derived using a data-driven manner, on this corpus. We also provide quantitative information regarding which rules are more prominently observed than the others, attributing to their relevance in IE accordingly.
翻訳日:2022-04-14 14:56:58 公開日:2022-04-13
# (参考訳) 深度推定は物体検出に役立つか?

Does depth estimation help object detection? ( http://arxiv.org/abs/2204.06512v1 )

ライセンス: CC BY 4.0
Bedrettin Cetinkaya, Sinan Kalkan, Emre Akbas(参考訳) 地中深さは、色データと組み合わせると、色のみを使用するベースラインモデルよりもオブジェクト検出精度が向上する。 しかし、推定深度が常に改善するとは限らない。 推定深度を用いた場合の物体検出性能に多くの要因が影響する。 本稿では,これらの要因を総合的に検討し,地中深と推定深度,異なる最先端深度推定ネットワークの効果,異なる屋内および屋外のrgb-dデータセットを深度推定のためのトレーニングデータとして使用する効果,および深度をベースオブジェクト検出器ネットワークに統合するための異なるアーキテクチャ選択など,詳細な実験を行った。 そこで本研究では, パラメータを著しく少なくしながら, 従来の作業よりもmAPが高い深さの早期連結戦略を提案する。

Ground-truth depth, when combined with color data, helps improve object detection accuracy over baseline models that only use color. However, estimated depth does not always yield improvements. Many factors affect the performance of object detection when estimated depth is used. In this paper, we comprehensively investigate these factors with detailed experiments, such as using ground-truth vs. estimated depth, effects of different state-of-the-art depth estimation networks, effects of using different indoor and outdoor RGB-D datasets as training data for depth estimation, and different architectural choices for integrating depth to the base object detector network. We propose an early concatenation strategy of depth, which yields higher mAP than previous works' while using significantly fewer parameters.
翻訳日:2022-04-14 14:56:05 公開日:2022-04-13
# (参考訳) 大規模データセットを用いた未観測地点の気象探査と予測を支援する時系列特徴

Time series features for supporting hydrometeorological explorations and predictions in ungauged locations using large datasets ( http://arxiv.org/abs/2204.06540v1 )

ライセンス: CC BY 4.0
Georgia Papacharalampous, Hristos Tyralis(参考訳) ストリームフローの地域化のための回帰ベースのフレームワークは、伝統的にキャッチメント水文学、洪水頻度分析およびそれらの相互作用に由来するキャッチメント属性を中心に構築されている。 本研究では,データサイエンスの汎用時系列機能や,より正確には多種多様な特徴から発生する,最初の回帰型ストリームフロー地域化フレームワークを定式化し,広範囲に検討することで,この従来の経路から脱却した。 我々は,(部分的)自己相関,エントロピー,時間変動,季節変動,傾向,光沢度,安定性,非線形性,直線性,スパイキネス,曲率などを含む28の特徴に着目した。 これらの特徴を,511獲物の日中温度,降水量,流水量時系列で推定し,従来の地形,土地被覆,土壌,地質特性と地域化の文脈で組み合わせた。 降水量および温度特性(例えば、降水時間系列のスペクトルエントロピー、季節強度およびラグ-1自己相関、および温度時系列の安定性と傾向強度)は、多くの流れ特性の予測因子として有用であることが判明した。 同じことが、キャッチメント平均上昇のような伝統的な特性にも当てはまる。 また, 予測因子と従属変数の関係も明らかにされ, スペクトルエントロピー, 季節性強度, 自己相関特性は他よりも地域性が高いことがわかった。

Regression-based frameworks for streamflow regionalization are built around catchment attributes that traditionally originate from catchment hydrology, flood frequency analysis and their interplay. In this work, we deviated from this traditional path by formulating and extensively investigating the first regression-based streamflow regionalization frameworks that largely emerge from general-purpose time series features for data science and, more precisely, from a large variety of such features. We focused on 28 features that included (partial) autocorrelation, entropy, temporal variation, seasonality, trend, lumpiness, stability, nonlinearity, linearity, spikiness, curvature and others. We estimated these features for daily temperature, precipitation and streamflow time series from 511 catchments, and then merged them within regionalization contexts with traditional topographic, land cover, soil and geologic attributes. Precipitation and temperature features (e.g., the spectral entropy, seasonality strength and lag-1 autocorrelation of the precipitation time series, and the stability and trend strength of the temperature time series) were found to be useful predictors of many streamflow features. The same applies to traditional attributes, such as the catchment mean elevation. Relationships between predictor and dependent variables were also revealed, while the spectral entropy, the seasonality strength and several autocorrelation features of the streamflow time series were found to be more regionalizable than others.
翻訳日:2022-04-14 14:37:55 公開日:2022-04-13
# (参考訳) 地球の季節的水気候の特徴:コッペン・ガイガーの気候と大陸における特徴と比較

Features of the Earth's seasonal hydroclimate: Characterizations and comparisons across the Koppen-Geiger climates and across continents ( http://arxiv.org/abs/2204.06544v1 )

ライセンス: CC BY 4.0
Georgia Papacharalampous, Hristos Tyralis, Yannis Markonis, Petr Maca, Martin Hanel(参考訳) 気候、大陸、時系列の詳細な特徴調査と比較は、地球の水気候とそのダイナミクスの理解とモデリング能力を促進することができる。 本稿では,これらの重要な方向への一歩として,多面的かつ工学的フレンドリーな方法論的枠組みを地球規模での季節的水文気候依存性,変動性,変化の徹底的な評価に応用することを提案する。 この枠組みは,4/3以上の気温,降水量,河川流量時系列を用いて適用する。 これらの時系列では、季節的な水温変動は、地球観測変数の3ヶ月平均で表される。 本分析では,確立されたコッペン・ガイガー気候区分システムを採用し,観測地点の密度が大中大の大陸規模の地域を定義した。 この文脈では,季節的水文的特徴の要約と,相互相関,季節性,時間的変動,エントロピー,長距離依存性,傾向の比較を行う。 様々なコッペン・ガイガーの気候区分や大陸規模の地理的地域において、これらの特徴のほとんどの大きさを特徴付けるために顕著な違いが見られる。 したがって, 比較サマリーの考察は, 同時に提供されるグローバルサマリーよりも, 水資源工学の文脈において有益であると考えられる。 最後に,主にコッペン・ガイガーの気候や大陸スケールの気候を,エントロピー,長距離依存性,トレンドの特徴が(大まかに)季節スケールのそれよりも情報に乏しい状況で説明し,予測する上で,調査対象の特徴について比較可能な機械学習を適用した。

Detailed feature investigations and comparisons across climates, continents and time series types can progress our understanding and modelling ability of the Earth's hydroclimate and its dynamics. As a step towards these important directions, we here propose and extensively apply a multifaceted and engineering-friendly methodological framework for the thorough characterization of seasonal hydroclimatic dependence, variability and change at the global scale. We apply this framework using over 13 000 quarterly temperature, precipitation and river flow time series. In these time series, the seasonal hydroclimatic behaviour is represented by 3-month means of earth-observed variables. In our analyses, we also adopt the well-established Koppen-Geiger climate classification system and define continental-scale regions with large or medium density of observational stations. In this context, we provide in parallel seasonal hydroclimatic feature summaries and comparisons in terms of autocorrelation, seasonality, temporal variation, entropy, long-range dependence and trends. We find notable differences to characterize the magnitudes of most of these features across the various Koppen-Geiger climate classes, as well as between several continental-scale geographical regions. We, therefore, deem that the consideration of the comparative summaries could be more beneficial in water resources engineering contexts than the also provided global summaries. Lastly, we apply explainable machine learning to compare the investigated features with respect to how informative they are in explaining and predicting either the main Koppen-Geiger climate or the continental-scale region, with the entropy, long-range dependence and trend features being (roughly) found to be less informative than the remaining ones at the seasonal time scale.
翻訳日:2022-04-14 14:23:03 公開日:2022-04-13
# 信用履歴と社会的相互作用の特徴のダイナミクスと信用評価性能への影響について

On the dynamics of credit history and social interaction features, and their impact on creditworthiness assessment performance ( http://arxiv.org/abs/2204.06122v1 )

ライセンス: Link先を確認
Ricardo Mu\~noz-Cancino and Cristi\'an Bravo, Sebasti\'an A. R\'ios, and Manuel Gra\~na(参考訳) 半世紀以上にわたり、信用リスク管理は信用リスクを管理するために、それぞれの明確に定義された段階に信用スコアモデルを使用してきた。 アプリケーションスコアリングは、クレジットを付与するかどうかを決定するために使用され、一方、行動スコアリングは主にポートフォリオ管理に使われ、デフォルトの信号の場合に予防措置を取る。 どちらの場合も、特に借り手の履歴データが不足している場合、ネットワークデータはこれらのモデルの予測能力を高めるのに有用であることが最近示されている。 本研究の目的は、信用度評価性能のダイナミクスと信用履歴、返済行動、ソーシャルネットワークの特徴の影響について理解することである。 これを実現するために、97,000人の個人と企業を対象に、最初のローンを12ヶ月後に取得した時点から分析を行う機械学習分類フレームワークを導入しました。 当社の新規かつ大規模なデータセットは、信用行動や社会的・経済的関係に応じて借主を特徴付けることができる。 本研究は,借り手の歴史が最初の6ヶ月で低下し,その後安定することを示す。 ソーシャルネットワーク機能のパーフォマンスに対する最も顕著な効果はローンの申請時に起こり、個人的なスコアリングでは、この効果は数ヶ月以上持続するが、ビジネススコアリングでは、調査期間を通して価値が増す。 これらの発見は、信用リスク管理を改善し、従来の情報や代替データソースの使用を最適化するために大きな価値があります。

For more than a half-century, credit risk management has used credit scoring models in each of its well-defined stages to manage credit risk. Application scoring is used to decide whether to grant a credit or not, while behavioral scoring is used mainly for portfolio management and to take preventive actions in case of default signals. In both cases, network data has recently been shown to be valuable to increase the predictive power of these models, especially when the borrower's historical data is scarce or not available. This study aims to understand the creditworthiness assessment performance dynamics and how it is influenced by the credit history, repayment behavior, and social network features. To accomplish this, we introduced a machine learning classification framework to analyze 97.000 individuals and companies from the moment they obtained their first loan to 12 months afterward. Our novel and massive dataset allow us to characterize each borrower according to their credit behavior, and social and economic relationships. Our research shows that borrowers' history increases performance at a decreasing rate during the first six months and then stabilizes. The most notable effect on perfomance of social networks features occurs at loan application; in personal scoring, this effect prevails a few months, while in business scoring adds value throughout the study period. These findings are of great value to improve credit risk management and optimize the use of traditional information and alternative data sources.
翻訳日:2022-04-14 14:07:51 公開日:2022-04-13
# ディープスプラインニューラルネットワークを用いたリプシッツ関数の近似

Approximation of Lipschitz Functions using Deep Spline Neural Networks ( http://arxiv.org/abs/2204.06233v1 )

ライセンス: Link先を確認
Sebastian Neumayer and Alexis Goujon and Pakshal Bohra and Michael Unser(参考訳) リプシッツ制約ニューラルネットワークは機械学習に多くの応用がある。 表現型リプシッツ制約ネットワークの設計と訓練は非常に困難であるため、改善された手法と理論的理解が必要である。 残念ながら、この環境ではReLUネットワークには証明可能な欠点がある。 そこで本研究では,少なくとも3つの線形領域を持つ学習可能なスプライン活性化関数を提案する。 この選択は、他の重み付きアーキテクチャがより大きな関数のクラスを近似できないという意味で、全てのコンポーネントワイズ1$-Lipschitz活性化関数の中で最適であることを示す。 さらに、この選択は、スペクトルノルム制約重みに対する最近導入された非成分的グループソート活性化関数と同じくらい表現的である。 これまでに公表された数値結果は,我々の理論的知見を裏付けるものである。

Lipschitz-constrained neural networks have many applications in machine learning. Since designing and training expressive Lipschitz-constrained networks is very challenging, there is a need for improved methods and a better theoretical understanding. Unfortunately, it turns out that ReLU networks have provable disadvantages in this setting. Hence, we propose to use learnable spline activation functions with at least 3 linear regions instead. We prove that this choice is optimal among all component-wise $1$-Lipschitz activation functions in the sense that no other weight constrained architecture can approximate a larger class of functions. Additionally, this choice is at least as expressive as the recently introduced non component-wise Groupsort activation function for spectral-norm-constrained weights. Previously published numerical results support our theoretical findings.
翻訳日:2022-04-14 14:07:26 公開日:2022-04-13
# CowClip: CTR予測モデルのトレーニング時間を1GPUで12時間から10分に短縮する

CowClip: Reducing CTR Prediction Model Training Time from 12 hours to 10 minutes on 1 GPU ( http://arxiv.org/abs/2204.06240v1 )

ライセンス: Link先を確認
Zangwei Zheng, Pengtai Xu, Xuan Zou, Da Tang, Zhen Li, Chenguang Xi, Peng Wu, Leqi Zou, Yijie Zhu, Ming Chen, Xiangzhuo Ding, Fuzhao Xue, Ziheng Qing, Youlong Cheng, Yang You(参考訳) クリックスルー率(CTR)予測タスクは、ユーザーが推奨項目をクリックするかどうかを予測することである。 CTR予測モデルのトレーニングを加速させることは、最新モデルの確保とトレーニングコストの削減に不可欠である。 トレーニング速度を上げるためのアプローチのひとつは、大規模なバッチトレーニングを適用することだ。 しかし、コンピュータビジョンや自然言語処理タスクで示されているように、大規模なバッチによるトレーニングは精度の低下に容易に悩まされる。 実験の結果,CTR予測ニューラルネットワークのトレーニングでは,従来のスケーリングルールが失敗することがわかった。 この問題に対処するために、まず、各周波数のidがバッチサイズをスケールする際のハイパーパラメータのスケーリングを困難にすることを示す。 大規模バッチサイズ設定でトレーニングプロセスを安定化するために,適応型カラムワイズクリッピング(cowclip)を開発した。 これにより、埋め込みの容易かつ効果的なスケーリングルールが実現され、学習率を一定に保ち、L2損失をスケールできる。 実世界の2つのデータセット上で4つのCTR予測ネットワークを用いて広範な実験を行い、精度を損なわずに元のバッチサイズの128倍のスケールに成功した。 特に、CTR予測モデルにおいて、Criteoデータセット上でのDeepFMトレーニングでは、最適化フレームワークは、バッチサイズを1Kから128Kに拡大し、0.1% AUCの改善を実現し、トレーニング時間を1つのV100 GPUで12時間から10分に短縮する。 私たちのコードはhttps://github.com/zhengzangw/LargeBatchCTRにあります。

The click-through rate (CTR) prediction task is to predict whether a user will click on the recommended item. As mind-boggling amounts of data are produced online daily, accelerating CTR prediction model training is critical to ensuring an up-to-date model and reducing the training cost. One approach to increase the training speed is to apply large batch training. However, as shown in computer vision and natural language processing tasks, training with a large batch easily suffers from the loss of accuracy. Our experiments show that previous scaling rules fail in the training of CTR prediction neural networks. To tackle this problem, we first theoretically show that different frequencies of ids make it challenging to scale hyperparameters when scaling the batch size. To stabilize the training process in a large batch size setting, we develop the adaptive Column-wise Clipping (CowClip). It enables an easy and effective scaling rule for the embeddings, which keeps the learning rate unchanged and scales the L2 loss. We conduct extensive experiments with four CTR prediction networks on two real-world datasets and successfully scaled 128 times the original batch size without accuracy loss. In particular, for CTR prediction model DeepFM training on the Criteo dataset, our optimization framework enlarges the batch size from 1K to 128K with over 0.1% AUC improvement and reduces training time from 12 hours to 10 minutes on a single V100 GPU. Our code locates at https://github.com/zhengzangw/LargeBatchCTR.
翻訳日:2022-04-14 14:07:14 公開日:2022-04-13
# AHP: ハイパーエッジ予測のための負のサンプルを学ぶ

AHP: Learning to Negative Sample for Hyperedge Prediction ( http://arxiv.org/abs/2204.06353v1 )

ライセンス: Link先を確認
Hyunjin Hwang, Seungwoo Lee, Chanyoung Park, and Kijung Shin(参考訳) ハイパーグラフ(すなわちハイパーエッジの集合)は、自然にグループ関係(例えば、研究者は、論文とレシピで使用される材料を共著)を表し、それぞれがハイパーエッジ(すなわちノードのサブセット)に対応する。 将来または不足するハイパーエッジを予測することは、多くのアプリケーション(例えば、コラボレーションとレシピレコメンデーション)に重大な意味を持つ。 ハイパーエッジ予測が特に難しいのは、ノード数で指数関数的に増加する非ハイパーエッジサブセットの数が膨大であることです。 これら全てをモデルトレーニングの否定的な例として使用することは禁じられているため、ごく少数のサンプルを採取することは避けられず、最終的にはヒューリスティックなサンプリングスキームが採用されている。 しかし、訓練されたモデルは、異なる性質の例の一般化能力に乏しい。 本稿では,adversarial training-based hyperedge-prediction 法である ahp を提案する。 ヒューリスティックなスキームに頼ることなく、負の例をサンプリングすることを学ぶ。 6つの実ハイパーグラフを用いて、AHPは様々な性質の負の例に対してより一般化していることを示す。 既存の方法よりも最大28.2%高いAUROCが得られ、しばしばテストセットに適したサンプリングスキームでその変種を上回ります。

Hypergraphs (i.e., sets of hyperedges) naturally represent group relations (e.g., researchers co-authoring a paper and ingredients used together in a recipe), each of which corresponds to a hyperedge (i.e., a subset of nodes). Predicting future or missing hyperedges bears significant implication for many applications (e.g., collaboration and recipe recommendation). What makes hyperedge prediction particularly challenging is the vast number of non-hyperedge subsets, which grows exponentially with the number of nodes. Since it is prohibitive to use all of them as negative examples for model training, it is inevitable to sample a very small portion of them, and to this end, heuristic sampling schemes have been employed. However, trained models suffer from poor generalization capability for examples of different natures. In this paper, we propose AHP, an adversarial training-based hyperedge-prediction method. It learns to sample negative examples without relying on any heuristic schemes. Using six real hypergraphs, we show that AHP generalizes better to negative examples of various natures. It yields up to 28.2% higher AUROC than best existing methods and often even outperforms its variants with sampling schemes tailored to test sets.
翻訳日:2022-04-14 14:06:45 公開日:2022-04-13
# 動的ニューラルテクスチャ:連続制御可能な表現による対話型ビデオの生成

Dynamic Neural Textures: Generating Talking-Face Videos with Continuously Controllable Expressions ( http://arxiv.org/abs/2204.06180v1 )

ライセンス: Link先を確認
Zipeng Ye and Zhiyao Sun and Yu-Hui Wen and Yanan Sun and Tian Lv and Ran Yi and Yong-Jin Liu(参考訳) 近年,対話型ビデオ生成が注目されている。 これまでのところ、ほとんどの手法はニューラルネットによって制御不能な方法で暗黙的に決定される中性的な表現や表現で結果を生成する。 本稿では,リアルタイムに連続的に表現を制御可能な対話型ビデオを生成する手法を提案する。 本手法は,中程度の解像度の顔形状とは対照的に,ほとんどの表現情報はテクスチャ内にある。 次に、入力式と連続強度式符号化(ciec)に基づいて、ニューラルテクスチャを用いて、高品質なトーキングフェイスビデオを生成し、画像フレーム(動的ニューラルテクスチャと呼ばれる)のニューラルテクスチャを生成するニューラルニューラルネットワークを設計する。 本手法は3次元モデルとして3DMMを用いて動的神経テクスチャをサンプリングする。 3dmmは歯の面積を包含しないので,歯の細部を完備する歯のサブモジュールを提案する。 結果とアブレーション実験により,連続的に表現を制御可能な高品質な音声合成法の有効性が示された。 また,提案手法と既存代表法を組み合わせた4つのベースライン手法を構築した。 ユーザスタディを含む実験結果から,本手法が最も優れた性能を示す。

Recently, talking-face video generation has received considerable attention. So far most methods generate results with neutral expressions or expressions that are implicitly determined by neural networks in an uncontrollable way. In this paper, we propose a method to generate talking-face videos with continuously controllable expressions in real-time. Our method is based on an important observation: In contrast to facial geometry of moderate resolution, most expression information lies in textures. Then we make use of neural textures to generate high-quality talking face videos and design a novel neural network that can generate neural textures for image frames (which we called dynamic neural textures) based on the input expression and continuous intensity expression coding (CIEC). Our method uses 3DMM as a 3D model to sample the dynamic neural texture. The 3DMM does not cover the teeth area, so we propose a teeth submodule to complete the details in teeth. Results and an ablation study show the effectiveness of our method in generating high-quality talking-face videos with continuously controllable expressions. We also set up four baseline methods by combining existing representative methods and compare them with our method. Experimental results including a user study show that our method has the best performance.
翻訳日:2022-04-14 14:06:25 公開日:2022-04-13
# SARデータと文脈情報を用いた深層学習による沖合石油スリックの自動検出

Deep learning based automatic detection of offshore oil slicks using SAR data and contextual information ( http://arxiv.org/abs/2204.06371v1 )

ライセンス: Link先を確認
Emna Amri (LISTIC), Hermann Courteille (LISTIC), A Benoit (LISTIC), Philippe Bolon (LISTIC), Dominique Dubucq, Gilles Poulain, Anthony Credoz(参考訳) 海洋表面のモニタリング、特に石油のスリック検出は、石油探査と生態系のリスク防止の重要性から義務付けられている。 長年にわたり,SAR(Synthetic Aperture Radar)画像を用いて,風などの文脈データの助けを借りて手動で検出作業を行っている。 この面倒な手作業では、利用可能なセンサーが収集するデータ量の増加を処理できないため、自動化が必要になる。 文献では、通常、人為的(スパイル)由来のオイルスリックや、限られたデータ収集の自然(シープ)に焦点をあてる従来の半自動検出法が報告されている。 拡張として,両種類のスリックを有する広範囲なデータベース上でのオフショアオイルスリックの自動化について述べる。 これは、Sentinel-1 SARデータ上の特殊な写真解釈器のスリックアノテーションを、世界中の3つの探査および監視エリアで4年間にわたって構築している。 検討されたSAR画像および関連アノテーションはすべて、実際のオイルスリックモニタリングシナリオに関連している。 さらに、風速推定を系統的に計算してデータ収集を強化する。 論文は以下の通りである。 i) FC-DenseNetを用いたセマンティックセグメンテーションとMask-RCNNを用いたインスタンスセグメンテーションの2つの深層学習手法の性能比較を行った。 (ii) 性能評価において, 気象情報(風速)の導入は油脂検出に有用であると考えられる。 本研究の主な結果は, 深層学習によるslick検出, 特にfc-densenetが, 実験セットの油インスタンスの92%以上を捕捉することによるslick検出の有効性を示す。 また,性能評価において,モデル性能とスリックサイズや風速などの文脈情報との間に強い相関関係が示された。 この研究は、SARと風の情報を融合して誤警報率を低減できるモデルの設計に視点を開放する。

Ocean surface monitoring, especially oil slick detection, has become mandatory due to its importance for oil exploration and risk prevention on ecosystems. For years, the detection task has been performed manually by photo-interpreters using Synthetic Aperture Radar (SAR) images with the help of contextual data such as wind. This tedious manual work cannot handle the increasing amount of data collected by the available sensors and thus requires automation. Literature reports conventional and semi-automated detection methods that generally focus either on oil slicks originating from anthropogenic (spills) or natural (seeps) sources on limited data collections. As an extension, this paper presents the automation of offshore oil slicks on an extensive database with both kinds of slicks. It builds upon the slick annotations of specialized photo-interpreters on Sentinel-1 SAR data for 4 years over 3 exploration and monitoring areas worldwide. All the considered SAR images and related annotation relate to real oil slick monitoring scenarios. Further, wind estimation is systematically computed to enrich the data collection. Paper contributions are the following : (i) a performance comparison of two deep learning approaches: semantic segmentation using FC-DenseNet and instance segmentation using Mask-RCNN. (ii) the introduction of meteorological information (wind speed) is deemed valuable for oil slick detection in the performance evaluation. The main results of this study show the effectiveness of slick detection by deep learning approaches, in particular FC-DenseNet, which captures more than 92% of oil instances in our test set. Furthermore, a strong correlation between model performances and contextual information such as slick size and wind speed is demonstrated in the performance evaluation. This work opens perspectives to design models that can fuse SAR and wind information to reduce the false alarm rate.
翻訳日:2022-04-14 14:04:51 公開日:2022-04-13
# 動的モデルサイズのための統一カスケードエンコーダASRモデル

A Unified Cascaded Encoder ASR Model for Dynamic Model Sizes ( http://arxiv.org/abs/2204.06164v1 )

ライセンス: Link先を確認
Shaojin Ding, Weiran Wang, Ding Zhao, Tara N. Sainath, Yanzhang He, Robert David, Rami Botros, Xin Wang, Rina Panigrahy, Qiao Liang, Dongseong Hwang, Ian McGraw, Rohit Prabhavalkar, Trevor Strohman(参考訳) 本稿では,異なる展開シナリオのためのモデルを統一した動的カスケード符号化自動音声認識(asr)モデルを提案する。 さらに,モデルのサイズや消費電力を,品質を損なうことなく大幅に削減することができる。 すなわち、動的カスケードエンコーダモデルを用いて、各モデルサイズの性能を最大化するための3つの手法を探索する。 1) エンコーダを共有しながら,各サブモデルに対して別々のデコーダを使用する。 2) ファンネルプールを用いたエンコーダの効率向上 3) 品質を改善し,デプロイメント制約に適合するために,因果エンコーダと非causalエンコーダのサイズをバランスさせる。 全体として,提案する大型媒体モデルは,ベースラインカスケードエンコーダモデルと比較して30%小さく,消費電力を33%削減する。 大、中、小モデルを統一する3つのサイズモデルは、最小品質の損失で37%の総サイズ縮小を実現し、異なるモデルを持つことによるエンジニアリングの労力を大幅に削減する。

In this paper, we propose a dynamic cascaded encoder Automatic Speech Recognition (ASR) model, which unifies models for different deployment scenarios. Moreover, the model can significantly reduce model size and power consumption without loss of quality. Namely, with the dynamic cascaded encoder model, we explore three techniques to maximally boost the performance of each model size: 1) Use separate decoders for each sub-model while sharing the encoders; 2) Use funnel-pooling to improve the encoder efficiency; 3) Balance the size of causal and non-causal encoders to improve quality and fit deployment constraints. Overall, the proposed large-medium model has 30% smaller size and reduces power consumption by 33%, compared to the baseline cascaded encoder model. The triple-size model that unifies the large, medium, and small models achieves 37% total size reduction with minimal quality loss, while substantially reducing the engineering efforts of having separate models.
翻訳日:2022-04-14 14:04:07 公開日:2022-04-13
# spdesを駆動するモデリングダイナミクスのための正則構造を持つニューラル演算子

Neural Operator with Regularity Structure for Modeling Dynamics Driven by SPDEs ( http://arxiv.org/abs/2204.06255v1 )

ライセンス: Link先を確認
Peiyan Hu, Qi Meng, Bingguang Chen, Shiqi Gong, Yue Wang, Wei Chen, Rongchan Zhu, Zhi-Ming Ma, Tie-Yan Liu(参考訳) 確率偏微分方程式(steastic partial differential equation, spdes)は、大気科学や物理学を含む多くの分野におけるモデリングダイナミクスの重要な道具である。 無限次元空間間のマップを学習できるニューラルネットワークの世代であるニューラルオペレータは、パラメトリックPDEを解決する強力なツールである。 しかし、駆動ノイズのため通常規則性に乏しいSPDEをモデル化する能力は欠如している。 正規性構造の理論はSPDEの解析において大きな成功を収め、SPDEの解をよく近似する特徴ベクトルの概念モデルを提供するため、SPDEによって駆動される力学をモデル化するための特徴ベクトルを組み込んだニューラル演算子(NORS)を提案する。 本研究では,動的phi41モデルと2次元確率ナビエ-ストークス方程式を含む様々なspdesについて実験を行い,norsが解像度不変で効率的であることを示し,少ないデータ量で1桁の低誤差を達成できることを示した。

Stochastic partial differential equations (SPDEs) are significant tools for modeling dynamics in many areas including atmospheric sciences and physics. Neural Operators, generations of neural networks with capability of learning maps between infinite-dimensional spaces, are strong tools for solving parametric PDEs. However, they lack the ability to modeling SPDEs which usually have poor regularity due to the driving noise. As the theory of regularity structure has achieved great successes in analyzing SPDEs and provides the concept model feature vectors that well-approximate SPDEs' solutions, we propose the Neural Operator with Regularity Structure (NORS) which incorporates the feature vectors for modeling dynamics driven by SPDEs. We conduct experiments on various of SPDEs including the dynamic Phi41 model and the 2d stochastic Navier-Stokes equation, and the results demonstrate that the NORS is resolution-invariant, efficient, and achieves one order of magnitude lower error with a modest amount of data.
翻訳日:2022-04-14 14:03:52 公開日:2022-04-13
# LDPC符号:クラスタグラフとファクタグラフの比較

LDPC codes: comparing cluster graphs to factor graphs ( http://arxiv.org/abs/2204.06350v1 )

ライセンス: Link先を確認
J du Toit, J du Preez, R Wolhuter(参考訳) 本稿では,LDPC符号のクラスタと因子グラフの表現の比較検討を行う。 確率的グラフィカルモデルでは、クラスタグラフは、計算コスト、収束速度、限界確率の精度の点で有利である推論中にランダム変数間の有用な依存性を保持する。 本研究では,これらの利点をldpc符号の文脈で検討し,クラスタグラフ表現が従来の因子グラフ表現よりも優れていることを示す。

We present a comparison study between a cluster and factor graph representation of LDPC codes. In probabilistic graphical models, cluster graphs retain useful dependence between random variables during inference, which are advantageous in terms of computational cost, convergence speed, and accuracy of marginal probabilities. This study investigates these benefits in the context of LDPC codes and shows that a cluster graph representation outperforms the traditional factor graph representation.
翻訳日:2022-04-14 14:03:34 公開日:2022-04-13
# 構造力学とビブロア音響に応用した機械学習手法の検討

A Review of Machine Learning Methods Applied to Structural Dynamics and Vibroacoustic ( http://arxiv.org/abs/2204.06362v1 )

ライセンス: Link先を確認
Barbara Cunha (LTDS), Christophe Droz (I4S), Abdelmalek Zine (ICJ), St\'ephane Foulard, Mohamed Ichchou (LTDS)(参考訳) 機械学習(ml)の使用は、いくつかの分野に急速に広がり、構造力学や振動音響学(sd\&v)の多くの応用に遭遇している。 前例のないデータ可用性、アルゴリズムの進歩と計算能力、意思決定の強化、不確実性処理、パターン認識、リアルタイム評価によって駆動される、データからの洞察を明らかにするmlの能力の増大。 SD\&Vの主要な3つのアプリケーションがこれらの利点を生かしている。 構造的健康モニタリングでは、ML検出と予後が安全な操作とメンテナンススケジュールの最適化につながる。 システムの識別と制御設計は、アクティブノイズ制御およびアクティブ振動制御におけるML技術によって活用される。 最後に、MLベースのサロゲートモデルはコストのかかるシミュレーションの高速な代替手段を提供し、堅牢で最適化された製品設計を可能にします。 この地域の多くの作品にもかかわらず、レビューや分析は行われていない。 そこで本稿では,これらの分野の統合を追跡し理解するために,sd\&v分析におけるml応用に関する調査を行い,実装の現状と新たな機会について考察する。 これら3つの応用ごとに,科学的知識に基づく方法論,利点,限界,推奨事項が同定された。 さらに,Digital Twins と Physics Guided ML の役割を,現在の課題を克服し,今後の研究の進展をパワーアップするために検討する。 その結果、SD\&Vで適用されたMLの現在の展望を概観し、その分野の進歩と展望について、読者に高度な理解を促すことができた。

The use of Machine Learning (ML) has rapidly spread across several fields, having encountered many applications in Structural Dynamics and Vibroacoustic (SD\&V). The increasing capabilities of ML to unveil insights from data, driven by unprecedented data availability, algorithms advances and computational power, enhance decision making, uncertainty handling, patterns recognition and real-time assessments. Three main applications in SD\&V have taken advantage of these benefits. In Structural Health Monitoring, ML detection and prognosis lead to safe operation and optimized maintenance schedules. System identification and control design are leveraged by ML techniques in Active Noise Control and Active Vibration Control. Finally, the so-called ML-based surrogate models provide fast alternatives to costly simulations, enabling robust and optimized product design. Despite the many works in the area, they have not been reviewed and analyzed. Therefore, to keep track and understand this ongoing integration of fields, this paper presents a survey of ML applications in SD\&V analyses, shedding light on the current state of implementation and emerging opportunities. The main methodologies, advantages, limitations, and recommendations based on scientific knowledge were identified for each of the three applications. Moreover, the paper considers the role of Digital Twins and Physics Guided ML to overcome current challenges and power future research progress. As a result, the survey provides a broad overview of the present landscape of ML applied in SD\&V and guides the reader to an advanced understanding of progress and prospects in the field.
翻訳日:2022-04-14 14:03:27 公開日:2022-04-13
# STAR-RIS支援ネットワークにおけるカバレッジとキャパシティ最適化:機械学習アプローチ

Coverage and Capacity Optimization in STAR-RISs Assisted Networks: A Machine Learning Approach ( http://arxiv.org/abs/2204.06390v1 )

ライセンス: Link先を確認
Xinyu Gao, Wenqiang Yi, Alexandros Agapitos, Hao Wang, and Yuanwei Liu(参考訳) 無線ネットワークの性能評価にはカバレッジとキャパシティが重要な指標であるが、キャパシティとキャパシティにはいくつかの相反する関係がある。 そこで, 適用範囲とキャパシティのバランスをとるために, 再構成可能なインテリジェントサーフェス(STAR-RIS)アシストネットワークを同時に伝送・反射するカバレッジとキャパシティ最適化のための新しいモデルを提案する。 カバレッジ・キャパシティ最適化(cco)問題を解決するために、機械学習に基づく多目的最適化アルゴリズム、すなわち多目的近方政策最適化(mo-ppo)アルゴリズムを提案する。 このアルゴリズムでは、損失関数に基づく更新戦略がコアポイントであり、各更新時にミンノームソルバによってカバレッジとキャパシティの両方の損失関数の重みを計算することができる。 解析結果から,提案手法は固定重みに基づくMOアルゴリズムよりも優れていることがわかった。

Coverage and capacity are the important metrics for performance evaluation in wireless networks, while the coverage and capacity have several conflicting relationships, e.g. high transmit power contributes to large coverage but high inter-cell interference reduces the capacity performance. Therefore, in order to strike a balance between the coverage and capacity, a novel model is proposed for the coverage and capacity optimization of simultaneously transmitting and reflecting reconfigurable intelligent surfaces (STAR-RISs) assisted networks. To solve the coverage and capacity optimization (CCO) problem, a machine learning-based multi-objective optimization algorithm, i.e., the multi-objective proximal policy optimization (MO-PPO) algorithm, is proposed. In this algorithm, a loss function-based update strategy is the core point, which is able to calculate weights for both loss functions of coverage and capacity by a min-norm solver at each update. The numerical results demonstrate that the investigated update strategy outperforms the fixed weight-based MO algorithms.
翻訳日:2022-04-14 14:03:02 公開日:2022-04-13
# モデルドキュメンテーションの願望と実践 : 縫合とトレーサビリティによる針の移動

Aspirations and Practice of Model Documentation: Moving the Needle with Nudging and Traceability ( http://arxiv.org/abs/2204.06425v1 )

ライセンス: Link先を確認
Avinash Bhat, Austin Coursey, Grace Hu, Sixian Li, Nadia Nahar, Shurui Zhou, Christian K\"astner, Jin L.C. Guo(参考訳) 機械学習モデルは広く開発され、リリースされ、多くのアプリケーションで採用されている。 一方、機械学習モデルのドキュメンテーションプラクティスは、モデル説明責任を妨げる従来のソフトウェアコンポーネントの確立したプラクティスに足りず、不適切なモデルや誤用を必然的に回避し、ネガティブな社会的影響を引き起こす可能性がある。 近年、機械学習モデルのドキュメンテーション用テンプレートであるモデルカードが注目されているが、モデルドキュメンテーションの実践への影響は明らかになっていない。 本研究では,公開されているモデルカードと類似の文書について検討する。 分析の結果、オリジナルのモデルカード作業における提案と実際のドキュメントの内容との間にかなりのギャップがあることが分かりました。 この観察と、ソフトウェアドキュメンテーション、インタラクション設計、トレーサビリティといった分野の文献に動機づけられ、さらに、(1)ドキュメンテーション環境とコーディング環境の融合、(2)モデル開発におけるモデルカードセクションの考察、(3)ソースから派生・トレースされたドキュメンテーションを含む、機械学習モデルのドキュメンテーションの実践を支援するための一連の設計ガイドラインを提案する。 我々はこれらのガイドラインに従ってDocMLというプロトタイプツールを設計し、計算ノートブックのモデル開発を支援した。 実験室では、データサイエンティストの振る舞いをドキュメントの品質と説明責任にシフトするツールの利点を明らかにしています。

Machine learning models have been widely developed, released, and adopted in numerous applications. Meanwhile, the documentation practice for machine learning models often falls short of established practices for traditional software components, which impedes model accountability, inadvertently abets inappropriate or misuse of models, and may trigger negative social impact. Recently, model cards, a template for documenting machine learning models, have attracted notable attention, but their impact on the practice of model documentation is unclear. In this work, we examine publicly available model cards and other similar documentation. Our analysis reveals a substantial gap between the suggestions made in the original model card work and the content in actual documentation. Motivated by this observation and literature on fields such as software documentation, interaction design, and traceability, we further propose a set of design guidelines that aim to support the documentation practice for machine learning models including (1) the collocation of documentation environment with the coding environment, (2) nudging the consideration of model card sections during model development, and (3) documentation derived from and traced to the source. We designed a prototype tool named DocML following those guidelines to support model development in computational notebooks. A lab study reveals the benefit of our tool to shift the behavior of data scientists towards documentation quality and accountability.
翻訳日:2022-04-14 14:02:43 公開日:2022-04-13
# (参考訳) エージェントのエコシステムを用いた強化学習における新しい環境適応性の向上と破滅的忘れの除去

Improving adaptability to new environments and removing catastrophic forgetting in Reinforcement Learning by using an eco-system of agents ( http://arxiv.org/abs/2204.06550v1 )

ライセンス: CC BY 4.0
Olivier Moulin, Vincent Francois-Lavet, Paul Elbers, Mark Hoogendoorn(参考訳) 強化学習(RL)エージェントを目に見えない環境に適応させることは、トレーニング環境に典型的な過度な適合のために難しい課題である。 RLエージェントは、しばしば訓練された環境に非常に近い環境を解くことができるが、環境が著しく異なると、その性能は急速に低下する。 エージェントが新しい環境で再訓練されるとき、第二の問題が生じる: 破滅的な忘れ込みのリスクがあり、これまで見られた環境のパフォーマンスが著しく妨げられている。 本稿では,エージェントのエコシステムを利用して双方の懸念に対処する新しいアプローチを提案する。 これにより、個々のエージェントの(限定的な)適応的なパワーを収穫し、高度に適応的なエコシステムを構築する。 これにより、ワークロードの一部を学習から推論に転送することができる。 2つの異なる環境分布に対するアプローチの評価は、我々のアプローチが適応性と一般化の観点から最先端技術よりも優れており、破滅的な忘れを回避していることを示している。

Adapting a Reinforcement Learning (RL) agent to an unseen environment is a difficult task due to typical over-fitting on the training environment. RL agents are often capable of solving environments very close to the trained environment, but when environments become substantially different, their performance quickly drops. When agents are retrained on new environments, a second issue arises: there is a risk of catastrophic forgetting, where the performance on previously seen environments is seriously hampered. This paper proposes a novel approach that exploits an ecosystem of agents to address both concerns. Hereby, the (limited) adaptive power of individual agents is harvested to build a highly adaptive ecosystem. This allows to transfer part of the workload from learning to inference. An evaluation of the approach on two distinct distributions of environments shows that our approach outperforms state-of-the-art techniques in terms of adaptability/generalization as well as avoids catastrophic forgetting.
翻訳日:2022-04-14 13:59:58 公開日:2022-04-13
# タスク指向対話システムのためのマルコフ生成アーキテクチャの再検討

Revisiting Markovian Generative Architectures for Efficient Task-Oriented Dialog Systems ( http://arxiv.org/abs/2204.06452v1 )

ライセンス: Link先を確認
Hong Liu, Yucheng Cai, Zhijian Ou, Yi Huang, Junlan Feng(参考訳) 近年,GPT2 や T5 などの Transformer ベースの事前学習言語モデル (PLM) を利用して,生成タスク指向対話 (TOD) システムを構築している。 既存のplmベースのモデルの欠点は、各ターンにまたがる非マルコフ的アーキテクチャ、すなわち、全ての履歴が各ターンの条件付け入力として使われ、メモリ、計算、学習の非効率をもたらす。 本稿では,従来のLSTMベースのTODシステムで使用されているが,PLMベースのシステムでは研究されていないマルコフ生成アーキテクチャ(MGA)を再検討することを提案する。 MultiWOZ2.1の実験では、Markovian PLMベースのシステムにおいて、教師付きおよび半教師付き両方の設定において、非マルコフ的システムよりも効率のよいことが示されている。

Recently, Transformer based pretrained language models (PLMs), such as GPT2 and T5, have been leveraged to build generative task-oriented dialog (TOD) systems. A drawback of existing PLM-based models is their non-Markovian architectures across turns, i.e., the whole history is used as the conditioning input at each turn, which brings inefficiencies in memory, computation and learning. In this paper, we propose to revisit Markovian Generative Architectures (MGA), which have been used in previous LSTM-based TOD systems, but not studied for PLM-based systems. Experiments on MultiWOZ2.1 show the efficiency advantages of the proposed Markovian PLM-based systems over their non-Markovian counterparts, in both supervised and semi-supervised settings.
翻訳日:2022-04-14 13:45:30 公開日:2022-04-13
# グラフによる強化学習:調査

Reinforcement Learning on Graph: A Survey ( http://arxiv.org/abs/2204.06127v1 )

ライセンス: Link先を確認
Nie Mingshuo, Chen Dongming, Wang Dongqi(参考訳) グラフマイニングのタスクは、近年、理論およびアルゴリズム設計コミュニティから注目を集めているソーシャルネットワーク、輸送、電子商取引など、多くの異なるアプリケーションドメインから生まれており、グラフデータマイニングタスクに対処するために、ホットリーリサーチ強化学習(rl)技術を用いた先駆的な作業がいくつかある。 しかし、これらのグラフマイニングアルゴリズムとRLモデルは異なる研究領域に分散しており、異なるアルゴリズムを互いに比較することは困難である。 本稿では、RLモデルの概要とグラフマイニングについて概説し、これらのアルゴリズムを統一的な定式化としてグラフ強化学習(GRL)に一般化する。 さらに,各領域にわたるGRLメソッドの適用について論じ,GRLメソッドのメソッド記述,オープンソースコード,ベンチマークデータセットを要約する。 最後に,今後解決すべき重要な方向性と課題を提案する。 これはGRL文献の総合的な調査に関する最新の研究であり、この研究は、研究者のグローバルな展望と、ドメイン外の研究者の学習リソースを提供する。 さらに、この急速に発展しているドメインに参入したい研究者と、grrメソッドを比較したい専門家の両方のために、オンラインオープンソースを作成します。

Graph mining tasks arise from many different application domains, ranging from social networks, transportation, E-commerce, etc., which have been receiving great attention from the theoretical and algorithm design communities in recent years, and there has been some pioneering work using the hotly researched reinforcement learning (RL) techniques to address graph data mining tasks. However, these graph mining algorithms and RL models are dispersed in different research areas, which makes it hard to compare different algorithms with each other. In this survey, we provide a comprehensive overview of RL models and graph mining and generalize these algorithms to Graph Reinforcement Learning (GRL) as a unified formulation. We further discuss the applications of GRL methods across various domains and summarize the method description, open-source codes, and benchmark datasets of GRL methods. Finally, we propose possible important directions and challenges to be solved in the future. This is the latest work on a comprehensive survey of GRL literature, and this work provides a global view for researchers as well as a learning resource for researchers outside the domain. In addition, we create an online open-source for both interested researchers who want to enter this rapidly developing domain and experts who would like to compare GRL methods.
翻訳日:2022-04-14 13:45:14 公開日:2022-04-13
# パラメトリック度比を持つ分布ロバストモデル

Distributionally Robust Models with Parametric Likelihood Ratios ( http://arxiv.org/abs/2204.06340v1 )

ライセンス: Link先を確認
Paul Michel, Tatsunori Hashimoto, Graham Neubig(参考訳) 機械学習モデルがより広くデプロイされるにつれて、トレーニングディストリビューションでうまく機能するだけでなく、分散シフトに直面した場合の正確な予測も可能になることがますます重要になる。 分散ロバスト最適化(Distributedally Robust Optimization, DRO)フレームワークは、テスト時間シフトを模倣するために、分散の集合の下で予測されるリスクを最小限に抑えるためのトレーニングモデルによってこの問題に対処することを提案する。 これは、トレーニング対象のインスタンスレベルの再重み付けによって可能となるテスト分布の確率比をエミュレートすることで、重要サンプリング(トレーニング分布のサブポピュレーションであると仮定した場合)を通じて経験的リスクを見積もることができる。 しかしながら、文献における再重み付けスキームは、最適化問題を抽出し難いことと正規化制約を強制する複雑さのために制限される。 本稿では, DRO を用いたモデル学習において, より広範なパラメトリック度比を用いて, ミニバッチレベルの正規化, KL のペナルティ, 同時勾配更新の3つの簡単な考え方を示す。 画像分類とテキスト分類のベンチマークによる一連の実験では、パラメトリックな逆数を用いてトレーニングされたモデルは、他のDRO手法と比較して、サブポピュレーションシフトに対して一貫して頑健であり、ハイパーパラメータチューニングがほとんどない状態で確実に機能することがわかった。 実験を再現するコードはhttps://github.com/pmichel31415/P-DROにある。

As machine learning models are deployed ever more broadly, it becomes increasingly important that they are not only able to perform well on their training distribution, but also yield accurate predictions when confronted with distribution shift. The Distributionally Robust Optimization (DRO) framework proposes to address this issue by training models to minimize their expected risk under a collection of distributions, to imitate test-time shifts. This is most commonly achieved by instance-level re-weighting of the training objective to emulate the likelihood ratio with possible test distributions, which allows for estimating their empirical risk via importance sampling (assuming that they are subpopulations of the training distribution). However, re-weighting schemes in the literature are usually limited due to the difficulty of keeping the optimization problem tractable and the complexity of enforcing normalization constraints. In this paper, we show that three simple ideas -- mini-batch level normalization, a KL penalty and simultaneous gradient updates -- allow us to train models with DRO using a broader class of parametric likelihood ratios. In a series of experiments on both image and text classification benchmarks, we find that models trained with the resulting parametric adversaries are consistently more robust to subpopulation shifts when compared to other DRO approaches, and that the method performs reliably well with little hyper-parameter tuning. Code to reproduce our experiments can be found at https://github.com/pmichel31415/P-DRO.
翻訳日:2022-04-14 13:44:52 公開日:2022-04-13
# 弱監視のための強化ラベリングによるラベル拡張

Label Augmentation with Reinforced Labeling for Weak Supervision ( http://arxiv.org/abs/2204.06436v1 )

ライセンス: Link先を確認
G\"urkan Solmaz, Flavio Cirillo, Fabio Maresca, Anagha Gode Anil Kumar(参考訳) 弱監督(WS)は、根底的な真実の必要性に対処する伝統的な教師付き学習の代替である。 データプログラミングは、各データポイントを手動でラベル付けするのではなく、ラベル付け機能(LF)を使用して、プログラムによるデータサンプルのラベル付けを可能にする実用的なWSアプローチである。 しかし、既存のアプローチでは、特にlfsのカバレッジが低い場合は、lfsにエンコードされたドメイン知識を完全に活用できない。 これは生成プロセス中にデータ機能を利用するのを怠る共通データプログラミングパイプラインのためです。 本稿では,強化ラベリング (RL) と呼ばれる新しい手法を提案する。 ラベルのないデータセットとLFのセットが与えられた後、RLはサンプル間の類似性に基づいてLFがカバーしていないケースにLFの出力を拡大する。 したがって、RLはエンド分類器を訓練するためのラベル付けのカバレッジを高めることができる。 いくつかのドメインの実験(YouTubeコメントの分類、ワインの品質、天気予報)により、かなりの利益が得られた。 新しいアプローチは、精度が21ポイント、f1スコアが61ポイントと、最先端のデータプログラミングアプローチに比べて大幅にパフォーマンスが向上する。

Weak supervision (WS) is an alternative to the traditional supervised learning to address the need for ground truth. Data programming is a practical WS approach that allows programmatic labeling data samples using labeling functions (LFs) instead of hand-labeling each data point. However, the existing approach fails to fully exploit the domain knowledge encoded into LFs, especially when the LFs' coverage is low. This is due to the common data programming pipeline that neglects to utilize data features during the generative process. This paper proposes a new approach called reinforced labeling (RL). Given an unlabeled dataset and a set of LFs, RL augments the LFs' outputs to cases not covered by LFs based on similarities among samples. Thus, RL can lead to higher labeling coverage for training an end classifier. The experiments on several domains (classification of YouTube comments, wine quality, and weather prediction) result in considerable gains. The new approach produces significant performance improvement, leading up to +21 points in accuracy and +61 points in F1 scores compared to the state-of-the-art data programming approach.
翻訳日:2022-04-14 13:44:25 公開日:2022-04-13
# 専門家・研究者のための科学技術資源の検索

Retrieval of Scientific and Technological Resources for Experts and Scholars ( http://arxiv.org/abs/2204.06142v1 )

ライセンス: Link先を確認
Suyu Ouyang and Yingxia Shao and Ang Li(参考訳) 高等教育機関、研究機関、その他の科学研究機関は、専門家や学者の豊富な科学・技術資源を有しており、これらの優れた科学・技術革新能力を持つ人材は、産業のアップグレードを促進する重要な力である。 専門家や学者の科学的・技術的資源は主に基本的な属性と科学的研究の成果から成り立っている。 基本的な属性には、研究関心、機関、教育労働経験などの情報が含まれる。 しかし、情報非対称性やその他の理由により、専門家や学者の科学的・技術的資源はタイムリーに社会と結びつくことはできず、社会的なニーズは専門家や学者と正確に一致できない。 そのため、専門家・学者情報データベースを構築し、関連する専門家・学者の検索サービスを提供する必要がある。 本稿では,関連する研究成果を,テキスト関係抽出,テキスト知識表現学習,テキストベクトル検索,可視化システムという4つの側面から整理する。

Institutions of higher learning, research institutes and other scientific research units have abundant scientific and technological resources of experts and scholars, and these talents with great scientific and technological innovation ability are an important force to promote industrial upgrading. The scientific and technological resources of experts and scholars are mainly composed of basic attributes and scientific research achievements. The basic attributes include information such as research interests, institutions, and educational work experience. However, due to information asymmetry and other reasons, the scientific and technological resources of experts and scholars cannot be connected with the society in a timely manner, and social needs cannot be accurately matched with experts and scholars. Therefore, it is very necessary to build an expert and scholar information database and provide relevant expert and scholar retrieval services. This paper sorts out the related research work in this field from four aspects: text relation extraction, text knowledge representation learning, text vector retrieval and visualization system.
翻訳日:2022-04-14 13:44:07 公開日:2022-04-13
# 低偽陽性条件におけるステアリングマルウェア分類器とAV

Stealing Malware Classifiers and AVs at Low False Positive Conditions ( http://arxiv.org/abs/2204.06241v1 )

ライセンス: Link先を確認
Maria Rigaki and Sebastian Garcia(参考訳) モデル盗難攻撃は多くの機械学習ドメインで成功したが、これらの攻撃がマルウェア検出ドメインでどのように動作するかはほとんど理解されていない。 マルウェア検出と一般には、セキュリティドメインは偽陽性率(FPR)の低い要求が非常に強い。 しかし、これらの要件は、既存のモデルを盗む文学の中心ではない。 ステアリング攻撃は、ターゲットに対する限られたクエリ量を使用して、ターゲットモデルと同様に動作する代理モデルを生成する。 本研究の第1段階は、市販のスタンドアロン機械学習マルウェア分類器およびアンチウイルス製品(avs)に対するアクティブラーニングモデル盗み攻撃の評価である。 本稿では,低FPR条件下での既存技術よりも優れたサロゲートモデルのための新しいニューラルネットワークアーキテクチャを提案する。 サーロゲートはターゲットモデルとの合意に基づいて評価された。 スタンドアローン分類器のよいサロゲートは、トレーニングデータセットサイズの4%未満を使用して、ターゲットモデルと最大99%の合意で作成されました。 良質なavサロゲートも訓練できたが、より低い合意に達した。 第2段階では、最高のサロゲートとターゲットモデルを使用して、MABフレームワークを使用してスタンドアロンモデルとAV(オフラインおよびオンライン)をテストする敵マルウェアを生成した。 その結果, サーロゲートモデルでは標的を回避できるが, ターゲット自体よりは成功しない敵のサンプルを生成できることがわかった。 しかし、AVがインターネットに接続されている場合、AVに対する攻撃は非常に時間がかかり、容易に検出できるため、攻撃者にとってサロゲートの使用は必須である。

Model stealing attacks have been successfully used in many machine learning domains, but there is little understanding of how these attacks work in the malware detection domain. Malware detection and, in general, security domains have very strong requirements of low false positive rates (FPR). However, these requirements are not the primary focus of the existing model stealing literature. Stealing attacks create surrogate models that perform similarly to a target model using a limited amount of queries to the target. The first stage of this study is the evaluation of active learning model stealing attacks against publicly available stand-alone machine learning malware classifiers and antivirus products (AVs). We propose a new neural network architecture for surrogate models that outperforms the existing state of the art on low FPR conditions. The surrogates were evaluated on their agreement with the targeted models. Good surrogates of the stand-alone classifiers were created with up to 99% agreement with the target models, using less than 4% of the original training dataset size. Good AV surrogates were also possible to train, but with a lower agreement. The second stage used the best surrogates as well as the target models to generate adversarial malware using the MAB framework to test stand-alone models and AVs (offline and online). Results showed that surrogate models could generate adversarial samples that evade the targets but are less successful than the targets themselves. Using surrogates, however, is a necessity for attackers, given that attacks against AVs are extremely time-consuming and easily detected when the AVs are connected to the internet.
翻訳日:2022-04-14 13:43:50 公開日:2022-04-13
# 深層学習のバックドア対策におけるロバストネスの批判的評価に向けて

Towards A Critical Evaluation of Robustness for Deep Learning Backdoor Countermeasures ( http://arxiv.org/abs/2204.06273v1 )

ライセンス: Link先を確認
Huming Qiu, Hua Ma, Zhi Zhang, Alsharif Abuadbba, Wei Kang, Anmin Fu, Yansong Gao(参考訳) 深層学習(DL)のバックドア攻撃は、最も悪質な敵攻撃の1つとして明らかにされて以来、それぞれの脅威モデルに特定の仮定で多くの対策が開発されてきた。 しかし、これらの対策の堅牢性は必然的に無視され、例えば、対策が誤用され、裏口検出の誤った影響をもたらすような深刻な結果をもたらす可能性がある。 本稿では,既存のバックドア対策の堅牢性を,ニューラルクリーンス(S&P'19),ABS(CCS'19),MNTD(S&P'21)の3つの有効なモデル検査に焦点を当てて,初めて批判的に検討する。 3つの対策は、それぞれの脅威モデルの下でうまく機能すると主張しているが、それらは本来、与えられたタスク、モデルアーキテクチャ、データセット、防衛ハイパーパラメータなどの要因によって、探索されていない非ロバストケースを持つ。 上記の要因を単純に変化させることで、それぞれの脅威モデルに沿ってそれらを自在にバイパスする方法を実証する。 特に、各防衛のためには、形式的な証明や実証的な研究が、2つの非ロバストなケース、特に最近のmntdの主張や期待ほど堅牢でないことを明らかにするのに使われている。 本研究は、未知の非破壊事例におけるセキュリティ上の誤解を招くことを避けるために、バックドア対策の堅牢性を徹底的に評価することの必要性を強調している。

Since Deep Learning (DL) backdoor attacks have been revealed as one of the most insidious adversarial attacks, a number of countermeasures have been developed with certain assumptions defined in their respective threat models. However, the robustness of these countermeasures is inadvertently ignored, which can introduce severe consequences, e.g., a countermeasure can be misused and result in a false implication of backdoor detection. For the first time, we critically examine the robustness of existing backdoor countermeasures with an initial focus on three influential model-inspection ones that are Neural Cleanse (S&P'19), ABS (CCS'19), and MNTD (S&P'21). Although the three countermeasures claim that they work well under their respective threat models, they have inherent unexplored non-robust cases depending on factors such as given tasks, model architectures, datasets, and defense hyper-parameter, which are \textit{not even rooted from delicate adaptive attacks}. We demonstrate how to trivially bypass them aligned with their respective threat models by simply varying aforementioned factors. Particularly, for each defense, formal proofs or empirical studies are used to reveal its two non-robust cases where it is not as robust as it claims or expects, especially the recent MNTD. This work highlights the necessity of thoroughly evaluating the robustness of backdoor countermeasures to avoid their misleading security implications in unknown non-robust cases.
翻訳日:2022-04-14 13:43:28 公開日:2022-04-13
# 命題記憶のための4つのアルゴリズム

Four algorithms for propositional forgetting ( http://arxiv.org/abs/2204.06528v1 )

ライセンス: Link先を確認
Paolo Liberatore(参考訳) 4つのアルゴリズムを比較した。 1つ目は可能なすべての解決を実行し、忘れるべき変数を含む節を削除する。 2つめは、変数を解決し、その変数で解決するすべての節を削除することで、時間内に変数を忘れてしまう。 3番目は、忘れるべき変数のすべての線形分解の結果を出力する。 4つ目は、バックトラック検索中に矛盾点から節を生成する。 後者は勝者として登場し、2番目と最初に特定の場合に何らかの役割を持つ。 この実装では線形分解能アルゴリズムは不十分である。

Four algorithms for propositional forgetting are compared. The first performs all possible resolutions and deletes the clauses containing a variable to forget. The second forgets a variable at time by resolving and then deleting all clauses that resolve on that variable. The third outputs the result of all possible linear resolutions on the variables to forget. The fourth generates a clause from the points of contradiction during a backtracking search. The latter emerges as the winner, with the second and first having some role in specific cases. The linear resolution algorithm performs poorly in this implementation.
翻訳日:2022-04-14 13:42:59 公開日:2022-04-13
# 光音響トモグラフィのベイズ逆問題における変分オートエンコーダの利用

Utilizing variational autoencoders in the Bayesian inverse problem of photoacoustic tomography ( http://arxiv.org/abs/2204.06270v1 )

ライセンス: Link先を確認
Teemu Sahlstr\"om, Tanja Tarvainen(参考訳) 逆問題やイメージングにおける機械学習手法の利用に対する関心が高まっている。 しかし、ほとんどの研究は画像再構成問題に集中しており、逆問題の完全な解に関する研究は限られている。 本研究では,光音響トモグラフィーのベイズ逆問題に対する機械学習に基づくアプローチについて検討する。 本稿では, 変分オートエンコーダに基づくアプローチを用いて, 光音響断層撮影における後方分布推定法を開発した。 この手法は数値シミュレーションを用いて評価し,ベイズ法を用いて逆問題の解法と比較した。

There has been an increasing interest in utilizing machine learning methods in inverse problems and imaging. Most of the work has, however, concentrated on image reconstruction problems, and the number of studies regarding the full solution of the inverse problem is limited. In this work, we study a machine learning based approach for the Bayesian inverse problem of photoacoustic tomography. We develop an approach for estimating the posterior distribution in photoacoustic tomography using an approach based on the variational autoencoder. The approach is evaluated with numerical simulations and compared to the solution of the inverse problem using a Bayesian approach.
翻訳日:2022-04-14 13:42:10 公開日:2022-04-13
# 監視情報を用いた騒々しい航空交通記録のコールサイン認識と理解

Call-sign recognition and understanding for noisy air-traffic transcripts using surveillance information ( http://arxiv.org/abs/2204.06309v1 )

ライセンス: Link先を確認
Alexander Blatt, Martin Kocour, Karel Vesel\'y, Igor Sz\"oke, Dietrich Klakow(参考訳) 航空交通管制(ATC)は、パイロットと航空交通管制官(ATCO)の間の音声による通信に依存している。 コールサインは、各フライトのユニークな識別子として、ATCOによって特定のパイロットに対処するために使用される。 ノイズの多いATC音声チャネルと受信機が導入する付加ノイズのため、通信からコールサインを抽出することは困難である。 音声中の低信号-雑音比(SNR)は、高い単語誤り率(WER)の転写につながる。 この問題に対処する新しいコールサイン認識・理解システム(CRU)を提案する。 認識器は、ノイズの多いATC文字起こしのコールサインを識別し、標準国際民間航空機関(ICAO)フォーマットに変換するよう訓練されている。 監視情報を組み込むことで、コールサイン精度(CSA)を4倍にすることができる。 導入されたデータ拡張は、高いWER文字の書き起こしにさらなるパフォーマンスを追加し、モデルの空域への適応を可能にする。

Air traffic control (ATC) relies on communication via speech between pilot and air-traffic controller (ATCO). The call-sign, as unique identifier for each flight, is used to address a specific pilot by the ATCO. Extracting the call-sign from the communication is a challenge because of the noisy ATC voice channel and the additional noise introduced by the receiver. A low signal-to-noise ratio (SNR) in the speech leads to high word error rate (WER) transcripts. We propose a new call-sign recognition and understanding (CRU) system that addresses this issue. The recognizer is trained to identify call-signs in noisy ATC transcripts and convert them into the standard International Civil Aviation Organization (ICAO) format. By incorporating surveillance information, we can multiply the call-sign accuracy (CSA) up to a factor of four. The introduced data augmentation adds additional performance on high WER transcripts and allows the adaptation of the model to unseen airspaces.
翻訳日:2022-04-14 13:42:01 公開日:2022-04-13
# 車両データ公開のための5Gの特徴と規格

5G Features and Standards for Vehicle Data Exploitation ( http://arxiv.org/abs/2204.06211v1 )

ライセンス: Link先を確認
Gorka Velez (1), Edoardo Bonetto (2), Daniele Brevi (2), Angel Martin (1), Gianluca Rizzi (3), Oscar Casta\~neda (4), Arslane Hamza Cherif (5), Marcos Nieto (1), Oihana Otaegui (1) ((1) Vicomtech Foundation, (2) Links Foundation, (3) Wind Tre, (4) Dekra, (5) UNIMORE & ICOOR)(参考訳) 自動車は、運転のダイナミクス、環境、運転者と乗客の活動に関する膨大なデータをリアルタイムで収集し、生成する。 協調、コネクテッド、自動モビリティ(ccam)の普及により、自動車産業だけでなく、中小企業やスタートアップを含む多くの利害関係者にとっても、自動車からのデータの価値は戦略的に向上している。 5Gは、車に格納されたデータをクラウドにデプロイされた革新的なアプリケーションやサービスに供給することで、従来のセルラー技術よりもレイテンシとスループットを低くすることができる。 本稿では、スケーラブルでフレキシブルで、信頼性が高く、セキュアなデータパイプラインに寄与する主要な5G機能の重要性を特定し、その実装を規定する標準と技術的レポートを示す。

Cars capture and generate huge volumes of data in real-time about the driving dynamics, the environment, and the driver and passengers' activities. Due to the proliferation of cooperative, connected and automated mobility (CCAM), the value of data from vehicles is getting strategic, not just for the automotive industry, but also for many diverse stakeholders including small and medium-sized enterprises (SMEs) and start-ups. 5G can enable car-captured data to feed innovative applications and services deployed in the cloud ensuring lower latency and higher throughput than previous cellular technologies. This paper identifies and discusses the relevance of the main 5G features that can contribute to a scalable, flexible, reliable and secure data pipeline, pointing to the standards and technical reports that specify their implementation.
翻訳日:2022-04-14 13:41:46 公開日:2022-04-13
# (参考訳) A9-Dataset: モビリティ研究のためのマルチセンサインフラストラクチャベースのデータセット

A9-Dataset: Multi-Sensor Infrastructure-Based Dataset for Mobility Research ( http://arxiv.org/abs/2204.06527v1 )

ライセンス: CC BY 4.0
Christian Cre{\ss}, Walter Zimmer, Leah Strand, Venkatnarayanan Lakshminarasimhan, Maximilian Fortkord, Siyi Dai and Alois Knoll(参考訳) データ集約型機械学習技術は、将来のモビリティソリューションの開発において、自動車の運転支援や自動化機能から、専用のインフラによって実現されるリアルタイム交通管理システムに至るまで、ますます重要な役割を果たす。 高品質な実世界のデータが利用できることは、大規模なシステムの開発と信頼性の高い展開にとって重要な前提条件であることが多い。 この取り組みに向けて、ドイツのミュンヘン近郊の3kmのprovidentia++テストフィールドからロードサイドセンサインフラストラクチャに基づくa9データセットを提示する。 データセットには、匿名化および高精度なマルチモーダルセンサと、さまざまなトラフィック状況をカバーする高分解能のオブジェクトデータが含まれている。 本稿では,本論文で述べる最初のデータセットの一部として,a9オートバーン上の2つの架空ガントリー橋のカメラとライダーフレームと,対応する3dバウンディングボックスのラベル付きオブジェクトを提供する。 最初のセットには、1000以上のセンサーフレームと14000のトラフィックオブジェクトが含まれている。 データセットはhttps://a9-dataset.comからダウンロードできる。

Data-intensive machine learning based techniques increasingly play a prominent role in the development of future mobility solutions - from driver assistance and automation functions in vehicles, to real-time traffic management systems realized through dedicated infrastructure. The availability of high quality real-world data is often an important prerequisite for the development and reliable deployment of such systems in large scale. Towards this endeavour, we present the A9-Dataset based on roadside sensor infrastructure from the 3 km long Providentia++ test field near Munich in Germany. The dataset includes anonymized and precision-timestamped multi-modal sensor and object data in high resolution, covering a variety of traffic situations. As part of the first set of data, which we describe in this paper, we provide camera and LiDAR frames from two overhead gantry bridges on the A9 autobahn with the corresponding objects labeled with 3D bounding boxes. The first set includes in total more than 1000 sensor frames and 14000 traffic objects. The dataset is available for download at https://a9-dataset.com.
翻訳日:2022-04-14 13:38:06 公開日:2022-04-13
# 公正なアルゴリズム設計:公正で効率的なマシンスケジューリング

Fair Algorithm Design: Fair and Efficacious Machine Scheduling ( http://arxiv.org/abs/2204.06438v1 )

ライセンス: Link先を確認
April Niu, Agnes Totschnig, Adrian Vetta(参考訳) 自動決定アルゴリズムによってバイアスが誘導される多くの実践例に動機付けられ、近年、公正アルゴリズムの設計に強い関心が寄せられている。 しかし、公正性と有効性の間には二分されることが多く、公正なアルゴリズムは低い社会福祉の解決をもたらすが、福祉最適化アルゴリズムは非常に不公平である。 この問題は、機械スケジューリング問題において例示されており、$n$ジョブの場合、公正なソリューションの社会的福祉は、最適な福祉よりも悪い$\Omega(n)$ファクタである可能性がある。 本稿では, 公平性と有効性の二分法が, 「ほぼ完全に公平」であり, 一定の因子有効率を持つアルゴリズムが存在すること, すなわち, 社会福祉を最適福祉の一定の要因内に持つ解を出力することが保証されていることを証明した。 具体的には、$\epsilon>0$に対して、有効率$\Theta(\frac{1}{\epsilon})$のメカニズムが存在し、最も公平なソリューション(個人データや型データを使用しないアルゴリズムによって)に比較して$\epsilon$分の1以上のエージェントは存在しない。 さらに、これらのbicriteriaの保証は厳密であり、単一マシンケースと複数マシンケースの両方に適用できる。 私たちの結果の鍵は、Paretoスケジューリングメカニズムの使用です。 これらのメカニズムは、個人またはタイプデータの司法的利用によって、個々の個人に利益をもたらすパレートの改善を利用することができる。 このパラダイムは、偏見を無視するコストで性能を大幅に向上させる公平なアルゴリズムによる個人データの司法的利用であり、幅広い応用が期待できる。

Motivated by a plethora of practical examples where bias is induced by automated-decision making algorithms, there has been strong recent interest in the design of fair algorithms. However, there is often a dichotomy between fairness and efficacy: fair algorithms may proffer low social welfare solutions whereas welfare optimizing algorithms may be very unfair. This issue is exemplified in the machine scheduling problem where, for $n$ jobs, the social welfare of any fair solution may be a factor $\Omega(n)$ worse than the optimal welfare. In this paper, we prove that this dichotomy between fairness and efficacy can be overcome if we allow for a negligible amount of bias: there exist algorithms that are both "almost perfectly fair" and have a constant factor efficacy ratio, that is, are guaranteed to output solutions that have social welfare within a constant factor of optimal welfare. Specifically, for any $\epsilon>0$, there exist mechanisms with efficacy ratio $\Theta(\frac{1}{\epsilon})$ and where no agent is more than an $\epsilon$ fraction worse off than they are in the fairest possible solution (given by an algorithm that does not use personal or type data). Moreover, these bicriteria guarantees are tight and apply to both the single machine case and the multiple machine case. The key to our results are the use of Pareto scheduling mechanisms. These mechanisms, by the judicious use of personal or type data, are able to exploit Pareto improvements that benefit every individual; such Pareto improvements would typically be forbidden by fair scheduling algorithms designed to satisfy standard statistical measures of group fairness. We anticipate this paradigm, the judicious use of personal data by a fair algorithm to greatly improve performance at the cost of negligible bias, has wider application.
翻訳日:2022-04-14 13:25:55 公開日:2022-04-13
# coap: 構成的な人格的占有率

COAP: Compositional Articulated Occupancy of People ( http://arxiv.org/abs/2204.06184v1 )

ライセンス: Link先を確認
Marko Mihajlovic, Shunsuke Saito, Aayush Bansal, Michael Zollhoefer, Siyu Tang(参考訳) 人体を明瞭に表現する新しい神経暗黙表現法を提案する。 明示的なテンプレートメッシュと比較して、神経暗黙の身体表現は環境との相互作用をモデル化するための効率的なメカニズムを提供する。 しかし、既存の神経暗黙の体は、高度に明瞭なポーズや遅い推測時間に対する一般化が不十分である。 本研究では, 人体形状や運動構造に関する事前知識を活用して, 一般化と効率性を向上させることを観察する。 全身形状を局所的な部位に分解し,部分認識エンコーダ・デコーダアーキテクチャを用いて,局所的な複雑な変形をモデル化するニューラルコグニケート占有を学習する。 局所形状エンコーダは、対応する体部だけでなく、隣接する体部の身体変形を表す。 デコーダは局所体形状の幾何学的制約を取り入れ、ポーズ一般化を大幅に改善する。 本モデルは,3次元環境との自己干渉や衝突を解決するのに適していることを示す。 定量的および定性的な実験により,本手法は効率と精度の両方で既存手法よりも優れていることがわかった。 コードとモデルはhttps://neuralbodies.github.io/coap/index.htmlで入手できる。

We present a novel neural implicit representation for articulated human bodies. Compared to explicit template meshes, neural implicit body representations provide an efficient mechanism for modeling interactions with the environment, which is essential for human motion reconstruction and synthesis in 3D scenes. However, existing neural implicit bodies suffer from either poor generalization on highly articulated poses or slow inference time. In this work, we observe that prior knowledge about the human body's shape and kinematic structure can be leveraged to improve generalization and efficiency. We decompose the full-body geometry into local body parts and employ a part-aware encoder-decoder architecture to learn neural articulated occupancy that models complex deformations locally. Our local shape encoder represents the body deformation of not only the corresponding body part but also the neighboring body parts. The decoder incorporates the geometric constraints of local body shape which significantly improves pose generalization. We demonstrate that our model is suitable for resolving self-intersections and collisions with 3D environments. Quantitative and qualitative experiments show that our method largely outperforms existing solutions in terms of both efficiency and accuracy. The code and models are available at https://neuralbodies.github.io/COAP/index.html
翻訳日:2022-04-14 13:24:52 公開日:2022-04-13
# 部分ビデオ領域適応のためのマルチモーダル情報を用いたクラスウェイト校正

Calibrating Class Weights with Multi-Modal Information for Partial Video Domain Adaptation ( http://arxiv.org/abs/2204.06187v1 )

ライセンス: Link先を確認
Xiyu Wang, Yuecong Xu, Kezhi Mao, Jianfei Yang(参考訳) ソースラベル空間が対象と仮定すると、部分ビデオ領域適応(PVDA)は、クロスドメインビデオ分類問題に対してより一般的で実践的なシナリオである。 PVDAの主な課題は、ソースのみの外れ値クラスによる負の転送を緩和することである。 この課題に取り組むための重要なステップは、ターゲットの予測を集約し、ターゲットのクラスを高くして、クラスの重み付けを割り当てることである。 しかし、クラス重みの誤った予測はネットワークを誤解し、負の転送につながる可能性がある。 以前の研究は、時間的特徴と注意機構を利用してクラスウェイトの精度を向上させるが、実際のシナリオのように、ドメインシフトが重要な場合、これらの手法は正確なクラスウェイトを生成しようとすると不足する可能性がある。 これらの課題に対処するため,マルチモダリティクラスタ校正部分適応ネットワーク(MCAN)を提案する。 MCANは、複数の時間スケールからのマルチモーダル機能によるビデオ特徴抽出を強化し、より堅牢な全体的な特徴を形成する。 不正なクラス重みによる負の移動を緩和するために、新しいクラス重みの校正法を用いる。 キャリブレーション手法は,教師なしクラスタリングに暗示される分布情報を用いて,正確かつ不正確な予測を同定し,重み付けを試みる。 一般のPVDAベンチマークで大規模な実験を行い、提案手法は最先端のPVDA法と比較して大幅に改善されている。

Assuming the source label space subsumes the target one, Partial Video Domain Adaptation (PVDA) is a more general and practical scenario for cross-domain video classification problems. The key challenge of PVDA is to mitigate the negative transfer caused by the source-only outlier classes. To tackle this challenge, a crucial step is to aggregate target predictions to assign class weights by up-weighing target classes and down-weighing outlier classes. However, the incorrect predictions of class weights can mislead the network and lead to negative transfer. Previous works improve the class weight accuracy by utilizing temporal features and attention mechanisms, but these methods may fall short when trying to generate accurate class weight when domain shifts are significant, as in most real-world scenarios. To deal with these challenges, we propose the Multi-modality Cluster-calibrated partial Adversarial Network (MCAN). MCAN enhances video feature extraction with multi-modal features from multiple temporal scales to form more robust overall features. It utilizes a novel class weight calibration method to alleviate the negative transfer caused by incorrect class weights. The calibration method tries to identify and weigh correct and incorrect predictions using distributional information implied by unsupervised clustering. Extensive experiments are conducted on prevailing PVDA benchmarks, and the proposed MCAN achieves significant improvements when compared to state-of-the-art PVDA methods.
翻訳日:2022-04-14 13:24:32 公開日:2022-04-13
# 物理世界におけるロバスト認識のための防御パッチ

Defensive Patches for Robust Recognition in the Physical World ( http://arxiv.org/abs/2204.06213v1 )

ライセンス: Link先を確認
Jiakai Wang, Zixin Yin, Pengfei Hu, Aishan Liu, Renshuai Tao, Haotong Qin, Xianglong Liu, Dacheng Tao(参考訳) 現実世界のハイテク環境で運用するには、ディープラーニングシステムは、その堅牢性を継続的に抑制してきたノイズに耐えなければならない。 データエンドディフェンス(data-end defense)は、モデルの修正ではなく、入力データの操作によるロバスト性を向上させる。 しかし、これまでのデータ・エンドのディフェンスでは、様々なノイズに対する低一般化と、複数のモデルにわたる弱い転送可能性を示している。 強固な認識は局所的特徴とグローバルな特徴の両方に依存するという事実に動機づけられ、我々はモデルがこれらの特徴をよりうまく活用するのを助けることによって、これらの問題に対処する防御的パッチ生成フレームワークを提案する。 多様な雑音に対する一般化のために,事前に限定された局所パッチにクラス固有の識別可能なパターンを注入することにより,特定のクラスに対するより認識可能な特徴を防御パッチが保持し,ノイズ下での認識を改善するモデルが導かれる。 複数のモデル間の転送可能性については、防御パッチをクラス内でよりグローバルな特徴相関を捉えるようにガイドし、モデル共有されたグローバルな知覚を活性化し、モデル間でよりよく伝達できるようにします。 私たちの防御パッチは、ターゲットオブジェクトに貼り付けるだけで、アプリケーションの堅牢性を改善する大きな可能性を示しています。 広範囲な実験により、私たちは他の人を大きなマージンで上回っている(デジタルと物理的な世界で平均して敵意と腐敗の強固さの両方に対して20+2%の正確さが向上している)。 私たちのコードはhttps://github.com/nlsde-safety-team/DefensivePatchで利用可能です。

To operate in real-world high-stakes environments, deep learning systems have to endure noises that have been continuously thwarting their robustness. Data-end defense, which improves robustness by operations on input data instead of modifying models, has attracted intensive attention due to its feasibility in practice. However, previous data-end defenses show low generalization against diverse noises and weak transferability across multiple models. Motivated by the fact that robust recognition depends on both local and global features, we propose a defensive patch generation framework to address these problems by helping models better exploit these features. For the generalization against diverse noises, we inject class-specific identifiable patterns into a confined local patch prior, so that defensive patches could preserve more recognizable features towards specific classes, leading models for better recognition under noises. For the transferability across multiple models, we guide the defensive patches to capture more global feature correlations within a class, so that they could activate model-shared global perceptions and transfer better among models. Our defensive patches show great potentials to improve application robustness in practice by simply sticking them around target objects. Extensive experiments show that we outperform others by large margins (improve 20+\% accuracy for both adversarial and corruption robustness on average in the digital and physical world). Our codes are available at https://github.com/nlsde-safety-team/DefensivePatch
翻訳日:2022-04-14 13:24:07 公開日:2022-04-13
# 3D-SPS: Referred Point Progressive Selectionによるワンステージ3次元視覚グラウンド

3D-SPS: Single-Stage 3D Visual Grounding via Referred Point Progressive Selection ( http://arxiv.org/abs/2204.06272v1 )

ライセンス: Link先を確認
Junyu Luo, Jiahui Fu, Xianghao Kong, Chen Gao, Haibing Ren, Hao Shen, Huaxia Xia, Si Liu(参考訳) 3dビジュアルグラウンドは、フリーフォーム言語記述に従って、参照対象オブジェクトを3dポイントクラウドシーンに配置することを目的としている。 以前の手法は、主に2段階のパラダイム、すなわち孤立したアーキテクチャによって制限された言語非関係検出とクロスモーダルマッチングに従う。 このようなパラダイムでは、検出器は3次元点雲(不規則かつ大規模)の性質から生の点雲からキーポイントをサンプリングし、各キーポイントに対して対応するオブジェクトの提案を生成する必要がある。 しかし、スパースの提案は検出対象を除外し、密接な提案はマッチングモデルを混乱させる可能性がある。 さらに、言語非関連検出段階は、ターゲット上のキーポイントのごく一部しかサンプリングできず、ターゲット予測が劣化する。 本稿では,言語指導によりキーポイントを段階的に選択し,直接目標を特定できる3次元単段参照点プログレッシブセレクション(3d-sps)法を提案する。 具体的には,記述対応キーポイントサンプリング(DKS)モジュールを提案する。 さらに、ターゲット指向のプログレッシブマイニング(TPM)モジュールを考案し、ターゲットのポイントを微妙に集中させ、プログレッシブ・モーダル・リレーショナル・モデリングとモーダル・ターゲットマイニングによって実現した。 3D-SPSは、3D視覚グラウンドタスクにおける検出とマッチングのギャップを埋め、ターゲットを1つのステージに配置する。 実験によると、3D-SPSはScanReferとNr3D/Sr3Dデータセットの両方で最先端のパフォーマンスを実現する。

3D visual grounding aims to locate the referred target object in 3D point cloud scenes according to a free-form language description. Previous methods mostly follow a two-stage paradigm, i.e., language-irrelevant detection and cross-modal matching, which is limited by the isolated architecture. In such a paradigm, the detector needs to sample keypoints from raw point clouds due to the inherent properties of 3D point clouds (irregular and large-scale), to generate the corresponding object proposal for each keypoint. However, sparse proposals may leave out the target in detection, while dense proposals may confuse the matching model. Moreover, the language-irrelevant detection stage can only sample a small proportion of keypoints on the target, deteriorating the target prediction. In this paper, we propose a 3D Single-Stage Referred Point Progressive Selection (3D-SPS) method, which progressively selects keypoints with the guidance of language and directly locates the target. Specifically, we propose a Description-aware Keypoint Sampling (DKS) module to coarsely focus on the points of language-relevant objects, which are significant clues for grounding. Besides, we devise a Target-oriented Progressive Mining (TPM) module to finely concentrate on the points of the target, which is enabled by progressive intra-modal relation modeling and inter-modal target mining. 3D-SPS bridges the gap between detection and matching in the 3D visual grounding task, localizing the target at a single stage. Experiments demonstrate that 3D-SPS achieves state-of-the-art performance on both ScanRefer and Nr3D/Sr3D datasets.
翻訳日:2022-04-14 13:23:41 公開日:2022-04-13
# 不織布の曇り評価

Assessing cloudiness in nonwovens ( http://arxiv.org/abs/2204.06275v1 )

ライセンス: Link先を確認
Michael Godehardt and Ali Moghiseh and Christine Oetjen and Joachim Ohser and Simon Ringger and Katja Schladitz and Ingo Windschiegel(参考訳) フィルター媒体の均質性は, 特定の重量(固有グラム)と局所重量分布とともに, 材料選択と品質管理に重要である。 曇り (cloudiness) または形成 ( formation) は、フィルタ媒体における均質性からの逸脱を記述するために用いられる概念である。 我々は,選択した周波数範囲に結合した相対的局所的アレルウェイトのパワースペクトルから曇り指数を求める。 パワースペクトルは広いスペクトル範囲のエネルギー密度を捕捉する。 さらに、ある条件下では、非織布の構造は、アレンジ重量、局所アレンジ重量のばらつき、パワースペクトルによって完全に特徴づけられる。 したがって、パワースペクトルは、曇りを排他的に反映するパラメータである。 ここでは,実用的応用から生じる課題について述べる。 最も顕著なのはスペクトルバンドの選択である。 それは確かに特徴的な「雲の大きさ」に依存するが、画像のサイズと横分解能によって制限される。 本研究は, 相対的局所軸重みのパワースペクトルに基づく曇り指数が理論的に良好に確立され, 画像データから頑健に測定できることを示す。 スペクトル帯を選択することで、視覚的に知覚されたり、製品特性に決定的であったりする曇りを捉えることができる。 そのため、技術標準を構築するのに適している。

The homogeneity of filter media is important for material selection and quality control, along with the specific weight (nominal grammage) and the distribution of the local weight. Cloudiness or formation is a concept used to describe deviations from homogeneity in filter media. We suggest to derive the cloudiness index from the power spectrum of the relative local areal weight, integrated over a selected frequency range. The power spectrum captures the energy density in a broad spectral range. Moreover, under certain conditions, the structure of a nonwoven is fully characterized by the areal weight, the variance of the local areal weight, and the power spectrum. Consequently, the power spectrum is the parameter that exclusively reflects the cloudiness. Here, we address questions arising from practical application. The most prominent is the choice of the spectral band. It certainly depends on the characteristic "size of the clouds", but is limited by the size and lateral resolution of the images. We show that the cloudiness index based on the power spectrum of the relative local areal weight is theoretically well founded and can be robustly measured from image data. Choosing the spectral band allows to capture the cloudiness either visually perceived or found to be decisive for product properties. It is thus well suited to build a technical standard on it.
翻訳日:2022-04-14 13:22:08 公開日:2022-04-13
# 機能の再利用:検索と特徴量アライメントの統合

Reuse your features: unifying retrieval and feature-metric alignment ( http://arxiv.org/abs/2204.06292v1 )

ライセンス: Link先を確認
Javier Morlana and J.M.M. Montiel(参考訳) 画像検索,候補再ランク付け,初期ポーズ推定,カメラポーズ補正など,視覚的ローカライゼーションのすべてのステップを統合するためのコンパクトパイプラインを提案する。 私たちの重要な前提は、個々のタスクで使用される深い機能は共通の特性を共有しているので、パイプラインのすべての手順でそれらを再利用すべきである、ということです。 我々のDRAN(Deep Retrieval and image Alignment Network)は、効率的な画像検索のためのグローバルな記述子を抽出し、中間階層的特徴を用いて検索リストを再ランクし、初期ポーズ推定を生成する。 DRANは視覚的ローカライゼーションの3段階の機能を生成できる最初のシングルネットワークである。 DRANは、特に夜間の極端な変化において、堅牢性と精度の点で競争力のある性能を達成する。

We propose a compact pipeline to unify all the steps of Visual Localization: image retrieval, candidate re-ranking and initial pose estimation, and camera pose refinement. Our key assumption is that the deep features used for these individual tasks share common characteristics, so we should reuse them in all the procedures of the pipeline. Our DRAN (Deep Retrieval and image Alignment Network) is able to extract global descriptors for efficient image retrieval, use intermediate hierarchical features to re-rank the retrieval list and produce an intial pose guess, which is finally refined by means of a feature-metric optimization based on learned deep multi-scale dense features. DRAN is the first single network able to produce the features for the three steps of visual localization. DRAN achieves a competitive performance in terms of robustness and accuracy specially in extreme day-night changes.
翻訳日:2022-04-14 13:21:47 公開日:2022-04-13
# 3次元認識画像合成のための多視点整合生成型逆ネットワーク

Multi-View Consistent Generative Adversarial Networks for 3D-aware Image Synthesis ( http://arxiv.org/abs/2204.06307v1 )

ライセンス: Link先を確認
Xuanmeng Zhang, Zhedong Zheng, Daiheng Gao, Bang Zhang, Pan Pan, Yi Yang(参考訳) 3D認識画像合成は、3D表現を学習することにより、複数のビューからオブジェクトの画像を生成することを目的としている。 既存のアプローチには幾何学的制約がないため、通常はマルチビュー一貫性のある画像を生成することができない。 そこで本研究では,高画質3d認識画像合成のための多視点整合生成逆ネットワーク (mvcgan) を提案する。 生成画像の基底となる3次元形状情報,すなわち深度およびカメラ変換行列を活用することにより,ビュー間のステレオ対応を明確化し,マルチビュー共同最適化を行う。 特に、対のビュー間の測光一貫性を強制し、ステレオミックスアップ機構をトレーニングプロセスに統合し、モデルに正しい3d形状を判断するよう促す。 さらに,画像品質を改善するために,特徴レベル多視点共同最適化を用いた2段階トレーニング戦略を設計する。 3つのデータセットに対する大規模な実験により、MVGANは3D認識画像合成の最先端性能を達成することが示された。

3D-aware image synthesis aims to generate images of objects from multiple views by learning a 3D representation. However, one key challenge remains: existing approaches lack geometry constraints, hence usually fail to generate multi-view consistent images. To address this challenge, we propose Multi-View Consistent Generative Adversarial Networks (MVCGAN) for high-quality 3D-aware image synthesis with geometry constraints. By leveraging the underlying 3D geometry information of generated images, i.e., depth and camera transformation matrix, we explicitly establish stereo correspondence between views to perform multi-view joint optimization. In particular, we enforce the photometric consistency between pairs of views and integrate a stereo mixup mechanism into the training process, encouraging the model to reason about the correct 3D shape. Besides, we design a two-stage training strategy with feature-level multi-view joint optimization to improve the image quality. Extensive experiments on three datasets demonstrate that MVCGAN achieves the state-of-the-art performance for 3D-aware image synthesis.
翻訳日:2022-04-14 13:21:29 公開日:2022-04-13
# 自由選択されたヒト四肢キーポイントの認識

Recognition of Freely Selected Keypoints on Human Limbs ( http://arxiv.org/abs/2204.06326v1 )

ライセンス: Link先を確認
Katja Ludwig, Daniel Kienzle, Rainer Lienhart(参考訳) ほぼすべてのヒューマンポーズ推定(hpe)データセットは、固定されたキーポイントからなる。 このようなデータセットでトレーニングされた標準hpeモデルは、これらのキーポイントのみを検出することができる。 より多くのポイントが必要な場合、手動でアノテートし、モデルを再トレーニングする必要があります。 我々のアプローチでは、Vision Transformerアーキテクチャを利用して、モデルの能力を拡張し、人の手足の任意のキーポイントを検出する。 所望のキーポイントをエンコードする2つの異なる手法を提案する。 1) 各キーポイントは、固定されたセットから2つの閉じたキーポイントの間の線の位置と、この線と四肢の縁の間の相対距離によって定義される。 2)キーポイントはノルムポーズ上の座標として定義される。 どちらのアプローチもTokenPoseアーキテクチャに基づいており、固定キーポイントに対応するキーポイントトークンは新たなモジュールに置き換えられています。 実験の結果,固定キーポイントのTokenPoseと同じような結果が得られ,手足の任意のキーポイントを検出できることがわかった。

Nearly all Human Pose Estimation (HPE) datasets consist of a fixed set of keypoints. Standard HPE models trained on such datasets can only detect these keypoints. If more points are desired, they have to be manually annotated and the model needs to be retrained. Our approach leverages the Vision Transformer architecture to extend the capability of the model to detect arbitrary keypoints on the limbs of persons. We propose two different approaches to encode the desired keypoints. (1) Each keypoint is defined by its position along the line between the two enclosing keypoints from the fixed set and its relative distance between this line and the edge of the limb. (2) Keypoints are defined as coordinates on a norm pose. Both approaches are based on the TokenPose architecture, while the keypoint tokens that correspond to the fixed keypoints are replaced with our novel module. Experiments show that our approaches achieve similar results to TokenPose on the fixed keypoints and are capable of detecting arbitrary keypoints on the limbs.
翻訳日:2022-04-14 13:21:10 公開日:2022-04-13
# 単一偏光画像からの透明形状

Transparent Shape from Single Polarization Images ( http://arxiv.org/abs/2204.06331v1 )

ライセンス: Link先を確認
Shao Mingqi, Xia Chongkun, Yang Zhendong, Huang Junnan, Wang Xueqian(参考訳) 本稿では,偏光からの透明な形状に対するデータ駆動アプローチを提案する。 本質的に高い透過率のため、鏡面反射モデルに基づく偏光(sfp)法による以前の形状は透明な形状の推定が困難であり、透過的なsfpのためのデータセットの欠如もデータ駆動アプローチの適用を制限している。 そこで我々は,合成と実世界の両方のデータセットからなる透明なSfPデータセットを構築した。 物理に基づく反射モデルの信頼性を決定するため,偏光情報固有の欠陥を利用して物理に基づく事前信頼度を定義し,その信頼度を埋め込むマルチブランチ融合ネットワークを提案する。 実験の結果,本手法は他のSfP法よりも優れていた。 従来の方法と比較して、平均角誤差は19.00^\circ$、14.91^\circ$は16.72^\circ$、13.36^\circ$、精度は11.25^\circ、22.5^\circ、30^\circ$が38.36\%、77.36\%、87.48\%$$$が45.51\%、78.86\%、89.98\%$$である。

This paper presents a data-driven approach for transparent shape from polarization. Due to the inherent high transmittance, the previous shape from polarization(SfP) methods based on specular reflection model have difficulty in estimating transparent shape, and the lack of datasets for transparent SfP also limits the application of the data-driven approach. Hence, we construct the transparent SfP dataset which consists of both synthetic and real-world datasets. To determine the reliability of the physics-based reflection model, we define the physics-based prior confidence by exploiting the inherent fault of polarization information, then we propose a multi-branch fusion network to embed the confidence. Experimental results show that our approach outperforms other SfP methods. Compared with the previous method, the mean and median angular error of our approach are reduced from $19.00^\circ$ and $14.91^\circ$ to $16.72^\circ$ and $13.36^\circ$, and the accuracy $11.25^\circ, 22.5^\circ, 30^\circ$ are improved from $38.36\%, 77.36\%, 87.48\%$ to $45.51\%, 78.86\%, 89.98\%$, respectively.
翻訳日:2022-04-14 13:20:55 公開日:2022-04-13
# DMCNet:ビデオ画面からのエンゲージメント理解のための多様なモデル結合ネットワーク

DMCNet: Diversified Model Combination Network for Understanding Engagement from Video Screengrabs ( http://arxiv.org/abs/2204.06454v1 )

ライセンス: Link先を確認
Sarthak Batra, Hewei Wang, Avishek Nag, Philippe Brodeur, Marianne Checkley, Annette Klinkert, and Soumyabrata Dev(参考訳) エンゲージメントはQoLE(Quality-of-Learning Experience)の重要な指標であり、インテリジェントな教育インターフェースの開発において重要な役割を果たしている。 大規模なオープンオンラインコース(moocs)やその他のオンラインリソースを通じて学ぶ人の数は、いつでもどこでも学べる柔軟性を提供するため、急速に増加している。 これは学生によい学習体験を提供する。 しかし、このような学習インタフェースには、総合的な学習体験のための学生の関与度レベルを認識する能力が必要である。 これは生徒にも教育者にも役に立つ。 しかし、主観性とデータ収集能力のため、エンゲージメントを理解することは難しい課題である。 本稿では,ビデオスクリーングラブのオープンソースデータセットに基づいて訓練された様々なモデルを提案する。 我々の非深層学習モデルは,Histogram of Oriented Gradient (HOG), Support Vector Machine (SVM), Scale Invariant Feature Transform (SIFT), Speeded Up Robust Features (SURF)といった一般的なアルゴリズムの組み合わせに基づいている。 ディープラーニングには、Densely Connected Convolutional Networks (DenseNet-121)、Residual Network (ResNet-18)、MobileNetV1がある。 本稿では、Gini Index、Adjusted F-Measure (AGF)、Area Under receiver operating characteristic Curve (AUC)といった様々な指標を用いて、各モデルの性能を示す。 我々は,主成分分析 (PCA) や t-Distributed Stochastic Neighbor Embedding (T-SNE) といった様々な次元削減手法を用いて,特徴空間内のデータの分布を理解する。 これにより、教育者や学生が実りある効率的なオンライン学習体験を得るのに役立ちます。

Engagement is an essential indicator of the Quality-of-Learning Experience (QoLE) and plays a major role in developing intelligent educational interfaces. The number of people learning through Massively Open Online Courses (MOOCs) and other online resources has been increasing rapidly because they provide us with the flexibility to learn from anywhere at any time. This provides a good learning experience for the students. However, such learning interface requires the ability to recognize the level of engagement of the students for a holistic learning experience. This is useful for both students and educators alike. However, understanding engagement is a challenging task, because of its subjectivity and ability to collect data. In this paper, we propose a variety of models that have been trained on an open-source dataset of video screengrabs. Our non-deep learning models are based on the combination of popular algorithms such as Histogram of Oriented Gradient (HOG), Support Vector Machine (SVM), Scale Invariant Feature Transform (SIFT) and Speeded Up Robust Features (SURF). The deep learning methods include Densely Connected Convolutional Networks (DenseNet-121), Residual Network (ResNet-18) and MobileNetV1. We show the performance of each models using a variety of metrics such as the Gini Index, Adjusted F-Measure (AGF), and Area Under receiver operating characteristic Curve (AUC). We use various dimensionality reduction techniques such as Principal Component Analysis (PCA) and t-Distributed Stochastic Neighbor Embedding (t-SNE) to understand the distribution of data in the feature sub-space. Our work will thereby assist the educators and students in obtaining a fruitful and efficient online learning experience.
翻訳日:2022-04-14 13:20:26 公開日:2022-04-13
# spoofgan:合成指紋spoof画像

SpoofGAN: Synthetic Fingerprint Spoof Images ( http://arxiv.org/abs/2204.06498v1 )

ライセンス: Link先を確認
Steven A. Grosz and Anil K. Jain(参考訳) 指紋spoof検出の進歩に対する大きな制限は、一般公開された大規模指紋spoofデータセットの欠如である。 さらに、最先端のspoof検出アルゴリズムの多くは、大量のトレーニングデータが存在する場合に最適なディープネットワークに依存している。 この研究は、公開されている実際のデータセットの限られた量のトレーニングにおいて、指紋スプーフ検出アルゴリズムの性能を向上させるために、これらのアルゴリズムに十分なデータを供給する際に、合成指紋(ライブ指紋とスプーフ指紋の両方)の有用性を実証することを目的としている。 まず,最先端の生成アーキテクチャを改良して高品質なliveとspoofの指紋を合成する手法の詳細を述べる。 そこで本研究では,実データサンプルの分布を模倣して,合成指紋の品質を定量的かつ質的に検証する。 実データのみにトレーニングされたモデルと比較して,3つの異なる評価データセットでのパフォーマンスを劇的に向上させる,深層ネットワークによる指紋検出のトレーニングにおいて,合成したliveおよびspoof指紋の有用性を示す。 最後に、トレーニングデータセットを合成データで拡張する場合、同様の検出性能を得るために、元の(実)データセットの25%しか必要としないことを示す。

A major limitation to advances in fingerprint spoof detection is the lack of publicly available, large-scale fingerprint spoof datasets, a problem which has been compounded by increased concerns surrounding privacy and security of biometric data. Furthermore, most state-of-the-art spoof detection algorithms rely on deep networks which perform best in the presence of a large amount of training data. This work aims to demonstrate the utility of synthetic (both live and spoof) fingerprints in supplying these algorithms with sufficient data to improve the performance of fingerprint spoof detection algorithms beyond the capabilities when training on a limited amount of publicly available real datasets. First, we provide details of our approach in modifying a state-of-the-art generative architecture to synthesize high quality live and spoof fingerprints. Then, we provide quantitative and qualitative analysis to verify the quality of our synthetic fingerprints in mimicking the distribution of real data samples. We showcase the utility of our synthetic live and spoof fingerprints in training a deep network for fingerprint spoof detection, which dramatically boosts the performance across three different evaluation datasets compared to an identical model trained on real data alone. Finally, we demonstrate that only 25% of the original (real) dataset is required to obtain similar detection performance when augmenting the training dataset with synthetic data.
翻訳日:2022-04-14 13:19:53 公開日:2022-04-13
# 表面表現と推論のためのニューラルベクトル場

Neural Vector Fields for Surface Representation and Inference ( http://arxiv.org/abs/2204.06552v1 )

ライセンス: Link先を確認
Edoardo Mello Rella, Ajad Chhatkuli, Ender Konukoglu, and Luc Van Gool(参考訳) ニューラル暗黙の場は3次元形状を正確に表現することが最近示され、3次元形状解析における様々な応用が開かれた。 これまでの3d表現の暗黙のフィールドはスカラーであり、符号付き距離やバイナリのボリューム占有率、最近では符号なし距離を符号化している。 しかし、最初の2つは閉じた形しか表現できないが、符号なし距離は正確かつ高速な形状推論では困難である。 本稿では,上記の2つの問題を克服するために,形状表現のためのニューラルベクトル場を提案する。 空間の各点を最も近い面に向かう方向にマッピングすることで、任意の種類の形状を表現できる。 同様に、形状メッシュは、推定ベクトル場の上に小さな変化が提案されているマーチングキューブアルゴリズムを適用することで再構成することができる。 提案するニューラル暗黙的場は,従来の手法よりも閉じた形状と開いた形状の両方を表現するのに優れた精度を示す。

Neural implicit fields have recently been shown to represent 3D shapes accurately, opening up various applications in 3D shape analysis. Up to now, such implicit fields for 3D representation are scalar, encoding the signed distance or binary volume occupancy and more recently the unsigned distance. However, the first two can only represent closed shapes, while the unsigned distance has difficulties in accurate and fast shape inference. In this paper, we propose a Neural Vector Field for shape representation in order to overcome the two aforementioned problems. Mapping each point in space to the direction towards the closest surface, we can represent any type of shape. Similarly the shape mesh can be reconstructed by applying the marching cubes algorithm, with proposed small changes, on top of the inferred vector field. We compare the method on ShapeNet where the proposed new neural implicit field shows superior accuracy in representing both closed and open shapes outperforming previous methods.
翻訳日:2022-04-14 13:19:29 公開日:2022-04-13
# (参考訳) NLUテストスイートの高速Few-shotデバッグ

Fast Few-shot Debugging for NLU Test Suites ( http://arxiv.org/abs/2204.06555v1 )

ライセンス: CC BY-SA 4.0
Christopher Malon and Kai Li and Erik Kruus(参考訳) 我々は,最近普及したテストスイートを用いて,トランスフォーマーに基づく自然言語理解モデルの数ショットデバッグについて検討した。 ある現象のデバッギング例と、同じ現象のホールドアウトテストセットを考えると、元のテストセットにおいて、その現象の精度を最小限のコストで最大化することを目的としています。 完全なエポックリトレーニングよりも高速な方法をいくつか検討する。 そこで本研究では,最初のトレーニングセットから,ダンガー内サンプルをサンプリングする新しい高速手法を提案する。 パラメータ距離制約やKullback-Leibler分散を用いた高速手法と比較して,デバッグ精度を同等に向上させる。

We study few-shot debugging of transformer based natural language understanding models, using recently popularized test suites to not just diagnose but correct a problem. Given a few debugging examples of a certain phenomenon, and a held-out test set of the same phenomenon, we aim to maximize accuracy on the phenomenon at a minimal cost of accuracy on the original test set. We examine several methods that are faster than full epoch retraining. We introduce a new fast method, which samples a few in-danger examples from the original training set. Compared to fast methods using parameter distance constraints or Kullback-Leibler divergence, we achieve superior original accuracy for comparable debugging accuracy.
翻訳日:2022-04-14 13:18:10 公開日:2022-04-13
# Wikidataへの多言語イベントリンク

Multilingual Event Linking to Wikidata ( http://arxiv.org/abs/2204.06535v1 )

ライセンス: Link先を確認
Adithya Pratapa, Rishubh Gupta, Teruko Mitamura(参考訳) 本稿では,イベントを知識ベースに多言語リンクするタスクを提案する。 このタスクのために大規模なデータセットを自動的にコンパイルし、Wikidataから10.9K以上のイベントを参照する44言語にわたる1.8Mの言及を含む。 イベントリンクタスクの2つのバリエーションを提案する。 1)マルチ言語で、イベント記述は言及と同じ言語から作成され、 2)すべてのイベント記述が英語であるクロスリンガル。 提案課題では,BM25+ (Lv, Zhai, 2011) を含む複数のイベントリンクシステムと,BLINK (Wu et al., 2020) のバイエンコーダアーキテクチャとクロスエンコーダアーキテクチャの多言語適応を比較した。 本実験では,バイエンコーダモデルとクロスエンコーダモデルの両方がBM25+のベースラインを大幅に上回っていることがわかった。 また,クロスランガルタスクは多言語タスクよりも一般に難しいことが示唆された。 提案するリンクシステムのドメイン外一般化をテストするために,wikinewsベースの評価セットも作成する。 提案するデータセットでは,文脈に対する時間的推論の必要性や,言語間での多様なイベント記述に対処する必要性など,さまざまな側面について定性的な分析を行う。

We present a task of multilingual linking of events to a knowledge base. We automatically compile a large-scale dataset for this task, comprising of 1.8M mentions across 44 languages referring to over 10.9K events from Wikidata. We propose two variants of the event linking task: 1) multilingual, where event descriptions are from the same language as the mention, and 2) crosslingual, where all event descriptions are in English. On the two proposed tasks, we compare multiple event linking systems including BM25+ (Lv and Zhai, 2011) and multilingual adaptations of the biencoder and crossencoder architectures from BLINK (Wu et al., 2020). In our experiments on the two task variants, we find both biencoder and crossencoder models significantly outperform the BM25+ baseline. Our results also indicate that the crosslingual task is in general more challenging than the multilingual task. To test the out-of-domain generalization of the proposed linking systems, we additionally create a Wikinews-based evaluation set. We present qualitative analysis highlighting various aspects captured by the proposed dataset, including the need for temporal reasoning over context and tackling diverse event descriptions across languages.
翻訳日:2022-04-14 13:05:17 公開日:2022-04-13
# 機械翻訳評価における不確かさの定量化

Better Uncertainty Quantification for Machine Translation Evaluation ( http://arxiv.org/abs/2204.06546v1 )

ライセンス: Link先を確認
Chrysoula Zerva, Taisiya Glushkova, Ricardo Rei, Andr\'e F. T. Martins(参考訳) ニューラルベース機械翻訳(MT)評価指標は急速に進歩している。 しかしながら、これらのシステムはしばしば解釈が困難であり、人間の参照や評価がうるさい場合や、データがドメイン外である場合、信頼できないスコアを生み出す可能性がある。 最近の研究はモンテカルロのドロップアウトやディープアンサンブルのような不確実な定量化技術を活用して信頼区間を提供したが、これらの手法はいくつかの点で制限されている。 本稿では,MT評価指標のより強力で効率的な不確実性予測器と,その有効性について検討する。 この目的のために、新しい異種回帰、発散最小化、直接不確実性予測目標を用いてCOMETメトリックを訓練する。 実験の結果,WMT20 と WMT21 のメトリクスタスクデータセットが改良され,計算コストが大幅に削減された。 さらに,低品質参照を識別し,ドメイン外データによるモデル不確実性を明らかにする能力を示す。

Neural-based machine translation (MT) evaluation metrics are progressing fast. However, these systems are often hard to interpret and might produce unreliable scores when human references or assessments are noisy or when data is out-of-domain. Recent work leveraged uncertainty quantification techniques such as Monte Carlo dropout and deep ensembles to provide confidence intervals, but these techniques (as we show) are limited in several ways. In this paper we investigate more powerful and efficient uncertainty predictors for MT evaluation metrics and their potential to capture aleatoric and epistemic uncertainty. To this end we train the COMET metric with new heteroscedastic regression, divergence minimization, and direct uncertainty prediction objectives. Our experiments show improved results on WMT20 and WMT21 metrics task datasets and a substantial reduction in computational costs. Moreover, they demonstrate the ability of our predictors to identify low quality references and to reveal model uncertainty due to out-of-domain data.
翻訳日:2022-04-14 13:04:54 公開日:2022-04-13
# マルチラベル分類のための共起解析に基づく三相増分法チェインアプローチ

A Three-phase Augmented Classifiers Chain Approach Based on Co-occurrence Analysis for Multi-Label Classification ( http://arxiv.org/abs/2204.06138v1 )

ライセンス: Link先を確認
Gao Pengfei, Lai Dedi, Zhao Lijiao, Liang Yue, Ma Yinglong(参考訳) 非常に一般的なマルチラベル分類法として、近年、多くのマルチラベル分類タスクに分類チェインが広く適用されている。 しかし、既存の分類器チェーンメソッドはラベル空間の基盤となる依存関係をモデル化し、利用するのが難しく、多くの場合、順序の悪いチェーンとエラーの伝播の問題に苦しむ。 本稿では,マルチラベル分類のための共起解析に基づく3相拡張型分類器チェーンアプローチを提案する。 まず,ラベルとその前駆体との相関関係をモデル化し,さらにチェーンのヘッドラベルを決定するための共起行列法を提案する。 次に,ラベル空間におけるラベル相関を近似するために,鎖のラベルの順序を最適化する2つの拡張戦略を提案する。 6つのベンチマークデータセットに対して大規模な実験を行い,提案した改良CC手法により,CCと一般的な分類器チェーンの多ラベル分類の性能を著しく向上し,特に計算コストの低減を図り,優れた性能を達成できることを示した。

As a very popular multi-label classification method, Classifiers Chain has recently been widely applied to many multi-label classification tasks. However, existing Classifier Chains methods are difficult to model and exploit the underlying dependency in the label space, and often suffer from the problems of poorly ordered chain and error propagation. In this paper, we present a three-phase augmented Classifier Chains approach based on co-occurrence analysis for multi-label classification. First, we propose a co-occurrence matrix method to model the underlying correlations between a label and its precedents and further determine the head labels of a chain. Second, we propose two augmented strategies of optimizing the order of labels of a chain to approximate the underlying label correlations in label space, including Greedy Order Classifier Chain and Trigram Order Classifier Chain. Extensive experiments were made over six benchmark datasets, and the experimental results show that the proposed augmented CC approaches can significantly improve the performance of multi-label classification in comparison with CC and its popular variants of Classifier Chains, in particular maintaining lower computational costs while achieving superior performance.
翻訳日:2022-04-14 13:03:40 公開日:2022-04-13
# マルチラベルパワーテキスト分類による誤り型認識のためのアンサンブル学習

An Ensemble Learning Based Approach to Multi-label Power Text Classification for Fault-type Recognition ( http://arxiv.org/abs/2204.06179v1 )

ライセンス: Link先を確認
Chen Xiaona, Ahmad Tanvir, Ma Yinglong(参考訳) 電力産業におけるICT Custom Services(ICT CS)の急速な発展に伴い、ICT CSシステムは、主にフォールトタイプ認識、質問、回答のためのカスタマーサービススタッフの経験に依存しており、ユーザの発行した問題を正確に解決することが困難で効率が悪い。 この問題を解決するため,本論文では,2値関係と勾配強調決定木を組み合わせたbr-gbdtと呼ばれる複数ラベルの誤りテキスト分類手法を提案し,誤りタイプ診断を支援するとともに,故障タイプ認識の精度を向上させる。 第2に、パワーICT多ラベルテキスト分類のためのトレーニングセットがないという問題に対して、パワーICTCSシステムに格納された過去のフォールトテキストデータからトレーニングセットを構築するための自動アプローチを提案する。 広範な実験はpower ict csトレーニングセットといくつかの汎用ベンチマークトレーニングデータセットに基づいて行われた。 実験の結果,本手法は,欠陥テキスト分類におけるBR+LRとML-KNNのアンサンブル学習手法よりも優れており,ICTカスタムサービステキストデータのマルチラベル分類処理を効率的に行うことができることがわかった。

With the rapid development of ICT Custom Services (ICT CS) in power industries, the deployed power ICT CS systems mainly rely on the experience of customer service staff for fault type recognition, questioning, and answering, which makes it difficult and inefficient to precisely resolve the problems issued by users. To resolve this problem, in this paper, firstly, a multi-label fault text classification ensemble approach called BR-GBDT is proposed by combining Binary Relevance and Gradient Boosting Decision Tree for assisted fault type diagnosis and improving the accuracy of fault type recognition. Second, for the problem that there is lack of the training set for power ICT multi-label text classification, an automatic approach is presented to construct the training set from the historical fault text data stored in power ICT CS systems. The extensive experiments were made based on the power ICT CS training set and some general-purpose benchmark training datasets. The experiment results show that our approach outperforms the well known ensemble learning based approaches BR+LR and ML-KNN for fault text classification, efficiently handling the multi-label classification of ICT custom service text data for fault type recognition.
翻訳日:2022-04-14 13:03:21 公開日:2022-04-13
# 強化学習における一般化のための局所特徴スワッピング

Local Feature Swapping for Generalization in Reinforcement Learning ( http://arxiv.org/abs/2204.06355v1 )

ライセンス: Link先を確認
David Bertoin (IMT), Emmanuel Rachelson (DMIA)(参考訳) 過去数年間、コンピュータ資源の加速とディープラーニングの研究は、特にコンピュータビジョンを含む様々なタスクにおいて、重要な実践的成功をもたらしてきた。 これらの進歩を踏まえて、強化学習はまた、視覚的な観察から直接意思決定ができるエージェントの出現によって前進している。 これらの成功にもかかわらず、ニューラルアーキテクチャの過度なパラメータ化は、トレーニング中に使用されるデータの記憶と一般化の欠如につながる。 視覚入力に基づく強化学習エージェントも、背景要素などの無関係な視覚特徴と報酬を誤って関連付けることで、この現象に苦しんでいる。 この問題を軽減するために,特徴写像のチャネル一貫性局所置換(CLOP)からなる新たな正規化手法を導入する。 提案手法は空間相関に頑健性を誘導し,RLの過度な適合行動を防ぐ。 我々はOpenAI Procgen Benchmarkで、CLOP法で訓練されたRLエージェントが、他の最先端の正規化技術を用いて訓練されたエージェントよりも、視覚的変化に対する堅牢性と、より優れた一般化特性を示すことを示した。 また,教師あり学習における一般正規化手法としてのCLOPの有効性を示す。

Over the past few years, the acceleration of computing resources and research in deep learning has led to significant practical successes in a range of tasks, including in particular in computer vision. Building on these advances, reinforcement learning has also seen a leap forward with the emergence of agents capable of making decisions directly from visual observations. Despite these successes, the over-parametrization of neural architectures leads to memorization of the data used during training and thus to a lack of generalization. Reinforcement learning agents based on visual inputs also suffer from this phenomenon by erroneously correlating rewards with unrelated visual features such as background elements. To alleviate this problem, we introduce a new regularization technique consisting of channel-consistent local permutations (CLOP) of the feature maps. The proposed permutations induce robustness to spatial correlations and help prevent overfitting behaviors in RL. We demonstrate, on the OpenAI Procgen Benchmark, that RL agents trained with the CLOP method exhibit robustness to visual changes and better generalization properties than agents trained using other state-of-the-art regularization techniques. We also demonstrate the effectiveness of CLOP as a general regularization technique in supervised learning.
翻訳日:2022-04-14 13:02:56 公開日:2022-04-13
# De-IReps: 異なる進化戦略に基づく改良された再パラメータ化アーキテクチャの探索

De-IReps: Searching for improved Re-parameterizing Architecture based on Differentiable Evolution Strategy ( http://arxiv.org/abs/2204.06403v1 )

ライセンス: Link先を確認
Xinyi Yu, Xiaowei Wang, Mingyang Zhang, Jintao Rong, Linlin Ou(参考訳) 近年,多くの分野においてニューラル・アーキテクチャ・サーチ (NAS) が大きな競争力を示し,アーキテクチャ・サーチの分野で再パラメータ化技術が登場し始めている。 しかし、ほとんどのエッジデバイスはネットワーク、特にNASによって探索されるマルチブランチ構造にうまく適応しない。 そこで本研究では,ほぼすべての再パラメータ操作をカバーする探索空間を設計する。 この検索空間では、マルチパスネットワークを無条件で単一パスネットワークに再パラメータ化することができる。 このように、伝統的な鼻の有用性を高める。 一方,再パラメータ化探索空間の特徴を要約し,再パラメータ化探索空間を探索するための微分可能進化戦略(des)を提案する。 検索したアーキテクチャの特徴を視覚化し、このアーキテクチャの出現について説明します。 本研究では,効率的な探索を行い,より優れたネットワーク構造を見つける。 CIFAR-10では96.64%(IrepResNet-18)、95.65%(IrepVG-16)、ImageNetでは77.92%(Irep-ResNet-50)の精度でアーキテクチャ検索を完了した。

In recent years, neural architecture search (NAS) has shown great competitiveness in many fields and re-parameterization techniques have started to appear in the field of architectural search. However, most edge devices do not adapt well to networks, especially the multi-branch structure, which is searched by NAS. Therefore, in this work we design a search space that covers almost all re-parameterization operations. In this search space, multiple-path networks can be unconditionally re-parameterized into single-path networks. Thus, enhancing the usefulness of traditional nas. Meanwhile we summarize the characteristics of the re-parameterization search space and propose a differentiable evolutionary strategy (DES) to explore the re-parameterization search space. We visualize the features of the searched architecture and give our explanation for the appearance of this architecture. In this work, we can achieve efficient search and find better network structures. Respectively, we completed the architecture search on CIFAR-10 with the test accuracy of 96.64% (IrepResNet-18) and 95.65% (IrepVGG-16) and on ImageNet with the test accuracy of 77.92% (Irep-ResNet-50).
翻訳日:2022-04-14 13:02:35 公開日:2022-04-13
# (参考訳) チップ配置のための柔軟多目的強化学習

Flexible Multiple-Objective Reinforcement Learning for Chip Placement ( http://arxiv.org/abs/2204.06407v1 )

ライセンス: CC BY-SA 4.0
Fu-Chieh Chang, Yu-Wei Tseng, Ya-Wen Yu, Ssu-Rui Lee, Alexandru Cioba, I-Lun Tseng, Da-shan Shiu, Jhih-Wei Hsu, Cheng-Yuan Wang, Chien-Yi Yang, Ren-Chu Wang, Yao-Wen Chang, Tai-Chen Chen and Tung-Chieh Chen(参考訳) 近年,チップ配置への強化学習の応用が成功している。 事前訓練されたモデルは効率と有効性を改善するために必要である。 現在、客観的メトリクス(例えば、ワイヤ長、混雑、タイミング)の重みは事前訓練中に固定されている。 しかし、固定Weighedモデルは、エンジニアが要求の変化に対応するために必要な配置の多様性を生み出すことはできない。 本稿では,単一の事前学習モデルを用いて,推論時間可変重み付き目的関数をサポートするための,柔軟多目的強化学習(morl)を提案する。 マクロ配置の結果,morlは複数の目的のparetoフロンティアを効果的に生成できることがわかった。

Recently, successful applications of reinforcement learning to chip placement have emerged. Pretrained models are necessary to improve efficiency and effectiveness. Currently, the weights of objective metrics (e.g., wirelength, congestion, and timing) are fixed during pretraining. However, fixed-weighed models cannot generate the diversity of placements required for engineers to accommodate changing requirements as they arise. This paper proposes flexible multiple-objective reinforcement learning (MORL) to support objective functions with inference-time variable weights using just a single pretrained model. Our macro placement results show that MORL can generate the Pareto frontier of multiple objectives effectively.
翻訳日:2022-04-14 13:01:18 公開日:2022-04-13
# HIT at SemEval-2022 Task 2: Idioms Detectionのための事前訓練言語モデル

HIT at SemEval-2022 Task 2: Pre-trained Language Model for Idioms Detection ( http://arxiv.org/abs/2204.06145v1 )

ライセンス: Link先を確認
Zheng Chu, Ziqing Yang, Yiming Cui, Zhigang Chen, Ming Liu(参考訳) 同じマルチワード表現は、異なる文で異なる意味を持つ。 主に、文字通りの意味と慣用的な意味の2つのカテゴリーに分けられる。 非文脈的手法はこの問題に対して不十分であり,マルチワード表現の慣用的意味を正しく理解するにはコンテキスト埋め込みが必要である。 文中のマルチワード表現が慣用的用法であるかどうかを検出するために,文脈認識型文埋め込みを提供する事前学習言語モデルを用いる。

The same multi-word expressions may have different meanings in different sentences. They can be mainly divided into two categories, which are literal meaning and idiomatic meaning. Non-contextual-based methods perform poorly on this problem, and we need contextual embedding to understand the idiomatic meaning of multi-word expressions correctly. We use a pre-trained language model, which can provide a context-aware sentence embedding, to detect whether multi-word expression in the sentence is idiomatic usage.
翻訳日:2022-04-14 12:49:28 公開日:2022-04-13
# クラスタベース k-Nearest-Neighbor 機械翻訳の効率化

Efficient Cluster-Based k-Nearest-Neighbor Machine Translation ( http://arxiv.org/abs/2204.06175v1 )

ライセンス: Link先を確認
Dexin Wang, Kai Fan, Boxing Chen and Deyi Xiong(参考訳) k-nearest-neighbor machine translation (knn-mt) は神経機械翻訳における領域適応の非パラメトリック解として最近提案されている。 ドメイン内データから構築されたトークンレベルの特徴に基づく検索モジュールを付加することで、ドメイン外文の翻訳における高度なMTシステムの性能劣化を軽減することを目的とする。 これまでの研究では、非パラメトリックnmtはドメイン外データで微調整されたモデルよりも優れていることが示されている。 この成功にもかかわらず、kNN検索は特に大規模なデータストアにおいて、高いレイテンシを犠牲にしている。 そこで本研究では,より効率的なkNN-MTを提案するとともに,クラスタリングによる検索効率の向上を提案する。 具体的には, 文脈特徴を90+%下方次元ベクトルに圧縮するために, コントラスト学習方式で特徴量削減のためのクラスタ型コンパクトネットワークを提案する。 次に、大規模なデータストアで10%-40%の冗長ノードをフィルタし、翻訳品質を維持しながらクラスタベースのプルーニングソリューションを提案する。 提案手法は,いくつかの機械翻訳ベンチマークにおいて,先進的非パラメトリックmtモデルに対する推論遅延を最大57%削減しつつ,優れた性能と同等の性能を実現する。 実験結果から,提案手法はデータストアの最も有用な情報を保持し,ネットワークのコンパクト化は未認識領域のよい一般化を示すことが示唆された。

k-Nearest-Neighbor Machine Translation (kNN-MT) has been recently proposed as a non-parametric solution for domain adaptation in neural machine translation (NMT). It aims to alleviate the performance degradation of advanced MT systems in translating out-of-domain sentences by coordinating with an additional token-level feature-based retrieval module constructed from in-domain data. Previous studies have already demonstrated that non-parametric NMT is even superior to models fine-tuned on out-of-domain data. In spite of this success, kNN retrieval is at the expense of high latency, in particular for large datastores. To make it practical, in this paper, we explore a more efficient kNN-MT and propose to use clustering to improve the retrieval efficiency. Concretely, we first propose a cluster-based Compact Network for feature reduction in a contrastive learning manner to compress context features into 90+% lower dimensional vectors. We then suggest a cluster-based pruning solution to filter out 10%-40% redundant nodes in large datastores while retaining translation quality. Our proposed methods achieve better or comparable performance while reducing up to 57% inference latency against the advanced non-parametric MT model on several machine translation benchmarks. Experimental results indicate that the proposed methods maintain the most useful information of the original datastore and the Compact Network shows good generalization on unseen domains.
翻訳日:2022-04-14 12:49:19 公開日:2022-04-13
# wikidiverse: さまざまなコンテキストトピックとエンティティタイプとデータセットをリンクするマルチモーダルエンティティ

WikiDiverse: A Multimodal Entity Linking Dataset with Diversified Contextual Topics and Entity Types ( http://arxiv.org/abs/2204.06347v1 )

ライセンス: Link先を確認
Xuwu Wang, Junfeng Tian, Min Gui, Zhixu Li, Rui Wang, Ming Yan, Lihan Chen, Yanghua Xiao(参考訳) MEL(Multimodal Entity Linking)は、知識ベース(例えばWikipedia)からの参照エンティティと参照コンテキストをリンクすることを目的とした、多くのマルチモーダルアプリケーションにとって不可欠なタスクである。 MELには多くの注意が払われているが、コンテキストトピックやエンティティタイプ、あいまいさの単純化、可用性の制限など、既存のMELデータセットの欠点は、MELの研究や応用に大きな障害を引き起こしている。 本稿では,wikipediaを知識ベースとして使用するwikinewsのコンテキストトピックとエンティティタイプを多様化した,高品質なメルデータセットであるwikidiverseを提案する。 データセットの品質を保証するために、よく調整されたアノテーション手順が採用されている。 WikiDiverseに基づいて、既存のMELモデルよりも画像の視覚的情報を適切に活用する、モダリティ内およびモダリティ間注意を伴うよく設計されたMELモデルのシーケンスを実装した。 総合的な実験分析を行い,MELの観点から様々なモダリティの寄与について検討し,今後の研究を円滑に進める。 データセットとベースラインモデルはhttps://github.com/wangxw5/wikiDiverse.comで公開されている。

Multimodal Entity Linking (MEL) which aims at linking mentions with multimodal contexts to the referent entities from a knowledge base (e.g., Wikipedia), is an essential task for many multimodal applications. Although much attention has been paid to MEL, the shortcomings of existing MEL datasets including limited contextual topics and entity types, simplified mention ambiguity, and restricted availability, have caused great obstacles to the research and application of MEL. In this paper, we present WikiDiverse, a high-quality human-annotated MEL dataset with diversified contextual topics and entity types from Wikinews, which uses Wikipedia as the corresponding knowledge base. A well-tailored annotation procedure is adopted to ensure the quality of the dataset. Based on WikiDiverse, a sequence of well-designed MEL models with intra-modality and inter-modality attentions are implemented, which utilize the visual information of images more adequately than existing MEL models do. Extensive experimental analyses are conducted to investigate the contributions of different modalities in terms of MEL, facilitating the future research on this task. The dataset and baseline models are available at https://github.com/wangxw5/wikiDiverse.
翻訳日:2022-04-14 12:48:58 公開日:2022-04-13
# 文脈表現の言語間調整がゼロショット転送に与える影響

The Impact of Cross-Lingual Adjustment of Contextual Word Representations on Zero-Shot Transfer ( http://arxiv.org/abs/2204.06457v1 )

ライセンス: Link先を確認
Pavel Efimov and Leonid Boytsov and Elena Arslanova and Pavel Braslavski(参考訳) mBERTやXLM-Rのような訓練済みの大規模多言語モデルにより、多くのNLPタスクにおいて効果的な言語間ゼロショット転送が可能となった。 これらのモデルの小さな並列コーパスを用いた言語間調整により、さらなる結果の改善が期待できる。 これは、並列データのみを使用して機械翻訳システムや多言語モデルをスクラッチからトレーニングするよりも、よりデータ効率のよい方法である。 本研究では,スペイン語,ロシア語,ベトナム語,ヒンディー語の4つのタイプ別言語と,3つのnlpタスク(qa,nli,ner)への英語モデルのゼロショット転送実験を行った。 既製のmBERTモデルの言語間調整を行う。 この調整によって、異なる言語からの意味論的に類似した単語の埋め込みが互いに近づき、無関係な単語を分離することを確認する。 しかし,本研究で紹介された対差分ヒストグラムから,関係語と非関連語との相対的距離にゆるやかにのみ影響することが明らかとなった。 対照的に、英語データ(NERのような特定のタスク)に対するmBERTの微調整は、関連する単語と無関係な単語の埋め込みを互いに近接させる。 mBERTの言語間調整は4言語でのNLIと2言語でのNERを改善し、QA性能は改善されず、時には劣化する。 特定のタスク(例えばNLI)に対して言語間調整されたmBERTを微調整する場合、mBERTの言語間調整は関連する単語と関連する単語の分離を改善するが、これは一貫してXNLIタスクにのみ作用する。 本研究は,大規模多言語モデルの言語間伝達能力の向上と,NLPタスクにおける言語間調整の有効性の検証に寄与する。

Large pre-trained multilingual models such as mBERT and XLM-R enabled effective cross-lingual zero-shot transfer in many NLP tasks. A cross-lingual adjustment of these models using a small parallel corpus can potentially further improve results. This is a more data efficient method compared to training a machine-translation system or a multi-lingual model from scratch using only parallel data. In this study, we experiment with zero-shot transfer of English models to four typologically different languages (Spanish, Russian, Vietnamese, and Hindi) and three NLP tasks (QA, NLI, and NER). We carry out a cross-lingual adjustment of an off-the-shelf mBERT model. We confirm prior finding that this adjustment makes embeddings of semantically similar words from different languages closer to each other, while keeping unrelated words apart. However, from the paired-differences histograms introduced in our work we can see that the adjustment only modestly affects the relative distances between related and unrelated words. In contrast, fine-tuning of mBERT on English data (for a specific task such as NER) draws embeddings of both related and unrelated words closer to each other. The cross-lingual adjustment of mBERT improves NLI in four languages and NER in two languages, while QA performance never improves and sometimes degrades. When we fine-tune a cross-lingual adjusted mBERT for a specific task (e.g., NLI), the cross-lingual adjustment of mBERT may still improve the separation between related and related words, but this works consistently only for the XNLI task. Our study contributes to a better understanding of cross-lingual transfer capabilities of large multilingual language models and of effectiveness of their cross-lingual adjustment in various NLP tasks.
翻訳日:2022-04-14 12:48:37 公開日:2022-04-13
# (参考訳) グローバル・ローカル・モーションダイナミクスによる制御可能な映像生成

Controllable Video Generation through Global and Local Motion Dynamics ( http://arxiv.org/abs/2204.06558v1 )

ライセンス: CC BY 4.0
Aram Davtyan and Paolo Favaro(参考訳) GLASS(Global and Local Action-driven Sequence Synthesis)を提案する。 GLASSは、教師なしの方法でビデオシーケンスに基づいて訓練され、テスト時に入力画像をアニメーションできる生成モデルである。 この方法は、フレームをフォアグラウンドバックグラウンド層に分割し、グローバルおよびローカルなアクション表現を介して、フォアグラウンドでの遷移を生成することを学習する。 グローバルアクションは2次元シフトに明示的に関連し、局所アクションは(幾何学的および測光的の両方)局所変形に関係している。 GLASSは、リカレントニューラルネットワークを使用してフレーム間の遷移を行い、再構築損失を通じてトレーニングする。 また、予め定義されたアクション空間を持つ新しい合成データセットであるW-Sprites(Walking Sprites)を紹介する。 本手法は,w-sprites と real datasets の両方で評価し,glass が1つの入力画像から現実的な映像列を生成し,より高度な動作空間を学習できることを見出した。

We present GLASS, a method for Global and Local Action-driven Sequence Synthesis. GLASS is a generative model that is trained on video sequences in an unsupervised manner and that can animate an input image at test time. The method learns to segment frames into foreground-background layers and to generate transitions of the foregrounds over time through a global and local action representation. Global actions are explicitly related to 2D shifts, while local actions are instead related to (both geometric and photometric) local deformations. GLASS uses a recurrent neural network to transition between frames and is trained through a reconstruction loss. We also introduce W-Sprites (Walking Sprites), a novel synthetic dataset with a predefined action space. We evaluate our method on both W-Sprites and real datasets, and find that GLASS is able to generate realistic video sequences from a single input image and to successfully learn a more advanced action space than in prior work.
翻訳日:2022-04-14 12:48:07 公開日:2022-04-13
# マルチラベル特徴選択のためのランダムグラフ埋め込みとジョイントスパース正規化

Random Graph Embedding and Joint Sparse Regularization for Multi-label Feature Selection ( http://arxiv.org/abs/2204.06445v1 )

ライセンス: Link先を確認
Haibao Li and Hongzhi Zhai(参考訳) マルチラベル学習は、変数と複数のラベルの相関関係をマイニングするためにしばしば用いられ、その研究は変数とラベル間の情報の完全抽出に焦点を当てている。 $\ell_{2,1}$正規化はスパース係数行列を得るためにしばしば用いられるが、変数間の多重線型性の問題は効果的に解決できない。 本稿では,$\ell_{2,1}$正則化とフロベニウス正則化を用いて,協調制約最適化問題を解くことにより,最も関連する変数を選択することができる。 多様体の正則化では、ジョイント構造に基づくランダムウォーク戦略を実行し、近傍グラフを構築する。 さらに,提案手法の反復的アルゴリズムを提案し,このアルゴリズムの収束性を証明した。 実世界のデータセットを用いた実験により,本手法の総合的な性能は従来の手法よりも一貫して優れていることが示された。

Multi-label learning is often used to mine the correlation between variables and multiple labels, and its research focuses on fully extracting the information between variables and labels. The $\ell_{2,1}$ regularization is often used to get a sparse coefficient matrix, but the problem of multicollinearity among variables cannot be effectively solved. In this paper, the proposed model can choose the most relevant variables by solving a joint constraint optimization problem using the $\ell_{2,1}$ regularization and Frobenius regularization. In manifold regularization, we carry out a random walk strategy based on the joint structure to construct a neighborhood graph, which is highly robust to outliers. In addition, we give an iterative algorithm of the proposed method and proved the convergence of this algorithm. The experiments on the real-world data sets also show that the comprehensive performance of our method is consistently better than the classical method.
翻訳日:2022-04-14 12:46:18 公開日:2022-04-13
# 補間入力に基づく帰属手法のベースライン計算

Baseline Computation for Attribution Methods Based on Interpolated Inputs ( http://arxiv.org/abs/2204.06120v1 )

ライセンス: Link先を確認
Miguel Lerma, Mirtha Lucas(参考訳) 本稿では,2つの入力間の補間入力列をニューラルネットワークに送付することにより,帰属法に対してよく振る舞うベースラインを求める手法について検討する。 そこで,本論文は,Riemann-Stieltjes Integrated Gradient-weighted Class Activation Mapping (RSI-Grad-CAM) の帰属法を用いて検証した。

We discuss a way to find a well behaved baseline for attribution methods that work by feeding a neural network with a sequence of interpolated inputs between two given inputs. Then, we test it with our novel Riemann-Stieltjes Integrated Gradient-weighted Class Activation Mapping (RSI-Grad-CAM) attribution method.
翻訳日:2022-04-14 12:46:02 公開日:2022-04-13
# 構造的刈り取りにおけるニューロンの重要性

Receding Neuron Importances for Structured Pruning ( http://arxiv.org/abs/2204.06404v1 )

ライセンス: Link先を確認
Mihai Suteu and Yike Guo(参考訳) 構造化プルーニングは、重要でないニューロンを同定し除去することで、ネットワークを効率的に圧縮する。 これは、BatchNormパラメータにスパース性誘導正規化を適用することで、エレガントに達成できるが、L1ペナルティは、超流動ニューロンよりも全てのスケーリング因子を縮小する。 この問題に対処するために、バウンドスケーリングパラメータを持つ単純なBatchNorm変動を導入し、低重要性のニューロンのみを抑制する新しい正規化項を設計する。 本手法では,不要なニューロンの重みを効果的に軽減し,重要性の分極バイモーダル分布を生成する。 我々は、この方法でトレーニングされたニューラルネットワークを、より大きく、より少ない劣化で刈り取ることができることを示した。 我々は、CIFARとImagenNetデータセットで異なる比率でVGGとResNetアーキテクチャを一発撮った。 VGG型ネットワークの場合,本手法は特に厳しい刈取体制下で既存手法よりも優れる。

Structured pruning efficiently compresses networks by identifying and removing unimportant neurons. While this can be elegantly achieved by applying sparsity-inducing regularisation on BatchNorm parameters, an L1 penalty would shrink all scaling factors rather than just those of superfluous neurons. To tackle this issue, we introduce a simple BatchNorm variation with bounded scaling parameters, based on which we design a novel regularisation term that suppresses only neurons with low importance. Under our method, the weights of unnecessary neurons effectively recede, producing a polarised bimodal distribution of importances. We show that neural networks trained this way can be pruned to a larger extent and with less deterioration. We one-shot prune VGG and ResNet architectures at different ratios on CIFAR and ImagenNet datasets. In the case of VGG-style networks, our method significantly outperforms existing approaches particularly under a severe pruning regime.
翻訳日:2022-04-14 12:45:55 公開日:2022-04-13
# 深部近傍における分布検出

Out-of-distribution Detection with Deep Nearest Neighbors ( http://arxiv.org/abs/2204.06507v1 )

ライセンス: Link先を確認
Yiyou Sun, Yifei Ming, Xiaojin Zhu, Yixuan Li(参考訳) out-of-distribution (ood)検出は、オープン世界で機械学習モデルをデプロイするための重要なタスクである。 距離ベースの手法は、テストサンプルがID(In-distriion)データから比較的遠くにある場合、OODとして検出されることを示す。 しかし、事前の手法は基礎となる特徴空間の強い分布的仮定を課すが、それは常に成り立つとは限らない。 本稿では,OOD検出における非パラメトリック近接距離の有効性について検討する。 先行研究とは異なり,本手法は分布的仮定を課さないため,柔軟性と汎用性が向上する。 いくつかのベンチマークで最寄りのOOD検出の有効性を実証し,優れた性能を示す。 imagenet-1kでトレーニングされた同じモデルでは、検出にパラメトリックアプローチのマハラノビス距離を用いる強力なベースラインssd+と比較して、偽陽性率(fpr@tpr95)を24.77%削減する。

Out-of-distribution (OOD) detection is a critical task for deploying machine learning models in the open world. Distance-based methods have demonstrated promise, where testing samples are detected as OOD if they are relatively far away from in-distribution (ID) data. However, prior methods impose a strong distributional assumption of the underlying feature space, which may not always hold. In this paper, we explore the efficacy of non-parametric nearest-neighbor distance for OOD detection, which has been largely overlooked in the literature. Unlike prior works, our method does not impose any distributional assumption, hence providing stronger flexibility and generality. We demonstrate the effectiveness of nearest-neighbor-based OOD detection on several benchmarks and establish superior performance. Under the same model trained on ImageNet-1k, our method substantially reduces the false positive rate (FPR@TPR95) by 24.77% compared to a strong baseline SSD+, which uses a parametric approach Mahalanobis distance in detection.
翻訳日:2022-04-14 12:45:41 公開日:2022-04-13
# 知的財産資源プロファイルと進化法に関する研究

Research on Intellectual Property Resource Profile and Evolution Law ( http://arxiv.org/abs/2204.06221v1 )

ライセンス: Link先を確認
Yuhui Wang and Yingxia Shao and Ang Li(参考訳) ビッグデータ時代において、知的財産指向の科学技術資源は、大規模データ規模、高情報密度、低価値密度の傾向を示し、知的財産資源の有効利用に深刻な課題をもたらし、知的財産における隠れた情報をマイニングする需要が高まっている。 これにより、知的財産権の科学と技術資源の肖像画と進化の分析が現在の研究ホットスポットとなる。 本稿では,知的財産権の知的肖像画の構築手法と,アルゴリズムの分類と一般的なプロセスの観点から,知的財産権の実体抽出と実体完成,および今後の方法の方向性を整理する。

In the era of big data, intellectual property-oriented scientific and technological resources show the trend of large data scale, high information density and low value density, which brings severe challenges to the effective use of intellectual property resources, and the demand for mining hidden information in intellectual property is increasing. This makes intellectual property-oriented science and technology resource portraits and analysis of evolution become the current research hotspot. This paper sorts out the construction method of intellectual property resource intellectual portrait and its pre-work property entity extraction and entity completion from the aspects of algorithm classification and general process, and directions for improvement of future methods.
翻訳日:2022-04-14 12:44:52 公開日:2022-04-13
# 階層的並行計画による確率的部分観測可能な環境における安全自律運転

Safer Autonomous Driving in a Stochastic, Partially-Observable Environment by Hierarchical Contingency Planning ( http://arxiv.org/abs/2204.06509v1 )

ライセンス: Link先を確認
Ugo Lecerf, Christelle Yemdji-Tchassi, Pietro Michiardi(参考訳) 確率的かつ部分的に観察可能な環境で行動することを学ぶ際には、知的エージェントが環境状態に対する信念の変化を予測し、その行動が変化する状況に適応できるように準備する必要がある。 人間として、最初の制御で誤りを訂正できるという明確な目的をもってタスクを学習するときに、偶発的計画を立てることができ、即応的な修正措置を必要とする環境に対する我々の知覚が突然変化した場合に有用である。 これは特に、安全が最優先される現実世界の状況を走行する自動運転車(avs)の場合であり、環境に対する変化に反応する強力な能力は本当に必要である。 本稿では,他の車両の動作が不明な自律ナビゲーションタスクにおいて,訓練から実行まで,頑健な並行計画の学習から,それらを階層的なプランナーと組み合わせて堅牢なエージェントポリシーを得るためのエンドツーエンドアプローチについて検討する。 この手法は, 部分的に観測可能で確率的な環境下での堅牢で安全な挙動を示し, トレーニング中に見えない環境力学をうまく一般化する。

When learning to act in a stochastic, partially observable environment, an intelligent agent should be prepared to anticipate a change in its belief of the environment state, and be capable of adapting its actions on-the-fly to changing conditions. As humans, we are able to form contingency plans when learning a task with the explicit aim of being able to correct errors in the initial control, and hence prove useful if ever there is a sudden change in our perception of the environment which requires immediate corrective action. This is especially the case for autonomous vehicles (AVs) navigating real-world situations where safety is paramount, and a strong ability to react to a changing belief about the environment is truly needed. In this paper we explore an end-to-end approach, from training to execution, for learning robust contingency plans and combining them with a hierarchical planner to obtain a robust agent policy in an autonomous navigation task where other vehicles' behaviours are unknown, and the agent's belief about these behaviours is subject to sudden, last-second change. We show that our approach results in robust, safe behaviour in a partially observable, stochastic environment, generalizing well over environment dynamics not seen during training.
翻訳日:2022-04-14 12:44:07 公開日:2022-04-13
# 線形力学系のオンライングリーディ同定

Online greedy identification of linear dynamical systems ( http://arxiv.org/abs/2204.06375v1 )

ライセンス: Link先を確認
Matthieu Blanke and Marc Lelarge(参考訳) この研究は未知の環境での探索の問題に対処する。 線形力学系では、実験的な設計フレームワークを使用し、制御が次のステップの情報量を最大化するオンライングリージーポリシーを導入する。 実験的な実験が限られている環境では,アルゴリズムの複雑さは低く,より精巧な勾配に基づく手法と比較して,実験的に競合性能を示す。

This work addresses the problem of exploration in an unknown environment. For linear dynamical systems, we use an experimental design framework and introduce an online greedy policy where the control maximizes the information of the next step. In a setting with a limited number of experimental trials, our algorithm has low complexity and shows experimentally competitive performances compared to more elaborate gradient-based methods.
翻訳日:2022-04-14 12:43:46 公開日:2022-04-13
# ハイパースペクトル画像の能動拡散とVCA支援画像分割

Active Diffusion and VCA-Assisted Image Segmentation of Hyperspectral Images ( http://arxiv.org/abs/2204.06298v1 )

ライセンス: Link先を確認
Sam L. Polk, Kangning Cui, Robert J. Plemmons, and James M. Murphy(参考訳) ハイパースペクトル画像は、機械学習アルゴリズムによって材料識別に利用されるリッチな構造を符号化する。 本稿では,アクティブディフュージョンとVCA支援イメージセグメンテーション(ADVIS)について紹介する。 ADVISは、ハイパースペクトル画像中の他の高純度高密度画素から、拡散距離(データ依存距離)が遠い高純度高密度画素を選択する。 これらの画素の基底真理ラベルは、残りの画像にクエリされ、伝播される。 advisのアクティブラーニングアルゴリズムは、完全に教師なしのクラスタリングアルゴリズムを強力に上回っており、非常に少数の注意深く選択された基底真理ラベルを組み込むことで、ハイパースペクトル画像における物質的識別を大幅に上回る可能性があることを示唆している。

Hyperspectral images encode rich structure that can be exploited for material discrimination by machine learning algorithms. This article introduces the Active Diffusion and VCA-Assisted Image Segmentation (ADVIS) for active material discrimination. ADVIS selects high-purity, high-density pixels that are far in diffusion distance (a data-dependent metric) from other high-purity, high-density pixels in the hyperspectral image. The ground truth labels of these pixels are queried and propagated to the rest of the image. The ADVIS active learning algorithm is shown to strongly outperform its fully unsupervised clustering algorithm counterpart, suggesting that the incorporation of a very small number of carefully-selected ground truth labels can result in substantially superior material discrimination in hyperspectral images.
翻訳日:2022-04-14 12:43:40 公開日:2022-04-13
# DL4SciVis: 科学的可視化のためのディープラーニングに関する現状調査

DL4SciVis: A State-of-the-Art Survey on Deep Learning for Scientific Visualization ( http://arxiv.org/abs/2204.06504v1 )

ライセンス: Link先を確認
Chaoli Wang and Jun Han(参考訳) 2016年以降、人工知能+視覚化(AI+VIS)研究の著しい成長を見てきた。 しかし、AI+VISに関する既存の調査論文は、科学的可視化(SciVis)ではなく、視覚分析と情報可視化に焦点を当てている。 本稿では,SciVisにおける関連する深層学習(DL)の業務,特にDL4SciVisの方向性を調査し,SciVis問題を解決するためのDLソリューションを設計する。 焦点を合わせるために、主にスカラーおよびベクトルフィールドデータを扱うがメッシュデータを除外する作業を検討する。 我々は,これらをドメイン設定,研究タスク,学習型,ネットワークアーキテクチャ,損失関数,評価指標の6次元に分類,検討する。 論文は、議論されるディメンジョンを満たすための残りのギャップと、コミュニティとして取り組むべき大きな課題について論じて締めくくっている。 この最先端のサーベイは、SciVisの研究者がこの新たなトピックの概要を把握し、この研究を拡大するための今後の方向性を指摘している。

Since 2016, we have witnessed the tremendous growth of artificial intelligence+visualization (AI+VIS) research. However, existing survey papers on AI+VIS focus on visual analytics and information visualization, not scientific visualization (SciVis). In this paper, we survey related deep learning (DL) works in SciVis, specifically in the direction of DL4SciVis: designing DL solutions for solving SciVis problems. To stay focused, we primarily consider works that handle scalar and vector field data but exclude mesh data. We classify and discuss these works along six dimensions: domain setting, research task, learning type, network architecture, loss function, and evaluation metric. The paper concludes with a discussion of the remaining gaps to fill along the discussed dimensions and the grand challenges we need to tackle as a community. This state-of-the-art survey guides SciVis researchers in gaining an overview of this emerging topic and points out future directions to grow this research.
翻訳日:2022-04-14 12:43:25 公開日:2022-04-13
# 多クラススパース線形分類器の一般化誤差境界

Generalization Error Bounds for Multiclass Sparse Linear Classifiers ( http://arxiv.org/abs/2204.06264v1 )

ライセンス: Link先を確認
Tomer Levy and Felix Abramovich(参考訳) スパース多項ロジスティック回帰による高次元多クラス分類を考察する。 バイナリ分類とは異なり、多クラスセットアップでは、回帰係数行列上の異なる構造的仮定に関連するスパーシティの概念のスペクトル全体を考えることができる。 そこで本研究では,特定の種類のスパーシティを捉えた対流ペナルティを用いたペナルティ最大度に基づく計算可能な特徴選択手法を提案する。 特に,大域的スパース性,二列的スパース性,低ランク的スパース性について検討し,適切に選択されたチューニングパラメータを用いて導出されたプラグイン分類器が,対応する多クラススパース線形分類器のクラス内で(過度なリスクの誤分類の観点から)minimax一般化誤差境界を達成することを示す。 開発されたアプローチは一般的であり、他の種類の空間にも適応できる。

We consider high-dimensional multiclass classification by sparse multinomial logistic regression. Unlike binary classification, in the multiclass setup one can think about an entire spectrum of possible notions of sparsity associated with different structural assumptions on the regression coefficients matrix. We propose a computationally feasible feature selection procedure based on penalized maximum likelihood with convex penalties capturing a specific type of sparsity at hand. In particular, we consider global sparsity, double row-wise sparsity, and low-rank sparsity, and show that with the properly chosen tuning parameters the derived plug-in classifiers attain the minimax generalization error bounds (in terms of misclassification excess risk) within the corresponding classes of multiclass sparse linear classifiers. The developed approach is general and can be adapted to other types of sparsity as well.
翻訳日:2022-04-14 12:43:07 公開日:2022-04-13
# (参考訳) ラベル多様性を考慮した顔分析システムにおけるバイアス軽減

Mitigating Bias in Facial Analysis Systems by Incorporating Label Diversity ( http://arxiv.org/abs/2204.06364v1 )

ライセンス: CC BY 4.0
Camila Kolling, Victor Araujo, Adriano Veloso and Soraia Raupp Musse(参考訳) 顔分析モデルは、人々の生活に大きな影響を与える現実世界のアプリケーションにますます応用されている。 しかし、前述のように、顔の特徴を自動的に分類するモデルは、保護されたグループに対するアルゴリズムによる識別行動を示し、個人や社会に悪影響を及ぼす可能性がある。 したがって、顔分類器の意図しない偏見を軽減する技術を開発することが重要である。 そこで本研究では,顔の特徴の数学的定義に基づく,主観的人間に基づくラベルと客観的アノテーションを組み合わせた新しい学習手法を提案する。 具体的には、大規模人間の注釈付きデータセットから新たな客観的アノテーションを生成し、分析された顔の特徴の異なる視点をキャプチャする。 次に,異なる種類のアノテーションで訓練された個々のモデルを組み合わせたアンサンブル学習手法を提案する。 アノテーションの手順とデータセットの分布を詳細に分析する。 さらに,ラベルの多様性を取り入れ,付加的な合成画像がなければ意図しないバイアスを軽減し,下流タスクの精度を高く保ちながら実証的に実証する。

Facial analysis models are increasingly applied in real-world applications that have significant impact on peoples' lives. However, as previously shown, models that automatically classify facial attributes might exhibit algorithmic discrimination behavior with respect to protected groups, potentially posing negative impacts on individuals and society. It is therefore critical to develop techniques that can mitigate unintended biases in facial classifiers. Hence, in this work, we introduce a novel learning method that combines both subjective human-based labels and objective annotations based on mathematical definitions of facial traits. Specifically, we generate new objective annotations from a large-scale human-annotated dataset, each capturing a different perspective of the analyzed facial trait. We then propose an ensemble learning method, which combines individual models trained on different types of annotations. We provide an in-depth analysis of the annotation procedure as well as the dataset distribution. Moreover, we empirically demonstrate that, by incorporating label diversity, and without additional synthetic images, our method successfully mitigates unintended biases, while maintaining significant accuracy on the downstream task.
翻訳日:2022-04-14 12:40:50 公開日:2022-04-13
# 言語条件付きロボット模倣学習で何が重要か

What Matters in Language Conditioned Robotic Imitation Learning ( http://arxiv.org/abs/2204.06252v1 )

ライセンス: Link先を確認
Oier Mees, Lukas Hermann, Wolfram Burgard(参考訳) ロボット工学の長年の目標は、センサーが内蔵し、自然言語でしか特定されていない知覚から、幅広い日常的なタスクをこなせるロボットを作ることだ。 最近の言語駆動ロボティクスの進歩は、ピクセルからエンドツーエンドの学習を活用することで達成されているが、セットアップの基盤となる変動により、さまざまなデザイン選択を行うための明確かつよく理解されたプロセスは存在しない。 本稿では、オフラインのフリーフォーム模倣データセットから言語条件付きポリシーを学習する際の最も重要な課題について広範な研究を行う。 さらに,ロボット制御学習の階層的分解,マルチモーダルトランスフォーマーエンコーダ,離散潜在計画,映像および言語表現を整列する自己監督的コントラスト的損失など,性能向上のためのアーキテクチャ的・アルゴリズム的手法を同定する。 本研究の結果を改良されたモデルコンポーネントと組み合わせることで,言語条件の長いロボット操作CALVINベンチマークにおいて,技術の現状を大幅に上回る新しい手法を提案することができる。 我々は,自然言語で指定された行で複雑な操作スキルを多数遂行する学習の今後の研究を促進するために,実装をオープンソース化した。 Codebaseとトレーニング済みモデルをhttp://hulc.cs.uni-freiburg.deで公開

A long-standing goal in robotics is to build robots that can perform a wide range of daily tasks from perceptions obtained with their onboard sensors and specified only via natural language. While recently substantial advances have been achieved in language-driven robotics by leveraging end-to-end learning from pixels, there is no clear and well-understood process for making various design choices due to the underlying variation in setups. In this paper, we conduct an extensive study of the most critical challenges in learning language conditioned policies from offline free-form imitation datasets. We further identify architectural and algorithmic techniques that improve performance, such as a hierarchical decomposition of the robot control learning, a multimodal transformer encoder, discrete latent plans and a self-supervised contrastive loss that aligns video and language representations. By combining the results of our investigation with our improved model components, we are able to present a novel approach that significantly outperforms the state of the art on the challenging language conditioned long-horizon robot manipulation CALVIN benchmark. We have open-sourced our implementation to facilitate future research in learning to perform many complex manipulation skills in a row specified with natural language. Codebase and trained models available at http://hulc.cs.uni-freiburg.de
翻訳日:2022-04-14 12:25:58 公開日:2022-04-13
# SemEval-2022 Task 5: Misogynous Memesの検出と分類のためのマルチモーダルアーキテクチャ

TIB-VA at SemEval-2022 Task 5: A Multimodal Architecture for the Detection and Classification of Misogynous Memes ( http://arxiv.org/abs/2204.06299v1 )

ライセンス: Link先を確認
Sherzod Hakimov and Gullal S. Cheema and Ralph Ewerth(参考訳) ソーシャルメディア上の不快で憎悪的なコンテンツの検出は、毎日多くのオンラインユーザーに影響を与える困難な問題である。 憎しみのあるコンテンツは、民族、性別、宗教、その他の要素に基づく人々のグループをターゲットにするためにしばしば使用される。 社会プラットフォームでは、女性に対する憎悪や軽蔑が増している。 テキストと視覚のモダリティを組み合わせることで単一のコンテキスト(例えばmemeとして知られる画像の上に埋め込まれたオーバーレイテキスト)を形成する場合、見当違いなコンテンツ検出は特に困難である。 本稿では,不規則なミームの内容を検出するために,テキストと視覚的特徴を組み合わせたマルチモーダルアーキテクチャを提案する。 提案したアーキテクチャはSemEval-2022 Task 5: MAMI - Multimedia Automatic Misogyny Identification Challenge(TIB-VA)で評価されている。 提案手法は,ある文書が誤認であるか否かを分類し,さらにシェーミング,ステレオタイプ,客観化,暴力の主要なサブクラスを識別することが課題であるタスクbにおいて最善の結果を得た。

The detection of offensive, hateful content on social media is a challenging problem that affects many online users on a daily basis. Hateful content is often used to target a group of people based on ethnicity, gender, religion and other factors. The hate or contempt toward women has been increasing on social platforms. Misogynous content detection is especially challenging when textual and visual modalities are combined to form a single context, e.g., an overlay text embedded on top of an image, also known as meme. In this paper, we present a multimodal architecture that combines textual and visual features in order to detect misogynous meme content. The proposed architecture is evaluated in the SemEval-2022 Task 5: MAMI - Multimedia Automatic Misogyny Identification challenge under the team name TIB-VA. Our solution obtained the best result in the Task-B where the challenge is to classify whether a given document is misogynous and further identify the main sub-classes of shaming, stereotype, objectification, and violence.
翻訳日:2022-04-14 12:25:36 公開日:2022-04-13
# 自動マルチラベルプロンプト:単純かつ解釈可能な少数ショット分類

Automatic Multi-Label Prompting: Simple and Interpretable Few-Shot Classification ( http://arxiv.org/abs/2204.06305v1 )

ライセンス: Link先を確認
Han Wang and Canwen Xu and Julian McAuley(参考訳) プロンプトベースの学習(即ちプロンプト)は、事前学習された言語モデルによって学習された知識を活用するための新しいパラダイムである。 本稿では,プロンプトによる限定的なテキスト分類のためのラベルマッピングを自動的に選択する簡易かつ効果的な手法である,自動マルチラベルプロンプト(amulap)を提案する。 提案手法は1対多のラベルマッピングと統計に基づくアルゴリズムを用いて,プロンプトテンプレートを付与したラベルマッピングを選択する。 実験の結果,AMuLaPは人的労力や外部リソースを使わずにGLUEベンチマーク上での競合性能を実証した。

Prompt-based learning (i.e., prompting) is an emerging paradigm for exploiting knowledge learned by a pretrained language model. In this paper, we propose Automatic Multi-Label Prompting (AMuLaP), a simple yet effective method to automatically select label mappings for few-shot text classification with prompting. Our method exploits one-to-many label mappings and a statistics-based algorithm to select label mappings given a prompt template. Our experiments demonstrate that AMuLaP achieves competitive performance on the GLUE benchmark without human effort or external resources.
翻訳日:2022-04-14 12:25:17 公開日:2022-04-13
# FactGraph:意味グラフ表現を用いた要約におけるファクタリティの評価

FactGraph: Evaluating Factuality in Summarization with Semantic Graph Representations ( http://arxiv.org/abs/2204.06508v1 )

ライセンス: Link先を確認
Leonardo F. R. Ribeiro, Mengwen Liu, Iryna Gurevych, Markus Dreyer, Mohit Bansal(参考訳) 最近の抽象的要約の改善にもかかわらず、現在のアプローチはソースドキュメントと事実上一貫性のない要約を生成し、実際のアプリケーションにおける信頼と使用を厳しく制限している。 近年の研究では,テキストや依存弧の包含による事実の誤り識別の改善が期待されているが,同時に意味グラフ全体を考慮していない。 そこで本研究では,文書と要約を構造的意味表現(mr)に分解する手法であるfactgraphを提案する。 MRは、コアセマンティックの概念とその関係を記述し、文書と要約の両方の主要な内容を標準形式で集約し、データの疎結合を減少させる。 FactGraphはグラフエンコーダを使用してそのようなグラフをエンコードし、構造対応アダプタを付加し、グラフ接続に基づく概念間の相互作用をキャプチャし、アダプタベースのテキストエンコーダを用いたテキスト表現を行う。 事実性を評価するための異なるベンチマークの実験では、FactGraphは以前のアプローチよりも最大15%優れていた。 さらに、FactGraphはコンテンツ検証可能性エラーの識別のパフォーマンスを改善し、サブ文レベルの事実矛盾をよりよくキャプチャする。

Despite recent improvements in abstractive summarization, most current approaches generate summaries that are not factually consistent with the source document, severely restricting their trust and usage in real-world applications. Recent works have shown promising improvements in factuality error identification using text or dependency arc entailments; however, they do not consider the entire semantic graph simultaneously. To this end, we propose FactGraph, a method that decomposes the document and the summary into structured meaning representations (MR), which are more suitable for factuality evaluation. MRs describe core semantic concepts and their relations, aggregating the main content in both document and summary in a canonical form, and reducing data sparsity. FactGraph encodes such graphs using a graph encoder augmented with structure-aware adapters to capture interactions among the concepts based on the graph connectivity, along with text representations using an adapter-based text encoder. Experiments on different benchmarks for evaluating factuality show that FactGraph outperforms previous approaches by up to 15%. Furthermore, FactGraph improves performance on identifying content verifiability errors and better captures subsentence-level factual inconsistencies.
翻訳日:2022-04-14 12:25:05 公開日:2022-04-13
# 規制領域における合成データ導入の実現

Enabling Synthetic Data adoption in regulated domains ( http://arxiv.org/abs/2204.06297v1 )

ライセンス: Link先を確認
Giorgio Visani, Giacomo Graffi, Mattia Alfero, Enrico Bagli, Davide Capuzzo, Federico Chesani(参考訳) Model-CentricからData-Centricへの転換は、アルゴリズムよりもデータとその品質に重点を置いているため、新たな課題が持ち上がっている。 特に、高度に規制されたシナリオにおける情報の繊細な性質を考慮すべきである。 プライバシー問題に対処するための具体的なアプローチが開発されている。 しかし、それらはしばしば情報の喪失を引き起こし、データ品質とプライバシの間に重要なトレードオフをもたらす。 このようなコンウンドラムをバイパスする巧妙な方法は、生成プロセスから得られたデータであるSynthetic Dataに依存し、実際のデータプロパティを学習する。 全体的な信頼性のあるメトリクスがなければ、革新的なデータ生成タスクは、最大限にするための適切な客観的機能を持っていません。 しかし、その話題は未解決のままである。 このような理由から,我々は合成データ品質とプライバシの重要な特性を体系的に分類し,テストするための特定の方法論を考案する。 その結果、DAISYnt (Doption of Artificial Intelligence SYnthesis): 総合的な高度なテストスイートで、合成データ評価のデファクトスタンダードとなる。 実用的なユースケースとして、さまざまな生成アルゴリズムが現実世界のCredit Bureau Dataでトレーニングされている。 最良のモデルは、異なる合成レプリカ上でDAISYntを使用して評価されている。 さらに潜在的な用途としては、生成モデルの監査と微調整、あるいは与えられた合成データセットの高品質を保証することなどがある。 結局のところ、DAISYntは金融から医療、保険、教育に至るまで、高度に規制された領域におけるデータ導入の道を開くかもしれない。

The switch from a Model-Centric to a Data-Centric mindset is putting emphasis on data and its quality rather than algorithms, bringing forward new challenges. In particular, the sensitive nature of the information in highly regulated scenarios needs to be accounted for. Specific approaches to address the privacy issue have been developed, as Privacy Enhancing Technologies. However, they frequently cause loss of information, putting forward a crucial trade-off among data quality and privacy. A clever way to bypass such a conundrum relies on Synthetic Data: data obtained from a generative process, learning the real data properties. Both Academia and Industry realized the importance of evaluating synthetic data quality: without all-round reliable metrics, the innovative data generation task has no proper objective function to maximize. Despite that, the topic remains under-explored. For this reason, we systematically catalog the important traits of synthetic data quality and privacy, and devise a specific methodology to test them. The result is DAISYnt (aDoption of Artificial Intelligence SYnthesis): a comprehensive suite of advanced tests, which sets a de facto standard for synthetic data evaluation. As a practical use-case, a variety of generative algorithms have been trained on real-world Credit Bureau Data. The best model has been assessed, using DAISYnt on the different synthetic replicas. Further potential uses, among others, entail auditing and fine-tuning of generative models or ensuring high quality of a given synthetic dataset. From a prescriptive viewpoint, eventually, DAISYnt may pave the way to synthetic data adoption in highly regulated domains, ranging from Finance to Healthcare, through Insurance and Education.
翻訳日:2022-04-14 12:24:46 公開日:2022-04-13
# 分散学習のためのデータ・ヘテロゲニティ・アウェア・ミキシング

Data-heterogeneity-aware Mixing for Decentralized Learning ( http://arxiv.org/abs/2204.06477v1 )

ライセンス: Link先を確認
Yatin Dandi, Anastasia Koloskova, Martin Jaggi, Sebastian U. Stich(参考訳) 分散学習は、任意の通信グラフに分散したデータを持つ機械学習モデルをトレーニングするための効果的なフレームワークを提供する。 しかし、分散学習への既存のアプローチは、データ不均一性とグラフトポロジーの相互作用を無視している。 本稿では,グラフの混合重みとノード間のデータ不均一性の関係について,収束の依存性を特徴付ける。 我々は,現在の勾配を混合するグラフの能力を定量化する指標を提案する。 さらに、各ノード間の不均一性が所定のノードの更新間の確率性を支配する設定において、メトリックが収束率を制御することを証明する。 そこで本研究では,標準凸制約最適化とスケッチ手法を用いて,周期的かつ効率的にメトリックを最適化する手法を提案する。 コンピュータビジョンとNLPベンチマークの総合的な実験を通して、我々の手法は幅広いタスクにおけるテスト性能の向上につながることを示す。

Decentralized learning provides an effective framework to train machine learning models with data distributed over arbitrary communication graphs. However, most existing approaches toward decentralized learning disregard the interaction between data heterogeneity and graph topology. In this paper, we characterize the dependence of convergence on the relationship between the mixing weights of the graph and the data heterogeneity across nodes. We propose a metric that quantifies the ability of a graph to mix the current gradients. We further prove that the metric controls the convergence rate, particularly in settings where the heterogeneity across nodes dominates the stochasticity between updates for a given node. Motivated by our analysis, we propose an approach that periodically and efficiently optimizes the metric using standard convex constrained optimization and sketching techniques. Through comprehensive experiments on standard computer vision and NLP benchmarks, we show that our approach leads to improvement in test performance for a wide range of tasks.
翻訳日:2022-04-14 12:24:19 公開日:2022-04-13
# 対話行為分類のための普遍性と個人性の統合モデル

A Universality-Individuality Integration Model for Dialog Act Classification ( http://arxiv.org/abs/2204.06185v1 )

ライセンス: Link先を確認
Gao Pengfei and Ma Yinglong(参考訳) 対話法(DA)は会話における話者発話の一般的な意図を明らかにする。 DAの正確な予測は、ダイアログエージェントの開発を大いに促進する。 研究者はダイアログアクト分類について広範な研究を行ってきたが、分類の特徴情報は十分に検討されていない。 本研究は, 単語の手がかり, 語尾の手がかり, 統計的手がかりが相互補完し, 認識の基礎を向上できることを示す。 さらに、これら3種類の異なるタイプは分布形態の多様性をもたらし、特徴情報のマイニングを妨げている。 そこで,本稿では,普遍性と個性戦略に基づく新しいモデル「普遍性と個人性統合モデル」(uiim)を提案する。 UIIMは, 手がかり間の関係を, 普遍性を学習することで深化させるだけでなく, 個人性の学習を利用して, 手がかり自体の特徴を捉えている。 対話行為分類のための最も人気のあるベンチマークデータセットswdaとmdaを用いて実験を行い,提案手法の普遍性と個性を抽出することにより,発話中の隠れた情報をより徹底的に抽出し,自動対話行為認識の精度を向上させることができた。

Dialog Act (DA) reveals the general intent of the speaker utterance in a conversation. Accurately predicting DAs can greatly facilitate the development of dialog agents. Although researchers have done extensive research on dialog act classification, the feature information of classification has not been fully considered. This paper suggests that word cues, part-of-speech cues and statistical cues can complement each other to improve the basis for recognition. In addition, the different types of the three lead to the diversity of their distribution forms, which hinders the mining of feature information. To solve this problem, we propose a novel model based on universality and individuality strategies, called Universality-Individuality Integration Model (UIIM). UIIM not only deepens the connection between the clues by learning universality, but also utilizes the learning of individuality to capture the characteristics of the clues themselves. Experiments were made over two most popular benchmark data sets SwDA and MRDA for dialogue act classification, and the results show that extracting the universalities and individualities between cues can more fully excavate the hidden information in the utterance, and improve the accuracy of automatic dialogue act recognition.
翻訳日:2022-04-14 12:23:07 公開日:2022-04-13
# JAX pjit と TPUv4 を用いた言語モデルのスケーラブルなトレーニング

Scalable Training of Language Models using JAX pjit and TPUv4 ( http://arxiv.org/abs/2204.06514v1 )

ライセンス: Link先を確認
Joanna Yoo, Kuba Perlin, Siddhartha Rao Kamalakara, Jo\~ao G.M. Ara\'ujo(参考訳) 現代の大規模言語モデルは、そのサイズのために分散トレーニング戦略を必要とする。 効率的かつ堅牢なトレーニングの課題は、ソフトウェアとハードウェアのフロンティアの両方で急速に進展している。 本稿では,スケーラブルなトレーニングフレームワークの開発に伴う課題と設計上の決定について検討し,新しいソフトウェアおよびハードウェアソリューションの採用による効率改善の定量的分析を行う。

Modern large language models require distributed training strategies due to their size. The challenges of efficiently and robustly training them are met with rapid developments on both software and hardware frontiers. In this technical report, we explore challenges and design decisions associated with developing a scalable training framework, and present a quantitative analysis of efficiency improvements coming from adopting new software and hardware solutions.
翻訳日:2022-04-14 12:22:33 公開日:2022-04-13
# (参考訳) 事前訓練された言語モデルの隠れ状態操作によるパラメータ効率の調整

Parameter-Efficient Tuning by Manipulating Hidden States of Pretrained Language Models For Classification Tasks ( http://arxiv.org/abs/2204.04596v2 )

ライセンス: CC BY 4.0
Haoran Yang, Piji Li, Wai Lam(参考訳) パラメータ効率のチューニングは、事前学習された言語モデル(PLM)を凍結しながら、いくつかの導入パラメータを最適化することで、下流タスクの知識を抽出することを目的としている。 入力の埋め込みにいくつかの訓練可能なベクトルを前提とした連続的なプロンプトチューニングは、これらの手法の1つであり、その有効性と効率性から多くの注目を集めている。 この一連の手法はplm内の隠れた状態の非線形変換として表現することができる。 しかし、自然の疑問は無視される:隠された状態はそれらを変更せずに直接分類に使用できるか? 本稿では,3つのトレーニング可能なベクトルのみを導入する単純なチューニング手法を提案する。 まず、導入されたベクトルを用いて、すべての層を隠蔽状態に統合する。 そして、統合された隠れ状態(s)をタスク固有の線形分類器に入力してカテゴリを予測します。 このスキームは、ELMoが隠された状態をLSTMベースのモデルに供給する以外は、隠された状態を利用する方法に似ている。 提案手法は単純だが, P-tuning や P-tuning v2 などの迅速なチューニング手法により, 従来の隠れ状態が分類タスクに有用な情報を含んでいることを検証する。 さらに,提案手法は,時間とパラメータ数において,プロンプトチューニングよりも有利である。

Parameter-efficient tuning aims to distill knowledge for downstream tasks by optimizing a few introduced parameters while freezing the pretrained language models (PLMs). Continuous prompt tuning which prepends a few trainable vectors to the embeddings of input is one of these methods and has drawn much attention due to its effectiveness and efficiency. This family of methods can be illustrated as exerting nonlinear transformations of hidden states inside PLMs. However, a natural question is ignored: can the hidden states be directly used for classification without changing them? In this paper, we aim to answer this question by proposing a simple tuning method which only introduces three trainable vectors. Firstly, we integrate all layers hidden states using the introduced vectors. And then, we input the integrated hidden state(s) to a task-specific linear classifier to predict categories. This scheme is similar to the way ELMo utilises hidden states except that they feed the hidden states to LSTM-based models. Although our proposed tuning scheme is simple, it achieves comparable performance with prompt tuning methods like P-tuning and P-tuning v2, verifying that original hidden states do contain useful information for classification tasks. Moreover, our method has an advantage over prompt tuning in terms of time and the number of parameters.
翻訳日:2022-04-14 11:59:35 公開日:2022-04-13
# (参考訳) シングル・トゥルン・ディベートは、読みにくい質問に答えるのに役に立たない

Single-Turn Debate Does Not Help Humans Answer Hard Reading-Comprehension Questions ( http://arxiv.org/abs/2204.05212v2 )

ライセンス: CC BY 4.0
Alicia Parrish and Harsh Trivedi and Ethan Perez and Angelica Chen and Nikita Nangia and Jason Phang and Samuel R. Bowman(参考訳) 現在のQAシステムは、生成した回答の説明や証拠なしに、合理的に聞こえるが偽の回答を生成することができる。 これは、機械学習システムにおける信頼を構築するための挑戦である。 我々は、対立する側を考慮して難しい質問が答えられる現実世界の状況からインスピレーションを受けます(Irving et al., 2018)。 複数選択QAの例では、2つの候補解に対する説明を生成するためのトレーニングモデルの初期ステップとして、議論スタイルのセットアップにおいて、正解と誤解の両方のための単一の引数のデータセットを構築した。 コンテキストに精通した人間が、事前に選択した正解と不正確な回答に対して説得力のある説明を書き、その説明がフルコンテキストを読まない人間が正しい回答をより正確に決定できるかどうかをテストします。 設定中の説明が人間の精度を改善するわけではないが、基本条件は、人間の選択したテキストスニペットを提供することで精度が向上することを示している。 これらの知見を用いて,今後のデータ収集に向けた議論を改善する方法を提案する。

Current QA systems can generate reasonable-sounding yet false answers without explanation or evidence for the generated answer, which is especially problematic when humans cannot readily check the model's answers. This presents a challenge for building trust in machine learning systems. We take inspiration from real-world situations where difficult questions are answered by considering opposing sides (see Irving et al., 2018). For multiple-choice QA examples, we build a dataset of single arguments for both a correct and incorrect answer option in a debate-style set-up as an initial step in training models to produce explanations for two candidate answers. We use long contexts -- humans familiar with the context write convincing explanations for pre-selected correct and incorrect answers, and we test if those explanations allow humans who have not read the full context to more accurately determine the correct answer. We do not find that explanations in our set-up improve human accuracy, but a baseline condition shows that providing human-selected text snippets does improve accuracy. We use these findings to suggest ways of improving the debate set up for future data collection efforts.
翻訳日:2022-04-14 11:31:51 公開日:2022-04-13
# (参考訳) RGB熱画像対を用いたガラスセグメンテーション

Glass Segmentation with RGB-Thermal Image Pairs ( http://arxiv.org/abs/2204.05453v2 )

ライセンス: CC BY 4.0
Dong Huo, Jian Wang, Yiming Qian, Yee-Hong Yang(参考訳) 本稿では,RGBと熱画像を組み合わせた新しいガラスセグメンテーション法を提案する。 可視光の透過特性と、ほとんどのガラスが可視光に対して透明であるが熱エネルギーに不透明なガラスによる熱エネルギーとの差が大きいため、シーンのガラス領域はRGB画像のみよりもRGB画像と熱画像の対でより区別可能である。 このようなユニークな特性を利用するために,rgb熱画像対と注意に基づく新しいマルチモーダル融合モジュールを効果的に組み合わせ,cnnとtransformerを統合して局所特徴と長距離依存性を抽出するニューラルネットワークアーキテクチャを提案する。 また,5551 rgbの熱画像ペアと地対セグメンテーションアノテーションを含む新しいデータセットも収集した。 定性的,定量的な評価は,ガラスセグメンテーションにおけるRGBの拡散と熱データに対する提案手法の有効性を示す。 私たちのコードとデータはhttps://github.com/Dong-Huo/RGB-T-Glass-Segmentationで公開されています。

This paper proposes a new glass segmentation method utilizing paired RGB and thermal images. Due to the large difference between the transmission property of visible light and that of the thermal energy through the glass where most glass is transparent to the visible light but opaque to thermal energy, glass regions of a scene are made more distinguishable with a pair of RGB and thermal images than solely with an RGB image. To exploit such a unique property, we propose a neural network architecture that effectively combines an RGB-thermal image pair with a new multi-modal fusion module based on attention, and integrate CNN and transformer to extract local features and long-range dependencies, respectively. As well, we have collected a new dataset containing 5551 RGB-thermal image pairs with ground-truth segmentation annotations. The qualitative and quantitative evaluations demonstrate the effectiveness of the proposed approach on fusing RGB and thermal data for glass segmentation. Our code and data are available at https://github.com/Dong-Huo/RGB-T-Glass-Segmentation.
翻訳日:2022-04-14 11:18:19 公開日:2022-04-13
# (参考訳) Video Captioning: 私たちがどこにいて、どこがルートなのかの比較レビュー

Video Captioning: a comparative review of where we are and which could be the route ( http://arxiv.org/abs/2204.05976v2 )

ライセンス: CC BY 4.0
Daniela Moctezuma, Tania Ram\'irez-delReal, Guillermo Ruiz, Oth\'on Gonz\'alez-Ch\'avez(参考訳) ビデオキャプションは、その意味的関係と意味をキャプチャする一連の画像の内容を記述するプロセスである。 このタスクを単一のイメージで処理することは、ビデオ(あるいは画像シーケンス)がどれほど難しいかは言うまでもなく、難しい。 ビデオキャプションの応用の量と関連性は、主にビデオ監視における大量のビデオ記録を扱うか、視覚障害者を支援するために、非常に大きい。 ビデオキャプションの課題を解決するためのコミュニティの努力や、フォローするべき道を分析するために、本原稿は2016年から2021年までの期間に105以上の論文を広範囲にレビューしている。 その結果、最もよく使われるデータセットとメトリクスが特定される。 また、主なアプローチと最良のアプローチも使用しました。 本研究では,いくつかのパフォーマンス指標に基づいてランキングを算出し,その評価に基づいて,動画キャプションタスクにおいて最高の結果が得られる最善の方法を得る。 最後に、この複雑なタスクの処理を改善するための次のステップまたは機会領域として、いくつかの洞察が得られます。

Video captioning is the process of describing the content of a sequence of images capturing its semantic relationships and meanings. Dealing with this task with a single image is arduous, not to mention how difficult it is for a video (or images sequence). The amount and relevance of the applications of video captioning are vast, mainly to deal with a significant amount of video recordings in video surveillance, or assisting people visually impaired, to mention a few. To analyze where the efforts of our community to solve the video captioning task are, as well as what route could be better to follow, this manuscript presents an extensive review of more than 105 papers for the period of 2016 to 2021. As a result, the most-used datasets and metrics are identified. Also, the main approaches used and the best ones. We compute a set of rankings based on several performance metrics to obtain, according to its performance, the best method with the best result on the video captioning task. Finally, some insights are concluded about which could be the next steps or opportunity areas to improve dealing with this complex task.
翻訳日:2022-04-14 10:47:11 公開日:2022-04-13
# (参考訳) VisCUIT: CNN画像分類器におけるバイアスの視覚的監査

VisCUIT: Visual Auditor for Bias in CNN Image Classifier ( http://arxiv.org/abs/2204.05899v2 )

ライセンス: CC BY 4.0
Seongmin Lee, Zijie J. Wang, Judy Hoffman, Duen Horng Chau(参考訳) CNN画像分類器は、その効率と精度のために広く使われている。 しかし、実用的応用を妨げる偏見に苦しむことがある。 既存のバイアス調査技術のほとんどは、一般的な画像分類タスクには適用できないか、または検査すべきデータ属性を手作業で指定するためにすべてのデータサブグループを熟読するための重要なユーザー努力を必要とする。 本稿では,cnn分類器の偏りを可視化する対話型可視化システムviscuitを提案する。 VisCUITは、分類器が機能しないサブグループを視覚的に要約し、誤分類に寄与するニューロンの活性化に責任があるイメージ概念を明らかにすることで、ユーザがパフォーマンスの原因を発見し、特徴付けるのを助ける。 VisCUITはモダンなブラウザで動作し、オープンソースであるため、ツールを他のモデルアーキテクチャやデータセットに簡単にアクセスして拡張することができる。 VisCUITは以下の公開デモリンクで利用可能である。 ビデオデモはhttps://youtu.be/endbsym4r_4で見ることができる。

CNN image classifiers are widely used, thanks to their efficiency and accuracy. However, they can suffer from biases that impede their practical applications. Most existing bias investigation techniques are either inapplicable to general image classification tasks or require significant user efforts in perusing all data subgroups to manually specify which data attributes to inspect. We present VisCUIT, an interactive visualization system that reveals how and why a CNN classifier is biased. VisCUIT visually summarizes the subgroups on which the classifier underperforms and helps users discover and characterize the cause of the underperformances by revealing image concepts responsible for activating neurons that contribute to misclassifications. VisCUIT runs in modern browsers and is open-source, allowing people to easily access and extend the tool to other model architectures and datasets. VisCUIT is available at the following public demo link: https://poloclub.github.io/VisCUIT. A video demo is available at https://youtu.be/eNDbSyM4R_4.
翻訳日:2022-04-14 10:44:46 公開日:2022-04-13
# エンティティ認識のための分解メタラーニング

Decomposed Meta-Learning for Few-Shot Named Entity Recognition ( http://arxiv.org/abs/2204.05751v2 )

ライセンス: Link先を確認
Tingting Ma, Huiqiang Jiang, Qianhui Wu, Tiejun Zhao, Chin-Yew Lin(参考訳) NER (Few-shot named entity recognition) システムは、いくつかのラベル付き例に基づいて、新しい名前付きエンティティを認識することを目的としている。 本稿では,数ショットスパン検出とメタラーニングを用いた数ショットエンティティタイピングを逐次行うことで,数ショットNERの問題に対処するメタラーニング手法を提案する。 特に,数発のスパン検出をシーケンスラベル問題として捉え,モデルに依存しないメタラーニング(MAML)アルゴリズムを導入して,新しいエンティティクラスに迅速に適応できる優れたモデルパラメータの初期化を求める。 少数のエンティティタイプの場合、maml-protonet、すなわちmamlエンハンス付きプロトタイプネットワークを提案し、異なるエンティティクラスからテキストスパン表現を区別する優れた埋め込み空間を見つける。 様々なベンチマーク実験により,本手法は従来の手法よりも優れた性能を示すことが示された。

Few-shot named entity recognition (NER) systems aim at recognizing novel-class named entities based on only a few labeled examples. In this paper, we present a decomposed meta-learning approach which addresses the problem of few-shot NER by sequentially tackling few-shot span detection and few-shot entity typing using meta-learning. In particular, we take the few-shot span detection as a sequence labeling problem and train the span detector by introducing the model-agnostic meta-learning (MAML) algorithm to find a good model parameter initialization that could fast adapt to new entity classes. For few-shot entity typing, we propose MAML-ProtoNet, i.e., MAML-enhanced prototypical networks to find a good embedding space that can better distinguish text span representations from different entity classes. Extensive experiments on various benchmarks show that our approach achieves superior performance over prior methods.
翻訳日:2022-04-14 10:30:13 公開日:2022-04-13
# 時間的集合予測のための進化的および定常的ユーザ嗜好のモデル化

Modelling Evolutionary and Stationary User Preferences for Temporal Sets Prediction ( http://arxiv.org/abs/2204.05490v2 )

ライセンス: Link先を確認
Le Yu, Zihang Liu, Tongyu Zhu, Leilei Sun, Bowen Du, Weifeng Lv(参考訳) 各集合がタイムスタンプに関連付けられ、任意の数の要素を含む集合列が与えられたとき、時間集合予測のタスクは、次の集合の要素を予測することを目的としている。 時間集合予測のための従来の研究は、主にユーザーの進化的嗜好を自身のシーケンスから学習することによって捉えている。 洞察力はあるが、我々はそう主張する。 1) 異なるユーザのシーケンスに潜む協調信号は必須であるが, 利用されていない。 2)既存手法では考慮できないが,利用者は定常的な嗜好を示す傾向にある。 そこで本研究では,すべてのユーザ・セット間インタラクションを時系列的に配置し,各ユーザ・セット間インタラクションを学習することにより,まず普遍的なシーケンスを構築する時間的集合予測のための,ユーザの進化的選好と定常的選好の両方をモデル化する統合学習フレームワークを提案する。 特に,ユーザ・セット間のインタラクション毎に,まず,ユーザの時間発展的嗜好を追跡する進化的ユーザ嗜好モデリングコンポーネントをデザインし,異なるユーザ間の潜在協調信号を活用した。 このコンポーネントは、関連するユーザと要素のメモリを格納するメモリバンクを保持し、現在のエンコードされたメッセージと過去の記憶に基づいて、メモリを継続的に更新する。 次に,ユーザ嗜好モデリングモジュールを考案し,ユーザと要素の埋め込みのガイダンスを用いて,前回インタラクションした要素をデュアルパースペクティブから適応的に集約する履歴シーケンスに従って,各ユーザのパーソナライズされた特性を検出する。 最後に、モデル効率を向上させるためのセットバッチアルゴリズムを開発し、時間一貫性のあるバッチを事前に生成し、平均3.5倍のトレーニングスピードアップを達成する。 実世界のデータセットに関する実験は、このアプローチの有効性と優れた解釈性を示している。

Given a sequence of sets, where each set is associated with a timestamp and contains an arbitrary number of elements, the task of temporal sets prediction aims to predict the elements in the subsequent set. Previous studies for temporal sets prediction mainly capture each user's evolutionary preference by learning from his/her own sequence. Although insightful, we argue that: 1) the collaborative signals latent in different users' sequences are essential but have not been exploited; 2) users also tend to show stationary preferences while existing methods fail to consider. To this end, we propose an integrated learning framework to model both the evolutionary and the stationary preferences of users for temporal sets prediction, which first constructs a universal sequence by chronologically arranging all the user-set interactions, and then learns on each user-set interaction. In particular, for each user-set interaction, we first design an evolutionary user preference modelling component to track the user's time-evolving preference and exploit the latent collaborative signals among different users. This component maintains a memory bank to store memories of the related user and elements, and continuously updates their memories based on the currently encoded messages and the past memories. Then, we devise a stationary user preference modelling module to discover each user's personalized characteristics according to the historical sequence, which adaptively aggregates the previously interacted elements from dual perspectives with the guidance of the user's and elements' embeddings. Finally, we develop a set-batch algorithm to improve the model efficiency, which can create time-consistent batches in advance and achieve 3.5x training speedups on average. Experiments on real-world datasets demonstrate the effectiveness and good interpretability of our approach.
翻訳日:2022-04-14 10:29:56 公開日:2022-04-13
# FederatedScope-GNN:Federated Graph Learningのための統一的で包括的で効率的なパッケージを目指して

FederatedScope-GNN: Towards a Unified, Comprehensive and Efficient Package for Federated Graph Learning ( http://arxiv.org/abs/2204.05562v2 )

ライセンス: Link先を確認
Zhen Wang, Weirui Kuang, Yuexiang Xie, Liuyi Yao, Yaliang Li, Bolin Ding, Jingren Zhou(参考訳) 連邦学習(FL)の驚くべき発展は、コンピュータビジョンと自然言語処理の分野における様々なタスクに恩恵をもたらし、TFFやFATEといった既存のフレームワークは、現実世界のアプリケーションでデプロイを容易にした。 しかし,FGL(Federated Graph Learning)は,グラフデータが広く普及しているにもかかわらず,その特徴や要件から十分にサポートされていない。 fgl関連フレームワークの欠如は、再現可能な研究と実際のアプリケーションへのデプロイを達成する努力を増加させる。 そこで本稿では,この強い需要に動機づけられて,まず,使いやすいfglパッケージを作成する際の課題について論じるとともに,(1)fglアルゴリズムのモジュール化と表現のための統一的なビューを提供するfs-g(package federatedscope-gnn),(2)アウト・オブ・ボックスのfgl機能のための包括的なdatazooとmodelzoo,(3)効率的なモデル自動チューニングコンポーネント,(4)既製のプライバシー攻撃と防御能力を提供する。 我々は,FS-Gの有効性を広範囲な実験によって検証し,同時にコミュニティにとってのFGLに関する貴重な洞察を得る。 さらに、実世界のEコマースシナリオでFGLアプリケーションを提供するためにFS-Gを使用します。 我々は、FederatedScopeのサブモジュールとしてFS-Gをhttps://github.com/alibaba/FederatedScopeで公開し、FGLの研究を促進するとともに、専用のパッケージがないため、そうでなければ不可能な幅広いアプリケーションを可能にする。

The incredible development of federated learning (FL) has benefited various tasks in the domains of computer vision and natural language processing, and the existing frameworks such as TFF and FATE has made the deployment easy in real-world applications. However, federated graph learning (FGL), even though graph data are prevalent, has not been well supported due to its unique characteristics and requirements. The lack of FGL-related framework increases the efforts for accomplishing reproducible research and deploying in real-world applications. Motivated by such strong demand, in this paper, we first discuss the challenges in creating an easy-to-use FGL package and accordingly present our implemented package FederatedScope-GNN (FS-G), which provides (1) a unified view for modularizing and expressing FGL algorithms; (2) comprehensive DataZoo and ModelZoo for out-of-the-box FGL capability; (3) an efficient model auto-tuning component; and (4) off-the-shelf privacy attack and defense abilities. We validate the effectiveness of FS-G by conducting extensive experiments, which simultaneously gains many valuable insights about FGL for the community. Moreover, we employ FS-G to serve the FGL application in real-world E-commerce scenarios, where the attained improvements indicate great potential business benefits. We publicly release FS-G, as submodules of FederatedScope, at https://github.com/alibaba/FederatedScope to promote FGL's research and enable broad applications that would otherwise be infeasible due to the lack of a dedicated package.
翻訳日:2022-04-14 10:29:28 公開日:2022-04-13