このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220321となっている論文です。

PDF登録状況(公開日: 20220321)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) SVMとNaive BAYESを用いたヘイトスピーチ分類 [全文訳有]

Hate Speech Classification Using SVM and Naive BAYES ( http://arxiv.org/abs/2204.07057v1 )

ライセンス: CC BY 4.0
D.C Asogwa, C.I Chukwuneke, C.C Ngene, G.N Anigbogu(参考訳) かつては口頭でのコミュニケーションに限られていた憎しみの広がりは、インターネット上で急速に広まりつつある。 人々が意見を話し、表現できるソーシャルメディアとコミュニティフォーラムは、ヘイトメッセージの拡散のプラットフォームになりつつある。 多くの国がオンラインヘイトスピーチを避けるための法律を制定した。 彼らはヘイトスピーチの排除に失敗したソーシャルメディアを運営している会社を保有している。 しかし、オンラインコンテンツが成長を続けるにつれ、ヘイトスピーチの普及も相まって、オンラインプラットフォーム上でのヘイトスピーチの手動分析は、高価で時間のかかる膨大なデータのために実現不可能である。 したがって、オンラインユーザのコンテンツを自動的に処理し、オンラインメディアからヘイトスピーチを検出し削除することが重要である。 最近の多くのアプローチは解釈可能性の問題に苦しんでおり、なぜシステムが決定を下すのかを理解するのが困難である。 本研究では,SVM(Support Vector Machine)とNa\\"ive Bayesアルゴリズムを用いて,ヘイトメッセージの自動検出問題の解法を提案する。 これにより、最先端に近いパフォーマンスを実現し、他の方法よりも簡単に解釈可能な決定を生成できる。 この手法の実証的評価により、svmとnbの分類精度は、それぞれ99%と50%であった。 キーワード:分類、ヘイトスピーチ、特徴抽出、アルゴリズム、教師付き学習

The spread of hatred that was formerly limited to verbal communications has rapidly moved over the Internet. Social media and community forums that allow people to discuss and express their opinions are becoming platforms for the spreading of hate messages. Many countries have developed laws to avoid online hate speech. They hold the companies that run the social media responsible for their failure to eliminate hate speech. But as online content continues to grow, so does the spread of hate speech However, manual analysis of hate speech on online platforms is infeasible due to the huge amount of data as it is expensive and time consuming. Thus, it is important to automatically process the online user contents to detect and remove hate speech from online media. Many recent approaches suffer from interpretability problem which means that it can be difficult to understand why the systems make the decisions they do. Through this work, some solutions for the problem of automatic detection of hate messages were proposed using Support Vector Machine (SVM) and Na\"ive Bayes algorithms. This achieved near state-of-the-art performance while being simpler and producing more easily interpretable decisions than other methods. Empirical evaluation of this technique has resulted in a classification accuracy of approximately 99% and 50% for SVM and NB respectively over the test set. Keywords: classification; hate speech; feature extraction, algorithm, supervised learning
翻訳日:2022-04-17 10:11:07 公開日:2022-03-21
# LQoCo: ストレージシステムのキャッシュ容量オーバーロードを最適化する学習

LQoCo: Learning to Optimize Cache Capacity Overloading in Storage Systems ( http://arxiv.org/abs/2203.13678v1 )

ライセンス: Link先を確認
Ji Zhang, Xijun Li, Xiyao Zhou, Mingxuan Yuan, Zhuo Cheng, Keji Huang, Yifan Li(参考訳) キャッシュは、ストレージシステムにおけるハイパフォーマンス(高スループット、低テールレイテンシ、スループットジッタ)を維持する上で重要な役割を果たす。 既存のルールベースのキャッシュ管理メソッドは、エンジニアの手動設定と組み合わせることで、時間を要するワークロードと複雑なストレージシステムの両方の要求を常に満たせないため、キャッシュのオーバーロードが頻繁に発生する。 本稿では,ストレージシステムにおけるキャッシュ過負荷を効果的に防止するために,キャッシュ帯域幅を適応的に制御できる軽量学習ベースのキャッシュ帯域幅制御技術である \LQoCo を提案する。 実システム上での様々なワークロードによる大規模な実験により、LQoCoは強力な適応性と高速学習能力を持つため、様々なワークロードに適応してキャッシュ帯域を効果的に制御し、ストレージ性能を大幅に向上させることができる(例えば、スループットを10\%-20\%向上し、スループットジッタとテールレイテンシを2X-6Xと1.5X-4Xで削減するなど)。

Cache plays an important role to maintain high and stable performance (i.e. high throughput, low tail latency and throughput jitter) in storage systems. Existing rule-based cache management methods, coupled with engineers' manual configurations, cannot meet ever-growing requirements of both time-varying workloads and complex storage systems, leading to frequent cache overloading. In this paper, we for the first time propose a light-weight learning-based cache bandwidth control technique, called \LQoCo which can adaptively control the cache bandwidth so as to effectively prevent cache overloading in storage systems. Extensive experiments with various workloads on real systems show that LQoCo, with its strong adaptability and fast learning ability, can adapt to various workloads to effectively control cache bandwidth, thereby significantly improving the storage performance (e.g. increasing the throughput by 10\%-20\% and reducing the throughput jitter and tail latency by 2X-6X and 1.5X-4X, respectively, compared with two representative rule-based methods).
翻訳日:2022-04-03 17:48:27 公開日:2022-03-21
# (参考訳) 医療のための半マルコフオフライン強化学習 [全文訳有]

Semi-Markov Offline Reinforcement Learning for Healthcare ( http://arxiv.org/abs/2203.09365v2 )

ライセンス: CC BY 4.0
Mehdi Fatemi and Mary Wu and Jeremy Petch and Walter Nelson and Stuart J. Connolly and Alexander Benz and Anthony Carnicelli and Marzyeh Ghassemi(参考訳) 強化学習(rl)タスクは通常、決定は一定時間間隔で行われると仮定して、マルコフ決定プロセス(mdps)として構成される。 しかし、医療を含む多くの重要な応用は、この仮定を満たさないが、データを人工的に再構成した後、一般的にMDPとしてモデル化される。 さらに、ほとんどの医療(と同じような)問題は本質的にオフラインであり、レトロスペクティブ研究のみを可能にします。 両課題に対処するために、変数タイミングのアクションを公式に扱うSemi-MDP(SMDP)フレームワークについて議論する。 次に、ほぼ任意の値ベースのオフラインRL法にSMDP修正を適用する公式な方法を示す。 この理論を用いて、SMDPベースのオフラインRLアルゴリズム(SDQN、SDDQN、SBCQ)を3つ導入する。 次に,これらのsmdpベースのアルゴリズムのみが可変時間環境において最適なポリシーを学習できることを実験的に証明する。 最後に,脳卒中予防のためのwarfarin dosingに関連する実世界のオフラインデータセットに新しいアルゴリズムを適用し,同様の結果を示す。

Reinforcement learning (RL) tasks are typically framed as Markov Decision Processes (MDPs), assuming that decisions are made at fixed time intervals. However, many applications of great importance, including healthcare, do not satisfy this assumption, yet they are commonly modelled as MDPs after an artificial reshaping of the data. In addition, most healthcare (and similar) problems are offline by nature, allowing for only retrospective studies. To address both challenges, we begin by discussing the Semi-MDP (SMDP) framework, which formally handles actions of variable timings. We next present a formal way to apply SMDP modifications to nearly any given value-based offline RL method. We use this theory to introduce three SMDP-based offline RL algorithms, namely, SDQN, SDDQN, and SBCQ. We then experimentally demonstrate that only these SMDP-based algorithms learn the optimal policy in variable-time environments, whereas their MDP counterparts do not. Finally, we apply our new algorithms to a real-world offline dataset pertaining to warfarin dosing for stroke prevention and demonstrate similar results.
翻訳日:2022-03-27 07:39:42 公開日:2022-03-21
# (参考訳) 心エコー法による心収縮・拡張機能のAIによる評価 [全文訳有]

AI-enabled Assessment of Cardiac Systolic and Diastolic Function from Echocardiography ( http://arxiv.org/abs/2203.11726v1 )

ライセンス: CC BY 4.0
Esther Puyol-Ant\'on, Bram Ruijsink, Baldeep S. Sidhu, Justin Gould, Bradley Porter, Mark K. Elliott, Vishal Mehta, Haotian Gu, Miguel Xochicale, Alberto Gomez, Christopher A. Rinaldi, Martin Cowie, Phil Chowienczyk, Reza Razavi, and Andrew P. King(参考訳) 左室機能(LV)は, 心疾患患者の管理, 予後, 長期生存において重要な因子である。 最近発表された心不全のガイドラインでは、診断と治療のストラテフィケーションバイオマーカーとしての心臓機能の1つの尺度(lv放出分画)のみに依存することが最適である。 近年,AIを用いた心エコー図法が進歩し,LV容積とLV放出率の自動推定に優れた結果が得られた。 しかし, 経時的2次元心エコー法による心機能評価から, 総心周期から機能的バイオマーカーを推定することにより, よりリッチな心機能記述が得られる。 本研究では,心周期の分画に基づく2次元心エコー図からシストリックおよびジアストリックlv機能の高度なバイオマーカーを導出するためのaiアプローチを初めて提案する。 これらのバイオマーカーは、臨床医が健康と病気の心臓をより豊かに見せることができる。 AIモデルは'nn-Unet'フレームワークに基づいており、4つの異なるデータベースを使用してトレーニングとテストが行われた。 その結果,手作業による分析と自動分析に優れた一致を示し,患者階層化のための高度なシストリック・ダイアストリックバイオマーカーの可能性を示した。 最後に,50例のサブセットについて,心エコー法とCMRによる臨床バイオマーカーの相関解析を行い,両者の相違点が良好であった。

Left ventricular (LV) function is an important factor in terms of patient management, outcome, and long-term survival of patients with heart disease. The most recently published clinical guidelines for heart failure recognise that over reliance on only one measure of cardiac function (LV ejection fraction) as a diagnostic and treatment stratification biomarker is suboptimal. Recent advances in AI-based echocardiography analysis have shown excellent results on automated estimation of LV volumes and LV ejection fraction. However, from time-varying 2-D echocardiography acquisition, a richer description of cardiac function can be obtained by estimating functional biomarkers from the complete cardiac cycle. In this work we propose for the first time an AI approach for deriving advanced biomarkers of systolic and diastolic LV function from 2-D echocardiography based on segmentations of the full cardiac cycle. These biomarkers will allow clinicians to obtain a much richer picture of the heart in health and disease. The AI model is based on the 'nn-Unet' framework and was trained and tested using four different databases. Results show excellent agreement between manual and automated analysis and showcase the potential of the advanced systolic and diastolic biomarkers for patient stratification. Finally, for a subset of 50 cases, we perform a correlation analysis between clinical biomarkers derived from echocardiography and CMR and we show excellent agreement between the two modalities.
翻訳日:2022-03-26 05:55:52 公開日:2022-03-21
# (参考訳) ReCCoVER:説明可能な強化学習のための因果関係の検出 [全文訳有]

ReCCoVER: Detecting Causal Confusion for Explainable Reinforcement Learning ( http://arxiv.org/abs/2203.11211v1 )

ライセンス: CC BY 4.0
Jasmina Gajcin and Ivana Dusparic(参考訳) 近年の様々な分野における顕著な成果にもかかわらず、深層強化学習(DRL)アルゴリズムは透明性を欠き、ユーザの信頼に影響を与え、リスクの高いタスクへのデプロイメントを妨げている。 因果的混乱(英: Causal confusion)とは、エージェントが状態空間全体にわたって保持されない可能性のある特徴間の急激な相関を学習し、そのような相関が壊れる可能性のある実際のタスクへの安全な配置を防止する現象である。 本研究では,エージェントが臨界状態の急激な相関に依存しているかどうかを検証し,因果的混乱を生じにくくするため,その決定を根拠にすべき特徴の代替的サブセットを提案する。 我々の目標は、DRLエージェントの透明性を高めることであり、学習された刺激的相関が意思決定に与える影響を明らかにし、原因の混乱を避けるために、状態空間の異なる部分における特徴の選択について開発者にアドバイスすることである。 本研究では,機能間の相関が保持されない代替環境において,エージェントの推論における因果的混乱を検出するアルゴリズムであるreccoverを提案する。 タクシーやグリッドの世界では、エージェントがスプリアス相関に依存する状態を検出し、代わりに考慮すべき機能セットを提供するreccoverのアプローチを実演します。

Despite notable results in various fields over the recent years, deep reinforcement learning (DRL) algorithms lack transparency, affecting user trust and hindering their deployment to high-risk tasks. Causal confusion refers to a phenomenon where an agent learns spurious correlations between features which might not hold across the entire state space, preventing safe deployment to real tasks where such correlations might be broken. In this work, we examine whether an agent relies on spurious correlations in critical states, and propose an alternative subset of features on which it should base its decisions instead, to make it less susceptible to causal confusion. Our goal is to increase transparency of DRL agents by exposing the influence of learned spurious correlations on its decisions, and offering advice to developers about feature selection in different parts of state space, to avoid causal confusion. We propose ReCCoVER, an algorithm which detects causal confusion in agent's reasoning before deployment, by executing its policy in alternative environments where certain correlations between features do not hold. We demonstrate our approach in taxi and grid world environments, where ReCCoVER detects states in which an agent relies on spurious correlations and offers a set of features that should be considered instead.
翻訳日:2022-03-26 05:44:02 公開日:2022-03-21
# 多機能融合に基づくWebページコンテンツ抽出

Web Page Content Extraction Based on Multi-feature Fusion ( http://arxiv.org/abs/2203.12591v1 )

ライセンス: Link先を確認
Bowen Yu, Junping Du, Yingxia Shao(参考訳) インターネット技術の急速な発展に伴い、人々は様々なWebページリソースにアクセスしやすくなっている。 同時に、ディープラーニング技術の現在の急速な開発は、膨大な量のwebデータリソースとは区別がつかないことが多い。 一方で、nlpは、ウェブページデータ抽出のようなデータ処理技術の重要な部分でもある。 現在、webページテキストの抽出技術は主に単一のヒューリスティック機能や戦略を用いており、そのほとんどは手動でしきい値を決定する必要がある。 webリソースの数と種類が急速に増加する中、異なるページのテキスト情報を抽出するために単一の戦略を使用する場合、まだ解決すべき問題が残っている。 本稿では,多機能融合に基づくWebページテキスト抽出アルゴリズムを提案する。 Webリソースのテキスト情報特性によると、複数の統計特徴を設計するための抽出単位としてDOMノードを使用し、ヒューリスティック戦略に従って高次特徴を設計する。 この方法は、小さなニューラルネットワークを確立し、domノードの複数の特徴を入力として、そのノードがテキスト情報を含むかどうかを予測し、異なる統計情報と抽出戦略をフル活用し、より多くの種類のページに対応させる。 実験の結果,本手法はwebページのテキスト抽出に優れた性能を有し,手作業でしきい値を決定する問題を回避できることがわかった。

With the rapid development of Internet technology, people have more and more access to a variety of web page resources. At the same time, the current rapid development of deep learning technology is often inseparable from the huge amount of Web data resources. On the other hand, NLP is also an important part of data processing technology, such as web page data extraction. At present, the extraction technology of web page text mainly uses a single heuristic function or strategy, and most of them need to determine the threshold manually. With the rapid growth of the number and types of web resources, there are still problems to be solved when using a single strategy to extract the text information of different pages. This paper proposes a web page text extraction algorithm based on multi-feature fusion. According to the text information characteristics of web resources, DOM nodes are used as the extraction unit to design multiple statistical features, and high-order features are designed according to heuristic strategies. This method establishes a small neural network, takes multiple features of DOM nodes as input, predicts whether the nodes contain text information, makes full use of different statistical information and extraction strategies, and adapts to more types of pages. Experimental results show that this method has a good ability of web page text extraction and avoids the problem of manually determining the threshold.
翻訳日:2022-03-24 16:34:59 公開日:2022-03-21
# ドメインの特徴を融合した学術会議における意味的類似性計算

Semantic Similarity Computing for Scientific Academic Conferences fused with domain features ( http://arxiv.org/abs/2203.12593v1 )

ライセンス: Link先を確認
Runyu Yu, Yawen Li, Ang Li(参考訳) 学術会議データのセマンティック情報を利用するのが現状の汎用意味テキスト類似性計算法では難しい問題として,ドメイン特徴との融合による学術会議のセマンティック類似性計算アルゴリズムを提案する。 まず、エンティティ認識とキーワード抽出によりカンファレンスのドメイン特徴情報を取得し、特徴としてbertネットワークに入力し、会議情報とする。 シームズネットワークの構造は、BERTの異方性問題を解決するために用いられる。 ネットワークの出力はプール化され正規化され、最後にコサイン類似度を用いて2つのセッション間の類似度を算出する。 実験の結果,sbfdアルゴリズムは異なるデータセットで良好な結果を示し,スピアマン相関係数は比較アルゴリズムと比較して一定の改善が見られた。

Aiming at the problem that the current general-purpose semantic text similarity calculation methods are difficult to use the semantic information of scientific academic conference data, a semantic similarity calculation algorithm for scientific academic conferences by fusion with domain features is proposed. First, the domain feature information of the conference is obtained through entity recognition and keyword extraction, and it is input into the BERT network as a feature and the conference information. The structure of the Siamese network is used to solve the anisotropy problem of BERT. The output of the network is pooled and normalized, and finally the cosine similarity is used to calculate the similarity between the two sessions. Experimental results show that the SBFD algorithm has achieved good results on different data sets, and the Spearman correlation coefficient has a certain improvement compared with the comparison algorithm.
翻訳日:2022-03-24 16:33:02 公開日:2022-03-21
# (参考訳) ImageNet Challenging Classification with the Raspberry Pi: An Incremental Local Stochastic Gradient Descent Algorithm [全文訳有]

ImageNet Challenging Classification with the Raspberry Pi: An Incremental Local Stochastic Gradient Descent Algorithm ( http://arxiv.org/abs/2203.11853v1 )

ライセンス: CC BY 4.0
Thanh-Nghi Do(参考訳) 強力で低コストな組み込みデバイスの増加に伴い、エッジコンピューティングはますます人気が高まっている。 本論文では,1,261,405画像と1000クラスからなる大規模イメージネットデータセットを扱うために,raspberry pi用に調整した新しいインクリメンタル局所確率勾配勾配勾配 (sgd) を提案する。 ローカルなSGDは$k$meansアルゴリズムを使ってデータブロックを$k$パーティションに分割し、各データパーティション内のSGDモデルを並列的に学習して、データをローカルに分類する。 インクリメンタルローカルSGDは、トレーニングデータセットの小さなデータブロックを順次ロードして、ローカルSGDモデルを学ぶ。 Imagenetデータセットの数値テスト結果から,我々のRaspberry Pi 4による局所SGDアルゴリズムは,PC Intel(R) Core i7-4790 CPU,3.6GHz,4コア上で動作する最先端の線形SVMよりも高速かつ高精度であることがわかった。

With rising powerful, low-cost embedded devices, the edge computing has become an increasingly popular choice. In this paper, we propose a new incremental local stochastic gradient descent (SGD) tailored on the Raspberry Pi to deal with large ImageNet dataset having 1,261,405 images with 1,000 classes. The local SGD splits the data block into $k$ partitions using $k$means algorithm and then it learns in the parallel way SGD models in each data partition to classify the data locally. The incremental local SGD sequentially loads small data blocks of the training dataset to learn local SGD models. The numerical test results on Imagenet dataset show that our incremental local SGD algorithm with the Raspberry Pi 4 is faster and more accurate than the state-of-the-art linear SVM run on a PC Intel(R) Core i7-4790 CPU, 3.6 GHz, 4 cores.
翻訳日:2022-03-24 13:27:51 公開日:2022-03-21
# (参考訳) VAEの概念 [全文訳有]

The Conceptual VAE ( http://arxiv.org/abs/2203.11216v1 )

ライセンス: CC BY 4.0
Razin A. Shaikh, Sara Sabrina Zemljic, Sean Tull and Stephen Clark(参考訳) 本稿では,因子化された概念領域のような魅力的な特性を持つように設計された変分オートエンコーダの枠組みに基づく新しい概念モデルを提案する。 このモデルは、概念のβ-VAEモデルにインスパイアされ、密接に関連するが、概念の名称がグラフィカルモデルの一部を形成するように、言語とより密接に結びついているように設計されている。 概念的VAE(Conceptual VAE)と呼ばれるこのモデルでは、対応する概念ラベルとともに色付き形状の単純な画像から解釈可能な概念表現を学習できることを示す。 また、モデルが概念分類器としてどのように使用できるか、そしてインスタンス毎に少ないラベルから学習するためにどのように適応できるかを示す。 最後に、我々のモデルとGardenforsの概念空間の理論を正式に関連付け、そのような空間における「ファジィな概念」という観点から、概念を表現するためにガウスがどのように形式化されるかを示す。

In this report we present a new model of concepts, based on the framework of variational autoencoders, which is designed to have attractive properties such as factored conceptual domains, and at the same time be learnable from data. The model is inspired by, and closely related to, the Beta-VAE model of concepts, but is designed to be more closely connected with language, so that the names of concepts form part of the graphical model. We provide evidence that our model -- which we call the Conceptual VAE -- is able to learn interpretable conceptual representations from simple images of coloured shapes together with the corresponding concept labels. We also show how the model can be used as a concept classifier, and how it can be adapted to learn from fewer labels per instance. Finally, we formally relate our model to Gardenfors' theory of conceptual spaces, showing how the Gaussians we use to represent concepts can be formalised in terms of "fuzzy concepts" in such a space.
翻訳日:2022-03-24 13:18:20 公開日:2022-03-21
# (参考訳) PCA-RF:ランダム森林分類に基づく効率的なパーキンソン病予測モデル [全文訳有]

PCA-RF: An Efficient Parkinson's Disease Prediction Model based on Random Forest Classification ( http://arxiv.org/abs/2203.11287v1 )

ライセンス: CC BY 4.0
Ishu Gupta and Vartika Sharma and Sizman Kaur and Ashutosh Kumar Singh(参考訳) 現代の人口過剰病の予測は、様々な疾患を早期に診断する上で重要なステップである。 さまざまな機械学習アルゴリズムの進歩により、予測は非常に容易になった。 しかし、与えられたデータセットに対する最適な機械学習手法の複雑さと選択は、モデルの精度に大きな影響を及ぼす。 世界中に大量のデータセットが存在するが、非構造化フォーマットのため、効果的に利用することはできない。 したがって、現実世界で実装するのに有用なものを抽出するために、さまざまなテクニックが利用可能です。 したがって、精度はモデルを評価する上で重要な指標となる。 本稿では,パーキンソン病に対するランダムな森林分類法を実装する病気予測手法を提案する。 このモデルの精度を主成分分析 (PCA) に適用したニューラルネットワーク (ANN) モデルと比較し, 可視差を捉えた。 このモデルは最大90%の精度を確保した。

In this modern era of overpopulation disease prediction is a crucial step in diagnosing various diseases at an early stage. With the advancement of various machine learning algorithms, the prediction has become quite easy. However, the complex and the selection of an optimal machine learning technique for the given dataset greatly affects the accuracy of the model. A large amount of datasets exists globally but there is no effective use of it due to its unstructured format. Hence, a lot of different techniques are available to extract something useful for the real world to implement. Therefore, accuracy becomes a major metric in evaluating the model. In this paper, a disease prediction approach is proposed that implements a random forest classifier on Parkinson's disease. We compared the accuracy of this model with the Principal Component Analysis (PCA) applied Artificial Neural Network (ANN) model and captured a visible difference. The model secured a significant accuracy of up to 90%.
翻訳日:2022-03-24 12:57:55 公開日:2022-03-21
# (参考訳) エッジデバイス上でのテスト時間非教師なしディープニューラルネットワーク適応ベンチマーク [全文訳有]

Benchmarking Test-Time Unsupervised Deep Neural Network Adaptation on Edge Devices ( http://arxiv.org/abs/2203.11295v1 )

ライセンス: CC BY 4.0
Kshitij Bhardwaj, James Diffenderfer, Bhavya Kailkhura, Maya Gokhale(参考訳) エッジへのデプロイ後のディープニューラルネットワーク(dnn)の予測精度は、新しいデータの分布の変化によって時間とともに低下する可能性がある。 dnnのロバスト性を改善するためには、自分自身をアップデートして予測精度を高める必要がある。 リソース制約のあるエッジでのこの適応は、次のように難しい。 i) 新しいラベル付きデータが存在しない場合 (ii)クラウドへの接続が利用できない場合、デバイス上への適応が必要である。 (iii)プロセスは高速であるだけでなく、メモリ効率やエネルギー効率も必要である。 近年,バッチ正規化(BN)パラメータを再調整することにより,ノイズデータに対するモデルの予測精度を向上させる軽量な予測時間非教師付きDNN適応手法が導入された。 本稿では,様々なエッジデバイス上での性能とエネルギーを定量化し,ボトルネックを見つけ,最適化の機会を提案する手法について,初めて包括的な計測を行う。 特に,破壊を伴うcifar-10-c画像分類データセット,3つの堅牢なdnn (resnext, wide-resnet, resnet-18),2つのbn適応アルゴリズム (正規化統計の更新と変換パラメータの最適化),3つのエッジデバイス (fpga,raspberry-pi,n vidia xavier nx) について検討した。 Xavier GPU上で動作するWide-ResNetで正規化パラメータだけを更新するアプローチは、複数のコストメトリクスのバランスをとるという点で全体として効果的である。 しかし、適応オーバーヘッド(約213ms)は依然として大きい可能性がある。 その結果,効率的なオンデバイスDNN適応のためのアルゴリズムハードウェア共同設計の必要性が強く示唆された。

The prediction accuracy of the deep neural networks (DNNs) after deployment at the edge can suffer with time due to shifts in the distribution of the new data. To improve robustness of DNNs, they must be able to update themselves to enhance their prediction accuracy. This adaptation at the resource-constrained edge is challenging as: (i) new labeled data may not be present; (ii) adaptation needs to be on device as connections to cloud may not be available; and (iii) the process must not only be fast but also memory- and energy-efficient. Recently, lightweight prediction-time unsupervised DNN adaptation techniques have been introduced that improve prediction accuracy of the models for noisy data by re-tuning the batch normalization (BN) parameters. This paper, for the first time, performs a comprehensive measurement study of such techniques to quantify their performance and energy on various edge devices as well as find bottlenecks and propose optimization opportunities. In particular, this study considers CIFAR-10-C image classification dataset with corruptions, three robust DNNs (ResNeXt, Wide-ResNet, ResNet-18), two BN adaptation algorithms (one that updates normalization statistics and the other that also optimizes transformation parameters), and three edge devices (FPGA, Raspberry-Pi, and Nvidia Xavier NX). We find that the approach that only updates the normalization parameters with Wide-ResNet, running on Xavier GPU, to be overall effective in terms of balancing multiple cost metrics. However, the adaptation overhead can still be significant (around 213 ms). The results strongly motivate the need for algorithm-hardware co-design for efficient on-device DNN adaptation.
翻訳日:2022-03-24 12:44:40 公開日:2022-03-21
# (参考訳) 談話解析で重要な変化:パーサエラーに対するドメインシフトの影響を推定する [全文訳有]

The Change that Matters in Discourse Parsing: Estimating the Impact of Domain Shift on Parser Error ( http://arxiv.org/abs/2203.11317v1 )

ライセンス: CC BY 4.0
Katherine Atwell, Anthony Sicilia, Seong Jae Hwang, Malihe Alikhani(参考訳) 談話分析は文レベルを超えて広がるテキスト文書の推論を可能にする。 言論モデルの現在の性能は、トレーニングディストリビューションのカバレッジ以外のテキストでは極めて低く、既存のモデルの実用性が低下している。 モデルがトレーニングからテストサンプルにどの程度一般化するかを、これらのサンプルが別々の分布から引き出される可能性がある場合に知らせる手段が必要です。 これは分布シフトによって推定できるが、これは分類器の観測誤差(すなわち誤差ギャップ)の変化と直接相関しない。 そこで本論文では,誤差ギャップに直接結び付ける理論領域適応文献から統計値を用いることを提案する。 我々は、ニュース、生物医学的テキスト、tedトーク、redditの投稿、フィクションを含む6つの談話データセットに関する2400以上の実験を、理論的および大規模に実施して、この統計学のバイアスを調査した。 私たちの結果は提案のモチベーションを高め、その限界を理解するのに役立つだけでなく、ドメイン適応のパフォーマンスを向上させる談話モデルとデータセットの特性についての洞察を提供します。 例えば、非newsデータセットは、トレーニングとテストセットがまったく異なる場合、newsデータセットよりも少し簡単に転送できることが分かりました。 私たちのコードと関連するpythonパッケージは、よりインフォームドなモデルとデータセットの選択を可能にするために利用可能です。

Discourse analysis allows us to attain inferences of a text document that extend beyond the sentence-level. The current performance of discourse models is very low on texts outside of the training distribution's coverage, diminishing the practical utility of existing models. There is need for a measure that can inform us to what extent our model generalizes from the training to the test sample when these samples may be drawn from distinct distributions. While this can be estimated via distribution shift, we argue that this does not directly correlate with change in the observed error of a classifier (i.e. error-gap). Thus, we propose to use a statistic from the theoretical domain adaptation literature which can be directly tied to error-gap. We study the bias of this statistic as an estimator of error-gap both theoretically and through a large-scale empirical study of over 2400 experiments on 6 discourse datasets from domains including, but not limited to: news, biomedical texts, TED talks, Reddit posts, and fiction. Our results not only motivate our proposal and help us to understand its limitations, but also provide insight on the properties of discourse models and datasets which improve performance in domain adaptation. For instance, we find that non-news datasets are slightly easier to transfer to than news datasets when the training and test sets are very different. Our code and an associated Python package are available to allow practitioners to make more informed model and dataset choices.
翻訳日:2022-03-24 11:49:01 公開日:2022-03-21
# (参考訳) 複合現実感を用いたロボットモータースキルの学習 [全文訳有]

Learning robot motor skills with mixed reality ( http://arxiv.org/abs/2203.11324v1 )

ライセンス: CC BY 4.0
Eric Rosen, Sreehari Rammohan, Devesh Jha(参考訳) 最近MR(Mixed Reality)は、エンドユーザがロボットを教えるための直感的なインターフェースとして大きな成功を収めた。 関連した研究は、MRインタフェースを使用して、ロボットの意図や信念を同じ場所にいる人間に伝達し、マルチモーダルな人間の入力と複雑な運動行動の学習のためのアルゴリズムを開発した。 これらの成功にもかかわらず、エンドユーザーが複雑な運動タスクをロボットに教えることを可能にすることは、エンドユーザーコミュニケーションがタスク依存度が高く、世界知識が多様であるため、依然として課題となっている。 エンドユーザーがロボットに教える学習フレームワークを提案する。 a) 運動のデモ b) 業務上の制約 c) 表象の計画,及び d) 対象情報はすべて,ダイナミックムーブメントプリミティブ(dmps)に基づく単一の運動スキル学習フレームワークに統合される。 我々は、この世界の知識を伝達することはMRインタフェースで直感的であると仮定し、世界の知識の多様さを取り入れたサンプリング効率の良い運動スキル学習フレームワークにより、ロボットが複雑なタスクを効果的に解決できると仮定する。

Mixed Reality (MR) has recently shown great success as an intuitive interface for enabling end-users to teach robots. Related works have used MR interfaces to communicate robot intents and beliefs to a co-located human, as well as developed algorithms for taking multi-modal human input and learning complex motor behaviors. Even with these successes, enabling end-users to teach robots complex motor tasks still poses a challenge because end-user communication is highly task dependent and world knowledge is highly varied. We propose a learning framework where end-users teach robots a) motion demonstrations, b) task constraints, c) planning representations, and d) object information, all of which are integrated into a single motor skill learning framework based on Dynamic Movement Primitives (DMPs). We hypothesize that conveying this world knowledge will be intuitive with an MR interface, and that a sample-efficient motor skill learning framework which incorporates varied modalities of world knowledge will enable robots to effectively solve complex tasks.
翻訳日:2022-03-24 11:25:27 公開日:2022-03-21
# (参考訳) N次元の折り紙:フィードフォワードネットワークが線形分離性をいかに生み出すか [全文訳有]

Origami in N dimensions: How feed-forward networks manufacture linear separability ( http://arxiv.org/abs/2203.11355v1 )

ライセンス: CC BY-SA 4.0
Christian Keup, Moritz Helias(参考訳) ニューラルネットワークは任意の関数を実装できる。 しかし、機械的には、ターゲットを構築するためのツールは何ですか? 分類タスクでは、ネットワークはデータクラスを最終隠れ層で線形に分離可能な表現に変換する必要がある。 フィードフォワードアーキテクチャは、この分離可能性を達成するための1つの主要なツールを持っていることを示している: 空でない高次元におけるデータ多様体の漸進的折り畳みである。 折り畳みの操作は、高次元に一般化する低次元における有用な直感を与える。 せん断に基づく代替手法は、非常に深いアーキテクチャを必要とするが、現実世界のネットワークでは小さな役割しか果たさない。 しかし、折り畳み操作は、層がデータ次元よりも広い限り強力であり、他のクラス内の1つのクラスを構成する島々のデータポイントのような分布内の任意の領域へのアクセスを提供することで効率的な解を可能にする。 我々は、ReLUネットワークにおける普遍近似特性と物理紙の折りたたみを扱う折りたたみ定理(Demaine et al., 1998)の間にリンクが存在することを論じる。 機構的洞察に基づいて, 分離性の進行的生成は, 選択性とバイモーダルチューニング曲線の混合を示すニューロンが伴うことを予測した。 これはポーカーハンドタスクでトレーニングされたネットワークで検証され、トレーニング中にバイモーダルチューニング曲線が出現することを示す。 深層ネットワークにおけるデータ変換の直感的なイメージが、解釈可能性の提供に役立ち、畳み込みネットワークの理論、失われた風景、一般化への可能性について論じることを期待します。 TL;DR: ディープネットワークの内部処理は、N次元のアクティベーション空間におけるデータ分布上のリテラル折り畳み演算と考えることができる。 折り紙理論におけるよく知られた定理へのリンクを提供する。

Neural networks can implement arbitrary functions. But, mechanistically, what are the tools at their disposal to construct the target? For classification tasks, the network must transform the data classes into a linearly separable representation in the final hidden layer. We show that a feed-forward architecture has one primary tool at hand to achieve this separability: progressive folding of the data manifold in unoccupied higher dimensions. The operation of folding provides a useful intuition in low-dimensions that generalizes to high ones. We argue that an alternative method based on shear, requiring very deep architectures, plays only a small role in real-world networks. The folding operation, however, is powerful as long as layers are wider than the data dimensionality, allowing efficient solutions by providing access to arbitrary regions in the distribution, such as data points of one class forming islands within the other classes. We argue that a link exists between the universal approximation property in ReLU networks and the fold-and-cut theorem (Demaine et al., 1998) dealing with physical paper folding. Based on the mechanistic insight, we predict that the progressive generation of separability is necessarily accompanied by neurons showing mixed selectivity and bimodal tuning curves. This is validated in a network trained on the poker hand task, showing the emergence of bimodal tuning curves during training. We hope that our intuitive picture of the data transformation in deep networks can help to provide interpretability, and discuss possible applications to the theory of convolutional networks, loss landscapes, and generalization. TL;DR: Shows that the internal processing of deep networks can be thought of as literal folding operations on the data distribution in the N-dimensional activation space. A link to a well-known theorem in origami theory is provided.
翻訳日:2022-03-24 11:19:32 公開日:2022-03-21
# (参考訳) AttentionMask を用いた最小侵襲サージェリーにおける医療機器のセグメンテーション [全文訳有]

Segmenting Medical Instruments in Minimally Invasive Surgeries using AttentionMask ( http://arxiv.org/abs/2203.11358v1 )

ライセンス: CC BY 4.0
Christian Wilms, Alexander Michael Gerlach, R\"udiger Schmitz, Simone Frintrop(参考訳) 医療機器セグメンテーション(medical instrument segmentation, 医療機器セグメンテーション)は、医療画像処理におけるいくつかの課題において重要な第一歩である。 しかし, 画像劣化, 小型楽器, 各種手術種間の一般化は, 医療機器のセグメンテーションを困難にしている。 これらの課題に対処するために,オブジェクト提案生成システム attentionmask を適応させ,有望な提案を選択するための専用のポストプロセッシングを提案する。 ROBUST-MIS Challenge 2019の結果から,我々の適応型 AttentionMask システムは最先端のパフォーマンスを実現するための強力な基盤であることがわかった。 提案手法を用いた提案手法の評価から,アテンションマスクシステムは画像劣化に対して頑健であり,目に見えない種類の手術によく一般化し,小型機器にうまく対応できることを示した。

Precisely locating and segmenting medical instruments in images of minimally invasive surgeries, medical instrument segmentation, is an essential first step for several tasks in medical image processing. However, image degradations, small instruments, and the generalization between different surgery types make medical instrument segmentation challenging. To cope with these challenges, we adapt the object proposal generation system AttentionMask and propose a dedicated post-processing to select promising proposals. The results on the ROBUST-MIS Challenge 2019 show that our adapted AttentionMask system is a strong foundation for generating state-of-the-art performance. Our evaluation in an object proposal generation framework shows that our adapted AttentionMask system is robust to image degradations, generalizes well to unseen types of surgeries, and copes well with small instruments.
翻訳日:2022-03-24 11:04:06 公開日:2022-03-21
# (参考訳) 地味ラベルのないプロンプト工学への情報理論的アプローチ

An Information-theoreti c Approach to Prompt Engineering Without Ground Truth Labels ( http://arxiv.org/abs/2203.11364v1 )

ライセンス: CC BY 4.0
Taylor Sorensen, Joshua Robinson, Christopher Michael Rytting, Alexander Glenn Shaw, Kyle Jeffrey Rogers, Alexia Pauline Delorey, Mahmoud Khalil, Nancy Fulda, David Wingate(参考訳) 事前訓練された言語モデルは、訓練された大量のコーパスから言語的および事実的な知識をかなり引き起こし、エンジニアリングはこれらのモデルを特定のタスクに合わせることを目指している。 残念ながら、既存のプロンプトエンジニアリング手法は、大量のラベル付きデータ、モデルパラメータへのアクセス、あるいはその両方を必要とする。 本稿では,プロンプトテンプレートである \textit{without labeled examples} と \textit{without direct access to the model} を選択する新しい方法を提案する。 具体的には、候補テンプレートのセット上で、入力と対応するモデル出力間の相互情報を最大化するテンプレートを選択します。 7つの異なるnlpタスクを表す8つのデータセットにまたがって、テンプレートが高い相互情報を持っている場合、タスクの精度も高いことを示す。 最大モデルでは,提案手法でプロンプトを選択すると,平均プロンプト精度から最良プロンプト精度まで90%の精度が得られ,基底真理ラベルは不要となる。

Pre-trained language models derive substantial linguistic and factual knowledge from the massive corpora on which they are trained, and prompt engineering seeks to align these models to specific tasks. Unfortunately, existing prompt engineering methods require significant amounts of labeled data, access to model parameters, or both. We introduce a new method for selecting prompt templates \textit{without labeled examples} and \textit{without direct access to the model}. Specifically, over a set of candidate templates, we choose the template that maximizes the mutual information between the input and the corresponding model output. Across 8 datasets representing 7 distinct NLP tasks, we show that when a template has high mutual information, it also has high accuracy on the task. On the largest model, selecting prompts with our method gets 90\% of the way from the average prompt accuracy to the best prompt accuracy and requires no ground truth labels.
翻訳日:2022-03-24 10:54:25 公開日:2022-03-21
# (参考訳) エンタテインメントメディアにおける背景キャラクタ検出のための音声ビジュアルキャラクタプロファイル [全文訳有]

Audio visual character profiles for detecting background characters in entertainment media ( http://arxiv.org/abs/2203.11368v1 )

ライセンス: CC BY 4.0
Rahul Sharma and Shrikanth Narayanan(参考訳) 計算メディアインテリジェンスの重要な目標は、メディアストーリー(ニュース、コマーシャル、エンターテイメントメディアなど)が社会をどう表現し、反映し、これらの描写が認識されるかを理解することである。 人々はメディアストーリーの中心的な要素です。 本稿では,主に映画やテレビ番組のメディア描写における背景人物の表現と描写の理解に焦点を当てる。 我々は、背景文字を、映画中のあらゆる場面に声で参加しない人物と定義し、映像中の背景文字をローカライズする問題に対処する。 能動型話者定位システムを用いて,高信頼な対声関係を抽出し,自動クラスタリングにより映画内の発話キャラクタの音声・視覚プロファイルを生成する。 顔認証システムを用いて,生成したキャラクタプロファイルと一致するすべての顔追跡を行い,背景キャラクタのフェイストラックを取得する。 テレビ番組の背景キャラクタのためのアノテーションを提供する背景キャラクタデータセットをキュレートし,それを用いて背景キャラクタ検出フレームワークの性能評価を行う。

An essential goal of computational media intelligence is to support understanding how media stories -- be it news, commercial or entertainment media -- represent and reflect society and these portrayals are perceived. People are a central element of media stories. This paper focuses on understanding the representation and depiction of background characters in media depictions, primarily movies and TV shows. We define the background characters as those who do not participate vocally in any scene throughout the movie and address the problem of localizing background characters in videos. We use an active speaker localization system to extract high-confidence face-speech associations and generate audio-visual profiles for talking characters in a movie by automatically clustering them. Using a face verification system, we then prune all the face-tracks which match any of the generated character profiles and obtain the background character face-tracks. We curate a background character dataset which provides annotations for background character for a set of TV shows, and use it to evaluate the performance of the background character detection framework.
翻訳日:2022-03-24 10:53:11 公開日:2022-03-21
# (参考訳) 時間的抽象化による時間的コントラスト学習:rlにおけるラプラシアンの代替 [全文訳有]

Temporal Abstractions-Augment ed Temporally Contrastive Learning: An Alternative to the Laplacian in RL ( http://arxiv.org/abs/2203.11369v1 )

ライセンス: CC BY 4.0
Akram Erraqabi, Marlos C. Machado, Mingde Zhao, Sainbayar Sukhbaatar, Alessandro Lazaric, Ludovic Denoyer, Yoshua Bengio(参考訳) 強化学習において、グラフラプラシアンは、スキル発見から報酬形成まで、タスクに依存しない設定において貴重なツールであることが証明された。 近年、ラプラシアン表現の学習は、大きな(あるいは連続)状態空間における計算上の限界を克服するために、時間的連続目的の最適化として構成されている。 しかし、このアプローチは、表現学習プロセス中に生じる探索問題を見越して、状態空間の全ての状態に均一にアクセスする必要がある。 本研究では,非一様優先度設定において,ラプラシアン表現の表現性および所望の性質を回復可能な代替手法を提案する。 表現学習をスキルベースでカバーするポリシと組み合わせることで,表現の拡張と洗練のためのより良いトレーニングディストリビューションを提供します。 また,学習時間抽象化による表現目標の簡単な拡張により,ダイナミクス認識性が向上し,探索が促進されることを示した。 本手法は,非一様設定においてラプラシアンの代替として成功し,連続制御環境への挑戦にスケールできることがわかった。 最後に,本手法がスキル発見に最適化されていなくても,標準的なスキル発見アプローチがそれほど効果的ではないような,難易度の高い連続ナビゲーションタスクの解決に成功することができる。

In reinforcement learning, the graph Laplacian has proved to be a valuable tool in the task-agnostic setting, with applications ranging from skill discovery to reward shaping. Recently, learning the Laplacian representation has been framed as the optimization of a temporally-contrasti ve objective to overcome its computational limitations in large (or continuous) state spaces. However, this approach requires uniform access to all states in the state space, overlooking the exploration problem that emerges during the representation learning process. In this work, we propose an alternative method that is able to recover, in a non-uniform-prior setting, the expressiveness and the desired properties of the Laplacian representation. We do so by combining the representation learning with a skill-based covering policy, which provides a better training distribution to extend and refine the representation. We also show that a simple augmentation of the representation objective with the learned temporal abstractions improves dynamics-awareness and helps exploration. We find that our method succeeds as an alternative to the Laplacian in the non-uniform setting and scales to challenging continuous control environments. Finally, even if our method is not optimized for skill discovery, the learned skills can successfully solve difficult continuous navigation tasks with sparse rewards, where standard skill discovery approaches are no so effective.
翻訳日:2022-03-24 10:43:33 公開日:2022-03-21
# (参考訳) 確率過程による言語モデリング

Language modeling via stochastic processes ( http://arxiv.org/abs/2203.11370v1 )

ライセンス: CC BY 4.0
Rose E Wang, Esin Durmus, Noah Goodman, Tatsunori Hashimoto(参考訳) 現代の言語モデルは高品質の短文を生成することができる。 しかし、長いテキストを生成する際には、しばしばメランジェや不整合である。 これらの問題は、next-tokenのみの言語モデリングの目的から生じる。 これらの問題に対処するために、潜時確率過程を通じて暗黙的に計画する言語モデルであるTime Control (TC)を導入する。 TCは、文書におけるテキストの変化のダイナミクスを、確率的プロセスのダイナミックスにマッピングする表現を学習することでこれを実現します。 この表現を使用することで、言語モデルは、まず確率的プロセスを通じて文書プランを暗黙的に生成し、その後この潜在計画と一致するテキストを生成することによって、テキストを生成することができる。 様々なテキストドメインにわたるドメイン固有メソッドやgpt2の微調整と比較すると、tcはテキストインフィルディングや談話コヒーレンスのパフォーマンスを向上させる。 長いテキスト生成設定では、tcは、順序付け(最大40%改善)とテキスト長一貫性(最大+17%改善)の両面でテキスト構造を保持します。 人間の評価者はTCの出力が基準よりも28.6%多いことも好んでいる。

Modern language models can generate high-quality short texts. However, they often meander or are incoherent when generating longer texts. These issues arise from the next-token-only language modeling objective. To address these issues, we introduce Time Control (TC), a language model that implicitly plans via a latent stochastic process. TC does this by learning a representation which maps the dynamics of how text changes in a document to the dynamics of a stochastic process of interest. Using this representation, the language model can generate text by first implicitly generating a document plan via a stochastic process, and then generating text that is consistent with this latent plan. Compared to domain-specific methods and fine-tuning GPT2 across a variety of text domains, TC improves performance on text infilling and discourse coherence. On long text generation settings, TC preserves the text structure both in terms of ordering (up to +40% better) and text length consistency (up to +17% better). Human evaluators also prefer TC's output 28.6% more than the baselines.
翻訳日:2022-03-24 10:20:06 公開日:2022-03-21
# (参考訳) テストデータ再利用による逐次アルゴリズム修正 [全文訳有]

Sequential algorithmic modification with test data reuse ( http://arxiv.org/abs/2203.11377v1 )

ライセンス: CC BY 4.0
Jean Feng, Gene Pennello, Nicholas Petrick, Berkman Sahiner, Romain Pirracchio, Alexej Gossmann(参考訳) 機械学習アルゴリズムの初期リリース後、モデルは、次に収集されたデータを再トレーニングし、新たに発見された機能を追加することで、微調整することができる。 各修正はパフォーマンスを劣化させるリスクを導入し、テストデータセットで検証する必要があります。 修正ごとにテストするための新しいデータセットを組み立てることは、必ずしも現実的ではないかもしれない。 最近の研究では、同じデータセットで修正を繰り返しテストし、過剰適合から保護する方法が示されている。 (i)グリッドに沿った試験結果の判別と (ii)適応開発者が考慮した修正の総数を調整するためにボンフェルロニ補正を適用すること。 しかしながら、標準的なボニフェロニ補正は、ほとんどの修正が有益または高相関である場合、過度に保守的である。 本研究では,アルファリサイクルと逐次回帰グラフィカルプロシージャ(SRGP)を用いたより強力なアプローチについて検討する。 適応的に選択されたアルゴリズム修正の相関を考慮に入れた新しい拡張を導入する。 経験的分析では、SRGPは許容できない修正を承認するエラー率を制御し、以前のアプローチよりもはるかに多くの有益な修正を承認する。

After initial release of a machine learning algorithm, the model can be fine-tuned by retraining on subsequently gathered data, adding newly discovered features, or more. Each modification introduces a risk of deteriorating performance and must be validated on a test dataset. It may not always be practical to assemble a new dataset for testing each modification, especially when most modifications are minor or are implemented in rapid succession. Recent works have shown how one can repeatedly test modifications on the same dataset and protect against overfitting by (i) discretizing test results along a grid and (ii) applying a Bonferroni correction to adjust for the total number of modifications considered by an adaptive developer. However, the standard Bonferroni correction is overly conservative when most modifications are beneficial and/or highly correlated. This work investigates more powerful approaches using alpha-recycling and sequentially-rejecti ve graphical procedures (SRGPs). We introduce novel extensions that account for correlation between adaptively chosen algorithmic modifications. In empirical analyses, the SRGPs control the error rate of approving unacceptable modifications and approve a substantially higher number of beneficial modifications than previous approaches.
翻訳日:2022-03-24 10:19:00 公開日:2022-03-21
# (参考訳) HyperShot: Kernel HyperNetworksによるいくつかのショット学習 [全文訳有]

HyperShot: Few-Shot Learning by Kernel HyperNetworks ( http://arxiv.org/abs/2203.11378v1 )

ライセンス: CC BY 4.0
Marcin Sendera, Marcin Przewi\k{e}\'zlikowski, Konrad Karanowski, Maciej Zi\k{e}ba, Jacek Tabor, Przemys{\l}aw Spurek(参考訳) 少数ショットモデルは、与えられたタスクから最小限のラベル付き例を使って予測することを目指している。 この領域の主な課題は、1つの要素だけが各クラスを表すワンショット設定である。 我々は,カーネルとハイパーネットワークの融合を提案する。 パラメータの勾配に基づく調整を適用する参照アプローチと比較して,本モデルはタスクの埋め込みに応じて分類モジュールパラメータを切り替えることを目的としている。 実際に我々は,支援データから集約された情報を取り込み,検討した問題に対して手作りした分類器のパラメータを返却するハイパーネットワークを利用する。 さらに、ハイパーネットワークに配信されるサポート例のカーネルベース表現を導入し、分類モジュールのパラメータを作成する。 したがって、バックボーンモデルが提供する直接的特徴値ではなく、サポート例の埋め込み間の関係に依存する。 このアプローチのおかげで、モデルは極めて異なるタスクに適応できます。

Few-shot models aim at making predictions using a minimal number of labeled examples from a given task. The main challenge in this area is the one-shot setting where only one element represents each class. We propose HyperShot - the fusion of kernels and hypernetwork paradigm. Compared to reference approaches that apply a gradient-based adjustment of the parameters, our model aims to switch the classification module parameters depending on the task's embedding. In practice, we utilize a hypernetwork, which takes the aggregated information from support data and returns the classifier's parameters handcrafted for the considered problem. Moreover, we introduce the kernel-based representation of the support examples delivered to hypernetwork to create the parameters of the classification module. Consequently, we rely on relations between embeddings of the support examples instead of direct feature values provided by the backbone models. Thanks to this approach, our model can adapt to highly different tasks.
翻訳日:2022-03-24 09:41:18 公開日:2022-03-21
# (参考訳) マルチステップアヘッド太陽光発電予測のためのベイズ深層学習手法 [全文訳有]

A Bayesian Deep Learning Technique for Multi-Step Ahead Solar Generation Forecasting ( http://arxiv.org/abs/2203.11379v1 )

ライセンス: CC BY 4.0
Devinder Kaur, Shama Naz Islam, and Md. Apel Mahmud(参考訳) 本稿では,多段先進(MSA)太陽発生予測のための改良されたベイズ型双方向長寿命メモリ(BiLSTM)ニューラルネットワークを提案する。 提案手法は, ニューラルネットワークにおける重みパラメータ分布の変動性を考慮し, 太陽発生データにおける異常値のより適切な考慮にアルファベータ発散を適用する。 提案手法は, ピンボール損失やウィンクラー値などの確率的評価指標を用いて, Ausgrid からの高粒度太陽光発電データについて検討した。 さらに,MSAとSSA(Single-step ahead)予測の比較分析を行い,提案手法の有効性について検討した。 解析結果から,アルファベータ分散を用いたベイズBiLSTMが標準ベイズBiLSTMと他のベンチマーク手法よりも誤差性能が優れていることが示された。

In this paper, we propose an improved Bayesian bidirectional long-short term memory (BiLSTM) neural networks for multi-step ahead (MSA) solar generation forecasting. The proposed technique applies alpha-beta divergence for a more appropriate consideration of outliers in the solar generation data and resulting variability of the weight parameter distribution in the neural network. The proposed method is examined on highly granular solar generation data from Ausgrid using probabilistic evaluation metrics such as Pinball loss and Winkler score. Moreover, a comparative analysis between MSA and the single-step ahead (SSA) forecasting is provided to test the effectiveness of the proposed method on variable forecasting horizons. The numerical results clearly demonstrate that the proposed Bayesian BiLSTM with alpha-beta divergence outperforms standard Bayesian BiLSTM and other benchmark methods for MSA forecasting in terms of error performance.
翻訳日:2022-03-24 09:22:08 公開日:2022-03-21
# (参考訳) 複数出力を用いた効率よいベイズ最適化のための優先探索 [全文訳有]

Preference Exploration for Efficient Bayesian Optimization with Multiple Outcomes ( http://arxiv.org/abs/2203.11382v1 )

ライセンス: CC BY 4.0
Zhiyuan Jerry Lin, Raul Astudillo, Peter I. Frazier, Eytan Bakshy(参考訳) 我々は,意思決定者(DM)が好むベクトル値結果を生成する,高価な評価実験のベイズ最適化を考える。 これらの選好は、閉じた形では知られていないが、DMに結果ベクトルのペアよりも好みを表現するように求めることで推定できるユーティリティ関数によって符号化される。 この問題に対処するために,対話型リアルタイム選好学習とDMのペア比較によるDMとを交互に交互に行う新しいフレームワークである選好探索を用いたベイズ最適化と,DMユーティリティと結果の学習構成モデルを用いたベイズ最適化を開発する。 本フレームワークでは,このタスク用に特別に設計された選好探索戦略を提案し,広範なシミュレーション研究を通じてその性能を実証する。

We consider Bayesian optimization of expensive-to-evaluat e experiments that generate vector-valued outcomes over which a decision-maker (DM) has preferences. These preferences are encoded by a utility function that is not known in closed form but can be estimated by asking the DM to express preferences over pairs of outcome vectors. To address this problem, we develop Bayesian optimization with preference exploration, a novel framework that alternates between interactive real-time preference learning with the DM via pairwise comparisons between outcomes, and Bayesian optimization with a learned compositional model of DM utility and outcomes. Within this framework, we propose preference exploration strategies specifically designed for this task, and demonstrate their performance via extensive simulation studies.
翻訳日:2022-03-24 09:06:48 公開日:2022-03-21
# (参考訳) DIANES: ニュースソースのためのDEI監査ツールキット [全文訳有]

DIANES: A DEI Audit Toolkit for News Sources ( http://arxiv.org/abs/2203.11383v1 )

ライセンス: CC BY 4.0
Xiaoxiao Shang, Zhiyuan Peng, Qiming Yuan, Sabiq Khan, Lauren Xie, Yi Fang, Subramaniam Vincent(参考訳) プロのニュースメディア組織は常に、彼らが複数の視点に与える重要性を強調してきた。 しかし、実際には、すべての面に対する伝統的なアプローチは、支配的な文化の人々を好んでいる。 そのため、多様性、株式、包括性(DEI)という新しい規範の下で倫理的批判を受けた。 DEIがジャーナリズムに適用されるとき、それは従来の公平性と偏見という概念を超越し、その代わりに、引用されるかインタビューされるジャーナリズム的なソーシングの実践を民主化する。 現在、記者が引用した人物を分析するためのリアルタイムツールやオンデマンドツールはない。 本稿では,DIANES(DeI Audit Toolkit for News Sources)を提案する。 バックエンドには自然言語処理パイプラインがあり、ニュース記事から引用や講演者、タイトル、組織をリアルタイムで抽出する。 フロントエンドでは、dianesはwordpressプラグイン、webモニター、deiアノテーションapiサービスを提供し、ニュースメディアが独自の引用パターンをモニターし、deiの規範に向かって自分自身をプッシュするのを助ける。

Professional news media organizations have always touted the importance that they give to multiple perspectives. However, in practice the traditional approach to all-sides has favored people in the dominant culture. Hence it has come under ethical critique under the new norms of diversity, equity, and inclusion (DEI). When DEI is applied to journalism, it goes beyond conventional notions of impartiality and bias and instead democratizes the journalistic practice of sourcing -- who is quoted or interviewed, who is not, how often, from which demographic group, gender, and so forth. There is currently no real-time or on-demand tool in the hands of reporters to analyze the persons they quote. In this paper, we present DIANES, a DEI Audit Toolkit for News Sources. It consists of a natural language processing pipeline on the backend to extract quotes, speakers, titles, and organizations from news articles in real time. On the frontend, DIANES offers the WordPress plugins, a Web monitor, and a DEI annotation API service, to help news media monitor their own quoting patterns and push themselves towards DEI norms.
翻訳日:2022-03-24 08:34:11 公開日:2022-03-21
# 深層学習を用いた産業プロセスにおけるアラーム型根本原因解析

Alarm-Based Root Cause Analysis in Industrial Processes Using Deep Learning ( http://arxiv.org/abs/2203.11321v1 )

ライセンス: Link先を確認
Negin Javanbakht, Amir Neshastegaran, Iman Izadi(参考訳) アラーム管理システムは現代の産業では不可欠になっている。 警報はオペレーターに異常な状況、特に機器が故障した場合に知らせる。 システムの様々な部分間の相互接続のため、各障害は正常に動作するシステムの他の部分に影響を与える可能性がある。 その結果、障害は障害のないデバイスを通して伝播し、アラームの数が増加する。 したがって、オペレーターによってアラームを発生させた主要故障のタイムリーな検出は、次の結果を防止することができる。 しかし、システムの複雑さのため、基盤となる故障と警報の正確な関係を見つけることはしばしば不可能である。 結果として、オペレータは、直ちに適切な決定を行うためのサポートが必要です。 履歴アラームデータに基づくアラームのモデリングは、オペレーターがアラームの根本原因を決定するのに役立つ。 本研究の目的は,過去のアラームデータを用いた産業用アラームの関係をモデル化することである。 まずアラームデータが収集され、アラームタグがシーケンスされる。 そして、これらのシーケンスを単語埋め込みを用いて数値ベクトルに変換する。 次に、自己注意に基づくBiLSTM-CNN分類器を用いて、過去のアラームデータの構造と関連性を学習する。 モデルをトレーニングした後、このモデルはオンライン障害検出に使用される。 最後に,本提案モデルがテネシー・イーストマン法で実装され,結果が得られた。

Alarm management systems have become indispensable in modern industry. Alarms inform the operator of abnormal situations, particularly in the case of equipment failures. Due to the interconnections between various parts of the system, each fault can affect other sections of the system operating normally. As a result, the fault propagates through faultless devices, increasing the number of alarms. Hence, the timely detection of the major fault that triggered the alarm by the operator can prevent the following consequences. However, due to the complexity of the system, it is often impossible to find precise relations between the underlying fault and the alarms. As a result, the operator needs support to make an appropriate decision immediately. Modeling alarms based on the historical alarm data can assist the operator in determining the root cause of the alarm. This research aims to model the relations between industrial alarms using historical alarm data in the database. Firstly, alarm data is collected, and alarm tags are sequenced. Then, these sequences are converted to numerical vectors using word embedding. Next, a self-attention-based BiLSTM-CNN classifier is used to learn the structure and relevance between historical alarm data. After training the model, this model is used for online fault detection. Finally, as a case study, the proposed model is implemented in the well-known Tennessee Eastman process, and the results are presented.
翻訳日:2022-03-23 15:40:31 公開日:2022-03-21
# 新しい合成データセットを用いたUAVネットワークにおけるジャミング識別法

Two methods for Jamming Identification in UAVs Networks using New Synthetic Dataset ( http://arxiv.org/abs/2203.11373v1 )

ライセンス: Link先を確認
Joseanne Viana, Hamed Farkhari, Luis Miguel Campos, Pedro Sebastiao, Francisco Cercas, Luis Bernardo, Rui Dinis(参考訳) 無人航空機(UAV)システムは、UAV送信中に無線機を利用する自給自足者からの妨害に脆弱である。 この脆弱性は、A2G(Air-to-ground)無線通信ネットワークのオープンな性質によるもので、ネットワーク全体の攻撃を可能にする可能性がある。 本稿では,UAVネットワークにおけるジャマーを識別する2つの手法を提案する。 第1の戦略は、リソースブロックで利用可能な信号を統計的に分解してトレンド、季節性、残差を見つけ、第2の手法が新たに設計されたディープネットワークに基づく、異常検出の時系列アプローチに基づいている。 統計モデルは重い計算処理を必要としないが、攻撃の識別を一般化するのに制限があるため、結合技術はuavに適している。 一方、ディープネットワークは攻撃を正確に分類できるが、より多くのリソースを必要とする。 シミュレーションでは、妨害攻撃の位置とパワーと基地局に関連するUAV位置を考慮に入れている。 統計学的手法により、攻撃者がUAVから30mのときに84.38%の攻撃を特定できた。 さらにディープネットワークの精度は2以上のジャミングパワーと200メートル未満のジャミング距離に対して約99.99 %であった。

Unmanned aerial vehicle (UAV) systems are vulnerable to jamming from self-interested users who utilize radio devices for their benefits during UAV transmissions. The vulnerability occurs due to the open nature of air-to-ground (A2G) wireless communication networks, which may enable network-wide attacks. This paper presents two strategies to identify Jammers in UAV networks. The first strategy is based on time series approaches for anomaly detection where the signal available in resource blocks are decomposed statistically to find trend, seasonality, and residues, while the second is based on newly designed deep networks. The joined technique is suitable for UAVs because the statistical model does not require heavy computation processing but is limited in generalizing possible attack's identification. On the other hand, the deep network can classify attacks accurately but requires more resources. The simulation considers the location and power of the jamming attacks and the UAV position related to the base station. The statistical method technique made it feasible to identify 84.38 % of attacks when the attacker was at 30 m from the UAV. Furthermore, the Deep network's accuracy was approximately 99.99 % for jamming powers greater than two and jammer distances less than 200 meters.
翻訳日:2022-03-23 15:40:15 公開日:2022-03-21
# 健康的なTwitterの議論? 時が来ます

Healthy Twitter discussions? Time will tell ( http://arxiv.org/abs/2203.11261v1 )

ライセンス: Link先を確認
Dmitry Gnatyshak, Dario Garcia-Gasulla, Sergio Alvarez-Napagao, Jamie Arjona and Tommaso Venturini(参考訳) オンライン議論における誤情報の研究と不健康な行動への対処法は、近年、社会研究における重要な研究分野となっている。 ソーシャルメディアの急速な発展と、利用可能な情報や情報源の増大に伴い、こうした談話の厳密な手作業による分析は実現不可能になっている。 多くのアプローチは、例えば、虐待的、偽物またはボット生成コンテンツとラベル付けされたデータセット上で自然言語処理を使用するなど、教師付きアプローチによる議論のセマンティックおよび構文的性質の研究によってこの問題に取り組む。 基底真理の存在に基づく解は、基礎真理を持つ可能性のある領域に限られる。 しかし、誤情報のコンテキスト内では、ラベルをインスタンスに割り当てるのは困難か不可能かもしれない。 この文脈では、時間的動的パターンの使用が議論の健康の指標であると考えられる。 当時、真理が得られていなかった領域(新型コロナウイルスのパンデミックの議論の初期段階)で働き、貢献の量と時間に基づいて議論の特徴を考察する。 まず,議論の型を教師なしの方法で検討し,その型を形式化した短命性という概念を用いて特徴付ける。 最後に,オンライン談話のラベル付けにおける短命性(ephemerality)定義の潜在的利用について,その望ましい,健全,建設的について論じる。

Studying misinformation and how to deal with unhealthy behaviours within online discussions has recently become an important field of research within social studies. With the rapid development of social media, and the increasing amount of available information and sources, rigorous manual analysis of such discourses has become unfeasible. Many approaches tackle the issue by studying the semantic and syntactic properties of discussions following a supervised approach, for example using natural language processing on a dataset labeled for abusive, fake or bot-generated content. Solutions based on the existence of a ground truth are limited to those domains which may have ground truth. However, within the context of misinformation, it may be difficult or even impossible to assign labels to instances. In this context, we consider the use of temporal dynamic patterns as an indicator of discussion health. Working in a domain for which ground truth was unavailable at the time (early COVID-19 pandemic discussions) we explore the characterization of discussions based on the the volume and time of contributions. First we explore the types of discussions in an unsupervised manner, and then characterize these types using the concept of ephemerality, which we formalize. In the end, we discuss the potential use of our ephemerality definition for labeling online discourses based on how desirable, healthy and constructive they are.
翻訳日:2022-03-23 15:16:37 公開日:2022-03-21
# BEFANA:ネットワーク分析による生物多様性・生態系機能評価ツール

BEFANA: A Tool for Biodiversity-Ecosyst em Functioning Assessment by Network Analysis ( http://arxiv.org/abs/2203.11687v1 )

ライセンス: Link先を確認
Martin Marzidov\v{s}ek, Vid Podpe\v{c}an, Erminia Conti, Marko Debeljak, Christian Mulder(参考訳) BEFANAは、生態学的ネットワーク分析と可視化のためのフリーでオープンソースのソフトウェアツールである。 生態学者のニーズに適合し、生態ネットワークのトポロジーとダイナミクスを研究し、選択した機械学習アルゴリズムを適用することができる。 BEFANAはPythonで実装されており、対話型計算ノートブックの順序づけられたコレクションとして構成されている。 広く使われているオープンソースライブラリに依存しており、シンプルさ、対話性、拡張性の実現を目指している。 BEFANAは、データローディングと前処理、ネットワーク分析とインタラクティブな可視化、実験データによるモデリング、機械学習による予測モデリングのためのメソッドと実装を提供する。 農業用草地の土壌食物網の具体的な例を通してBEFANAを紹介し,その主な構成要素と機能について紹介する。

BEFANA is a free and open-source software tool for ecological network analysis and visualisation. It is adapted to ecologists' needs and allows them to study the topology and dynamics of ecological networks as well as apply selected machine learning algorithms. BEFANA is implemented in Python, and structured as an ordered collection of interactive computational notebooks. It relies on widely used open-source libraries, and aims to achieve simplicity, interactivity, and extensibility. BEFANA provides methods and implementations for data loading and preprocessing, network analysis and interactive visualisation, modelling with experimental data, and predictive modelling with machine learning. We showcase BEFANA through a concrete example of a detrital soil food web of agricultural grasslands, and demonstrate all of its main components and functionalities.
翻訳日:2022-03-23 15:13:32 公開日:2022-03-21
# 最大項目集合と面積測度を組み合わせた高効率ヒューリスティックなテーブル制約の圧縮手法

An efficient heuristic approach combining maximal itemsets and area measure for compressing voluminous table constraints ( http://arxiv.org/abs/2203.11208v1 )

ライセンス: Link先を確認
Soufia Bennai, Kamala Amroun, Samir Loudni and Abdelkader Ouali(参考訳) 制約プログラミングは組合せ問題をモデル化し解決する強力なパラダイムである。 制約は多種多様であるが、テーブル制約はおそらく最もよく研究された存在であり、有限変数上で定義される他の制約をエンコードする能力を持つ。 しかし、制約は非常にvoluminousであり、その大きさはarityによって指数関数的に増加する。 空間と時間の複雑さを減らすために、研究者は様々な種類の圧縮に焦点を当ててきた。 本稿では,テーブル制約の圧縮に関連する最大頻度項目集合を列挙するための最頻項目集合法と面積尺度に基づく新しい手法を提案する。 実験により, 圧縮および圧縮テーブル制約の解法における本手法の有効性と効率性を示した。

Constraint Programming is a powerful paradigm to model and solve combinatorial problems. While there are many kinds of constraints, the table constraint is perhaps the most significant-being the most well-studied and has the ability to encode any other constraints defined on finite variables. However, constraints can be very voluminous and their size can grow exponentially with their arity. To reduce space and the time complexity, researchers have focused on various forms of compression. In this paper we propose a new approach based on maximal frequent itemsets technique and area measure for enumerating the maximal frequent itemsets relevant for compressing table constraints. Our experimental results show the effectiveness and efficiency of this approach on compression and on solving compressed table constraints.
翻訳日:2022-03-23 14:48:04 公開日:2022-03-21
# 機械学習システムにおける変化分類法に向けて

Towards a Change Taxonomy for Machine Learning Systems ( http://arxiv.org/abs/2203.11365v1 )

ライセンス: Link先を確認
Aaditya Bhatia and Ellis E. Eghan and Manel Grichi and William G. Cavanagh and Zhen Ming (Jack) Jiang and Bram Adams(参考訳) 機械学習(ML)リサーチパブリッシュは一般的にGitHub上でオープンソース実装を提供しており、聴衆は機械学習アルゴリズム、データセット、メタデータを複製、検証、拡張することができる。 しかし,このようなML研究レポジトリにおけるコラボレーション活動の程度については,(1)フォークからのコントリビューションを受ける度合い,(2)そのようなコントリビューションの性質(変化の種類など),(3)フォークへのコントリビューションに寄与しない変化の性質など,現時点ではほとんど分かっていない。 本稿では,1,346のML研究レポジトリとその67,369のフォーク(Hindleらによるコード変更のセミナル分類に基づく)への貢献を実証的に研究する。 MLリサーチレポジトリは非常にフォークされているが、フォークのわずか9%がフォークレポジトリに修正を加えている。 後者の42%が親リポジトリに変更を送信し、その半数(52%)が親リポジトリに受け入れられた。 539件の質的分析と378件の局所的な変化(フォークオンリー)により、Hindle et al.の分類をML(Data)に関連する1つの新しいトップレベル変更カテゴリに拡張し、9つのML固有のカテゴリ(入力データ、出力データ、プログラムデータ、共有、変更評価、パラメータチューニング、パフォーマンス、前処理、モデルトレーニング)を含む15件のサブカテゴリを新たに導入しました。 フォークが貢献していない変更は主にドメイン固有のカスタマイズとローカルな実験(パラメータチューニングなど)に関するものであるが、オリジナルMLリポジトリはドキュメント変更の15.4%、機能変更の13.6%、バグ修正の変更の11.4%を見逃している。 本論文は,実践者,研究者,ツールスミス,教育者にとって有用である。

Machine Learning (ML) research publications commonly provide open-source implementations on GitHub, allowing their audience to replicate, validate, or even extend machine learning algorithms, data sets, and metadata. However, thus far little is known about the degree of collaboration activity happening on such ML research repositories, in particular regarding (1) the degree to which such repositories receive contributions from forks, (2) the nature of such contributions (i.e., the types of changes), and (3) the nature of changes that are not contributed back to forks, which might represent missed opportunities. In this paper, we empirically study contributions to 1,346 ML research repositories and their 67,369 forks, both quantitatively and qualitatively (by building on Hindle et al.'s seminal taxonomy of code changes). We found that while ML research repositories are heavily forked, only 9% of the forks made modifications to the forked repository. 42% of the latter sent changes to the parent repositories, half of which (52%) were accepted by the parent repositories. Our qualitative analysis on 539 contributed and 378 local (fork-only) changes, extends Hindle et al.'s taxonomy with one new top-level change category related to ML (Data), and 15 new sub-categories, including nine ML-specific ones (input data, output data, program data, sharing, change evaluation, parameter tuning, performance, pre-processing, model training). While the changes that are not contributed back by the forks mostly concern domain-specific customizations and local experimentation (e.g., parameter tuning), the origin ML repositories do miss out on a non-negligible 15.4% of Documentation changes, 13.6% of Feature changes and 11.4% of Bug fix changes. The findings in this paper will be useful for practitioners, researchers, toolsmiths, and educators.
翻訳日:2022-03-23 14:47:50 公開日:2022-03-21
# 層アグリゲーションによる音声認識復号化

Enhancing Speech Recognition Decoding via Layer Aggregation ( http://arxiv.org/abs/2203.11325v1 )

ライセンス: Link先を確認
Tomer Wullach, Shlomo E. Chazan(参考訳) 近年,最上位層が生成する表現を用いて,各時間ステップを残りのシーケンスから分離するグレディデコードを用いて音声認識システムを構築している。 性能向上を目的として、ビーム探索アルゴリズムを頻繁に利用し、上位候補のランク付けを支援するために言語モデルを導入する。 本研究では,複数の音声認識モデルを用いて,上位層を用いて予測されるロジットがビーム探索を阻害し,最適な結果が得られるかどうかを検証した。 具体的には、微調整したWav2Vec 2.0とHuBERTは高い信頼性の予測を行い、その予測は局所情報に基づいており、中間層に符号化された情報を十分に活用していないと仮定する。 この目的のために、推論フローを通して予測がどのように進化するかを明らかにし、視覚化する層解析を行う。 次に、上位M層を集約し、中間層に符号化された有用な情報を活用し、モデルの信頼性を緩和する予測手法を提案する。 我々は,ビーム探索復号による手法の有効性を示し,librispeech テストと dev セットによる実験を行い,wer の達成,cer の10%,22% の削減を行った。

Recently proposed speech recognition systems are designed to predict using representations generated by their top layers, employing greedy decoding which isolates each timestep from the rest of the sequence. Aiming for improved performance, a beam search algorithm is frequently utilized and a language model is incorporated to assist with ranking the top candidates. In this work, we experiment with several speech recognition models and find that logits predicted using the top layers may hamper beam search from achieving optimal results. Specifically, we show that fined-tuned Wav2Vec 2.0 and HuBERT yield highly confident predictions, and hypothesize that the predictions are based on local information and may not take full advantage of the information encoded in intermediate layers. To this end, we perform a layer analysis to reveal and visualize how predictions evolve throughout the inference flow. We then propose a prediction method that aggregates the top M layers, potentially leveraging useful information encoded in intermediate layers and relaxing model confidence. We showcase the effectiveness of our approach via beam search decoding, conducting our experiments on Librispeech test and dev sets and achieving WER, and CER reduction of up to 10% and 22%, respectively.
翻訳日:2022-03-23 14:46:11 公開日:2022-03-21
# NeRFusion:大規模シーン再構築のためのFusing Radiance Fields

NeRFusion: Fusing Radiance Fields for Large-Scale Scene Reconstruction ( http://arxiv.org/abs/2203.11283v1 )

ライセンス: Link先を確認
Xiaoshuai Zhang, Sai Bi, Kalyan Sunkavalli, Hao Su, Zexiang Xu(参考訳) NeRFは神経再構成とレンダリングで大きな成功を収めているが、MLP容量の制限と長時間の最適化により、大規模な屋内シーンのモデル化は困難である。 対照的に、古典的な3D再構成手法は大規模なシーンを扱えるが、現実的なレンダリングは得られない。 我々は,NeRF と TSDF をベースとした核融合技術の利点を組み合わせて,大規模再構築とフォトリアリスティックレンダリングを実現する手法であるNeRFusion を提案する。 入力画像シーケンスを処理し、直接ネットワーク推論によりフレーム毎の局所放射フィールドを予測する。 これらは、22fpsで、グローバルでスパースなシーン表現を徐々に再構築する新しいリカレントニューラルネットワークを使って融合される。 このグローバルボリュームは、レンダリング品質を高めるためにさらに微調整することができる。 nerfusionは大規模室内および小規模オブジェクトシーンの両方において最先端の品質を実現し,nerfや他の最近の手法よりも大幅に高速に再構築できることを実証する。

While NeRF has shown great success for neural reconstruction and rendering, its limited MLP capacity and long per-scene optimization times make it challenging to model large-scale indoor scenes. In contrast, classical 3D reconstruction methods can handle large-scale scenes but do not produce realistic renderings. We propose NeRFusion, a method that combines the advantages of NeRF and TSDF-based fusion techniques to achieve efficient large-scale reconstruction and photo-realistic rendering. We process the input image sequence to predict per-frame local radiance fields via direct network inference. These are then fused using a novel recurrent neural network that incrementally reconstructs a global, sparse scene representation in real-time at 22 fps. This global volume can be further fine-tuned to boost rendering quality. We demonstrate that NeRFusion achieves state-of-the-art quality on both large-scale indoor and small-scale object scenes, with substantially faster reconstruction than NeRF and other recent methods.
翻訳日:2022-03-23 14:44:39 公開日:2022-03-21
# DQ-BART:ジョイント蒸留と量子化による効率の良いシーケンス・ツー・シーケンスモデル

DQ-BART: Efficient Sequence-to-Sequence Model via Joint Distillation and Quantization ( http://arxiv.org/abs/2203.11239v1 )

ライセンス: Link先を確認
Zheng Li, Zijian Wang, Ming Tan, Ramesh Nallapati, Parminder Bhatia, Andrew Arnold, Bing Xiang, Dan Roth(参考訳) BARTやT5のような大規模事前学習シーケンス・ツー・シーケンスモデルは、多くの生成NLPタスクで最先端のパフォーマンスを達成する。 しかし、そのようなモデルは、大きなメモリ要求と高いレイテンシのため、リソース制約のあるシナリオでは大きな課題となる。 この問題を軽減するため,本研究では,知識をフル精度の教師モデルから,量子化・蒸留された低精度の学生モデルに伝達するモデルを共同で蒸留・定量化することを提案する。 経験的分析により、生成タスクの難易度にもかかわらず、複数の要約とQAデータセットの完全精度と比較して、性能低下の少ない16.5倍モデルフットプリント圧縮比を達成することができた。 さらに圧縮比の限界を27.7倍にし,事前学習モデルを用いて生成タスクの性能・効率トレードオフを示した。 我々の知る限り、これは言語生成タスクのためのシーケンス・ツー・シーケンス事前学習モデルを効果的に蒸留・定量化することを目的とした最初の研究である。

Large-scale pre-trained sequence-to-sequence models like BART and T5 achieve state-of-the-art performance on many generative NLP tasks. However, such models pose a great challenge in resource-constrained scenarios owing to their large memory requirements and high latency. To alleviate this issue, we propose to jointly distill and quantize the model, where knowledge is transferred from the full-precision teacher model to the quantized and distilled low-precision student model. Empirical analyses show that, despite the challenging nature of generative tasks, we were able to achieve a 16.5x model footprint compression ratio with little performance drop relative to the full-precision counterparts on multiple summarization and QA datasets. We further pushed the limit of compression ratio to 27.7x and presented the performance-efficien cy trade-off for generative tasks using pre-trained models. To the best of our knowledge, this is the first work aiming to effectively distill and quantize sequence-to-sequence pre-trained models for language generation tasks.
翻訳日:2022-03-23 14:02:54 公開日:2022-03-21
# 変圧器を用いた長文の効率的な分類

Efficient Classification of Long Documents Using Transformers ( http://arxiv.org/abs/2203.11258v1 )

ライセンス: Link先を確認
Hyunji Hayley Park, Yogarshi Vyas, Kashif Shah(参考訳) 変換器を用いた長文文書の分類法が提案されている。 しかし、異なるアプローチ間で公正な比較を可能にするためのベンチマークにはコンセンサスがない。 本稿では,様々なベースラインと多様なデータセットに対して測定された相対的有効性について,精度,時間的,空間的オーバーヘッドの両面から総合的に評価する。 我々のデータセットは、バイナリ、マルチクラス、マルチラベルの分類タスクをカバーし、長いテキストで情報を整理する様々な方法(例えば、分類決定を下す上で重要な情報は、文書の開始時または終了時)を表す。 以上の結果から,より複雑なモデルでは,単純なベースラインを上回り,データセット間での一貫性のないパフォーマンスが得られないことが分かる。 これらの知見は、堅牢なモデルを開発するための長い文書分類の課題をよりよく表す包括的ベースラインとデータセットを検討するための将来の研究の必要性を強調している。

Several methods have been proposed for classifying long textual documents using Transformers. However, there is a lack of consensus on a benchmark to enable a fair comparison among different approaches. In this paper, we provide a comprehensive evaluation of the relative efficacy measured against various baselines and diverse datasets -- both in terms of accuracy as well as time and space overheads. Our datasets cover binary, multi-class, and multi-label classification tasks and represent various ways information is organized in a long text (e.g. information that is critical to making the classification decision is at the beginning or towards the end of the document). Our results show that more complex models often fail to outperform simple baselines and yield inconsistent performance across datasets. These findings emphasize the need for future studies to consider comprehensive baselines and datasets that better represent the task of long document classification to develop robust models.
翻訳日:2022-03-23 14:02:34 公開日:2022-03-21
# エゴセントリックビデオからの将来のハンドセグメンテーションのためのジェネレーティブ・アドバイサル・ネットワーク

Generative Adversarial Network for Future Hand Segmentation from Egocentric Video ( http://arxiv.org/abs/2203.11305v1 )

ライセンス: Link先を確認
Wenqi Jia, Miao Liu and James M. Rehg(参考訳) 我々は,エゴセントリックビデオから将来のハンドマスクの時系列を予測できる新しい問題を紹介する。 重要な課題は、将来の頭部の動きの確率性をモデル化することである。 そこで本研究では,3次元完全畳み込みネットワークを用いて画素方向の視覚予測のための時空間的映像表現を学習し,生成的逆向きネットワーク(gan)を用いて将来の頭部運動を生成し,映像表現と生成した頭部運動に基づいて将来の手マスクを予測する,新しい深部生成モデルを提案する。 本手法はEPIC-KitchensとEGTEA Gaze+データセットの両方で評価する。 我々は,このアプローチの設計選択を検証するために,詳細なアブレーション研究を行う。 さらに,今後の画像分割における従来の最先端手法と比較し,今後のハンドマスクをより正確に予測できることを示す。

We introduce the novel problem of anticipating a time series of future hand masks from egocentric video. A key challenge is to model the stochasticity of future head motions, which globally impact the head-worn camera video analysis. To this end, we propose a novel deep generative model -- EgoGAN, which uses a 3D Fully Convolutional Network to learn a spatio-temporal video representation for pixel-wise visual anticipation, generates future head motion using Generative Adversarial Network (GAN), and then predicts the future hand masks based on the video representation and the generated future head motion. We evaluate our method on both the EPIC-Kitchens and the EGTEA Gaze+ datasets. We conduct detailed ablation studies to validate the design choices of our approach. Furthermore, we compare our method with previous state-of-the-art methods on future image segmentation and show that our method can more accurately predict future hand masks.
翻訳日:2022-03-23 13:58:51 公開日:2022-03-21
# オプティカルフロー推定のための重複注意によるグローバルマッチング

Global Matching with Overlapping Attention for Optical Flow Estimation ( http://arxiv.org/abs/2203.11335v1 )

ライセンス: Link先を確認
Shiyu Zhao, Long Zhao, Zhixing Zhang, Enyu Zhou, Dimitris Metaxas(参考訳) 光フロー推定はコンピュータビジョンの基本的なタスクである。 近年のディープニューラルネットワークによる直接回帰法は,優れた性能向上を実現している。 しかし、それらは長期動作の対応を明示的に捉えていないため、大きな動きを効果的に扱えない。 本稿では,エネルギーベース最適化の前に大きな変位を処理するためにマッチングを導入する従来のマッチング最適化手法に触発されて,直接回帰前の単純かつ効果的なグローバルマッチングステップを導入し,gmflownetと呼ばれる学習ベースのマッチング最適化フレームワークを開発した。 GMFlowNetでは、4次元コストボリュームにargmaxを適用することにより、グローバルマッチングを効率的に計算する。 さらに、マッチング品質を改善するために、大きなコンテキスト特徴を抽出するパッチベースの重複注意を提案する。 GMFlowNetは、最も一般的な最適化専用手法であるRAFTを大きなマージンで上回り、標準ベンチマークで最先端のパフォーマンスを達成している。 GMFlowNetは、マッチングと重なり合う注意により、テクスチャレス領域と大きな動きの予測に大きな改善をもたらす。 私たちのコードはhttps://github.com/x iaofeng94/GMFlowNetで公開されています。

Optical flow estimation is a fundamental task in computer vision. Recent direct-regression methods using deep neural networks achieve remarkable performance improvement. However, they do not explicitly capture long-term motion correspondences and thus cannot handle large motions effectively. In this paper, inspired by the traditional matching-optimizatio n methods where matching is introduced to handle large displacements before energy-based optimizations, we introduce a simple but effective global matching step before the direct regression and develop a learning-based matching-optimizatio n framework, namely GMFlowNet. In GMFlowNet, global matching is efficiently calculated by applying argmax on 4D cost volumes. Additionally, to improve the matching quality, we propose patch-based overlapping attention to extract large context features. Extensive experiments demonstrate that GMFlowNet outperforms RAFT, the most popular optimization-only method, by a large margin and achieves state-of-the-art performance on standard benchmarks. Thanks to the matching and overlapping attention, GMFlowNet obtains major improvements on the predictions for textureless regions and large motions. Our code is made publicly available at https://github.com/x iaofeng94/GMFlowNet
翻訳日:2022-03-23 13:58:32 公開日:2022-03-21
# ME-Net:脳腫瘍分離のためのマルチエンコーダネットフレームワーク

ME-Net: Multi-Encoder Net Framework for Brain Tumor Segmentation ( http://arxiv.org/abs/2203.11213v1 )

ライセンス: Link先を確認
Wenbo Zhang, Guang Yang, He Huang, Weiji Yang, Xiaomei Xu, Yongkai Liu, Xiaobo Lai(参考訳) グリオーマは最も一般的で攻撃的な脳腫瘍である。 MRI(MRI)は,腫瘍手術の整形と術後の処置について腫瘍を評価する上で重要な役割を担っている。 しかし,MRI画像の手動分割は極めて困難であり,臨床応用は限られている。 深層学習の発展に伴い,多くの自動セグメンテーション手法が開発されているが,そのほとんどは2次元画像に留まっており,性能は低い。 さらに、脳腫瘍と背景の間の深刻なボクセルの不均衡や、脳腫瘍の大きさや位置の相違により、3D画像の分割が困難な問題となっている。 3次元mriのセグメンテーションを目指して,複数のエンコーダを用いた脳腫瘍セグメンテーションモデルを提案する。 構造体は4つのエンコーダと1つのデコーダを含む。 4つのエンコーダはMRI画像の4つのモードに対応し、1対1の特徴抽出を行い、4つのモードの特徴マップをデコーダにマージする。 この方法は特徴抽出の難しさを低減し、モデル性能を大幅に改善する。 また,「カテゴリー的ダイス」という新たな損失関数を導入し,異なるセグメント領域に対して異なる重みを設定することで,ボクセルの不均衡問題を解決した。 我々はBraTS 2020 Challengeをオンラインで評価した。 提案法はDiceスコアが0.70249,0.88267,0.73 864であり, 腫瘍コア, 造影腫瘍は0.73864であった。

Glioma is the most common and aggressive brain tumor. Magnetic resonance imaging (MRI) plays a vital role to evaluate tumors for the arrangement of tumor surgery and the treatment of subsequent procedures. However, the manual segmentation of the MRI image is strenuous, which limits its clinical application. With the development of deep learning, a large number of automatic segmentation methods have been developed, but most of them stay in 2D images, which leads to subpar performance. Moreover, the serious voxel imbalance between the brain tumor and the background as well as the different sizes and locations of the brain tumor makes the segmentation of 3D images a challenging problem. Aiming at segmenting 3D MRI, we propose a model for brain tumor segmentation with multiple encoders. The structure contains four encoders and one decoder. The four encoders correspond to the four modalities of the MRI image, perform one-to-one feature extraction, and then merge the feature maps of the four modalities into the decoder. This method reduces the difficulty of feature extraction and greatly improves model performance. We also introduced a new loss function named "Categorical Dice", and set different weights for different segmented regions at the same time, which solved the problem of voxel imbalance. We evaluated our approach using the online BraTS 2020 Challenge verification. Our proposed method can achieve promising results in the validation set compared to the state-of-the-art approaches with Dice scores of 0.70249, 0.88267, and 0.73864 for the intact tumor, tumor core, and enhanced tumor, respectively.
翻訳日:2022-03-23 13:34:07 公開日:2022-03-21
# CT画像と不完全な臨床データを用いた特発性肺線維症の生存解析

Survival Analysis for Idiopathic Pulmonary Fibrosis using CT Images and Incomplete Clinical Data ( http://arxiv.org/abs/2203.11391v1 )

ライセンス: Link先を確認
Ahmed H. Shahin, Joseph Jacob, Daniel C. Alexander, David Barber(参考訳) 特発性肺線維症(英: idiopathic pulmonary fibrosis、ipf)は、進行性肺疾患であり、進行速度が可変で予測不能である。 肺のCTスキャンはIPF患者の臨床的評価を通知し、疾患の進行に関する関連する情報を含む。 本研究では、ニューラルネットワークとメモリバンクを用いて、臨床および画像データを用いてIPF患者の生存を予測するマルチモーダル手法を提案する。 臨床IPF患者記録の大半は、欠失データ(例えば、肺機能検査)を持っている。 そこで本研究では,観察された臨床変数間の依存関係を捉える確率論的モデルを提案する。 データインプテーションの欠如に対するこの原則に基づくアプローチは、自然にディープサバイバル分析モデルと組み合わせられる。 提案手法は,コンコーディアンス指標と統合ブライヤスコアにおいて,ベースラインよりも生存率解析結果が有意に良好であることを示す。 私たちの研究は、死亡と関連する新しい画像ベースのバイオマーカーに関する洞察も提供しています。

Idiopathic Pulmonary Fibrosis (IPF) is an inexorably progressive fibrotic lung disease with a variable and unpredictable rate of progression. CT scans of the lungs inform clinical assessment of IPF patients and contain pertinent information related to disease progression. In this work, we propose a multi-modal method that uses neural networks and memory banks to predict the survival of IPF patients using clinical and imaging data. The majority of clinical IPF patient records have missing data (e.g. missing lung function tests). To this end, we propose a probabilistic model that captures the dependencies between the observed clinical variables and imputes missing ones. This principled approach to missing data imputation can be naturally combined with a deep survival analysis model. We show that the proposed framework yields significantly better survival analysis results than baselines in terms of concordance index and integrated Brier score. Our work also provides insights into novel image-based biomarkers that are linked to mortality.
翻訳日:2022-03-23 13:30:02 公開日:2022-03-21
# MaxSATによる二項決定図の最適化と分類

Optimizing Binary Decision Diagrams with MaxSAT for classification ( http://arxiv.org/abs/2203.11386v1 )

ライセンス: Link先を確認
Hao Hu, Marie-Jos\'e Huguet, and Mohamed Siala(参考訳) 重要な意思決定のための説明可能な人工知能(xai)への関心が高まり、解釈可能な機械学習(ml)モデルの必要性が高まっている。 実際、その構造(特に小さいサイズ)のため、これらのモデルは本質的に人間によって理解できる。 近年、よりコンパクトなモデルやより良い予測品質を提供することで、従来のヒューリスティック手法の弱点を克服するために、そのようなモデルを計算するためのいくつかの正確な方法が提案されている。 ブール関数の圧縮表現にもかかわらず、二項決定図(BDD)は他の解釈可能なMLモデルほど関心を寄せなかった。 本稿ではまず,すべての入力サンプルを分類する(特徴数の観点から)最適なbddを学習するためのsatモデルを提案する。 次に、符号化をMaxSATモデルに引き上げ、限られた深さで最適なBDDを学習し、正しく分類されたサンプルの数を最大化する。 最後に、MaxSATモデルを介して見つけたBDDの互換性のあるサブツリーをマージする手法を導入することにより、フラグメンテーションの問題に取り組む。 本研究は,最先端の手法と比較して,予測品質と非推奨性(すなわち,より軽量なサイズ)の観点から,提案手法の利点を明確に示す。

The growing interest in explainable artificial intelligence (XAI) for critical decision making motivates the need for interpretable machine learning (ML) models. In fact, due to their structure (especially with small sizes), these models are inherently understandable by humans. Recently, several exact methods for computing such models are proposed to overcome weaknesses of traditional heuristic methods by providing more compact models or better prediction quality. Despite their compressed representation of Boolean functions, Binary decision diagrams (BDDs) did not gain enough interest as other interpretable ML models. In this paper, we first propose SAT-based models for learning optimal BDDs (in terms of the number of features) that classify all input examples. Then, we lift the encoding to a MaxSAT model to learn optimal BDDs in limited depths, that maximize the number of examples correctly classified. Finally, we tackle the fragmentation problem by introducing a method to merge compatible subtrees for the BDDs found via the MaxSAT model. Our empirical study shows clear benefits of the proposed approach in terms of prediction quality and intrepretability (i.e., lighter size) compared to the state-of-the-art approaches.
翻訳日:2022-03-23 13:14:32 公開日:2022-03-21
# PI-VAE:確率微分方程式に対する物理インフォームド変分オートエンコーダ

PI-VAE: Physics-Informed Variational Auto-Encoder for stochastic differential equations ( http://arxiv.org/abs/2203.11363v1 )

ライセンス: Link先を確認
Weiheng Zhong and Hadi Meidani(参考訳) 本研究では、確率微分方程式(SDE)や逆問題(SDE)を解くために、物理インフォームド変分オートコーダ(PI-VAE)と呼ばれる新しい種類の物理インフォームドニューラルネットワークを提案する。 これらの問題では、支配方程式は知られているが、システムパラメータの測定は限られている。 PI-VAEは、システム変数とパラメータのサンプルを生成する変分オートエンコーダ(VAE)で構成されている。 この生成モデルは支配方程式と統合される。 この積分において、VAE出力の微分は自動的に微分され、物理学に基づく損失項で用いられる。 本研究では、性能向上のための最大平均不一致(mmd)として損失関数を選択し、確率的勾配降下アルゴリズムを用いてニューラルネットワークパラメータを反復更新する。 まず, 確率過程を近似する手法を検証した。 次に,システムパラメータと解が同時に計算される混合問題とともに,sdesに関連する3つの問題について検討する。 提案手法の精度と効率を,物理インフォームド生成対向ネットワーク (PI-WGAN) と比較して数値的に検証した。

We propose a new class of physics-informed neural networks, called physics-informed Variational Autoencoder (PI-VAE), to solve stochastic differential equations (SDEs) or inverse problems involving SDEs. In these problems the governing equations are known but only a limited number of measurements of system parameters are available. PI-VAE consists of a variational autoencoder (VAE), which generates samples of system variables and parameters. This generative model is integrated with the governing equations. In this integration, the derivatives of VAE outputs are readily calculated using automatic differentiation, and used in the physics-based loss term. In this work, the loss function is chosen to be the Maximum Mean Discrepancy (MMD) for improved performance, and neural network parameters are updated iteratively using the stochastic gradient descent algorithm. We first test the proposed method on approximating stochastic processes. Then we study three types of problems related to SDEs: forward and inverse problems together with mixed problems where system parameters and solutions are simultaneously calculated. The satisfactory accuracy and efficiency of the proposed method are numerically demonstrated in comparison with physics-informed generative adversarial network (PI-WGAN).
翻訳日:2022-03-23 13:12:43 公開日:2022-03-21
# 対角表現学習のための対比的目標

A Contrastive Objective for Learning Disentangled Representations ( http://arxiv.org/abs/2203.11284v1 )

ライセンス: Link先を確認
Jonathan Kahana, Yedid Hoshen(参考訳) 機密属性や不要属性に不変な画像の学習表現は、バイアス除去やクロスドメイン検索を含む多くのタスクにおいて重要である。 ここでの目標は、ラベルが提供されているドメイン(センシティブな属性)に不変な表現を学習し、ラベルのない他のすべての画像属性に情報を提供することです。 本稿では,不変表現を保証するための新しい領域的コントラスト目標を提案する。 この目的は、負のイメージペアを同じ領域から引き出すことを決定的に制限し、標準のコントラストの目的がそうではないのに対して、ドメイン不変性を強制する。 このドメイン指向の目標は、ショートカットソリューションに苦しむため、それ自体では不十分であり、機能抑制に繋がる。 本稿では,再構成制約,画像拡張,初期化と事前学習重みを組み合わせることで,この問題を克服した。 分析の結果,拡張の選択は重要であり,拡張の誤った選択は,分散と情報化の目的を損なう可能性が示唆された。 広範な評価において,本手法は,表現の不変性,表現のインフォメーション性,トレーニング速度の点で,最先端を説得力で上回っている。 さらに, 再建制約を伴わずに優れた結果が得られる場合もあり, より高速かつ資源効率の訓練が可能であることが判明した。

Learning representations of images that are invariant to sensitive or unwanted attributes is important for many tasks including bias removal and cross domain retrieval. Here, our objective is to learn representations that are invariant to the domain (sensitive attribute) for which labels are provided, while being informative over all other image attributes, which are unlabeled. We present a new approach, proposing a new domain-wise contrastive objective for ensuring invariant representations. This objective crucially restricts negative image pairs to be drawn from the same domain, which enforces domain invariance whereas the standard contrastive objective does not. This domain-wise objective is insufficient on its own as it suffers from shortcut solutions resulting in feature suppression. We overcome this issue by a combination of a reconstruction constraint, image augmentations and initialization with pre-trained weights. Our analysis shows that the choice of augmentations is important, and that a misguided choice of augmentations can harm the invariance and informativeness objectives. In an extensive evaluation, our method convincingly outperforms the state-of-the-art in terms of representation invariance, representation informativeness, and training speed. Furthermore, we find that in some cases our method can achieve excellent results even without the reconstruction constraint, leading to a much faster and resource efficient training.
翻訳日:2022-03-23 13:10:40 公開日:2022-03-21
# STE変数を用いた量子ニューラルネットワークの学習:加算雑音アニーリングアルゴリズム

Training Quantised Neural Networks with STE Variants: the Additive Noise Annealing Algorithm ( http://arxiv.org/abs/2203.11323v1 )

ライセンス: Link先を確認
Matteo Spallanzani, Gian Paolo Leonardi, Luca Benini(参考訳) トレーニング量子化ニューラルネットワーク(qnns)は、重みと特徴が分割定数関数によって出力されるため、非微分最適化問題である。 標準的な解法は、推論と勾配計算のステップで異なる関数を使用するストレートスルー推定器(STE)を適用することである。 トレーニングされたネットワークのタスク精度を最大化する目的で、いくつかのste変種が文献に提案されている。 本稿では,STEの変種を分析し,QNNトレーニングへの影響について検討する。 この直感的な解釈は新しいものではないが、我々の厳密な議論はさらなる変種に一般化している。 次に,異なる正規化を混合したQNNの解析を行い,各レイヤマップの相似な平滑化が,対象の不連続関数に対する点的構成収束を保証するために必要であることを確認した。 これらの理論的知見に基づき、標準steとその変種を包含するqnnを訓練する新しいアルゴリズムである加算ノイズアニーリング(ana)を提案する。 cifar-10画像分類ベンチマークでanaをテストすると、タスク精度に大きな影響は正規化の質的形状によるものではなく、理論的な結果に従ってネットワークで使用される異なるste変種を適切に同期させることにあることが分かる。

Training quantised neural networks (QNNs) is a non-differentiable optimisation problem since weights and features are output by piecewise constant functions. The standard solution is to apply the straight-through estimator (STE), using different functions during the inference and gradient computation steps. Several STE variants have been proposed in the literature aiming to maximise the task accuracy of the trained network. In this paper, we analyse STE variants and study their impact on QNN training. We first observe that most such variants can be modelled as stochastic regularisations of stair functions; although this intuitive interpretation is not new, our rigorous discussion generalises to further variants. Then, we analyse QNNs mixing different regularisations, finding that some suitably synchronised smoothing of each layer map is required to guarantee pointwise compositional convergence to the target discontinuous function. Based on these theoretical insights, we propose additive noise annealing (ANA), a new algorithm to train QNNs encompassing standard STE and its variants as special cases. When testing ANA on the CIFAR-10 image classification benchmark, we find that the major impact on task accuracy is not due to the qualitative shape of the regularisations but to the proper synchronisation of the different STE variants used in a network, in accordance with the theoretical results.
翻訳日:2022-03-23 13:10:19 公開日:2022-03-21
# コンピュータビジョンのためのGANに関する調査:最近の研究、分析、分類

A survey on GANs for computer vision: Recent research, analysis and taxonomy ( http://arxiv.org/abs/2203.11242v1 )

ライセンス: Link先を確認
Guillermo Iglesias, Edgar Talavera and Alberto D\'iaz-\'Alvarez(参考訳) 過去数年間、ディープラーニングの分野には、主にgans(generative adversarial networks)の影響が中心となって、いくつかの革命が起きている。 gansはモデルを定義する際にユニークなアーキテクチャを提供するだけでなく、社会に直接影響を与える驚くべき結果を生み出します。 GANがもたらした大きな改善と新たな研究領域により、コミュニティは常に、時代に追いつくことがほとんど不可能な新しい研究を考え出しています。 我々の調査は、最新のアーキテクチャ、損失関数の最適化、バリデーションメトリクス、そして最も広く認識されている変種の適用領域を示す、GANの概要を概観することを目的としている。 モデルアーキテクチャの異なるバリエーションの効率を評価し、最適なアプリケーション領域を示します。プロセスの重要な部分として、ganのパフォーマンスを評価するためのさまざまな指標と頻繁に使用される損失関数を分析します。 本調査の最終目的は,今後の研究者を導く上で,より優れた結果が得られるGANの進化と性能の要約を提供することである。

In the last few years, there have been several revolutions in the field of deep learning, mainly headlined by the large impact of Generative Adversarial Networks (GANs). GANs not only provide an unique architecture when defining their models, but also generate incredible results which have had a direct impact on society. Due to the significant improvements and new areas of research that GANs have brought, the community is constantly coming up with new researches that make it almost impossible to keep up with the times. Our survey aims to provide a general overview of GANs, showing the latest architectures, optimizations of the loss functions, validation metrics and application areas of the most widely recognized variants. The efficiency of the different variants of the model architecture will be evaluated, as well as showing the best application area; as a vital part of the process, the different metrics for evaluating the performance of GANs and the frequently used loss functions will be analyzed. The final objective of this survey is to provide a summary of the evolution and performance of the GANs which are having better results to guide future researchers in the field.
翻訳日:2022-03-23 12:44:09 公開日:2022-03-21
# 短波赤外ハイパースペクトルイメージングを用いた塑性解析における前処理とモデル複雑度の影響について

On the Effect of Pre-Processing and Model Complexity for Plastic Analysis Using Short-Wave-Infrared Hyper-Spectral Imaging ( http://arxiv.org/abs/2203.11209v1 )

ライセンス: Link先を確認
Klaas Dijkstra, Maya Aghaei, Femke Jaarsma, Martin Dijkstra, Rudy Folkersma, Jan Jager, Jaap van de Loosdrecht(参考訳) プラスチックリサイクルの重要性は否定できない。 この点において、コンピュータビジョンとディープラーニングは、プラスチックの短波赤外ハイパースペクトル画像の自動分析を通じてソリューションを可能にする。 本稿では, 深層学習を用いた各種プラスチックフレークの超スペクトル画像分割の課題を解決するために, 効率的なモデル選択の重要性を実証的に示す。 我々は、ジェネリックおよび特殊モデルの複雑性レベルを評価し、その性能を推測する:ジェネリックモデルは、しばしば不必要に複雑である。 我々は,超スペクトルアーキテクチャの2つの変種であるplasticnetを導入し,その性能と計算複雑性の両方において,よく知られたセグメンテーションアーキテクチャを上回っている。 さらに,ハイパースペクトルイメージングの領域における信号前処理の重要性に光を当てた。 本研究の成果をまとめるために,4つの主要ポリマータイプのプラスチックフレークの最大かつ最も汎用的な超スペクトルデータセットを紹介する。

The importance of plastic waste recycling is undeniable. In this respect, computer vision and deep learning enable solutions through the automated analysis of short-wave-infrared hyper-spectral images of plastics. In this paper, we offer an exhaustive empirical study to show the importance of efficient model selection for resolving the task of hyper-spectral image segmentation of various plastic flakes using deep learning. We assess the complexity level of generic and specialized models and infer their performance capacity: generic models are often unnecessarily complex. We introduce two variants of a specialized hyper-spectral architecture, PlasticNet, that outperforms several well-known segmentation architectures in both performance as well as computational complexity. In addition, we shed lights on the significance of signal pre-processing within the realm of hyper-spectral imaging. To complete our contribution, we introduce the largest, most versatile hyper-spectral dataset of plastic flakes of four primary polymer types.
翻訳日:2022-03-23 12:43:40 公開日:2022-03-21
# 形状不変リー群変換器を用いた一列画像からの異方性パターンと変換

Disentangling Patterns and Transformations from One Sequence of Images with Shape-invariant Lie Group Transformer ( http://arxiv.org/abs/2203.11210v1 )

ライセンス: Link先を確認
T. Takada, W. Shimaya, Y. Ohmura, Y. Kuniyoshi(参考訳) 複雑な現実の世界をモデル化する効果的な方法は、世界をオブジェクトと変換の基本的な構成要素の合成と見なすことである。 開発を通じて人間は実世界の構成性を理解するが、そのような学習機構をロボットに装備することは極めて困難である。 近年、ディープラーニングを用いて世界の自律学習表現に関する研究が盛んに行われているが、ほとんどの研究は統計的なアプローチを採っており、大量のトレーニングデータを必要とする。 このような既存の手法とは対照的に、観察の世界は複数の独立したパターンとパターンの形に不変な変換の組み合わせであるというより単純で直感的な定式化に基づいて、表現学習のための新しい代数的アプローチをとる。 パターンの形状は、変換や回転などの対称変換に対する不変な特徴と見なすことができるので、対称リー群トランスフォーマーによる変換を表現し、それらを用いてシーンを再構築することで、自然にパターンを抽出することができると期待できる。 そこで本研究では,学習可能な形状不変リー群トランスフォーマーを変換成分として導入することにより,シーンをパターンの基本成分の最小数と1つの画像列からリー変換するモデルを提案する。 実験により、2つの物体が独立に動く1つの画像列が与えられたとき、提案されたモデルは隠れた異なる物体とシーンを構成する複数の形状不変変換を発見できることを示した。

An effective way to model the complex real world is to view the world as a composition of basic components of objects and transformations. Although humans through development understand the compositionality of the real world, it is extremely difficult to equip robots with such a learning mechanism. In recent years, there has been significant research on autonomously learning representations of the world using the deep learning; however, most studies have taken a statistical approach, which requires a large number of training data. Contrary to such existing methods, we take a novel algebraic approach for representation learning based on a simpler and more intuitive formulation that the observed world is the combination of multiple independent patterns and transformations that are invariant to the shape of patterns. Since the shape of patterns can be viewed as the invariant features against symmetric transformations such as translation or rotation, we can expect that the patterns can naturally be extracted by expressing transformations with symmetric Lie group transformers and attempting to reconstruct the scene with them. Based on this idea, we propose a model that disentangles the scenes into the minimum number of basic components of patterns and Lie transformations from only one sequence of images, by introducing the learnable shape-invariant Lie group transformers as transformation components. Experiments show that given one sequence of images in which two objects are moving independently, the proposed model can discover the hidden distinct objects and multiple shape-invariant transformations that constitute the scenes.
翻訳日:2022-03-23 12:40:58 公開日:2022-03-21
# 攻撃的言語分類器のロバスト性について

On The Robustness of Offensive Language Classifiers ( http://arxiv.org/abs/2203.11331v1 )

ライセンス: Link先を確認
Jonathan Rusert, Zubair Shafiq, Padmini Srinivasan(参考訳) ソーシャルメディアプラットフォームは、ヘイトフル、人種差別、その他の攻撃的スピーチを大規模に戦うために、機械学習ベースの攻撃的言語分類システムをデプロイしている。 しかし, 実際の展開にもかかわらず, 攻撃的言語分類器が敵攻撃に対して頑健である程度を, 網羅的に理解していない。 この領域での以前の仕事は、ミススペルや余剰空間のような原始的な攻撃に対する攻撃言語分類器の頑健性の研究に限られている。 このギャップに対処するために,我々は,欲望と注意に基づく単語選択と文脈認識による単語置換の組込みを利用した,より巧妙な敵意攻撃に対する,最先端の攻撃言語分類器の頑健さを体系的に分析する。 複数のデータセットを用いた結果から,これらの巧妙な敵意攻撃は,攻撃言語分類器の精度を50%以上低下させると同時に,修正文の可読性と意味を保持できることが示された。

Social media platforms are deploying machine learning based offensive language classification systems to combat hateful, racist, and other forms of offensive speech at scale. However, despite their real-world deployment, we do not yet comprehensively understand the extent to which offensive language classifiers are robust against adversarial attacks. Prior work in this space is limited to studying robustness of offensive language classifiers against primitive attacks such as misspellings and extraneous spaces. To address this gap, we systematically analyze the robustness of state-of-the-art offensive language classifiers against more crafty adversarial attacks that leverage greedy- and attention-based word selection and context-aware embeddings for word replacement. Our results on multiple datasets show that these crafty adversarial attacks can degrade the accuracy of offensive language classifiers by more than 50% while also being able to preserve the readability and meaning of the modified text.
翻訳日:2022-03-23 12:36:22 公開日:2022-03-21
# (参考訳) 複数時系列における潜在因果関係の学習 [全文訳有]

Learning latent causal relationships in multiple time series ( http://arxiv.org/abs/2203.10679v1 )

ライセンス: CC BY 4.0
Jacek P. Dmochowski(参考訳) 複数の動的要素を持つ系の因果構造を同定することは、いくつかの科学分野において重要である。 従来の手法では、例えばGranger Causalityのような因果関係の統計的検査を、事前選択された観測信号間で行う。 ここでは、多くの系において、因果関係は観測データに線形混合として表現される潜在空間に埋め込まれていると仮定する。 潜在源を盲目的に識別するテクニックが提示されている。観察は、ペア間の因果関係の強さを最大化するために、一対のコンポーネント(駆動と駆動)に投影される。 これにより、対象関数と勾配に対する閉形式式による最適化問題が発生し、既成の手法で解ける。 既知の潜在構造を持つ合成データの概念実証を証明した後、この技術は人間の脳と過去の暗号通貨の価格の記録に適用される。 どちらの場合でも、このアプローチは観測データでは明らかでない複数の強い因果関係を回復する。 提案手法は教師なしで、任意の時系列に容易に適用でき、データの背後にある因果関係に光を当てることができる。

Identifying the causal structure of systems with multiple dynamic elements is critical to several scientific disciplines. The conventional approach is to conduct statistical tests of causality, for example with Granger Causality, between observed signals that are selected a priori. Here it is posited that, in many systems, the causal relations are embedded in a latent space that is expressed in the observed data as a linear mixture. A technique for blindly identifying the latent sources is presented: the observations are projected into pairs of components -- driving and driven -- to maximize the strength of causality between the pairs. This leads to an optimization problem with closed form expressions for the objective function and gradient that can be solved with off-the-shelf techniques. After demonstrating proof-of-concept on synthetic data with known latent structure, the technique is applied to recordings from the human brain and historical cryptocurrency prices. In both cases, the approach recovers multiple strong causal relationships that are not evident in the observed data. The proposed technique is unsupervised and can be readily applied to any multiple time series to shed light on the causal relationships underlying the data.
翻訳日:2022-03-23 06:06:29 公開日:2022-03-21
# (参考訳) 整形外科治療におけるCNN注意指導 [全文訳有]

CNN Attention Guidance for Improved Orthopedics Radiographic Fracture Classification ( http://arxiv.org/abs/2203.10690v1 )

ライセンス: CC BY 4.0
Zhibin Liao, Kewen Liao, Haifeng Shen, Marouska F. van Boxel, Jasper Prijs, Ruurd L. Jaarsma, Job N. Doornberg, Anton van den Hengel, Johan W. Verjans(参考訳) 畳み込みニューラルネットワーク (cnns) は, 近年, 骨折分類問題を解く能力から, 整形外科的画像診断において大きな注目を集めている。 cnnsに対する一般的な批判は、不透明な学習と推論プロセスであり、機械の診断とそれに続く臨床でのアルゴリズムの採用を信用することが困難である。 これは、cnnが限られた量の医療データを訓練する場合に特に当てはまり、十分な量のアノテートされた医療画像データのキュレーションは、長くコストのかかるプロセスである。 ネットワークの注意を可視化することでCNNの学習知識を説明することに関心が向けられているが、ネットワーク学習を改善するための視覚的注意の活用はめったに研究されていない。 本稿では,cnnネットワークを人間による注意指導で正規化することの有効性について検討する。 2つの整形外科的x線骨折分類データセットについて, 広範囲な実験を通して, 明示的な人間誘導的注意がネットワークの注意を直視し, その結果, 分類性能を著しく向上できることを実証した。 提案された注意ガイドの開発コードはGitHubで公開されている。

Convolutional neural networks (CNNs) have gained significant popularity in orthopedic imaging in recent years due to their ability to solve fracture classification problems. A common criticism of CNNs is their opaque learning and reasoning process, making it difficult to trust machine diagnosis and the subsequent adoption of such algorithms in clinical setting. This is especially true when the CNN is trained with limited amount of medical data, which is a common issue as curating sufficiently large amount of annotated medical imaging data is a long and costly process. While interest has been devoted to explaining CNN learnt knowledge by visualizing network attention, the utilization of the visualized attention to improve network learning has been rarely investigated. This paper explores the effectiveness of regularizing CNN network with human-provided attention guidance on where in the image the network should look for answering clues. On two orthopedics radiographic fracture classification datasets, through extensive experiments we demonstrate that explicit human-guided attention indeed can direct correct network attention and consequently significantly improve classification performance. The development code for the proposed attention guidance is publicly available on GitHub.
翻訳日:2022-03-23 05:35:32 公開日:2022-03-21
# (参考訳) hypernymクラス予測による言語モデルの改善 [全文訳有]

Better Language Model with Hypernym Class Prediction ( http://arxiv.org/abs/2203.10692v1 )

ライセンス: CC BY 4.0
He Bai, Tong Wang, Alessandro Sordoni, Peng Shi(参考訳) クラスベース言語モデル (LM) は、コンテキストの疎結合に$n$-gramのLMで対処するために長年開発されてきた。 本研究では,このアプローチを神経lmsの文脈で再検討する。 クラスベースの予測は類似した単語の暗黙的なコンテキスト集約につながり、希少な単語の一般化を改善することができると仮定する。 我々は、共通のワードネットハイパーニムを持つ単語を同じクラスにマップし、トレーニング中にクラス予測からトークン予測への徐々にアニーリングを行い、大きなニューラルネットワークlmsを訓練する。 経験的に、このカリキュラム学習戦略は、WikiText-103とArxivという2つのデータセット上の様々な大規模かつ高性能なTransformerベースのモデルに対する難易度を一貫して改善する。 分析の結果,稀な単語のパフォーマンスを犠牲にすることなく,性能改善が達成された。 最後に,経験的な成果を得られなかった他の試みを文書化し,大規模にクラスベースのlmsを採用するための今後の方向性について論じる。

Class-based language models (LMs) have been long devised to address context sparsity in $n$-gram LMs. In this study, we revisit this approach in the context of neural LMs. We hypothesize that class-based prediction leads to an implicit context aggregation for similar words and thus can improve generalization for rare words. We map words that have a common WordNet hypernym to the same class and train large neural LMs by gradually annealing from predicting the class to token prediction during training. Empirically, this curriculum learning strategy consistently improves perplexity over various large, highly-performant state-of-the-art Transformer-based models on two datasets, WikiText-103 and Arxiv. Our analysis shows that the performance improvement is achieved without sacrificing performance on rare words. Finally, we document other attempts that failed to yield empirical gains, and discuss future directions for the adoption of class-based LMs on a larger scale.
翻訳日:2022-03-23 05:10:34 公開日:2022-03-21
# (参考訳) 量子化による生成前学習言語モデルの圧縮 [全文訳有]

Compression of Generative Pre-trained Language Models via Quantization ( http://arxiv.org/abs/2203.10705v1 )

ライセンス: CC BY 4.0
Chaofan Tao, Lu Hou, Wei Zhang, Lifeng Shang, Xin Jiang, Qun Liu, Ping Luo, Ngai Wong(参考訳) 生成型事前学習言語モデル(plm)の増大は、モデル圧縮の需要を大きく増加させた。 BERT またはその変種を圧縮する様々な方法にもかかわらず、生成的 PLM を圧縮する試みはほとんどなく、根底にある困難は未だ不明である。 本稿では,生成PLMを量子化により圧縮する。 従来の量子化法は、容量の削減と重みの分散によって引き起こされる \textit{homogeneous word embeddeds} による生成的タスクでは失敗することが判明した。 これに対応して,識別可能な単語埋め込みを学習するためのトークンレベルのコントラスト蒸留と,異なるモジュールに適応させるモジュールワイドダイナミックスケーリングを提案する。 各種タスクにおける実験結果から,提案手法は生成PLMの最先端圧縮手法よりも明確なマージンで優れていることが示された。 GPT-2 と BART でそれぞれ 14.4x と 13.4x の圧縮速度を達成した。

The increasing size of generative Pre-trained Language Models (PLMs) has greatly increased the demand for model compression. Despite various methods to compress BERT or its variants, there are few attempts to compress generative PLMs, and the underlying difficulty remains unclear. In this paper, we compress generative PLMs by quantization. We find that previous quantization methods fail on generative tasks due to the \textit{homogeneous word embeddings} caused by reduced capacity, and \textit{varied distribution of weights}. Correspondingly, we propose a token-level contrastive distillation to learn distinguishable word embeddings, and a module-wise dynamic scaling to make quantizers adaptive to different modules. Empirical results on various tasks show that our proposed method outperforms the state-of-the-art compression methods on generative PLMs by a clear margin. With comparable performance with the full-precision models, we achieve 14.4x and 13.4x compression rates on GPT-2 and BART, respectively.
翻訳日:2022-03-23 04:54:45 公開日:2022-03-21
# (参考訳) RAFTがPWC-Netより優れている理由 [全文訳有]

What Makes RAFT Better Than PWC-Net? ( http://arxiv.org/abs/2203.10712v1 )

ライセンス: CC BY 4.0
Deqing Sun, Charles Herrmann, Fitsum Reda, Michael Rubinstein, David Fleet, William T. Freeman(参考訳) RAFTのような最近の光学フローモデルに対するトレーニングの詳細とデータセットはどの程度重要か? 一般化するのか? 新たなモデルを開発する代わりに,PWC-Net,IRR-PWC,RAF Tの3つの著名なモデルを,現代的なトレーニング手法とデータセットの共通セットで再検討し,これらのトレーニングの詳細の重要性と汎用性を実証した。 新たにトレーニングしたPWC-NetとIRR-PWCモデルは、SintelとKITTI 2015ベンチマークで発表された結果に比べて30%も大きく改善されている。 彼らは最新のFlow1DをKITTI 2015で上回り、推論では3倍高速になった。 新たにトレーニングしたRAFTは、KITTI 2015でFl-allスコアが4.31%に達した。 本結果は,光学フロー法の性能向上を解析する際に,モデル,トレーニング手法,データセットの寄与を分離する利点を示す。 ソースコードは公開される予定だ。

How important are training details and datasets to recent optical flow models like RAFT? And do they generalize? To explore these questions, rather than develop a new model, we revisit three prominent models, PWC-Net, IRR-PWC and RAFT, with a common set of modern training techniques and datasets, and observe significant performance gains, demonstrating the importance and generality of these training details. Our newly trained PWC-Net and IRR-PWC models show surprisingly large improvements, up to 30% versus original published results on Sintel and KITTI 2015 benchmarks. They outperform the more recent Flow1D on KITTI 2015 while being 3x faster during inference. Our newly trained RAFT achieves an Fl-all score of 4.31% on KITTI 2015, more accurate than all published optical flow methods at the time of writing. Our results demonstrate the benefits of separating the contributions of models, training techniques and datasets when analyzing performance gains of optical flow methods. Our source code will be publicly available.
翻訳日:2022-03-23 04:30:04 公開日:2022-03-21
# (参考訳) フィードフォワードニューラルネットワークにおける活動重双対性:一般化の幾何学的決定因子 [全文訳有]

The activity-weight duality in feed forward neural networks: The geometric determinants of generalization ( http://arxiv.org/abs/2203.10736v1 )

ライセンス: CC BY 4.0
Yu Feng and Yuhai Tu(参考訳) 機械学習の基本的な問題の1つは一般化である。 多くの重み(パラメータ)を持つニューラルネットワークモデルでは、多くの解がトレーニングデータに等しく適合していることが分かる。 鍵となる問題は、どのソリューションがトレーニングセットにないテストデータを記述することができるかである。 本稿では、ニューロンの特定の層における活動の変化と、任意のフィードフォワード神経ネットワーク内の密結合層内のニューロンの次の層に接続する重みの変化の正確な双対性(等価性)を発見したことを報告する。 アクティビティー重み(a-w)の双対性により、入力(データ)のバリエーションを対応する双対重みのバリエーションにマップできる。 この写像を用いることで、一般化損失は重み空間の解における損失関数のヘッセン行列の異なる固有方向からの寄与の和に分解できることを示した。 与えられた固有方向からの寄与は、2つの幾何学的要因(決定要因)の積である:損失の風景の鋭さと双対重みの標準偏差であり、これは解の重みのノルムでスケールすることが分かる。 提案手法は,定式化手法の違い(バッチサイズや学習率の異なる確率勾配降下,ドロップアウト,トレーニングデータサイズ,ラベル付けノイズ)が,一般化のためにこれらの2つの幾何学的行列式のいずれかを制御することによって,一般化性能にどのように影響するかを明らかにするものである。 これらの洞察は、過度にパラメータ化されたニューラルネットワークでより一般化可能なソリューションを見つけるアルゴリズムの開発を導くために使用できる。

One of the fundamental problems in machine learning is generalization. In neural network models with a large number of weights (parameters), many solutions can be found to fit the training data equally well. The key question is which solution can describe testing data not in the training set. Here, we report the discovery of an exact duality (equivalence) between changes in activities in a given layer of neurons and changes in weights that connect to the next layer of neurons in a densely connected layer in any feed forward neural network. The activity-weight (A-W) duality allows us to map variations in inputs (data) to variations of the corresponding dual weights. By using this mapping, we show that the generalization loss can be decomposed into a sum of contributions from different eigen-directions of the Hessian matrix of the loss function at the solution in weight space. The contribution from a given eigen-direction is the product of two geometric factors (determinants): the sharpness of the loss landscape and the standard deviation of the dual weights, which is found to scale with the weight norm of the solution. Our results provide an unified framework, which we used to reveal how different regularization schemes (weight decay, stochastic gradient descent with different batch sizes and learning rates, dropout), training data size, and labeling noise affect generalization performance by controlling either one or both of these two geometric determinants for generalization. These insights can be used to guide development of algorithms for finding more generalizable solutions in overparametrized neural networks.
翻訳日:2022-03-23 04:12:19 公開日:2022-03-21
# (参考訳) HIBRIDS:構造化を意識した文書要約のための階層的バイアスによる注意 [全文訳有]

HIBRIDS: Attention with Hierarchical Biases for Structure-aware Long Document Summarization ( http://arxiv.org/abs/2203.10741v1 )

ライセンス: CC BY-SA 4.0
Shuyang Cao and Lu Wang(参考訳) ドキュメント構造は効率的な情報消費に不可欠である。 しかし、現代のTransformerアーキテクチャに効率的にエンコードすることは困難である。 本研究では,階層的ビアースフォア (hierarchical Biases foR Incorporating Document Structure) をアテンションスコアの計算に注入するHIBRIDSを提案する。 さらに、ソース文書中の有意な内容を質問と要約の階層にまとめる新しいタスクである階層的な質問・サマリー生成を提案し、それぞれのフォローアップ質問がその親の質問・サマリーペアの内容について尋ねる。 私たちはまた、長い政府レポートにラベルされた6,153の質問要約階層を持つ新しいデータセットに注釈を付けます。 実験結果から,本モデルでは,階層的品質とコンテンツカバレッジの比較よりも,質問文の階層性が良好であることが示唆された。 さらに,長い政府レポートやウィキペディアの記事から,ルージュスコアで測定した長文要約の生成も改善した。

Document structure is critical for efficient information consumption. However, it is challenging to encode it efficiently into the modern Transformer architecture. In this work, we present HIBRIDS, which injects Hierarchical Biases foR Incorporating Document Structure into the calculation of attention scores. We further present a new task, hierarchical question-summary generation, for summarizing salient content in the source document into a hierarchy of questions and summaries, where each follow-up question inquires about the content of its parent question-summary pair. We also annotate a new dataset with 6,153 question-summary hierarchies labeled on long government reports. Experiment results show that our model produces better question-summary hierarchies than comparisons on both hierarchy quality and content coverage, a finding also echoed by human judges. Additionally, our model improves the generation of long-form summaries from lengthy government reports and Wikipedia articles, as measured by ROUGE scores.
翻訳日:2022-03-23 03:53:39 公開日:2022-03-21
# (参考訳) 逐次ラベリングに基づく質問応答によるコードと言語ペアの言語非依存マイニング [全文訳有]

Programming Language Agnostic Mining of Code and Language Pairs with Sequence Labeling Based Question Answering ( http://arxiv.org/abs/2203.10744v1 )

ライセンス: CC BY 4.0
Changran Hu, Akshara Reddi Methukupalli, Yutong Zhou, Chen Wu, Yubo Chen(参考訳) 自然言語(NL)とプログラミング言語(PL)のペアをマイニングすることは、NL-PL理解にとって重要な課題である。 既存の手法は、PLごとに特殊手作りの特徴や個別に訓練されたモデルを適用した。 しかし、通常、複数のPL、特に注釈付きデータが少ないニッチPL間での転送性が低い。 幸いなことに、stack overflowの回答投稿は基本的にテキストとコードブロックのシーケンスであり、そのグローバルテキストコンテキストはplに依存しない追加情報を提供することができる。 本稿では,NL-PLペアをPLに依存しない方法でマイニングするためのシーケンスラベルに基づく質問応答(SLQA)手法を提案する。 特に,ポストの複数のブロックから構成されるコードソリューションをマイニングするために,従来のバイナリ方式の代わりに,BIOタグ方式を適用することを提案する。 現在のシングルPLシングルブロックベンチマークと、手動でラベル付けされたクロスPLマルチブロックベンチマークの実験は、SLQAの有効性と転送性を証明する。 さらに,Lang2Codeという並列NL-PLコーパスをSLQAで自動的にマイニングし,約1.4万ペアを6 PL上に含む。 統計的解析と下流評価により,Lang2CodeはNL-PL研究のための大規模データ資源であることを示す。

Mining aligned natural language (NL) and programming language (PL) pairs is a critical task to NL-PL understanding. Existing methods applied specialized hand-crafted features or separately-trained models for each PL. However, they usually suffered from low transferability across multiple PLs, especially for niche PLs with less annotated data. Fortunately, a Stack Overflow answer post is essentially a sequence of text and code blocks and its global textual context can provide PL-agnostic supplementary information. In this paper, we propose a Sequence Labeling based Question Answering (SLQA) method to mine NL-PL pairs in a PL-agnostic manner. In particular, we propose to apply the BIO tagging scheme instead of the conventional binary scheme to mine the code solutions which are often composed of multiple blocks of a post. Experiments on current single-PL single-block benchmarks and a manually-labeled cross-PL multi-block benchmark prove the effectiveness and transferability of SLQA. We further present a parallel NL-PL corpus named Lang2Code automatically mined with SLQA, which contains about 1.4M pairs on 6 PLs. Under statistical analysis and downstream evaluation, we demonstrate that Lang2Code is a large-scale high-quality data resource for further NL-PL research.
翻訳日:2022-03-23 03:11:12 公開日:2022-03-21
# (参考訳) WeSinger:補助的損失を用いたデータ強化歌声合成 [全文訳有]

WeSinger: Data-augmented Singing Voice Synthesis with Auxiliary Losses ( http://arxiv.org/abs/2203.10750v1 )

ライセンス: CC BY 4.0
Zewang Zhang, Yibin Zheng, Xinhui Li, Li Lu(参考訳) 本稿では,WeSinger という中国語多言語音声合成システムを開発した。 合成歌唱音声の精度と自然性を改善するため,いくつかの具体的モジュールと技法を設計する。 1)多段階のリズム損失と後処理ステップを伴う深層双方向LSTMに基づく持続時間モデル 2)プログレッシブピッチ重み付きデコーダ損失を有するトランスフォーマー様音響モデル 3) 高品質歌唱波形を生成する24khzピッチアウェアlpcnetニューラルボコーダ 4) 強固なロバスト性と自然性を有するマルチシンガープリトレーニングによる新しいデータ拡張法。 定量的および定性的な評価結果は,WeSingerの有効性を精度と自然性の観点から示し,WeSingerは公開コーパスOpencpop上で最先端のパフォーマンスを達成する。 いくつかの合成歌唱サンプルはオンラインで入手できる。

In this paper, we develop a new multi-singer Chinese neural singing voice synthesis (SVS) system named WeSinger. To improve the accuracy and naturalness of synthesized singing voice, we design several specifical modules and techniques: 1) A deep bi-directional LSTM based duration model with multi-scale rhythm loss and post-processing step; 2) A Transformer-alike acoustic model with progressive pitch-weighted decoder loss; 3) a 24 kHz pitch-aware LPCNet neural vocoder to produce high-quality singing waveforms; 4) A novel data augmentation method with multi-singer pre-training for stronger robustness and naturalness. Both quantitative and qualitative evaluation results demonstrate the effectiveness of WeSinger in terms of accuracy and naturalness, and WeSinger achieves state-of-the-art performance on the public corpus Opencpop. Some synthesized singing samples are available online\footnote{https://zzw922cn.git hub.io/wesinger}
翻訳日:2022-03-23 02:54:53 公開日:2022-03-21
# (参考訳) XTREME-S: 言語間音声表現の評価 [全文訳有]

XTREME-S: Evaluating Cross-lingual Speech Representations ( http://arxiv.org/abs/2203.10752v1 )

ライセンス: CC BY 4.0
Alexis Conneau, Ankur Bapna, Yu Zhang, Min Ma, Patrick von Platen, Anton Lozhkov, Colin Cherry, Ye Jia, Clara Rivera, Mihir Kale, Daan Van Esch, Vera Axelrod, Simran Khanuja, Jonathan H. Clark, Orhan Firat, Sebastian Ruder, Jason Riesa, Melvin Johnson(参考訳) XTREME-Sは,言語間の共通言語表現を評価するための新しいベンチマークである。 XTREME-Sは、音声認識、分類、音声からテキストへの翻訳、検索の4つのタスクファミリーをカバーする。 XTREME-Sは,10以上の言語ファミリー,3つの異なるドメイン,4つのタスクファミリーから102言語をカバーし,多言語言語表現の評価を簡素化するとともに,"普遍的"言語表現学習における研究を触媒することを目的としている。 本稿では,新しいベンチマークについて述べるとともに,xls-r と mslam を用いた最初の音声のみベースラインと音声テキストベースラインを確立する。 デザインの選択を動機付け、ベンチマークの使い方を詳しく説明します。 データセットや微調整スクリプトは簡単にアクセスできる。

We introduce XTREME-S, a new benchmark to evaluate universal cross-lingual speech representations in many languages. XTREME-S covers four task families: speech recognition, classification, speech-to-text translation and retrieval. Covering 102 languages from 10+ language families, 3 different domains and 4 task families, XTREME-S aims to simplify multilingual speech representation evaluation, as well as catalyze research in "universal" speech representation learning. This paper describes the new benchmark and establishes the first speech-only and speech-text baselines using XLS-R and mSLAM on all downstream tasks. We motivate the design choices and detail how to use the benchmark. Datasets and fine-tuning scripts are made easily accessible.
翻訳日:2022-03-23 02:43:12 公開日:2022-03-21
# (参考訳) ワッサーシュタイン力学による強い後部収縮速度

Strong posterior contraction rates via Wasserstein dynamics ( http://arxiv.org/abs/2203.10754v1 )

ライセンス: CC BY 4.0
Emanuele Dolera, Stefano Favaro, Edoardo Mainini(参考訳) 本稿では、有限次元(パラメトリック)および無限次元(非パラメトリック)ベイズモデルの両方に対して、後方収縮率(PCR)に対する新しいアプローチを開発する。 Critical to our approach is the combination of an assumption of local Lipschitz-continuity for the posterior distribution with a dynamic formulation of the Wasserstein distance, here referred to as Wasserstein dynamics, which allows to set forth a connection between the problem of establishing PCRs and some classical problems in mathematical analysis, probability theory and mathematical statistics: Laplace methods for approximating integrals, Sanov's large deviation principle under the Wasserstein distance, rates of convergence of mean Glivenko-Cantelli theorems, and estimates of weighted Poincar\'e-Wirtinger constants. 支配的ベイズモデルの下では、主な結果が2つあります。 一 統計モデルの正則無限次元指数関数族に対するpcrに関する定理 二 一般的な統計モデルに対するPCRに関する定理。 本研究の応用として,正規パラメトリックモデル,多項モデル,有限次元および無限次元ロジスティック・ガウスモデル,無限次元線形回帰モデルについて述べる。 本手法は, 有限次元における最適PCRに導かれるが, 無限次元においては, 先行分布が対応するPCRにどのように影響するかを明確に示す。 一般に、密度推定のための無限次元ベイズモデルに関して、我々のPCRへのアプローチは、ソボレフのようなノルムのような関数のパラメータ空間上の強いノルム距離を考える最初のものである。

In this paper, we develop a novel approach to posterior contractions rates (PCRs), for both finite-dimensional (parametric) and infinite-dimensional (nonparametric) Bayesian models. Critical to our approach is the combination of an assumption of local Lipschitz-continuity for the posterior distribution with a dynamic formulation of the Wasserstein distance, here referred to as Wasserstein dynamics, which allows to set forth a connection between the problem of establishing PCRs and some classical problems in mathematical analysis, probability theory and mathematical statistics: Laplace methods for approximating integrals, Sanov's large deviation principle under the Wasserstein distance, rates of convergence of mean Glivenko-Cantelli theorems, and estimates of weighted Poincar\'e-Wirtinger constants. Under dominated Bayesian models, we present two main results: i) a theorem on PCRs for the regular infinite-dimensional exponential family of statistical models; ii) a theorem on PCRs for a general dominated statistical models. Some applications of our results are presented for the regular parametric model, the multinomial model, the finite-dimensional and the infinite-dimensional logistic-Gaussian model and the infinite-dimensional linear regression. It turns out that our approach leads to optimal PCRs in finite dimension, whereas in infinite dimension it is shown explicitly how prior distributions affect the corresponding PCRs. In general, with regards to infinite-dimensional Bayesian models for density estimation, our approach to PCRs is the first to consider strong norm distances on parameter spaces of functions, such as Sobolev-like norms, as most of the literature deals with spaces of density functions endowed with $\mathrm{L}^p$ norms or the Hellinger distance.
翻訳日:2022-03-23 02:20:35 公開日:2022-03-21
# (参考訳) 自己教師付きポイントクラウド学習のためのアップサンプリングオートエンコーダ [全文訳有]

Upsampling Autoencoder for Self-Supervised Point Cloud Learning ( http://arxiv.org/abs/2203.10768v1 )

ライセンス: CC BY 4.0
Cheng Zhang, Jian Shi, Xuan Deng, Zizhao Wu(参考訳) コンピュータ支援設計(CAD)コミュニティでは、ポイントクラウドデータがリバースエンジニアリングに広く適用され、ポイントクラウド分析が重要な役割を果たす。 無秩序な点群を扱うために多数の教師あり学習手法が提案され、その顕著な成功を示す一方で、それらの性能と適用性は高価なデータアノテーションに限られている。 本研究では,ポイントクラウドの特徴学習を効果的に行うためのアップサンプリング操作のみに頼って,人間のアノテーションを使わずに,ポイントクラウド学習のための自己教師付き事前学習モデルを提案する。 我々のアプローチのキーとなる前提は、アップサンプリング操作は、ポイントクラウドの高レベルな意味情報と低レベルな幾何学情報の両方を捕捉することをネットワークに促すため、分類やセグメンテーションといった下流タスクは、事前訓練されたモデルから恩恵を受けることである。 具体的には、まず入力点雲から12.5%の低い割合でランダムなサブサンプリングを行う。 次に,エンコーダ・デコーダアーキテクチャに入力し,アンコーダがサブサンプリングポイントのみで動作するように設計され,アップサンプリングデコーダが採用され,学習した特徴に基づいて元のポイントクラウドを再構築する。 最後に, アップサンプリングされた点を原点の雲と類似し, 基礎形状に均一に分布させる新しい結合損失関数を設計する。 学習済みエンコーダ重みを下流タスクのモデルの初期化として採用することにより,我々のuaeは,それまでの形状分類,部分分割,ポイントクラウドアップサンプリングタスクにおいて,最先端の手法を上回っていることがわかった。 コードは受理次第公開される予定だ。

In computer-aided design (CAD) community, the point cloud data is pervasively applied in reverse engineering, where the point cloud analysis plays an important role. While a large number of supervised learning methods have been proposed to handle the unordered point clouds and demonstrated their remarkable success, their performance and applicability are limited to the costly data annotation. In this work, we propose a novel self-supervised pretraining model for point cloud learning without human annotations, which relies solely on upsampling operation to perform feature learning of point cloud in an effective manner. The key premise of our approach is that upsampling operation encourages the network to capture both high-level semantic information and low-level geometric information of the point cloud, thus the downstream tasks such as classification and segmentation will benefit from the pre-trained model. Specifically, our method first conducts the random subsampling from the input point cloud at a low proportion e.g., 12.5%. Then, we feed them into an encoder-decoder architecture, where an encoder is devised to operate only on the subsampled points, along with a upsampling decoder is adopted to reconstruct the original point cloud based on the learned features. Finally, we design a novel joint loss function which enforces the upsampled points to be similar with the original point cloud and uniformly distributed on the underlying shape surface. By adopting the pre-trained encoder weights as initialisation of models for downstream tasks, we find that our UAE outperforms previous state-of-the-art methods in shape classification, part segmentation and point cloud upsampling tasks. Code will be made publicly available upon acceptance.
翻訳日:2022-03-23 02:19:23 公開日:2022-03-21
# (参考訳) スライスインプテーション:異方性3次元医用画像分割のための中間スライス補間 [全文訳有]

Slice Imputation: Intermediate Slice Interpolation for Anisotropic 3D Medical Image Segmentation ( http://arxiv.org/abs/2203.10773v1 )

ライセンス: CC BY 4.0
Zhaotao Wu, Jia Wei, Jiabing Wang, Rui Li(参考訳) 異方性3次元医用画像の分割精度を向上させるために, フレーム補間法を新たに導入し, 異方性3次元医用ボリュームにおいてスライス数とその対応するセグメンテーションラベルを2つの連続スライス間で増加させることができる。 本研究は, 軸方向の滑らかさのみに着目した従来のスライス間挿管法と異なり, 軸方向, 矢状方向, コロナ方向の補間された3次元医療ボリュームの滑らかさを改善することを目的としている。 提案するマルチタスク・インタースライスインプテーション法では,スムースネス損失関数が組み込まれ,平面方向(矢状およびコロナ方向)における補間された3次元医療容積の滑らかさを評価できる。 補間された3d医療ボリュームの平面方向の解像度を向上させるだけでなく、等方性表現へと変換することで、セグメンテーション性能が向上する。 脳における全腫瘍分画,肝腫瘍分画,前立腺分画の実験では,ctとmriの両方において競合するスライスインプテーション法を上回っていた。

We introduce a novel frame-interpolation- based method for slice imputation to improve segmentation accuracy for anisotropic 3D medical images, in which the number of slices and their corresponding segmentation labels can be increased between two consecutive slices in anisotropic 3D medical volumes. Unlike previous inter-slice imputation methods, which only focus on the smoothness in the axial direction, this study aims to improve the smoothness of the interpolated 3D medical volumes in all three directions: axial, sagittal, and coronal. The proposed multitask inter-slice imputation method, in particular, incorporates a smoothness loss function to evaluate the smoothness of the interpolated 3D medical volumes in the through-plane direction (sagittal and coronal). It not only improves the resolution of the interpolated 3D medical volumes in the through-plane direction but also transforms them into isotropic representations, which leads to better segmentation performances. Experiments on whole tumor segmentation in the brain, liver tumor segmentation, and prostate segmentation indicate that our method outperforms the competing slice imputation methods on both computed tomography and magnetic resonance images volumes in most cases.
翻訳日:2022-03-23 01:59:53 公開日:2022-03-21
# (参考訳) 適応型およびカスケード型圧縮センシング [全文訳有]

Adaptive and Cascaded Compressive Sensing ( http://arxiv.org/abs/2203.10779v1 )

ライセンス: CC BY 4.0
Chenxi Qiu, Tao Yue, Xuemei Hu(参考訳) シーン依存型適応圧縮センシング(CS)は、CSの性能を大幅に向上させる大きな可能性を秘めている。 しかし, シーン依存適応戦略を設計する方法は, 地上の真理画像にアクセスすることなく, 依然としてオープンプロブレムであり, サンプリング効率の向上は極めて限られている。 本稿では,現在再現されている画像と地上の真実像との差を直接予測し,連続したサンプリング段階においてサンプルを異なる領域に適応的に割り当てる,制限等尺性(RIP)条件に基づく誤差クラッピングを提案する。 さらに,様々な適応的サンプリング段階から得られた情報を効率的に活用できるカスケード特徴融合再構成ネットワークを提案する。 適応型およびカスケード型CS法の有効性を,最先端のCSアルゴリズムと比較し,定量的,質的な結果で実証した。

Scene-dependent adaptive compressive sensing (CS) has been a long pursuing goal which has huge potential in significantly improving the performance of CS. However, without accessing to the ground truth image, how to design the scene-dependent adaptive strategy is still an open-problem and the improvement in sampling efficiency is still quite limited. In this paper, a restricted isometry property (RIP) condition based error clamping is proposed, which could directly predict the reconstruction error, i.e. the difference between the currently-stage reconstructed image and the ground truth image, and adaptively allocate samples to different regions at the successive sampling stage. Furthermore, we propose a cascaded feature fusion reconstruction network that could efficiently utilize the information derived from different adaptive sampling stages. The effectiveness of the proposed adaptive and cascaded CS method is demonstrated with extensive quantitative and qualitative results, compared with the state-of-the-art CS algorithms.
翻訳日:2022-03-23 01:30:32 公開日:2022-03-21
# (参考訳) 遅延学習法によるctスキャン画像を用いた頭蓋骨骨折の分類 [全文訳有]

Classifications of Skull Fractures using CT Scan Images via CNN with Lazy Learning Approach ( http://arxiv.org/abs/2203.10786v1 )

ライセンス: CC BY 4.0
Md Moniruzzaman Emon, Tareque Rahman Ornob and Moqsadur Rahman(参考訳) 頭蓋骨骨折の分類は放射線科医と研究者の両方にとって困難な課題である。 肩甲骨骨折は骨の破片を骨折させ、脳に切り込み、出血やその他の怪我を引き起こす。 そのため、骨折の早期発見と分類は極めて重要である。 現実の世界では、しばしば複数の場所で骨折が起こる。 これにより、多くの骨折タイプが頭蓋骨骨折を要約する骨折タイプを検出するのが難しくなる。 残念なことに、手動による頭蓋骨骨折の検出と分類プロセスは時間がかかり、患者の命を脅かす。 ディープラーニングの出現により、このプロセスは自動化される可能性がある。 畳み込みニューラルネットワーク(CNN)は、画像分類において最も広く使われているディープラーニングモデルである。 我々は,脳CT画像から頭蓋骨骨折を分類し,5種類の骨折を分類するための分類器として機能する特徴抽出と遅延学習にCNNを活用することにより,新しいCNNを含むSkullNetV1と呼ばれるモデルを提案する。 提案モデルの精度は88%,F1スコア93%,AUC(Area Under the Curve)0.89~0.98,ハミングスコア92%,ハミング損失0.04であった。

Classification of skull fracture is a challenging task for both radiologists and researchers. Skull fractures result in broken pieces of bone, which can cut into the brain and cause bleeding and other injury types. So it is vital to detect and classify the fracture very early. In real world, often fractures occur at multiple sites. This makes it harder to detect the fracture type where many fracture types might summarize a skull fracture. Unfortunately, manual detection of skull fracture and the classification process is time-consuming, threatening a patient's life. Because of the emergence of deep learning, this process could be automated. Convolutional Neural Networks (CNNs) are the most widely used deep learning models for image categorization because they deliver high accuracy and outstanding outcomes compared to other models. We propose a new model called SkullNetV1 comprising a novel CNN by taking advantage of CNN for feature extraction and lazy learning approach which acts as a classifier for classification of skull fractures from brain CT images to classify five fracture types. Our suggested model achieved a subset accuracy of 88%, an F1 score of 93%, the Area Under the Curve (AUC) of 0.89 to 0.98, a Hamming score of 92% and a Hamming loss of 0.04 for this seven-class multi-labeled classification.
翻訳日:2022-03-23 01:17:58 公開日:2022-03-21
# (参考訳) ViM:仮想ロジットマッチングによるアウトオフ配信 [全文訳有]

ViM: Out-Of-Distribution with Virtual-logit Matching ( http://arxiv.org/abs/2203.10807v1 )

ライセンス: CC BY 4.0
Haoqi Wang, Zhizhong Li, Litong Feng, Wayne Zhang(参考訳) 既存のout-of-distribution( ood)検出アルゴリズムのほとんどは、機能、logit、softmax確率という単一の入力源に依存する。 しかし、OODの例の膨大な多様性は、そのような手法を脆弱にしている。 機能領域では識別が容易なOODサンプルがあるが、ロジット空間では識別が困難であり、その逆もある。 そこで本研究では,特徴空間からのクラスに依存しないスコアと,ID(In-Distribution) クラス依存ロジットを組み合わせた新しいOODスコアリング手法であるVirtual-logit Matching(ViM)を提案する。 具体的には、仮想OODクラスを表す追加のロジットが、主空間に対する機能の残余から生成され、その後、一定のスケーリングによって元のロジットとマッチする。 ソフトマックス後の仮想ロジットの確率は OOD-ness の指標である。 アカデミアにおける大規模OOD検出の容易化を目的として,ImageNet-1K用の新しいOODデータセットを構築した。 提案したViMスコアの有効性を示すために,CNNやビジョントランスフォーマーなど広範な実験を行った。 特に,bit-sモデルを用いた場合,提案手法は4つの難解なoodベンチマークで平均 auroc 90.91% を得る。 コードとデータセットはhttps://github.com/h aoqiwang/vimで入手できる。

Most of the existing Out-Of-Distribution (OOD) detection algorithms depend on single input source: the feature, the logit, or the softmax probability. However, the immense diversity of the OOD examples makes such methods fragile. There are OOD samples that are easy to identify in the feature space while hard to distinguish in the logit space and vice versa. Motivated by this observation, we propose a novel OOD scoring method named Virtual-logit Matching (ViM), which combines the class-agnostic score from feature space and the In-Distribution (ID) class-dependent logits. Specifically, an additional logit representing the virtual OOD class is generated from the residual of the feature against the principal space, and then matched with the original logits by a constant scaling. The probability of this virtual logit after softmax is the indicator of OOD-ness. To facilitate the evaluation of large-scale OOD detection in academia, we create a new OOD dataset for ImageNet-1K, which is human-annotated and is 8.8x the size of existing datasets. We conducted extensive experiments, including CNNs and vision transformers, to demonstrate the effectiveness of the proposed ViM score. In particular, using the BiT-S model, our method gets an average AUROC 90.91% on four difficult OOD benchmarks, which is 4% ahead of the best baseline. Code and dataset are available at https://github.com/h aoqiwang/vim.
翻訳日:2022-03-23 01:04:27 公開日:2022-03-21
# (参考訳) anovit: vision transformerベースのエンコーダデコーダによる教師なし異常検出と局在化 [全文訳有]

AnoViT: Unsupervised Anomaly Detection and Localization with Vision Transformer-based Encoder-Decoder ( http://arxiv.org/abs/2203.10808v1 )

ライセンス: CC BY 4.0
Yunseung Lee, Pilsung Kang(参考訳) 画像異常検出問題は、画像が異常であるかを判定し、異常領域を検出することを目的としている。 これらの手法は製造業、医療、知的情報など様々な分野で積極的に用いられている。 エンコーダ・デコーダ構造は、教師なし学習環境において正常なパターンを容易に学習でき、入力画像と再構成画像の差を示す再構成誤差によって異常を識別するスコアを計算できるため、異常検出の分野で広く用いられている。 そのため、現在の画像異常検出法では、画像の局所的特徴から正規情報を抽出するために畳み込みエンコーダデコーダが一般的である。 しかし,画像の局所的な特徴のみを,固定サイズのフィルタを用いて畳み込み操作の特性から正規表現を構築する際に利用できる点が制限されている。 そこで,視覚変換器を用いたエンコーダデコーダモデルAnoViTを提案し,画像の異常検出とローカライゼーションの両方が可能な画像パッチのグローバルな関係を学習することにより,通常の情報を反映する。 提案手法は,複数のセルフアテンション層を通過するパッチの埋め込みを利用して,個々のパッチの既存の位置情報を維持する機能マップを構築する。 提案するanovitモデルは,3つのベンチマークデータセットの畳み込みベースモデルよりも優れた性能を示した。 異常局所化のための代表的なベンチマークデータセットであるMVTecADでは、ベースラインと比較して15クラス中10クラスで改善された結果を示した。 さらに, 定位結果が定性的に評価された場合, 異常領域のクラスや種類に関わらず, 良好な性能を示した。

Image anomaly detection problems aim to determine whether an image is abnormal, and to detect anomalous areas. These methods are actively used in various fields such as manufacturing, medical care, and intelligent information. Encoder-decoder structures have been widely used in the field of anomaly detection because they can easily learn normal patterns in an unsupervised learning environment and calculate a score to identify abnormalities through a reconstruction error indicating the difference between input and reconstructed images. Therefore, current image anomaly detection methods have commonly used convolutional encoder-decoders to extract normal information through the local features of images. However, they are limited in that only local features of the image can be utilized when constructing a normal representation owing to the characteristics of convolution operations using a filter of fixed size. Therefore, we propose a vision transformer-based encoder-decoder model, named AnoViT, designed to reflect normal information by additionally learning the global relationship between image patches, which is capable of both image anomaly detection and localization. The proposed approach constructs a feature map that maintains the existing location information of individual patches by using the embeddings of all patches passed through multiple self-attention layers. The proposed AnoViT model performed better than the convolution-based model on three benchmark datasets. In MVTecAD, which is a representative benchmark dataset for anomaly localization, it showed improved results on 10 out of 15 classes compared with the baseline. Furthermore, the proposed method showed good performance regardless of the class and type of the anomalous area when localization results were evaluated qualitatively.
翻訳日:2022-03-23 00:46:05 公開日:2022-03-21
# (参考訳) ARM: 任意の時間超解法 [全文訳有]

ARM: Any-Time Super-Resolution Method ( http://arxiv.org/abs/2203.10812v1 )

ライセンス: CC BY 4.0
Bohong Chen, Mingbao Lin, Kekai Sheng, Mengdan Zhang, Peixian Chen, Ke Li, Liujuan Cao, Rongrong Ji(参考訳) 本稿では,過パラメータ化単一画像超解像(sisr)モデルに取り組むためのany-time super- resolution method (arm)を提案する。 1)異なる画像パッチの性能は、異なる大きさのSISRネットワークによって異なる。 2) 計算オーバーヘッドと再構成画像の性能との間にはトレードオフがある。 (3)入力画像が与えられた場合,そのエッジ情報はPSNRを推定する有効な選択肢となる。 その後、異なるサイズのSISRサブネットを含むARMスーパーネットをトレーニングし、さまざまな複雑さの画像パッチに対処する。 そこで我々は,各サブネットに対して,画像パッチのエッジスコアをPSNR性能にマッピングするEdge-to-PSNRルックアップテーブルと,サブネットの計算コストのセットを構築した。 この推論では、画像パッチは計算性能のトレードオフを改善するために、個別に異なるサブネットに分散される。 さらに、各SISRサブネットはARMスーパーネットの重みを共有するため、余分なパラメータは導入されない。 複数のサブネットの設定は、SISRモデルの計算コストを動的に利用可能なハードウェアリソースに適切に適応させることができ、SISRタスクがいつでも使えるようになる。 一般的なSISRネットワークで異なるサイズの解像度データセットに関する大規模な実験は、バックボーンがARMの有効性と汎用性を検証する。 ソースコードは \url{https://github.com/c henbong/arm-net} で入手できる。

This paper proposes an Any-time super-Resolution Method (ARM) to tackle the over-parameterized single image super-resolution (SISR) models. Our ARM is motivated by three observations: (1) The performance of different image patches varies with SISR networks of different sizes. (2) There is a tradeoff between computation overhead and performance of the reconstructed image. (3) Given an input image, its edge information can be an effective option to estimate its PSNR. Subsequently, we train an ARM supernet containing SISR subnets of different sizes to deal with image patches of various complexity. To that effect, we construct an Edge-to-PSNR lookup table that maps the edge score of an image patch to the PSNR performance for each subnet, together with a set of computation costs for the subnets. In the inference, the image patches are individually distributed to different subnets for a better computation-performa nce tradeoff. Moreover, each SISR subnet shares weights of the ARM supernet, thus no extra parameters are introduced. The setting of multiple subnets can well adapt the computational cost of SISR model to the dynamically available hardware resources, allowing the SISR task to be in service at any time. Extensive experiments on resolution datasets of different sizes with popular SISR networks as backbones verify the effectiveness and the versatility of our ARM. The source code is available at \url{https://github.com/c henbong/ARM-Net}.
翻訳日:2022-03-23 00:33:05 公開日:2022-03-21
# (参考訳) IRS支援型THz帯ISACシステムにおける近似最適化に基づく伝送ビームフォーミングと位相シフト設計 [全文訳有]

Proximal Policy Optimization-based Transmit Beamforming and Phase-shift Design in an IRS-aided ISAC System for the THz Band ( http://arxiv.org/abs/2203.10819v1 )

ライセンス: CC BY 4.0
Xiangnan Liu, Haijun Zhang, Keping Long, Mingyu Zhou, Yonghui Li, and H. Vincent Poor(参考訳) 本稿では, テラヘルツ(THz)帯で動作するIRS支援統合センシング・通信(ISAC)システムを提案する。 送信ビームフォーミングと位相シフト設計はエルゴード制約のある普遍最適化問題に変換される。 次に、マルチユーザマルチインプット単一出力(MISO)シナリオにおける勾配に基づくPPO(primal-dual proximal Policy Optimization)により、ビームフォーミングと位相シフト設計の合同最適化を実現する。 具体的には、アクター部が連続送信ビームフォーミングを生成し、批評家部が離散位相シフト設計を行う。 MISOシナリオに基づいて,マルチユーザマルチインプットマルチアウトプット(MIMO)シナリオにおけるマルチスレッド学習の概念を用いた分散PPO(DPPO)フレームワークについて検討する。 シミュレーションの結果,送信ビームフォーミングおよび位相シフト設計におけるPPOアルゴリズムとそのマルチスレッドバージョンの有効性が示された。

In this paper, an IRS-aided integrated sensing and communications (ISAC) system operating in the terahertz (THz) band is proposed to maximize the system capacity. Transmit beamforming and phase-shift design are transformed into a universal optimization problem with ergodic constraints. Then the joint optimization of transmit beamforming and phase-shift design is achieved by gradient-based, primal-dual proximal policy optimization (PPO) in the multi-user multiple-input single-output (MISO) scenario. Specifically, the actor part generates continuous transmit beamforming and the critic part takes charge of discrete phase shift design. Based on the MISO scenario, we investigate a distributed PPO (DPPO) framework with the concept of multi-threading learning in the multi-user multiple-input multiple-output (MIMO) scenario. Simulation results demonstrate the effectiveness of the primal-dual PPO algorithm and its multi-threading version in terms of transmit beamforming and phase-shift design.
翻訳日:2022-03-23 00:15:32 公開日:2022-03-21
# (参考訳) 強 token-internal Complexity のためのニューラル token Segmentation [全文訳有]

Neural Token Segmentation for High Token-Internal Complexity ( http://arxiv.org/abs/2203.10845v1 )

ライセンス: CC BY 4.0
Idan Brusilovsky, Reut Tsarfaty(参考訳) 原文をワード単位に分類することは、タグ付け、構文解析、名前付きエンティティ認識など、NLPパイプラインの重要なタスクに不可欠な前処理ステップである。 ほとんどの言語では、このトークン化は簡単です。 しかし、トークン間複雑性の高い言語では、さらにトークン間セグメンテーションが必要である。 以前の標準セグメンテーションの研究は文字レベルのフレームワークに基づいており、文脈的な表現は含んでいなかった。 BERTの文脈化ベクトルは,多くの応用において顕著な結果を示したが,言語的セグメンテーションの性能は向上しなかった。 本稿では,両世界の最善,文脈化トークン表現とcharレベルのデコードを組み合わせた新しいニューラルセグメンテーションモデルを提案する。 提案モデルでは,ヘブライ語とアラビア語のセグメンテーション精度を最先端と比較して大幅に向上させ,既存のパイプラインに比べて,Part-of-Speech Tagging, Dependency Parsing, Named-Entity Recognitionといった下流タスクをさらに改善した。 セグメンテーションファーストパイプラインと関節セグメンテーションとラベル付けを同じ設定で比較した場合、前神経研究とは対照的に、パイプライン性能が優れていることを示す。

Tokenizing raw texts into word units is an essential pre-processing step for critical tasks in the NLP pipeline such as tagging, parsing, named entity recognition, and more. For most languages, this tokenization step straightforward. However, for languages with high token-internal complexity, further token-to-word segmentation is required. Previous canonical segmentation studies were based on character-level frameworks, with no contextualised representation involved. Contextualized vectors a la BERT show remarkable results in many applications, but were not shown to improve performance on linguistic segmentation per se. Here we propose a novel neural segmentation model which combines the best of both worlds, contextualised token representation and char-level decoding, which is particularly effective for languages with high token-internal complexity and extreme morphological ambiguity. Our model shows substantial improvements in segmentation accuracy on Hebrew and Arabic compared to the state-of-the-art, and leads to further improvements on downstream tasks such as Part-of-Speech Tagging, Dependency Parsing and Named-Entity Recognition, over existing pipelines. When comparing our segmentation-first pipeline with joint segmentation and labeling in the same settings, we show that, contrary to pre-neural studies, the pipeline performance is superior.
翻訳日:2022-03-22 23:49:19 公開日:2022-03-21
# (参考訳) 極端バンディットの効率的なアルゴリズム

Efficient Algorithms for Extreme Bandits ( http://arxiv.org/abs/2203.10883v1 )

ライセンス: CC BY 4.0
Dorian Baudry, Yoan Russac, Emilie Kaufmann(参考訳) 本稿では,学習者が最大報酬の獲得を目指す多腕バンディットの変種である極端バンディット問題(extreme bandit problem)に寄与する。 まず,報奨分布の尾部における軽度仮定下でのi.i.d確率変数の最大値の集中度について検討した。 この分析は、Quantile of Maxima (QoMax)の導入を動機付けている。 QoMaxの特性は、単純さにもかかわらず強い漸近的な保証を達成するために、Explore-Then-Commit( ETC)戦略であるQoMax-ETCを構築するのに十分である。 次に,baudry et al. (2021) が最近導入したサブサンプリング法とqomaxを結合した,より適応的なanytimeアルゴリズムであるqomax-sdaを提案する。 どちらのアルゴリズムも,2つの面で既存のアプローチよりも効率的である (1) 経験的パフォーマンスの向上 (2) メモリと時間の複雑さの大幅な低減を享受する。

In this paper, we contribute to the Extreme Bandit problem, a variant of Multi-Armed Bandits in which the learner seeks to collect the largest possible reward. We first study the concentration of the maximum of i.i.d random variables under mild assumptions on the tail of the rewards distributions. This analysis motivates the introduction of Quantile of Maxima (QoMax). The properties of QoMax are sufficient to build an Explore-Then-Commit (ETC) strategy, QoMax-ETC, achieving strong asymptotic guarantees despite its simplicity. We then propose and analyze a more adaptive, anytime algorithm, QoMax-SDA, which combines QoMax with a subsampling method recently introduced by Baudry et al. (2021). Both algorithms are more efficient than existing approaches in two aspects (1) they lead to better empirical performance (2) they enjoy a significant reduction of the memory and time complexities.
翻訳日:2022-03-22 23:40:29 公開日:2022-03-21
# (参考訳) 適応焦点損失と知識蒸留による文書レベル関係抽出 [全文訳有]

Document-Level Relation Extraction with Adaptive Focal Loss and Knowledge Distillation ( http://arxiv.org/abs/2203.10900v1 )

ライセンス: CC BY 4.0
Qingyu Tan, Ruidan He, Lidong Bing, Hwee Tou Ng(参考訳) 文書レベルの関係抽出(DocRE)は文レベルの比較よりも難しい作業である。 複数の文から同時に関係を抽出することを目的としている。 本稿では3つの新しいコンポーネントを持つDocREのための半教師付きフレームワークを提案する。 まず,アキシアルアテンションモジュールを用いてエンティティペア間の相互依存度を学習し,2ホップ関係の性能を向上させる。 次に,docreのクラス不均衡問題に取り組むための適応焦点損失を提案する。 最後に,人間の注釈データと遠隔教師データとの差異を克服するために知識蒸留を用いる。 2つのDocREデータセットについて実験を行った。 我々のモデルは、強いベースラインを一貫して上回り、その性能は、DocREDのリーダーボード上で、以前のSOTAの1.36 F1と1.46 Ign_F1スコアを上回る。 私たちのコードとデータはhttps://github.com/t onytan48/kd-docreでリリースされる。

Document-level Relation Extraction (DocRE) is a more challenging task compared to its sentence-level counterpart. It aims to extract relations from multiple sentences at once. In this paper, we propose a semi-supervised framework for DocRE with three novel components. Firstly, we use an axial attention module for learning the interdependency among entity-pairs, which improves the performance on two-hop relations. Secondly, we propose an adaptive focal loss to tackle the class imbalance problem of DocRE. Lastly, we use knowledge distillation to overcome the differences between human annotated data and distantly supervised data. We conducted experiments on two DocRE datasets. Our model consistently outperforms strong baselines and its performance exceeds the previous SOTA by 1.36 F1 and 1.46 Ign_F1 score on the DocRED leaderboard. Our code and data will be released at https://github.com/t onytan48/KD-DocRE.
翻訳日:2022-03-22 23:39:17 公開日:2022-03-21
# (参考訳) 自己教師型単眼深度推定のためのオクルージョン対応粗大深度マップの学習 [全文訳有]

Learning Occlusion-Aware Coarse-to-Fine Depth Map for Self-supervised Monocular Depth Estimation ( http://arxiv.org/abs/2203.10925v1 )

ライセンス: CC BY 4.0
Zhengming Zhou and Qiulei Dong(参考訳) 近年,単体画像からシーン深度を学習することを目的とした自己教師付き単眼深度推定が注目されている。 この分野での最近の取り組みにもかかわらず、正確なシーン深度を学習し、自己監督深度推定におけるオクルージョンの負の影響を緩和する方法は依然として未解決の問題である。 この問題に対処するために,我々はまず,既存の作品の訓練プロセスで広く用いられている連続的および離散的な深さ制約の影響を経験的に分析する。 そこで我々は,OCFD-Netと呼ばれる自己教師付き単眼深度推定のためのOcclusion-aware Coarse-to-Fine Depth Mapを学習するための新しいネットワークを提案する。 ステレオ画像ペアの任意のトレーニングセットが与えられた場合、提案するOCFD-Netは、粗度深度マップを学習するために離散深度制約を用いるだけでなく、シーン深度残差を学習するために連続深度制約を用いる。 また,OCFD-Netではオクルージョン対応モジュールを設計し,オクルージョン処理のための詳細な深度マップの学習能力を向上させる。 公開kittiとmake3dデータセットの広範な実験結果から,提案手法が既存の20の最先端手法を上回っていることが分かる。

Self-supervised monocular depth estimation, aiming to learn scene depths from single images in a self-supervised manner, has received much attention recently. In spite of recent efforts in this field, how to learn accurate scene depths and alleviate the negative influence of occlusions for self-supervised depth estimation, still remains an open problem. Addressing this problem, we firstly empirically analyze the effects of both the continuous and discrete depth constraints which are widely used in the training process of many existing works. Then inspired by the above empirical analysis, we propose a novel network to learn an Occlusion-aware Coarse-to-Fine Depth map for self-supervised monocular depth estimation, called OCFD-Net. Given an arbitrary training set of stereo image pairs, the proposed OCFD-Net does not only employ a discrete depth constraint for learning a coarse-level depth map, but also employ a continuous depth constraint for learning a scene depth residual, resulting in a fine-level depth map. In addition, an occlusion-aware module is designed under the proposed OCFD-Net, which is able to improve the capability of the learnt fine-level depth map for handling occlusions. Extensive experimental results on the public KITTI and Make3D datasets demonstrate that the proposed method outperforms 20 existing state-of-the-art methods in most cases.
翻訳日:2022-03-22 23:23:13 公開日:2022-03-21
# (参考訳) 誤り整合事前学習を伴う一般および領域適応中国語綴りチェック [全文訳有]

General and Domain Adaptive Chinese Spelling Check with Error Consistent Pretraining ( http://arxiv.org/abs/2203.10929v1 )

ライセンス: CC BY 4.0
Qi Lv, Ziqiang Cao, Lei Geng, Chunhui Ai, Xu Yan, Guohong Fu(参考訳) ラベルデータの欠如は、中国語綴りチェック(csc)の重要なボトルネックの1つである。 既存の研究では、ラベルのないデータを利用して教師付きコーパスを拡張することで自動生成の方法を採用している。 しかし、実際の入力シナリオと自動生成コーパスの間には大きなギャップがある。 そこで本研究では,Error Consistent マスキング戦略を採用した競合型汎用スペル ECSpell を開発し,事前学習のためのデータを生成する。 このエラー一貫性マスキング戦略は、実際のシーンと一致する自動生成文のエラータイプを特定するために使用される。 実験結果から,本モデルが従来の最先端モデルよりも高い性能を示した。 さらに、スペルはしばしば実生活において特定の領域内で機能する。 多くのドメイン用語が一般的ではないため、構築されたドメイン固有のデータセットの実験は、一般的なモデルがひどいパフォーマンスを示す。 入力方式の一般的な実践にヒントを得て,ゼロショット領域適応問題に対処する変更可能なユーザ辞書を提案する。 具体的には,一般トークン分類に基づくスペラにユーザ辞書誘導推論モジュール(ud)を付加する。 我々の実験は、ECSpell$^{UD}$とUDを組み合わせたECSpellが、一般的なベンチマークのパフォーマンスに近づいたとしても、他のすべてのベースラインを超えることを示した。

The lack of label data is one of the significant bottlenecks for Chinese Spelling Check (CSC). Existing researches use the method of automatic generation by exploiting unlabeled data to expand the supervised corpus. However, there is a big gap between the real input scenario and automatic generated corpus. Thus, we develop a competitive general speller ECSpell which adopts the Error Consistent masking strategy to create data for pretraining. This error consistency masking strategy is used to specify the error types of automatically generated sentences which is consistent with real scene. The experimental result indicates our model outperforms previous state-of-the-art models on the general benchmark. Moreover, spellers often work within a particular domain in real life. Due to lots of uncommon domain terms, experiments on our built domain specific datasets show that general models perform terribly. Inspired by the common practice of input methods, we propose to add an alterable user dictionary to handle the zero-shot domain adaption problem. Specifically, we attach a User Dictionary guided inference module (UD) to a general token classification based speller. Our experiments demonstrate that ECSpell$^{UD}$, namely ECSpell combined with UD, surpasses all the other baselines largely, even approaching the performance on the general benchmark.
翻訳日:2022-03-22 23:03:48 公開日:2022-03-21
# (参考訳) AraBART:抽象要約のためのアラビア列列列モデル [全文訳有]

AraBART: a Pretrained Arabic Sequence-to-Sequence Model for Abstractive Summarization ( http://arxiv.org/abs/2203.10945v1 )

ライセンス: CC BY 4.0
Moussa Kamal Eddine, Nadi Tomeh, Nizar Habash, Joseph Le Roux, Michalis Vazirgiannis(参考訳) ほとんどの自然言語理解や生成タスクと同様に、要約のための最先端のモデルは、大きなコーパスで事前学習されるトランスフォーマティブベースのシーケンスからシーケンスへのアーキテクチャである。 既存のモデルの多くは英語に焦点を当てていたが、アラビア語は未熟のままであった。 本稿では,バートに基づくエンコーダとデコーダをエンドツーエンドに事前学習した最初のアラビア語モデルであるarabartを提案する。 AraBARTは複数の抽象的な要約データセット上で最高の性能を達成し、事前訓練されたアラビアBERTモデルやマルチリンガルmBARTおよびmT5モデルを含む強力なベースラインを上回っていることを示す。

Like most natural language understanding and generation tasks, state-of-the-art models for summarization are transformer-based sequence-to-sequence architectures that are pretrained on large corpora. While most existing models focused on English, Arabic remained understudied. In this paper we propose AraBART, the first Arabic model in which the encoder and the decoder are pretrained end-to-end, based on BART. We show that AraBART achieves the best performance on multiple abstractive summarization datasets, outperforming strong baselines including a pretrained Arabic BERT-based model and multilingual mBART and mT5 models.
翻訳日:2022-03-22 22:48:49 公開日:2022-03-21
# (参考訳) ハイブリッドグラフニューラルネットワークによる医用画像分割の解剖学的可能性の改善:胸部x線解析への応用 [全文訳有]

Improving anatomical plausibility in medical image segmentation via hybrid graph neural networks: applications to chest x-ray analysis ( http://arxiv.org/abs/2203.10977v1 )

ライセンス: CC BY 4.0
Nicol\'as Gaggion, Lucas Mansilla, Candelaria Mosquera, Diego H. Milone and Enzo Ferrante(参考訳) 解剖学的セグメンテーション(Anatomical segmentation)は、医用画像コンピューティングにおける基本的な課題であり、一般的には密度の高いセグメンテーションマスクを生成する完全な畳み込みニューラルネットワークに取り組む。 これらのモデルはしばしばクロスエントロピーやサイスのような損失関数で訓練され、ピクセルは互いに独立であると仮定されるため、位相的誤差や解剖学的不整合は無視される。 我々は、この制限をピクセルレベルからグラフ表現に移行することで解決し、構築によって自然に解剖学的制約を組み込むことができる。 そこで本研究では,画像特徴量符号化のための標準畳み込みと,解剖学的構造をデコードするグラフ畳み込みニューラルネットワーク(gcnns)を活用する,エンコーダ・デコーダ型ニューラルネットワークであるhybridgnetを提案する。 また,標準的な畳み込みブロックからGCNNブロックへ局所的特徴を流し,セグメント化精度を向上させる画像間スキップ接続層を提案する。 提案アーキテクチャは,様々な領域シフトと画像閉塞シナリオにおいて広範囲に評価され,異なるタイプの階層シフトを考慮して評価される。 我々の総合的な実験装置は、胸部X線画像における解剖学的セグメント化のためのHybridGNetと他のランドマークおよびピクセルベースのモデルを比較し、他のモデルが失敗する傾向にある挑戦的なシナリオにおいて解剖学的に妥当な結果をもたらすことを示す。

Anatomical segmentation is a fundamental task in medical image computing, generally tackled with fully convolutional neural networks which produce dense segmentation masks. These models are often trained with loss functions such as cross-entropy or Dice, which assume pixels to be independent of each other, thus ignoring topological errors and anatomical inconsistencies. We address this limitation by moving from pixel-level to graph representations, which allow to naturally incorporate anatomical constraints by construction. To this end, we introduce HybridGNet, an encoder-decoder neural architecture that leverages standard convolutions for image feature encoding and graph convolutional neural networks (GCNNs) to decode plausible representations of anatomical structures. We also propose a novel image-to-graph skip connection layer which allows localized features to flow from standard convolutional blocks to GCNN blocks, and show that it improves segmentation accuracy. The proposed architecture is extensively evaluated in a variety of domain shift and image occlusion scenarios, and audited considering different types of demographic domain shift. Our comprehensive experimental setup compares HybridGNet with other landmark and pixel-based models for anatomical segmentation in chest x-ray images, and shows that it produces anatomically plausible results in challenging scenarios where other models tend to fail.
翻訳日:2022-03-22 22:38:19 公開日:2022-03-21
# (参考訳) 統計システムのための階層的自己回帰ニューラルネットワーク [全文訳有]

Hierarchical autoregressive neural networks for statistical systems ( http://arxiv.org/abs/2203.10989v1 )

ライセンス: CC BY-SA 4.0
Piotr Bia{\l}as, Piotr Korcyl, Tomasz Stebel(参考訳) ニューラルネットワークは格子場理論や統計力学などで現れる多次元確率分布を近似するために用いられることが最近提案された。 その後、自由エネルギーのような統計システムの広範な特性を評価する変分近似器や、モンテカルロシミュレーションで使用されるニューラルサンプリング器として用いられる。 このアプローチの実践的応用は残念ながら、トレーニングに必要な数値コストとシステムサイズによるメモリ要求の両方を、好ましくないスケーリングによって制限されている。 これは、2次元の$l\times l$格子の場合の$l^2$のような、自由度の総数でスケールされた幅のニューラルネットワークが元々の命題であったためである。 この研究では、例えばスピンのような物理的自由度の階層的な結合をニューロンに提案し、それをシステムの線形範囲$L$のスケーリングに置き換える。 128 \times 128$ spin までの様々なサイズの格子をシミュレートし、2次元イジングモデルに対する我々のアプローチを実証し、時間ベンチマークが 512 \times 512$ の格子に達することを示した。 我々は,提案手法がニューラルネットワーク学習の質を向上させること,すなわち,推定確率分布が従来達成できた目標に近いことを観察する。 その結果、変分自由エネルギーはその理論的な期待値に近い値に達し、マルコフ連鎖モンテカルロアルゴリズムに適用されると、結果の自己相関時間は小さくなる。 最後に、より小さなネットワークの階層による単一ニューラルネットワークの置換は、メモリ要求を大幅に削減する。

It was recently proposed that neural networks could be used to approximate many-dimensional probability distributions that appear e.g. in lattice field theories or statistical mechanics. Subsequently they can be used as variational approximators to asses extensive properties of statistical systems, like free energy, and also as neural samplers used in Monte Carlo simulations. The practical application of this approach is unfortunately limited by its unfavorable scaling both of the numerical cost required for training, and the memory requirements with the system size. This is due to the fact that the original proposition involved a neural network of width which scaled with the total number of degrees of freedom, e.g. $L^2$ in case of a two dimensional $L\times L$ lattice. In this work we propose a hierarchical association of physical degrees of freedom, for instance spins, to neurons which replaces it with the scaling with the linear extent $L$ of the system. We demonstrate our approach on the two-dimensional Ising model by simulating lattices of various sizes up to $128 \times 128$ spins, with time benchmarks reaching lattices of size $512 \times 512$. We observe that our proposal improves the quality of neural network training, i.e. the approximated probability distribution is closer to the target that could be previously achieved. As a consequence, the variational free energy reaches a value closer to its theoretical expectation and, if applied in a Markov Chain Monte Carlo algorithm, the resulting autocorrelation time is smaller. Finally, the replacement of a single neural network by a hierarchy of smaller networks considerably reduces the memory requirements.
翻訳日:2022-03-22 21:58:21 公開日:2022-03-21
# (参考訳) 活性化と神経勾配の最適細粒度n:mスパーシティ [全文訳有]

Optimal Fine-Grained N:M sparsity for Activations and Neural Gradients ( http://arxiv.org/abs/2203.10991v1 )

ライセンス: CC BY 4.0
Brian Chmiel, Itay Hubara, Ron Banner and Daniel Soudry(参考訳) ディープラーニングでは、粒度の細かいN:Mは、GEMM(General Matrix multiply)のデータフットプリントと帯域幅をx2で削減し、ゼロ値の計算をスキップすることでスループットを2倍にする。 これまでのところ、重量を減らすためにしか使われていなかった。 本手法は, 活性化とその勾配(すなわち「神経勾配」)にどのように使用できるかを検討する。 この目的のために、まずテンソルレベルの最適性基準を確立する。 以前の作業は、各プルーンドブロックの平均2乗誤差(MSE)を最小化することを目的としていた。 MSEの最小化は活性化を抑えるのに有効であるが、破壊的に神経勾配に失敗する。 代わりに、神経勾配の最適プラニングにはバイアスのない最小分散プラニングマスクが必要であることを示した。 このような特殊なマスクを設計し、ほとんどの場合、1:2スパシティはトレーニングに十分であり、2:4スパシティは通常、そうでない場合に十分である。 さらに,より高速なトレーニングを実現するために,複数の手法を組み合わせることを提案する。 リファレンス実装はhttps://github.com/b rianchmiel/Act-and-G rad-structured-spars ityで提供される。

In deep learning, fine-grained N:M sparsity reduces the data footprint and bandwidth of a General Matrix multiply (GEMM) by x2, and doubles throughput by skipping computation of zero values. So far, it was only used to prune weights. We examine how this method can be used also for activations and their gradients (i.e., "neural gradients"). To this end, we first establish tensor-level optimality criteria. Previous works aimed to minimize the mean-square-error (MSE) of each pruned block. We show that while minimization of the MSE works fine for pruning the activations, it catastrophically fails for the neural gradients. Instead, we show that optimal pruning of the neural gradients requires an unbiased minimum-variance pruning mask. We design such specialized masks, and find that in most cases, 1:2 sparsity is sufficient for training, and 2:4 sparsity is usually enough when this is not the case. Further, we suggest combining several such methods together in order to speed up training even more. A reference implementation is supplied in https://github.com/b rianchmiel/Act-and-G rad-structured-spars ity.
翻訳日:2022-03-22 21:45:22 公開日:2022-03-21
# (参考訳) 教師なし領域適応によるスプーフィングアウェア話者照合 [全文訳有]

Spoofing-Aware Speaker Verification with Unsupervised Domain Adaptation ( http://arxiv.org/abs/2203.10992v1 )

ライセンス: CC BY 4.0
Xuechen Liu, Md Sahidullah, Tomi Kinnunen(参考訳) 本稿では,自動話者検証システム(ASV)のスプーフィングロバスト性向上への懸念を,個別の対策モジュールの一次存在なしに開始する。 ASVspoof 2019 ベースラインの標準 ASV フレームワークから始めて,確率線形判別分析に基づくバックエンド分類器から問題にアプローチする。 我々は,asvspoof 2019データセットのトレーニングパーティションにおける音声データを用いたバックエンドを最適化するために,教師なしドメイン適応手法を3つ採用した。 論理アクセスシナリオと物理アクセスシナリオの両方において,特にシステムが再生音声によって攻撃される場合において,ボナフィドケースとスプーフドケースにおいて,最大36.1%と5.3%の相対的な改善が見られた。 攻撃毎のブレークダウン分析,データ構成,ガウスのバックエンドとスコアレベルでの対策システムとの統合などの追加研究を行う。

In this paper, we initiate the concern of enhancing the spoofing robustness of the automatic speaker verification (ASV) system, without the primary presence of a separate countermeasure module. We start from the standard ASV framework of the ASVspoof 2019 baseline and approach the problem from the back-end classifier based on probabilistic linear discriminant analysis. We employ three unsupervised domain adaptation techniques to optimize the back-end using the audio data in the training partition of the ASVspoof 2019 dataset. We demonstrate notable improvements on both logical and physical access scenarios, especially on the latter where the system is attacked by replayed audios, with a maximum of 36.1% and 5.3% relative improvement on bonafide and spoofed cases, respectively. We perform additional studies such as per-attack breakdown analysis, data composition, and integration with a countermeasure system at score-level with Gaussian back-end.
翻訳日:2022-03-22 21:27:05 公開日:2022-03-21
# (参考訳) 人間-ロボット協調におけるタスクデリゲートのための計算エルゴノミクス:接触なしジェスチャー認識によるロボットの人間への時空間適応 [全文訳有]

Computational ergonomics for task delegation in Human-Robot Collaboration: spatiotemporal adaptation of the robot to the human through contactless gesture recognition ( http://arxiv.org/abs/2203.11007v1 )

ライセンス: CC0 1.0
Brenda Elizabeth Olivas-Padilla, Dimitris Papanagiotou, Gavriela Senteri, Sotiris Manitsaris, and Alina Glushkova(参考訳) 作業関連筋骨格障害 (wmsds) の高頻度化は, 人間-ロボット協調 (hrc) フレームワークの最適化により解決できる。 本稿では,エルゴノミカルに有効なタスクデリゲーションとhrcの2つの仮説を提案する。 第1の仮説では、縮小されたセンサー群からのモーションデータを用いて人間工学的なタスクを定量化することが可能である。 そして、最も危険なタスクを協調ロボットに委譲することができる。 2つめの仮説は、ジェスチャー認識と空間適応を含めることで、オペレーターが人間工学的リスクにさらす必要のない動きを避け、オペレーターに必要な物理的労力を下げることで、hrcシナリオの人間工学を改善することができる、ということである。 テレビ製造プロセスのhrcシナリオは、両方の仮説をテストするために最適化される。 エルゴノミクス評価では, エルゴノミクスリスクが既知の運動プリミティブを, 専門業務における検出と欧州議会ワークシート(EAWS)に基づくリスクスコアの推定のためにモデル化した。 自己中心型テレビ組立データを用いて学習したディープラーニングジェスチャー認識モジュールを用いて,人間とロボットの協調を補完した。 さらに、スケルトン追跡アルゴリズムは、ロボットにオペレータのポーズに関する情報を提供し、その動きをオペレータのヒューマンメトリックスに空間的に適応させることを可能にした。 ジェスチャー認識と空間適応が操作者の動作範囲に与える影響を判定する3つの実験を行った。 本論文では,空間適応率をキーパフォーマンス指標(kpi)として使用し,オペレータの動きの低減度を測定するための新しいkpiを提案する。

The high prevalence of work-related musculoskeletal disorders (WMSDs) could be addressed by optimizing Human-Robot Collaboration (HRC) frameworks for manufacturing applications. In this context, this paper proposes two hypotheses for ergonomically effective task delegation and HRC. The first hypothesis states that it is possible to quantify ergonomically professional tasks using motion data from a reduced set of sensors. Then, the most dangerous tasks can be delegated to a collaborative robot. The second hypothesis is that by including gesture recognition and spatial adaptation, the ergonomics of an HRC scenario can be improved by avoiding needless motions that could expose operators to ergonomic risks and by lowering the physical effort required of operators. An HRC scenario for a television manufacturing process is optimized to test both hypotheses. For the ergonomic evaluation, motion primitives with known ergonomic risks were modeled for their detection in professional tasks and to estimate a risk score based on the European Assembly Worksheet (EAWS). A Deep Learning gesture recognition module trained with egocentric television assembly data was used to complement the collaboration between the human operator and the robot. Additionally, a skeleton-tracking algorithm provided the robot with information about the operator's pose, allowing it to spatially adapt its motion to the operator's anthropometrics. Three experiments were conducted to determine the effect of gesture recognition and spatial adaptation on the operator's range of motion. The rate of spatial adaptation was used as a key performance indicator (KPI), and a new KPI for measuring the reduction in the operator's motion is presented in this paper.
翻訳日:2022-03-22 21:14:44 公開日:2022-03-21
# (参考訳) トランスフォーマーを用いた歴史文書用HTR [全文訳有]

Transformer-based HTR for Historical Documents ( http://arxiv.org/abs/2203.11008v1 )

ライセンス: CC BY 4.0
Phillip Benjamin Str\"obel, Simon Clematide, Martin Volk, Tobias Hodel(参考訳) 我々は,TrOCRフレームワークを実世界,歴史写本に適用し,TrOCRは強いモデルであり,伝達学習に理想的であることを示す。 trocrは英語のみで訓練されているが、ラテン語のアルファベットをかなり簡単に使う他の言語に適応できる。 我々は、TrOCRをSOTA HTRフレームワーク(Transkribus)と比較し、そのようなシステムに勝てることを示す。 この発見は、transkribusがベースライン情報にアクセスする際に最善の性能を発揮するために必要であり、trocrを微調整する必要はない。

We apply the TrOCR framework to real-world, historical manuscripts and show that TrOCR per se is a strong model, ideal for transfer learning. TrOCR has been trained on English only, but it can adapt to other languages that use the Latin alphabet fairly easily and with little training material. We compare TrOCR against a SOTA HTR framework (Transkribus) and show that it can beat such systems. This finding is essential since Transkribus performs best when it has access to baseline information, which is not needed at all to fine-tune TrOCR.
翻訳日:2022-03-22 20:59:57 公開日:2022-03-21
# (参考訳) ステレオニューラルバーニアキャリパ [全文訳有]

Stereo Neural Vernier Caliper ( http://arxiv.org/abs/2203.11018v1 )

ライセンス: CC BY 4.0
Shichao Li, Zechun Liu, Zhiqiang Shen, Kwang-Ting Cheng(参考訳) 学習に基づくステレオ3Dオブジェクト検出のための新しいオブジェクト中心フレームワークを提案する。 従来の研究では、屋外インスタンスの顕著な変動を考慮せず、インスタンスレベルのモデルが提供する柔軟性や機能に欠けるシーン中心の表現を構築していた。 このようなインスタンスレベルのモデルを構築し、ローカル更新問題、すなわち初期の3d立方体推測に基づいて洗練された更新を予測する方法を定式化し、取り組みます。 この問題の解決がシーン中心のアプローチをどのように補完するかを実証する。 (i)粗大から細かなマルチレゾリューションシステムの構築 (ii)モデル非依存な物体の位置調整を行うこと、及び 三 ステレオ3D追跡検出を行うこと。 KITTIベンチマークで最先端性能を実現するため,提案手法の有効性を実証した。 コードと事前訓練されたモデルはhttps://github.com/N icholasli1995/SNVC.c omで入手できる。

We propose a new object-centric framework for learning-based stereo 3D object detection. Previous studies build scene-centric representations that do not consider the significant variation among outdoor instances and thus lack the flexibility and functionalities that an instance-level model can offer. We build such an instance-level model by formulating and tackling a local update problem, i.e., how to predict a refined update given an initial 3D cuboid guess. We demonstrate how solving this problem can complement scene-centric approaches in (i) building a coarse-to-fine multi-resolution system, (ii) performing model-agnostic object location refinement, and (iii) conducting stereo 3D tracking-by-detectio n. Extensive experiments demonstrate the effectiveness of our approach, which achieves state-of-the-art performance on the KITTI benchmark. Code and pre-trained models are available at https://github.com/N icholasli1995/SNVC.
翻訳日:2022-03-22 20:55:30 公開日:2022-03-21
# (参考訳) エンド・ツー・エンドテキスト・ツー・スパイチの微分可能持続時間モデル [全文訳有]

Differentiable Duration Modeling for End-to-End Text-to-Speech ( http://arxiv.org/abs/2203.11049v1 )

ライセンス: CC BY 4.0
Bac Nguyen, Fabien Cardinaux, Stefan Uhlich(参考訳) 並列テキスト音声合成(TTS)モデルは,最近,高速で自然な音声合成を実現している。 しかし、そのようなモデルは一般に外部アライメントモデルを必要とするが、これはデコーダに最適化されていない。 本稿では,入力シーケンスと出力シーケンスのモノトニックなアライメントを学習するための可変長法を提案する。 本手法は,期待の確率過程を最適化するソフトデュレーション機構に基づいている。 この微分可能な持続時間法を用いて、直接テキストから波形TSモデルを導入し、ニューラルヴォコーディングを行う代わりに生音声を出力として生成する。 本モデルでは,高忠実度音声合成を,対角的学習と総接地時間との整合により学習する。 実験の結果,より簡単なトレーニングパイプラインを楽しめながら,競争結果を得ることができた。 オーディオサンプルはオンラインで入手できる。

Parallel text-to-speech (TTS) models have recently enabled fast and highly-natural speech synthesis. However, such models typically require external alignment models, which are not necessarily optimized for the decoder as they are not jointly trained. In this paper, we propose a differentiable duration method for learning monotonic alignments between input and output sequences. Our method is based on a soft-duration mechanism that optimizes a stochastic process in expectation. Using this differentiable duration method, a direct text to waveform TTS model is introduced to produce raw audio as output instead of performing neural vocoding. Our model learns to perform high-fidelity speech synthesis through a combination of adversarial training and matching the total ground-truth duration. Experimental results show that our model obtains competitive results while enjoying a much simpler training pipeline. Audio samples are available online.
翻訳日:2022-03-22 20:40:18 公開日:2022-03-21
# (参考訳) 航空収益管理における収益最大化と需要学習の最適化 [全文訳有]

Optimizing Revenue Maximization and Demand Learning in Airline Revenue Management ( http://arxiv.org/abs/2203.11065v1 )

ライセンス: CC BY 4.0
Giovanni Gatti Pinheiro, Michael Defoin-Platel, Jean-Charles Regin(参考訳) 価格に対する需要の反応を正しく見積もることは、航空会社が価格政策を最適化するのに欠かせない。 ある条件下では、短期的な収入を最大化しようとする一方で、価格変動が少なすぎる可能性があり、将来の需要予測の全体的な品質が低下する可能性がある。 この問題は「学習中の収入」として知られ、航空会社に限ったものではなく、近年は学界や産業によって研究されている。 文献で提示される最も有望な方法の1つは、収益の最大化と需要モデルの品質を1つの目的関数に組み合わせることである。 この手法はシミュレーション研究や実生活のベンチマークで大きな成功を収めている。 にもかかわらず、この作業は、複数の脚のアクティブフライトの価格を同時に制御する必要があるなど、航空会社の収益管理(RM)に生じる一定の制約に適応する必要がある。 本稿では、制約のない容量を仮定しながら、この方法を航空会社RMに調整する。 そして,本アルゴリズムは,収益のみを最大化しようとする古典的手法よりも,長期にわたって収益を生み出すために,価格実験を効率よく行うことを示す。

Correctly estimating how demand respond to prices is fundamental for airlines willing to optimize their pricing policy. Under some conditions, these policies, while aiming at maximizing short term revenue, can present too little price variation which may decrease the overall quality of future demand forecasting. This problem, known as earning while learning problem, is not exclusive to airlines, and it has been investigated by academia and industry in recent years. One of the most promising methods presented in literature combines the revenue maximization and the demand model quality into one single objective function. This method has shown great success in simulation studies and real life benchmarks. Nevertheless, this work needs to be adapted to certain constraints that arise in the airline revenue management (RM), such as the need to control the prices of several active flights of a leg simultaneously. In this paper, we adjust this method to airline RM while assuming unconstrained capacity. Then, we show that our new algorithm efficiently performs price experimentation in order to generate more revenue over long horizons than classical methods that seek to maximize revenue only.
翻訳日:2022-03-22 20:25:53 公開日:2022-03-21
# (参考訳) 加速ニューラルネットワークの画像分類 [全文訳有]

Image Classification on Accelerated Neural Networks ( http://arxiv.org/abs/2203.11081v1 )

ライセンス: CC BY 4.0
Ilkay Sikdokur, Inci Baytas, Arda Yurdakul(参考訳) 画像分類問題では、高い精度を得ることに成功したため、様々なニューラルネットワークモデルが一般的に使用される。 畳み込みニューラルネットワーク(CNN)は、画像分類アプリケーションにおいて最も頻繁に使用されるディープラーニング手法の1つである。 複雑さに関して非常に正確な結果を生み出す可能性がある。 しかし、モデルが複雑になるほど、訓練に要する時間が長くなる。 本稿では,FPGAのパワーを利用する加速度設計を,一層の畳み込み層と完全連結層のトレーニングフェーズのための一層の完全連結層からなる基本CNNモデルに対して与える。 それでも、トレーニングフェーズに推論が含まれているため、推論フェーズも自動的に加速される。 この設計では、畳み込み層をホストコンピュータで計算し、完全に連結された層をFPGA基板で計算する。 ただし、この設計では畳み込み層の訓練は考慮されず、今後の研究に残されている点に注意が必要である。 このFPGA設計は、ホストコンピュータ上のTensorflowのような最先端のディープラーニングプラットフォームの性能を、トレーニングと推論の両方で約2倍に向上させる。

For image classification problems, various neural network models are commonly used due to their success in yielding high accuracies. Convolutional Neural Network (CNN) is one of the most frequently used deep learning methods for image classification applications. It may produce extraordinarily accurate results with regard to its complexity. However, the more complex the model is the longer it takes to train. In this paper, an acceleration design that uses the power of FPGA is given for a basic CNN model which consists of one convolutional layer and one fully connected layer for the training phase of the fully connected layer. Nonetheless, inference phase is also accelerated automatically due to the fact that training phase includes inference. In this design, the convolutional layer is calculated by the host computer and the fully connected layer is calculated by an FPGA board. It should be noted that the training of convolutional layer is not taken into account in this design and is left for future research. The results are quite encouraging as this FPGA design tops the performance of some of the state-of-the-art deep learning platforms such as Tensorflow on the host computer approximately 2 times in both training and inference.
翻訳日:2022-03-22 20:15:36 公開日:2022-03-21
# (参考訳) MixFormer: 反復的混合注意によるエンドツーエンドトラッキング [全文訳有]

MixFormer: End-to-End Tracking with Iterative Mixed Attention ( http://arxiv.org/abs/2203.11082v1 )

ライセンス: CC BY 4.0
Yutao Cui, Jiang Cheng, Limin Wang and Gangshan Wu(参考訳) トラッキングはしばしば、機能抽出、ターゲット情報の統合、バウンディングボックス推定の多段階パイプラインを使用する。 このパイプラインを単純化し、特徴抽出とターゲット情報統合のプロセスを統一するために、トランスフォーマー上に構築されたコンパクトな追跡フレームワークである {\em MixFormer}を提案する。 我々の中核となる設計は、注意操作の柔軟性を活用し、特徴抽出と目標情報の統合を同時に行うための混合注意モジュール(MAM)を提案することである。 この同期モデリング手法により、ターゲット固有の識別特徴を抽出し、ターゲットと検索領域間の広範な通信を行うことができる。 MAMをベースとしたMixFormerトラッキングフレームワークの構築には、プログレッシブパッチの埋め込みによる複数のMAMの積み重ねと、その上にローカライゼーションヘッドを配置すればよい。 さらに,オンライントラッキング中に複数の対象テンプレートを処理するために,mamにおける非対称注意スキームを考案し計算コストを低減し,高品質テンプレートを選択するための効果的なスコア予測モジュールを提案する。 当社のmixformerは,lasot,trackingnet,v ot2020,got-10k,uav12 3の5つのトラッキングベンチマークで,最先端のパフォーマンスを新たに設定しています。 特に、MixFormer-LはLaSOTで79.9、TrackingNetで88.9、VOT2020で0.555のEAOを達成しています。 また,特徴抽出と情報統合の同時効果を示すため,深部アブレーション実験を行った。 コードとトレーニングされたモデルは、 \href{https://github.com/M CG-NJU/MixFormer}{https://github.com/M CG-NJU/MixFormer} で公開されている。

Tracking often uses a multi-stage pipeline of feature extraction, target information integration, and bounding box estimation. To simplify this pipeline and unify the process of feature extraction and target information integration, we present a compact tracking framework, termed as {\em MixFormer}, built upon transformers. Our core design is to utilize the flexibility of attention operations, and propose a Mixed Attention Module (MAM) for simultaneous feature extraction and target information integration. This synchronous modeling scheme allows to extract target-specific discriminative features and perform extensive communication between target and search area. Based on MAM, we build our MixFormer tracking framework simply by stacking multiple MAMs with progressive patch embedding and placing a localization head on top. In addition, to handle multiple target templates during online tracking, we devise an asymmetric attention scheme in MAM to reduce computational cost, and propose an effective score prediction module to select high-quality templates. Our MixFormer sets a new state-of-the-art performance on five tracking benchmarks, including LaSOT, TrackingNet, VOT2020, GOT-10k, and UAV123. In particular, our MixFormer-L achieves NP score of 79.9 on LaSOT, 88.9 on TrackingNet and EAO of 0.555 on VOT2020. We also perform in-depth ablation studies to demonstrate the effectiveness of simultaneous feature extraction and information integration. Code and trained models are publicly available at \href{https://github.com/M CG-NJU/MixFormer}{https://github.com/M CG-NJU/MixFormer}.
翻訳日:2022-03-22 20:04:55 公開日:2022-03-21
# (参考訳) 力のない力合わせ粗粒化 [全文訳有]

Force-matching Coarse-Graining without Forces ( http://arxiv.org/abs/2203.11167v1 )

ライセンス: CC BY 4.0
Jonas K\"ohler, Yaoyi Chen, Andreas Kr\"amer, Cecilia Clementi, Frank No\'e(参考訳) 粗粒(cg)分子シミュレーションは、全原子シミュレーションに到達できない時間・長さスケールの分子過程を研究する標準的なツールとなっている。 全原子データからcg力場を学ぶことは、主に力マッチングと相対エントロピー最小化に依存している。 力マッチングは実装が容易であるが、全原子シミュレーション中にCG粒子の力を節約する必要があるため、これらの瞬間的な力はあらゆる自由度に依存するため、CG力場データを非効率に訓練する非常にノイズの多い信号を提供する。 相対エントロピー最小化は、保存する力を必要とせず、よりデータ効率が高いが、反復的なトレーニング手順中にCGモデルを再シミュレーションする必要がある。 本稿では,正規化フローを活用することで,力マッチングと相対エントロピー最小化の利点を組み合わせたCG力場の新しいトレーニング手法であるemph{flow-matching}を提案する。 フローマッチングはまず、再シミュレーション問題に苦しむことなく相対エントロピー最小化を用いてcg確率密度を表す正規化フローを訓練する。 その後、流れの力は、粗粒の力を直接マッチングすることでCG力場を訓練するために使用され、ノイズ問題に悩まされないため、従来の力マッチングよりもずっと簡単な問題である。 力を必要としないのに加えて、フローマッチングはデータ効率の点で古典的力マッチングを1桁上回り、小さなタンパク質の折り畳みや展開を捉えるcgモデルを生成する。

Coarse-grained (CG) molecular simulations have become a standard tool to study molecular processes on time-~and length-scales inaccessible to all-atom simulations. Learning CG force fields from all-atom data has mainly relied on force-matching and relative entropy minimization. Force-matching is straightforward to implement but requires the forces on the CG particles to be saved during all-atom simulation, and because these instantaneous forces depend on all degrees of freedom, they provide a very noisy signal that makes training the CG force field data inefficient. Relative entropy minimization does not require forces to be saved and is more data-efficient, but requires the CG model to be re-simulated during the iterative training procedure, which can make the training procedure extremely costly or lead to failure to converge. Here we present \emph{flow-matching}, a new training method for CG force fields that combines the advantages of force-matching and relative entropy minimization by leveraging normalizing flows, a generative deep learning method. Flow-matching first trains a normalizing flow to represent the CG probability density by using relative entropy minimization without suffering from the re-simulation problem because flows can directly sample from the equilibrium distribution they represent. Subsequently, the forces of the flow are used to train a CG force field by matching the coarse-grained forces directly, which is a much easier problem than traditional force-matching as it does not suffer from the noise problem. Besides not requiring forces, flow-matching also outperforms classical force-matching by an order of magnitude in terms of data efficiency and produces CG models that can capture the folding and unfolding of small proteins.
翻訳日:2022-03-22 19:46:07 公開日:2022-03-21
# 無線通信のためのグラフニューラルネットワーク:理論から実践へ

Graph Neural Networks for Wireless Communications: From Theory to Practice ( http://arxiv.org/abs/2203.10800v1 )

ライセンス: Link先を確認
Yifei Shen, Jun Zhang, S.H. Song, Khaled B. Letaief(参考訳) 深層学習に基づくアプローチは、無線通信における課題を解決するために開発され、有望な結果をもたらす。 初期の試みでは、コンピュータビジョンのような応用から受け継がれたニューラルネットワークアーキテクチャを採用していた。 それらはしばしば大量のトレーニングサンプル(つまり、一般化の貧弱)を必要とし、大規模ネットワーク(すなわちスケーラビリティの低さ)で性能が劣る。 これらの問題を解決するために、無線通信問題におけるグラフトポロジというドメイン知識を効果的に活用できるグラフニューラルネットワーク(GNN)が最近採用されている。 GNNに基づく手法は、大規模ネットワークにおいてほぼ最適性能を達成し、異なるシステム設定下でうまく一般化するが、理論的基盤と設計ガイドラインは依然として解明され、実用的実装を妨げる可能性がある。 本論文は,理論的および実用的ギャップを埋める試みである。 理論的保証のために、GNNは従来のニューラルネットワークに比べてトレーニングサンプルがはるかに少ない無線ネットワークにおいて、ほぼ最適性能を達成できることを示す。 特に、n$ノードグラフ(ノードがユーザ、基地局、アンテナを表すことができる)上の最適化問題を解決するために、gnnsの一般化誤差と必要なトレーニングサンプルは、非構造化多層パーセプトロンよりも$\mathcal{o}(n)$と$\mathcal{o}(n^2)$である。 設計ガイドラインでは,グラフモデリング,ニューラルアーキテクチャ設計,理論誘導性能向上など,無線ネットワークの一般的な設計問題に適用可能な統一フレームワークを提案する。 様々な重要な問題やネットワーク設定をカバーする広範囲なシミュレーションにより,提案手法の理論と有効性を検証した。

Deep learning-based approaches have been developed to solve challenging problems in wireless communications, leading to promising results. Early attempts adopted neural network architectures inherited from applications such as computer vision. They often require huge amounts of training samples (i.e., poor generalization), and yield poor performance in large-scale networks (i.e., poor scalability). To resolve these issues, graph neural networks (GNNs) have been recently adopted, as they can effectively exploit the domain knowledge, i.e., the graph topology in wireless communication problems. GNN-based methods can achieve near-optimal performance in large-scale networks and generalize well under different system settings, but the theoretical underpinnings and design guidelines remain elusive, which may hinder their practical implementations. This paper endeavors to fill both the theoretical and practical gaps. For theoretical guarantees, we prove that GNNs achieve near-optimal performance in wireless networks with much fewer training samples than traditional neural architectures. Specifically, to solve an optimization problem on an $n$-node graph (where the nodes may represent users, base stations, or antennas), GNNs' generalization error and required number of training samples are $\mathcal{O}(n)$ and $\mathcal{O}(n^2)$ times lower than the unstructured multi-layer perceptrons. For design guidelines, we propose a unified framework that is applicable to general design problems in wireless networks, which includes graph modeling, neural architecture design, and theory-guided performance enhancement. Extensive simulations, which cover a variety of important problems and network settings, verify our theory and effectiveness of the proposed design framework.
翻訳日:2022-03-22 19:24:06 公開日:2022-03-21
# パーキンソン病のマーカーとしての知覚的特徴:臨床解釈の問題点

Perceptual Features as Markers of Parkinson's Disease: The Issue of Clinical Interpretability ( http://arxiv.org/abs/2203.10830v1 )

ライセンス: Link先を確認
Jiri Mekyska, Zdenek Smekal, Zoltan Galaz, Zdenek Mzourek, Irena Rektorova, Marcos Faundez-Zanuy, Karmele Lopez-De-Ipina(参考訳) パーキンソン病(PD)患者の90%以上が低運動性ジストロフィー(HD)を患っており、これは発声の分野でも見られる。 モノラウドネス、モノピッチ、シャース音声などのHDの臨床的兆候は、通常、従来の臨床的解釈可能な特徴(ジッタ、シマー、ハーモニックとノイズ比など)によって定量化される。 This paper provides large and robust insight into perceptual analysis of 5 Czech vowels of 84 PD patients and proves that despite the clinical inexplicability the perceptual features outperform the conventional ones, especially in terms of discrimination power (classification accuracy ACC = 92 %, sensitivity SEN = 93 %, specificity SPE = 92 %) and partial correlation with clinical scores like UPDRS (Unified Parkinson's disease rating scale), MMSE (Mini-mental state examination) or FOG (Freezing of gait questionnaire), where p < 0.0001.

Up to 90% of patients with Parkinson's disease (PD) suffer from hypokinetic dysathria (HD) which is also manifested in the field of phonation. Clinical signs of HD like monoloudness, monopitch or hoarse voice are usually quantified by conventional clinical interpretable features (jitter, shimmer, harmonic-to-noise ratio, etc.). This paper provides large and robust insight into perceptual analysis of 5 Czech vowels of 84 PD patients and proves that despite the clinical inexplicability the perceptual features outperform the conventional ones, especially in terms of discrimination power (classification accuracy ACC = 92 %, sensitivity SEN = 93 %, specificity SPE = 92 %) and partial correlation with clinical scores like UPDRS (Unified Parkinson's disease rating scale), MMSE (Mini-mental state examination) or FOG (Freezing of gait questionnaire), where p < 0.0001.
翻訳日:2022-03-22 19:23:36 公開日:2022-03-21
# アルツハイマー病診断にともなう自然発話分析におけるマルチクラス対ワンクラス分類器

Multi-class versus One-class classifier in spontaneous speech analysis oriented to Alzheimer Disease diagnosis ( http://arxiv.org/abs/2203.10837v1 )

ライセンス: Link先を確認
K. L\'opez-de-Ipi\~na, Marcos Faundez-Zanuy, Jordi Sol\'e-Casals, Fernando Zelarin, Pilar Calvo(参考訳) ほとんどの医学開発では、新しい、以前は目に見えないクラスに属したり、クラスデータではないという意味で、ターゲットグループまたはコントロールグループに関して異常なサンプルを識別する能力を必要とする。 この場合、2つのクラスの1クラス分類をトレーニングするのに十分なデータがない場合、利用可能なソリューションのように見える。 一方、非線形アプローチは非常に有用な情報を提供することができる。 本研究の目的は,音声信号から抽出した新しいバイオマーカーを用いた自動分析により,adの早期診断とその重症度の推定に寄与することである。 今回選択した手法は,自発音声と感情応答分析を指向した音声バイオマーカーである。 このアプローチでは、一級分類器と二級分類器が解析される。 外れ値やフラクタル次元に関する情報を利用することで、システムパフォーマンスが向上する。

Most of medical developments require the ability to identify samples that are anomalous with respect to a target group or control group, in the sense they could belong to a new, previously unseen class or are not class data. In this case when there are not enough data to train two-class One-class classification appear like an available solution. On the other hand non-linear approaches could give very useful information. The aim of our project is to contribute to earlier diagnosis of AD and better estimates of its severity by using automatic analysis performed through new biomarkers extracted from speech signal. The methods selected in this case are speech biomarkers oriented to Spontaneous Speech and Emotional Response Analysis. In this approach One-class classifiers and two-class classifiers are analyzed. The use of information about outlier and Fractal Dimension features improves the system performance.
翻訳日:2022-03-22 19:23:22 公開日:2022-03-21
# TinyMLOps: 広範なエッジAI採用のための運用上の課題

TinyMLOps: Operational Challenges for Widespread Edge AI Adoption ( http://arxiv.org/abs/2203.10923v1 )

ライセンス: Link先を確認
Sam Leroux, Pieter Simoens, Meelis Lootus, Kartik Kathore, Akshay Sharma(参考訳) エッジデバイスに機械学習アプリケーションをデプロイすることは、信頼性やレイテンシ、プライバシの改善といった明確なメリットをもたらすが、独自の課題も導入する。 ほとんどの研究はエッジプラットフォームの限られた計算資源に焦点を当てているが、広く採用されている唯一のボトルネックではない。 本稿では、エッジデバイス上でアプリケーションを運用する場合、TinyML実践者が考慮すべき課題をいくつか挙げる。 私たちは、アプリケーションの監視や管理、MLOpsプラットフォームの共通機能といったタスクに集中し、エッジデプロイメントの分散特性によってそれらがいかに複雑であるかを示します。 また,モデルの知的財産権保護や整合性検証など,エッジアプリケーション特有の課題についても論じる。

Deploying machine learning applications on edge devices can bring clear benefits such as improved reliability, latency and privacy but it also introduces its own set of challenges. Most works focus on the limited computational resources of edge platforms but this is not the only bottleneck standing in the way of widespread adoption. In this paper we list several other challenges that a TinyML practitioner might need to consider when operationalizing an application on edge devices. We focus on tasks such as monitoring and managing the application, common functionality for a MLOps platform, and show how they are complicated by the distributed nature of edge deployment. We also discuss issues that are unique to edge applications such as protecting a model's intellectual property and verifying its integrity.
翻訳日:2022-03-22 19:23:11 公開日:2022-03-21
# (参考訳) 計算ノートから物語を伝える:AI支援プレゼンテーションスライドによるデータサイエンスワークの提示 [全文訳有]

Telling Stories from Computational Notebooks: AI-Assisted Presentation Slides Creation for Presenting Data Science Work ( http://arxiv.org/abs/2203.11085v1 )

ライセンス: CC BY-SA 4.0
Chengbo Zheng, Dakuo Wang, April Yi Wang, Xiaojuan Ma(参考訳) プレゼンテーションスライドの作成は、データサイエンティストにとって重要な作業ですが、時間がかかります。 研究者はデータサイエンティストのデータ準備とモデル選択への負担を軽減するために多くのai技術を提案したが、プレゼンテーション作成タスクをターゲットにしたai技術はほとんどない。 そこで本論文では,NB2Slides(NB2Slides )という,データサイエンス作品のプレゼンテーション作成を支援するAIシステムについて述べる。 NB2Slidesはディープラーニング手法とサンプルベースのプロンプトを使用して、計算ノートブックからスライドを生成し、ユーザの入力(例えばオーディエンス背景)を使ってスライドを構成する。 nb2slidesは、スライドをノートブックにリンクして、さらにスライドを編集するインタラクティブなビジュアライゼーションも提供する。 12人のデータサイエンティストによるフォローアップユーザ評価では、nb2slideは効率を向上し、スライド作成の複雑さを低減できると信じられている。 しかし、参加者は完全な自動化の未来を疑問視し、人間とAIのコラボレーションパラダイムを提案した。

Creating presentation slides is a critical but time-consuming task for data scientists. While researchers have proposed many AI techniques to lift data scientists' burden on data preparation and model selection, few have targeted the presentation creation task. Based on the needs identified from a formative study, this paper presents NB2Slides, an AI system that facilitates users to compose presentations of their data science work. NB2Slides uses deep learning methods as well as example-based prompts to generate slides from computational notebooks, and take users' input (e.g., audience background) to structure the slides. NB2Slides also provides an interactive visualization that links the slides with the notebook to help users further edit the slides. A follow-up user evaluation with 12 data scientists shows that participants believed NB2Slides can improve efficiency and reduces the complexity of creating slides. Yet, participants questioned the future of full automation and suggested a human-AI collaboration paradigm.
翻訳日:2022-03-22 19:21:09 公開日:2022-03-21
# MTBF-33 アメリカ33郡のための多時期建築足跡データセット(1900年-2015年)

MTBF-33: A multi-temporal building footprint dataset for 33 counties in the United States (1900-2015) ( http://arxiv.org/abs/2203.11078v1 )

ライセンス: Link先を確認
Johannes H. Uhl, Stefan Leyk(参考訳) 現代人集落の空間分布に関する豊富なデータにもかかわらず、細かな空間的・時間的粒度での人集落の長期的進化に関する歴史的データは乏しく、構築された地域における長期的変化の定量的理解を制限している。 これは、一般的に使われているマッピング手法(画像分類など)と適切なデータソース(空中画像、マルチスペクトルリモートセンシングデータ、LiDAR)が、ここ数十年でしか利用できないためである。 しかし、デジタルで利用可能なカダストラムレコードのような代替データソースがあり、建物年齢情報などの関連情報が含まれており、過去の建物分布の概略デジタル再構築を可能にする。 アメリカ合衆国における行政機関からのオープンかつパブリックに利用可能なデータ資源の探索を行い,建物構内ジオメトリや建築工事年情報を入手できる33の郡において,カダストラル・パーセルデータ,税評価データ,建物足跡データを集め,統合し,調和させた。 この取り組みの結果として、米国33郡(mtbf-33)のマルチタイムビルディングフットプリントデータセットと呼ばれるユニークなデータセットが生まれました。 MTBF-33は、建設年を含む620万以上の建物の足跡を含み、1900年から2015年までの細かな空間的・時間的粒度で構築された地域の振り返りの描写を導き、データ検証の目的で使用したり、リモートセンシングデータ、歴史地図、その他のデータソースから人的居住地に関する歴史的情報を抽出する統計学習の手法を訓練するために使用することができる。 MTBF-33はhttp://doi.org/10.17 632/w33vbvjtdyで入手できる。

Despite abundant data on the spatial distribution of contemporary human settlements, historical data on the long-term evolution of human settlements at fine spatial and temporal granularity is scarce, limiting our quantitative understanding of long-term changes of built-up areas. This is because commonly used mapping methods (e.g., image classification) and suitable data sources (i.e., aerial imagery, multi-spectral remote sensing data, LiDAR) have only been available in recent decades. However, there are alternative data sources such as cadastral records that are digitally available, containing relevant information such as building age information, allowing for an approximate, digital reconstruction of past building distributions. We conducted a non-exhaustive search of open and publicly available data resources from administrative institutions in the United States and gathered, integrated, and harmonized cadastral parcel data, tax assessment data, and building footprint data for 33 counties, wherever building footprint geometries and building construction year information was available. The result of this effort is a unique dataset which we call the Multi-Temporal Building Footprint Dataset for 33 U.S. Counties (MTBF-33). MTBF-33 contains over 6.2 million building footprints including their construction year, and can be used to derive retrospective depictions of built-up areas from 1900 to 2015, at fine spatial and temporal grain and can be used for data validation purposes, or to train statistical learning approaches aiming to extract historical information on human settlements from remote sensing data, historical maps, or similar data sources. MTBF-33 is available at http://doi.org/10.17 632/w33vbvjtdy.
翻訳日:2022-03-22 18:51:40 公開日:2022-03-21
# CLIPとGamePhysics:ゼロショット転送学習を用いたゲームプレイビデオのバグ識別

CLIP meets GamePhysics: Towards bug identification in gameplay videos using zero-shot transfer learning ( http://arxiv.org/abs/2203.11096v1 )

ライセンス: Link先を確認
Mohammad Reza Taesiri, Finlay Macklon, Cor-Paul Bezemer(参考訳) ゲームプレイビデオには、プレイヤーがゲームとどのように相互作用し、ゲームがどのように反応するかについての豊富な情報が含まれている。 redditなどのソーシャルメディアプラットフォームでゲームプレイビデオを共有することは、多くのプレイヤーにとって一般的なプラクティスとなっている。 多くの場合、プレイヤーはビデオゲームのバグを示すゲームプレイビデオを共有する。 このようなゲームプレイビデオは、バグ分析の洞察を提供するため、ゲームテストに使用できるソフトウェアアーティファクトである。 ゲームプレイビデオの大規模なリポジトリは存在するが、効果的で構造化された方法で解析し、マイニングすることは依然として大きな課題である。 本稿では,ゲームプレイビデオの大規模リポジトリから関連映像を検索するために,任意の英語テキストクエリを入力として受け入れる検索手法を提案する。 われわれのアプローチは外部情報(ビデオメタデータなど)に頼らず、ビデオの内容にのみ依存して機能する。 Contrastive Language-Image Pre-Training(CLIP)モデルのゼロショット転送機能を活用することで、我々のアプローチはデータラベリングやトレーニングを必要としない。 このアプローチを評価するために、redditウェブサイトのgamephysicsセクションから収集された1,873本のゲームから26,954本のビデオからなる$\texttt{gamephysics}$データセットを提示した。 本手法は,単純クエリ,複合クエリ,バグクエリの広範な分析において有望な結果を示し,ゲームプレイビデオのオブジェクト検出やイベント検出に有用であることを示す。 このアプローチの例として、ビデオゲームのバグの再現を支援するゲームプレイビデオ検索エンジンがあります。 https://asgaardlab.g ithub.io/clipxgameph ysics/}{\text{asgaardlab.github.io /clipxgamephysics/}}$\href{https://asgaardlab.g ithub.io/clipxgameph ysics/}} コードとデータのリンクを参照してください。

Gameplay videos contain rich information about how players interact with the game and how the game responds. Sharing gameplay videos on social media platforms, such as Reddit, has become a common practice for many players. Often, players will share gameplay videos that showcase video game bugs. Such gameplay videos are software artifacts that can be utilized for game testing, as they provide insight for bug analysis. Although large repositories of gameplay videos exist, parsing and mining them in an effective and structured fashion has still remained a big challenge. In this paper, we propose a search method that accepts any English text query as input to retrieve relevant videos from large repositories of gameplay videos. Our approach does not rely on any external information (such as video metadata); it works solely based on the content of the video. By leveraging the zero-shot transfer capabilities of the Contrastive Language-Image Pre-Training (CLIP) model, our approach does not require any data labeling or training. To evaluate our approach, we present the $\texttt{GamePhysics}$ dataset consisting of 26,954 videos from 1,873 games, that were collected from the GamePhysics section on the Reddit website. Our approach shows promising results in our extensive analysis of simple queries, compound queries, and bug queries, indicating that our approach is useful for object and event detection in gameplay videos. An example application of our approach is as a gameplay video search engine to aid in reproducing video game bugs. Please visit the following link for the code and the data: $\href{https://asgaardlab.g ithub.io/CLIPxGamePh ysics/}{\text{asgaardlab.github.io /CLIPxGamePhysics/}}$
翻訳日:2022-03-22 18:51:05 公開日:2022-03-21
# すべてのポイントが等しくない:3dlidar点雲のための高効率なポイントベース検出器の学習

Not All Points Are Equal: Learning Highly Efficient Point-based Detectors for 3D LiDAR Point Clouds ( http://arxiv.org/abs/2203.11139v1 )

ライセンス: Link先を確認
Yifan Zhang, Qingyong Hu, Guoquan Xu, Yanxin Ma, Jianwei Wan, Yulan Guo(参考訳) 3次元LiDAR点雲の効率的な物体検出問題について検討する。 メモリと計算コストを削減するため、既存のポイントベースパイプラインは通常、全てのポイントがオブジェクト検出のタスクに等しく重要でないにもかかわらず、タスク非依存のランダムサンプリングまたは最遠点サンプリングを採用して、入力ポイントクラウドを徐々にダウンサンプリングする。 特に、前景点は対象検出器の背景点よりも本質的に重要である。 そこで本論文では,IA-SSDと呼ばれる高効率単段点ベース3次元検出器を提案する。 私たちのアプローチの鍵は、2つの学習可能なタスク指向、インスタンス対応のダウンサンプリング戦略を利用して、関心のあるオブジェクトに属する前景ポイントを階層的に選択することです。 さらに,より正確なインスタンスセンタを推定するためのコンテキストセントロイド認識モジュールも導入する。 最後に,エンコーダのみのアーキテクチャを応用したIA-SSDを構築した。 ia-ssdの競合性能を示す,いくつかの大規模検出ベンチマークを用いた大規模実験を行った。 低メモリフットプリントと高い並列性のおかげで、単一のrtx2080ti gpuでkittiデータセット上で80フレーム/秒の優れた速度を実現している。 コードは \url{https://github.com/y ifanzhang713/ia-ssd} で入手できる。

We study the problem of efficient object detection of 3D LiDAR point clouds. To reduce the memory and computational cost, existing point-based pipelines usually adopt task-agnostic random sampling or farthest point sampling to progressively downsample input point clouds, despite the fact that not all points are equally important to the task of object detection. In particular, the foreground points are inherently more important than background points for object detectors. Motivated by this, we propose a highly-efficient single-stage point-based 3D detector in this paper, termed IA-SSD. The key of our approach is to exploit two learnable, task-oriented, instance-aware downsampling strategies to hierarchically select the foreground points belonging to objects of interest. Additionally, we also introduce a contextual centroid perception module to further estimate precise instance centers. Finally, we build our IA-SSD following the encoder-only architecture for efficiency. Extensive experiments conducted on several large-scale detection benchmarks demonstrate the competitive performance of our IA-SSD. Thanks to the low memory footprint and a high degree of parallelism, it achieves a superior speed of 80+ frames-per-second on the KITTI dataset with a single RTX2080Ti GPU. The code is available at \url{https://github.com/y ifanzhang713/IA-SSD}.
翻訳日:2022-03-22 18:50:34 公開日:2022-03-21
# DiffPoseNet: 直接微分可能なカメラポーズ推定

DiffPoseNet: Direct Differentiable Camera Pose Estimation ( http://arxiv.org/abs/2203.11174v1 )

ライセンス: Link先を確認
Chethan M. Parameshwara, Gokul Hari, Cornelia Ferm\"uller, Nitin J. Sanket, Yiannis Aloimonos(参考訳) カメラポーズ推定のための現在のディープニューラルネットワークアプローチは3次元モーション推定のシーン構造に依存しているが、これによりロバスト性が低下し、クロスデータセットの一般化が困難になる。 対照的に、光学的流れを利用した動き推定3次元運動の構造に対する古典的なアプローチは、深さを計算する。 しかし、その精度は光学フローの品質に大きく依存する。 この問題を回避するために, 深度推定から3次元運動を分離する直接法が提案されているが, 通常の流れの形で画像勾配のみを用いて3次元運動を計算する。 本稿では,強靭かつ直接的な制約を強制するために,正規フロー推定のためのネットワークNFlowNetを提案する。 特に, 相対的なカメラポーズを, 温度(深度正の制約)に基づいて推定するために, 通常の流れを用いる。 我々は、カメラポーズのエンドツーエンド学習を可能にする、可微分性層として最適化問題を定式化し、これを実現する。 我々は,提案したDiffPoseNetの雑音に対する感度とデータセット間の一般化について,定性的かつ定量的に評価する。 我々は、KITTI、TartanAir、TUM-RGBDデータセット上の既存の最先端手法と比較した。

Current deep neural network approaches for camera pose estimation rely on scene structure for 3D motion estimation, but this decreases the robustness and thereby makes cross-dataset generalization difficult. In contrast, classical approaches to structure from motion estimate 3D motion utilizing optical flow and then compute depth. Their accuracy, however, depends strongly on the quality of the optical flow. To avoid this issue, direct methods have been proposed, which separate 3D motion from depth estimation but compute 3D motion using only image gradients in the form of normal flow. In this paper, we introduce a network NFlowNet, for normal flow estimation which is used to enforce robust and direct constraints. In particular, normal flow is used to estimate relative camera pose based on the cheirality (depth positivity) constraint. We achieve this by formulating the optimization problem as a differentiable cheirality layer, which allows for end-to-end learning of camera pose. We perform extensive qualitative and quantitative evaluation of the proposed DiffPoseNet's sensitivity to noise and its generalization across datasets. We compare our approach to existing state-of-the-art methods on KITTI, TartanAir, and TUM-RGBD datasets.
翻訳日:2022-03-22 18:50:12 公開日:2022-03-21
# 最大初期化を伴う架空の遊び

Fictitious Play with Maximin Initialization ( http://arxiv.org/abs/2203.10774v1 )

ライセンス: Link先を確認
Sam Ganzfried(参考訳) 近年,マルチプレイヤーゲームにおけるナッシュ均衡戦略を近似する最も正確なスケーラブルアルゴリズムとして,架空のプレイが登場している。 本研究では,初期戦略を慎重に選択することで,架空の遊びの平衡近似誤差を著しく低減できることを示す。 戦略初期化のための新しい手順をいくつか提示し、これらを古典的アプローチと比較し、全ての純粋な戦略を同じ確率で初期化する。 マクシミンと呼ばれる最良の性能のアプローチは、初期戦略を計算するために非凸二次プログラムを解き、5つの初期化を使用する場合に比べて近似誤差が75%近く減少する。

Fictitious play has recently emerged as the most accurate scalable algorithm for approximating Nash equilibrium strategies in multiplayer games. We show that the degree of equilibrium approximation error of fictitious play can be significantly reduced by carefully selecting the initial strategies. We present several new procedures for strategy initialization and compare them to the classic approach, which initializes all pure strategies to have equal probability. The best-performing approach, called maximin, solves a nonconvex quadratic program to compute initial strategies and results in a nearly 75% reduction in approximation error compared to the classic approach when 5 initializations are used.
翻訳日:2022-03-22 18:49:55 公開日:2022-03-21
# res2netと位相ネットワークを用いた位相認識音声検出

Phase-Aware Spoof Speech Detection Based on Res2Net with Phase Network ( http://arxiv.org/abs/2203.10793v1 )

ライセンス: Link先を確認
Juntae Kim, Sung Min Ban(参考訳) スプーフ音声検出(SSD)は,自動話者検証システムに不可欠な対策である。 周波数領域にマグニチュード特徴を有するssdは有望な結果を示したが、位相情報は特定の種類のスプーフィング攻撃の成果を捉えるためにも重要である。 したがって、様々な種類のスプーフィング攻撃に対する一般化能力を確実にするために、大きさと位相の特徴の両方を考慮する必要がある。 本稿では,前者の特徴レベル融合の失敗原因について,エントロピー解析を用いて検討し,大域的特徴と位相的特徴とのランダム性差が大きいこと,バックエンドニューラルネットワークによる特徴レベル融合の中断が可能であること,その差を低減できる相ネットワークを提案する。 我々のSSDシステム:Res2Netを搭載した位相ネットワークは、特に位相情報を重要視するスプーフィング攻撃において、大幅な性能向上を実現した。 また,本論文では,実用アプリケーションにおいて,既知のSSDシナリオと未知のSSDシナリオの両方でSSDシステムを実証する。

The spoof speech detection (SSD) is the essential countermeasure for automatic speaker verification systems. Although SSD with magnitude features in the frequency domain has shown promising results, the phase information also can be important to capture the artefacts of certain types of spoofing attacks. Thus, both magnitude and phase features must be considered to ensure the generalization ability to diverse types of spoofing attacks. In this paper, we investigate the failure reason of feature-level fusion of the previous works through the entropy analysis from which we found that the randomness difference between magnitude and phase features is large, which can interrupt the feature-level fusion via backend neural network; thus, we propose a phase network to reduce that difference. Our SSD system: phase network equipped Res2Net achieved significant performance improvement, specifically in the spoofing attack for which the phase information is considered to be important. Also, we demonstrate our SSD system in both known- and unknown-kind SSD scenarios for practical applications.
翻訳日:2022-03-22 18:49:46 公開日:2022-03-21
# データサイエンティストの予測評価:共通の落とし穴とベストプラクティス

Forecast Evaluation for Data Scientists: Common Pitfalls and Best Practices ( http://arxiv.org/abs/2203.10716v1 )

ライセンス: Link先を確認
Hansika Hewamalage, Klaus Ackermann, Christoph Bergmeir(参考訳) 機械学習(ML)とディープラーニング(DL)の手法は、重要な意思決定活動に関わる多くの領域において、伝統的な手法に置き換わっている。 画像認識や信号処理,音声解析などの特定のタスクに適したDL技術が,多くの改良を伴って急速に導入されている。 しかしながら、予測の領域では、mlコミュニティの現在の状況は、おそらく数年前に自然言語処理やコンピュータビジョンといった他のドメインが存在した場所だろう。 予測の分野は統計学者や計量学者によって主に育まれているため、関連する概念は一般のML実践者の間では主流の知識ではない。 時系列に関連する異なる非定常性は、データ駆動MLモデルに挑戦する。 しかし,近年の傾向は,大量の時系列が利用可能であることから,関連する落とし穴を適切に処理した場合に,ML技術は予測に極めて適していることを示している。 そこで本研究では,全体的な予測プロセスにおける最も重要なステップである評価の1つについて,チュートリアルのような詳細をまとめる。 このようにして,従来の予測手法と最先端のML技術との知識ギャップを埋める手段として,予測評価に関する情報をMLのコンテキストに適合させる。 非正規性や非定常性といった時系列の異なる問題特性と、予測評価における共通の落とし穴との関連について詳述する。 予測評価のベストプラクティスは、データのパーティショニング、エラー計算、統計的テストなど、さまざまなステップについて概説されている。 また、データセットの特定の特性に応じて、有効かつ適切なエラー対策を選択するとともに、さらにガイドラインが提供される。

Machine Learning (ML) and Deep Learning (DL) methods are increasingly replacing traditional methods in many domains involved with important decision making activities. DL techniques tailor-made for specific tasks such as image recognition, signal processing, or speech analysis are being introduced at a fast pace with many improvements. However, for the domain of forecasting, the current state in the ML community is perhaps where other domains such as Natural Language Processing and Computer Vision were at several years ago. The field of forecasting has mainly been fostered by statisticians/econom etricians; consequently the related concepts are not the mainstream knowledge among general ML practitioners. The different non-stationarities associated with time series challenge the data-driven ML models. Nevertheless, recent trends in the domain have shown that with the availability of massive amounts of time series, ML techniques are quite competent in forecasting, when related pitfalls are properly handled. Therefore, in this work we provide a tutorial-like compilation of the details of one of the most important steps in the overall forecasting process, namely the evaluation. This way, we intend to impart the information of forecast evaluation to fit the context of ML, as means of bridging the knowledge gap between traditional methods of forecasting and state-of-the-art ML techniques. We elaborate on the different problematic characteristics of time series such as non-normalities and non-stationarities and how they are associated with common pitfalls in forecast evaluation. Best practices in forecast evaluation are outlined with respect to the different steps such as data partitioning, error calculation, statistical testing, and others. Further guidelines are also provided along selecting valid and suitable error measures depending on the specific characteristics of the dataset at hand.
翻訳日:2022-03-22 18:41:37 公開日:2022-03-21
# 重要サンプリングを用いたマルチタスクによるリーン進化強化学習

Lean Evolutionary Reinforcement Learning by Multitasking with Importance Sampling ( http://arxiv.org/abs/2203.10844v1 )

ライセンス: Link先を確認
Nick Zhang, Abhishek Gupta, Zefeng Chen, and Yew-Soon Ong(参考訳) 進化戦略(ES)は、深層ニューラルネットワークを用いた強化学習(RL)において有望なアプローチであることを示している。 しかし, 深部RLへのESの適用においては, 高サンプル複雑性の問題が持続する。 本稿では,新しいニューロ進化的マルチタスキング(NuEMT)アルゴリズムを用いて,現在の手法の欠点に対処する。 人工的に生成された補助タスクにより、エージェントはより短い時間軸でポリシーを更新、迅速に評価することができる。 進化したスキルは、より長く困難なタスクを最適な方針に導くために移される。 nuemtアルゴリズムがデータ-リーン進化rlを実現し、高価なエージェント-環境間インタラクションデータ要求を削減できることを実証する。 この設定における重要なアルゴリズム的貢献は,統計重要度サンプリング手法に基づくマルチタスク情報転送機構を初めて導入することである。 さらに、アダプティブなリソース割り当て戦略を用いて、計算資源をその有用性に基づいて補助的なタスクに割り当てる。 OpenAI Gymの一連の連続制御タスクの実験により、提案アルゴリズムは最近のESベースラインと比較して効率的であることを確認した。

Studies have shown evolution strategies (ES) to be a promising approach for reinforcement learning (RL) with deep neural networks. However, the issue of high sample complexity persists in applications of ES to deep RL. In this paper, we address the shortcoming of today's methods via a novel neuroevolutionary multitasking (NuEMT) algorithm, designed to transfer information from a set of auxiliary tasks (of short episode length) to the target (full length) RL task at hand. The artificially generated auxiliary tasks allow an agent to update and quickly evaluate policies on shorter time horizons. The evolved skills are then transferred to guide the longer and harder task towards an optimal policy. We demonstrate that the NuEMT algorithm achieves data-lean evolutionary RL, reducing expensive agent-environment interaction data requirements. Our key algorithmic contribution in this setting is to introduce, for the first time, a multitask information transfer mechanism based on the statistical importance sampling technique. In addition, an adaptive resource allocation strategy is utilized to assign computational resources to auxiliary tasks based on their gleaned usefulness. Experiments on a range of continuous control tasks from the OpenAI Gym confirm that our proposed algorithm is efficient compared to recent ES baselines.
翻訳日:2022-03-22 18:41:13 公開日:2022-03-21
# オフライン強化学習による高速道路走行の最適化

Optimizing Trajectories for Highway Driving with Offline Reinforcement Learning ( http://arxiv.org/abs/2203.10949v1 )

ライセンス: Link先を確認
Branka Mirchevska, Moritz Werling, Joschka Boedecker(参考訳) 実現可能で、滑らかで、効率的な軌道を出力できる自動運転車の実装は、長年の課題です。 ルールベースと学習ベースの2つのカテゴリに分類されるいくつかのアプローチが検討されている。 ルールベースのアプローチは、安全性と実現可能性を保証する一方で、長期的な計画と一般化に関しては不十分である。 学習に基づくアプローチは、未認識の状況に対する長期的な計画と一般化を考慮できるが、滑らかさ、安全性、ルールベースのアプローチが保証する実現可能性を達成することができない可能性がある。 したがって、2つのアプローチを組み合わせることは、両者から最良の妥協を得るための明らかなステップである。 高速道路における完全自律走行のための目標軌跡パラメータを学習する強化学習ベースアプローチを提案する。 トレーニングされたエージェントは、実行可能な多項式ベースの軌道を生成し実行するための連続的な軌道パラメータを出力する。 我々のエージェントの性能を他の4つのハイウェイ運転エージェントと比較する。 実験は相撲シミュレータで行われ,運転行動の異なる周辺車両を含む,様々な現実的かつ動的に変化する高速道路シナリオを考慮した。 我々のオフライントレーニングエージェントは、ランダムに収集されたデータで、スムーズな運転を学び、所望の速度にできるだけ近い速度で到達し、他のエージェントよりも優れています。 コード、トレーニングデータ、詳細はhttps://nrgit.inform atik.uni-freiburg。 de/branka.mirchevska /offline-rl-tp

Implementing an autonomous vehicle that is able to output feasible, smooth and efficient trajectories is a long-standing challenge. Several approaches have been considered, roughly falling under two categories: rule-based and learning-based approaches. The rule-based approaches, while guaranteeing safety and feasibility, fall short when it comes to long-term planning and generalization. The learning-based approaches are able to account for long-term planning and generalization to unseen situations, but may fail to achieve smoothness, safety and the feasibility which rule-based approaches ensure. Hence, combining the two approaches is an evident step towards yielding the best compromise out of both. We propose a Reinforcement Learning-based approach, which learns target trajectory parameters for fully autonomous driving on highways. The trained agent outputs continuous trajectory parameters based on which a feasible polynomial-based trajectory is generated and executed. We compare the performance of our agent against four other highway driving agents. The experiments are conducted in the Sumo simulator, taking into consideration various realistic, dynamically changing highway scenarios, including surrounding vehicles with different driver behaviors. We demonstrate that our offline trained agent, with randomly collected data, learns to drive smoothly, achieving velocities as close as possible to the desired velocity, while outperforming the other agents. Code, training data and details available at: https://nrgit.inform atik.uni-freiburg. de/branka.mirchevska /offline-rl-tp.
翻訳日:2022-03-22 18:40:53 公開日:2022-03-21
# ブロックチェーンネットワークにおけるサイバー攻撃検出のための協調学習

Collaborative Learning for Cyberattack Detection in Blockchain Networks ( http://arxiv.org/abs/2203.11076v1 )

ライセンス: Link先を確認
Tran Viet Khoa, Do Hai Son, Dinh Thai Hoang, Nguyen Linh Trung, Tran Thi Thuy Quynh, Diep N. Nguyen, Nguyen Viet Ha and Eryk Dutkiewicz(参考訳) この記事では、侵入攻撃を調査し、ブロックチェーンネットワークのための新しいサイバー攻撃検出フレームワークを開発することを目的とする。 具体的には、まず実験室でブロックチェーンネットワークを設計、実装します。 このブロックチェーンネットワークは、学習モデルの実際のトラフィックデータ(通常のデータと攻撃データの両方を含む)を生成し、提案する侵入検出フレームワークのパフォーマンスを評価するために、リアルタイムな実験を実行します。 私たちの知る限りでは、ブロックチェーンネットワークにおけるサイバー攻撃の研究所で合成された最初のデータセットです。 次に,ブロックチェーンネットワークへの効率的な展開による攻撃検出を可能にする,新たな協調学習モデルを提案する。 提案された学習モデルの主なアイデアは、ブロックチェーンノードが積極的にデータを収集し、データから学んだ知識を共有し、ネットワーク内の他のブロックチェーンノードと知識を交換できるようにすることである。 このように、ネットワーク内のすべてのノードからの知識を活用できるだけでなく、従来の集中型学習ソリューションのような集中型ノードでのトレーニングのために、すべての生データを収集する必要がない。 このようなフレームワークは、ネットワークの過度なオーバーヘッド/混雑だけでなく、ローカルデータのプライバシを公開するリスクも回避できる。 集中シミュレーションとリアルタイム実験の両方において,提案する協調学習に基づく侵入検知フレームワークが,攻撃検出において最大97.7%の精度を達成できることが明らかである。

This article aims to study intrusion attacks and then develop a novel cyberattack detection framework for blockchain networks. Specifically, we first design and implement a blockchain network in our laboratory. This blockchain network will serve two purposes, i.e., generate the real traffic data (including both normal data and attack data) for our learning models and implement real-time experiments to evaluate the performance of our proposed intrusion detection framework. To the best of our knowledge, this is the first dataset that is synthesized in a laboratory for cyberattacks in a blockchain network. We then propose a novel collaborative learning model that allows efficient deployment in the blockchain network to detect attacks. The main idea of the proposed learning model is to enable blockchain nodes to actively collect data, share the knowledge learned from its data, and then exchange the knowledge with other blockchain nodes in the network. In this way, we can not only leverage the knowledge from all the nodes in the network but also do not need to gather all raw data for training at a centralized node like conventional centralized learning solutions. Such a framework can also avoid the risk of exposing local data's privacy as well as the excessive network overhead/congestion. Both intensive simulations and real-time experiments clearly show that our proposed collaborative learning-based intrusion detection framework can achieve an accuracy of up to 97.7% in detecting attacks.
翻訳日:2022-03-22 18:40:29 公開日:2022-03-21
# Ovid: OpenStreetMapにおける自動ヴァンダリズム検出のための機械学習アプローチ

Ovid: A Machine Learning Approach for Automated Vandalism Detection in OpenStreetMap ( http://arxiv.org/abs/2203.11087v1 )

ライセンス: Link先を確認
Nicolas Tempelmeier, Elena Demidova(参考訳) OpenStreetMapは、世界中のオープンな地図データのユニークなソースであり、現実世界のアプリケーションでますます採用されている。 openstreetmapのヴァンダリズム検出は、データセットの大規模化、コントリビュータの数の増加、さまざまなヴァンダリズム形式、マシンラーニングアルゴリズムをトレーニングするための注釈付きデータの欠如などにより、批判的かつ極めて困難である。 本稿では,OpenStreetMapにおける破壊検出のための新しい機械学習手法であるOvidを提案する。 Ovidは、OpenStreetMapチェンジセットの破壊性を示す情報を効果的に要約するために、マルチヘッドアテンションメカニズムを採用したニューラルネットワークアーキテクチャに依存している。 自動破壊検出を容易にするために、変更セット、ユーザ、編集情報をキャプチャする一連のオリジナル機能を導入する。 実世界の破壊データによる評価結果から,提案手法はF1スコアの4.7%の精度でベースラインを上回った。

OpenStreetMap is a unique source of openly available worldwide map data, increasingly adopted in real-world applications. Vandalism detection in OpenStreetMap is critical and remarkably challenging due to the large scale of the dataset, the sheer number of contributors, various vandalism forms, and the lack of annotated data to train machine learning algorithms. This paper presents Ovid - a novel machine learning method for vandalism detection in OpenStreetMap. Ovid relies on a neural network architecture that adopts a multi-head attention mechanism to effectively summarize information indicating vandalism from OpenStreetMap changesets. To facilitate automated vandalism detection, we introduce a set of original features that capture changeset, user, and edit information. Our evaluation results on real-world vandalism data demonstrate that the proposed Ovid method outperforms the baselines by 4.7 percentage points in F1 score.
翻訳日:2022-03-22 18:40:08 公開日:2022-03-21
# FGAN:ネットワークトラフィックの異常検出のためのフェデレーション・ジェネレーティブ・アドバイザリ・ネットワーク

FGAN: Federated Generative Adversarial Networks for Anomaly Detection in Network Traffic ( http://arxiv.org/abs/2203.11106v1 )

ライセンス: Link先を確認
Sankha Das(参考訳) 過去20年間、ネットワークセキュリティの改善、特に侵入検知システム(ids)と異常検出において、多くの作業が行われてきた。 マシンラーニングのソリューションもidsで採用され、入ってくるトラフィックの既知の、あるいは妥当な攻撃を検出する。 パケットの内容、送信元ip、送信元ポート、接続期間などのパラメータは、これらの機械学習モデルをトレーニングするために、悪意のあるトラフィックと本物のトラフィックを区別するために使用されてきた。 generative adversarial network (gans) はそのような異常を検出することに大きく成功しており、主に、互いにバイパスし、その能力と正確性を高めるために、ジェネレータと判別器の敵意的な訓練に起因している。 しかし、ネットワークの様々な領域における幅広いトラフィックを持ち、多くの潜在的な攻撃を受けやすい大規模ネットワークでは、特定の種類の異常に対してこれらのGANを訓練することは、他の異常や攻撃に対して邪魔になる可能性がある。 さらに、これらのモデルのトレーニングに必要なデータセットは、ネットワークの各参加者の通信のプライバシに関する明らかな問題として、集中的に利用可能かつ公開されなければならない。 本研究で提案するソリューションは,そのような規模と容量のネットワークにおいて,連合アーキテクチャにおけるGANを用いて,上記の2つの問題に対処することを目的としている。 このような設定で、ネットワークの異なるユーザーは、頻繁に直面する状況に応じて、中央で利用可能な敵モデルをトレーニングし、カスタマイズすることができる。 同時に、ネットワークのメンバユーザも、ネットワーク内の他のユーザの経験から得ることができる。

Over the last two decades, a lot of work has been done in improving network security, particularly in intrusion detection systems (IDS) and anomaly detection. Machine learning solutions have also been employed in IDSs to detect known and plausible attacks in incoming traffic. Parameters such as packet contents, sender IP and sender port, connection duration, etc. have been previously used to train these machine learning models to learn to differentiate genuine traffic from malicious ones. Generative Adversarial Networks (GANs) have been significantly successful in detecting such anomalies, mostly attributed to the adversarial training of the generator and discriminator in an attempt to bypass each other and in turn increase their own power and accuracy. However, in large networks having a wide variety of traffic at possibly different regions of the network and susceptible to a large number of potential attacks, training these GANs for a particular kind of anomaly may make it oblivious to other anomalies and attacks. In addition, the dataset required to train these models has to be made centrally available and publicly accessible, posing the obvious question of privacy of the communications of the respective participants of the network. The solution proposed in this work aims at tackling the above two issues by using GANs in a federated architecture in networks of such scale and capacity. In such a setting, different users of the network will be able to train and customize a centrally available adversarial model according to their own frequently faced conditions. Simultaneously, the member users of the network will also able to gain from the experiences of the other users in the network.
翻訳日:2022-03-22 18:39:51 公開日:2022-03-21
# (参考訳) 量子化アウェアトレーニングの展望 [全文訳有]

Overcoming Oscillations in Quantization-Aware Training ( http://arxiv.org/abs/2203.11086v1 )

ライセンス: CC BY 4.0
Markus Nagel, Marios Fournarakis, Yelysei Bondarenko, Tijmen Blankevoort(参考訳) 量子化をシミュレーションしたニューラルネットワークをトレーニングする場合、量子化重みは、むしろ予期しないほど、2つの格子点の間を振動できる。 この効果の重要性と量子化学習への影響は、文献ではよく理解されていない。 本稿では,重み振動の現象を深く掘り下げ,推論中のバッチ正規化統計の誤推定とトレーニング中のノイズの増加により,精度が著しく低下することを示す。 これらの効果は特に、MobileNetsやEfficientNetsのような深度的に分離可能なレイヤを持つ効率的なネットワークの低ビット(4ビット)量子化において顕著である。 本稿では,従来提案されていた量子化対応トレーニング(QAT)アルゴリズムについて検討し,その多くが振動を克服できないことを示す。 最後に,トレーニング中の振動を克服する2つの新しいQATアルゴリズムを提案する。 提案アルゴリズムは,MobileNetV2,MobileN etV3,EfficentNet-lit eなどの効率的なアーキテクチャの,低ビット(3ビットと4ビット)の重み付けとアクティベーション量子化を実現する。

When training neural networks with simulated quantization, we observe that quantized weights can, rather unexpectedly, oscillate between two grid-points. The importance of this effect and its impact on quantization-aware training are not well-understood or investigated in literature. In this paper, we delve deeper into the phenomenon of weight oscillations and show that it can lead to a significant accuracy degradation due to wrongly estimated batch-normalization statistics during inference and increased noise during training. These effects are particularly pronounced in low-bit ($\leq$ 4-bits) quantization of efficient networks with depth-wise separable layers, such as MobileNets and EfficientNets. In our analysis we investigate several previously proposed quantization-aware training (QAT) algorithms and show that most of these are unable to overcome oscillations. Finally, we propose two novel QAT algorithms to overcome oscillations during training: oscillation dampening and iterative weight freezing. We demonstrate that our algorithms achieve state-of-the-art accuracy for low-bit (3 & 4 bits) weight and activation quantization of efficient architectures, such as MobileNetV2, MobileNetV3, and EfficentNet-lite on ImageNet.
翻訳日:2022-03-22 18:38:20 公開日:2022-03-21
# 損失分解とセントロイド推定による多クラスラベル雑音学習

Multi-class Label Noise Learning via Loss Decomposition and Centroid Estimation ( http://arxiv.org/abs/2203.10858v1 )

ライセンス: Link先を確認
Yongliang Ding, Tao Zhou, Chuang Zhang, Yijing Luo, Juan Tang, Chen Gong(参考訳) 現実のシナリオでは、多くの大規模データセットは、しばしば不正確なラベル、すなわちノイズラベルを含んでいる。 この問題を解決するためにラベルノイズ学習(lnl)が最近注目を集めており、ラベルノイズに対処するためにノイズフリーデータセットにバイアスのないリスク推定器を設計するための様々な手法が提案されている。 その中でも、ロス分解とセントロイド推定(LDCE)に基づく研究の傾向は、非常に有望な性能を示している。 しかし、LDCEに基づく既存のLNL法はバイナリ分類のためにのみ設計されており、これらは直接マルチクラスに拡張できない。 本稿では,「MC-LDCE」と呼ばれるLDCEのマルチクラス頑健な学習手法を提案する。 具体的には、一般に採用されている損失(平均二乗損失)関数をラベル依存部分とラベル非依存部分に分解し、前者のみがラベルノイズの影響を受ける。 さらに,新たな形式のデータセンタロイドを定義することにより,ラベル依存部の回復問題をセンタロイド推定問題に変換する。 最後に、観測されたノイズ集合から得られたクリーンデータセントロイドの数学的期待を批判的に検証することにより、偏りのないリスク推定器の構築に役立つセントロイドを推定することができる。 提案したMC-LDCE法は,分類モデルの異なるタイプ(線形および非線形)に適用可能である。 5つの公開データセットに対する実験結果は、MC-LDCEがマルチクラスラベルノイズ問題に対処する際の他の代表LNL法よりも優れていることを示す。

In real-world scenarios, many large-scale datasets often contain inaccurate labels, i.e., noisy labels, which may confuse model training and lead to performance degradation. To overcome this issue, Label Noise Learning (LNL) has recently attracted much attention, and various methods have been proposed to design an unbiased risk estimator to the noise-free dataset to combat such label noise. Among them, a trend of works based on Loss Decomposition and Centroid Estimation (LDCE) has shown very promising performance. However, existing LNL methods based on LDCE are only designed for binary classification, and they are not directly extendable to multi-class situations. In this paper, we propose a novel multi-class robust learning method for LDCE, which is termed "MC-LDCE". Specifically, we decompose the commonly adopted loss (e.g., mean squared loss) function into a label-dependent part and a label-independent part, in which only the former is influenced by label noise. Further, by defining a new form of data centroid, we transform the recovery problem of a label-dependent part to a centroid estimation problem. Finally, by critically examining the mathematical expectation of clean data centroid given the observed noisy set, the centroid can be estimated which helps to build an unbiased risk estimator for multi-class learning. The proposed MC-LDCE method is general and applicable to different types (i.e., linear and nonlinear) of classification models. The experimental results on five public datasets demonstrate the superiority of the proposed MC-LDCE against other representative LNL methods in tackling multi-class label noise problem.
翻訳日:2022-03-22 18:13:49 公開日:2022-03-21
# 実演による自己模倣学習

Self-Imitation Learning from Demonstrations ( http://arxiv.org/abs/2203.10905v1 )

ライセンス: Link先を確認
Georgiy Pshikhachev, Dmitry Ivanov, Vladimir Egorov, Aleksei Shpilman(参考訳) 強化学習(rl)によって達成された多くのブレークスルーにもかかわらず、少ない報酬で環境を解決することは、高度な探索を必要とする課題である。 実証から学ぶ(LfD)は、専門家が経験した状態へのエージェントの探索を導くことでこの問題を修復する。 当然、このアプローチの利点はデモの質に左右され、現実的なシナリオで最適なことはめったにない。 最近のlfdアルゴリズムでは、デモの影響を制御するハイパーパラメータの微調整が必要であり、論文で示しているように、サブオプティカルなデモから学ぶのに苦労している。 これらの問題に対処するため,我々は,エージェントの過去の経験を生かした最近のrlアルゴリズムである自己模倣学習(sil)を,実演でリプレイバッファを初期化することによりlfdセットアップに拡張した。 提案アルゴリズムは,SIL from Demonstrations (SILfD) と呼ぶ。 実験により,SILfDはノイズの多い,あるいは最適から遠く離れたデモから学習でき,トレーニング全体を通して,追加のハイパーパラメータや手作りスケジュールを使わずに,実演の影響を自動的に調整できることを示した。 また,SILfDはスパース環境における既存のLfDアルゴリズムよりも優れている。

Despite the numerous breakthroughs achieved with Reinforcement Learning (RL), solving environments with sparse rewards remains a challenging task that requires sophisticated exploration. Learning from Demonstrations (LfD) remedies this issue by guiding the agent's exploration towards states experienced by an expert. Naturally, the benefits of this approach hinge on the quality of demonstrations, which are rarely optimal in realistic scenarios. Modern LfD algorithms require meticulous tuning of hyperparameters that control the influence of demonstrations and, as we show in the paper, struggle with learning from suboptimal demonstrations. To address these issues, we extend Self-Imitation Learning (SIL), a recent RL algorithm that exploits the agent's past good experience, to the LfD setup by initializing its replay buffer with demonstrations. We denote our algorithm as SIL from Demonstrations (SILfD). We empirically show that SILfD can learn from demonstrations that are noisy or far from optimal and can automatically adjust the influence of demonstrations throughout the training without additional hyperparameters or handcrafted schedules. We also find SILfD superior to the existing state-of-the-art LfD algorithms in sparse environments, especially when demonstrations are highly suboptimal.
翻訳日:2022-03-22 18:13:24 公開日:2022-03-21
# 確率論的画像モデリングの新展開

A new perspective on probabilistic image modeling ( http://arxiv.org/abs/2203.11034v1 )

ライセンス: Link先を確認
Alexander Gepperth(参考訳) 本稿では,密度推定,サンプリング,トラクタブル推論が可能な画像モデリングのための新しい確率論的手法であるDeep Convolutional Gaussian Mixture Model(DCGMM)を提案する。 DCGMMインスタンスはCNNのような層構造を示し、主な構成要素は畳み込みガウス混合層(cGMM)である。 和積ネットワーク(SPN)や確率回路(PC)のような関連するモデルにおける重要な革新は、各cGMM層が独立損失関数を最適化し、従って独立確率論的解釈を持つことである。 このモジュラーアプローチにより、インターベンション変換層は、最大プールや半畳み込みなど、CNNで利用可能な(潜在的に非可逆な)マッピングの全スペクトルを利用することができる。 dcgmmサンプリングと推論は、所定のcgmm層によって生成されたサンプルが次の低レベルcgmm層でサンプリングのパラメータを定義する階層的事前の深い連鎖によって実現される。 非可逆変換層をサンプリングするために、例えば半畳み込みのような冗長性(オーバーラップ)を利用する新しい勾配に基づく研削技術を導入する。 DCGMMは、CNNのように、ランダムな初期条件からSGDによってエンドツーエンドに訓練することができる。 SVHN などの挑戦的データセットでは,近年の PC や SPN モデルと,推論,分類,サンプリングの面で比較してよい結果が得られた。 我々は、パブリックtf2の実装を提供する。

We present the Deep Convolutional Gaussian Mixture Model (DCGMM), a new probabilistic approach for image modeling capable of density estimation, sampling and tractable inference. DCGMM instances exhibit a CNN-like layered structure, in which the principal building blocks are convolutional Gaussian Mixture (cGMM) layers. A key innovation w.r.t. related models like sum-product networks (SPNs) and probabilistic circuits (PCs) is that each cGMM layer optimizes an independent loss function and therefore has an independent probabilistic interpretation. This modular approach permits intervening transformation layers to harness the full spectrum of (potentially non-invertible) mappings available to CNNs, e.g., max-pooling or half-convolutions. DCGMM sampling and inference are realized by a deep chain of hierarchical priors, where a sample generated by a given cGMM layer defines the parameters of sampling in the next-lower cGMM layer. For sampling through non-invertible transformation layers, we introduce a new gradient-based sharpening technique that exploits redundancy (overlap) in, e.g., half-convolutions. DCGMMs can be trained end-to-end by SGD from random initial conditions, much like CNNs. We show that DCGMMs compare favorably to several recent PC and SPN models in terms of inference, classification and sampling, the latter particularly for challenging datasets such as SVHN. We provide a public TF2 implementation.
翻訳日:2022-03-22 18:13:00 公開日:2022-03-21
# ポリシー駆動型AI支援PoWフレームワーク

A Policy Driven AI-Assisted PoW Framework ( http://arxiv.org/abs/2203.10698v1 )

ライセンス: Link先を確認
Trisha Chakraborty, Shaswata Mitra, Sudip Mittal, Maxwell Young(参考訳) Proof of Work (PoW)ベースのサイバー防御システムは、任意の数学的パズルを解決するために、入ってくるネットワーク要求を必要とする。 現代の芸術は信頼に値するものと信頼できないものとを区別できず、複雑なパズルを全て解決しなければならない。 本稿では,ipトラフィックに基づく機能を利用して適応型イシューを知らせる人工知能(ai)支援powフレームワークを提案する。 モジュールフレームワークはこれらの機能を使用して、信頼できないクライアントが難しいパズルを解決し、サーバからのレスポンスを受け取るための真の要求よりも長いレイテンシを発生させる。 予備的な調査結果から,信頼できないトラフィックを効果的に抑制する手法が明らかになった。

Proof of Work (PoW) based cyberdefense systems require incoming network requests to expend effort solving an arbitrary mathematical puzzle. Current state of the art is unable to differentiate between trustworthy and untrustworthy connections, requiring all to solve complex puzzles. In this paper, we introduce an Artificial Intelligence (AI)-assisted PoW framework that utilizes IP traffic based features to inform an adaptive issuer which can then generate puzzles with varying hardness. The modular framework uses these capabilities to ensure that untrustworthy clients solve harder puzzles thereby incurring longer latency than authentic requests to receive a response from the server. Our preliminary findings reveal our approach effectively throttles untrustworthy traffic.
翻訳日:2022-03-22 18:08:59 公開日:2022-03-21
# 負荷集中性に基づく研究研究者の利子マイニング手法

Research Scholar Interest Mining Method based on Load Centrality ( http://arxiv.org/abs/2203.10731v1 )

ライセンス: Link先を確認
Yang Jiang, Zhe Xue, Ang Li(参考訳) ビッグデータの時代においては,論文,特許,その他のデータを通じて研究者の研究成果に関する共同研究を行い,研究者の役割について研究し,その結果の分析を行うことができる。 現実の研究と応用において,本論文では負荷集中度(lcbim)に基づく研究研究者の関心マイニングアルゴリズムを提案する。 研究の様々な分野における創造的アルゴリズムのグラフは、アイデアを集約し、近隣を集約することでトピックグラフを生成し、生成されたトピック情報を使用して類似または類似のトピック空間を構築し、キーワードを使用して1つ以上のトピックを構築した。 各トピックの地域構造は、完全なカバレッジ原則でフィールドを解析できるノードの集中性研究モデルの重みを密に計算するために使うことができる。 本稿では,負荷率センターに基づく科学的研究協力により,学術研究研究者の関心を論文やコーパスから効果的に抽出することができる。

In the era of big data, it is possible to carry out cooperative research on the research results of researchers through papers, patents and other data, so as to study the role of researchers, and produce results in the analysis of results. For the important problems found in the research and application of reality, this paper also proposes a research scholar interest mining algorithm based on load centrality (LCBIM), which can accurately solve the problem according to the researcher's research papers and patent data. Graphs of creative algorithms in various fields of the study aggregated ideas, generated topic graphs by aggregating neighborhoods, used the generated topic information to construct with similar or similar topic spaces, and utilize keywords to construct one or more topics. The regional structure of each topic can be used to closely calculate the weight of the centrality research model of the node, which can analyze the field in the complete coverage principle. The scientific research cooperation based on the load rate center proposed in this paper can effectively extract the interests of scientific research scholars from papers and corpus.
翻訳日:2022-03-22 18:08:46 公開日:2022-03-21
# 音声指示からの階層的経路計画のための空間概念に基づくトポロジカルセマンティクスマッピング

Spatial Concept-based Topometric Semantic Mapping for Hierarchical Path-planning from Speech Instructions ( http://arxiv.org/abs/2203.10820v1 )

ライセンス: Link先を確認
Akira Taniguchi, Shuya Ito, Tadahiro Taniguchi(参考訳) 人間の音声による目的地への移動は、現実の世界で動く自律移動ロボットにとって重要な課題である。 空間表現は、抽象的な位置圏を表す意味的レベル、それらの接続を表す位相的レベル、および環境の構造に依存する計量レベルを含む。 本研究の目的は,地形意味マップを用いた階層的空間表現の実現と,人間とロボットの相互作用による効率的な経路計画を行うことである。 本研究では,環境に適応し,階層的な経路計画へと導く,新しい確率的生成モデルSpCoTMHPを提案する。 また,階層のレベルが相互に影響を及ぼす経路計画のための近似推定法を開発した。 提案手法は確率的推論として制御に基づく定式化を導出することにより理論的に支持される。 人間の音声によるナビゲーション実験により,提案する空間概念に基づく階層的経路計画により性能が向上し,従来の手法に比べて計算コストが低減することを示す。 階層的空間表現は、人間とロボットが言語ベースのナビゲーションタスクを実現可能にするための相互理解可能なフォームを提供する。

Navigating to destinations using human speech instructions is an important task for autonomous mobile robots that operate in the real world. Spatial representations include a semantic level that represents an abstracted location category, a topological level that represents their connectivity, and a metric level that depends on the structure of the environment. The purpose of this study is to realize a hierarchical spatial representation using a topometric semantic map and planning efficient paths through human-robot interactions. We propose a novel probabilistic generative model, SpCoTMHP, that forms a topometric semantic map that adapts to the environment and leads to hierarchical path planning. We also developed approximate inference methods for path planning, where the levels of the hierarchy can influence each other. The proposed path planning method is theoretically supported by deriving a formulation based on control as probabilistic inference. The navigation experiment using human speech instruction shows that the proposed spatial concept-based hierarchical path planning improves the performance and reduces the calculation cost compared with conventional methods. Hierarchical spatial representation provides a mutually understandable form for humans and robots to render language-based navigation tasks feasible.
翻訳日:2022-03-22 18:07:31 公開日:2022-03-21
# r$-egoネットワーク識別による非教師なしヘテロフィラスネットワーク埋め込み

Unsupervised Heterophilous Network Embedding via $r$-Ego Network Discrimination ( http://arxiv.org/abs/2203.10866v1 )

ライセンス: Link先を確認
Zhiqiang Zhong, Guadalupe Gonzalez, Daniele Grattarola, and Jun Pang(参考訳) 近年,監視型ネットワーク組込み(ne)がネットワーク形態の複雑なシステムを表現するための主流技術として登場し,下流ノードやネットワークレベルの様々なタスクはその顕著な発展から恩恵を受けている。 しかし、学習目標の定義の不確実性のため、教師なしNEは依然として困難である。 さらに、既存のNEメソッドが異種ネットワークに順応するかどうかについては、まだ探索されていない研究課題である。 本稿では,ホモフィリ比が既存の教師なしNE法の性能に与える影響に関する最初の実証的研究を紹介し,その限界を明らかにする。 実験結果から着想を得た未教師NEタスクを$r$-egoネットワーク識別問題として設計し,同種ネットワークと異種ネットワークの両方に有用なノード表現を学習するための 'underline{SEL}f-sup\underline{E}rvised \underline{N}etwork \underline{E}mbedding (Selene) フレームワークを開発した。 具体的には、ノード属性とネットワーク構造情報を融合し、サンプリングおよび匿名化戦略を利用して既存の埋め込み機構の暗黙の均質な仮定を破るデュアルチャネル機能埋め込み機構を提案する。 最後に、このフレームワークを最適化するために、負サンプルフリーのSSL目的関数を導入する。 我々は、12ドルの実世界のデータセットと20ドルの合成ネットワークに関する広範な実験と一連のアブレーション研究を行っている。 その結果,seleneの優れた性能を示し,各コンポーネントの有効性を確認した。 コードとデータは \url{https://github.com/z hiqiangzhongddu/sele ne} で入手できる。

Recently, supervised network embedding (NE) has emerged as a predominant technique for representing complex systems that take the form of networks, and various downstream node- and network-level tasks have benefited from its remarkable developments. However, unsupervised NE still remains challenging due to the uncertainty in defining a learning objective. In addition, it is still an unexplored research question \textit{whether existing NE methods adapt well to heterophilous networks}. This paper introduces the first empirical study on the influence of homophily ratio on the performance of existing unsupervised NE methods and reveals their limitations. Inspired by our empirical findings, we design unsupervised NE task as an $r$-ego network discrimination problem and further develop a \underline{SEL}f-sup\underline{E}rvised \underline{N}etwork \underline{E}mbedding (Selene) framework for learning useful node representations for both homophilous and heterophilous networks. Specifically, we propose a dual-channel feature embedding mechanism to fuse node attributes and network structure information and leverage a sampling and anonymisation strategy to break the implicit homophily assumption of existing embedding mechanisms. Lastly, we introduce a negative-sample-free SSL objective function to optimise the framework. We conduct extensive experiments and a series of ablation studies on $12$ real-world datasets and $20$ synthetic networks. Results demonstrate Selene's superior performance and confirm the effectiveness of each component. Code and data are available at \url{https://github.com/z hiqiangzhongddu/Sele ne}.
翻訳日:2022-03-22 18:07:13 公開日:2022-03-21
# ダブルブラックボックス設計によるDNNの積分フィンガープリントと検証

Integrity Fingerprinting of DNN with Double Black-box Design and Verification ( http://arxiv.org/abs/2203.10902v1 )

ライセンス: Link先を確認
Shuo Wang, Sidharth Agarwal, Sharif Abuadbba, Kristen Moore, Surya Nepal, Salil Kanhere(参考訳) クラウド対応の機械学習・アズ・ア・サービス(MLaaS)は、ディープラーニングモデルの開発とデプロイの方法を変えるという大きな可能性を示しています。 それにもかかわらず、悪意ある当事者が悪質な結果を得るために修正できるため、そのようなサービスの使用に伴う潜在的なリスクがある。 したがって、モデルオーナ、サービスプロバイダ、エンドユーザは、デプロイされたモデルが改ざんされていないかどうかを検証することが不可欠である。 このような検証には、パブリックな検証可能性(すなわち、敵を含むすべてのパーティで指紋認証パターンが利用可能)と、API経由でデプロイされたモデルへのブラックボックスアクセスが必要である。 しかし、既存の透かしや指紋認証のアプローチでは、指紋認証の設計にはホワイトボックスの知識(勾配など)が必要であり、個人的な検証性、すなわち正直な当事者による検証のみをサポートする。 本稿では,指紋設計におけるブラックボックス知識と検証時のブラックボックス問合せを可能にする,実用的な透かし手法について述べる。 このサービスは、公開検証を通じてクラウドベースのサービスの整合性を保証する(すなわち、敵を含むすべての当事者が指紋認証パターンを利用できる)。 相手がモデルを操作すると、決定境界が変更される。 したがって、ダブルブラック透かしの基本的な原理は、モデルの決定境界が透かしの固有の指紋として機能することである。 提案手法は, モデル固有の指紋をキャプチャするために, モデル決定境界の周りに自然に変換され, 拡張された入力の集合である, 限られた数のサンプル指紋を生成することにより, 決定境界を捕捉する。 各種モデル整合性攻撃とモデル圧縮攻撃に対する透かし手法の評価を行った。

Cloud-enabled Machine Learning as a Service (MLaaS) has shown enormous promise to transform how deep learning models are developed and deployed. Nonetheless, there is a potential risk associated with the use of such services since a malicious party can modify them to achieve an adverse result. Therefore, it is imperative for model owners, service providers, and end-users to verify whether the deployed model has not been tampered with or not. Such verification requires public verifiability (i.e., fingerprinting patterns are available to all parties, including adversaries) and black-box access to the deployed model via APIs. Existing watermarking and fingerprinting approaches, however, require white-box knowledge (such as gradient) to design the fingerprinting and only support private verifiability, i.e., verification by an honest party. In this paper, we describe a practical watermarking technique that enables black-box knowledge in fingerprint design and black-box queries during verification. The service ensures the integrity of cloud-based services through public verification (i.e. fingerprinting patterns are available to all parties, including adversaries). If an adversary manipulates a model, this will result in a shift in the decision boundary. Thus, the underlying principle of double-black watermarking is that a model's decision boundary could serve as an inherent fingerprint for watermarking. Our approach captures the decision boundary by generating a limited number of encysted sample fingerprints, which are a set of naturally transformed and augmented inputs enclosed around the model's decision boundary in order to capture the inherent fingerprints of the model. We evaluated our watermarking approach against a variety of model integrity attacks and model compression attacks.
翻訳日:2022-03-22 18:06:42 公開日:2022-03-21
# 電圧依存シナプス可塑性(vdsp) : ニューロン膜電位に基づく非教師付き確率的ヘビアン可塑性則

Voltage-Dependent Synaptic Plasticity (VDSP): Unsupervised probabilistic Hebbian plasticity rule based on neurons membrane potential ( http://arxiv.org/abs/2203.11022v1 )

ライセンス: Link先を確認
Nikhil Garg, Ismael Balafrej, Terrence C. Stewart, Jean Michel Portal, Marc Bocquet, Damien Querlioz, Dominique Drouin, Jean Rouat, Yann Beilliard, Fabien Alibart(参考訳) 本研究は,ニューロモルフィックハードウェア上でのhebbの可塑性機構のオンライン実装のための,新しい脳インスパイア非教師なし局所学習規則であるvdspを提案する。 提案したVDSP学習規則はシナプス後ニューロンのスパイクのみのシナプス伝導を更新し、標準的なスパイク刺激依存性可塑性(STDP)に対する2つの更新数を減少させる。 この更新はシナプス前ニューロンの膜電位に依存しており、ニューロンの実装の一部として容易に利用でき、記憶のための追加記憶を必要としない。 さらに、更新はシナプス重みにも規則化され、繰り返し刺激による重みの爆発や消失を防止する。 VDSPとSTDPの等価性を引き出すために厳密な数学的解析を行う。 VDSPのシステムレベルの性能を検証するため,手書き桁認識のための単層スパイキングニューラルネットワーク(SNN)を訓練する。 MNISTデータセット上の100個の出力ニューロンのネットワークに対して85.01 $ \pm $ 0.76%(Mean $ \pm $ S.D.)の精度を報告した。 ネットワークサイズ(400個の出力ニューロンで89.93 $ \pm $ 0.41%、500個のニューロンで90.56 $ \pm $ 0.27)のスケーリングでは、大規模コンピュータビジョンタスクで提案された学習規則の適用性を検証する。 興味深いことに、学習規則は入力信号の周波数にSTDPよりも適応し、ハイパーパラメータのハンドチューニングを必要としない。

This study proposes voltage-dependent-sy naptic plasticity (VDSP), a novel brain-inspired unsupervised local learning rule for the online implementation of Hebb's plasticity mechanism on neuromorphic hardware. The proposed VDSP learning rule updates the synaptic conductance on the spike of the postsynaptic neuron only, which reduces by a factor of two the number of updates with respect to standard spike-timing-depende nt plasticity (STDP). This update is dependent on the membrane potential of the presynaptic neuron, which is readily available as part of neuron implementation and hence does not require additional memory for storage. Moreover, the update is also regularized on synaptic weight and prevents explosion or vanishing of weights on repeated stimulation. Rigorous mathematical analysis is performed to draw an equivalence between VDSP and STDP. To validate the system-level performance of VDSP, we train a single-layer spiking neural network (SNN) for the recognition of handwritten digits. We report 85.01 $ \pm $ 0.76% (Mean $ \pm $ S.D.) accuracy for a network of 100 output neurons on the MNIST dataset. The performance improves when scaling the network size (89.93 $ \pm $ 0.41% for 400 output neurons, 90.56 $ \pm $ 0.27 for 500 neurons), which validates the applicability of the proposed learning rule for large-scale computer vision tasks. Interestingly, the learning rule better adapts than STDP to the frequency of input signal and does not require hand-tuning of hyperparameters.
翻訳日:2022-03-22 18:06:14 公開日:2022-03-21
# Zoom Out and Observe: フェイクニュース検出のためのニュース環境認識

Zoom Out and Observe: News Environment Perception for Fake News Detection ( http://arxiv.org/abs/2203.10885v1 )

ライセンス: Link先を確認
Qiang Sheng, Juan Cao, Xueyao Zhang, Rundong Li, Danding Wang, Yongchun Zhu(参考訳) 偽ニュースの検出は、ソーシャルメディア上の誤報の拡散を防ぐために不可欠である。 偽ニュースを現実のニュースと区別するために、既存の手法はニュース投稿の言語パターンを観察し、その内容を知識ソースで検証したり、読者の回答をチェックしたりする。 しかし、これらの方法は、偽のニュース記事が作成・拡散される外部のニュース環境における情報を無視する。 ニュース環境は最近の主流メディアの意見や大衆の注目を反映しており、フェイクニュースが大衆イベントの波に乗り、予期せぬ新規コンテンツで大衆の注目を集め、露出と拡散を図っているため、フェイクニュース作成の重要なインスピレーションとなっている。 ニュース投稿の環境信号を捉えるために,ニュース環境を観察するために「ズームアウト」し,ニュース環境知覚フレームワーク(nep)を提案する。 各記事について、最近の主流ニュースからマクロニュースとマイクロニュース環境を構築する。 次に,有用な信号を認識し,最終予測を補助する人気指向モジュールとノベルティ指向モジュールを設計した。 新たに構築したデータセットの実験により、NEPは基本的な偽ニュース検知器の性能を効率的に改善できることが示された。

Fake news detection is crucial for preventing the dissemination of misinformation on social media. To differentiate fake news from real ones, existing methods observe the language patterns of the news post and "zoom in" to verify its content with knowledge sources or check its readers' replies. However, these methods neglect the information in the external news environment where a fake news post is created and disseminated. The news environment represents recent mainstream media opinion and public attention, which is an important inspiration of fake news fabrication because fake news is often designed to ride the wave of popular events and catch public attention with unexpected novel content for greater exposure and spread. To capture the environmental signals of news posts, we "zoom out" to observe the news environment and propose the News Environment Perception Framework (NEP). For each post, we construct its macro and micro news environment from recent mainstream news. Then we design a popularity-oriented and a novelty-oriented module to perceive useful signals and further assist final prediction. Experiments on our newly built datasets show that the NEP can efficiently improve the performance of basic fake news detectors.
翻訳日:2022-03-22 18:05:37 公開日:2022-03-21
# 新型コロナウイルスの病的定量化のための縦断的自己スーパービジョン

Longitudinal Self-Supervision for COVID-19 Pathology Quantification ( http://arxiv.org/abs/2203.10804v1 )

ライセンス: Link先を確認
Tobias Czempiel, Coco Rogers, Matthias Keicher, Magdalini Paschali, Rickmer Braren, Egon Burian, Marcus Makowski, Nassir Navab, Thomas Wendler, Seong Tae Kim(参考訳) 新型コロナウイルス感染の定量化は、世界的なパンデミックで患者の入院を管理する上で重要な課題である。 近年, 深層学習に基づくアプローチが提案され, 放射線科医が縦型CTで新型コロナウイルスの病態を自動的に定量化できるようになっている。 しかし, 深層学習法では, 経時的スキャンにより, 感染領域の複雑な特徴を学習するために, 広範囲なトレーニングデータが必要である。 大規模データセットの収集は,特に縦型トレーニングでは困難である。 本研究では,新型コロナウイルス感染の定量化のための縦断ネットワークを効果的に学習するための,自己指導型学習手法を提案する。 この目的のために, 臨床縦断型covid-19ctスキャンを用いた縦断型自己スーパービジョン法の検討を行った。 実験の結果,提案手法は長手データのセマンティクスを効果的に活用し,2つのCOVID-19定量化タスクを改善するのに役立つことがわかった。

Quantifying COVID-19 infection over time is an important task to manage the hospitalization of patients during a global pandemic. Recently, deep learning-based approaches have been proposed to help radiologists automatically quantify COVID-19 pathologies on longitudinal CT scans. However, the learning process of deep learning methods demands extensive training data to learn the complex characteristics of infected regions over longitudinal scans. It is challenging to collect a large-scale dataset, especially for longitudinal training. In this study, we want to address this problem by proposing a new self-supervised learning method to effectively train longitudinal networks for the quantification of COVID-19 infections. For this purpose, longitudinal self-supervision schemes are explored on clinical longitudinal COVID-19 CT scans. Experimental results show that the proposed method is effective, helping the model better exploit the semantics of longitudinal data and improve two COVID-19 quantification tasks.
翻訳日:2022-03-22 18:01:55 公開日:2022-03-21
# グラフ自動符号化による自己監督型道路レイアウト解析

Self-Supervised Road Layout Parsing with Graph Auto-Encoding ( http://arxiv.org/abs/2203.11000v1 )

ライセンス: Link先を確認
Chenyang Lu, Gijs Dubbelman(参考訳) 高レベルなシーン理解を目的とした本研究では,鳥の眼球図の道路レイアウトマップを入力として,道路のトポロジカルレイアウトを表す人間解釈可能なグラフを予測するニューラルネットワークアプローチを提案する。 我々のアプローチは、ピクセルレベルからグラフレベルまでの道路レイアウトの理解を高める。 この目的を達成するために、画像画像自動エンコーダを用いる。 このネットワークは、オートエンコーダボトルネックにおけるグラフ表現の回帰を学ぶように設計されている。 この学習は、外部のマニュアルアノテーションを必要とせずに、イメージ再構成損失によって自己管理される。 我々は、一般的な道路レイアウトパターンを含む合成データセットを作成し、実際のArgoverseデータセットに加えて、オートエンコーダのトレーニングに使用する。 この付加的な合成データセットは、概念的に道路レイアウトの人間的知識を捉え、それをトレーニングのネットワークで利用できるようにすることで、実世界のアルゴバースデータセットにおけるトポロジカルな道路レイアウト理解のパフォーマンスを安定させ、さらに向上させることができる。 評価の結果,本手法は完全教師付きベースラインに匹敵する性能を示した。

Aiming for higher-level scene understanding, this work presents a neural network approach that takes a road-layout map in bird's eye view as input, and predicts a human-interpretable graph that represents the road's topological layout. Our approach elevates the understanding of road layouts from pixel level to the level of graphs. To achieve this goal, an image-graph-image auto-encoder is utilized. The network is designed to learn to regress the graph representation at its auto-encoder bottleneck. This learning is self-supervised by an image reconstruction loss, without needing any external manual annotations. We create a synthetic dataset containing common road layout patterns and use it for training of the auto-encoder in addition to the real-world Argoverse dataset. By using this additional synthetic dataset, which conceptually captures human knowledge of road layouts and makes this available to the network for training, we are able to stabilize and further improve the performance of topological road layout understanding on the real-world Argoverse dataset. The evaluation shows that our approach exhibits comparable performance to a strong fully-supervised baseline.
翻訳日:2022-03-22 18:01:30 公開日:2022-03-21
# (参考訳) 分解型時空間ネットワークを用いた表情解析 [全文訳有]

Facial Expression Analysis Using Decomposed Multiscale Spatiotemporal Networks ( http://arxiv.org/abs/2203.11111v1 )

ライセンス: CC0 1.0
Wheidima Carneiro de Melo, Eric Granger, Miguel Bordallo Lopez(参考訳) ビデオに基づく表情の分析は、うつや痛みなどの個人の健康状態の推測にますます応用されている。 既存のアプローチの中で,マルチスケール時空間処理のための構造からなるディープラーニングモデルは,顔力学を符号化する強力な可能性を示している。 しかし、そのようなモデルは計算の複雑さが高く、これらのソリューションの展開が困難である。 この問題に対処するために,多スケール時空間特徴の抽出を分解する新しい手法を提案する。 特に, DMSN-A, DMSN-B, DMSN-Cブロックの3つの変種とともに, DMSN (Decomposed Multiscale Spatiotemporal Network) と呼ばれるビルディングブロック構造を示す。 DMSN-Aブロックは複数の時間領域における時空間特徴を解析し、DMSN-Bブロックは複数の時間領域における時空間特徴を解析し、DMSN-Cブロックは複数の空間サイズにおける時空間特徴を解析してマルチスケール表現を生成する。 これらの変種を用いて、我々はdmsnアーキテクチャを設計し、様々な時空間的特徴を探索し、異なる顔の行動に適応する能力を有する。 DMSN-Cブロックは抑うつ検出に有効であるのに対し,DMSN-Aブロックは痛み推定に有効であることを示す。 また, DMSNアーキテクチャは, うつ病検出などの表情変化の時間的変化の少ない表現から, 痛み推定のような変化の大きい表現に対して, 費用対効果の高いソリューションを提供することを示した。

Video-based analysis of facial expressions has been increasingly applied to infer health states of individuals, such as depression and pain. Among the existing approaches, deep learning models composed of structures for multiscale spatiotemporal processing have shown strong potential for encoding facial dynamics. However, such models have high computational complexity, making for a difficult deployment of these solutions. To address this issue, we introduce a new technique to decompose the extraction of multiscale spatiotemporal features. Particularly, a building block structure called Decomposed Multiscale Spatiotemporal Network (DMSN) is presented along with three variants: DMSN-A, DMSN-B, and DMSN-C blocks. The DMSN-A block generates multiscale representations by analyzing spatiotemporal features at multiple temporal ranges, while the DMSN-B block analyzes spatiotemporal features at multiple ranges, and the DMSN-C block analyzes spatiotemporal features at multiple spatial sizes. Using these variants, we design our DMSN architecture which has the ability to explore a variety of multiscale spatiotemporal features, favoring the adaptation to different facial behaviors. Our extensive experiments on challenging datasets show that the DMSN-C block is effective for depression detection, whereas the DMSN-A block is efficient for pain estimation. Results also indicate that our DMSN architecture provides a cost-effective solution for expressions that range from fewer facial variations over time, as in depression detection, to greater variations, as in pain estimation.
翻訳日:2022-03-22 18:00:16 公開日:2022-03-21
# 樹木のエネルギー損失 : 希薄な注釈付き意味セグメンテーションに向けて

Tree Energy Loss: Towards Sparsely Annotated Semantic Segmentation ( http://arxiv.org/abs/2203.10739v1 )

ライセンス: Link先を確認
Zhiyuan Liang, Tiancai Wang, Xiangyu Zhang, Jian Sun, Jianbing Shen(参考訳) わずかに注釈付きセマンティックセグメンテーション(SASS)は、粗い粒度(ポイント、スクリブル、ブロックワイド)でセグメンテーションネットワークをトレーニングすることを目的としており、各画像にわずかにピクセルがラベル付けされている。 本稿では,未ラベル画素のセマンティックガイダンスを提供することにより,SASSの新たなツリーエネルギー損失を提案する。 ツリーエネルギー損失は、低レベルおよび高レベルなペアワイズアフィニティの両方をモデル化する最小のスパンディングツリーとしてイメージを表す。 これらのアフィニティをネットワーク予測に順次適用することにより、ラベルなし画素に対するソフト擬似ラベルを粗い方法で生成し、動的オンライン自己学習を実現する。 ツリーエネルギー損失は、従来のセグメンテーション損失と組み合わせることで、効果的で既存のフレームワークに組み込むのが容易です。 従来のsass法と比較して,多段階のトレーニング戦略,最適化手順の交替,教師付きデータの追加,時間を要する後処理を必要とせず,すべてのsass設定でそれを上回らせる。 コードはhttps://github.com/m egviiresearch/telで入手できる。

Sparsely annotated semantic segmentation (SASS) aims to train a segmentation network with coarse-grained (i.e., point-, scribble-, and block-wise) supervisions, where only a small proportion of pixels are labeled in each image. In this paper, we propose a novel tree energy loss for SASS by providing semantic guidance for unlabeled pixels. The tree energy loss represents images as minimum spanning trees to model both low-level and high-level pair-wise affinities. By sequentially applying these affinities to the network prediction, soft pseudo labels for unlabeled pixels are generated in a coarse-to-fine manner, achieving dynamic online self-training. The tree energy loss is effective and easy to be incorporated into existing frameworks by combining it with a traditional segmentation loss. Compared with previous SASS methods, our method requires no multistage training strategies, alternating optimization procedures, additional supervised data, or time-consuming post-processing while outperforming them in all SASS settings. Code is available at https://github.com/m egviiresearch/TEL.
翻訳日:2022-03-22 17:31:59 公開日:2022-03-21
# EAutoDet: オブジェクト検出のための効率的なアーキテクチャ検索

EAutoDet: Efficient Architecture Search for Object Detection ( http://arxiv.org/abs/2203.10747v1 )

ライセンス: Link先を確認
Xiaoxing Wang, Jiale Lin, Junchi Yan, Juanping Zhao, Xiaokang Yang(参考訳) 大規模なデータセットと複雑なネットワークモジュールのため、検出のためのCNNのトレーニングには時間がかかるため、検出データセットのアーキテクチャを直接検索するのは困難である。 対照的に、本研究では、1.4GPU日でオブジェクト検出のための実用的なバックボーンとFPNアーキテクチャを発見できるEAutoDetという効率的なフレームワークを提案する。 具体的には、バックボーンとFPNモジュールの両方にスーパーネットを構築し、微分可能な方法を採用する。 本稿では,GPUメモリの要件と計算コストを削減するため,一方のエッジ上での候補演算の重みを共有し,それらを一つの畳み込みに集約することでカーネル再利用手法を提案する。 検索チャネル番号には動的チャネル改善戦略も導入されている。 広範な実験により,本手法の有効性と有効性が示された。 特に、発見されたアーキテクチャは最先端のオブジェクト検出NAS法を超越し、120 FPSの40.1 mAP、49.2 mAP、41.3 FPSのCOCOテストデブセットを達成した。 また,21.1mのパラメータを持つdota-v1.0テストセット上で77.05 map$_{\text{50}}$を実現するローテーション検出タスクに,検出されたアーキテクチャを転送した。

Training CNN for detection is time-consuming due to the large dataset and complex network modules, making it hard to search architectures on detection datasets directly, which usually requires vast search costs (usually tens and even hundreds of GPU-days). In contrast, this paper introduces an efficient framework, named EAutoDet, that can discover practical backbone and FPN architectures for object detection in 1.4 GPU-days. Specifically, we construct a supernet for both backbone and FPN modules and adopt the differentiable method. To reduce the GPU memory requirement and computational cost, we propose a kernel reusing technique by sharing the weights of candidate operations on one edge and consolidating them into one convolution. A dynamic channel refinement strategy is also introduced to search channel numbers. Extensive experiments show significant efficacy and efficiency of our method. In particular, the discovered architectures surpass state-of-the-art object detection NAS methods and achieve 40.1 mAP with 120 FPS and 49.2 mAP with 41.3 FPS on COCO test-dev set. We also transfer the discovered architectures to rotation detection task, which achieve 77.05 mAP$_{\text{50}}$ on DOTA-v1.0 test set with 21.1M parameters.
翻訳日:2022-03-22 17:31:37 公開日:2022-03-21
# 並列MRI再構成のためのK空間と画像領域協調エネルギーモデル

K-space and Image Domain Collaborative Energy based Model for Parallel MRI Reconstruction ( http://arxiv.org/abs/2203.10776v1 )

ライセンス: Link先を確認
Zongjiang Tu, Chen Jiang, Yu Guan, Shanshan Wang, Jijun Liu, Qiegen Liu, Dong Liang(参考訳) 磁気共鳴(MR)画像取得時間の減少は、MRI検査をよりアクセスしやすくする可能性がある。 ディープラーニングモデルを含む先行技術は、長いMRIイメージングタイムの問題を解決するために費やされてきた。 近年,深層生成モデルがアルゴリズムのロバスト性や使用柔軟性に大きな可能性を示している。 それでも、k-空間の測定を直接学習したり、利用したりできるようなスキームは存在しない。 さらに、ハイブリッドドメインにおける深層生成モデルはどのように機能するかについても検討する価値がある。 本研究では, 深部エネルギーベースモデルを用いて, k空間と画像領域の協調生成モデルを提案し, アンダーサンプル計測からMRデータを包括的に推定する。 実験結果と最新技術との比較により,提案手法は復元誤差が少なく,加速度係数の異なる場合より安定であることが判明した。

Decreasing magnetic resonance (MR) image acquisition times can potentially make MR examinations more accessible. Prior arts including the deep learning models have been devoted to solving the problem of long MRI imaging time. Recently, deep generative models have exhibited great potentials in algorithm robustness and usage flexibility. Nevertheless, no existing such schemes that can be learned or employed directly to the k-space measurement. Furthermore, how do the deep generative models work well in hybrid domain is also worth to be investigated. In this work, by taking advantage of the deep en-ergy-based models, we propose a k-space and image domain collaborative generative model to comprehensively estimate the MR data from under-sampled measurement. Experimental comparisons with the state-of-the-arts demonstrated that the proposed hybrid method has less error in reconstruction and is more stable under different acceleration factors.
翻訳日:2022-03-22 17:31:14 公開日:2022-03-21
# GroupTransNet: RGB-D Salient Object Detectionのためのグループトランスフォーマネットワーク

GroupTransNet: Group Transformer Network for RGB-D Salient Object Detection ( http://arxiv.org/abs/2203.10785v1 )

ライセンス: Link先を確認
Xian Fang, Jinshao Zhu, Xiuli Shao, Hongpeng Wang(参考訳) RGB-D画像上の有能な物体検出はコンピュータビジョンにおいて活発なトピックである。 既存の手法は高い性能を達成したが、まだいくつかの課題がある。 畳み込みニューラルネットワークの局所性は、モデルが十分な大域的受容野を持つことを必要とし、常に局所的な詳細が失われる。 そこで本研究では,rgb-dサルエント物体検出のためのグループトランスフォーマーネットワーク(grouptransnet)を提案する。 この手法は, クロスレイヤ機能の長距離依存性を学習して, より完璧な特徴表現を促進するのに有効である。 はじめに、中間3段階と後半3段階のわずかに高いクラスの特徴はソフトグループ化され、上位3段階の特徴の利点を吸収する。 色モードと深さモードのクロスモーダル特徴を純化するために注意機構により、入力特徴を反復的に純化・強化する。 中間プロセスの特徴は、まず異なる層の特徴によって融合され、次に複数のグループの変換器によって処理される。これは各スケールの特徴のサイズを統一し、相互に関連付けるだけでなく、グループ内の特徴の重みを共有する効果も達成する。 異なるグループにおける出力特徴は、レベル差によって2つにスタガーされたクラスタリングを完了させ、低レベル特徴を組み合わせる。 大規模な実験により、GroupTransNetは比較モデルより優れ、新しい最先端のパフォーマンスを達成することが示された。

Salient object detection on RGB-D images is an active topic in computer vision. Although the existing methods have achieved appreciable performance, there are still some challenges. The locality of convolutional neural network requires that the model has a sufficiently deep global receptive field, which always leads to the loss of local details. To address the challenge, we propose a novel Group Transformer Network (GroupTransNet) for RGB-D salient object detection. This method is good at learning the long-range dependencies of cross layer features to promote more perfect feature expression. At the beginning, the features of the slightly higher classes of the middle three levels and the latter three levels are soft grouped to absorb the advantages of the high-level features. The input features are repeatedly purified and enhanced by the attention mechanism to purify the cross modal features of color modal and depth modal. The features of the intermediate process are first fused by the features of different layers, and then processed by several transformers in multiple groups, which not only makes the size of the features of each scale unified and interrelated, but also achieves the effect of sharing the weight of the features within the group. The output features in different groups complete the clustering staggered by two owing to the level difference, and combine with the low-level features. Extensive experiments demonstrate that GroupTransNet outperforms the comparison models and achieves the new state-of-the-art performance.
翻訳日:2022-03-22 17:31:02 公開日:2022-03-21
# クローズドループ推論によるテスト時間パフォーマンスの向上

Boost Test-Time Performance with Closed-Loop Inference ( http://arxiv.org/abs/2203.10853v1 )

ライセンス: Link先を確認
Shuaicheng Niu and Jiaxiang Wu and Yifan Zhang and Guanghui Xu and Haokun Li and Junzhou Huang and Yaowei Wang and Mingkui Tan(参考訳) 従来のディープモデルでは、単一の前方伝播を持つテストサンプルを予測するが、ハード分類されたサンプルを予測するには不十分である。 反対に、人間は最終的な決定をする前に、サンプルを慎重にチェックする必要があるかもしれない。 再チェックの過程では、関連するサンプルを参照して予測を洗練/調整することができる。 そこで本研究では,これらの厳格化テストサンプルをループ的に予測し,モデル性能を向上させることを提案する。 しかし、このアイデアは、ループ型推論をどうやって構築するかという、重要な課題を生じさせるかもしれない。 そこで本研究では,一般閉ループ推論(CLI)手法を提案する。 具体的には、まず、追加の推論ループを必要とするハードクラス化テストサンプルを特定するためのフィルタリング基準を考案する。 各ハードサンプルに対して、元の上位$K$予測に基づいて補助学習タスクを構築し、キャリブレーションモデルを用いて最終的な予測を得る。 ImageNet (in-distriion test sample) と ImageNet-C (out-of-distriion test sample) は、事前訓練されたモデルの性能向上におけるCLIの有効性を示す。

Conventional deep models predict a test sample with a single forward propagation, which, however, may not be sufficient for predicting hard-classified samples. On the contrary, we human beings may need to carefully check the sample many times before making a final decision. During the recheck process, one may refine/adjust the prediction by referring to related samples. Motivated by this, we propose to predict those hard-classified test samples in a looped manner to boost the model performance. However, this idea may pose a critical challenge: how to construct looped inference, so that the original erroneous predictions on these hard test samples can be corrected with little additional effort. To address this, we propose a general Closed-Loop Inference (CLI) method. Specifically, we first devise a filtering criterion to identify those hard-classified test samples that need additional inference loops. For each hard sample, we construct an additional auxiliary learning task based on its original top-$K$ predictions to calibrate the model, and then use the calibrated model to obtain the final prediction. Promising results on ImageNet (in-distribution test samples) and ImageNet-C (out-of-distribution test samples) demonstrate the effectiveness of CLI in improving the performance of any pre-trained model.
翻訳日:2022-03-22 17:30:37 公開日:2022-03-21
# 時間微分モジュールと時間シフト不変損失を用いた高効率リモート光胸腺撮影

Efficient Remote Photoplethysmography with Temporal Derivative Modules and Time-Shift Invariant Loss ( http://arxiv.org/abs/2203.10882v1 )

ライセンス: Link先を確認
Joaquim Comas, Adria Ruiz and Federico Sukno(参考訳) 顔光胸腺写真(PPG)の効率的な時空間学習に着目した遠隔心拍数推定のための軽量神経モデルを提案する。 一 複数の畳み込み誘導体の組み合わせによるPSGダイナミクスのモデル化及び ii)ビデオ顔ppgと基底真理とのオフセットを学習するためのモデルの柔軟性の向上。 ppgダイナミクスは、複数の畳み込み微分の漸進集約によって構築された時間微分モジュール(tdm)によってモデル化され、テイラー級数展開を所望の順序までエミュレートする。 真理オフセットのロバスト性は、学習ベースモデルをトレーニングするための新たな時間的損失であるTALOS(Temporal Adaptive LOcation Shift)の導入によって処理される。 ubfc-rppgデータセットの精度と効率の指標を報告し,本モデルの有効性を検証する。 既存モデルと比較して,本手法では,パラメータの少ない競合心拍数推定精度と計算コストの低下を示す。

We present a lightweight neural model for remote heart rate estimation focused on the efficient spatio-temporal learning of facial photoplethysmography (PPG) based on i) modelling of PPG dynamics by combinations of multiple convolutional derivatives, and ii) increased flexibility of the model to learn possible offsets between the video facial PPG and the ground truth. PPG dynamics are modelled by a Temporal Derivative Module (TDM) constructed by the incremental aggregation of multiple convolutional derivatives, emulating a Taylor series expansion up to the desired order. Robustness to ground truth offsets is handled by the introduction of TALOS (Temporal Adaptive LOcation Shift), a new temporal loss to train learning-based models. We verify the effectiveness of our model by reporting accuracy and efficiency metrics on the public PURE and UBFC-rPPG datasets. Compared to existing models, our approach shows competitive heart rate estimation accuracy with a much lower number of parameters and lower computational cost.
翻訳日:2022-03-22 17:30:17 公開日:2022-03-21
# elic:不均等な空間チャネル適応符号化を用いた効率的な学習画像圧縮

ELIC: Efficient Learned Image Compression with Unevenly Grouped Space-Channel Contextual Adaptive Coding ( http://arxiv.org/abs/2203.10886v1 )

ライセンス: Link先を確認
Dailan He, Ziming Yang, Weikun Peng, Rui Ma, Hongwei Qin, Yan Wang(参考訳) 近年、学習した画像圧縮技術は、手作業で設計した失われた画像コーダよりも優れた性能を達成している。 彼らは大規模採用を約束している。 実用化のためには,圧縮性能と実行速度の両方について,学習画像圧縮のアーキテクチャ設計に関する徹底的な調査が不可欠である。 本稿では,まず,学習画像圧縮におけるエネルギー圧縮の観測による不均一なチャネル条件適応符号化を提案する。 提案する不均一グルーピングモデルと既存のコンテキストモデルを組み合わせた空間チャネルコンテキスト適応モデルにより,実行速度を損なうことなく符号化性能を向上させる。 そこで本研究では,本変換の構造を調査し,最先端の速度と圧縮能力を実現するための効率的なモデルであるELICを提案する。 高速なプレビューデコーディングとプログレッシブデコーディングもサポートしており、学習ベースの画像圧縮の今後の応用をより有望なものにしている。

Recently, learned image compression techniques have achieved remarkable performance, even surpassing the best manually designed lossy image coders. They are promising to be large-scale adopted. For the sake of practicality, a thorough investigation of the architecture design of learned image compression, regarding both compression performance and running speed, is essential. In this paper, we first propose uneven channel-conditional adaptive coding, motivated by the observation of energy compaction in learned image compression. Combining the proposed uneven grouping model with existing context models, we obtain a spatial-channel contextual adaptive model to improve the coding performance without damage to running speed. Then we study the structure of the main transform and propose an efficient model, ELIC, to achieve state-of-the-art speed and compression ability. With superior performance, the proposed model also supports extremely fast preview decoding and progressive decoding, which makes the coming application of learning-based image compression more promising.
翻訳日:2022-03-22 17:28:28 公開日:2022-03-21
# 特徴整合性の観点からのドメイン一般化ステレオマッチングネットワークの再検討

Revisiting Domain Generalized Stereo Matching Networks from a Feature Consistency Perspective ( http://arxiv.org/abs/2203.10887v1 )

ライセンス: Link先を確認
Jiawei Zhang, Xiang Wang, Xiao Bai, Chen Wang, Lei Huang, Yimin Chen, Lin Gu, Jun Zhou, Tatsuya Harada, Edwin R. Hancock(参考訳) 近年のステレオマッチングネットワークは十分なトレーニングデータを備えているが、ドメインシフトに悩まされ、目に見えないドメインに一般化することができない。 我々は,マッチング画素間の特徴整合性を維持することが,ステレオマッチングネットワークの一般化能力を促進する上で重要な要因であると主張する。 ここでは、視点を越えて単純な画素単位のコントラスト学習を提案することにより、この問題に対処する。 ステレオコントラスト特徴損失関数は、同じ3d点の観測である一致画素対の学習特徴間の一貫性を明示的に制限する。 さらに、ステレオビューポイント固有のスタイル情報からステレオ特徴を分離するドメイン間のステレオ特徴の一貫性を維持するために、ステレオ選択的ホワイトニング損失も導入されている。 直観的には、同じシーンにおける2つの視点間の特徴整合性の一般化は、ステレオマッチング性能の非知覚領域への一般化を意味する。 本手法は,既存のステレオネットワークに簡単に組み込むことができ,対象ドメインのサンプルにアクセスする必要がなくなるため,本質的に汎用的である。 合成データをトレーニングし,実世界の4つのテストセットに一般化すると,本手法は複数の最先端ネットワークに対して優れた性能を発揮する。

Despite recent stereo matching networks achieving impressive performance given sufficient training data, they suffer from domain shifts and generalize poorly to unseen domains. We argue that maintaining feature consistency between matching pixels is a vital factor for promoting the generalization capability of stereo matching networks, which has not been adequately considered. Here we address this issue by proposing a simple pixel-wise contrastive learning across the viewpoints. The stereo contrastive feature loss function explicitly constrains the consistency between learned features of matching pixel pairs which are observations of the same 3D points. A stereo selective whitening loss is further introduced to better preserve the stereo feature consistency across domains, which decorrelates stereo features from stereo viewpoint-specific style information. Counter-intuitively, the generalization of feature consistency between two viewpoints in the same scene translates to the generalization of stereo matching performance to unseen domains. Our method is generic in nature as it can be easily embedded into existing stereo networks and does not require access to the samples in the target domain. When trained on synthetic data and generalized to four real-world testing sets, our method achieves superior performance over several state-of-the-art networks.
翻訳日:2022-03-22 17:28:12 公開日:2022-03-21
# 効率的なニューラル画像圧縮のための多変量ガウス混合

Unified Multivariate Gaussian Mixture for Efficient Neural Image Compression ( http://arxiv.org/abs/2203.10897v1 )

ライセンス: Link先を確認
Xiaosu Zhu, Jingkuan Song, Lianli Gao, Feng Zheng, Heng Tao Shen(参考訳) プリエントとハイパープリアーによる潜在変数のモデリングは、変動画像圧縮において不可欠な問題である。 正式には、レートと歪みの間のトレードオフは、プリエントとハイパープリアーが潜在変数を正確に記述している場合に適切に処理される。 現在のプラクティスでは、各変数を個別に処理する。 しかし、ベクトル化された視点で潜伏変数を観察する際、相関関係や相関関係は存在する。 これらの結果から,圧縮速度を向上し,並列処理能力を向上する視覚的冗長性が確認された。 これにより、先述した新しいベクトル化の提案が促される。 具体的には,多変量ガウス混合を平均と共分散で推定する。 そして、新しい確率的ベクトル量子化を利用して効果的に近似し、残りの共分散を統一混合にさらに誘導し、文脈モデルに関係のないカスケード推定により解決する。 さらに、量子化に関わるコードブックを複雑性低減のためにマルチコードブックに拡張し、効率的な圧縮手順を定式化する。 最先端技術に対するベンチマークデータセットの大規模な実験により、我々のモデルは速度歪み性能が良く、圧縮速度が3.18\times$3.18\time sアップしていることが示される。 ソースコードは \url{https://github.com/x iaosu-zhu/mcquic} で公開されている。

Modeling latent variables with priors and hyperpriors is an essential problem in variational image compression. Formally, trade-off between rate and distortion is handled well if priors and hyperpriors precisely describe latent variables. Current practices only adopt univariate priors and process each variable individually. However, we find inter-correlations and intra-correlations exist when observing latent variables in a vectorized perspective. These findings reveal visual redundancies to improve rate-distortion performance and parallel processing ability to speed up compression. This encourages us to propose a novel vectorized prior. Specifically, a multivariate Gaussian mixture is proposed with means and covariances to be estimated. Then, a novel probabilistic vector quantization is utilized to effectively approximate means, and remaining covariances are further induced to a unified mixture and solved by cascaded estimation without context models involved. Furthermore, codebooks involved in quantization are extended to multi-codebooks for complexity reduction, which formulates an efficient compression procedure. Extensive experiments on benchmark datasets against state-of-the-art indicate our model has better rate-distortion performance and an impressive $3.18\times$ compression speed up, giving us the ability to perform real-time, high-quality variational image compression in practice. Our source code is publicly available at \url{https://github.com/x iaosu-zhu/McQuic}.
翻訳日:2022-03-22 17:27:52 公開日:2022-03-21
# Geometry-Aware Embedding を用いた深度補完

Depth Completion using Geometry-Aware Embedding ( http://arxiv.org/abs/2203.10912v1 )

ライセンス: Link先を確認
Wenchao Du, Hu Chen, Hongyu Yang and Yi Zhang(参考訳) スパースライダーの内部空間幾何学的制約の活用は、深度完備には有用であるが、よく研究されていない。 本稿では,局所的およびグローバルな幾何学的構造情報を3Dポイント,例えばシーンレイアウト,物体の大きさや形状から符号化し,深度推定を導く,幾何学的認識の埋め込みを効率的に学習する方法を提案する。 具体的には、動的グラフ表現を用いて不規則点雲からの一般化幾何関係を柔軟かつ効率的にモデル化する。 さらに,この埋め込みとRGB外観情報とを連携させて,シーンの奥行きをよく保存された詳細で推測する。 この手法の鍵は,暗黙の3次元幾何学表現を2次元学習アーキテクチャに統合することで,パフォーマンスと効率のトレードオフを改善することである。 大規模な実験により,提案手法は従来の手法よりも優れており,過度に平滑な領域におけるきめ細かい境界で微細な深度を再構築できることを示した。 アブレーション研究は, 汎用性と安定性を向上しつつ, 単純な設計で有意な成果を得られる手法について, さらなる知見を与えるものである。 コードはhttps://github.com/W enchao-Du/GAENetで公開されている。

Exploiting internal spatial geometric constraints of sparse LiDARs is beneficial to depth completion, however, has been not explored well. This paper proposes an efficient method to learn geometry-aware embedding, which encodes the local and global geometric structure information from 3D points, e.g., scene layout, object's sizes and shapes, to guide dense depth estimation. Specifically, we utilize the dynamic graph representation to model generalized geometric relationship from irregular point clouds in a flexible and efficient manner. Further, we joint this embedding and corresponded RGB appearance information to infer missing depths of the scene with well structure-preserved details. The key to our method is to integrate implicit 3D geometric representation into a 2D learning architecture, which leads to a better trade-off between the performance and efficiency. Extensive experiments demonstrate that the proposed method outperforms previous works and could reconstruct fine depths with crisp boundaries in regions that are over-smoothed by them. The ablation study gives more insights into our method that could achieve significant gains with a simple design, while having better generalization capability and stability. The code is available at https://github.com/W enchao-Du/GAENet.
翻訳日:2022-03-22 17:27:31 公開日:2022-03-21
# 自己監督型迷路推定に向けて

Towards Self-Supervised Gaze Estimation ( http://arxiv.org/abs/2203.10974v1 )

ライセンス: Link先を確認
Arya Farkhondeh, Cristina Palmero, Simone Scardapane, Sergio Escalera(参考訳) 近年, 画像分類などの画像認識タスクにおいて, 標準教師あり手法を超越している。 これらの自己教師付き手法は、同一画像の2つの異なる変換されたビューから抽出された特徴間の一致を最大化することを目的としている。 しかしながら、これらのアプローチの有効性は、幾何学的変換(回転、水平フリップなど)の下で等分散を必要とする構造的回帰タスクである視線推定の文脈においていまだ明らかではない。 本研究では,オンラインクラスタリングに基づく自己教師型アプローチSwAVの同種版SwATを提案する。 自己教師付き事前学習における最も効果的な画像変換を特定し、resnet-50でswatが未作成の顔画像をサポートし、最先端の視線推定手法や教師付きベースラインを様々な実験で上回っていることを示す。 特に,既存のベンチマーク(ETH-XGaze,Gaze360,M PIIFaceGaze)において,クロスデータセットおよびデータ内評価タスクの最大57%と25%の改善を実現している。

Recent joint embedding-based self-supervised methods have surpassed standard supervised approaches on various image recognition tasks such as image classification. These self-supervised methods aim at maximizing agreement between features extracted from two differently transformed views of the same image, which results in learning an invariant representation with respect to appearance and geometric image transformations. However, the effectiveness of these approaches remains unclear in the context of gaze estimation, a structured regression task that requires equivariance under geometric transformations (e.g., rotations, horizontal flip). In this work, we propose SwAT, an equivariant version of the online clustering-based self-supervised approach SwAV, to learn more informative representations for gaze estimation. We identify the most effective image transformations for self-supervised pretraining and demonstrate that SwAT, with ResNet-50 and supported with uncurated unlabeled face images, outperforms state-of-the-art gaze estimation methods and supervised baselines in various experiments. In particular, we achieve up to 57% and 25% improvements in cross-dataset and within-dataset evaluation tasks on existing benchmarks (ETH-XGaze, Gaze360, and MPIIFaceGaze).
翻訳日:2022-03-22 17:27:10 公開日:2022-03-21
# MonoDTR:Depth-Aware Transformerを用いた単眼3次元物体検出

MonoDTR: Monocular 3D Object Detection with Depth-Aware Transformer ( http://arxiv.org/abs/2203.10981v1 )

ライセンス: Link先を確認
Kuan-Chih Huang, Tsung-Han Wu, Hung-Ting Su, Winston H. Hsu(参考訳) モノクロ3D物体検出は、自律運転において重要な課題である。 既存の手法では3次元検出を支援するためにオフザシェルフ深度推定器からの深度情報を利用するが、さらなる計算負荷に悩まされ、不正確な深度事前による限られた性能を達成する。 そこで本研究では,モノクロ3次元物体検出のための新しいエンド・ツー・エンドディープ・アウェア・トランスフォーマネットワークであるMonoDTRを提案する。 1)奥行き認識機能拡張(DFE)モジュールは、余分な計算を必要とせずに補助的な監視を伴う奥行き認識機能を暗黙的に学習し、(2)コンテキストと奥行き認識機能をグローバルに統合する奥行き認識変換器(DTR)モジュールである。 さらに,従来の画素単位の位置符号化とは違って,深度位置のヒントをトランスに注入する新しい深度位置符号化(DPE)を導入する。 提案する深度認識モジュールは,既存の画像専用単分子3Dオブジェクト検出器に容易に接続でき,性能が向上する。 KITTIデータセットの大規模な実験により、我々の手法は従来のモノクロ法よりも優れ、リアルタイム検出を実現していることが示された。 コードはhttps://github.com/k uanchihhuang/MonoDTR で入手できる。

Monocular 3D object detection is an important yet challenging task in autonomous driving. Some existing methods leverage depth information from an off-the-shelf depth estimator to assist 3D detection, but suffer from the additional computational burden and achieve limited performance caused by inaccurate depth priors. To alleviate this, we propose MonoDTR, a novel end-to-end depth-aware transformer network for monocular 3D object detection. It mainly consists of two components: (1) the Depth-Aware Feature Enhancement (DFE) module that implicitly learns depth-aware features with auxiliary supervision without requiring extra computation, and (2) the Depth-Aware Transformer (DTR) module that globally integrates context- and depth-aware features. Moreover, different from conventional pixel-wise positional encodings, we introduce a novel depth positional encoding (DPE) to inject depth positional hints into transformers. Our proposed depth-aware modules can be easily plugged into existing image-only monocular 3D object detectors to improve the performance. Extensive experiments on the KITTI dataset demonstrate that our approach outperforms previous state-of-the-art monocular-based methods and achieves real-time detection. Code is available at https://github.com/k uanchihhuang/MonoDTR
翻訳日:2022-03-22 17:26:50 公開日:2022-03-21
# 水中光フィールド保持 : 水中イメージングのためのニューラルレンダリング

Underwater Light Field Retention : Neural Rendering for Underwater Imaging ( http://arxiv.org/abs/2203.11006v1 )

ライセンス: Link先を確認
Tian Ye and Sixiang Chen and Yun Liu and Erkang Chen and Yi Ye and Yuche Li(参考訳) 水中画像レンダリングは、水中画像強調、カメラフィルター、バーチャルゲームなど、さまざまな実用用途に適用可能な、クリーンな水中画像から真に生き生きとした水中画像を生成することを目的としている。 水中画像のレンダリングにおける2つの難解な問題、すなわち課題について検討する。 一 一つのニューラルネットワークで 多様な水中シーンをレンダリングする方法? ii) 自然の例から水中の光場を適応的に学習する方法, \textit{i,e。 水中のリアルなイメージ? そこで本研究では,水中イメージングのためのニューラルレンダリング手法であるuwnr(underwater neural rendering)を提案する。 具体的には、uwnrはデータ駆動ニューラルネットワークであり、本物の水中画像から自然に生成されたモデルを暗黙的に学習する。 既存の水中画像生成法と比較して,UWNRは自然光場を利用して水中シーンの主特性をシミュレートする。 これにより、1つのクリーン画像から様々な水中画像と様々なリアルな水中画像とを合成することができる。 広範な実験により,従来の手法よりも優れた視覚効果と定量的指標が得られた。 さらに,UWNRを採用し,LNRUDと呼ばれる様々な水質を含む大規模ニューラルネットワーク水中データセットを構築する。

Underwater Image Rendering aims to generate a true-to-life underwater image from a given clean one, which could be applied to various practical applications such as underwater image enhancement, camera filter, and virtual gaming. We explore two less-touched but challenging problems in underwater image rendering, namely, i) how to render diverse underwater scenes by a single neural network? ii) how to adaptively learn the underwater light fields from natural exemplars, \textit{i,e.}, realistic underwater images? To this end, we propose a neural rendering method for underwater imaging, dubbed UWNR (Underwater Neural Rendering). Specifically, UWNR is a data-driven neural network that implicitly learns the natural degenerated model from authentic underwater images, avoiding introducing erroneous biases by hand-craft imaging models. Compared with existing underwater image generation methods, UWNR utilizes the natural light field to simulate the main characteristics of the underwater scene. Thus, it is able to synthesize a wide variety of underwater images from one clean image with various realistic underwater images. Extensive experiments demonstrate that our approach achieves better visual effects and quantitative metrics over previous methods. Moreover, we adopt UWNR to build an open Large Neural Rendering Underwater Dataset containing various types of water quality, dubbed LNRUD.
翻訳日:2022-03-22 17:26:25 公開日:2022-03-21
# クロスおよび単一センサカラーコンステンシーのための学習濃縮イルミナント

Learning Enriched Illuminants for Cross and Single Sensor Color Constancy ( http://arxiv.org/abs/2203.11068v1 )

ライセンス: Link先を確認
Xiaodong Cun, Zhendong Wang, Chi-Man Pun, Jianzhuang Liu, Wengang Zhou, Xu Jia, Houqiang Li(参考訳) カラーコンステンシーは、異なる照度の下でシーンの一定の色を復元することを目的としている。 しかし、カメラのスペクトル感度の存在により、特定のセンサーで訓練されたネットワークは、他のセンサーではうまく動作しない。 また、トレーニングデータセットは特定の環境で収集されるため、複雑な実世界の予測には照度の多様性が制限される。 本稿では2つの側面からこれらの問題に取り組む。 まず,ネットワークを学習するためのクロスセンサ自己教師付きトレーニングを提案する。 詳細は、現在利用可能なデータセットから得られる一般的なsRGB画像とホワイトバランスRAW画像の両方をホワイトバランスエージェントとして検討する。 そして,センサに依存しない方法で人工発光体をランダムにサンプリングして,シーンのリライティングと監視を行う。 第2に,従来のカスケードフレームワークを分析し,バックボーンパラメータを学習注意と共有することにより,よりコンパクトで正確なモデルを示す。 実験により,我々のクロスセンサモデルとシングルセンサモデルは,従来のベストモデルの16%のパラメータしか持たず,クロスセンサとシングルセンサの評価において,他の最先端手法よりも高いマージンを示した。

Color constancy aims to restore the constant colors of a scene under different illuminants. However, due to the existence of camera spectral sensitivity, the network trained on a certain sensor, cannot work well on others. Also, since the training datasets are collected in certain environments, the diversity of illuminants is limited for complex real world prediction. In this paper, we tackle these problems via two aspects. First, we propose cross-sensor self-supervised training to train the network. In detail, we consider both the general sRGB images and the white-balanced RAW images from current available datasets as the white-balanced agents. Then, we train the network by randomly sampling the artificial illuminants in a sensor-independent manner for scene relighting and supervision. Second, we analyze a previous cascaded framework and present a more compact and accurate model by sharing the backbone parameters with learning attention specifically. Experiments show that our cross-sensor model and single-sensor model outperform other state-of-the-art methods by a large margin on cross and single sensor evaluations, respectively, with only 16% parameters of the previous best model.
翻訳日:2022-03-22 17:26:03 公開日:2022-03-21
# PersFormer:spective TransformerとOpenLaneベンチマークによる3次元レーン検出

PersFormer: 3D Lane Detection via Perspective Transformer and the OpenLane Benchmark ( http://arxiv.org/abs/2203.11089v1 )

ライセンス: Link先を確認
Li Chen, Chonghao Sima, Yang Li, Zehan Zheng, Jiajie Xu, Xiangwei Geng, Hongyang Li, Conghui He, Jianping Shi, Yu Qiao, Junchi Yan(参考訳) 近年,多くの自律走行シナリオ(上り坂・下り坂など)における不正確な車線配置の問題に対処する3次元車線検出手法が提案されている。 従来の作業は、正面視と鳥眼視(BEV)の間の空間変換のシンプルな設計と現実的なデータセットの欠如により、複雑なケースで苦労した。 そこで,本稿では,トランスフォーマティブな空間特徴変換モジュールを備えた終端から終端の3dレーン検出器persformerを提案する。 本モデルでは,カメラパラメータを基準としたフロントビュー局所領域への参加により,BEVの特徴を生成する。 PersFormerは統合された2D/3Dアンカー設計と補助タスクを採用し、2D/3Dレーンを同時に検出し、機能の一貫性を高め、マルチタスク学習の利点を共有する。 さらに我々は,高品質なアノテーションとシナリオの多様性を備えたOpenLaneと呼ばれる,最初の大規模実世界の3Dレーンデータセットをリリースする。 OpenLaneには20万フレーム、インスタンスレベルのレーン880,000以上、14のレーンカテゴリ、シーンタグとクローズド・イン・パスのオブジェクトアノテーションが含まれており、車線検出や産業関連の自動運転手法の開発を促進する。 PersFormerは、新しいOpenLaneデータセットの3Dレーン検出タスクとアポロ3Dレーン合成データセットの競合ベースラインを大幅に上回り、OpenLaneの2Dタスクの最先端アルゴリズムと同等であることを示す。 プロジェクトページはhttps://github.com/o penperceptionx/openl ane。

Methods for 3D lane detection have been recently proposed to address the issue of inaccurate lane layouts in many autonomous driving scenarios (uphill/downhill, bump, etc.). Previous work struggled in complex cases due to their simple designs of the spatial transformation between front view and bird's eye view (BEV) and the lack of a realistic dataset. Towards these issues, we present PersFormer: an end-to-end monocular 3D lane detector with a novel Transformer-based spatial feature transformation module. Our model generates BEV features by attending to related front-view local regions with camera parameters as a reference. PersFormer adopts a unified 2D/3D anchor design and an auxiliary task to detect 2D/3D lanes simultaneously, enhancing the feature consistency and sharing the benefits of multi-task learning. Moreover, we release one of the first large-scale real-world 3D lane datasets, which is called OpenLane, with high-quality annotation and scenario diversity. OpenLane contains 200,000 frames, over 880,000 instance-level lanes, 14 lane categories, along with scene tags and the closed-in-path object annotations to encourage the development of lane detection and more industrial-related autonomous driving methods. We show that PersFormer significantly outperforms competitive baselines in the 3D lane detection task on our new OpenLane dataset as well as Apollo 3D Lane Synthetic dataset, and is also on par with state-of-the-art algorithms in the 2D task on OpenLane. The project page is available at https://github.com/O penPerceptionX/OpenL ane.
翻訳日:2022-03-22 17:24:51 公開日:2022-03-21
# パディング空間を用いた高忠実GANインバージョン

High-fidelity GAN Inversion with Padding Space ( http://arxiv.org/abs/2203.11105v1 )

ライセンス: Link先を確認
Qingyan Bai, Yinghao Xu, Jiapeng Zhu, Weihao Xia, Yujiu Yang, Yujun Shen(参考訳) GAN(Generative Adversarial Network)の反転は、事前訓練されたジェネレータを用いた幅広い画像編集作業を容易にする。 既存の手法では、通常、反転空間としてGANの潜伏空間を用いるが、空間詳細の回復は不十分である。 本研究では,空間情報を用いて潜在空間を補完する発電機のパディング空間について提案する。 具体的には、畳み込み層で使われる定数パディング(通常ゼロ)をいくつかのインスタンス認識係数で置き換える。 このように、事前学習されたモデルに仮定した帰納バイアスは、各画像に適合するように適切に適応することができる。 慎重に設計されたエンコーダを学習することで、定性的かつ定量的にインバージョン品質を向上し、既存の代替品よりも優れています。 すると、そのような空間拡張がネイティブ GAN 多様体にはほとんど影響しないことを示すので、様々な下流アプリケーションに対して GAN が学んだ事前知識を再利用することができる。 先行技術で探索された編集作業以外にも,顔の輪郭と顔の細部を別々に制御するなど,より柔軟な画像操作を可能にし,ユーザが効率的に自分の操作をカスタマイズできる新しい編集方法を実現する。

Inverting a Generative Adversarial Network (GAN) facilitates a wide range of image editing tasks using pre-trained generators. Existing methods typically employ the latent space of GANs as the inversion space yet observe the insufficient recovery of spatial details. In this work, we propose to involve the padding space of the generator to complement the latent space with spatial information. Concretely, we replace the constant padding (e.g., usually zeros) used in convolution layers with some instance-aware coefficients. In this way, the inductive bias assumed in the pre-trained model can be appropriately adapted to fit each individual image. Through learning a carefully designed encoder, we manage to improve the inversion quality both qualitatively and quantitatively, outperforming existing alternatives. We then demonstrate that such a space extension barely affects the native GAN manifold, hence we can still reuse the prior knowledge learned by GANs for various downstream applications. Beyond the editing tasks explored in prior arts, our approach allows a more flexible image manipulation, such as the separate control of face contour and facial details, and enables a novel editing manner where users can customize their own manipulations highly efficiently.
翻訳日:2022-03-22 17:24:23 公開日:2022-03-21
# drive&segment:クロスモーダル蒸留による都市景観の教師なし意味セグメンテーション

Drive&Segment: Unsupervised Semantic Segmentation of Urban Scenes via Cross-modal Distillation ( http://arxiv.org/abs/2203.11160v1 )

ライセンス: Link先を確認
Antonin Vobecky, David Hurych, Oriane Sim\'eoni, Spyros Gidaris, Andrei Bursuc, Patrick P\'erez, Josef Sivic(参考訳) 本研究は、カメラとLiDARセンサーを搭載した車両が収集した生の非計算データから、手動のアノテーションを使わずに、都市景観における画素単位のセマンティックイメージセグメンテーションを学習する。 私たちの貢献は3倍です。 まず,同期化LiDARと画像データを利用した意味的イメージセグメンテーションのクロスモーダルな教師なし学習手法を提案する。 提案手法の主な要素は,LiDAR点雲を解析して空間的に一貫したオブジェクトの提案を得るオブジェクト提案モジュールの利用である。 第二に、これらの3Dオブジェクトの提案は入力画像と一致し、セマンティックに意味のある擬似クラスに確実にクラスタ化可能であることを示す。 最後に, 擬似クラスに部分的にアノテートされた画像データを利用して, 画像意味セマンティクスセグメンテーションのためのトランスフォーマモデルを訓練するクロスモーダル蒸留法を開発した。 筆者らは,4つのテストデータセット(Cityscapes, Dark Zurich, Nighttime Driving, ACDC)を微調整せずにテストすることで,本手法の一般化能力を示すとともに,この問題に関する現在の技術状況と比較して,大幅な改善を示す。 project webpage https://vobecant.git hub.io/driveandsegme nt/ コードなどを参照。

This work investigates learning pixel-wise semantic image segmentation in urban scenes without any manual annotation, just from the raw non-curated data collected by cars which, equipped with cameras and LiDAR sensors, drive around a city. Our contributions are threefold. First, we propose a novel method for cross-modal unsupervised learning of semantic image segmentation by leveraging synchronized LiDAR and image data. The key ingredient of our method is the use of an object proposal module that analyzes the LiDAR point cloud to obtain proposals for spatially consistent objects. Second, we show that these 3D object proposals can be aligned with the input images and reliably clustered into semantically meaningful pseudo-classes. Finally, we develop a cross-modal distillation approach that leverages image data partially annotated with the resulting pseudo-classes to train a transformer-based model for image semantic segmentation. We show the generalization capabilities of our method by testing on four different testing datasets (Cityscapes, Dark Zurich, Nighttime Driving and ACDC) without any finetuning, and demonstrate significant improvements compared to the current state of the art on this problem. See project webpage https://vobecant.git hub.io/DriveAndSegme nt/ for the code and more.
翻訳日:2022-03-22 17:23:58 公開日:2022-03-21
# チャネル認識によるクラス条件付きGANの解釈

Interpreting Class Conditional GANs with Channel Awareness ( http://arxiv.org/abs/2203.11173v1 )

ライセンス: Link先を確認
Yingqing He, Zhiyi Zhang, Jiapeng Zhu, Yujun Shen, Qifeng Chen(参考訳) GAN(Generative Adversarial Network)のメカニズムを理解することで、下流アプリケーションにGANをうまく利用することができます。 既存の取り組みは主に無条件モデルの解釈を対象としており、条件付きGANが様々なカテゴリに関する画像のレンダリングを学習する方法については明らかになっていない。 この研究は、クラス条件生成器が複数のクラスの合成をどのように統一するかを調べることで、このギャップを埋める。 この目的のために、広く使われているクラス条件バッチ正規化(CCBN)を掘り下げ、各特徴チャネルが異なるカテゴリの埋め込みによって異なる度に活性化されていることを観察する。 このような現象を説明するために,単一チャネルが最終合成にどのように寄与するかを定量的に特徴付けるチャネル認識を提案する。 ImageNetで事前訓練されたBigGANモデルに関する広範囲な評価と分析により、特定のカテゴリの生成にはチャネルのサブセットしか関与せず、同様のカテゴリ(例:猫と犬)が通常同じチャネルに関連付けられ、いくつかのチャンネルがすべてのクラスで情報を共有することが判明した。 提案アルゴリズムは,条件付きGANを用いたいくつかの新しい応用を可能にする。 具体的には,(1)1つのチャンネルを単に変更するだけで画像編集が可能となり,(2)2つのクラスを調和的にハイブリダイズする。 さらに,提案するチャネル認識は,(3)合成画像のセグメンテーションにおいて有望な可能性を示し,(4)カテゴリー別合成性能を評価する。

Understanding the mechanism of generative adversarial networks (GANs) helps us better use GANs for downstream applications. Existing efforts mainly target interpreting unconditional models, leaving it less explored how a conditional GAN learns to render images regarding various categories. This work fills in this gap by investigating how a class conditional generator unifies the synthesis of multiple classes. For this purpose, we dive into the widely used class-conditional batch normalization (CCBN), and observe that each feature channel is activated at varying degrees given different categorical embeddings. To describe such a phenomenon, we propose channel awareness, which quantitatively characterizes how a single channel contributes to the final synthesis. Extensive evaluations and analyses on the BigGAN model pre-trained on ImageNet reveal that only a subset of channels is primarily responsible for the generation of a particular category, similar categories (e.g., cat and dog) usually get related to some same channels, and some channels turn out to share information across all classes. For good measure, our algorithm enables several novel applications with conditional GANs. Concretely, we achieve (1) versatile image editing via simply altering a single channel and manage to (2) harmoniously hybridize two different classes. We further verify that the proposed channel awareness shows promising potential in (3) segmenting the synthesized image and (4) evaluating the category-wise synthesis performance.
翻訳日:2022-03-22 17:23:33 公開日:2022-03-21
# 点雲上の自己教師付き学習のためのマスク付き識別

Masked Discrimination for Self-Supervised Learning on Point Clouds ( http://arxiv.org/abs/2203.11183v1 )

ライセンス: Link先を確認
Haotian Liu, Mu Cai, Yong Jae Lee(参考訳) マスク付き自動エンコーディングは、画像と言語領域における自己教師あり学習で大きな成功を収めた。 しかし、マスクベースの事前トレーニングは、おそらくpointnetのような標準的なバックボーンがトレーニング中にマスクによって引き起こされたテスト分散ミスマッチを適切に処理できないため、ポイントクラウド理解の利点をまだ示していない。 本稿では,このギャップを,点雲に対する識別マスク事前学習型トランスフォーマーフレームワークMaskPointの提案により埋める。 私たちの重要なアイデアは、ポイントクラウドを離散的な占有率(ポイントクラウドの一部なら1、そうでないなら0)として表現し、マスクされたオブジェクトポイントとサンプルされたノイズポイントをプロキシタスクとして単純なバイナリ分類を行うことです。 このようにして、我々のアプローチは点雲における点サンプリング分散に頑健であり、リッチ表現の学習を促進する。 我々は,3次元形状分類,セグメンテーション,実単語オブジェクト検出などの下流タスクを対象とした事前学習モデルの評価を行い,先行学習速度(ScanNetの4.1倍)を従来の最先端トランスフォーマーベースラインと比較した。 コードはhttps://github.com/h aotian-liu/MaskPoint .comで公開される。

Masked autoencoding has achieved great success for self-supervised learning in the image and language domains. However, mask based pretraining has yet to show benefits for point cloud understanding, likely due to standard backbones like PointNet being unable to properly handle the training versus testing distribution mismatch introduced by masking during training. In this paper, we bridge this gap by proposing a discriminative mask pretraining Transformer framework, MaskPoint}, for point clouds. Our key idea is to represent the point cloud as discrete occupancy values (1 if part of the point cloud; 0 if not), and perform simple binary classification between masked object points and sampled noise points as the proxy task. In this way, our approach is robust to the point sampling variance in point clouds, and facilitates learning rich representations. We evaluate our pretrained models across several downstream tasks, including 3D shape classification, segmentation, and real-word object detection, and demonstrate state-of-the-art results while achieving a significant pretraining speedup (e.g., 4.1x on ScanNet) compared to the prior state-of-the-art Transformer baseline. Code will be publicly available at https://github.com/h aotian-liu/MaskPoint .
翻訳日:2022-03-22 17:23:07 公開日:2022-03-21
# セグメンテーションによるロバスト視覚追跡

Robust Visual Tracking by Segmentation ( http://arxiv.org/abs/2203.11191v1 )

ライセンス: Link先を確認
Matthieu Paul, Martin Danelljan, Christoph Mayer and Luc Van Gool(参考訳) 対象範囲の推定は、視覚オブジェクト追跡において根本的な課題となる。 通常、トラッカーはボックス中心であり、シーンのターゲットを定義するためにバウンディングボックスに完全に依存する。 実際には、オブジェクトはしばしば複雑な形状を持ち、画像軸と整列していない。 この場合、バウンディングボックスはターゲットの正確な記述を提供しておらず、背景ピクセルの大部分を含むことが多い。 本稿では,高精度なセグメンテーションマスクを生成するだけでなく,ボックス境界の代わりにセグメンテーションマスクを内部で動作させるセグメンテーション中心のトラッキングパイプラインを提案する。 これにより,映像中のターゲットを背景コンテンツと明確に区別するターゲット表現をよりよく学習することができる。 課題追跡シナリオに必要なロバスト性を実現するために,出力マスクの生成時にセグメンテーションデコーダを条件付けるために使用するインスタンスローカライズコンポーネントを提案する。 セグメンテーションマスクからバウンディングボックスを推定し、追跡データセットに挑戦するトラッカを検証するとともに、aucスコア69.7%でlasotの新たな最先端技術を達成する。 マスクアノテーションの欠如により,データセットのトラッキングにおける予測マスクの完全評価は不可能であるため,2つの人気ビデオオブジェクトセグメンテーションデータセットのセグメンテーション品質をさらに検証する。

Estimating the target extent poses a fundamental challenge in visual object tracking. Typically, trackers are box-centric and fully rely on a bounding box to define the target in the scene. In practice, objects often have complex shapes and are not aligned with the image axis. In these cases, bounding boxes do not provide an accurate description of the target and often contain a majority of background pixels. We propose a segmentation-centric tracking pipeline that not only produces a highly accurate segmentation mask, but also works internally with segmentation masks instead of bounding boxes. Thus, our tracker is able to better learn a target representation that clearly differentiates the target in the scene from background content. In order to achieve the necessary robustness for the challenging tracking scenario, we propose a separate instance localization component that is used to condition the segmentation decoder when producing the output mask. We infer a bounding box from the segmentation mask and validate our tracker on challenging tracking datasets and achieve the new state of the art on LaSOT with a success AUC score of 69.7%. Since fully evaluating the predicted masks on tracking datasets is not possible due to the missing mask annotations, we further validate our segmentation quality on two popular video object segmentation datasets.
翻訳日:2022-03-22 17:22:42 公開日:2022-03-21
# 追跡のための変換モデル予測

Transforming Model Prediction for Tracking ( http://arxiv.org/abs/2203.11192v1 )

ライセンス: Link先を確認
Christoph Mayer, Martin Danelljan, Goutam Bhat, Matthieu Paul, Danda Pani Paudel, Fisher Yu, Luc Van Gool(参考訳) 目標モデル予測モジュールを統合することで、最適化ベースの追跡手法が広く成功し、目的関数を最小化することで効果的なグローバル推論を提供する。 この帰納バイアスは貴重なドメイン知識を統合するが、トラッキングネットワークの表現性を制限する。 そこで本研究では,トランスフォーマティブモデル予測モジュールを用いたトラッカアーキテクチャを提案する。 トランスフォーマーは、誘導バイアスの少ないグローバルな関係を捉え、より強力なターゲットモデルの予測を学ぶことができる。 さらに、モデル予測器を拡張して、正確な境界ボックス回帰に適用される第2の重みを推定する。 結果として得られたトラッカーは、全ての重量をトランスダクティブに予測するために、トレーニングとテストフレーム情報に依存する。 提案するトラッカをエンドツーエンドでトレーニングし,複数の追跡データセットに対して包括的な実験を行い,その性能を検証する。 我々のトラッカーは3つのベンチマークで新しい技術状態を設定し、挑戦的なLaSOTデータセットで68.5%のAUCを達成した。

Optimization based tracking methods have been widely successful by integrating a target model prediction module, providing effective global reasoning by minimizing an objective function. While this inductive bias integrates valuable domain knowledge, it limits the expressivity of the tracking network. In this work, we therefore propose a tracker architecture employing a Transformer-based model prediction module. Transformers capture global relations with little inductive bias, allowing it to learn the prediction of more powerful target models. We further extend the model predictor to estimate a second set of weights that are applied for accurate bounding box regression. The resulting tracker relies on training and on test frame information in order to predict all weights transductively. We train the proposed tracker end-to-end and validate its performance by conducting comprehensive experiments on multiple tracking datasets. Our tracker sets a new state of the art on three benchmarks, achieving an AUC of 68.5% on the challenging LaSOT dataset.
翻訳日:2022-03-22 17:22:21 公開日:2022-03-21
# (参考訳) 複雑な問いにどう答えるか - 長文回答の談話構造- [全文訳有]

How Do We Answer Complex Questions: Discourse Structure of Long-form Answers ( http://arxiv.org/abs/2203.11048v1 )

ライセンス: CC BY-SA 4.0
Fangyuan Xu, Junyi Jessy Li, Eunsol Choi(参考訳) 複数の文からなる長文の回答は、幅広い質問に対するニュアンスと包括的回答を提供することができる。 本研究では,3つのデータセット(ELI5, WebGPT, Natural Questions)から収集した長文回答の機能構造について検討する。 私たちの主な目標は、人間が複雑な答えを作るためにどのように情報を整理するかを理解することです。 長文文レベルの機能的役割のオントロジーを開発し、640段落の3.9k文を注釈化する。 異なる回答収集手法は、異なる談話構造に現れる。 モデル生成の回答をアノテートするよりも、モデル生成の回答をアノテートする場合にアノテータが互いに合意しないことを見出します。 アノテーション付きデータは、自動分析に使用できる強力な分類器のトレーニングを可能にします。 今後, 談話レベルのモデリングと長期QAシステムの評価について, 今後の研究に刺激を与えることを期待している。

Long-form answers, consisting of multiple sentences, can provide nuanced and comprehensive answers to a broader set of questions. To better understand this complex and understudied task, we study the functional structure of long-form answers collected from three datasets, ELI5, WebGPT and Natural Questions. Our main goal is to understand how humans organize information to craft complex answers. We develop an ontology of six sentence-level functional roles for long-form answers, and annotate 3.9k sentences in 640 answer paragraphs. Different answer collection methods manifest in different discourse structures. We further analyze model-generated answers -- finding that annotators agree less with each other when annotating model-generated answers compared to annotating human-written answers. Our annotated data enables training a strong classifier that can be used for automatic analysis. We hope our work can inspire future research on discourse-level modeling and evaluation of long-form QA systems.
翻訳日:2022-03-22 17:17:07 公開日:2022-03-21
# 空中映像認識のためのフーリエ異方性時空注意

Fourier Disentangled Space-Time Attention for Aerial Video Recognition ( http://arxiv.org/abs/2203.10694v1 )

ライセンス: Link先を確認
Divya Kothandaraman, Tianrui Guan, Xijun Wang, Sean Hu, Ming Lin, Dinesh Manocha(参考訳) 本稿では,UAVビデオ行動認識のためのFAR(Fourier Activity Recognition)アルゴリズムを提案する。 提案手法では,人間のエージェント(典型的には小さかった)を背景から自然に分離するために,フーリエオブジェクト・ディスタングルメント法を用いる。 本手法は,空間画素の時間変化の程度を特徴付けるために周波数領域で動作し,フーリエ変換の畳み込み乗算特性を利用して,ネットワークから得られた対象バックグランド絡み込み特徴にその表現をマッピングする。 文脈情報と長距離時空依存性をカプセル化するために,重み付き外積を周波数領域でモデル化し,自己注意の利点を模倣する新しいフーリエ注意アルゴリズムを提案する。 我々のフーリエアテンション定式化は、自己注意よりもはるかに少ない計算を使用する。 我々はUAV Human RGB、UAV Human Night、Drone Action、NEC Droneを含む複数のUAVデータセットに対するアプローチを評価した。 我々は、トップ1の精度が8.02%38.69%、以前の作業よりも最大3倍向上したことを示す。

We present an algorithm, Fourier Activity Recognition (FAR), for UAV video activity recognition. Our formulation uses a novel Fourier object disentanglement method to innately separate out the human agent (which is typically small) from the background. Our disentanglement technique operates in the frequency domain to characterize the extent of temporal change of spatial pixels, and exploits convolution-multipli cation properties of Fourier transform to map this representation to the corresponding object-background entangled features obtained from the network. To encapsulate contextual information and long-range space-time dependencies, we present a novel Fourier Attention algorithm, which emulates the benefits of self-attention by modeling the weighted outer product in the frequency domain. Our Fourier attention formulation uses much fewer computations than self-attention. We have evaluated our approach on multiple UAV datasets including UAV Human RGB, UAV Human Night, Drone Action, and NEC Drone. We demonstrate a relative improvement of 8.02% - 38.69% in top-1 accuracy and up to 3 times faster over prior works.
翻訳日:2022-03-22 16:44:47 公開日:2022-03-21
# HP-Capsule:階層型パーシングカプセルネットワークによる教師なし顔部分発見

HP-Capsule: Unsupervised Face Part Discovery by Hierarchical Parsing Capsule Network ( http://arxiv.org/abs/2203.10699v1 )

ライセンス: Link先を確認
Chang Yu, Xiangyu Zhu, Xiaomei Zhang, Zidu Wang, Zhaoxiang Zhang, Zhen Lei(参考訳) カプセルネットワークは、オブジェクトを一組の部品とその関係によって提示するように設計されており、視覚知覚の手順に関する洞察を提供する。 近年の研究では、digitsのような単純な物体上でカプセルネットワークが成功していることが示されているが、カプセルに適合する相同構造を持つ人間の顔は研究されていない。 本稿では,非教師付き顔部分発見のための階層型パーシングカプセルネットワーク(HP-Capsule Network)を提案する。 ラベルのない大規模な顔画像を閲覧する場合、ネットワークはまず、しばしば観察されるパターンを説明可能な部分カプセルのセットでエンコードする。 次に、部分カプセルをトランスフォーマーベースのパーシングモジュール(TPM)を介して部分レベルのカプセルに組み立て、それらの構成関係を学習する。 トレーニング中、顔階層は徐々に構築され洗練され、パーツカプセルはセマンティックな一貫性を持って顔部品を適応的にエンコードする。 HP-Capsuleは、数字から人間の顔へのカプセルネットワークの適用を拡張し、ニューラルネットワークが人間の介入なしにホモロジーオブジェクトをどのように理解しているかを示す。 さらにhp-capsuleは、部分カプセルの被覆領域による教師なしの顔セグメンテーションの結果を与え、質的かつ定量的な評価を可能にする。 BP4DおよびMulti-PIEデータセットを用いた実験により,本手法の有効性が示された。

Capsule networks are designed to present the objects by a set of parts and their relationships, which provide an insight into the procedure of visual perception. Although recent works have shown the success of capsule networks on simple objects like digits, the human faces with homologous structures, which are suitable for capsules to describe, have not been explored. In this paper, we propose a Hierarchical Parsing Capsule Network (HP-Capsule) for unsupervised face subpart-part discovery. When browsing large-scale face images without labels, the network first encodes the frequently observed patterns with a set of explainable subpart capsules. Then, the subpart capsules are assembled into part-level capsules through a Transformer-based Parsing Module (TPM) to learn the compositional relations between them. During training, as the face hierarchy is progressively built and refined, the part capsules adaptively encode the face parts with semantic consistency. HP-Capsule extends the application of capsule networks from digits to human faces and takes a step forward to show how the neural networks understand homologous objects without human intervention. Besides, HP-Capsule gives unsupervised face segmentation results by the covered regions of part capsules, enabling qualitative and quantitative evaluation. Experiments on BP4D and Multi-PIE datasets show the effectiveness of our method.
翻訳日:2022-03-22 16:44:27 公開日:2022-03-21
# transfusion: トランスフォーマーを用いた医用画像分割のためのマルチビューダイバージェント融合

TransFusion: Multi-view Divergent Fusion for Medical Image Segmentation with Transformers ( http://arxiv.org/abs/2203.10726v1 )

ライセンス: Link先を確認
Di Liu, Yunhe Gao, Qilong Zhangli, Zhennan Yan, Mu Zhou and Dimitris Metaxas(参考訳) 多視点画像からの情報を組み合わせることは,疾患診断の自動化手法の性能とロバスト性を改善する上で重要である。 しかし、多視点画像の非アライメント特性のため、ビュー間の相関やデータ融合は未解決のままである。 本研究では,畳み込み層と強力な注意機構を用いた多視点画像情報を融合するトランスフォーマーアーキテクチャであるTransFusionを提案する。 特に、異なる画像ビューからの非整合データ間の長距離相関を捉えるという問題に対処するため、リッチなクロスビュー・コンテキストモデリングとセマンティック・依存性マイニングのために、ダイバージェント・フュージョン・アテンション(difa)モジュールが提案されている。 さらに,マルチスケール特徴表現のグローバル対応を収集するためのマルチスケール注意(MSA)を提案する。 心臓MRI(M\&Ms-2)課題コホートにおける多自由度, マルチビュー, マルチセンター右室セグメンテーションにおけるTransFusionの評価を行った。 transfusionは最先端の手法に対するリードパフォーマンスを示し、ロバストな医用画像セグメンテーションに向けたマルチビュー画像統合のための新しい視点を開く。

Combining information from multi-view images is crucial to improve the performance and robustness of automated methods for disease diagnosis. However, due to the non-alignment characteristics of multi-view images, building correlation and data fusion across views largely remain an open problem. In this study, we present TransFusion, a Transformer-based architecture to merge divergent multi-view imaging information using convolutional layers and powerful attention mechanisms. In particular, the Divergent Fusion Attention (DiFA) module is proposed for rich cross-view context modeling and semantic dependency mining, addressing the critical issue of capturing long-range correlations between unaligned data from different image views. We further propose the Multi-Scale Attention (MSA) to collect global correspondence of multi-scale feature representations. We evaluate TransFusion on the Multi-Disease, Multi-View \& Multi-Center Right Ventricular Segmentation in Cardiac MRI (M\&Ms-2) challenge cohort. TransFusion demonstrates leading performance against the state-of-the-art methods and opens up new perspectives for multi-view imaging integration towards robust medical image segmentation.
翻訳日:2022-03-22 16:44:06 公開日:2022-03-21
# DSRRTracker: 注意に基づくシームズ多目的追跡のための動的検索領域リファインメント

DSRRTracker: Dynamic Search Region Refinement for Attention-based Siamese Multi-Object Tracking ( http://arxiv.org/abs/2203.10729v1 )

ライセンス: Link先を確認
JiaXu Wan, Hong Zhang, Jin Zhang, Yuan Ding, Yifan Yang, Yan Li and Xuliang Li(参考訳) 多くのマルチオブジェクト追跡(MOT)手法は、検出結果に基づいて対象オブジェクトを関連付ける「検出による追跡」という枠組みに従う。 しかし, 検出とアソシエーションの分離モデルにより, 追跡結果は最適ではないため, 高トラッキング性能を実現するために, いくつかの面倒なアソシエーション手法によって速度が制限される。 本研究では,過去のフレームからのテンプレート情報と,現在のフレームからの検出結果の両方を計算負担が少なく考慮し,検索領域を動的にフィルタリング・精査するガウスフィルタインスパイアされた動的検索領域改良モジュールを用いたエンドツーエンドMOT法と,効率的なインスタンス関連を実現するための軽量な注目型トラッキングヘッドを提案する。 MOT17とMOT20データセットの大規模な実験とアブレーション実験により,本手法が最先端の性能を妥当な速度で達成できることが実証された。

Many multi-object tracking (MOT) methods follow the framework of "tracking by detection", which associates the target objects-of-interest based on the detection results. However, due to the separate models for detection and association, the tracking results are not optimal.Moreover, the speed is limited by some cumbersome association methods to achieve high tracking performance. In this work, we propose an end-to-end MOT method, with a Gaussian filter-inspired dynamic search region refinement module to dynamically filter and refine the search region by considering both the template information from the past frames and the detection results from the current frame with little computational burden, and a lightweight attention-based tracking head to achieve the effective fine-grained instance association. Extensive experiments and ablation study on MOT17 and MOT20 datasets demonstrate that our method can achieve the state-of-the-art performance with reasonable speed.
翻訳日:2022-03-22 16:43:40 公開日:2022-03-21
# (参考訳) 時系列における異常検出のための多元的説明法 [全文訳有]

Diverse Counterfactual Explanations for Anomaly Detection in Time Series ( http://arxiv.org/abs/2203.11103v1 )

ライセンス: CC BY 4.0
Deborah Sulem and Michele Donini and Muhammad Bilal Zafar and Francois-Xavier Aubet and Jan Gasthaus and Tim Januschowski and Sanjiv Das and Krishnaram Kenthapadi and Cedric Archambeau(参考訳) 時系列データの異常を検出するデータ駆動型メソッドは、実際にはユビキタスだが、一般的には予測に有用な説明を提供することができない。 本研究では,時系列異常検出モデルに対する反実的アンサンブル説明を生成するモデル非依存アルゴリズムを提案する。 本手法は, 検出モデルでは異常とはみなされない, もともとの時系列の複数の摂動バージョンに対して, 種々の逆実例を生成する。 摂動の大きさは限られているため、これらの反事実はモデルが正規と考える元の時系列に似た入力のアンサンブルを表す。 本アルゴリズムは任意の可微分異常検出モデルに適用できる。 本稿では,実世界の不平等・多変量データセットと2つの深層学習に基づく異常検出モデルについて,妥当性,信頼性,親密性,多様性といった他のデータ領域で提案されている説明可能性基準に基づいて検討する。 提案アルゴリズムは,これらの基準を満たす反実例のアンサンブルを生成でき,新しいタイプの可視化により,既存の手法よりもモデルの内部メカニズムの豊富な解釈を伝達できることを示す。 さらに,本手法のスパース変種を設計し,高次元時系列異常に対する対実的説明の解釈性を向上させる。 この設定では、我々の説明はわずか数次元で局所化され、従ってモデル利用者により効率的に伝達することができる。

Data-driven methods that detect anomalies in times series data are ubiquitous in practice, but they are in general unable to provide helpful explanations for the predictions they make. In this work we propose a model-agnostic algorithm that generates counterfactual ensemble explanations for time series anomaly detection models. Our method generates a set of diverse counterfactual examples, i.e, multiple perturbed versions of the original time series that are not considered anomalous by the detection model. Since the magnitude of the perturbations is limited, these counterfactuals represent an ensemble of inputs similar to the original time series that the model would deem normal. Our algorithm is applicable to any differentiable anomaly detection model. We investigate the value of our method on univariate and multivariate real-world datasets and two deep-learning-based anomaly detection models, under several explainability criteria previously proposed in other data domains such as Validity, Plausibility, Closeness and Diversity. We show that our algorithm can produce ensembles of counterfactual examples that satisfy these criteria and thanks to a novel type of visualisation, can convey a richer interpretation of a model's internal mechanism than existing methods. Moreover, we design a sparse variant of our method to improve the interpretability of counterfactual explanations for high-dimensional time series anomalies. In this setting, our explanation is localised on only a few dimensions and can therefore be communicated more efficiently to the model's user.
翻訳日:2022-03-22 16:42:26 公開日:2022-03-21
# 単語順は重要(そしてシャッフルされた言語モデルはそれを知っている)

Word Order Does Matter (And Shuffled Language Models Know It) ( http://arxiv.org/abs/2203.10995v1 )

ライセンス: Link先を確認
Vinit Ravishankar, Mostafa Abdou, Artur Kulmizev, Anders S{\o}gaard(参考訳) 近年の研究では、ランダムに置換された文に事前訓練や微調整を施した言語モデルがGLUE上での競争性能を示すことが示されており、語順情報の重要性が疑問視されている。 反対に、これらの研究のいくつかは、位置埋め込みがシャッフルテキストを用いたモデルの性能向上に不可欠であると報告している。 本稿では,これらの言語モデルを単語順序情報として探索し,シャッフルテキストエンコードから学習した位置埋め込みについて検討し,これらのモデルが本来の自然主義的な単語順序に関する情報を保持することを示す。 これは、サブワードのセグメンテーションよりも前に、以前の作業でシャッフルがどのように実装されているか、という微妙な違いによる部分です。 意外なことに、文長とユニグラム確率の統計的依存性から、サブワードセグメンテーション後のテキストシャッフルで訓練された言語モデルでも、単語順序に関する情報はある程度保持されている。 最後に,GLUE以外では,様々な言語理解タスクが単語の順序情報を必要とすることを示し,微調整によって学習できない程度にまで拡張する。

Recent studies have shown that language models pretrained and/or fine-tuned on randomly permuted sentences exhibit competitive performance on GLUE, putting into question the importance of word order information. Somewhat counter-intuitively, some of these studies also report that position embeddings appear to be crucial for models' good performance with shuffled text. We probe these language models for word order information and investigate what position embeddings learned from shuffled text encode, showing that these models retain information pertaining to the original, naturalistic word order. We show this is in part due to a subtlety in how shuffling is implemented in previous work -- before rather than after subword segmentation. Surprisingly, we find even Language models trained on text shuffled after subword segmentation retain some semblance of information about word order because of the statistical dependencies between sentence length and unigram probabilities. Finally, we show that beyond GLUE, a variety of language understanding tasks do require word order information, often to an extent that cannot be learned through fine-tuning.
翻訳日:2022-03-22 16:17:10 公開日:2022-03-21
# 関連論文「もし...」 手続き的推論

Relevant CommonSense Subgraphs for "What if..." Procedural Reasoning ( http://arxiv.org/abs/2203.11187v1 )

ライセンス: Link先を確認
Chen Zheng, Parisa Kordjamshidi(参考訳) 我々は,外部コモンセンスの知識が必要な場合,手続きテキスト上で因果推論を学ぶことの課題について検討する。 本稿では,新しいマルチホップグラフ推論モデルを提案する。 1) 大規模知識グラフから最も関連性の高い情報を効率的に抽出する。 2)コモンセンスのサブグラフから得られた表現と,質問と文脈間の文脈的相互作用を考察し,因果解を予測する。 我々は,WIQAベンチマークを用いて評価を行い,最近のモデルと比較して最先端の性能を実現する。

We study the challenge of learning causal reasoning over procedural text to answer "What if..." questions when external commonsense knowledge is required. We propose a novel multi-hop graph reasoning model to 1) efficiently extract a commonsense subgraph with the most relevant information from a large knowledge graph; 2) predict the causal answer by reasoning over the representations obtained from the commonsense subgraph and the contextual interactions between the questions and context. We evaluate our model on WIQA benchmark and achieve state-of-the-art performance compared to the recent models.
翻訳日:2022-03-22 16:16:53 公開日:2022-03-21
# 産業用人間中心人工知能アーキテクチャ 5.0 応用

Human-Centric Artificial Intelligence Architecture for Industry 5.0 Applications ( http://arxiv.org/abs/2203.10794v1 )

ライセンス: Link先を確認
Jo\v{z}e M. Ro\v{z}anec, Inna Novalija, Patrik Zajec, Klemen Kenda, Hooman Tavakoli, Sungho Suh, Entso Veliou, Dimitrios Papamartzivanos, Thanassis Giannetsos, Sofia Anna Menesidou, Ruben Alonso, Nino Cauli, Antonello Meloni, Diego Reforgiato Recupero, Dimosthenis Kyriazis, Georgios Sofianidis, Spyros Theodoropoulos, Bla\v{z} Fortuna, Dunja Mladeni\'c, John Soldatos(参考訳) 人間中心性は製造業の5.0への進化の核心となる価値である。 それにもかかわらず、安全性、信頼性、人間中心性を考えるアーキテクチャが欠如している。 そこで我々は,人間と機械のシナジーに着目し,人工知能(アクティブラーニング,予測,説明可能な人工知能)を統合し,現実,意思決定,ユーザのフィードバックをシミュレートするアーキテクチャを提案する。 さらに、提案したアーキテクチャを、Big Data Value Association Reference Architecture Modelと整合させる。 最後に、実世界のケーススタディから2つのユースケースで検証する。

Human-centricity is the core value behind the evolution of manufacturing towards Industry 5.0. Nevertheless, there is a lack of architecture that considers safety, trustworthiness, and human-centricity at its core. Therefore, we propose an architecture that integrates Artificial Intelligence (Active Learning, Forecasting, Explainable Artificial Intelligence), simulated reality, decision-making, and users' feedback, focusing on synergies between humans and machines. Furthermore, we align the proposed architecture with the Big Data Value Association Reference Architecture Model. Finally, we validate it on two use cases from real-world case studies.
翻訳日:2022-03-22 16:16:23 公開日:2022-03-21
# (参考訳) 大気科学のための空間的検証手法をニューラルネットワーク損失関数に統合できるか?

Can we integrate spatial verification methods into neural-network loss functions for atmospheric science? ( http://arxiv.org/abs/2203.11141v1 )

ライセンス: CC BY 4.0
Ryan Lagerquist and Imme Ebert-Uphoff(参考訳) 過去10年間、大気科学における多くの研究は、格子状の予測のための空間的検証(SV)手法に焦点を当ててきた。 しかしながら、大気科学におけるニューラルネットワーク(NN)は、SV法で最終的に評価された場合でも、ほぼ常にピクセル単位の損失関数を最適化するよう訓練されている。 これにより、トレーニング中のモデル検証とトレーニング後のモデルの分離が確立される。 この問題に対処するため,我々は空間的に拡張された損失関数(SELF)を開発し,実世界の課題として,NNによる雷雨(以下「対流」)の発生を予測する。 各自己では、しきい値よりも大きなスケールで対流を強調する近傍フィルターか、より柔軟で2つのしきい値の間のスケールで対流を強調するスペクトルフィルタ(フーリエ分解またはウェーブレット分解)のいずれかを使う。 これらのフィルタを用いて、Brierスコアなどの共通検証スコアを空間的に拡張する。 各nnを異なる自己で訓練し,個々のストームセルから熱帯サイクロンまで,多数の対流スケールで性能を比較する。 私たちの多くの発見の中には (a)低い(高い)リスクしきい値の場合、理想の自己は、小さい(大きな)スケールに集中する。 (b)画素分割損失関数で訓練されたモデルは、驚くほどよく機能する。 c) スペクトルフィルタで学習したモデルでは,ピクセルワイズモデルよりも精度が向上した。 技術的課題や最終的なPythonコードを含むSELFの使用に関する一般的なガイドや,対流問題に対する使用例を示す。 我々の知る限り、これは地球科学におけるSELFの詳細なガイドである。

In the last decade, much work in atmospheric science has focused on spatial verification (SV) methods for gridded prediction, which overcome serious disadvantages of pixelwise verification. However, neural networks (NN) in atmospheric science are almost always trained to optimize pixelwise loss functions, even when ultimately assessed with SV methods. This establishes a disconnect between model verification during vs. after training. To address this issue, we develop spatially enhanced loss functions (SELF) and demonstrate their use for a real-world problem: predicting the occurrence of thunderstorms (henceforth, "convection") with NNs. In each SELF we use either a neighbourhood filter, which highlights convection at scales larger than a threshold, or a spectral filter (employing Fourier or wavelet decomposition), which is more flexible and highlights convection at scales between two thresholds. We use these filters to spatially enhance common verification scores, such as the Brier score. We train each NN with a different SELF and compare their performance at many scales of convection, from discrete storm cells to tropical cyclones. Among our many findings are that (a) for a low (high) risk threshold, the ideal SELF focuses on small (large) scales; (b) models trained with a pixelwise loss function perform surprisingly well; (c) however, models trained with a spectral filter produce better-calibrated probabilities than a pixelwise model. We provide a general guide to using SELFs, including technical challenges and the final Python code, as well as demonstrating their use for the convection problem. To our knowledge this is the most in-depth guide to SELFs in the geosciences.
翻訳日:2022-03-22 16:14:03 公開日:2022-03-21
# 線形回帰に基づく中間レベルの攻撃枠組み

An Intermediate-level Attack Framework on The Basis of Linear Regression ( http://arxiv.org/abs/2203.10723v1 )

ライセンス: Link先を確認
Yiwen Guo, Qizhang Li, Wangmeng Zuo, Hao Chen(参考訳) 本論文はECCVにおいて,いくつかのベースライン対向例の転送性を改善するため,中間レベル攻撃を提案した。 我々は,中間レベルの不一致(敵の特徴と良質な特徴)から,敵の例の分類予測損失への直接的線形写像の確立を提唱する。 本稿では,このようなフレームワークのコアコンポーネントを包括的研究と広範囲な実験によって深く掘り下げる。 私たちはそれを示します 1) 様々な線形回帰モデルは全て、マッピングを確立するために考慮することができる。 2) 最終的に得られた中間レベル差の大きさは, 逆転係数と線形に相関する。 3) ランダム初期化によるベースラインアタックを複数実行することで, さらなる性能向上を実現することができる。 これらの知見を活用することで、転送ベース $\ell_\infty$ および $\ell_2$ 攻撃に対する新しい最先端技術を実現する。

This paper substantially extends our work published at ECCV, in which an intermediate-level attack was proposed to improve the transferability of some baseline adversarial examples. We advocate to establish a direct linear mapping from the intermediate-level discrepancies (between adversarial features and benign features) to classification prediction loss of the adversarial example. In this paper, we delve deep into the core components of such a framework by performing comprehensive studies and extensive experiments. We show that 1) a variety of linear regression models can all be considered in order to establish the mapping, 2) the magnitude of the finally obtained intermediate-level discrepancy is linearly correlated with adversarial transferability, 3) further boost of the performance can be achieved by performing multiple runs of the baseline attack with random initialization. By leveraging these findings, we achieve new state-of-the-arts on transfer-based $\ell_\infty$ and $\ell_2$ attacks.
翻訳日:2022-03-22 16:04:37 公開日:2022-03-21
# エッジモードを考慮したグラフニューラルネットワークによる3次元多対象追跡

3D Multi-Object Tracking Using Graph Neural Networks with Cross-Edge Modality Attention ( http://arxiv.org/abs/2203.10926v1 )

ライセンス: Link先を確認
Martin Buchner and Abhinav Valada(参考訳) オンライン3D多目的追跡(MOT)は近年,自律システムコミュニティの要求に大きく引き起こされた,大きな研究関心を集めている。 しかし、3DオフラインMOTは比較的少ない。 高精度な人間専門家を頼らずに、大規模に3D軌跡データをラベル付けすることは、まだオープンな研究課題である。 本研究では,カメラ,LiDAR,レーダなどの様々なモダリティを用いて,実世界のシーンを指向性,非循環性,カテゴリー非結合性追跡グラフとして表現するBatch3DMOTを提案する。 本稿では,マルチモーダルグラフニューラルネットワークを提案する。このニューラルネットワークは,モーダル間欠点を緩和するクロスエッジアテンション機構を用いて,グラフ領域の疎度に変換する。 さらに,フレームワイドk-NN近傍における注目重み付き畳み込みを,非連結グラフコンポーネント間の情報交換に適した手段として提示する。 我々は,難解な nuScene データセットと KITTI データセットに基づいて,様々なセンサモードとモデル構成を用いてアプローチを評価する。 大規模な実験により,提案手法はnuScenes上でのAMOTAスコアの2.8%を総合的に改善し,新しい3次元トラッキング手法のベンチマークを設定し,偽陽性フィルタリングの精度を高めた。

Online 3D multi-object tracking (MOT) has witnessed significant research interest in recent years, largely driven by demand from the autonomous systems community. However, 3D offline MOT is relatively less explored. Labeling 3D trajectory scene data at a large scale while not relying on high-cost human experts is still an open research question. In this work, we propose Batch3DMOT that follows the tracking-by-detectio n paradigm and represents real-world scenes as directed, acyclic, and category-disjoint tracking graphs that are attributed using various modalities such as camera, LiDAR, and radar. We present a multi-modal graph neural network that uses a cross-edge attention mechanism mitigating modality intermittence, which translates into sparsity in the graph domain. Additionally, we present attention-weighted convolutions over frame-wise k-NN neighborhoods as suitable means to allow information exchange across disconnected graph components. We evaluate our approach using various sensor modalities and model configurations on the challenging nuScenes and KITTI datasets. Extensive experiments demonstrate that our proposed approach yields an overall improvement of 2.8% in the AMOTA score on nuScenes thereby setting a new benchmark for 3D tracking methods and successfully enhances false positive filtering.
翻訳日:2022-03-22 16:04:25 公開日:2022-03-21
# ディープアンロールネットワークのためのオペレータスケッチ

Operator Sketching for Deep Unrolling Networks ( http://arxiv.org/abs/2203.11156v1 )

ライセンス: Link先を確認
Junqi Tang(参考訳) 本研究では,演算子スケッチを用いた効率的なディープ・アンローリング・ネットワークの設計手法を提案する。 ディープアンロールネットワークは現在、逆問題を画像化するための最先端のソリューションである。 しかし、高次元イメージングタスク、特に3次元コーンビームX線CTと4次元MRIでは、ディープ・アンローリング・スキームは、高次元フォワード・アジョイント演算子を複数回計算する必要があるため、メモリと計算の両面で非効率になる。 近年、そのような制限は、確率的一階最適化の成功に触発されて、作用素のサブセットによる確率的展開によって部分的に対処できることがわかった。 本研究では,高次元画像空間の積を近似するためにスケッチ技術を用いて,確率的アンロールの高速化を提案する。 オペレータのスケッチは、最高の加速度および圧縮性能のために確率的アンロールと共同で適用することができる。 X線CT画像再構成に関する数値実験により,スケッチ・アンロール方式の有効性が示された。

In this work we propose a new paradigm for designing efficient deep unrolling networks using operator sketching. The deep unrolling networks are currently the state-of-the-art solutions for imaging inverse problems. However, for high-dimensional imaging tasks, especially the 3D cone-beam X-ray CT and 4D MRI imaging, the deep unrolling schemes typically become inefficient both in terms of memory and computation, due to the need of computing multiple times the high-dimensional forward and adjoint operators. Recently researchers have found that such limitations can be partially addressed by stochastic unrolling with subsets of operators, inspired by the success of stochastic first-order optimization. In this work, we propose a further acceleration upon stochastic unrolling, using sketching techniques to approximate products in the high-dimensional image space. The operator sketching can be jointly applied with stochastic unrolling for the best acceleration and compression performance. Our numerical experiments on X-ray CT image reconstruction demonstrate the remarkable effectiveness of our sketched unrolling schemes.
翻訳日:2022-03-22 16:03:59 公開日:2022-03-21
# 実例生成とロバスト性向上のためのプロンプトベースアプローチ

A Prompting-based Approach for Adversarial Example Generation and Robustness Enhancement ( http://arxiv.org/abs/2203.10714v1 )

ライセンス: Link先を確認
Yuting Yang, Pei Huang, Juan Cao, Jintao Li, Yun Lin, Jin Song Dong, Feifei Ma, Jian Zhang(参考訳) 近年、金融、医療、ニュースメディアといった重要な分野でNLPモデルが広く採用され、モデルの堅牢性や脆弱性に対する懸念が高まっている。 本稿では,NLPモデルとロバスト性向上手法を妥協する,新しいプロンプトベースの対向攻撃を提案する。 まず、各インスタンスに対して悪意のあるプロンプトを作成し、悪意のある目的によってマスク・アンド・フィルによって逆の例を生成します。 攻撃手法はNLPモデル固有の脆弱性をターゲットにしており、事前訓練された言語モデル(PLM)に基づいていれば、被害者のNLPモデルと相互作用することなくサンプルを生成することができる。 さらに, PLMのロバスト性を改善するために, プロンプトベース対向訓練法を設計する。 本手法は, 逆方向のサンプルを生成できないため, 大規模トレーニングセットに効率的に適用することができる。 実験の結果,本手法はより多様で流動的で自然な攻撃例で高い攻撃成功率を達成できることがわかった。 さらに,このロバスト性向上手法により,モデルのロバスト性が大幅に向上し,攻撃に対する抵抗性が向上する。 我々の研究は、プロンプトパラダイムは、PLMの基本的欠陥を探索し、下流タスクのために微調整する大きな可能性を示唆している。

Recent years have seen the wide application of NLP models in crucial areas such as finance, medical treatment, and news media, raising concerns of the model robustness and vulnerabilities. In this paper, we propose a novel prompt-based adversarial attack to compromise NLP models and robustness enhancement technique. We first construct malicious prompts for each instance and generate adversarial examples via mask-and-filling under the effect of a malicious purpose. Our attack technique targets the inherent vulnerabilities of NLP models, allowing us to generate samples even without interacting with the victim NLP model, as long as it is based on pre-trained language models (PLMs). Furthermore, we design a prompt-based adversarial training method to improve the robustness of PLMs. As our training method does not actually generate adversarial samples, it can be applied to large-scale training sets efficiently. The experimental results show that our attack method can achieve a high attack success rate with more diverse, fluent and natural adversarial examples. In addition, our robustness enhancement method can significantly improve the robustness of models to resist adversarial attacks. Our work indicates that prompting paradigm has great potential in probing some fundamental flaws of PLMs and fine-tuning them for downstream tasks.
翻訳日:2022-03-22 15:57:31 公開日:2022-03-21
# 多言語対応型スクリプトのマッチング:多言語事前学習が言語間移動性に及ぼす影響の分析

Match the Script, Adapt if Multilingual: Analyzing the Effect of Multilingual Pretraining on Cross-lingual Transferability ( http://arxiv.org/abs/2203.10753v1 )

ライセンス: Link先を確認
Yoshinari Fujinuma, Jordan Boyd-Graber, Katharina Kann(参考訳) 事前訓練された多言語モデルにより、目に見えない言語でもゼロショット学習が可能となり、微調整前の適応によりパフォーマンスがさらに向上する。 しかし,事前学習中に見つからない言語に対するゼロショット学習に,事前学習言語の数がどのように影響するかは不明である。 このギャップを埋めるために,(1)未熟な対象言語において,事前学習言語の数はゼロショット性能にどのように影響するか? 2)モデル適応によってその疑問に対する答えは変わりますか? 3) 事前学習に使用する言語がすべて関連している場合,最初の質問に対する回答は変化するか? 関連言語を用いた事前学習実験は,多様な言語を選択することが重要であることを示す。 モデル適応がなければ、驚くほど、事前学習言語の増加は、関連する言語を追加し、パフォーマンスが高騰する結果をもたらす。 対照的に、継続事前訓練によるモデル適応では、より多くの言語で事前訓練を行うことで、さらなる事前訓練言語を活用するためにモデル適応が不可欠であることが示唆される。

Pretrained multilingual models enable zero-shot learning even for unseen languages, and that performance can be further improved via adaptation prior to finetuning. However, it is unclear how the number of pretraining languages influences a model's zero-shot learning for languages unseen during pretraining. To fill this gap, we ask the following research questions: (1) How does the number of pretraining languages influence zero-shot performance on unseen target languages? (2) Does the answer to that question change with model adaptation? (3) Do the findings for our first question change if the languages used for pretraining are all related? Our experiments on pretraining with related languages indicate that choosing a diverse set of languages is crucial. Without model adaptation, surprisingly, increasing the number of pretraining languages yields better results up to adding related languages, after which performance plateaus. In contrast, with model adaptation via continued pretraining, pretraining on a larger number of languages often gives further improvement, suggesting that model adaptation is crucial to exploit additional pretraining languages.
翻訳日:2022-03-22 15:55:26 公開日:2022-03-21
# 構造化感情分析のための新しいラベリング戦略を用いた効果的なトークングラフモデリング

Effective Token Graph Modeling using a Novel Labeling Strategy for Structured Sentiment Analysis ( http://arxiv.org/abs/2203.10796v1 )

ライセンス: Link先を確認
Wenxuan Shi, Fei Li, Jingye Li, Hao Fei, Donghong Ji(参考訳) 構造化された感情分析のための最先端モデルでは、タスクを依存性解析の問題とみなし、(1)スパン予測とスパン関係予測のラベル比は不均衡である。 2) この作業では, 感傷的タプル成分の長さが非常に大きくなり, 不均衡がさらに悪化する可能性がある。 (3)依存グラフ内の2つのノードは複数の弧を持たないため、重複した感情タプルは認識できない。 本稿では,この問題に対するニッチターゲティングソリューションを提案する。 まず,2組のトークンペアラベル,すなわち必須ラベルセットと全ラベルセットを含む新しいラベリング戦略を導入する。 必須ラベルセットは、このタスクの基本ラベルで構成され、比較的バランスが取れ、予測層に適用される。 ラベルセット全体には、モデルが様々なトークン関係をキャプチャするのに役立つリッチなラベルが含まれています。 さらに,グラフアテンションネットワークを備え,トークン表現を反復的に洗練するラベリング戦略と,トークンペア間の複数の関係を動的に予測する適応型マルチラベル分類器とをうまく連携させる効果的なモデルを提案する。 4言語で5つのベンチマークデータセットについて広範な実験を行った。 実験の結果,本モデルは従来のsotaモデルよりも高いマージンを示した。

The state-of-the-art model for structured sentiment analysis casts the task as a dependency parsing problem, which has some limitations: (1) The label proportions for span prediction and span relation prediction are imbalanced. (2) The span lengths of sentiment tuple components may be very large in this task, which will further exacerbate the imbalance problem. (3) Two nodes in a dependency graph cannot have multiple arcs, therefore some overlapped sentiment tuples cannot be recognized. In this work, we propose nichetargeting solutions for these issues. First, we introduce a novel labeling strategy, which contains two sets of token pair labels, namely essential label set and whole label set. The essential label set consists of the basic labels for this task, which are relatively balanced and applied in the prediction layer. The whole label set includes rich labels to help our model capture various token relations, which are applied in the hidden layer to softly influence our model. Moreover, we also propose an effective model to well collaborate with our labeling strategy, which is equipped with the graph attention networks to iteratively refine token representations, and the adaptive multi-label classifier to dynamically predict multiple relations between token pairs. We perform extensive experiments on 5 benchmark datasets in four languages. Experimental results show that our model outperforms previous SOTA models by a large margin.
翻訳日:2022-03-22 15:55:08 公開日:2022-03-21
# 海上QAシステムのパラフレーズ化技術

Paraphrasing Techniques for Maritime QA system ( http://arxiv.org/abs/2203.10854v1 )

ライセンス: Link先を確認
Fatemeh Shiri, Terry Yue Zhuo, Zhuang Li, Van Nguyen, Shirui Pan, Weiqing Wang, Reza Haffari, Yuan-Fang Li(参考訳) 人工知能(AI)を防衛システムや軍事システムに組み込んで、人間の知性と能力を補完し強化することへの関心が高まっている。 しかし、効果的な人間と機械のパートナーシップを実現するためには、まだ多くの作業が必要である。 この研究は、人間の自然言語を機械で理解可能な言語(例えばSQLクエリ)に自動翻訳する機能を開発することで、人間と機械のコミュニケーションを強化することを目的としている。 この目標を達成するためのテクニックは、通常、非常に大量の高品質な手動注釈付きデータに基づいてトレーニングされたセマンティックパーザを構築することを伴う。 しかし、多くの現実世界の防衛シナリオでは、そのような大量の訓練データを取得することは不可能である。 我々の知る限りでは、手動で表現された限られたデータ、つまりゼロショットでセマンティックパーザを訓練する可能性を探る研究はほとんどない。 本稿では,大規模学習データセット(パラフラッスド発話とそれに対応する論理形式をsql形式で)の自動生成にパラフラージング手法を応用し,海事領域における実世界データを用いた実験結果を提案する。

There has been an increasing interest in incorporating Artificial Intelligence (AI) into Defence and military systems to complement and augment human intelligence and capabilities. However, much work still needs to be done toward achieving an effective human-machine partnership. This work is aimed at enhancing human-machine communications by developing a capability for automatically translating human natural language into a machine-understandab le language (e.g., SQL queries). Techniques toward achieving this goal typically involve building a semantic parser trained on a very large amount of high-quality manually-annotated data. However, in many real-world Defence scenarios, it is not feasible to obtain such a large amount of training data. To the best of our knowledge, there are few works trying to explore the possibility of training a semantic parser with limited manually-paraphrased data, in other words, zero-shot. In this paper, we investigate how to exploit paraphrasing methods for the automated generation of large-scale training datasets (in the form of paraphrased utterances and their corresponding logical forms in SQL format) and present our experimental results using real-world data in the maritime domain.
翻訳日:2022-03-22 15:54:45 公開日:2022-03-21
# x-enVENT:経験者固有の感情と評価アノテーションを用いたイベント記述コーパス

x-enVENT: A Corpus of Event Descriptions with Experiencer-specific Emotion and Appraisal Annotations ( http://arxiv.org/abs/2203.10909v1 )

ライセンス: Link先を確認
Enrica Troiano and Laura Oberl\"ander and Maximilian Wegge and Roman Klinger(参考訳) 感情分類はしばしば、テキストを予め定義された感情クラスに分類するタスクとして定式化される。 これまでのところ、この課題は、著者や読者の感情認識と、テキストで言及されている実体の認識であった。 感情分析のための分類設定は、感情のエピソードに関与する異なる意味的役割を含む統合的な方法で行うべきであると論じる。 感情を事象に対する反応として扱う心理学における評価理論に基づき、事象記述の英文コーパスをコンパイルする。 感情が引き起こされる状況が描写され、感情的に反応した人々の言及が含まれている。 オリジナルの著者を含むすべての経験者に、彼らが感じたであろう感情を注釈します。 さらに、イベントプロパティや評価(例えば、認識されたイベントの望ましくない、結果の不確実性など)をアノテートすることで、彼らが見出したイベント(テキスト内の異なる経験者によって異なる)にリンクします。 本分析では,インタラクションにおける人々の感情の共起パターンを明らかにする。 したがって、この豊富な注釈付きリソースは、異なる役割の観点から感情やイベント評価を研究する有用なデータを提供し、経験者固有の感情や評価分類システムの開発を可能にする。

Emotion classification is often formulated as the task to categorize texts into a predefined set of emotion classes. So far, this task has been the recognition of the emotion of writers and readers, as well as that of entities mentioned in the text. We argue that a classification setup for emotion analysis should be performed in an integrated manner, including the different semantic roles that participate in an emotion episode. Based on appraisal theories in psychology, which treat emotions as reactions to events, we compile an English corpus of written event descriptions. The descriptions depict emotion-eliciting circumstances, and they contain mentions of people who responded emotionally. We annotate all experiencers, including the original author, with the emotions they likely felt. In addition, we link them to the event they found salient (which can be different for different experiencers in a text) by annotating event properties, or appraisals (e.g., the perceived event undesirability, the uncertainty of its outcome). Our analysis reveals patterns in the co-occurrence of people's emotions in interaction. Hence, this richly-annotated resource provides useful data to study emotions and event evaluations from the perspective of different roles, and it enables the development of experiencer-specific emotion and appraisal classification systems.
翻訳日:2022-03-22 15:54:27 公開日:2022-03-21
# 品質制御パラフレーズ生成

Quality Controlled Paraphrase Generation ( http://arxiv.org/abs/2203.10940v1 )

ライセンス: Link先を確認
Elron Bandel, Ranit Aharonov, Michal Shmueli-Scheuer, Ilya Shnayderman, Noam Slonim, Liat Ein-Dor(参考訳) パラフレーズ生成は様々な下流タスクで広く使われている。 ほとんどのタスクは、主に高品質のパラフレーズ、すなわち、意味的に似ているが言語的にも元の文から多様である。 言語多様性が増大するにつれて、意味の保存がますます困難になるため、高品質なパラフレーズの生成は困難である。 最近の研究は、構文木のようなパラフレーズの特定の側面を制御することで良い結果を得る。 しかし、生成したパラフレーズの品質を直接制御することはできず、柔軟性とスケーラビリティの低下に苦しむ。 ここでは,品質次元を直接制御できる品質誘導制御パラフレーズ生成モデルである$QCPG$を提案する。 さらに,文を与えられた場合,最適なパラフレーズを生成することが期待される品質制御空間の点を特定する手法を提案する。 本手法は,制御されていないベースラインよりも多様性を保ちつつ,本来の意味を保ったパラフレーズを生成することができることを示す。 モデル、コード、データはhttps://github.com/I BM/quality- controlled-paraphras e-generationで確認できる。

Paraphrase generation has been widely used in various downstream tasks. Most tasks benefit mainly from high quality paraphrases, namely those that are semantically similar to, yet linguistically diverse from, the original sentence. Generating high-quality paraphrases is challenging as it becomes increasingly hard to preserve meaning as linguistic diversity increases. Recent works achieve nice results by controlling specific aspects of the paraphrase, such as its syntactic tree. However, they do not allow to directly control the quality of the generated paraphrase, and suffer from low flexibility and scalability. Here we propose $QCPG$, a quality-guided controlled paraphrase generation model, that allows directly controlling the quality dimensions. Furthermore, we suggest a method that given a sentence, identifies points in the quality control space that are expected to yield optimal generated paraphrases. We show that our method is able to generate paraphrases which maintain the original meaning while achieving higher diversity than the uncontrolled baseline. The models, the code, and the data can be found in https://github.com/I BM/quality-controlle d-paraphrase-generat ion.
翻訳日:2022-03-22 15:54:08 公開日:2022-03-21
# (参考訳) 次から次へと:世界を変えるためのインクリメンタルスキルを学ぶ [全文訳有]

One After Another: Learning Incremental Skills for a Changing World ( http://arxiv.org/abs/2203.11176v1 )

ライセンス: CC BY 4.0
Nur Muhammad Shafiullah, Lerrel Pinto(参考訳) 報酬のない、教師なしのスキルの発見は、タスクの監督が不十分あるいは高価である環境において、手作りの報酬のボトルネックの代替となる。 しかし、現在のスキル事前トレーニング手法は、多くのrl技術と同様に、トレーニング中の静止環境という基本的な前提を立てている。 従来の方法では、すべてのスキルを同時に学習するので、環境の変化に素早く適応することや、それ以前のスキルを忘れないことが難しくなります。 一方で、進化または拡大する環境では、スキル学習は、以前の学習スキルを忘れずに、新しい環境状況に素早く適応できなければならない。 これらの2つの条件は、古典的なスキル発見が進化する環境でうまく機能することを困難にしている。 本研究では,スキル発見のための新たなフレームワークを提案する。 このフレームワークは、新しい学習スキルを新しい環境やエージェントダイナミクスに適応させ、固定された古いスキルはエージェントが学習スキルを忘れないようにします。 進化環境と静的環境の両方において,インクリメンタルスキルがスキル品質とダウンストリームタスクの解決能力の両方において,現在の最先端スキル発見方法を大幅に上回っていることを実験的に示す。 学習スキルとコードに関するビデオはhttps://notmahi.gith ub.io/diskで公開されている。

Reward-free, unsupervised discovery of skills is an attractive alternative to the bottleneck of hand-designing rewards in environments where task supervision is scarce or expensive. However, current skill pre-training methods, like many RL techniques, make a fundamental assumption - stationary environments during training. Traditional methods learn all their skills simultaneously, which makes it difficult for them to both quickly adapt to changes in the environment, and to not forget earlier skills after such adaptation. On the other hand, in an evolving or expanding environment, skill learning must be able to adapt fast to new environment situations while not forgetting previously learned skills. These two conditions make it difficult for classic skill discovery to do well in an evolving environment. In this work, we propose a new framework for skill discovery, where skills are learned one after another in an incremental fashion. This framework allows newly learned skills to adapt to new environment or agent dynamics, while the fixed old skills ensure the agent doesn't forget a learned skill. We demonstrate experimentally that in both evolving and static environments, incremental skills significantly outperform current state-of-the-art skill discovery methods on both skill quality and the ability to solve downstream tasks. Videos for learned skills and code are made public on https://notmahi.gith ub.io/disk
翻訳日:2022-03-22 15:52:00 公開日:2022-03-21
# 時間畳み込みネットワークに基づく科学技術トピックの熱需要予測アルゴリズム

Prediction Algorithm for Heat Demand of Science and Technology Topics Based on Time Convolution Network ( http://arxiv.org/abs/2203.10718v1 )

ライセンス: Link先を確認
Cui Haiyan, Li Yawen, Xu Xin(参考訳) ディープラーニングの急速な発展により、ビッグデータ分析技術は自然言語処理の分野で広く使われているだけでなく、数値予測の分野でもより成熟している。 科学・技術需要データの熱予測と分析を行う上で重要な課題である。 科学と技術需要のテーマヒートを正確に予測するためにテーマ機能を適用することが、この問題の解決のコアとなる。 本稿では, 時間畳み込みネットワーク(tcn)に基づく科学技術需要と科学熱の予測手法を提案し, 科学技術需要の主題特徴表現を得る。 TCNネットワークと自己注意機構に基づいて時系列予測を行い、科学・技術需要データの被写体熱予測の精度を高める実験により、このアルゴリズムの予測精度は実科学・技術需要データセット上の他の時系列予測方法よりも優れていることが示された。

Thanks to the rapid development of deep learning, big data analysis technology is not only widely used in the field of natural language processing, but also more mature in the field of numerical prediction. It is of great significance for the subject heat prediction and analysis of science and technology demand data. How to apply theme features to accurately predict the theme heat of science and technology demand is the core to solve this problem. In this paper, a prediction method of subject heat of science and technology demand based on time convolution network (TCN) is proposed to obtain the subject feature representation of science and technology demand. Time series prediction is carried out based on TCN network and self attention mechanism, which increases the accuracy of subject heat prediction of science and technology demand data Experiments show that the prediction accuracy of this algorithm is better than other time series prediction methods on the real science and technology demand datasets.
翻訳日:2022-03-22 15:16:00 公開日:2022-03-21
# 多元経路計画における空間符号化のための長期記憶

Long Short-Term Memory for Spatial Encoding in Multi-Agent Path Planning ( http://arxiv.org/abs/2203.10823v1 )

ライセンス: Link先を確認
Marc R. Schlichting, Stefan Notter, and Walter Fichter(参考訳) 異なる大きさのマルチエージェントシステムのための強化学習に基づく経路計画は、都市空輸や自律飛行車といった分野の進展が続くにつれて重要性が増す研究課題となっている。 継続的な状態と行動空間による強化学習は、望ましい経路計画行動に対応し、時間クリティカルなアプリケーションに使用できるポリシーネットワークのトレーニングに使用される。 長期間のメモリモジュールは、さまざまな無期限のエージェントに対して、未特定数の状態をエンコードするために提案されている。 説明されたトレーニング戦略とポリシーアーキテクチャは、トレーニングはより小さなスケールで行われるが、無限のエージェントと無限の物理的次元にスケールするガイダンスにつながる。 このガイダンスは、低価格で市販のコンピュータで実装されている。 提案手法の有効性は、実環境における衝突のない自律飛行による最大4機の飛行試験結果の提示によって検証される。

Reinforcement learning-based path planning for multi-agent systems of varying size constitutes a research topic with increasing significance as progress in domains such as urban air mobility and autonomous aerial vehicles continues. Reinforcement learning with continuous state and action spaces is used to train a policy network that accommodates desirable path planning behaviors and can be used for time-critical applications. A Long Short-Term Memory module is proposed to encode an unspecified number of states for a varying, indefinite number of agents. The described training strategies and policy architecture lead to a guidance that scales to an infinite number of agents and unlimited physical dimensions, although training takes place at a smaller scale. The guidance is implemented on a low-cost, off-the-shelf onboard computer. The feasibility of the proposed approach is validated by presenting flight test results of up to four drones, autonomously navigating collision-free in a real-world environment.
翻訳日:2022-03-22 15:15:45 公開日:2022-03-21
# 生体磁気共鳴のための物理駆動合成データ学習

Physics-driven Synthetic Data Learning for Biomedical Magnetic Resonance ( http://arxiv.org/abs/2203.11178v1 )

ライセンス: Link先を確認
Qinqin Yang, Zi Wang, Kunyuan Guo, Congbo Cai, Xiaobo Qu(参考訳) ディープラーニングは計算イメージングの分野を革新した。 そのボトルネックの1つは、利用できない、あるいは不十分なトレーニングデータである。 本稿では,バイオメディカル磁気共鳴における膨大なトレーニングデータを提供する,物理に基づく画像データ合成(IPADS)の新たなパラダイムを概観する。 磁気共鳴の物理法則に従って、IPADSは微分方程式や解析解モデルから信号を生成し、学習をよりスケーラブルで説明可能で、プライバシーを保護できる。 信号生成モデル,基本深層学習ネットワーク構造,データ生成の強化,学習方法など,IPADS学習の重要な要素について論じる。 IPADSの大きなポテンシャルは、高速イメージング、超高速信号再構成、正確なパラメータ定量化における代表的応用によって実証されている。 最後に,オープン質問と今後の課題について論じた。

Deep learning has innovated the field of computational imaging. One of its bottlenecks is unavailable or insufficient training data. This article reviews an emerging paradigm, imaging physics-based data synthesis (IPADS), that can provide huge training data in biomedical magnetic resonance without or with few real data. Following the physical law of magnetic resonance, IPADS generates signals from differential equations or analytical solution models, making the learning more scalable, explainable, and better protecting privacy. Key components of IPADS learning, including signal generation models, basic deep learning network structures, enhanced data generation, and learning methods are discussed. Great potentials of IPADS have been demonstrated by representative applications in fast imaging, ultrafast signal reconstruction and accurate parameter quantification. Finally, open questions and future work have been discussed.
翻訳日:2022-03-22 15:14:17 公開日:2022-03-21
# 非分離型局所最小値を用いた非凸最適化における確率勾配の局所収束理論

A Local Convergence Theory for the Stochastic Gradient Descent Method in Non-Convex Optimization With Non-isolated Local Minima ( http://arxiv.org/abs/2203.10973v1 )

ライセンス: Link先を確認
Taehee Ko and Xiantao Li(参考訳) 現代の機械学習では非凸損失関数が頻繁に発生し、確率的最適化法の理論解析では、非孤立化ミニマの存在は、まだ探索されていないユニークな課題である。 本稿では,非分離大域的ミニマへの確率的勾配降下法の局所収束について検討する。 軽度の仮定の下では、確率安定性の概念を採用することにより、反復がミニマの近くに留まる確率を推定する。 そのような安定性を確立した後、与えられたエラー許容度$\epsilon$と失敗確率$\gamma$の様々なエラー基準で下界の複雑さを示す。

Non-convex loss functions arise frequently in modern machine learning, and for the theoretical analysis of stochastic optimization methods, the presence of non-isolated minima presents a unique challenge that has remained under-explored. In this paper, we study the local convergence of the stochastic gradient descent method to non-isolated global minima. Under mild assumptions, we estimate the probability for the iterations to stay near the minima by adopting the notion of stochastic stability. After establishing such stability, we present the lower bound complexity in terms of various error criteria for a given error tolerance $\epsilon$ and a failure probability $\gamma$.
翻訳日:2022-03-22 15:14:04 公開日:2022-03-21
# gcf:オンライン市場における異種処理効果推定のための汎用因果林

GCF: Generalized Causal Forest for Heterogeneous Treatment Effect Estimation in Online Marketplace ( http://arxiv.org/abs/2203.10975v1 )

ライセンス: Link先を確認
Shu Wan, Chen Zheng, Zhonggen Sun, Mengfan Xu, Xiaoqing Yang, Hongtu Zhu, Jiecheng Guo(参考訳) uplift modelingは、機械学習と因果推論を使って異種治療効果を推定する、急速に成長するアプローチである。 近年、大規模な意思決定を支援するオンラインマーケットプレースに広く採用され、応用されている。 フォレストベースモデリングのような既存の一般的な手法は、離散的な処理にのみ機能するか、モデルの誤特定に苦しむ部分線形あるいはパラメトリックな仮定をする。 これらの問題を緩和するため、カーネルベースの二重ロバスト推定器を用いて局所的に推定可能な非パラメトリック線量応答関数(drfs)を因果森林(cf)に拡張する。 さらに, 連続処理における不均一性を捉えるために, 条件付きDRFの機能空間における距離に基づく分割基準を提案する。 我々は,提案アルゴリズムを一般化因果林(GCF)と呼び,CFのユースケースをより広い設定に一般化する。 合成および実世界の両方のデータセット上で、一般的なアップリフトモデルと比較することにより、GCFの有効性を示す。 私たちはSparkにGCFを実装し、DiDiのリアルタイム価格システムにうまくデプロイしています。 オンラインA/Bテストの結果は、GCFの優位性をさらに検証する。

Uplift modeling is a rapidly growing approach that utilizes machine learning and causal inference methods to estimate the heterogeneous treatment effects. It has been widely adopted and applied to online marketplaces to assist large-scale decision-making in recent years. The existing popular methods, like forest-based modeling, either work only for discrete treatments or make partially linear or parametric assumptions that may suffer from model misspecification. To alleviate these problems, we extend causal forest (CF) with non-parametric dose-response functions (DRFs) that can be estimated locally using a kernel-based doubly robust estimator. Moreover, we propose a distance-based splitting criterion in the functional space of conditional DRFs to capture the heterogeneity for the continuous treatments. We call the proposed algorithm generalized causal forest (GCF) as it generalizes the use case of CF to a much broader setup. We show the effectiveness of GCF by comparing it to popular uplift modeling models on both synthetic and real-world datasets. We implement GCF in Spark and successfully deploy it into DiDi's real-time pricing system. Online A/B testing results further validate the superiority of GCF.
翻訳日:2022-03-22 15:13:52 公開日:2022-03-21
# (参考訳) 自然言語生成のための評価指標の解明に向けて

Towards Explainable Evaluation Metrics for Natural Language Generation ( http://arxiv.org/abs/2203.11131v1 )

ライセンス: CC BY 4.0
Christoph Leiter and Piyawat Lertvittayakumjorn and Marina Fomicheva and Wei Zhao and Yang Gao and Steffen Eger(参考訳) BLEUのような古典的な語彙重なりのメトリクスとは異なり、BERTScoreやMoverScoreのような現在の評価指標はBERTやXLM-Rのようなブラックボックス言語モデルに基づいている。 彼らはしばしば人間の判断と強い相関関係を持つが、最近の研究は、低品質の古典的指標が依然として支配的であることを示している。 新たな高品質なメトリクスをより広く受け入れるためには、説明可能性が非常に重要です。 本稿では,重要な特性を特定し,説明可能な機械翻訳評価指標の重要な目標を提案する。 また,近年の機械翻訳の手法について概説し,それらの目的や特性との関連性について論じる。 さらに,近年のnlp技術は,意味保存性に欠けるため,品質の高いブラックボックス評価指標の限界を自動的に識別するには不適当であることを示す,独自の新しい実験を行った。 最後に、評価指標とその評価を説明するための将来のアプローチのビジョンを提供する。 我々の研究は、説明可能な評価指標に関する将来の研究を触媒化し、ガイドし、中途半端に、より良い、より透明なテキスト生成システムに貢献することを期待しています。

Unlike classical lexical overlap metrics such as BLEU, most current evaluation metrics (such as BERTScore or MoverScore) are based on black-box language models such as BERT or XLM-R. They often achieve strong correlations with human judgments, but recent research indicates that the lower-quality classical metrics remain dominant, one of the potential reasons being that their decision processes are transparent. To foster more widespread acceptance of the novel high-quality metrics, explainability thus becomes crucial. In this concept paper, we identify key properties and propose key goals of explainable machine translation evaluation metrics. We also provide a synthesizing overview over recent approaches for explainable machine translation metrics and discuss how they relate to those goals and properties. Further, we conduct own novel experiments, which (among others) find that current adversarial NLP techniques are unsuitable for automatically identifying limitations of high-quality black-box evaluation metrics, as they are not meaning-preserving. Finally, we provide a vision of future approaches to explainable evaluation metrics and their evaluation. We hope that our work can help catalyze and guide future research on explainable evaluation metrics and, mediately, also contribute to better and more transparent text generation systems.
翻訳日:2022-03-22 15:11:58 公開日:2022-03-21
# 検証された引用で回答を支援する言語モデルを教える

Teaching language models to support answers with verified quotes ( http://arxiv.org/abs/2203.11147v1 )

ライセンス: Link先を確認
Jacob Menick, Maja Trebacz, Vladimir Mikulik, John Aslanides, Francis Song, Martin Chadwick, Mia Glaese, Susannah Young, Lucy Campbell-Gillingham, Geoffrey Irving, Nat McAleese(参考訳) 最近の大きな言語モデルは、しばしば事実の質問に正しく答える。 しかし、言語モデルは説得力のあるナンセンスを幻覚させる可能性があるため、ユーザーは事実チェックなしでモデルが主張するものを信用できない。 この研究では、人間の嗜好から強化学習(RLHP)を用いて「オープンブック」QAモデルを訓練し、また、その主張の具体的な証拠を引用し、正当性の評価を支援する。 証拠を支持するのは、検索エンジンから見つかった複数のドキュメントや、ユーザが提供する単一のドキュメントからである。 280億のパラメータモデルであるgopherciteは、高品質な裏付けのある回答を生成でき、確信が持てなければ回答を控えることができます。 本研究では,NaturalQuestions と ELI5 データセットのサブセットにおいて,質問に対する回答の人間による評価を行うことにより,GopherCite の性能を測定した。 このモデルの応答は、このNatural Questionsサブセットの80%の時間、ELI5サブセットの67%の時間である。 最も不確実な質問の3つから得られることは、パフォーマンスをそれぞれ90\%と80\%に改善し、人間のベースラインに近づきます。 しかし、敵対的なTrathfulQAデータセットの分析は、なぜ引用が安全性と信頼性に関する全体的な戦略の一部に過ぎなかったのかを示している。

Recent large language models often answer factual questions correctly. But users can't trust any given claim a model makes without fact-checking, because language models can hallucinate convincing nonsense. In this work we use reinforcement learning from human preferences (RLHP) to train "open-book" QA models that generate answers whilst also citing specific evidence for their claims, which aids in the appraisal of correctness. Supporting evidence is drawn from multiple documents found via a search engine, or from a single user-provided document. Our 280 billion parameter model, GopherCite, is able to produce answers with high quality supporting evidence and abstain from answering when unsure. We measure the performance of GopherCite by conducting human evaluation of answers to questions in a subset of the NaturalQuestions and ELI5 datasets. The model's response is found to be high-quality 80\% of the time on this Natural Questions subset, and 67\% of the time on the ELI5 subset. Abstaining from the third of questions for which it is most unsure improves performance to 90\% and 80\% respectively, approaching human baselines. However, analysis on the adversarial TruthfulQA dataset shows why citation is only one part of an overall strategy for safety and trustworthiness: not all claims supported by evidence are true.
翻訳日:2022-03-22 15:09:32 公開日:2022-03-21
# TCM-SD:中国伝統医学における症候群の鑑別のための大規模データセット

TCM-SD: A Large Dataset for Syndrome Differentiation in Traditional Chinese Medicine ( http://arxiv.org/abs/2203.10839v1 )

ライセンス: Link先を確認
Mucheng Ren, Heyan Huang, Yuxiang Zhou, Yuan Bu, Yang Gao(参考訳) 伝統的な中国医学(TCM)は自然で安全で効果的な治療法であり、世界中で普及し応用されている。 ユニークなTCM診断・治療システムは、患者の症状を、無料のテキストで書かれた臨床記録に隠した包括的分析を必要とする。 従来の研究では、自然言語処理(NLP)のような人工知能(AI)技術を用いて、このシステムが情報化およびインテリジェント化可能であることが示されている。 しかし、既存のデータセットは、TCMにおけるデータ駆動AI技術のさらなる開発を支援するのに十分な品質や量ではない。 そこで本研究では,TCM診断・治療システム(SD)の中核となる課題に焦点をあて,TCM-SDと呼ばれるSDのための最初の大規模データセットを紹介する。 本データセットは,148症例を対象とした実世界の臨床記録54,152例を含む。 さらに,TCMの分野において,大規模未ラベルテキストコーパスを収集し,ZY-BERTと呼ばれるドメイン固有の事前学習言語モデルを提案する。 我々は、ディープニューラルネットワークを用いて、強力なパフォーマンスベースラインを確立する実験を行い、SDにおける様々な課題を明らかにし、ドメイン固有の事前訓練言語モデルの可能性を証明した。 計算機科学と言語学の知識を組み込んでtcm理論の実証的妥当性を探求する機会を明らかにする。

Traditional Chinese Medicine (TCM) is a natural, safe, and effective therapy that has spread and been applied worldwide. The unique TCM diagnosis and treatment system requires a comprehensive analysis of a patient's symptoms hidden in the clinical record written in free text. Prior studies have shown that this system can be informationized and intelligentized with the aid of artificial intelligence (AI) technology, such as natural language processing (NLP). However, existing datasets are not of sufficient quality nor quantity to support the further development of data-driven AI technology in TCM. Therefore, in this paper, we focus on the core task of the TCM diagnosis and treatment system -- syndrome differentiation (SD) -- and we introduce the first public large-scale dataset for SD, called TCM-SD. Our dataset contains 54,152 real-world clinical records covering 148 syndromes. Furthermore, we collect a large-scale unlabelled textual corpus in the field of TCM and propose a domain-specific pre-trained language model, called ZY-BERT. We conducted experiments using deep neural networks to establish a strong performance baseline, reveal various challenges in SD, and prove the potential of domain-specific pre-trained language model. Our study and analysis reveal opportunities for incorporating computer science and linguistics knowledge to explore the empirical validity of TCM theories.
翻訳日:2022-03-22 15:09:09 公開日:2022-03-21
# 組み込みデバイスのためのオンライン連続学習

Online Continual Learning for Embedded Devices ( http://arxiv.org/abs/2203.10681v1 )

ライセンス: Link先を確認
Tyler L. Hayes, Christopher Kanan(参考訳) ホームロボット、スマートフォンでのパーソナライズ、拡張現実/バーチャルリアリティーヘッドセットなどの新しいアプリケーションには、リアルタイムのデバイスでの連続学習が必要である。 組み込みデバイスはメモリと計算能力に制限があり、従来の機械学習モデルは、非定常データストリームで更新された場合の壊滅的な忘れに苦しむ。 いくつかのオンライン連続学習モデルが開発されているが、組み込みアプリケーションの有効性は十分に研究されていない。 本稿では,オンライン連続学習者がリアルタイム・オンデバイス学習を効果的に行うためには,オンライン連続学習者が会わなければならない基準を特定する。 次に,移動ニューラルネットワークを用いたオンライン連続学習の有効性について検討する。 我々は、それらの性能、メモリ使用量、計算要求、およびドメイン外の入力に一般化する能力を測定する。

Real-time on-device continual learning is needed for new applications such as home robots, user personalization on smartphones, and augmented/virtual reality headsets. However, this setting poses unique challenges: embedded devices have limited memory and compute capacity and conventional machine learning models suffer from catastrophic forgetting when updated on non-stationary data streams. While several online continual learning models have been developed, their effectiveness for embedded applications has not been rigorously studied. In this paper, we first identify criteria that online continual learners must meet to effectively perform real-time, on-device learning. We then study the efficacy of several online continual learning methods when used with mobile neural networks. We measure their performance, memory usage, compute requirements, and ability to generalize to out-of-domain inputs.
翻訳日:2022-03-22 15:06:41 公開日:2022-03-21
# STCGAT:複雑な都市交通流予測のための時空間因果ネットワーク

STCGAT: Spatial-temporal causal networks for complex urban road traffic flow prediction ( http://arxiv.org/abs/2203.10749v1 )

ライセンス: Link先を確認
Wei Zhao, Shiqi Zhang, Bing Zhou, Bei Wang(参考訳) 交通予測はインテリジェントな交通システムの重要な要素である。 しかし、交通データは高度に非線形であり、道路ノード間の複雑な空間相関がある。 したがって、複雑な交通データから基礎となる空間的・時間的関係を深く掘り下げるのは難しい。 既存のアプローチは通常、固定された道路網トポロジマップと独立した時系列モジュールを使用して空間-時間相関を捉え、道路網の動的変化や、交通イベント間の固有の時間的因果関係を無視する。 そこで本研究では,新しい予測モデルを提案する。 このモデルは,グラフ注意ネットワーク(GAT)を介して交通ネットワークの空間的依存を動的に捕捉し,提案した因果時間畳み込みネットワーク(CTCN)を用いて交通データの因果関係を分析し,全体的時間的依存を求める。 2つの実際のトラヒックデータセット上で,他のトラヒック予測手法との広範な比較実験を行い,モデル予測性能の評価を行った。 異なる予測手法の最良の実験結果と比較して,提案手法の予測性能は50%以上向上した。 ソースコードとデータはhttps://github.com/z hangshqii/stcgatで取得できます。

Traffic forecasting is an essential component of intelligent transportation systems. However, traffic data are highly nonlinear and have complex spatial correlations between road nodes. Therefore, it is incredibly challenging to dig deeper into the underlying Spatial-temporal relationships from the complex traffic data. Existing approaches usually use fixed traffic road network topology maps and independent time series modules to capture Spatial-temporal correlations, ignoring the dynamic changes of traffic road networks and the inherent temporal causal relationships between traffic events. Therefore, a new prediction model is proposed in this study. The model dynamically captures the spatial dependence of the traffic network through a Graph Attention Network(GAT) and then analyzes the causal relationship of the traffic data using our proposed Causal Temporal Convolutional Network(CTCN) to obtain the overall temporal dependence. We conducted extensive comparison experiments with other traffic prediction methods on two real traffic datasets to evaluate the model's prediction performance. Compared with the best experimental results of different prediction methods, the prediction performance of our approach is improved by more than 50%. You can get our source code and data through https://github.com/z hangshqii/STCGAT.
翻訳日:2022-03-22 15:06:28 公開日:2022-03-21
# ase:不均衡データセットのための異常スコアに基づくアンサンブル学習

ASE: Anomaly Scoring Based Ensemble Learning for Imbalanced Datasets ( http://arxiv.org/abs/2203.10769v1 )

ライセンス: Link先を確認
Xiayu Liang, Ying Gao, Shanrong Xu(参考訳) 今日では、金融、医療、製造業などビジネス上の問題を解決するために、多くの業界が分類アルゴリズムを適用している。 しかしながら、現実のシナリオでは、ポジティブな例がすべてのインスタンスのごく一部を占めるだけで、データセットは高い不均衡率に苦しめられ、既存の分類モデルのパフォーマンスが低下します。 この問題を解決するために,異常検出スコアリングシステムに基づく,袋詰めアンサンブル学習フレームワークを考案した。 我々のアンサンブル学習モデルは,ベース推定器(例えば,決定木,多層パーセプトロン,KNN)の性能を劇的に向上させ,不均衡比,データスケール,データ次元の幅の広い既存手法よりも効率的であることを確認した。

Nowadays, many industries have applied classification algorithms to help them solve problems in their business, like finance, medicine, manufacturing industry and so on. However, in real-life scenarios, positive examples only make up a small part of all instances and our datasets suffer from high imbalance ratio which leads to poor performance of existing classification models. To solve this problem, we come up with a bagging ensemble learning framework based on an anomaly detection scoring system. We test out that our ensemble learning model can dramatically improve performance of base estimators (e.g. Decision Tree, Multilayer perceptron, KNN) and is more efficient than other existing methods under a wide range of imbalance ratio, data scale and data dimension.
翻訳日:2022-03-22 15:06:10 公開日:2022-03-21
# BNS-GCN:境界ノードサンプリングによるグラフ畳み込みネットワークの効率的なフルグラフ学習

BNS-GCN: Efficient Full-Graph Training of Graph Convolutional Networks with Boundary Node Sampling ( http://arxiv.org/abs/2203.10983v1 )

ライセンス: Link先を確認
Cheng Wan, Youjie Li, Ang Li, Nam Sung Kim, Yingyan Lin(参考訳) graph convolutional networks(gcns)は、グラフベースの学習タスクの最先端手法として登場した。 しかし、GCNを大規模にトレーニングすることは依然として困難であり、より洗練されたGCNアーキテクチャの探索と実際の大規模グラフへの応用の両方を妨げる。 この課題に対処するためのグラフ分割と分散トレーニングを考えるのは自然なことかもしれないが、この方向は既存の設計の限界のために、以前の作業でわずかに表面を傷つけただけである。 本稿では,分散GCNトレーニングが非効率である理由をまず分析し,各分割されたサブグラフの境界ノードの過剰な数である原因を同定し,GCNトレーニングのメモリと通信コストを容易に爆発させる。 さらに,BNS-GCNという,ランダム境界ノードサンプリングを採用し,効率よくスケーラブルな分散GCNトレーニングを実現するシンプルな手法を提案する。 実験とアブレーション研究は、BNS-GCNの有効性を一貫して検証し、例えばスループットを16.2倍にし、メモリ使用量を最大58%削減し、フルグラフの精度を維持した。 さらに, bns-gcnは, 従来のサンプリングベース法よりも収束性が良好であることを示す。 我々はBNS-GCNがGCNの大規模トレーニングを可能にするための新しいパラダイムをオープンにしたと考えている。 コードはhttps://github.com/R ICE-EIC/BNS-GCNで公開されている。

Graph Convolutional Networks (GCNs) have emerged as the state-of-the-art method for graph-based learning tasks. However, training GCNs at scale is still challenging, hindering both the exploration of more sophisticated GCN architectures and their applications to real-world large graphs. While it might be natural to consider graph partition and distributed training for tackling this challenge, this direction has only been slightly scratched the surface in the previous works due to the limitations of existing designs. In this work, we first analyze why distributed GCN training is ineffective and identify the underlying cause to be the excessive number of boundary nodes of each partitioned subgraph, which easily explodes the memory and communication costs for GCN training. Furthermore, we propose a simple yet effective method dubbed BNS-GCN that adopts random Boundary-Node-Sampli ng to enable efficient and scalable distributed GCN training. Experiments and ablation studies consistently validate the effectiveness of BNS-GCN, e.g., boosting the throughput by up to 16.2x and reducing the memory usage by up to 58%, while maintaining a full-graph accuracy. Furthermore, both theoretical and empirical analysis show that BNS-GCN enjoys a better convergence than existing sampling-based methods. We believe that our BNS-GCN has opened up a new paradigm for enabling GCN training at scale. The code is available at https://github.com/R ICE-EIC/BNS-GCN.
翻訳日:2022-03-22 15:05:34 公開日:2022-03-21
# コンセプトドリフトからモデル劣化へ:性能を考慮したドリフト検出器の概要

From Concept Drift to Model Degradation: An Overview on Performance-Aware Drift Detectors ( http://arxiv.org/abs/2203.11070v1 )

ライセンス: Link先を確認
Firas Bayram, Bestoun S. Ahmed, Andreas Kassler(参考訳) 実世界のシステムの動的性は、予測機械学習(ML)モデルをデプロイする上で大きな課題となる。 MLモデルがトレーニングされたシステムの変更は、システムのライフサイクルにおけるパフォーマンス低下につながる可能性がある。 非定常環境の研究の最近の進歩は、概念ドリフトと呼ばれる現象によって引き起こされるそのような変化を識別し、対処することに集中している。 文献では、同じ概念ドリフトや、様々なタイプの同じ用語を指すために、異なる用語が用いられてきた。 この統一的な用語の欠如は、異なる概念ドリフト変種を区別することの混乱を生じさせる。 本稿では,概念ドリフト型を数学的定義でグループ化し,その分野の統一分類法を構築するために文献で用いられる異なる用語を調査した。 また,過去10年間に提案されている性能に基づくドリフト検出手法について検討し,分類する。 これらの手法は予測モデルの性能劣化を利用してシステムに大きな変化を示す。 分類は階層図で概説され、メソッド間の順序付けられたナビゲーションを提供する。 本稿では,予測システムにおけるモデルの性能の追跡と評価のための主な属性と戦略を包括的に分析する。 オープンな研究課題と研究の方向性について論じる。

The dynamicity of real-world systems poses a significant challenge to deployed predictive machine learning (ML) models. Changes in the system on which the ML model has been trained may lead to performance degradation during the system's life cycle. Recent advances that study non-stationary environments have mainly focused on identifying and addressing such changes caused by a phenomenon called concept drift. Different terms have been used in the literature to refer to the same type of concept drift and the same term for various types. This lack of unified terminology is set out to create confusion on distinguishing between different concept drift variants. In this paper, we start by grouping concept drift types by their mathematical definitions and survey the different terms used in the literature to build a consolidated taxonomy of the field. We also review and classify performance-based concept drift detection methods proposed in the last decade. These methods utilize the predictive model's performance degradation to signal substantial changes in the systems. The classification is outlined in a hierarchical diagram to provide an orderly navigation between the methods. We present a comprehensive analysis of the main attributes and strategies for tracking and evaluating the model's performance in the predictive system. The paper concludes by discussing open research challenges and possible research directions.
翻訳日:2022-03-22 15:05:10 公開日:2022-03-21
# FaceMap: マップ方程式による教師なしの顔クラスタリングを目指す

FaceMap: Towards Unsupervised Face Clustering via Map Equation ( http://arxiv.org/abs/2203.10090v1 )

ライセンス: Link先を確認
Xiaotian Yu, Yifan Yang, Aibo Wang, Ling Xing, Hanling Yi, Guangming Lu, Xiaoyu Wang(参考訳) 顔のクラスタリングは、拡張現実やフォトアルバム管理といった関連アプリケーションの爆発により、コンピュータビジョンにおいて不可欠なタスクである。 このタスクの主な課題は、画像特徴表現間の類似性の不完全さにある。 既存の特徴抽出モデルを考えると、未ラベル画像の類似性の特徴をいかに活用してクラスタリング性能を向上させるかは未解決の問題である。 この疑問に答えて、非重複コミュニティ検出のプロセスとして顔クラスタリングを定式化し、画像ネットワーク上での情報フローのエントロピーを最小化することにより、FaceMapと呼ばれる効果的な教師なし手法を開発した。 エントロピーは写像方程式で表され、その最小限は予想される画像間の経路の最小記述を表す。 顔画像から構築した親和性グラフのランク付けされた遷移確率の観測にインスパイアされ、画像間の遷移確率を適応的に調整する異常検出戦略を開発した。 アブレーション研究による実験により、facemapは既存の方法を大幅に上回っており、顔クラスタリングのための3つの一般的な大規模データセット、例えば、ペアワイズf-scoreの平均で、以前の教師なしと教師なしのメソッドと比較すると、絶対的な改善が10\%$と4\%$である。 私たちのコードはgithubで公開されている。

Face clustering is an essential task in computer vision due to the explosion of related applications such as augmented reality or photo album management. The main challenge of this task lies in the imperfectness of similarities among image feature representations. Given an existing feature extraction model, it is still an unresolved problem that how can the inherent characteristics of similarities of unlabelled images be leveraged to improve the clustering performance. Motivated by answering the question, we develop an effective unsupervised method, named as FaceMap, by formulating face clustering as a process of non-overlapping community detection, and minimizing the entropy of information flows on a network of images. The entropy is denoted by the map equation and its minimum represents the least description of paths among images in expectation. Inspired by observations on the ranked transition probabilities in the affinity graph constructed from facial images, we develop an outlier detection strategy to adaptively adjust transition probabilities among images. Experiments with ablation studies demonstrate that FaceMap significantly outperforms existing methods and achieves new state-of-the-arts on three popular large-scale datasets for face clustering, e.g., an absolute improvement of more than $10\%$ and $4\%$ comparing with prior unsupervised and supervised methods respectively in terms of average of Pairwise F-score. Our code is publicly available on github.
翻訳日:2022-03-22 15:03:32 公開日:2022-03-21
# lstmネットワークを用いた単眼視による切込み操作の予測

Monocular Vision-based Prediction of Cut-in Maneuvers with LSTM Networks ( http://arxiv.org/abs/2203.10707v1 )

ライセンス: Link先を確認
Yagiz Nalcakan and Yalin Bastanlar(参考訳) 高度な運転支援と自動運転システムは危険な状況を予測し回避する能力を持つべきである。 本研究は,エゴレーンで発生する潜在的に危険なカットイン操作を予測する手法を提案する。 我々は、単一の車載RGBカメラのみを使用するコンピュータビジョンベースのアプローチに従い、最近のビデオフレームに基づいて、ターゲット車両の操作を分類する。 本アルゴリズムは,CNNに基づく車両検出・追跡ステップとLSTMに基づく操縦分類ステップから構成される。 RGBフレームでCNNを供給するのではなく、分類ステップに少数の機能を利用するため、他の視覚ベースの方法よりも計算効率がよい。 我々は、公開可能な運転データセットと車線変更検出データセットに対するアプローチを評価した。 サイドアウェア2クラス(カットイン対レーンパス)分類モデルを用いて0.9585の精度を得た。 実験の結果,車線変化検出に使用する場合,本手法は最先端の手法よりも優れていることがわかった。

Advanced driver assistance and automated driving systems should be capable of predicting and avoiding dangerous situations. This study proposes a method to predict potentially dangerous cut-in maneuvers happening in the ego lane. We follow a computer vision-based approach that only employs a single in-vehicle RGB camera, and we classify the target vehicle's maneuver based on the recent video frames. Our algorithm consists of a CNN-based vehicle detection and tracking step and an LSTM-based maneuver classification step. It is more computationally efficient than other vision-based methods since it exploits a small number of features for the classification step rather than feeding CNNs with RGB frames. We evaluated our approach on a publicly available driving dataset and a lane change detection dataset. We obtained 0.9585 accuracy with side-aware two-class (cut-in vs. lane-pass) classification models. Experiment results also reveal that our approach outperforms state-of-the-art approaches when used for lane change detection.
翻訳日:2022-03-22 15:02:07 公開日:2022-03-21
# 事前学習モデルを用いた相互情報正規化によるドメイン一般化

Domain Generalization by Mutual-Information Regularization with Pre-trained Models ( http://arxiv.org/abs/2203.10789v1 )

ライセンス: Link先を確認
Junbum Cha, Kyungjae Lee, Sungrae Park, Sanghyuk Chun(参考訳) ドメイン一般化(DG)は、限られたソースドメインのみを使用して、見えないターゲットドメインに一般化されたモデルを学習することを目的としている。 以前のDGの試みでは、トレーニングとテストドメインの間の大きなドメインシフトのため、ソースドメインからのみドメイン不変表現を学習できなかった。 代わりに、あらゆる可能な領域に一般化されたモデルであるオラクルモデルとの相互情報を用いて、DGの目的を再定式化する。 我々は、オラクルとの相互情報正規化(miro)と呼ばれる事前学習されたモデルによってオラクルモデルを近似することで、移動可能な変分下限を導出する。 広範囲な実験により,MIROは分布外性能を著しく向上することが示された。 さらに,本実験では,事前学習モデルのスケールが大きいほど,miroの性能向上が期待できることを示した。 ソースコードはhttps://github.com/k akaobrain/miro。

Domain generalization (DG) aims to learn a generalized model to an unseen target domain using only limited source domains. Previous attempts to DG fail to learn domain-invariant representations only from the source domains due to the significant domain shifts between training and test domains. Instead, we re-formulate the DG objective using mutual information with the oracle model, a model generalized to any possible domain. We derive a tractable variational lower bound via approximating the oracle model by a pre-trained model, called Mutual Information Regularization with Oracle (MIRO). Our extensive experiments show that MIRO significantly improves the out-of-distribution performance. Furthermore, our scaling experiments show that the larger the scale of the pre-trained model, the greater the performance improvement of MIRO. Source code is available at https://github.com/k akaobrain/miro.
翻訳日:2022-03-22 15:00:28 公開日:2022-03-21
# 双曲視覚トランスフォーマー:計量学習の改善を組み合わせる

Hyperbolic Vision Transformers: Combining Improvements in Metric Learning ( http://arxiv.org/abs/2203.10833v1 )

ライセンス: Link先を確認
Aleksandr Ermolov, Leyla Mirvakhabova, Valentin Khrulkov, Nicu Sebe and Ivan Oseledets(参考訳) メトリック学習は、類似クラスの埋め込みが選択したメトリクスに近づいたり、異なるメトリクスにプッシュされたりすることを奨励する、非常に差別的なモデルを学ぶことを目的としている。 一般的なレシピは、エンコーダを使って埋め込みを抽出し、表現にマッチする距離ベースの損失関数を使用することである。 双曲的データ埋め込みの学習への関心は、双曲的幾何学が自然データにとって有益であることを示している。 そこで本研究では, 計量学習のための新しい双曲型モデルを提案する。 本手法の中核は双曲空間に写像された出力埋め込みを持つ視覚トランスフォーマである。 これらの埋め込みは、修正されたペアワイズクロスエントロピー損失を用いて直接最適化される。 提案モデルを4つのデータセット上で6つの異なる定式化で評価し,最新性能を得た。 ソースコードはhttps://github.com/h tdt/hyp_metricで入手できる。

Metric learning aims to learn a highly discriminative model encouraging the embeddings of similar classes to be close in the chosen metrics and pushed apart for dissimilar ones. The common recipe is to use an encoder to extract embeddings and a distance-based loss function to match the representations -- usually, the Euclidean distance is utilized. An emerging interest in learning hyperbolic data embeddings suggests that hyperbolic geometry can be beneficial for natural data. Following this line of work, we propose a new hyperbolic-based model for metric learning. At the core of our method is a vision transformer with output embeddings mapped to hyperbolic space. These embeddings are directly optimized using modified pairwise cross-entropy loss. We evaluate the proposed model with six different formulations on four datasets achieving the new state-of-the-art performance. The source code is available at https://github.com/h tdt/hyp_metric.
翻訳日:2022-03-22 15:00:13 公開日:2022-03-21
# 連続時空間グラフ畳み込みネットワークを用いたオンラインスケルトンベース行動認識

Online Skeleton-based Action Recognition with Continual Spatio-Temporal Graph Convolutional Networks ( http://arxiv.org/abs/2203.11009v1 )

ライセンス: Link先を確認
Lukas Hedegaard and Negar Heidari and Alexandros Iosifidis(参考訳) スケルトンデータによるグラフに基づく推論は、人間の行動認識に有望なアプローチとして現れてきた。 しかし、オンライン推論の設定に主に時間列全体を入力として利用する従来のグラフベースの手法は、かなりの計算冗長性を必要とする。 本稿では,時空間グラフ畳み込みニューラルネットワークを連続推論ネットワークとして再構成することで,フレーム処理を繰り返すことなく段階的に予測を行う。 提案手法を評価するため,ST-GCN,CoST-GCN,CoA GCN,CoS-TRの2つの自己保持機構を持つ導出法を連続的に生成する。 提案手法は, NTU RGB+D 60, NTU RGB+D 120, Kinetics Skeleton 400 データセットを用いて, 重量移動戦略と予測加速度のアーキテクチャ修正について検討した。 同様の予測精度を維持しながら、時間複雑性の最大109倍の削減、26倍のハードウェア上のアクセラレーション、オンライン推論中の最大割り当てメモリの最大52%の削減を観察する。

Graph-based reasoning over skeleton data has emerged as a promising approach for human action recognition. However, the application of prior graph-based methods, which predominantly employ whole temporal sequences as their input, to the setting of online inference entails considerable computational redundancy. In this paper, we tackle this issue by reformulating the Spatio-Temporal Graph Convolutional Neural Network as a Continual Inference Network, which can perform step-by-step predictions in time without repeat frame processing. To evaluate our method, we create a continual version of ST-GCN, CoST-GCN, alongside two derived methods with different self-attention mechanisms, CoAGCN and CoS-TR. We investigate weight transfer strategies and architectural modifications for inference acceleration, and perform experiments on the NTU RGB+D 60, NTU RGB+D 120, and Kinetics Skeleton 400 datasets. Retaining similar predictive accuracy, we observe up to 109x reduction in time complexity, on-hardware accelerations of 26x, and reductions in maximum allocated memory of 52% during online inference.
翻訳日:2022-03-22 15:00:01 公開日:2022-03-21
# Sem2NeRF:シングルビューセマンティックマスクをニューラルラジアンス場に変換する

Sem2NeRF: Converting Single-View Semantic Masks to Neural Radiance Fields ( http://arxiv.org/abs/2203.10821v1 )

ライセンス: Link先を確認
Yuedong Chen, Qianyi Wu, Chuanxia Zheng, Tat-Jen Cham and Jianfei Cai(参考訳) 画像翻訳と操作は、深層生成モデルの急速な発展とともに注目を集めている。 既存のアプローチは印象的な結果をもたらしたが、主に2D空間で動作する。 近年のNeRFに基づく3D生成モデルの発展を踏まえ,単一視点のセマンティックマスクを入力として,NeRFをモデルとした3Dシーンの再構築を目的としたセマンティック・トゥ・NeRF変換を導入した。 そこで本研究では,Sem2NeRFフレームワークを提案する。 特に、Sem2NeRFは、事前訓練されたデコーダの3Dシーン表現を制御する潜在コードにセマンティックマスクをエンコードすることで、非常に困難なタスクに対処する。 マッピングの精度をさらに向上するため,新たな領域認識学習戦略をエンコーダとデコーダの両方の設計に統合した。 提案するsem2nerfの有効性を検証し、2つのベンチマークデータセットで複数の強力なベースラインを上回ることを実証する。

Image translation and manipulation have gain increasing attention along with the rapid development of deep generative models. Although existing approaches have brought impressive results, they mainly operated in 2D space. In light of recent advances in NeRF-based 3D-aware generative models, we introduce a new task, Semantic-to-NeRF translation, that aims to reconstruct a 3D scene modelled by NeRF, conditioned on one single-view semantic mask as input. To kick-off this novel task, we propose the Sem2NeRF framework. In particular, Sem2NeRF addresses the highly challenging task by encoding the semantic mask into the latent code that controls the 3D scene representation of a pretrained decoder. To further improve the accuracy of the mapping, we integrate a new region-aware learning strategy into the design of both the encoder and the decoder. We verify the efficacy of the proposed Sem2NeRF and demonstrate that it outperforms several strong baselines on two benchmark datasets.
翻訳日:2022-03-22 14:58:55 公開日:2022-03-21
# (参考訳) 言語モデルにおける思考推論の連鎖を改善する自己一貫性 [全文訳有]

Self-Consistency Improves Chain of Thought Reasoning in Language Models ( http://arxiv.org/abs/2203.11171v1 )

ライセンス: CC BY 4.0
Xuezhi Wang, Jason Wei, Dale Schuurmans, Quoc Le, Ed Chi, Denny Zhou(参考訳) 我々は,大規模言語モデルの推論精度を大幅に向上させる,単純なアンサンブル戦略,自己整合性を探究する。 そのアイデアは、言語モデルからさまざまな出力セットをサンプリングし、セット内の最も一貫性のある回答を返すことである。 このようなアンサンブル法は、思考の連鎖と組み合わせることで推論精度を向上させる。 算術と常識推論のベンチマークでは、GSM8K(+10%)、SVAMP(+14%)、MultiArith(+24%)、CommonsenseQA(+5%)、ARC(easy +4%、チャレンジ+5%)など、さまざまなデータセットにおいて、自己整合性によって大幅な精度向上が得られます。

We explore a simple ensemble strategy, self-consistency, that significantly improves the reasoning accuracy of large language models. The idea is to sample a diverse set of outputs from a language model and return the most consistent answer in the set. Such ensembling method improves reasoning accuracy when combined with chain of thought prompting. For arithmetic and commonsense reasoning benchmarks we find that self-consistency yields significant accuracy improvements in a variety of datasets, such as GSM8K (+10%), SVAMP (+14%), MultiArith (+24%), CommonsenseQA (+5%) and ARC (easy +4%, challenge +5%).
翻訳日:2022-03-22 14:56:23 公開日:2022-03-21
# 名前付きエンティティ認識における一般化向上のためのエキスパートガイド付き逆数拡張の活用

Leveraging Expert Guided Adversarial Augmentation For Improving Generalization in Named Entity Recognition ( http://arxiv.org/abs/2203.10693v1 )

ライセンス: Link先を確認
Aaron Reich, Jiaao Chen, Aastha Agrawal, Yanzhe Zhang and Diyi Yang(参考訳) 名前付きエンティティ認識(NER)システムは、しばしば分散データに対して優れた性能を示すが、シフトした分布から引き出された例では不十分である。 NERモデルの一般化能力を評価する一つの方法は、名前付きエンティティに関連する特定のバリエーションをほとんど考慮しない逆例を使用することである。 この目的のために,我々は,専門家主導のヒューリスティックスを活用して,エンティティトークンとその周辺コンテキストを変更し,そのエンティティタイプを敵の攻撃として変更することを提案する。 専門家誘導型ヒューリスティックスを用いて,2003年のCoNLLテストセットを拡張し,手動でアノテートして高品質な挑戦セットを構築した。 その結果、2003年のCoNLLで訓練された最先端のNERシステムは、我々の挑戦的なセットで劇的に性能を低下させることがわかった。 OntoNotesデータを用いて、対向的強化トレーニング例のトレーニングとミックスアップによる正規化により、課題セットの性能を大幅に向上し、ドメイン外の一般化を改善した。 データセットとコードはhttps://github.com/G T-SALT/Guided-Advers arial-Augmentation.c omで公開しています。

Named Entity Recognition (NER) systems often demonstrate great performance on in-distribution data, but perform poorly on examples drawn from a shifted distribution. One way to evaluate the generalization ability of NER models is to use adversarial examples, on which the specific variations associated with named entities are rarely considered. To this end, we propose leveraging expert-guided heuristics to change the entity tokens and their surrounding contexts thereby altering their entity types as adversarial attacks. Using expert-guided heuristics, we augmented the CoNLL 2003 test set and manually annotated it to construct a high-quality challenging set. We found that state-of-the-art NER systems trained on CoNLL 2003 training data drop performance dramatically on our challenging set. By training on adversarial augmented training examples and using mixup for regularization, we were able to significantly improve the performance on the challenging set as well as improve out-of-domain generalization which we evaluated by using OntoNotes data. We have publicly released our dataset and code at https://github.com/G T-SALT/Guided-Advers arial-Augmentation.
翻訳日:2022-03-22 14:31:07 公開日:2022-03-21
# 変圧器と技術単語情報に基づく知的特性エンティティ認識手法

An Intellectual Property Entity Recognition Method Based on Transformer and Technological Word Information ( http://arxiv.org/abs/2203.10717v1 )

ライセンス: Link先を確認
Yuhui Wang, Junping Du, Yingxia Shao(参考訳) 特許文書には大量のエンティティ情報が含まれている。 名前付きエンティティ認識により、キー情報を含む知的財産エンティティ情報を抽出し、研究者がより早く特許内容を理解するのに役立つ。 そのため、専門的な語彙変化による単語レベルでの意味情報を十分に活用することは、既存の名前付きエンティティ抽出法では困難である。 本稿では,トランスフォーマーと技術用語情報に基づく知的財産の抽出手法を提案し,BERT言語手法と組み合わせて正確な単語ベクトル表現を提供する。 単語ベクトル生成の過程で、IDCNNによって抽出された技術的単語情報が追加され、知的財産エンティティ表現能力の理解が向上する。 最後に、相対的な位置符号化を導入するトランスエンコーダを使用して、単語ベクトルのシーケンスからテキストの深い意味情報を学び、エンティティラベル予測を実現する。 パブリックデータセットとアノテートされた特許データセットの実験結果は,エンティティ認識の精度を向上させることを示す。

Patent texts contain a large amount of entity information. Through named entity recognition, intellectual property entity information containing key information can be extracted from it, helping researchers to understand the patent content faster. Therefore, it is difficult for existing named entity extraction methods to make full use of the semantic information at the word level brought about by professional vocabulary changes. This paper proposes a method for extracting intellectual property entities based on Transformer and technical word information , and provides accurate word vector representation in combination with the BERT language method. In the process of word vector generation, the technical word information extracted by IDCNN is added to improve the understanding of intellectual property entities Representation ability. Finally, the Transformer encoder that introduces relative position encoding is used to learn the deep semantic information of the text from the sequence of word vectors, and realize entity label prediction. Experimental results on public datasets and annotated patent datasets show that the method improves the accuracy of entity recognition.
翻訳日:2022-03-22 14:30:49 公開日:2022-03-21
# 留意点に基づく学術資料レベルの多ラベル分類

Academic Resource Text Level Multi-label Classification based on Attention ( http://arxiv.org/abs/2203.10743v1 )

ライセンス: Link先を確認
Yue Wang, Yawen Li, Ang Li(参考訳) 階層的多ラベル学術テキスト分類(Hierarchical multi-label academic text classification, HMTC)は、学術テキストを階層的に構造化されたラベリングシステムに割り当てることである。 本稿では,テキスト,キーワード,階層構造などの特徴を統合することにより,学術文献を最も関連性の高いカテゴリに分類し,注意に基づく学術文章の階層的階層分類アルゴリズムを提案する。 我々は word2vec と BiLSTM を用いてテキスト,キーワード,階層の埋め込みおよび潜時ベクトル表現を得る。 階層的注意機構を用いてキーワード,ラベル階層,およびテキスト単語ベクトル間の関係をキャプチャし,階層的特有な文書埋め込みベクトルを生成し,hmcn-f の原文埋め込みを置き換える。 学術テキストデータセットの実験結果から,AHMCAアルゴリズムの有効性が示された。

Hierarchical multi-label academic text classification (HMTC) is to assign academic texts into a hierarchically structured labeling system. We propose an attention-based hierarchical multi-label classification algorithm of academic texts (AHMCA) by integrating features such as text, keywords, and hierarchical structure, the academic documents are classified into the most relevant categories. We utilize word2vec and BiLSTM to obtain embedding and latent vector representations of text, keywords, and hierarchies. We use hierarchical attention mechanism to capture the associations between keywords, label hierarchies, and text word vectors to generate hierarchical-specifi c document embedding vectors to replace the original text embeddings in HMCN-F. The experimental results on the academic text dataset demonstrate the effectiveness of the AHMCA algorithm.
翻訳日:2022-03-22 14:30:34 公開日:2022-03-21
# 知識ベース上での時間的質問応答改善のためのテキスト資源からの時間的事実の抽出

Targeted Extraction of Temporal Facts from Textual Resources for Improved Temporal Question Answering over Knowledge Bases ( http://arxiv.org/abs/2203.11054v1 )

ライセンス: Link先を確認
Nithish Kannen, Udit Sharma, Sumit Neelam, Dinesh Khandelwal, Shajith Ikbal, Hima Karanam, L Venkata Subramaniam(参考訳) Knowledge Base Question Answering (KBQA) システムは、知識ベース (KB) から取得した関連事実を推論することで、複雑な自然言語質問に答えることを目的としている。 これらのシステムで直面する大きな課題の1つは、不完全なKBやエンティティ/リレーショナルリンクエラーなどの要因により、関連するすべての事実を検索できないことである。 本稿では,時間的質問と呼ばれる質問の特定のカテゴリを扱うシステムにおいて,様々な事象のポイント/インターバルを主張する事実を推論する解の導出を行うシステムにおいて,この課題に対処する。 そこで本研究では, kbから時間的事実を抽出できない場合, 目標時間的事実抽出手法を用いてkbqaを支援する新しい手法を提案する。 質問の$\lambda$-presention sを使って、コンポーネントの事実と答えを導き出すために必要な推論ステップを論理的に表現します。 これにより、kbから取得できなかった事実を見つけ出し、テキストクエリを生成して、オープンドメインの質問応答方式でテキストリソースからそれらを抽出することができます。 我々は,wikidata と wikipedia をそれぞれ kb とテキスト資源として考慮した,ベンチマーク時事質問応答データセットに対するアプローチを評価した。 実験結果から, 回答精度の相対的改善は有意な$\sim$30\%であり, 提案手法の有効性が示された。

Knowledge Base Question Answering (KBQA) systems have the goal of answering complex natural language questions by reasoning over relevant facts retrieved from Knowledge Bases (KB). One of the major challenges faced by these systems is their inability to retrieve all relevant facts due to factors such as incomplete KB and entity/relation linking errors. In this paper, we address this particular challenge for systems handling a specific category of questions called temporal questions, where answer derivation involve reasoning over facts asserting point/intervals of time for various events. We propose a novel approach where a targeted temporal fact extraction technique is used to assist KBQA whenever it fails to retrieve temporal facts from the KB. We use $\lambda$-expression s of the questions to logically represent the component facts and the reasoning steps needed to derive the answer. This allows us to spot those facts that failed to get retrieved from the KB and generate textual queries to extract them from the textual resources in an open-domain question answering fashion. We evaluated our approach on a benchmark temporal question answering dataset considering Wikidata and Wikipedia respectively as the KB and textual resource. Experimental results show a significant $\sim$30\% relative improvement in answer accuracy, demonstrating the effectiveness of our approach.
翻訳日:2022-03-22 14:30:19 公開日:2022-03-21
# 自動臨床コーディング:何が、なぜ、どこにあるのか?

Automated Clinical Coding: What, Why, and Where We Are? ( http://arxiv.org/abs/2203.11092v1 )

ライセンス: Link先を確認
Hang Dong, Mat\'u\v{s} Falis, William Whiteley, Beatrice Alex, Shaoxiong Ji, Jiaoyan Chen, Honghan Wu(参考訳) 臨床コーディングは、患者の健康記録の医療情報を構造化コードに変換し、統計分析に使用できるようにする作業である。 これは、高いレベルの一貫性を達成するために標準プロセスに従う認知的かつ時間のかかるタスクです。 クリニカルコーディングは、プロセスの効率と正確性を改善する自動化システムによってサポートされる可能性がある。 本稿では,人工知能(ai)と自然言語処理(nlp)の観点から,過去2年半(2019年後半~2022年前半)のプロジェクト経験,スコットランドと英国における臨床コーディング専門家との議論をもとに,自動臨床コーディングの考え方を紹介し,その課題を要約する。 本研究は,現在臨床コーディングに適用されている深層学習に基づくアプローチと,実世界の実践における説明可能性と一貫性の必要性とのギャップを明らかにする。 タスクの標準的な説明可能なプロセスを表現する知識ベースの手法は、臨床コーディングのための深層学習ベースの手法に組み込まれる必要がある。 技術的、組織的な課題にもかかわらず、自動臨床コーディングはAIにとって有望なタスクである。 コーダは開発プロセスに関与する必要があります。 今後5年間、コーディングをサポートするaiベースの自動化システムの開発とデプロイには、達成すべきことがたくさんあります。

Clinical coding is the task of transforming medical information in a patient's health records into structured codes so that they can be used for statistical analysis. This is a cognitive and time-consuming task that follows a standard process in order to achieve a high level of consistency. Clinical coding could potentially be supported by an automated system to improve the efficiency and accuracy of the process. We introduce the idea of automated clinical coding and summarise its challenges from the perspective of Artificial Intelligence (AI) and Natural Language Processing (NLP), based on the literature, our project experience over the past two and half years (late 2019 - early 2022), and discussions with clinical coding experts in Scotland and the UK. Our research reveals the gaps between the current deep learning-based approach applied to clinical coding and the need for explainability and consistency in real-world practice. Knowledge-based methods that represent and reason the standard, explainable process of a task may need to be incorporated into deep learning-based methods for clinical coding. Automated clinical coding is a promising task for AI, despite the technical and organisational challenges. Coders are needed to be involved in the development process. There is much to achieve to develop and deploy an AI-based automated system to support coding in the next five years and beyond.
翻訳日:2022-03-22 14:29:57 公開日:2022-03-21
# LocATe: トランスフォーマーを用いた3Dにおけるアクションのエンドツーエンドのローカライズ

LocATe: End-to-end Localization of Actions in 3D with Transformers ( http://arxiv.org/abs/2203.10719v1 )

ライセンス: Link先を確認
Jiankai Sun, Bolei Zhou, Michael J. Black, Arjun Chandrasekaran(参考訳) 人の動作を3Dモーションから理解することは、多くのアプリケーションでコンピュータビジョンの基本的な問題である。 この問題の重要な要素は、3次元の時間的行動の局所化(3d-tal)である。 最先端の3d-tal法は、動作スパン検出タスクと動作認識タスクをカスケードとして実装する2段階アプローチを採用している。 しかし、このアプローチはエラー訂正の可能性を制限する。 対照的にLocATeは3Dシーケンスのアクションを共同でローカライズし認識するエンドツーエンドアプローチである。 さらに、シーケンス内のローカルコンテキストのモデリングに重点を置く既存の自己回帰モデルとは異なり、LocATeのトランスフォーマーモデルはシーケンス内のアクション間の長期的な相関をキャプチャすることができる。 画像やパッチの特徴を入力として考えるトランスフォーマーベースのオブジェクト検出や分類モデルとは異なり、3D-TALの入力は高相関フレームの長いシーケンスである。 高次元入力を処理するために, 効果的な入力表現を実装し, モデルにばらばらな注意を導入することにより, 長時間の地平線を越えた拡散注意を克服する。 LocATeは、既存のPKU-MMD 3D-TALベンチマーク(mAP=93.2%)において、以前のアプローチよりも優れている。 最後に、ベンチマークデータセットは、パフォーマンス改善の余地が明確である場合に最も有用であると主張する。 そこで我々は,最先端手法の性能が著しく悪化するBABEL-TAL-20(BT20)という,新しい,挑戦的でより現実的なベンチマークデータセットを導入する。 このメソッドのデータセットとコードは、研究目的で利用できる。

Understanding a person's behavior from their 3D motion is a fundamental problem in computer vision with many applications. An important component of this problem is 3D Temporal Action Localization (3D-TAL), which involves recognizing what actions a person is performing, and when. State-of-the-art 3D-TAL methods employ a two-stage approach in which the action span detection task and the action recognition task are implemented as a cascade. This approach, however, limits the possibility of error-correction. In contrast, we propose LocATe, an end-to-end approach that jointly localizes and recognizes actions in a 3D sequence. Further, unlike existing autoregressive models that focus on modeling the local context in a sequence, LocATe's transformer model is capable of capturing long-term correlations between actions in a sequence. Unlike transformer-based object-detection and classification models which consider image or patch features as input, the input in 3D-TAL is a long sequence of highly correlated frames. To handle the high-dimensional input, we implement an effective input representation, and overcome the diffuse attention across long time horizons by introducing sparse attention in the model. LocATe outperforms previous approaches on the existing PKU-MMD 3D-TAL benchmark (mAP=93.2%). Finally, we argue that benchmark datasets are most useful where there is clear room for performance improvement. To that end, we introduce a new, challenging, and more realistic benchmark dataset, BABEL-TAL-20 (BT20), where the performance of state-of-the-art methods is significantly worse. The dataset and code for the method will be available for research purposes.
翻訳日:2022-03-22 14:27:39 公開日:2022-03-21
# 半教師付きアクティブ学習によるセマンティックセグメンテーション

Semantic Segmentation with Active Semi-Supervised Learning ( http://arxiv.org/abs/2203.10730v1 )

ライセンス: Link先を確認
Aneesh Rangnekar, Christopher Kanan, Matthew Hoffman(参考訳) ディープラーニングを使えば、非常に優れたセマンティクスセグメンテーションシステムを作ることができますが、画像のトレーニングに必要なピクセル単位でのアノテーションの収集は依然として高価で時間がかかります。 したがって、新しいデータセットを作成するのに必要なヒューマンアノテーションの数を最小にするのが理想的でしょう。 本稿では,能動的学習と半教師付き学習を組み合わせた新しいアルゴリズムを提案する。 アクティブラーニング(active learning)は、注釈なしの最良のサンプルを特定するためのアプローチである。 セグメンテーションのためのアクティブラーニングの研究は行われているが、ほとんどの方法は最も情報性の高い領域だけでなく、各画像にすべてのピクセルオブジェクトを注釈付けする必要がある。 これは非効率だと主張する。 その代わり、アクティブな学習アプローチは、画像当たりのアノテーションの数を最小限にすることを目的としています。 本手法は半教師付き学習に富み,教師学習フレームワークを用いて生成した擬似ラベルを用いて画像領域の識別を行う。 また,セマンティクスセグメンテーションにおけるアクティブ学習のためにこれまで研究されていない不均衡ラベル分布の性能を向上させる機構も統合する。 CamVidとCityScapesのデータセットを用いた実験では,トレーニングデータの19%以下を用いて,ネットワークの性能の95%以上をフルトレーニングセットで取得した。

Using deep learning, we now have the ability to create exceptionally good semantic segmentation systems; however, collecting the prerequisite pixel-wise annotations for training images remains expensive and time-consuming. Therefore, it would be ideal to minimize the number of human annotations needed when creating a new dataset. Here, we address this problem by proposing a novel algorithm that combines active learning and semi-supervised learning. Active learning is an approach for identifying the best unlabeled samples to annotate. While there has been work on active learning for segmentation, most methods require annotating all pixel objects in each image, rather than only the most informative regions. We argue that this is inefficient. Instead, our active learning approach aims to minimize the number of annotations per-image. Our method is enriched with semi-supervised learning, where we use pseudo labels generated with a teacher-student framework to identify image regions that help disambiguate confused classes. We also integrate mechanisms that enable better performance on imbalanced label distributions, which have not been studied previously for active learning in semantic segmentation. In experiments on the CamVid and CityScapes datasets, our method obtains over 95% of the network's performance on the full-training set using less than 19% of the training data, whereas the previous state of the art required 40% of the training data.
翻訳日:2022-03-22 14:27:09 公開日:2022-03-21
# scalablevit: vision transformerのコンテキスト指向一般化を再考する

ScalableViT: Rethinking the Context-oriented Generalization of Vision Transformer ( http://arxiv.org/abs/2203.10790v1 )

ライセンス: Link先を確認
Rui Yang, Hailong Ma, Jie Wu, Yansong Tang, Xuefeng Xiao, Min Zheng, Xiu Li(参考訳) バニラ自己アテンション機構は、本質的には事前に定義された計算次元とステッドファスト計算次元に依存する。 このような非フレキシビリティは、よりコンテキスト的なキューやグローバルな表現をもたらすようなコンテキスト指向の一般化を持つことから制限される。 この問題を軽減するため,我々は2つのスケーリング要素を利用してクエリ,キー,バリューマトリックスの次元を解放し,それらを入力とアンバインディングするスケーラブルなセルフアテンション(ssa)メカニズムを提案する。 このスケーラビリティは、コンテキスト指向の一般化を引き合いに出し、オブジェクトの感度を高め、ネットワーク全体を精度とコストの間のより効果的なトレードオフ状態へと押し上げる。 さらに、独立値トークンを再統合し、隣接するウィンドウから空間情報を集約することにより、重複しない領域間の相互作用を確立する対話型ウィンドウベースの自己認識(IWSA)を提案する。 SSAとIWSAを交互に積み重ねることで、Scalable Vision Transformer (ScalableViT)は汎用視覚タスクにおける最先端のパフォーマンスを達成する。 例えば、ScalableViT-SはTwins-SVT-Sを1.4%、Swin-Tを1.8%上回っている。

The vanilla self-attention mechanism inherently relies on pre-defined and steadfast computational dimensions. Such inflexibility restricts it from possessing context-oriented generalization that can bring more contextual cues and global representations. To mitigate this issue, we propose a Scalable Self-Attention (SSA) mechanism that leverages two scaling factors to release dimensions of query, key, and value matrix while unbinding them with the input. This scalability fetches context-oriented generalization and enhances object sensitivity, which pushes the whole network into a more effective trade-off state between accuracy and cost. Furthermore, we propose an Interactive Window-based Self-Attention (IWSA), which establishes interaction between non-overlapping regions by re-merging independent value tokens and aggregating spatial information from adjacent windows. By stacking the SSA and IWSA alternately, the Scalable Vision Transformer (ScalableViT) achieves state-of-the-art performance in general-purpose vision tasks. For example, ScalableViT-S outperforms Twins-SVT-S by 1.4% and Swin-T by 1.8% on ImageNet-1K classification.
翻訳日:2022-03-22 14:26:47 公開日:2022-03-21
# グリオーマ遺伝子型予測のためのマルチモーダル学習

Multi-modal learning for predicting the genotype of glioma ( http://arxiv.org/abs/2203.10852v1 )

ライセンス: Link先を確認
Yiran Wei, Xi Chen, Lei Zhu, Lipei Zhang, Carola-Bibiane Sch\"onlieb, Stephen J. Price, Chao Li(参考訳) Isocitrate dehydrogenase (IDH)遺伝子変異はグリオーマの診断と予後に必須なバイオマーカーである。 脳腫瘍の画像と幾何学的特徴をmriから派生した脳ネットワーク機能に統合することにより、グリオーマ遺伝子型を予測することが期待されている。 畳み込みニューラルネットワークはIDH変異を予測する上で妥当な性能を示すが、幾何データやネットワークデータのような非ユークリッドデータから学べない。 本研究では,3つの異なるエンコーダを用いたマルチモーダル学習フレームワークを提案し,局所腫瘍像,腫瘍幾何学,大域脳ネットワークの特徴を抽出する。 拡散MRIの可用性を抑えるため,解剖学的マルチシーケンスMRIから脳ネットワークを生成する自己教師型アプローチを開発した。 さらに,脳ネットワークから腫瘍関連特徴を抽出するために,脳ネットワークエンコーダのための階層的アテンションモジュールを設計する。 さらに,両レベルのマルチモーダルコントラスト損失を設計し,マルチモーダルの特徴を整列させ,焦点腫瘍と大脳域における領域ギャップに対処する。 最後に、遺伝子型予測のためのマルチモーダル特徴を統合するための重み付き人口グラフを提案する。 実験結果から,提案モデルがベースライン深層学習モデルより優れていることが示された。 アブレーション実験は、フレームワークのさまざまなコンポーネントのパフォーマンスを検証する。 可視化された解釈は、さらなる検証を伴う臨床知識に対応する。 結論として,提案する学習フレームワークはグリオーマの遺伝子型を予測する新しいアプローチを提供する。

The isocitrate dehydrogenase (IDH) gene mutation is an essential biomarker for the diagnosis and prognosis of glioma. It is promising to better predict glioma genotype by integrating focal tumor image and geometric features with brain network features derived from MRI. Convolutions neural networks show reasonable performance in predicting IDH mutation, which, however, cannot learn from non-Euclidean data, e.g., geometric and network data. In this study, we propose a multi-modal learning framework using three separate encoders to extract features of focal tumor image, tumor geometrics and global brain networks. To mitigate the limited availability of diffusion MRI, we develop a self-supervised approach to generate brain networks from anatomical multi-sequence MRI. Moreover, to extract tumor-related features from the brain network, we design a hierarchical attention module for the brain network encoder. Further, we design a bi-level multi-modal contrastive loss to align the multi-modal features and tackle the domain gap at the focal tumor and global brain. Finally, we propose a weighted population graph to integrate the multi-modal features for genotype prediction. Experimental results on the testing set show that the proposed model outperforms the baseline deep learning models. The ablation experiments validate the performance of different components of the framework. The visualized interpretation corresponds to clinical knowledge with further validation. In conclusion, the proposed learning framework provides a novel approach for predicting the genotype of glioma.
翻訳日:2022-03-22 14:26:28 公開日:2022-03-21
# 密集したシャム網

Dense Siamese Network ( http://arxiv.org/abs/2203.11075v1 )

ライセンス: Link先を確認
Wenwei Zhang, Jiangmiao Pang, Kai Chen, Chen Change Loy(参考訳) 本稿では,高密度予測タスクのための単純な教師なし学習フレームワークであるDense Siamese Network(DenseSiam)を提案する。 画像の2つのビュー間の類似性を最大化し、ピクセルの一貫性と領域の一貫性という2種類の一貫性を学習する。 具体的には、まず、重なり合う領域の正確な位置対応に従って、ピクセルレベルの空間的一貫性を最大化する。 また、重複領域のいくつかのサブリージョンに対応する領域埋め込みのバッチを抽出し、領域の一貫性と対比する。 負のピクセル対、運動量エンコーダ、またはヒューリスティックマスクを必要とする従来の手法とは対照的に、DenseSiamは単純なシームズネットワークから恩恵を受け、異なる粒度の一貫性を最適化する。 また、単純な位置対応と相互作用する領域埋め込みは、類似性を学ぶのに十分な有効であることを示す。 我々は、ImageNetにDenseSiamを適用し、様々な下流タスクの競争力の向上を得る。 また、タスク固有の損失を少し増やせば、単純なフレームワークが密集した予測タスクを直接実行できることも示します。 既存の教師なしセマンティクスセグメンテーションベンチマークでは、最先端セグメンテーションメソッドを28%のトレーニングコストで2.1miouで上回っている。

This paper presents Dense Siamese Network (DenseSiam), a simple unsupervised learning framework for dense prediction tasks. It learns visual representations by maximizing the similarity between two views of one image with two types of consistency, i.e., pixel consistency and region consistency. Concretely, DenseSiam first maximizes the pixel level spatial consistency according to the exact location correspondence in the overlapped area. It also extracts a batch of region embeddings that correspond to some sub-regions in the overlapped area to be contrasted for region consistency. In contrast to previous methods that require negative pixel pairs, momentum encoders, or heuristic masks, DenseSiam benefits from the simple Siamese network and optimizes the consistency of different granularities. It also proves that the simple location correspondence and interacted region embeddings are effective enough to learn the similarity. We apply DenseSiam on ImageNet and obtain competitive improvements on various downstream tasks. We also show that only with some extra task-specific losses, the simple framework can directly conduct dense prediction tasks. On an existing unsupervised semantic segmentation benchmark, it surpasses state-of-the-art segmentation methods by 2.1 mIoU with 28% training costs.
翻訳日:2022-03-22 14:26:06 公開日:2022-03-21
# (参考訳) ソフトコンピューティングを用いたマルチスペクトル衛星データ分類 [全文訳有]

Multispectral Satellite Data Classification using Soft Computing Approach ( http://arxiv.org/abs/2203.11146v1 )

ライセンス: CC0 1.0
Purbarag Pathak Choudhury, Ujjal Kr Dutta, Dhruba Kr Bhattacharyya(参考訳) 衛星画像はリモートセンシングされた画像データであり、各ピクセルは地球上の特定の位置を表す。 記録された画素値は、その位置にある地球表面からの反射放射である。 マルチスペクトル画像は、可視光のすべての波長に敏感なパンクロマチック画像と比較して、電磁スペクトルの特定の周波数で画像データをキャプチャするものである。 これらの画像の高解像度と高次元のため、高速な処理のためのトレードオフとして、異なるサイズ、形状、密度のクラスタを効率的に検出するクラスタリング技術が困難になる。 本稿では,オブジェクト識別のためのグリッド密度に基づくクラスタリング手法を提案する。 また,ルール帰納型機械学習アルゴリズムを用いて衛星画像データを分類する手法を提案する。 オブジェクトの識別と分類方法は、いくつかの合成およびベンチマークデータセットを用いて検証されている。

A satellite image is a remotely sensed image data, where each pixel represents a specific location on earth. The pixel value recorded is the reflection radiation from the earth's surface at that location. Multispectral images are those that capture image data at specific frequencies across the electromagnetic spectrum as compared to Panchromatic images which are sensitive to all wavelength of visible light. Because of the high resolution and high dimensions of these images, they create difficulties for clustering techniques to efficiently detect clusters of different sizes, shapes and densities as a trade off for fast processing time. In this paper we propose a grid-density based clustering technique for identification of objects. We also introduce an approach to classify a satellite image data using a rule induction based machine learning algorithm. The object identification and classification methods have been validated using several synthetic and benchmark datasets.
翻訳日:2022-03-22 14:24:07 公開日:2022-03-21
# データ効率学習のための分離混合処理

Decoupled Mixup for Data-efficient Learning ( http://arxiv.org/abs/2203.10761v1 )

ライセンス: Link先を確認
Zicheng Liu, Siyuan Li, Ge Wang, Cheng Tan, Lirong Wu, Stan Z. Li(参考訳) Mixupは、決定境界を混合データで滑らかにすることで、ニューラルネットワークの一般化を改善する効率的なデータ拡張アプローチである。 近年,動的混合手法により,従来の静的ポリシ(線形補間など)が改善され,識別領域を最大化したり,試料中の有価物を維持したりしている。 動的ポリシーからの混合サンプルは静的なものよりも分離可能であり、モデルが過度に適合することを防ぐ。 この発見に触発されて、私たちはまず、差別的特徴を識別する代わりに混合比の回帰に焦点を当てた混合目標に過度に平滑な問題が存在すると論じる。 そこで我々は, 差別的特徴をスムーズさを損なうことなく, 適応的にマイニングできる分離混合損失(DM)を提案する。 DMは、計算オーバーヘッドの重い処理を回避しつつ、動的手法で同等のパフォーマンスを実現する。 これはまた、ミキシングトレーニングにおいて、決定境界の平滑化だけでなく、差別的特徴の識別にも焦点を合わせる必要がある興味深い客観的設計問題につながります。 7つの分類データセットにまたがる教師付きおよび半教師付き学習ベンチマークに関する広範囲な実験は、様々な混合手法を用いてDMの有効性を検証する。

Mixup is an efficient data augmentation approach that improves the generalization of neural networks by smoothing the decision boundary with mixed data. Recently, dynamic mixup methods improve previous static policies (e.g., linear interpolation) by maximizing discriminative regions or maintaining the salient objects in mixed samples. We notice that The mixed samples from dynamic policies are more separable than the static ones while preventing models from overfitting. Inspired by this finding, we first argue that there exists an over-smoothing issue in the mixup objective, which focuses on regression the mixing ratio instead of identifying discriminative features. We are therefore prompted to propose a decoupled mixup (DM) loss that can adaptively mine discriminative features without losing smoothness. DM enables static mixup methods to achieve comparable performance with dynamic methods while avoiding heavy computational overhead. This also leads to an interesting objective design problem for mixup training that we need to focus not only on smoothing the decision boundaries but also on identifying discriminative features. Extensive experiments on supervised and semi-supervised learning benchmarks across seven classification datasets validate the effectiveness of DM by equipping with various mixup methods.
翻訳日:2022-03-22 14:12:49 公開日:2022-03-21
# ネットワークにおけるバッチ正規化の推定シフトに関する研究

Delving into the Estimation Shift of Batch Normalization in a Network ( http://arxiv.org/abs/2203.10778v1 )

ライセンス: Link先を確認
Lei Huang, Yi Zhou, Tian Wang, Jie Luo and Xianglong Liu(参考訳) バッチ正規化(BN)はディープラーニングにおけるマイルストーン技術である。 トレーニング中にミニバッチ統計を用いてアクティベーションを正規化するが、推測された人口統計は推測される。 本稿では,人口統計の推計に焦点をあてる。 推定人口統計と予測人口との差を定量的に測定するために,BNの推定シフトマグニチュードを定義した。 第一の観察は,ネットワーク内のBNの積み重なり,テスト性能に有害な影響があるため,推定シフトを蓄積できる点である。 さらに、バッチフリー正規化(BFN)は、そのような推定シフトの蓄積をブロックできる。 これらの観測は、残差型ネットワークのボトルネックブロックにおいて、あるBNをBFNに置き換えるXBNBlockの設計を動機付けている。 imagenetとcocoベンチマークの実験では、xbnblockは、resnetやresnextを含むさまざまなアーキテクチャのパフォーマンスを一貫して改善し、分散シフトに対してより堅牢であることを示している。

Batch normalization (BN) is a milestone technique in deep learning. It normalizes the activation using mini-batch statistics during training but the estimated population statistics during inference. This paper focuses on investigating the estimation of population statistics. We define the estimation shift magnitude of BN to quantitatively measure the difference between its estimated population statistics and expected ones. Our primary observation is that the estimation shift can be accumulated due to the stack of BN in a network, which has detriment effects for the test performance. We further find a batch-free normalization (BFN) can block such an accumulation of estimation shift. These observations motivate our design of XBNBlock that replace one BN with BFN in the bottleneck block of residual-style networks. Experiments on the ImageNet and COCO benchmarks show that XBNBlock consistently improves the performance of different architectures, including ResNet and ResNeXt, by a significant margin and seems to be more robust to distribution shift.
翻訳日:2022-03-22 14:12:30 公開日:2022-03-21
# 室内深部補修のためのRGB深部核融合GAN

RGB-Depth Fusion GAN for Indoor Depth Completion ( http://arxiv.org/abs/2203.10856v1 )

ライセンス: Link先を確認
Haowen Wang, Mingyuan Wang, Zhengping Che, Zhiyuan Xu, Xiuquan Qiao, Mengshi Qi, Feifei Feng, Jian Tang(参考訳) 屋内深度センサが捉えた原深度画像は、通常、透明な物体を知覚できないことや距離範囲が限られるなど、固有の制限により、被写界深度値の範囲が広い。 不完全な深度マップは多くの下流視覚課題を負担し、この問題を軽減するために多くの深度補完法が提案されている。 多くの既存手法はスパース深度マップと一様にサンプリングされた深度マップから正確な深度マップを生成することができるが、共通かつ臨界である深度値の欠如した大きな連続した領域を補うには適していない。 本稿では,RGBと不完全深度画像のペアを入力として,高密度で完成度の高い深度マップを推定する,新しい2分岐エンドツーエンド融合ネットワークを設計する。 第1分岐部は、RGB画像から抽出した局所誘導情報を用いて、生深度マップから局所密度深度値を回帰するためにエンコーダデコーダ構造を用いる。 他方のブランチでは、RGB画像を微細なテクスチャ化深度マップに転送するRGB深度融合GANを提案する。 w-adain と呼ばれる適応型核融合モジュールを採用して2つの枝にまたがる特徴を伝播させ、最終深度マップのために枝の2つの出力を融合する信頼度核融合ヘッドを付加する。 nyu-depth v2 と sun rgb-d に関する広範囲な実験により,提案手法が,特に擬似深度マップを用いて室内環境のより現実的な設定において,深度補完性能を明らかに改善できることが証明された。

The raw depth image captured by the indoor depth sensor usually has an extensive range of missing depth values due to inherent limitations such as the inability to perceive transparent objects and limited distance range. The incomplete depth map burdens many downstream vision tasks, and a rising number of depth completion methods have been proposed to alleviate this issue. While most existing methods can generate accurate dense depth maps from sparse and uniformly sampled depth maps, they are not suitable for complementing the large contiguous regions of missing depth values, which is common and critical. In this paper, we design a novel two-branch end-to-end fusion network, which takes a pair of RGB and incomplete depth images as input to predict a dense and completed depth map. The first branch employs an encoder-decoder structure to regress the local dense depth values from the raw depth map, with the help of local guidance information extracted from the RGB image. In the other branch, we propose an RGB-depth fusion GAN to transfer the RGB image to the fine-grained textured depth map. We adopt adaptive fusion modules named W-AdaIN to propagate the features across the two branches, and we append a confidence fusion head to fuse the two outputs of the branches for the final depth map. Extensive experiments on NYU-Depth V2 and SUN RGB-D demonstrate that our proposed method clearly improves the depth completion performance, especially in a more realistic setting of indoor environments with the help of the pseudo depth map.
翻訳日:2022-03-22 14:12:12 公開日:2022-03-21
# 医療応用における絡み合いアプローチの展望 ---医療における生成モデルのゴルディアン結び目解決に向けて-

Review of Disentanglement Approaches for Medical Applications -- Towards Solving the Gordian Knot of Generative Models in Healthcare ( http://arxiv.org/abs/2203.11132v1 )

ライセンス: Link先を確認
Jana Fragemann, Lynton Ardizzone, Jan Egger, Jens Kleesiek(参考訳) ディープニューラルネットワークは画像生成、セグメンテーション、分類などの医療目的に一般的に使用される。 このほか、意思決定プロセスは人間には解釈できないことが多いため、ブラックボックスとして批判されることが多い。 変換された生成モデルの潜在表現を拡大することは、制御と解釈可能性の新しい視点を提供する。 データ生成プロセスを理解することは、患者のプライバシーを侵害したり、異なるデータモダリティを合成したり、データ生成特性を発見することなく、人工的な医療データセットを作成するのに役立つ。 これらの特徴は、遺伝的特徴や患者の結果と関係のある新しい関係を解明するかもしれない。 本稿では,GAN(Generative Adversarial Networks),VAE(varian tal Autoencoders),フローベースモデルなど,一般的な生成モデルの概要を紹介する。 さらに, 乱れの異なる概念を要約し, 乱れの程度を評価するために, 潜在空間表現と指標とを区別するアプローチをレビューする。 理論的枠組みを導入した後,最近の医学的応用の概要を述べ,医学的応用における解離アプローチの影響と重要性について論じる。

Deep neural networks are commonly used for medical purposes such as image generation, segmentation, or classification. Besides this, they are often criticized as black boxes as their decision process is often not human interpretable. Encouraging the latent representation of a generative model to be disentangled offers new perspectives of control and interpretability. Understanding the data generation process could help to create artificial medical data sets without violating patient privacy, synthesizing different data modalities, or discovering data generating characteristics. These characteristics might unravel novel relationships that can be related to genetic traits or patient outcomes. In this paper, we give a comprehensive overview of popular generative models, like Generative Adversarial Networks (GANs), Variational Autoencoders (VAEs), and Flow-based Models. Furthermore, we summarize the different notions of disentanglement, review approaches to disentangle latent space representations and metrics to evaluate the degree of disentanglement. After introducing the theoretical frameworks, we give an overview of recent medical applications and discuss the impact and importance of disentanglement approaches for medical applications.
翻訳日:2022-03-22 14:11:43 公開日:2022-03-21
# 高速・低速な生成:再構成によるシーン分解

Generating Fast and Slow: Scene Decomposition via Reconstruction ( http://arxiv.org/abs/2203.11194v1 )

ライセンス: Link先を確認
Mihir Prabhudesai, Anirudh Goyal, Deepak Pathak, Katerina Fragkiadaki(参考訳) シーンを構成エンティティ、すなわち基礎となるオブジェクトとその部分に分割する問題を考察する。 現在の監視された視覚検出器は、訓練分布内では印象的であるが、しばしば分散シーンを構成要素に分割することができない。 最近のスロット中心生成モデルは、ピクセルの再構成によって、シーンを教師なしのエンティティに分割しようとすることで、監督への依存を壊す。 しかし、復興と分断のトレードオフに苦しむ玩具シーンに制限されており、実体のボトルネックが拡大するにつれ、再建は改善されるが、分断は崩壊する。 我々は,この問題を緩和するgfs-nets (generating fast and slow networks) を提案する。 一 プリミティブの形式によるカリキュラムの訓練で、しばしば現在の生成モデルに欠けていること。 二 現場ごとのテスト時間順応は、現在のフィードフォワード検出器から欠落した、リコンストラクション目的の勾配降下により行う。 提案するカリキュラムでは,レコンストラクション・セグメンテーションのトレードオフを解消し,スロー推論により分散場面のセグメンテーションが大幅に向上することを示す。 我々は、PartNet、CLEVR、Room Diverse++の3Dおよび2DシーンセグメンテーションベンチマークにおけるGFS-Netを評価し、SOTA制御フィードフォワード検出器と教師なしオブジェクト検出方法に対する大きな(50%)性能改善を示す。

We consider the problem of segmenting scenes into constituent entities, i.e. underlying objects and their parts. Current supervised visual detectors though impressive within their training distribution, often fail to segment out-of-distribution scenes into their constituent entities. Recent slot-centric generative models break such dependence on supervision, by attempting to segment scenes into entities unsupervised, by reconstructing pixels. However, they have been restricted thus far to toy scenes as they suffer from a reconstruction-segme ntation trade-off: as the entity bottleneck gets wider, reconstruction improves but then the segmentation collapses. We propose GFS-Nets (Generating Fast and Slow Networks) that alleviate this issue with two ingredients: i) curriculum training in the form of primitives, often missing from current generative models and, ii) test-time adaptation per scene through gradient descent on the reconstruction objective, what we call slow inference, missing from current feed-forward detectors. We show the proposed curriculum suffices to break the reconstruction-segme ntation trade-off, and slow inference greatly improves segmentation in out-of-distribution scenes. We evaluate GFS-Nets in 3D and 2D scene segmentation benchmarks of PartNet, CLEVR, Room Diverse++, and show large ( 50%) performance improvements against SOTA supervised feed-forward detectors and unsupervised object discovery methods
翻訳日:2022-03-22 14:11:22 公開日:2022-03-21
# No Pain, Big Gain: 特徴レベルの時空間表面を適合させて静的モデルで動的ポイントクラウドシーケンスを分類する

No Pain, Big Gain: Classify Dynamic Point Cloud Sequences with Static Models by Fitting Feature-level Space-time Surfaces ( http://arxiv.org/abs/2203.11113v1 )

ライセンス: Link先を確認
Jia-Xing Zhong, Kaichen Zhou, Qingyong Hu, Bing Wang, Niki Trigoni, Andrew Markham(参考訳) scene flowは、3dポイントクラウドのモーションフィールドをキャプチャする強力なツールだ。 しかし、非構造化点がポイントワイド対応を効率的に、効果的に追跡することを困難または不可能にするため、フローベースモデルを動的ポイントクラウド分類に直接適用することは困難である。 そこで我々は,ST曲面の運動論的概念を特徴空間に一般化することにより,キネマティックスにインスパイアされたニューラルネットワーク(Kinet)を提案する。 特徴空間におけるST曲面の通常の解法をアンロールすることにより、Kineetは暗黙的に特徴レベルのダイナミクスを符号化し、静的ポイントクラウド処理に成熟したバックボーンを使用することで利点を得る。 ネットワーク構造や低コンピューティングオーバーヘッドの小さな変更だけで、特定の静的モデルを使ってフレームワークを共同トレーニングし、デプロイすることは難しくありません。 NvGesture, SHREC'17, MSRAction-3D, NTU-RGBDの実験では, パラメータ数と計算複雑性の両面での性能, および様々な静的バックボーンに対する汎用性を示す。 キネは320Mパラメータと10.35G FLOPSしか持たないMSRAction-3Dで93.27%の精度を達成した。

Scene flow is a powerful tool for capturing the motion field of 3D point clouds. However, it is difficult to directly apply flow-based models to dynamic point cloud classification since the unstructured points make it hard or even impossible to efficiently and effectively trace point-wise correspondences. To capture 3D motions without explicitly tracking correspondences, we propose a kinematics-inspired neural network (Kinet) by generalizing the kinematic concept of ST-surfaces to the feature space. By unrolling the normal solver of ST-surfaces in the feature space, Kinet implicitly encodes feature-level dynamics and gains advantages from the use of mature backbones for static point cloud processing. With only minor changes in network structures and low computing overhead, it is painless to jointly train and deploy our framework with a given static model. Experiments on NvGesture, SHREC'17, MSRAction-3D, and NTU-RGBD demonstrate its efficacy in performance, efficiency in both the number of parameters and computational complexity, as well as its versatility to various static backbones. Noticeably, Kinet achieves the accuracy of 93.27% on MSRAction-3D with only 3.20M parameters and 10.35G FLOPS.
翻訳日:2022-03-22 14:10:58 公開日:2022-03-21
# PACS:物理オーディオ常識推論のためのデータセット

PACS: A Dataset for Physical Audiovisual CommonSense Reasoning ( http://arxiv.org/abs/2203.11130v1 )

ライセンス: Link先を確認
Samuel Yu, Peter Wu, Paul Pu Liang, Ruslan Salakhutdinov, Louis-Philippe Morency(参考訳) aiを病院、学校、職場などの現実世界のシナリオに安全に展開するためには、利用可能なオブジェクトの物理的特性と余裕を理解し、どのように操作し、どのように他の物理的オブジェクトと相互作用するかを理解することで、物理的な世界について判断することができるべきである。 この物理コモンセンス推論の研究分野は、物理的特性が複数のモーダルを通して表されるため、基本的には多感覚課題である。 本論文は,物理コモンセンス属性にアノテートされた最初のオーディオ視覚的ベンチマークであるPACSの提供により,実世界の物理コモンセンス推論への一歩を踏み出した。 PACSには13,400の質問対があり、1,377のユニークな物理コモンセンス質問と1,526の動画が含まれている。 当社のデータセットは、このマルチモーダル問題のコアコンポーネントとしてオーディオを導入することで、物理推論の研究分野を前進させる新たな機会を提供します。 PACSを用いて,新しい課題に対して複数の最先端モデルを評価する。 有望な結果(70%の精度)を示すモデルもあるが、いずれも人間のパフォーマンス(95%の精度)に欠けている。 本稿では,マルチモーダル推論の重要性を実証し,今後の研究への道筋を示す。

In order for AI to be safely deployed in real-world scenarios such as hospitals, schools, and the workplace, they should be able to reason about the physical world by understanding the physical properties and affordances of available objects, how they can be manipulated, and how they interact with other physical objects. This research field of physical commonsense reasoning is fundamentally a multi-sensory task since physical properties are manifested through multiple modalities, two of them being vision and acoustics. Our paper takes a step towards real-world physical commonsense reasoning by contributing PACS: the first audiovisual benchmark annotated for physical commonsense attributes. PACS contains a total of 13,400 question-answer pairs, involving 1,377 unique physical commonsense questions and 1,526 videos. Our dataset provides new opportunities to advance the research field of physical reasoning by bringing audio as a core component of this multimodal problem. Using PACS, we evaluate multiple state-of-the-art models on this new challenging task. While some models show promising results (70% accuracy), they all fall short of human performance (95% accuracy). We conclude the paper by demonstrating the importance of multimodal reasoning and providing possible avenues for future research.
翻訳日:2022-03-22 13:40:31 公開日:2022-03-21
# スロットは1つの発話で構築されない:サブスロット付き音声言語ダイアログ

A Slot Is Not Built in One Utterance: Spoken Language Dialogs with Sub-Slots ( http://arxiv.org/abs/2203.10759v1 )

ライセンス: Link先を確認
Sai Zhang, Yuwei Hu, Yuchuan Wu, Jiaman Wu, Yongbin Li, Jian Sun, Caixia Yuan and Xiaojie Wang(参考訳) スロット値は、特に電話番号や名前などの重要な情報に対して、ダイアログ内の複数ターンインタラクションをセグメント毎にセグメント的に提供することができる。 日常生活に共通する現象であるが、それ以前の作品ではほとんど注目されていない。 このギャップを埋めるために,SSTOD(Sub-Slot based Task-Oriented Dialog)という新しいタスクを定義し,SSTODの研究を促進するための中国語ダイアログデータセットSSDを構築した。 データセットには、中国名、電話番号、ID番号、ナンバープレート番号の4つのドメインから合計40Kのダイアログと500Kの発話が含まれている。 データはサブスロット値、スロット値、ダイアログ状態、アクションで注釈付けされている。 我々はSSTODに新たな言語現象と対話的方法を見いだし、タスクのためのダイアログエージェントを構築する上で重要な課題を提起する。 我々はsstod上で3つの最先端ダイアログモデルをテストし、4つのドメインのいずれかでタスクをうまく処理できないことを発見した。 また,プラグイン方式でスロット知識を組み込んだ改良モデルについても検討する。 現実のアプリケーションに広く存在するSSTODから引き起こされた新たな課題を満たすために、さらなる作業を行う必要がある。 データセットとコードはhttps://github.com/s hunjiu/sstodで公開されている。

A slot value might be provided segment by segment over multiple-turn interactions in a dialog, especially for some important information such as phone numbers and names. It is a common phenomenon in daily life, but little attention has been paid to it in previous work. To fill the gap, this paper defines a new task named Sub-Slot based Task-Oriented Dialog (SSTOD) and builds a Chinese dialog dataset SSD for boosting research on SSTOD. The dataset includes a total of 40K dialogs and 500K utterances from four different domains: Chinese names, phone numbers, ID numbers and license plate numbers. The data is well annotated with sub-slot values, slot values, dialog states and actions. We find some new linguistic phenomena and interactive manners in SSTOD which raise critical challenges of building dialog agents for the task. We test three state-of-the-art dialog models on SSTOD and find they cannot handle the task well on any of the four domains. We also investigate an improved model by involving slot knowledge in a plug-in manner. More work should be done to meet the new challenges raised from SSTOD which widely exists in real-life applications. The dataset and code are publicly available via https://github.com/s hunjiu/SSTOD.
翻訳日:2022-03-22 13:39:38 公開日:2022-03-21
# (参考訳) データ効率の高い検出変圧器に向けて

Towards Data-Efficient Detection Transformers ( http://arxiv.org/abs/2203.09507v2 )

ライセンス: CC BY 4.0
Wen Wang, Jing Zhang, Yang Cao, Yongliang Shen, Dacheng Tao(参考訳) 検出トランスフォーマーは、サンプルリッチCOCOデータセット上での競合性能を達成した。 しかし、そのほとんどが、cityscapesのような小規模データセットのパフォーマンス低下に苦しんでいる。 言い換えれば、検出トランスは一般的にデータハングリーである。 この問題を解決するために、データ効率のRCNN変種から代表DETRへのステップバイステップ移行を通じて、データ効率に影響を与える要因を経験的に分析する。 実験結果から,局所画像領域からのスパース特徴サンプリングが鍵となることが示唆された。 本研究は,既存の検出変換器のデータ・ハングリー問題に対して,キーと値の配列がどのように構成されているかを簡単に変更し,元のモデルに最小限の変更を加えて緩和するものである。 さらに,よりリッチな監視とデータ効率の向上を目的とした,シンプルながら効果的なラベル拡張手法を提案する。 実験により,本手法は異なる検出変換器に容易に適用でき,小型およびサンプルリッチなデータセットの性能を向上させることができることがわかった。 コードは \url{https://github.com/e ncounter 1997/DE-DETRs} で公開される。

Detection Transformers have achieved competitive performance on the sample-rich COCO dataset. However, we show most of them suffer from significant performance drops on small-size datasets, like Cityscapes. In other words, the detection transformers are generally data-hungry. To tackle this problem, we empirically analyze the factors that affect data efficiency, through a step-by-step transition from a data-efficient RCNN variant to the representative DETR. The empirical results suggest that sparse feature sampling from local image areas holds the key. Based on this observation, we alleviate the data-hungry issue of existing detection transformers by simply alternating how key and value sequences are constructed in the cross-attention layer, with minimum modifications to the original models. Besides, we introduce a simple yet effective label augmentation method to provide richer supervision and improve data efficiency. Experiments show that our method can be readily applied to different detection transformers and improve their performance on both small-size and sample-rich datasets. Code will be made publicly available at \url{https://github.com/e ncounter1997/DE-DETR s}.
翻訳日:2022-03-22 11:11:30 公開日:2022-03-21
# (参考訳) 文脈化言語表現を用いた時間知識埋め込みの強化 [全文訳有]

Enhanced Temporal Knowledge Embeddings with Contextualized Language Representations ( http://arxiv.org/abs/2203.09590v2 )

ライセンス: CC BY 4.0
Zhen Han, Ruotong Liao, Beiyan Liu, Yao Zhang, Zifeng Ding, Heinz K\"oppl, Hinrich Sch\"utze, Volker Tresp(参考訳) 構造化された知識と非構造化された知識を統合する新しい研究の取り組みにより、多くのアプローチが事実知識を事前訓練された言語モデル(PLM)に組み入れ、下流のNLPタスクに知識強化PLMを適用する。 しかし、(1)静的な事実知識のみを考慮するが、知識グラフ(KG)には時間的事実や、異なるタイムスタンプにおける実体間の進化的関係を示す事象も含まれる。 2) PLMは時間的KG完了などの多くのKGタスクに直接適用できない。 本稿では,<textbf{e}nhancing temporal knowledge embeddeds with \textbf{co}ntextualized \textbf{la}nguage representations (ECOLA)について述べる。 本研究では,時間知識グラフに含まれる構造化知識をニュース記事から抽出した文章記述と整合させ,記述から豊富な情報を時間知識埋め込みに注入する新しい知識テキスト予測タスクを提案する。 ECOLAは、知識テキスト予測目標と時間的知識埋め込みを共同で最適化し、テキストと知識情報を最大限に活用することができる。 ECOLAのトレーニングには,テキスト記述を整列した3つの時間的KGデータセットを導入する。 時間的知識グラフ完成タスクの実験結果は,ecolaが最先端の時間的kgモデルを上回ることを示した。 提案したデータセットは、新しい時間的KGベンチマークとして機能し、構造化知識と非構造化知識の統合に関する将来の研究を促進する。

With the emerging research effort to integrate structured and unstructured knowledge, many approaches incorporate factual knowledge into pre-trained language models (PLMs) and apply the knowledge-enhanced PLMs on downstream NLP tasks. However, (1) they only consider static factual knowledge, but knowledge graphs (KGs) also contain temporal facts or events indicating evolutionary relationships among entities at different timestamps. (2) PLMs cannot be directly applied to many KG tasks, such as temporal KG completion. In this paper, we focus on \textbf{e}nhancing temporal knowledge embeddings with \textbf{co}ntextualized \textbf{la}nguage representations (ECOLA). We align structured knowledge contained in temporal knowledge graphs with their textual descriptions extracted from news articles and propose a novel knowledge-text prediction task to inject the abundant information from descriptions into temporal knowledge embeddings. ECOLA jointly optimizes the knowledge-text prediction objective and the temporal knowledge embeddings, which can simultaneously take full advantage of textual and knowledge information. For training ECOLA, we introduce three temporal KG datasets with aligned textual descriptions. Experimental results on the temporal knowledge graph completion task show that ECOLA outperforms state-of-the-art temporal KG models by a large margin. The proposed datasets can serve as new temporal KG benchmarks and facilitate future research on structured and unstructured knowledge integration.
翻訳日:2022-03-22 11:10:31 公開日:2022-03-21
# (参考訳) 深部構造方程式モデルを用いたマルチモーダル因果推論 [全文訳有]

Multi-Modal Causal Inference with Deep Structural Equation Models ( http://arxiv.org/abs/2203.09672v2 )

ライセンス: CC BY 4.0
Shachi Deshpande, Zheng Li, Volodymyr Kuleshov (Department of Computer Science, Cornell Tech)(参考訳) 共同設立者の影響を考慮に入れることは因果推論の中心的な課題の1つだ。 構造化されていないマルチモーダルデータ(画像、時系列、テキスト)は、様々なタイプの共同設立者に関する貴重な情報を含んでいるが、ほとんどの既存手法では使われていない。 本稿では,この非構造化データを因果推論内で活用して,説明できないかもしれない新たな共同創設者を補正する手法の開発を目指す。 このタスクを形式化し,マルチモーダル非構造化データをプロキシ変数として扱う深部構造方程式に基づくアルゴリズムを提案する。 我々は、ゲノム学や医療のタスクにおいて、非構造化データを様々な共起源の修正に利用し、因果推論にはこれまで使われていなかった大量のデータの使用を可能にすることを実証的に実証する。

Accounting for the effects of confounders is one of the central challenges in causal inference. Unstructured multi-modal data (images, time series, text) contains valuable information about diverse types of confounders, yet it is typically left unused by most existing methods. This paper seeks to develop techniques that leverage this unstructured data within causal inference to correct for additional confounders that may otherwise not be accounted for. We formalize this task and we propose algorithms based on deep structural equations that treat multi-modal unstructured data as proxy variables. We empirically demonstrate on tasks in genomics and healthcare that unstructured data can be used to correct for diverse sources of confounding, potentially enabling the use of large amounts of data that were previously not used in causal inference.
翻訳日:2022-03-22 10:54:37 公開日:2022-03-21
# TO-Scene:3Dテーブルトップシーンを理解するための大規模データセット

TO-Scene: A Large-scale Dataset for Understanding 3D Tabletop Scenes ( http://arxiv.org/abs/2203.09440v2 )

ライセンス: Link先を確認
Mutian Xu, Pei Chen, Haolin Liu, Xiaoguang Han(参考訳) 食事や筆記などの基本的な室内活動の多くは、常に異なる錠剤(コーヒーテーブルや机など)で行われている。 3次元屋内シーン解析アプリケーションにおけるテーブルトップシーンの理解は不可欠である。 残念ながら、現在のデータセットでは3Dテーブルトップシーンがほとんど利用できないため、データ駆動アルゴリズムを直接デプロイすることで、この需要を満たすのは難しい。 この欠陥を解消するために,テーブルトップシーンに焦点を当てた大規模データセットto-sceneを紹介する。 データを取得するために,ScanNetからCADオブジェクトをテーブルに転送するクラウドソーシングUIを開発し,出力テーブルトップシーンを実際のスキャンにシミュレートし,自動的に注釈付けする,効率的でスケーラブルなフレームワークを設計する。 さらに,小規模のテーブルトップインスタンスをよりよく認識するために,テーブルトップアウェア学習戦略を提案する。 また,TO-Sceneの実用的価値を検証するために,実際にスキャンしたテストセットのTO-Realも提供する。 実験の結果,TO-Sceneで訓練したアルゴリズムは現実的なテストデータで実際に機能し,提案したテーブルトップ認識学習戦略は,3次元セマンティックセグメンテーションとオブジェクト検出の両タスクにおける最先端の結果を大幅に改善することがわかった。 TO-SceneとTO-Realに加えて、Web UIも一般公開される。

Many basic indoor activities such as eating or writing are always conducted upon different tabletops (e.g., coffee tables, writing desks). It is indispensable to understanding tabletop scenes in 3D indoor scene parsing applications. Unfortunately, it is hard to meet this demand by directly deploying data-driven algorithms, since 3D tabletop scenes are rarely available in current datasets. To remedy this defect, we introduce TO-Scene, a large-scale dataset focusing on tabletop scenes, which contains 20,740 scenes with three variants. To acquire the data, we design an efficient and scalable framework, where a crowdsourcing UI is developed to transfer CAD objects onto tables from ScanNet, then the output tabletop scenes are simulated into real scans and annotated automatically. Further, a tabletop-aware learning strategy is proposed for better perceiving the small-sized tabletop instances. Notably, we also provide a real scanned test set TO-Real to verify the practical value of TO-Scene. Experiments show that the algorithms trained on TO-Scene indeed work on the realistic test data, and our proposed tabletop-aware learning strategy greatly improves the state-of-the-art results on both 3D semantic segmentation and object detection tasks. TO-Scene and TO-Real, plus Web UI, will all be publicly available.
翻訳日:2022-03-22 10:35:10 公開日:2022-03-21
# 確率的モノトン包摂問題に対する可変化を用いた確率的ハルパーン反復法

A Stochastic Halpern Iteration with Variance Reduction for Stochastic Monotone Inclusion Problems ( http://arxiv.org/abs/2203.09436v2 )

ライセンス: Link先を確認
Xufeng Cai, Chaobing Song, Crist\'obal Guzm\'an, Jelena Diakonikolas(参考訳) 本研究では,ロバスト回帰や逆行学習など,機械学習アプリケーションで広く見られる確率的単調包含問題について検討する。 再帰的分散還元を伴う確率的ハルパーン反復の新たな変種を提案する。 コヒーレンシブ -- より一般的にはリプシッツモノトン -- のセットアップにおいて、我々のアルゴリズムは、演算子のノルムを$\mathcal{O}(\frac{1}{\epsilon^3})$確率演算子評価で達成し、同じ問題クラスに適用された既存の単調包含分解器に必要な確率演算子評価を$\mathcal{O}(\frac{1}{\epsilon^4})$確率演算子評価で大幅に改善する。 さらに、提案された確率的ハルパーン反復の1つの変種を、追加のシャープネスや強い単調性仮定の下での確率的作用素評価で${\mathcal{O}}(\frac{\log(1/\epsilon)}{\epsilon^2})で確率的単調包含問題を解くためにスケジュールされた再起動スキームと組み合わせる方法を示す。 最後に、我々の確率的オラクル複雑性境界が、それらの$\epsilon$-dependenc eの対数的因子に強く依存しているという、異なる問題クラス間の還元を通じて議論する。

We study stochastic monotone inclusion problems, which widely appear in machine learning applications, including robust regression and adversarial learning. We propose novel variants of stochastic Halpern iteration with recursive variance reduction. In the cocoercive -- and more generally Lipschitz-monotone -- setup, our algorithm attains $\epsilon$ norm of the operator with $\mathcal{O}(\frac{1}{\epsilon^3})$ stochastic operator evaluations, which significantly improves over state of the art $\mathcal{O}(\frac{1}{\epsilon^4})$ stochastic operator evaluations required for existing monotone inclusion solvers applied to the same problem classes. We further show how to couple one of the proposed variants of stochastic Halpern iteration with a scheduled restart scheme to solve stochastic monotone inclusion problems with ${\mathcal{O}}(\frac{\log(1/\epsilon)}{\epsilon^2})$ stochastic operator evaluations under additional sharpness or strong monotonicity assumptions. Finally, we argue via reductions between different problem classes that our stochastic oracle complexity bounds are tight up to logarithmic factors in terms of their $\epsilon$-dependenc e.
翻訳日:2022-03-22 10:33:09 公開日:2022-03-21