このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20211205となっている論文です。

PDF登録状況(公開日: 20211205)

TitleAuthorsAbstract論文公表日・翻訳日
# 新型コロナウイルスのソーシャルメディアコンテンツにおける視覚的説得 : マルチモーダルな特徴

Visual Persuasion in COVID-19 Social Media Content: A Multi-Modal Characterization ( http://arxiv.org/abs/2112.13910v1 )

ライセンス: Link先を確認
Mesut Erhan Unal, Adriana Kovashka, Wen-Ting Chung, Yu-Ru Lin(参考訳) ソーシャルメディアコンテンツは、情報と形の意味を織り込むためのマルチモーダルデザインを常用しているが、テキストとビジュアルイメージの両方を使用することの選択と結果が十分に研究されていない。 本研究は,多形態コンテンツにおける説得的情報の結果を分析するための計算手法を提案し,twitter上で共有されるcovid-19関連ニュース記事における人気と信頼性の2つの側面に焦点を当てた。 2つの側面は誤報の拡散に絡み合っている。例えば、誤報を意図した信頼できない記事は、ある程度の人気を得る必要がある。 この作品にはいくつかの貢献がある。 まず,情報ソースの人気と信頼性を同時に識別するマルチモーダル(画像とテキスト)手法を提案する。 第二に、情報の人気と信頼性を予測できるテキスト要素と視覚要素を識別する。 第三に、クロスモーダル関係と類似性をモデル化することにより、信頼できない記事が歪んだバイアスのある方法でマルチモーダルな意味をどのように構築するかを明らかにすることができる。 本研究は、ソーシャルメディアのリテラシーとエンゲージメントに影響を及ぼす、影響力のあるコンテンツを理解するためにマルチモーダル分析を利用する方法を示す。

Social media content routinely incorporates multi-modal design to covey information and shape meanings, and sway interpretations toward desirable implications, but the choices and outcomes of using both texts and visual images have not been sufficiently studied. This work proposes a computational approach to analyze the outcome of persuasive information in multi-modal content, focusing on two aspects, popularity and reliability, in COVID-19-related news articles shared on Twitter. The two aspects are intertwined in the spread of misinformation: for example, an unreliable article that aims to misinform has to attain some popularity. This work has several contributions. First, we propose a multi-modal (image and text) approach to effectively identify popularity and reliability of information sources simultaneously. Second, we identify textual and visual elements that are predictive to information popularity and reliability. Third, by modeling cross-modal relations and similarity, we are able to uncover how unreliable articles construct multi-modal meaning in a distorted, biased fashion. Our work demonstrates how to use multi-modal analysis for understanding influential content and has implications to social media literacy and engagement.
翻訳日:2022-01-02 08:28:24 公開日:2021-12-05
# ソーシャルネットワークによる土地利用の識別

Land use identification through social network interaction ( http://arxiv.org/abs/2112.06704v1 )

ライセンス: Link先を確認
Diana C. Pauca-Quispe, Cinthya Butron-Revilla, Ernesto Suarez-Lopez, Karla Aranibar-Tila, Jesus S. Aguilar-Ruiz(参考訳) インターネットは、特にソーシャルネットワーク上のポストにおいて、大量のデータを高速に生成する。 ソーシャル・ネットワーク・データにはセマンティック・アパレーションが多数あり、地理空間情報の源泉となることを意図していないが、投稿のテキストでは、人々が環境とどのように関係しているかに関する重要な情報の一部が発見されている。 本研究では,NLP(Natural Language Processing)を用いた土地利用の識別手法を提案する。 テキストからキーワードと言語パターン、および出版に関連付けられた地理的座標を識別することでアプローチされる。 南アメリカ、特にペルーのアレキパ市でデータを扱うために、コンテキスト固有のイノベーションが導入されている。 目的は、住宅、商業、制度、産業、未建設の5つの主要な土地を識別することである。 都市計画と持続可能な都市管理の枠組みの中で,本手法は土地利用キャダスタストの更新に適用される識別手法の最適化に寄与する。 さらに、収集されたデータ量に基づいて、複雑な/混合分布ビルなどの状況において、土地利用カテゴリーをより詳細なレベルで識別できるようにする。 最後に, 土地利用情報をより最新の方法で利用できるようにし, 開発途上国を中心に, 都市における非自動土地利用地図作成の経済的コストが高いことを回避している。

The Internet generates large volumes of data at a high rate, in particular, posts on social networks. Although social network data has numerous semantic adulterations, and is not intended to be a source of geo-spatial information, in the text of posts we find pieces of important information about how people relate to their environment, which can be used to identify interesting aspects of how human beings interact with portions of land based on their activities. This research proposes a methodology for the identification of land uses using Natural Language Processing (NLP) from the contents of the popular social network Twitter. It will be approached by identifying keywords with linguistic patterns from the text, and the geographical coordinates associated with the publication. Context-specific innovations are introduced to deal with data across South America and, in particular, in the city of Arequipa, Peru. The objective is to identify the five main land uses: residential, commercial, institutional-govern mental, industrial-offices and unbuilt land. Within the framework of urban planning and sustainable urban management, the methodology contributes to the optimization of the identification techniques applied for the updating of land use cadastres, since the results achieved an accuracy of about 90%, which motivates its application in the real context. In addition, it would allow the identification of land use categories at a more detailed level, in situations such as a complex/mixed distribution building based on the amount of data collected. Finally, the methodology makes land use information available in a more up-to-date fashion and, above all, avoids the high economic cost of the non-automatic production of land use maps for cities, mostly in developing countries.
翻訳日:2021-12-19 12:57:16 公開日:2021-12-05
# Gaud\'i: 画像コレクションを生成するためのディープ表現との対話的インタラクション

Gaud\'i: Conversational Interactions with Deep Representations to Generate Image Collections ( http://arxiv.org/abs/2112.04404v1 )

ライセンス: Link先を確認
Victor S. Bursztyn, Jennifer Healey, Vishwa Vinay(参考訳) 現実的な言語モデリング (GPT-3) とクロスモーダル表現 (CLIP) の最近の進歩に基づき、Gud\'i は自然言語を用いたインスピレーション画像の検索を支援するために開発された。 デザインプロセスの初期段階では、クライアントの好みの創造的な方向性を引き出すことを目標に、デザイナーは通常「ムードボード」と呼ばれるインスピレーション的なイメージのテーマ的なコレクションを作成する。 ムードボードの作成には、現在キーワードやイメージを使用して実行されるシーケンシャルなイメージ検索が含まれる。 Gaud\'iはこのプロセスをユーザが徐々にムードボードのテーマを詳述する会話に変換する。 この表現により、GPT-3で仮定されたテーマに従って、プロジェクトブリーフィングから直接、AIがゼロから新しい検索クエリを生成することができる。 これまでのムードボード作成に対する計算手法と比較すると、私たちの知る限りでは、私たちの試みは、デザイナーがクライアントに創造的な方向性を示すときに伝えるストーリーとして、ムードボードを表現しようとする最初の試みである。

Based on recent advances in realistic language modeling (GPT-3) and cross-modal representations (CLIP), Gaud\'i was developed to help designers search for inspirational images using natural language. In the early stages of the design process, with the goal of eliciting a client's preferred creative direction, designers will typically create thematic collections of inspirational images called "mood-boards". Creating a mood-board involves sequential image searches which are currently performed using keywords or images. Gaud\'i transforms this process into a conversation where the user is gradually detailing the mood-board's theme. This representation allows our AI to generate new search queries from scratch, straight from a project briefing, following a theme hypothesized by GPT-3. Compared to previous computational approaches to mood-board creation, to the best of our knowledge, ours is the first attempt to represent mood-boards as the stories that designers tell when presenting a creative direction to a client.
翻訳日:2021-12-09 14:31:05 公開日:2021-12-05
# (参考訳) 変動リカレントオートエンコーダを用いた風車時系列の異常検出 [全文訳有]

Anomaly Detection of Wind Turbine Time Series using Variational Recurrent Autoencoders ( http://arxiv.org/abs/2112.02468v1 )

ライセンス: CC BY 4.0
Alan Preciado-Grijalva, Victor Rodrigo Iza-Teran(参考訳) 風力タービンのブレードの氷の蓄積は、異常な回転や回転を全く記述しない原因となり、それによって電気と出力の発生に影響を及ぼす。 本研究では,多変量時系列の異常検出法として,風車における氷の蓄積問題を考察する。 まず,変分再帰オートエンコーダ(vrae)を用いて時系列の低次元表現を学習し,次に教師なしクラスタリングアルゴリズムを用いて学習した表現を正常(氷を蓄積しない)または異常(氷を蓄積しない)に分類する。 風力タービンの時系列データセットのカスタム化について検討し,2つのクラス(通常クラスと異常クラス)について,試験データから最大96$0%の分類精度を得た。 多重クラス問題(正規クラスと多重クラス)については、低次元学習潜在空間の定性的解析を行い、そのような問題に対処するためのアプローチの能力について考察する。 この作業を再現するコードは、https://github.com/a grija9/Wind-Turbines -VRAE-Paperにある。

Ice accumulation in the blades of wind turbines can cause them to describe anomalous rotations or no rotations at all, thus affecting the generation of electricity and power output. In this work, we investigate the problem of ice accumulation in wind turbines by framing it as anomaly detection of multi-variate time series. Our approach focuses on two main parts: first, learning low-dimensional representations of time series using a Variational Recurrent Autoencoder (VRAE), and second, using unsupervised clustering algorithms to classify the learned representations as normal (no ice accumulated) or abnormal (ice accumulated). We have evaluated our approach on a custom wind turbine time series dataset, for the two-classes problem (one normal versus one abnormal class), we obtained a classification accuracy of up to 96$\%$ on test data. For the multiple-class problem (one normal versus multiple abnormal classes), we present a qualitative analysis of the low-dimensional learned latent space, providing insights into the capacities of our approach to tackle such problem. The code to reproduce this work can be found here https://github.com/a grija9/Wind-Turbines -VRAE-Paper.
翻訳日:2021-12-09 10:42:08 公開日:2021-12-05
# (参考訳) RADA:混在する気象におけるカメラ位置推定のためのロバストな逆データ拡張 [全文訳有]

RADA: Robust Adversarial Data Augmentation for Camera Localization in Challenging Weather ( http://arxiv.org/abs/2112.02469v1 )

ライセンス: CC BY 4.0
Jialu Wang, Muhamad Risqi U. Saputra, Chris Xiaoxuan Lu, Niki Trigon, and Andrew Markham(参考訳) カメラのローカライゼーションは多くのロボットアプリケーションにとって基本的で重要な問題である。 近年,カメラを用いたローカライゼーションの深層学習が研究の方向性として注目されている。 しかし、大きなドメインシフトに対する堅牢性は欠如しており、トレーニングデータセットとテストデータセットの間の季節的あるいは照明的変化によって引き起こされる可能性がある。 データ拡張は、追加のデータを必要としないため、この問題に取り組むための魅力的なアプローチです。 しかし、既存の増倍法はすべてのピクセルを盲目的に摂動させるため、良好な性能が得られない。 この問題を克服するため,我々は画像の幾何学的意味のある部分の摂動に集中するシステムradaを提案した。 その結果、ネットワークを混乱させることのできる最小限の画像摂動を生成することを学ぶ。 これらの例を拡張として利用すると,ロバスト性が大幅に向上することを示す。 本手法は従来の拡張手法より優れており, 難易度の高い気象条件下でのSOTAの局部化モデル(例えばAtLocやMapNet)よりも最大2倍高い精度を達成できることを示す。

Camera localization is a fundamental and crucial problem for many robotic applications. In recent years, using deep-learning for camera-based localization has become a popular research direction. However, they lack robustness to large domain shifts, which can be caused by seasonal or illumination changes between training and testing data sets. Data augmentation is an attractive approach to tackle this problem, as it does not require additional data to be provided. However, existing augmentation methods blindly perturb all pixels and therefore cannot achieve satisfactory performance. To overcome this issue, we proposed RADA, a system whose aim is to concentrate on perturbing the geometrically informative parts of the image. As a result, it learns to generate minimal image perturbations that are still capable of perplexing the network. We show that when these examples are utilized as augmentation, it greatly improves robustness. We show that our method outperforms previous augmentation techniques and achieves up to two times higher accuracy than the SOTA localization models (e.g., AtLoc and MapNet) when tested on `unseen' challenging weather conditions.
翻訳日:2021-12-09 10:34:03 公開日:2021-12-05
# (参考訳) ヒストグラム等化と肺分画を用いた深層学習モデルによる胸部X線画像上のCOVID-19の分類 [全文訳有]

Classification of COVID-19 on chest X-Ray images using Deep Learning model with Histogram Equalization and Lungs Segmentation ( http://arxiv.org/abs/2112.02478v1 )

ライセンス: CC BY 4.0
Hitendra Singh Bhadouria, Krishan Kumar, Aman Swaraj, Karan Verma, Arshpreet Kaur, Shasvat Sharma, Ghanshyam Singh, Ashok Kumar, and Leandro Melo de Sales(参考訳) 背景と目的: バイオメディカル分析と組み合わせた人工知能(AI)の手法は、医療システムや医師からの圧倒的な圧力を解放する上で、パンデミックの間に重要な役割を果たす。 ブラジルやインドのような人口密度の高い国や不十分な検査キットでは、現在進行中の新型コロナウイルス危機が悪化しているため、放射線イメージングは、新型コロナウイルスの患者を正確に分類し、必要な治療を予定する重要な診断ツールとなり得る。 本研究は,胸部X線を用いたコビッドウイルス感染肺の検出のためのディープラーニングアーキテクチャに基づく研究である。 データセット: 健康な肺, 通常の肺炎, およびコビッドウイルス感染肺炎の3種類のラベルについて, 合計2470枚の画像を収集し, その内470枚のX線画像がコビッドウイルスの分類に属する。 方法:まずヒストグラム等化手法を用いて全画像を前処理し,U-netアーキテクチャを用いて分割する。 VGG-16ネットワークは、SMOTEオーバーサンプリング技術によりさらにサンプリングされた事前処理された画像から特徴抽出に使用される。 最後に,10倍のクロスバリデーションを持つサポートベクトルマシン(SVM)分類器を用いて,クラスバランスの特徴を分類し,精度を評価する。 結果と結論:よく知られた前処理技術,特徴抽出法,データセットバランス法を組み合わせた新しいアプローチにより,2470 x線画像のデータセット上でのcovid-19画像の認識率は98%と極めて高い。 したがって,本モデルは,医療施設におけるスクリーニングに適している。

Background and Objective: Artificial intelligence (AI) methods coupled with biomedical analysis has a critical role during pandemics as it helps to release the overwhelming pressure from healthcare systems and physicians. As the ongoing COVID-19 crisis worsens in countries having dense populations and inadequate testing kits like Brazil and India, radiological imaging can act as an important diagnostic tool to accurately classify covid-19 patients and prescribe the necessary treatment in due time. With this motivation, we present our study based on deep learning architecture for detecting covid-19 infected lungs using chest X-rays. Dataset: We collected a total of 2470 images for three different class labels, namely, healthy lungs, ordinary pneumonia, and covid-19 infected pneumonia, out of which 470 X-ray images belong to the covid-19 category. Methods: We first pre-process all the images using histogram equalization techniques and segment them using U-net architecture. VGG-16 network is then used for feature extraction from the pre-processed images which is further sampled by SMOTE oversampling technique to achieve a balanced dataset. Finally, the class-balanced features are classified using a support vector machine (SVM) classifier with 10-fold cross-validation and the accuracy is evaluated. Result and Conclusion: Our novel approach combining well-known pre-processing techniques, feature extraction methods, and dataset balancing method, lead us to an outstanding rate of recognition of 98% for COVID-19 images over a dataset of 2470 X-ray images. Our model is therefore fit to be utilized in healthcare facilities for screening purposes.
翻訳日:2021-12-09 10:20:20 公開日:2021-12-05
# (参考訳) 多視点顔再構成のための入射神経変形 [全文訳有]

Implicit Neural Deformation for Multi-View Face Reconstruction ( http://arxiv.org/abs/2112.02494v1 )

ライセンス: CC BY 4.0
Moran Li, Haibin Huang, Yi Zheng, Mengtian Li, Nong Sang, Chongyang Ma(参考訳) 本研究では,多視点RGB画像からの3次元顔再構成手法を提案する。 3d morphable model (3dmms) 上に構築した従来の手法と異なり,この手法は,幾何学的特徴をエンコードするために暗黙表現を利用する。 我々の全体パイプラインは、変形可能なニューラルサイン距離関数(SDF)を3次元顔表現として学習する幾何学的ネットワークと、自己監督最適化により入力画像と一致するようにニューラルSDFの地上点をレンダリングするレンダリングネットワークの2つの主要コンポーネントで構成されている。 テスト時に異なる表現で同じターゲットのスパースビュー入力を処理するために、学習した暗黙の顔表現の形状空間を効果的に拡張する残留潜時符号と、異なるビュー間の一貫性を強制する新しいビュースウィッチ損失を提案する。 いくつかのベンチマークデータセットにおける実験結果から,本手法が代替ベースラインを上回っており,最先端手法と比較して優れた顔再構成結果が得られた。

In this work, we present a new method for 3D face reconstruction from multi-view RGB images. Unlike previous methods which are built upon 3D morphable models (3DMMs) with limited details, our method leverages an implicit representation to encode rich geometric features. Our overall pipeline consists of two major components, including a geometry network, which learns a deformable neural signed distance function (SDF) as the 3D face representation, and a rendering network, which learns to render on-surface points of the neural SDF to match the input images via self-supervised optimization. To handle in-the-wild sparse-view input of the same target with different expressions at test time, we further propose residual latent code to effectively expand the shape space of the learned implicit face representation, as well as a novel view-switch loss to enforce consistency among different views. Our experimental results on several benchmark datasets demonstrate that our approach outperforms alternative baselines and achieves superior face reconstruction results compared to state-of-the-art methods.
翻訳日:2021-12-09 10:06:27 公開日:2021-12-05
# (参考訳) 人物検索のためのグローバルローカルコンテキストネットワーク [全文訳有]

Global-Local Context Network for Person Search ( http://arxiv.org/abs/2112.02500v1 )

ライセンス: CC BY 4.0
Peng Zheng, Jie Qin, Yichao Yan, Shengcai Liao, Bingbing Ni, Xiaogang Cheng and Ling Shao(参考訳) 人探索は,過去数年間,コンピュータビジョンのコミュニティで積極的に研究されてきた,自然で切り離された画像から,クエリ対象を共同でローカライズし,識別することを目的としている。 本稿では,対象人物の全体的および局所的に囲む豊かなコンテキスト情報について,それぞれシーンとグループコンテキストを参照して考察する。 従来の2種類のコンテキストを個別に扱う作業とは異なり、機能拡張の直感的な目的を持ったグローバルローカルコンテキストネットワーク(GLCNet)でそれらを活用する。 特に、re-ID埋め込みとコンテキスト機能は、複数段階の方法で同時に拡張され、究極的には、個人検索のための強化された差別的特徴をもたらす。 我々は2人の人物検索ベンチマーク(cuhk-sysu と prw)で実験を行い、より困難な設定(すなわち movienet の文字検索)に我々のアプローチを拡張する。 広範な実験結果から、3つのデータセットの最先端手法に対するglcnetの一貫した改善が示された。 ソースコード、事前トレーニングされたモデル、および文字検索の新しい設定は、https://github.com/Z hengPeng7/GLCNet.com で利用可能です。

Person search aims to jointly localize and identify a query person from natural, uncropped images, which has been actively studied in the computer vision community over the past few years. In this paper, we delve into the rich context information globally and locally surrounding the target person, which we refer to scene and group context, respectively. Unlike previous works that treat the two types of context individually, we exploit them in a unified global-local context network (GLCNet) with the intuitive aim of feature enhancement. Specifically, re-ID embeddings and context features are enhanced simultaneously in a multi-stage fashion, ultimately leading to enhanced, discriminative features for person search. We conduct the experiments on two person search benchmarks (i.e., CUHK-SYSU and PRW) as well as extend our approach to a more challenging setting (i.e., character search on MovieNet). Extensive experimental results demonstrate the consistent improvement of the proposed GLCNet over the state-of-the-art methods on the three datasets. Our source codes, pre-trained models, and the new setting for character search are available at: https://github.com/Z hengPeng7/GLCNet.
翻訳日:2021-12-09 09:49:10 公開日:2021-12-05
# (参考訳) 言語モデルのための因果蒸留 [全文訳有]

Causal Distillation for Language Models ( http://arxiv.org/abs/2112.02505v1 )

ライセンス: CC BY 4.0
Zhengxuan Wu, Atticus Geiger, Josh Rozner, Elisa Kreiss, Hanson Lu, Thomas Icard, Christopher Potts, Noah D. Goodman(参考訳) 蒸留の取り組みは、パフォーマンスの深刻な低下を伴わずに、よりコンパクトで効率的な言語モデルにつながった。 蒸留の標準的なアプローチは、学生モデルを2つの目的に対して訓練する:タスク固有の目的(例えば言語モデリング)と、学生モデルの隠れ状態がより大きな教師モデルと類似することを奨励する模倣目的である。 本稿では,教師の因果計算過程を相互干渉介入訓練(IIT)を通じて模倣することを奨励する第3の目的で蒸留を増強することが有用であることを示す。 IITは学生モデルを、同じ因果構造を持つより単純なモデルである教師モデルの因果抽象化へと押し上げます。 IITは完全に差別化され、容易に実装され、柔軟に他の目的と組み合わせられる。 BERTの標準的な蒸留と比較すると、IITによる蒸留はウィキペディアの難易度を低くし、GLUEベンチマーク(自然言語理解)、SQuAD(質問応答)、CoNLL-2003(エンティティ認識)を著しく改善した。

Distillation efforts have led to language models that are more compact and efficient without serious drops in performance. The standard approach to distillation trains a student model against two objectives: a task-specific objective (e.g., language modeling) and an imitation objective that encourages the hidden states of the student model to be similar to those of the larger teacher model. In this paper, we show that it is beneficial to augment distillation with a third objective that encourages the student to imitate the causal computation process of the teacher through interchange intervention training(IIT). IIT pushes the student model to become a causal abstraction of the teacher model - a simpler model with the same causal structure. IIT is fully differentiable, easily implemented, and combines flexibly with other objectives. Compared with standard distillation of BERT, distillation via IIT results in lower perplexity on Wikipedia (masked language modeling) and marked improvements on the GLUE benchmark (natural language understanding), SQuAD (question answering), and CoNLL-2003 (named entity recognition).
翻訳日:2021-12-09 09:34:01 公開日:2021-12-05
# (参考訳) 符号化マスクを用いたHDR映像のスナップショット化 [全文訳有]

Snapshot HDR Video Construction Using Coded Mask ( http://arxiv.org/abs/2112.02522v1 )

ライセンス: CC BY 4.0
Masheal Alghamdi, Qiang Fu, Ali Thabet, Wolfgang Heidrich(参考訳) 本稿では、スナップショット符号化LDRビデオからハイダイナミックレンジ(HDR)ビデオの再構成について検討する。 HDRビデオを構築するには、各フレームのHDR値を復元し、連続するフレーム間の一貫性を維持する必要がある。 HDR画像取得(スナップショットHDR画像とも呼ばれる)は、いくつかの方法で達成できる。 例えば、再構成可能なスナップショットHDRカメラは、光学素子をカメラの光学スタックに導入し、コード化されたマスクをセンサの前方の小さなスタンドオフ距離に配置することで実現される。 取得した符号化画像から、ディープラーニングを用いて高品質なHDR画像を取得することができる。 本研究は,3D-CNNを用いて,符号化LDRビデオによる共同デモサイクリング,デノナイジング,HDRビデオ再構成を行う。 短期的・長期的整合性を考慮した時間的損失関数を導入することで,より時間的に一貫したHDRビデオ再構成を実現する。 得られた結果は有望であり、従来のカメラで手頃なHDRビデオ撮影に繋がる可能性がある。

This paper study the reconstruction of High Dynamic Range (HDR) video from snapshot-coded LDR video. Constructing an HDR video requires restoring the HDR values for each frame and maintaining the consistency between successive frames. HDR image acquisition from single image capture, also known as snapshot HDR imaging, can be achieved in several ways. For example, the reconfigurable snapshot HDR camera is realized by introducing an optical element into the optical stack of the camera; by placing a coded mask at a small standoff distance in front of the sensor. High-quality HDR image can be recovered from the captured coded image using deep learning methods. This study utilizes 3D-CNNs to perform a joint demosaicking, denoising, and HDR video reconstruction from coded LDR video. We enforce more temporally consistent HDR video reconstruction by introducing a temporal loss function that considers the short-term and long-term consistency. The obtained results are promising and could lead to affordable HDR video capture using conventional cameras.
翻訳日:2021-12-09 09:23:36 公開日:2021-12-05
# (参考訳) パッチワイドポリゴン予測によるエンドツーエンドセグメンテーション [全文訳有]

End-to-End Segmentation via Patch-wise Polygons Prediction ( http://arxiv.org/abs/2112.02535v1 )

ライセンス: CC BY 4.0
Tal Shaharabany and Lior Wolf(参考訳) 先行セグメンテーション手法は、出力マップを画素グリッドとして表現する。 対象のエッジがイメージパッチごとにモデル化される代替表現を,パッチごとのラベル確率と結合した$k$頂点を持つポリゴンとして検討する。 頂点は、識別可能なニューラルレンダラーを使用してラスタ画像を作成することで最適化される。 次に、区切りされた領域を、地上の真理セグメンテーションと比較する。 本手法は, 都市景観検証における76.26\% mIoU, ヴァイヒンゲンビルディングセグメンテーション・ベンチマークにおける90.92\% IoU, MoNUマイクロスコープ・データセットにおける66.82\% IoU, 鳥ベンチマークCUBにおける90.91\%の2つの結果を得た。 これらの結果のトレーニングと再現のコードは補足として添付されます。

The leading segmentation methods represent the output map as a pixel grid. We study an alternative representation in which the object edges are modeled, per image patch, as a polygon with $k$ vertices that is coupled with per-patch label probabilities. The vertices are optimized by employing a differentiable neural renderer to create a raster image. The delineated region is then compared with the ground truth segmentation. Our method obtains multiple state-of-the-art results: 76.26\% mIoU on the Cityscapes validation, 90.92\% IoU on the Vaihingen building segmentation benchmark, 66.82\% IoU for the MoNU microscopy dataset, and 90.91\% for the bird benchmark CUB. Our code for training and reproducing these results is attached as supplementary.
翻訳日:2021-12-09 09:11:29 公開日:2021-12-05
# (参考訳) 重畳符号化と逐次復号によるコミュニケーションとエネルギー効率の向上 [全文訳有]

Communication and Energy Efficient Slimmable Federated Learning via Superposition Coding and Successive Decoding ( http://arxiv.org/abs/2112.03267v1 )

ライセンス: CC BY 4.0
Hankyul Baek, Won Joon Yun, Soyi Jung, Jihong Park, Mingyue Ji, Joongheon Kim, Mehdi Bennis(参考訳) モバイルデバイスはビッグデータの必要不可欠なソースです。 フェデレーション学習(fl)は、生のデータの代わりにローカルにトレーニングされたモデルを交換することで、これらのプライベートデータを活用する大きな可能性を秘めている。 しかし、モバイルデバイスはエネルギーに制限があり、無線で接続されることが多く、FLは不均一で時間的に変化するエネルギー容量と通信スループットに柔軟に対応できず、採用が制限される。 これらの課題に触発され、我々はSlimFLという新しいエネルギー・通信効率のFLフレームワークを提案する。 異種エネルギー容量問題を解決するため、slimflの各デバイスは幅調整可能なslimmable neural network (snn)を実行する。 不均質な通信スループット問題に対処するため、全幅(1.0x)snモデルとその半幅(0.5$x)モデルは伝送前に重畳符号化され、受信後にチャネル品質に応じて0.5xまたは1.0$xモデルとして順次復号される。 シミュレーションの結果、SlimFLは0.5$xモデルと1.0$xモデルの両方を妥当な精度と収束速度で同時に訓練できることがわかった。 驚くべきことに、slimflは貧弱なチャネルと非iidデータ分布に対してバニラflよりも低いエネルギーフットプリントでさらに高い精度を実現し、バニラflはゆっくりと収束する。

Mobile devices are indispensable sources of big data. Federated learning (FL) has a great potential in exploiting these private data by exchanging locally trained models instead of their raw data. However, mobile devices are often energy limited and wirelessly connected, and FL cannot cope flexibly with their heterogeneous and time-varying energy capacity and communication throughput, limiting the adoption. Motivated by these issues, we propose a novel energy and communication efficient FL framework, coined SlimFL. To resolve the heterogeneous energy capacity problem, each device in SlimFL runs a width-adjustable slimmable neural network (SNN). To address the heterogeneous communication throughput problem, each full-width (1.0x) SNN model and its half-width ($0.5$x) model are superposition-coded before transmission, and successively decoded after reception as the 0.5x or $1.0$x model depending on the channel quality. Simulation results show that SlimFL can simultaneously train both $0.5$x and $1.0$x models with reasonable accuracy and convergence speed, compared to its vanilla FL counterpart separately training the two models using $2$x more communication resources. Surprisingly, SlimFL achieves even higher accuracy with lower energy footprints than vanilla FL for poor channels and non-IID data distributions, under which vanilla FL converges slowly.
翻訳日:2021-12-09 08:55:05 公開日:2021-12-05
# (参考訳) DIYグラフィクスタブ:教育者向けのグラフィクスタブレットの費用対効果 [全文訳有]

DIY Graphics Tab: A Cost-Effective Alternative to Graphics Tablet for Educators ( http://arxiv.org/abs/2112.03269v1 )

ライセンス: CC BY 4.0
Mohammad Imrul Jubair, Arafat Ibne Yousuf, Tashfiq Ahmed, Hasanath Jamy, Foisal Reza, Mohsena Ashraf(参考訳) 毎日、オンライン学習に目を向ける人が増えている。 講義の記録は、オンライン教育者の日常的な課題であり、近年は、いくつかの国で実際の授業が延期されているため、流行の中でさらに重要になっている。 講義を録音する場合、グラフィックタブレットは、ポータビリティとコンピュータとのインターフェイス能力のために、ホワイトボードの代用として優れたものだ。 しかし、このグラフィックタブレットは、多くのインストラクターにとって高価すぎる。 本稿では,グラフィックタブレットとほとんど同じように機能するが,ペン,紙,ラップトップのウェブカメラを必要とする,インストラクターや教育者のためのコンピュータビジョンベースのグラフィックタブレットの代替案を提案する。 これを“Do-It-Yourself Graphics Tab”あるいは“DIY Graphics Tab”と呼ぶ。 本システムは、カメラが取得した紙上の人物の筆跡の一連の画像を入力として受信し、その筆跡の内容を含む画面を紙から出力する。 この作業は、人の手による閉塞、紙のランダムな動き、照明条件の悪さ、視点の角度による歪みなど、多くの障害があるため、簡単ではない。 パイプラインを用いて入力記録をルーティングし、適切な出力を生成する前に、インスタンスのセグメンテーションと前処理を行う。 また,教師や学生からのユーザーエクスペリエンスの評価を行い,その評価結果について検討した。

Everyday, more and more people are turning to online learning, which has altered our traditional classroom method. Recording lectures has always been a normal task for online educators, and it has lately become even more important during the epidemic because actual lessons are still being postponed in several countries. When recording lectures, a graphics tablet is a great substitute for a whiteboard because of its portability and ability to interface with computers. This graphic tablet, however, is too expensive for the majority of instructors. In this paper, we propose a computer vision-based alternative to the graphics tablet for instructors and educators, which functions largely in the same way as a graphic tablet but just requires a pen, paper, and a laptop's webcam. We call it "Do-It-Yourself Graphics Tab" or "DIY Graphics Tab". Our system receives a sequence of images of a person's writing on paper acquired by a camera as input and outputs the screen containing the contents of the writing from the paper. The task is not straightforward since there are many obstacles such as occlusion due to the person's hand, random movement of the paper, poor lighting condition, perspective distortion due to the angle of view, etc. A pipeline is used to route the input recording through our system, which conducts instance segmentation and preprocessing before generating the appropriate output. We also conducted user experience evaluations from the teachers and students, and their responses are examined in this paper.
翻訳日:2021-12-09 08:23:20 公開日:2021-12-05
# シングルセルマルチオミクスアライメントと統合のためのコントラストサイクル対応オートエンコーダ

Contrastive Cycle Adversarial Autoencoders for Single-cell Multi-omics Alignment and Integration ( http://arxiv.org/abs/2112.03266v1 )

ライセンス: Link先を確認
Xuesong Wang (1 and 2), Zhihang Hu (1), Tingyang Yu (1), Ruijie Wang (1), Yumeng Wei (1), Juan Shu (3), Jianzhu Ma (4), Yu Li (1 and 2) ((1) Department of Computer Science and Engineering, CUHK, Hong Kong SAR, China, (2) 2The CUHK Shenzhen Research Institute, Hi-Tech Park, Nanshan, Shenzhen, 518057, China, (3) Purdue University, West Lafayette, IN 47907, United States, (4) Institute for Artificial Intelligence, Peking University, Beijing, 100871, China)(参考訳) muilti-modalityデータは生物学においてユビキタスであり、特に、異なる側面(omics)から同じ生物学的対象(cell)を計測し、より包括的な細胞系への洞察を提供するマルチオミクス時代に入ってきた。 このようなマルチオミクスデータを扱う場合、最初のステップは異なるモダリティ間の対応を決定することである。 言い換えれば、私たちは同じオブジェクトに対応する異なる空間のデータとマッチすべきです。 この問題はシングルセルマルチオミクスのシナリオでは特に困難である。 第2に、マッチングされたシングルセル・マルチオミクスデータは稀で収集が困難である。 さらに,実験環境の制約により,データは通常,非常にノイズが多い。 単細胞マルチオミクス研究を促進するため,我々は,単細胞rna-seqデータと単細胞atac-seqデータを統合するための新しい枠組みを提案し,上記の課題を克服した。 提案手法は, 異なる空間からの高空間と雑音で, 下流のアライメントと積分を容易に, 統一空間内の低次元多様体に効率的にマッピングすることができる。 他の最先端手法と比較して,本手法はシミュレーションデータと実シングルセルデータの両方において優れている。 提案手法は単細胞マルチオミクス研究に有用である。 シミュレーションデータへの統合の改善は重要である。

Muilti-modality data are ubiquitous in biology, especially that we have entered the multi-omics era, when we can measure the same biological object (cell) from different aspects (omics) to provide a more comprehensive insight into the cellular system. When dealing with such multi-omics data, the first step is to determine the correspondence among different modalities. In other words, we should match data from different spaces corresponding to the same object. This problem is particularly challenging in the single-cell multi-omics scenario because such data are very sparse with extremely high dimensions. Secondly, matched single-cell multi-omics data are rare and hard to collect. Furthermore, due to the limitations of the experimental environment, the data are usually highly noisy. To promote the single-cell multi-omics research, we overcome the above challenges, proposing a novel framework to align and integrate single-cell RNA-seq data and single-cell ATAC-seq data. Our approach can efficiently map the above data with high sparsity and noise from different spaces to a low-dimensional manifold in a unified space, making the downstream alignment and integration straightforward. Compared with the other state-of-the-art methods, our method performs better in both simulated and real single-cell data. The proposed method is helpful for the single-cell multi-omics research. The improvement for integration on the simulated data is significant.
翻訳日:2021-12-08 16:06:34 公開日:2021-12-05
# 確率的機械学習のための信頼の分類に向けて

Toward a Taxonomy of Trust for Probabilistic Machine Learning ( http://arxiv.org/abs/2112.03270v1 )

ライセンス: Link先を確認
Tamara Broderick, Andrew Gelman, Rachael Meager, Anna L. Smith, Tian Zheng(参考訳) 確率論的機械学習は、医学、経済学、政治などの重要な決定を通知する。 結果の決定が十分に確立されていることを支持する証拠が必要です。 これらの決定における信頼の発達を支援するために,(1)利用可能なトレーニングデータの特定のセットにおける目標に対する現実の目標の翻訳において,(2)訓練データに関する抽象的な目標の具体的な数学的問題への翻訳において,(3)アルゴリズムを用いた数学的問題の解法において,(4)選択されたアルゴリズムの特定のコード実装において,分析における信頼が崩壊する可能性のある分類法を開発する。 我々は、それぞれの段階において信頼がいかに失敗するかを詳述し、私たちの分類学を2つのケーススタディで説明する: マイクロクレジットの有効性の分析と、2020年の米大統領選挙に関するThe Economistの予測。 最後に,分類の各ステップにおいて,信頼度を高めるために使用できる多種多様な手法について述べる。 我々の分類学の利用は、既存の信頼研究が集中する傾向にあるステップと、信頼を確立することが特に難しいステップを強調します。

Probabilistic machine learning increasingly informs critical decisions in medicine, economics, politics, and beyond. We need evidence to support that the resulting decisions are well-founded. To aid development of trust in these decisions, we develop a taxonomy delineating where trust in an analysis can break down: (1) in the translation of real-world goals to goals on a particular set of available training data, (2) in the translation of abstract goals on the training data to a concrete mathematical problem, (3) in the use of an algorithm to solve the stated mathematical problem, and (4) in the use of a particular code implementation of the chosen algorithm. We detail how trust can fail at each step and illustrate our taxonomy with two case studies: an analysis of the efficacy of microcredit and The Economist's predictions of the 2020 US presidential election. Finally, we describe a wide variety of methods that can be used to increase trust at each step of our taxonomy. The use of our taxonomy highlights steps where existing research work on trust tends to concentrate and also steps where establishing trust is particularly challenging.
翻訳日:2021-12-08 16:06:11 公開日:2021-12-05
# 電力系統の短期電圧安定性評価のためのデータ拡張を取り入れた深層学習知能システム

A Deep-Learning Intelligent System Incorporating Data Augmentation for Short-Term Voltage Stability Assessment of Power Systems ( http://arxiv.org/abs/2112.03265v1 )

ライセンス: Link先を確認
Yang Li, Meng Zhang, Chen Chen(参考訳) 高価で自明なデータ収集とアノテーションの難しさに直面する中、ディープラーニングベースの短期電圧安定性評価(STVSA)モデルを小さなトレーニングデータセットでうまく動作させる方法は困難かつ緊急の問題である。 このデータ生成プロセスは通常、複雑で非効率であるのに対して、データ拡張は、代表的および多様化されたトレーニングデータセットをラベル保存変換で人工的に膨らませる、低コストで効率的な方法を提供する。 本稿では,電力系統のSTVSAにデータ拡張を取り入れた,新しいディープラーニング知能システムを提案する。 まず、特定の電力系統の安定状態を判断するための信頼できる定量的基準が得られないため、半教師付きクラスタ学習を利用して、元の小さなデータセットでラベル付きサンプルを得る。 次に、この小さなデータセットにディープラーニングを適用するために、条件付き最小二乗生成逆ネットワーク(lsgan)ベースのデータ拡張を導入し、人工的に有効なサンプルを作成して元のデータセットを拡張する。 第3に、システムの障害後の動的軌跡から時間的依存を抽出するために、注目機構に基づくアセスメントモデル付き双方向ゲートリカレントユニットを構築し、重要な時間依存を双方向に学習し、注意重みを自動的に割り当てる。 実験結果から,提案手法が精度の向上と応答時間の高速化を実現したことを示す。 本研究は,分類精度の他に,統計的手法を用いて提案手法の性能を総合的に検証する。

Facing the difficulty of expensive and trivial data collection and annotation, how to make a deep learning-based short-term voltage stability assessment (STVSA) model work well on a small training dataset is a challenging and urgent problem. Although a big enough dataset can be directly generated by contingency simulation, this data generation process is usually cumbersome and inefficient; while data augmentation provides a low-cost and efficient way to artificially inflate the representative and diversified training datasets with label preserving transformations. In this respect, this paper proposes a novel deep-learning intelligent system incorporating data augmentation for STVSA of power systems. First, due to the unavailability of reliable quantitative criteria to judge the stability status for a specific power system, semi-supervised cluster learning is leveraged to obtain labeled samples in an original small dataset. Second, to make deep learning applicable to the small dataset, conditional least squares generative adversarial networks (LSGAN)-based data augmentation is introduced to expand the original dataset via artificially creating additional valid samples. Third, to extract temporal dependencies from the post-disturbance dynamic trajectories of a system, a bi-directional gated recurrent unit with attention mechanism based assessment model is established, which bi-directionally learns the significant time dependencies and automatically allocates attention weights. The test results demonstrate the presented approach manages to achieve better accuracy and a faster response time with original small datasets. Besides classification accuracy, this work employs statistical measures to comprehensively examine the performance of the proposal.
翻訳日:2021-12-08 16:00:36 公開日:2021-12-05
# 安全な蒸留箱

Safe Distillation Box ( http://arxiv.org/abs/2112.03695v1 )

ライセンス: Link先を確認
Jingwen Ye, Yining Mao, Jie Song, Xinchao Wang, Cheng Jin, Mingli Song(参考訳) 知識蒸留(KD)は、最近、訓練済みの教師モデルから軽量の学生に知識を伝達する強力な戦略として出現し、幅広い応用において前例のない成功を収めた。 励ましの結果にもかかわらず、ネットワークに含まれる知識を無駄に蒸留し、悪意のあるユーザに露出させるため、KDプロセスはネットワークの所有権保護に潜在的に脅威をもたらす。 本稿では,知的財産保護のための仮想ボックスに事前学習したモデルをラップできる,Safe Distillation Box (SDB) と呼ばれる新しいフレームワークを提案する。 具体的には、SDBはラップされたモデルのすべてのユーザに推論能力を保持するが、KDを許可されていないユーザから排除する。 一方,認証ユーザに対しては,sdbは,kdパフォーマンスと学生モデルの結果を強化するための知識拡張方式を実施している。 言い換えれば、すべてのユーザが推論にSDBのモデルを使用することができるが、承認されたユーザだけがモデルからKDにアクセスすることができる。 提案したSDBはモデルアーキテクチャに制約を課さず、事前訓練されたネットワークのオーナシップを保護するためのプラグイン・アンド・プレイソリューションとしてすぐに機能する可能性がある。 さまざまなデータセットやアーキテクチャの実験により、SDBでは、認可されていないKDのパフォーマンスが大幅に低下する一方で、認可されたKDのパフォーマンスが向上し、SDBの有効性が実証される。

Knowledge distillation (KD) has recently emerged as a powerful strategy to transfer knowledge from a pre-trained teacher model to a lightweight student, and has demonstrated its unprecedented success over a wide spectrum of applications. In spite of the encouraging results, the KD process per se poses a potential threat to network ownership protection, since the knowledge contained in network can be effortlessly distilled and hence exposed to a malicious user. In this paper, we propose a novel framework, termed as Safe Distillation Box (SDB), that allows us to wrap a pre-trained model in a virtual box for intellectual property protection. Specifically, SDB preserves the inference capability of the wrapped model to all users, but precludes KD from unauthorized users. For authorized users, on the other hand, SDB carries out a knowledge augmentation scheme to strengthen the KD performances and the results of the student model. In other words, all users may employ a model in SDB for inference, but only authorized users get access to KD from the model. The proposed SDB imposes no constraints over the model architecture, and may readily serve as a plug-and-play solution to protect the ownership of a pre-trained network. Experiments across various datasets and architectures demonstrate that, with SDB, the performance of an unauthorized KD drops significantly while that of an authorized gets enhanced, demonstrating the effectiveness of SDB.
翻訳日:2021-12-08 13:35:48 公開日:2021-12-05
# ツイーディ分布とスコアマッチングを用いた雑音分布適応型自己監視画像デノーミング

Noise Distribution Adaptive Self-Supervised Image Denoising using Tweedie Distribution and Score Matching ( http://arxiv.org/abs/2112.03696v1 )

ライセンス: Link先を確認
Kwanyoung Kim, Taesung Kwon, Jong Chul Ye(参考訳) ツイーディー分布は指数分散モデルの特別な場合であり、一般化線形モデルの分布として古典統計学でよく用いられる。 本稿では,現代のディープラーニング時代において,トウィーディー分布が重要な役割を担っていることを明らかにした。 具体的には,最近の noise2score self-supervised image denoising approach と tweedie distribution のsaddle point approximation を組み合わせることで,ノイズ分布を知らずに,ノイズ分布の広いクラスに適用可能な一般の閉形式デノジング式を導出することができる。 オリジナルの noise2score と同様、この新しいアプローチは2つの連続したステップで構成される。 これはまた、与えられた雑音画像データセットのノイズモデルとノイズパラメータを推定する体系的なアルゴリズムを提案する。 広範にわたる実験により,提案手法は,ノイズモデルとパラメータを正確に推定し,ベンチマークデータセットと実世界のデータセットにおける,最先端の自己教師付き画像復調性能を提供する。

Tweedie distributions are a special case of exponential dispersion models, which are often used in classical statistics as distributions for generalized linear models. Here, we reveal that Tweedie distributions also play key roles in modern deep learning era, leading to a distribution independent self-supervised image denoising formula without clean reference images. Specifically, by combining with the recent Noise2Score self-supervised image denoising approach and the saddle point approximation of Tweedie distribution, we can provide a general closed-form denoising formula that can be used for large classes of noise distributions without ever knowing the underlying noise distribution. Similar to the original Noise2Score, the new approach is composed of two successive steps: score matching using perturbed noisy images, followed by a closed form image denoising formula via distribution-indepen dent Tweedie's formula. This also suggests a systematic algorithm to estimate the noise model and noise parameters for a given noisy image data set. Through extensive experiments, we demonstrate that the proposed method can accurately estimate noise models and parameters, and provide the state-of-the-art self-supervised image denoising performance in the benchmark dataset and real-world dataset.
翻訳日:2021-12-08 13:35:04 公開日:2021-12-05
# 病理画像分類のためのハードサンプル認識ノイズロバスト学習

Hard Sample Aware Noise Robust Learning for Histopathology Image Classification ( http://arxiv.org/abs/2112.03694v1 )

ライセンス: Link先を確認
Chuang Zhu, Wenkai Chen, Ting Peng, Ying Wang, Mulan Jin(参考訳) 深層学習に基づく病理組織学画像分類は、がん診断の正確性と迅速性を改善するための重要な手法である。 しかし、複雑な手動アノテーションプロセスではノイズラベルは避けられないことが多く、したがって分類モデルのトレーニングを誤解させる。 本稿では,病理組織像分類のための新しいハードサンプル認識ノイズロバスト学習法を提案する。 有益なハードサンプルと有害なノイズのサンプルを区別するため,サンプルトレーニング履歴を用いてehn(easy/hard/noisy) 検出モデルを構築した。 そして、EHNを自己学習アーキテクチャに統合し、徐々にラベルの修正によってノイズ率を下げる。 得られたほぼクリーンなデータセットを用いて、ノイズロバストモデルをトレーニングするためのノイズ抑制・ハードエンハンスメント(nshe)スキームを提案する。 従来の作業と比較して,よりクリーンなサンプルを保存でき,クリーンなサブセットを使わずに,現実世界の騒がしいデータセットシナリオに直接適用できる。 実験結果から,提案手法は,合成および実世界のノイズデータセットにおいて,現在の最先端手法よりも優れていた。 ソースコードとデータはhttps://github.com/b upt-ai-cz/hsa-nrl/で入手できる。

Deep learning-based histopathology image classification is a key technique to help physicians in improving the accuracy and promptness of cancer diagnosis. However, the noisy labels are often inevitable in the complex manual annotation process, and thus mislead the training of the classification model. In this work, we introduce a novel hard sample aware noise robust learning method for histopathology image classification. To distinguish the informative hard samples from the harmful noisy ones, we build an easy/hard/noisy (EHN) detection model by using the sample training history. Then we integrate the EHN into a self-training architecture to lower the noise rate through gradually label correction. With the obtained almost clean dataset, we further propose a noise suppressing and hard enhancing (NSHE) scheme to train the noise robust model. Compared with the previous works, our method can save more clean samples and can be directly applied to the real-world noisy dataset scenario without using a clean subset. Experimental results demonstrate that the proposed scheme outperforms the current state-of-the-art methods in both the synthetic and real-world noisy datasets. The source code and data are available at https://github.com/b upt-ai-cz/HSA-NRL/.
翻訳日:2021-12-08 13:34:39 公開日:2021-12-05
# 生成ニューラルネットワークを用いた合成ECG信号生成

Synthetic ECG Signal Generation Using Generative Neural Networks ( http://arxiv.org/abs/2112.03268v1 )

ライセンス: Link先を確認
Edmond Adib, Fatemeh Afghah, John J. Prevost(参考訳) 心電図(ECG)データセットは異常な症例の少ないため、非常に不均衡である。 さらに、実際の患者の心電図の使用はプライバシーの問題により高度に規制されている。 したがって、特にバランスの取れたデータセットでトレーニングされた場合、より良いパフォーマンスを示す自動診断機械学習モデルのトレーニングには、より多くのECGデータが必要である。 合成心電図生成能力はGAN(Generative Adversarial Network, GAN)ファミリーから5種類のモデルに比較検討し, 正常心循環にのみ焦点をあてた。 動的時間ウォーピング(DTW)、Fr'echet、ユークリッド距離関数を定量的に測定するために使用した。 生成したビートを評価するための5つの異なる手法を提案し,適用した。 また,3つの新しい概念(threshold,accepted beat, productivity rate)を提案し,これらをモデル間比較の体系的手法として用いた。 その結果、全ての実験モデルが、形態的特徴に高い類似性を持つ許容心拍をある程度大量生成することができ、不均衡なデータセットの増大に使用できる可能性が示唆された。 しかし、生成したビートの視覚検査は、統計学的に許容できるビートを生成するため、BiLSTM-DC GANとWGANが好ましい。 また、生産性率に関しては、Classic GANが72%の生産性率で優れている。

Electrocardiogram (ECG) datasets tend to be highly imbalanced due to the scarcity of abnormal cases. Additionally, the use of real patients' ECG is highly regulated due to privacy issues. Therefore, there is always a need for more ECG data, especially for the training of automatic diagnosis machine learning models, which perform better when trained on a balanced dataset. We studied the synthetic ECG generation capability of 5 different models from the generative adversarial network (GAN) family and compared their performances, the focus being only on Normal cardiac cycles. Dynamic Time Warping (DTW), Fr\'echet, and Euclidean distance functions were employed to quantitatively measure performance. Five different methods for evaluating generated beats were proposed and applied. We also proposed 3 new concepts (threshold, accepted beat and productivity rate) and employed them along with the aforementioned methods as a systematic way for comparison between models. The results show that all the tested models can to an extent successfully mass-generate acceptable heartbeats with high similarity in morphological features, and potentially all of them can be used to augment imbalanced datasets. However, visual inspections of generated beats favor BiLSTM-DC GAN and WGAN, as they produce statistically more acceptable beats. Also, with regards to productivity rate, the Classic GAN is superior with a 72% productivity rate.
翻訳日:2021-12-08 13:31:46 公開日:2021-12-05
# (参考訳) 多層ニューラルネットワークを用いたフェデレーション学習のための重畳符号化と訓練 [全文訳有]

Joint Superposition Coding and Training for Federated Learning over Multi-Width Neural Networks ( http://arxiv.org/abs/2112.02543v1 )

ライセンス: CC BY 4.0
Hankyul Baek, Won Joon Yun, Yunseok Kwak, Soyi Jung, Mingyue Ji, Mehdi Bennis, Jihong Park, Joongheon Kim(参考訳) 本稿では,2つの相乗的技術,フェデレートラーニング(FL)と幅調整可能なスリムブルニューラルネットワーク(SNN)アーキテクチャを統合することを目的とする。 flは、ローカルにトレーニングされたモバイルデバイスのモデルを交換することで、データのプライバシを保持する。 ローカルモデルとしてSNNを採用することで、FLはモバイルデバイスの時間変化エネルギー容量に柔軟に対応できる。 しかし、flとsnsの組み合わせは、特に無線接続と時変チャネル条件下では、非自明である。 さらに、既存のマルチ幅SNNトレーニングアルゴリズムはデバイス間のデータ分散に敏感であるため、FLには適さない。 そこで我々は,グローバルモデルアグリゲーションと重ね合わせトレーニング(ST)に重ね合わせ符号化(SC)を併用して局所モデルの更新を行う通信・エネルギー効率の高いSNNベースFL(SlimFL)を提案する。 scを適用することで、slimflは所定の通信スループットのために可能な限りデコードされる複数の幅構成の重ね合わせを交換する。 STを活用して、SlimFLは異なる幅構成の前方伝播を調整し、バックプロパゲーション時の幅間の干渉を回避する。 我々はSlimFLの収束を正式に証明する。 その結果,SlimFLは通信効率だけでなく,非IIDデータ分布やチャネル条件の悪さにも対処できることがわかった。

This paper aims to integrate two synergetic technologies, federated learning (FL) and width-adjustable slimmable neural network (SNN) architectures. FL preserves data privacy by exchanging the locally trained models of mobile devices. By adopting SNNs as local models, FL can flexibly cope with the time-varying energy capacities of mobile devices. Combining FL and SNNs is however non-trivial, particularly under wireless connections with time-varying channel conditions. Furthermore, existing multi-width SNN training algorithms are sensitive to the data distributions across devices, so are ill-suited to FL. Motivated by this, we propose a communication and energy-efficient SNN-based FL (named SlimFL) that jointly utilizes superposition coding (SC) for global model aggregation and superposition training (ST) for updating local models. By applying SC, SlimFL exchanges the superposition of multiple width configurations that are decoded as many as possible for a given communication throughput. Leveraging ST, SlimFL aligns the forward propagation of different width configurations, while avoiding the inter-width interference during backpropagation. We formally prove the convergence of SlimFL. The result reveals that SlimFL is not only communication-effici ent but also can counteract non-IID data distributions and poor channel conditions, which is also corroborated by simulations.
翻訳日:2021-12-08 13:11:09 公開日:2021-12-05
# (参考訳) 決定回帰木を用いたスマートIoTバイオロック水管理システム [全文訳有]

Smart IoT-Biofloc water management system using Decision regression tree ( http://arxiv.org/abs/2112.02577v1 )

ライセンス: CC BY 4.0
Samsil Arefin Mozumder, A S M Sharifuzzaman Sagar(参考訳) 従来の漁業には、水汚染、温度不安定、栄養、面積、費用などいくつかの困難がある。 魚の養殖では、バイオフローク技術が伝統的な農業を、余剰食品を細菌バイオマスに利用するための洗練されたインフラに変えている。 本研究の目的は,効率と生産性を向上させるインテリジェントなiotバイオフローシステムを提案することである。 本稿では,センサからデータを収集し,クラウドにデータを格納し,決定回帰木モデルなどの機械学習モデルを用いて解析して,水の状態を予測するシステムを紹介し,アンドロイドアプリによるリアルタイムモニタリングを行う。 提案システムは,実験中に79%の精度を達成している。

The conventional fishing industry has several difficulties: water contamination, temperature instability, nutrition, area, expense, etc. In fish farming, Biofloc technology turns traditional farming into a sophisticated infrastructure that enables the utilization of leftover food by turning it into bacterial biomass. The purpose of our study is to propose an intelligent IoT Biofloc system that improves efficiency and production. This article introduced a system that gathers data from sensors, store data in the cloud, analyses it using a machine learning model such as a Decision regression tree model to predict the water condition, and provides real-time monitoring through an android app. The proposed system has achieved a satisfactory accuracy of 79% during the experiment.
翻訳日:2021-12-08 12:42:28 公開日:2021-12-05
# (参考訳) 異常検出のための事前制約付き簡易適応投影法 [全文訳有]

Simple Adaptive Projection with Pretrained Features for Anomaly Detection ( http://arxiv.org/abs/2112.02597v1 )

ライセンス: CC BY 4.0
Xingtai Gui(参考訳) 深部異常検出は、高品質な表現を持つ通常のサンプルから異常を分離することを目的としている。 事前訓練された機能は効果的な表現と有望な異常検出性能をもたらす。 しかし、一流の訓練データでは、事前訓練された特徴の適応は厄介な問題である。 具体的には、グローバルターゲットを持つ既存の最適化目標はしばしばパターンの崩壊、すなわち全ての入力が同一にマッピングされる。 本稿では,単純な線形変換と自己注意を含む新しい適応フレームワークを提案する。 このような適応を特定の入力に適用し、事前訓練された特徴空間における正規標本のk最短表現と類似する1クラス意味特徴間の内関係をマイニングする。 さらに,このような枠組みに基づき,自明な解の学習を避けるための効果的な制約項を提案する。 事前訓練した特徴を持つ簡易適応投影法(SAP2)は,パターン崩壊に対してより正確で頑健な,新しい異常検出基準を与える。 本手法は,CIFAR-100データセットの96.5% AUROC,CIFAR-10データセットの97.0% AUROC,MvTecデータセットの88.1% AUROCを含む,意味異常検出および感覚異常検出ベンチマークの最先端異常検出性能を実現する。

Deep anomaly detection aims to separate anomaly from normal samples with high-quality representations. Pretrained features bring effective representation and promising anomaly detection performance. However, with one-class training data, adapting the pretrained features is a thorny problem. Specifically, the existing optimization objectives with global target often lead to pattern collapse, i.e. all inputs are mapped to the same. In this paper, we propose a novel adaptation framework including simple linear transformation and self-attention. Such adaptation is applied on a specific input, and its k nearest representations of normal samples in pretrained feature space and the inner-relationship between similar one-class semantic features are mined. Furthermore, based on such framework, we propose an effective constraint term to avoid learning trivial solution. Our simple adaptive projection with pretrained features(SAP2) yields a novel anomaly detection criterion which is more accurate and robust to pattern collapse. Our method achieves state-of-the-art anomaly detection performance on semantic anomaly detection and sensory anomaly detection benchmarks including 96.5% AUROC on CIFAR-100 dataset, 97.0% AUROC on CIFAR-10 dataset and 88.1% AUROC on MvTec dataset.
翻訳日:2021-12-08 12:35:02 公開日:2021-12-05
# (参考訳) マニフォールド同定と可変化によるニューラルネットワークの学習 [全文訳有]

Training Structured Neural Networks Through Manifold Identification and Variance Reduction ( http://arxiv.org/abs/2112.02612v1 )

ライセンス: CC BY 4.0
Zih-Syuan Huang, Ching-pei Lee(参考訳) 本稿では,ニューラルネットワーク(NN)を学習するためのアルゴリズム(RMDA)を提案する。 RMDAは運動量を持つ近位SGDに余分な計算を加えず、目的関数を有限サム形式にすることなく分散化を実現する。 非線形最適化から多様体同定のツールを用いて, RMDA のすべての繰り返しは, 漸近収束の定常点において正則化子によって誘導されるような所望の構造を持つことを証明した。 構造的疎性を伴うNNのトレーニング実験により,そのような識別には分散低減が必要であることが確認され,RMDAが既存の手法よりも優れていることを示す。 構造化されていないスパーシリティに対しては、RMDAは最先端のプルーニング手法よりも優れており、正規化による構造化NNのトレーニングの利点を検証している。

This paper proposes an algorithm (RMDA) for training neural networks (NNs) with a regularization term for promoting desired structures. RMDA does not incur computation additional to proximal SGD with momentum, and achieves variance reduction without requiring the objective function to be of the finite-sum form. Through the tool of manifold identification from nonlinear optimization, we prove that after a finite number of iterations, all iterates of RMDA possess a desired structure identical to that induced by the regularizer at the stationary point of asymptotic convergence, even in the presence of engineering tricks like data augmentation and dropout that complicate the training process. Experiments on training NNs with structured sparsity confirm that variance reduction is necessary for such an identification, and show that RMDA thus significantly outperforms existing methods for this task. For unstructured sparsity, RMDA also outperforms a state-of-the-art pruning method, validating the benefits of training structured NNs through regularization.
翻訳日:2021-12-08 11:47:33 公開日:2021-12-05
# (参考訳) 大気質予測の不確かさを定量化する確率論的深層学習

Probabilistic Deep Learning to Quantify Uncertainty in Air Quality Forecasting ( http://arxiv.org/abs/2112.02622v1 )

ライセンス: CC BY 4.0
Abdulmajid Murad, Frank Alexander Kraemer, Kerstin Bach, Gavin Taylor(参考訳) データ駆動による大気質予測は、最近より正確な短期予測を達成した。 その成功にもかかわらず、現在のデータ駆動ソリューションのほとんどは、予測をどの程度信頼するかを伝えるモデル不確実性の適切な定量化を欠いている。 近年,確率的深層学習において不確実性を推定する実用ツールが開発されている。 しかし、空気質予測の分野では、これらのツールの実証的な応用や広範な比較は行われていない。 そこで本研究では,実世界の大気質予測における不確実性定量化技術を適用した。 広範にわたる実験を通じて,実験結果,信頼性推定の信頼性,実用性に基づいて,確率モデルを訓練し,予測の不確実性を評価する。 また,空気質データに固有の時間的・空間的相関を活用し,これらのモデルの改良を提案する。 本実験は,データ駆動空気質予測の不確かさの定量化において,提案モデルが従来よりも優れていることを示す。 全体として、ベイズニューラルネットワークはより信頼性の高い不確実性推定を提供するが、実装とスケールが困難である。 ディープアンサンブル、モンテカルロ(MC)ドロップアウト、確率的ウェイト平均ガウス(SWAG)といった他のスケーラブルな手法は、正しく適用すればうまく機能するが、異なるトレードオフと若干のパフォーマンス指標を持つ。 最後に,不確実性推定の実践的影響を示すとともに,確率モデルの方が情報的決定に適していることを示す。 コードとデータセットは \url{https://github.com/a bdulmajid-murad/deep _probabilistic_forec ast} で利用可能である。

Data-driven forecasts of air quality have recently achieved more accurate short-term predictions. Despite their success, most of the current data-driven solutions lack proper quantifications of model uncertainty that communicate how much to trust the forecasts. Recently, several practical tools to estimate uncertainty have been developed in probabilistic deep learning. However, there have not been empirical applications and extensive comparisons of these tools in the domain of air quality forecasts. Therefore, this work applies state-of-the-art techniques of uncertainty quantification in a real-world setting of air quality forecasts. Through extensive experiments, we describe training probabilistic models and evaluate their predictive uncertainties based on empirical performance, reliability of confidence estimate, and practical applicability. We also propose improving these models using "free" adversarial training and exploiting temporal and spatial correlation inherent in air quality data. Our experiments demonstrate that the proposed models perform better than previous works in quantifying uncertainty in data-driven air quality forecasts. Overall, Bayesian neural networks provide a more reliable uncertainty estimate but can be challenging to implement and scale. Other scalable methods, such as deep ensemble, Monte Carlo (MC) dropout, and stochastic weight averaging-Gaussian (SWAG), can perform well if applied correctly but with different tradeoffs and slight variations in performance metrics. Finally, our results show the practical impact of uncertainty estimation and demonstrate that, indeed, probabilistic models are more suitable for making informed decisions. Code and dataset are available at \url{https://github.com/A bdulmajid-Murad/deep _probabilistic_forec ast}
翻訳日:2021-12-08 11:08:23 公開日:2021-12-05
# (参考訳) 医療における説明可能な深層学習 : 属性から見た方法論的考察

Explainable Deep Learning in Healthcare: A Methodological Survey from an Attribution View ( http://arxiv.org/abs/2112.02625v1 )

ライセンス: CC BY 4.0
Di Jin and Elena Sergeeva and Wei-Hung Weng and Geeticka Chauhan and Peter Szolovits(参考訳) 電子健康記録(ehr)データの大量収集とディープラーニング(dl)における前例のない技術的進歩は、診断、予後、治療のためのdlベースの臨床判断支援システムの開発に対する研究関心の高まりをもたらした。 医療における深層学習の価値は認識されているものの、実際の医療環境におけるさらなる導入を妨げる障害は、DLのブラックボックスの性質のため残っている。 そのため、解釈可能なDLの必要性が高まっており、エンドユーザーがモデル決定を評価し、アクションを行う前に予測やレコメンデーションを受理するか拒否するかを知ることができる。 本稿では,医療におけるDLモデルの解釈可能性に注目した。 本研究は,今後の研究者や臨床医の方法論として,深部・包括的に解釈可能性の手法を導入することから始める。 提案手法の詳細の他に,これらの手法の利点と欠点,および各手法がどのシナリオに適しているかについての議論も行っており,興味のある読者がそれらをどのように比較・選択するかを知ることができる。 さらに, 一般ドメイン問題を解くために開発されたこれらの手法が, 医療問題にどのように適応・適用され, 医師がこれらのデータ駆動技術を理解するのにどのように役立つかについて議論した。 全体として、この調査は、人工知能(AI)と臨床分野の両方の研究者や実践者が、DLモデルの解釈可能性を高めるための方法を理解し、それに応じて最適なものを選択するのに役立つことを願っている。

The increasing availability of large collections of electronic health record (EHR) data and unprecedented technical advances in deep learning (DL) have sparked a surge of research interest in developing DL based clinical decision support systems for diagnosis, prognosis, and treatment. Despite the recognition of the value of deep learning in healthcare, impediments to further adoption in real healthcare settings remain due to the black-box nature of DL. Therefore, there is an emerging need for interpretable DL, which allows end users to evaluate the model decision making to know whether to accept or reject predictions and recommendations before an action is taken. In this review, we focus on the interpretability of the DL models in healthcare. We start by introducing the methods for interpretability in depth and comprehensively as a methodological reference for future researchers or clinical practitioners in this field. Besides the methods' details, we also include a discussion of advantages and disadvantages of these methods and which scenarios each of them is suitable for, so that interested readers can know how to compare and choose among them for use. Moreover, we discuss how these methods, originally developed for solving general-domain problems, have been adapted and applied to healthcare problems and how they can help physicians better understand these data-driven technologies. Overall, we hope this survey can help researchers and practitioners in both artificial intelligence (AI) and clinical fields understand what methods we have for enhancing the interpretability of their DL models and choose the optimal one accordingly.
翻訳日:2021-12-08 11:06:11 公開日:2021-12-05
# (参考訳) データ駆動ノルム合成と改訂の複雑さ [全文訳有]

The Complexity of Data-Driven Norm Synthesis and Revision ( http://arxiv.org/abs/2112.02626v1 )

ライセンス: CC BY 4.0
Davide Dell'Anna, Natasha Alechina, Brian Logan, Maarten L\"offler, Fabiano Dalpiaz, Mehdi Dastani(参考訳) ノルムはマルチエージェントシステム(MAS)におけるエージェントの活動の調整と制御方法として広く提案されている。 規範は、エージェントがMASの目的を達成するために従うべき行動を指定する。 しかしながら、特定のシステム目標を達成するための規範の設計は、特に、システム目標が記述された言語と、その規範が表現できる言語の間に直接関係がない場合、困難である。 本稿では,エージェントの挙動のトレースから規範を合成する問題を考察する。 ノルム合成問題はNP完全であることを示す。

Norms have been widely proposed as a way of coordinating and controlling the activities of agents in a multi-agent system (MAS). A norm specifies the behaviour an agent should follow in order to achieve the objective of the MAS. However, designing norms to achieve a particular system objective can be difficult, particularly when there is no direct link between the language in which the system objective is stated and the language in which the norms can be expressed. In this paper, we consider the problem of synthesising a norm from traces of agent behaviour, where each trace is labelled with whether the behaviour satisfies the system objective. We show that the norm synthesis problem is NP-complete.
翻訳日:2021-12-08 11:05:02 公開日:2021-12-05
# (参考訳) 静的および動的マルウェア機能を用いたMalware Ascriptionの実行 [全文訳有]

Using Static and Dynamic Malware features to perform Malware Ascription ( http://arxiv.org/abs/2112.02639v1 )

ライセンス: CC BY 4.0
Jashanpreet Singh Sraw and Keshav Kumar(参考訳) マルウェアの徴候は比較的未発見の領域であり、マルウェアの属性と作者の検出は比較的困難である。 本稿では,悪意のある実行可能ファイルの静的および動的特徴を利用して,その家族に基づいてマルウェアを分類する。 Cuckoo Sandboxと機械学習を活用して、この研究を前進させます。 分析後、様々なディープラーニングと機械学習アルゴリズムを用いて分類を行う。 virustotal (static) と cuckoo (dynamic) のレポートから収集した特徴を用いて,マルチノミナルナイーブベイズ,サポートベクターマシン,決定木をベース推定器として袋詰めしたベクトルデータを実行した。 各分類器に対して,全探索法を用いてハイパーパラメータを調整した。 本報告はマルウェア記述に非常に有用である。

Malware ascription is a relatively unexplored area, and it is rather difficult to attribute malware and detect authorship. In this paper, we employ various Static and Dynamic features of malicious executables to classify malware based on their family. We leverage Cuckoo Sandbox and machine learning to make progress in this research. Post analysis, classification is performed using various deep learning and machine learning algorithms. Using the features gathered from VirusTotal (static) and Cuckoo (dynamic) reports, we ran the vectorized data against Multinomial Naive Bayes, Support Vector Machine, and Bagging using Decision Trees as the base estimator. For each classifier, we tuned the hyper-parameters using exhaustive search methods. Our reports can be extremely useful in malware ascription.
翻訳日:2021-12-08 10:53:30 公開日:2021-12-05
# (参考訳) 不確実性評価のための多変量・グローバル・アモータイズド対策 [全文訳有]

Diverse, Global and Amortised Counterfactual Explanations for Uncertainty Estimates ( http://arxiv.org/abs/2112.02646v1 )

ライセンス: CC BY 4.0
Dan Ley, Umang Bhatt, Adrian Weller(参考訳) 微分確率モデルからの不確実性推定を解釈するために、最近の研究は、モデルが不確実である与えられたデータポイントに対して、モデルが予測においてより確実になるように、入力に対する1つのオンマンフォールドな変化を識別する単一の非確実性説明(CLUE)を生成することを提案した。 我々は、潜時空間における元の入力のデルタ球内の潜在的な CLUE の集合である {\delta}-CLUE を調べるための探索を拡大する。 このような集合の多様性を研究し,多くの手掛かりが冗長であることを見いだす。そこで我々は,入力に関する不確実性をいかに減少させるか,それぞれが個別に説明できる手掛かりである多様手掛かり({\nabla}-clue)を提案する。 さらに,GLobal AMortized CLUE (GLAM-CLUE) を提案する。これは,不確実な入力の特定のグループに対する償却写像を学習し,それらを単一の関数呼び出しで効率的に変換し,モデルが確実な入力に変換する方法である。 実験の結果, {\delta}-clue, {\nabla}-clueおよびglam-clueはいずれも手掛かりの欠点に対処し,不確実性推定の有益な説明を実践者に提供できることがわかった。

To interpret uncertainty estimates from differentiable probabilistic models, recent work has proposed generating a single Counterfactual Latent Uncertainty Explanation (CLUE) for a given data point where the model is uncertain, identifying a single, on-manifold change to the input such that the model becomes more certain in its prediction. We broaden the exploration to examine {\delta}-CLUE, the set of potential CLUEs within a {\delta} ball of the original input in latent space. We study the diversity of such sets and find that many CLUEs are redundant; as such, we propose DIVerse CLUE ({\nabla}-CLUE), a set of CLUEs which each propose a distinct explanation as to how one can decrease the uncertainty associated with an input. We then further propose GLobal AMortised CLUE (GLAM-CLUE), a distinct and novel method which learns amortised mappings on specific groups of uncertain inputs, taking them and efficiently transforming them in a single function call into inputs for which a model will be certain. Our experiments show that {\delta}-CLUE, {\nabla}-CLUE, and GLAM-CLUE all address shortcomings of CLUE and provide beneficial explanations of uncertainty estimates to practitioners.
翻訳日:2021-12-08 10:42:06 公開日:2021-12-05
# (参考訳) 電波天文学のための量子機械学習 [全文訳有]

Quantum Machine Learning for Radio Astronomy ( http://arxiv.org/abs/2112.02655v1 )

ライセンス: CC BY 4.0
Mohammad Kordzanganeh, Aydin Utting, Anna Scaife(参考訳) 本研究では、ボルンマシン(しばしば「emph{quantum neural network」と呼ばれる)を用いた時間領域電波天文学におけるパルサー分類問題に対する新しいアプローチを提案する。 単一キュービットアーキテクチャを用いて、パルサー分類問題はブロッホ球面によく対応し、より古典的な機械学習アプローチに匹敵する精度は達成可能であることを示す。 本研究で使用されるパルサーデータに対して,新しい単一量子符号化を導入し,マルチキュービットQAOA符号化と同等に動作することを示す。

In this work we introduce a novel approach to the pulsar classification problem in time-domain radio astronomy using a Born machine, often referred to as a \emph{quantum neural network}. Using a single-qubit architecture, we show that the pulsar classification problem maps well to the Bloch sphere and that comparable accuracies to more classical machine learning approaches are achievable. We introduce a novel single-qubit encoding for the pulsar data used in this work and show that this performs comparably to a multi-qubit QAOA encoding.
翻訳日:2021-12-08 10:16:40 公開日:2021-12-05
# (参考訳) 畳み込みニューラルネットワークを用いた加速器系の故障解析と緩和 [全文訳有]

Using Convolutional Neural Networks for fault analysis and alleviation in accelerator systems ( http://arxiv.org/abs/2112.02657v1 )

ライセンス: CC BY 4.0
Jashanpreet Singh Sraw and Deepak M C(参考訳) 今日、ニューラルネットワークは事実上すべての技術的領域におけるブレークスルーの基礎となっている。 彼らのアクセラレーターへの応用は、最近これらのシステムでパフォーマンスと効率が向上した。 同時に、最新の(収縮した)半導体技術によるハードウェア障害の増加にも対処する必要がある。 アクセラレータシステムは、自動運転車や医療診断アプリケーションのような時間クリティカルなアプリケーションを支援するためにしばしば使用されるため、これらのハードウェアの故障は排除されなければならない。 本研究は,これらの失敗をシステムの観点から評価する。 この結果から,システムの信頼性向上に重要な結果が得られ,ハードウェアのオーバーヘッドを最小限に抑えるために,より効率的な手法を考案した。

Today, Neural Networks are the basis of breakthroughs in virtually every technical domain. Their application to accelerators has recently resulted in better performance and efficiency in these systems. At the same time, the increasing hardware failures due to the latest (shrinked) semiconductor technology needs to be addressed. Since accelerator systems are often used to back time-critical applications such as self-driving cars or medical diagnosis applications, these hardware failures must be eliminated. Our research evaluates these failures from a systemic point of view. Based on our results, we find critical results for the system reliability enhancement and we further put forth an efficient method to avoid these failures with minimal hardware overhead.
翻訳日:2021-12-08 10:09:16 公開日:2021-12-05
# (参考訳) ランダムマスキングニューロンを用いた浅層ニューラルネットワーク訓練の収束について

On the Convergence of Shallow Neural Network Training with Randomly Masked Neurons ( http://arxiv.org/abs/2112.02668v1 )

ライセンス: CC BY 4.0
Fangshuo Liao, Anastasios Kyrillidis(参考訳) 密集した浅層ニューラルネットワークでは,ランダムに選択されたサブネットワーク(サーロゲート関数)を反復的に生成,トレーニングし,組み合わせて,モデル全体のトレーニングを行う。 i)$ the subnetworks' neural tangent kernel, $ii)$ the surrogate functions' gradient, and $iii)$ the surrogate functionsをサンプリングして結合する方法を慎重に分析することで、回帰タスクのためにreluアクティベーションを持つ過パラメータの単層パーセプトロンに対して、トレーニングエラーの線形収束率(エラー領域内)を証明します。 その結果、固定ニューロン選択確率では、サロゲートモデル数の増加に伴ってエラー項が減少し、選択されたサブネットワーク毎の局所トレーニングステップ数の増加とともに増加する。 検討されたフレームワークは,ドロップアウトトレーニング,マルチサンプルドロップアウトトレーニング,および独立サブネットトレーニングを一般化し,新たな知見を提供する。

Given a dense shallow neural network, we focus on iteratively creating, training, and combining randomly selected subnetworks (surrogate functions), towards training the full model. By carefully analyzing $i)$ the subnetworks' neural tangent kernel, $ii)$ the surrogate functions' gradient, and $iii)$ how we sample and combine the surrogate functions, we prove linear convergence rate of the training error -- within an error region -- for an overparameterized single-hidden layer perceptron with ReLU activations for a regression task. Our result implies that, for fixed neuron selection probability, the error term decreases as we increase the number of surrogate models, and increases as we increase the number of local training steps for each selected subnetwork. The considered framework generalizes and provides new insights on dropout training, multi-sample dropout training, as well as Independent Subnet Training; for each case, we provide corresponding convergence results, as corollaries of our main theorem.
翻訳日:2021-12-08 09:53:28 公開日:2021-12-05
# (参考訳) 確率的局所的勝者獲得-全ネットワークによる強固な敵対的強固性の実現 [全文訳有]

Stochastic Local Winner-Takes-All Networks Enable Profound Adversarial Robustness ( http://arxiv.org/abs/2112.02671v1 )

ライセンス: CC BY 4.0
Konstantinos P. Panousis, Sotirios Chatzis, Sergios Theodoridis(参考訳) 本研究は、確率的競争に基づくアクティベーション、すなわちStochastic Local Winner-Takes-All(LWT A)の強力な(段階的な)ホワイトボックスとブラックボックスの敵攻撃に対する有効性を検討する。 本研究では,従来のReLUに基づく非線形性を局所的および確率的に競合する線形単位からなるブロックに置き換える。 各ネットワーク層の出力は、各ブロックにおける勝者サンプリングの結果に応じてスパース出力が得られる。 我々は,従来のPGDに基づく対人訓練の議論を取り入れ,対人ロバスト性を高めるために,変分ベイズ的枠組みを訓練と推論に用いている。 実験により得られたネットワークは,良性症例において非常に高い分類率を維持しつつ,強力な敵攻撃に対して最先端の堅牢性をもたらすことが示された。

This work explores the potency of stochastic competition-based activations, namely Stochastic Local Winner-Takes-All (LWTA), against powerful (gradient-based) white-box and black-box adversarial attacks; we especially focus on Adversarial Training settings. In our work, we replace the conventional ReLU-based nonlinearities with blocks comprising locally and stochastically competing linear units. The output of each network layer now yields a sparse output, depending on the outcome of winner sampling in each block. We rely on the Variational Bayesian framework for training and inference; we incorporate conventional PGD-based adversarial training arguments to increase the overall adversarial robustness. As we experimentally show, the arising networks yield state-of-the-art robustness against powerful adversarial attacks while retaining very high classification rate in the benign case.
翻訳日:2021-12-08 09:51:36 公開日:2021-12-05
# (参考訳) 密度進化から群相互作用のダイナミクスを学ぶ [全文訳有]

Learning Swarm Interaction Dynamics from Density Evolution ( http://arxiv.org/abs/2112.02675v1 )

ライセンス: CC BY 4.0
Christos Mavridis, Amoolya Tirumalai, John Baras(参考訳) 生物群や人工群集の協調運動を理解することの問題点を考察する。 本研究では,Swarmの密度を時間とともに観測し,相互作用するエージェントの協調法則を推定する学習手法を提案する。 本研究では,カッカー・スモール群集モデルに基づく対方向相互作用に基づく群集の動力学を記述し,群集の密度発展を平均場流体力学方程式の系に対する解として表現する。 積分微分方程式の平均場マクロ系をPDEの強化系として効率的に解けるように、ペアワイズ相互作用をモデル化するための新しいパラメトリック関数群を提案する。 最後に,Swarmの密度変化の時間的観測から相互作用するエージェントのダイナミクスを学習するために,拡張システムを反復最適化スキームに組み込む。 この研究の結果は、動物の群れの協調方法の研究、大規模なネットワークシステムのための新しい制御スキームの作成、および敵のドローン攻撃に対する防御機構の中心的な役割を担っている。

We consider the problem of understanding the coordinated movements of biological or artificial swarms. In this regard, we propose a learning scheme to estimate the coordination laws of the interacting agents from observations of the swarm's density over time. We describe the dynamics of the swarm based on pairwise interactions according to a Cucker-Smale flocking model, and express the swarm's density evolution as the solution to a system of mean-field hydrodynamic equations. We propose a new family of parametric functions to model the pairwise interactions, which allows for the mean-field macroscopic system of integro-differential equations to be efficiently solved as an augmented system of PDEs. Finally, we incorporate the augmented system in an iterative optimization scheme to learn the dynamics of the interacting agents from observations of the swarm's density evolution over time. The results of this work can offer an alternative approach to study how animal flocks coordinate, create new control schemes for large networked systems, and serve as a central part of defense mechanisms against adversarial drone attacks.
翻訳日:2021-12-08 09:42:25 公開日:2021-12-05
# (参考訳) オープン語彙脳波-手書き復号とゼロショット知覚分類 [全文訳有]

Open Vocabulary Electroencephalograp hy-To-Text Decoding and Zero-shot Sentiment Classification ( http://arxiv.org/abs/2112.02690v1 )

ライセンス: CC BY 4.0
Zhenhailong Wang, Heng Ji(参考訳) 最先端の脳テキストシステムは、ニューラルネットワークを使用して脳信号から直接言語を復号することに成功した。 しかし、現在のアプローチは、自然なコミュニケーションには程遠い小さな閉語彙に限られている。 さらに、高性能なアプローチのほとんどは、侵入デバイス(例えばECoG)からのデータを必要とする。 本稿では,自然読解課題における語彙的脳波(EEG)-テキスト列列列復号化とゼロショット文感性分類に問題を拡張する。 人間の脳は特別なテキストエンコーダとして機能し、事前学習された言語モデル(例えばbart)を活用した新しい枠組みを提案する。 脳波-テキストデコーディングで40.1%のBLEU-1スコア、ゼロショット脳波に基づく3次感情分類で55.6%のF1スコアを達成し、教師付きベースラインを著しく上回る。 さらに,提案モデルでは,様々な主題や情報源からのデータを扱うことが可能であり,十分なデータが得られれば,高性能なオープン語彙型脳テキストシステムの実現可能性を示す。

State-of-the-art brain-to-text systems have achieved great success in decoding language directly from brain signals using neural networks. However, current approaches are limited to small closed vocabularies which are far from enough for natural communication. In addition, most of the high-performing approaches require data from invasive devices (e.g., ECoG). In this paper, we extend the problem to open vocabulary Electroencephalograp hy(EEG)-To-Text Sequence-To-Sequence decoding and zero-shot sentence sentiment classification on natural reading tasks. We hypothesis that the human brain functions as a special text encoder and propose a novel framework leveraging pre-trained language models (e.g., BART). Our model achieves a 40.1% BLEU-1 score on EEG-To-Text decoding and a 55.6% F1 score on zero-shot EEG-based ternary sentiment classification, which significantly outperforms supervised baselines. Furthermore, we show that our proposed model can handle data from various subjects and sources, showing great potential for a high-performance open vocabulary brain-to-text system once sufficient data is available
翻訳日:2021-12-08 09:16:01 公開日:2021-12-05
# (参考訳) 深層強化学習における分散検出ベンチマーク [全文訳有]

Benchmark for Out-of-Distribution Detection in Deep Reinforcement Learning ( http://arxiv.org/abs/2112.02694v1 )

ライセンス: CC0 1.0
Aaqib Parvez Mohammed, Matias Valdenegro-Toro(参考訳) 強化学習(RL)ベースのソリューションは、ロボティクス、ヘルスケア、産業自動化など、さまざまな分野に採用されている。 たいていの焦点は、これらのソリューションがうまく機能するときに与えられるが、分散入力から提示されると失敗する。 RLポリシーは、ほとんどの機械学習モデルと同じ欠点を共有している。 RLの分布検出の外部は一般的に文献ではあまり取り上げられておらず、このタスクにはベンチマークの欠如がある。 本研究では,非視覚標準環境の物理パラメータを変更したり,視覚環境の状態観察を損なうことにより,強化学習環境におけるood検出手法を評価するベンチマークを提案する。 我々は、OODデータを生成するカスタムRL環境の生成方法について議論し、OOD検出タスクにおける3つの不確実性の評価を行う。 その結果,アンサンブル法はOOD検出性能に優れ,複数の環境にまたがる標準偏差が低いことがわかった。

Reinforcement Learning (RL) based solutions are being adopted in a variety of domains including robotics, health care and industrial automation. Most focus is given to when these solutions work well, but they fail when presented with out of distribution inputs. RL policies share the same faults as most machine learning models. Out of distribution detection for RL is generally not well covered in the literature, and there is a lack of benchmarks for this task. In this work we propose a benchmark to evaluate OOD detection methods in a Reinforcement Learning setting, by modifying the physical parameters of non-visual standard environments or corrupting the state observation for visual environments. We discuss ways to generate custom RL environments that can produce OOD data, and evaluate three uncertainty methods for the OOD detection task. Our results show that ensemble methods have the best OOD detection performance with a lower standard deviation across multiple environments.
翻訳日:2021-12-08 09:00:57 公開日:2021-12-05
# (参考訳) 継続的な学習における予防と知識伝達の達成 [全文訳有]

Achieving Forgetting Prevention and Knowledge Transfer in Continual Learning ( http://arxiv.org/abs/2112.02706v1 )

ライセンス: CC0 1.0
Zixuan Ke, Bing Liu, Nianzu Ma, Hu Xu, Lei Shu(参考訳) 連続学習(CL)は、破滅的忘れ(CF)の克服とタスク間の知識伝達(KT)の促進という2つの主要な目標を達成することを目的として、段階的に一連のタスクを学習する。 しかし、既存のほとんどの技術はCFの克服にのみ焦点を合わせており、KTを奨励するメカニズムがないため、KTではうまく機能しない。 CFとKTの両方に対処しようとする論文はいくつかあるが、我々の実験では、タスクが多くの共有知識を持っていない場合に深刻なCFに悩まされることが示されている。 別の観察では、現在のCL法は事前訓練されたモデルを使用しないが、そのようなモデルがタスクの終了性能を大幅に改善できることが示されている。 例えば、自然言語処理では、BERTのような事前訓練言語モデルを微調整することが最も効果的な手法の1つである。 しかし、CLの場合、このアプローチは深刻なCFに悩まされる。 興味深い疑問は、CLのために事前訓練されたモデルを最大限に活用する方法である。 本稿ではこれらの問題を解決するために,CTRと呼ばれる新しいモデルを提案する。 実験結果からCTRの有効性が示された。

Continual learning (CL) learns a sequence of tasks incrementally with the goal of achieving two main objectives: overcoming catastrophic forgetting (CF) and encouraging knowledge transfer (KT) across tasks. However, most existing techniques focus only on overcoming CF and have no mechanism to encourage KT, and thus do not do well in KT. Although several papers have tried to deal with both CF and KT, our experiments show that they suffer from serious CF when the tasks do not have much shared knowledge. Another observation is that most current CL methods do not use pre-trained models, but it has been shown that such models can significantly improve the end task performance. For example, in natural language processing, fine-tuning a BERT-like pre-trained language model is one of the most effective approaches. However, for CL, this approach suffers from serious CF. An interesting question is how to make the best use of pre-trained models for CL. This paper proposes a novel model called CTR to solve these problems. Our experimental results demonstrate the effectiveness of CTR
翻訳日:2021-12-08 08:45:04 公開日:2021-12-05
# (参考訳) CLASSIC:Aspect Sentiment Classification Tasksの継続的・コントラスト学習 [全文訳有]

CLASSIC: Continual and Contrastive Learning of Aspect Sentiment Classification Tasks ( http://arxiv.org/abs/2112.02714v1 )

ライセンス: CC0 1.0
Zixuan Ke, Bing Liu, Hu Xu, Lei Shu(参考訳) 本稿では、特定のcl設定におけるアスペクト感情分類(asc)タスクの連続学習(cl)をドメインインクリメンタル学習(dil)と呼ぶ。 各タスクは異なるドメインまたは製品から実行されます。 DIL設定は、テスト時にシステムがテストデータが属するタスク/ドメインを知る必要がないため、ASCに特に適している。 我々の知る限り、この設定はASCではこれまで研究されていない。 本稿ではCLASSICと呼ばれる新しいモデルを提案する。 重要な新規性は、タスク間の知識伝達と、古いタスクから新しいタスクへの知識蒸留の両方を可能にする対照的な連続的な学習方法である。 実験結果からCLASSICの有効性が示唆された。

This paper studies continual learning (CL) of a sequence of aspect sentiment classification(ASC) tasks in a particular CL setting called domain incremental learning (DIL). Each task is from a different domain or product. The DIL setting is particularly suited to ASC because in testing the system needs not know the task/domain to which the test data belongs. To our knowledge, this setting has not been studied before for ASC. This paper proposes a novel model called CLASSIC. The key novelty is a contrastive continual learning method that enables both knowledge transfer across tasks and knowledge distillation from old tasks to the new task, which eliminates the need for task ids in testing. Experimental results show the high effectiveness of CLASSIC.
翻訳日:2021-12-08 08:28:33 公開日:2021-12-05
# フェデレーション学習のためのイントリニシック勾配圧縮

Intrinisic Gradient Compression for Federated Learning ( http://arxiv.org/abs/2112.02656v1 )

ライセンス: Link先を確認
Luke Melas-Kyriazi, Franklyn Wang(参考訳) フェデレーション学習(federated learning)は、多くのクライアントがプライベートに保持されたデータ上で機械学習モデルを共同でトレーニングできる、急速に成長する研究分野である。 フェデレートされた学習を広く採用する上で最大の障壁の1つは、モデル更新をクライアントからクライアントに送信する通信コストである。 本稿では,本研究の目的は,そのパラメータ空間のサブスペース内でネットワークを最適化することであり,機械学習理論のコミュニティにおいて本質的次元として知られる概念である。 我々は,本質的次元の概念と勾配圧縮性の対応を用いて,本質的勾配圧縮アルゴリズムと呼ばれる低帯域幅最適化アルゴリズムの族を導出する。 具体的には、様々なフェデレーション設定で使用するために、様々なレベルのアップロードとダウンロード帯域幅を持つ3つのアルゴリズムと、その性能に関する理論的保証を示す。 最後に,最大10mのパラメータを含むモデルを用いた大規模フェデレーション学習実験において,現状の勾配圧縮法と比較して,アルゴリズムの性能が極めて高いことを示す。

Federated learning is a rapidly-growing area of research which enables a large number of clients to jointly train a machine learning model on privately-held data. One of the largest barriers to wider adoption of federated learning is the communication cost of sending model updates from and to the clients, which is accentuated by the fact that many of these devices are bandwidth-constraine d. In this paper, we aim to address this issue by optimizing networks within a subspace of their full parameter space, an idea known as intrinsic dimension in the machine learning theory community. We use a correspondence between the notion of intrinsic dimension and gradient compressibility to derive a family of low-bandwidth optimization algorithms, which we call intrinsic gradient compression algorithms. Specifically, we present three algorithms in this family with different levels of upload and download bandwidth for use in various federated settings, along with theoretical guarantees on their performance. Finally, in large-scale federated learning experiments with models containing up to 100M parameters, we show that our algorithms perform extremely well compared to current state-of-the-art gradient compression methods.
翻訳日:2021-12-07 18:31:50 公開日:2021-12-05
# ES-dRNN:短期負荷予測のためのハイブリッド指数平滑化と拡張繰り返しニューラルネットワークモデル

ES-dRNN: A Hybrid Exponential Smoothing and Dilated Recurrent Neural Network Model for Short-Term Load Forecasting ( http://arxiv.org/abs/2112.02663v1 )

ライセンス: Link先を確認
Slawek Smyl, Grzegorz Dudek, Pawe{\l} Pe{\l}ka(参考訳) 3つの季節パターンと非線形傾向を表現する複雑な時系列(TS)により,短期負荷予測(STLF)は困難である。 本稿では,複数の季節性に対処し,点予測と予測間隔(PI)の両方を生成するハイブリッド階層型ディープラーニングモデルを提案する。 指数的平滑化(es)とリカレントニューラルネットワーク(rnn)を組み合わせたものだ。 ESは個々のTSの主要コンポーネントを動的に抽出し、比較的小さなデータセットで操作する際に特に有用であるオンザフライのデセゾン化を可能にする。 多層RNNは、TSの短期的および長期的依存関係を効率的にモデル化するように設計された新しいタイプの拡張リカレントセルを備える。 内部TS表現の改善とモデルの性能向上のために、RNNはESパラメータとメインマッピング関数の両方を同時に学習し、入力を予測に変換する。 ヨーロッパ35カ国のSTLF問題に対して,古典的統計手法や機械学習(ML)アプローチなど,いくつかの基本手法との比較を行った。 実験により,複数の季節性および有意なランダム変動を含むTSの非線形確率予測問題を解くために,提案モデルが高い表現力を有することを示す。 実際、これは統計モデルと最先端のMLモデルの両方を精度で上回っている。

Short-term load forecasting (STLF) is challenging due to complex time series (TS) which express three seasonal patterns and a nonlinear trend. This paper proposes a novel hybrid hierarchical deep learning model that deals with multiple seasonality and produces both point forecasts and predictive intervals (PIs). It combines exponential smoothing (ES) and a recurrent neural network (RNN). ES extracts dynamically the main components of each individual TS and enables on-the-fly deseasonalization, which is particularly useful when operating on a relatively small data set. A multi-layer RNN is equipped with a new type of dilated recurrent cell designed to efficiently model both short and long-term dependencies in TS. To improve the internal TS representation and thus the model's performance, RNN learns simultaneously both the ES parameters and the main mapping function transforming inputs into forecasts. We compare our approach against several baseline methods, including classical statistical methods and machine learning (ML) approaches, on STLF problems for 35 European countries. The empirical study clearly shows that the proposed model has high expressive power to solve nonlinear stochastic forecasting problems with TS including multiple seasonality and significant random fluctuations. In fact, it outperforms both statistical and state-of-the-art ML models in terms of accuracy.
翻訳日:2021-12-07 18:31:31 公開日:2021-12-05
# ロバスト性を超えて:木に基づく分類器のレジリエンス検証

Beyond Robustness: Resilience Verification of Tree-Based Classifiers ( http://arxiv.org/abs/2112.02705v1 )

ライセンス: Link先を確認
Stefano Calzavara, Lorenzo Cazzaro, Claudio Lucchese, Federico Marcuzzi, Salvatore Orlando(参考訳) 本稿では,従来,機械学習モデルの性能評価に用いられてきたロバスト性指標について批判する。 堅牢性の限界を緩和するために,レジリエンスと呼ばれる新しい尺度を導入し,その検証に焦点をあてる。 特に,従来のロバスト性検証手法とデータ非依存の安定性解析を組み合わせることで,レジリエンスの検証方法について議論する。 次に,決定木と決定木アンサンブルに関する形式的データ独立安定性解析を導入し,公開データセットを実験的に評価し,レジリエンス検証に活用する。 その結果、レジリエンス検証は実用上有用かつ実現可能であり、標準およびロバストな決定木モデルのより信頼性の高いセキュリティ評価が得られた。

In this paper we criticize the robustness measure traditionally employed to assess the performance of machine learning models deployed in adversarial settings. To mitigate the limitations of robustness, we introduce a new measure called resilience and we focus on its verification. In particular, we discuss how resilience can be verified by combining a traditional robustness verification technique with a data-independent stability analysis, which identifies a subset of the feature space where the model does not change its predictions despite adversarial manipulations. We then introduce a formally sound data-independent stability analysis for decision trees and decision tree ensembles, which we experimentally assess on public datasets and we leverage for resilience verification. Our results show that resilience verification is useful and feasible in practice, yielding a more reliable security assessment of both standard and robust decision tree models.
翻訳日:2021-12-07 18:31:12 公開日:2021-12-05
# 球面上の分布保存データを用いた半径基底関数近似

Radial Basis Function Approximation with Distributively Stored Data on Spheres ( http://arxiv.org/abs/2112.02499v1 )

ライセンス: Link先を確認
Han Feng, Shao-Bo Lin, Ding-Xuan Zhou(参考訳) 本稿では,多数のローカルサーバに分散して共有できない球面データに対処するために,球面ラジアル基底関数と球面二次規則に基づく分散重み付き正規化最小二乗アルゴリズム(DWRLS)を提案する。 新しい積分演算子法の開発により、dwrlsの最適近似率の導出に成功し、理論上、dwrlsは重み付き正規化最小二乗法を十分大きなマシン上で全データで実行するのと同じように動作することを理論的に証明する。 この興味深い発見は、分散学習が、すべてのローカルサーバがすべてのデータにアクセスできないにもかかわらず、分散的に格納された球形データの潜在的価値を十分に活用できることを示している。

This paper proposes a distributed weighted regularized least squares algorithm (DWRLS) based on spherical radial basis functions and spherical quadrature rules to tackle spherical data that are stored across numerous local servers and cannot be shared with each other. Via developing a novel integral operator approach, we succeed in deriving optimal approximation rates for DWRLS and theoretically demonstrate that DWRLS performs similarly as running a weighted regularized least squares algorithm with the whole data on a large enough machine. This interesting finding implies that distributed learning is capable of sufficiently exploiting potential values of distributively stored spherical data, even though every local server cannot access all the data.
翻訳日:2021-12-07 18:25:55 公開日:2021-12-05
# 確率的微細化による劣化

Deblurring via Stochastic Refinement ( http://arxiv.org/abs/2112.02475v1 )

ライセンス: Link先を確認
Jay Whang, Mauricio Delbracio, Hossein Talebi, Chitwan Saharia, Alexandros G. Dimakis, Peyman Milanfar(参考訳) 画像デブロワーリングは、与えられた入力画像に対する複数の可視解に対して不適切な問題である。 しかし、既存のほとんどの手法はクリーン画像の決定論的推定を行い、画素レベルの歪みを最小限に抑えるように訓練されている。 これらの指標は人間の知覚と相関が低く、しばしば非現実的な再構築につながることが知られている。 本稿では,条件拡散モデルに基づくブラインドデブラリングの代替フレームワークを提案する。 既存の手法とは異なり、決定論的予測器の出力を洗練し、与えられた入力に対して多種多様な可塑性再構成を生成できる確率的サンプリング器を訓練する。 これにより、複数の標準ベンチマークで既存の最先端メソッドよりも知覚品質が大幅に向上する。 予測と再定義のアプローチは、一般的な拡散モデルよりもずっと効率的なサンプリングを可能にします。 慎重に調整されたネットワークアーキテクチャと推論手法を組み合わせることで,PSNRなどの歪み指標の点で競合する。 以上の結果から, 拡散に基づくデブラリング手法の利点が明らかであり, 単一決定論的再構成法を広く採用する戦略に挑戦した。

Image deblurring is an ill-posed problem with multiple plausible solutions for a given input image. However, most existing methods produce a deterministic estimate of the clean image and are trained to minimize pixel-level distortion. These metrics are known to be poorly correlated with human perception, and often lead to unrealistic reconstructions. We present an alternative framework for blind deblurring based on conditional diffusion models. Unlike existing techniques, we train a stochastic sampler that refines the output of a deterministic predictor and is capable of producing a diverse set of plausible reconstructions for a given input. This leads to a significant improvement in perceptual quality over existing state-of-the-art methods across multiple standard benchmarks. Our predict-and-refine approach also enables much more efficient sampling compared to typical diffusion models. Combined with a carefully tuned network architecture and inference procedure, our method is competitive in terms of distortion metrics such as PSNR. These results show clear benefits of our diffusion-based method for deblurring and challenge the widely used strategy of producing a single, deterministic reconstruction.
翻訳日:2021-12-07 18:04:56 公開日:2021-12-05
# 半監督医用画像分割のための不確かさ誘導型相互整合学習

Uncertainty-Guided Mutual Consistency Learning for Semi-Supervised Medical Image Segmentation ( http://arxiv.org/abs/2112.02508v1 )

ライセンス: Link先を確認
Yichi Zhang, Qingcheng Liao, Rushi Jiao, Jicong Zhang(参考訳) 医用画像のセグメンテーションは多くの臨床アプローチにおいて基本的かつ重要なステップである。 半教師付き学習は、専門家によるアノテーションの取得の重い負担を軽減し、取得し易いラベル付きデータの利点を生かし、医用画像分割タスクに広く応用されてきた。 一貫性学習は分布の異なる予測の不変性を強制することで有効な手法であることが証明されているが、既存の手法では、ラベルのないデータから領域レベルの形状制約と境界レベルの距離情報をフル活用することはできない。 本稿では,タスクレベルの正規化による自己認識とクロスタスク一貫性学習のための最新の予測からタスク内一貫性学習を統合し,幾何学的形状情報を活用することにより,ラベルなしデータを有効に活用する,新たな不確実性誘導相互一貫性学習フレームワークを提案する。 このフレームワークはモデルの推定セグメンテーションの不確実性によって導かれ、一貫性学習のための比較的特定の予測を選択し、ラベルのないデータからより信頼性の高い情報を効果的に活用する。 提案手法を,左房分節(LA)データセットと脳腫瘍分節(BraTS)データセットの2つの公開ベンチマークデータセットに対して広範囲に検証した。 実験により, ラベルのないデータを活用し, 既存の半教師付きセグメンテーション法より優れた性能が得られることを示した。

Medical image segmentation is a fundamental and critical step in many clinical approaches. Semi-supervised learning has been widely applied to medical image segmentation tasks since it alleviates the heavy burden of acquiring expert-examined annotations and takes the advantage of unlabeled data which is much easier to acquire. Although consistency learning has been proven to be an effective approach by enforcing an invariance of predictions under different distributions, existing approaches cannot make full use of region-level shape constraint and boundary-level distance information from unlabeled data. In this paper, we propose a novel uncertainty-guided mutual consistency learning framework to effectively exploit unlabeled data by integrating intra-task consistency learning from up-to-date predictions for self-ensembling and cross-task consistency learning from task-level regularization to exploit geometric shape information. The framework is guided by the estimated segmentation uncertainty of models to select out relatively certain predictions for consistency learning, so as to effectively exploit more reliable information from unlabeled data. We extensively validate our proposed method on two publicly available benchmark datasets: Left Atrium Segmentation (LA) dataset and Brain Tumor Segmentation (BraTS) dataset. Experimental results demonstrate that our method achieves performance gains by leveraging unlabeled data and outperforms existing semi-supervised segmentation methods.
翻訳日:2021-12-07 18:04:40 公開日:2021-12-05
# 乱流の生成モデル

Generative Modeling of Turbulence ( http://arxiv.org/abs/2112.02548v1 )

ライセンス: Link先を確認
Claudia Drygala, Benjamin Winhart, Francesca di Mare and Hanno Gottschalk(参考訳) 本稿では,gan(generative adversarial networks)を用いた乱流の合成モデリングを数学的に確立した手法を提案する。 エルゴディディティの観点からのカオス的決定論的システムの解析に基づいて、GANが実際にカオスシステムの不変測度を形成する状態スナップショットのサンプリングを学べるという数学的証明を概説する。 この解析に基づいて,lorenzアトラクタから始まり,ganによる乱流のモデル化に続行するカオス系の階層について検討した。 トレーニングデータとして,大渦シミュレーション(LES)から得られる速度変動の場を用いる。 2つの構造を詳細に検討し, 深部・畳み込み型GAN (DCGAN) を用いてシリンダーまわりの乱流を合成する。 さらに, ステータ前方の回転ウェイク位置を条件付きDCGANに対して, pix2pixHDアーキテクチャを用いて低圧タービンステータまわりの流れをシミュレートする。 敵対的トレーニングの設定と特定のganアーキテクチャの使用の効果について説明する。 その結果,GANは適度なトレーニング日数に基づいて,技術的に困難な流れ問題における乱流のシミュレーションに有効であることを示す。 古典的数値法, 特にLESと比較して, GANトレーニングと推定時間は著しく低下するが, 高分解能の乱流は継続する。

We present a mathematically well founded approach for the synthetic modeling of turbulent flows using generative adversarial networks (GAN). Based on the analysis of chaotic, deterministic systems in terms of ergodicity, we outline a mathematical proof that GAN can actually learn to sample state snapshots form the invariant measure of the chaotic system. Based on this analysis, we study a hierarchy of chaotic systems starting with the Lorenz attractor and then carry on to the modeling of turbulent flows with GAN. As training data, we use fields of velocity fluctuations obtained from large eddy simulations (LES). Two architectures are investigated in detail: we use a deep, convolutional GAN (DCGAN) to synthesise the turbulent flow around a cylinder. We furthermore simulate the flow around a low pressure turbine stator using the pix2pixHD architecture for a conditional DCGAN being conditioned on the position of a rotating wake in front of the stator. The settings of adversarial training and the effects of using specific GAN architectures are explained. We thereby show that GAN are efficient in simulating turbulence in technically challenging flow problems on the basis of a moderate amount of training date. GAN training and inference times significantly fall short when compared with classical numerical methods, in particular LES, while still providing turbulent flows in high resolution.
翻訳日:2021-12-07 18:04:15 公開日:2021-12-05
# 意味記憶によるモバイルcnn推論の促進

Boosting Mobile CNN Inference through Semantic Memory ( http://arxiv.org/abs/2112.02644v1 )

ライセンス: Link先を確認
Yun Li, Chen Zhang, Shihao Han, Li Lyna Zhang, Baoqun Yin, Yunxin Liu, Mengwei Xu(参考訳) 人間の脳は、活性化ニューロンの高速なメモリエンコーディングとアクセス手順を通じて、繰り返し提示された物体の視覚的認識を高速化することが知られている。 デバイス上でのCNN推論を改善するために,このような機能をSMTMというセマンティックメモリ設計に借用し,蒸留する。 SMTM employs a hierarchical memory architecture to leverage the long-tail distribution of objects of interest, and further incorporates several novel techniques to put it into effects: (1) it encodes high-dimensional feature maps into low-dimensional, semantic vectors for low-cost yet accurate cache and lookup; (2) it uses a novel metric in determining the exit timing considering different layers' inherent characteristics; (3) it adaptively adjusts the cache size and semantic vectors to fit the scene dynamics. SMTMはコモディティCNNエンジンでプロトタイプされ、モバイルCPUとGPUの両方で動作する。 大規模なデータセットとモデルに対する大規模な実験により、SMTMは標準アプローチ(2Xまで)や以前のキャッシュ設計(1.5Xまで)よりもモデル推論を大幅に高速化し、精度の低下を許容できることが示された。

Human brains are known to be capable of speeding up visual recognition of repeatedly presented objects through faster memory encoding and accessing procedures on activated neurons. For the first time, we borrow and distill such a capability into a semantic memory design, namely SMTM, to improve on-device CNN inference. SMTM employs a hierarchical memory architecture to leverage the long-tail distribution of objects of interest, and further incorporates several novel techniques to put it into effects: (1) it encodes high-dimensional feature maps into low-dimensional, semantic vectors for low-cost yet accurate cache and lookup; (2) it uses a novel metric in determining the exit timing considering different layers' inherent characteristics; (3) it adaptively adjusts the cache size and semantic vectors to fit the scene dynamics. SMTM is prototyped on commodity CNN engine and runs on both mobile CPU and GPU. Extensive experiments on large-scale datasets and models show that SMTM can significantly speed up the model inference over standard approach (up to 2X) and prior cache designs (up to 1.5X), with acceptable accuracy loss.
翻訳日:2021-12-07 18:03:55 公開日:2021-12-05
# ユーザモデリングのための複数関心と細粒度ネットワーク

Multiple Interest and Fine Granularity Network for User Modeling ( http://arxiv.org/abs/2112.02591v1 )

ライセンス: Link先を確認
Jiaxuan Xie, Jianxiong Wei, Qingsong Hua, Yu Zhang(参考訳) ユーザモデリングは、顧客体験とビジネス収益の両方の観点から、マッチングステージとランキングステージの両方において、産業向けレコメンデーションシステムにおいて基本的な役割を果たす。 How to extract users' multiple interests effectively from their historical behavior sequences to improve the relevance and personalization of the recommend results remains an open problem for user modeling.Most existing deep-learning based approaches exploit item-ids and category-ids but neglect fine-grained features like color and mate-rial, which hinders modeling the fine granularity of users' interests.In the paper, we present Multiple interest and Fine granularity Net-work (MFN), which tackle users' multiple and fine-grained interests and construct the model from both the similarity relationship and the combination relationship among the users' multiple interests.Specifical ly, for modeling the similarity relationship, we leverage two sets of embeddings, where one is the fixed embedding from pre-trained models (e.g. Glove) to give the attention weights and the other is trainable embedding to be trained with MFN together.For modeling the combination relationship, self-attentive layers are exploited to build the higher order combinations of different interest representations. ネットワーク構築において,ユーザの履歴行動シーケンスから複数の興味表現をキャプチャし,補助的損失を利用して関心表現の区別を高めるために,注意機構を用いた関心抽出モジュールを設計する。 次に、階層ネットワークを適用して、異なる粒度の複数の関心ベクトルと対象アイテムとの注意関係をモデル化する。 我々は、MFNonをパブリックデータセットとインダストリアルデータセットの両方で評価する。 実験の結果,提案するmfnは他の表現法よりも優れた性能が得られることがわかった。

User modeling plays a fundamental role in industrial recommender systems, either in the matching stage and the ranking stage, in terms of both the customer experience and business revenue. How to extract users' multiple interests effectively from their historical behavior sequences to improve the relevance and personalization of the recommend results remains an open problem for user modeling.Most existing deep-learning based approaches exploit item-ids and category-ids but neglect fine-grained features like color and mate-rial, which hinders modeling the fine granularity of users' interests.In the paper, we present Multiple interest and Fine granularity Net-work (MFN), which tackle users' multiple and fine-grained interests and construct the model from both the similarity relationship and the combination relationship among the users' multiple interests.Specifical ly, for modeling the similarity relationship, we leverage two sets of embeddings, where one is the fixed embedding from pre-trained models (e.g. Glove) to give the attention weights and the other is trainable embedding to be trained with MFN together.For modeling the combination relationship, self-attentive layers are exploited to build the higher order combinations of different interest representations. In the construction of network, we design an interest-extract module using attention mechanism to capture multiple interest representations from user historical behavior sequences and leverage an auxiliary loss to boost the distinction of the interest representations. Then a hierarchical network is applied to model the attention relation between the multiple interest vectors of different granularities and the target item. We evaluate MFNon both public and industrial datasets. The experimental results demonstrate that the proposed MFN achieves superior performance than other existed representing methods.
翻訳日:2021-12-07 17:57:48 公開日:2021-12-05
# 経済文脈における伝統的な感情概念からのアプローチと回避

Differentiating Approach and Avoidance from Traditional Notions of Sentiment in Economic Contexts ( http://arxiv.org/abs/2112.02607v1 )

ライセンス: Link先を確認
Jacob Turton, Ali Kabiri, David Tuckett, Robert Elliott Smith, David P. Vinson(参考訳) 経済意思決定における感情の役割に対する関心が高まっている。 しかし、ほとんどの研究は正価と負価に重点を置いている。 信念ナラティブ理論(CNT)は、現実世界の意思決定の中心にアプローチと回避の感情(行動を促進する)を配置し、金融市場の感情を捉えた方がよいと主張している。 この研究は、心理学と機械学習を組み合わせることで、基本的な意味のレベルでポジティブな感情とネガティブな感情からアプローチと回避を区別する新しい技術を導入している。 これは、以前テキストデータでこれらの概念をキャプチャするために構築されたワードリストを、広範囲のセマンティック機能で比較することで実現している。 その結果、特に回避は、評価的・認知的・行動指向の感情の別種として明確に定義されている。 これらの特徴に従って回避ワードリストを精錬することでマクロ経済モデルが改善され、回避の本質を捉え、現実世界の経済意思決定を推進する上で重要な役割を果たすことを示唆する。

There is growing interest in the role of sentiment in economic decision-making. However, most research on the subject has focused on positive and negative valence. Conviction Narrative Theory (CNT) places Approach and Avoidance sentiment (that which drives action) at the heart of real-world decision-making, and argues that it better captures emotion in financial markets. This research, bringing together psychology and machine learning, introduces new techniques to differentiate Approach and Avoidance from positive and negative sentiment on a fundamental level of meaning. It does this by comparing word-lists, previously constructed to capture these concepts in text data, across a large range of semantic features. The results demonstrate that Avoidance in particular is well defined as a separate type of emotion, which is evaluative/cognitive and action-orientated in nature. Refining the Avoidance word-list according to these features improves macroeconomic models, suggesting that they capture the essence of Avoidance and that it plays a crucial role in driving real-world economic decision-making.
翻訳日:2021-12-07 17:32:03 公開日:2021-12-05
# リニア・アレンジメント・ライブラリー。 構文依存構造研究のための新しいツール

The Linear Arrangement Library. A new tool for research on syntactic dependency structures ( http://arxiv.org/abs/2112.02512v1 )

ライセンス: Link先を確認
Llu\'is Alemany-Puig and Juan Luis Esteban and Ramon Ferrer-i-Cancho(参考訳) 量的依存構文の新しい成長分野は、依存構文と量的言語学の交差点に現れた。 この分野における主な関心事は、構文的依存構造の統計的パターンである。 木バンクにグループ化されたこれらの構造は、これらとその関連分野の統計分析の源泉であり、長年にわたって考案されてきた数十のスコアは、パターンを検索し、他の種類の分析を行うための新しい産業のツールである。 このようなメトリクスの多さと複雑さの増加は、そのような分析に使用されるプログラムのソースコードを共有する必要がある。 しかし、そのようなコードはしばしば科学界と共有されておらず、未知の基準に従ってテストされる。 本稿では,特に経験の浅いプログラマのニーズに応える,新しいオープンソースツールであるリニアアレンジメントライブラリ(lal)を提案する。 このツールは、単一の構文依存構造、ツリーバンク、ツリーバンクのコレクションに関するこれらのメトリクスの計算を可能にします。 LALは効率的で使いやすく(あらゆるレベルのプログラミング専門知識のニーズを満たしつつも)、信頼性(徹底的なテストへの依存)、さまざまな伝統、地理的領域、研究分野からの研究を統合するように設計されている。

The new and growing field of Quantitative Dependency Syntax has emerged at the crossroads between Dependency Syntax and Quantitative Linguistics. One of the main concerns in this field is the statistical patterns of syntactic dependency structures. These structures, grouped in treebanks, are the source for statistical analyses in these and related areas; dozens of scores devised over the years are the tools of a new industry to search for patterns and perform other sorts of analyses. The plethora of such metrics and their increasing complexity require sharing the source code of the programs used to perform such analyses. However, such code is not often shared with the scientific community or is tested following unknown standards. Here we present a new open-source tool, the Linear Arrangement Library (LAL), which caters to the needs of, especially, inexperienced programmers. This tool enables the calculation of these metrics on single syntactic dependency structures, treebanks, and collection of treebanks, grounded on ease of use and yet with great flexibility. LAL has been designed to be efficient, easy to use (while satisfying the needs of all levels of programming expertise), reliable (thanks to thorough testing), and to unite research from different traditions, geographic areas, and research fields.
翻訳日:2021-12-07 17:08:27 公開日:2021-12-05
# 語彙透かしを用いた言語生成apiの知的財産保護

Protecting Intellectual Property of Language Generation APIs with Lexical Watermark ( http://arxiv.org/abs/2112.02701v1 )

ライセンス: Link先を確認
Xuanli He, Qiongkai Xu, Lingjuan Lyu, Fangzhao Wu, Chenguang Wang(参考訳) 現在、機械翻訳、文書要約、画像キャプションなど、自然言語生成(NLG)のブレークスルーにより、NLGモデルはクラウドAPIにカプセル化され、世界中で50億人以上の人々に提供され、1日に10億以上のワード世代を処理する。 したがって、NLG APIは、すでに多くの商用企業において重要な収益源となっている。 金融・知的投資のかなりの額のため、サービス提供者は、持続可能な市場成長を促進するために、従量制の政策を採用する。 しかし、最近の研究によると、クラウドプラットフォームは、被害者サービスの機能性と実用性を模倣し、クラウドAPIの知的財産権(IP)を侵害することを目的とした、モデル抽出攻撃による金銭的損失に悩まされている。 この作業は、NLG APIのIPを保護することを目的としており、被害者のNLG APIからウォーターマークされたレスポンスを利用した攻撃者を特定する。 しかし、既存の透かし技術のほとんどは、NLG APIのIP保護には直接対応できない。 このギャップを埋めるために、まず、元の出力に語彙修正を行うことにより、テキスト生成APIのための新しい透かし方法を提案する。 競合するベースラインと比較すると,本手法は,意味的損失が少なく,p値の同定性能が向上する。 さらに、私たちの透かしはベースラインよりも人間にとって理解しやすく直感的です。 最後に,本手法は異なる領域の問合せにも適用可能であることを示し,10 %以下の透かしサンプルを含むコーパスを混合して訓練した攻撃者に対して有効であることを示す。

Nowadays, due to the breakthrough in natural language generation (NLG), including machine translation, document summarization, image captioning, etc NLG models have been encapsulated in cloud APIs to serve over half a billion people worldwide and process over one hundred billion word generations per day. Thus, NLG APIs have already become essential profitable services in many commercial companies. Due to the substantial financial and intellectual investments, service providers adopt a pay-as-you-use policy to promote sustainable market growth. However, recent works have shown that cloud platforms suffer from financial losses imposed by model extraction attacks, which aim to imitate the functionality and utility of the victim services, thus violating the intellectual property (IP) of cloud APIs. This work targets at protecting IP of NLG APIs by identifying the attackers who have utilized watermarked responses from the victim NLG APIs. However, most existing watermarking techniques are not directly amenable for IP protection of NLG APIs. To bridge this gap, we first present a novel watermarking method for text generation APIs by conducting lexical modification to the original outputs. Compared with the competitive baselines, our watermark approach achieves better identifiable performance in terms of p-value, with fewer semantic losses. In addition, our watermarks are more understandable and intuitive to humans than the baselines. Finally, the empirical studies show our approach is also applicable to queries from different domains, and is effective on the attacker trained on a mixture of the corpus which includes less than 10\% watermarked samples.
翻訳日:2021-12-07 17:08:07 公開日:2021-12-05
# グラフ表現学習のための試行バンドル埋め込み

Trivial bundle embeddings for learning graph representations ( http://arxiv.org/abs/2112.02531v1 )

ライセンス: Link先を確認
Zheng Xie, Xiaojing Zuo, Yiping Song(参考訳) 実世界のネットワークを組み込むことは、潜在するジオメトリの特定方法が明確ではないため、課題がある。 スケールフリーネットワークのようないくつかの異種ネットワークをユークリッド空間に埋め込むことで歪みが生じることが示されている。 スケールフリーなネットワークを双曲空間に埋め込むことは、エキサイティングな代替手段であるが、双曲的でない潜在幾何学的ネットワークを埋め込む際に歪みを引き起こす。 本稿では,GCNの表現性と自明なバンドルを併用した帰納的モデルを提案し,ノード特徴の有無に関わらずネットワークの帰納的ノード表現を学習する。 自明な束はファイバー束の単純な場合であり、その基底空間とファイバーの積空間を全世界的に成す空間である。 基底空間の座標とファイバーの座標は、エッジを生成する際の分解因子や分解因子を表現するために用いられる。 したがって、モデルにはこれらの要素を表現できる埋め込みを学習する能力がある。 実際には、ユークリッドや双曲GCNと比較してリンク予測とノード分類の誤差を低減する。

Embedding real-world networks presents challenges because it is not clear how to identify their latent geometries. Embedding some disassortative networks, such as scale-free networks, to the Euclidean space has been shown to incur distortions. Embedding scale-free networks to hyperbolic spaces offer an exciting alternative but incurs distortions when embedding assortative networks with latent geometries not hyperbolic. We propose an inductive model that leverages both the expressiveness of GCNs and trivial bundle to learn inductive node representations for networks with or without node features. A trivial bundle is a simple case of fiber bundles,a space that is globally a product space of its base space and fiber. The coordinates of base space and those of fiber can be used to express the assortative and disassortative factors in generating edges. Therefore, the model has the ability to learn embeddings that can express those factors. In practice, it reduces errors for link prediction and node classification when compared to the Euclidean and hyperbolic GCNs.
翻訳日:2021-12-07 17:03:54 公開日:2021-12-05
# ガウス過程学習によるリアルタイム外科的スキル評価

Real-time Informative Surgical Skill Assessment with Gaussian Process Learning ( http://arxiv.org/abs/2112.02598v1 )

ライセンス: Link先を確認
Yangming Li, Randall Bly, Sarah Akkina, Rajeev C. Saxena, Ian Humphreys, Mark Whipple, Kris Moe, Blake Hannaford(参考訳) 内視鏡下副鼻腔, 肩甲骨底部縫合術(ESSBSs)は, 外科的訓練の有効性の向上, 外科的手術のスキルの再評価, 手術室における外科的外傷の減少, 合併症率の低下など, 難易度が高く, 潜在的に危険な手術方法である。 手術手順の複雑化,手術スタイルの変化,新しい外科技の急速な発展などにより,外科的技能評価は依然として困難な課題である。 本稿では,新しいガウス過程学習に基づくessbssのためのヒューリスティック自動客観的手術スキル評価法を提案する。 古典的外科的技能評価アルゴリズムの違い, 提案手法 1)特定の外科的作業や統計を用いてリアルタイムの技能を評価する代わりに,手術器相対運動の運動特性を利用する。 2) 要約スコアの代わりに,情報的フィードバックを提供する。 3) 固定データセットに依存するのではなく,新たなデータから段階的に学習する能力を持つ。 提案手法は,計測器の動きを内視鏡座標に投影し,データ次元を減少させる。 次に、投影されたデータの運動的特徴を抽出し、外科的スキルレベルとガウス過程学習技術との関係を学習する。 提案法は, 完全内視鏡的頭蓋底と陰洞手術で検証した。 これらの手術は病理が異なり、治療が異なり、複雑度が異なる。 実験の結果,本手法は術式全体の予測精度が100\%,実時間予測精度が90\%に達した。

Endoscopic Sinus and Skull Base Surgeries (ESSBSs) is a challenging and potentially dangerous surgical procedure, and objective skill assessment is the key components to improve the effectiveness of surgical training, to re-validate surgeons' skills, and to decrease surgical trauma and the complication rate in operating rooms. Because of the complexity of surgical procedures, the variation of operation styles, and the fast development of new surgical skills, the surgical skill assessment remains a challenging problem. This work presents a novel Gaussian Process Learning-based heuristic automatic objective surgical skill assessment method for ESSBSs. Different with classical surgical skill assessment algorithms, the proposed method 1) utilizes the kinematic features in surgical instrument relative movements, instead of using specific surgical tasks or the statistics to assess skills in real-time; 2) provide informative feedback, instead of a summative scores; 3) has the ability to incrementally learn from new data, instead of depending on a fixed dataset. The proposed method projects the instrument movements into the endoscope coordinate to reduce the data dimensionality. It then extracts the kinematic features of the projected data and learns the relationship between surgical skill levels and the features with the Gaussian Process learning technique. The proposed method was verified in full endoscopic skull base and sinus surgeries on cadavers. These surgeries have different pathology, requires different treatment and has different complexities. The experimental results show that the proposed method reaches 100\% prediction precision for complete surgical procedures and 90\% precision for real-time prediction assessment.
翻訳日:2021-12-07 17:03:36 公開日:2021-12-05
# クレジットカード不正検出のためのアンサンブルと混合学習技術

Ensemble and Mixed Learning Techniques for Credit Card Fraud Detection ( http://arxiv.org/abs/2112.02627v1 )

ライセンス: Link先を確認
Daniel H. M. de Souza and Claudio J. Bordin Jr(参考訳) スプリアスクレジットカード取引は財務損失の重要な源であり、正確な不正検出アルゴリズムの開発を促している。 本稿では,このような目的のために機械学習戦略を用いる。 まず,訓練前のk-means前処理を用いた混合学習手法を目の前の問題に適用する。 次に、OR-logicアルゴリズムの集約を用いて検出率を向上させるための適応型検出器アンサンブル手法を提案する。 次に,実世界の取引データを用いた数値シミュレーションにおいて,両戦略を段階的に展開する。 シミュレーションの結果,提案手法は計算コストを低減し,最先端技術に関する性能を向上した。

Spurious credit card transactions are a significant source of financial losses and urge the development of accurate fraud detection algorithms. In this paper, we use machine learning strategies for such an aim. First, we apply a mixed learning technique that uses K-means preprocessing before trained classification to the problem at hand. Next, we introduce an adapted detector ensemble technique that uses OR-logic algorithm aggregation to enhance the detection rate. Then, both strategies are deployed in tandem in numerical simulations using real-world transactions data. We observed from simulation results that the proposed methods diminished computational cost and enhanced performance concerning state-of-the-art techniques.
翻訳日:2021-12-07 17:03:11 公開日:2021-12-05
# 人工数学的知能の文脈におけるトポロジカルグループ表記の認知による生成

Artificial Cognitively-inspired Generation of the Notion of Topological Group in the Context of Artificial Mathematical Intelligence ( http://arxiv.org/abs/2112.02457v1 )

ライセンス: Link先を確認
Danny A. J. Gomez-Ramirez, Yoe A. Herrera-Jaramillo and Florian Geismann(参考訳) 人工数学知能の研究プログラムにおいて,概念計算の新しい計算パラダイムが導入された。 位相群の基本数学的概念に対する明示的な人工生成(あるいは概念計算)を提供する。 具体的には、トポロジーと抽象代数学に属する2つの基本概念から始め、共通代数仕様言語(CASL)で再帰的に形式的な仕様を記述する。 そのような概念空間間の概念ブレンディングの概念は、heterogeneous Tool Set (HETS) で計算的に実現することができる。 トポロジカル群の基本概念は、連続函数と数学的群の概念(最小の集合理論条件で記述される)から始まる概念的ブレンディングと概念的同定に基づく3つの異なる人工的仕様によって明確に生成される。 これは、人工数学知能の第3柱のさらなるヒューリスティックな証拠を構成する。

The new computational paradigm of conceptual computation has been introduced in the research program of Artificial Mathematical Intelligence. We provide the explicit artificial generation (or conceptual computation) for the fundamental mathematical notion of topological groups. Specifically, we start with two basic notions belonging to topology and abstract algebra, and we describe recursively formal specifications in the Common Algebraic Specification Language (CASL). The notion of conceptual blending between such conceptual spaces can be materialized computationally in the Heterogeneous Tool Set (HETS). The fundamental notion of topological groups is explicitly generated through three different artificial specifications based on conceptual blending and conceptual identification, starting with the concepts of continuous functions and mathematical groups (described with minimal set-theoretical conditions). This constitutes in additional heuristic evidence for the third pillar of Artificial Mathematical Intelligence.
翻訳日:2021-12-07 16:44:49 公開日:2021-12-05
# 複数のエージェントに対する意図認識

Intention Recognition for Multiple Agents ( http://arxiv.org/abs/2112.02513v1 )

ライセンス: Link先を確認
Zhang Zhang, Yifeng Zeng, Yingke Chen(参考訳) 意図認識はマルチエージェントシステムにおける協調を促進する重要なステップである。 既存の研究は主に単一エージェント環境での意図認識に重点を置いており、認識プロセスではベイズネットワークなどの記述モデルを使用している。 本稿では,計画実行において意図が隠されているモデルエージェントの行動に規範的アプローチを適用する。 行動モデルにランドマークを導入することで,複数のエージェントの共通の意図を特定するための情報的特徴を高める。 さらに,計画中の行動系列のみに注目してモデルを洗練し,意図を識別・比較するための軽量モデルを提供する。 新しいモデルは、エージェントの相互作用に見られる部分的なプランに対するエージェントの共通の意図をグループ化する単純なアプローチを提供する。 サポートに実験結果を提供する。

Intention recognition is an important step to facilitate collaboration in multi-agent systems. Existing work mainly focuses on intention recognition in a single-agent setting and uses a descriptive model, e.g. Bayesian networks, in the recognition process. In this paper, we resort to a prescriptive approach to model agents' behaviour where which their intentions are hidden in implementing their plans. We introduce landmarks into the behavioural model therefore enhancing informative features for identifying common intentions for multiple agents. We further refine the model by focusing only action sequences in their plan and provide a light model for identifying and comparing their intentions. The new models provide a simple approach of grouping agents' common intentions upon partial plans observed in agents' interactions. We provide experimental results in support.
翻訳日:2021-12-07 16:44:35 公開日:2021-12-05
# SSAGCN:歩行者軌道予測のためのソーシャルソフトアテンショングラフ畳み込みネットワーク

SSAGCN: Social Soft Attention Graph Convolution Network for Pedestrian Trajectory Prediction ( http://arxiv.org/abs/2112.02459v1 )

ライセンス: Link先を確認
Pei Lv, Wentong Wang, Yunxin Wang, Yuzhen Zhang, Mingliang Xu and Changsheng Xu(参考訳) 歩行者追跡予測は、近年研究のホットスポットとなっている自動運転の重要な技術である。 従来の方法は、主に歩行者の位置関係に依存し、社会的相互作用をモデル化するが、現実の状況では複雑なケースを表現するには不十分である。 さらに、既存の作業の多くは、通常、シーンインタラクションモジュールを独立したブランチとして導入し、軌道予測の合理性を損なうような社会的相互作用とシーンインタラクションを同時に実行するのではなく、軌道生成のプロセスにソーシャルインタラクション機能を組み込む。 本稿では,歩行者間のソーシャルインタラクションと歩行者と環境間のシーンインタラクションを同時に扱うことを目的とした,ソーシャル・ソフト・アテンション・グラフ・コンボリューション・ネットワーク(SSAGCN)という新たな予測モデルを提案する。 より詳しくは, 歩行者間の相互作用をモデル化する場合に, 歩行者間の相互作用要因を完全に考慮した, 新たな‘emph{social soft attention function’を提案する。 そして、様々な状況下で異なる要因に基づいて、エージェント周辺の歩行者の影響を区別することができる。 物理的インタラクションには,新たな「emph{sequential scene sharing mechanism}」を提案する。 シーンが各時点のエージェントに与える影響は,社会的なソフトアテンションを通じて他のエージェントと共有することができるため,空間的,時間的両面においてシーンの影響が拡大される。 これらの改良の助けを借りて,社会的,物理的に許容できる予測軌跡を得ることに成功した。 公開データセットの実験は、SAGCNの有効性を証明し、最先端の結果を得た。

Pedestrian trajectory prediction is an important technique of autonomous driving, which has become a research hot-spot in recent years. Previous methods mainly rely on the position relationship of pedestrians to model social interaction, which is obviously not enough to represent the complex cases in real situations. In addition, most of existing work usually introduce the scene interaction module as an independent branch and embed the social interaction features in the process of trajectory generation, rather than simultaneously carrying out the social interaction and scene interaction, which may undermine the rationality of trajectory prediction. In this paper, we propose one new prediction model named Social Soft Attention Graph Convolution Network (SSAGCN) which aims to simultaneously handle social interactions among pedestrians and scene interactions between pedestrians and environments. In detail, when modeling social interaction, we propose a new \emph{social soft attention function}, which fully considers various interaction factors among pedestrians. And it can distinguish the influence of pedestrians around the agent based on different factors under various situations. For the physical interaction, we propose one new \emph{sequential scene sharing mechanism}. The influence of the scene on one agent at each moment can be shared with other neighbors through social soft attention, therefore the influence of the scene is expanded both in spatial and temporal dimension. With the help of these improvements, we successfully obtain socially and physically acceptable predicted trajectories. The experiments on public available datasets prove the effectiveness of SSAGCN and have achieved state-of-the-art results.
翻訳日:2021-12-07 16:36:47 公開日:2021-12-05
# 変圧器に基づくオクルード人物再同定のためのポーズ誘導特徴抽出

Pose-guided Feature Disentangling for Occluded Person Re-identification Based on Transformer ( http://arxiv.org/abs/2112.02466v1 )

ライセンス: Link先を確認
Tao Wang, Hong Liu, Pinhao Song, Tianyu Guo, Wei Shi(参考訳) 蓄積された人物の再識別は、特定の場面で人体の一部が障害(木、車、歩行者など)によって妨げられるため、困難な作業である。 既存のポーズ誘導法は、グラフマッチングに従って身体部分を調整することでこの問題を解決するが、これらのグラフベースの手法は直感的で複雑ではない。 そこで,本稿では,ポーズ情報を利用して意味的要素(人体や関節部など)を明確に分離し,非閉塞部分と選択的に一致させることにより,トランスフォーマティブ型ポーズ案内特徴抽出(pfd)手法を提案する。 第一に、ViT(Vision Transformer)は、その強力な能力でパッチ機能を抽出するために使用される。 第2に、パッチ情報からポーズ情報を予め切り離すため、ポーズ案内特徴集約(pfa)モジュールにおいてマッチング・分散機構を利用する。 第3に、トランスフォーマデコーダに学習可能なセマンティクスビューのセットを導入し、不連続体部の特徴を暗黙的に強化する。 しかし、これらの意味論的な見解は、追加の監督なしでは身体に関連づけられることが保証されない。 したがって、PVM(Pose-View Matching)モジュールは、目に見える部分と明確に一致し、自動的に閉塞機能を分離するために提案されている。 第4に,咬合の干渉を効果的に防止するため,姿勢誘導型押圧損失をデザインし,目に見える身体部位の特徴を強調する。 2つのタスク(occluded と holistic re-id)に対する5つの挑戦的データセットに関する広範な実験は、提案されたpfdが優れた有望性を示し、最先端のメソッドに対して有利に機能することを示している。 コードはhttps://github.com/W angTaoAs/PFD_Netで入手できる。

Occluded person re-identification is a challenging task as human body parts could be occluded by some obstacles (e.g. trees, cars, and pedestrians) in certain scenes. Some existing pose-guided methods solve this problem by aligning body parts according to graph matching, but these graph-based methods are not intuitive and complicated. Therefore, we propose a transformer-based Pose-guided Feature Disentangling (PFD) method by utilizing pose information to clearly disentangle semantic components (e.g. human body or joint parts) and selectively match non-occluded parts correspondingly. First, Vision Transformer (ViT) is used to extract the patch features with its strong capability. Second, to preliminarily disentangle the pose information from patch information, the matching and distributing mechanism is leveraged in Pose-guided Feature Aggregation (PFA) module. Third, a set of learnable semantic views are introduced in transformer decoder to implicitly enhance the disentangled body part features. However, those semantic views are not guaranteed to be related to the body without additional supervision. Therefore, Pose-View Matching (PVM) module is proposed to explicitly match visible body parts and automatically separate occlusion features. Fourth, to better prevent the interference of occlusions, we design a Pose-guided Push Loss to emphasize the features of visible body parts. Extensive experiments over five challenging datasets for two tasks (occluded and holistic Re-ID) demonstrate that our proposed PFD is superior promising, which performs favorably against state-of-the-art methods. Code is available at https://github.com/W angTaoAs/PFD_Net
翻訳日:2021-12-07 16:35:01 公開日:2021-12-05
# 点雲解析のための適応チャネル符号化トランス

Adaptive Channel Encoding Transformer for Point Cloud Analysis ( http://arxiv.org/abs/2112.02507v1 )

ライセンス: Link先を確認
Guoquan Xu, Hezhi Cao, Jianwei Wan, Ke Xu, Yanxin Ma, Cong Zhang(参考訳) トランスフォーマーは、様々なコンピュータビジョン領域においてますます重要な役割を担い、ポイントクラウド分析においても顕著な成果を上げている。 本稿では, 主にポイントワイズトランスに焦点をあてるので, 適応型チャネル符号化トランスを提案する。 具体的には、Transformer-Convと呼ばれるチャネル畳み込みがチャネルをエンコードするように設計されている。 座標と特徴の間の潜在的な関係を捉えることで、特徴チャネルをエンコードすることができる。 本手法は,各チャネルに注意重みを割り当てることに比べ,適応的にチャネルを符号化することを目的としている。 また,本ネットワークは,低レベル・高レベルデュアルセマンティクスレセプティブフィールドの近傍探索手法を採用し,その性能向上を図っている。 大規模な実験により,本手法は3つのベンチマークデータセット上での最先端のクラウド分類とセグメンテーション法よりも優れていることが示された。

Transformer plays an increasingly important role in various computer vision areas and remarkable achievements have also been made in point cloud analysis. Since they mainly focus on point-wise transformer, an adaptive channel encoding transformer is proposed in this paper. Specifically, a channel convolution called Transformer-Conv is designed to encode the channel. It can encode feature channels by capturing the potential relationship between coordinates and features. Compared with simply assigning attention weight to each channel, our method aims to encode the channel adaptively. In addition, our network adopts the neighborhood search method of low-level and high-level dual semantic receptive fields to improve the performance. Extensive experiments show that our method is superior to state-of-the-art point cloud classification and segmentation methods on three benchmark datasets.
翻訳日:2021-12-07 16:34:29 公開日:2021-12-05
# 点雲解析のための適応チャネル符号化

Adaptive Channel Encoding for Point Cloud Analysis ( http://arxiv.org/abs/2112.02509v1 )

ライセンス: Link先を確認
Guoquan Xu, Hezhi Cao, Yifan Zhang, Jianwei Wan, Ke Xu, Yanxin Ma(参考訳) ポイントクラウド分析において、注意機構がより重要な役割を担い、チャネルアテンションがホットスポットの1つである。 チャネル情報が多いため、ニューラルネットワークが有用なチャネル情報を表示することは困難である。 そこで本稿では,チャネル関係を捉えるための適応的チャネル符号化機構を提案する。 これにより、ネットワークが生成する表現の品質が向上し、その特徴のチャネル間の相互依存を明示的にエンコードする。 具体的には、チャネルワイドの畳み込み(Channel-Conv)を提案し、座標と特徴の関係を適応的に学習し、チャネルを符号化する。 本論文で提案するChannel-Convは,一般的な注目重み方式と異なり,チャネルに異なる重みを割り当てるのではなく,畳み込み操作の適応性を実現する。 既存のベンチマークによる大規模な実験により、我々の手法が芸術の状態を実証する。

Attention mechanism plays a more and more important role in point cloud analysis and channel attention is one of the hotspots. With so much channel information, it is difficult for neural networks to screen useful channel information. Thus, an adaptive channel encoding mechanism is proposed to capture channel relationships in this paper. It improves the quality of the representation generated by the network by explicitly encoding the interdependence between the channels of its features. Specifically, a channel-wise convolution (Channel-Conv) is proposed to adaptively learn the relationship between coordinates and features, so as to encode the channel. Different from the popular attention weight schemes, the Channel-Conv proposed in this paper realizes adaptability in convolution operation, rather than simply assigning different weights for channels. Extensive experiments on existing benchmarks verify our method achieves the state of the arts.
翻訳日:2021-12-07 16:34:17 公開日:2021-12-05
# STSM: 効率的な行動認識のための時空間シフトモジュール

STSM: Spatio-Temporal Shift Module for Efficient Action Recognition ( http://arxiv.org/abs/2112.02523v1 )

ライセンス: Link先を確認
Zhaoqilin Yang, Gaoyun An(参考訳) 従来の時空間ネットワークのモデリング、計算コスト、精度は、ビデオアクション認識において最も集中した3つの研究トピックである。 3次元畳み込みに基づく畳み込みニューラルネットワーク(cnns)モデルは良好な性能を得ることができるが、計算コストは高く、パラメータの量は大きい。 本稿では,有効かつ高性能な汎用モジュールであるstsm(plug-and-play spatio-temporal shift module)を提案する。 具体的には、STSMを他のネットワークに挿入すると、演算数やパラメータを増やすことなくネットワークの性能を向上させることができる。 特に、ネットワークが2次元CNNである場合、STSMモジュールはネットワークが効率的な時空間的特徴を学習できるようにする。 我々は,提案モジュールの広範囲な評価を行い,ビデオ行動認識におけるその有効性を検討するために多数の実験を行い,速度論-400およびSomething V2データセットの最先端結果を得た。

The modeling, computational cost, and accuracy of traditional Spatio-temporal networks are the three most concentrated research topics in video action recognition. The traditional 2D convolution has a low computational cost, but it cannot capture the time relationship; the convolutional neural networks (CNNs) model based on 3D convolution can obtain good performance, but its computational cost is high, and the amount of parameters is large. In this paper, we propose a plug-and-play Spatio-temporal Shift Module (STSM), which is a generic module that is both effective and high-performance. Specifically, after STSM is inserted into other networks, the performance of the network can be improved without increasing the number of calculations and parameters. In particular, when the network is 2D CNNs, our STSM module allows the network to learn efficient Spatio-temporal features. We conducted extensive evaluations of the proposed module, conducted numerous experiments to study its effectiveness in video action recognition, and achieved state-of-the-art results on the kinetics-400 and Something-Something V2 datasets.
翻訳日:2021-12-07 16:34:05 公開日:2021-12-05
# デュアルブランチ完全変圧器ネットワークによる学習追跡表現

Learning Tracking Representations via Dual-Branch Fully Transformer Networks ( http://arxiv.org/abs/2112.02571v1 )

ライセンス: Link先を確認
Fei Xie, Chunyu Wang, Guangting Wang, Wankou Yang, Wenjun Zeng(参考訳) 追従のためのトランスフォーマーのみに基づくシームズ型デュアルブランチネットワークを提案する。 テンプレートと検索画像が与えられた場合、これらを重複しないパッチに分割し、アテンションウィンドウ内の他者とのマッチング結果に基づいて各パッチの特徴ベクトルを抽出する。 各トークンに対して、ターゲットオブジェクトと対応するサイズを含むかどうかを推定する。 このアプローチの利点は、機能がマッチングから学び、最終的にはマッチングから学べることである。 したがって、機能はオブジェクト追跡タスクと一致している。 このメソッドは、まずcnnを使って特徴を抽出し、次にtransformerを使ってそれらを融合させる、最高のパフォーマンスのメソッドとして、より良い結果または比較結果を得る。 GOT-10kとVOT2020ベンチマークでは最先端の手法よりも優れている。 さらに、この手法は1つのGPU上でのリアルタイム推論速度(約40$fps)を達成する。 コードとモデルがリリースされます。

We present a Siamese-like Dual-branch network based on solely Transformers for tracking. Given a template and a search image, we divide them into non-overlapping patches and extract a feature vector for each patch based on its matching results with others within an attention window. For each token, we estimate whether it contains the target object and the corresponding size. The advantage of the approach is that the features are learned from matching, and ultimately, for matching. So the features are aligned with the object tracking task. The method achieves better or comparable results as the best-performing methods which first use CNN to extract features and then use Transformer to fuse them. It outperforms the state-of-the-art methods on the GOT-10k and VOT2020 benchmarks. In addition, the method achieves real-time inference speed (about $40$ fps) on one GPU. The code and models will be released.
翻訳日:2021-12-07 16:33:48 公開日:2021-12-05
# PolyphonicFormer:dep th-aware Video Panoptic Segmentationのための統一クエリ学習

PolyphonicFormer: Unified Query Learning for Depth-aware Video Panoptic Segmentation ( http://arxiv.org/abs/2112.02582v1 )

ライセンス: Link先を確認
Haobo Yuan, Xiangtai Li, Yibo Yang, Guangliang Cheng, Jing Zhang, Yunhai Tong, Lefei Zhang, Dacheng Tao(参考訳) 最近提案されたDVPS(Depth-aware Video Panoptic Segmentation)は、映像中のパノプティクスのセグメンテーション結果と深度マップを予測することを目的としている。 本稿では,DVPSタスク下でのすべてのサブタスクを統一する視覚変換器であるPolyphonicFormerを提案する。 提案手法は,問合せ学習による深度推定とパノプティックセグメンテーションの関係について検討する。 特に、モノクエリ、モノクエリ、ディープクエリを含む3つの異なるクエリを設計する。 次に,これらの問合せ間の相関をゲート融合によって学習する。 実験により, 深度推定と汎視的セグメンテーションの両面から, 設計の利点を実証した。 各クエリはインスタンス毎の情報もエンコードするので、ルックスラーニングによるインスタンスマスクのトリッピングによるトラッキングが自然である。 ICCV-2021 BMTT Challenge video + depth trackで1位となった。 アブレーションの研究は、パフォーマンスを改善する方法を示している。 コードはhttps://github.com/h arboryuan/polyphonic formerで入手できる。

The recently proposed Depth-aware Video Panoptic Segmentation (DVPS) aims to predict panoptic segmentation results and depth maps in a video, which is a challenging scene understanding problem. In this paper, we present PolyphonicFormer, a vision transformer to unify all the sub-tasks under the DVPS task. Our method explores the relationship between depth estimation and panoptic segmentation via query-based learning. In particular, we design three different queries including thing query, stuff query, and depth query. Then we propose to learn the correlations among these queries via gated fusion. From the experiments, we prove the benefits of our design from both depth estimation and panoptic segmentation aspects. Since each thing query also encodes the instance-wise information, it is natural to perform tracking via cropping instance mask features with appearance learning. Our method ranks 1st on the ICCV-2021 BMTT Challenge video + depth track. Ablation studies are reported to show how we improve the performance. Code will be available at https://github.com/H arborYuan/Polyphonic Former.
翻訳日:2021-12-07 16:33:35 公開日:2021-12-05
# 近辺グラフ上でのクエリ拡張の学習

Learning Query Expansion over the Nearest Neighbor Graph ( http://arxiv.org/abs/2112.02666v1 )

ライセンス: Link先を確認
Benjamin Klein and Lior Wolf(参考訳) クエリ拡張(QE)は、画像検索アプリケーションにおける検索メトリクスを改善するための確立された方法である。 QEを使用する場合、検索はクエリ上の集約関数とデータベースからのイメージを使用して構築された新しいクエリベクトル上で実行される。 最近の研究は、集約関数が学習されるQE技術を生み出したが、以前の技術は手作りの集約関数(例えば、クエリの隣人の平均値)に基づいていた。 しかしながら、ほとんどのQEメソッドは、クエリとそのすぐ近くの隣人に直接動作する集約関数に焦点を当てている。 本研究では,階層モデルであるグラフクエリ拡張(GQE)を提示し,教師付き方式で学習し,クエリの拡張した近傍に集約することで,クエリ拡張の計算時にデータベースから使用される情報を増やし,近隣のグラフの構造を利用する。 この技術は既知のベンチマークよりも最先端の結果が得られる。

Query Expansion (QE) is a well established method for improving retrieval metrics in image search applications. When using QE, the search is conducted on a new query vector, constructed using an aggregation function over the query and images from the database. Recent works gave rise to QE techniques in which the aggregation function is learned, whereas previous techniques were based on hand-crafted aggregation functions, e.g., taking the mean of the query's nearest neighbors. However, most QE methods have focused on aggregation functions that work directly over the query and its immediate nearest neighbors. In this work, a hierarchical model, Graph Query Expansion (GQE), is presented, which is learned in a supervised manner and performs aggregation over an extended neighborhood of the query, thus increasing the information used from the database when computing the query expansion, and using the structure of the nearest neighbors graph. The technique achieves state-of-the-art results over known benchmarks.
翻訳日:2021-12-07 16:31:59 公開日:2021-12-05
# VarCLR: コントラスト学習による可変意味表現事前学習

VarCLR: Variable Semantic Representation Pre-training via Contrastive Learning ( http://arxiv.org/abs/2112.02650v1 )

ライセンス: Link先を確認
Qibin Chen, Jeremy Lacomis, Edward J. Schwartz, Graham Neubig, Bogdan Vasilescu, Claire Le Goues(参考訳) 変数名は意図したプログラムの振る舞いを伝えるのに不可欠である。 機械学習に基づくプログラム解析手法では、新しい変数名の提案やバグ検出など、幅広いタスクに変数名表現を使用する。 理想的には、このような手法は、構文的類似性を超えた名前間の意味的関係をキャプチャすることができる。 残念なことに、以前の研究では、以前の最も優れた表現アプローチでさえも、類似性(実際には同じ意味を持つ)ではなく、主に関連性(2つの変数が全くリンクされている)を捉えていることがわかった。 この厳密な意味で変数の類似性を効果的に捉えた変数名の意味表現を学習するための新しいアプローチであるVarCLRを提案する。 この問題は、類似した入力間の距離を最小化しつつ、異種入力間の距離を最大化することを目的として、コントラスト学習に適している。 これはラベル付きトレーニングデータを必要とするため、GitHub編集から抽出した新しい、弱教師付き可変リネームデータセットを構築します。 VarCLRは、BERTのような洗練された汎用言語モデルの変数名表現への効果的な適用を可能にし、変数名類似性検索やスペル訂正のような関連する下流タスクにも適用可能であることを示す。 VarCLRは、(関連性とは異なる)変数の類似性を明示的にキャプチャする既存のベンチマークであるIdBenchで最先端のモデルを生成する。 最後に、変数名に依存する既存または将来のプログラム分析で使用される変数表現のドロップイン置換を提供することを目的として、すべてのデータ、コード、事前訓練されたモデルのリリースに貢献する。

Variable names are critical for conveying intended program behavior. Machine learning-based program analysis methods use variable name representations for a wide range of tasks, such as suggesting new variable names and bug detection. Ideally, such methods could capture semantic relationships between names beyond syntactic similarity, e.g., the fact that the names average and mean are similar. Unfortunately, previous work has found that even the best of previous representation approaches primarily capture relatedness (whether two variables are linked at all), rather than similarity (whether they actually have the same meaning). We propose VarCLR, a new approach for learning semantic representations of variable names that effectively captures variable similarity in this stricter sense. We observe that this problem is an excellent fit for contrastive learning, which aims to minimize the distance between explicitly similar inputs, while maximizing the distance between dissimilar inputs. This requires labeled training data, and thus we construct a novel, weakly-supervised variable renaming dataset mined from GitHub edits. We show that VarCLR enables the effective application of sophisticated, general-purpose language models like BERT, to variable name representation and thus also to related downstream tasks like variable name similarity search or spelling correction. VarCLR produces models that significantly outperform the state-of-the-art on IdBench, an existing benchmark that explicitly captures variable similarity (as distinct from relatedness). Finally, we contribute a release of all data, code, and pre-trained models, aiming to provide a drop-in replacement for variable representations used in either existing or future program analyses that rely on variable names.
翻訳日:2021-12-07 15:41:31 公開日:2021-12-05
# ライブビデオストリーミングのモデル化 - リアルタイム分類、qoe推論、フィールド評価

Modeling Live Video Streaming: Real-Time Classification, QoE Inference, and Field Evaluation ( http://arxiv.org/abs/2112.02637v1 )

ライセンス: Link先を確認
Sharat Chandra Madanapalli, Alex Mathai, Hassan Habibi Gharakheili, and Vijay Sivaraman(参考訳) ソーシャルメディア、プロスポーツ、ビデオゲームはTwitchやYouTube Liveなどのプラットフォームでライブビデオストリーミングの急成長を加速させている。 ライブストリーミング体験は、クライアントの再生バッファが数秒に満たないことが多いため、短時間のネットワーク混雑に非常に敏感である。 コンテンツプロバイダは、ライブおよびビデオ・オン・デマンド(vod)ストリーミングとパケット検査(sni/dnsクエリ監視を含む)にほぼ同じデリバリインフラストラクチャを使用しているため、これらのストリームを特定し、ネットワーク管理のためのqoeを測定することは難しい。 本稿では,ネットワークレベルの動作特性に基づくライブビデオ検出とQoE計測のための機械学習手法であるReCLiveの設計,構築,デプロイを行う。 1)TwitchとYouTubeの約23,000のビデオストリームを分析し、ライブとオンデマンドのストリーミングを区別するトラフィックプロファイルの重要な特徴を特定します。 We release our traffic traces as open data to the public; (2) We develop an LSTM-based binary classifier model that distinguishes live from on-demand streams in real-time with over 95% accuracy across providers; (3) We develop a method that estimates QoE metrics of live streaming flows in terms of resolution and buffer stall events with overall accuracies of 93% and 90%, respectively; and (4) Finally, we prototype our solution, train it in the lab, and deploy it in a live ISP network serving more than 7,000 subscribers. 提案手法は,ISPに対してライブビデオストリームの詳細な可視性を提供し,ユーザエクスペリエンスの測定と改善を可能にする。

Social media, professional sports, and video games are driving rapid growth in live video streaming, on platforms such as Twitch and YouTube Live. Live streaming experience is very susceptible to short-time-scale network congestion since client playback buffers are often no more than a few seconds. Unfortunately, identifying such streams and measuring their QoE for network management is challenging, since content providers largely use the same delivery infrastructure for live and video-on-demand (VoD) streaming, and packet inspection techniques (including SNI/DNS query monitoring) cannot always distinguish between the two. In this paper, we design, build, and deploy ReCLive: a machine learning method for live video detection and QoE measurement based on network-level behavioral characteristics. Our contributions are four-fold: (1) We analyze about 23,000 video streams from Twitch and YouTube, and identify key features in their traffic profile that differentiate live and on-demand streaming. We release our traffic traces as open data to the public; (2) We develop an LSTM-based binary classifier model that distinguishes live from on-demand streams in real-time with over 95% accuracy across providers; (3) We develop a method that estimates QoE metrics of live streaming flows in terms of resolution and buffer stall events with overall accuracies of 93% and 90%, respectively; and (4) Finally, we prototype our solution, train it in the lab, and deploy it in a live ISP network serving more than 7,000 subscribers. Our method provides ISPs with fine-grained visibility into live video streams, enabling them to measure and improve user experience.
翻訳日:2021-12-07 15:40:20 公開日:2021-12-05
# 画像誘導手術のための実時間仮想術中ct

Real-time Virtual Intraoperative CT for Image Guided Surgery ( http://arxiv.org/abs/2112.02608v1 )

ライセンス: Link先を確認
Yangming Li, Neeraja Konuthula, Ian M. Humphreys, Kris Moe, Blake Hannaford, Randall Bly(参考訳) 抽象。 目的: 内視鏡下副鼻腔手術(ess)の外科的完全性を改善するために, 術中ctスキャンを仮想的に生成する方式を提案する。 アプローチ: この研究は, 仮想的な術中ct生成のための3つの方法, 先端運動ベース, 先端軌跡ベース, 計器ベース, 非パラメトリック平滑化, ガウス過程回帰を提示する。 結果: ケーダバーで実施したESSについて検討し, 比較した。 手術の結果,dice類似度係数は86%,f-scoreは92%,精度は89.91%であった。 先端軌跡法は, 外科的完全性評価において, 96.87%の精度で良好な成績を示した。 結論: 本研究は, 術中ctスキャンにより実際の手術場面と参照モデルとの一貫性が向上し, essの外科的完全性が向上することを示した。 術中CTと比較すると,提案手法は既存の手術プロトコルに影響を与えず,術中CTによる高コスト,反復放射線,長期麻酔を克服し,術中CTによる治療に要する余分なハードウェアを必要としない。

Abstract. Purpose: This paper presents a scheme for generating virtual intraoperative CT scans in order to improve surgical completeness in Endoscopic Sinus Surgeries (ESS). Approach: The work presents three methods, the tip motion-based, the tip trajectory-based, and the instrument based, along with non-parametric smoothing and Gaussian Process Regression, for virtual intraoperative CT generation. Results: The proposed methods studied and compared on ESS performed on cadavers. Surgical results show all three methods improve the Dice Similarity Coefficients > 86%, with F-score > 92% and precision > 89.91%. The tip trajectory-based method was found to have best performance and reached 96.87% precision in surgical completeness evaluation. Conclusions: This work demonstrated that virtual intraoperative CT scans improves the consistency between the actual surgical scene and the reference model, and improves surgical completeness in ESS. Comparing with actual intraoperative CT scans, the proposed scheme has no impact on existing surgical protocols, does not require extra hardware other than the one is already available in most ESS overcome the high costs, the repeated radiation, and the elongated anesthesia caused by actual intraoperative CTs, and is practical in ESS.
翻訳日:2021-12-07 15:33:27 公開日:2021-12-05
# グラフ上の拡張フリー自己教師付き学習

Augmentation-Free Self-Supervised Learning on Graphs ( http://arxiv.org/abs/2112.02472v1 )

ライセンス: Link先を確認
Namkyeong Lee, Junseok Lee, Chanyoung Park(参考訳) 近年,画像に対する自己教師あり手法の成功に触発されて,グラフ構造化データを用いた自己教師あり学習は,特に強調型コントラスト法を中心に急速に成長している。 しかし、注意深い拡張技法がなければ、グラフの基盤となるセマンティクスが劇的に変化する可能性があるため、グラフの強化は任意に振る舞うことができる。 その結果,既存の拡張手法の性能は,拡張方式,すなわち拡張に伴うハイパーパラメータの選択に大きく依存することがわかった。 本稿では,グラフのための拡張フリーな自己教師付き学習フレームワーク afgrl を提案する。 具体的には,局所構造情報とグローバルセマンティクスをグラフと共有するノードを発見することによって,グラフの代替ビューを生成する。 様々なノードレベルのタスク、すなわちノード分類、クラスタリング、および様々な実世界のデータセットにおける類似性探索に対する広範な実験は、AFGRLの優位性を示している。 AFGRLのソースコードはhttps://github.com/N amkyeong/AFGRLで公開されている。

Inspired by the recent success of self-supervised methods applied on images, self-supervised learning on graph structured data has seen rapid growth especially centered on augmentation-based contrastive methods. However, we argue that without carefully designed augmentation techniques, augmentations on graphs may behave arbitrarily in that the underlying semantics of graphs can drastically change. As a consequence, the performance of existing augmentation-based methods is highly dependent on the choice of augmentation scheme, i.e., hyperparameters associated with augmentations. In this paper, we propose a novel augmentation-free self-supervised learning framework for graphs, named AFGRL. Specifically, we generate an alternative view of a graph by discovering nodes that share the local structural information and the global semantics with the graph. Extensive experiments towards various node-level tasks, i.e., node classification, clustering, and similarity search on various real-world datasets demonstrate the superiority of AFGRL. The source code for AFGRL is available at https://github.com/N amkyeong/AFGRL.
翻訳日:2021-12-07 15:08:35 公開日:2021-12-05
# Inf-CP:チャネル影響に基づく信頼性の高いチャネルプルーニング

Inf-CP: A Reliable Channel Pruning based on Channel Influence ( http://arxiv.org/abs/2112.02521v1 )

ライセンス: Link先を確認
Bilan Lai, Haoran Xiang, Furao Shen(参考訳) チャネルプラニングの最も効果的な方法の1つは、各ニューロンの重要性に基づいてトリミングすることである。 しかし、各ニューロンの重要性を測定することはNPハード問題である。 以前の研究では、1つの層または複数の連続したニューロン層の統計を考慮に入れてトリムを提案した。 これらの研究は、復元誤差におけるモデルに対する異なるデータの影響を排除することができず、現在、パラメータの絶対値が重みの重要度を判断する基盤として直接利用できることを示す作業は行われていない。 より合理的なアプローチは、影響の重みを正確に測定するバッチデータの違いを取り除くことである。 本稿では,異なるバッチデータに対するモデルの学習にアンサンブル学習を用い,モデルの予測を追跡し,学習パラメータ勾配を返すアルゴリズムを学習するインフルエンス関数(ロバスト統計学からの古典的な手法)を用いて,予測過程において各パラメータに対する責任を判定する手法を提案する。 さらに,ディープネットワークのバックプロパゲーションが重みの影響関数の一階テイラー近似であることを理論的に証明する。 我々は,アンサンブル学習のアイデアを用いた影響関数に基づくプルーニングが,単にエラー再構成に注目するよりもずっと効果的であることを示すために,広範な実験を行った。 CIFARの実験では、影響プルーニングが最先端の結果をもたらすことが示されている。

One of the most effective methods of channel pruning is to trim on the basis of the importance of each neuron. However, measuring the importance of each neuron is an NP-hard problem. Previous works have proposed to trim by considering the statistics of a single layer or a plurality of successive layers of neurons. These works cannot eliminate the influence of different data on the model in the reconstruction error, and currently, there is no work to prove that the absolute values of the parameters can be directly used as the basis for judging the importance of the weights. A more reasonable approach is to eliminate the difference between batch data that accurately measures the weight of influence. In this paper, we propose to use ensemble learning to train a model for different batches of data and use the influence function (a classic technique from robust statistics) to learn the algorithm to track the model's prediction and return its training parameter gradient, so that we can determine the responsibility for each parameter, which we call "influence", in the prediction process. In addition, we theoretically prove that the back-propagation of the deep network is a first-order Taylor approximation of the influence function of the weights. We perform extensive experiments to prove that pruning based on the influence function using the idea of ensemble learning will be much more effective than just focusing on error reconstruction. Experiments on CIFAR shows that the influence pruning achieves the state-of-the-art result.
翻訳日:2021-12-07 15:08:18 公開日:2021-12-05
# robust active learning:ロバストなディープラーニングモデルのサンプル効率トレーニング

Robust Active Learning: Sample-Efficient Training of Robust Deep Learning Models ( http://arxiv.org/abs/2112.02542v1 )

ライセンス: Link先を確認
Yuejun Guo, Qiang Hu, Maxime Cordy, Mike Papadakis, Yves Le Traon(参考訳) アクティブラーニングは、高品質な機械学習モデルを構築するためのラベル付けコストを削減するための確立されたテクニックである。 アクティブラーニングの中核となるコンポーネントは、アノテートするデータを選択するための取得関数である。 state-of-the-art acquisition function -- そしてより多くはアクティブな学習技術 -- は、クリーンなパフォーマンス(例えば正確性)を最大化するために設計され、注目を集めている重要な品質特性である堅牢性を無視している。 したがって、アクティブラーニングは正確だが堅牢ではないモデルを生成する。 In this paper, we propose \emph{robust active learning}, an active learning process that integrates adversarial training -- the most established method to produce robust models. Via an empirical study on 11 acquisition functions, 4 datasets, 6 DNN architectures, and 15105 trained DNNs, we show that robust active learning can produce models with the robustness (accuracy on adversarial examples) ranging from 2.35\% to 63.85\%, whereas standard active learning systematically achieves negligible robustness (less than 0.20\%). Our study also reveals, however, that the acquisition functions that perform well on accuracy are worse than random sampling when it comes to robustness. We, therefore, examine the reasons behind this and devise a new acquisition function that targets both clean performance and robustness. Our acquisition function -- named density-based robust sampling with entropy (DRE) -outperforms the other acquisition functions (including random) in terms of robustness by up to 24.40\% (3.84\% than random particularly), while remaining competitive on accuracy. さらに、DREがモデル再訓練のためのテスト選択指標として適用可能であることを示し、比較されたすべての関数から最大8.21\%のロバスト性を示す。

Active learning is an established technique to reduce the labeling cost to build high-quality machine learning models. A core component of active learning is the acquisition function that determines which data should be selected to annotate. State-of-the-art acquisition functions -- and more largely, active learning techniques -- have been designed to maximize the clean performance (e.g. accuracy) and have disregarded robustness, an important quality property that has received increasing attention. Active learning, therefore, produces models that are accurate but not robust. In this paper, we propose \emph{robust active learning}, an active learning process that integrates adversarial training -- the most established method to produce robust models. Via an empirical study on 11 acquisition functions, 4 datasets, 6 DNN architectures, and 15105 trained DNNs, we show that robust active learning can produce models with the robustness (accuracy on adversarial examples) ranging from 2.35\% to 63.85\%, whereas standard active learning systematically achieves negligible robustness (less than 0.20\%). Our study also reveals, however, that the acquisition functions that perform well on accuracy are worse than random sampling when it comes to robustness. We, therefore, examine the reasons behind this and devise a new acquisition function that targets both clean performance and robustness. Our acquisition function -- named density-based robust sampling with entropy (DRE) -- outperforms the other acquisition functions (including random) in terms of robustness by up to 24.40\% (3.84\% than random particularly), while remaining competitive on accuracy. Additionally, we prove that DRE is applicable as a test selection metric for model retraining and stands out from all compared functions by up to 8.21\% robustness.
翻訳日:2021-12-07 15:07:57 公開日:2021-12-05
# ボードゲームにおけるゴール達成問題に対する新しいアプローチ

A Novel Approach to Solving Goal-Achieving Problems for Board Games ( http://arxiv.org/abs/2112.02563v1 )

ライセンス: Link先を確認
Chung-Chin Shih, Ti-Rong Wu, Ting Han Wei, and I-Chen Wu(参考訳) 目標達成問題は、明確な目的を持って特定の状況を設定するパズルである。 よく研究されている例としては、goのl&d(life-and-death)問題のカテゴリがある。 ラムダ検索のような多くの従来のメソッドは、まずnullを移動させ、次に、相手が検索する必要のないいわゆるRZ(relevance Zone)を導出する。 本稿では、まず、GoのL&D問題を解決するために、RZベースサーチ(RZS)と呼ばれる新しいRZベースのアプローチを提案する。 RZSは、Nullがポストホックであるかどうかを決定する前に動きを試みる。 これは、Null move heuristicsに頼る必要がなく、よりエレガントなアルゴリズムとなり、AlphaZeroの超人間レベルプレイにシームレスに組み込むこともできることを意味している。 問題解決のためにAlphaZeroを再利用するために,AlphaZeroを改良してより高速に勝利させるFTL(Faster to Life)という新たなトレーニング手法を提案する。 RZS と FTL を用いて Go 上の L&D 問題を解き、すなわちプロの L&D 書籍から 106 問題を解き、以前のプログラムでは 11 を解いた。 最後に、RZSがボードゲームにおける他のゴール達成問題の解決に適用可能であるという意味で、このアプローチが汎用的であることを論じる。

Goal-achieving problems are puzzles that set up a specific situation with a clear objective. An example that is well-studied is the category of life-and-death (L&D) problems for Go, which helps players hone their skill of identifying region safety. Many previous methods like lambda search try null moves first, then derive so-called relevance zones (RZs), outside of which the opponent does not need to search. This paper first proposes a novel RZ-based approach, called the RZ-Based Search (RZS), to solving L&D problems for Go. RZS tries moves before determining whether they are null moves post-hoc. This means we do not need to rely on null move heuristics, resulting in a more elegant algorithm, so that it can also be seamlessly incorporated into AlphaZero's super-human level play in our solver. To repurpose AlphaZero for solving, we also propose a new training method called Faster to Life (FTL), which modifies AlphaZero to entice it to win more quickly. We use RZS and FTL to solve L&D problems on Go, namely solving 68 among 106 problems from a professional L&D book while a previous program solves 11 only. Finally, we discuss that the approach is generic in the sense that RZS is applicable to solving many other goal-achieving problems for board games.
翻訳日:2021-12-07 15:07:29 公開日:2021-12-05
# 勾配降下アルゴリズムのための新しいシーケンシャルコアセット法

A Novel Sequential Coreset Method for Gradient Descent Algorithms ( http://arxiv.org/abs/2112.02504v1 )

ライセンス: Link先を確認
Jiawei Huang, Ruomin Huang, Wenjie Liu, Nikolaos M. Freris and Hu Ding(参考訳) 機械学習における幅広い最適化問題は勾配降下アルゴリズムによって解くことができ、この領域の中心的な問題は、計算複雑性を低減するために大規模なデータセットを効率的に圧縮する方法である。 {\em Coreset}は、これまで広く研究されてきた一般的なデータ圧縮技術である。 しかし、既存のコアセットメソッドのほとんどは問題に依存しており、幅広いアプリケーションのための汎用ツールとして利用することはできない。 鍵となる障害は、しばしば、非常に高い、あるいは得るのが難しい擬似次元と完全な感度境界に依存することである。 本稿では,勾配降下アルゴリズムの'局所'特性に基づいて,これらの障害を効果的に回避する'系列コアセット'と呼ばれる新しい枠組みを提案する。 さらに,本手法は,コアセットサイズを次元に依存した多対数のみに減らすことができる場合のスパース最適化に特に適している。 実験結果から,本手法はベースラインアルゴリズムと比較して,大量のランニング時間を節約できる可能性が示唆された。

A wide range of optimization problems arising in machine learning can be solved by gradient descent algorithms, and a central question in this area is how to efficiently compress a large-scale dataset so as to reduce the computational complexity. {\em Coreset} is a popular data compression technique that has been extensively studied before. However, most of existing coreset methods are problem-dependent and cannot be used as a general tool for a broader range of applications. A key obstacle is that they often rely on the pseudo-dimension and total sensitivity bound that can be very high or hard to obtain. In this paper, based on the ''locality'' property of gradient descent algorithms, we propose a new framework, termed ''sequential coreset'', which effectively avoids these obstacles. Moreover, our method is particularly suitable for sparse optimization whence the coreset size can be further reduced to be only poly-logarithmically dependent on the dimension. In practice, the experimental results suggest that our method can save a large amount of running time compared with the baseline algorithms.
翻訳日:2021-12-07 15:03:58 公開日:2021-12-05
# ヒストグラム変換アンサンブル学習における勾配ブースティングの局所的適応性

Local Adaptivity of Gradient Boosting in Histogram Transform Ensemble Learning ( http://arxiv.org/abs/2112.02589v1 )

ライセンス: Link先を確認
Hanyuan Hang(参考訳) 本稿では,ヒストグラム変換アンサンブル学習における勾配促進アルゴリズムの局所的適応性を示すために,レグレッションのための勾配促進アルゴリズムである \textit{adaptive boosting histogram transform} (\textit{ABHT})を提案する。 理論的な観点からは、対象函数が局所的 H より古い連続空間にあるとき、ABHT が滑らか性の異なる領域をフィルタリングできることが示される。 したがって、ABHT の収束率の上限が \textit{parallel ensemble histogram transform} (\textit{PEHT}) の下限よりも厳密に小さいことが証明できる。 実験では、合成データと実世界のデータ実験の両方が理論結果を実証的に検証し、abhtの有利な性能と局所的適応性を示す。

In this paper, we propose a gradient boosting algorithm called \textit{adaptive boosting histogram transform} (\textit{ABHT}) for regression to illustrate the local adaptivity of gradient boosting algorithms in histogram transform ensemble learning. From the theoretical perspective, when the target function lies in a locally H\"older continuous space, we show that our ABHT can filter out the regions with different orders of smoothness. Consequently, we are able to prove that the upper bound of the convergence rates of ABHT is strictly smaller than the lower bound of \textit{parallel ensemble histogram transform} (\textit{PEHT}). In the experiments, both synthetic and real-world data experiments empirically validate the theoretical results, which demonstrates the advantageous performance and local adaptivity of our ABHT.
翻訳日:2021-12-07 15:03:43 公開日:2021-12-05
# 表情認識のための顔木

Face Trees for Expression Recognition ( http://arxiv.org/abs/2112.02487v1 )

ライセンス: Link先を確認
Mojtaba Kolahdouzi, Alireza Sepas-Moghaddam, Ali Etemad(参考訳) 表情認識のためのエンドツーエンドアーキテクチャを提案する。 モデルでは,顔のランドマークに最適なツリートポロジを学習し,そのトランバーサルがシーケンスを生成して,シーケンシャルな学習者にフィードバックを与える。 提案アーキテクチャでは,顔の構造を学習するためのランドマーク位置に焦点を当てた2つの主要なストリームと,テクスチャ情報を学ぶためのランドマーク周囲のパッチに焦点を当てている。 各ストリームには注意機構が続き、出力は2つのストリーム融合コンポーネントに供給され、最終的な分類を行う。 AffectNet と FER2013 の2つの大規模顔表情データセットについて広範囲に実験を行い,提案手法の有効性を検証した。 提案手法は,この領域における他の解よりも優れ,これらのデータセット上で新しい最先端表現認識率を設定する。

We propose an end-to-end architecture for facial expression recognition. Our model learns an optimal tree topology for facial landmarks, whose traversal generates a sequence from which we obtain an embedding to feed a sequential learner. The proposed architecture incorporates two main streams, one focusing on landmark positions to learn the structure of the face, while the other focuses on patches around the landmarks to learn texture information. Each stream is followed by an attention mechanism and the outputs are fed to a two-stream fusion component to perform the final classification. We conduct extensive experiments on two large-scale publicly available facial expression datasets, AffectNet and FER2013, to evaluate the efficacy of our approach. Our method outperforms other solutions in the area and sets new state-of-the-art expression recognition rates on these datasets.
翻訳日:2021-12-07 15:01:32 公開日:2021-12-05
# インターリービングフリーサンプリングによる複雑な検索空間の探索

Exploring Complicated Search Spaces with Interleaving-Free Sampling ( http://arxiv.org/abs/2112.02488v1 )

ライセンス: Link先を確認
Yunjie Tian, Lingxi Xie, Jiemin Fang, Jianbin Jiao, Qixiang Ye, Qi Tian(参考訳) 既存のニューラルネットワーク検索アルゴリズムは、主に近距離接続のある検索空間に取り組んでいる。 このような設計は安全かつ安定ではあるが、検索アルゴリズムがより複雑なシナリオを探索することを妨げていると主張する。 本稿では, 長距離接続を持つ複雑な検索空間上に探索アルゴリズムを構築し, 既存の重み付け検索アルゴリズムは, 主に \textbf{interleaved Connect} の存在により失敗することを示す。 そこで我々は,探索処理中に異なるサブネットワークを構築するための定期的なサンプリング戦略を実行し,各サブネットワークにインターリーブされた接続が出現しないようにする,簡単なアルゴリズムである「textbf{IF-NAS}」を提案する。 提案した探索空間において、IF-NASはランダムサンプリングと以前の重み付け検索のアルゴリズムを有意差で上回っている。 IF-NASは、より容易にマイクロセルベースの空間に一般化する。 本研究はマクロ構造の重要性を強調し,今後の方向性を期待する。

The existing neural architecture search algorithms are mostly working on search spaces with short-distance connections. We argue that such designs, though safe and stable, obstacles the search algorithms from exploring more complicated scenarios. In this paper, we build the search algorithm upon a complicated search space with long-distance connections, and show that existing weight-sharing search algorithms mostly fail due to the existence of \textbf{interleaved connections}. Based on the observation, we present a simple yet effective algorithm named \textbf{IF-NAS}, where we perform a periodic sampling strategy to construct different sub-networks during the search procedure, avoiding the interleaved connections to emerge in any of them. In the proposed search space, IF-NAS outperform both random sampling and previous weight-sharing search algorithms by a significant margin. IF-NAS also generalizes to the micro cell-based spaces which are much easier. Our research emphasizes the importance of macro structure and we look forward to further efforts along this direction.
翻訳日:2021-12-07 15:00:00 公開日:2021-12-05
# ニューラルフォトメトリによる視覚属性伝達

Neural Photometry-guided Visual Attribute Transfer ( http://arxiv.org/abs/2112.02520v1 )

ライセンス: Link先を確認
Carlos Rodriguez-Pardo and Elena Garces(参考訳) 本稿では,空間的に変動する視覚材料属性(テクスチャマップや画像スタイライゼーションなど)を,同一または類似材料のより大きなサンプルに伝播する深層学習に基づく手法を提案する。 トレーニングでは,複数の照明と専用データ拡張ポリシーで撮影された材料の画像を活用して,新しい照明条件とアフィン変形に頑健な転送を行う。 我々のモデルは、教師付き画像から画像への翻訳フレームワークに依存し、転送されたドメインに依存しない、セマンティックセグメンテーション、正規マップ、スタイリングを提示する。 画像アナロジーアプローチに従って、この方法は、入力ガイダンスと同じ視覚構造を含む訓練データのみを必要とする。 我々の手法はインタラクティブなレートで動作し、マテリアル編集アプリケーションに適している。 我々は,性能の定量的指標を提供する制御環境において,学習方法論を徹底的に評価する。 最後に、単一材料上でモデルをトレーニングすることは、大量のデータセットを必要とせずに、同じタイプの材料に一般化するのに十分であることを示す。

We present a deep learning-based method for propagating spatially-varying visual material attributes (e.g. texture maps or image stylizations) to larger samples of the same or similar materials. For training, we leverage images of the material taken under multiple illuminations and a dedicated data augmentation policy, making the transfer robust to novel illumination conditions and affine deformations. Our model relies on a supervised image-to-image translation framework and is agnostic to the transferred domain; we showcase a semantic segmentation, a normal map, and a stylization. Following an image analogies approach, the method only requires the training data to contain the same visual structures as the input guidance. Our approach works at interactive rates, making it suitable for material edit applications. We thoroughly evaluate our learning methodology in a controlled setup providing quantitative measures of performance. Last, we demonstrate that training the model on a single material is enough to generalize to materials of the same type without the need for massive datasets.
翻訳日:2021-12-07 14:28:19 公開日:2021-12-05
# 非剛性点雲のジョイント対称性検出と形状マッチング

Joint Symmetry Detection and Shape Matching for Non-Rigid Point Cloud ( http://arxiv.org/abs/2112.02713v1 )

ライセンス: Link先を確認
Abhishek Sharma and Maks Ovsjanikov(参考訳) 非剛体3次元形状マッチングにおける深い関数写像の成功にもかかわらず、自己対称性と形状マッチングを同時にモデル化する学習フレームワークは存在しない。 これは対称性ミスマッチによる誤差が非剛体形状マッチングにおける大きな課題であるにもかかわらずである。 本稿では,一対の形状間のペアマップと自己対称性を同時に学習する新しい枠組みを提案する。 私たちのキーとなる考え方は、正則化項を通して自己対称性写像とペアワイズ写像を結合し、両者に共同制約を与え、より正確な写像をもたらすことである。 提案手法を複数のベンチマークで検証し,両タスクにおいて多くの競争的ベースラインを上回ります。

Despite the success of deep functional maps in non-rigid 3D shape matching, there exists no learning framework that models both self-symmetry and shape matching simultaneously. This is despite the fact that errors due to symmetry mismatch are a major challenge in non-rigid shape matching. In this paper, we propose a novel framework that simultaneously learns both self symmetry as well as a pairwise map between a pair of shapes. Our key idea is to couple a self symmetry map and a pairwise map through a regularization term that provides a joint constraint on both of them, thereby, leading to more accurate maps. We validate our method on several benchmarks where it outperforms many competitive baselines on both tasks.
翻訳日:2021-12-07 14:28:03 公開日:2021-12-05
# 格子フリーMMIを用いたエンドツーエンド音声認識のための一貫性学習と復号化

Consistent Training and Decoding For End-to-end Speech Recognition Using Lattice-free MMI ( http://arxiv.org/abs/2112.02498v1 )

ライセンス: Link先を確認
Jinchuan Tian, Jianwei Yu, Chao Weng, Shi-Xiong Zhang, Dan Su, Dong Yu, Yuexian Zou(参考訳) 近年,エンド・ツー・エンド(E2E)フレームワークは,様々な自動音声認識(ASR)タスクにおいて顕著な成果を上げている。 しかし、ハイブリッドASRシステムにおいて優れた性能を示す識別訓練基準の一つであるLF-MMI(Lattice-Free Maximum Mutual Information)は、E2E ASRフレームワークで採用されることは稀である。 本研究では,LF-MMI基準をE2E ASRフレームワークに統合する新たな手法を提案する。 提案手法は,AED(Attention-Based Encoder-Decoders)やNT(Neural Transducers)など,最も広く使用されているE2Eフレームワークに対して有効であることを示す。 LF-MMI基準の導入は、さまざまなデータセットと異なるE2E ASRフレームワークにおいて、一貫して大幅なパフォーマンス向上をもたらすことが実験的に示唆されている。 Aishell-1開発/テストセット上での競合CERの4.1\%/4.4\%を実現し,Aishell-2とLibrispeechデータセットの強いベースライン上での大幅なエラー低減を実現した。

Recently, End-to-End (E2E) frameworks have achieved remarkable results on various Automatic Speech Recognition (ASR) tasks. However, Lattice-Free Maximum Mutual Information (LF-MMI), as one of the discriminative training criteria that show superior performance in hybrid ASR systems, is rarely adopted in E2E ASR frameworks. In this work, we propose a novel approach to integrate LF-MMI criterion into E2E ASR frameworks in both training and decoding stages. The proposed approach shows its effectiveness on two of the most widely used E2E frameworks including Attention-Based Encoder-Decoders (AEDs) and Neural Transducers (NTs). Experiments suggest that the introduction of the LF-MMI criterion consistently leads to significant performance improvements on various datasets and different E2E ASR frameworks. The best of our models achieves competitive CER of 4.1\% / 4.4\% on Aishell-1 dev/test set; we also achieve significant error reduction on Aishell-2 and Librispeech datasets over strong baselines.
翻訳日:2021-12-07 14:25:47 公開日:2021-12-05
# ベクトルステレオグラフィーによるテキスト表現の解釈可能なプライバシー保護

Interpretable Privacy Preservation of Text Representations Using Vector Steganography ( http://arxiv.org/abs/2112.02557v1 )

ライセンス: Link先を確認
Geetanjali Bihani(参考訳) 言語モデル(LM)が生成する文脈表現は、トレーニングコーパスに存在する刺激的な関連を学習する。 最近の知見では、敵はこれらの関連を利用してコーパス内で言及されているエンティティのプライベート属性をリバースエンジニアリングすることができる。 これらの知見は言語モデルのプライバシーリスクを最小化するための努力につながった。 しかし、既存のアプローチには解釈性がなく、データユーティリティーに妥協があり、プライバシの保証を提供していない。 そこで、私の博士研究の目的は、プライバシーを保証しながらデータの有用性を維持するテキスト表現のプライバシー保護に対する解釈可能なアプローチを開発することである。 そこで,本稿では,学習中に学習される分布的意味的性質を損なうために,ベクトル幾何学にステガノグラフィー的修正を組み込む手法を研究・開発することを目的としている。

Contextual word representations generated by language models (LMs) learn spurious associations present in the training corpora. Recent findings reveal that adversaries can exploit these associations to reverse-engineer the private attributes of entities mentioned within the corpora. These findings have led to efforts towards minimizing the privacy risks of language models. However, existing approaches lack interpretability, compromise on data utility and fail to provide privacy guarantees. Thus, the goal of my doctoral research is to develop interpretable approaches towards privacy preservation of text representations that retain data utility while guaranteeing privacy. To this end, I aim to study and develop methods to incorporate steganographic modifications within the vector geometry to obfuscate underlying spurious associations and preserve the distributional semantic properties learnt during training.
翻訳日:2021-12-07 14:25:26 公開日:2021-12-05
# PSI: 自律走行車のための歩行者行動データセット

PSI: A Pedestrian Behavior Dataset for Socially Intelligent Autonomous Car ( http://arxiv.org/abs/2112.02604v1 )

ライセンス: Link先を確認
Tina Chen, Renran Tian, Yaobin Chen, Joshua Domeyer, Heishiro Toyoda, Rini Sherony, Taotao Jing, Zhengming Ding(参考訳) 歩行者行動の予測は、完全自動運転車が街路を安全かつ効率的に走行するために重要である。 未来の自動運転車は、技術的だけでなく社会的能力も混ざった状態に収まる必要がある。 歩行者の行動を予測するアルゴリズムやデータセットが開発されるにつれて、これらの取り組みにはベンチマークラベルや歩行者の時間的動的意図の変化を推定し、インタラクションシーンの説明を提供し、社会的知性を備えたアルゴリズムをサポートする能力が欠如している。 本稿では、IUPUI-CSRC Pedestrian Situated Intent (PSI) と呼ばれる別のベンチマークデータセットを提案し、共有する。 最初の新しいラベルは、歩行者がエゴ車の前を横断する動的な意図の変化であり、背景の異なる24人のドライバーによって達成される。 2つ目は、歩行者の意図を推定し、対話期間中の行動を予測する際の、運転者の推論過程のテキストに基づく説明である。 これらの革新的なラベルは、歩行者の意図/行動予測、車両とペデストリアンのインタラクションセグメンテーション、説明可能なアルゴリズムのためのビデオから言語へのマッピングなど、いくつかのコンピュータビジョンタスクを可能にする。 リリースされたデータセットは、歩行者行動予測モデルの開発を根本的に改善し、歩行者と効率的に対話する社会的にインテリジェントな自律走行車を開発する。 データセットはさまざまなタスクで評価され、アクセスするために一般公開されている。

Prediction of pedestrian behavior is critical for fully autonomous vehicles to drive in busy city streets safely and efficiently. The future autonomous cars need to fit into mixed conditions with not only technical but also social capabilities. As more algorithms and datasets have been developed to predict pedestrian behaviors, these efforts lack the benchmark labels and the capability to estimate the temporal-dynamic intent changes of the pedestrians, provide explanations of the interaction scenes, and support algorithms with social intelligence. This paper proposes and shares another benchmark dataset called the IUPUI-CSRC Pedestrian Situated Intent (PSI) data with two innovative labels besides comprehensive computer vision labels. The first novel label is the dynamic intent changes for the pedestrians to cross in front of the ego-vehicle, achieved from 24 drivers with diverse backgrounds. The second one is the text-based explanations of the driver reasoning process when estimating pedestrian intents and predicting their behaviors during the interaction period. These innovative labels can enable several computer vision tasks, including pedestrian intent/behavior prediction, vehicle-pedestrian interaction segmentation, and video-to-language mapping for explainable algorithms. The released dataset can fundamentally improve the development of pedestrian behavior prediction models and develop socially intelligent autonomous cars to interact with pedestrians efficiently. The dataset has been evaluated with different tasks and is released to the public to access.
翻訳日:2021-12-07 14:23:51 公開日:2021-12-05
# 動的トークン正規化によるビジョントランスの改良

Dynamic Token Normalization Improves Vision Transformer ( http://arxiv.org/abs/2112.02624v1 )

ライセンス: Link先を確認
Wenqi Shao, Yixiao Ge, Zhaoyang Zhang, Xuyuan Xu, Xiaogang Wang, Ying Shan, Ping Luo(参考訳) ビジョントランスフォーマー(vit)とその変種(swain、pvtなど)は、様々なコンピュータビジョンタスクにおいて、長距離の文脈情報を学ぶ能力により、大きな成功を収めている。 層正規化(LN)はこれらのモデルにおいて重要な要素である。 しかし,各トークン内の埋め込みを正規化するため,通常のlnは異なる位置のトークンを大小同値に生成することが分かった。 トランスフォーマーは、LNの画像における位置コンテキストのような帰納バイアスをキャプチャすることは困難である。 我々は,新しい正規化器である動的トークン正規化(DTN)を提案し,各トークン(イントラトークン)内および異なるトークン(インタートークン)間で正規化を行う。 DTNにはいくつかの利点がある。 第一に、統一的な定式化に基づいているため、既存の様々な正規化法を表現できる。 次に、DTNはトークンをトークン内およびトークン間の両方で正規化することを学び、トランスフォーマーはグローバルなコンテキスト情報とローカルな位置コンテキストの両方をキャプチャできる。 第三に、単にLN層を置き換えることで、DTNはViT、Swin、PVT、LeViT、T2T-ViT、BigBird、Reformerといった様々な視覚変換器に簡単に接続できる。 DTNを組み込んだ変圧器は、最小限の余剰パラメータと計算オーバーヘッドでベースラインモデルより一貫して優れていた。 例えば、DTN は ImageNet で LN を0.5 %$ - $1.2 %$ トップ-1 精度で、COCO ベンチマークでオブジェクト検出で 1.2 ドル - $1.4 ドル AP で、2.3 %$ - $3.9 %$ mCE で、ImageNet-C でロバストネス実験で 2.9 %$ mCE で、Long-Range Arena で Long ListOps で 0. %$$0.8 %$ で 0.5 % で上回っている。 } コードは \url{https://github.com/w qshao126/dtn} で公開される。

Vision Transformer (ViT) and its variants (e.g., Swin, PVT) have achieved great success in various computer vision tasks, owing to their capability to learn long-range contextual information. Layer Normalization (LN) is an essential ingredient in these models. However, we found that the ordinary LN makes tokens at different positions similar in magnitude because it normalizes embeddings within each token. It is difficult for Transformers to capture inductive bias such as the positional context in an image with LN. We tackle this problem by proposing a new normalizer, termed Dynamic Token Normalization (DTN), where normalization is performed both within each token (intra-token) and across different tokens (inter-token). DTN has several merits. Firstly, it is built on a unified formulation and thus can represent various existing normalization methods. Secondly, DTN learns to normalize tokens in both intra-token and inter-token manners, enabling Transformers to capture both the global contextual information and the local positional context. {Thirdly, by simply replacing LN layers, DTN can be readily plugged into various vision transformers, such as ViT, Swin, PVT, LeViT, T2T-ViT, BigBird and Reformer. Extensive experiments show that the transformer equipped with DTN consistently outperforms baseline model with minimal extra parameters and computational overhead. For example, DTN outperforms LN by $0.5\%$ - $1.2\%$ top-1 accuracy on ImageNet, by $1.2$ - $1.4$ box AP in object detection on COCO benchmark, by $2.3\%$ - $3.9\%$ mCE in robustness experiments on ImageNet-C, and by $0.5\%$ - $0.8\%$ accuracy in Long ListOps on Long-Range Arena.} Codes will be made public at \url{https://github.com/w qshao126/DTN}
翻訳日:2021-12-07 14:22:40 公開日:2021-12-05
# ユーザ生成データの短文分類のためのコンテキスト多視点クエリ学習

Contextual Multi-View Query Learning for Short Text Classification in User-Generated Data ( http://arxiv.org/abs/2112.02611v1 )

ライセンス: Link先を確認
Payam Karisani, Negin Karisani, Li Xiong(参考訳) 例えば、アウトブレイクの早期発見や個人的観察の抽出など、ユーザ生成コンテンツのマイニングは、十分なトレーニングデータ、短い文書の長さ、非公式な言語モデルが不足している。 そこで,本研究では,多視点能動学習モデル(Context-aware Co-testing with Bagging (COCOBA))を提案する。 COCOBAは2つのビューを構築するためにユーザ投稿のコンテキストを利用する。 次に、各ビューにおける表現の分布を使用して、反対のクラスに割り当てられた領域を検出する。 これにより、2人のベース学習者が同意しないコンテキストを効果的に検出する。 また,提案モデルでは,ユーザ投稿のノイズの多い言語に対応するために,コミュニティによる問合せモデルも採用している。 実験では、このモデルが複数の重要なtwitterタスクに適用可能であること、および既存のベースラインを大きく上回っていることを検証した。

Mining user-generated content--e.g., for the early detection of outbreaks or for extracting personal observations--often suffers from the lack of enough training data, short document length, and informal language model. We propose a novel multi-view active learning model, called Context-aware Co-testing with Bagging (COCOBA), to address these issues in the classification tasks tailored for a query word--e.g., detecting illness reports given the disease name. COCOBA employs the context of user postings to construct two views. Then it uses the distribution of the representations in each view to detect the regions that are assigned to the opposite classes. This effectively leads to detecting the contexts that the two base learners disagree on. Our model also employs a query-by-committee model to address the usually noisy language of user postings. The experiments testify that our model is applicable to multiple important representative Twitter tasks and also significantly outperforms the existing baselines.
翻訳日:2021-12-07 14:21:31 公開日:2021-12-05
# BERTMap: BERTベースのオントロジーアライメントシステム

BERTMap: A BERT-based Ontology Alignment System ( http://arxiv.org/abs/2112.02682v1 )

ライセンス: Link先を確認
Yuan He, Jiaoyan Chen, Denvar Antonyrajah, Ian Horrocks(参考訳) オントロジー整合(オントロジー整合(OM))は、知識統合において重要な役割を果たす。 多くのドメインで機械学習が成功したため、OMでは採用されている。 しかし、アドホックな特徴工学や非コンテキストの単語埋め込みをしばしば採用する既存の手法は、特に教師なし環境では、ルールベースのシステムよりは優れていない。 本稿では,教師なし設定と半教師なし設定の両方をサポートするBERTMapという新しいOMシステムを提案する。 まず、オントロジーから抽出したテキストセマンティクスコーパスに基づいて文脈埋め込みモデルBERTを微調整した分類器を用いてマッピングを予測し、オントロジー構造と論理を利用して拡張と修復によってマッピングを洗練する。 バイオメディカルオントロジーにおける3つのアライメントタスクによる評価は、BERTMapが主要なOMシステムであるLogMapやAMLよりもよく動作することを示す。

Ontology alignment (a.k.a ontology matching (OM)) plays a critical role in knowledge integration. Owing to the success of machine learning in many domains, it has been applied in OM. However, the existing methods, which often adopt ad-hoc feature engineering or non-contextual word embeddings, have not yet outperformed rule-based systems especially in an unsupervised setting. In this paper, we propose a novel OM system named BERTMap which can support both unsupervised and semi-supervised settings. It first predicts mappings using a classifier based on fine-tuning the contextual embedding model BERT on text semantics corpora extracted from ontologies, and then refines the mappings through extension and repair by utilizing the ontology structure and logic. Our evaluation with three alignment tasks on biomedical ontologies demonstrates that BERTMap can often perform better than the leading OM systems LogMap and AML.
翻訳日:2021-12-07 13:50:42 公開日:2021-12-05
# 雑音ラベル抑制のための事前指導型ロバストモデル学習

Sample Prior Guided Robust Model Learning to Suppress Noisy Labels ( http://arxiv.org/abs/2112.01197v2 )

ライセンス: Link先を確認
Wenkai Chen, Chuang Zhu, Yi Chen(参考訳) 不完全なラベルは現実世界のデータセットに広く存在しており、モデルのパフォーマンスを著しく損なう。 最近の雑音ラベル処理には2つの重要なステップがある。 1) サンプルを清潔にラベル付けし、不正にラベル付けしたセットに、トレーニング損失により分割すること。 2) 半教師付き手法を用いて, 間違ったラベル付き集合のサンプルの擬似ラベルを生成する。 しかし, 従来の手法は, 硬度試料と雑音試料との類似の損失分布により, 常に情報的硬度試料を破損させる。 本稿では,サンプルの事前知識を生成し,ノイズを抑制するための深層モデルを構築するための新しいフレームワークであるpgdf(prior guided denoising framework)を提案し,サンプルの分割ステップと半教師付きステップの両方に統合した。 私たちのフレームワークは、より情報に富んだクリーンなサンプルをクリーンなラベル付きセットに保存できます。 さらに, 疑似ラベル生成方式のノイズを抑制することにより, 半教師あり段階における擬似ラベルの品質向上を図る。 ハードサンプルをさらに強化するため、トレーニング中にクリーンラベル付きセットでサンプルを重み付けする。 CIFAR-10とCIFAR-100と実世界のWebVisionとChrothing1Mに基づく合成データセットを用いて評価を行った。 その結果,最先端手法よりも大幅に改善が見られた。

Imperfect labels are ubiquitous in real-world datasets and seriously harm the model performance. Several recent effective methods for handling noisy labels have two key steps: 1) dividing samples into cleanly labeled and wrongly labeled sets by training loss, 2) using semi-supervised methods to generate pseudo-labels for samples in the wrongly labeled set. However, current methods always hurt the informative hard samples due to the similar loss distribution between the hard samples and the noisy ones. In this paper, we proposed PGDF (Prior Guided Denoising Framework), a novel framework to learn a deep model to suppress noise by generating the samples' prior knowledge, which is integrated into both dividing samples step and semi-supervised step. Our framework can save more informative hard clean samples into the cleanly labeled set. Besides, our framework also promotes the quality of pseudo-labels during the semi-supervised step by suppressing the noise in the current pseudo-labels generating scheme. To further enhance the hard samples, we reweight the samples in the cleanly labeled set during training. We evaluated our method using synthetic datasets based on CIFAR-10 and CIFAR-100, as well as on the real-world datasets WebVision and Clothing1M. The results demonstrate substantial improvements over state-of-the-art methods.
翻訳日:2021-12-07 12:07:04 公開日:2021-12-05
# 深部ステレオマッチングネットワークにおける局所類似パターンとコスト自己再構成

Local Similarity Pattern and Cost Self-Reassembling for Deep Stereo Matching Networks ( http://arxiv.org/abs/2112.01011v2 )

ライセンス: Link先を確認
Biyang Liu, Huimin Yu, Yangqi Long(参考訳) 畳み込みニューラルネットワークに基づくステレオマッチングアーキテクチャは素晴らしい成果を上げているが、まだいくつかの制限がある。 1)進化的特徴 (CF) は出現情報を捉える傾向があり, 正確なマッチングには不十分である。 2) 静的フィルタにより, 電流畳み込みに基づく不均質化モジュールはしばしば過度に滑らかな結果をもたらす。 本稿では,これらの問題に対処するための2つのスキームについて述べる。 まず,LSP(Local similarity Pattern)と呼ばれる,深層ステレオマッチングネットワークのためのペア機能を提案する。 隣接する関係を明確に明らかにすることで、LSPはリッチな構造情報を含み、CFをより識別的な特徴記述に役立てることができる。 第2に,動的自己組み換え改良戦略を設計し,コスト分布と分散マップにそれぞれ適用する。 前者は平滑な問題を緩和するために一様分布制約を備えることができ、後者はより実用的なものである。 提案手法の有効性は,gwcnetとganet-deepの2つの基本アーキテクチャに組み込むことにより実証された。 SceneFlow と KITTI のベンチマークによる実験結果から,我々のモジュールはモデルの性能を大幅に向上することがわかった。

Although convolution neural network based stereo matching architectures have made impressive achievements, there are still some limitations: 1) Convolutional Feature (CF) tends to capture appearance information, which is inadequate for accurate matching. 2) Due to the static filters, current convolution based disparity refinement modules often produce over-smooth results. In this paper, we present two schemes to address these issues, where some traditional wisdoms are integrated. Firstly, we introduce a pairwise feature for deep stereo matching networks, named LSP (Local Similarity Pattern). Through explicitly revealing the neighbor relationships, LSP contains rich structural information, which can be leveraged to aid CF for more discriminative feature description. Secondly, we design a dynamic self-reassembling refinement strategy and apply it to the cost distribution and the disparity map respectively. The former could be equipped with the unimodal distribution constraint to alleviate the over-smoothing problem, and the latter is more practical. The effectiveness of the proposed methods is demonstrated via incorporating them into two well-known basic architectures, GwcNet and GANet-deep. Experimental results on the SceneFlow and KITTI benchmarks show that our modules significantly improve the performance of the model.
翻訳日:2021-12-07 12:06:33 公開日:2021-12-05