このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220124となっている論文です。

PDF登録状況(公開日: 20220124)

TitleAuthorsAbstract論文公表日・翻訳日
# 知識グラフに基づく波形推薦:新しい通信波形設計パラダイム

Knowledge Graph Based Waveform Recommendation: A New Communication Waveform Design Paradigm ( http://arxiv.org/abs/2202.01926v1 )

ライセンス: Link先を確認
Wei Huang, Tianfu Qi, Yundi Guan, Qihang Peng, Jun Wang(参考訳) 伝統的に、コミュニケーション波形は、コミュニケーション理論とその経験に基づく専門家によって、ケースバイケースベースで設計される。 本稿では,新しい視点から波形設計を考察し,知識グラフ(kg)に基づく知的レコメンデーションシステムを用いた新しい波形設計パラダイムを提案する。 提案手法は,既存の波形の構造的特徴と表現により設計効率を向上し,そこから学んだ知識をインテリジェントに活用することを目的としている。 この目的を達成するために,まず,構造的意味知識と波形の数値パラメータの両方を表現学習により統合した一階隣接ノードを用いた通信波形知識グラフ(cwkg)を構築する。 開発したCWKGに基づいて、波形候補を生成するインテリジェント通信波形推薦システム(CWRS)を提案する。 CWRSでは、特徴抽出のためのKGベースの波形表現の特徴に基づき、チャネル非依存かつ空間固有な改良された畳み込み1D演算子を導入し、特徴融合のための様々な成分の影響を評価するためにマルチヘッド自己注意法を採用した。 一方,多層パーセプトロンを用いた協調フィルタを用いて,必要条件と波形候補との整合度を評価する。 シミュレーションの結果,提案したCWKGベースのCWRSは,信頼性の高い波形候補を自動的に推薦できることがわかった。

Traditionally, a communication waveform is designed by experts based on communication theory and their experiences on a case-by-case basis, which is usually laborious and time-consuming. In this paper, we investigate the waveform design from a novel perspective and propose a new waveform design paradigm with the knowledge graph (KG)-based intelligent recommendation system. The proposed paradigm aims to improve the design efficiency by structural characterization and representations of existing waveforms and intelligently utilizing the knowledge learned from them. To achieve this goal, we first build a communication waveform knowledge graph (CWKG) with a first-order neighbor node, for which both structured semantic knowledge and numerical parameters of a waveform are integrated by representation learning. Based on the developed CWKG, we further propose an intelligent communication waveform recommendation system (CWRS) to generate waveform candidates. In the CWRS, an improved involution1D operator, which is channel-agnostic and space-specific, is introduced according to the characteristics of KG-based waveform representation for feature extraction, and the multi-head self-attention is adopted to weigh the influence of various components for feature fusion. Meanwhile, multilayer perceptron-based collaborative filtering is used to evaluate the matching degree between the requirement and the waveform candidate. Simulation results show that the proposed CWKG-based CWRS can automatically recommend waveform candidates with high reliability.
翻訳日:2022-02-13 14:53:58 公開日:2022-01-24
# aiの透明性向上のための方法論の評価 - ケーススタディ

Evaluating a Methodology for Increasing AI Transparency: A Case Study ( http://arxiv.org/abs/2201.13224v1 )

ライセンス: Link先を確認
David Piorkowski, John Richards, Michael Hind(参考訳) 人工知能(AI)の潜在的な害に対する懸念が高まる中、社会はAIモデルやシステムの作成と利用についてより透明性を求めるようになった。 これらの懸念に対処するために、モデル開発者が答えるべき質問を含むドキュメントテンプレートを提案している。 これらのテンプレートは有用な出発点を提供するが、多様なドキュメンテーションコンシューマのニーズをカバーできる単一のテンプレートは存在しない。 しかし、原則として、本当に有用なドキュメントを生成するために反復可能な方法論を作成することは可能である。 Richardsら。 25] 特定のドキュメントのニーズを特定し,それらのニーズに対応するテンプレートを作成するための方法論を提案しました。 これは有望な提案であるが、評価されていない。 本稿では、いくつかのAIモデルの透明性を高めるために、医療分野におけるAIチームの経験を報告し、実際にこのユーザ中心の方法論を初めて評価する。 この方法論は、ユーザ中心のテクニックを訓練していない開発者が使用でき、異なるモデルやユースケースで再利用しながら、コンシューマの特定のニーズに対処するドキュメントテンプレートの作成をガイドする。 本手法の便益と費用を概説し,方法論と支援ツールの双方についてさらに改善するための提案を行う。

In reaction to growing concerns about the potential harms of artificial intelligence (AI), societies have begun to demand more transparency about how AI models and systems are created and used. To address these concerns, several efforts have proposed documentation templates containing questions to be answered by model developers. These templates provide a useful starting point, but no single template can cover the needs of diverse documentation consumers. It is possible in principle, however, to create a repeatable methodology to generate truly useful documentation. Richards et al. [25] proposed such a methodology for identifying specific documentation needs and creating templates to address those needs. Although this is a promising proposal, it has not been evaluated. This paper presents the first evaluation of this user-centered methodology in practice, reporting on the experiences of a team in the domain of AI for healthcare that adopted it to increase transparency for several AI models. The methodology was found to be usable by developers not trained in user-centered techniques, guiding them to creating a documentation template that addressed the specific needs of their consumers while still being reusable across different models and use cases. Analysis of the benefits and costs of this methodology are reviewed and suggestions for further improvement in both the methodology and supporting tools are summarized.
翻訳日:2022-02-06 08:34:15 公開日:2022-01-24
# ハイブリッド深層学習による炭素排出権購入戦略--上海のパイロット市場を事例として

A hybrid deep learning approach for purchasing strategy of carbon emission rights -- Based on Shanghai pilot market ( http://arxiv.org/abs/2201.13235v1 )

ライセンス: Link先を確認
Jiayue Xu(参考訳) 炭素排出権の価格は、炭素取引市場において重要な役割を果たす。 そのため、正確な価格予測が重要である。 上海のパイロット市場を例として、企業における二酸化炭素購入戦略の設計と、購買コストの低減を支援する炭素排出価格予測モデルの構築を試みた。 予測をより正確にするために,一般化された自己回帰条件付きヘテロスケクタスティック(garch)をゲートリカレントユニット(gru)モデルに組み込んだハイブリッドディープラーニングモデルを構築し,他のモデルと比較した。 そこで,氷山秩序理論と予測価格に基づいて,炭素排出権の購入戦略を提案した。 その結果、GARCH-GRUモデルの5日間のスライディング時間ウインドウによる予測誤差は、全6モデルの最小値であった。 また,シミュレーションでは,GARCH-GRUモデルに基づく購入戦略を最小コストで実行した。 ハイブリッド深層学習法によって構築された炭素排出購入戦略は、正確なタイミング信号を送信でき、企業は炭素排出許可の購入コストを削減できる。

The price of carbon emission rights play a crucial role in carbon trading markets. Therefore, accurate prediction of the price is critical. Taking the Shanghai pilot market as an example, this paper attempted to design a carbon emission purchasing strategy for enterprises, and establish a carbon emission price prediction model to help them reduce the purchasing cost. To make predictions more precise, we built a hybrid deep learning model by embedding Generalized Autoregressive Conditional Heteroskedastic (GARCH) into the Gate Recurrent Unit (GRU) model, and compared the performance with those of other models. Then, based on the Iceberg Order Theory and the predicted price, we proposed the purchasing strategy of carbon emission rights. As a result, the prediction errors of the GARCH-GRU model with a 5-day sliding time window were the minimum values of all six models. And in the simulation, the purchasing strategy based on the GARCH-GRU model was executed with the least cost as well. The carbon emission purchasing strategy constructed by the hybrid deep learning method can accurately send out timing signals, and help enterprises reduce the purchasing cost of carbon emission permits.
翻訳日:2022-02-06 08:33:09 公開日:2022-01-24
# 混合モダリティコーパスのための統一多モード振れ復元フレームワーク

Unified Multimodal Punctuation Restoration Framework for Mixed-Modality Corpus ( http://arxiv.org/abs/2202.00468v1 )

ライセンス: Link先を確認
Yaoming Zhu, Liwei Wu, Shanbo Cheng, Mingxuan Wang(参考訳) 句読点復元タスクは,自動音声認識システムの出力書き起こしを正しく句読点することを目的としている。 以前の句読点モデルは、テキストのみを使用するか、対応する音声を要求するかのいずれかで、実際のシーンによって制約される傾向がある。 本論文では,混合文を単一モデルで句読点する,UniPuncという統合多モーダル句読点復元フレームワークを提案する。 UniPuncは共有潜在空間における音声と非音響のサンプルを共同で表現し、モデルがハイブリッド表現を学習し、両方の種類のサンプルを句読する。 実世界のデータセットに対するUniPuncの有効性を検証し、様々な強力なベースライン(BERT、MuSeなど)を少なくとも0.8の総合F1スコアで上回り、新しい最先端のデータベースを作成する。 広範な実験により、unipuncの設計は広く普及した解決策であることが示され、以前のモデルにグラフトすることで、unipuncは混合コーパス上で句読化を可能にする。 私たちのコードはgithub.com/Yaoming95 /UniPuncで利用可能です。

The punctuation restoration task aims to correctly punctuate the output transcriptions of automatic speech recognition systems. Previous punctuation models, either using text only or demanding the corresponding audio, tend to be constrained by real scenes, where unpunctuated sentences are a mixture of those with and without audio. This paper proposes a unified multimodal punctuation restoration framework, named UniPunc, to punctuate the mixed sentences with a single model. UniPunc jointly represents audio and non-audio samples in a shared latent space, based on which the model learns a hybrid representation and punctuates both kinds of samples. We validate the effectiveness of the UniPunc on real-world datasets, which outperforms various strong baselines (e.g. BERT, MuSe) by at least 0.8 overall F1 scores, making a new state-of-the-art. Extensive experiments show that UniPunc's design is a pervasive solution: by grafting onto previous models, UniPunc enables them to punctuate on the mixed corpus. Our code is available at github.com/Yaoming95 /UniPunc
翻訳日:2022-02-06 08:15:53 公開日:2022-01-24
# インターネットプロトコルと行動分類を用いたオンライン異常検出

Online Assessment Misconduct Detection using Internet Protocol and Behavioural Classification ( http://arxiv.org/abs/2201.13226v1 )

ライセンス: Link先を確認
Leslie Ching Ow Tiong, HeeJeong Jasmine Lee, Kai Li Lim(参考訳) 近年の遠隔教育の普及に伴い、アカデミックアセスメントはしばしばオンラインで行われ、アセスメントの不正行為に関するさらなる懸念につながっている。 本稿では,オンラインアセスメント不正行為(e-cheating)の可能性を調査し,それに対する実践的対策を提案する。 オンライン不正行為の行為を検出するメカニズムは、インターネットプロトコル(ip)検出器と行動監視装置からなるe-cheating intelligent agentという形で提示される。 IP検出器は、潜在的な不正行為を減らすための早期手順としてランダム化およびユニークな評価セットを割り当てる補助検出器である。 行動モニターは、候補からの評価応答の不規則をスキャンし、さらに不正な試みを減らす。 これはディープラーニングアプローチを使用したDenseLSTMの提案を通じて強調される。 さらに、新しいPTビヘイビアデータベースが公開され、公開されている。 このデータセットで行われた実験では、DenseLSTMの有効性が確認され、分類精度は90.7%に達した。

With the recent prevalence of remote education, academic assessments are often conducted online, leading to further concerns surrounding assessment misconducts. This paper investigates the potentials of online assessment misconduct (e-cheating) and proposes practical countermeasures against them. The mechanism for detecting the practices of online cheating is presented in the form of an e-cheating intelligent agent, comprising of an internet protocol (IP) detector and a behavioural monitor. The IP detector is an auxiliary detector which assigns randomised and unique assessment sets as an early procedure to reduce potential misconducts. The behavioural monitor scans for irregularities in assessment responses from the candidates, further reducing any misconduct attempts. This is highlighted through the proposal of the DenseLSTM using a deep learning approach. Additionally, a new PT Behavioural Database is presented and made publicly available. Experiments conducted on this dataset confirm the effectiveness of the DenseLSTM, resulting in classification accuracies of up to 90.7%.
翻訳日:2022-02-06 08:15:32 公開日:2022-01-24
# (参考訳) 衛星画像における建物損傷分類のための畳み込みニューラルネットワークの解釈可能性 [全文訳有]

Interpretability in Convolutional Neural Networks for Building Damage Classification in Satellite Imagery ( http://arxiv.org/abs/2201.10523v1 )

ライセンス: CC BY 4.0
Thomas Y. Chen(参考訳) 自然災害は世界の都市、谷、海岸を定期的に破壊している。 インフラの損傷を評価するための正確かつ効率的な計算機構の展開は、チャネル資源と寿命の損失を最小化するために不可欠である。 災害前および災害後衛星画像のラベル付きデータセットを用いて,機械学習に基づくリモートセンシング手法を用いて,複数の畳み込みニューラルネットワーク(cnns)を訓練し,建物毎の損傷評価を行う。 本稿では,学習データ中の情報の最も有用なモダリティを明確化し,正確な分類モデルを作成するための,解釈可能な深層学習の新しい手法を提案する。 また、これらのモデルを最適に最適化する損失関数についても検討する。 以上の結果から,乱用前および災害後訓練データと組み合わせて被害を発生させる災害の種類を含め,被害の程度を最も正確に予測する手法として,順序交差エントロピー損失が最適であることがわかった。 さらに、グラデーション強調クラス活性化マッピング(gradle-weighted class activation mapping:grad-cam)により、モデルが使用する画像のどの部分が損傷レベルを予測するのかを定性的に表現する。 我々の研究は、人為的気候変動による人道的危機の進行に、計算的に貢献することを目指している。

Natural disasters ravage the world's cities, valleys, and shores on a regular basis. Deploying precise and efficient computational mechanisms for assessing infrastructure damage is essential to channel resources and minimize the loss of life. Using a dataset that includes labeled pre- and post- disaster satellite imagery, we take a machine learning-based remote sensing approach and train multiple convolutional neural networks (CNNs) to assess building damage on a per-building basis. We present a novel methodology of interpretable deep learning that seeks to explicitly investigate the most useful modalities of information in the training data to create an accurate classification model. We also investigate which loss functions best optimize these models. Our findings include that ordinal-cross entropy loss is the most optimal criterion for optimization to use and that including the type of disaster that caused the damage in combination with pre- and post-disaster training data most accurately predicts the level of damage caused. Further, we make progress in the qualitative representation of which parts of the images that the model is using to predict damage levels, through gradient-weighted class activation mapping (Grad-CAM). Our research seeks to computationally contribute to aiding in this ongoing and growing humanitarian crisis, heightened by anthropogenic climate change.
翻訳日:2022-01-27 11:05:13 公開日:2022-01-24
# (参考訳) MonarchNet:類似のフェノタイプを持つ蝶種からモナクバタフライを区別する [全文訳有]

MonarchNet: Differentiating Monarch Butterflies from Butterflies Species with Similar Phenotypes ( http://arxiv.org/abs/2201.10526v1 )

ライセンス: CC BY 4.0
Thomas Y. Chen(参考訳) 近年、バタフライの象徴的な移動パターンは、気候変動から殺虫剤の使用に至るまで、様々な要因から脅威にさらされている。 人口の傾向を追跡するために、科学者や市民科学者は個人を正確に特定しなければならない。 これは、他の種類の蝶、例えばバイロイ・バタフライ(英語版)のような、同様の表現型を持つ「外見のような」(絶滅危惧種の野生動物とフローラの国際貿易条約(英語版))があるため、君主蝶の研究の鍵となる。 この問題に対処し、より効率的な識別を支援するために、君主と5つの見た目の種からなる蝶の画像からなる最初の包括的なデータセットであるMonarchNetを提案する。 ベースラインのディープラーニング分類モデルをトレーニングし,バタフライと様々な外観を区別するためのツールとして利用した。 我々は,これらの特定の蝶種の計算的分類法を提供することで,生物多様性と蝶生態学の研究に貢献することを目指している。 究極の目的は、科学者が最も正確かつ効率的な方法で蝶の個体数と移動傾向を追跡することにある。

In recent years, the monarch butterfly's iconic migration patterns have come under threat from a number of factors, from climate change to pesticide use. To track trends in their populations, scientists as well as citizen scientists must identify individuals accurately. This is uniquely key for the study of monarch butterflies because there exist other species of butterfly, such as viceroy butterflies, that are "look-alikes" (coined by the Convention on International Trade in Endangered Species of Wild Fauna and Flora), having similar phenotypes. To tackle this problem and to aid in more efficient identification, we present MonarchNet, the first comprehensive dataset consisting of butterfly imagery for monarchs and five look-alike species. We train a baseline deep-learning classification model to serve as a tool for differentiating monarch butterflies and its various look-alikes. We seek to contribute to the study of biodiversity and butterfly ecology by providing a novel method for computational classification of these particular butterfly species. The ultimate aim is to help scientists track monarch butterfly population and migration trends in the most precise and efficient manner possible.
翻訳日:2022-01-27 10:56:54 公開日:2022-01-24
# (参考訳) 人工知能論文における意味的関係の予測法 [全文訳有]

A Method to Predict Semantic Relations on Artificial Intelligence Papers ( http://arxiv.org/abs/2201.10518v1 )

ライセンス: CC BY 4.0
Francisco Andrades, Ricardo \~Nanculef(参考訳) 大規模ネットワークにおけるリンクの発生を予測することは、多くの実用的なアプリケーションにおいて難しい課題である。 最近、Science4castコンペティションは、64.000のAIコンセプトのネットワークを提示し、どのトピックが将来一緒に研究されるかを参加者に予測するよう求めている。 本稿では,グラフニューラルネットワーク(Graph Neural Networks)という,ディープラーニングアプローチの新たなファミリーに基づいて,この問題に対する解決策を提案する。 この課題の結果から,グラフの内在的ダイナミクスを無視し,ターゲットリンクを囲むノードの小さなサブセットのみを用いることで,計算的に効率的で相似的なモデルを得るためには,厳密な制約を課す必要が生じたとしても,我々のソリューションは競争力があることが示唆された。 本稿では,ノードのサブグラフによる吸収と,より密度の高いサブグラフの結合という,関連する2つの異なるパターンを学習していることを示唆する。 モデルは最初のタイプのパターンを認識するのに優れているようだ。

Predicting the emergence of links in large evolving networks is a difficult task with many practical applications. Recently, the Science4cast competition has illustrated this challenge presenting a network of 64.000 AI concepts and asking the participants to predict which topics are going to be researched together in the future. In this paper, we present a solution to this problem based on a new family of deep learning approaches, namely Graph Neural Networks. The results of the challenge show that our solution is competitive even if we had to impose severe restrictions to obtain a computationally efficient and parsimonious model: ignoring the intrinsic dynamics of the graph and using only a small subset of the nodes surrounding a target link. Preliminary experiments presented in this paper suggest the model is learning two related, but different patterns: the absorption of a node by a sub-graph and union of more dense sub-graphs. The model seems to excel at recognizing the first type of pattern.
翻訳日:2022-01-27 10:52:20 公開日:2022-01-24
# (参考訳) 記述ロジックel++のためのbox組み込み [全文訳有]

Box Embeddings for the Description Logic EL++ ( http://arxiv.org/abs/2201.09919v1 )

ライセンス: CC BY 4.0
Bo Xiong, Nico Potyka, Trung-Kien Tran, Mojtaba Nayyeri, Steffen Staab(参考訳) 近年,知識ベース(KB)を用いた表現学習法が開発されている。 しかしながら、これらのアプローチは、データレベルの知識(abox)の埋め込みを学ぶことのみに焦点を当てるか、あるいは概念レベルの知識(tbox)を扱う際に固有の制限を示すかのどちらかである。 BoxELは幾何学的KB埋め込み方式で、記述論理EL++の理論で表される論理構造をよりよく捉えることができる。 boxel は kb の概念を軸並列ボックスとしてモデル化し、交叉閉包の利点、箱の中の点としてのエンティティ、アフィン変換としての概念/関係の関係を示す。 論理構造保存のためのboxelの理論的保証(音質)を示す。 つまり、損失 0 で埋め込む BoxEL の訓練されたモデルは、KB の(論理的な)モデルである。 仮定推論および実世界のタンパク質タンパク質予測実験の結果,BoxELは従来の知識グラフの埋め込み手法や最先端のEL++の埋め込み手法よりも優れていることが示された。

Recently, various methods for representation learning on Knowledge Bases (KBs) have been developed. However, these approaches either only focus on learning the embeddings of the data-level knowledge (ABox) or exhibit inherent limitations when dealing with the concept-level knowledge (TBox), e.g., not properly modelling the structure of the logical knowledge. We present BoxEL, a geometric KB embedding approach that allows for better capturing logical structure expressed in the theories of Description Logic EL++. BoxEL models concepts in a KB as axis-parallel boxes exhibiting the advantage of intersectional closure, entities as points inside boxes, and relations between concepts/entities as affine transformations. We show theoretical guarantees (soundness) of BoxEL for preserving logical structure. Namely, the trained model of BoxEL embedding with loss 0 is a (logical) model of the KB. Experimental results on subsumption reasoning and a real-world application--protein -protein prediction show that BoxEL outperforms traditional knowledge graph embedding methods as well as state-of-the-art EL++ embedding approaches.
翻訳日:2022-01-27 10:44:02 公開日:2022-01-24
# (参考訳) 最適等級木を学習する [全文訳有]

Learning Optimal Fair Classification Trees ( http://arxiv.org/abs/2201.09932v1 )

ライセンス: CC BY 4.0
Nathanael Jo, Sina Aghaei, Jack Benson, Andr\'es G\'omez, Phebe Vayanos(参考訳) 人々の生活に影響を及ぼす高い領域における機械学習の利用の増加は、解釈可能で公正なアルゴリズムに対する緊急の要求を生み出します。 これらの設定では、そのようなアルゴリズムが正確であることも重要である。 これらのニーズを念頭に置いて、任意の領域固有値制約で便利に拡張できる固定深さの最適分類木を学習するための混合整数最適化(MIO)フレームワークを提案する。 偏差閾値が一定であれば,提案手法は平均2.3%の精度でOOS(Out-of-sample)の精度を向上し,88.9%の精度でOOSの精度を向上させる。 また,様々なアルゴリズム的公平性の概念を本手法に取り入れ,意思決定者が正確性と公平性の間のトレードオフを微調整できる汎用的モデリング能力を示す。

The increasing use of machine learning in high-stakes domains -- where people's livelihoods are impacted -- creates an urgent need for interpretable and fair algorithms. In these settings it is also critical for such algorithms to be accurate. With these needs in mind, we propose a mixed integer optimization (MIO) framework for learning optimal classification trees of fixed depth that can be conveniently augmented with arbitrary domain specific fairness constraints. We benchmark our method against the state-of-the-art approach for building fair trees on popular datasets; given a fixed discrimination threshold, our approach improves out-of-sample (OOS) accuracy by 2.3 percentage points on average and obtains a higher OOS accuracy on 88.9% of the experiments. We also incorporate various algorithmic fairness notions into our method, showcasing its versatile modeling power that allows decision makers to fine-tune the trade-off between accuracy and fairness.
翻訳日:2022-01-27 10:23:48 公開日:2022-01-24
# (参考訳) 畳み込みニューラルネットワークを用いた胸部X線画像からのCOVID-19検出のための深層学習手法 [全文訳有]

A Deep Learning Approach for the Detection of COVID-19 from Chest X-Ray Images using Convolutional Neural Networks ( http://arxiv.org/abs/2201.09952v1 )

ライセンス: CC BY 4.0
Aditya Saxena and Shamsheer Pal Singh(参考訳) COVID-19(コロナウイルス)は、重症急性呼吸器症候群ウイルス(SARS-CoV-2)によるパンデミックである。 このウイルスは2019年12月半ばに中国・武漢省で初めて発見され、現在までには750万人以上の感染者と1億6700万人以上の死亡者を抱えている。 医療施設で利用可能な新型コロナウイルス検査キットの数が限られているため、商用規模で使用可能な代替診断オプションとして自動検出システムを開発・実装することが重要である。 胸部X線は、新型コロナウイルスの診断に重要な役割を果たす最初のイメージング技術である。 コンピュータビジョンとディープラーニング技術は、Chest X-ray Imagesで新型コロナウイルスウイルスを決定するのに役立つ。 大規模アノテーション付き画像データセットの高可用性により,畳み込みニューラルネットワークを用いた画像解析と分類が成功している。 本研究では,バイナリ出力を持つ5つのオープンアクセスデータセットをトレーニングしたディープ畳み込みニューラルネットワークを提案する。 モデルの性能は、事前訓練された4つの畳み込みニューラルネットワークベースモデル(COVID-Net、ResNet18、ResNet、MobileNet-V2)と比較され、提案モデルは、他の4つの事前学習モデルと比較して、検証セットに対してより良い精度を提供する。 この研究は、さらなる即興と商業規模での実施が可能な有望な結果を提供する。

The COVID-19 (coronavirus) is an ongoing pandemic caused by severe acute respiratory syndrome coronavirus 2 (SARS-CoV-2). The virus was first identified in mid-December 2019 in the Hubei province of Wuhan, China and by now has spread throughout the planet with more than 75.5 million confirmed cases and more than 1.67 million deaths. With limited number of COVID-19 test kits available in medical facilities, it is important to develop and implement an automatic detection system as an alternative diagnosis option for COVID-19 detection that can used on a commercial scale. Chest X-ray is the first imaging technique that plays an important role in the diagnosis of COVID-19 disease. Computer vision and deep learning techniques can help in determining COVID-19 virus with Chest X-ray Images. Due to the high availability of large-scale annotated image datasets, great success has been achieved using convolutional neural network for image analysis and classification. In this research, we have proposed a deep convolutional neural network trained on five open access datasets with binary output: Normal and Covid. The performance of the model is compared with four pre-trained convolutional neural network-based models (COVID-Net, ResNet18, ResNet and MobileNet-V2) and it has been seen that the proposed model provides better accuracy on the validation set as compared to the other four pre-trained models. This research work provides promising results which can be further improvise and implement on a commercial scale.
翻訳日:2022-01-27 10:09:10 公開日:2022-01-24
# (参考訳) ImpliCity: 深部活動場を持つ衛星画像からの都市モデリング [全文訳有]

ImpliCity: City Modeling from Satellite Images with Deep Implicit Occupancy Fields ( http://arxiv.org/abs/2201.09968v1 )

ライセンス: CC BY 4.0
Corinne Stucker, Bingxin Ke, Yuanwen Yue, Shengyu Huang, Iro Armeni, Konrad Schindler(参考訳) 高分解能光衛星センサと高密度ステレオアルゴリズムを組み合わせることで、宇宙から3d都市モデルを再構築できるようになった。 しかし、結果として得られるモデルは実際にはかなり騒がしく、画像にはっきりと見える小さな幾何学的特徴を見逃してしまう傾向がある。 限られたDSM品質の理由の1つは、三角形の3D点雲を明示的な高さ場や表面メッシュに還元するには早すぎる、と我々は主張する。 ポイントクラウドと基礎となるイメージをフルに利用するために、ポイントクラウドの学習された埋め込みとステレオ写真のステレオペアによって駆動される、暗黙的かつ連続的な占有領域としての3dシーンのニューラル表現である暗黙性を導入する。 画像解像度 0.5$\,$m で、ImpliCity は$\approx\,$0.7$\,$m の中央値の高さ誤差に達し、特に複雑な屋根の細部、滑らかな表面、直線的な規則的な輪郭を特徴とする、競合する手法、特にw.r.t.の建物復元よりも優れる。

High-resolution optical satellite sensors, in combination with dense stereo algorithms, have made it possible to reconstruct 3D city models from space. However, the resulting models are, in practice, rather noisy, and they tend to miss small geometric features that are clearly visible in the images. We argue that one reason for the limited DSM quality may be a too early, heuristic reduction of the triangulated 3D point cloud to an explicit height field or surface mesh. To make full use of the point cloud and the underlying images, we introduce ImpliCity, a neural representation of the 3D scene as an implicit, continuous occupancy field, driven by learned embeddings of the point cloud and a stereo pair of ortho-photos. We show that this representation enables the extraction of high-quality DSMs: with image resolution 0.5$\,$m, ImpliCity reaches a median height error of $\approx\,$0.7$\,$m and outperforms competing methods, especially w.r.t. building reconstruction, featuring intricate roof details, smooth surfaces, and straight, regular outlines.
翻訳日:2022-01-27 09:54:22 公開日:2022-01-24
# (参考訳) YOLOv5ネットワークを用いたCT画像によるCOVID-19検出 [全文訳有]

COVID-19 Detection Using CT Image Based On YOLOv5 Network ( http://arxiv.org/abs/2201.09972v1 )

ライセンス: CC BY-SA 4.0
Ruyi Qu, Yi Yang, Yuwei Wang(参考訳) コンピュータ支援診断(CAD)は、診断効率を高め、迅速かつ確実な診断を提供する医師を助け、COVID-19の治療において重要な役割を担っている。 本課題では,異常検出と分類に関する問題を解決する。 Kaggleプラットフォームが提供するデータセットと、モデルとしてYOLOv5を選択します。 本研究は, 対象物検出手法を関連作業部に導入し, 対象物検出を2つのストリーム, 1段と2段に分割する。 表現モデルはFaster RCNNとYOLOシリーズである。 次に、YOLOv5モデルの詳細について説明する。 比較実験の結果は第4節で示される。 平均精度(map)を実験のメトリクスとして選択し、より高い(平均)マップであれば、モデルが得る結果がより良くなります。 YOLOv5sのmAP@0.5 は 0.623 であり、それぞれ Faster RCNN と EfficientDet よりも0.157 と 0.101 高い。

Computer aided diagnosis (CAD) increases diagnosis efficiency, helping doctors providing a quick and confident diagnosis, it has played an important role in the treatment of COVID19. In our task, we solve the problem about abnormality detection and classification. The dataset provided by Kaggle platform and we choose YOLOv5 as our model. We introduce some methods on objective detection in the related work section, the objection detection can be divided into two streams: onestage and two stage. The representational model are Faster RCNN and YOLO series. Then we describe the YOLOv5 model in the detail. Compared Experiments and results are shown in section IV. We choose mean average precision (mAP) as our experiments' metrics, and the higher (mean) mAP is, the better result the model will gain. mAP@0.5 of our YOLOv5s is 0.623 which is 0.157 and 0.101 higher than Faster RCNN and EfficientDet respectively.
翻訳日:2022-01-27 09:21:52 公開日:2022-01-24
# (参考訳) ResNetと効率的なネットモデルに基づく車両軌道予測 [全文訳有]

The Vehicle Trajectory Prediction Based on ResNet and EfficientNet Model ( http://arxiv.org/abs/2201.09973v1 )

ライセンス: CC BY-SA 4.0
Ruyi Qu, Shukai Huang, Jiexuan Zhou, ChenXi Fan, ZhiYuan Yan(参考訳) 現在、自動走行技術の応用における大きな課題は、車両軌道の正確な予測である。 コンピュータ技術の活発な発展と畳み込み深度ニューラルネットワークの出現により、予測結果の精度が向上した。 しかし、ネットワークの深さ、幅、画像の解像度は、モデルの精度と予測結果を制限する重要な理由である。 本論文の主な革新は,ネットワーク深度を大幅に向上させるだけでなく,ネットワーク幅と画像解像度の選択肢を包括的に変更することで,モデル性能を向上すると同時に,コンピュータリソースを可能な限り節約する,RESNETネットワークと効率的なネットネットワークの組み合わせである。 また,実験結果から,提案モデルが最適予測結果を得ることを示した。 特に,本手法の損失値は,resnet 法や efficientnet 法に比べ,それぞれ4.1 未満である。

At present, a major challenge for the application of automatic driving technology is the accurate prediction of vehicle trajectory. With the vigorous development of computer technology and the emergence of convolution depth neural network, the accuracy of prediction results has been improved. But, the depth, width of the network and image resolution are still important reasons that restrict the accuracy of the model and the prediction results. The main innovation of this paper is the combination of RESNET network and efficient net network, which not only greatly increases the network depth, but also comprehensively changes the choice of network width and image resolution, so as to make the model performance better, but also save computing resources as much as possible. The experimental results also show that our proposed model obtains the optimal prediction results. Specifically, the loss value of our method is separately 4 less and 2.1 less than that of resnet and efficientnet method.
翻訳日:2022-01-27 09:17:42 公開日:2022-01-24
# (参考訳) Razmecheno:「Prozhito」のデジタルアーカイブから名付けられたエンティティ認識 [全文訳有]

Razmecheno: Named Entity Recognition from Digital Archive of Diaries "Prozhito" ( http://arxiv.org/abs/2201.09997v1 )

ライセンス: CC BY 4.0
Timofey Atnashev, Veronika Ganeeva, Roman Kazakov, Daria Matyash, Michael Sonkin, Ekaterina Voloshina, Oleg Serikov, Ekaterina Artemova(参考訳) 名前付きエンティティ認識(NER)のための既存のデータセットの大部分は、主にニュース、研究論文、ウィキペディアに基づいて構築されており、いくつかの例外は歴史的および文学的なテキストから作成されている。 さらに、さらなるラベル付けのためのデータの主なソースは英語である。 本稿は,ロシア語プロジェクト「prozhito」の日記テキストから収集した新しいデータセット「razmecheno」を作成することで,複数のギャップを埋めることを目的とする。 我々のデータセットは、日記テキストの文学研究、他ドメインからの転帰学習、低リソースまたは多言語対応のエンティティ認識など、複数の研究分野に注目されている。 ラズメチェノはペレストロイカで書かれた1331の文と14119のトークンからなる。 アノテーションスキーマは、人、特徴、場所、組織、施設の5つの一般的なエンティティタグで構成されている。 このラベル付けはYandex.Tolokaのクラウドソーシングで2段階に分けて行われる。 まず、労働者は特定のタイプの実体を含む文章を選択した。 第2に、エンティティスパンをマークする。 その結果、1113の実体が得られた。 razmechenoの実験的評価は、市販のnerツールと、事前学習されたコンテクスト化されたエンコーダの微調整によって行われる。 オープンアクセスのためのアノテーション付きデータセットをリリースします。

The vast majority of existing datasets for Named Entity Recognition (NER) are built primarily on news, research papers and Wikipedia with a few exceptions, created from historical and literary texts. What is more, English is the main source for data for further labelling. This paper aims to fill in multiple gaps by creating a novel dataset "Razmecheno", gathered from the diary texts of the project "Prozhito" in Russian. Our dataset is of interest for multiple research lines: literary studies of diary texts, transfer learning from other domains, low-resource or cross-lingual named entity recognition. Razmecheno comprises 1331 sentences and 14119 tokens, sampled from diaries, written during the Perestroika. The annotation schema consists of five commonly used entity tags: person, characteristics, location, organisation, and facility. The labelling is carried out on the crowdsourcing platfrom Yandex.Toloka in two stages. First, workers selected sentences, which contain an entity of particular type. Second, they marked up entity spans. As a result 1113 entities were obtained. Empirical evaluation of Razmecheno is carried out with off-the-shelf NER tools and by fine-tuning pre-trained contextualized encoders. We release the annotated dataset for open access.
翻訳日:2022-01-27 09:12:12 公開日:2022-01-24
# (参考訳) 神経マニフォールドクラスタリングと埋め込み [全文訳有]

Neural Manifold Clustering and Embedding ( http://arxiv.org/abs/2201.10000v1 )

ライセンス: CC BY 4.0
Zengyi Li, Yubei Chen, Yann LeCun, Friedrich T. Sommer(参考訳) 非線形多様体の和が与えられると、非線形部分空間クラスタリング(non-linear subspace clustering)または多様体クラスタリング( manifold clustering)は、多様体構造に基づく集合データポイントを対象とし、各多様体を特徴空間内の線型部分空間としてパラメータ化することを学ぶ。 ディープニューラルネットワークは、大きなキャパシティと柔軟性を考えると、高非線形設定でこの目標を達成する可能性がある。 ニューラルネットワークを用いた多様体クラスタリングを実現するには、多様体の識別を保証する領域固有の制約と、特徴空間内の線型部分空間に各多様体を埋め込む学習アルゴリズムの2つの重要な要素が必要である。 この研究は、データ拡張によって多くの制約を実装することができることを示している。 部分空間特徴学習には、最大符号化率削減(mcr$^2$)目的を用いることができる。 それらをひとつにまとめると、汎用多様体クラスタリングの新しい手法であるニューラルマニフォールドクラスタリングと埋め込み (NMCE) が得られ、オートエンコーダベースのディープサブスペースクラスタリングを著しく上回る。 さらに、より困難な自然画像データセットでは、NMCEはクラスタリング用に設計された他のアルゴリズムよりも優れている。 定性的に、NMCEは有意義で解釈可能な特徴空間を学ぶことを実証する。 NMCEの定式化は、いくつかの重要な自己教師付き学習(SSL)手法と密接に関連しているため、この研究はSSL表現学習に関するより深い理解を構築するのに役立つと考えています。

Given a union of non-linear manifolds, non-linear subspace clustering or manifold clustering aims to cluster data points based on manifold structures and also learn to parameterize each manifold as a linear subspace in a feature space. Deep neural networks have the potential to achieve this goal under highly non-linear settings given their large capacity and flexibility. We argue that achieving manifold clustering with neural networks requires two essential ingredients: a domain-specific constraint that ensures the identification of the manifolds, and a learning algorithm for embedding each manifold to a linear subspace in the feature space. This work shows that many constraints can be implemented by data augmentation. For subspace feature learning, Maximum Coding Rate Reduction (MCR$^2$) objective can be used. Putting them together yields {\em Neural Manifold Clustering and Embedding} (NMCE), a novel method for general purpose manifold clustering, which significantly outperforms autoencoder-based deep subspace clustering. Further, on more challenging natural image datasets, NMCE can also outperform other algorithms specifically designed for clustering. Qualitatively, we demonstrate that NMCE learns a meaningful and interpretable feature space. As the formulation of NMCE is closely related to several important Self-supervised learning (SSL) methods, we believe this work can help us build a deeper understanding on SSL representation learning.
翻訳日:2022-01-27 08:57:31 公開日:2022-01-24
# (参考訳) Enforced Transfer:新しいドメイン適応アルゴリズム [全文訳有]

The Enforced Transfer: A Novel Domain Adaptation Algorithm ( http://arxiv.org/abs/2201.10001v1 )

ライセンス: CC BY 4.0
Ye Gao, Brian Baucom, Karen Rose, Kristina Gordon, Hongning Wang, John Stankovic(参考訳) 既存のドメイン適応(DA)アルゴリズムはターゲットモデルをトレーニングし、ターゲットモデルを使用してターゲットデータセット内のすべてのサンプルを分類する。 このアプローチでは、ソースとターゲットデータが異なるディストリビューションから来ているという問題に対処しようとするが、ターゲットドメイン内では、いくつかのサンプルがターゲットドメインの分布よりもソースドメインの分布に近い可能性を認識することができない。 本稿では,この状況に対応する新しいdaアルゴリズムである強制伝達法を開発した。 このジレンマに対処するための単純だが効果的なアイデアは、テストフェーズ中に与えられたサンプルがソースドメインやターゲットドメインの分布に近いかどうかを決定するために、分散検出アルゴリズムを使用することである。 最初のケースでは、このサンプルはソースサンプルでトレーニングされた機械学習分類器に与えられる。 第2のケースでは、このサンプルはターゲットサンプルでトレーニングされた機械学習分類器に与えられる。 第3のケースでは、このサンプルはソースでトレーニングされたMLモデルもターゲットでトレーニングされたMLモデルも分類するのに適さないため、破棄される。 ニューラルネットワークの最初の数層が低レベルな特徴を抽出していることは広く知られているため、上記のアプローチは、3つの異なるシナリオでサンプルを分類することから、3つの異なるシナリオで経験的に決定されたレイヤの後にサンプルのアクティベーションを分類することまで拡張することができる。 Enforced Transferは、そのアイデアを実装している。 3種類のDAタスクでは、比較した最先端のアルゴリズムよりも優れています。

Existing Domain Adaptation (DA) algorithms train target models and then use the target models to classify all samples in the target dataset. While this approach attempts to address the problem that the source and the target data are from different distributions, it fails to recognize the possibility that, within the target domain, some samples are closer to the distribution of the source domain than the distribution of the target domain. In this paper, we develop a novel DA algorithm, the Enforced Transfer, that deals with this situation. A straightforward but effective idea to deal with this dilemma is to use an out-of-distribution detection algorithm to decide if, during the testing phase, a given sample is closer to the distribution of the source domain, the target domain, or neither. In the first case, this sample is given to a machine learning classifier trained on source samples. In the second case, this sample is given to a machine learning classifier trained on target samples. In the third case, this sample is discarded as neither an ML model trained on source nor an ML model trained on target is suitable to classify it. It is widely known that the first few layers in a neural network extract low-level features, so the aforementioned approach can be extended from classifying samples in three different scenarios to classifying the samples' activations after an empirically determined layer in three different scenarios. The Enforced Transfer implements the idea. On three types of DA tasks, we outperform the state-of-the-art algorithms that we compare against.
翻訳日:2022-01-27 08:34:07 公開日:2022-01-24
# (参考訳) 対照的な事前学習によるテキストとコード埋め込み [全文訳有]

Text and Code Embeddings by Contrastive Pre-Training ( http://arxiv.org/abs/2201.10005v1 )

ライセンス: CC BY 4.0
Arvind Neelakantan, Tao Xu, Raul Puri, Alec Radford, Jesse Michael Han, Jerry Tworek, Qiming Yuan, Nikolas Tezak, Jong Wook Kim, Chris Hallacy, Johannes Heidecke, Pranav Shyam, Boris Power, Tyna Eloundou Nekoul, Girish Sastry, Gretchen Krueger, David Schnurr, Felipe Petroski Such, Kenny Hsu, Madeleine Thompson, Tabarak Khan, Toki Sherbakov, Joanne Jang, Peter Welinder, Lilian Weng(参考訳) テキスト埋め込みはセマンティック検索やテキスト類似性の計算など、多くのアプリケーションで有用な機能である。 以前の作業は通常、データセットの選択、トレーニング目標、モデルアーキテクチャなど、さまざまなユースケース用にカスタマイズされたモデルをトレーニングします。 本研究では,教師なしデータに対する大規模な事前学習がテキストとコードの高品質なベクトル表現につながることを示す。 線形プローブ分類における新しい最先端結果を実現するのと同じ教師なしのテキスト埋め込みは、印象的なセマンティック検索能力を示し、時には微調整されたモデルと競合することもある。 7つのタスクを平均する線形プローブ分類精度について,最良教師なしモデルでは,従来の最良教師なしおよび教師なしテキスト埋め込みモデルと比較して,4%および1.8%の相対的改善を達成している。 同じテキストを大規模意味検索で評価すると、msmarco、natural questions、triviaqaベンチマークで比較して、23.4%、14.7%、10.6%の相対的な改善が得られる。 テキスト埋め込みと同様に、コード埋め込みモデルを(テキスト、コード)ペアでトレーニングし、コード検索における以前の最高の作業よりも20.8%改善した。

Text embeddings are useful features in many applications such as semantic search and computing text similarity. Previous work typically trains models customized for different use cases, varying in dataset choice, training objective and model architecture. In this work, we show that contrastive pre-training on unsupervised data at scale leads to high quality vector representations of text and code. The same unsupervised text embeddings that achieve new state-of-the-art results in linear-probe classification also display impressive semantic search capabilities and sometimes even perform competitively with fine-tuned models. On linear-probe classification accuracy averaging over 7 tasks, our best unsupervised model achieves a relative improvement of 4% and 1.8% over previous best unsupervised and supervised text embedding models respectively. The same text embeddings when evaluated on large-scale semantic search attains a relative improvement of 23.4%, 14.7%, and 10.6% over previous best unsupervised methods on MSMARCO, Natural Questions and TriviaQA benchmarks, respectively. Similarly to text embeddings, we train code embedding models on (text, code) pairs, obtaining a 20.8% relative improvement over prior best work on code search.
翻訳日:2022-01-27 08:19:12 公開日:2022-01-24
# バランスレートネットワークにおける入力相関がカオスと学習の抑制を阻害する

Input correlations impede suppression of chaos and learning in balanced rate networks ( http://arxiv.org/abs/2201.09916v1 )

ライセンス: Link先を確認
Rainer Engelken, Alessandro Ingrosso, Ramin Khajeh, Sven Goedeke, L. F. Abbott(参考訳) 神経回路は外部刺激によって自発的に誘発される複雑な活動パターンを示す。 神経回路における情報符号化と学習は、時間的刺激が自発的ネットワーク活動をどのように制御できるかに依存する。 本研究では, 平衡状態における発火速度ネットワークにおいて, リカレントダイナミクスの外部制御, すなわち内部生成カオス変動の抑制は, 入力の相関に大きく依存することを示す。 バランスドネットワークのユニークな特徴は、リカレントフィードバックによって外部入力が動的にキャンセルされるので、各ニューロンへの独立入力によるカオスを抑制するのが、一般的な入力よりもはるかに容易である。 この現象を研究するために, 非定常動的平均場理論を開発し, 活動統計値と最大リアプノフ指数が, 入力の周波数と振幅, 繰り返し結合強度, ネットワークサイズにどのように依存するかを検討した。 また,非相関入力がバランスのとれたネットワーク上での学習を促進することを示す。

Neural circuits exhibit complex activity patterns, both spontaneously and evoked by external stimuli. Information encoding and learning in neural circuits depend on how well time-varying stimuli can control spontaneous network activity. We show that in firing-rate networks in the balanced state, external control of recurrent dynamics, i.e., the suppression of internally-generated chaotic variability, strongly depends on correlations in the input. A unique feature of balanced networks is that, because common external input is dynamically canceled by recurrent feedback, it is far easier to suppress chaos with independent inputs into each neuron than through common input. To study this phenomenon we develop a non-stationary dynamic mean-field theory that determines how the activity statistics and largest Lyapunov exponent depend on frequency and amplitude of the input, recurrent coupling strength, and network size, for both common and independent input. We also show that uncorrelated inputs facilitate learning in balanced networks.
翻訳日:2022-01-26 16:55:00 公開日:2022-01-24
# インペラティブ深層学習プログラムのグラフ実行への転換の課題--実証的研究

Challenges in Migrating Imperative Deep Learning Programs to Graph Execution: An Empirical Study ( http://arxiv.org/abs/2201.09953v1 )

ライセンス: Link先を確認
Tatiana Castro V\'elez, Raffi Khatchadourian, Mehdi Bagherzadeh, Anita Raja(参考訳) 効率性は、特にディープラーニング(DL)システムにおいて、継続的に成長するデータセットに対する応答性をサポートするために不可欠である。 DLフレームワークは伝統的に、グラフベースのDeep Neural Network(DNN)計算をサポートする遅延実行スタイルのDLコードを採用してきた。 拡張性はあるものの、そのような開発は、エラーを起こしやすい、直感的でない、デバッグが難しいDLコードを生成する傾向があります。 その結果、より自然に、よりエラーを起こしやすいdlフレームワークが熱心に実行を奨励するが、実行時のパフォーマンスは犠牲になる。 ハイブリッドアプローチは「両方の世界のベスト」を目指しているが、それらを現実世界に適用する際の課題はほとんど不明である。 19.7のMLOCと470と446の手作業によるコードパッチとバグレポートで構成された、250のオープンソースプロジェクトを調査することで、信頼性に富んだ命令型DLコードを書くことに関わる、課題と結果として生じるバグに関するデータ駆動分析を行います。 その結果,ハイブリッド化が示唆された。 (i)apiを誤用しがちである。 (ii)はパフォーマンスの劣化を引き起こす可能性がある -- その意図とは逆で、 (iii)実行モードの非互換性による適用が制限されている。 私たちは、命令型dlコードを効果的にハイブリダイズするための推奨、ベストプラクティス、アンチパターンをいくつか発表しました。

Efficiency is essential to support responsiveness w.r.t. ever-growing datasets, especially for Deep Learning (DL) systems. DL frameworks have traditionally embraced deferred execution-style DL code that supports symbolic, graph-based Deep Neural Network (DNN) computation. While scalable, such development tends to produce DL code that is error-prone, non-intuitive, and difficult to debug. Consequently, more natural, less error-prone imperative DL frameworks encouraging eager execution have emerged but at the expense of run-time performance. While hybrid approaches aim for the "best of both worlds," the challenges in applying them in the real world are largely unknown. We conduct a data-driven analysis of challenges -- and resultant bugs -- involved in writing reliable yet performant imperative DL code by studying 250 open-source projects, consisting of 19.7 MLOC, along with 470 and 446 manually examined code patches and bug reports, respectively. The results indicate that hybridization: (i) is prone to API misuse, (ii) can result in performance degradation -- the opposite of its intention, and (iii) has limited application due to execution mode incompatibility. We put forth several recommendations, best practices, and anti-patterns for effectively hybridizing imperative DL code, potentially benefiting DL practitioners, API designers, tool developers, and educators.
翻訳日:2022-01-26 16:54:43 公開日:2022-01-24
# ニューラルネットワークを用いた可変射影法による部分微分方程式の数値近似

Numerical Approximation of Partial Differential Equations by a Variable Projection Method with Artificial Neural Networks ( http://arxiv.org/abs/2201.09989v1 )

ライセンス: Link先を確認
Suchuan Dong, Jielin Yang(参考訳) 本稿では,可変プロジェクション(VarPro)フレームワークと人工ニューラルネットワーク(ANN)に基づく線形非線形PDEの解法を提案する。 線形pdesでは、コロケーション点の境界/初期値問題を実行すると、ネットワーク係数に関する分離可能な非線形最小二乗問題が発生する。 本稿では,この問題をvarpro法を用いて再検討し,線形出力層係数を除去し,隠れ層係数のみの問題に導く。 減算問題を非線形最小二乗法によりまず解いて隠蔽層係数を決定し、次いで線形最小二乗法により出力層係数を算出する。 非線形 PDE に対して、コロケーション点上の境界/初期値問題を強制すると、分離不能な非線形最小二乗問題が発生し、そのような問題に対する VarPro の戦略が妨げられる。 非線形PDEに対するVarProアプローチを実現するために、我々はまず特定の形式の線形化を用いてニュートン反復を用いて問題を線形化する。 線形化システムは、ANNとともにVarProフレームワークによって解決される。 ニュートン反復が収束すると、ネットワーク係数は元の非線形問題に対する解場の表現を提供する。 本稿では,線形および非線形PDEを用いた数値例を多数提示し,本手法の性能を示す。 滑らかな場解では、コロケーション点数や出力層係数が増加するにつれて、電流法の誤差が指数関数的に減少する。 本手法とEMM法との比較を行った。 同一条件およびネットワーク構成下では、現在の手法はEMM法よりも精度が優れている。

We present a method for solving linear and nonlinear PDEs based on the variable projection (VarPro) framework and artificial neural networks (ANN). For linear PDEs, enforcing the boundary/initial value problem on the collocation points leads to a separable nonlinear least squares problem about the network coefficients. We reformulate this problem by the VarPro approach to eliminate the linear output-layer coefficients, leading to a reduced problem about the hidden-layer coefficients only. The reduced problem is solved first by the nonlinear least squares method to determine the hidden-layer coefficients, and then the output-layer coefficients are computed by the linear least squares method. For nonlinear PDEs, enforcing the boundary/initial value problem on the collocation points leads to a nonlinear least squares problem that is not separable, which precludes the VarPro strategy for such problems. To enable the VarPro approach for nonlinear PDEs, we first linearize the problem with a Newton iteration, using a particular form of linearization. The linearized system is solved by the VarPro framework together with ANNs. Upon convergence of the Newton iteration, the network coefficients provide the representation of the solution field to the original nonlinear problem. We present ample numerical examples with linear and nonlinear PDEs to demonstrate the performance of the method herein. For smooth field solutions, the errors of the current method decrease exponentially as the number of collocation points or the number of output-layer coefficients increases. We compare the current method with the ELM method from a previous work. Under identical conditions and network configurations, the current method exhibits an accuracy significantly superior to the ELM method.
翻訳日:2022-01-26 16:50:49 公開日:2022-01-24
# ニューラルネットワークを用いた低複雑性チャネル推定

Low Complexity Channel estimation with Neural Network Solutions ( http://arxiv.org/abs/2201.09934v1 )

ライセンス: Link先を確認
Dianxin Luan, John Thompson(参考訳) チャネル推定のための機械学習、特に無線通信のためのニューラルネットワークソリューションの研究は、現在大きな関心を集めている。 これは従来の手法では高速通信の現在の要求を満たせないためである。 本稿では、直交周波数分割多重化(OFDM)信号のチャネル推定をダウンリンクシナリオで行うために、一般的な残差畳み込みニューラルネットワークをデプロイする。 また,他のネットワークで使用される畳み込み層を置き換えるために,単純な補間層を配置し,計算コストを削減する。 提案手法は,異なるパイロットパターンとパケットサイズに容易に適応できる。 チャネル推定のための他の深層学習法と比較して,3gppチャネルモデルでは平均二乗誤差が改善することが示唆された。

Research on machine learning for channel estimation, especially neural network solutions for wireless communications, is attracting significant current interest. This is because conventional methods cannot meet the present demands of the high speed communication. In the paper, we deploy a general residual convolutional neural network to achieve channel estimation for the orthogonal frequency-division multiplexing (OFDM) signals in a downlink scenario. Our method also deploys a simple interpolation layer to replace the transposed convolutional layer used in other networks to reduce the computation cost. The proposed method is more easily adapted to different pilot patterns and packet sizes. Compared with other deep learning methods for channel estimation, our results for 3GPP channel models suggest improved mean squared error performance for our approach.
翻訳日:2022-01-26 16:14:59 公開日:2022-01-24
# EuclideanとAffine Curveの再建

Euclidean and Affine Curve Reconstruction ( http://arxiv.org/abs/2201.09929v1 )

ライセンス: Link先を確認
Jose Agudelo, Brooke Dippold, Ian Klein, Alex Kokot, Eric Geiger, Irina Kogan(参考訳) 所定のユークリッド曲率やアフィン曲率で平面曲線を再構成する実践的側面を考察する。 これらの曲率はそれぞれ特殊ユークリッド群と等アフィン群の下で不変であり、コンピュータビジョンや形状解析において重要な役割を果たす。 このような復元のためのアルゴリズムを議論・実装し,適切な測定値における曲率の近さに対する再構成曲線の密接さを推定する。 いくつかの例を挙げる。

We consider practical aspects of reconstructing planar curves with prescribed Euclidean or affine curvatures. These curvatures are invariant under the special Euclidean group and the equi-affine groups, respectively, and play an important role in computer vision and shape analysis. We discuss and implement algorithms for such reconstruction, and give estimates on how close reconstructed curves are relative to the closeness of their curvatures in appropriate metrics. Several illustrative examples are provided.
翻訳日:2022-01-26 16:14:00 公開日:2022-01-24
# 線形最小二乗に制約を加えるコストはいくらですか。

What is the cost of adding a constraint in linear least squares? ( http://arxiv.org/abs/2201.09935v1 )

ライセンス: Link先を確認
Ramakrishna Kakarala, Jun Wei(参考訳) 制約最小二乗推定(CLS)の理論はよく知られているが、通常、課される制約は避けられないという観点から適用される。 しかし、制約が任意である場合もあります。 例えば、カメラカラーキャリブレーションでは、所望の色補正マトリクスの行和の制約が課された場合、複数の色処理システムの1つが得られ、この例では、制約を課すことがより優れたシステム性能をもたらすかどうかを事前には定めていない。 本稿では,制約を付与した際の嵌合誤差の増加に接続する正確な式を導出する。 別の貢献として、測定されたデータを2つのコンポーネントに分離する投影行列を決定する方法を示す。 カラーキャリブレーション問題にこれらの結果を用いることを実証する。

Although the theory of constrained least squares (CLS) estimation is well known, it is usually applied with the view that the constraints to be imposed are unavoidable. However, there are cases in which constraints are optional. For example, in camera color calibration, one of several possible color processing systems is obtained if a constraint on the row sums of a desired color correction matrix is imposed; in this example, it is not clear a priori whether imposing the constraint leads to better system performance. In this paper, we derive an exact expression connecting the constraint to the increase in fitting error obtained from imposing it. As another contribution, we show how to determine projection matrices that separate the measured data into two components: the first component drives up the fitting error due to imposing a constraint, and the second component is unaffected by the constraint. We demonstrate the use of these results in the color calibration problem.
翻訳日:2022-01-26 16:13:54 公開日:2022-01-24
# マルチディスクリミネータGANにおけるフリーライダーの攻撃と防御

Attacks and Defenses for Free-Riders in Multi-Discriminator GAN ( http://arxiv.org/abs/2201.09967v1 )

ライセンス: Link先を確認
Zilong Zhao, Jiyue Huang, Stefanie Roos, Lydia Y. Chen(参考訳) generative adversarial networks (gans) は、現実のイメージを合成するために業界によって採用されている。 データが集中的に利用できないため、Multi-Discriminator (MD)-GANsトレーニングフレームワークでは、実際のデータに直接アクセスする複数の識別器を使用している。 ジョイントGANモデルの分散トレーニングには,トレーニングプロセスに参加するふりをしながら,共通モデルの恩恵を受けることを目的とした,フリーライダーのリスクが伴う。 本稿では,md-ganに対するfree-ridersの影響について,第1報のキャラクタリゼーション研究を行う。 MD-GANの2つの生産プロトタイプに基づいて、フリーライダーは実データと区別できない画像を生成するMD-GANの能力を劇的に削減し、生成した画像の品質を評価するための標準指標であるFIDスコアを増大させる。 モデル劣化を軽減するため, DFG と呼ばれる MD-GAN のフリーライダーに対する防御戦略を提案する。 DFGは、フリーライダーの参照応答に基づいて、周期的な探索とクラスタリングによって、フリーライダーと良心的参加者を区別し、検出されたフリーライダーをトレーニングから除外することができる。 さらに,識別器ネットワークのピア交換が可能なMD-GANの変種において,識別器がフリーライダーをフィルタリングできるようにするため,DFG+と呼ばれる防衛を拡大する。 フリーライダー,MD-GANアーキテクチャ,および3つのデータセットの様々なシナリオに対する広範囲な評価は,我々の防衛が効果的にフリーライダーを検出することを示す。 DFGとDFG+はFIDを平均5.22%、CIFAR10は11.53%、CIFAR100は5.79%、CIFAR100は13.22%に減少させる。 シェルでは、提案したDFG(+)は、無視できる計算オーバーヘッドで良質なクライアントに影響を与えることなく、効果的にフリーライダーを防御することができる。

Generative Adversarial Networks (GANs) are increasingly adopted by the industry to synthesize realistic images. Due to data not being centrally available, Multi-Discriminator (MD)-GANs training framework employs multiple discriminators that have direct access to the real data. Distributedly training a joint GAN model entails the risk of free-riders, i.e., participants that aim to benefit from the common model while only pretending to participate in the training process. In this paper, we conduct the first characterization study of the impact of free-riders on MD-GAN. Based on two production prototypes of MD-GAN, we find that free-riders drastically reduce the ability of MD-GANs to produce images that are indistinguishable from real data, i.e., they increase the FID score -- the standard measure to assess the quality of generated images. To mitigate the model degradation, we propose a defense strategy against free-riders in MD-GAN, termed DFG. DFG distinguishes free-riders and benign participants through periodic probing and clustering of discriminators' responses based on a reference response of free-riders, which then allows the generator to exclude the detected free-riders from the training. Furthermore, we extend our defense, termed DFG+, to enable discriminators to filter out free-riders at the variant of MD-GAN that allows peer exchanges of discriminators networks. Extensive evaluation on various scenarios of free-riders, MD-GAN architecture, and three datasets show that our defenses effectively detect free-riders. With 1 to 5 free-riders, DFG and DFG+ averagely decreases FID by 5.22% to 11.53% for CIFAR10 and 5.79% to 13.22% for CIFAR100 in comparison to an attack without defense. In a shell, the proposed DFG(+) can effectively defend against free-riders without affecting benign clients at a negligible computation overhead.
翻訳日:2022-01-26 16:13:39 公開日:2022-01-24
# ordinal-quadruplet: ordinal time seriesにおける欠落クラスの検索

Ordinal-Quadruplet: Retrieval of Missing Classes in Ordinal Time Series ( http://arxiv.org/abs/2201.09907v1 )

ライセンス: Link先を確認
Jurijs Nazarovs, Cristian Lumezanu, Qianying Ren, Yuncong Chen, Takehiko Mizoguchi, Dongjin Song, Haifeng Chen(参考訳) 本稿では,学習データに欠けているクラスに対して堅牢な順序付き時系列分類フレームワークを提案する。 この枠組みは,(1) ラベル間の順序関係を保ちながら潜在表現を学習させ,(2) 潜在表現の特性(順序保存)を利用するテスト手順という,新たに提案した順序-四重項損失の2つの主成分に依存している。 実世界の多変量時系列データに基づいて実験を行い、授業の40%がトレーニングに欠落しているにもかかわらず、欠落ラベルの予測が著しく改善していることを示す。 情報不足を補間したよく知られた三重項損失最適化と比較すると,精度は2倍に近い場合もある。

In this paper, we propose an ordered time series classification framework that is robust against missing classes in the training data, i.e., during testing we can prescribe classes that are missing during training. This framework relies on two main components: (1) our newly proposed ordinal-quadruplet loss, which forces the model to learn latent representation while preserving the ordinal relation among labels, (2) testing procedure, which utilizes the property of latent representation (order preservation). We conduct experiments based on real world multivariate time series data and show the significant improvement in the prediction of missing labels even with 40% of the classes are missing from training. Compared with the well-known triplet loss optimization augmented with interpolation for missing information, in some cases, we nearly double the accuracy.
翻訳日:2022-01-26 16:09:31 公開日:2022-01-24
# 確率過程における信号時間論理の学習モデルチェックとカーネルトリック

Learning Model Checking and the Kernel Trick for Signal Temporal Logic on Stochastic Processes ( http://arxiv.org/abs/2201.09928v1 )

ライセンス: Link先を確認
Luca Bortolussi, Giuseppe Maria Gallo, Jan K\v{r}et\'insk\'y, Laura Nenzi(参考訳) 信号時間論理(STL)の論理式に類似性関数を導入する。 これはカーネル関数の形で、概念的にも計算的にも効率的なツールとして機械学習でよく知られている。 対応するカーネルトリックは、特徴抽出の複雑なプロセスを回避し、すなわち(典型的には手動)フォーミュラの決定的な性質を識別し、学習を適用できるようにする。 我々は、この結果とその利点を、確率過程におけるSTL公式の(定量的な)満足度を予測するタスクに示し、カーネルとカーネルのトリックを用いて学習する。 (i)計算効率が高い (二)満足度を正確に予測すること。 (iii)明快な方法で公式を整数のベクトルに明示的に変換する方法を見つけることの難しさを避けること。 実験で達成した高精度を理論的に健全なpac保証でバックアップし,近接最適予測器を効率的に提供する。

We introduce a similarity function on formulae of signal temporal logic (STL). It comes in the form of a kernel function, well known in machine learning as a conceptually and computationally efficient tool. The corresponding kernel trick allows us to circumvent the complicated process of feature extraction, i.e. the (typically manual) effort to identify the decisive properties of formulae so that learning can be applied. We demonstrate this consequence and its advantages on the task of predicting (quantitative) satisfaction of STL formulae on stochastic processes: Using our kernel and the kernel trick, we learn (i) computationally efficiently (ii) a practically precise predictor of satisfaction, (iii) avoiding the difficult task of finding a way to explicitly turn formulae into vectors of numbers in a sensible way. We back the high precision we have achieved in the experiments by a theoretically sound PAC guarantee, ensuring our procedure efficiently delivers a close-to-optimal predictor.
翻訳日:2022-01-26 16:09:17 公開日:2022-01-24
# スペクトルグラフフィルタリングを用いたコミュニティベース異常検出

Community-based anomaly detection using spectral graph filtering ( http://arxiv.org/abs/2201.09936v1 )

ライセンス: Link先を確認
Rodrigo Francisquini, Ana Carolina Lorena, Mari\'a C. V. Nascimento(参考訳) いくつかのアプリケーションは、同じコミュニティのノードが類似の属性を共有するコミュニティ構造を持っています。 ネットワークにおける異常検出や異常検出は、様々な分野の応用に関する関連する研究テーマであり、広く研究されている。 かなりの量の異常検出フレームワークにもかかわらず、属性グラフとネットワークのコミュニティ構造の両方を考慮する手法の文献が研究されている。 本稿では,フーリエ変換の基盤としてラプラシアン行列にネットワークコミュニティ構造を含むスペクトルグラフに基づくフィルタを用いた,コミュニティに基づく異常検出アルゴリズムを提案する。 また,フィルタの遮断周波数の選択は,検出されたコミュニティの数を考慮する。 計算実験において、specfと呼ばれる提案手法は、離散的異常の特定に優れた性能を示した。 SpecFはコミュニティ構造を無視したベースラインよりも優れている。 また,ブラジルのs\~ao jos\'e dos camposの異なる地域でのcovid-19の拡散について,提案手法を検証するケーススタディを行った。

Several applications have a community structure where the nodes of the same community share similar attributes. Anomaly or outlier detection in networks is a relevant and widely studied research topic with applications in various domains. Despite a significant amount of anomaly detection frameworks, there is a dearth on the literature of methods that consider both attributed graphs and the community structure of the networks. This paper proposes a community-based anomaly detection algorithm using a spectral graph-based filter that includes the network community structure into the Laplacian matrix adopted as the basis for the Fourier transform. In addition, the choice of the cutoff frequency of the filter considers the number of communities found. In computational experiments, the proposed strategy, called SpecF, showed an outstanding performance in successfully identifying even discrete anomalies. SpecF is better than a baseline disregarding the community structure, especially for networks with a higher community overlapping. Additionally, we present a case study to validate the proposed method to study the dissemination of COVID-19 in the different districts of S\~ao Jos\'e dos Campos, Brazil.
翻訳日:2022-01-26 16:09:01 公開日:2022-01-24
# スマートグラスは感傷的なビジョンを夢見るか? 眼鏡デバイスにおける深い感情分析

Do Smart Glasses Dream of Sentimental Visions? Deep Emotionship Analysis for Eyewear Devices ( http://arxiv.org/abs/2201.09933v1 )

ライセンス: Link先を確認
Yingying Zhao, Yuhu Chang, Yutian Lu, Yujiang Wang, Mingzhi Dong, Qin Lv, Robert P. Dick, Fan Yang, Tun Lu, Ning Gu, Li Shang(参考訳) スマートメガネデバイスにおける感情認識は、非常に価値があるが、困難である。 前作の重要な制限の1つは、顔や目画像などの表情関連情報だけが感情的な証拠と見なされていることである。 しかし、感情的な状態は孤立せず、人々の視覚感覚、特に感傷的な感覚と密接な関係がある。 しかし、異なる感情の原因をよりよく説明するための研究はほとんど行われていない。 本稿では,ユーザの感情を分類するだけでなく,その潜在的原因を意味的に理解する必要があるアイウェアシステムにおける感情分析問題について検討する。 この目的のために私たちは、着用者の感情状態を自動的に検出し、同時にその意味レベルの視覚知覚との関連を解析できる、ディープラーニングベースの眼鏡システムであるemoshipを考案する。 20人の被験者による実験的研究により、感情認識は、既存の方法(80.2%対69.4%)よりも優れた感情認識精度を達成するだけでなく、感情の原因に関する貴重な理解を提供する。 20人の被験者によるパイロット研究により、感情認識アプリケーション(感情的自己反射や感情的生涯記録など)にエモレーションを活用できる可能性はさらに動機づけられる。

Emotion recognition in smart eyewear devices is highly valuable but challenging. One key limitation of previous works is that the expression-related information like facial or eye images is considered as the only emotional evidence. However, emotional status is not isolated; it is tightly associated with people's visual perceptions, especially those sentimental ones. However, little work has examined such associations to better illustrate the cause of different emotions. In this paper, we study the emotionship analysis problem in eyewear systems, an ambitious task that requires not only classifying the user's emotions but also semantically understanding the potential cause of such emotions. To this end, we devise EMOShip, a deep-learning-based eyewear system that can automatically detect the wearer's emotional status and simultaneously analyze its associations with semantic-level visual perceptions. Experimental studies with 20 participants demonstrate that, thanks to the emotionship awareness, EMOShip not only achieves superior emotion recognition accuracy over existing methods (80.2% vs. 69.4%), but also provides a valuable understanding of the cause of emotions. Pilot studies with 20 participants further motivate the potential use of EMOShip to empower emotion-aware applications, such as emotionship self-reflection and emotionship life-logging.
翻訳日:2022-01-26 15:44:31 公開日:2022-01-24
# HC4: Ad Hoc CLIR用の新しいテストコレクションスイート

HC4: A New Suite of Test Collections for Ad Hoc CLIR ( http://arxiv.org/abs/2201.09992v1 )

ライセンス: Link先を確認
Dawn Lawrie and James Mayfield and Douglas Oard and Eugene Yang(参考訳) HC4はアドホックなCross-Language Information Retrieval(CLIR)のための新しいテストコレクションであり、中国語、ペルシア語、ロシア語のCommon Crawl Newsドキュメント、英語とドキュメント言語におけるトピック、およびグレードドされた関連判断を含んでいる。 従来のCLIR実行のプーリングを使用して構築された既存のCLIRテストコレクションは、神経CLIRメソッドの評価に使用する場合、関連性判断に体系的なギャップがあるため、新しいテストコレクションが必要である。 HC4のコレクションには、60のトピックと、中国語とペルシア語それぞれ50万のドキュメント、54のトピックと500万のドキュメントが含まれている。 対話型検索と判断を用いて,どの文書に注釈を付けるかを決定するために,アクティブラーニングが用いられた。 文書は3段階の関連尺度で判断された。 本稿では,新しいテストコレクションの設計と構築について述べるとともに,システム評価の実用性を実証するためのベースライン結果を提供する。

HC4 is a new suite of test collections for ad hoc Cross-Language Information Retrieval (CLIR), with Common Crawl News documents in Chinese, Persian, and Russian, topics in English and in the document languages, and graded relevance judgments. New test collections are needed because existing CLIR test collections built using pooling of traditional CLIR runs have systematic gaps in their relevance judgments when used to evaluate neural CLIR methods. The HC4 collections contain 60 topics and about half a million documents for each of Chinese and Persian, and 54 topics and five million documents for Russian. Active learning was used to determine which documents to annotate after being seeded using interactive search and judgment. Documents were judged on a three-grade relevance scale. This paper describes the design and construction of the new test collections and provides baseline results for demonstrating their utility for evaluating systems.
翻訳日:2022-01-26 15:35:17 公開日:2022-01-24
# 摂動リワードによる文脈帯域学習

Learning Contextual Bandits Through Perturbed Rewards ( http://arxiv.org/abs/2201.09910v1 )

ライセンス: Link先を確認
Yiling Jia, Weitong Zhang, Dongruo Zhou, Quanquan Gu, Hongning Wang(参考訳) 表現学習の力のおかげで、ニューラルネットワークの文脈的バンディットアルゴリズムは、古典的なアルゴリズムよりも優れたパフォーマンスを示している。 しかし、その探索は、ほぼ最適な後悔を得るために、ニューラルネットワークパラメータ空間全体で行う必要があるため、計算コストは違法に高い。 我々は、明示的な探索とそれに対応する計算オーバーヘッドを排除するために、ニューラルネットワークを更新する際の報酬を摂動する。 我々は、$\tilde{O}(\tilde{d}\sqrt{T})$ regret upper bound が標準正規性条件下でも達成可能であることを証明し、$T$ は相互作用のラウンド数であり、$\tilde{d}$ はニューラル接核行列の有効次元である。 最近の2つのニューラルコンテクストバンディットモデルを含む、いくつかのベンチマークコンテクストバンディットアルゴリズムとの広範な比較は、提案するニューラルバンディットアルゴリズムの有効性と計算効率を示している。

Thanks to the power of representation learning, neural contextual bandit algorithms demonstrate remarkable performance improvement against their classical counterparts. But because their exploration has to be performed in the entire neural network parameter space to obtain nearly optimal regret, the resulting computational cost is prohibitively high. We perturb the rewards when updating the neural network to eliminate the need of explicit exploration and the corresponding computational overhead. We prove that a $\tilde{O}(\tilde{d}\sqrt{T})$ regret upper bound is still achievable under standard regularity conditions, where $T$ is the number of rounds of interactions and $\tilde{d}$ is the effective dimension of a neural tangent kernel matrix. Extensive comparisons with several benchmark contextual bandit algorithms, including two recent neural contextual bandit models, demonstrate the effectiveness and computational efficiency of our proposed neural bandit algorithm.
翻訳日:2022-01-26 15:34:59 公開日:2022-01-24
# 正規化トランスフォーマーを用いた誘導型タンパク質設計

Guided Generative Protein Design using Regularized Transformers ( http://arxiv.org/abs/2201.09948v1 )

ライセンス: Link先を確認
Egbert Castro, Abhinav Godavarthi, Julian Rubinfien, Kevin B. Givechian, Dhananjay Bhaskar, Smita Krishnaswamy(参考訳) 強力な自然言語モデルの開発は、タンパク質配列の有意義な表現を学習する能力を高めた。 さらに、高スループット変異発生、指向進化、次世代シークエンシングの進歩により、大量のラベル付きフィットネスデータが蓄積できるようになった。 この2つのトレンドを生かしたReleularized Latent Space Optimization (RELSO)は、ディープトランスフォーマーをベースとしたオートエンコーダで、シーケンスを共同生成し、適合度を予測する。 relsoを用いて,大規模ラベル付きデータセットの基底となるシーケンス関数のランドスケープを明示的にモデル化し,勾配に基づく手法を用いて潜在空間内で最適化する。 正規化予測ヘッドを通じて、ReLSOは強力なタンパク質配列エンコーダと、効率の良いフィットネスランドスケープトラバースのための新しいアプローチを導入した。

The development of powerful natural language models have increased the ability to learn meaningful representations of protein sequences. In addition, advances in high-throughput mutagenesis, directed evolution, and next-generation sequencing have allowed for the accumulation of large amounts of labeled fitness data. Leveraging these two trends, we introduce Regularized Latent Space Optimization (ReLSO), a deep transformer-based autoencoder which is trained to jointly generate sequences as well as predict fitness. Using ReLSO, we explicitly model the underlying sequence-function landscape of large labeled datasets and optimize within latent space using gradient-based methods. Through regularized prediction heads, ReLSO introduces a powerful protein sequence encoder and novel approach for efficient fitness landscape traversal.
翻訳日:2022-01-26 15:34:40 公開日:2022-01-24
# 特徴分散データセットからガウス混合学習のための分散em

Decentralized EM to Learn Gaussian Mixtures from Datasets Distributed by Features ( http://arxiv.org/abs/2201.09965v1 )

ライセンス: Link先を確認
Pedro Valdeira, Cl\'audia Soares, Jo\~ao Xavier(参考訳) 期待最大化(EM)はガウス混合を学習する標準的な方法である。 しかし、プライバシの懸念と計算と通信のボトルネックのため、古典的で集中型の形式はしばしば実現不可能である。 以前の作業では、例によって分散されたデータ、水平パーティショニング、そして機能によって分散されたデータ(例えば、複数のエンティティからのデータでユーザープロファイリングするなど)を扱うことができませんでした。 このギャップを埋めるために,gaussian mixedsを垂直分割データ(vp-em)に適合させるemアルゴリズムを提案する。 フェデレーション学習では,アルゴリズムは部分空間に制約されたガウス混合の集中em適合性に適合する。 任意の通信グラフにおいて、コンセンサス平均化により、vp-emは大きなピアツーピアネットワーク上でem近似として動作することができる。 このミスマッチは、コンセンサスラウンドの数で指数関数的に速く消えるコンセンサスエラーのみから生じる。 合成データと実データの両方の様々なトポロジ上でvp-emをデモし、その集中型emの近似を評価し、利用可能なベンチマークを上回っていることを確かめる。

Expectation Maximization (EM) is the standard method to learn Gaussian mixtures. Yet its classic, centralized form is often infeasible, due to privacy concerns and computational and communication bottlenecks. Prior work dealt with data distributed by examples, horizontal partitioning, but we lack a counterpart for data scattered by features, an increasingly common scheme (e.g. user profiling with data from multiple entities). To fill this gap, we provide an EM-based algorithm to fit Gaussian mixtures to Vertically Partitioned data (VP-EM). In federated learning setups, our algorithm matches the centralized EM fitting of Gaussian mixtures constrained to a subspace. In arbitrary communication graphs, consensus averaging allows VP-EM to run on large peer-to-peer networks as an EM approximation. This mismatch comes from consensus error only, which vanishes exponentially fast with the number of consensus rounds. We demonstrate VP-EM on various topologies for both synthetic and real data, evaluating its approximation of centralized EM and seeing that it outperforms the available benchmark.
翻訳日:2022-01-26 15:34:26 公開日:2022-01-24
# cycle generative adversarial network を用いたphotoplethysmography による新しい血圧波形再構成

Novel Blood Pressure Waveform Reconstruction from Photoplethysmography using Cycle Generative Adversarial Networks ( http://arxiv.org/abs/2201.09976v1 )

ライセンス: Link先を確認
Milad Asgari Mehrabadi, Seyed Amir Hossein Aqajari, Amir Hosein Afandizadeh Zargari, Nikil Dutt, and Amir M. Rahmani(参考訳) 血圧(BP)の連続モニタリングは、高血圧などの慢性疾患を個人が管理するのに役立ち、非侵襲的な測定方法を必要とする。 最近のアプローチでは、異なるマシンとディープラーニングアプローチを用いて光胸波(PPG)と心電図(ECG)信号を融合してBPを非侵襲的に推定するが、完全な信号の再構成には失敗し、精度の低いモデルが導かれる。 本稿では,循環生成型逆境ネットワーク (cyclegan) を用いて, 清浄なppg信号から降圧血圧 (abp) と呼ばれるbp信号を抽出する手法を提案する。 このアプローチでは、ドメイン翻訳のためのtheganアーキテクチャを拡張し、bp推定において最先端のアプローチを最大2倍上回るサイクル生成逆ネットワークを用いる。

Continuous monitoring of blood pressure (BP)can help individuals manage their chronic diseases such as hypertension, requiring non-invasive measurement methods in free-living conditions. Recent approaches fuse Photoplethysmograph (PPG) and electrocardiographic (ECG) signals using different machine and deep learning approaches to non-invasively estimate BP; however, they fail to reconstruct the complete signal, leading to less accurate models. In this paper, we propose a cycle generative adversarial network (CycleGAN) based approach to extract a BP signal known as ambulatory blood pressure (ABP) from a clean PPG signal. Our approach uses a cycle generative adversarial network that extends theGAN architecture for domain translation, and outperforms state-of-the-art approaches by up to 2x in BP estimation.
翻訳日:2022-01-26 15:34:06 公開日:2022-01-24
# 多目的統計的公正学習を目指して

Towards Multi-Objective Statistically Fair Federated Learning ( http://arxiv.org/abs/2201.09917v1 )

ライセンス: Link先を確認
Ninareh Mehrabi, Cyprien de Lichy, John McKay, Cynthia He, William Campbell(参考訳) フェデレーション学習(federated learning, fl)は、トレーニング手順に含まれる複数の当事者間でデータが共有されることを防ぐためのデータ所有とプライバシに関する懸念の結果生まれた。 プライバシーなどの問題はこの分野で注目されているが、FL設定における統計的公正度を満足させるためにはあまり注目されていない。 この目的を念頭に置いて、異なる種類のクライアントからなる異なるデータレジームの下で、flが異なる公平度メトリクスを満足できることを示す研究を行う。 より具体的には、非協力的または敵対的なクライアントは、トレーニングデータセットに既存のバイアスがあるため、偏りまたは有毒なモデルを注入することでグローバルflモデルを汚染する可能性がある。 これらのバイアスは、トレーニングセットの不均衡(Zhang and Zhou 2019)、履歴バイアス(Mehrabi et al. 2021a)、データ中毒によるフェアネス攻撃(Mehrabi et al. 2021b; Solans, Biggio, Castillo 2020)の結果かもしれない。 そこで本稿では,様々な統計的公正度指標を含む複数の目的を満足できる新しいFLフレームワークを提案する。 実験を通して,異なる目的を個別に満たす能力,非協力的・敵対的クライアントを識別し,その効果を軽視する能力について,様々なベースラインと比較する手法の有効性を示す。

Federated Learning (FL) has emerged as a result of data ownership and privacy concerns to prevent data from being shared between multiple parties included in a training procedure. Although issues, such as privacy, have gained significant attention in this domain, not much attention has been given to satisfying statistical fairness measures in the FL setting. With this goal in mind, we conduct studies to show that FL is able to satisfy different fairness metrics under different data regimes consisting of different types of clients. More specifically, uncooperative or adversarial clients might contaminate the global FL model by injecting biased or poisoned models due to existing biases in their training datasets. Those biases might be a result of imbalanced training set (Zhang and Zhou 2019), historical biases (Mehrabi et al. 2021a), or poisoned data-points from data poisoning attacks against fairness (Mehrabi et al. 2021b; Solans, Biggio, and Castillo 2020). Thus, we propose a new FL framework that is able to satisfy multiple objectives including various statistical fairness metrics. Through experimentation, we then show the effectiveness of this method comparing it with various baselines, its ability in satisfying different objectives collectively and individually, and its ability in identifying uncooperative or adversarial clients and down-weighing their effect
翻訳日:2022-01-26 14:32:43 公開日:2022-01-24
# 新型ウイルスとワクチン有効性モデルを用いたCOVID-19の現状予測

COVID-19 Status Forecasting Using New Viral variants and Vaccination Effectiveness Models ( http://arxiv.org/abs/2201.10356v1 )

ライセンス: Link先を確認
Essam A. Rashed and Sachiko Kodera and Akimasa Hirata(参考訳) 背景:近年,ワクチン接種率が比較的高い地域では,毎日の陽性症例が多く報告されているため,予防接種の必要性が高まっている。 また, 異なる変異および関連因子による感染については, 深く議論されていない。 変数が大きく、共同要因が異なるため、従来の数学的モデルを用いて新型コロナウイルスの発生を予測することは困難である。 方法: 長期記憶に基づく機械学習を用いて, 新たな日常陽性症例(DPC), 重症例, 入院症例, 死亡の時系列を予測した。 予防接種率の高い地域、例えばイスラエルから取得したデータは、日本国内の他の地域のデータとブレンドされ、予防接種の潜在的影響を要因とした。 また, 症状性感染による予防は, ワクチン接種の集団効果, ウイルス変異株の感染率, 感染率などの観点からも考慮された。 公共行動の変化を表すために、ソーシャルメディアを通じた公共の移動と相互作用も分析に含まれる。 結果: イスラエルのテルアビブで新たに発見されたDPCを比較検討し, 予防接種効果と予防接種防止効果を指標として, 5カ月後の第2回接種効果, デルタ変種による感染から2週間後の第3回接種効果をそれぞれ0.24, 0.95とした。 予防接種効果の指標を抽出し,全国3都道府県の新たな症例を再現した。

Background: Recently, a high number of daily positive COVID-19 cases have been reported in regions with relatively high vaccination rates; hence, booster vaccination has become necessary. In addition, infections caused by the different variants and correlated factors have not been discussed in depth. With large variabilities and different co-factors, it is difficult to use conventional mathematical models to forecast the incidence of COVID-19. Methods: Machine learning based on long short-term memory was applied to forecasting the time series of new daily positive cases (DPC), serious cases, hospitalized cases, and deaths. Data acquired from regions with high rates of vaccination, such as Israel, were blended with the current data of other regions in Japan to factor in the potential effects of vaccination. The protection provided by symptomatic infection was also considered in terms of the population effectiveness of vaccination as well as the waning protection and ratio and infectivity of viral variants. To represent changes in public behavior, public mobility and interactions through social media were also included in the analysis. Findings: Comparing the observed and estimated new DPC in Tel Aviv, Israel, the parameters characterizing vaccination effectiveness and the waning protection from infection were well estimated; the vaccination effectiveness of the second dose after 5 months and the third dose after two weeks from infection by the delta variant were 0.24 and 0.95, respectively. Using the extracted parameters regarding vaccination effectiveness, new cases in three prefectures of Japan were replicated.
翻訳日:2022-01-26 14:29:19 公開日:2022-01-24
# クラウドコーディネートデータによるオンデバイス学習によるレコメンダシステムにおける極端モデルパーソナライゼーション

On-Device Learning with Cloud-Coordinated Data Augmentation for Extreme Model Personalization in Recommender Systems ( http://arxiv.org/abs/2201.10382v1 )

ライセンス: Link先を確認
Renjie Gu, Chaoyue Niu, Yikai Yan, Fan Wu, Shaojie Tang, Rongfeng Jia, Chengfei Lyu, Guihai Chen(参考訳) データの不均一性(data heterogeneity)は、レコメンダシステムの本質的な特性であり、クラウド上のグローバルデータ上でトレーニングされたモデルを、個々のユーザのローカルなデータ分散に対して非最適にすることを可能にする。 データの不均一性に対処するためには、デバイス上での学習によるモデルパーソナライズが考えられる。 しかし、ユーザの小さなローカルサンプルを使用したデバイス上でのトレーニングは、過度なオーバーフィッティングを引き起こし、モデルの一般化能力を損なう。 本研究では、純粋にクラウドベースの学習とオンデバイス学習のジレンマを解消する、CoDAと呼ばれる新しいデバイスクラウド協調学習フレームワークを提案する。 CoDAの重要な原則は、クラウドのグローバルプールから同様のサンプルを取得して、各ユーザのローカルデータセットを拡張してレコメンデーションモデルをトレーニングすることだ。 具体的には、クラウド上の粗粒サンプルマッチングの後、各デバイスにパーソナライズされたサンプル分類器を訓練して、細粒度サンプルフィルタリングを行い、ローカルデータ分布と外部データ分布の境界を学習する。 また、データの流れ、モデル、計算、およびクラウドと各デバイス間の制御をサポートするエンドツーエンドのパイプラインを構築します。 我々はMobile TaobaoのレコメンデーションシナリオにCoDAをデプロイした。 オンラインa/bテストの結果、モデルパーソナライズなしのクラウドベースの学習と、データ拡張なしのオンデバイストレーニングの両方でcodaのパフォーマンスが著しく向上した。 実際のデバイス上でのオーバーヘッドテストは、CoDAのオンデバイスタスクの計算、ストレージ、通信効率を示す。

Data heterogeneity is an intrinsic property of recommender systems, making models trained over the global data on the cloud, which is the mainstream in industry, non-optimal to each individual user's local data distribution. To deal with data heterogeneity, model personalization with on-device learning is a potential solution. However, on-device training using a user's small size of local samples will incur severe overfitting and undermine the model's generalization ability. In this work, we propose a new device-cloud collaborative learning framework, called CoDA, to break the dilemmas of purely cloud-based learning and on-device learning. The key principle of CoDA is to retrieve similar samples from the cloud's global pool to augment each user's local dataset to train the recommendation model. Specifically, after a coarse-grained sample matching on the cloud, a personalized sample classifier is further trained on each device for a fine-grained sample filtering, which can learn the boundary between the local data distribution and the outside data distribution. We also build an end-to-end pipeline to support the flows of data, model, computation, and control between the cloud and each device. We have deployed CoDA in a recommendation scenario of Mobile Taobao. Online A/B testing results show the remarkable performance improvement of CoDA over both cloud-based learning without model personalization and on-device training without data augmentation. Overhead testing on a real device demonstrates the computation, storage, and communication efficiency of the on-device tasks in CoDA.
翻訳日:2022-01-26 14:28:51 公開日:2022-01-24
# AutoMC:ドメイン知識とプログレッシブ検索戦略に基づく自動モデル圧縮

AutoMC: Automated Model Compression based on Domain Knowledge and Progressive search strategy ( http://arxiv.org/abs/2201.09884v1 )

ライセンス: Link先を確認
Chunnan Wang, Hongzhi Wang, Xiangyu Shi(参考訳) モデル圧縮法は、許容性能を維持するという前提でモデルの複雑さを低減し、リソース制約環境下でのディープニューラルネットワークの適用を促進する。 その大きな成功にもかかわらず、適切な圧縮方法の選択と圧縮スキームの詳細の設計は困難であり、ドメイン知識の多くをサポートとして必要としています。 そこで本研究では,モデル圧縮のための効果的な自動ツールであるAutoMCを提案する。 automcはモデル圧縮に関するドメイン知識を構築し、異なる設定下で各圧縮メソッドの特徴と利点を深く理解する。 さらに,学習した事前知識と過去の評価情報とを合わせて,パレット最適圧縮スキームを効率的に探索するプログレッシブ検索戦略を提案する。 実験結果から,AutoMCは短時間で満足度の高い圧縮スキームを提供でき,AutoMCの有効性が示された。

Model compression methods can reduce model complexity on the premise of maintaining acceptable performance, and thus promote the application of deep neural networks under resource constrained environments. Despite their great success, the selection of suitable compression methods and design of details of the compression scheme are difficult, requiring lots of domain knowledge as support, which is not friendly to non-expert users. To make more users easily access to the model compression scheme that best meet their needs, in this paper, we propose AutoMC, an effective automatic tool for model compression. AutoMC builds the domain knowledge on model compression to deeply understand the characteristics and advantages of each compression method under different settings. In addition, it presents a progressive search strategy to efficiently explore pareto optimal compression scheme according to the learned prior knowledge combined with the historical evaluation information. Extensive experimental results show that AutoMC can provide satisfying compression schemes within short time, demonstrating the effectiveness of AutoMC.
翻訳日:2022-01-26 14:07:13 公開日:2022-01-24
# ニューラルネットワークに基づく偽ニュース見出しの分類

Classification Of Fake News Headline Based On Neural Networks ( http://arxiv.org/abs/2201.09966v1 )

ライセンス: Link先を確認
Ke Yahan, Ruyi Qu, Lu Xiaoxia(参考訳) 過去数年間、テキスト分類は自然言語処理(NLP)における基本的なタスクの1つであり、テキスト文書を事前に定義されたクラスに分類することを目的としている。 そのニュースは私たちの人生に満ちている。 したがって、ニュース見出しの分類は、ユーザーと適切なニュースをつなぐための重要なタスクである。 ニュースヘッドライン分類はテキスト分類の一種であり、一般的に特徴抽出、分類器の選択、評価の3つの部分に分けられる。 この記事では、kaggle platformが提供する18年間にわたるニュースを含むデータセットを使用して、ニュースの見出しを分類します。 我々は、評価指標が正確であるのに対して、TF-IDFを選択して特徴とニューラルネットワークを分類器として抽出する。 実験結果から,我々のNNモデルが精度の指標において,これらのモデルの中で最高の性能を持っていることは明らかである。 精度が高くなればなるほど、モデルの性能は向上します。 我々のNNモデルは精度0.8622であり、これら4モデルの中で最も精度が高い。 他のモデルより0.0134, 0.033, 0.080高い。

Over the last few years, Text classification is one of the fundamental tasks in natural language processing (NLP) in which the objective is to categorize text documents into one of the predefined classes. The news is full of our life. Therefore, news headlines classification is a crucial task to connect users with the right news. The news headline classification is a kind of text classification, which can be generally divided into three mainly parts: feature extraction, classifier selection, and evaluations. In this article, we use the dataset, containing news over a period of eighteen years provided by Kaggle platform to classify news headlines. We choose TF-IDF to extract features and neural network as the classifier, while the evaluation metrics is accuracy. From the experiment result, it is obvious that our NN model has the best performance among these models in the metrics of accuracy. The higher the accuracy is, the better performance the model will gain. Our NN model owns the accuracy 0.8622, which is highest accuracy among these four models. And it is 0.0134, 0.033, 0.080 higher than its of other models.
翻訳日:2022-01-26 14:04:10 公開日:2022-01-24
# (参考訳) 温暖化による胸部X線レポート生成の改善 [全文訳有]

Improving Chest X-Ray Report Generation by Leveraging Warm-Starting ( http://arxiv.org/abs/2201.09405v1 )

ライセンス: CC BY 4.0
Aaron Nicolson, Jason Dowling, and Bevan Koopman(参考訳) 患者の胸部X線(CXR)からの報告を自動生成することは、臨床負荷を減らし、患者のケアを改善するための有望な解決策である。 しかし、現在のCXRレポートジェネレータは、主にエンコーダ-デコーダモデルであり、臨床環境で展開する診断精度を欠いている。 CXRレポート生成を改善するため、最近のオープンソースコンピュータビジョンとViT(Vision Transformer)やPubMedBERT(PubMedBER T)といった自然言語処理チェックポイントを用いて、エンコーダとデコーダをウォームスタートさせる。 この目的のために、各チェックポイントは、自然言語生成と臨床効果(CE)メトリクスを用いてMIMIC-CXRおよびIU X線データセットに基づいて評価される。 本研究では, コンボリューションビジョン変換器 (CvT) ImageNet-21K とDistilled Generative Pre-trained Transformer 2 (DistilGPT2) のチェックポイントが, それぞれエンコーダとデコーダを温めるのに最適であることを示す。 最先端(M2トランスフォーマープログレッシブ)と比較して、CvT2DistilGPT2はCE F-1で8.3%、BLEU-4で1.8%、ROUGE-Lで1.6%、METEORで1.0%向上した。 CvT2DistilGPT2による報告は診断学的に正確であり、以前のアプローチよりも放射線医学的な報告と類似性が高い。 CvT2DistilGPT2は、ウォームスタートを利用して、CXRレポートの自動生成を臨床環境に一歩近づける。 CvT2DistilGPT2とそのMIMIC-CXRチェックポイントはhttps://github.com/a ehrc/cvt2distilgpt2で公開されている。

Automatically generating a report from a patient's Chest X-Rays (CXRs) is a promising solution to reducing clinical workload and improving patient care. However, current CXR report generators, which are predominantly encoder-to-decoder models, lack the diagnostic accuracy to be deployed in a clinical setting. To improve CXR report generation, we investigate warm-starting the encoder and decoder with recent open-source computer vision and natural language processing checkpoints, such as the Vision Transformer (ViT) and PubMedBERT. To this end, each checkpoint is evaluated on the MIMIC-CXR and IU X-Ray datasets using natural language generation and Clinical Efficacy (CE) metrics. Our experimental investigation demonstrates that the Convolutional vision Transformer (CvT) ImageNet-21K and the Distilled Generative Pre-trained Transformer 2 (DistilGPT2) checkpoints are best for warm-starting the encoder and decoder, respectively. Compared to the state-of-the-art (M2 Transformer Progressive), CvT2DistilGPT2 attained an improvement of 8.3% for CE F-1, 1.8% for BLEU-4, 1.6% for ROUGE-L, and 1.0% for METEOR. The reports generated by CvT2DistilGPT2 are more diagnostically accurate and have a higher similarity to radiologist reports than previous approaches. By leveraging warm-starting, CvT2DistilGPT2 brings automatic CXR report generation one step closer to the clinical setting. CvT2DistilGPT2 and its MIMIC-CXR checkpoint are available at https://github.com/a ehrc/cvt2distilgpt2.
翻訳日:2022-01-26 06:25:39 公開日:2022-01-24
# (参考訳) 離散変調連続可変量子鍵分布におけるセキュア鍵レートの自動機械学習 [全文訳有]

Automated machine learning for secure key rate in discrete-modulated continuous-variable quantum key distribution ( http://arxiv.org/abs/2201.09419v1 )

ライセンス: CC BY 4.0
Zhi-Ping Liu, Min-Gang Zhou, Wen-Bo Liu, Chen-Long Li, Jie Gu, Hua-Lei Yin, Zeng-Bing Chen(参考訳) 離散変調による連続可変量子鍵分布(CV QKD)は、実験的単純さ、低コストな実装、古典光学通信との互換性により注目されている。 それに応じて、これらのプロトコルの集団攻撃に対するセキュリティを分析するために、いくつかの新しい数値的手法が提案されている。 しかし、数値的手法は計算時間とリソース消費によって制限され、量子ネットワークのモバイルプラットフォームではより多くの役割を果たすことができない。 この問題を改善するために,キーレートをほぼリアルタイムに予測するニューラルネットワークモデルが提案されている。 ここではさらに,ベイズ最適化と組み合わせたニューラルネットワークモデルを示す。 このモデルは、ニューラルネットワークコンピューティングキーレートの最適なアーキテクチャをリアルタイムで自動的に設計する。 4次変調によるCV QKDプロトコルの2つの変種を用いて本モデルを実証する。 その結果, 信頼性が高く, 安定確率は99.15\%-99.59\%$, タイト性がかなり高く, スピードアップが約10^7$であった。 このインスピレーションモデルにより、非構造化量子鍵分布プロトコルの鍵レートのリアルタイム計算がより自動的に効率的に行えるようになり、移動プラットフォーム上でQKDプロトコルを実装する必要性が高まっている。

Continuous-variable quantum key distribution (CV QKD) with discrete modulation has attracted increasing attention due to its experimental simplicity, lower-cost implementation and compatibility with classical optical communication. Correspondingly, some novel numerical methods have been proposed to analyze the security of these protocols against collective attacks, which promotes key rates over one hundred kilometers of fiber distance. However, numerical methods are limited by their calculation time and resource consumption, for which they cannot play more roles on mobile platforms in quantum networks. To improve this issue, a neural network model predicting key rates in nearly real time has been proposed previously. Here, we go further and show a neural network model combined with Bayesian optimization. This model automatically designs the best architecture of neural network computing key rates in real time. We demonstrate our model with two variants of CV QKD protocols with quaternary modulation. The results show high reliability with secure probability as high as $99.15\%-99.59\%$, considerable tightness and high efficiency with speedup of approximately $10^7$ in both cases. This inspiring model enables the real-time computation of unstructured quantum key distribution protocols' key rate more automatically and efficiently, which has met the growing needs of implementing QKD protocols on moving platforms.
翻訳日:2022-01-26 05:29:41 公開日:2022-01-24
# (参考訳) マルチトラベリングセールスマン問題に対する効果的な2段階ヒューリスティックアルゴリズム [全文訳有]

An Effective Iterated Two-stage Heuristic Algorithm for the Multiple Traveling Salesmen Problem ( http://arxiv.org/abs/2201.09424v1 )

ライセンス: CC BY 4.0
Jiongzhi Zheng and Yawei Hong and Wenchang Xu and Wentao Li and Yongfu Chen(参考訳) 複数のトラベリングセールスマン問題mTSPは、有名なNPハードトラベリングセールスマン問題(TSP)の一般的な拡張であり、m(m>1)のセールスマンが市内を訪れている。 本稿では、mtspをminsumの目的とminmaxの目的の両方で扱う。mtspはmツアーの全長とmツアーの最長ツアーの長さをそれぞれ最小化することを目的としている。 本論文では,ITHAと呼ばれる2段階ヒューリスティックアルゴリズムを提案する。 ITSHAの各イテレーションは、初期化段階と改善段階で構成される。 初期化段階の目的は、高品質で多様な初期解を生成することである。 改良段階は主に,提案した局所探索地区に基づく可変近傍探索(VNS)アプローチを適用し,初期化段階から生成される初期解を最適化する。 また,アルゴリズムの探索能力を高めるために,局所的オプティマエスケープ手法が採用されている。 広範囲の公開ベンチマークインスタンスに対する大規模な実験結果から、TrusHAは両方の目的においてmTSPを解く際に、最先端のヒューリスティックアルゴリズムを著しく上回ります。

The multiple Traveling Salesmen Problem mTSP is a general extension of the famous NP-hard Traveling Salesmen Problem (TSP), that there are m (m>1) salesmen to visit the cities. In this paper, we address the mTSP with both of the minsum objective and the minmax objective, which aims at minimizing the total length of the m tours and the length of the longest tour among all the m tours, respectively. We propose an iterated two-stage heuristic algorithm, denoted as ITSHA. Each iteration of ITSHA consists of an initialization stage and an improvement stage. The purpose of the initialization stage is to generate high-quality and diverse initial solutions. The improvement stage mainly applies the variable neighborhood search (VNS) approach based on our proposed local search neighborhoods to optimize the initial solution generated by the initialization stage. Moreover, some local optima escaping approaches are employed to enhance the search ability of the algorithm. Extensive experimental results on a wide range of public benchmark instances show that ITSHA significantly outperforms state-of-the-art heuristic algorithms in solving the mTSP on both the objectives.
翻訳日:2022-01-26 05:15:36 公開日:2022-01-24
# (参考訳) 能動的学習多項閾値関数 [全文訳有]

Active Learning Polynomial Threshold Functions ( http://arxiv.org/abs/2201.09433v1 )

ライセンス: CC BY 4.0
Omri Ben-Eliezer, Max Hopkins, Chutong Yang, Hantao Yu(参考訳) 我々は,アクティブラーニング多項式しきい値関数(ptfs)の研究を開始する。 従来の下界は、単変量二次数でさえ非自明に学習できないことを示しているが、基礎となる分類器の導関数への学習者が基本的なアクセスを許すことでこの問題を回避し、能動的学習度に対する計算効率の良いアルゴリズムが導かれることを示している。 また,アクティブラーニング ptf に対する近似最適アルゴリズムと解析を,いくつかの平均ケース設定で提供する。 最後に,2変数であっても,多変量 PTF の学習には導関数へのアクセスが不十分であることを示す。

We initiate the study of active learning polynomial threshold functions (PTFs). While traditional lower bounds imply that even univariate quadratics cannot be non-trivially actively learned, we show that allowing the learner basic access to the derivatives of the underlying classifier circumvents this issue and leads to a computationally efficient algorithm for active learning degree-$d$ univariate PTFs in $\tilde{O}(d^3\log(1/\varepsilon\ delta))$ queries. We also provide near-optimal algorithms and analyses for active learning PTFs in several average case settings. Finally, we prove that access to derivatives is insufficient for active learning multivariate PTFs, even those of just two variables.
翻訳日:2022-01-26 04:51:03 公開日:2022-01-24
# (参考訳) 知識蒸留による連関型未学習 [全文訳有]

Federated Unlearning with Knowledge Distillation ( http://arxiv.org/abs/2201.09441v1 )

ライセンス: CC BY 4.0
Chen Wu and Sencun Zhu and Prasenjit Mitra(参考訳) federated learning(fl)は、トレーニングプロセス中の各クライアントのデータプライバシを、元のデータではなくモデルのみを送信することによって保護するように設計されている。 しかし、トレーニングされたモデルはトレーニングデータに関する特定の情報を記憶することができる。 忘れられる権利に関する最近の法律では、FLモデルが各クライアントから学んだことを忘れる能力を持つことが不可欠である。 本稿では,モデルから蓄積した履歴更新を減算し,クライアントからのデータを使わずにモデルの性能を回復するための知識蒸留法を活用し,クライアントの貢献を解消する新しい連関型未学習手法を提案する。 この方法はニューラルネットワークの種類に制限がなく、クライアントの参加にも依存しないため、flシステムでは実用的かつ効率的である。 さらに,学習過程にバックドア攻撃を導入し,学習効果の評価を支援する。 3つの標準データセットの実験により,本手法の有効性と有効性を示した。

Federated Learning (FL) is designed to protect the data privacy of each client during the training process by transmitting only models instead of the original data. However, the trained model may memorize certain information about the training data. With the recent legislation on right to be forgotten, it is crucially essential for the FL model to possess the ability to forget what it has learned from each client. We propose a novel federated unlearning method to eliminate a client's contribution by subtracting the accumulated historical updates from the model and leveraging the knowledge distillation method to restore the model's performance without using any data from the clients. This method does not have any restrictions on the type of neural networks and does not rely on clients' participation, so it is practical and efficient in the FL system. We further introduce backdoor attacks in the training process to help evaluate the unlearning effect. Experiments on three canonical datasets demonstrate the effectiveness and efficiency of our method.
翻訳日:2022-01-26 04:23:31 公開日:2022-01-24
# (参考訳) 話者自動認識におけるバイアス [全文訳有]

Bias in Automated Speaker Recognition ( http://arxiv.org/abs/2201.09486v1 )

ライセンス: CC BY 4.0
Wiebke Toussaint and Aaron Ding(参考訳) 自動話者認識は、データ処理を使用して話者を音声で識別する。 現在、自動話者認識技術は何十億ものスマートデバイスやコールセンタなどのサービスにデプロイされている。 大規模な展開と顔認識と自然言語処理におけるバイアスの既知源にもかかわらず、自動話者認識のバイアスは体系的に研究されていない。 自動話者認識における音声バイオメトリックおよび中核的タスクである話者検証の機械学習開発ワークフローにおけるバイアスの詳細な実験的および分析的研究について述べる。 機械学習の害源を理解するための確立された枠組みに基づいて、有名なVoxCeleb Speaker Recognition Challengeにおいて、モデル構築、実装、データ生成を含むすべての開発段階でバイアスが存在することを示す。 最も影響を受けるのは女性話者と非米国国籍であり、パフォーマンスが著しく低下する。 この知見を活かし,話者認識におけるバイアス軽減のための実用的な提案を行い,今後の研究方向性について概説する。

Automated speaker recognition uses data processing to identify speakers by their voice. Today, automated speaker recognition technologies are deployed on billions of smart devices and in services such as call centres. Despite their wide-scale deployment and known sources of bias in face recognition and natural language processing, bias in automated speaker recognition has not been studied systematically. We present an in-depth empirical and analytical study of bias in the machine learning development workflow of speaker verification, a voice biometric and core task in automated speaker recognition. Drawing on an established framework for understanding sources of harm in machine learning, we show that bias exists at every development stage in the well-known VoxCeleb Speaker Recognition Challenge, including model building, implementation, and data generation. Most affected are female speakers and non-US nationalities, who experience significant performance degradation. Leveraging the insights from our findings, we make practical recommendations for mitigating bias in automated speaker recognition, and outline future research directions.
翻訳日:2022-01-26 04:11:16 公開日:2022-01-24
# (参考訳) Wi-Fiチャネル状態情報を用いた監視映像ストリームの偽検出 [全文訳有]

Forgery Attack Detection in Surveillance Video Streams Using Wi-Fi Channel State Information ( http://arxiv.org/abs/2201.09487v1 )

ライセンス: CC BY 4.0
Yong Huang, Xiang Li, Wei Wang, Tao Jiang, Qian Zhang(参考訳) サイバーセキュリティ違反は監視ビデオストリームを偽造攻撃に晒し、真偽のストリームは不正行為を隠すために偽造される。 従来のビデオ鑑識アプローチは、比較的長いビデオクリップで空間-時間分析を使用して偽造の痕跡をローカライズできるが、リアルタイムの偽造検出では不足する。 最近の研究は、時系列カメラと無線信号を関連付けてループビデオを検出するが、細かな偽造ローカライズは実現できない。 これらの制限を克服するために,監視とWi-Fiインフラの広汎な共存を利用して,リアルタイムかつきめ細かなビデオ偽造攻撃を防御するSecure-Poseを提案する。 我々は、既存のカメラとWi-Fi信号が共通の人間の意味情報を伝達し、ビデオストリームに対する偽造攻撃がそのような情報通信を分離することを観察する。 特に、検索可能なポーズ機能は、同時ビデオおよびwi-fiチャネル状態情報(csi)ストリームから最初に抽出される。 そして、偽造攻撃を正確に検出する軽量検出ネットワークを開発し、ビデオストリームにおける偽造トレースをシームレスに追跡する効率的なローカライズアルゴリズムを考案する。 我々は1台のLogitechカメラと2台のIntel 5300 NICを使ってSecure-Poseを実装し、異なる環境で評価する。 Secure-Poseは98.7%の高い検出精度を実現し、再生および改ざん攻撃中の異常物体を局所化する。

The cybersecurity breaches expose surveillance video streams to forgery attacks, under which authentic streams are falsified to hide unauthorized activities. Traditional video forensics approaches can localize forgery traces using spatial-temporal analysis on relatively long video clips, while falling short in real-time forgery detection. The recent work correlates time-series camera and wireless signals to detect looped videos but cannot realize fine-grained forgery localization. To overcome these limitations, we propose Secure-Pose, which exploits the pervasive coexistence of surveillance and Wi-Fi infrastructures to defend against video forgery attacks in a real-time and fine-grained manner. We observe that coexisting camera and Wi-Fi signals convey common human semantic information and forgery attacks on video streams will decouple such information correspondence. Particularly, retrievable human pose features are first extracted from concurrent video and Wi-Fi channel state information (CSI) streams. Then, a lightweight detection network is developed to accurately discover forgery attacks and an efficient localization algorithm is devised to seamlessly track forgery traces in video streams. We implement Secure-Pose using one Logitech camera and two Intel 5300 NICs and evaluate it in different environments. Secure-Pose achieves a high detection accuracy of 98.7% and localizes abnormal objects under playback and tampering attacks.
翻訳日:2022-01-26 03:49:56 公開日:2022-01-24
# (参考訳) インド語の音声認識システムの性能向上のための多言語学習のためのデータと知識駆動アプローチ [全文訳有]

Data and knowledge-driven approaches for multilingual training to improve the performance of speech recognition systems of Indian languages ( http://arxiv.org/abs/2201.09494v1 )

ライセンス: CC BY 4.0
A. Madhavaraj, Ramakrishnan Angarai Ganesan(参考訳) 複数のソース言語からの音声データをプールすることで、ターゲット言語に対する自動音声認識(ASR)システムの多言語学習のためのデータおよび知識駆動型アプローチを提案する。 インドの言語間の音響的類似性を活用し,2つのアプローチを実装した。 電話/セノンマッピングでは、ディープニューラルネットワーク(DNN)がセノンや電話をある言語から他の言語にマッピングすることを学び、ソース言語の転写がターゲット言語データとともに使用できるように変更され、ターゲット言語ASRシステムのトレーニングおよび微調整が行われる。 他方のアプローチでは,マルチタスクdnn(mtdnn)を訓練し,各言語のセノンを異なる出力層で予測することで,すべての言語に対する音響情報を同時にモデル化する。 クロスエントロピー損失とウェイト更新手順は、機能ベクトルが特定の言語に属する場合、トレーニング中に、共有層と、言語のセノンクラスを予測するための出力層のみを更新するように修正される。 低リソース設定(LRS)では、タミル語、テルグ語、グジャラート語でそれぞれ40時間の転写データがトレーニングに使用される。 DNNベースのセノンマッピング技術は、タミル語、グジャラート語、テルグ語のベースラインシステムの9.66%、7.2%、および15.21%の単語誤り率(WER)を相対的に改善する。 タミル語、カンナダ語、ヒンディー語では160時間、275時間、135時間のデータを使用し、タミル語、カンナダ語、ヒンディー語では13.94%、カナダ語では10.28%、27.24%の相対的な改善がなされている。 セノンマッピングに基づく訓練を施したmtdnnでは,タミル語,グジャラティ語,テルグ語では15.0%,17.54%,16.06%, mrsでは21.24%21.05%,タミル語,カンナダ語,ヒンディー語では30.17%の改善が見られた。

We propose data and knowledge-driven approaches for multilingual training of the automated speech recognition (ASR) system for a target language by pooling speech data from multiple source languages. Exploiting the acoustic similarities between Indian languages, we implement two approaches. In phone/senone mapping, deep neural network (DNN) learns to map senones or phones from one language to the others, and the transcriptions of the source languages are modified such that they can be used along with the target language data to train and fine-tune the target language ASR system. In the other approach, we model the acoustic information for all the languages simultaneously by training a multitask DNN (MTDNN) to predict the senones of each language in different output layers. The cross-entropy loss and the weight update procedure are modified such that only the shared layers and the output layer responsible for predicting the senone classes of a language are updated during training, if the feature vector belongs to that particular language. In the low-resource setting (LRS), 40 hours of transcribed data each for Tamil, Telugu and Gujarati languages are used for training. The DNN based senone mapping technique gives relative improvements in word error rates (WER) of 9.66%, 7.2% and 15.21% over the baseline system for Tamil, Gujarati and Telugu languages, respectively. In medium-resourced setting (MRS), 160, 275 and 135 hours of data for Tamil, Kannada and Hindi languages are used, where, the same technique gives better relative improvements of 13.94%, 10.28% and 27.24% for Tamil, Kannada and Hindi, respectively. The MTDNN with senone mapping based training in LRS, gives higher relative WER improvements of 15.0%, 17.54% and 16.06%, respectively for Tamil, Gujarati and Telugu, whereas in MRS, we see improvements of 21.24% 21.05% and 30.17% for Tamil, Kannada and Hindi languages, respectively.
翻訳日:2022-01-26 03:29:56 公開日:2022-01-24
# (参考訳) DDoSDet:ニューラルネットワークを使ってDDoS攻撃を検出するアプローチ [全文訳有]

DDoSDet: An approach to Detect DDoS attacks using Neural Networks ( http://arxiv.org/abs/2201.09514v1 )

ライセンス: CC0 1.0
Aman Rangapur, Tarun Kanakam, Ajith Jubilson(参考訳) サイバー攻撃は、今日の世界でもっとも致命的な攻撃の一つだ。 そのひとつがDDoS(Distributed Denial of Services)だ。 攻撃者が攻撃し、ネットワークまたはマシンを意図したユーザに対して一時的にまたは無期限に利用できなくなり、ネットワークに接続されたホストのサービスを中断するサイバー攻撃である。 簡単に言えば、それはシステムをクラッシュさせ、ユーザがそのネットワークやマシンを使えないようにするために、不要な要求でターゲットマシンを浸水させることによって達成される攻撃である。 本稿では,ネットワーク性能の低下を防止し,悪意と正当なデータフローを警告するニューラルネットワークを用いたddos攻撃の検出について述べる。 提案システムと現在のフィールドモデルを比較し,評価した。 私たちの仕事は99.7%の正確さでした。

Cyber-attacks have been one of the deadliest attacks in today's world. One of them is DDoS (Distributed Denial of Services). It is a cyber-attack in which the attacker attacks and makes a network or a machine unavailable to its intended users temporarily or indefinitely, interrupting services of the host that are connected to a network. To define it in simple terms, It's an attack accomplished by flooding the target machine with unnecessary requests in an attempt to overload and make the systems crash and make the users unable to use that network or a machine. In this research paper, we present the detection of DDoS attacks using neural networks, that would flag malicious and legitimate data flow, preventing network performance degradation. We compared and assessed our suggested system against current models in the field. We are glad to note that our work was 99.7\% accurate.
翻訳日:2022-01-26 03:19:08 公開日:2022-01-24
# (参考訳) Problife: Probabilistic Game of Life [全文訳有]

Problife: a Probabilistic Game of Life ( http://arxiv.org/abs/2201.09521v1 )

ライセンス: CC BY 4.0
Simon Vandevelde and Joost Vennekens(参考訳) 本稿では,よく知られたセルラーオートマトンであるGame of Lifeの確率的拡張について述べる。 ゲーム・オブ・ライフ』では、セルはグリッドに置かれ、ゲームのルールによって規定されるように、その後の世代を通して進化していくのを見る。 problifeと呼ばれる私たちの拡張では、これらのルールにはそれらに関連する確率があります。 細胞は死んでいるか生きているかではなく、生きる機会によって示される。 ProbLifeのルールとその基礎となる特徴を提示した後、確率論的論理プログラミングシステムであるProbLogに具体的な実装を示す。 ルールベースの生成技術として、異なる画像を生成するためにこれを使用します。

This paper presents a probabilistic extension of the well-known cellular automaton, Game of Life. In Game of Life, cells are placed in a grid and then watched as they evolve throughout subsequent generations, as dictated by the rules of the game. In our extension, called ProbLife, these rules now have probabilities associated with them. Instead of cells being either dead or alive, they are denoted by their chance to live. After presenting the rules of ProbLife and its underlying characteristics, we show a concrete implementation in ProbLog, a probabilistic logic programming system. We use this to generate different images, as a form of rule-based generative art.
翻訳日:2022-01-26 03:09:45 公開日:2022-01-24
# (参考訳) deep reinforcement learning を用いた血管内超音波画像の高速化 [全文訳有]

Accelerated Intravascular Ultrasound Imaging using Deep Reinforcement Learning ( http://arxiv.org/abs/2201.09522v1 )

ライセンス: CC BY-SA 4.0
Tristan S.W. Stevens, Nishith Chennakeshava, Frederik J. de Bruijn, Martin Peka\v{r}, Ruud J.G. van Sloun(参考訳) 血管内超音波(IVUS)は、血管内から取得した一連の超音波スライスを作成することにより、血管疾患の治療においてユニークな視点を提供する。 しかし、従来のハンドヘルド超音波とは異なり、細いカテーテルは、先端のトランスデューサアレイからの信号伝達のための少数の物理チャネルのみを提供する。 画質とフレームレートの継続的な向上のために,現在の物理情報のボトルネックに対処するために,深層強化学習を用いた。 磁気共鳴イメージング(MRI)の分野では、学習された取得スキームが、競合する画像品質において画像取得を著しく加速させている。 IVUSイメージングを効率的に高速化するために,アクター・クリティック・メソッドとGumbel Top-K$サンプリングによって実現されたフレーム単位の最適適応獲得ポリシーにディープ強化学習を利用するフレームワークを提案する。

Intravascular ultrasound (IVUS) offers a unique perspective in the treatment of vascular diseases by creating a sequence of ultrasound-slices acquired from within the vessel. However, unlike conventional hand-held ultrasound, the thin catheter only provides room for a small number of physical channels for signal transfer from a transducer-array at the tip. For continued improvement of image quality and frame rate, we present the use of deep reinforcement learning to deal with the current physical information bottleneck. Valuable inspiration has come from the field of magnetic resonance imaging (MRI), where learned acquisition schemes have brought significant acceleration in image acquisition at competing image quality. To efficiently accelerate IVUS imaging, we propose a framework that utilizes deep reinforcement learning for an optimal adaptive acquisition policy on a per-frame basis enabled by actor-critic methods and Gumbel top-$K$ sampling.
翻訳日:2022-01-26 03:03:21 公開日:2022-01-24
# (参考訳) BTPKに基づく学習: 名前付きエンティティ認識のための解釈可能な方法 [全文訳有]

BTPK-based learning: An Interpretable Method for Named Entity Recognition ( http://arxiv.org/abs/2201.09523v1 )

ライセンス: CC BY 4.0
Yulin Chen, Zelai Yao, Haixiao Chi, Dov Gabbay, Bo Yuan, Bruno Bentzen and Beishui Liao(参考訳) 名前付きエンティティ認識(NER)は自然言語処理において不可欠なタスクであるが、ほとんどのNERモデルの内部メカニズムはユーザにとってブラックボックスである。 高い意思決定領域では、NER法の解釈可能性を向上させることが重要であるが、難しい。 本稿では,既存の決定論的タルムード公告論理(TPK)モデルに基づいて,新しい二分木モデル(BTPK)を提案し,BTPKに基づく解釈可能な2つのBi-RNNに適用する。 次に,btpkベースの学習方法を検証するために,偽検証モジュールを設計する。 3つの公開データセットによる実験結果から、BTPKベースの学習は、2つの古典的Bi-RNN(特に小型で単純なデータと比較的大規模な複雑なデータ)よりも優れていた。 さらに,BTPKに基づく学習手法による説明は,NERタスクにおいて合理的かつ正確であることを示す。 さらに、BTPKに基づく論理的推論は、Bi-RNNがNERタスクをどのように扱うかを示している。

Named entity recognition (NER) is an essential task in natural language processing, but the internal mechanism of most NER models is a black box for users. In some high-stake decision-making areas, improving the interpretability of an NER method is crucial but challenging. In this paper, based on the existing Deterministic Talmudic Public announcement logic (TPK) model, we propose a novel binary tree model (called BTPK) and apply it to two widely used Bi-RNNs to obtain BTPK-based interpretable ones. Then, we design a counterfactual verification module to verify the BTPK-based learning method. Experimental results on three public datasets show that the BTPK-based learning outperform two classical Bi-RNNs with self-attention, especially on small, simple data and relatively large, complex data. Moreover, the counterfactual verification demonstrates that the explanations provided by the BTPK-based learning method are reasonable and accurate in NER tasks. Besides, the logical reasoning based on BTPK shows how Bi-RNNs handle NER tasks, with different distance of public announcements on long and complex sequences.
翻訳日:2022-01-26 02:53:11 公開日:2022-01-24
# (参考訳) PaRT:ロバストで透明なAIに向けた並列学習 [全文訳有]

PaRT: Parallel Learning Towards Robust and Transparent AI ( http://arxiv.org/abs/2201.09534v1 )

ライセンス: CC BY 4.0
Mahsa Paknezhad, Hamsawardhini Rengarajan, Chenghao Yuan, Sujanya Suresh, Manas Gupta, Savitha Ramasamy, Lee Hwee Kuan(参考訳) 本稿では,堅牢で透明なAIのための並列学習手法を提案する。 ディープニューラルネットワークは、複数のタスクに並行してトレーニングされ、各タスクはネットワークリソースのサブセットでのみトレーニングされる。 各サブセットはネットワークセグメントで構成されており、特定のタスク間で組み合わせて共有することができる。 タスクは他のタスクとリソースを共有でき、独立したタスク関連のネットワークリソースを持つ。 したがって、訓練されたネットワークは様々なタスクで同様の表現を共有でき、同時に独立したタスク関連表現も可能となる。 以上はいくつかの重要な結果をもたらす。 1)本手法の並列性は破滅的忘れの問題を否定するものである。 2)セグメントの共有はネットワーク資源をより効率的に利用する。 3)ネットワークは、共有表現を通して、他のタスクのタスクから学んだ知識を実際に使っていることを示す。 (4)個別のタスク関連および共有表現の検証を通じて,マルチタスク環境におけるネットワークおよびタスク間の関係の透明性を提供する。 連続学習,ニューラルアーキテクチャ探索,マルチタスク学習といった複雑な競合するアプローチに対する提案手法の評価は,堅牢な表現を学習可能であることを示している。 これは、複数のタスクでDLモデルを並列にトレーニングする最初の試みである。 私たちのコードはhttps://github.com/M ahsaPaknezhad/PaRTで利用可能です。

This paper takes a parallel learning approach for robust and transparent AI. A deep neural network is trained in parallel on multiple tasks, where each task is trained only on a subset of the network resources. Each subset consists of network segments, that can be combined and shared across specific tasks. Tasks can share resources with other tasks, while having independent task-related network resources. Therefore, the trained network can share similar representations across various tasks, while also enabling independent task-related representations. The above allows for some crucial outcomes. (1) The parallel nature of our approach negates the issue of catastrophic forgetting. (2) The sharing of segments uses network resources more efficiently. (3) We show that the network does indeed use learned knowledge from some tasks in other tasks, through shared representations. (4) Through examination of individual task-related and shared representations, the model offers transparency in the network and in the relationships across tasks in a multi-task setting. Evaluation of the proposed approach against complex competing approaches such as Continual Learning, Neural Architecture Search, and Multi-task learning shows that it is capable of learning robust representations. This is the first effort to train a DL model on multiple tasks in parallel. Our code is available at https://github.com/M ahsaPaknezhad/PaRT
翻訳日:2022-01-26 02:39:00 公開日:2022-01-24
# (参考訳) フィードフォワードニューラルネットワークを用いた固体表面の散水滴の画像特徴 [全文訳有]

Image features of a splashing drop on a solid surface extracted using a feedforward neural network ( http://arxiv.org/abs/2201.09541v1 )

ライセンス: CC BY 4.0
Jingzu Yee, Akinori Yamanaka and Yoshiyuki Tagawa(参考訳) 本稿では, フィードフォワードニューラルネットワーク(FNN)を用いた画像特徴抽出により, 固体表面のばね滴の非直感的特性を報告する。 面積等価半径約1.29mmのエタノールは4cmから60cm(スプレイニングしきい値20cm)の衝撃高から落下し,親水性表面へ衝突した。 落下の半分が地表に衝突したときに撮影された画像は、結果に応じてラベル付けされ、水しぶきや非散布が行われ、FNNの訓練に使用された。 分類精度は96%以上であった。 分類のためにFNNが同定した画像の特徴を抽出するため, 発散滴を特定するためのトレーニング済みFNNの重み行列を可視化した。 可視化の結果、トレーニングされたFNNは、衝突滴の本体の輪郭の高さを、これまでの研究では報告されていない発散滴と非発散滴の相違点として同定した。 この特徴は、落下の4分の1と3が地表に衝突しても、衝撃を通じて発見された。 この画像特徴の重要性を確認するため、FNNは、放出された二次液滴の存在を確認することなく、本体のみを用いて分類するように再訓練された。 精度は82%以上であり, 反りの高さが非スラッシュ落下と区別される重要な特徴であることを確認した。 落下衝撃のいくつかの側面を解析し, 水しぶきと非散布液滴の輪郭高さ差のメカニズムを明らかにすることを目的として検討した。

This article reports nonintuitive characteristic of a splashing drop on a solid surface discovered through extracting image features using a feedforward neural network (FNN). Ethanol of area-equivalent radius about 1.29 mm was dropped from impact heights ranging from 4 cm to 60 cm (splashing threshold 20 cm) and impacted on a hydrophilic surface. The images captured when half of the drop impacted the surface were labeled according to their outcome, splashing or nonsplashing, and were used to train an FNN. A classification accuracy higher than 96% was achieved. To extract the image features identified by the FNN for classification, the weight matrix of the trained FNN for identifying splashing drops was visualized. Remarkably, the visualization showed that the trained FNN identified the contour height of the main body of the impacting drop as an important characteristic differentiating between splashing and nonsplashing drops, which has not been reported in previous studies. This feature was found throughout the impact, even when one and three-quarters of the drop impacted the surface. To confirm the importance of this image feature, the FNN was retrained to classify using only the main body without checking for the presence of ejected secondary droplets. The accuracy was still higher than 82%, confirming that the contour height is an important feature distinguishing splashing from nonsplashing drops. Several aspects of drop impact are analyzed and discussed with the aim of identifying the possible mechanism underlying the difference in contour height between splashing and nonsplashing drops.
翻訳日:2022-01-26 01:59:02 公開日:2022-01-24
# (参考訳) リテラルを用いた著者名曖昧化のための知識グラフ埋め込み手法 [全文訳有]

A Knowledge Graph Embeddings based Approach for Author Name Disambiguation using Literals ( http://arxiv.org/abs/2201.09555v1 )

ライセンス: CC BY 4.0
Cristian Santini, Genet Asefa Gesese, Silvio Peroni, Aldo Gangemi, Harald Sack, Mehwish Alam(参考訳) 学術的なデータは、カンファレンスやジャーナルなど多くの会場からの記事に関する情報を継続的に含んでいる。 学術データをKG(Knowledge Graphs)で利用できるようにするために、多くの取り組みがなされている。 これらのデータを標準化し、アクセス可能にする努力は、学術論文の探索や曖昧な著者など、多くの課題にも繋がる。 本研究は,これらのKGから生成されたマルチモーダルリテラル情報を用いて知識グラフ埋め込み(KGE)を利用する,Scholarly KGsにおけるオーサリング名曖昧化(AND)の問題と,新たなフレームワークであるLAND(Liteally Author Name Disambiguation)を提案する。 このフレームワークは3つのコンポーネントに基づいている。 1)マルチモーダルKGE 2) ブロック手順, そして最後に 3)階層的凝集クラスタリング。 新たに作られた2つのKGに対して大規模な実験が行われた。 i)1978年以降のScientometrics Journal(OC-782K)からの情報を含むKG (ii) aminer(aminer-534k)によって提供された有名なベンチマークから抽出されたkg。 その結果,提案したアーキテクチャはF$_1$スコアで8~14\%のベースラインを上回り,AMinerのような挑戦的なベンチマーク上での競合性能を示した。 コードとデータセットはgithub(https://githu b.com/sntcristian/an d-kge)とzenodo(https://zenod o.org/record/5675787 \#)で公開されている。 YcCJzL3MJTYであった。

Scholarly data is growing continuously containing information about the articles from plethora of venues including conferences, journals, etc. Many initiatives have been taken to make scholarly data available in the for of Knowledge Graphs (KGs). These efforts to standardize these data and make them accessible have also lead to many challenges such as exploration of scholarly articles, ambiguous authors, etc. This study more specifically targets the problem of Author Name Disambiguation (AND) on Scholarly KGs and presents a novel framework, Literally Author Name Disambiguation (LAND), which utilizes Knowledge Graph Embeddings (KGEs) using multimodal literal information generated from these KGs. This framework is based on three components: 1) Multimodal KGEs, 2) A blocking procedure, and finally, 3) Hierarchical Agglomerative Clustering. Extensive experiments have been conducted on two newly created KGs: (i) KG containing information from Scientometrics Journal from 1978 onwards (OC-782K), and (ii) a KG extracted from a well-known benchmark for AND provided by AMiner (AMiner-534K). The results show that our proposed architecture outperforms our baselines of 8-14\% in terms of F$_1$ score and shows competitive performances on a challenging benchmark such as AMiner. The code and the datasets are publicly available through Github (https://github.com/ sntcristian/and-kge) and Zenodo (https://zenodo.org/ record/5675787\#.YcC JzL3MJTY) respectively.
翻訳日:2022-01-26 01:35:43 公開日:2022-01-24
# (参考訳) Pearl:並列進化と強化学習ライブラリ [全文訳有]

Pearl: Parallel Evolutionary and Reinforcement Learning Library ( http://arxiv.org/abs/2201.09568v1 )

ライセンス: CC BY 4.0
Rohan Tangri, Danilo P. Mandic, Anthony G. Constantinides(参考訳) 強化学習は、問題がマルコフ決定プロセスとして表現できる領域をまたいで、ますます成功している。 進化的計算アルゴリズムもこの領域で成功し、一般に複雑な強化学習と同じような性能を示した。 オープンソースの強化学習ライブラリや進化計算ライブラリは数多く存在するが、比較、協調、視覚化のための2つのアプローチを組み合わせた公開ライブラリは存在しない。 この目的のために私たちはPearl(https://github .com/LondonNode/Pear l)というオープンソースのPythonライブラリを開発しました。 モジュールと拡張可能なコンポーネント、評価されたモジュール設定、Tensorboard統合、カスタムコールバック、包括的な視覚化。

Reinforcement learning is increasingly finding success across domains where the problem can be represented as a Markov decision process. Evolutionary computation algorithms have also proven successful in this domain, exhibiting similar performance to the generally more complex reinforcement learning. Whilst there exist many open-source reinforcement learning and evolutionary computation libraries, no publicly available library combines the two approaches for enhanced comparison, cooperation, or visualization. To this end, we have created Pearl (https://github.com/ LondonNode/Pearl), an open source Python library designed to allow researchers to rapidly and conveniently perform optimized reinforcement learning, evolutionary computation and combinations of the two. The key features within Pearl include: modular and expandable components, opinionated module settings, Tensorboard integration, custom callbacks and comprehensive visualizations.
翻訳日:2022-01-26 01:19:06 公開日:2022-01-24
# (参考訳) RGB次元高次物体検出のためのマルチスケール反復リファインメントネットワーク

Multi-Scale Iterative Refinement Network for RGB-D Salient Object Detection ( http://arxiv.org/abs/2201.09574v1 )

ライセンス: CC BY 4.0
Ze-yu Liu, Jian-wei Liu, Xin Zuo, Ming-fei Hu(参考訳) rgb-d情報を活用した広範な研究は、サルエント物体検出に利用されている。 しかし,RGB画像の様々なスケールや解像度には,特徴レベルの意味的ギャップが原因で,有意な視覚的手がかりが現れる。 一方、同様のサルエントパターンはマルチスケール版と同様にクロスモーダル深度画像でも利用可能である。 クロスモーダル融合とマルチスケールリファインメントは、RGB-Dサルエント物体検出タスクにおいて依然として未解決の問題である。 本稿では,マルチスケール機能を活用するためにトップダウンとボトムアップの反復的リファインメントアーキテクチャを導入し,次に注意に基づく融合モジュール(abf)を考案し,クロスモーダル相関に対処する。 7つの公開データセットについて広範な実験を行う。 実験の結果, 提案手法の有効性が示された。

The extensive research leveraging RGB-D information has been exploited in salient object detection. However, salient visual cues appear in various scales and resolutions of RGB images due to semantic gaps at different feature levels. Meanwhile, similar salient patterns are available in cross-modal depth images as well as multi-scale versions. Cross-modal fusion and multi-scale refinement are still an open problem in RGB-D salient object detection task. In this paper, we begin by introducing top-down and bottom-up iterative refinement architecture to leverage multi-scale features, and then devise attention based fusion module (ABF) to address on cross-modal correlation. We conduct extensive experiments on seven public datasets. The experimental results show the effectiveness of our devised method
翻訳日:2022-01-26 01:06:15 公開日:2022-01-24
# (参考訳) 微分パラメトリック音源モデルを用いた教師なし音源分離 [全文訳有]

Unsupervised Audio Source Separation Using Differentiable Parametric Source Models ( http://arxiv.org/abs/2201.09592v1 )

ライセンス: CC BY 4.0
Kilian Schulze-Forster, Clement S. J. Doire, Ga\"el Richard, Roland Badeau(参考訳) 教師付きディープラーニングによるオーディオソース分離は最先端のパフォーマンスを実現するが、それらに対応する分離されたソース信号とともに混合物のデータセットを必要とする。 このようなデータセットは、音楽の混合に対して非常に費用がかかる。 これにより教師なしメソッドの必要性が高まる。 本稿では,教師なしモデルに基づく新たな深層学習手法を提案する。 各ソースは、微分可能なパラメトリックソースフィルタモデルでモデル化される。 ソースモデルのパラメータを基本周波数から推定することにより、観測された混合物をソースの合計として再構成するようにニューラルネットワークを訓練する。 テスト時には、合成されたソース信号からソフトマスクを得る。 音声アンサンブル分離タスクの実験評価は,非負の行列分解と教師付きディープラーニングベースラインに基づいて,提案手法が学習自由な手法より優れていることを示す。 提案手法は,3分未満のオーディオで訓練しても,良好な分離品質を実現する。 この作業は、地上の真実によるトレーニングデータが高価または存在しないシナリオで、強力なディープラーニングベースの分離を可能にする。

Supervised deep learning approaches to underdetermined audio source separation achieve state-of-the-art performance but require a dataset of mixtures along with their corresponding isolated source signals. Such datasets can be extremely costly to obtain for musical mixtures. This raises a need for unsupervised methods. We propose a novel unsupervised model-based deep learning approach to musical source separation. Each source is modelled with a differentiable parametric source-filter model. A neural network is trained to reconstruct the observed mixture as a sum of the sources by estimating the source models' parameters given their fundamental frequencies. At test time, soft masks are obtained from the synthesized source signals. The experimental evaluation on a vocal ensemble separation task shows that the proposed method outperforms learning-free methods based on nonnegative matrix factorization and a supervised deep learning baseline. Integrating domain knowledge in the form of source models into a data-driven method leads to high data efficiency: the proposed approach achieves good separation quality even when trained on less than three minutes of audio. This work makes powerful deep learning based separation usable in scenarios where training data with ground truth is expensive or nonexistent.
翻訳日:2022-01-26 01:04:20 公開日:2022-01-24
# (参考訳) 人間とロボットの相互作用における擬人化知覚のリアルタイム計測に向けて [全文訳有]

Towards a Real-time Measure of the Perception of Anthropomorphism in Human-robot Interaction ( http://arxiv.org/abs/2201.09595v1 )

ライセンス: CC BY 4.0
Maria Tsfasman, Avinash Saravanan, Dekel Viner, Daan Goslinga, Sarah de Wolf, Chirag Raman, Catholijn M. Jonker, Catharine Oertel(参考訳) 人間のような会話ロボットは、長期的な人間とロボットの会話を可能にする必要があるのか? 長期的な相互作用の重要な側面の1つは、会話相手のエンゲージメントと感情の様々な程度に適応できる人間の能力である。 確率的に、これは(分散)訓練によって達成できる。 音声合成は長年にわたって制限要因であったが、この点での制限はますます緩和されている。 これらの進歩は、ロボットエンボディメントが人間のエントレーメントに与える影響を研究することの重要性を強調している。 本研究では,教師が人間やロボットの顔を通して体現される教育的シナリオにおいて,人-ロボット間のインタラクション実験を行った。 43人の英語を話す被験者が,人やロボットの顔に対する音響・韻律的運動の程度を分析した。 擬人化の主観的・客観的知覚の程度は音響-韻律的エントレインメントと正の相関を示した。

How human-like do conversational robots need to look to enable long-term human-robot conversation? One essential aspect of long-term interaction is a human's ability to adapt to the varying degrees of a conversational partner's engagement and emotions. Prosodically, this can be achieved through (dis)entrainment. While speech-synthesis has been a limiting factor for many years, restrictions in this regard are increasingly mitigated. These advancements now emphasise the importance of studying the effect of robot embodiment on human entrainment. In this study, we conducted a between-subjects online human-robot interaction experiment in an educational use-case scenario where a tutor was either embodied through a human or a robot face. 43 English-speaking participants took part in the study for whom we analysed the degree of acoustic-prosodic entrainment to the human or robot face, respectively. We found that the degree of subjective and objective perception of anthropomorphism positively correlates with acoustic-prosodic entrainment.
翻訳日:2022-01-26 00:37:21 公開日:2022-01-24
# (参考訳) sen12ms-cr-ts:マルチモーダル雲除去のためのリモートセンシングデータセット [全文訳有]

SEN12MS-CR-TS: A Remote Sensing Data Set for Multi-modal Multi-temporal Cloud Removal ( http://arxiv.org/abs/2201.09613v1 )

ライセンス: CC BY 4.0
Patrick Ebel and Yajin Xu and Michael Schmitt and Xiaoxiang Zhu(参考訳) 人工衛星で観測された光学観測の約半数は、煙や雲の影響を受けている。 その結果、クラウドのカバレッジは、地球を継続的にシームレスに監視するリモートセンシング実践者の能力に影響を与えます。 本研究は、SEN12MS-CR-TSと呼ばれる新しいマルチモーダル・マルチテンポラルデータセットを提案することにより、光衛星画像再構成と雲除去の課題に対処する。 我々は,sen12ms-cr-tsの利点とユースケースを強調する2つのモデルを提案する。 第二に、雲に覆われた時系列から雲のない時系列を予測するシーケンシャル・ツー・シーケンス翻訳モデルである。 どちらのアプローチも実験的に評価され、それぞれのモデルがSEN12MS-CR-TSでトレーニングおよびテストされている。 実験では、リモートセンシングコミュニティへのデータセットの貢献と、ノイズ情報を再構成するためのマルチモーダル情報とマルチテンポラル情報の利点を強調した。 私たちのデータセットはhttps://patricktum.g ithub.io/cloud_remov alで利用可能です。

About half of all optical observations collected via spaceborne satellites are affected by haze or clouds. Consequently, cloud coverage affects the remote sensing practitioner's capabilities of a continuous and seamless monitoring of our planet. This work addresses the challenge of optical satellite image reconstruction and cloud removal by proposing a novel multi-modal and multi-temporal data set called SEN12MS-CR-TS. We propose two models highlighting the benefits and use cases of SEN12MS-CR-TS: First, a multi-modal multi-temporal 3D-Convolution Neural Network that predicts a cloud-free image from a sequence of cloudy optical and radar images. Second, a sequence-to-sequence translation model that predicts a cloud-free time series from a cloud-covered time series. Both approaches are evaluated experimentally, with their respective models trained and tested on SEN12MS-CR-TS. The conducted experiments highlight the contribution of our data set to the remote sensing community as well as the benefits of multi-modal and multi-temporal information to reconstruct noisy information. Our data set is available at https://patrickTUM.g ithub.io/cloud_remov al
翻訳日:2022-01-26 00:25:34 公開日:2022-01-24
# (参考訳) 繰り返しキーワードオークションにおけるヒューマンフレンドリー戦略の推論 [全文訳有]

Reasoning about Human-Friendly Strategies in Repeated Keyword Auctions ( http://arxiv.org/abs/2201.09616v1 )

ライセンス: CC BY 4.0
Francesco Belardinelli, Wojtek Jamroga, Vadim Malvone, Munyque Mittelmann, Aniello Murano, Laurent Perrussel(参考訳) オンライン広告では、検索エンジンはオークションを通じてキーワードの広告配置を継続的に販売する。 ユーザがキーワードでクエリを実行するとオークションが実行されるので、この問題は無限に繰り返されるゲームと見なすことができる。 広告主は入札を頻繁に変更するので、ゲームは潜在的に複雑な戦略で大きな均衡を持つことになる。 本稿では,記憶力や計算能力に制限のある人工エージェントによって処理可能であり,かつ,ユーザによっても理解できるような環境において,自然戦略を用いた推論手法を提案する。 この目的を達成するために、不完全な情報の設定において、自然戦略を伴う戦略論理の定量的バージョンを導入する。 最初のステップでは、繰り返しキーワードオークションの戦略をモデル化し、このゲームを評価する特性を証明するモデルを利用する方法を示す。 第2のステップでは、リコールのない戦略における識別能力、表現性、モデルチェックの複雑さに関連する論理について検討する。

In online advertising, search engines sell ad placements for keywords continuously through auctions. This problem can be seen as an infinitely repeated game since the auction is executed whenever a user performs a query with the keyword. As advertisers may frequently change their bids, the game will have a large set of equilibria with potentially complex strategies. In this paper, we propose the use of natural strategies for reasoning in such setting as they are processable by artificial agents with limited memory and/or computational power as well as understandable by human users. To reach this goal, we introduce a quantitative version of Strategy Logic with natural strategies in the setting of imperfect information. In a first step, we show how to model strategies for repeated keyword auctions and take advantage of the model for proving properties evaluating this game. In a second step, we study the logic in relation to the distinguishing power, expressivity, and model-checking complexity for strategies with and without recall.
翻訳日:2022-01-25 23:58:40 公開日:2022-01-24
# (参考訳) 階層型強化学習のための逆案内サブゴアル生成 [全文訳有]

Adversarially Guided Subgoal Generation for Hierarchical Reinforcement Learning ( http://arxiv.org/abs/2201.09635v1 )

ライセンス: CC BY 4.0
Vivienne Huiling Wang, Joni Pajarinen, Tinghuai Wang, Joni K\"am\"ar\"ainen(参考訳) 階層的強化学習 (HRL) は, 時間的抽象のレベルを連続的に高め, 意思決定と制御を行うことにより, 困難な課題を解決することを提案する。 しかしながら、HRLの非政治訓練は、低レベルの政策が常に変化しているため、非定常的な高レベルの意思決定の問題に悩まされることが多い。 本稿では,低レベル政策の現在のインスタンス化に対応するサブゴールを生成するために,高レベル政策を逆行することで,非定常性を緩和する新しいHRL手法を提案する。 実際、敵対的学習は、単純な判別子ネットワークと、サブゴールの互換性レベルを決定するハイレベルポリシーを同時に訓練することによって実現することができる。 最先端のアルゴリズムを用いた実験により,本手法は様々な難易度連続制御タスクにおいて,HRLの学習効率と全体的な性能を著しく向上することが示された。

Hierarchical reinforcement learning (HRL) proposes to solve difficult tasks by performing decision-making and control at successively higher levels of temporal abstraction. However, off-policy training in HRL often suffers from the problem of non-stationary high-level decision making since the low-level policy is constantly changing. In this paper, we propose a novel HRL approach for mitigating the non-stationarity by adversarially enforcing the high-level policy to generate subgoals compatible with the current instantiation of the low-level policy. In practice, the adversarial learning can be implemented by training a simple discriminator network concurrently with the high-level policy which determines the compatibility level of subgoals. Experiments with state-of-the-art algorithms show that our approach significantly improves learning efficiency and overall performance of HRL in various challenging continuous control tasks.
翻訳日:2022-01-25 23:07:54 公開日:2022-01-24
# (参考訳) 高次元におけるニューラルインシシデント表面 [全文訳有]

Neural Implicit Surfaces in Higher Dimension ( http://arxiv.org/abs/2201.09636v1 )

ライセンス: CC BY 4.0
Tiago Novello, Vinicius da Silva, Helio Lopes, Guilherme Shardong, Luiz Schirmer, Luiz Velho(参考訳) 本研究は,滑らかな暗黙表面の動的変動をモデル化するための高次微分を許容するニューラルネットワークの利用について検討する。 この目的のために、微分可能な神経暗黙的表面の表現をより高次元に拡張し、アニメーションや表面進化、形状のモーフィング、デザインギャラリーなど、多くの設定で幾何学的変換を活用できるメカニズムを開放する。 この問題は、ニューラルネットワーク関数 $f : \mathbb{R}^3 \times \mathbb{R}^k \rightarrow \mathbb{R}$, ここで$S_c$は暗黙関数 $f(\cdot, c) : \mathbb{R}^3 \rightarrow \mathbb{R}$, $c \in \mathbb{R}^k$ のゼロレベル集合である。 この文脈では、$\mathbb{R}^k$ の各座標に制限され、基礎となる表現は一般偏微分方程式の解であるニューラルホモトピーである。

This work investigates the use of neural networks admitting high-order derivatives for modeling dynamic variations of smooth implicit surfaces. For this purpose, it extends the representation of differentiable neural implicit surfaces to higher dimensions, which opens up mechanisms that allow to exploit geometric transformations in many settings, from animation and surface evolution to shape morphing and design galleries. The problem is modeled by a $k$-parameter family of surfaces $S_c$, specified as a neural network function $f : \mathbb{R}^3 \times \mathbb{R}^k \rightarrow \mathbb{R}$, where $S_c$ is the zero-level set of the implicit function $f(\cdot, c) : \mathbb{R}^3 \rightarrow \mathbb{R} $, with $c \in \mathbb{R}^k$, with variations induced by the control variable $c$. In that context, restricted to each coordinate of $\mathbb{R}^k$, the underlying representation is a neural homotopy which is the solution of a general partial differential equation.
翻訳日:2022-01-25 22:53:05 公開日:2022-01-24
# (参考訳) マルチモーダルグラウンドにおけるクロスデータセットシフト評価のための質問生成 [全文訳有]

Question Generation for Evaluating Cross-Dataset Shifts in Multi-modal Grounding ( http://arxiv.org/abs/2201.09639v1 )

ライセンス: CC BY 4.0
Arjun R. Akula(参考訳) 視覚的質問応答(VQA)は、入力画像に関する自然言語質問に応答するマルチモーダルタスクである。 クロスデータセット適応手法により、より大きなトレインサンプルを持つソースデータセットからトレーニングセットが制限されたターゲットデータセットに知識を転送することができる。 あるデータセットのトレインセットでトレーニングされたVQAモデルが他のデータセットに適応できないと仮定すると、画像分布ミスマッチや質問分布ミスマッチといったさまざまな理由がある可能性があるため、ドメインミスマッチの根本原因を特定するのは難しい。 UCLAでは、VQAモデルのクロスデータセット適応能力を体系的に評価するのに役立つOODシフトの自動生成を容易にするVQGモジュールに取り組んでいる。

Visual question answering (VQA) is the multi-modal task of answering natural language questions about an input image. Through cross-dataset adaptation methods, it is possible to transfer knowledge from a source dataset with larger train samples to a target dataset where training set is limited. Suppose a VQA model trained on one dataset train set fails in adapting to another, it is hard to identify the underlying cause of domain mismatch as there could exists a multitude of reasons such as image distribution mismatch and question distribution mismatch. At UCLA, we are working on a VQG module that facilitate in automatically generating OOD shifts that aid in systematically evaluating cross-dataset adaptation capabilities of VQA models.
翻訳日:2022-01-25 22:29:56 公開日:2022-01-24
# (参考訳) Artefact Retrieval:知識ベースアクセスによるNLPモデルの概要 [全文訳有]

Artefact Retrieval: Overview of NLP Models with Knowledge Base Access ( http://arxiv.org/abs/2201.09651v1 )

ライセンス: CC BY-SA 4.0
Vil\'em Zouhar, Marius Mosbach, Debanjali Biswas, Dietrich Klakow(参考訳) 多くのNLPモデルは知識ベースにアクセスすることで性能を得る。 多くの研究が、知識ベースへのアクセス方法やモデルへの組み込み方法の開発と改善に費やされており、結果として多くのメカニズムやパイプラインが生まれている。 提案機構の多様性にもかかわらず、そのようなシステムの設計にはパターンが存在する。 本稿では,アーティファクト(知識ベースから検索した項目)の類型論,検索機構,これらのアーティファクトをモデルに融合する方法を体系的に記述する。 これにより、まだ試されていない設計上の決定の組み合わせを明らかにすることができます。 言語モデルに焦点が当てられているが、質問応答、ファクトチェック、知識のある対話モデルもこのシステムにどのように適合するかを示す。 特定のモデルのアーキテクチャを記述できる抽象モデルを持つことは、これらのアーキテクチャを複数のnlpタスク間で転送するのに役立ちます。

Many NLP models gain performance by having access to a knowledge base. A lot of research has been devoted to devising and improving the way the knowledge base is accessed and incorporated into the model, resulting in a number of mechanisms and pipelines. Despite the diversity of proposed mechanisms, there are patterns in the designs of such systems. In this paper, we systematically describe the typology of artefacts (items retrieved from a knowledge base), retrieval mechanisms and the way these artefacts are fused into the model. This further allows us to uncover combinations of design decisions that had not yet been tried. Most of the focus is given to language models, though we also show how question answering, fact-checking and knowledgable dialogue models fit into this system as well. Having an abstract model which can describe the architecture of specific models also helps with transferring these architectures between multiple NLP tasks.
翻訳日:2022-01-25 22:22:51 公開日:2022-01-24
# (参考訳) リレーショナルメモリ拡張言語モデル [全文訳有]

Relational Memory Augmented Language Models ( http://arxiv.org/abs/2201.09680v1 )

ライセンス: CC BY 4.0
Qi Liu, Dani Yogatama, Phil Blunsom(参考訳) 本稿では,知識グラフ上に自己回帰言語モデルを記述するためのメモリ拡張手法を提案する。 我々は,このグラフを関係トリプルの集合として表現し,テキスト生成を改善するために与えられたコンテキストに関する関係を検索する。 WikiText-103, WMT19, enwik8 の英語データセットを用いた実験により,本手法は文字単位のパープレキシティとビットの点で,よりよい言語モデルを生成することが示された。 また、リレーショナルメモリはコヒーレンスを改善し、トークンベースのメモリを補完し、因果介入を可能にすることを示す。 我々のモデルは、より一貫性があり論理的な生成のための知識グラフと自己回帰型言語モデルを組み合わせるための、シンプルで効果的な方法を提供する。

We present a memory-augmented approach to condition an autoregressive language model on a knowledge graph. We represent the graph as a collection of relation triples and retrieve relevant relations for a given context to improve text generation. Experiments on WikiText-103, WMT19, and enwik8 English datasets demonstrate that our approach produces a better language model in terms of perplexity and bits per character. We also show that relational memory improves coherence, is complementary to token-based memory, and enables causal interventions. Our model provides a simple yet effective way to combine an autoregressive language model with a knowledge graph for a more coherent and logical generation.
翻訳日:2022-01-25 21:55:36 公開日:2022-01-24
# (参考訳) どんなスタイルで私を惹きつけるのか? StyleGANの解釈可能な制御発見と非現実的説明 [全文訳有]

Which Style Makes Me Attractive? Interpretable Control Discovery and Counterfactual Explanation on StyleGAN ( http://arxiv.org/abs/2201.09689v1 )

ライセンス: CC BY 4.0
Bo Li, Qiulin Wang, Jiquan Pei, Yu Yang, Xiangyang Ji(参考訳) GANのセマンティックに切り離された潜在部分空間は、画像生成において豊富な解釈可能な制御を提供する。 本稿では,StyleGAN2を用いた顔生成のシナリオにおける意味潜在部分空間解析への2つの貢献について述べる。 まず,フェースパーサや顔ランドマーク検出器などの既存の顔解析モデルを活用することで,潜在部分空間意味論を解き明かす新しい手法を提案する。 これらのモデルは、非常に具体的で解釈可能な意味(例えば、顔の形を変えたり、肌の色を変えたり)で様々な基準を構築する柔軟性を提供し、潜在部分空間のゆがみを制限する。 未知のリッチな潜在空間制御は、構築された基準を用いて発見することができる。 次に,CNN分類器の動作を説明するための新たな視点を提案する。 この説明は、分類器が意図した意味を学習するかどうかを明らかにするのに役立つ。 様々な絡み合い基準の実験は、我々のアプローチの有効性を実証している。 このアプローチは画像操作とCNNの非現実的説明可能性の両方に寄与すると考えている。 コードは \url{https://github.com/p rclibo/ice} で入手できる。

The semantically disentangled latent subspace in GAN provides rich interpretable controls in image generation. This paper includes two contributions on semantic latent subspace analysis in the scenario of face generation using StyleGAN2. First, we propose a novel approach to disentangle latent subspace semantics by exploiting existing face analysis models, e.g., face parsers and face landmark detectors. These models provide the flexibility to construct various criterions with very concrete and interpretable semantic meanings (e.g., change face shape or change skin color) to restrict latent subspace disentanglement. Rich latent space controls unknown previously can be discovered using the constructed criterions. Second, we propose a new perspective to explain the behavior of a CNN classifier by generating counterfactuals in the interpretable latent subspaces we discovered. This explanation helps reveal whether the classifier learns semantics as intended. Experiments on various disentanglement criterions demonstrate the effectiveness of our approach. We believe this approach contributes to both areas of image manipulation and counterfactual explainability of CNNs. The code is available at \url{https://github.com/p rclibo/ice}.
翻訳日:2022-01-25 21:30:19 公開日:2022-01-24
# (参考訳) 画像データ拡張のための特徴変換 [全文訳有]

Feature transforms for image data augmentation ( http://arxiv.org/abs/2201.09700v1 )

ライセンス: CC BY 4.0
Loris Nanni, Michelangelo Paci, Sheryl Brahnam and Alessandra Lumini(参考訳) 畳み込みニューラルネットワーク(cnns)の問題点は、十分な堅牢性を得るために大規模なデータセットが必要であることだ。 CNNのこの欠点を克服するために、多くの方法が提案されている。 追加サンプルの収集が容易でない場合、既存のデータから補足技術を使ってより多くのデータポイントを生成する方法が一般的である。 画像分類において、多くの拡張アプローチは単純な画像操作アルゴリズムを利用する。 本研究では,14種類の拡張アプローチを組み合わせて生成した画像を加えて,データレベルでのアンサンブルを構築する。 これらの新しい手法は、フーリエ変換(FT)、ラドン変換(RT)、離散コサイン変換(DCT)に基づいている。 事前学習されたresnet50ネットワークは、各強化法から派生した画像を含むトレーニングセット上で微調整される。 これらのネットワークといくつかの融合は11のベンチマークで評価され比較される。 その結果、異なるデータ拡張手法を組み合わせることで、データレベルのアンサンブルを構築することで、最先端の手法と競争するだけでなく、文献で報告される最良のアプローチをしばしば超越する分類器が得られることがわかった。

A problem with Convolutional Neural Networks (CNNs) is that they require large datasets to obtain adequate robustness; on small datasets, they are prone to overfitting. Many methods have been proposed to overcome this shortcoming with CNNs. In cases where additional samples cannot easily be collected, a common approach is to generate more data points from existing data using an augmentation technique. In image classification, many augmentation approaches utilize simple image manipulation algorithms. In this work, we build ensembles on the data level by adding images generated by combining fourteen augmentation approaches, three of which are proposed here for the first time. These novel methods are based on the Fourier Transform (FT), the Radon Transform (RT) and the Discrete Cosine Transform (DCT). Pretrained ResNet50 networks are finetuned on training sets that include images derived from each augmentation method. These networks and several fusions are evaluated and compared across eleven benchmarks. Results show that building ensembles on the data level by combining different data augmentation methods produce classifiers that not only compete competitively against the state-of-the-art but often surpass the best approaches reported in the literature.
翻訳日:2022-01-25 21:22:09 公開日:2022-01-24
# (参考訳) タンデム話者の最適検証とアンチスプーフィングシステム [全文訳有]

Optimizing Tandem Speaker Verification and Anti-Spoofing Systems ( http://arxiv.org/abs/2201.09709v1 )

ライセンス: CC BY 4.0
Anssi Kanervisto, Ville Hautam\"aki, Tomi Kinnunen, Junichi Yamagishi(参考訳) 自動話者検証(ASV)システムはスプーフィング攻撃に弱いため、セキュリティを改善するためにスプーフィング対策(CM)システムと組み合わせて使用されるのが一般的である。 例えば、CMはまず入力が人間の音声かどうかを判断し、ASVは、この音声が話者の身元と一致するかどうかを決定する。 このようなタンデムシステムの性能をタンデム検出コスト関数(t−dcf)で測定することができる。 しかし、asvとcmシステムは通常、異なるメトリクスとデータを使用して別々に訓練され、パフォーマンスを最適化しない。 本研究では,t-DCFの微分可能バージョンを作成し,強化学習の手法を用いてタンデムシステムを直接最適化することを提案する。 提案手法は,ASVSpoof19データセットにおけるt-DCFの相対的改善率を,制約条件下で20%向上させる。

As automatic speaker verification (ASV) systems are vulnerable to spoofing attacks, they are typically used in conjunction with spoofing countermeasure (CM) systems to improve security. For example, the CM can first determine whether the input is human speech, then the ASV can determine whether this speech matches the speaker's identity. The performance of such a tandem system can be measured with a tandem detection cost function (t-DCF). However, ASV and CM systems are usually trained separately, using different metrics and data, which does not optimize their combined performance. In this work, we propose to optimize the tandem system directly by creating a differentiable version of t-DCF and employing techniques from reinforcement learning. The results indicate that these approaches offer better outcomes than finetuning, with our method providing a 20% relative improvement in the t-DCF in the ASVSpoof19 dataset in a constrained setting.
翻訳日:2022-01-25 21:08:45 公開日:2022-01-24
# (参考訳) 深部リソグラフィーシミュレータの更新:グローバルな形状に基づくノベルティ検出とアクティブラーニング [全文訳有]

Keeping Deep Lithography Simulators Updated: Global-Local Shape-Based Novelty Detection and Active Learning ( http://arxiv.org/abs/2201.09717v1 )

ライセンス: CC BY 4.0
Hao-Chiang Shao, Hsing-Lei Ping, Kuo-shiuan Chen, Weng-Tai Su, Chia-Wen Lin, Shao-Yun Fang, Pin-Yian Tsai, Yan-Hsiu Liu(参考訳) ICレイアウトから製造回路への形状変形を予測するために,学習に基づく事前シミュレーション(レイアウト・ツー・ファブリケーション)モデルが提案されている。 このようなモデルは、通常ペアワイズ学習によって駆動され、レイアウトパターンのトレーニングセットと、製造後の参照形状画像を含む。 しかし、モデルトレーニングや更新のために、すべてのレイアウトクリップの参照形状画像を集めるのは高価で時間がかかる。 そこで本研究では,事前学習した事前シミュレーションモデルでは十分に予測できない新しいレイアウトパターンを識別する,ディープラーニングに基づくレイアウト新規性検出手法を提案する。 オートエンコーダとプリトレーニングされた事前シミュレーションモデルという2つのサブネットワークを利用して,レイアウトの潜在的新規性を評価するために,グローバル局所的ノベルティスコアリング機構を考案する。 前者は所定のレイアウトとトレーニングサンプルのグローバルな構造的相違を特徴付け、後者は製造誘起局所変形を表す潜時符号を抽出する。 自己保持機構によって促進される局所変形とグローバルな相似性を統合することで,試験試料の地絡回路形状を使わずに,新規性を正確に検出することができる。 さらに, 検出された新奇性に基づいて, 地中回路形状の獲得に最も有効な代表的なレイアウトの削減をサンプリングする2つのアクティブラーニング戦略を提案する。 実験結果 一 レイアウト新規性検出における方法の有効性及び方法 二 学習前シミュレーションモデル更新のための代表的な新規レイアウト選択におけるアクティブラーニング戦略の能力について

Learning-based pre-simulation (i.e., layout-to-fabricatio n) models have been proposed to predict the fabrication-induced shape deformation from an IC layout to its fabricated circuit. Such models are usually driven by pairwise learning, involving a training set of layout patterns and their reference shape images after fabrication. However, it is expensive and time-consuming to collect the reference shape images of all layout clips for model training and updating. To address the problem, we propose a deep learning-based layout novelty detection scheme to identify novel (unseen) layout patterns, which cannot be well predicted by a pre-trained pre-simulation model. We devise a global-local novelty scoring mechanism to assess the potential novelty of a layout by exploiting two subnetworks: an autoencoder and a pretrained pre-simulation model. The former characterizes the global structural dissimilarity between a given layout and training samples, whereas the latter extracts a latent code representing the fabrication-induced local deformation. By integrating the global dissimilarity with the local deformation boosted by a self-attention mechanism, our model can accurately detect novelties without the ground-truth circuit shapes of test samples. Based on the detected novelties, we further propose two active-learning strategies to sample a reduced amount of representative layouts most worthy to be fabricated for acquiring their ground-truth circuit shapes. Experimental results demonstrate i) our method's effectiveness in layout novelty detection, and ii) our active-learning strategies' ability in selecting representative novel layouts for keeping a learning-based pre-simulation model updated.
翻訳日:2022-01-25 20:45:17 公開日:2022-01-24
# (参考訳) Epileptic Seizure Detectionによる高次学習のための超次元計算手法の探索 [全文訳有]

Exploration of Hyperdimensional Computing Strategies for Enhanced Learning on Epileptic Seizure Detection ( http://arxiv.org/abs/2201.09759v1 )

ライセンス: CC BY 4.0
Una Pale, Tomas Teijeiro and David Atienza(参考訳) ウェアラブルと目立たない監視とてんかん発作の予測は、患者のライフクオリティを著しく向上させる可能性があるが、リアルタイム検出とウェアラブルデバイス設計の課題のため、まだ到達できない目標である。 超次元(HD)コンピューティングは、特にウェアラブルアプリケーションについて語る際に、新しい有望な機械学習アプローチとして近年進化してきた。 しかし、てんかん検出の場合、標準的なHDコンピューティングは他の最先端アルゴリズムのレベルでは動作しない。 これは、脳波(EEG)、高度にパーソナライズされた性質、発作と非青信号インスタンスの不均衡など、異なる生体信号における発作とそれらの署名が本質的に複雑であるためかもしれない。 文献では,反復的(複数パス)学習,マルチセントリック学習,サンプルウェイトによる学習(onlinehd)など,hdコンピューティングの学習改善のための異なる戦略が提案されている。 しかし、これらの多くはてんかん発作検出の困難な課題についてテストされておらず、HDコンピューティングの性能を現在の最先端アルゴリズム(例えばランダムフォレスト)のレベルまで向上できるかどうかはまだ不明である。 そこで,本稿では,異なる学習戦略を実装し,その性能を個別に,あるいは組み合わせて,検出性能とメモリ,計算要求について評価する。 その結果、マルチセンタロイドとマルチパスの組み合わせであるベストパフォーマンスアルゴリズムは、実生活のてんかん発作検出アプリケーションを模倣した高度にバランスのとれないデータセット上で、ランダムフォレストモデルの性能に実際に到達できることが示されている。

Wearable and unobtrusive monitoring and prediction of epileptic seizures has the potential to significantly increase the life quality of patients, but is still an unreached goal due to challenges of real-time detection and wearable devices design. Hyperdimensional (HD) computing has evolved in recent years as a new promising machine learning approach, especially when talking about wearable applications. But in the case of epilepsy detection, standard HD computing is not performing at the level of other state-of-the-art algorithms. This could be due to the inherent complexity of the seizures and their signatures in different biosignals, such as the electroencephalogram (EEG), the highly personalized nature, and the disbalance of seizure and non-seizure instances. In the literature, different strategies for improved learning of HD computing have been proposed, such as iterative (multi-pass) learning, multi-centroid learning and learning with sample weight ("OnlineHD"). Yet, most of them have not been tested on the challenging task of epileptic seizure detection, and it stays unclear whether they can increase the HD computing performance to the level of the current state-of-the-art algorithms, such as random forests. Thus, in this paper, we implement different learning strategies and assess their performance on an individual basis, or in combination, regarding detection performance and memory and computational requirements. Results show that the best-performing algorithm, which is a combination of multi-centroid and multi-pass, can indeed reach the performance of the random forest model on a highly unbalanced dataset imitating a real-life epileptic seizure detection application.
翻訳日:2022-01-25 20:16:54 公開日:2022-01-24
# (参考訳) バックドアの背後に隠れる:生成モデルに対する自己嫌悪 [全文訳有]

Hiding Behind Backdoors: Self-Obfuscation Against Generative Models ( http://arxiv.org/abs/2201.09774v1 )

ライセンス: CC BY 4.0
Siddhartha Datta, Nigel Shadbolt(参考訳) 物理的世界の機械学習パイプラインを侵害する攻撃ベクトルは、摂動からアーキテクチャコンポーネントまで、最近の研究で実証されている。 攻撃者はシステム内で前処理モデルをターゲットにし、推論中に特定のクラスを難読化するために生成モデルのトレーニングセットを毒殺します。 当社の貢献は、マシンラーニングコミュニティにおけるアーキテクチャ堅牢性の課題に対する意識を高めるために、一般的な攻撃を記述、実装、評価することにあります。

Attack vectors that compromise machine learning pipelines in the physical world have been demonstrated in recent research, from perturbations to architectural components. Building on this work, we illustrate the self-obfuscation attack: attackers target a pre-processing model in the system, and poison the training set of generative models to obfuscate a specific class during inference. Our contribution is to describe, implement and evaluate a generalized attack, in the hope of raising awareness regarding the challenge of architectural robustness within the machine learning community.
翻訳日:2022-01-25 20:03:51 公開日:2022-01-24
# (参考訳) 計算基底理論を用いたギグ経済におけるチューターの経験の理解 [全文訳有]

Using Computational Grounded Theory to Understand Tutors' Experiences in the Gig Economy ( http://arxiv.org/abs/2201.09787v1 )

ライセンス: CC BY 4.0
Lama Alqazlan, Rob Procter, Michael Castelle(参考訳) オンラインマーケットプレースプラットフォームの導入は、フレキシブルでオンデマンド(あるいは"ギグ")な作業の新たな形態の出現につながった。 しかし、ギグワーカーの経験に関するほとんどの先行研究は、配送プラットフォームやクラウドソーシングプラットフォームを調査しているが、教育労働を指導する多数の労働者の経験は、まだ未調査のままである。 そこで我々は,Redditにおける教師の議論を分析するために,計算基底理論アプローチを用いた。 このアプローチは、データ探索、モデリング、人間中心の解釈を含む3つのフェーズで構成される。 検証と人間評価の両方を用いて,計算手法の信頼性と信頼性を高める。 本報告では,本手法の3段階の第一段階について述べる。

The introduction of online marketplace platforms has led to the advent of new forms of flexible, on-demand (or 'gig') work. Yet, most prior research concerning the experience of gig workers examines delivery or crowdsourcing platforms, while the experience of the large numbers of workers who undertake educational labour in the form of tutoring gigs remains understudied. To address this, we use a computational grounded theory approach to analyse tutors' discussions on Reddit. This approach consists of three phases including data exploration, modelling and human-centred interpretation. We use both validation and human evaluation to increase the trustworthiness and reliability of the computational methods. This paper is a work in progress and reports on the first of the three phases of this approach.
翻訳日:2022-01-25 19:52:54 公開日:2022-01-24
# (参考訳) ビットコイン価格におけるマルコフ連鎖の線形法則と異常検出への応用 [全文訳有]

Linear Laws of Markov Chains with an Application for Anomaly Detection in Bitcoin Prices ( http://arxiv.org/abs/2201.09790v1 )

ライセンス: CC BY 4.0
Marcell T. Kurbucz, P\'eter P\'osfay, Antal Jakov\'ac(参考訳) 本論文の目的は,(1)マルコフ連鎖の時間的進化を規定する線形法則を見出すこと,(2)ビットコイン価格の異常検出に本手法を適用すること,の2つである。 これらの目的を達成するために、まず、マルコフ連鎖の線形法則は、それらの(分類学的)自己相関関数の時間埋め込みを用いて導出される。 次に、bitcoin交換レート(米国ドルに対して)の第1の差からバイナリシリーズを生成する。 最後に、このシリーズの線形法則を記述する最小パラメータ数はステップタイムウィンドウによって識別される。 その結果、通常、線形法則は、新型コロナウイルス(covid-19)のパンデミック(2020年3月12日)によって引き起こされた暗号通貨市場の崩壊の前、bitcoin価格の過去最高値(2020年第4四半期 - 2021年第1四半期)の前に、2つの期間でより複雑になった(隠れマルコフ特性を示す追加の3番目のパラメータを含む)。 さらに、この第3パラメータの局所的な高い値はしばしば短期的な価格のピークと関連しており、価格操作が示唆される。

The goals of this paper are twofold: (1) to present a new method that is able to find linear laws governing the time evolution of Markov chains and (2) to apply this method for anomaly detection in Bitcoin prices. To accomplish these goals, first, the linear laws of Markov chains are derived by using the time embedding of their (categorical) autocorrelation function. Then, a binary series is generated from the first difference of Bitcoin exchange rate (against the United States Dollar). Finally, the minimum number of parameters describing the linear laws of this series is identified through stepped time windows. Based on the results, linear laws typically became more complex (containing an additional third parameter that indicates hidden Markov property) in two periods: before the crash of cryptocurrency markets inducted by the COVID-19 pandemic (12 March 2020), and before the record-breaking surge in the price of Bitcoin (Q4 2020 - Q1 2021). In addition, the locally high values of this third parameter are often related to short-term price peaks, which suggests price manipulation.
翻訳日:2022-01-25 19:39:44 公開日:2022-01-24
# (参考訳) IMO^3:対話型多目的オフポリティ最適化 [全文訳有]

IMO^3: Interactive Multi-Objective Off-Policy Optimization ( http://arxiv.org/abs/2201.09798v1 )

ライセンス: CC BY 4.0
Nan Wang, Hongning Wang, Maryam Karimzadehgan, Branislav Kveton, Craig Boutilier(参考訳) ほとんどの実世界の最適化問題には複数の目的がある。 システム設計者は、望ましい運用ポイントに達するために、これらの目的をトレードオフするポリシーを見つける必要があります。 この問題は既知の目的関数の設定において広く研究されている。 我々は、未知の目的関数のより実用的で挑戦的な設定を考える。 業界では、この問題は主にオンラインA/Bテストによって解決される。 また,対話型多目的オフポリシー最適化(IMO^3)を提案する。 我々のアプローチにおける重要なアイデアは、オフポリシーで評価されたポリシーを使用してシステムデザイナーと対話し、どのポリシーが彼女の未知のユーティリティ機能を最大化するかを明らかにすることです。 imo^3は, 設計者からのフィードバック量や, オフポリシー推定のためのトレーニングデータに応じて, 高い確率で最適に近い方針を識別できることを理論的に示す。 複数の多目的最適化問題に対して,その有効性を実証的に示す。

Most real-world optimization problems have multiple objectives. A system designer needs to find a policy that trades off these objectives to reach a desired operating point. This problem has been studied extensively in the setting of known objective functions. We consider a more practical but challenging setting of unknown objective functions. In industry, this problem is mostly approached with online A/B testing, which is often costly and inefficient. As an alternative, we propose interactive multi-objective off-policy optimization (IMO^3). The key idea in our approach is to interact with a system designer using policies evaluated in an off-policy fashion to uncover which policy maximizes her unknown utility function. We theoretically show that IMO^3 identifies a near-optimal policy with high probability, depending on the amount of feedback from the designer and training data for off-policy estimation. We demonstrate its effectiveness empirically on multiple multi-objective optimization problems.
翻訳日:2022-01-25 19:28:13 公開日:2022-01-24
# (参考訳) ベイズニューラルネットワークにおける解析的相互情報 [全文訳有]

Analytic Mutual Information in Bayesian Neural Networks ( http://arxiv.org/abs/2201.09815v1 )

ライセンス: CC BY 4.0
Jae Oh Woo(参考訳) ベイズニューラルネットワークは、不確実性定量化を含む多くのアプリケーション問題において、堅牢なニューラルネットワークモデルの設計と最適化に成功した。 しかし、最近の成功により、ベイズニューラルネットワークに関する情報理論的な理解はまだ初期段階にある。 相互情報は、認識的不確かさを定量化するベイズニューラルネットワークにおける不確実性尺度の例である。 それでも、ベイズ深層学習フレームワークを理解するための基本的な情報尺度の1つである、それを説明する解析公式は知られていない。 本稿では,その中間符号化メッセージにおけるディリクレ分布の仮定を用いて,点過程エントロピーの概念を用いて,モデルパラメータと予測出力との相互情報の解析公式を導出する。 そこで,応用としてディリクレパラメータの推定について考察し,その実例をアクティブラーニングの不確実性尺度に示す。

Bayesian neural networks have successfully designed and optimized a robust neural network model in many application problems, including uncertainty quantification. However, with its recent success, information-theoreti c understanding about the Bayesian neural network is still at an early stage. Mutual information is an example of an uncertainty measure in a Bayesian neural network to quantify epistemic uncertainty. Still, no analytic formula is known to describe it, one of the fundamental information measures to understand the Bayesian deep learning framework. In this paper, with the Dirichlet distribution assumption in its intermediate encoded message, we derive the analytical formula of the mutual information between model parameters and the predictive output by leveraging the notion of the point process entropy. Then, as an application, we discuss the estimation of the Dirichlet parameters and show its practical application in the active learning uncertainty measures.
翻訳日:2022-01-25 19:04:35 公開日:2022-01-24
# (参考訳) グラフ表現を学ぶための学習グラフ拡張 [全文訳有]

Learning Graph Augmentations to Learn Graph Representations ( http://arxiv.org/abs/2201.09830v1 )

ライセンス: CC BY 4.0
Kaveh Hassani and Amir Hosein Khasahmadi(参考訳) グラフコントラスト学習の強化は、不規則な構造、劇的な分布シフト、データセット全体の非同値な特徴空間のために難しい。 これは、エンコーダがノードレベルとグラフレベルの両方で一般化可能な表現を学習するのに役立つ、エンドツーエンドの自動グラフ拡張フレームワークである。 LG2ARは、増分に関する分布を学習する確率的ポリシーと、増分パラメータに関する分布を学習する確率的増分ヘッドからなる。 lg2arは20のグラフレベルおよびノードレベルのベンチマークのうち18のベンチマークにおいて、線形および半教師なしの評価プロトコルで従来の教師なしモデルと比較して最先端の結果を得る。 ソースコードはここで公開される。 https://github.com/k avehhassani/lg2ar

Devising augmentations for graph contrastive learning is challenging due to their irregular structure, drastic distribution shifts, and nonequivalent feature spaces across datasets. We introduce LG2AR, Learning Graph Augmentations to Learn Graph Representations, which is an end-to-end automatic graph augmentation framework that helps encoders learn generalizable representations on both node and graph levels. LG2AR consists of a probabilistic policy that learns a distribution over augmentations and a set of probabilistic augmentation heads that learn distributions over augmentation parameters. We show that LG2AR achieves state-of-the-art results on 18 out of 20 graph-level and node-level benchmarks compared to previous unsupervised models under both linear and semi-supervised evaluation protocols. The source code will be released here: https://github.com/k avehhassani/lg2ar
翻訳日:2022-01-25 18:51:58 公開日:2022-01-24
# (参考訳) Affordance-Aware Multimodal Neural SLAM を用いた行動学習 [全文訳有]

Learning to Act with Affordance-Aware Multimodal Neural SLAM ( http://arxiv.org/abs/2201.09862v1 )

ライセンス: CC BY 4.0
Zhiwei Jia, Kaixiang Lin, Yizhou Zhao, Qiaozi Gao, Govind Thattai, Gaurav Sukhatme(参考訳) 近年,エージェントが環境と対話することで課題解決を学ばなければならない人工知能へのパラダイムシフトが出現している。 具体化されたマルチモーダルなタスクの解決には、ロングホリゾン計画、ビジョン・アンド・ランゲージ・グラウンド、効率的な探索など、いくつかの課題がある。 私たちは重要なボトルネック、すなわち計画とナビゲーションのパフォーマンスに焦点を当てています。 この課題に対処するために、我々は初めていくつかのモダリティを探索に利用し、余裕を考慮したセマンティックマップを予測し、同時に計画するNeural SLAMアプローチを提案する。 これにより、探査効率が大幅に向上し、長期ホライゾン計画が堅牢になり、効果的なビジョンと言語グラウンド化が可能になる。 提案した Affordance-aware Multimodal Neural SLAM (AMSLAM) アプローチでは,ALFRED ベンチマークの事前公開作業に対して 40 % 以上の改善が得られ,テスト対象外のシーンで23.48 % の成功率で新たな最先端の一般化性能が設定される。

Recent years have witnessed an emerging paradigm shift toward embodied artificial intelligence, in which an agent must learn to solve challenging tasks by interacting with its environment. There are several challenges in solving embodied multimodal tasks, including long-horizon planning, vision-and-language grounding, and efficient exploration. We focus on a critical bottleneck, namely the performance of planning and navigation. To tackle this challenge, we propose a Neural SLAM approach that, for the first time, utilizes several modalities for exploration, predicts an affordance-aware semantic map, and plans over it at the same time. This significantly improves exploration efficiency, leads to robust long-horizon planning, and enables effective vision-and-language grounding. With the proposed Affordance-aware Multimodal Neural SLAM (AMSLAM) approach, we obtain more than $40\%$ improvement over prior published work on the ALFRED benchmark and set a new state-of-the-art generalization performance at a success rate of $23.48\%$ on the test unseen scenes.
翻訳日:2022-01-25 18:23:48 公開日:2022-01-24
# (参考訳) evolution gym:ソフトロボットの進化のための大規模ベンチマーク

Evolution Gym: A Large-Scale Benchmark for Evolving Soft Robots ( http://arxiv.org/abs/2201.09863v1 )

ライセンス: CC BY 4.0
Jagdeep Singh Bhatia, Holly Jackson, Yunsheng Tian, Jie Xu, Wojciech Matusik(参考訳) ロボットの設計と制御は、タスクパフォーマンスにおいて同様に重要な役割を果たす。 しかしながら、最適制御は機械学習とロボット工学のコミュニティでよく研究されているが、最適なロボット設計を見つけることにはあまり注目されていない。 これは主に、ロボット工学における協調最適化設計と制御が困難な問題として特徴づけられ、さらに重要なことに、協調最適化のための包括的な評価ベンチマークが存在しないためである。 本稿では,ソフトロボットの設計と制御を最適化する最初の大規模ベンチマークであるEvolution Gymを提案する。 我々のベンチマークでは、各ロボットは様々な種類のボクセル(ソフト、剛性、アクチュエータなど)で構成されており、モジュラーで表現力のあるロボット設計空間となる。 私たちのベンチマーク環境は、様々な種類の地形の移動や操作など、幅広いタスクにまたがっています。 さらに,最先端設計最適化手法と深層強化学習手法を組み合わせたロボット共進化アルゴリズムを開発した。 ベンチマークプラットフォームでアルゴリズムを評価することで、ロボットが進化するにつれてますます複雑な行動を示すのを観察し、提案するタスクの多くを最も進化した設計で解決します。 さらに、ロボットのデザインは、事前の知識なしにゼロから自律的に進化するが、しばしば手作りのロボットよりも優れているように成長する。 それでも、テストされたアルゴリズムはすべて、最も難しい環境で成功するロボットを見つけられません。 これは、より高度なアルゴリズムが、高次元の設計空間を探索し、ますますインテリジェントなロボットを発展させるために必要であることを示唆している。 私たちのwebサイトは、コード、環境、ドキュメント、チュートリアルをhttp://evogym.csail. mit.edu.で公開しています。

Both the design and control of a robot play equally important roles in its task performance. However, while optimal control is well studied in the machine learning and robotics community, less attention is placed on finding the optimal robot design. This is mainly because co-optimizing design and control in robotics is characterized as a challenging problem, and more importantly, a comprehensive evaluation benchmark for co-optimization does not exist. In this paper, we propose Evolution Gym, the first large-scale benchmark for co-optimizing the design and control of soft robots. In our benchmark, each robot is composed of different types of voxels (e.g., soft, rigid, actuators), resulting in a modular and expressive robot design space. Our benchmark environments span a wide range of tasks, including locomotion on various types of terrains and manipulation. Furthermore, we develop several robot co-evolution algorithms by combining state-of-the-art design optimization methods and deep reinforcement learning techniques. Evaluating the algorithms on our benchmark platform, we observe robots exhibiting increasingly complex behaviors as evolution progresses, with the best evolved designs solving many of our proposed tasks. Additionally, even though robot designs are evolved autonomously from scratch without prior knowledge, they often grow to resemble existing natural creatures while outperforming hand-designed robots. Nevertheless, all tested algorithms fail to find robots that succeed in our hardest environments. This suggests that more advanced algorithms are required to explore the high-dimensional design space and evolve increasingly intelligent robots -- an area of research in which we hope Evolution Gym will accelerate progress. Our website with code, environments, documentation, and tutorials is available at http://evogym.csail. mit.edu.
翻訳日:2022-01-25 18:01:43 公開日:2022-01-24
# (参考訳) 深部畳み込みニューラルネットワークを用いた病理画像分類における前処理の重要性 [全文訳有]

Importance of Preprocessing in Histopathology Image Classification Using Deep Convolutional Neural Network ( http://arxiv.org/abs/2201.09867v1 )

ライセンス: CC BY 4.0
Nilgun Sengoz, Tuncay Yigit, Ozlem Ozmen, Ali Hakan Isik(参考訳) 本研究の目的は, 傍結核動物および腸の病理組織像から疾患を診断するための代替的, ハイブリッドなソリューションを提案することである。 本手法は,画像処理と深層学習の両方を併用して,より優れた結果を得る。 病理組織画像からの信頼性の高い疾患検出は医用画像処理におけるオープンな問題として知られ、代替ソリューションの開発が求められている。 この文脈では, burdur mehmet akif ersoy university, 獣医学部, 病理科と共同で520の病理像を収集した。 これらのイメージを手動で検出し解釈するには、専門知識と多くの処理時間が必要です。 このため、獣医、特に新しく採用された医師は、この疾患の検出と治療方法の開発において、画像とコンピュータビジョンシステムが必要である。 本研究では,CLAHE法と画像処理を併用する手法を提案する。 この前処理後、vgg-16アーキテクチャで置換された畳み込みニューラルネットワークを分類して診断する。 この方法は、完全にオリジナルなデータセットイメージを使用する。 評価パラメータには2種類のシステムを適用した。 f1スコアはデータ前処理なしで分類した手法では93%であったが,clahe法で前処理した手法では98%であった。

The aim of this study is to propose an alternative and hybrid solution method for diagnosing the disease from histopathology images taken from animals with paratuberculosis and intact intestine. In detail, the hybrid method is based on using both image processing and deep learning for better results. Reliable disease detection from histo-pathology images is known as an open problem in medical image processing and alternative solutions need to be developed. In this context, 520 histopathology images were collected in a joint study with Burdur Mehmet Akif Ersoy University, Faculty of Veterinary Medicine, and Department of Pathology. Manually detecting and interpreting these images requires expertise and a lot of processing time. For this reason, veterinarians, especially newly recruited physicians, have a great need for imaging and computer vision systems in the development of detection and treatment methods for this disease. The proposed solution method in this study is to use the CLAHE method and image processing together. After this preprocessing, the diagnosis is made by classifying a convolutional neural network sup-ported by the VGG-16 architecture. This method uses completely original dataset images. Two types of systems were applied for the evaluation parameters. While the F1 Score was 93% in the method classified without data preprocessing, it was 98% in the method that was preprocessed with the CLAHE method.
翻訳日:2022-01-25 18:00:31 公開日:2022-01-24
# (参考訳) 医療画像におけるトランスフォーマー:調査

Transformers in Medical Imaging: A Survey ( http://arxiv.org/abs/2201.09873v1 )

ライセンス: CC BY-SA 4.0
Fahad Shamshad, Salman Khan, Syed Waqas Zamir, Muhammad Haris Khan, Munawar Hayat, Fahad Shahbaz Khan, Huazhu Fu(参考訳) 自然言語タスクにおける前例のない成功の後、トランスフォーマーはいくつかのコンピュータビジョン問題に適用され、最先端の結果が得られ、研究者は畳み込みニューラルネットワーク(CNN)の優位性を {de facto"演算子として再考する。 コンピュータビジョンの進歩に乗じて、医療画像分野は、局所受容野を持つcnnと比較してグローバルコンテキストを捉えるトランスフォーマーへの関心も高まっている。 この移行から着想を得た本調査では,最近提案された建築設計から未解決問題に至るまで,様々な側面をカバーする医療画像へのトランスフォーマーの適用について,包括的なレビューを行う。 具体的には, 画像分割, 検出, 分類, 再構築, 合成, 登録, 臨床報告書生成などの作業におけるトランスフォーマーの使用について検討した。 特に、これらのアプリケーション毎に分類を開発し、アプリケーション固有の課題を特定し、それらを解決するための洞察を提供し、最近の傾向を強調します。 さらに, 課題の特定, 課題のオープン化, 今後の方向性の概説など, フィールド全体の現状について批判的な議論を行う。 我々はこの調査がコミュニティへのさらなる関心を喚起し、医療画像におけるトランスフォーマーモデルの応用に関する最新の参照を研究者に提供することを望んでいる。 最後に、この分野の急速な発展に対応するため、我々は、関連する最新の論文とそのオープンソース実装を、定期的にアップデートするつもりです。

Following unprecedented success on the natural language tasks, Transformers have been successfully applied to several computer vision problems, achieving state-of-the-art results and prompting researchers to reconsider the supremacy of convolutional neural networks (CNNs) as {de facto} operators. Capitalizing on these advances in computer vision, the medical imaging field has also witnessed growing interest for Transformers that can capture global context compared to CNNs with local receptive fields. Inspired from this transition, in this survey, we attempt to provide a comprehensive review of the applications of Transformers in medical imaging covering various aspects, ranging from recently proposed architectural designs to unsolved issues. Specifically, we survey the use of Transformers in medical image segmentation, detection, classification, reconstruction, synthesis, registration, clinical report generation, and other tasks. In particular, for each of these applications, we develop taxonomy, identify application-specific challenges as well as provide insights to solve them, and highlight recent trends. Further, we provide a critical discussion of the field's current state as a whole, including the identification of key challenges, open problems, and outlining promising future directions. We hope this survey will ignite further interest in the community and provide researchers with an up-to-date reference regarding applications of Transformer models in medical imaging. Finally, to cope with the rapid development in this field, we intend to regularly update the relevant latest papers and their open-source implementations at \url{https://github.com/f ahadshamshad/awesome -transformers-in-med ical-imaging}.
翻訳日:2022-01-25 17:47:04 公開日:2022-01-24
# リアルタイム通信のためのエンドツーエンドニューラルオーディオ符号化

End-to-End Neural Audio Coding for Real-Time Communications ( http://arxiv.org/abs/2201.09429v1 )

ライセンス: Link先を確認
Xue Jiang, Xiulian Peng, Chengyu Zheng, Huaying Xue, Yuan Zhang, Yan Lu(参考訳) ディープラーニングに基づく手法は、従来のものよりも音声符号化の利点を示しているが、リアルタイム通信(RTC)に注意が払われている。 本稿では、RTCのレイテンシが低いエンドツーエンドのニューラルオーディオコーデックであるTFNetを提案する。 オーディオコーディングではほとんど調査されないエンコーダ-時間フィルタリング-デコーダパラダイムを採用している。 短期および長期の時間差を捉えるために,時間フィルタのためのインターリーブ構造を提案する。 さらに、エンドツーエンドの最適化により、TFNetは音声強調とパケット損失の隠蔽を共同で最適化し、3つのタスクに対して1対1のネットワークを提供する。 提案したTFNetの有効性を主観的および客観的に示す。

Deep-learning based methods have shown their advantages inaudio coding over traditional ones but limited attention hasbeen paid on real-time communications (RTC). This paperproposes the TFNet, an end-to-end neural audio codec withlow latency for RTC. It takes an encoder-temporal filtering-decoder paradigm that seldom being investigated in audiocoding. An interleaved structure is proposed for temporalfiltering to capture both short-term and long-term temporaldependencies . Furthermore, with end-to-end optimization,the TFNet is jointly optimized with speech enhancement andpacket loss concealment, yielding a one-for-all network forthree tasks. Both subjective and objective results demonstratethe efficiency of the proposed TFNet.
翻訳日:2022-01-25 17:45:25 公開日:2022-01-24
# CTRMs:連続空間における複数エージェント経路計画のための協調的タイムマップ構築の学習

CTRMs: Learning to Construct Cooperative Timed Roadmaps for Multi-agent Path Planning in Continuous Spaces ( http://arxiv.org/abs/2201.09467v1 )

ライセンス: Link先を確認
Keisuke Okumura, Ryo Yonetani, Mai Nishimura, Asako Kanezaki(参考訳) 連続空間におけるマルチエージェントパス計画(MAPP)は重要な実践的重要性を持つ課題である。 1つの有望なアプローチは、まずロードマップと呼ばれる空間を近似したグラフを構築し、その後、競合のない経路を導出するためにマルチエージェントパスフィンディング(MAPF)アルゴリズムを適用することである。 従来の研究では、単一エージェント計画のために開発されたロードマップ構築手法が利用されてきたが、複数のエージェントに対して効果的に機能するロードマップの構築方法はほとんど未定である。 そこで本稿では,協調タイムドロードマップ(ctrms)と呼ばれる新しいロードマップ概念を提案する。 CTRMは、各エージェントが、エージェント間の衝突(つまり「協力」)を避けるために他のエージェントの行動を考える方法で、潜在的な解経路の周りの重要な位置に集中できると同時に、時間方向に増強されて「時間的」解経路を導出しやすいようにすることができる。 そこで我々は,CTRMの学習手法を開発し,関連する問題事例の集合から生成モデルを学習し,学習モデルを用いてCTRMの頂点を新しい未確認問題事例のためにサンプリングする。 実験の結果,CTRMの使用により,従来のロードマップ構築手法に匹敵する成功率とソリューション品質を維持しつつ,許容可能なオーバーヘッドで計画作業が大幅に削減された。

Multi-agent path planning (MAPP) in continuous spaces is a challenging problem with significant practical importance. One promising approach is to first construct graphs approximating the spaces, called roadmaps, and then apply multi-agent pathfinding (MAPF) algorithms to derive a set of conflict-free paths. While conventional studies have utilized roadmap construction methods developed for single-agent planning, it remains largely unexplored how we can construct roadmaps that work effectively for multiple agents. To this end, we propose a novel concept of roadmaps called cooperative timed roadmaps (CTRMs). CTRMs enable each agent to focus on its important locations around potential solution paths in a way that considers the behavior of other agents to avoid inter-agent collisions (i.e., "cooperative"), while being augmented in the time direction to make it easy to derive a "timed" solution path. To construct CTRMs, we developed a machine-learning approach that learns a generative model from a collection of relevant problem instances and plausible solutions and then uses the learned model to sample the vertices of CTRMs for new, previously unseen problem instances. Our empirical evaluation revealed that the use of CTRMs significantly reduced the planning effort with acceptable overheads while maintaining a success rate and solution quality comparable to conventional roadmap construction approaches.
翻訳日:2022-01-25 17:45:15 公開日:2022-01-24
# 動的システムのグローバル最適化のためのスケーラブルセーフ探索

Scalable Safe Exploration for Global Optimization of Dynamical Systems ( http://arxiv.org/abs/2201.09562v1 )

ライセンス: Link先を確認
Bhavya Sukhija, Matteo Turchetta, David Lindner, Andreas Krause, Sebastian Trimpe, Dominik Baumann(参考訳) 物理システム上で最適な制御ポリシーを学習することは、単一障害でさえ高価なハードウェア損傷を引き起こす可能性があるため、難しい。 安全、すなわち、探索中の失敗を保証している既存の学習方法のほとんどは、局所的な最適化に限られている。 注目すべき例外は、GoSafeアルゴリズムであり、残念ながら高次元のシステムを扱えないため、ほとんどの実世界の力学系には適用できない。 この研究は、安全性と最適性を保証するとともに、複雑なシステムのグローバルなポリシーを安全に発見できる最初のアルゴリズムとしてGoSafeOptを提案する。 GoSafeを禁ずるロボットアームの実験では、GoSafeOptは高次元領域の安全な学習方法と競合するよりも、はるかに優れたポリシーを安全に見つけることが実証された。

Learning optimal control policies directly on physical systems is challenging since even a single failure can lead to costly hardware damage. Most existing learning methods that guarantee safety, i.e., no failures, during exploration are limited to local optima. A notable exception is the GoSafe algorithm, which, unfortunately, cannot handle high-dimensional systems and hence cannot be applied to most real-world dynamical systems. This work proposes GoSafeOpt as the first algorithm that can safely discover globally optimal policies for complex systems while giving safety and optimality guarantees. Our experiments on a robot arm that would be prohibitive for GoSafe demonstrate that GoSafeOpt safely finds remarkably better policies than competing safe learning methods for high-dimensional domains.
翻訳日:2022-01-25 17:44:52 公開日:2022-01-24
# ネットワークが推測するものではない:意味的矛盾に基づく逆例の検出

What You See is Not What the Network Infers: Detecting Adversarial Examples Based on Semantic Contradiction ( http://arxiv.org/abs/2201.09650v1 )

ライセンス: Link先を確認
Yijun Yang, Ruiyuan Gao, Yu Li, Qiuxia Lai and Qiang Xu(参考訳) 敵対的例(AE)は、ディープニューラルネットワーク(DNN)の安全クリティカルドメイン(例えば自律運転)への応用に深刻な脅威をもたらす。 多数のAE防衛ソリューションが存在しているが、私たちの知る限りでは、AEのサブセットのみを防衛したり、正当な入力に対して比較的高い精度の損失を生じさせたりといった、いくつかの弱点に悩まされている。 さらに、既存のほとんどのソリューションは、アダプティブアタックに対して防御することができず、攻撃者は防御機構に精通し、それに従ってAEを作れます。 本稿では,対象のdnnモデルによって抽出された識別的特徴と,その意味的情報に矛盾するaesの性質に基づく新しいae検出フレームワークを提案する。 具体的には、提案する解、すなわちコントラネットは、まず入力と推論結果の両方をジェネレータに受け取り、合成出力を取得し、それから元の入力と比較することで、そのような矛盾をモデル化する。 正しく推論された正規入力に対して、合成出力は入力を再構成しようとする。 反対に、AEsでは、入力を再構築する代わりに、可能な限り間違ったラベルに適合するように合成出力を作成する。 これにより、入力と合成出力の距離をメートル法学習で測定することにより、AEを正規入力と区別することができる。 我々は,様々なae攻撃シナリオにおいて包括的評価を行い,特に適応攻撃においては,コントラネットが既存のソリューションよりも大きなマージンで勝っていることを実験的に示した。 さらに,ContraNetをバイパス可能なAEは,より弱められた逆意味論を持つ傾向がある。 また,コントラネットと対向訓練技術を組み合わせることで,さらに改良されたae防御能力が得られることを示した。

Adversarial examples (AEs) pose severe threats to the applications of deep neural networks (DNNs) to safety-critical domains, e.g., autonomous driving. While there has been a vast body of AE defense solutions, to the best of our knowledge, they all suffer from some weaknesses, e.g., defending against only a subset of AEs or causing a relatively high accuracy loss for legitimate inputs. Moreover, most existing solutions cannot defend against adaptive attacks, wherein attackers are knowledgeable about the defense mechanisms and craft AEs accordingly. In this paper, we propose a novel AE detection framework based on the very nature of AEs, i.e., their semantic information is inconsistent with the discriminative features extracted by the target DNN model. To be specific, the proposed solution, namely ContraNet, models such contradiction by first taking both the input and the inference result to a generator to obtain a synthetic output and then comparing it against the original input. For legitimate inputs that are correctly inferred, the synthetic output tries to reconstruct the input. On the contrary, for AEs, instead of reconstructing the input, the synthetic output would be created to conform to the wrong label whenever possible. Consequently, by measuring the distance between the input and the synthetic output with metric learning, we can differentiate AEs from legitimate inputs. We perform comprehensive evaluations under various AE attack scenarios, and experimental results show that ContraNet outperforms existing solutions by a large margin, especially under adaptive attacks. Moreover, our analysis shows that successful AEs that can bypass ContraNet tend to have much-weakened adversarial semantics. We have also shown that ContraNet can be easily combined with adversarial training techniques to achieve further improved AE defense capabilities.
翻訳日:2022-01-25 17:26:12 公開日:2022-01-24
# 大規模および異種データソースへの知識グラフ生成のスケールアップ

Scaling Up Knowledge Graph Creation to Large and Heterogeneous Data Sources ( http://arxiv.org/abs/2201.09694v1 )

ライセンス: Link先を確認
Enrique Iglesias, Samaneh Jozashoori, Maria-Esther Vidal(参考訳) rdf知識グラフ(kg)は、異種データソースから生成された事実ステートメントを表す強力なデータ構造である。 kgの作成は手間がかかり、効率的なデータ管理技術が要求される。 本稿では、宣言的に特定されたKG生成プロセスの自動生成の問題に取り組み、RDFマッピング言語(RML)で定義されたマッピングアサーションに従って、異種データをRDFトリプルに計画・変換する手法を提案する。 一連のマッピングアサーションが与えられると、プランナーはアサーションの実行を分割しスケジューリングすることで最適化された実行計画を提供する。 まず、データソース数、マッピングアサーションの種類、異なるアサーション間の関連性を考慮して、最適化されたパーティション数を評価します。 各パーティションに属するパーティションとアサーションのリストを提供した後、プランナーは実行順序を決定する。 分割のブッシーツリー実行計画を生成するために欲張りなアルゴリズムが実装されている。 ブッシュツリープランは、ブッシュツリーが示す順序でマッピングアサーションのパーティションの実行を導くオペレーティングシステムコマンドに変換される。 提案手法は、最先端のRML準拠エンジンと既存のデータソースとRMLトリプルマップのベンチマークに基づいて評価される。 実験結果から,多くのトリプルマップやデータソースを備えた複雑な環境では,エンジンの性能が大幅に向上することが示唆された。 結果として、通常複雑なケースでタイムアウトするエンジンは、すべてのアサーションをフルに実行しなければ、それでもkgの一部を生成できる。

RDF knowledge graphs (KG) are powerful data structures to represent factual statements created from heterogeneous data sources. KG creation is laborious, and demands data management techniques to be executed efficiently. This paper tackles the problem of the automatic generation of KG creation processes declaratively specified; it proposes techniques for planning and transforming heterogeneous data into RDF triples following mapping assertions specified in the RDF Mapping Language (RML). Given a set of mapping assertions, the planner provides an optimized execution plan by partitioning and scheduling the execution of the assertions. First, the planner assesses an optimized number of partitions considering the number of data sources, type of mapping assertions, and the associations between different assertions. After providing a list of partitions and assertions that belong to each partition, the planner determines their execution order. A greedy algorithm is implemented to generate the partitions' bushy tree execution plan. Bushy tree plans are translated into operating system commands that guide the execution of the partitions of the mapping assertions in the order indicated by the bushy tree. The proposed optimization approach is evaluated over state-of-the-art RML-compliant engines and existing benchmarks of data sources and RML triples maps. Our experimental results suggest that the performance of the studied engines can be considerably improved, particularly in a complex setting with numerous triples maps and data sources. As a result, engines that usually time in complex cases out can, if not entirely execute all the assertions, still produce a portion of the KG.
翻訳日:2022-01-25 17:25:40 公開日:2022-01-24
# 球面ポアソン点過程の強度関数モデリングと測度輸送による推定

Spherical Poisson Point Process Intensity Function Modeling and Estimation with Measure Transport ( http://arxiv.org/abs/2201.09485v1 )

ライセンス: Link先を確認
Tin Lok James Ng and Andrew Zammit-Mangion(参考訳) 近年,機械学習や人工知能に共通する手法や手法の空間統計への応用への関心が高まっている。 ここでは,学術誌「空間統計学」の10周年を記念して,機械学習における密度関数推定によく用いられる正規化フローと,学術誌の読者層に特に関心を持つ球面点過程を組み合わせて,非均一なポアソン過程強度関数を球面上でモデル化する新たなアプローチを提案する。 このフレームワークの中心的な考え方は、球面上の関心の根底にある強度関数を、球面上のより単純で参照可能な強度関数に変換する柔軟な単射写像を構築し、推定することである。 自動微分と確率勾配降下を用いて地図推定を効率的に行うことができ、不確かさの定量化はノンパラメトリックブートストラップによって直接行うことができる。 シミュレーション研究において,提案手法の有効性を検証し,北太平洋におけるサイクロン現象の強度をモデル化する概念実証実験において,その利用について述べる。 実験の結果, 正規化フローは球面上の強度関数をモデル化するための柔軟で直接的な方法であるが, そのポテンシャルは, 実際に確立することが困難である単射写像のアーキテクチャに依存することがわかった。

Recent years have seen an increased interest in the application of methods and techniques commonly associated with machine learning and artificial intelligence to spatial statistics. Here, in a celebration of the ten-year anniversary of the journal Spatial Statistics, we bring together normalizing flows, commonly used for density function estimation in machine learning, and spherical point processes, a topic of particular interest to the journal's readership, to present a new approach for modeling non-homogeneous Poisson process intensity functions on the sphere. The central idea of this framework is to build, and estimate, a flexible bijective map that transforms the underlying intensity function of interest on the sphere into a simpler, reference, intensity function, also on the sphere. Map estimation can be done efficiently using automatic differentiation and stochastic gradient descent, and uncertainty quantification can be done straightforwardly via nonparametric bootstrap. We investigate the viability of the proposed method in a simulation study, and illustrate its use in a proof-of-concept study where we model the intensity of cyclone events in the North Pacific Ocean. Our experiments reveal that normalizing flows present a flexible and straightforward way to model intensity functions on spheres, but that their potential to yield a good fit depends on the architecture of the bijective map, which can be difficult to establish in practice.
翻訳日:2022-01-25 17:25:15 公開日:2022-01-24
# picknet:アドホックマイクロホンアレーのためのリアルタイムチャネル選択

PickNet: Real-Time Channel Selection for Ad Hoc Microphone Arrays ( http://arxiv.org/abs/2201.09586v1 )

ライセンス: Link先を確認
Takuya Yoshioka, Xiaofei Wang, and Dongmei Wang(参考訳) 本稿では,携帯電話などの複数の記録装置からなるアドホックマイクロホンアレイのリアルタイムチャネル選択のためのニューラルネットワークモデルである picknet を提案する。 ピックネットは、少なくとも1人が各時点において発声活動を行うと仮定し、わずか数百ミリ秒の短いスペクトルパッチを用いて、各時間フレーム毎にアクティブな人物に空間的に最も近いデバイスを特定する。 モデルが時間フレーム毎に適用され、選択したマイクからの短時間フレーム信号がフレーム全体に連結されて出力信号が生成される。 個人機器は通常、所有者の近くに保持されるため、出力信号は、入力信号よりも平均で信号対雑音および残響率が高いことが期待される。 PickNetは各時間帯に限られた音環境しか利用しないため,提案モデルを用いたシステムはリアルタイムに動作し,音環境の変化に頑健である。 各種スマートフォンを用いた実会話記録を用いて音声認識に基づく評価を行った。 提案モデルでは,ブロックオンラインビームフォーマと単一遠方マイクロホンを用いて,計算コストの制限による単語誤り率の大幅な向上を実現した。

This paper proposes PickNet, a neural network model for real-time channel selection for an ad hoc microphone array consisting of multiple recording devices like cell phones. Assuming at most one person to be vocally active at each time point, PickNet identifies the device that is spatially closest to the active person for each time frame by using a short spectral patch of just hundreds of milliseconds. The model is applied to every time frame, and the short time frame signals from the selected microphones are concatenated across the frames to produce an output signal. As the personal devices are usually held close to their owners, the output signal is expected to have higher signal-to-noise and direct-to-reverberat ion ratios on average than the input signals. Since PickNet utilizes only limited acoustic context at each time frame, the system using the proposed model works in real time and is robust to changes in acoustic conditions. Speech recognition-based evaluation was carried out by using real conversational recordings obtained with various smartphones. The proposed model yielded significant gains in word error rate with limited computational cost over systems using a block-online beamformer and a single distant microphone.
翻訳日:2022-01-25 17:24:53 公開日:2022-01-24
# マルチモーダル画像診断のための相互注意型ハイブリッド次元ネットワーク

Mutual Attention-based Hybrid Dimensional Network for Multimodal Imaging Computer-aided Diagnosis ( http://arxiv.org/abs/2201.09421v1 )

ライセンス: Link先を確認
Yin Dai, Yifan Gao, Fayu Liu and Jun Fu(参考訳) マルチモーダル3dコンピュータ支援診断に関する最近の研究は、3次元畳み込みニューラルネットワーク(cnn)がより多くのパラメータをもたらし、医療画像が乏しい場合に競合する自動診断モデルを得ることを実証している。 マルチモーダル画像に対する関心領域と診断精度の両方を考慮し、マルチモーダル3次元医用画像分類(MMNet)のための新しい相互注意型ハイブリッド次元ネットワークを提案する。 ハイブリッド次元ネットワークは、2D CNNと3D畳み込みモジュールを統合し、より深くより情報的な特徴マップを生成し、3D融合のトレーニングの複雑さを低減する。 さらに、ImageNetの事前訓練されたモデルは、2D CNNで使用することができ、モデルの性能が向上する。 立体視は3次元医用画像に領域の豊富な文脈依存性を構築することに焦点を当てている。 マルチモーダル医用画像における病理組織の局所的相関を改善するために,ネットワーク内の相互注意フレームワークをデザインし,異なる画像形態の類似立体領域における局所的一貫性を構築し,ネットワークに病理組織に焦点を当てるように指示する暗黙的な方法を提供する。 MMNetは従来の多くのソリューションより優れており、Parotid Gland tumor (PGT) データセット、MRNet データセット、 PROSTATEx データセットといった3つのマルチモーダル画像データセットの最先端と競合する結果が得られ、その利点は広範な実験によって検証される。

Recent works on Multimodal 3D Computer-aided diagnosis have demonstrated that obtaining a competitive automatic diagnosis model when a 3D convolution neural network (CNN) brings more parameters and medical images are scarce remains nontrivial and challenging. Considering both consistencies of regions of interest in multimodal images and diagnostic accuracy, we propose a novel mutual attention-based hybrid dimensional network for MultiModal 3D medical image classification (MMNet). The hybrid dimensional network integrates 2D CNN with 3D convolution modules to generate deeper and more informative feature maps, and reduce the training complexity of 3D fusion. Besides, the pre-trained model of ImageNet can be used in 2D CNN, which improves the performance of the model. The stereoscopic attention is focused on building rich contextual interdependencies of the region in 3D medical images. To improve the regional correlation of pathological tissues in multimodal medical images, we further design a mutual attention framework in the network to build the region-wise consistency in similar stereoscopic regions of different image modalities, providing an implicit manner to instruct the network to focus on pathological tissues. MMNet outperforms many previous solutions and achieves results competitive to the state-of-the-art on three multimodal imaging datasets, i.e., Parotid Gland Tumor (PGT) dataset, the MRNet dataset, and the PROSTATEx dataset, and its advantages are validated by extensive experiments.
翻訳日:2022-01-25 17:19:40 公開日:2022-01-24
# 協調運転自動化を実現するサイバーモビリティミラー - 共シミュレーションプラットフォーム

Cyber Mobility Mirror for Enabling Cooperative Driving Automation: A Co-Simulation Platform ( http://arxiv.org/abs/2201.09463v1 )

ライセンス: Link先を確認
Zhengwei Bai, Guoyuan Wu, Xuewei Qi, Kentaro Oguchi, Matthew J. Barth(参考訳) 自動化と接続性を備えたコネクテッド・アンド・オートマチック・ビークル(CAV)は、協調運転自動化(CDA)のための革命的なプロモーターである。 それでも、CAVは周囲の高忠実度知覚情報を必要としており、レーダー、カメラ、LiDARなどの様々な搭載センサーや車両間通信(V2X)から収集するのには費用がかかる。 したがって、高忠実度センサ入力によるセンシングプロセスを正確にシミュレートし、コスト効率のよいプラットフォームを介して知覚情報をタイムリーに取得することは、例えば意思決定や制御モジュールの開発など、CDA関連の研究を可能にする上で重要である。 CAVに対する最先端の交通シミュレーション研究の多くは、CDAアルゴリズムのテストと検証の信頼性と忠実さを妨げるオブジェクトの固有の属性を直接呼び出すことによって、状況認識情報に依存している。 本研究では,高忠実度センサ認識システムによる実世界と,リアルタイム3次元再構成システムによるサイバー世界(あるいは「ミラー」世界)の両方をシミュレートするシミュレーションプラットフォームを開発した。 具体的には、現実世界のシミュレーターは、主に道路利用者(車両、自転車、歩行者など)、インフラ(交通信号や道路脇のセンサーなど)、および物体検出プロセスのシミュレーションを担当している。 ミラーワールドシミュレータは、CDAアルゴリズムの開発と評価を支援するために、認識された情報(現実世界シミュレータの道路側センサーによって提供される)から3Dオブジェクトとその軌跡を再構成する。 この共シミュレーションプラットフォームの有効性を示すために,道路サイドlidarを用いたリアルタイム車両検出および3次元再構成システムを試作した。

Endowed with automation and connectivity, Connected and Automated Vehicles (CAVs) are meant to be a revolutionary promoter for Cooperative Driving Automation (CDA). Nevertheless, CAVs need high-fidelity perception information on their surroundings, which is available but costly to collect from various on-board sensors, such as radar, camera, and LiDAR, as well as vehicle-to-everythin g (V2X) communications. Therefore, precisely simulating the sensing process with high-fidelity sensor inputs and timely retrieving the perception information via a cost-effective platform are of increasing significance for enabling CDA-related research, e.g., development of decision-making or control module. Most state-of-the-art traffic simulation studies for CAVs rely on the situation-awareness information by directly calling on intrinsic attributes of the objects, which impedes the reliability and fidelity for testing and validation of CDA algorithms. In this study, a co-simulation platform is developed, which can simulate both the real world with a high-fidelity sensor perception system and the cyber world (or "mirror" world) with a real-time 3D reconstruction system. Specifically, the real-world simulator is mainly in charge of simulating the road-users (such as vehicles, bicyclists, and pedestrians), infrastructure (e.g., traffic signals and roadside sensors) as well as the object detection process. The mirror-world simulator is responsible for reconstructing 3D objects and their trajectories from the perceived information (provided by those roadside sensors in the real-world simulator) to support the development and evaluation of CDA algorithms. To illustrate the efficacy of this co-simulation platform, a roadside LiDAR-based real-time vehicle detection and 3D reconstruction system is prototyped as a study case.
翻訳日:2022-01-25 17:19:10 公開日:2022-01-24
# Debiasing PipelineはX線による肺結節検出のためのディープラーニングモデルの一般化を改善する

Debiasing pipeline improves deep learning model generalization for X-ray based lung nodule detection ( http://arxiv.org/abs/2201.09563v1 )

ライセンス: Link先を確認
Michael Horry, Subrata Chakraborty, Biswajeet Pradhan, Manoranjan Paul, Jing Zhu, Hui Wen Loh, Prabal Datta Barua, U. Rajendra Arharya(参考訳) 肺がんは世界のがん死の主要な原因であり、良好な予後は早期診断に依存する。 残念ながら、早期肺癌診断のためのスクリーニングプログラムはまれである。 これは医療施設から遠く離れた農村部に位置するat-riskグループによるものである。 これらの人口に到達するためには、モビリティ、低コスト、スピード、正確性、プライバシを組み合わせたスケールドアプローチが必要となる。 これらの問題を、胸部x線イメージングモードと連合ディープラーニングアプローチを組み合わせることで解決することができる。フェデレーションモデルが均質なデータに基づいて訓練されており、単一のデータソースがどの時点でもモデルに不利なバイアスを負わないようにする。 本研究では,胸部x線画像の均質化とデバイザリングを行う画像前処理パイプラインにより,内部分類と外部一般化の両方を改善し,肺癌検診のための低コストでアクセス可能な深層学習型臨床システムへの道を開く。 進化的プルーニング機構は、一般に利用可能な肺結節X線データセットから最も情報性の高い画像に基づいて結節検出深層学習モデルを訓練するために用いられる。 ヒストグラム等化は、画像の明るさとコントラストの体系的な違いを取り除くために用いられる。 モデルトレーニングは、肺野セグメンテーション、クローズ・クロッピング、リブ抑制操作のあらゆる組み合わせを用いて行われる。 この前処理パイプラインは, 独立した肺結節データセットの一般化に成功し, このパイプラインにおける各オペレーターの寄与を評価するためのアブレーション研究を行った。 肺野セグメンテーションによる胸部X線画像の抽出と骨構造からの信号ノイズの抑制では, 未確認データ中の結節サンプルに対して89%の精度で, 高精度な深部学習肺結節検出アルゴリズムを訓練することができる。

Lung cancer is the leading cause of cancer death worldwide and a good prognosis depends on early diagnosis. Unfortunately, screening programs for the early diagnosis of lung cancer are uncommon. This is in-part due to the at-risk groups being located in rural areas far from medical facilities. Reaching these populations would require a scaled approach that combines mobility, low cost, speed, accuracy, and privacy. We can resolve these issues by combining the chest X-ray imaging mode with a federated deep-learning approach, provided that the federated model is trained on homogenous data to ensure that no single data source can adversely bias the model at any point in time. In this study we show that an image pre-processing pipeline that homogenizes and debiases chest X-ray images can improve both internal classification and external generalization, paving the way for a low-cost and accessible deep learning-based clinical system for lung cancer screening. An evolutionary pruning mechanism is used to train a nodule detection deep learning model on the most informative images from a publicly available lung nodule X-ray dataset. Histogram equalization is used to remove systematic differences in image brightness and contrast. Model training is performed using all combinations of lung field segmentation, close cropping, and rib suppression operators. We show that this pre-processing pipeline results in deep learning models that successfully generalize an independent lung nodule dataset using ablation studies to assess the contribution of each operator in this pipeline. In stripping chest X-ray images of known confounding variables by lung field segmentation, along with suppression of signal noise from the bone structure we can train a highly accurate deep learning lung nodule detection algorithm with outstanding generalization accuracy of 89% to nodule samples in unseen data.
翻訳日:2022-01-25 17:18:38 公開日:2022-01-24
# autoseg -- 自動病理セグメンテーションのための誘導バイアスを操る

AutoSeg -- Steering the Inductive Biases for Automatic Pathology Segmentation ( http://arxiv.org/abs/2201.09579v1 )

ライセンス: Link先を確認
Felix Meissen and Georgios Kaissis and Daniel Rueckert(参考訳) 医用画像では、非、半、または自己監督型病理検出は、誘導バイアスが故意に病理検出に向けられておらず、したがってこの課題に準最適である、異常または分布外検出法によってしばしばアプローチされる。 この問題に対処するために,実世界の病理の性質に類似した多種多様な人工異常を発生できるエンジンであるautosegを提案する。 提案手法は,チェストX線画像の現実的データセットにおいて,未知の人工異常を正確に分類し,既存の病理診断法より優れている。 本研究は,2021年医学的アウト・オブ・ディストリビューション・アナリティクス・チャレンジの手法を実験的に評価する。

In medical imaging, un-, semi-, or self-supervised pathology detection is often approached with anomaly- or out-of-distribution detection methods, whose inductive biases are not intentionally directed towards detecting pathologies, and are therefore sub-optimal for this task. To tackle this problem, we propose AutoSeg, an engine that can generate diverse artificial anomalies that resemble the properties of real-world pathologies. Our method can accurately segment unseen artificial anomalies and outperforms existing methods for pathology detection on a challenging real-world dataset of Chest X-ray images. We experimentally evaluate our method on the Medical Out-of-Distribution Analysis Challenge 2021.
翻訳日:2022-01-25 17:18:08 公開日:2022-01-24
# 深部優先と劣化モデルインバージョンを用いたハイパースペクトル画像超解像

Hyperspectral Image Super-resolution with Deep Priors and Degradation Model Inversion ( http://arxiv.org/abs/2201.09851v1 )

ライセンス: Link先を確認
Xiuheng Wang, Jie Chen, C\'edric Richard(参考訳) 空間分解能に関してハイパースペクトルイメージングシステムの固有のハードウェア限界を克服するため、fusion-based hyperspectral image (hsi)スーパーレゾリューションが注目を集めている。 この技術は、HR HSIを得るために、低分解能(LR) HSIと従来の高分解能(HR) RGBイメージを融合することを目的としている。 近年,HSI超解像問題に対処するためにディープラーニングアーキテクチャが採用され,優れた性能を実現している。 しかし、このモデルは明確な物理的解釈を持つにもかかわらず分解モデルを無視し、性能向上に寄与する可能性がある。 本稿では、目的関数のデータ忠実度項における線形劣化モデルを用いて、スペクトル及び空間勾配領域における深い事前正規化器を設計するための畳み込みニューラルネットワークの出力を利用する手法を提案する。 実験は、この戦略で達成された性能改善を示す。

To overcome inherent hardware limitations of hyperspectral imaging systems with respect to their spatial resolution, fusion-based hyperspectral image (HSI) super-resolution is attracting increasing attention. This technique aims to fuse a low-resolution (LR) HSI and a conventional high-resolution (HR) RGB image in order to obtain an HR HSI. Recently, deep learning architectures have been used to address the HSI super-resolution problem and have achieved remarkable performance. However, they ignore the degradation model even though this model has a clear physical interpretation and may contribute to improve the performance. We address this problem by proposing a method that, on the one hand, makes use of the linear degradation model in the data-fidelity term of the objective function and, on the other hand, utilizes the output of a convolutional neural network for designing a deep prior regularizer in spectral and spatial gradient domains. Experiments show the performance improvement achieved with this strategy.
翻訳日:2022-01-25 17:17:54 公開日:2022-01-24
# ランダムウォークによる薬物・標的相互作用予測と行列因子化

Multiple Similarity Drug-Target Interaction Prediction with Random Walks and Matrix Factorization ( http://arxiv.org/abs/2201.09508v1 )

ライセンス: Link先を確認
Bin Liu, Dimitrios Papadopoulos, Fragkiskos D. Malliaros, Grigorios Tsoumakas, Apostolos N. Papadopoulos(参考訳) 薬物標的相互作用(DTI)の発見は、非常に有望な研究分野であり、大きな可能性を秘めている。 一般に、医薬品とタンパク質間の信頼できる相互作用の同定は、有効な医薬品の開発を促進する。 本研究では,DTI予測にランダムウォークと行列因数分解手法を利用する。 特に、異なるレイヤが薬物と標的の異なる類似度メトリクスに対応している、多層ネットワークの観点を考察する。 複数のビューでキャプチャされたトポロジ情報を完全に活用するために,DTI予測のための最適化フレームワーク MDMF を開発した。 このフレームワークは薬物や標的のベクトル表現を学習し、全ての超層および層特異的局所不変性において高次近接を保持するだけでなく、内積との相互作用を近似する。 さらに, 高精度リコール曲線(AUPR)における領域のサロゲート損失を最適化するMDMFモデルと, 受信動作特性曲線(AUC)における領域の2つのインスタンス化を統合するMDMF2Aというアンサンブル手法を提案する。 実世界のDTIデータセットに関する実証研究により,本手法は4つの異なる設定で現在の最先端アプローチよりも大幅に改善されていることが示された。 さらに、高いランクの非相互作用対の検証は、新しいDTIを発見するMDMF2Aの可能性を示す。

The discovery of drug-target interactions (DTIs) is a very promising area of research with great potential. In general, the identification of reliable interactions among drugs and proteins can boost the development of effective pharmaceuticals. In this work, we leverage random walks and matrix factorization techniques towards DTI prediction. In particular, we take a multi-layered network perspective, where different layers correspond to different similarity metrics between drugs and targets. To fully take advantage of topology information captured in multiple views, we develop an optimization framework, called MDMF, for DTI prediction. The framework learns vector representations of drugs and targets that not only retain higher-order proximity across all hyper-layers and layer-specific local invariance, but also approximates the interactions with their inner product. Furthermore, we propose an ensemble method, called MDMF2A, which integrates two instantiations of the MDMF model that optimize surrogate losses of the area under the precision-recall curve (AUPR) and the area under the receiver operating characteristic curve (AUC), respectively. The empirical study on real-world DTI datasets shows that our method achieves significant improvement over current state-of-the-art approaches in four different settings. Moreover, the validation of highly ranked non-interacting pairs also demonstrates the potential of MDMF2A to discover novel DTIs.
翻訳日:2022-01-25 17:08:15 公開日:2022-01-24
# マシンアンラーニングによるバックドア防御

Backdoor Defense with Machine Unlearning ( http://arxiv.org/abs/2201.09538v1 )

ライセンス: Link先を確認
Yang Liu, Mingyuan Fan, Cen Chen, Ximeng Liu, Zhuo Ma, Li Wang, Jianfeng Ma(参考訳) バックドアインジェクション攻撃は、ニューラルネットワークのセキュリティに対する新たな脅威であるが、攻撃に対する効果的な防御方法が限られている。 本稿では,機械学習により被害者モデルに注入されたバックドアを消去する手法であるbaeraseを提案する。 特にBAERASEは、主に2つの重要なステップでバックドアディフェンスを実装している。 まず、被害者モデルに感染したトリガーパターンを抽出するためにトリガーパターン回復を行う。 ここでは、トリガーパターン回復問題は、被害者モデルから未知の雑音分布を抽出したものと等価であり、エントロピー最大化に基づく生成モデルにより容易に解決できる。 その後、BAERASEはこれらの回収されたトリガーパターンを利用して、バックドア注入手順を逆転させ、新たに設計されたグラデーションベースのマシンアンラーニング手法により、汚染された記憶を消去する犠牲者モデルを誘導する。 従来のマシンアンラーニングソリューションと比較して,提案手法ではリトレーニングのためのトレーニングデータへの完全アクセスを廃止し,従来の微調整や刈り取りよりもバックドア消去において高い有効性を示す。 さらに、実験の結果、BAERASEは4つのベンチマークデータセットで3種類の最先端バックドア攻撃の攻撃成功率を平均99%下げることができることがわかった。

Backdoor injection attack is an emerging threat to the security of neural networks, however, there still exist limited effective defense methods against the attack. In this paper, we propose BAERASE, a novel method that can erase the backdoor injected into the victim model through machine unlearning. Specifically, BAERASE mainly implements backdoor defense in two key steps. First, trigger pattern recovery is conducted to extract the trigger patterns infected by the victim model. Here, the trigger pattern recovery problem is equivalent to the one of extracting an unknown noise distribution from the victim model, which can be easily resolved by the entropy maximization based generative model. Subsequently, BAERASE leverages these recovered trigger patterns to reverse the backdoor injection procedure and induce the victim model to erase the polluted memories through a newly designed gradient ascent based machine unlearning method. Compared with the previous machine unlearning solutions, the proposed approach gets rid of the reliance on the full access to training data for retraining and shows higher effectiveness on backdoor erasing than existing fine-tuning or pruning methods. Moreover, experiments show that BAERASE can averagely lower the attack success rates of three kinds of state-of-the-art backdoor attacks by 99\% on four benchmark datasets.
翻訳日:2022-01-25 17:07:49 公開日:2022-01-24
# (参考訳) マルチスケール注意による視覚的位置認識のための意味学習 [全文訳有]

Learning Semantics for Visual Place Recognition through Multi-Scale Attention ( http://arxiv.org/abs/2201.09701v1 )

ライセンス: CC BY 4.0
Valerio Paolicelli, Antonio Tavera, Gabriele Berton, Carlo Masone, Barbara Caputo(参考訳) 本稿では,視覚的位置認識(VPR)の課題に対処する。その目的は,あるクエリ画像の正しいGPS座標を,巨大なジオタグ付きギャラリーに対して取得することである。 最近の研究では、セマンティック情報と外観情報を組み込んだ記述子の構築が有用であることが示されているが、現在の最先端の手法は重要なセマンティックコンテンツのトップダウン定義を選択する。 本稿では,データの視覚的外観と意味的コンテンツの両方からロバストな大域的埋め込みを学習する最初のvprアルゴリズムを提案する。 さまざまなシナリオの実験により、この新しいアプローチが検証され、最先端の手法に対するパフォーマンスが実証される。 最後に、位置認識とセグメンテーションタスクの両方に適した最初の合成世界データセットを提案する。

In this paper we address the task of visual place recognition (VPR), where the goal is to retrieve the correct GPS coordinates of a given query image against a huge geotagged gallery. While recent works have shown that building descriptors incorporating semantic and appearance information is beneficial, current state-of-the-art methods opt for a top down definition of the significant semantic content. Here we present the first VPR algorithm that learns robust global embeddings from both visual appearance and semantic content of the data, with the segmentation process being dynamically guided by the recognition of places through a multi-scale attention module. Experiments on various scenarios validate this new approach and demonstrate its performance against state-of-the-art methods. Finally, we propose the first synthetic-world dataset suited for both place recognition and segmentation tasks.
翻訳日:2022-01-25 17:06:20 公開日:2022-01-24
# 歴史的文書分類におけるテキストの重要性

Importance of Textlines in Historical Document Classification ( http://arxiv.org/abs/2201.09575v1 )

ライセンス: Link先を確認
Martin Ki\v{s}\v{s}, Jan Koh\'ut, Karel Bene\v{s}, Michal Hradi\v{s}(参考訳) 本稿では,brno技術大学(icdar 2021)の歴史的文書分類に関するコンペティション,その設計につながる実験,および主な知見について述べる。 解決されたタスクには、スクリプトとフォントの分類、ドキュメントの起源のローカライズ、デートが含まれる。 我々は,既存のページレイアウト解析エンジンを利用して,パッチレベルとラインレベルのアプローチを組み合わせた。 どちらのシステムでも、ニューラルネットワークはページレベルの決定に結合した局所的な予測を提供し、両システムの結果は線形あるいは対数線形補間を用いて融合される。 本稿では,複数のラベルを付与する弱教師付き分類問題に適した損失関数を提案し,デートタスクにおける間隔回帰に適した損失関数を提案する。 行レベルのシステムは、スクリプトとフォントの分類とデートタスクの結果を大幅に改善する。 全システムはそれぞれ98.48 %、88.84 %、79.69 %の精度を達成した。 デート作業では, 平均絶対誤差は21.91年であった。

This paper describes a system prepared at Brno University of Technology for ICDAR 2021 Competition on Historical Document Classification, experiments leading to its design, and the main findings. The solved tasks include script and font classification, document origin localization, and dating. We combined patch-level and line-level approaches, where the line-level system utilizes an existing, publicly available page layout analysis engine. In both systems, neural networks provide local predictions which are combined into page-level decisions, and the results of both systems are fused using linear or log-linear interpolation. We propose loss functions suitable for weakly supervised classification problem where multiple possible labels are provided, and we propose loss functions suitable for interval regression in the dating task. The line-level system significantly improves results in script and font classification and in the dating task. The full system achieved 98.48 %, 88.84 %, and 79.69 % accuracy in the font, script, and location classification tasks respectively. In the dating task, our system achieved a mean absolute error of 21.91 years.
翻訳日:2022-01-25 16:20:02 公開日:2022-01-24
# できるなら説明してくれ! インスタンスレベルのヒューマンパースの特徴

Describe me if you can! Characterized Instance-level Human Parsing ( http://arxiv.org/abs/2201.09594v1 )

ライセンス: Link先を確認
Angelique Loesch and Romaric Audigier(参考訳) 人物検索やオンラインファッションなどのコンピュータビジョンアプリケーションは、人間の記述に依存している。 したがって、インスタンスレベルのヒューマンパーシング(HP)の使用は、人内の意味的属性と身体部分の局在化に関係している。 しかし、これらの属性を特徴付けるには? 我々の知る限り、いくつかのシングルHPデータセットは、いくつかの色、サイズ、および/またはパターンの特徴を持つ属性を記述しています。 このような特徴を持つマルチhpにはデータセットが欠けている。 本稿では,マルチHPデータセットCIHPに基づくデータセットCCIHPを提案する。 さらに,高速でスケーラブルなベースラインとしてトランスフォーマーをベースとした新しいボトムアップマルチタスク手法HPTRを提案する。 これは、最も正確なボトムアップ法に匹敵する精度を持ちながら、美術品のマルチhp状態の最速の方法である。 これにより、人間の正確な記述の迅速かつ正確な方法の研究が促進されることを願っています。

Several computer vision applications such as person search or online fashion rely on human description. The use of instance-level human parsing (HP) is therefore relevant since it localizes semantic attributes and body parts within a person. But how to characterize these attributes? To our knowledge, only some single-HP datasets describe attributes with some color, size and/or pattern characteristics. There is a lack of dataset for multi-HP in the wild with such characteristics. In this article, we propose the dataset CCIHP based on the multi-HP dataset CIHP, with 20 new labels covering these 3 kinds of characteristics. In addition, we propose HPTR, a new bottom-up multi-task method based on transformers as a fast and scalable baseline. It is the fastest method of multi-HP state of the art while having precision comparable to the most precise bottom-up method. We hope this will encourage research for fast and accurate methods of precise human descriptions.
翻訳日:2022-01-25 16:19:44 公開日:2022-01-24
# 集約データセットを用いた逐次学習によるエンドツーエンド人物検索

End-to-end Person Search Sequentially Trained on Aggregated Dataset ( http://arxiv.org/abs/2201.09604v1 )

ライセンス: Link先を確認
Angelique Loesch and Jaonary Rabarisoa and Romaric Audigier(参考訳) ビデオ監視アプリケーションでは、人物探索は、人物を検出し、シルエットから特徴を抽出し、再識別(re-ID)を目的としている。 本稿では,単一深層畳み込みニューラルネットワークアーキテクチャによる検出と特徴抽出を共同で計算するエンド・ツー・エンドモデルを提案する。 共通性と特異性を共同で記述する2つのタスク間で機能マップを共有することで、より高速な実行が可能になる。 最先端の精度を達成することに加えて、このマルチタスクモデルはシーケンシャルにタスク単位でトレーニングできるため、入力データセットタイプが広く受け入れられる。 実際、コストのかかるIDアノテーションを使わずに、より多くの歩行者検出データセットを集約することで、共有機能マップがより汎用的になり、re-ID精度が向上することを示す。 さらに、これらの共有機能マップの強化は、データセット間のシナリオに対してより堅牢なre-ID機能をもたらす。

In video surveillance applications, person search is a challenging task consisting in detecting people and extracting features from their silhouette for re-identification (re-ID) purpose. We propose a new end-to-end model that jointly computes detection and feature extraction steps through a single deep Convolutional Neural Network architecture. Sharing feature maps between the two tasks for jointly describing people commonalities and specificities allows faster runtime, which is valuable in real-world applications. In addition to reaching state-of-the-art accuracy, this multi-task model can be sequentially trained task-by-task, which results in a broader acceptance of input dataset types. Indeed, we show that aggregating more pedestrian detection datasets without costly identity annotations makes the shared feature maps more generic, and improves re-ID precision. Moreover, these boosted shared feature maps result in re-ID features more robust to a cross-dataset scenario.
翻訳日:2022-01-25 16:19:32 公開日:2022-01-24
# 画像検索における回帰適応学習によるホットリフレッシュモデルの改善

Hot-Refresh Model Upgrades with Regression-Alleviati ng Compatible Training in Image Retrieval ( http://arxiv.org/abs/2201.09724v1 )

ライセンス: Link先を確認
Binjie Zhang, Yixiao Ge, Yantao Shen, Yu Li, Chun Yuan, Xuyuan Xu, Yexin Wang, Ying Shan(参考訳) 画像検索システムのホットリフレッシュモデルアップグレードの課題は、業界において重要な役割を担っているが、これまで学術分野では調査されていない。 従来のコールドリフレッシュモデルのアップグレードは、ギャラリー全体のバックフィル後にのみ新しいモデルをデプロイでき、大規模なデータには数週間から数ヶ月かかる。 対照的に、ホットリフレッシュモデルのアップグレードでは、新しいモデルを即座にデプロイし、ギャラリーをオンザフライでバックフィルすることで、徐々に精度を向上する。 互換性のあるトレーニングは可能であるが、負のフリップによるモデル回帰の問題は、ユーザエクスペリエンスの安定した改善にとって大きな課題となる。 主に、新旧の正のクエリ・ギャラリーペアが、新旧の負のペアに比べて類似度が低いためである。 この問題を解決するために,回帰適応型トレーニング(ract)手法を導入し,負のフリップを低減しつつ,機能互換性を適切に制約する。 核となるのは、新古の負の対と新古の負の対の双方よりも、新古の負の対がより似ているように促すことである。 不確実性に基づく効率的なバックフィルング戦略がさらに導入され、精度が向上している。 大規模な検索ベンチマーク(例えばGoogle Landmark)に関する大規模な実験では、当社のRATがモデルの回帰を効果的に軽減し、シームレスなモデルアップグレードに向けた一歩を踏み出した。 コードはhttps://github.com/b injiezhang/ract_iclr 2022で入手できる。

The task of hot-refresh model upgrades of image retrieval systems plays an essential role in the industry but has never been investigated in academia before. Conventional cold-refresh model upgrades can only deploy new models after the gallery is overall backfilled, taking weeks or even months for massive data. In contrast, hot-refresh model upgrades deploy the new model immediately and then gradually improve the retrieval accuracy by backfilling the gallery on-the-fly. Compatible training has made it possible, however, the problem of model regression with negative flips poses a great challenge to the stable improvement of user experience. We argue that it is mainly due to the fact that new-to-old positive query-gallery pairs may show less similarity than new-to-new negative pairs. To solve the problem, we introduce a Regression-Alleviati ng Compatible Training (RACT) method to properly constrain the feature compatibility while reducing negative flips. The core is to encourage the new-to-old positive pairs to be more similar than both the new-to-old negative pairs and the new-to-new negative pairs. An efficient uncertainty-based backfilling strategy is further introduced to fasten accuracy improvements. Extensive experiments on large-scale retrieval benchmarks (e.g., Google Landmark) demonstrate that our RACT effectively alleviates the model regression for one more step towards seamless model upgrades. The code will be available at https://github.com/b injiezhang/RACT_ICLR 2022.
翻訳日:2022-01-25 16:19:14 公開日:2022-01-24
# スペクトルPQ : RGB 4:4:4ビデオデータのスペクトル感度指向型知覚圧縮技術

Spectral-PQ: A Novel Spectral Sensitivity-Orientat ed Perceptual Compression Technique for RGB 4:4:4 Video Data ( http://arxiv.org/abs/2201.09822v1 )

ライセンス: Link先を確認
Lee Prangnell, Victor Sanchez(参考訳) ヒトの視覚系(hvs)の分光感度と色知覚の間には内在的な関係があり、これらの絡み合った現象は知覚的圧縮研究においてしばしば見過ごされる。 一般的に、前述した視覚ロスレス圧縮技術では、ルマ時空間マスク、ルマコントラストマスク、ルマテクスチャ/エッジマスクを含む輝度(luma)マスクを利用する。 絵の中の色の知覚的関連性はしばしば見過ごされ、文学のギャップを形成している。 HVSのスペクトル感度現象に関して、生RGB 4:4:4データの色チャネルは、有意な色に基づく視覚的冗長性を含んでいる。 これらの知覚的冗長性はカラーチャネルレベルの知覚的量子化によって定量化することができる。 本稿では,スペクトル知覚量子化(spectral-pq)という,新しい時空間的視覚ロスレス符号化法を提案する。 RGB 4:4:4 ビデオデータに適用することにより,空間マスキングや時間マスキングに加えて,HVSスペクトル感度関連カラーマスキングを活用し,提案手法はHEVC規格の符号化ブロック(CB)レベルと予測ユニット(PU)レベルで動作する。 スペクトルPQは、G、B、RCBの高分散空間データが検出され、PUの高運動ベクトルサイズが検出された場合に、CBレベルで量子化ステップサイズ(QStep)を知覚的に調整する。 アンカー1 (HEVC HM 16.17 RExt) と比較すると、スペクトルPQは最大81%の減少でビットレートを著しく減少させる。 主観評価における平均意見スコア(mos)は、spectrum-pqが知覚的に損失のない品質を達成していることを示している。

There exists an intrinsic relationship between the spectral sensitivity of the Human Visual System (HVS) and colour perception; these intertwined phenomena are often overlooked in perceptual compression research. In general, most previously proposed visually lossless compression techniques exploit luminance (luma) masking including luma spatiotemporal masking, luma contrast masking and luma texture/edge masking. The perceptual relevance of color in a picture is often overlooked, which constitutes a gap in the literature. With regard to the spectral sensitivity phenomenon of the HVS, the color channels of raw RGB 4:4:4 data contain significant color-based psychovisual redundancies. These perceptual redundancies can be quantized via color channel-level perceptual quantization. In this paper, we propose a novel spatiotemporal visually lossless coding method named Spectral Perceptual Quantization (Spectral-PQ). With application for RGB 4:4:4 video data, Spectral-PQ exploits HVS spectral sensitivity-related color masking in addition to spatial masking and temporal masking; the proposed method operates at the Coding Block (CB) level and the Prediction Unit (PU) level in the HEVC standard. Spectral-PQ perceptually adjusts the Quantization Step Size (QStep) at the CB level if high variance spatial data in G, B and R CBs is detected and also if high motion vector magnitudes in PUs are detected. Compared with anchor 1 (HEVC HM 16.17 RExt), Spectral-PQ considerably reduces bitrates with a maximum reduction of approximately 81%. The Mean Opinion Score (MOS) in the subjective evaluations show that Spectral-PQ successfully achieves perceptually lossless quality.
翻訳日:2022-01-25 16:18:35 公開日:2022-01-24
# 多元人物再同定のための新しい混合正規化法

A Novel Mix-normalization Method for Generalizable Multi-source Person Re-identification ( http://arxiv.org/abs/2201.09846v1 )

ライセンス: Link先を確認
Lei Qi, Lei Wang, Yinghuan Shi, Xin Geng(参考訳) 人物再識別(Re-ID)は、監督されたシナリオにおいて大きな成功を収めた。 しかし, 教師付きモデルを任意の未確認領域へ直接転送することは, ソースドメインに過度に適合するため困難である。 本稿では,データ拡張の観点から,汎用化可能なマルチソースパーソナライズ・パーソナライズ・リidタスク(複数のソースドメインが存在し,トレーニング中はテストドメインが無視される)に取り組むことを目的として,ドメインアウェア・ミックス正規化(dmn)とドメインウェア・センター正規化(dcr)からなるmixnormと呼ばれる新しい手法を提案する。 従来のデータ拡張とは異なり、ニューラルネットワークの正規化ビューからトレーニング中の特徴の多様性を高めるために提案されたドメイン認識混合正規化は、ソースドメインに過剰に適合するモデルを効果的に緩和し、unseenドメインにおけるモデルの一般化能力を高めることができる。 ドメイン不変モデルをよりよく学習するために、生成した多様な機能を同じ空間にマッピングするドメイン対応センター正規化をさらに発展させます。 複数のベンチマークデータセットの大規模な実験により,提案手法の有効性を検証し,提案手法が最先端手法より優れていることを示す。 さらに分析により,提案手法の優位性も明らかにした。

Person re-identification (Re-ID) has achieved great success in the supervised scenario. However, it is difficult to directly transfer the supervised model to arbitrary unseen domains due to the model overfitting to the seen source domains. In this paper, we aim to tackle the generalizable multi-source person Re-ID task (i.e., there are multiple available source domains, and the testing domain is unseen during training) from the data augmentation perspective, thus we put forward a novel method, termed MixNorm, which consists of domain-aware mix-normalization (DMN) and domain-ware center regularization (DCR). Different from the conventional data augmentation, the proposed domain-aware mix-normalization to enhance the diversity of features during training from the normalization view of the neural network, which can effectively alleviate the model overfitting to the source domains, so as to boost the generalization capability of the model in the unseen domain. To better learn the domain-invariant model, we further develop the domain-aware center regularization to better map the produced diverse features into the same space. Extensive experiments on multiple benchmark datasets validate the effectiveness of the proposed method and show that the proposed method can outperform the state-of-the-art methods. Besides, further analysis also reveals the superiority of the proposed method.
翻訳日:2022-01-25 16:18:06 公開日:2022-01-24
# repaint:分母拡散確率モデルを用いたインパインティング

RePaint: Inpainting using Denoising Diffusion Probabilistic Models ( http://arxiv.org/abs/2201.09865v1 )

ライセンス: Link先を確認
Andreas Lugmayr, Martin Danelljan, Andres Romero, Fisher Yu, Radu Timofte, Luc Van Gool(参考訳) Free-form Inpaintingは任意のバイナリマスクで指定された領域のイメージに新しいコンテンツを追加するタスクである。 既存のアプローチのほとんどは、マスクの特定の分布を訓練しており、マスクタイプに一般化する能力を制限する。 さらに、ピクセル単位でのトレーニングや知覚的損失は、意味的に意味のある生成ではなく、欠落する領域への単純なテキスト拡張につながることが多い。 本研究では, 極端マスクにも適用可能な拡散確率モデル (ddpm) に基づくインパインティング手法であるrepaintを提案する。 予備訓練した無条件DDPMを前駆体として使用した。 生成過程を条件づけるために,与えられた画像情報を用いて非マスク領域をサンプリングすることにより,逆拡散反復のみを変更する。 この手法はオリジナルのDDPMネットワーク自体を変更したり条件を定めなかったため、どの塗装形式に対しても高品質で多様な出力画像を生成する。 本手法は,標準的なマスクと極端マスクを用いて,顔と汎用画像の塗装の両面で検証する。 RePaintは最先端のAutoregressiveを上回り、GANは6つのマスク分布のうち少なくとも5つにアプローチする。 Githubリポジトリ: git.io/RePaint

Free-form inpainting is the task of adding new content to an image in the regions specified by an arbitrary binary mask. Most existing approaches train for a certain distribution of masks, which limits their generalization capabilities to unseen mask types. Furthermore, training with pixel-wise and perceptual losses often leads to simple textural extensions towards the missing areas instead of semantically meaningful generation. In this work, we propose RePaint: A Denoising Diffusion Probabilistic Model (DDPM) based inpainting approach that is applicable to even extreme masks. We employ a pretrained unconditional DDPM as the generative prior. To condition the generation process, we only alter the reverse diffusion iterations by sampling the unmasked regions using the given image information. Since this technique does not modify or condition the original DDPM network itself, the model produces high-quality and diverse output images for any inpainting form. We validate our method for both faces and general-purpose image inpainting using standard and extreme masks. RePaint outperforms state-of-the-art Autoregressive, and GAN approaches for at least five out of six mask distributions. Github Repository: git.io/RePaint
翻訳日:2022-01-25 16:17:36 公開日:2022-01-24
# 感情に基づくソーシャルメディアにおける精神障害のモデル化

Emotion-based Modeling of Mental Disorders on Social Media ( http://arxiv.org/abs/2201.09451v1 )

ライセンス: Link先を確認
Xiaobo Guo, Yaojia Sun, Soroush Vosoughi(参考訳) 世界保健機関(who)によると、成人の4人に1人は、ある時点で精神疾患にかかっているという。 しかし、世界中の多くの地域では、患者は精神疾患、精神疾患の無知、関連する症状により、専門的な診断を積極的に求めていない。 本稿では,Reddit上での会話を用いた受動的精神障害検出モデルを提案する。 具体的には、うつ病、不安症、双極性障害など、異なる感情パターン(感情障害と呼ばれる)を特徴とする精神障害のサブセットに焦点を当てる。 受動的(即ち無刺激)な検出によって、精神疾患の診断と治療を患者に求めることができる。 提案するモデルは,この領域における他の研究とは違って,我々のモデルは情緒的状態とReddit上のユーザの状態間の遷移に基づいているのに対して,以前の研究は典型的にはコンテンツに基づく表現(n-gram,言語モデル埋め込みなど)に基づいている。 我々は,コンテンツベースの表現がドメインやトピックのバイアスに影響され,一般化しないことを示す一方で,我々のモデルではトピック固有の情報を抑圧し,異なるトピックや時間にまたがってうまく一般化する。 我々は,モデルが異なる感情障害を検知する能力と,モデルの一般化可能性について実験を行う。 我々の実験は、BERTのようなコンテンツベースモデルと相容れない性能を示す一方で、時間とトピックをまたいだ一般化を実現していることを示している。

According to the World Health Organization (WHO), one in four people will be affected by mental disorders at some point in their lives. However, in many parts of the world, patients do not actively seek professional diagnosis because of stigma attached to mental illness, ignorance of mental health and its associated symptoms. In this paper, we propose a model for passively detecting mental disorders using conversations on Reddit. Specifically, we focus on a subset of mental disorders that are characterized by distinct emotional patterns (henceforth called emotional disorders): major depressive, anxiety, and bipolar disorders. Through passive (i.e., unprompted) detection, we can encourage patients to seek diagnosis and treatment for mental disorders. Our proposed model is different from other work in this area in that our model is based entirely on the emotional states, and the transition between these states of users on Reddit, whereas prior work is typically based on content-based representations (e.g., n-grams, language model embeddings, etc). We show that content-based representation is affected by domain and topic bias and thus does not generalize, while our model, on the other hand, suppresses topic-specific information and thus generalizes well across different topics and times. We conduct experiments on our model's ability to detect different emotional disorders and on the generalizability of our model. Our experiments show that while our model performs comparably to content-based models, such as BERT, it generalizes much better across time and topic.
翻訳日:2022-01-25 16:16:41 公開日:2022-01-24
# テーブル事前トレーニング:モデルアーキテクチャ、事前トレーニング目標、ダウンストリームタスクに関する調査

Table Pretraining: A Survey on Model Architectures, Pretraining Objectives, and Downstream Tasks ( http://arxiv.org/abs/2201.09745v1 )

ライセンス: Link先を確認
Haoyu Dong, Zhoujun Cheng, Xinyi He, Mengyu Zhou, Anda Zhou, Fan Zhou, Ao Liu, Shi Han, Dongmei Zhang(参考訳) Webページやスプレッドシート,PDF,その他さまざまなドキュメントタイプから,膨大な数のテーブルを簡単に収集できるため,テキストや画像の成功に伴い,テーブル事前学習フレームワークが急増し,テーブル質問応答,テーブル型認識,列関係分類,テーブル検索,公式予測など,さまざまなタスクにおいて新たな最先端技術を実現している。 ラベルのないテーブルで監視信号を完全に使用するために、セル値の非表示、数値関係の予測、暗黙的なsql実行など、さまざまな事前学習目標が設計、評価されている。 また、(半)構造化テーブルの特性を最大限活用するために、様々な表言語モデル、特に特別に設計された注意機構について検討した。 テーブルは通常、自由形式のテキストで表示され、相互作用するため、テーブル事前訓練は通常、テーブル-テキスト共同事前訓練の形式を取る。 本調査は,テーブル事前トレーニングのための異なるモデル設計,事前トレーニング目標,下流タスクの包括的レビューを提供することを目的としており,既存の課題と今後の機会に関する考え方とビジョンを共有している。

Since a vast number of tables can be easily collected from web pages, spreadsheets, PDFs, and various other document types, a flurry of table pretraining frameworks have been proposed following the success of text and images, and they have achieved new state-of-the-arts on various tasks such as table question answering, table type recognition, column relation classification, table search, formula prediction, etc. To fully use the supervision signals in unlabeled tables, a variety of pretraining objectives have been designed and evaluated, for example, denoising cell values, predicting numerical relationships, and implicitly executing SQLs. And to best leverage the characteristics of (semi-)structured tables, various tabular language models, particularly with specially-designed attention mechanisms, have been explored. Since tables usually appear and interact with free-form text, table pretraining usually takes the form of table-text joint pretraining, which attracts significant research interests from multiple domains. This survey aims to provide a comprehensive review of different model designs, pretraining objectives, and downstream tasks for table pretraining, and we share our thoughts and vision on existing challenges and future opportunities.
翻訳日:2022-01-25 16:16:19 公開日:2022-01-24
# 深層学習を用いた電磁システム評価に基づく電気機械の性能解析

Performance analysis of Electrical Machines based on Electromagnetic System Characterization using Deep Learning ( http://arxiv.org/abs/2201.09603v1 )

ライセンス: Link先を確認
Vivek Parekh, Dominik Flore, Sebastian Sch\"ops(参考訳) 電気機械の数値最適化は、計算集約的かつ時間のかかる磁気静磁場有限要素(fe)シミュレーションを伴う。 一般に、feシミュレーションは電気機械の入力幾何、電気的、物質的パラメータを変化させる。 FEシミュレーションの結果は、電気機械の電磁的挙動を特徴づけるものである。 通常、各操作点(入力位相電流と制御角度)での電気サイクルの異なる時間ステップにおける非線形鉄損と電磁トルクとフラックスを含む。 本稿では,非直線的鉄損,電磁トルクの非無視的分画(全電気周期の$),各動作点の異なる時間ステップでのフラックスなどの中間的測定を予測し,電気機械の電磁的挙動を近似する新しいデータ駆動深度学習(DL)手法を提案する。 電気機械の磁気状態対称性を利用して、電磁フラックスと電気サイクルのトルクの残りの時間ステップを推定する。 そして、これらの計算とシステムパラメータは、物理に基づく解析モデルへの入力として入力され、材料コスト、最大トルク、パワー、トルクリップルなどの特性マップとキーパフォーマンスインジケータ(KPI)を推定する。 鍵となる考え方は、提案されたマルチブランチディープニューラルネットワーク(DNN)を、大量の格納されたFEデータを教師付き方法で段階的にトレーニングすることである。 予備的な結果は、中間測度とその後のKPIの計算の予測が入力設計空間における新しい機械設計の根拠に近いことを示している。 最後に, 電磁計算を回避した既存のDNNによるKPIの直接予測よりも, ハイブリッド手法の方が精度が高いことを示す。

The numerical optimization of an electrical machine entails computationally intensive and time-consuming magneto-static finite element (FE) simulation. Generally, this FE-simulation involves varying input geometry, electrical, and material parameters of an electrical machine. The result of the FE simulation characterizes the electromagnetic behavior of the electrical machine. It usually includes nonlinear iron losses and electromagnetic torque and flux at different time-steps for an electrical cycle at each operating point (varying electrical input phase current and control angle). In this paper, we present a novel data-driven deep learning (DL) approach to approximate the electromagnetic behavior of an electrical machine by predicting intermediate measures that include non-linear iron losses, a non-negligible fraction ($\frac{1}{6}$ of a whole electrical period) of the electromagnetic torque and flux at different time-steps for each operating point. The remaining time-steps of the electromagnetic flux and torque for an electrical cycle are estimated by exploiting the magnetic state symmetry of the electrical machine. Then these calculations, along with the system parameters, are fed as input to the physics-based analytical models to estimate characteristic maps and key performance indicators (KPIs) such as material cost, maximum torque, power, torque ripple, etc. The key idea is to train the proposed multi-branch deep neural network (DNN) step by step on a large volume of stored FE data in a supervised manner. Preliminary results exhibit that the predictions of intermediate measures and the subsequent computations of KPIs are close to the ground truth for a new machine design in the input design space. In the end, the quantitative analysis validates that the hybrid approach is more accurate than the existing DNN-based direct prediction of KPIs, which avoids electromagnetic calculations.
翻訳日:2022-01-25 16:13:17 公開日:2022-01-24
# 多変量時系列予測のためのスパースと連続グラフ構造学習

Learning Sparse and Continuous Graph Structures for Multivariate Time Series Forecasting ( http://arxiv.org/abs/2201.09686v1 )

ライセンス: Link先を確認
Weijun Chen, Yanze Wang, Chengshuo Du, Zhenglong Jia, Feng Liu and Ran Chen(参考訳) 多変量時系列の正確な予測は金融、輸送、コンピュータ科学の分野で広く研究されている。 多変量時系列における変数間の相関と因果関係を十分にマイニングすることは、時系列モデルの性能を改善する顕著な結果を示す。 近年,事前定義されたグラフを必要とせずに,エンドツーエンドのグラフ構造学習を通じて変数間の依存関係を探索するモデルが提案されている。 しかし、現在のモデルの多くは有効性と柔軟性のトレードオフを取り入れておらず、グラフ学習アルゴリズムの設計においてドメイン知識のガイダンスを欠いている。 さらに、スパースグラフ構造の生成に問題があるため、エンドツーエンドの学習に課題が生じる。 本稿では,グラフ学習と予測に結合した新しいディープラーニングモデルであるLSCGF(Learning Sparse and Continuous Graphs for Forecasting)を提案する。 技術的には、LCCGFは空間情報を畳み込み操作に利用し、拡散畳み込み再帰ネットワークを用いて時間的ダイナミクスを抽出する。 同時に、スパースおよび連続グラフ隣接行列を学習するためのSSU(Smooth Sparse Unit)という新しい手法を提案する。 3つの実世界のデータセットに対する大規模な実験により、我々のモデルは訓練可能な小さなパラメータで最先端のパフォーマンスを達成することを示した。

Accurate forecasting of multivariate time series is an extensively studied subject in finance, transportation, and computer science. Fully mining the correlation and causation between the variables in a multivariate time series exhibits noticeable results in improving the performance of a time series model. Recently, some models have explored the dependencies between variables through end-to-end graph structure learning without the need for pre-defined graphs. However, most current models do not incorporate the trade-off between effectiveness and flexibility and lack the guidance of domain knowledge in the design of graph learning algorithms. Besides, they have issues generating sparse graph structures, which pose challenges to end-to-end learning. In this paper, we propose Learning Sparse and Continuous Graphs for Forecasting (LSCGF), a novel deep learning model that joins graph learning and forecasting. Technically, LSCGF leverages the spatial information into convolutional operation and extracts temporal dynamics using the diffusion convolution recurrent network. At the same time, we propose a brand new method named Smooth Sparse Unit (SSU) to learn sparse and continuous graph adjacency matrix. Extensive experiments on three real-world datasets demonstrate that our model achieves state-of-the-art performances with minor trainable parameters.
翻訳日:2022-01-25 16:12:51 公開日:2022-01-24
# TOPS:トランジションベースのボラティリティ制御ポリシサーチとそのグローバルコンバージェンス

TOPS: Transition-based VOlatility-controlle d Policy Search and its Global Convergence ( http://arxiv.org/abs/2201.09857v1 )

ライセンス: Link先を確認
Liangliang Xu, Aiwen Jiang, Daoming Lyu, Bo Liu(参考訳) リスク回避問題は強化学習におけるリスク中立制御問題よりも注意が払われず、既存のリスク回避アプローチでは現実のアプリケーションへのデプロイが難しい。 第一の理由は、そのようなリスク回避アルゴリズムが一定の長さの連続した軌道からしばしば学習するからであり、これは実際に危険な障害を引き起こす可能性を大きく増加させる。 本稿では,連続した軌道ではなく,(非連続的な)遷移から学習することでリスク回避問題を解決する新しいアルゴリズムである遷移型VOlatility- controlled Policy Search (TOPS)を提案する。 過パラメータ2層ニューラルネットワークを用いたアクター・クリティック・スキームを用いて,リスクニュートラル・ポリシー探索手法の最先端収束率に匹敵する近位政策最適化と自然政策勾配を伴うサブリニアレートにおけるグローバル最適ポリシーを求める。 本アルゴリズムは,平均分散評価基準の下でのロボットシミュレーション課題に対して評価を行う。 理論的解析と実験結果の両方が、リスク-逆ポリシー探索法の最先端レベルを示している。

Risk-averse problems receive far less attention than risk-neutral control problems in reinforcement learning, and existing risk-averse approaches are challenging to deploy to real-world applications. One primary reason is that such risk-averse algorithms often learn from consecutive trajectories with a certain length, which significantly increases the potential danger of causing dangerous failures in practice. This paper proposes Transition-based VOlatility-controlle d Policy Search (TOPS), a novel algorithm that solves risk-averse problems by learning from (possibly non-consecutive) transitions instead of only consecutive trajectories. By using an actor-critic scheme with an overparameterized two-layer neural network, our algorithm finds a globally optimal policy at a sublinear rate with proximal policy optimization and natural policy gradient, with effectiveness comparable to the state-of-the-art convergence rate of risk-neutral policy-search methods. The algorithm is evaluated on challenging Mujoco robot simulation tasks under the mean-variance evaluation metric. Both theoretical analysis and experimental results demonstrate a state-of-the-art level of risk-averse policy search methods.
翻訳日:2022-01-25 16:12:33 公開日:2022-01-24
# 微分プライベートデータの後処理:公正性の観点から

Post-processing of Differentially Private Data: A Fairness Perspective ( http://arxiv.org/abs/2201.09425v1 )

ライセンス: Link先を確認
Keyu Zhu, Ferdinando Fioretto, Pascal Van Hentenryck(参考訳) プライバシー保証に影響を与えることなく、任意のデータ非依存の出力への変換を可能にする。 ポストプロセッシングは、国勢調査データを含むデータリリースアプリケーションに日常的に適用され、社会に重大な影響を及ぼすようなアロケーションに使用される。 本稿では,ポストプロセッシングが個人やグループに異なる影響を与えることを示し,差分プライベートデータセットのリリースと,米国国勢調査データによる資金配分などの下流決定のためのプライベートデータセットの利用という,2つの重要な設定を分析した。 筆者らはまず,従来のポストプロセッシングメカニズムの不公平性に厳密な制約を課し,意思決定者に対して,リリースによる異質な影響を定量化するためのユニークなツールを提案する。 本稿では, 公正度基準の相違により(ほぼ)最適であり, 公平度問題を大幅に低減するか, プライバシコストを低減させる新しいポストプロセッシング機構を提案する。 理論解析は、国勢調査データ上の数値シミュレーションと補完される。

Post-processing immunity is a fundamental property of differential privacy: it enables arbitrary data-independent transformations to differentially private outputs without affecting their privacy guarantees. Post-processing is routinely applied in data-release applications, including census data, which are then used to make allocations with substantial societal impacts. This paper shows that post-processing causes disparate impacts on individuals or groups and analyzes two critical settings: the release of differentially private datasets and the use of such private datasets for downstream decisions, such as the allocation of funds informed by US Census data. In the first setting, the paper proposes tight bounds on the unfairness of traditional post-processing mechanisms, giving a unique tool to decision-makers to quantify the disparate impacts introduced by their release. In the second setting, this paper proposes a novel post-processing mechanism that is (approximately) optimal under different fairness metrics, either reducing fairness issues substantially or reducing the cost of privacy. The theoretical analysis is complemented with numerical simulations on Census data.
翻訳日:2022-01-25 16:11:53 公開日:2022-01-24
# (参考訳) 顔属性に基づく抑うつ認識のためのニューラルアーキテクチャ探索 [全文訳有]

Neural Architecture Searching for Facial Attributes-based Depression Recognition ( http://arxiv.org/abs/2201.09799v1 )

ライセンス: CC BY 4.0
Mingzhe Chen, Xi Xiao, Bin Zhang, Xinyu Liu, Runiu Lu(参考訳) 最近の研究では、うつ病は人間の顔の特徴から部分的に反映されていることが示されている。 顔の属性は様々なデータ構造を持ち、異なる情報を運ぶため、既存のアプローチでは、それぞれからうつ病に関連する特徴を抽出する最適な方法や、最良の融合戦略を具体的に検討することができない。 本稿では,複数の顔属性に基づく抑うつ認識に最適なモデルを設計するために,ニューラルネットワーク探索(nas)手法を拡張することを提案する。 提案手法は,まず,各顔属性の特徴抽出器に対して,探索空間を大幅に削減し,各特徴抽出器を畳み込みニューラルネットワーク (CNN) あるいはグラフニューラルネットワーク (GNN) のいずれかにカスタマイズしたアーキテクチャを提供することを目的として,より温かいステップを実行する。 次に,全ての特徴抽出器と融合ネットワークのエンドツーエンドアーキテクチャ探索を行い,相補的な抑うつ要因と冗長性の低減を最適に組み合わせた。 AVEC 2016データセットによる実験結果から,本手法で探索したモデルでは,既存の最先端技術よりも27倍,30倍のRMSEとMAEの改善が達成されている。 これらの知見を踏まえ、本論文は、時系列データに基づくメンタルヘルス分析にNASを適用するための確固たる証拠と強力なベースラインを提供する。

Recent studies show that depression can be partially reflected from human facial attributes. Since facial attributes have various data structure and carry different information, existing approaches fail to specifically consider the optimal way to extract depression-related features from each of them, as well as investigates the best fusion strategy. In this paper, we propose to extend Neural Architecture Search (NAS) technique for designing an optimal model for multiple facial attributes-based depression recognition, which can be efficiently and robustly implemented in a small dataset. Our approach first conducts a warmer up step to the feature extractor of each facial attribute, aiming to largely reduce the search space and providing customized architecture, where each feature extractor can be either a Convolution Neural Networks (CNN) or Graph Neural Networks (GNN). Then, we conduct an end-to-end architecture search for all feature extractors and the fusion network, allowing the complementary depression cues to be optimally combined with less redundancy. The experimental results on AVEC 2016 dataset show that the model explored by our approach achieves breakthrough performance with 27\% and 30\% RMSE and MAE improvements over the existing state-of-the-art. In light of these findings, this paper provides solid evidences and a strong baseline for applying NAS to time-series data-based mental health analysis.
翻訳日:2022-01-25 16:09:48 公開日:2022-01-24
# 教師なし文書スタイルガイドによる文書レイアウト解析

Cross-Domain Document Layout Analysis via Unsupervised Document Style Guide ( http://arxiv.org/abs/2201.09407v1 )

ライセンス: Link先を確認
Xingjiao Wu, Luwei Xiao, Xiangcheng Du, Yingbin Zheng, Xin Li, Tianlong Ma, Liang He(参考訳) 文書レイアウト分析(DLA)は、文書イメージを高レベルの意味領域(図形、表、テキスト、背景など)に分解することを目的としている。 ドキュメントオブジェクトはレイアウト、サイズ、アスペクト比、テクスチャなどの多様性があるため、強力な一般化機能を備えたdlaフレームワークの作成は困難である。 多くの研究者がこの課題に取り組み、大規模なトレーニングセットを構築するためにデータを合成した。 しかし、合成トレーニングデータは、異なるスタイルと不規則な品質を有する。 さらに、ソースデータとターゲットデータの間には大きなギャップがあります。 本稿では文書スタイルのガイダンスに基づく教師なしクロスドメインDLAフレームワークを提案する。 文書品質評価と文書クロスドメイン分析を統一的なフレームワークに統合した。 本フレームワークは,文書レイアウトジェネレータ(GLD),文書要素宣言器(GED),文書スタイル識別器(DSD)の3つのコンポーネントから構成される。 GLDはドキュメントレイアウト生成に使われ、GEDはドキュメントレイアウト要素を埋めるのに使われ、DSDはドキュメント品質評価とクロスドメインガイダンスに使用される。 まず、生成した文書の位置を予測するためにGLDを適用する。 次に,文書位置を満たすために,審美的指導に基づく新しいアルゴリズムを設計する。 最後に,対照学習を用いて文書の品質評価を行う。 さらに,ドキュメント品質評価コンポーネントをドキュメント横断型ガイドコンポーネントに変更するための新たな戦略も設計する。 私たちのフレームワークは教師なしのドキュメントレイアウト分析フレームワークです。 提案手法が有意な性能を達成したことを,数多くの実験により実証した。

The document layout analysis (DLA) aims to decompose document images into high-level semantic areas (i.e., figures, tables, texts, and background). Creating a DLA framework with strong generalization capabilities is a challenge due to document objects are diversity in layout, size, aspect ratio, texture, etc. Many researchers devoted this challenge by synthesizing data to build large training sets. However, the synthetic training data has different styles and erratic quality. Besides, there is a large gap between the source data and the target data. In this paper, we propose an unsupervised cross-domain DLA framework based on document style guidance. We integrated the document quality assessment and the document cross-domain analysis into a unified framework. Our framework is composed of three components, Document Layout Generator (GLD), Document Elements Decorator(GED), and Document Style Discriminator(DSD). The GLD is used to document layout generates, the GED is used to document layout elements fill, and the DSD is used to document quality assessment and cross-domain guidance. First, we apply GLD to predict the positions of the generated document. Then, we design a novel algorithm based on aesthetic guidance to fill the document positions. Finally, we use contrastive learning to evaluate the quality assessment of the document. Besides, we design a new strategy to change the document quality assessment component into a document cross-domain style guide component. Our framework is an unsupervised document layout analysis framework. We have proved through numerous experiments that our proposed method has achieved remarkable performance.
翻訳日:2022-01-25 15:47:08 公開日:2022-01-24
# UniFormer: 視覚認識のための畳み込みと自己注意の統合

UniFormer: Unifying Convolution and Self-attention for Visual Recognition ( http://arxiv.org/abs/2201.09450v1 )

ライセンス: Link先を確認
Kunchang Li, Yali Wang, Junhao Zhang, Peng Gao, Guanglu Song, Yu Liu, Hongsheng Li, Yu Qiao(参考訳) 画像やビデオから識別表現を学ぶことは、大きな局所冗長性と、これらの視覚データにおける複雑なグローバル依存のため、難しい課題である。 畳み込みニューラルネットワーク(cnns)と視覚トランスフォーマー(vits)は、ここ数年で2つの主要なフレームワークとなっている。 cnnは小さな近傍での畳み込みによって局所冗長性を効率的に減らすことができるが、限定的な受容場はグローバルな依存を捉えることが困難である。 あるいは、ViTsは自己注意による長距離依存を効果的に捉えることができるが、トークン間の視覚的類似性比較は高い冗長性をもたらす。 これらの問題を解決するために,コンボリューションと自己注意の利点を簡潔なトランスフォーマー形式にシームレスに統合できる新しいUnified TransFormer(UniForme r)を提案する。 典型的な変換ブロックとは異なり、UniFormerブロック内の関係アグリゲータは、それぞれ浅層と深層に局所的および大域的トークン親和性を備えており、冗長性と依存性の両方に対処し、効率的かつ効率的な表現学習を可能にする。 最後に、UniFormerブロックを柔軟に新しい強力なバックボーンにスタックし、分類から密集した予測まで、画像からビデオ領域まで様々な視覚タスクに適用します。 トレーニングデータなしでは、imagenet-1k分類において86.3top-1精度が得られる。 imagenet-1kを事前トレーニングするだけで、速度-400/600での82.9/84.8 top-1精度、何らかのv1/v2ビデオ分類タスクの60.9/71.2 top-1精度、cocoオブジェクト検出タスクの53.8 box apと46.4 mask ap、ade20kセマンティクスセグメンテーションタスクの50.8 miou、cocoポーズ推定タスクの77.4 apが得られる。 コードはhttps://github.com/S ense-X/UniFormer.com で入手できる。

It is a challenging task to learn discriminative representation from images and videos, due to large local redundancy and complex global dependency in these visual data. Convolution neural networks (CNNs) and vision transformers (ViTs) have been two dominant frameworks in the past few years. Though CNNs can efficiently decrease local redundancy by convolution within a small neighborhood, the limited receptive field makes it hard to capture global dependency. Alternatively, ViTs can effectively capture long-range dependency via self-attention, while blind similarity comparisons among all the tokens lead to high redundancy. To resolve these problems, we propose a novel Unified transFormer (UniFormer), which can seamlessly integrate the merits of convolution and self-attention in a concise transformer format. Different from the typical transformer blocks, the relation aggregators in our UniFormer block are equipped with local and global token affinity respectively in shallow and deep layers, allowing to tackle both redundancy and dependency for efficient and effective representation learning. Finally, we flexibly stack our UniFormer blocks into a new powerful backbone, and adopt it for various vision tasks from image to video domain, from classification to dense prediction. Without any extra training data, our UniFormer achieves 86.3 top-1 accuracy on ImageNet-1K classification. With only ImageNet-1K pre-training, it can simply achieve state-of-the-art performance in a broad range of downstream tasks, e.g., it obtains 82.9/84.8 top-1 accuracy on Kinetics-400/600, 60.9/71.2 top-1 accuracy on Something-Something V1/V2 video classification tasks, 53.8 box AP and 46.4 mask AP on COCO object detection task, 50.8 mIoU on ADE20K semantic segmentation task, and 77.4 AP on COCO pose estimation task. Code is available at https://github.com/S ense-X/UniFormer.
翻訳日:2022-01-25 15:46:46 公開日:2022-01-24
# (参考訳) MMLatch:マルチモーダルセンシング分析のためのボトムアップトップダウンフュージョン [全文訳有]

MMLatch: Bottom-up Top-down Fusion for Multimodal Sentiment Analysis ( http://arxiv.org/abs/2201.09828v1 )

ライセンス: CC BY 4.0
Georgios Paraskevopoulos, Efthymios Georgiou, Alexandros Potamianos(参考訳) 現在のマルチモーダル核融合の深層学習手法は、高次および中級潜伏モード表現(後期核融合)または低次感覚入力(初期核融合)のボトムアップ融合に依存している。 人間の知覚のモデルはトップダウン融合の重要性を強調し、ハイレベル表現は感覚入力の知覚方法、すなわち認知が知覚に影響する。 これらのトップダウンインタラクションは、現在のディープラーニングモデルでは捉えられません。 本研究では,ネットワークトレーニング中のフォワードパスにおけるフィードバック機構を用いて,トップダウンのクロスモーダルインタラクションをキャプチャするニューラルアーキテクチャを提案する。 提案機構は各モードの高レベル表現を抽出し,これらの表現を用いて感覚入力をマスキングし,トップダウンの特徴マスキングを行う。 CMU-MOSEIにおけるマルチモーダル感情認識モデルを適用した。 本手法は, 確立されたMulT, 強力な後期核融合ベースラインに対して一貫した改良を行い, 最先端の結果を得た。

Current deep learning approaches for multimodal fusion rely on bottom-up fusion of high and mid-level latent modality representations (late/mid fusion) or low level sensory inputs (early fusion). Models of human perception highlight the importance of top-down fusion, where high-level representations affect the way sensory inputs are perceived, i.e. cognition affects perception. These top-down interactions are not captured in current deep learning models. In this work we propose a neural architecture that captures top-down cross-modal interactions, using a feedback mechanism in the forward pass during network training. The proposed mechanism extracts high-level representations for each modality and uses these representations to mask the sensory inputs, allowing the model to perform top-down feature masking. We apply the proposed model for multimodal sentiment recognition on CMU-MOSEI. Our method shows consistent improvements over the well established MulT and over our strong late fusion baseline, achieving state-of-the-art results.
翻訳日:2022-01-25 15:44:24 公開日:2022-01-24
# 同所性政策ミラー降下:政策収束、暗黙的正則化、サンプル複雑性の改善

Homotopic Policy Mirror Descent: Policy Convergence, Implicit Regularization, and Improved Sample Complexity ( http://arxiv.org/abs/2201.09457v1 )

ライセンス: Link先を確認
Yan Li, Tuo Zhao, Guanghui Lan(参考訳) 本稿では,有限状態と作用空間を持つ無限大地平線mdpを解くためのホモトピー・ポリシーミラー降下(hpmd)法を提案し,その政策収束について検討する。 We report three properties that seem to be new in the literature of policy gradient methods: (1) The policy first converges linearly, then superlinearly with order $\gamma^{-2}$ to the set of optimal policies, after $\mathcal{O}(\log(1/\Delta^*))$ number of iterations, where $\Delta^*$ is defined via a gap quantity associated with the optimal state-action value function; (2) HPMD also exhibits last-iterate convergence, with the limiting policy corresponding exactly to the optimal policy with the maximal entropy for every state. 最適化の目的に正規化は加えられず、従って第2の観測はホモトピーポリシー勾配法のアルゴリズム的性質としてのみ発生する。 (3) 確率HPMD法では,政策評価のための生成モデルを想定した場合,小さな最適性ギャップに対して,$\mathcal{O}(|\mathcal{S}| |\mathcal{A}| / \epsilon^2)$サンプルの複雑さを例示する。

We propose the homotopic policy mirror descent (HPMD) method for solving discounted, infinite horizon MDPs with finite state and action space, and study its policy convergence. We report three properties that seem to be new in the literature of policy gradient methods: (1) The policy first converges linearly, then superlinearly with order $\gamma^{-2}$ to the set of optimal policies, after $\mathcal{O}(\log(1/\Delta^*))$ number of iterations, where $\Delta^*$ is defined via a gap quantity associated with the optimal state-action value function; (2) HPMD also exhibits last-iterate convergence, with the limiting policy corresponding exactly to the optimal policy with the maximal entropy for every state. No regularization is added to the optimization objective and hence the second observation arises solely as an algorithmic property of the homotopic policy gradient method. (3) For the stochastic HPMD method, we demonstrate a better than $\mathcal{O}(|\mathcal{S}| |\mathcal{A}| / \epsilon^2)$ sample complexity for small optimality gap $\epsilon$, when assuming a generative model for policy evaluation.
翻訳日:2022-01-25 15:32:47 公開日:2022-01-24
# 連関学習における確率的ゼロ次最適化

Communication-Effici ent Stochastic Zeroth-Order Optimization for Federated Learning ( http://arxiv.org/abs/2201.09531v1 )

ライセンス: Link先を確認
Wenzhi Fang, Ziyi Yu, Yuning Jiang, Yuanming Shi, Colin N. Jones, and Yong Zhou(参考訳) フェデレートラーニング(FL)は、新たなエッジ人工知能パラダイムとして、多くのエッジデバイスがプライベートデータを共有せずにグローバルモデルを協調的にトレーニングすることを可能にする。 flの訓練効率を向上させるため,一階から二階まで様々なアルゴリズムが提案されている。 しかし、これらのアルゴリズムは、例えばフェデレーションブラックボックス攻撃やフェデレーションハイパーパラメータチューニングなど、勾配情報が利用できないシナリオでは適用できない。 本稿では,各通信ラウンドにおいて確率的勾配推定器に基づく複数局所更新を行い,部分的デバイス参加を可能にする,デリバティブフリーなフェデレーションゼロ次最適化(fedzo)アルゴリズムを提案する。 非凸設定下では、フェデゾアルゴリズムの収束性能を導出し、局所的な反復数と参加者のエッジデバイスが収束に与える影響を特徴付ける。 さらに,無線ネットワーク上での通信効率のよいFedZOを実現するために,FedZOアルゴリズムを用いたエアコン(AirComp)を提案する。 適切なトランシーバ設計により,AirComp支援型FedZOの収束は,特定の信号-雑音比条件下でも維持可能であることを示す。 シミュレーションの結果は、FedZOアルゴリズムの有効性を示し、理論観測を検証した。

Federated learning (FL), as an emerging edge artificial intelligence paradigm, enables many edge devices to collaboratively train a global model without sharing their private data. To enhance the training efficiency of FL, various algorithms have been proposed, ranging from first-order to second-order methods. However, these algorithms cannot be applied in scenarios where the gradient information is not available, e.g., federated black-box attack and federated hyperparameter tuning. To address this issue, in this paper we propose a derivative-free federated zeroth-order optimization (FedZO) algorithm featured by performing multiple local updates based on stochastic gradient estimators in each communication round and enabling partial device participation. Under the non-convex setting, we derive the convergence performance of the FedZO algorithm and characterize the impact of the numbers of local iterates and participating edge devices on the convergence. To enable communication-effici ent FedZO over wireless networks, we further propose an over-the-air computation (AirComp) assisted FedZO algorithm. With an appropriate transceiver design, we show that the convergence of AirComp-assisted FedZO can still be preserved under certain signal-to-noise ratio conditions. Simulation results demonstrate the effectiveness of the FedZO algorithm and validate the theoretical observations.
翻訳日:2022-01-25 15:32:21 公開日:2022-01-24
# drugood: アウト・オブ・ディストリビューション(ood)データセットキュレーターとai支援薬物発見ベンチマーク -- ノイズアノテーションによる親和性予測問題に注目して

DrugOOD: Out-of-Distribution (OOD) Dataset Curator and Benchmark for AI-aided Drug Discovery -- A Focus on Affinity Prediction Problems with Noise Annotations ( http://arxiv.org/abs/2201.09637v1 )

ライセンス: Link先を確認
Yuanfeng Ji, Lu Zhang, Jiaxiang Wu, Bingzhe Wu, Long-Kai Huang, Tingyang Xu, Yu Rong, Lanqing Li, Jie Ren, Ding Xue, Houtim Lai, Shaoyong Xu, Jing Feng, Wei Liu, Ping Luo, Shuigeng Zhou, Junzhou Huang, Peilin Zhao, Yatao Bian(参考訳) AI助薬発見(AIDD)は、新薬の検索を迅速、安価、かつ効率的にすることの約束により、人気が高まっている。 admet予測、仮想スクリーニング、タンパク質の折り畳み、生成化学など、多くの分野で広く使われているにもかかわらず、実世界援助アプリケーションでは避けられない \emph{noise} による分散(ood)学習問題に関してはほとんど研究されていない。 本稿では,データキュレーションとOODベンチマークプロセスを完全に自動化したオープンソースのPythonパッケージを備えた,AI支援薬物発見のための,体系的なOODデータセットキュレーターおよびベンチマークであるD薬OODを紹介する。 aiddの最も重要な問題の1つは、高分子(タンパク質標的)と小分子(ドラッグ化合物)の両方を含む薬物標的結合親和性予測である。 固定データセットのみを提供するのとは対照的に、TarmOODは、ユーザフレンドリなカスタマイズスクリプトを備えた自動データセットキュレーター、生化学知識に沿ったリッチドメインアノテーション、現実的なノイズアノテーション、最先端のOODアルゴリズムの厳格なベンチマークを提供する。 分子データはグラフニューラルネットワーク(GNN)のバックボーンを用いて不規則なグラフとしてモデル化されることが多いため、TarmOOD は \emph{graph OOD learning} 問題に対する貴重なテストベッドとしても機能する。 広範にわたる実験研究は,AIDDのノイズ下でのOOD一般化を実現するための,より良いスキームの開発の必要性を浮き彫りにしている。

AI-aided drug discovery (AIDD) is gaining increasing popularity due to its promise of making the search for new pharmaceuticals quicker, cheaper and more efficient. In spite of its extensive use in many fields, such as ADMET prediction, virtual screening, protein folding and generative chemistry, little has been explored in terms of the out-of-distribution (OOD) learning problem with \emph{noise}, which is inevitable in real world AIDD applications. In this work, we present DrugOOD, a systematic OOD dataset curator and benchmark for AI-aided drug discovery, which comes with an open-source Python package that fully automates the data curation and OOD benchmarking processes. We focus on one of the most crucial problems in AIDD: drug target binding affinity prediction, which involves both macromolecule (protein target) and small-molecule (drug compound). In contrast to only providing fixed datasets, DrugOOD offers automated dataset curator with user-friendly customization scripts, rich domain annotations aligned with biochemistry knowledge, realistic noise annotations and rigorous benchmarking of state-of-the-art OOD algorithms. Since the molecular data is often modeled as irregular graphs using graph neural network (GNN) backbones, DrugOOD also serves as a valuable testbed for \emph{graph OOD learning} problems. Extensive empirical studies have shown a significant performance gap between in-distribution and out-of-distribution experiments, which highlights the need to develop better schemes that can allow for OOD generalization under noise for AIDD.
翻訳日:2022-01-25 15:32:00 公開日:2022-01-24
# 簡単なaugmented-shot y-shaped learning: 簡単な材料による最先端の少数ショット分類

EASY: Ensemble Augmented-Shot Y-shaped Learning: State-Of-The-Art Few-Shot Classification with Simple Ingredients ( http://arxiv.org/abs/2201.09699v1 )

ライセンス: Link先を確認
Yassir Bendou, Yuqing Hu, Raphael Lafargue, Giulia Lioi, Bastien Pasdeloup, St\'ephane Pateux, Vincent Gripon(参考訳) Few-shot Learningは1つ以上のディープラーニングモデルによって学習された知識を活用することを目的としており、クラスごとのラベル付きサンプルがわずかである新しい問題に対する優れた分類性能を得る。 近年、この分野で多くの作品が見られ、多くの材料を用いた手法が導入されている。 しかし、しばしば問題となるのは、知識を抽出するために最適に訓練されたモデルを使用することであり、提案されたアプローチが、導入済みの材料を使わずにより良い初期モデルを使用するよりも利益をもたらすかどうかを問うことになる。 本稿では,フィールドの複数の標準ベンチマークにおいて,初期ディープラーニングモデルのトレーニングに使用するハイパーパラメータやパラメータをほとんど追加することなく,技術性能の限界に達したり,あるいはそれを上回るような単純な手法を提案する。 この方法論は、新しいテクニックを提案(そして比較的比較)するか、既存の手法を適応させる新しいベースラインを提供する。

Few-shot learning aims at leveraging knowledge learned by one or more deep learning models, in order to obtain good classification performance on new problems, where only a few labeled samples per class are available. Recent years have seen a fair number of works in the field, introducing methods with numerous ingredients. A frequent problem, though, is the use of suboptimally trained models to extract knowledge, leading to interrogations on whether proposed approaches bring gains compared to using better initial models without the introduced ingredients. In this work, we propose a simple methodology, that reaches or even beats state of the art performance on multiple standardized benchmarks of the field, while adding almost no hyperparameters or parameters to those used for training the initial deep learning models on the generic dataset. This methodology offers a new baseline on which to propose (and fairly compare) new techniques or adapt existing ones.
翻訳日:2022-01-25 15:30:57 公開日:2022-01-24
# ベイズ世界モデルによる制約付き政策最適化

Constrained Policy Optimization via Bayesian World Models ( http://arxiv.org/abs/2201.09802v1 )

ライセンス: Link先を確認
Yarden As, Ilnura Usmanova, Sebastian Curi, Andreas Krause(参考訳) 高精細な現実世界のアプリケーションで強化学習を展開する場合、サンプル効率と安全性の向上は重要な課題である。 制約付きマルコフ決定プロセスを通じてモデル化された安全クリティカルタスクにおけるポリシー最適化のための新しいモデルベースアプローチであるLAMBDAを提案する。 提案手法は,ベイズ世界モデルを利用し,結果として生じる不確実性を利用してタスク目標の楽観的な上限を最大化し,安全性制約の悲観的上限を最大化する。 LAMBDA のSafety-Gymベンチマークスイート上で,サンプル効率と制約違反の観点から,その性能を実証する。

Improving sample-efficiency and safety are crucial challenges when deploying reinforcement learning in high-stakes real world applications. We propose LAMBDA, a novel model-based approach for policy optimization in safety critical tasks modeled via constrained Markov decision processes. Our approach utilizes Bayesian world models, and harnesses the resulting uncertainty to maximize optimistic upper bounds on the task objective, as well as pessimistic upper bounds on the safety constraints. We demonstrate LAMBDA's state of the art performance on the Safety-Gym benchmark suite in terms of sample efficiency and constraint violation.
翻訳日:2022-01-25 15:30:38 公開日:2022-01-24
# CVAE-H:ハイパーネットによる変分オートエンコーダの条件付けと自律運転のための軌道予測

CVAE-H: Conditionalizing Variational Autoencoders via Hypernetworks and Trajectory Forecasting for Autonomous Driving ( http://arxiv.org/abs/2201.09874v1 )

ライセンス: Link先を確認
Geunseob Oh, Huei Peng(参考訳) 多様な環境における道路エージェントの確率的行動を予測するタスクは、自動運転にとって難しい課題である。 現場の状況を最もよく理解し,様々な環境下で適応的に路面エージェントの様々な将来状態を生成するためには,予測モデルは確率的,多モード的,コンテキスト駆動的,一般的でなければならない。 本稿では,ハイパーネットワークを広範に活用し,予測タスクのような高次元問題に対して生成タスクを実行する条件付きVAEであるHypernetworks (CVAE-H) による条件付き自動エンコーダを提案する。 まず,CVAE-Hを簡易な生成実験で評価し,CVAE-Hが確率的,多モード的,コンテキスト駆動,一般性を示す。 そこで,提案モデルでは,道路エージェントの正確な予測を生成することにより,自律走行予測を効果的に解決することを示した。

The task of predicting stochastic behaviors of road agents in diverse environments is a challenging problem for autonomous driving. To best understand scene contexts and produce diverse possible future states of the road agents adaptively in different environments, a prediction model should be probabilistic, multi-modal, context-driven, and general. We present Conditionalizing Variational AutoEncoders via Hypernetworks (CVAE-H); a conditional VAE that extensively leverages hypernetwork and performs generative tasks for high-dimensional problems like the prediction task. We first evaluate CVAE-H on simple generative experiments to show that CVAE-H is probabilistic, multi-modal, context-driven, and general. Then, we demonstrate that the proposed model effectively solves a self-driving prediction problem by producing accurate predictions of road agents in various environments.
翻訳日:2022-01-25 15:30:28 公開日:2022-01-24
# 標準制約ニューラルネットワークの近似境界と回帰とGANへの応用

Approximation bounds for norm constrained neural networks with applications to regression and GANs ( http://arxiv.org/abs/2201.09418v1 )

ライセンス: Link先を確認
Yuling Jiao, Yang Wang, Yunfei Yang(参考訳) 本稿では,ReLUニューラルネットワークの重みに対する標準制約による近似能力について検討する。 滑らかな関数クラスに対するこれらのネットワークの近似誤差の上限と下限を証明した。 下限は、独立した関心を持つかもしれないニューラルネットワークのラデマッハ複雑性によって導かれる。 これらの近似境界をノルム制約付きニューラルネットワークを用いた回帰収束解析とganによる分布推定に適用する。 特に,超パラメータニューラルネットワークの収束率を求める。 また、判別器が適切に選択されたノルム制約ニューラルネットワークである場合、GANが学習確率分布の最適速度を達成することも示している。

This paper studies the approximation capacity of ReLU neural networks with norm constraint on the weights. We prove upper and lower bounds on the approximation error of these networks for smooth function classes. The lower bound is derived through the Rademacher complexity of neural networks, which may be of independent interest. We apply these approximation bounds to analyze the convergence of regression using norm constrained neural networks and distribution estimation by GANs. In particular, we obtain convergence rates for over-parameterized neural networks. It is also shown that GANs can achieve optimal rate of learning probability distributions, when the discriminator is a properly chosen norm constrained neural network.
翻訳日:2022-01-25 15:28:15 公開日:2022-01-24
# マルチモーダルメディカルセグメンテーションマップのための形状整合生成共役ネットワーク

Shape-consistent Generative Adversarial Networks for multi-modal Medical segmentation maps ( http://arxiv.org/abs/2201.09693v1 )

ライセンス: Link先を確認
Leo Segre, Or Hirschorn, Dvir Ginzburg, Dan Raviv(参考訳) 非ペアデータのためのドメイン間の画像翻訳が最近注目され、大きな改善が加えられている。 医用画像では、異なる特徴を持つ複数の画像モダリティが存在する。 本研究の目的は,CTとMRIによる心磁図の相互適応を意味的セグメンテーションに活用することである。 極めて限られたデータセットに対して合成心容積を用いたセグメンテーションネットワークを提案する。 提案手法は,モダリティ間の情報を共有し,非ペアデータを用いた合成データを生成する3次元クロスモダリティ生成逆ネットワークに基づいている。 本ネットワークは,セマンティクスセグメンテーションを用いて生成形状の一貫性を向上し,セグメンテーションネットワークの再トレーニング時に使用するより現実的な合成ボリュームを生成する。 空間拡張を用いて生成的対向ネットワークを改善する場合、小さなデータセットでセグメント化を改良できることが示される。 これらの拡張によりジェネレータの能力が向上し、セグメンタの性能が向上した。 16CTと16MRIの心血管ボリュームのみを用いて,提案したアーキテクチャを用いて,他のセグメンテーション法よりも改善した結果を示す。

Image translation across domains for unpaired datasets has gained interest and great improvement lately. In medical imaging, there are multiple imaging modalities, with very different characteristics. Our goal is to use cross-modality adaptation between CT and MRI whole cardiac scans for semantic segmentation. We present a segmentation network using synthesised cardiac volumes for extremely limited datasets. Our solution is based on a 3D cross-modality generative adversarial network to share information between modalities and generate synthesized data using unpaired datasets. Our network utilizes semantic segmentation to improve generator shape consistency, thus creating more realistic synthesised volumes to be used when re-training the segmentation network. We show that improved segmentation can be achieved on small datasets when using spatial augmentations to improve a generative adversarial network. These augmentations improve the generator capabilities, thus enhancing the performance of the Segmentor. Using only 16 CT and 16 MRI cardiovascular volumes, improved results are shown over other segmentation methods while using the suggested architecture.
翻訳日:2022-01-25 15:24:48 公開日:2022-01-24
# マッサート雑音を伴う半空間学習のための最適sq下限

Optimal SQ Lower Bounds for Learning Halfspaces with Massart Noise ( http://arxiv.org/abs/2201.09818v1 )

ライセンス: Link先を確認
Rajai Nasser, Stefan Tiegel(参考訳) 半空間をマッサート雑音下で学習するために,stight statistical query (sq) 下限を与える。 特に、すべてのラベルが最大$\eta$の確率で腐敗していると仮定する。 任意の$\eta \in [0,1/2]$ に対して、$\eta$よりも誤分類エラーとなるsqアルゴリズムは、超多項精度または少なくとも超多項数のクエリを必要とする。 さらに、情報理論上の最適誤差 $\mathrm{OPT}$ が $\exp\left(-\log^c(d)\right)$ と同じくらい小さいとしても、$d$ は次元であり、$0 < c < 1$ は任意の絶対定数であり、例の圧倒的な分数はノイズのないものである。 我々の下限は、sqフレームワークで実装可能な既知の多項式時間アルゴリズムと一致する。 従来、このような下限は、エラー $\mathrm{opt} + \epsilon$ または$\omega(\eta)$ 以上のエラー、または$\eta$ が$/2$ に近い場合、$\eta - o_\eta(1)$ という単語が $d$ で一定であるが$\eta$ で 0 になるようなアルゴリズムを除外しただけだった。 その結果、$(A,\alpha)$-Tsybako vモデルにおける誤分類誤差が$(A,\alpha)$-Tsybako vモデルで 1 から 1 へ有界な$A$定数と $\alpha$ に対して SQ-hard であることが示される。

We give tight statistical query (SQ) lower bounds for learnining halfspaces in the presence of Massart noise. In particular, suppose that all labels are corrupted with probability at most $\eta$. We show that for arbitrary $\eta \in [0,1/2]$ every SQ algorithm achieving misclassification error better than $\eta$ requires queries of superpolynomial accuracy or at least a superpolynomial number of queries. Further, this continues to hold even if the information-theoreti cally optimal error $\mathrm{OPT}$ is as small as $\exp\left(-\log^c(d)\right)$, where $d$ is the dimension and $0 < c < 1$ is an arbitrary absolute constant, and an overwhelming fraction of examples are noiseless. Our lower bound matches known polynomial time algorithms, which are also implementable in the SQ framework. Previously, such lower bounds only ruled out algorithms achieving error $\mathrm{OPT} + \epsilon$ or error better than $\Omega(\eta)$ or, if $\eta$ is close to $1/2$, error $\eta - o_\eta(1)$, where the term $o_\eta(1)$ is constant in $d$ but going to 0 for $\eta$ approaching $1/2$. As a consequence, we also show that achieving misclassification error better than $1/2$ in the $(A,\alpha)$-Tsybako v model is SQ-hard for $A$ constant and $\alpha$ bounded away from 1.
翻訳日:2022-01-25 15:24:15 公開日:2022-01-24
# IoTにおける無線チャネル上での分散関数圧縮のための機械学習フレームワーク

A Machine Learning Framework for Distributed Functional Compression over Wireless Channels in IoT ( http://arxiv.org/abs/2201.09483v1 )

ライセンス: Link先を確認
Yashas Malur Saidutta, Afshin Abdi, Faramarz Fekri(参考訳) 膨大なデータと最先端の機械学習技術を生み出すIoTデバイスは、サイバー物理システムに革命をもたらす。 自律運転から拡張現実に至るまで、さまざまな分野において、分散IoTデバイスは、障害物検出やオブジェクト認識といった単純な形式を使わずに、特定のターゲット機能を計算する。 トレーニングや推論のためにデータを中央の場所に転送することに集中する従来のクラウドベースの手法は、ネットワークリソースに大きな負担をかけます。 これを解決するために,我々は,ガウス多重アクセスチャネル(GMAC)と直交AFGNチャネルの両方で分散機能圧縮を行う,最初の機械学習フレームワークを開発した。 Kolmogorov-Arnold表現定理により、私たちの機械学習フレームワークは、設計によって、IoTの所望の機能圧縮タスクに対して任意の関数を計算できます。 重要なことに、生の感覚データはトレーニングや推論のために中央ノードに転送されないため、通信が減少する。 これらのアルゴリズムでは、理論的収束保証と通信上の上限を提供する。 シミュレーションにより,関数圧縮のための学習エンコーダとデコーダは従来の手法よりも優れており,チャネル条件の変化やセンサの停止に対して堅牢であることがわかった。 クラウドベースのシナリオと比較して,我々のアルゴリズムはチャネル使用量を2桁削減する。

IoT devices generating enormous data and state-of-the-art machine learning techniques together will revolutionize cyber-physical systems. In many diverse fields, from autonomous driving to augmented reality, distributed IoT devices compute specific target functions without simple forms like obstacle detection, object recognition, etc. Traditional cloud-based methods that focus on transferring data to a central location either for training or inference place enormous strain on network resources. To address this, we develop, to the best of our knowledge, the first machine learning framework for distributed functional compression over both the Gaussian Multiple Access Channel (GMAC) and orthogonal AWGN channels. Due to the Kolmogorov-Arnold representation theorem, our machine learning framework can, by design, compute any arbitrary function for the desired functional compression task in IoT. Importantly the raw sensory data are never transferred to a central node for training or inference, thus reducing communication. For these algorithms, we provide theoretical convergence guarantees and upper bounds on communication. Our simulations show that the learned encoders and decoders for functional compression perform significantly better than traditional approaches, are robust to channel condition changes and sensor outages. Compared to the cloud-based scenario, our algorithms reduce channel use by two orders of magnitude.
翻訳日:2022-01-25 15:22:52 公開日:2022-01-24
# 都市域埋め込みのためのマルチグラフ融合ネットワーク

Multi-Graph Fusion Networks for Urban Region Embedding ( http://arxiv.org/abs/2201.09760v1 )

ライセンス: Link先を確認
Shangbin Wu, Xu Yan, Xiaoliang Fan, Shirui Pan, Shichao Zhu, Chuanpan Zheng, Ming Cheng, Cheng Wang(参考訳) モビリティデータから都市部への埋め込みを学習することで、地域の機能を明らかにし、犯罪予測のような相関的だが異なるタスクを可能にする。 人間の移動データは豊富なが豊富な情報を含んでいるため、クロスドメインタスクのための包括的領域埋め込みに繋がる。 本稿では,クロスドメイン予測タスクを実現するために,MGFN(Multi-graph fusion Network)を提案する。 まず,移動グラフ融合モジュールを用いて,時空間類似度を移動パターンとして統合する。 次に,モビリティパターン統合学習モジュールにおいて,パターン内およびパターン間メッセージに基づいて,複数のモビリティパターンから包括的埋め込みを学習するためのマルチレベルクロスアテンション機構を設計する。 最後に,実世界の都市データセットについて広範な実験を行う。 実験の結果、提案したMGFNは12.35%の改善により最先端の手法よりも優れていた。

Learning the embeddings for urban regions from human mobility data can reveal the functionality of regions, and then enables the correlated but distinct tasks such as crime prediction. Human mobility data contains rich but abundant information, which yields to the comprehensive region embeddings for cross domain tasks. In this paper, we propose multi-graph fusion networks (MGFN) to enable the cross domain prediction tasks. First, we integrate the graphs with spatio-temporal similarity as mobility patterns through a mobility graph fusion module. Then, in the mobility pattern joint learning module, we design the multi-level cross-attention mechanism to learn the comprehensive embeddings from multiple mobility patterns based on intra-pattern and inter-pattern messages. Finally, we conduct extensive experiments on real-world urban datasets. Experimental results demonstrate that the proposed MGFN outperforms the state-of-the-art methods by up to 12.35% improvement.
翻訳日:2022-01-25 15:20:13 公開日:2022-01-24
# (参考訳) グラフ生成モデルの評価指標について [全文訳有]

On Evaluation Metrics for Graph Generative Models ( http://arxiv.org/abs/2201.09871v1 )

ライセンス: CC BY 4.0
Rylee Thompson, Boris Knyazev, Elahe Ghalebi, Jungtaek Kim, Graham W. Taylor(参考訳) 画像生成では、モデル出力を視覚的に検査することで生成モデルを自然に評価することができる。 しかし、これは必ずしもグラフ生成モデル(ggm)の場合ではないため、その評価は困難である。 現在、GGMの評価の標準プロセスには3つの限界がある。 一 モデル選択を困難にさせる単一のスコアを生成しないこと。 二 多くの場合、基盤となるエッジ及びノードの機能を考慮していないこと。 三 強制的に行うのが遅いこと。 本研究では,ggmの評価とランク付けのために,スカラ,ドメイン非依存,スケーラブルなメトリクスを検索することで,これらの問題を緩和する。 そこで本研究では,タスク固有ネットワークから抽出した埋め込みを用いた画像の生成モデルから生ずる既存のGGMメトリクスとニューラルネットワークベースのメトリクスについて検討する。 学習せずに有意なグラフ表現を抽出するために,特定のグラフニューラルネットワーク(GNN)の力に触発され,未学習のランダムGNNによって抽出された特徴に基づくいくつかの指標を導入する。 生成したグラフの多様性と忠実度、サンプルおよび計算効率を測定する能力について、メトリクスを徹底的にテストする実験を設計する。 サンプルの量によっては、既存の指標よりも表現力が高いことを示す2つのランダムGNNベースの指標の1つを推奨する。 我々はこれらの指標をGGM評価に適用することに重点を置いているが、実際にはドメインに関係なく、任意の2つのグラフ間の相似性を容易に計算することができる。 私たちのコードは、https://github.com/u oguelph-mlrg/ggm-met ricsでリリースされています。

In image generation, generative models can be evaluated naturally by visually inspecting model outputs. However, this is not always the case for graph generative models (GGMs), making their evaluation challenging. Currently, the standard process for evaluating GGMs suffers from three critical limitations: i) it does not produce a single score which makes model selection challenging, ii) in many cases it fails to consider underlying edge and node features, and iii) it is prohibitively slow to perform. In this work, we mitigate these issues by searching for scalar, domain-agnostic, and scalable metrics for evaluating and ranking GGMs. To this end, we study existing GGM metrics and neural-network-based metrics emerging from generative models of images that use embeddings extracted from a task-specific network. Motivated by the power of certain Graph Neural Networks (GNNs) to extract meaningful graph representations without any training, we introduce several metrics based on the features extracted by an untrained random GNN. We design experiments to thoroughly test metrics on their ability to measure the diversity and fidelity of generated graphs, as well as their sample and computational efficiency. Depending on the quantity of samples, we recommend one of two random-GNN-based metrics that we show to be more expressive than pre-existing metrics. While we focus on applying these metrics to GGM evaluation, in practice this enables the ability to easily compute the dissimilarity between any two sets of graphs regardless of domain. Our code is released at: https://github.com/u oguelph-mlrg/GGM-met rics.
翻訳日:2022-01-25 15:17:42 公開日:2022-01-24
# 選択のパラドックス:階層的強化学習における注意の活用

The Paradox of Choice: Using Attention in Hierarchical Reinforcement Learning ( http://arxiv.org/abs/2201.09653v1 )

ライセンス: Link先を確認
Andrei Nica, Khimya Khetarpal, Doina Precup(参考訳) 意思決定AIエージェントは、計画の地平線の深さと、多くの選択肢があるため分岐要因という、2つの重要な課題に直面していることが多い。 階層的強化学習は、複数の時間ステップをスキップするショートカットを提供することで、最初の問題を解決することを目的としている。 広さに対応するためには、各ステップにおけるエージェントの注意を合理的な選択肢数に限定することが望ましい。 アフォーダンスの概念(gibson, 1977)は、特定の州では特定の行動のみが実現可能であることを示唆している。 本研究では,時間的拡張オプションの選択を制限した注意機構によって「適応性」をモデル化する。 サブゴールオプションをさらに学習するために,オンラインでモデルフリーなアルゴリズムを提案する。 訓練データ収集におけるハード・ソフト・アテンションの役割,長期的タスクにおける抽象的価値学習,および多数の選択肢に対する対処について検討する。 選択のパラドックスが発生する環境、すなわち、より少ないが有意義な選択が強化学習エージェントの学習速度とパフォーマンスを改善する場合を識別し、実証的に示す。

Decision-making AI agents are often faced with two important challenges: the depth of the planning horizon, and the branching factor due to having many choices. Hierarchical reinforcement learning methods aim to solve the first problem, by providing shortcuts that skip over multiple time steps. To cope with the breadth, it is desirable to restrict the agent's attention at each step to a reasonable number of possible choices. The concept of affordances (Gibson, 1977) suggests that only certain actions are feasible in certain states. In this work, we model "affordances" through an attention mechanism that limits the available choices of temporally extended options. We present an online, model-free algorithm to learn affordances that can be used to further learn subgoal options. We investigate the role of hard versus soft attention in training data collection, abstract value learning in long-horizon tasks, and handling a growing number of choices. We identify and empirically illustrate the settings in which the paradox of choice arises, i.e. when having fewer but more meaningful choices improves the learning speed and performance of a reinforcement learning agent.
翻訳日:2022-01-25 14:38:57 公開日:2022-01-24
# 半教師付き学習のためのグラフニューラルネットワーク

Graph Neural Diffusion Networks for Semi-supervised Learning ( http://arxiv.org/abs/2201.09698v1 )

ライセンス: Link先を確認
Wei Ye, Zexi Huang, Yunqi Hong, Ambuj Singh(参考訳) Graph Convolutional Networks (GCN)は、グラフに基づく半教師付き学習のパイオニアモデルである。 しかし、GCNは疎ラベルグラフではうまく機能しない。 その2層バージョンはラベル情報をグラフ構造全体に効果的に伝播することができない(すなわち、スムーシング問題)が、深いバージョンはスムーヘンを過剰に扱い、訓練が難しい(すなわち、オーバースモーシング問題)。 これら2つの問題を解決するために,単一の層内の頂点の局所的および大域的近傍情報を利用するGND-Nets(Graph Neural Diffusion Networks)というグラフニューラルネットワークを提案する。 浅層ネットワークの活用は, 局所的およびグローバル的近傍情報を活用することで, 過喫煙問題を緩和する。 頂点の局所的および大域的近傍情報の利用は、ニューラルネットワークを従来の線形および非線形グラフ拡散に統合するニューラル拡散と呼ばれる新しいグラフ拡散法によって達成される。 ニューラルネットワークの採用により、ニューラルネットワークの拡散は異なるデータセットに適応できる。 各種スパースラベルグラフの広範囲な実験により、GND-Netsの有効性と効率を最先端のアプローチと比較して検証する。

Graph Convolutional Networks (GCN) is a pioneering model for graph-based semi-supervised learning. However, GCN does not perform well on sparsely-labeled graphs. Its two-layer version cannot effectively propagate the label information to the whole graph structure (i.e., the under-smoothing problem) while its deep version over-smoothens and is hard to train (i.e., the over-smoothing problem). To solve these two issues, we propose a new graph neural network called GND-Nets (for Graph Neural Diffusion Networks) that exploits the local and global neighborhood information of a vertex in a single layer. Exploiting the shallow network mitigates the over-smoothing problem while exploiting the local and global neighborhood information mitigates the under-smoothing problem. The utilization of the local and global neighborhood information of a vertex is achieved by a new graph diffusion method called neural diffusions, which integrate neural networks into the conventional linear and nonlinear graph diffusions. The adoption of neural networks makes neural diffusions adaptable to different datasets. Extensive experiments on various sparsely-labeled graphs verify the effectiveness and efficiency of GND-Nets compared to state-of-the-art approaches.
翻訳日:2022-01-25 14:38:26 公開日:2022-01-24
# Online AutoML: オンライン学習のための適応型AutoMLフレームワーク

Online AutoML: An adaptive AutoML framework for online learning ( http://arxiv.org/abs/2201.09750v1 )

ライセンス: Link先を確認
Bilge Celik and Prabhant Singh and Joaquin Vanschoren(参考訳) Automated Machine Learning (AutoML)は、学習タスクが静的であると仮定された設定でうまく使われている。 しかし、多くの実世界のシナリオでは、データ分散は時間とともに進化し、AutoML技術が動的環境におけるオンラインパイプラインを効果的に設計できるかどうかはまだ明らかになっていない。 本研究では,データドリフトに継続的に適応しながら,オンライン学習のためのパイプライン設計を自動化することを目的とする。 そこで本研究では,適応型オンライン自動機械学習(oaml)システムを設計し,事前処理アルゴリズムやセンシング技術を含むオンライン学習者のパイプライン構成空間を探索する。 このシステムは,オンライン学習者固有の適応能力とAutoMLの高速自動パイプライン(再最適化機能)を組み合わせる。 進化する目標に適応可能な最適化技術に焦点を当て,非同期遺伝的プログラミングと非同期逐次halvingを評価し,パイプラインを継続的に最適化する。 提案するシステムの性能と適応性をテストするために,様々な概念ドリフトを用いた実データストリームと人工データストリームを実験した。 結果は、一般的なオンライン学習アルゴリズムよりもOAMLの有用性を確認し、データドリフトの存在下での継続的パイプラインの再設計のメリットを強調した。

Automated Machine Learning (AutoML) has been used successfully in settings where the learning task is assumed to be static. In many real-world scenarios, however, the data distribution will evolve over time, and it is yet to be shown whether AutoML techniques can effectively design online pipelines in dynamic environments. This study aims to automate pipeline design for online learning while continuously adapting to data drift. For this purpose, we design an adaptive Online Automated Machine Learning (OAML) system, searching the complete pipeline configuration space of online learners, including preprocessing algorithms and ensembling techniques. This system combines the inherent adaptation capabilities of online learners with the fast automated pipeline (re)optimization capabilities of AutoML. Focusing on optimization techniques that can adapt to evolving objectives, we evaluate asynchronous genetic programming and asynchronous successive halving to optimize these pipelines continually. We experiment on real and artificial data streams with varying types of concept drift to test the performance and adaptation capabilities of the proposed system. The results confirm the utility of OAML over popular online learning algorithms and underscore the benefits of continuous pipeline redesign in the presence of data drift.
翻訳日:2022-01-25 14:37:49 公開日:2022-01-24
# 勾配に基づくトレーニングフリーニューラルネットワーク検索の統一化と強化

Unifying and Boosting Gradient-Based Training-Free Neural Architecture Search ( http://arxiv.org/abs/2201.09785v1 )

ライセンス: Link先を確認
Yao Shu, Zhongxiang Dai, Zhaoxuan Wu, Bryan Kian Hsiang Low(参考訳) neural architecture search (nas) は、ニューラルアーキテクチャ設計を自動化する能力によって、大きな人気を集めている。 トレーニングなしのメトリクスは、最近、トレーニングなしでNASを実現するために提案されているため、NASをよりスケーラブルにする。 競争力のある経験的パフォーマンスにもかかわらず、これらのトレーニングフリーメトリクスの統一的な理論的理解は欠如している。 その結果である。 (a)これらの指標間の関係は不明確である。 (b)その経験的性能及び移動可能性に関する理論的保証がない。 c) トレーニングフリーなnasには、統一的な理論的理解を通じて明らかにできる未解決のポテンシャルが存在する可能性がある。 そこで本稿では,グラデーションベース無トレーニングnasの統一的理論解析について述べる。 a)理論的に彼らの関係を研究する b) 理論的にそれらの一般化性能と伝達性を保証すること、 (c) 統一的な理論的理解を活用して、原則的にトレーニングフリーNASを継続的に促進するハイブリッドNAS(HNAS)と呼ばれる新しいフレームワークを開発する。 興味深いことに、HNASはトレーニングフリー(検索効率が優れている)とトレーニングベース(目覚しい検索効率)の2つの利点を享受できる。

Neural architecture search (NAS) has gained immense popularity owing to its ability to automate neural architecture design. A number of training-free metrics are recently proposed to realize NAS without training, hence making NAS more scalable. Despite their competitive empirical performances, a unified theoretical understanding of these training-free metrics is lacking. As a consequence, (a) the relationships among these metrics are unclear, (b) there is no theoretical guarantee for their empirical performances and transferability, and (c) there may exist untapped potential in training-free NAS, which can be unveiled through a unified theoretical understanding. To this end, this paper presents a unified theoretical analysis of gradient-based training-free NAS, which allows us to (a) theoretically study their relationships, (b) theoretically guarantee their generalization performances and transferability, and (c) exploit our unified theoretical understanding to develop a novel framework named hybrid NAS (HNAS) which consistently boosts training-free NAS in a principled way. Interestingly, HNAS is able to enjoy the advantages of both training-free (i.e., superior search efficiency) and training-based (i.e., remarkable search effectiveness) NAS, which we have demonstrated through extensive experiments.
翻訳日:2022-01-25 14:37:31 公開日:2022-01-24
# 根付き樹木の確率分布

Probability Distribution on Rooted Trees ( http://arxiv.org/abs/2201.09460v1 )

ライセンス: Link先を確認
Yuta Nakahara, Shota Saito, Akira Kamatsuka, Toshiyasu Matsushima(参考訳) 根付き木の階層的かつ再帰的な表現能力は、データ圧縮、画像処理、機械学習といった様々な分野の統計モデルを表現するのに応用できる。 一方、そのような階層的表現能力は、過剰な適合を避けるために木の選択に問題を引き起こす。 これを解決するための統一的なアプローチはベイズ的アプローチであり、ルート木をランダム変数とみなし、選択されたモデルや新しいデータポイントの予測値に対して直接損失関数を仮定することができる。 しかしながら、このアプローチに関するこれまでのすべての研究は、我々の知識を最大限に活用するために、満木上の確率分布に基づいている。 本稿では,最大子ノード数と最大深さのみを固定したルート木に対して,一般化された確率分布を提案する。 さらに,近似を伴わずに確率分布の特性を評価する再帰的手法を導出する。

The hierarchical and recursive expressive capability of rooted trees is applicable to represent statistical models in various areas, such as data compression, image processing, and machine learning. On the other hand, such hierarchical expressive capability causes a problem in tree selection to avoid overfitting. One unified approach to solve this is a Bayesian approach, on which the rooted tree is regarded as a random variable and a direct loss function can be assumed on the selected model or the predicted value for a new data point. However, all the previous studies on this approach are based on the probability distribution on full trees, to the best of our knowledge. In this paper, we propose a generalized probability distribution for any rooted trees in which only the maximum number of child nodes and the maximum depth are fixed. Furthermore, we derive recursive methods to evaluate the characteristics of the probability distribution without any approximations.
翻訳日:2022-01-25 14:35:32 公開日:2022-01-24
# マルチスケール生成モデル:他の依存生成モデルからのフィードバックを用いた生成モデルの性能向上

Multiscale Generative Models: Improving Performance of a Generative Model Using Feedback from Other Dependent Generative Models ( http://arxiv.org/abs/2201.09644v1 )

ライセンス: Link先を確認
Changyu Chen, Avinandan Bose, Shih-Fen Cheng, Arunesh Sinha(参考訳) 実世界の複雑なシステムの多エージェントシミュレーションは、強化学習のような下流の多くのタスクに不可欠である。 最近の研究は、実世界のシステムの高忠実性シミュレーションを提供するために生成モデル(特にGAN)を使用している。 しかし、そのような生成モデルはしばしばモノリシックであり、マルチエージェントシステムにおける相互作用のモデリングを見逃してしまう。 本研究では,実世界の相互作用を反映した複数の相互作用生成モデル(GAN)の構築に向けた第一歩を踏み出す。 我々は,複数の低レベル GAN の出力に高レベル GAN を条件付けした階層的なセットアップを構築し,解析する。 本稿では,より高レベルなGANからのフィードバックを用いて,低レベルなGANの性能を向上させる手法を提案する。 我々は,我々の手法が影響のある条件を数学的に特徴付けるとともに,セットアップの伝達学習の性質を理解する。 本稿では,合成データ,時系列データ,画像領域について3つの異なる実験を行い,本手法の幅広い適用性を明らかにする。

Realistic fine-grained multi-agent simulation of real-world complex systems is crucial for many downstream tasks such as reinforcement learning. Recent work has used generative models (GANs in particular) for providing high-fidelity simulation of real-world systems. However, such generative models are often monolithic and miss out on modeling the interaction in multi-agent systems. In this work, we take a first step towards building multiple interacting generative models (GANs) that reflects the interaction in real world. We build and analyze a hierarchical set-up where a higher-level GAN is conditioned on the output of multiple lower-level GANs. We present a technique of using feedback from the higher-level GAN to improve performance of lower-level GANs. We mathematically characterize the conditions under which our technique is impactful, including understanding the transfer learning nature of our set-up. We present three distinct experiments on synthetic data, time series data, and image domain, revealing the wide applicability of our technique.
翻訳日:2022-01-25 14:35:19 公開日:2022-01-24
# 手書き単語からのストライクスルー除去のための画像対画像翻訳

Paired Image to Image Translation for Strikethrough Removal From Handwritten Words ( http://arxiv.org/abs/2201.09633v1 )

ライセンス: Link先を確認
Raphaela Heil, Ekta Vats, Anders Hast(参考訳) 例えば、遺伝子批判の目的で手書きの単語を翻訳することは、重畳された脳卒中の障害性のため、人間と機械の両方に困難をもたらす可能性がある。 本稿では,手書き単語からストライクスルーストロークを除去する画像翻訳手法におけるペア画像の利用について検討する。 いくつかの単純な畳み込み層からより深いものまで、Denseブロックを使用する4つの異なるニューラルネットワークアーキテクチャが検討されている。 1つの合成および1つの真のペアストライクスルーデータセットから得られた実験結果は、提案されたペアモデルは、トレーニング可能なパラメータの6分の1未満を使用しながら、CycleGANベースの技術よりも優れていることを確認した。

Transcribing struck-through, handwritten words, for example for the purpose of genetic criticism, can pose a challenge to both humans and machines, due to the obstructive properties of the superimposed strokes. This paper investigates the use of paired image to image translation approaches to remove strikethrough strokes from handwritten words. Four different neural network architectures are examined, ranging from a few simple convolutional layers to deeper ones, employing Dense blocks. Experimental results, obtained from one synthetic and one genuine paired strikethrough dataset, confirm that the proposed paired models outperform the CycleGAN-based state of the art, while using less than a sixth of the trainable parameters.
翻訳日:2022-01-25 14:32:01 公開日:2022-01-24
# (参考訳) 強化学習における一時協調探索のための生成計画 [全文訳有]

Generative Planning for Temporally Coordinated Exploration in Reinforcement Learning ( http://arxiv.org/abs/2201.09765v1 )

ライセンス: CC BY 4.0
Haichao Zhang, Wei Xu, Haonan Yu(参考訳) 標準モデルフリー強化学習アルゴリズムは、将来期待されるリターンを最大化するために、現在のステップで取るべきアクションを生成するポリシーを最適化する。 柔軟性はありますが、単一のステップの性質から、非効率な探索から生じる困難に直面します。 本研究は, 生成計画法(GPM)について述べるもので, 現段階だけでなく, 将来段階(生成計画と呼ぶ)にも対応できる。 これはGPMにいくつかのメリットをもたらします。 第一に、GPMは値の最大化によって訓練されるので、そこから生成された計画は、高値領域に到達するための意図的なアクションシーケンスと見なすことができる。 したがって、GPMは、時間的に調整された高値領域への探索のための生成した多段階計画を利用することができ、これは単一のステップレベルで各アクションを摂動させることによって生成される一連のアクションよりも効果的であり、その一貫した動きは探索ステップの数とともに指数関数的に減衰する。 第2に、粗雑な初期計画生成から始まるGPMは、タスクに適応するように洗練することができ、その見返りとして、将来の探索に役立てることができる。 これは、一般的に使用されるアクション・リピート戦略よりも、潜在的に効果的である。 さらに、多段階計画がエージェントの意図と解釈できるため、解釈のためのより情報的で直感的な信号を提供する。 いくつかのベンチマーク環境で実験を行い、その効果をいくつかのベースライン法と比較した。

Standard model-free reinforcement learning algorithms optimize a policy that generates the action to be taken in the current time step in order to maximize expected future return. While flexible, it faces difficulties arising from the inefficient exploration due to its single step nature. In this work, we present Generative Planning method (GPM), which can generate actions not only for the current step, but also for a number of future steps (thus termed as generative planning). This brings several benefits to GPM. Firstly, since GPM is trained by maximizing value, the plans generated from it can be regarded as intentional action sequences for reaching high value regions. GPM can therefore leverage its generated multi-step plans for temporally coordinated exploration towards high value regions, which is potentially more effective than a sequence of actions generated by perturbing each action at single step level, whose consistent movement decays exponentially with the number of exploration steps. Secondly, starting from a crude initial plan generator, GPM can refine it to be adaptive to the task, which, in return, benefits future explorations. This is potentially more effective than commonly used action-repeat strategy, which is non-adaptive in its form of plans. Additionally, since the multi-step plan can be interpreted as the intent of the agent from now to a span of time period into the future, it offers a more informative and intuitive signal for interpretation. Experiments are conducted on several benchmark environments and the results demonstrated its effectiveness compared with several baseline methods.
翻訳日:2022-01-25 14:31:07 公開日:2022-01-24
# 合成本

Synthetic Books ( http://arxiv.org/abs/2201.09518v1 )

ライセンス: Link先を確認
Varvara Guljajeva(参考訳) この記事では、GPT-2やGPT-3といったAI技術によって支援される新しい言語について説明する。 論文で述べられている問題は、これらの新技術が最終的に著者の本を置き換えるかどうかではなく、出版物との関係とコンテキスト化の方法と、それらの背後にある新しいツール、プロセス、アイデアについてである。 そのため、本項では合成書の新たな概念が紹介されている。 それは、人間のようなテキストを生成することができるより正確に自己回帰的な言語モデルである、AIテクノロジをデプロイすることによって作成された出版物のためのものだ。 ケーススタディによって支持される合成本の価値と推論について論じる。 この論文は、AI生成コンテンツに関して、芸術的品質が問題であることを強調している。 この記事では、アーティストやオーディエンスによるインタラクティブなインプットとディープラーニングベースの言語モデルを組み合わせたプロジェクトを紹介する。 最後に、論文は芸術的文脈における文章言語の神経的美学の理解に焦点を当てている。

The article explores new ways of written language aided by AI technologies, like GPT-2 and GPT-3. The question that is stated in the paper is not about whether these novel technologies will eventually replace authored books, but how to relate to and contextualize such publications and what kind of new tools, processes, and ideas are behind them. For that purpose, a new concept of synthetic books is introduced in the article. It stands for the publications created by deploying AI technology, more precisely autoregressive language models that are able to generate human-like text. Supported by the case studies, the value and reasoning of the synthetic books are discussed. The paper emphasizes that artistic quality is an issue when it comes to AI-generated content. The article introduces projects that demonstrate an interactive input by an artist and/or audience combined with the deep-learning-based language models. In the end, the paper focuses on understanding the neural aesthetics of written language in the art context.
翻訳日:2022-01-25 14:03:21 公開日:2022-01-24
# 連続学習による一貫した質問生成

Unified Question Generation with Continual Lifelong Learning ( http://arxiv.org/abs/2201.09696v1 )

ライセンス: Link先を確認
Wei Yuan, Hongzhi Yin, Tieke He, Tong Chen, Qiufeng Wang, Lizhen Cui(参考訳) 自然言語処理タスクとしての質問生成(qg)は、与えられた回答と文脈に基づいて質問を生成することを目的としている。 既存のQGメソッドは主に、特定のQGデータセットの構築やトレーニングに重点を置いている。 これらの作品は、(1)特定のqgフォーマット(例えば、応答抽出やマルチチョイスqg)に特化しているため、qgの新しいフォーマットに対処したい場合は、qgモデルの再設計が必要である。 2) 最適なパフォーマンスは、トレーニングしたばかりのデータセットでのみ達成されます。 その結果、様々なQGデータセットに対する様々なQGモデルをトレーニングし、維持する必要がある。 そこで本研究では,生涯学習技術に基づくUnified-QGというモデルを提案する。 具体的には、まずフォーマット変換エンコーディングを構築し、さまざまな種類のqgフォーマットを統一表現に変換する。 次に、連続QG学習における破滅的忘れを緩和するために、 \emph{StriDER} (\emph{S}imilari\emph{T}y \emph{R}egular\emph{I}zed \emph{D}ifficult \emph{E}xample \emph{R}eplay) と呼ばれる方法を構築する。 4ドルのqgフォーマット(answer-extraction, answer-abstraction, multi-choice, boolean qg)で8ドルのqgデータセットで広範な実験を行い、このアプローチの有効性を実証した。 実験の結果,データセットやフォーマットが変化すると,我々の統一QGはQGタスクに効果的かつ継続的に適応できることがわかった。 さらに,1つの訓練された統一QGモデルが,合成QAデータを生成することで,QAシステムの性能を8ドルに向上する能力を検証する。

Question Generation (QG), as a challenging Natural Language Processing task, aims at generating questions based on given answers and context. Existing QG methods mainly focus on building or training models for specific QG datasets. These works are subject to two major limitations: (1) They are dedicated to specific QG formats (e.g., answer-extraction or multi-choice QG), therefore, if we want to address a new format of QG, a re-design of the QG model is required. (2) Optimal performance is only achieved on the dataset they were just trained on. As a result, we have to train and keep various QG models for different QG datasets, which is resource-intensive and ungeneralizable. To solve the problems, we propose a model named Unified-QG based on lifelong learning techniques, which can continually learn QG tasks across different datasets and formats. Specifically, we first build a format-convert encoding to transform different kinds of QG formats into a unified representation. Then, a method named \emph{STRIDER} (\emph{S}imilari\emph{T}y \emph{R}egular\emph{I}zed \emph{D}ifficult \emph{E}xample \emph{R}eplay) is built to alleviate catastrophic forgetting in continual QG learning. Extensive experiments were conducted on $8$ QG datasets across $4$ QG formats (answer-extraction, answer-abstraction, multi-choice, and boolean QG) to demonstrate the effectiveness of our approach. Experimental results demonstrate that our Unified-QG can effectively and continually adapt to QG tasks when datasets and formats vary. In addition, we verify the ability of a single trained Unified-QG model in improving $8$ Question Answering (QA) systems' performance through generating synthetic QA data.
翻訳日:2022-01-25 14:03:04 公開日:2022-01-24
# 協調的質問回答に向けて : 予備的研究

Towards Collaborative Question Answering: A Preliminary Study ( http://arxiv.org/abs/2201.09708v1 )

ライセンス: Link先を確認
Xiangkun Hu, Hang Yan, Qipeng Guo, Xipeng Qiu, Weinan Zhang, Zheng Zhang(参考訳) 現実世界の知識と専門知識は相容れない。 複雑な問題を解決するために、専門家間のコラボレーションがしばしば求められます。 本稿では,モデレーターによって調整された複数の専門家エージェントが協力して,単一のエージェントだけでは答えられない質問に回答する,新しいQAタスクであるCollabQAを提案する。 専門家に分散可能な,大規模な知識グラフの合成データセットを作成する。 我々は、基底的真理推論パスから複雑な問題を形成するプロセス、そのタスクを解くために学習できるニューラルネットワークエージェントモデル、パフォーマンスをチェックするための評価メトリクスを定義する。 専門家が完璧で均一でない限り,コラボレーション構造を導入することなく,この問題が解決可能であることを示す。 この経験に基づいて,実環境におけるコラボレーションタスクへのアプローチに必要な拡張を詳細に述べる。

Knowledge and expertise in the real-world can be disjointedly owned. To solve a complex question, collaboration among experts is often called for. In this paper, we propose CollabQA, a novel QA task in which several expert agents coordinated by a moderator work together to answer questions that cannot be answered with any single agent alone. We make a synthetic dataset of a large knowledge graph that can be distributed to experts. We define the process to form a complex question from ground truth reasoning path, neural network agent models that can learn to solve the task, and evaluation metrics to check the performance. We show that the problem can be challenging without introducing prior of the collaboration structure, unless experts are perfect and uniform. Based on this experience, we elaborate extensions needed to approach collaboration tasks in real-world settings.
翻訳日:2022-01-25 14:02:25 公開日:2022-01-24
# 自己教師型学習による映像の連続3次元ハンドコンストラクション

Consistent 3D Hand Reconstruction in Video via self-supervised Learning ( http://arxiv.org/abs/2201.09548v1 )

ライセンス: Link先を確認
Zhigang Tu, Zhisheng Huang, Yujin Chen, Di Kang, Linchao Bao, Bisheng Yang, and Junsong Yuan(参考訳) モノクロ映像から高精度で一貫した3Dハンドを再構築する手法を提案する。 検出された2次元手指キーポイントと画像テクスチャは,3次元手指の形状やテクスチャに関する重要な手がかりとなり,3次元手指アノテーションの要件を低減あるいは排除できる。 そこで本稿では,RGB入力1点からのポーズ,形状,テクスチャ,カメラ視点を,容易にアクセス可能な2D検出キーポイントの監視を通じて共同で推定できる3Dハンド再構成モデルである${\rm {S}^{2}HAND}$を提案する。 我々は、ラベル付けされていないビデオデータに含まれる連続的な手の動き情報を活用し、各フレームを処理するために共有される重みのセットである${\rm {S}^{2}HAND(V)}$を提案し、さらに動き、テクスチャ、形状の整合性制約を利用して、より正確な手ポーズやより整合性のある形状やテクスチャを促進する。 ベンチマークデータセットを用いた実験により、我々の自己教師付きアプローチは、入力設定としてシングルフレームにおける最近のフル教師付き手法と比較して、手再構成性能に匹敵する結果が得られた。

We present a method for reconstructing accurate and consistent 3D hands from a monocular video. We observe that detected 2D hand keypoints and the image texture provide important cues about the geometry and texture of the 3D hand, which can reduce or even eliminate the requirement on 3D hand annotation. Thus we propose ${\rm {S}^{2}HAND}$, a self-supervised 3D hand reconstruction model, that can jointly estimate pose, shape, texture, and the camera viewpoint from a single RGB input through the supervision of easily accessible 2D detected keypoints. We leverage the continuous hand motion information contained in the unlabeled video data and propose ${\rm {S}^{2}HAND(V)}$, which uses a set of weights shared ${\rm {S}^{2}HAND}$ to process each frame and exploits additional motion, texture, and shape consistency constrains to promote more accurate hand poses and more consistent shapes and textures. Experiments on benchmark datasets demonstrate that our self-supervised approach produces comparable hand reconstruction performance compared with the recent full-supervised methods in single-frame as input setup, and notably improves the reconstruction accuracy and consistency when using video training data.
翻訳日:2022-01-25 13:59:39 公開日:2022-01-24
# パッチは必要なの?

Patches Are All You Need? ( http://arxiv.org/abs/2201.09792v1 )

ライセンス: Link先を確認
Asher Trockman, J. Zico Kolter(参考訳) 畳み込みネットワークは長年、視覚タスクにおいて支配的なアーキテクチャであったが、最近の実験により、トランスフォーマーベースのモデル、特にビジョントランスフォーマー(ViT)がいくつかの設定で性能を上回る可能性があることが示されている。 しかし、トランスフォーマーの自己アテンション層が二次的に実行されるため、vitsでは、より大きな画像サイズに適用するために、画像の小さな領域を単一の入力機能にグループ化するパッチ埋め込みの使用が必要となる。 本質的によりパワフルなTransformerアーキテクチャによるViTのパフォーマンスは、少なくとも部分的には、入力表現としてパッチを使用することによるものなのでしょうか? 特に,vit やさらに基本的な mlp-mixer に類似する非常に単純なモデルである convmixer を提案し,入力としてパッチを直接操作し,空間次元とチャネル次元の混合を分離し,ネットワーク全体のサイズと解像度を等しく維持する。 しかし対照的に、ConvMixerは混合ステップを達成するために標準の畳み込みのみを使用する。 その単純さにもかかわらず、convmixerはvit、mlp-mixer、および類似のパラメータ数やデータセットサイズに対するいくつかのバリエーションよりも優れており、またresnetのような古典的なビジョンモデルよりも優れていることを示している。 私たちのコードはhttps://github.com/l ocuslab/convmixerで利用可能です。

Although convolutional networks have been the dominant architecture for vision tasks for many years, recent experiments have shown that Transformer-based models, most notably the Vision Transformer (ViT), may exceed their performance in some settings. However, due to the quadratic runtime of the self-attention layers in Transformers, ViTs require the use of patch embeddings, which group together small regions of the image into single input features, in order to be applied to larger image sizes. This raises a question: Is the performance of ViTs due to the inherently-more-powe rful Transformer architecture, or is it at least partly due to using patches as the input representation? In this paper, we present some evidence for the latter: specifically, we propose the ConvMixer, an extremely simple model that is similar in spirit to the ViT and the even-more-basic MLP-Mixer in that it operates directly on patches as input, separates the mixing of spatial and channel dimensions, and maintains equal size and resolution throughout the network. In contrast, however, the ConvMixer uses only standard convolutions to achieve the mixing steps. Despite its simplicity, we show that the ConvMixer outperforms the ViT, MLP-Mixer, and some of their variants for similar parameter counts and data set sizes, in addition to outperforming classical vision models such as the ResNet. Our code is available at https://github.com/l ocuslab/convmixer.
翻訳日:2022-01-25 13:37:00 公開日:2022-01-24
# (参考訳) 安全を意識したマルチエージェント見習い学習

Safety-Aware Multi-Agent Apprenticeship Learning ( http://arxiv.org/abs/2201.08111v2 )

ライセンス: CC BY-SA 4.0
Junchen Zhao(参考訳) 本研究の目的は,シングルエージェント学習フレームワークからマルチエージェント学習フレームワークへ,既存の強化学習モデルの有用性と効率を向上させるため,論文"safety-aware apprenticeship learning"で述べた手法に基づく拡張を行うことである。 プロジェクトへの私たちの貢献は、以下の点で示されています。 1. 単エージェントシナリオから多エージェントシナリオへの逆強化学習モデルの拡張を行う。 このプロジェクトへの最初の貢献は、シングルエージェントシナリオからではなく、マルチエージェントシナリオで専門家の振る舞いから安全な報酬関数を抽出するケースを検討することです。 第2のコントリビューションは,Single-Agent Learning FrameworkをMulti-Agent Learning Frameworkに拡張し,最後に拡張に基づいて新しいLearning Frameworkを設計することです。 3. このプロジェクトへの最終的な貢献は、私がSingle-Agent Inverse Reinforcement Learningフレームワークの拡張のパフォーマンスを経験的に評価することです。

Our objective of this project is to make the extension based on the technique mentioned in the paper "Safety-Aware Apprenticeship Learning" to improve the utility and the efficiency of the existing Reinforcement Learning model from a Single-Agent Learning framework to a Multi-Agent Learning framework. Our contributions to the project are presented in the following bullet points: 1. Regarding the fact that we will add an extension to the Inverse Reinforcement Learning model from a Single-Agent scenario to a Multi-Agentscenario. Our first contribution to this project is considering the case of extracting safe reward functions from expert behaviors in a Multi-Agent scenario instead of being from the Single-Agent scenario. 2. Our second contribution is extending the Single-Agent Learning Framework to a Multi-Agent Learning framework and designing a novel Learning Framework based on the extension in the end. 3. Our final contribution to this project is evaluating empirically the performance of my extension to the Single-Agent Inverse Reinforcement Learning framework.
翻訳日:2022-01-25 12:39:25 公開日:2022-01-24
# (参考訳) SMOTEへ、それともSMOTEへ? [全文訳有]

To SMOTE, or not to SMOTE? ( http://arxiv.org/abs/2201.08528v2 )

ライセンス: CC BY 4.0
Yotam Elor and Hadar Averbuch-Elor(参考訳) 不均衡二項分類問題では、客観的計量はしばしば非対称であり、より高いペナルティとマイノリティ標本を関連付ける。 一方、トレーニングに使用される損失関数は通常対称であり、多数派と少数派のサンプルも同様にペナルティを課す。 モデルのトレーニング前にデータのバランスを向上するバランシングスキームが提案され、この相違に対処し、表データ上での予測性能を実証的に改善することを示した。 しかし、最近の一貫した分類器の研究は、メートル法差が予測性能を妨げない可能性を示唆している。 これらの最近の理論結果を踏まえて,表データのバランスに関する経験的研究を注意深く検討した。 73のデータセットを用いた大規模な実験では、理論に従って、強い一貫した分類器を用いることで最良の予測が達成され、バランスが有益でないことが示されている。 バランスが効果的であるいくつかのシナリオを識別し、先行研究が主にこれらの設定に焦点を当てていることを確認する。

In imbalanced binary classification problems the objective metric is often non-symmetric and associates a higher penalty with the minority samples. On the other hand, the loss function used for training is usually symmetric - equally penalizing majority and minority samples. Balancing schemes, that augment the data to be more balanced before training the model, were proposed to address this discrepancy and were shown to improve prediction performance empirically on tabular data. However, recent studies of consistent classifiers suggest that the metric discrepancy might not hinder prediction performance. In light of these recent theoretical results, we carefully revisit the empirical study of balancing tabular data. Our extensive experiments, on 73 datasets, show that generally, in accordance with theory, best prediction is achieved by using a strong consistent classifier and balancing is not beneficial. We further identity several scenarios for which balancing is effective and observe that prior studies mainly focus on these settings.
翻訳日:2022-01-25 12:38:01 公開日:2022-01-24
# (参考訳) pseudo-labeled auto-curriculum learningによる半教師付きキーポイント定位 [全文訳有]

Pseudo-Labeled Auto-Curriculum Learning for Semi-Supervised Keypoint Localization ( http://arxiv.org/abs/2201.08613v2 )

ライセンス: CC BY 4.0
Can Wang, Sheng Jin, Yingda Guan, Wentao Liu, Chen Qian, Ping Luo, Wanli Ouyang(参考訳) オブジェクトのキーポイントのローカライズは基本的な視覚的問題である。 しかし、キーポイント局在化ネットワークの教師あり学習には大量のデータが必要であり、費用がかかり、時間を要する。 これを改善するために、ラベル付きデータの小さなセットとラベルなしデータの大規模なセットを活用する、半教師付き学習(SSL)への関心が高まっている。 これらのSSLアプローチの中で、擬似ラベル(PL)が最も人気である。 PLアプローチでは、ラベル付きデータに擬似ラベルを適用し、ラベル付きデータと擬似ラベル付きデータを組み合わせてモデルを反復的に訓練する。 PLの成功の鍵は、高品質な擬似ラベルサンプルの選択である。 以前の作業は主に、単一の信頼しきい値を設定することで、トレーニングサンプルを選択する。 学習カリキュラムを構成する一連の動的しきい値を用いて,信頼性の高い擬似ラベル標本を自動的に選択する。 6つのキーポイントローカライズベンチマークデータセットに関する広範な実験は、提案手法が従来のsslアプローチを大きく上回っていることを示している。

Localizing keypoints of an object is a basic visual problem. However, supervised learning of a keypoint localization network often requires a large amount of data, which is expensive and time-consuming to obtain. To remedy this, there is an ever-growing interest in semi-supervised learning (SSL), which leverages a small set of labeled data along with a large set of unlabeled data. Among these SSL approaches, pseudo-labeling (PL) is one of the most popular. PL approaches apply pseudo-labels to unlabeled data, and then train the model with a combination of the labeled and pseudo-labeled data iteratively. The key to the success of PL is the selection of high-quality pseudo-labeled samples. Previous works mostly select training samples by manually setting a single confidence threshold. We propose to automatically select reliable pseudo-labeled samples with a series of dynamic thresholds, which constitutes a learning curriculum. Extensive experiments on six keypoint localization benchmark datasets demonstrate that the proposed approach significantly outperforms the previous state-of-the-art SSL approaches.
翻訳日:2022-01-25 12:19:20 公開日:2022-01-24
# hdhuman: まばらなビューでハイクオリティなヒューマンパフォーマンスキャプチャ

HDhuman: High-quality Human Performance Capture with Sparse Views ( http://arxiv.org/abs/2201.08158v2 )

ライセンス: Link先を確認
Tiansong Zhou, Tao Yu, Ruizhi Shao, Kun Li(参考訳) 本稿では、カメラビューのスパースセットを用いて、複雑なテクスチャパターンの服を着た人間のパフォーマーの新たなビューレンダリングの課題を解決する方法であるHD Humanを紹介する。 近年の研究では、比較的均一なテクスチャを持つ人間のレンダリング品質が向上しているが、入力ビューで観察された高頻度な幾何学的詳細を復元できないため、複雑なテクスチャパターンを扱う場合のレンダリング品質は限られている。 この目的のために,提案したHD Humanは,高画質な人物再構成とレンダリングを実現するために,幾何学誘導型画素ワイド機能統合を用いたレンダリングネットワークと,画素整合型空間変換器を備える。 設計した画素整合型空間変換器は入力ビュー間の相関を計算し、高周波の詳細で人間の再構成結果を生成する。 表面再構成結果に基づいて、幾何誘導型画素視認性推論により、マルチビュー機能統合のためのガイダンスが提供され、レンダリングネットワークは、新しいビューで2k解像度で高品質な画像をレンダリングできる。 異なるシーンの独立したネットワークを常にトレーニングしたり、微調整したりする必要のある従来のニューラルレンダリングとは異なり、本手法は、新しい主題に一般化できる汎用フレームワークである。 実験の結果,本手法は,合成データと実世界のデータの両方において,従来の汎用的あるいは特定の手法よりも優れていることがわかった。

In this paper, we introduce HDhuman, a method that addresses the challenge of novel view rendering of human performers that wear clothes with complex texture patterns using a sparse set of camera views. Although some recent works have achieved remarkable rendering quality on humans with relatively uniform textures using sparse views, the rendering quality remains limited when dealing with complex texture patterns as they are unable to recover the high-frequency geometry details that observed in the input views. To this end, the proposed HDhuman uses a human reconstruction network with a pixel-aligned spatial transformer and a rendering network that uses geometry-guided pixel-wise feature integration to achieve high-quality human reconstruction and rendering. The designed pixel-aligned spatial transformer calculates the correlations between the input views, producing human reconstruction results with high-frequency details. Based on the surface reconstruction results, the geometry-guided pixel-wise visibility reasoning provides guidance for multi-view feature integration, enabling the rendering network to render high-quality images at 2k resolution on novel views. Unlike previous neural rendering works that always need to train or fine-tune an independent network for a different scene, our method is a general framework that is able to generalize to novel subjects. Experiments show that our approach outperforms all the prior generic or specific methods on both synthetic data and real-world data.
翻訳日:2022-01-25 11:56:08 公開日:2022-01-24