このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220125となっている論文です。

PDF登録状況(公開日: 20220125)

TitleAuthorsAbstract論文公表日・翻訳日
# 改良マルチモデル機構を用いたpn誘導入射ミサイルのパラメータ同定

Parameter Identification of a PN-Guided Incoming Missile Using an Improved Multiple-Model Mechanism ( http://arxiv.org/abs/2202.09361v1 )

ライセンス: Link先を確認
Yinhan Wang, Jiang Wang, and Shipeng Fan(参考訳) 入射ミサイルに対するアクティブな防御には、誘導法パラメータと一階横時間定数を含む情報が必要である。 この目的のために、比例航法(PN)誘導法を持つミサイルがバンバン回避操作で空中目標を攻撃しようとすることを前提として、ゲートリカレントユニット(GRU)ニューラルネットワークに基づくパラメータ同定モデルを構築した。 誘導則パラメータと一階横時間定数の解析的同定解を導出する。 識別モデルの入力は航空機とミサイルの間で利用可能な運動情報であり、出力はミサイルパラメータの回帰結果を含んでいる。 本稿では,モデルのトレーニング速度と識別精度を向上させるために,改良型マルチモデル機構(IMMM)と呼ばれる出力処理手法を提案する。 各種エンゲージメントシナリオ下での数値シミュレーションにより,IMMMの有効性と確立されたモデルの性能を示す。

An active defense against an incoming missile requires information of it, including a guidance law parameter and a first-order lateral time constant. To this end, assuming that a missile with a proportional navigation (PN) guidance law attempts to attack an aerial target with bang-bang evasive maneuvers, a parameter identification model based on the gated recurrent unit (GRU) neural network is built in this paper. The analytic identification solutions for the guidance law parameter and the first-order lateral time constant are derived. The inputs of the identification model are available kinematic information between the aircraft and the missile, while the outputs contain the regression results of missile parameters. To increase the training speed and the identification accuracy of the Model, an output processing method called improved multiplemodel mechanism (IMMM) is proposed in this paper. The effectiveness of IMMM and the performance of the established model are demonstrated through numerical simulations under various engagement scenarios.
翻訳日:2022-02-27 17:34:34 公開日:2022-01-25
# (参考訳) 分子構造-活性関係学習のためのセミスーパービジョンGCN [全文訳有]

Semi-Supervised GCN for learning Molecular Structure-Activity Relationships ( http://arxiv.org/abs/2202.05704v1 )

ライセンス: CC BY 4.0
Alessio Ragno, Dylan Savoia, Roberto Capobianco(参考訳) 医薬化学における人工知能の導入以来、分子の性質の変化が単一原子または化学グループによってどのように調節されるかを分析する必要性が浮上してきた。 本稿では,半教師付き学習を用いたグラフ-グラフニューラルネットワークの学習法を提案する。 最初のケーススタディとして、この手法を溶解性と分子酸度に適用し、既知の実験化学データとの比較でその一貫性を確認した。 最終目標として、我々のアプローチは、アクティビティ崖、リード最適化、デノボドラッグデザインといった問題に対処するための貴重なツールとなる可能性がある。

Since the introduction of artificial intelligence in medicinal chemistry, the necessity has emerged to analyse how molecular property variation is modulated by either single atoms or chemical groups. In this paper, we propose to train graph-to-graph neural network using semi-supervised learning for attributing structure-property relationships. As initial case studies we apply the method to solubility and molecular acidity while checking its consistency in comparison with known experimental chemical data. As final goal, our approach could represent a valuable tool to deal with problems such as activity cliffs, lead optimization and de-novo drug design.
翻訳日:2022-02-20 18:11:07 公開日:2022-01-25
# (参考訳) グラフ畳み込みネットワーク上の入力分布からの分子生成 [全文訳有]

Molecule Generation from Input-Attributions over Graph Convolutional Networks ( http://arxiv.org/abs/2202.05703v1 )

ライセンス: CC BY 4.0
Dylan Savoia, Alessio Ragno, Roberto Capobianco(参考訳) 医薬品デザインは時間と経済の両面でコストのかかるプロセスであることがよく知られている。 優れた量的構造-活性関係モデル(QSAR)は、分子特性を合成することなく予測するのに役立つが、テストする新しい分子を考案する必要がある。 これは主に、どの修飾がより有望か、分子のどの側面が最終活性/プロパティに影響を及ぼすかを決定するためのツールが欠如している。 本稿では、グラフ畳み込みネットワークモデルと新しい分子を生成する入力帰属法を含む自動プロセスを提案する。 また,このような自動ツールの実用化における2つの重要な側面として,過剰最適化と適用可能性の問題についても検討する。

It is well known that Drug Design is often a costly process both in terms of time and economic effort. While good Quantitative Structure-Activity Relationship models (QSAR) can help predicting molecular properties without the need to synthesize them, it is still required to come up with new molecules to be tested. This is mostly done in lack of tools to determine which modifications are more promising or which aspects of a molecule are more influential for the final activity/property. Here we present an automatic process which involves Graph Convolutional Network models and input-attribution methods to generate new molecules. We also explore the problems of over-optimization and applicability, recognizing them as two important aspects in the practical use of such automatic tools.
翻訳日:2022-02-20 18:06:20 公開日:2022-01-25
# (参考訳) text anonymization benchmark (tab) - テキスト匿名化のためのコーパスと評価のためのフレームワーク

The Text Anonymization Benchmark (TAB): A Dedicated Corpus and Evaluation Framework for Text Anonymization ( http://arxiv.org/abs/2202.00443v1 )

ライセンス: CC BY 4.0
Ildik\'o Pil\'an, Pierre Lison, Lilja {\O}vrelid, Anthi Papadopoulou, David S\'anchez and Montserrat Batet(参考訳) 本稿では,テキスト匿名化手法の性能評価のための新しいベンチマークおよび関連する評価指標を提案する。 個人情報の開示を防止するためにテキスト文書を編集するタスクとして定義されたテキスト匿名化は、現在、プライバシー指向の注釈付きテキストリソースの不足に悩まされており、様々な匿名化手法によって提供されるプライバシー保護のレベルを適切に評価することは困難である。 本稿では,この不足に対処するために新たに開発した,オープンソースのアノテーション付きコーパスであるtab(text anonymization benchmark)を提案する。 コーパスは、欧州人権裁判所(ECHR)の1,268件の英語の判例からなり、セマンティックカテゴリ、識別子タイプ、機密属性、相互参照関係など、各文書に現れる個人情報に関する包括的なアノテーションが豊富である。 以前の研究と比較すると、TABコーパスは従来の非識別(定義済みのセマンティックカテゴリの検出に限られる)を超えて設計されており、保護対象の人物の身元を隠すために、どのテキストがマスキングされるべきかを明確に示している。 また,コーパスとそのアノテーションレイヤの提示とともに,プライバシ保護とユーティリティ保護の両面で,テキスト匿名化の性能測定に特化した評価指標のセットを提案する。 本稿では,複数のベースラインテキスト匿名化モデルの経験的性能を評価することにより,ベンチマークと提案手法について述べる。 プライバシ指向のガイドラインガイドライン、評価スクリプト、ベースラインモデルとともに、全コーパスが利用可能だ。

We present a novel benchmark and associated evaluation metrics for assessing the performance of text anonymization methods. Text anonymization, defined as the task of editing a text document to prevent the disclosure of personal information, currently suffers from a shortage of privacy-oriented annotated text resources, making it difficult to properly evaluate the level of privacy protection offered by various anonymization methods. This paper presents TAB (Text Anonymization Benchmark), a new, open-source annotated corpus developed to address this shortage. The corpus comprises 1,268 English-language court cases from the European Court of Human Rights (ECHR) enriched with comprehensive annotations about the personal information appearing in each document, including their semantic category, identifier type, confidential attributes, and co-reference relations. Compared to previous work, the TAB corpus is designed to go beyond traditional de-identification (which is limited to the detection of predefined semantic categories), and explicitly marks which text spans ought to be masked in order to conceal the identity of the person to be protected. Along with presenting the corpus and its annotation layers, we also propose a set of evaluation metrics that are specifically tailored towards measuring the performance of text anonymization, both in terms of privacy protection and utility preservation. We illustrate the use of the benchmark and the proposed metrics by assessing the empirical performance of several baseline text anonymization models. The full corpus along with its privacy-oriented annotation guidelines, evaluation scripts and baseline models are available on: https://github.com/N orskRegnesentral/tex t-anonymisation-benc hmark
翻訳日:2022-02-06 09:39:16 公開日:2022-01-25
# クリックスルー速度予測のためのマスク変圧器

Masked Transformer for Neighhourhood-aware Click-Through Rate Prediction ( http://arxiv.org/abs/2201.13311v1 )

ライセンス: Link先を確認
Erxue Min, Yu Rong, Tingyang Xu, Yatao Bian, Peilin Zhao, Junzhou Huang, Da Luo, Kangyi Lin, Sophia Ananiadou(参考訳) クリックスルー率(ctr)予測は、オンライン広告の重要な要素である。 主流となる技術は、主に機能相互作用やユーザ関心モデリングに焦点を合わせており、これはユーザーの直接対話するアイテムに依存している。 これらの手法の性能は、不活性な振る舞いとシステムの露出によって間接的に妨げられ、抽出された特徴がすべての潜在的な関心を表わすのに十分な情報を持っていないことに起因する。 そこで本研究では,このタスクをヘテロジニアス・インフォメーション・ネットワーク(hin)に設定し,hin内のユーザ・アイテム対の局所的な近傍を包含してリンクを予測する,隣接対話型ctr予測を提案する。 そこで我々は,各ノード間のトポロジ的相互作用を4種類検討し,特徴情報とトポロジ情報の両方を効果的に組み込む新しいグラフマス化トランスフォーマーアーキテクチャを提案する。 本研究では,2つの実世界のデータセットに関する総合的な実験を行い,提案手法が最先端のCTRモデルを大幅に上回ることを示す。

Click-Through Rate (CTR) prediction, is an essential component of online advertising. The mainstream techniques mostly focus on feature interaction or user interest modeling, which rely on users' directly interacted items. The performance of these methods are usally impeded by inactive behaviours and system's exposure, incurring that the features extracted do not contain enough information to represent all potential interests. For this sake, we propose Neighbor-Interaction based CTR prediction, which put this task into a Heterogeneous Information Network (HIN) setting, then involves local neighborhood of the target user-item pair in the HIN to predict their linkage. In order to enhance the representation of the local neighbourhood, we consider four types of topological interaction among the nodes, and propose a novel Graph-masked Transformer architecture to effectively incorporates both feature and topological information. We conduct comprehensive experiments on two real world datasets and the experimental results show that our proposed method outperforms state-of-the-art CTR models significantly.
翻訳日:2022-02-06 08:15:16 公開日:2022-01-25
# 最適輸送型心疾患診断・予測のためのデータ拡張法

Optimal Transport based Data Augmentation for Heart Disease Diagnosis and Prediction ( http://arxiv.org/abs/2202.00567v1 )

ライセンス: Link先を確認
Jielin Qiu, Jiacheng Zhu, Michael Rosenberg, Emerson Liu, Ding Zhao(参考訳) 本稿では,心疾患検出のロバスト性と正確性を改善するために,不均衡心電図データセット内のデータ不均衡問題を解決するための新しいデータ拡張法に着目する。 最適輸送を用いて、正常心電図のビートから心電図の疾患データを増強し、異なるカテゴリ間でデータのバランスをとる。 分類モデルとして多機能トランスフォーマ(mf-transformer)を構築し,心疾患を診断するために時間領域と周波数領域の両方から異なる特徴を抽出する。 12個の心電図信号から学習し,心臓状態の5つのカテゴリを識別できる。 私たちの結果は 1) 5つのECGカテゴリーで競争予測を行う分類モデルの能力 2)データ拡張手法の有効性を反映した精度と堅牢性の向上。

In this paper, we focus on a new method of data augmentation to solve the data imbalance problem within imbalanced ECG datasets to improve the robustness and accuracy of heart disease detection. By using Optimal Transport, we augment the ECG disease data from normal ECG beats to balance the data among different categories. We build a Multi-Feature Transformer (MF-Transformer) as our classification model, where different features are extracted from both time and frequency domains to diagnose various heart conditions. Learning from 12-lead ECG signals, our model is able to distinguish five categories of cardiac conditions. Our results demonstrate 1) the classification models' ability to make competitive predictions on five ECG categories; 2) improvements in accuracy and robustness reflecting the effectiveness of our data augmentation method.
翻訳日:2022-02-06 08:14:57 公開日:2022-01-25
# (参考訳) 強化学習に基づく部分グラフマッチングのためのクエリ頂点順序付けモデル [全文訳有]

Reinforcement Learning Based Query Vertex Ordering Model for Subgraph Matching ( http://arxiv.org/abs/2201.11251v1 )

ライセンス: CC BY 4.0
Hanchen Wang, Ying Zhang, Lu Qin, Wei Wang, Wenjie Zhang, Xuemin Lin(参考訳) グラフ構造データを使用する様々な分野において,サブグラフマッチングは基本的な問題である。 データグラフGにおけるクエリグラフqのすべての同型埋め込みをサブグラフマッチングアルゴリズムで列挙する。マッチングアルゴリズムの重要な分岐は、クエリ頂点の整合順序に従って中間結果を再帰的に拡張するバックトラック検索アプローチを利用する。 これらのバックトラッキングに基づくサブグラフマッチングアルゴリズムの時間効率において、マッチング順序が重要な役割を果たすことが示されている。 近年、事前設定されたヒューリスティックルールに従って予測できない中間結果を減らすために、クエリ頂点順序付け(すなわち、一致順序生成)のための多くの高度な技術が提案されている。 本稿では,強化学習(rl)とグラフニューラルネットワーク(gnns)の手法を初めて適用し,サブグラフマッチングアルゴリズムの高品質マッチング順序を生成する。 一致順を生成するために固定ヒューリスティックスを使う代わりに、我々のモデルはグラフ情報をフル活用して、冗長列挙数を大幅に削減できる適応学習に基づく規則でクエリ頂点順序を決定することができる。 強化学習フレームワークの助けを借りて,現在の注文ステップにおける局所的な情報のみを考えるのではなく,長期的メリットを検討することができる。6つの実生活データグラフを用いた拡張実験により,提案手法が提案するマッチング順序生成手法が,最先端アルゴリズムと比較して最大2桁のクエリ処理時間を削減できることが示されている。

Subgraph matching is a fundamental problem in various fields that use graph structured data. Subgraph matching algorithms enumerate all isomorphic embeddings of a query graph q in a data graph G. An important branch of matching algorithms exploit the backtracking search approach which recursively extends intermediate results following a matching order of query vertices. It has been shown that the matching order plays a critical role in time efficiency of these backtracking based subgraph matching algorithms. In recent years, many advanced techniques for query vertex ordering (i.e., matching order generation) have been proposed to reduce the unpromising intermediate results according to the preset heuristic rules. In this paper, for the first time we apply the Reinforcement Learning (RL) and Graph Neural Networks (GNNs) techniques to generate the high-quality matching order for subgraph matching algorithms. Instead of using the fixed heuristics to generate the matching order, our model could capture and make full use of the graph information, and thus determine the query vertex order with the adaptive learning-based rule that could significantly reduces the number of redundant enumerations. With the help of the reinforcement learning framework, our model is able to consider the long-term benefits rather than only consider the local information at current ordering step.Extensive experiments on six real-life data graphs demonstrate that our proposed matching order generation technique could reduce up to two orders of magnitude of query processing time compared to the state-of-the-art algorithms.
翻訳日:2022-01-29 06:52:49 公開日:2022-01-25
# (参考訳) SGDと適応学習規則で学習した表現-ニューラルネットワークにおけるバラつきと選択性

Representation learnt by SGD and Adaptive learning rules -- Conditions that Vary Sparsity and Selectivity in Neural Network ( http://arxiv.org/abs/2201.11653v1 )

ライセンス: CC BY 4.0
Jinhyun Park(参考訳) 人間の脳の観点からは、連続学習は相互干渉なしに様々なタスクを遂行することができる。 相互干渉を減らす効果的な方法はニューロンのスパーシティと選択性に見ることができる。 Aljundi et al. と Hadsell et al. によれば、疎神経の活性化はパラメータ間の重複を減らし、干渉を減らすため、表現レベルでの間隔を付与することは連続的な学習に有利である。 同様に、高選択性ニューラルネットワークは、ニューロン内の特定の応答が他のパラメータと重複する確率を減らすため、干渉を減少させる可能性がある。 人間の脳が生涯にわたって継続的な学習を行うことを考えると、空間性や選択性が自然に生じる条件を見つけることは、脳がどのように機能するかを理解する洞察を与える可能性がある。 本稿では,ニューラルネットワークにおいて自然にスパーシティと選択性を高める様々な条件について検討する。 mnist分類タスクにおいて,hoyerのsparsityメトリックとccmas選択度メトリックを用いて異なる最適化器をテストした。 神経科学や機械学習のどの分野においても、様々な条件におけるスパーシティの自然発生と選択性に関する調査は、今日まで認められていないことに留意する必要がある。 本稿では,学習率の増大やバッチサイズの低下など,特定の条件がスパーシティと選択性を高めることを見出した。 条件,スパーシティ,選択性の関係に加えて,経験的分析に基づいて,次のことが議論される。 一 空間と選択性及び選択性の関係 2. 検査精度, 疎度, 選択性の関係

From the point of view of the human brain, continual learning can perform various tasks without mutual interference. An effective way to reduce mutual interference can be found in sparsity and selectivity of neurons. According to Aljundi et al. and Hadsell et al., imposing sparsity at the representational level is advantageous for continual learning because sparse neuronal activations encourage less overlap between parameters, resulting in less interference. Similarly, highly selective neural networks are likely to induce less interference since particular response in neurons will reduce the chance of overlap with other parameters. Considering that the human brain performs continual learning over the lifespan, finding conditions where sparsity and selectivity naturally arises may provide insight for understanding how the brain functions. This paper investigates various conditions that naturally increase sparsity and selectivity in a neural network. This paper tested different optimizers with Hoyer's sparsity metric and CCMAS selectivity metric in MNIST classification task. It is essential to note that investigations on the natural occurrence of sparsity and selectivity concerning various conditions have not been acknowledged in any sector of neuroscience nor machine learning until this day. This paper found that particular conditions increase sparsity and selectivity such as applying a large learning rate and lowering a batch size. In addition to the relationship between the condition, sparsity, and selectivity, the following will be discussed based on empirical analysis: 1. The relationship between sparsity and selectivity and 2. The relationship between test accuracy, sparsity, and selectivity.
翻訳日:2022-01-29 06:18:30 公開日:2022-01-25
# (参考訳) 特徴同値による到着滑走路時間予測におけるモデル一般化 [全文訳有]

Model Generalization in Arrival Runway Occupancy Time Prediction by Feature Equivalences ( http://arxiv.org/abs/2201.11654v1 )

ライセンス: CC BY 4.0
An-Dan Nguyen, Duc-Thinh Pham, Nimrod Lilith, and Sameer Alam(参考訳) 複数の空港の滑走路占有時間予測モデルが現在研究のギャップとなっている。 本論文では,Arival Runway Occupancy Time (AROT) のリアルタイム予測モデルを,その数値等価性によって分類的特徴に代えて一般化する試みについて述べる。 サーブ・センシス(Saab Sensis)のエアロバーンシステム(Aerobahn system)から収集された3日間のデータはこの研究に使われている。 3つの木ベースの機械学習アルゴリズム:決定木、ランダムフォレスト、勾配ブースティングを使用して、数値等価な特徴を用いてモデルの一般化可能性を評価する。 数値等価な特徴を訓練したモデルは、少なくとも分類的特徴を訓練したモデルと同等の性能を持つだけでなく、他の空港の未確認データについても予測できることを示した。

General real-time runway occupancy time prediction modelling for multiple airports is a current research gap. An attempt to generalize a real-time prediction model for Arrival Runway Occupancy Time (AROT) is presented in this paper by substituting categorical features by their numerical equivalences. Three days of data, collected from Saab Sensis' Aerobahn system at three US airports, has been used for this work. Three tree-based machine learning algorithms: Decision Tree, Random Forest and Gradient Boosting are used to assess the generalizability of the model using numerical equivalent features. We have shown that the model trained on numerical equivalent features not only have performances at least on par with models trained on categorical features but also can make predictions on unseen data from other airports.
翻訳日:2022-01-29 06:17:23 公開日:2022-01-25
# (参考訳) ビットシリアル重量プール:資源制約プロセッサ上のニューラルネットワークの圧縮と任意精度実行 [全文訳有]

Bit-serial Weight Pools: Compression and Arbitrary Precision Execution of Neural Networks on Resource Constrained Processors ( http://arxiv.org/abs/2201.11651v1 )

ライセンス: CC BY 4.0
Shurui Li, Puneet Gupta(参考訳) 近年,エッジシステムへのニューラルネットワークの適用が増加しているが,モデルサイズの増加により,ニューラルネットワークは資源制約されたマイクロコントローラに効率よくデプロイできない。 ネットワーク圧縮と任意のサブバイト精度の高速化を含むエンドツーエンドフレームワークであるビットシリアル重みプールを提案する。 このフレームワークは,ネットワーク全体の重みのプールを共有することで,8ビットネットワークと比較して最大8倍の圧縮を実現することができる。 さらに,ビット幅トレードオフを可能とし,8ビット重みプールネットワークと比較して2.8倍の高速化と7.5倍のストレージ圧縮を実現するビットシリアルルックアップベースのソフトウェア実装を提案する。

Applications of neural networks on edge systems have proliferated in recent years but the ever-increasing model size makes neural networks not able to deploy on resource-constrained microcontrollers efficiently. We propose bit-serial weight pools, an end-to-end framework that includes network compression and acceleration of arbitrary sub-byte precision. The framework can achieve up to 8x compression compared to 8-bit networks by sharing a pool of weights across the entire network. We further propose a bit-serial lookup based software implementation that allows runtime-bitwidth tradeoff and is able to achieve more than 2.8x speedup and 7.5x storage compression compared to 8-bit weight pool networks, with less than 1% accuracy drop.
翻訳日:2022-01-29 06:05:34 公開日:2022-01-25
# (参考訳) 自動機械学習のための意味的コード分類 [全文訳有]

Semantic Code Classification for Automated Machine Learning ( http://arxiv.org/abs/2201.11252v1 )

ライセンス: CC BY 4.0
Polina Guseva, Anastasia Drozdova, Natalia Denisenko, Daria Sapozhnikova, Ivan Pyaternev, Anna Scherbakova, Andrey Ustuzhanin(参考訳) 自動機械学習の幅広い応用は、生成プロセスを制御可能である必要がある。 本研究では,セマンティックコードクラスと呼ばれる単純なアクションのシーケンスを通じて出力を制御する手法を提案する。 最後に,自然言語から機械学習(NL2ML)データセットにおいて,意味的コード分類タスクを提案し,この問題を解決する方法について議論する。

A range of applications for automatic machine learning need the generation process to be controllable. In this work, we propose a way to control the output via a sequence of simple actions, that are called semantic code classes. Finally, we present a semantic code classification task and discuss methods for solving this problem on the Natural Language to Machine Learning (NL2ML) dataset.
翻訳日:2022-01-29 05:49:24 公開日:2022-01-25
# 非線形スロッシングのパラメトリック表現のための機械学習に基づくキャラクタリゼーションフレームワーク

A Machine Learning-based Characterization Framework for Parametric Representation of Nonlinear Sloshing ( http://arxiv.org/abs/2201.11663v1 )

ライセンス: Link先を確認
Xihaier Luo, Ahsan Kareem, Liting Yu, Shinjae Yoo(参考訳) コンテナ内の液体スロッシングのパラメトリック表現を作成することへの関心の高まりは、現代的な工学システムにおけるその実用的な応用に由来する。 一方、共鳴励起は不安定で非線形な水波を引き起こし、カオス運動と非ガウス信号を引き起こす。 本稿では,非線形液体スロッシング表現学習のための新しい機械学習フレームワークを提案する。 提案手法は,逐次学習とスパース正規化に基づくパラメトリックモデリング手法である。 動力学は線形進化と非線形強制の2つの部分に分けられる。 前者は埋め込み多様体上の時間的力学系を前進させ、後者はバーストやスイッチングのような時間的進化において発散挙動を引き起こす。 提案手法は, 水平励振槽内の液体スロッシングの実験的データセットを用いて, 広い周波数範囲と様々な垂直スラットスクリーン設定による評価を行った。

The growing interest in creating a parametric representation of liquid sloshing inside a container stems from its practical applications in modern engineering systems. The resonant excitation, on the other hand, can cause unstable and nonlinear water waves, resulting in chaotic motions and non-Gaussian signals. This paper presents a novel machine learning-based framework for nonlinear liquid sloshing representation learning. The proposed method is a parametric modeling technique that is based on sequential learning and sparse regularization. The dynamics are categorized into two parts: linear evolution and nonlinear forcing. The former advances the dynamical system in time on an embedded manifold, while the latter causes divergent behaviors in temporal evolution, such as bursting and switching. The proposed framework's merit is demonstrated using an experimental dataset of liquid sloshing in a tank under horizontal excitation with a wide frequency range and various vertical slat screen settings.
翻訳日:2022-01-28 15:38:00 公開日:2022-01-25
# 地中レーダとガウス過程回帰による埋設ケーブルのマッピング

Mapping the Buried Cable by Ground Penetrating Radar and Gaussian-Process Regression ( http://arxiv.org/abs/2201.11253v1 )

ライセンス: Link先を確認
Xiren Zhou, Qiuju Chen, Shengfei Lyu, Huanhuan Chen(参考訳) 都市部の急速な拡大と電気利用の増加に伴い、埋設ケーブルの設置の必要性が高まっている。 本稿では,地中レーダ(gpr)とガウス過程回帰(gaussian-process regression)に基づく地下ケーブル探査手法を提案する。 まず、検出された領域の座標系を実行し、埋設ケーブルの入力及び出力を決定する。 GPRは、確立された並列検出線に沿って移動され、埋設ケーブルによって発生する双曲シグネチャを識別して取付けることにより、ケーブル上のいくつかの点の位置と深さを導出することができる。 確立された座標系とケーブル上の導出点に基づいて,ガウス過程の回帰に基づくクラスタリング法とケーブル嵌合法を提案し,地下ケーブルの最も可能性の高い位置を求める。 さらに、ケーブルの位置の信頼区間も得られる。 本手法では, 位置と深さのノイズを考慮し, 異なる環境や機器におけるロバスト性, 実現可能性を確保する。 実世界のデータセットに関する実験を行い,提案手法の有効性を示す。

With the rapid expansion of urban areas and the increasingly use of electricity, the need for locating buried cables is becoming urgent. In this paper, a noval method to locate underground cables based on Ground Penetrating Radar (GPR) and Gaussian-process regression is proposed. Firstly, the coordinate system of the detected area is conducted, and the input and output of locating buried cables are determined. The GPR is moved along the established parallel detection lines, and the hyperbolic signatures generated by buried cables are identified and fitted, thus the positions and depths of some points on the cable could be derived. On the basis of the established coordinate system and the derived points on the cable, the clustering method and cable fitting algorithm based on Gaussian-process regression are proposed to find the most likely locations of the underground cables. Furthermore, the confidence intervals of the cable's locations are also obtained. Both the position and depth noises are taken into account in our method, ensuring the robustness and feasibility in different environments and equipments. Experiments on real-world datasets are conducted, and the obtained results demonstrate the effectiveness of the proposed method.
翻訳日:2022-01-28 14:09:00 公開日:2022-01-25
# エンティティアライメントのためのリレーショナルナレッジ蒸留による知識埋め込みと近所コンセンサスの共同学習

Jointly Learning Knowledge Embedding and Neighborhood Consensus with Relational Knowledge Distillation for Entity Alignment ( http://arxiv.org/abs/2201.11249v1 )

ライセンス: Link先を確認
Xinhang Li, Yong Zhang and Chunxiao Xing(参考訳) エンティティアライメントは、異なる知識グラフから異種知識を統合することを目的としている。 近年の研究では、まず知識グラフの表現を学習し、次いでエンティティ埋め込みの類似性を測定することによってエンティティアライメントを実行する。 しかし,学習知識の埋め込みや近隣の合意の異なる目的によって引き起こされるトレードオフ問題により,関係意味情報をうまく活用できなかった。 本稿では,エンティティアライメントのための知識蒸留機能を備えたグラフ畳み込みネットワーク(gcn)モデルである,エンティティアライメントのための関係知識蒸留(rkdea)を提案する。 我々はGCNに基づくモデルを用いて、グラフ構造を考慮し、知識蒸留による関係意味情報をGCNに組み込むことにより、エンティティの表現を学習する。 そこで我々は,関係知識を伝達する新しい適応機構を導入し,エンティティの埋め込みと近傍のコンセンサスを共同で学習する。 いくつかのベンチマークデータセットにおける実験結果は,提案モデルの有効性を示している。

Entity alignment aims at integrating heterogeneous knowledge from different knowledge graphs. Recent studies employ embedding-based methods by first learning the representation of Knowledge Graphs and then performing entity alignment via measuring the similarity between entity embeddings. However, they failed to make good use of the relation semantic information due to the trade-off problem caused by the different objectives of learning knowledge embedding and neighborhood consensus. To address this problem, we propose Relational Knowledge Distillation for Entity Alignment (RKDEA), a Graph Convolutional Network (GCN) based model equipped with knowledge distillation for entity alignment. We adopt GCN-based models to learn the representation of entities by considering the graph structure and incorporating the relation semantic information into GCN via knowledge distillation. Then, we introduce a novel adaptive mechanism to transfer relational knowledge so as to jointly learn entity embedding and neighborhood consensus. Experimental results on several benchmarking datasets demonstrate the effectiveness of our proposed model.
翻訳日:2022-01-28 13:22:36 公開日:2022-01-25
# ニューロシンボリックエントロピー規則化

Neuro-Symbolic Entropy Regularization ( http://arxiv.org/abs/2201.11250v1 )

ライセンス: Link先を確認
Kareem Ahmed, Eric Wang, Kai-Wei Chang, Guy Van den Broeck(参考訳) 構造化予測では、多くの出力変数を共同で予測し、構造化されたオブジェクト -- グラフのパス、エンティティリレーショナルトリプル、オブジェクトの順序付け -- をエンコードする。 このような大きな出力空間は学習を難しくし、大量のラベル付きデータを必要とする。 異なるアプローチが監督の代替となる。 エントロピー正規化(entropy regularization)というアプローチは、意思決定の境界が低確率領域にあるべきだと仮定している。 ラベルのない例から監督を抽出するが、出力空間の構造には依存しない。 逆に、ニューロシンボリックアプローチは、全ての予測が出力空間の有効な構造に対応するわけではないという知識を利用する。 しかし、学習した出力分布をさらに制限するわけではない。 本稿では,両アプローチを統一する枠組みを紹介する。 我々は、モデルが有効対象を確実に予測することを奨励する損失、ニューロシンボリックエントロピー正規化を提案する。 エントロピー正則化を有効構造のみ上の分布に制限することで得られる。 この損失は、出力制約がトラクタブル論理回路として表現されたときに効率よく計算される。 さらに、無効な予測を排除する他のニューロシンボリックな損失とシームレスに統合される。 提案手法の有効性を, 半教師付きおよび完全教師付き構造予測実験で実証し, 予測がより正確で, より有効である可能性が示唆されたモデルに導かれることを示した。

In structured prediction, the goal is to jointly predict many output variables that together encode a structured object -- a path in a graph, an entity-relation triple, or an ordering of objects. Such a large output space makes learning hard and requires vast amounts of labeled data. Different approaches leverage alternate sources of supervision. One approach -- entropy regularization -- posits that decision boundaries should lie in low-probability regions. It extracts supervision from unlabeled examples, but remains agnostic to the structure of the output space. Conversely, neuro-symbolic approaches exploit the knowledge that not every prediction corresponds to a valid structure in the output space. Yet, they does not further restrict the learned output distribution. This paper introduces a framework that unifies both approaches. We propose a loss, neuro-symbolic entropy regularization, that encourages the model to confidently predict a valid object. It is obtained by restricting entropy regularization to the distribution over only valid structures. This loss is efficiently computed when the output constraint is expressed as a tractable logic circuit. Moreover, it seamlessly integrates with other neuro-symbolic losses that eliminate invalid predictions. We demonstrate the efficacy of our approach on a series of semi-supervised and fully-supervised structured-predictio n experiments, where we find that it leads to models whose predictions are more accurate and more likely to be valid.
翻訳日:2022-01-28 13:21:54 公開日:2022-01-25
# (参考訳) 線形最適輸送を用いたせん断分布の教師あり学習

Supervised learning of sheared distributions using linearized optimal transport ( http://arxiv.org/abs/2201.10590v1 )

ライセンス: CC BY 4.0
Varun Khurana, Harish Kannan, Alexander Cloninger, Caroline Moosm\"uller(参考訳) 本稿では,確率測度の空間における教師付き学習タスクについて検討する。 最適輸送フレームワークを用いて確率測度の空間を$L^2$空間に埋め込むことでこの問題に対処する。 埋め込み空間では、線形分離性を達成するために正規の機械学習技術が使用される。 このアイデアはアプリケーションで成功し、分離すべきクラスが一定の尺度のシフトとスケーリングによって生成される。 本稿では,2種類のせん断分布を線形に分離できる条件を記述し,その枠組みに適した基本変換のクラスをせん断の族に拡張する。 さらに、事前特定された分離レベルを達成するために変換に必要な境界を与え、変換のより大きな族を可能にするために複数の埋め込みをどのように利用できるかを示す。 画像分類タスクの結果を示す。

In this paper we study supervised learning tasks on the space of probability measures. We approach this problem by embedding the space of probability measures into $L^2$ spaces using the optimal transport framework. In the embedding spaces, regular machine learning techniques are used to achieve linear separability. This idea has proved successful in applications and when the classes to be separated are generated by shifts and scalings of a fixed measure. This paper extends the class of elementary transformations suitable for the framework to families of shearings, describing conditions under which two classes of sheared distributions can be linearly separated. We furthermore give necessary bounds on the transformations to achieve a pre-specified separation level, and show how multiple embeddings can be used to allow for larger families of transformations. We demonstrate our results on image classification tasks.
翻訳日:2022-01-28 00:15:36 公開日:2022-01-25
# (参考訳) 後方SDEフィルタのカーネル学習法

A Kernel Learning Method for Backward SDE Filter ( http://arxiv.org/abs/2201.10600v1 )

ライセンス: CC BY 4.0
Richard Archibald, Feng Bao(参考訳) 本稿では,その部分雑音観測に基づいて確率的力学系の状態を推定するカーネル学習逆SDEフィルタ法を提案する。 対象力学モデルの状態を伝播するために前方後方確率微分方程式の系を用い、観測情報を組み込むためにベイズ推論を適用する。 状態空間全体の力学モデルを特徴付けるために、離散近似密度値をトレーニングデータとして利用して、目標状態の条件付き確率密度関数に対する連続的大域的近似を学習するカーネル学習法を導入する。 数値実験により、カーネル学習の後方SDEは極めて効率的かつ効率的であることが示されている。

In this paper, we develop a kernel learning backward SDE filter method to estimate the state of a stochastic dynamical system based on its partial noisy observations. A system of forward backward stochastic differential equations is used to propagate the state of the target dynamical model, and Bayesian inference is applied to incorporate the observational information. To characterize the dynamical model in the entire state space, we introduce a kernel learning method to learn a continuous global approximation for the conditional probability density function of the target state by using discrete approximated density values as training data. Numerical experiments demonstrate that the kernel learning backward SDE is highly effective and highly efficient.
翻訳日:2022-01-28 00:14:36 公開日:2022-01-25
# (参考訳) Intersectionalityが分析へ: 型抽象化によるコンビネーションの爆発をテーミング [全文訳有]

Intersectionality Goes Analytical: Taming Combinatorial Explosion Through Type Abstraction ( http://arxiv.org/abs/2201.10643v1 )

ライセンス: CC BY 4.0
Margaret Burnett, Martin Erwig, Abrar Fallatah, Christopher Bogart, Anita Sarma(参考訳) hciの研究者と実践者の交叉性に対する意識は拡大し、交叉人口を支援するための知識、勧告、プロトタイプを生み出している。 しかし、交叉型HCI作業は独特なコストがかかり、これは経験的作業の組合せ的爆発(Expense 1)につながり、一方の交叉型集団における作業のほとんどを他の作業に利用できない(expense 2)。 本稿では,ある分析的設計手法が採用する表現が型抽象化にどのように対応しているかを説明し,その対応を用いて集団の多様なアイデンティティ特性を結合・分割できる(de)複合モデルを特定する。 我々はこのモデルの正しさを正式に証明し、hci設計者が既存の分析的hci手法を新たな関心の交叉人口に適用できることを示す。 4つのデザインユースケースを通じて、モデルが費用1を削減し、デザイナーが新しい交差点人口に対して事前作業を活用することを可能にする方法を説明し、費用2。

HCI researchers' and practitioners' awareness of intersectionality has been expanding, producing knowledge, recommendations, and prototypes for supporting intersectional populations. However, doing intersectional HCI work is uniquely expensive: it leads to a combinatorial explosion of empirical work (expense 1), and little of the work on one intersectional population can be leveraged to serve another (expense 2). In this paper, we explain how representations employed by certain analytical design methods correspond to type abstractions, and use that correspondence to identify a (de)compositional model in which a population's diverse identity properties can be joined and split. We formally prove the model's correctness, and show how it enables HCI designers to harness existing analytical HCI methods for use on new intersectional populations of interest. We illustrate through four design use-cases, how the model can reduce the amount of expense 1 and enable designers to leverage prior work to new intersectional populations, addressing expense 2.
翻訳日:2022-01-28 00:13:41 公開日:2022-01-25
# (参考訳) 半教師付き学習とラベル融合による前庭神経根腫とコクリーセグメンテーションの非教師付きドメイン適応 [全文訳有]

Unsupervised Domain Adaptation for Vestibular Schwannoma and Cochlea Segmentation via Semi-supervised Learning and Label Fusion ( http://arxiv.org/abs/2201.10647v1 )

ライセンス: CC BY 4.0
Han Liu, Yubo Fan, Can Cui, Dingjie Su, Andrew McNeil, Benoit M. Dawant(参考訳) 磁気共鳴画像(MRI)から前庭神経腫瘍(VS)と内耳を分離する方法は,VS治療計画において重要である。 教師付きメソッドはVSセグメンテーションで十分なパフォーマンスを達成したが、専門家による完全なアノテーションが必要である。 本研究では,教師なしドメイン適応設定において,vs と cochlea のセグメンテーション問題に取り組むことを目的とする。 提案手法は,画像レベルの領域アライメントを利用して領域の発散を最小化し,半教師付きトレーニングによりさらなる性能向上を図る。 さらに,複数のモデルから予測されるラベルをノイズラベル補正により融合する手法を提案する。 MICCAI 2021 crossMoDAの課題では,VS腫瘍に対する平均サイススコア79.9%,82.5%,ASSD1.29 mm,0.18mmで有望なセグメンテーション性能を達成できた。 提案手法によって達成されたコチェリーASSDは,他の競合手法,および教師付きnnU-Netよりも優れていた。

Automatic methods to segment the vestibular schwannoma (VS) tumors and the cochlea from magnetic resonance imaging (MRI) are critical to VS treatment planning. Although supervised methods have achieved satisfactory performance in VS segmentation, they require full annotations by experts, which is laborious and time-consuming. In this work, we aim to tackle the VS and cochlea segmentation problem in an unsupervised domain adaptation setting. Our proposed method leverages both the image-level domain alignment to minimize the domain divergence and semi-supervised training to further boost the performance. Furthermore, we propose to fuse the labels predicted from multiple models via noisy label correction. In the MICCAI 2021 crossMoDA challenge, our results on the final evaluation leaderboard showed that our proposed method has achieved promising segmentation performance with mean dice score of 79.9% and 82.5% and ASSD of 1.29 mm and 0.18 mm for VS tumor and cochlea, respectively. The cochlea ASSD achieved by our method has outperformed all other competing methods as well as the supervised nnU-Net.
翻訳日:2022-01-27 23:49:13 公開日:2022-01-25
# (参考訳) マルチタスク学習のための注意的タスクインタラクションネットワーク [全文訳有]

Attentive Task Interaction Network for Multi-Task Learning ( http://arxiv.org/abs/2201.10649v1 )

ライセンス: CC BY 4.0
Dimitrios Sinodinos, Narges Armanfard(参考訳) マルチタスク学習(MTL)は近年,タスク単位のパフォーマンス向上につながる学習パラダイムとして人気を集めている。 MTLネットワークに関する最大の課題のひとつは、タスク間で機能を共有する方法だ。 本稿では,この課題に対処するため,Attentive Task Interaction Network (ATI-Net)を提案する。 ATI-Netは、各タスクに潜伏する特徴の知識蒸留を採用し、次に特徴マップを組み合わせて、デコーダに改善されたコンテキスト情報を提供する。 注意に基づくマルチタスクネットワークに知識蒸留を導入する新しいアプローチは、スタンドアロンMTANやPAD-Netといった技術MTLベースラインの状態をほぼ同じ数のモデルパラメータで上回ります。

Multitask learning (MTL) has recently gained a lot of popularity as a learning paradigm that can lead to improved per-task performance while also using fewer per-task model parameters compared to single task learning. One of the biggest challenges regarding MTL networks involves how to share features across tasks. To address this challenge, we propose the Attentive Task Interaction Network (ATI-Net). ATI-Net employs knowledge distillation of the latent features for each task, then combines the feature maps to provide improved contextualized information to the decoder. This novel approach to introducing knowledge distillation into an attention based multitask network outperforms state of the art MTL baselines such as the standalone MTAN and PAD-Net, with roughly the same number of model parameters.
翻訳日:2022-01-27 23:39:51 公開日:2022-01-25
# (参考訳) beyond visual image: 臨床画像の特徴と患者データを組み合わせた皮膚色素病変の自動診断

Beyond Visual Image: Automated Diagnosis of Pigmented Skin Lesions Combining Clinical Image Features with Patient Data ( http://arxiv.org/abs/2201.10650v1 )

ライセンス: CC BY 4.0
Jos\'e G. M. Esgario and Renato A. Krohling(参考訳) キン癌は、いくつかの国で最も一般的ながんの1つと考えられている。 皮膚病変の臨床診断の難易度と主観性から,より信頼性の高い診断を行うためのコンピュータ支援診断システムが開発されている。 皮膚病変の臨床的解析と診断は、視覚情報だけでなく、患者が提供する文脈情報にも依存する。 この研究は、スマートフォンが捉えた画像から色素性皮膚病変を検出する問題に対処する。 画像から抽出した特徴に加えて,患者コンテキスト情報を収集し,より正確な診断を行った。 その結果,視覚特徴と文脈情報の組み合わせにより最終結果が向上した。 実験結果は有望であり、専門家に匹敵する。

kin cancer is considered one of the most common type of cancer in several countries. Due to the difficulty and subjectivity in the clinical diagnosis of skin lesions, Computer-Aided Diagnosis systems are being developed for assist experts to perform more reliable diagnosis. The clinical analysis and diagnosis of skin lesions relies not only on the visual information but also on the context information provided by the patient. This work addresses the problem of pigmented skin lesions detection from smartphones captured images. In addition to the features extracted from images, patient context information was collected to provide a more accurate diagnosis. The experiments showed that the combination of visual features with context information improved final results. Experimental results are very promising and comparable to experts.
翻訳日:2022-01-27 23:29:12 公開日:2022-01-25
# (参考訳) セグメンテーションのためのニューラルネットワークは内部を理解するか?

Do Neural Networks for Segmentation Understand Insideness? ( http://arxiv.org/abs/2201.10664v1 )

ライセンス: CC BY 4.0
Kimberly Villalobos, Vilim \v{S}tih, Amineh Ahmadinejad, Shobhita Sundaram, Jamell Dozier, Andrew Francl, Frederico Azevedo, Tomotake Sasaki, Xavier Boix(参考訳) 内部性問題(insideness problem)は、領域内外の画素を決定する画像分割の側面である。 ディープニューラルネットワーク(DNN)はセグメンテーションベンチマークで優れているが、長距離空間依存の評価を必要とするため、内部問題を解く能力があるかどうかは不明である。 本稿では,セグメンテーションの他の側面が分析に支障を来さないように,テクスチャや意味的手がかりを伴わずに,内部性問題を分離して解析する。 最小単位のセグメンテーションに対するdnnは任意の曲線の内部性を解くのに十分な複雑さを持つことを示す。 しかし、そのようなDNNは一般解の学習に深刻な問題を抱えている。 小さな画像で訓練されたリカレントネットワークだけが、ほぼあらゆる曲線にうまく一般化した解を学習する。 リカレントネットワークは、長距離依存性の評価を一連のローカル操作に分解し、小さな画像で学習することで、多数のアンローリングステップでリカレントネットワークをトレーニングする一般的な困難を軽減できる。

The insideness problem is an aspect of image segmentation that consists of determining which pixels are inside and outside a region. Deep Neural Networks (DNNs) excel in segmentation benchmarks, but it is unclear if they have the ability to solve the insideness problem as it requires evaluating long-range spatial dependencies. In this paper, the insideness problem is analysed in isolation, without texture or semantic cues, such that other aspects of segmentation do not interfere in the analysis. We demonstrate that DNNs for segmentation with few units have sufficient complexity to solve insideness for any curve. Yet, such DNNs have severe problems with learning general solutions. Only recurrent networks trained with small images learn solutions that generalize well to almost any curve. Recurrent networks can decompose the evaluation of long-range dependencies into a sequence of local operations, and learning with small images alleviates the common difficulties of training recurrent networks with a large number of unrolling steps.
翻訳日:2022-01-27 23:27:58 公開日:2022-01-25
# 都市テクスチャの計画

Projective Urban Texturing ( http://arxiv.org/abs/2201.10938v1 )

ライセンス: Link先を確認
Yiangos Georgiou and Melinos Averkiou and Tom Kelly and Evangelos Kalogerakis(参考訳) 本稿では,没入型都市環境における3次元都市メッシュのテクスチャ自動生成手法を提案する。 近年のパイプラインの多くは、スキャナーや手続き的モデリングパイプラインを使用して大量の都市形状をキャプチャーまたは合成している。 このような幾何学は複雑で現実的なものであるが、そのような大きなシーンのフォトリアリスティックなテクスチャの生成は依然として問題である。 本研究では,都市環境を捉えたパノラマ画像の簡易データセットに存在するテクスチャスタイルによる入力対象3dメッシュのテクスチャ生成を提案する。 このような2Dデータセットを3D幾何学に再ターゲットすることは、写真中の都市構造の形状、大きさ、レイアウトがターゲットメッシュのものと一致しないため、難しい。 写真には対象の幾何学に存在すらしない物体(例えば木や乗り物)もしばしばあり、これらの問題に対処するために、実世界のパノラマ画像から見えない都市メッシュへテキストスタイルを再ターゲットする投影的都市テクストリング(put)と呼ばれる手法を提案する。 PUTは、未ペア画像からテクスチャへの変換用に設計されたニューラルアーキテクチャの、対照的で敵対的なトレーニングに依存している。 生成されたテクスチャは、ターゲット3Dメッシュ形状に適用されたテクスチャアトラスに記憶される。 テクスチャ一貫性を促進するため、putは、予め生成された隣接するテクスチャにテクスチャ合成を条件付ける反復的な手順を採用している。 生成したテクスチャの定量的および定性的な評価を行った。

This paper proposes a method for automatic generation of textures for 3D city meshes in immersive urban environments. Many recent pipelines capture or synthesize large quantities of city geometry using scanners or procedural modeling pipelines. Such geometry is intricate and realistic, however the generation of photo-realistic textures for such large scenes remains a problem. We propose to generate textures for input target 3D meshes driven by the textural style present in readily available datasets of panoramic photos capturing urban environments. Re-targeting such 2D datasets to 3D geometry is challenging because the underlying shape, size, and layout of the urban structures in the photos do not correspond to the ones in the target meshes. Photos also often have objects (e.g., trees, vehicles) that may not even be present in the target geometry.To address these issues we present a method, called Projective Urban Texturing (PUT), which re-targets textural style from real-world panoramic images to unseen urban meshes. PUT relies on contrastive and adversarial training of a neural architecture designed for unpaired image-to-texture translation. The generated textures are stored in a texture atlas applied to the target 3D mesh geometry. To promote texture consistency, PUT employs an iterative procedure in which texture synthesis is conditioned on previously generated, adjacent textures. We demonstrate both quantitative and qualitative evaluation of the generated textures.
翻訳日:2022-01-27 14:16:08 公開日:2022-01-25
# 電位支援スパイクニューラルネットワークによるイベントベース映像再構成

Event-based Video Reconstruction via Potential-assisted Spiking Neural Network ( http://arxiv.org/abs/2201.10943v1 )

ライセンス: Link先を確認
Lin Zhu, Xiao Wang, Yi Chang, Jianing Li, Tiejun Huang, Yonghong Tian(参考訳) ニューロモルフィック視覚センサーは、高時間分解能と高ダイナミックレンジを備えた「イベント」と呼ばれる、非同期かつ連続的な画素ごとの明るさ変化を報告する、新しいバイオインスパイアされたイメージングパラダイムである。 これまでのところ、イベントベースの画像再構成手法は、人工ニューラルネットワーク(ann)または手作り時空間平滑化技術に基づいている。 本稿では,まず,完全スパイクニューラルネットワーク(SNN)アーキテクチャを用いて画像再構成作業を行う。 バイオインスパイアされたニューラルネットワークとして、非同期バイナリスパイクが時間とともに分散しているSNNは、イベント駆動ハードウェア上での計算効率の向上につながる可能性がある。 本稿では,完全スパイクニューラルネットワーク(evsnn)に基づく新しいイベントベースビデオ再構成フレームワークを提案し,リーク・インテグレート・アンド・ファイア(lif)ニューロンとmpニューロンを用いた。 スパイクニューロンは、そのような時間依存タスクを完了させるために有用な時間情報(メモリ)を格納する可能性がある。 さらに, 時空間情報をよりよく活用するために, スパイキングニューロンの膜電位を用いたハイブリッド電位支援フレームワーク(PA-EVSNN)を提案する。 提案されたニューロンはアダプティブ膜電位(AMP)ニューロンと呼ばれ、入力スパイクに応じて膜電位を適応的に更新する。 IJRR, MVSEC, HQFデータセット上でのANNモデルに匹敵する性能を示す実験結果を得た。 evsnn と pa-evsnn のエネルギー消費量はそれぞれ ann アーキテクチャよりも 19.36$\times$ と 7.75$\times$ である。

Neuromorphic vision sensor is a new bio-inspired imaging paradigm that reports asynchronous, continuously per-pixel brightness changes called `events' with high temporal resolution and high dynamic range. So far, the event-based image reconstruction methods are based on artificial neural networks (ANN) or hand-crafted spatiotemporal smoothing techniques. In this paper, we first implement the image reconstruction work via fully spiking neural network (SNN) architecture. As the bio-inspired neural networks, SNNs operating with asynchronous binary spikes distributed over time, can potentially lead to greater computational efficiency on event-driven hardware. We propose a novel Event-based Video reconstruction framework based on a fully Spiking Neural Network (EVSNN), which utilizes Leaky-Integrate-and- Fire (LIF) neuron and Membrane Potential (MP) neuron. We find that the spiking neurons have the potential to store useful temporal information (memory) to complete such time-dependent tasks. Furthermore, to better utilize the temporal information, we propose a hybrid potential-assisted framework (PA-EVSNN) using the membrane potential of spiking neuron. The proposed neuron is referred as Adaptive Membrane Potential (AMP) neuron, which adaptively updates the membrane potential according to the input spikes. The experimental results demonstrate that our models achieve comparable performance to ANN-based models on IJRR, MVSEC, and HQF datasets. The energy consumptions of EVSNN and PA-EVSNN are 19.36$\times$ and 7.75$\times$ more computationally efficient than their ANN architectures, respectively.
翻訳日:2022-01-27 14:15:47 公開日:2022-01-25
# debtfree:半教師付き学習を用いた自己管理型技術的負債識別におけるラベリングコストの最小化

DebtFree: Minimizing Labeling Cost in Self-Admitted Technical Debt Identification using Semi-Supervised Learning ( http://arxiv.org/abs/2201.10592v1 )

ライセンス: Link先を確認
Huy Tu and Tim Menzies(参考訳) 健全なソフトウェアプロジェクトを維持するためには、SATD(Self-Admitted Technical Debts)の追跡と管理が重要です。 現在のアクティブラーニングsatd認識ツールは、平均でテストコメントの24%を手動で検査し、リコールの90%に達する。 すべてのテストコメントの中で、約5%がSATDである。 そして、人間の専門家は、ツールの非効率性を示すSATDコメントの4分の1を読まなければならない。 さらに、人間の専門家はまだエラーを起こしやすい。以前の研究から得られた偽陽性のラベルの95%は、実際には真陽性である。 この問題を解決するために,SATDを識別するための教師なし学習に基づく2モードフレームワークであるDebtFreeを提案する。 モード1では、既存のトレーニングデータがラベル付けされていない場合、DebtFreeは教師なしの学習者から始まり、トレーニングデータ内のプログラミングコメントを自動的に擬似ラベル付けする。 対照的に、ラベルが対応するトレーニングデータで利用可能である mode2 では、DebtFree はテストデータセットから非常に難しいSATDを識別するプリプロセッサから始まる。 次に、機械学習モデルを使用して、人間の専門家が残りのsatを手動で識別するのを支援する。 私たちの10のソフトウェアプロジェクトにおける実験は、両方のモデルが最先端の自動化モデルと半自動化モデルよりも統計的に有意な効率改善をもたらすことを示している。 具体的には、lovesfreeは、現在のアクティブ学習者のf1をほぼ100%改善しながら、mode1(ラベルなしトレーニングデータ)の99%、mode2(ラベル付きトレーニングデータ)の63%のラベリング労力を削減できる。

Keeping track of and managing Self-Admitted Technical Debts (SATDs) is important for maintaining a healthy software project. Current active-learning SATD recognition tool involves manual inspection of 24% of the test comments on average to reach 90% of the recall. Among all the test comments, about 5% are SATDs. The human experts are then required to read almost a quintuple of the SATD comments which indicates the inefficiency of the tool. Plus, human experts are still prone to error: 95% of the false-positive labels from previous work were actually true positives. To solve the above problems, we propose DebtFree, a two-mode framework based on unsupervised learning for identifying SATDs. In mode1, when the existing training data is unlabeled, DebtFree starts with an unsupervised learner to automatically pseudo-label the programming comments in the training data. In contrast, in mode2 where labels are available with the corresponding training data, DebtFree starts with a pre-processor that identifies the highly prone SATDs from the test dataset. Then, our machine learning model is employed to assist human experts in manually identifying the remaining SATDs. Our experiments on 10 software projects show that both models yield a statistically significant improvement in effectiveness over the state-of-the-art automated and semi-automated models. Specifically, DebtFree can reduce the labeling effort by 99% in mode1 (unlabeled training data), and up to 63% in mode2 (labeled training data) while improving the current active learner's F1 relatively to almost 100%.
翻訳日:2022-01-27 14:12:45 公開日:2022-01-25
# 戦略防衛ピアアセスメントの価格

The Price of Strategyproofing Peer Assessment ( http://arxiv.org/abs/2201.10631v1 )

ライセンス: Link先を確認
Komal Dhull, Steven Jecmen, Pravesh Kothari, Nihar B. Shah(参考訳) 戦略行動は、課題のピアグレーディング、提案の承認、会議ピアレビュー、従業員のピアアセスメントなど、ある種のピアアセスメントを必要とする様々な現実世界のアプリケーションにおいて、基本的な問題である。 個々の作品が評価している投稿と競合しているため、自身の投稿の相対的な立場を高めるために不正な評価を行うことができる。 この問題は通常、個人を分割し、異なるサブセットの作業のみを評価するよう割り当てることによって解決される。 この方法は戦略の安全性を保証するが、各提案は効果的な評価のために異なる種類の専門知識を必要とする可能性がある。 本稿では,戦略の制約を受ける専門知識を最大限に活用する提案に対する評価者の課題の発見に焦点をあてる。 戦略防御性(strategyproofness)の価格(つまり、戦略防御性を得るために必要とされる割り当て品質の妥協量)を分析する。 そこで我々は, 戦略保証のための多項式時間アルゴリズムと, 割当品質保証手法を提案する。 最後に,コンファレンスピアレビューからデータセット上の手法を評価する。

Strategic behavior is a fundamental problem in a variety of real-world applications that require some form of peer assessment, such as peer grading of assignments, grant proposal review, conference peer review, and peer assessment of employees. Since an individual's own work is in competition with the submissions they are evaluating, they may provide dishonest evaluations to increase the relative standing of their own submission. This issue is typically addressed by partitioning the individuals and assigning them to evaluate the work of only those from different subsets. Although this method ensures strategyproofness, each submission may require a different type of expertise for effective evaluation. In this paper, we focus on finding an assignment of evaluators to submissions that maximizes assigned expertise subject to the constraint of strategyproofness. We analyze the price of strategyproofness: that is, the amount of compromise on the assignment quality required in order to get strategyproofness. We establish several polynomial-time algorithms for strategyproof assignment along with assignment-quality guarantees. Finally, we evaluate the methods on a dataset from conference peer review.
翻訳日:2022-01-27 14:12:16 公開日:2022-01-25
# 半教師付き乳房マス分類のための仮想対位訓練

Virtual Adversarial Training for Semi-supervised Breast Mass Classification ( http://arxiv.org/abs/2201.10675v1 )

ライセンス: Link先を確認
Xuxin Chen, Ximin Wang, Ke Zhang, Kar-Ming Fung, Theresa C. Thai, Kathleen Moore, Robert S. Mannel, Hong Liu, Bin Zheng, Yuchen Qiu(参考訳) 本研究の目的は,半教師付き学習を用いた乳房マンモグラフィ分類のための新しいcad法の開発である。 教師付きディープラーニングは、さまざまな医療画像分析タスクで大きな成功を収めていますが、その成功は大量の高品質なアノテーションに依存しています。 この制限を克服するために, 乳房腫瘤の分類においてラベルなしデータの基礎となる有用な情報を活用し, 学習するために, 半教師あり訓練(virtual adversarial training, vat)を用いた方法を提案する。 したがって、VATベースのモデルでは、教師付きと仮想敵の2種類の損失がある。 前者の損失は教師付き分類として機能し、後者の損失は仮想的対向摂動に対するモデル堅牢性の向上を目標とし、モデル一般化性を向上させる。 VATをベースとしたCADシステムの性能を評価するため,全乳房腫瘤像を1024枚,良性腫瘤と悪性腫瘤の合計数で再検討した。 この調査では大きなCNNと小さなCNNが使用され、双方とも敵の損失を負わずに訓練された。 ラベル付き比率が40%と80%のとき、VATベースのCNNは、それぞれ0.740と0.760の分類精度を達成した。 実験結果から,VATに基づくCAD手法は,乳房画像の分類精度を高めるために,ラベルのないデータから有意義な知識を効果的に活用できることが示唆された。

This study aims to develop a novel computer-aided diagnosis (CAD) scheme for mammographic breast mass classification using semi-supervised learning. Although supervised deep learning has achieved huge success across various medical image analysis tasks, its success relies on large amounts of high-quality annotations, which can be challenging to acquire in practice. To overcome this limitation, we propose employing a semi-supervised method, i.e., virtual adversarial training (VAT), to leverage and learn useful information underlying in unlabeled data for better classification of breast masses. Accordingly, our VAT-based models have two types of losses, namely supervised and virtual adversarial losses. The former loss acts as in supervised classification, while the latter loss aims at enhancing model robustness against virtual adversarial perturbation, thus improving model generalizability. To evaluate the performance of our VAT-based CAD scheme, we retrospectively assembled a total of 1024 breast mass images, with equal number of benign and malignant masses. A large CNN and a small CNN were used in this investigation, and both were trained with and without the adversarial loss. When the labeled ratios were 40% and 80%, VAT-based CNNs delivered the highest classification accuracy of 0.740 and 0.760, respectively. The experimental results suggest that the VAT-based CAD scheme can effectively utilize meaningful knowledge from unlabeled data to better classify mammographic breast mass images.
翻訳日:2022-01-27 13:29:30 公開日:2022-01-25
# グラフ信号処理の観点からの合成データ解析の拡張

Extending compositional data analysis from a graph signal processing perspective ( http://arxiv.org/abs/2201.10610v1 )

ライセンス: Link先を確認
Christopher Rieser and Peter Filzmoser(参考訳) 構成データの伝統的な分析方法は、同じ重さの変数の全ての異なる対間の対比(英語版)(log-ratios)を考える。 これは、特定の変数(例えばメタボロミック経路)の間にのみ関係が存在することが分かっている文脈では意味を持たないが、他のペアでは関係は存在しない。 関係の欠如や存在のモデル化はグラフ理論において行われ、頂点は変数を表し、接続は関係を表す。 本稿では,合成データ解析とグラフ信号処理を関連付け,Aitchison幾何を,選択した対数比のみを考慮可能な設定に拡張する。 提案するフレームワークはスケール不変性と構成コヒーレンスの望ましい特性を保っている。 絶対情報を含む追加拡張を容易に行う。 バイオインフォマティクスや地球化学の例は、合成データ分析の標準的な方法と比較して、このアプローチの有用性を示唆している。

Traditional methods for the analysis of compositional data consider the log-ratios between all different pairs of variables with equal weight, typically in the form of aggregated contributions. This is not meaningful in contexts where it is known that a relationship only exists between very specific variables (e.g.~for metabolomic pathways), while for other pairs a relationship does not exist. Modeling absence or presence of relationships is done in graph theory, where the vertices represent the variables, and the connections refer to relations. This paper links compositional data analysis with graph signal processing, and it extends the Aitchison geometry to a setting where only selected log-ratios can be considered. The presented framework retains the desirable properties of scale invariance and compositional coherence. An additional extension to include absolute information is readily made. Examples from bioinformatics and geochemistry underline the usefulness of thisapproach in comparison to standard methods for compositional data analysis.
翻訳日:2022-01-27 13:25:30 公開日:2022-01-25
# データ効率のよい自然言語理解のための意味構造の教師なし導出のための凸ポリトープモデリング

Convex Polytope Modelling for Unsupervised Derivation of Semantic Structure for Data-efficient Natural Language Understanding ( http://arxiv.org/abs/2201.10588v1 )

ライセンス: Link先を確認
Jingyan Zhou, Xiaohan Feng, King Keung Wu, Helen Meng(参考訳) 自然言語理解(NLU)の一般的なアプローチは、通常大量の注釈付きデータや手作りルールに依存しており、ドメイン拡張には適応しない。 我々は最近、生のダイアログコーパスを利用して意味パターンを自動的に抽出する可能性を示すConvex-Polytopic-Mod elベースのフレームワークを提案する。 抽出したセマンティックパターンは、NLUタスクを支援するために必須のセマンティックフレームを生成するために使用できる。 本稿では,CPMモデルをさらに深く研究し,その高い解釈性と透明性を様々なレベルで可視化する。 このフレームワークは,コーパスのセマンティックフレーム関連機能を活用し,発話の基盤となるセマンティック構造を明らかにし,最小限の監視で最先端のNLUモデルの性能を向上させることができることを示す。 我々はATISコーパス(Air Travel Information System)の実験を行った。

Popular approaches for Natural Language Understanding (NLU) usually rely on a huge amount of annotated data or handcrafted rules, which is laborious and not adaptive to domain extension. We recently proposed a Convex-Polytopic-Mod el-based framework that shows great potential in automatically extracting semantic patterns by exploiting the raw dialog corpus. The extracted semantic patterns can be used to generate semantic frames, which is essential in assisting NLU tasks. This paper further studies the CPM model in depth and visualizes its high interpretability and transparency at various levels. We show that this framework can exploit semantic-frame-relat ed features in the corpus, reveal the underlying semantic structure of the utterances, and boost the performance of the state-of-the-art NLU model with minimal supervision. We conduct our experiments on the ATIS (Air Travel Information System) corpus.
翻訳日:2022-01-27 13:25:14 公開日:2022-01-25
# DOM-LM: HTMLドキュメントの汎用表現学習

DOM-LM: Learning Generalizable Representations for HTML Documents ( http://arxiv.org/abs/2201.10608v1 )

ライセンス: Link先を確認
Xiang Deng, Prashant Shiralkar, Colin Lockard, Binxuan Huang, Huan Sun(参考訳) HTML文書は人的消費のためにウェブ上で情報を広める重要な媒体である。 HTML文書は、構造化されていないテキスト、構造化されたキーと値のペア、テーブルを含む複数のテキスト形式で情報を表示する。 これらの文書の効果的な表現は、質問応答、web検索、パーソナライゼーションなど、幅広いアプリケーションを可能にするために、機械理解に不可欠である。 既存の作業では、これらのドキュメントをブラウザでレンダリングすることによって抽出したビジュアル機能を使用して表現するか、あるいは単に平易なテキストドキュメントとして扱うだけで、html構造で提示された有用な情報をキャプチャできないかのどちらかである。 我々は、テキストとHTML構造が共にコンテンツの重要な意味を伝達し、表現学習のための特別な処理を保証していると論じる。 本稿では,テキストとDOMツリー構造の両方をトランスフォーマーベースエンコーダで符号化し,自己教師型事前学習によりHTML文書の汎用表現を学習することで,既存のアプローチの限界に対処する,DOM-LMと呼ばれる新しいWebページ表現学習手法を提案する。 我々は,属性抽出,オープン情報抽出,質問回答など,さまざまなWebページ理解タスクにおいてDOM-LMを評価する。 我々の広範な実験は、DOM-LMがこれらのタスクのために設計された全てのベースラインを一貫して上回っていることを示している。 特に、DOM-LMは、少数ショットとゼロショットの両方で、より良い一般化性能を示しており、ラベル付きデータに制限された現実世界のアプリケーション設定に適合させるのに魅力的である。

HTML documents are an important medium for disseminating information on the Web for human consumption. An HTML document presents information in multiple text formats including unstructured text, structured key-value pairs, and tables. Effective representation of these documents is essential for machine understanding to enable a wide range of applications, such as Question Answering, Web Search, and Personalization. Existing work has either represented these documents using visual features extracted by rendering them in a browser, which is typically computationally expensive, or has simply treated them as plain text documents, thereby failing to capture useful information presented in their HTML structure. We argue that the text and HTML structure together convey important semantics of the content and therefore warrant a special treatment for their representation learning. In this paper, we introduce a novel representation learning approach for web pages, dubbed DOM-LM, which addresses the limitations of existing approaches by encoding both text and DOM tree structure with a transformer-based encoder and learning generalizable representations for HTML documents via self-supervised pre-training. We evaluate DOM-LM on a variety of webpage understanding tasks, including Attribute Extraction, Open Information Extraction, and Question Answering. Our extensive experiments show that DOM-LM consistently outperforms all baselines designed for these tasks. In particular, DOM-LM demonstrates better generalization performance both in few-shot and zero-shot settings, making it attractive for making it suitable for real-world application settings with limited labeled data.
翻訳日:2022-01-27 13:24:59 公開日:2022-01-25
# ABBE「Animateは感情的」

The ABBE Corpus: Animate Beings Being Emotional ( http://arxiv.org/abs/2201.10618v1 )

ライセンス: Link先を確認
Samira Zad, Joshuan Jimenez, Mark A. Finlayson(参考訳) 感情検出は、テキスト理解のための実証ユーティリティの確立されたNLPタスクである。 しかし、基本的な感情検出は、問題の感情を誰が経験しているかという重要な情報を除外する。 例えば、著者、ナレーター、キャラクター、あるいは感情は、聴衆が感じるべきものに対応しているかもしれないし、特定の人物、例えば、感情が自分自身で議論されているときにも、帰属しないかもしれない。 abbeコーパス -- アニメート存在は感情的 -- を提供し、テキストによって記述された世界のアニメート存在という、感情経験者の1つのクラスのために、この重要な情報をキャプチャする、新しい二重アノテーション付きコーパスを提供します。 このようなコーパスは、この特定のタイプの表現された感情をモデル化または理解しようとするシステムの開発に有用である。 コーパスには134,513語からなる30の章が含まれており,2,010の独特な感情表現が2,227のアニメーターに関連付けられている。 感情表現は、plutchikの8カテゴリーの感情モデルに従って分類され、アノテーションの注釈間合意の全体は、コーエンのkappa 0.83であった。 アノテーションのスキームと手順を詳述するとともに,他の研究者が使用するコーパスを公表する。

Emotion detection is an established NLP task of demonstrated utility for text understanding. However, basic emotion detection leaves out key information, namely, who is experiencing the emotion in question. For example, it may be the author, the narrator, or a character; or the emotion may correspond to something the audience is supposed to feel, or even be unattributable to a specific being, e.g., when emotions are being discussed per se. We provide the ABBE corpus -- Animate Beings Being Emotional -- a new double-annotated corpus of texts that captures this key information for one class of emotion experiencer, namely, animate beings in the world described by the text. Such a corpus is useful for developing systems that seek to model or understand this specific type of expressed emotion. Our corpus contains 30 chapters, comprising 134,513 words, drawn from the Corpus of English Novels, and contains 2,010 unique emotion expressions attributable to 2,227 animate beings. The emotion expressions are categorized according to Plutchik's 8-category emotion model, and the overall inter-annotator agreement for the annotations was 0.83 Cohen's Kappa, indicating excellent agreement. We describe in detail our annotation scheme and procedure, and also release the corpus for use by other researchers.
翻訳日:2022-01-27 13:24:33 公開日:2022-01-25
# se(3)上の累積bスプラインのヤコビアン計算と連続時間物体追跡への応用

Jacobian Computation for Cumulative B-splines on SE(3) and Application to Continuous-Time Object Tracking ( http://arxiv.org/abs/2201.10602v1 )

ライセンス: Link先を確認
Javier Tirado, Javier Civera(参考訳) 本稿では,複数のrgb-dビューからシーンに存在する動的剛体オブジェクトの$se(3)$連続軌跡(向き付けと変換)を推定する手法を提案する。 具体的には、対象の軌跡を累積b-スプライン曲線に適合させることで、任意の中間時間切手において、ポーズだけでなく、線形および角速度と加速度も補間することができる。 さらに、この研究は最適化に必要な解析的$SE(3)$ヤコビアンを導出し、このタイプの曲線を使用する他のアプローチにも適用できる。 我々の知る限りでは、これは6-DoF連続時間物体追跡を提案する最初の研究であり、分析的導出により計算コストの大幅な削減を図っている。 提案手法を合成データおよび公開ベンチマークで評価し、局所化における競合結果と離散時間アプローチと比較して速度推定の大幅な改善を示す。

In this paper we propose a method that estimates the $SE(3)$ continuous trajectories (orientation and translation) of the dynamic rigid objects present in a scene, from multiple RGB-D views. Specifically, we fit the object trajectories to cumulative B-Splines curves, which allow us to interpolate, at any intermediate time stamp, not only their poses but also their linear and angular velocities and accelerations. Additionally, we derive in this work the analytical $SE(3)$ Jacobians needed by the optimization, being applicable to any other approach that uses this type of curves. To the best of our knowledge this is the first work that proposes 6-DoF continuous-time object tracking, which we endorse with significant computational cost reduction thanks to our analytical derivations. We evaluate our proposal in synthetic data and in a public benchmark, showing competitive results in localization and significant improvements in velocity estimation in comparison to discrete-time approaches.
翻訳日:2022-01-27 13:21:46 公開日:2022-01-25
# SA-VQA:視覚質問応答のための視覚的・意味的表現の構造的アライメント

SA-VQA: Structured Alignment of Visual and Semantic Representations for Visual Question Answering ( http://arxiv.org/abs/2201.10654v1 )

ライセンス: Link先を確認
Peixi Xiong, Quanzeng You, Pei Yu, Zicheng Liu, Ying Wu(参考訳) VQA(Visual Question Answering)は、業界と学術の両方から注目を集めている。 マルチモダリティタスクとしては、視覚的およびテキスト的理解だけでなく、モダリティ間の表現の整合性も要求されるため、難しい。 以前のアプローチでは、視覚領域とその意味ラベル間の相関、質問語とオブジェクトの特徴間の相互作用など、エンティティレベルのアライメントを幅広く採用していた。 これらの試みは、内部関係を無視しながら、モダリティ間の表現を改善することを目的としている。 そこで本研究では,視覚的・テキスト的内容のグラフ表現を扱う構造化アライメントを適用し,視覚的・テキスト的モダリティ間の深い関係を捉えることを目的とする。 それでも、構造化アライメントのグラフを表現し、統合することは自明ではない。 本稿では,まず異なるモダリティエンティティを逐次ノードと隣接グラフに変換し,それらを構造化アライメントに組み込むことにより,この問題を解決しようとする。 実験結果が示すように,このような構造的アライメントは推論性能を向上させる。 さらに,本モデルでは,各回答の解釈性も向上した。 提案モデルは,事前トレーニングを行わずに,gqaデータセットの最先端メソッドを上回り,vqa-v2データセットの事前訓練されていない最先端メソッドを上回っている。

Visual Question Answering (VQA) attracts much attention from both industry and academia. As a multi-modality task, it is challenging since it requires not only visual and textual understanding, but also the ability to align cross-modality representations. Previous approaches extensively employ entity-level alignments, such as the correlations between the visual regions and their semantic labels, or the interactions across question words and object features. These attempts aim to improve the cross-modality representations, while ignoring their internal relations. Instead, we propose to apply structured alignments, which work with graph representation of visual and textual content, aiming to capture the deep connections between the visual and textual modalities. Nevertheless, it is nontrivial to represent and integrate graphs for structured alignments. In this work, we attempt to solve this issue by first converting different modality entities into sequential nodes and the adjacency graph, then incorporating them for structured alignments. As demonstrated in our experimental results, such a structured alignment improves reasoning performance. In addition, our model also exhibits better interpretability for each generated answer. The proposed model, without any pretraining, outperforms the state-of-the-art methods on GQA dataset, and beats the non-pretrained state-of-the-art methods on VQA-v2 dataset.
翻訳日:2022-01-27 13:21:29 公開日:2022-01-25
# MGA-VQA:視覚質問応答のための多粒度アライメント

MGA-VQA: Multi-Granularity Alignment for Visual Question Answering ( http://arxiv.org/abs/2201.10656v1 )

ライセンス: Link先を確認
Peixi Xiong, Yilin Shen, Hongxia Jin(参考訳) マルチモーダル入力は2つの機能空間内にあるため、視覚的な質問に答える学習は難しい課題である。 さらに、視覚的質問応答の推論には、質問対に関する統計を単に記憶するのではなく、画像と質問の両方を理解し、それらを同じ空間に整列させるモデルが必要である。 したがって、異なるモダリティと各モダリティの間のコンポーネント接続を見つけ、より注意を払うことが不可欠である。 以前の作品では、機能に直接注意を向けていた。 しかし、これらの2つのモダリティの特徴は2つの領域に限られており、画像の特徴は非常に多様であり、構造や文法的な規則が欠如しており、自然言語の特徴は詳細な情報が欠落する確率が高い。 視覚とテキストの注意をよりよく知るために,入力階層の構築と構造情報を埋め込み,異なるレベルコンポーネント間のアライメントを改善する方法に注目する。 本稿では,マルチグラニュラリティアライメントによってモダリティ内相関とモダリティ間相関を学習し,決定融合モジュールにより最終結果を出力する視覚質問応答タスク(mga-vqa)のためのマルチグラニュラリティアライメントアーキテクチャを提案する。 これまでの研究とは対照的に、我々のモデルはアライメントを異なるレベルに分割し、追加のデータやアノテーションを必要とせずにより良い相関関係を学習する。 VQA-v2データセットとGQAデータセットの実験により、我々のモデルは、追加の事前学習データやアノテーションなしで、両方のデータセットで非事前学習された最先端の手法よりも大幅に優れていることが示された。 さらに、GQAの事前学習方法よりも優れた結果が得られる。

Learning to answer visual questions is a challenging task since the multi-modal inputs are within two feature spaces. Moreover, reasoning in visual question answering requires the model to understand both image and question, and align them in the same space, rather than simply memorize statistics about the question-answer pairs. Thus, it is essential to find component connections between different modalities and within each modality to achieve better attention. Previous works learned attention weights directly on the features. However, the improvement is limited since these two modality features are in two domains: image features are highly diverse, lacking structure and grammatical rules as language, and natural language features have a higher probability of missing detailed information. To better learn the attention between visual and text, we focus on how to construct input stratification and embed structural information to improve the alignment between different level components. We propose Multi-Granularity Alignment architecture for Visual Question Answering task (MGA-VQA), which learns intra- and inter-modality correlations by multi-granularity alignment, and outputs the final result by the decision fusion module. In contrast to previous works, our model splits alignment into different levels to achieve learning better correlations without needing additional data and annotations. The experiments on the VQA-v2 and GQA datasets demonstrate that our model significantly outperforms non-pretrained state-of-the-art methods on both datasets without extra pretraining data and annotations. Moreover, it even achieves better results over the pre-trained methods on GQA.
翻訳日:2022-01-27 13:21:08 公開日:2022-01-25
# オフライン手書き単一ブロック文字を用いた文字認識

Writer Recognition Using Off-line Handwritten Single Block Characters ( http://arxiv.org/abs/2201.10665v1 )

ライセンス: Link先を確認
Adrian Leo Hagstr\"om, Rustam Stanikzai, Josef Bigun, Fernando Alonso-Fernandez(参考訳) ブロック文字は、様々な目的のために紙フォームを埋めるときによく使われる。 手書きテキストの個々の桁に含まれる生体情報が存在するか検討する。 特に、生年月日DoBの6桁の個人識別番号を用いる。 本稿では,輪郭方向測定を行う手作り特徴に基づく認識手法と,ResNet50モデルの深い特徴に基づく認識手法について検討する。 317名の個人と4920名のDoBによる自己キャプチャデータベースを使用します。 その結果,DoBでは手書き情報に識別関連情報が6桁程度存在することがわかった。 また,エロメント試料の量の影響を解析し,その数を1から10に変化させた。 このような少ないデータで結果が期待できる。 10のサンプルで、深い特徴を持つtop-1の精度は約94%で、トップ10でほぼ100%に達する。 検証精度はより控えめであり、EER>20%は任意の特徴とエンローメントセットサイズを持ち、まだ改善の余地があることが示されている。

Block characters are often used when filling paper forms for a variety of purposes. We investigate if there is biometric information contained within individual digits of handwritten text. In particular, we use personal identity numbers consisting of the six digits of the date of birth, DoB. We evaluate two recognition approaches, one based on handcrafted features that compute contour directional measurements, and another based on deep features from a ResNet50 model. We use a self-captured database of 317 individuals and 4920 written DoBs in total. Results show the presence of identity-related information in a piece of handwritten information as small as six digits with the DoB. We also analyze the impact of the amount of enrolment samples, varying its number between one and ten. Results with such small amount of data are promising. With ten enrolment samples, the Top-1 accuracy with deep features is around 94%, and reaches nearly 100% by Top-10. The verification accuracy is more modest, with EER>20%with any given feature and enrolment set size, showing that there is still room for improvement.
翻訳日:2022-01-27 13:20:40 公開日:2022-01-25
# (参考訳) PONI:対話自由学習によるオブジェクト指向ナビゲーションの可能性 [全文訳有]

PONI: Potential Functions for ObjectGoal Navigation with Interaction-free Learning ( http://arxiv.org/abs/2201.10029v1 )

ライセンス: CC BY 4.0
Santhosh Kumar Ramakrishnan, Devendra Singh Chaplot, Ziad Al-Halah, Jitendra Malik, Kristen Grauman(参考訳) objectgoal navigationに対する最先端のアプローチは強化学習に依存しており、学習には重要な計算リソースと時間を必要とする。 本研究では,対象物に対する「見る場所」と「(x, y)?」へのナビゲートのスキルを区別するモジュラーアプローチである「対話フリー学習(poni)」を用いた対象物ナビゲーションの潜在的な機能を提案する。 私たちの重要な洞察は、"見るべき場所"は知覚問題として純粋に扱われ、環境の相互作用なしに学習できるということです。 そこで本研究では,セマンティックマップ上で条件付き2つの補足的ポテンシャル関数を予測し,それらを用いて未知のオブジェクトを探す場所を決定するネットワークを提案する。 我々は,トップダウンセマンティクスマップの受動的データセット上で教師あり学習を用いて潜在的な関数ネットワークを訓練し,それをモジュラーフレームワークに統合してオブジェクトのナビゲーションを行う。 GibsonとMatterport3Dの実験では,本手法がObjectGoalナビゲーションの最先端化を実現し,最大1,600倍のコストでトレーニングを行うことができた。

State-of-the-art approaches to ObjectGoal navigation rely on reinforcement learning and typically require significant computational resources and time for learning. We propose Potential functions for ObjectGoal Navigation with Interaction-free learning (PONI), a modular approach that disentangles the skills of `where to look?' for an object and `how to navigate to (x, y)?'. Our key insight is that `where to look?' can be treated purely as a perception problem, and learned without environment interactions. To address this, we propose a network that predicts two complementary potential functions conditioned on a semantic map and uses them to decide where to look for an unseen object. We train the potential function network using supervised learning on a passive dataset of top-down semantic maps, and integrate it into a modular framework to perform ObjectGoal navigation. Experiments on Gibson and Matterport3D demonstrate that our method achieves the state-of-the-art for ObjectGoal navigation while incurring up to 1,600x less computational cost for training.
翻訳日:2022-01-27 07:40:08 公開日:2022-01-25
# (参考訳) マルチアクセスエッジコンピューティングネットワークにおける信頼性最適化のための変分オートエンコーダ [全文訳有]

Variational Autoencoders for Reliability Optimization in Multi-Access Edge Computing Networks ( http://arxiv.org/abs/2201.10032v1 )

ライセンス: CC BY 4.0
Arian Ahmadi, Omid Semiari, Mehdi Bennis, and Merouane Debbah(参考訳) マルチアクセスエッジコンピューティング(MEC)は、サービス信頼性とレイテンシの厳しい新しいアプリケーションをサポートするために、将来の無線ネットワークの不可欠な部分と見なされている。 しかし、無線リンクの不確実性、限られた通信や計算資源、動的ネットワークトラフィックなどにより、超信頼性・低レイテンシMEC(URLL MEC)の保証は極めて困難である。 URLL MECの導入は、無線およびエッジコンピューティングシステムにおけるエンドツーエンド(E2E)のレイテンシと信頼性の統計を考慮に入れている。 本稿では,e2eサービス遅延の分布を考慮し,無線通信とエッジコンピューティングのレイテンシを包含し,mecネットワークの信頼性を最適化する新しい枠組みを提案する。 提案フレームワークは、E2Eサービス遅延の完全な分布を推定するために、相関式変分オートエンコーダ(VAE)に基づいて構築される。 この結果から,リスク理論に基づく新たな最適化問題を定式化し,リスク条件値(CVaR)をE2Eサービス遅延のリスク尺度として最小化し,ネットワーク信頼性を最大化する。 この問題を解決するために,VAEが学習したE2Eサービス遅延の統計を考慮しつつ,ユーザの処理タスクをMECネットワーク上のエッジコンピューティングサーバに効率的に割り当てるアルゴリズムを開発した。 シミュレーションの結果,提案手法は,e2eサービス遅延のリスク解析や統計を考慮しない複数のベースラインよりも優れていることがわかった。

Multi-access edge computing (MEC) is viewed as an integral part of future wireless networks to support new applications with stringent service reliability and latency requirements. However, guaranteeing ultra-reliable and low-latency MEC (URLL MEC) is very challenging due to uncertainties of wireless links, limited communications and computing resources, as well as dynamic network traffic. Enabling URLL MEC mandates taking into account the statistics of the end-to-end (E2E) latency and reliability across the wireless and edge computing systems. In this paper, a novel framework is proposed to optimize the reliability of MEC networks by considering the distribution of E2E service delay, encompassing over-the-air transmission and edge computing latency. The proposed framework builds on correlated variational autoencoders (VAEs) to estimate the full distribution of the E2E service delay. Using this result, a new optimization problem based on risk theory is formulated to maximize the network reliability by minimizing the Conditional Value at Risk (CVaR) as a risk measure of the E2E service delay. To solve this problem, a new algorithm is developed to efficiently allocate users' processing tasks to edge computing servers across the MEC network, while considering the statistics of the E2E service delay learned by VAEs. The simulation results show that the proposed scheme outperforms several baselines that do not account for the risk analyses or statistics of the E2E service delay.
翻訳日:2022-01-27 07:17:35 公開日:2022-01-25
# (参考訳) 正規化影響推定を用いたトレーニングセット攻撃目標の同定

Identifying a Training-Set Attack's Target Using Renormalized Influence Estimation ( http://arxiv.org/abs/2201.10055v1 )

ライセンス: CC BY 4.0
Zayd Hammoudeh and Daniel Lowd(参考訳) ターゲットとなるトレーニングセット攻撃は、トレーニングセットに悪意のあるインスタンスを注入し、トレーニングされたモデルが1つ以上の特定のテストインスタンスをラベル付けする原因となる。 本研究は、特定のテストインスタンスがトレーニングセット攻撃のターゲットであるかどうかを決定するターゲット識別タスクを提案する。 これは敵のインスタンス識別と組み合わせて攻撃のインスタンスを見つけ(そして削除)、他の予測に最小限の影響で攻撃を軽減できる。 単一の攻撃方法やデータモダリティに注目するのではなく、モデルの予測に対する各トレーニングインスタンスの貢献度を定量化する影響推定に基づいています。 既存の影響推定器の実用的性能の低さは、多くの場合、大きな損失を伴うインスタンスやイテレーションへの過度な依存から生じる。 我々の再正規化された影響推定装置は、この弱点を解消し、敵対的および非敵対的両方のトレーニング例を識別し、クリーンなデータ偽陽性のない敵的トレーニングインスタンスの最大100%を見つけることで、元のものよりもはるかに優れています。 ターゲット識別は、異常な影響値を持つテストインスタンスの検出を単純化する。 本手法は,テキスト,視覚,音声など,さまざまなデータ領域におけるバックドアおよび毒殺攻撃に対する一般性を示す。 ソースコードはhttps://github.com/z aydh/target_identifi cationで入手できます。

Targeted training-set attacks inject malicious instances into the training set to cause a trained model to mislabel one or more specific test instances. This work proposes the task of target identification, which determines whether a specific test instance is the target of a training-set attack. This can then be combined with adversarial-instance identification to find (and remove) the attack instances, mitigating the attack with minimal impact on other predictions. Rather than focusing on a single attack method or data modality, we build on influence estimation, which quantifies each training instance's contribution to a model's prediction. We show that existing influence estimators' poor practical performance often derives from their over-reliance on instances and iterations with large losses. Our renormalized influence estimators fix this weakness; they far outperform the original ones at identifying influential groups of training examples in both adversarial and non-adversarial settings, even finding up to 100% of adversarial training instances with no clean-data false positives. Target identification then simplifies to detecting test instances with anomalous influence values. We demonstrate our method's generality on backdoor and poisoning attacks across various data domains including text, vision, and speech. Our source code is available at https://github.com/Z aydH/target_identifi cation .
翻訳日:2022-01-27 07:02:21 公開日:2022-01-25
# (参考訳) ViT-HGR:高密度表面EMG信号を用いた視覚変換器による手指ジェスチャー認識 [全文訳有]

ViT-HGR: Vision Transformer-based Hand Gesture Recognition from High Density Surface EMG Signals ( http://arxiv.org/abs/2201.10060v1 )

ライセンス: CC BY 4.0
Mansooreh Montazerin, Soheil Zabihi, Elahe Rahimian, Arash Mohammadi, Farnoosh Naderkhani(参考訳) 近年,表面筋電図(sEMG)信号を用いた手の動き認識を自律的に行うためのディープラーニング(DL)モデルへの関心が高まっている。 しかし、DLモデルは、主にスパースsEMG信号に適用するように設計されている。 さらに、その複雑な構造、典型的にはメモリの制約に直面し、大量のトレーニング時間と大量のトレーニングサンプルを必要とします。 本稿では,まず,高密度(hd-semg)信号から手ジェスチャ認識を行う視覚トランスフォーマ(vit)ベースのアーキテクチャを初めて検討し,設計する。 直感的には、異なる複雑な問題に対処する上でのトランスフォーマーアーキテクチャの最近の画期的な役割と、その注意機構を通じてより入力並列化を採用する可能性に乗じる。 提案したVision Transformer-based Hand Gesture Recognition (ViT-HGR)フレームワークは、前述のトレーニング時間を克服し、データ拡張や転送学習を必要とせずに、スクラッチから多数の手ジェスチャーを正確に分類することができる。 65個の手ジェスチャーからなるHD-sEMGデータセットを用いて,提案フレームワークの有効性を評価する。 64サンプル (31.25 ms) の窓サイズ実験で平均テスト精度は84.62 +/-3.07%であり, 78, 210個のパラメータしか利用していない。 提案した ViT ベースの ViT-HGR フレームワークのコンパクトな構造(トレーニング可能なパラメータの数を大幅に減らした)は、その実用的義肢制御への大きな可能性を示している。

Recently, there has been a surge of significant interest on application of Deep Learning (DL) models to autonomously perform hand gesture recognition using surface Electromyogram (sEMG) signals. DL models are, however, mainly designed to be applied on sparse sEMG signals. Furthermore, due to their complex structure, typically, we are faced with memory constraints; require large training times and a large number of training samples, and; there is the need to resort to data augmentation and/or transfer learning. In this paper, for the first time (to the best of our knowledge), we investigate and design a Vision Transformer (ViT) based architecture to perform hand gesture recognition from High Density (HD-sEMG) signals. Intuitively speaking, we capitalize on the recent breakthrough role of the transformer architecture in tackling different complex problems together with its potential for employing more input parallelization via its attention mechanism. The proposed Vision Transformer-based Hand Gesture Recognition (ViT-HGR) framework can overcome the aforementioned training time problems and can accurately classify a large number of hand gestures from scratch without any need for data augmentation and/or transfer learning. The efficiency of the proposed ViT-HGR framework is evaluated using a recently-released HD-sEMG dataset consisting of 65 isometric hand gestures. Our experiments with 64-sample (31.25 ms) window size yield average test accuracy of 84.62 +/- 3.07%, where only 78, 210 number of parameters is utilized. The compact structure of the proposed ViT-based ViT-HGR framework (i.e., having significantly reduced number of trainable parameters) shows great potentials for its practical application for prosthetic control.
翻訳日:2022-01-27 07:01:09 公開日:2022-01-25
# (参考訳) 地理的および文脈的に多様なデータソースの文書化:言語データとリソースのbigscienceカタログ [全文訳有]

Documenting Geographically and Contextually Diverse Data Sources: The BigScience Catalogue of Language Data and Resources ( http://arxiv.org/abs/2201.10066v1 )

ライセンス: CC BY 4.0
Angelina McMillan-Major and Zaid Alyafeai and Stella Biderman and Kimbo Chen and Francesco De Toni and G\'erard Dupont and Hady Elsahar and Chris Emezue and Alham Fikri Aji and Suzana Ili\'c and Nurulaqilla Khamis and Colin Leong and Maraim Masoud and Aitor Soroa and Pedro Ortiz Suarez and Zeerak Talat and Daniel van Strien and Yacine Jernite(参考訳) 近年,大規模データ収集の取り組みは,大規模言語モデルのモデリング能力を向上させるために収集されたデータ量を優先している。 しかし、この優先順位付けは、データコレクションに代表されるデータ主題の権利に関して、特にドキュメントや分析のためのツールが不十分であるためにこれらのコレクションの尋問が困難である場合、懸念を生じさせている。 これらの落とし穴を念頭に置いて、BigScienceイニシアチブの一環として、ドキュメントファーストで人間中心のデータ収集プロジェクトのための方法論を提示します。 我々は地理的に多様な対象言語群(アラビア語、バスク語、中国語、カタルーニャ語、英語、フランス語、インド語、インドネシア語、ニジェールコンゴ語、ポルトガル語、スペイン語、ベトナム語)を特定し、潜在的なデータソースのメタデータを収集した。 この取り組みを構造化するため,我々はオンラインカタログを,組織的なパブリックハッカソンを通じてメタデータを収集するための支援ツールとして開発した。 本稿では,開発プロセス,言語,地域,資源タイプにまたがる分布を含むリソースメタデータの分析,そしてこの取り組みで学んだ教訓について述べる。

In recent years, large-scale data collection efforts have prioritized the amount of data collected in order to improve the modeling capabilities of large language models. This prioritization, however, has resulted in concerns with respect to the rights of data subjects represented in data collections, particularly when considering the difficulty in interrogating these collections due to insufficient documentation and tools for analysis. Mindful of these pitfalls, we present our methodology for a documentation-first, human-centered data collection project as part of the BigScience initiative. We identified a geographically diverse set of target language groups (Arabic, Basque, Chinese, Catalan, English, French, Indic languages, Indonesian, Niger-Congo languages, Portuguese, Spanish, and Vietnamese, as well as programming languages) for which to collect metadata on potential data sources. To structure this effort, we developed our online catalogue as a supporting tool for gathering metadata through organized public hackathons. We present our development process; analyses of the resulting resource metadata, including distributions over languages, regions, and resource types; and our lessons learned in this endeavor.
翻訳日:2022-01-27 06:49:33 公開日:2022-01-25
# (参考訳) MOORe:モデルに基づくオフライン-オンライン強化学習 [全文訳有]

MOORe: Model-based Offline-to-Online Reinforcement Learning ( http://arxiv.org/abs/2201.10070v1 )

ライセンス: CC BY 4.0
Yihuan Mao, Chao Wang, Bin Wang, Chongjie Zhang(参考訳) オフライン強化学習(RL)の成功により、オフライントレーニングされたRLポリシは、オンライン展開時にさらに改善される可能性がある。 安全な実世界の展開において、ポリシーのスムーズな移行が問題となる。 さらに、ポリシーの迅速な適応は、実用的なオンラインパフォーマンス改善において重要な役割を果たす。 そこで本研究では,オフラインとオンラインのデータを動的に調整し,オンライン適応を円滑かつ効率的に行うための優先順位付きサンプリング方式を用いた,簡便かつ効率的なモデルベースオフライン-オンライン強化学習(moore)を提案する。 アルゴリズム設計の理論的基盤を提供する。 D4RLベンチマークの実験結果から,本アルゴリズムはサンプリング効率の高いオンライン適応を実現しつつ,オフラインからオンラインへの移行を円滑に行うとともに,既存の手法よりも大幅に優れていた。

With the success of offline reinforcement learning (RL), offline trained RL policies have the potential to be further improved when deployed online. A smooth transfer of the policy matters in safe real-world deployment. Besides, fast adaptation of the policy plays a vital role in practical online performance improvement. To tackle these challenges, we propose a simple yet efficient algorithm, Model-based Offline-to-Online Reinforcement learning (MOORe), which employs a prioritized sampling scheme that can dynamically adjust the offline and online data for smooth and efficient online adaptation of the policy. We provide a theoretical foundation for our algorithms design. Experiment results on the D4RL benchmark show that our algorithm smoothly transfers from offline to online stages while enabling sample-efficient online adaption, and also significantly outperforms existing methods.
翻訳日:2022-01-27 06:26:57 公開日:2022-01-25
# (参考訳) 超解法におけるL1損失の再検討:確率論的視点とそれ以上 [全文訳有]

Revisiting L1 Loss in Super-Resolution: A Probabilistic View and Beyond ( http://arxiv.org/abs/2201.10084v1 )

ライセンス: CC BY 4.0
Xiangyu He, Jian Cheng(参考訳) 誤った問題としての超分解能は、低分解能入力に対する多くの高分解能候補を持つ。 しかし、与えられたHR画像に最も合うために使われる$\ell_1$の損失は、画像復元におけるこの不均一性の基本的な性質を考慮できない。 本研究では,ニューラルネットワークによる超解像を確率論的モデルとして定式化することにより,損失を$\ell_1$で補正する。 これは、$\ell_1$の損失が学習プロセスからランダム性を取り除く劣化度関数と同値であることを示している。 データ適応型確率変数を導入することにより、すべての可算解に対する再構成誤差の期待を最小化することを目的とした、新たな目的関数を提案する。 実験結果から、パラメータや計算コストを抑えながら、主流アーキテクチャにおいて一貫した改善が見られた。

Super-resolution as an ill-posed problem has many high-resolution candidates for a low-resolution input. However, the popular $\ell_1$ loss used to best fit the given HR image fails to consider this fundamental property of non-uniqueness in image restoration. In this work, we fix the missing piece in $\ell_1$ loss by formulating super-resolution with neural networks as a probabilistic model. It shows that $\ell_1$ loss is equivalent to a degraded likelihood function that removes the randomness from the learning process. By introducing a data-adaptive random variable, we present a new objective function that aims at minimizing the expectation of the reconstruction error over all plausible solutions. The experimental results show consistent improvements on mainstream architectures, with no extra parameter or computing cost at inference time.
翻訳日:2022-01-27 06:09:40 公開日:2022-01-25
# (参考訳) 散逸的ハミルトンニューラルネット:散逸的・保守的なダイナミクスを別々に学習する [全文訳有]

Dissipative Hamiltonian Neural Networks: Learning Dissipative and Conservative Dynamics Separately ( http://arxiv.org/abs/2201.10085v1 )

ライセンス: CC BY 4.0
Sam Greydanus and Andrew Sosanya(参考訳) 自然の対称性を理解することは、我々の複雑で絶えず変化する世界を理解する鍵となる。 近年の研究では、ハミルトニアンニューラルネットワーク(HNN)を用いて、そのような対称性を直接学習できることが示されている。 しかしHNNは、エネルギーが保存されていないデータセットでトレーニングするときに苦労する。 本稿では,保存的ダイナミクスと散逸的ダイナミクスを同時に識別し分解できるかどうかを問う。 本稿では,ハミルトニアン関数とレイリー散逸関数の両方をパラメータ化する散逸型ハミルトニアンニューラルネットワーク(d-hnn)を提案する。 これらは暗黙のヘルムホルツ分解を表しており、エネルギーの保存のような対称性からの摩擦のような散逸効果を分離することができる。 我々は、減衰した質量ばね系をその摩擦と慣性項に分解するようにモデルを訓練し、この分解が未知の摩擦係数のダイナミクスを予測できることを示す。 そして、我々のモデルを、速度場を分解する大きなノイズの多い海流データセットを含む実世界のデータに適用し、有用な科学的洞察を得る。

Understanding natural symmetries is key to making sense of our complex and ever-changing world. Recent work has shown that neural networks can learn such symmetries directly from data using Hamiltonian Neural Networks (HNNs). But HNNs struggle when trained on datasets where energy is not conserved. In this paper, we ask whether it is possible to identify and decompose conservative and dissipative dynamics simultaneously. We propose Dissipative Hamiltonian Neural Networks (D-HNNs), which parameterize both a Hamiltonian and a Rayleigh dissipation function. Taken together, they represent an implicit Helmholtz decomposition which can separate dissipative effects such as friction from symmetries such as conservation of energy. We train our model to decompose a damped mass-spring system into its friction and inertial terms and then show that this decomposition can be used to predict dynamics for unseen friction coefficients. Then we apply our model to real world data including a large, noisy ocean current dataset where decomposing the velocity field yields useful scientific insights.
翻訳日:2022-01-27 05:39:07 公開日:2022-01-25
# (参考訳) バングラ手書きディジット認識のための手作り特徴抽出手法の古典的アプローチ [全文訳有]

A Classical Approach to Handcrafted Feature Extraction Techniques for Bangla Handwritten Digit Recognition ( http://arxiv.org/abs/2201.10102v1 )

ライセンス: CC BY 4.0
Md. Ferdous Wahid, Md. Fahim Shahriar, Md. Shohanur Islam Sobuj(参考訳) Bangla Handwriting Digit Recognitionは、Bangla OCRの開発において重要な一歩である。 しかし、複雑な形状、構造的類似性、バングラ数字の独特な構成様式は、区別が比較的難しい。 そこで本稿では,Bangla Handwriting Digit: K-Nearest Neighbor (KNN), Support Vector Machine (SVM), Random Forest (RF), and Gradient-Boosted Decision Trees (GBDT) の3つの手作り特徴抽出技術に基づいて,NumtaDB, CMARTdb, Ekush, BDRWの4つの公開手書き文字データベース上でのHistogram of Oriented Gradients (HOG), Local Binary Pattern (LBP), Gaborフィルタをベンチマークした。 ここでは,データセット画像から特徴を抽出する手作り特徴抽出手法を用いて,バングラ文字を識別するために機械学習分類器を訓練する。 さらに分類アルゴリズムのハイパーパラメータを微調整して、これらのアルゴリズムから最も優れたBangla手書き桁認識性能を得るとともに、採用したすべてのモデルの中で、HOG機能をSVMモデル(HOG+SVM)と組み合わせることで、すべてのデータセットで最高のパフォーマンス指標を得た。 numtadb, cmartdb, ekush, bdrwデータセットにおけるhog+svm法の認識精度は, それぞれ93.32%, 98.08%, 95.68%, 89.68%となり, 最近の最新手法と比較した。

Bangla Handwritten Digit recognition is a significant step forward in the development of Bangla OCR. However, intricate shape, structural likeness and distinctive composition style of Bangla digits makes it relatively challenging to distinguish. Thus, in this paper, we benchmarked four rigorous classifiers to recognize Bangla Handwritten Digit: K-Nearest Neighbor (KNN), Support Vector Machine (SVM), Random Forest (RF), and Gradient-Boosted Decision Trees (GBDT) based on three handcrafted feature extraction techniques: Histogram of Oriented Gradients (HOG), Local Binary Pattern (LBP), and Gabor filter on four publicly available Bangla handwriting digits datasets: NumtaDB, CMARTdb, Ekush and BDRW. Here, handcrafted feature extraction methods are used to extract features from the dataset image, which are then utilized to train machine learning classifiers to identify Bangla handwritten digits. We further fine-tuned the hyperparameters of the classification algorithms in order to acquire the finest Bangla handwritten digits recognition performance from these algorithms, and among all the models we employed, the HOG features combined with SVM model (HOG+SVM) attained the best performance metrics across all datasets. The recognition accuracy of the HOG+SVM method on the NumtaDB, CMARTdb, Ekush and BDRW datasets reached 93.32%, 98.08%, 95.68% and 89.68%, respectively as well as we compared the model performance with recent state-of-art methods.
翻訳日:2022-01-27 05:26:48 公開日:2022-01-25
# (参考訳) 2つの頭は1つより優れている:構造化および非構造化電子健康記録の事前訓練による医療表現の強化

Two heads are better than one: Enhancing medical representations by pre-training over structured and unstructured electronic health records ( http://arxiv.org/abs/2201.10113v1 )

ライセンス: CC BY 4.0
Sicen Liu, Xiaolong Wang, Yongshuai Hou, Ge Li, Hui Wang, Hui Xu, Yang Xiang, Buzhou Tang(参考訳) 電子健康記録(ehrs)の巨大な文脈は、構造化(コード)データと非構造化(テキスト)データが2つの重要なテキスト的モダリティである医療を改善するための大きな可能性を生み出した。 これらは単独では存在せず、実際の臨床シナリオで相互に補完することができる。 しかし、医療情報学における既存の研究のほとんどは、特定のモダリティのみに焦点を当てるか、異なるモダリティからの情報を直接結合し、それら間の相互作用や情報共有を無視している。 これらの課題に対処するため、構造化データと非構造化データの両方からなるマルチモーダルEHRから代表的特徴を自動学習するために、UMM-PLMという統合された深層学習に基づく医学事前学習言語モデルを提案した。 具体的には、まず、各データソースからユニモーダル表現を別々に学習するユニモーダル固有特性を捉えるために、並列ユニモーダル情報表現モジュールを開発した。 異なるモジュラリティ間の相互作用をモデル化するために、クロスモーダルモジュールが導入された。 我々は,構造化データと非構造化データの両方を含む大規模eersデータセット上でモデルを事前学習し,薬の推奨,30日間の読み出し,icd符号化という3つの下流臨床課題におけるモデルの有効性を広範な実験で検証した。 その結果、UMM-PLMのパワーは、ベンチマーク手法や最先端のベースラインと比較できる。 UMM-PLMは、多モーダルテキスト情報に対して効果的に関心を持ち、臨床意思決定のためのより包括的な解釈を提供する可能性がある。

The massive context of electronic health records (EHRs) has created enormous potentials for improving healthcare, among which structured (coded) data and unstructured (text) data are two important textual modalities. They do not exist in isolation and can complement each other in most real-life clinical scenarios. Most existing researches in medical informatics, however, either only focus on a particular modality or straightforwardly concatenate the information from different modalities, which ignore the interaction and information sharing between them. To address these issues, we proposed a unified deep learning-based medical pre-trained language model, named UMM-PLM, to automatically learn representative features from multimodal EHRs that consist of both structured data and unstructured data. Specifically, we first developed parallel unimodal information representation modules to capture the unimodal-specific characteristic, where unimodal representations were learned from each data source separately. A cross-modal module was further introduced to model the interactions between different modalities. We pre-trained the model on a large EHRs dataset containing both structured data and unstructured data and verified the effectiveness of the model on three downstream clinical tasks, i.e., medication recommendation, 30-day readmission and ICD coding through extensive experiments. The results demonstrate the power of UMM-PLM compared with benchmark methods and state-of-the-art baselines. Analyses show that UMM-PLM can effectively concern with multimodal textual information and has the potential to provide more comprehensive interpretations for clinical decision making.
翻訳日:2022-01-27 05:17:53 公開日:2022-01-25
# (参考訳) 不変グラフネットワークの収束性 [全文訳有]

Convergence of Invariant Graph Networks ( http://arxiv.org/abs/2201.10129v1 )

ライセンス: CC BY 4.0
Chen Cai, Yusu Wang(参考訳) グラフニューラルネットワーク(GNN)の表現力や過剰スムーシングなどの理論的性質は近年広く研究されているが、その収束性は比較的新しい方向である。 本稿では,1つの強力なGNN, Invariant Graph Network (IGN) のグラフからのグラフへの収束について検討する。 まず、線形同変層の新しい解釈に基づいて、一般$k$-IGN(例えば$k$)に対する線形層の安定性を証明した。 この結果に基づいて, エッジウェイトにアクセスできるが, グラファイト入力に対しては収束誤差が測定される, \citet{ruiz2020graphon} モデルの下での$k$-IGNの収束を証明した。 より自然な(かつより困難な)設定である \citet{keriven2020convergen ce} では、エッジ確率に従ってサンプリングされた 0-1 の隣接行列にしかアクセスできないので、まず、任意の ign の収束が不可能である負の結果を示す。 次に、エッジ確率推定の後、IGN のサブセットである IGN-small の収束を求める。 IGN-small には、スペクトル GNN を任意に近似できるような関数クラスがまだ存在することを示す。 最後に,様々なグラフモデル上で実験を行い,ステートメントを検証する。

Although theoretical properties such as expressive power and over-smoothing of graph neural networks (GNN) have been extensively studied recently, its convergence property is a relatively new direction. In this paper, we investigate the convergence of one powerful GNN, Invariant Graph Network (IGN) over graphs sampled from graphons. We first prove the stability of linear layers for general $k$-IGN (of order $k$) based on a novel interpretation of linear equivariant layers. Building upon this result, we prove the convergence of $k$-IGN under the model of \citet{ruiz2020graphon}, where we access the edge weight but the convergence error is measured for graphon inputs. Under the more natural (and more challenging) setting of \citet{keriven2020convergen ce} where one can only access 0-1 adjacency matrix sampled according to edge probability, we first show a negative result that the convergence of any IGN is not possible. We then obtain the convergence of a subset of IGNs, denoted as IGN-small, after the edge probability estimation. We show that IGN-small still contains function class rich enough that can approximate spectral GNNs arbitrarily well. Lastly, we perform experiments on various graphon models to verify our statements.
翻訳日:2022-01-27 05:16:37 公開日:2022-01-25
# (参考訳) ほぼ最適変数制約によるベストアーム同定

Almost Optimal Variance-Constrained Best Arm Identification ( http://arxiv.org/abs/2201.10142v1 )

ライセンス: CC BY 4.0
Yunlong Hou, Vincent Y. F. Tan, Zixin Zhong(参考訳) パラメータフリーなアルゴリズムであるva-lucbを設計・解析し,固定信頼設定下で最良アームを同定し,選択したアームのばらつきが与えられたしきい値よりも厳密に小さいという厳密な制約の下で解析する。 VA-LUCBのサンプルの複雑さの上限は、基本分散を考慮したハードネス量$H_{VA}$によって特徴づけられる。 低境界を証明することにより、VA-LUCBのサンプル複雑性が$H_{VA}$の係数対数に最適であることを示す。 大規模な実験は、サンプル複雑性の様々な項への依存を$H_{VA}$で相関させる。 David et al. (2018) によるVA-LUCBの実証的な性能と近い競合である RiskAverse-UCB-BAI (2018) を比較することで、VA-LUCBはリスクに制約された最高の腕の識別問題、特に最もリスクの高い症例において、最も低いサンプルの複雑さを持つことが示唆された。

We design and analyze VA-LUCB, a parameter-free algorithm, for identifying the best arm under the fixed-confidence setup and under a stringent constraint that the variance of the chosen arm is strictly smaller than a given threshold. An upper bound on VA-LUCB's sample complexity is shown to be characterized by a fundamental variance-aware hardness quantity $H_{VA}$. By proving a lower bound, we show that sample complexity of VA-LUCB is optimal up to a factor logarithmic in $H_{VA}$. Extensive experiments corroborate the dependence of the sample complexity on the various terms in $H_{VA}$. By comparing VA-LUCB's empirical performance to a close competitor RiskAverse-UCB-BAI by David et al. (2018), our experiments suggest that VA-LUCB has the lowest sample complexity for this class of risk-constrained best arm identification problems, especially for the riskiest instances.
翻訳日:2022-01-27 03:46:04 公開日:2022-01-25
# (参考訳) 因果創発のためのニューラルインフォメーションスクイーザ

Neural Information Squeezer for Causal Emergence ( http://arxiv.org/abs/2201.10154v1 )

ライセンス: CC BY 4.0
Jiang Zhang(参考訳) 因果発生に関する古典的な研究により、マルコフ力学系では、システムの状態を適切な方法で粗粒化すれば、同じシステムの下位レベルよりも高いレベルの記述でより強い因果関係が見つかることが判明した。 しかし,この創発的因果関係をデータから同定することは依然として難しい課題であり,正確な粗粒化戦略が容易には見出せないため解決されていない。 本稿では,実効的な粗粒化戦略とマクロ状態のダイナミクスを自動抽出し,時系列データから直接因果出を識別する,Neural Information Squeezerと呼ばれる一般的な機械学習フレームワークを提案する。 情報変換と情報ドロップアウトという2つのプロセスに粗粒処理を分解することで、情報チャネルの幅を正確に制御できるだけでなく、マクロ力学の有効情報の正確な表現を含むいくつかの重要な特性を解析的に導出することができる。 また、我々のフレームワークが様々なレベルのダイナミクスを抽出し、いくつかの例のシステムでデータから因果関係の出現を特定する方法を示す。

The classic studies of causal emergence have revealed that in some Markovian dynamical systems, far stronger causal connections can be found on the higher-level descriptions than the lower-level of the same systems if we coarse-grain the system states in an appropriate way. However, identifying this emergent causality from the data is still a hard problem that has not been solved because the correct coarse-graining strategy can not be found easily. This paper proposes a general machine learning framework called Neural Information Squeezer to automatically extract the effective coarse-graining strategy and the macro-state dynamics, as well as identify causal emergence directly from the time series data. By decomposing a coarse-graining operation into two processes: information conversion and information dropping out, we can not only exactly control the width of the information channel, but also can derive some important properties analytically including the exact expression of the effective information of a macro-dynamics. We also show how our framework can extract the dynamics on different levels and identify causal emergence from the data on several exampled systems.
翻訳日:2022-01-27 03:44:42 公開日:2022-01-25
# (参考訳) セマンティックビデオ符号化:AIタスクのための構造化ビットストリームに静的動的キューを組み込む [全文訳有]

Semantically Video Coding: Instill Static-Dynamic Clues into Structured Bitstream for AI Tasks ( http://arxiv.org/abs/2201.10162v1 )

ライセンス: CC0 1.0
Xin Jin, Ruoyu Feng, Simeng Sun, Runsen Feng, Tianyu He, Zhibo Chen(参考訳) 従来のメディア符号化方式では、イメージ/動画を意味不明なバイナリストリームにエンコードするが、ビットストリームレベルで下流のインテリジェントタスクを直接サポートできない。 Semantically Structured Image Coding (SSIC)フレームワークは、Semantically Structured Bitstream (SSB)を介して、デコードフリーまたは部分デコードイメージのインテリジェントなタスク分析を可能にする最初の試みである。 しかし、SSICは画像符号化のみを考慮し、生成したSSBは静的オブジェクト情報のみを含む。 本稿では,映像符号化の観点から意味論的構造化コーディングの考え方を拡張し,異種知的アプリケーションをサポートするためのssvc(semantically structured video coding)フレームワークを提案する。 映像信号はよりリッチなダイナミックモーション情報を含み、隣接するフレーム間の類似性により冗長性が高い。 そこで我々は,静的な物体特性と動的動きの手がかりの両方を含む意味的構造化ビットストリーム(SSB)をSSVCに再構成する。 具体的には,連続動作情報をエンコードするオプティカルフローを導入し,予測符号化アーキテクチャによるフレーム間冗長性を低減し,その後,光学フローと残余情報をssbに再構成し,提案するssvcがビデオベースの下流知的アプリケーションをより適応的にサポートできるようにする。 広範な実験により、提案されたSSVCフレームワークは、部分的にデコードされたビットストリームに依存するだけで、複数のインテリジェントタスクを直接サポートできることが示された。 これにより、完全なビットストリーム圧縮が回避され、インテリジェント分析のためのビットレート/帯域消費が大幅に削減される。 本稿では,画像物体検出,ポーズ推定,映像動作認識,映像物体分割などのタスクについて,この点を検証する。

Traditional media coding schemes typically encode image/video into a semantic-unknown binary stream, which fails to directly support downstream intelligent tasks at the bitstream level. Semantically Structured Image Coding (SSIC) framework makes the first attempt to enable decoding-free or partial-decoding image intelligent task analysis via a Semantically Structured Bitstream (SSB). However, the SSIC only considers image coding and its generated SSB only contains the static object information. In this paper, we extend the idea of semantically structured coding from video coding perspective and propose an advanced Semantically Structured Video Coding (SSVC) framework to support heterogeneous intelligent applications. Video signals contain more rich dynamic motion information and exist more redundancy due to the similarity between adjacent frames. Thus, we present a reformulation of semantically structured bitstream (SSB) in SSVC which contains both static object characteristics and dynamic motion clues. Specifically, we introduce optical flow to encode continuous motion information and reduce cross-frame redundancy via a predictive coding architecture, then the optical flow and residual information are reorganized into SSB, which enables the proposed SSVC could better adaptively support video-based downstream intelligent applications. Extensive experiments demonstrate that the proposed SSVC framework could directly support multiple intelligent tasks just depending on a partially decoded bitstream. This avoids the full bitstream decompression and thus significantly saves bitrate/bandwidth consumption for intelligent analytics. We verify this point on the tasks of image object detection, pose estimation, video action recognition, video object segmentation, etc.
翻訳日:2022-01-27 03:43:38 公開日:2022-01-25
# (参考訳) トランスフォーマーによるエンドツーエンドビデオグラウンドの探索とマッチング [全文訳有]

Explore and Match: End-to-End Video Grounding with Transformer ( http://arxiv.org/abs/2201.10168v1 )

ライセンス: CC BY 4.0
Sangmin Woo, Jinyoung Park, Inyong Koo, Sumin Lee, Minki Jeong, Changick Kim(参考訳) 提案方式と提案なし方式の2つの手法をシームレスに統合することを目的とした,ビデオグラウンドのためのexplore-and-matchという新しいパラダイムを提案する。 この目的を達成するために,ビデオグラウンドディングをセット予測問題として定式化し,リッチなコンテキスト化と並列デコーディングのアーキテクチャ的長所を生かした,エンドツーエンドのトレーニング可能なビデオグラウンド変換器(VidGTR)を設計する。 トレーニング全体のバランスは、異なる役割を担う2つの重要な損失、すなわち、スパンローカライゼーション損失とセットガイダンス損失によって決定される。 この2つの損失により、それぞれの提案はターゲットのタイムスパンを後退させ、ターゲットクエリを特定せざるを得なくなる。 トレーニングを通じて、VidGTRはまず、最初の提案を多様化するために検索スペースを探索し、その後、提案を対応するターゲットにマッチさせ、それらをきめ細かい方法で適合させる。 explore-and-matchスキームは、パイプラインに事前の知識をエンコードすることなく、2つの補完メソッドの強みをうまく組み合わせます。 その結果、vidgtrは2つのビデオグラウンディングベンチマークに新たな最先端結果を設定し、推論速度を2倍にした。

We present a new paradigm named explore-and-match for video grounding, which aims to seamlessly unify two streams of video grounding methods: proposal-based and proposal-free. To achieve this goal, we formulate video grounding as a set prediction problem and design an end-to-end trainable Video Grounding Transformer (VidGTR) that can utilize the architectural strengths of rich contextualization and parallel decoding for set prediction. The overall training is balanced by two key losses that play different roles, namely span localization loss and set guidance loss. These two losses force each proposal to regress the target timespan and identify the target query. Throughout the training, VidGTR first explores the search space to diversify the initial proposals and then matches the proposals to the corresponding targets to fit them in a fine-grained manner. The explore-and-match scheme successfully combines the strengths of two complementary methods, without encoding prior knowledge into the pipeline. As a result, VidGTR sets new state-of-the-art results on two video grounding benchmarks with double the inference speed.
翻訳日:2022-01-27 03:11:42 公開日:2022-01-25
# (参考訳) RFMask: 無線信号を用いた人間のシルエットセグメンテーションのためのシンプルなベースライン [全文訳有]

RFMask: A Simple Baseline for Human Silhouette Segmentation with Radio Signals ( http://arxiv.org/abs/2201.10175v1 )

ライセンス: CC BY 4.0
Zhi Wu, Dongheng Zhang, Chunyang Xie, Cong Yu, Jinbo Chen, Yang Hu, Yan Chen(参考訳) コンピュータビジョンで定義された人間のシルエットセグメンテーションは、人間の活動を理解する上で有望な結果を得た。 しかし、物理的制約により、光学カメラに基づく既存のシステムは、低照度、煙、不透明な障害条件下で性能が著しく低下する。 このような制約を克服するため,本稿では,障害物を回避し,照明条件に影響を受けない電波信号を用いてシルエットセグメンテーションを実現することを提案する。 提案するRFMaskフレームワークは3つのモジュールで構成されている。 まず、2つの平面上のミリ波レーダーで捉えたRF信号を空間領域に変換し、信号処理モジュールとの干渉を抑制する。 そして、RFフレーム上の人間の反射を検知し、人間の検出モジュールで周囲の信号から特徴を抽出する。 最後に、RFフレームから抽出した特徴を注目ベースのマスク生成モジュールで集約する。 提案手法を検証するため,804,760個の無線フレームと402,380個のカメラフレームを含むデータセットを,様々な場面で収集した。 実験の結果,従来の光学カメラベース手法が故障する困難なシナリオ(低光度シナリオや閉塞シナリオなど)においても,提案手法は印象的なヒトシルエットセグメンテーションを実現することができた。 我々の知る限りでは、これはミリ波信号に基づく人間のシルエットのセグメンテーションに向けた最初の研究である。 私たちの研究がベースラインとなり、無線信号で視覚タスクを実行するさらなる研究を刺激できることを願っています。 データセットとコードは公開されます。

Human silhouette segmentation, which is originally defined in computer vision, has achieved promising results for understanding human activities. However, the physical limitation makes existing systems based on optical cameras suffer from severe performance degradation under low illumination, smoke, and/or opaque obstruction conditions. To overcome such limitations, in this paper, we propose to utilize the radio signals, which can traverse obstacles and are unaffected by the lighting conditions to achieve silhouette segmentation. The proposed RFMask framework is composed of three modules. It first transforms RF signals captured by millimeter wave radar on two planes into spatial domain and suppress interference with the signal processing module. Then, it locates human reflections on RF frames and extract features from surrounding signals with human detection module. Finally, the extracted features from RF frames are aggregated with an attention based mask generation module. To verify our proposed framework, we collect a dataset containing 804,760 radio frames and 402,380 camera frames with human activities under various scenes. Experimental results show that the proposed framework can achieve impressive human silhouette segmentation even under the challenging scenarios(such as low light and occlusion scenarios) where traditional optical-camera-based methods fail. To the best of our knowledge, this is the first investigation towards segmenting human silhouette based on millimeter wave signals. We hope that our work can serve as a baseline and inspire further research that perform vision tasks with radio signals. The dataset and codes will be made in public.
翻訳日:2022-01-27 02:54:13 公開日:2022-01-25
# (参考訳) 事前学習型言語変換器はユニバーサルイメージ分類器である [全文訳有]

Pre-Trained Language Transformers are Universal Image Classifiers ( http://arxiv.org/abs/2201.10182v1 )

ライセンス: CC BY 4.0
Rahul Goel, Modar Sulaiman, Kimia Noorbakhsh, Mahdi Sharifi, Rajesh Sharma, Pooyan Jamshidi, Kallol Roy(参考訳) 顔画像は年齢、性別、人種、健康、感情、心理学など多くの隠された個人的特徴を開示している。 これらの特徴を理解することは、人々を異なる属性に分類するのに役立ちます。 本稿では,事前学習したトランスモデルを用いて画像の分類を行う手法を提案する。 犯罪及び非犯罪クラスにおける顔画像のバイナリ分類にプリトレーニングトランスを適用する。 GPT-2の事前訓練された変換器は、テキストを生成し、微調整して顔画像の分類を行う。 画像による微細化過程において、GT-2のほとんどの層はバックプロパゲーション中に凍結され、モデルが凍結予め訓練されたトランス (FPT) である。 FPTは普遍的な画像分類器として機能し, 顔画像へのFPTの適用を示す。 また、FPTを暗号化画像に使用して分類する。 FPTは生の顔画像と暗号化画像の両方に高い精度を示す。 メタラーニング能力のFPTは,その大きさが大きいため,理論と実験により大規模に訓練された。 GPT-2は、自己回帰プロセスを通じて一度に1つのワードトークンを生成するように訓練された。 その後、fptは画像分類のメタ学習能力としてヘビーテール特性を使用する。 本研究は,画像の機械分類における偏見を回避する方法のひとつであり,FPTは1つのテキストの事前学習のために世界的知識を符号化する。 テキストから得られたコンテキストの追加により分類の統計的誤りが減少する。本論文は、暗号化されたデータを用いた分類の倫理的側面を示す。犯罪画像は境界を越えて共有することに対して敏感であるが、倫理的な懸念をほとんど回避する。

Facial images disclose many hidden personal traits such as age, gender, race, health, emotion, and psychology. Understanding these traits will help to classify the people in different attributes. In this paper, we have presented a novel method for classifying images using a pretrained transformer model. We apply the pretrained transformer for the binary classification of facial images in criminal and non-criminal classes. The pretrained transformer of GPT-2 is trained to generate text and then fine-tuned to classify facial images. During the finetuning process with images, most of the layers of GT-2 are frozen during backpropagation and the model is frozen pretrained transformer (FPT). The FPT acts as a universal image classifier, and this paper shows the application of FPT on facial images. We also use our FPT on encrypted images for classification. Our FPT shows high accuracy on both raw facial images and encrypted images. We hypothesize the meta-learning capacity FPT gained because of its large size and trained on a large size with theory and experiments. The GPT-2 trained to generate a single word token at a time, through the autoregressive process, forced to heavy-tail distribution. Then the FPT uses the heavy-tail property as its meta-learning capacity for classifying images. Our work shows one way to avoid bias during the machine classification of images.The FPT encodes worldly knowledge because of the pretraining of one text, which it uses during the classification. The statistical error of classification is reduced because of the added context gained from the text.Our paper shows the ethical dimension of using encrypted data for classification.Crimi nal images are sensitive to share across the boundary but encrypted largely evades ethical concern.FPT showing good classification accuracy on encrypted images shows promise for further research on privacy-preserving machine learning.
翻訳日:2022-01-27 02:35:25 公開日:2022-01-25
# (参考訳) 不均衡な分類の文脈におけるコールドスタートアクティブラーニング戦略 [全文訳有]

Cold Start Active Learning Strategies in the Context of Imbalanced Classification ( http://arxiv.org/abs/2201.10227v1 )

ライセンス: CC BY 4.0
Etienne Brangbour and Pierrick Bruneau and Thomas Tamisier and St\'ephane Marchand-Maillet(参考訳) 本稿では,コールドスタートステージの解法,すなわちラベルを付けずに大量のデータの分類を初期化することを目的とした,新たなアクティブラーニング戦略を提案する。 さらに、ランダム選択が極めて非効率な不均衡コンテキストを扱うために、提案手法を設計する。 具体的には,クラスタリング構造から抽出した情報とラベル伝搬モデルを組み合わせた,要素スコアを用いたラベル不足と不均衡に対処する。 この戦略は、実際の洪水イベントのTwitterコンテンツw.r.t.証言に注釈をつけるケーススタディによって説明されている。 本手法は,少数層からのサンプルのリコールを促進することによって,クラス不均衡に効果的に対応することを示す。

We present novel active learning strategies dedicated to providing a solution to the cold start stage, i.e. initializing the classification of a large set of data with no attached labels. Moreover, proposed strategies are designed to handle an imbalanced context in which random selection is highly inefficient. Specifically, our active learning iterations address label scarcity and imbalance using element scores, combining information extracted from a clustering structure to a label propagation model. The strategy is illustrated by a case study on annotating Twitter content w.r.t. testimonies of a real flood event. We show that our method effectively copes with class imbalance, by boosting the recall of samples from the minority class.
翻訳日:2022-01-27 02:21:11 公開日:2022-01-25
# (参考訳) 非定常環境におけるバイレベルオンラインディープラーニング [全文訳有]

Bilevel Online Deep Learning in Non-stationary Environment ( http://arxiv.org/abs/2201.10236v1 )

ライセンス: CC BY 4.0
Ya-nan Han, Jian-wei Liu, Bing-biao Xiao, Xin-Tan Wang, Xiong-lin Luo(参考訳) 近年、オンライン学習の著しい進歩が見られた。 しかし、人工エージェントへの道の1つの大きな課題はコンセプトドリフトであり、データ確率分布は、データインスタンスがストリーム形式で順次到着した場所で変化し、破滅的なモデルの性能の低下につながる。 本稿では,バイレベル最適化戦略とオンラインアンサンブル分類器を組み合わせた新しいbilevel Online Deep Learning(BODL)フレームワークを提案する。 BODLアルゴリズムでは,深層ニューラルネットワークの異なる隠蔽層を出力して複数の基底分類器を構築するアンサンブル分類器を用いて,指数勾配降下法に基づいて基本分類器の重要な重みをオンライン的に更新する。 さらに,オンラインアンサンブルフレームワークの収束問題を克服するために,同様の制約を適用した。 次に、分類器の誤差率を利用した効率的な概念ドリフト検出機構を設計し、データ確率分布の変化を監視する。 概念ドリフトが検出されると、BODLアルゴリズムはバイレベル最適化によりモデルパラメータを適応的に更新し、大きなドリフトを回避し、正の転送を促進する。 最後に,様々なデータセットを用いた広範な実験とアブレーション実験を行い,bodlアルゴリズムが有望な手法であることを示す。

Recent years have witnessed enormous progress of online learning. However, a major challenge on the road to artificial agents is concept drift, that is, the data probability distribution would change where the data instance arrives sequentially in a stream fashion, which would lead to catastrophic forgetting and degrade the performance of the model. In this paper, we proposed a new Bilevel Online Deep Learning (BODL) framework, which combine bilevel optimization strategy and online ensemble classifier. In BODL algorithm, we use an ensemble classifier, which use the output of different hidden layers in deep neural network to build multiple base classifiers, the important weights of the base classifiers are updated according to exponential gradient descent method in an online manner. Besides, we apply the similar constraint to overcome the convergence problem of online ensemble framework. Then an effective concept drift detection mechanism utilizing the error rate of classifier is designed to monitor the change of the data probability distribution. When the concept drift is detected, our BODL algorithm can adaptively update the model parameters via bilevel optimization and then circumvent the large drift and encourage positive transfer. Finally, the extensive experiments and ablation studies are conducted on various datasets and the competitive numerical results illustrate that our BODL algorithm is a promising approach.
翻訳日:2022-01-27 02:10:05 公開日:2022-01-25
# (参考訳) 設計選択と機械学習モデルのパフォーマンス

Design choice and machine learning model performances ( http://arxiv.org/abs/2201.10239v1 )

ライセンス: CC BY 4.0
Rosa Arboretti, Riccardo Ceccato, Luca Pegoraro, Luigi Salmaso(参考訳) 実験設計(doe)と機械学習(ml)を、特定の産業現象に関するデータを収集・分析するための方法論として併用する出版物が増えている。 しかし,データ収集とデータ解析のためのモデルの設計の選択は,統計的・アルゴリズム的な利点ではなく,付随的な要因によって行われることが多いため,データ収集と分析にどのような設計とmlモデルを併用するかに関するガイドラインを提供する研究が不足している。 mlモデルの性能に関連して設計の選択を論じた文献は,今回が初めてである。 12の実験設計、7種類の予測モデル、物理過程をエミュレートする7つのテスト関数、8つのノイズ設定、ホモシドスティックとヘテロシドスティックの両方を考慮した広範な研究が行われた。 本研究の結果は, 実践者の作業に即時に影響を与え, DOE と ML の実践的応用に関するガイドラインを提供することができる。

An increasing number of publications present the joint application of Design of Experiments (DOE) and machine learning (ML) as a methodology to collect and analyze data on a specific industrial phenomenon. However, the literature shows that the choice of the design for data collection and model for data analysis is often driven by incidental factors, rather than by statistical or algorithmic advantages, thus there is a lack of studies which provide guidelines on what designs and ML models to jointly use for data collection and analysis. This is the first time in the literature that a paper discusses the choice of design in relation to the ML model performances. An extensive study is conducted that considers 12 experimental designs, 7 families of predictive models, 7 test functions that emulate physical processes, and 8 noise settings, both homoscedastic and heteroscedastic. The results of the research can have an immediate impact on the work of practitioners, providing guidelines for practical applications of DOE and ML.
翻訳日:2022-01-27 02:02:14 公開日:2022-01-25
# (参考訳) RNN-Tにおける音響表現とテキスト表現の融合の改善 [全文訳有]

Improving the fusion of acoustic and text representations in RNN-T ( http://arxiv.org/abs/2201.10240v1 )

ライセンス: CC BY 4.0
Chao Zhang, Bo Li, Zhiyun Lu, Tara N. Sainath and Shuo-yiin Chang(参考訳) リカレントニューラルネットワークトランスデューサ(RNN-T)は、最近、ストリーミング自動音声認識(ASR)のエンドツーエンドアプローチとして主流になっている。 サブワード単位の出力分布を推定するために、RNN-Tは、完全連結層をジョイントネットワークとして使用し、音響エンコーダを用いて抽出した音響表現と予測ネットワークを用いて得られたテキスト表現とを融合させる。 本稿では,より表現力に富んだ表現を出力層に供給するために,ゲーティング,バイリニアプーリング,およびそれらを結合ネットワークで組み合わせることを提案する。 また,RNN-T訓練開始時の予測ネットワークへの逆伝搬勾配を低減し,より優れた音響エンコーダ訓練を実現するための正規化手法を提案する。 9言語にわたる音声検索のための多言語asr設定実験の結果,提案手法を併用すると,数万のパラメータしか持たない単語誤り率を4%~5%削減できることがわかった。

The recurrent neural network transducer (RNN-T) has recently become the mainstream end-to-end approach for streaming automatic speech recognition (ASR). To estimate the output distributions over subword units, RNN-T uses a fully connected layer as the joint network to fuse the acoustic representations extracted using the acoustic encoder with the text representations obtained using the prediction network based on the previous subword units. In this paper, we propose to use gating, bilinear pooling, and a combination of them in the joint network to produce more expressive representations to feed into the output layer. A regularisation method is also proposed to enable better acoustic encoder training by reducing the gradients back-propagated into the prediction network at the beginning of RNN-T training. Experimental results on a multilingual ASR setting for voice search over nine languages show that the joint use of the proposed methods can result in 4%--5% relative word error rate reductions with only a few million extra parameters.
翻訳日:2022-01-27 02:01:09 公開日:2022-01-25
# (参考訳) 雑音ラベルを用いたクラスごとのGMM識別分析

GMM Discriminant Analysis with Noisy Label for Each Class ( http://arxiv.org/abs/2201.10242v1 )

ライセンス: CC BY 4.0
Jian-wei Liu, Zheng-ping Ren, Run-kun Lu, Xiong-lin Luo(参考訳) 現実世界のデータセットは、しばしばノイズの多いラベルを含み、標準分類アプローチを用いたそのようなデータセットからの学習は、望ましいパフォーマンスを生み出しないかもしれない。 本稿では,各クラスにノイズラベルを付与したガウス混合判別分析(GMDA)を提案する。 ラベル雑音による識別問題を解くために, 反転確率とクラス確率を導入し, emアルゴリズムを用いて解く。 また、収束の詳細な証明も提供する。 合成および実世界のデータセットに対する実験結果から,提案手法が他の4つの最先端手法よりも優れていることが示された。

Real world datasets often contain noisy labels, and learning from such datasets using standard classification approaches may not produce the desired performance. In this paper, we propose a Gaussian Mixture Discriminant Analysis (GMDA) with noisy label for each class. We introduce flipping probability and class probability and use EM algorithms to solve the discriminant problem with label noise. We also provide the detail proofs of convergence. Experimental results on synthetic and real-world datasets show that the proposed approach notably outperforms other four state-of-art methods.
翻訳日:2022-01-27 01:46:05 公開日:2022-01-25
# (参考訳) BERTHA:トランスファー学習人間によるビデオキャプション評価 [全文訳有]

BERTHA: Video Captioning Evaluation Via Transfer-Learned Human Assessment ( http://arxiv.org/abs/2201.10243v1 )

ライセンス: CC BY 4.0
Luis Lebron, Yvette Graham, Kevin McGuinness, Konstantinos Kouramas, Noel E. O'Connor(参考訳) ビデオキャプションシステムの評価は、例えば、キャプションの流布、単一のシーンで発生する複数のアクション、重要と考えられるものに対する人間の偏見など、考慮すべき複数の要因があるため、難しい課題である。 ほとんどのメトリクスは、システムが生成したキャプションが1つまたは1つの人間の注釈付きのキャプションにどの程度似ているかを測定する。 本稿では,これらのシステムを評価するための深層学習モデルに基づく新しい手法を提案する。 このモデルはBERTをベースにしており、複数のNLPタスクでうまく動作することが示されている言語モデルである。 目的は、モデルが人間のものと似た評価を行うことを学習することである。 そのために、システム生成キャプションの人間による評価を含むデータセットを使用する。 データセットは、TRECVidビデオからテキストタスクへの様々な年次参加システムによって生成されるキャプションの人為的な判断から成り立っている。 これらのアノテーションは公開されます。 BERTHAは好意的な結果を得て、いくつかの設定で一般的に使用される指標より優れている。

Evaluating video captioning systems is a challenging task as there are multiple factors to consider; for instance: the fluency of the caption, multiple actions happening in a single scene, and the human bias of what is considered important. Most metrics try to measure how similar the system generated captions are to a single or a set of human-annotated captions. This paper presents a new method based on a deep learning model to evaluate these systems. The model is based on BERT, which is a language model that has been shown to work well in multiple NLP tasks. The aim is for the model to learn to perform an evaluation similar to that of a human. To do so, we use a dataset that contains human evaluations of system generated captions. The dataset consists of the human judgments of the captions produce by the system participating in various years of the TRECVid video to text task. These annotations will be made publicly available. BERTHA obtain favourable results, outperforming the commonly used metrics in some setups.
翻訳日:2022-01-27 01:44:48 公開日:2022-01-25
# (参考訳) SGDとそのモメンタムバリアントの均一性について [全文訳有]

On Uniform Boundedness Properties of SGD and its Momentum Variants ( http://arxiv.org/abs/2201.10245v1 )

ライセンス: CC BY 4.0
Xiaoyu Wang and Mikael Johansson(参考訳) 確率勾配降下に関する理論的、潜在的に実用的な問題は、軌道が無限大に逃れることである。 本稿では,逐次勾配降下アルゴリズムとその重要な運動量変化の軌跡に沿ったイテレートと関数値の一様有界性について検討する。 損失関数の滑らかさとr$-分散性の下では、広く使われているステップデケイやコサインを含む幅広いステップサイズ族がステップサイズを再開する(またはしない)ことにより、一様に有界なイテレートと関数値が得られる。 これらの仮定を満たすいくつかの重要な応用として、位相探索問題、ガウス混合モデル、ニューラルネットワーク分類器について詳述する。

A theoretical, and potentially also practical, problem with stochastic gradient descent is that trajectories may escape to infinity. In this note, we investigate uniform boundedness properties of iterates and function values along the trajectories of the stochastic gradient descent algorithm and its important momentum variant. Under smoothness and $R$-dissipativity of the loss function, we show that broad families of step-sizes, including the widely used step-decay and cosine with (or without) restart step-sizes, result in uniformly bounded iterates and function values. Several important applications that satisfy these assumptions, including phase retrieval problems, Gaussian mixture models and some neural network classifiers, are discussed in detail.
翻訳日:2022-01-27 01:29:22 公開日:2022-01-25
# (参考訳) DocEnTr: エンドツーエンドのドキュメントイメージ拡張トランス [全文訳有]

DocEnTr: An End-to-End Document Image Enhancement Transformer ( http://arxiv.org/abs/2201.10252v1 )

ライセンス: CC BY 4.0
Mohamed Ali Souibgui, Sanket Biswas, Sana Khamekhem Jemni, Yousri Kessentini, Alicia Forn\'es, Josep Llad\'os, Umapada Pal(参考訳) 文書画像は多くの劣化シナリオに影響され、認識と処理が困難になる。 このデジタル化の時代には、適切な使用のためにそれらを軽視することが重要である。 この課題に対処するために,視覚変換器をベースとしたエンコーダデコーダアーキテクチャを提案する。 エンコーダは、畳み込み層を使用せずに、ピクセルパッチと位置情報を直接操作し、デコーダは、符号化されたパッチからクリーンイメージを再構築する。 実験の結果,dibcoベンチマークにおける最先端手法と比較して,提案モデルが優れていることがわかった。 コードとモデルは以下で公開される。 \url{https://github.com/d ali92002/DocEnTR}。

Document images can be affected by many degradation scenarios, which cause recognition and processing difficulties. In this age of digitization, it is important to denoise them for proper usage. To address this challenge, we present a new encoder-decoder architecture based on vision transformers to enhance both machine-printed and handwritten document images, in an end-to-end fashion. The encoder operates directly on the pixel patches with their positional information without the use of any convolutional layers, while the decoder reconstructs a clean image from the encoded patches. Conducted experiments show a superiority of the proposed model compared to the state-of the-art methods on several DIBCO benchmarks. Code and models will be publicly available at: \url{https://github.com/d ali92002/DocEnTR}.
翻訳日:2022-01-26 23:59:21 公開日:2022-01-25
# (参考訳) PreVIS -- アセンブリ品質制御におけるインタラクティブリバースエンジニアリングのための機械学習と視覚補間を組み合わせたアプローチ [全文訳有]

PREVIS -- A Combined Machine Learning and Visual Interpolation Approach for Interactive Reverse Engineering in Assembly Quality Control ( http://arxiv.org/abs/2201.10257v1 )

ライセンス: CC BY 4.0
Patrick Ruediger, Felix Claus, Viktor Leonhardt, Hans Hagen, Jan C. Aurich, Christoph Garth(参考訳) 本稿では,工学アプリケーションにおける機械学習の性能解析能力を向上させるビジュアルアナリティクスツールprevisを提案する。 提示されたツールチェーンは回帰モデルの直接比較を可能にする。 さらに,従来の補間手法を利用して,回帰誤差が元の領域,部分幾何学の関心領域に与える影響を可視化する手法を提案する。 さらに,視覚補間による変位場のユーザ駆動パラメータ変化のリアルタイムプレビューを可能にする。 これにより、迅速かつ説明可能なオンライン変更管理が可能になる。 自動車エンジンボンネットのアンティー最適化による性能評価を行った。

We present PREVIS, a visual analytics tool, enhancing machine learning performance analysis in engineering applications. The presented toolchain allows for a direct comparison of regression models. In addition, we provide a methodology to visualize the impact of regression errors on the underlying field of interest in the original domain, the part geometry, via exploiting standard interpolation methods. Further, we allow a real-time preview of user-driven parameter changes in the displacement field via visual interpolation. This allows for fast and accountable online change management. We demonstrate the effectiveness with an ex-ante optimization of an automotive engine hood.
翻訳日:2022-01-26 23:44:27 公開日:2022-01-25
# (参考訳) ロボットの深層学習指導のための常識推論と知識獲得の融合

Combining Commonsense Reasoning and Knowledge Acquisition to Guide Deep Learning in Robotics ( http://arxiv.org/abs/2201.10266v1 )

ライセンス: CC BY 4.0
Mohan Sridharan, Tiago Mota(参考訳) ディープネットワークモデルに基づくアルゴリズムは、ロボティクスとaiの多くのパターン認識と意思決定タスクに使われている。 これらのモデルをトレーニングするには、大きなラベル付きデータセットとかなりの計算資源が必要である。 また,これらのモデルの内部表現や推論機構についても検討することは困難である。 本稿では,知識表現,推論,学習の課題に対処するためのステップとして,認知システムの研究から着想を得たアーキテクチャについて述べる。 モチベーションの例として,物体の隠蔽と映像中の物体構成の安定性を考慮し,任意のシーンにおける乱れを低減しようとする補助ロボットについて考察する。 この文脈において,我々のアーキテクチャは物体間の空間関係の接地を段階的に学習し,修正し,入力画像から空間情報を抽出するためにこの接地を用いる。 この情報と不完全なコモンセンスドメイン知識を持つ非単調論理推論は、安定性と咬合に関する決定に使用される。 このような推論では処理できない画像に対しては、手前のタスクに関連する領域を自動的に識別し、深層ネットワークモデルを訓練して望ましい決定を行う。 ディープネットワークのトレーニングに使用される画像領域は、その後の推論のために既存の知識とマージされた、これまで未知の状態の制約を漸進的に取得するためにも使用される。 シミュレーションおよび実世界画像を用いた実験評価の結果,深層ネットワークのみに基づくベースラインと比較すると,意思決定の信頼性が向上し,データ駆動型深層ネットワークモデルのトレーニングに要する労力が軽減されることがわかった。

Algorithms based on deep network models are being used for many pattern recognition and decision-making tasks in robotics and AI. Training these models requires a large labeled dataset and considerable computational resources, which are not readily available in many domains. Also, it is difficult to explore the internal representations and reasoning mechanisms of these models. As a step towards addressing the underlying knowledge representation, reasoning, and learning challenges, the architecture described in this paper draws inspiration from research in cognitive systems. As a motivating example, we consider an assistive robot trying to reduce clutter in any given scene by reasoning about the occlusion of objects and stability of object configurations in an image of the scene. In this context, our architecture incrementally learns and revises a grounding of the spatial relations between objects and uses this grounding to extract spatial information from input images. Non-monotonic logical reasoning with this information and incomplete commonsense domain knowledge is used to make decisions about stability and occlusion. For images that cannot be processed by such reasoning, regions relevant to the tasks at hand are automatically identified and used to train deep network models to make the desired decisions. Image regions used to train the deep networks are also used to incrementally acquire previously unknown state constraints that are merged with the existing knowledge for subsequent reasoning. Experimental evaluation performed using simulated and real-world images indicates that in comparison with baselines based just on deep networks, our architecture improves reliability of decision making and reduces the effort involved in training data-driven deep network models.
翻訳日:2022-01-26 23:36:34 公開日:2022-01-25
# (参考訳) 最終マイル配送における学習嗜好の確率推定と構造化出力予測 [全文訳有]

Probability estimation and structured output prediction for learning preferences in last mile delivery ( http://arxiv.org/abs/2201.10269v1 )

ライセンス: CC BY 4.0
Rocsildes Canoy, Victor Bucarey, Yves Molenbruch, Maxime Mulamba, Jayanta Mandi, Tias Guns(参考訳) 我々は,ラストマイル配送の文脈において,ドライバとプランナーの嗜好を学習する問題について検討する。 歴史的決定とデリバリの場所を含むデータセットを考えると、目標は意思決定者の暗黙の好みを捉えることだ。 1つは、停止(またはゾーン)間の遷移確率を学習する確率推定法である。 これは高速で正確な方法であり、最近vrp設定で研究された。 さらに,距離や確率,ペナルティといった複数の目的を最適にバランスさせる方法について,機械学習を用いて推測する。 具体的には,tspソルバを繰り返し呼び出すことで学習を行う構造化出力予測問題として学習問題をキャストする。 もうひとつの重要な側面は、ラストマイルデリバリでは、すべてのアドレスが潜在的なクライアントであり、従ってデータは極めてスパースであることです。 そこで我々は,まずゾーンレベルの選好を学習してゾーンルーティングを計算し,その後にペナルティベースのtspがストップルーティングを計算する2段階アプローチを提案する。 その結果,ゾーン遷移確率推定は良好に動作し,構造化された出力予測学習によりさらなる結果が得られた。 そこで我々は,確率推定と機械学習の両組み合わせを,学習中と最終解を計算する際に,標準のTSPソルバを用いて実現し,その方法論が他の実生活,TSP変種,あるいはプロプライエタリな解法に適用可能であることを示す。

We study the problem of learning the preferences of drivers and planners in the context of last mile delivery. Given a data set containing historical decisions and delivery locations, the goal is to capture the implicit preferences of the decision-makers. We consider two ways to use the historical data: one is through a probability estimation method that learns transition probabilities between stops (or zones). This is a fast and accurate method, recently studied in a VRP setting. Furthermore, we explore the use of machine learning to infer how to best balance multiple objectives such as distance, probability and penalties. Specifically, we cast the learning problem as a structured output prediction problem, where training is done by repeatedly calling the TSP solver. Another important aspect we consider is that for last-mile delivery, every address is a potential client and hence the data is very sparse. Hence, we propose a two-stage approach that first learns preferences at the zone level in order to compute a zone routing; after which a penalty-based TSP computes the stop routing. Results show that the zone transition probability estimation performs well, and that the structured output prediction learning can improve the results further. We hence showcase a successful combination of both probability estimation and machine learning, all the while using standard TSP solvers, both during learning and to compute the final solution; this means the methodology is applicable to other, real-life, TSP variants, or proprietary solvers.
翻訳日:2022-01-26 23:35:22 公開日:2022-01-25
# (参考訳) 視覚のための畳み込みxフォーマ [全文訳有]

Convolutional Xformers for Vision ( http://arxiv.org/abs/2201.10271v1 )

ライセンス: CC BY 4.0
Pranav Jeevan and Amit sethi(参考訳) 視覚変換器(ViT)は、特定のベンチマークにおける最先端の精度にもかかわらず、画像の処理に限られている。 限定的な使用の理由は、畳み込みニューラルネットワーク(CNN)と比較して、より大きなトレーニングデータセットとより多くの計算リソースを必要とするためである。 本稿では,これらの制約を克服するため,線形アテンション-畳み込みハイブリッドアーキテクチャーであるConvolutional X-formers for Vision (CXV)を提案する。 我々は,gpu使用量を削減するために,アクタ,nystr\"omformer,リニアトランスフォーマタなどのリニアアテンション機構を二次アテンションに置き換えた。 画像データのインダクティブプリエントは畳み込みサブレイヤによって提供され、vitsが使用するクラストークンや位置埋め込みの必要性がなくなる。 また,異なるトレーニングフェーズで2つの異なるオプティマイザを使用する新しいトレーニング手法を提案し,異なるアーキテクチャにおけるtop-1画像分類精度の向上を示す。 CXVは、他のアーキテクチャ、トークンミキサー(例えば、ConvMixer、FNet、MLPミキサー)、トランスフォーマーモデル(例えば、ViT、CCT、CvT、ハイブリッドXformers)、限られたデータとGPUリソース(コア、RAM、パワー)のシナリオにおける画像分類のためのResNetsなどより優れている。

Vision transformers (ViTs) have found only limited practical use in processing images, in spite of their state-of-the-art accuracy on certain benchmarks. The reason for their limited use include their need for larger training datasets and more computational resources compared to convolutional neural networks (CNNs), owing to the quadratic complexity of their self-attention mechanism. We propose a linear attention-convolutio n hybrid architecture -- Convolutional X-formers for Vision (CXV) -- to overcome these limitations. We replace the quadratic attention with linear attention mechanisms, such as Performer, Nystr\"omformer, and Linear Transformer, to reduce its GPU usage. Inductive prior for image data is provided by convolutional sub-layers, thereby eliminating the need for class token and positional embeddings used by the ViTs. We also propose a new training method where we use two different optimizers during different phases of training and show that it improves the top-1 image classification accuracy across different architectures. CXV outperforms other architectures, token mixers (e.g. ConvMixer, FNet and MLP Mixer), transformer models (e.g. ViT, CCT, CvT and hybrid Xformers), and ResNets for image classification in scenarios with limited data and GPU resources (cores, RAM, power).
翻訳日:2022-01-26 23:20:40 公開日:2022-01-25
# (参考訳) 脳画像の教師なしマルチモーダル登録のための相互情報ニューラル推定 [全文訳有]

Mutual information neural estimation for unsupervised multi-modal registration of brain images ( http://arxiv.org/abs/2201.10305v1 )

ライセンス: CC BY 4.0
Gerard Snaauw (1), Michele Sasdelli (1), Gabriel Maicas (1), Stephan Lau (1 and 2), Johan Verjans (1 and 2), Mark Jenkinson (1 and 2), Gustavo Carneiro (1) ((1) Australian Institute for Machine Learning (AIML), University of Adelaide, Adelaide, Australia, (2) South Australian Health and Medical Research Institute (SAHMRI), Adelaide, Australia)(参考訳) 画像誘導手術や治療における多くの応用には、高速で信頼性の高い非線形マルチモーダル画像登録が必要である。 近年,教師なしの深層学習に基づく登録手法は,短時間で反復的な手法よりも優れた性能を示した。 学習に基づく手法の多くはモノモダル画像登録に重点を置いている。 マルチモーダル登録の拡張は、相互情報(MI)のような適切な類似性関数の使用に依存する。 エンド・ツー・エンドのトレーニング可能なネットワークにおける画像ペア間のMI推定による深層学習に基づく登録手法の学習指導について提案する。 この結果から,2層ネットワークは単モードとマルチモーダルの両方で,サブ秒のランタイムで競合する結果が得られることがわかった。 反復法と深層学習法を比較すると,MI法は位相的および定性的に優れた結果が得られ,非微分型変換の速度は極めて低かった。 リアルタイム臨床応用は、解剖学的構造の視覚的整合性が向上し、登録障害/アウトリージが減少する。

Many applications in image-guided surgery and therapy require fast and reliable non-linear, multi-modal image registration. Recently proposed unsupervised deep learning-based registration methods have demonstrated superior performance compared to iterative methods in just a fraction of the time. Most of the learning-based methods have focused on mono-modal image registration. The extension to multi-modal registration depends on the use of an appropriate similarity function, such as the mutual information (MI). We propose guiding the training of a deep learning-based registration method with MI estimation between an image-pair in an end-to-end trainable network. Our results show that a small, 2-layer network produces competitive results in both mono- and multimodal registration, with sub-second run-times. Comparisons to both iterative and deep learning-based methods show that our MI-based method produces topologically and qualitatively superior results with an extremely low rate of non-diffeomorphic transformations. Real-time clinical application will benefit from a better visual matching of anatomical structures and less registration failures/outliers.
翻訳日:2022-01-26 23:07:15 公開日:2022-01-25
# (参考訳) 推移度とクラスター度に基づく二項関係の比較研究 [全文訳有]

Comparison research on binary relations based on transitive degrees and cluster degrees ( http://arxiv.org/abs/2201.10315v1 )

ライセンス: CC BY 4.0
Zhaohao Wang and Huifang Yue(参考訳) 区間値情報システムは、単値情報システムの一般化されたモデルである。 ラフセットアプローチにより、区間値情報システムの研究が盛んに行われている。 著者は同じインターバル値情報システムから多くのバイナリ関係を確立することができる。 本稿では,これらの二項関係を比較して,区間値情報システムにおいて適切な関係を選択するための数値尺度を提案する。 まず、類似度に基づいて、同じ間隔値情報システムから誘導される最も一般的な3つの二項関係を比較する。 次に,推移次数とクラスター次数の概念を提案し,それらの性質について考察する。 最後に,推移次数とクラスター次数を用いて二項関係を比較する手法を提案する。 さらに、これらの手法を用いて顔認識データセットから引き起こされる最も一般的な3つの関係を解析し、ラフセットアプローチにより区間値情報システムを扱う場合、$rf_{b} ^{\lambda}$ が良い選択であることを示す。

Interval-valued information systems are generalized models of single-valued information systems. By rough set approach, interval-valued information systems have been extensively studied. Authors could establish many binary relations from the same interval-valued information system. In this paper, we do some researches on comparing these binary relations so as to provide numerical scales for choosing suitable relations in dealing with interval-valued information systems. Firstly, based on similarity degrees, we compare the most common three binary relations induced from the same interval-valued information system. Secondly, we propose the concepts of transitive degree and cluster degree, and investigate their properties. Finally, we provide some methods to compare binary relations by means of the transitive degree and the cluster degree. Furthermore, we use these methods to analyze the most common three relations induced from Face Recognition Dataset, and obtain that $RF_{B} ^{\lambda}$ is a good choice when we deal with an interval-valued information system by means of rough set approach.
翻訳日:2022-01-26 22:57:55 公開日:2022-01-25
# (参考訳) ML4CO-KIDA:データ集約における知識継承 [全文訳有]

ML4CO-KIDA: Knowledge Inheritance in Data Aggregation ( http://arxiv.org/abs/2201.10328v1 )

ライセンス: CC BY 4.0
Zixuan Cao, Yang Xu, Zhewei Huang, Shuchang Zhou(参考訳) 機械学習 for Combinatorial Optimization (ML4CO) NeurIPS 2021コンペティションは、キーヒューリスティックコンポーネントを機械学習モデルに置き換えることで、最先端の組合せ最適化ソリューションを改善することを目的としている。 デュアルタスクでは、双対境界の増加を促進するために分岐決定を行うモデルを設計します。 KIDAと呼ばれるデータセット集約プロセスから異なるモデルの知識を一般化する知識継承手法を提案する。 我々の改善は、ベースライングラフニューラルネットワークス方式の欠点を克服しています。 さらに、デュアルタスクで$\textsuperscript{st} Placeを受賞しました。 このレポートが開発者や研究者に有用なエクスペリエンスを提供できることを願っています。 コードは \url{https://github.com/m egvii-research/neuri ps2021-ml4co-kida} で入手できる。

The Machine Learning for Combinatorial Optimization (ML4CO) NeurIPS 2021 competition aims to improve state-of-the-art combinatorial optimization solvers by replacing key heuristic components with machine learning models. On the dual task, we design models to make branching decisions to promote the dual bound increase faster. We propose a knowledge inheritance method to generalize knowledge of different models from the dataset aggregation process, named KIDA. Our improvement overcomes some defects of the baseline graph-neural-network s-based methods. Further, we won the $1$\textsuperscript{st} Place on the dual task. We hope this report can provide useful experience for developers and researchers. The code is available at \url{https://github.com/m egvii-research/NeurI PS2021-ML4CO-KIDA}
翻訳日:2022-01-26 22:33:59 公開日:2022-01-25
# (参考訳) 超低パラメータ雑音化 -ctによる両側フィルタ層の訓練- [全文訳有]

Ultra Low-Parameter Denoising: Trainable Bilateral Filter Layers in Computed Tomography ( http://arxiv.org/abs/2201.10345v1 )

ライセンス: CC BY 4.0
Fabian Wagner, Mareike Thies, Mingxuan Gu, Yixing Huang, Sabrina Pechmann, Mayank Patwari, Stefan Ploner, Oliver Aust, Stefan Uderhardt, Georg Schett, Silke Christiansen, Andreas Maier(参考訳) CTは3次元構造を表現型骨軟組織コントラストで可視化する画像ツールとして広く用いられている。 しかし,CTの分解能と放射線照射量は強く絡み合っており,高用量CTと高度な復調アルゴリズムの併用が重要である。 ほとんどのデータ駆動分別手法はディープニューラルネットワークに基づいており、数十万のトレーニング可能なパラメータを含んでいるため、理解不能で、予測失敗に陥りやすい。 最先端のパフォーマンスを実現する、理解可能でロバストな分別アルゴリズムの開発は、データの完全性を維持しながら、放射線量を最小限に抑えるのに役立つ。 本研究は,両側フィルタリングの考え方に基づくオープンソースのCT記述フレームワークを提案する。 深層学習パイプラインに組み込むことができ、過パラメータへの勾配流とその入力を計算し、純粋にデータ駆動方式で最適化できる二元フィルタを提案する。 画像から画像への純粋なパイプラインと、生の検出器データや再構成されたボリュームなどの異なるドメインをまたいで、微分可能なバックプロジェクション層を用いて分断する。 フィルタ層ごとに3つの空間パラメータと1つのレンジパラメータしか使用していないが、提案したデノナイジングパイプラインは、数十万のパラメータを持つ最先端のデノナイジングアーキテクチャと競合することができる。 X線顕微鏡の骨データ (0.7053, 33.10) と2016年の低線CTグランドチャレンジデータセット (0.9674, 43.07) でSSIMとPSNRを比較検討した。 十分に定義された効果を持つトレーニング可能なパラメータの数が極めて少ないため、予測の信頼性とデータの完全性は、他のディープラーニングベースのデノイジングアーキテクチャとは対照的に、提案されたパイプラインでいつでも保証される。

Computed tomography is widely used as an imaging tool to visualize three-dimensional structures with expressive bone-soft tissue contrast. However, CT resolution and radiation dose are tightly entangled, highlighting the importance of low-dose CT combined with sophisticated denoising algorithms. Most data-driven denoising techniques are based on deep neural networks and, therefore, contain hundreds of thousands of trainable parameters, making them incomprehensible and prone to prediction failures. Developing understandable and robust denoising algorithms achieving state-of-the-art performance helps to minimize radiation dose while maintaining data integrity. This work presents an open-source CT denoising framework based on the idea of bilateral filtering. We propose a bilateral filter that can be incorporated into a deep learning pipeline and optimized in a purely data-driven way by calculating the gradient flow toward its hyperparameters and its input. Denoising in pure image-to-image pipelines and across different domains such as raw detector data and reconstructed volume, using a differentiable backprojection layer, is demonstrated. Although only using three spatial parameters and one range parameter per filter layer, the proposed denoising pipelines can compete with deep state-of-the-art denoising architectures with several hundred thousand parameters. Competitive denoising performance is achieved on x-ray microscope bone data (0.7053 and 33.10) and the 2016 Low Dose CT Grand Challenge dataset (0.9674 and 43.07) in terms of SSIM and PSNR. Due to the extremely low number of trainable parameters with well-defined effect, prediction reliance and data integrity is guaranteed at any time in the proposed pipelines, in contrast to most other deep learning-based denoising architectures.
翻訳日:2022-01-26 22:28:09 公開日:2022-01-25
# (参考訳) 自動車レーダ干渉軽減のための資源効率の高い深層ニューラルネットワーク [全文訳有]

Resource-efficient Deep Neural Networks for Automotive Radar Interference Mitigation ( http://arxiv.org/abs/2201.10360v1 )

ライセンス: CC BY 4.0
Johanna Rock, Wolfgang Roth, Mate Toth, Paul Meissner, Franz Pernkopf(参考訳) レーダセンサーは、運転支援システムや自動運転車の環境認識に不可欠である。 レーダーセンサーの数が増加し、これまでに規制されていない自動車レーダ周波数帯により、相互干渉は避けられず、対処されなければならない。 レーダデータを操作するアルゴリズムとモデルは、特殊なレーダセンサーハードウェアの早期処理ステップを実行するために必要である。 この特別なハードウェアは、典型的には厳しいリソース制約、すなわちメモリ容量が低く、計算能力が低い。 畳み込みニューラルネットワーク(CNN)に基づくノイズ除去と干渉緩和のアプローチは、性能の観点からレーダ処理に有望な結果をもたらす。 しかし、リソース制約に関しては、CNNはハードウェアの容量をはるかに超える。 本稿では,CNNに基づくレーダ信号のノイズ除去と干渉緩和のための量子化手法について検討する。 我々は量子化の分析をする (i)重量及び重量 (ii)異なるcnnベースのモデルアーキテクチャのアクティベーション。 この量子化により、モデルストレージや推論時のメモリ要求が減少する。 モデルを固定ビット幅と学習ビット幅と比較し、量子化されたcnnのトレーニングのための2つの異なる手法、すなわちストレートスルー勾配推定器と離散重みのトレーニング分布を対比する。 量子化のための構造的に小さい実数値ベースモデルの重要性を説明し、学習したビット幅が最小のモデルをもたらすことを示す。 実値ベースラインと比較して約80 %のメモリ削減を実現した。 しかし、実用上の理由から、重み付けとアクティベーションのために8ビットを使用することを推奨しており、これは0.2メガバイトのメモリを必要とするモデルとなる。

Radar sensors are crucial for environment perception of driver assistance systems as well as autonomous vehicles. With a rising number of radar sensors and the so far unregulated automotive radar frequency band, mutual interference is inevitable and must be dealt with. Algorithms and models operating on radar data are required to run the early processing steps on specialized radar sensor hardware. This specialized hardware typically has strict resource-constraints , i.e. a low memory capacity and low computational power. Convolutional Neural Network (CNN)-based approaches for denoising and interference mitigation yield promising results for radar processing in terms of performance. Regarding resource-constraints , however, CNNs typically exceed the hardware's capacities by far. In this paper we investigate quantization techniques for CNN-based denoising and interference mitigation of radar signals. We analyze the quantization of (i) weights and (ii) activations of different CNN-based model architectures. This quantization results in reduced memory requirements for model storage and during inference. We compare models with fixed and learned bit-widths and contrast two different methodologies for training quantized CNNs, i.e. the straight-through gradient estimator and training distributions over discrete weights. We illustrate the importance of structurally small real-valued base models for quantization and show that learned bit-widths yield the smallest models. We achieve a memory reduction of around 80\% compared to the real-valued baseline. Due to practical reasons, however, we recommend the use of 8 bits for weights and activations, which results in models that require only 0.2 megabytes of memory.
翻訳日:2022-01-26 22:13:49 公開日:2022-01-25
# (参考訳) 動的畳み込みを考慮したゼロショットロングフォーム音声クローニング [全文訳有]

Zero-Shot Long-Form Voice Cloning with Dynamic Convolution Attention ( http://arxiv.org/abs/2201.10375v1 )

ライセンス: CC BY 4.0
Artem Gorodetskii, Ivan Ozhiganov(参考訳) 近年の音声クローン化の進展により,対象話者の音声合成性能は人間レベルと同様に向上した。 しかし、自己回帰音声クローニングシステムはまだテキストアライメントの失敗に悩まされており、長文を合成できない。 本研究では,数秒の参照音声から対象音声を再生し,非常に長い発話に一般化する,注意に基づくテキスト音声合成システムを提案する。 提案方式は, スピーカエンコーダ, シンセサイザ, ユニバーサルボコーダの3つの独立学習成分をベースとする。 動的畳み込み注意(dynamic convolution attention)として知られるエネルギーベースの注意機構と、タコトロン2に基づくシンセサイザーに提案される一連の修正の組み合わせを用いて、長発話への一般化を実現する。 さらに,多種多様なデータを事前学習した話者エンコーダに,合成器とボコーダの両方を条件付けすることにより,効果的なゼロショット話者適応を実現する。 本稿では,音声の自然性,話者の類似性,アライメント一貫性,長文合成能力などの観点から,音声クローンシステムの実装をいくつか比較し,提案手法が,短文の自然性や類似性を高く保ちながら,極めて長い発話に対して理解可能な合成音声を生成することができることを結論づける。

With recent advancements in voice cloning, the performance of speech synthesis for a target speaker has been rendered similar to the human level. However, autoregressive voice cloning systems still suffer from text alignment failures, resulting in an inability to synthesize long sentences. In this work, we propose a variant of attention-based text-to-speech system that can reproduce a target voice from a few seconds of reference speech and generalize to very long utterances as well. The proposed system is based on three independently trained components: a speaker encoder, synthesizer and universal vocoder. Generalization to long utterances is realized using an energy-based attention mechanism known as Dynamic Convolution Attention, in combination with a set of modifications proposed for the synthesizer based on Tacotron 2. Moreover, effective zero-shot speaker adaptation is achieved by conditioning both the synthesizer and vocoder on a speaker encoder that has been pretrained on a large corpus of diverse data. We compare several implementations of voice cloning systems in terms of speech naturalness, speaker similarity, alignment consistency and ability to synthesize long utterances, and conclude that the proposed model can produce intelligible synthetic speech for extremely long utterances, while preserving a high extent of naturalness and similarity for short texts.
翻訳日:2022-01-26 21:48:10 公開日:2022-01-25
# (参考訳) BLDNet:グラフ畳み込みネットワークと都市ドメイン知識を用いた半教師付き変更検出建築被害フレームワーク [全文訳有]

BLDNet: A Semi-supervised Change Detection Building Damage Framework using Graph Convolutional Networks and Urban Domain Knowledge ( http://arxiv.org/abs/2201.10389v1 )

ライセンス: CC BY 4.0
Ali Ismail and Mariette Awad(参考訳) 変化検出は,災害情報学における被害の局所化と破壊の理解に有用である。 畳み込みニューラルネットワークは最近の変化検出ソリューションの中核にあるが、本研究では、損傷検出を構築するための新しいグラフ定式化であるBLDNetを紹介し、局所パターンと非定常近傍の両方からの学習関係と表現を可能にする。 具体的には、グラフ畳み込みネットワークを用いて、注釈付きデータが少ない半教師付きフレームワークでこれらの特徴を効率的に学習する。 さらに、BLDNetの定式化により、追加のコンテキスト構築メタフィーチャの注入が可能になる。 このアプローチの有効性を検証するために、xBDデータセットのトレーニングとベンチマークを行います。 2020年のベイルート港爆発による都市データについても、ドメイン知識ビルディングメタ機能の導入により、パフォーマンスが向上することを示した。

Change detection is instrumental to localize damage and understand destruction in disaster informatics. While convolutional neural networks are at the core of recent change detection solutions, we present in this work, BLDNet, a novel graph formulation for building damage change detection and enable learning relationships and representations from both local patterns and non-stationary neighborhoods. More specifically, we use graph convolutional networks to efficiently learn these features in a semi-supervised framework with few annotated data. Additionally, BLDNet formulation allows for the injection of additional contextual building meta-features. We train and benchmark on the xBD dataset to validate the effectiveness of our approach. We also demonstrate on urban data from the 2020 Beirut Port Explosion that performance is improved by incorporating domain knowledge building meta-features.
翻訳日:2022-01-26 21:33:40 公開日:2022-01-25
# (参考訳) グラフ畳み込みネットワークによる建築被害評価に向けて [全文訳有]

Towards Cross-Disaster Building Damage Assessment with Graph Convolutional Networks ( http://arxiv.org/abs/2201.10395v1 )

ライセンス: CC BY 4.0
Ali Ismail and Mariette Awad(参考訳) 災害の余波において, 建物被害マップを変更検出を用いて取得し, 救助活動の計画を立てる。 現在の畳み込みニューラルネットワークアプローチは、損傷を予測するために隣接する建物間の類似性を考慮していない。 本稿では,これらの関係を捉えた新しい建物損傷検出手法を提案する。 提案するモデルアーキテクチャは, 建物被害を予測するために, 局所的特徴と近傍的特徴の両方から学習する。 具体的には,新たな災害の予測に要する時間を緩和するために必要となる未確認グラフに一般化する集約関数の学習に,サンプルと集約グラフの畳み込み戦略を採用する。 xBDデータセットと古典的畳み込みニューラルネットワークとの比較実験により、我々のアプローチはクラス不均衡によって障害を受けるが、クロスディザスターの一般化に関して有望で明確な優位性を示すことが明らかとなった。

In the aftermath of disasters, building damage maps are obtained using change detection to plan rescue operations. Current convolutional neural network approaches do not consider the similarities between neighboring buildings for predicting the damage. We present a novel graph-based building damage detection solution to capture these relationships. Our proposed model architecture learns from both local and neighborhood features to predict building damage. Specifically, we adopt the sample and aggregate graph convolution strategy to learn aggregation functions that generalize to unseen graphs which is essential for alleviating the time needed to obtain predictions for new disasters. Our experiments on the xBD dataset and comparisons with a classical convolutional neural network reveal that while our approach is handicapped by class imbalance, it presents a promising and distinct advantage when it comes to cross-disaster generalization.
翻訳日:2022-01-26 21:18:53 公開日:2022-01-25
# (参考訳) 国境を越えて:プライバシーの喪失のない公正 [全文訳有]

Beyond the Frontier: Fairness Without Privacy Loss ( http://arxiv.org/abs/2201.10408v1 )

ライセンス: CC BY 4.0
Ira Globus-Harris, Michael Kearns, Aaron Roth(参考訳) 保護されたグループ間で様々な種類のエラーを制御しようとする公正な機械学習の表記は、一般に固定モデルクラスに対する制約付き最適化問題として扱われる。 さまざまな技術的公平性を求めるには、全体的なエラーに対する妥協が必要であり、保護されたグループを増やすことで、すべてのグループにエラー率を増加させる。 私たちの目標は、このような正確さと公正さのトレードオフを破ることです。 我々は、モデルを展開し、エラー率が最適以下であるグループを発見すれば、動的に修正できる単純なアルゴリズムフレームワークを開発する。 保護されたグループを事前に指定する必要はない: 任意の時点で、現在のモデルが最適よりも著しく悪いグループがあることが発見された場合、グループ全体のエラーや以前に特定されたグループのエラーを増加させることなく、そのグループのエラーを改善する単純な更新操作があります。 我々は識別できる群の複雑さを制限せず、それらは任意の方法で交差することができる。 トレードオフ障壁を突破できる重要な洞察は、新しいグループが特定されるにつれて、モデルクラスを動的に拡張することです。 その結果は、ベイズ最適予測器と区別できないモデルへの、少なくとも高い誤差群を見つけることを任務とするモデルへの、確実に高速な収束である。 このフレームワークの2つのインスタンス化について検討する: 外部監査者を招待して現在のモデルのエラーが最適以下であるグループを発見する「バイアスバグ報奨金」設計と、そのエラーが最適以下であるグループの発見を最適化問題として提案するアルゴリズムパラダイムである。 バイアス・バウンティ・ケースでは、モデルがベイズ最適と区別できないと言う場合、バウンティ・プログラムの参加者によって意味される。 理論的解析と実験的検証の両方を提供する。

Notions of fair machine learning that seek to control various kinds of error across protected groups generally are cast as constrained optimization problems over a fixed model class. For such problems, tradeoffs arise: asking for various kinds of technical fairness requires compromising on overall error, and adding more protected groups increases error rates across all groups. Our goal is to break though such accuracy-fairness tradeoffs. We develop a simple algorithmic framework that allows us to deploy models and then revise them dynamically when groups are discovered on which the error rate is suboptimal. Protected groups don't need to be pre-specified: At any point, if it is discovered that there is some group on which our current model performs substantially worse than optimally, then there is a simple update operation that improves the error on that group without increasing either overall error or the error on previously identified groups. We do not restrict the complexity of the groups that can be identified, and they can intersect in arbitrary ways. The key insight that allows us to break through the tradeoff barrier is to dynamically expand the model class as new groups are identified. The result is provably fast convergence to a model that can't be distinguished from the Bayes optimal predictor, at least by those tasked with finding high error groups. We explore two instantiations of this framework: as a "bias bug bounty" design in which external auditors are invited to discover groups on which our current model's error is suboptimal, and as an algorithmic paradigm in which the discovery of groups on which the error is suboptimal is posed as an optimization problem. In the bias bounty case, when we say that a model cannot be distinguished from Bayes optimal, we mean by any participant in the bounty program. We provide both theoretical analysis and experimental validation.
翻訳日:2022-01-26 21:13:46 公開日:2022-01-25
# (参考訳) 広範に説明可能な認知システムのための言語生成 [全文訳有]

Language Generation for Broad-Coverage, Explainable Cognitive Systems ( http://arxiv.org/abs/2201.10422v1 )

ライセンス: CC BY 4.0
Marjorie McShane and Ivan Leon(参考訳) 本稿では,言語依存型知的エージェント(LEIA)における自然言語生成(NLG)の最近の進歩について述べる。 このアプローチは、このパラダイムにおける自然言語理解に関する過去の研究から大きく引き起こされている。これは、同じ知識ベース、計算言語学の理論、エージェントアーキテクチャ、そして、短期的アプリケーションをサポートしながら、時間とともに幅広いカバレッジ機能を開発する方法論を使用する。

This paper describes recent progress on natural language generation (NLG) for language-endowed intelligent agents (LEIAs) developed within the OntoAgent cognitive architecture. The approach draws heavily from past work on natural language understanding in this paradigm: it uses the same knowledge bases, theory of computational linguistics, agent architecture, and methodology of developing broad-coverage capabilities over time while still supporting near-term applications.
翻訳日:2022-01-26 20:33:31 公開日:2022-01-25
# (参考訳) Rayleigh EigenDirections (REDs):多次元特徴量に対するGAN潜在空間トラバーサル [全文訳有]

Rayleigh EigenDirections (REDs): GAN latent space traversals for multidimensional features ( http://arxiv.org/abs/2201.10423v1 )

ライセンス: CC BY 4.0
Guha Balakrishnan, Raghudeep Gadde, Aleix Martinez, Pietro Perona(参考訳) 本稿では,ある画像の特徴を一定時間保持しながら最大に変化させることができる,深部生成モデルの潜在空間内の経路を見つける方法を提案する。 重要なことは、過去の横断的アプローチとは異なり、我々は特定の領域内の顔のアイデンティティやピクセルなどの画像の多次元的特徴を操作できる。 最適軌道方向は、ある特徴集合に対する微分変化を最大化し、他の集合への変化が無視可能であるようにすることで選択される。 この問題はレイリー商最大化の1つにほぼ等しいことを示し、一般化固有値方程式の解法に基づく閉形式解を提供する。 我々はRayleigh EigenDirections (REDs) と呼ぶ,対応する最適方向の繰り返し計算を用いて,潜時空間で適切に湾曲した経路を生成する。 顔とリビングルームの2つの画像領域において,StyleGAN2を用いた手法を実験的に評価した。 本手法は, 顔同一性, 空間周波数帯域, 領域内の画素, 物体の出現と位置といった従来の潜在空間トラバーサル法の範囲から, 様々な多次元特徴を制御できることを示す。 我々の研究は、多くの機会が潜在空間の幾何学と意味論の局所的解析にかかっていることを示唆している。

We present a method for finding paths in a deep generative model's latent space that can maximally vary one set of image features while holding others constant. Crucially, unlike past traversal approaches, ours can manipulate multidimensional features of an image such as facial identity and pixels within a specified region. Our method is principled and conceptually simple: optimal traversal directions are chosen by maximizing differential changes to one feature set such that changes to another set are negligible. We show that this problem is nearly equivalent to one of Rayleigh quotient maximization, and provide a closed-form solution to it based on solving a generalized eigenvalue equation. We use repeated computations of the corresponding optimal directions, which we call Rayleigh EigenDirections (REDs), to generate appropriately curved paths in latent space. We empirically evaluate our method using StyleGAN2 on two image domains: faces and living rooms. We show that our method is capable of controlling various multidimensional features out of the scope of previous latent space traversal methods: face identity, spatial frequency bands, pixels within a region, and the appearance and position of an object. Our work suggests that a wealth of opportunities lies in the local analysis of the geometry and semantics of latent spaces.
翻訳日:2022-01-26 20:18:28 公開日:2022-01-25
# (参考訳) 安全なAI - これはどのように可能か?

Safe AI -- How is this Possible? ( http://arxiv.org/abs/2201.10436v1 )

ライセンス: CC BY 4.0
Harald Rue{\ss}, Simon Burton(参考訳) t traditional safety engineeringは、明確に定義されたコンテキストで動作する決定論的、非進化的なシステムから、ほとんど予測不能な運用コンテキストで動作する、ますます自律的で学習可能なaiシステムへの移行点に近づいている。 我々は、安全AIの基本的な課題を概説し、AIシステムの安全な振る舞いにおいて、不確実性を最小化し、信頼性を高め、許容レベルまで、厳格なエンジニアリングフレームワークを提案する。

Ttraditional safety engineering is coming to a turning point moving from deterministic, non-evolving systems operating in well-defined contexts to increasingly autonomous and learning-enabled AI systems which are acting in largely unpredictable operating contexts. We outline some of underlying challenges of safe AI and suggest a rigorous engineering framework for minimizing uncertainty, thereby increasing confidence, up to tolerable levels, in the safe behavior of AI systems.
翻訳日:2022-01-26 19:47:02 公開日:2022-01-25
# (参考訳) 確率的非凸強凸最適化による微分プライベート時間差学習 [全文訳有]

Differentially Private Temporal Difference Learning with Stochastic Nonconvex-Strongly-C oncave Optimization ( http://arxiv.org/abs/2201.10447v1 )

ライセンス: CC BY 4.0
Canzhe Zhao, Yanjie Ze, Jing Dong, Baoxiang Wang, Shuai Li(参考訳) 時間差学習 (td learning) は強化学習における方針を評価するために広く用いられる方法である。 近年、多くのTD学習手法が開発されているが、プライバシ保護にはほとんど注意が払われておらず、既存のアプローチのほとんどは、ユーザのデータプライバシの懸念に直面する可能性がある。 本稿では、ポリシーの複雑な代表能力を実現するために、非線形値関数近似を用いたTD学習におけるプライバシー保護を検討する。 このような非線形問題は、通常、有限サンプル解析を得るために確率的非凸-強凸-凹最適化の定式化において研究されるため、原始側と双対側のプライバシーを同時に保存する必要がある。 そこで本研究では,単時間スケールアルゴリズムを実現するために運動量に基づく確率的勾配降下法を用いて,ガウス雑音を用いて両側の勾配を摂動させることで,有意義なプライバシと,プライマリ側とデュアル側の両方の有用性保証との間の良好なトレードオフを実現する。 その結果、我々のDPTDアルゴリズムは、トランジションに符号化された機密情報に対して$(\epsilon,\delta)$- differential privacy (DP) を保証し、TDラーニングの本来のパワーを保ち、ユーティリティ上限は$\widetilde{\mathcal{O}}(\frac{(d\log(1/\delta))^{1/8}}{(n\epsilon)^{1/4}})$(この論文のチルドはログファクターを隠蔽する)で、$n$はトラジェクトリ長であり、$d$は次元である。 OpenAI Gymで行った大規模な実験は、提案アルゴリズムの利点を示している。

Temporal difference (TD) learning is a widely used method to evaluate policies in reinforcement learning. While many TD learning methods have been developed in recent years, little attention has been paid to preserving privacy and most of the existing approaches might face the concerns of data privacy from users. To enable complex representative abilities of policies, in this paper, we consider preserving privacy in TD learning with nonlinear value function approximation. This is challenging because such a nonlinear problem is usually studied in the formulation of stochastic nonconvex-strongly-c oncave optimization to gain finite-sample analysis, which would require simultaneously preserving the privacy on primal and dual sides. To this end, we employ a momentum-based stochastic gradient descent ascent to achieve a single-timescale algorithm, and achieve a good trade-off between meaningful privacy and utility guarantees of both the primal and dual sides by perturbing the gradients on both sides using well-calibrated Gaussian noises. As a result, our DPTD algorithm could provide $(\epsilon,\delta)$- differential privacy (DP) guarantee for the sensitive information encoded in transitions and retain the original power of TD learning, with the utility upper bounded by $\widetilde{\mathcal{O}}(\frac{(d\log(1/\delta))^{1/8}}{(n\epsilon)^{1/4}})$ (The tilde in this paper hides the log factor.), where $n$ is the trajectory length and $d$ is the dimension. Extensive experiments conducted in OpenAI Gym show the advantages of our proposed algorithm.
翻訳日:2022-01-26 19:46:06 公開日:2022-01-25
# (参考訳) AI4TSPコンペティション:確率的ルーティング問題を解決するための学習 [全文訳有]

The First AI4TSP Competition: Learning to Solve Stochastic Routing Problems ( http://arxiv.org/abs/2201.10453v1 )

ライセンス: CC BY 4.0
Laurens Bliek, Paulo da Costa, Reza Refaei Afshar, Yingqian Zhang, Tom Catshoek, Dani\"el Vos, Sicco Verwer, Fynn Schmitt-Ulms, Andr\'e Hottung, Tapan Shah, Meinolf Sellmann, Kevin Tierney, Carl Perreault-Lafleur, Caroline Leboeuf, Federico Bobbio, Justine Pepin, Warley Almeida Silva, Ricardo Gama, Hugo L. Fernandes, Martin Zaefferer, Manuel L\'opez-Ib\'a\~nez, Ekhine Irurozki(参考訳) IJCAI-21(Internation al Joint Conference on Artificial Intelligence 2021)において,旅行セールスマン問題(TSP)に関する最初の国際競争について報告する。 TSPは古典的な組合せ最適化問題の1つであり、現実世界の応用にインスパイアされた多くの変種がある。 この最初のコンペティションは、確率重みと時間窓(TD-OPSWTW)で時間依存のオリエンテーリング問題を解決するアルゴリズムを開発するよう参加者に求めた。 それは、surrogateベースの最適化と深層強化学習の2つのタイプの学習アプローチに焦点を当てた。 本稿では,問題,競争の成立,勝利の方法,結果の概要について述べる。 この研究で述べられている勝利法は、確率的ルーティング問題にAIを使用する際の最先端の手法である。 この競争を組織することで、私たちは、AI研究者にとって興味深い問題設定としてルーティング問題を導入しました。 問題のシミュレーターがオープンソース化され、他の研究者が新しいAIメソッドのベンチマークとして使用することができる。

This paper reports on the first international competition on AI for the traveling salesman problem (TSP) at the International Joint Conference on Artificial Intelligence 2021 (IJCAI-21). The TSP is one of the classical combinatorial optimization problems, with many variants inspired by real-world applications. This first competition asked the participants to develop algorithms to solve a time-dependent orienteering problem with stochastic weights and time windows (TD-OPSWTW). It focused on two types of learning approaches: surrogate-based optimization and deep reinforcement learning. In this paper, we describe the problem, the setup of the competition, the winning methods, and give an overview of the results. The winning methods described in this work have advanced the state-of-the-art in using AI for stochastic routing problems. Overall, by organizing this competition we have introduced routing problems as an interesting problem setting for AI researchers. The simulator of the problem has been made open-source and can be used by other researchers as a benchmark for new AI methods.
翻訳日:2022-01-26 19:00:59 公開日:2022-01-25
# (参考訳) FRAMED: コミュニティ設計の自転車フレームのデータ駆動構造性能解析 [全文訳有]

FRAMED: Data-Driven Structural Performance Analysis of Community-Designed Bicycle Frames ( http://arxiv.org/abs/2201.10459v1 )

ライセンス: CC BY 4.0
Lyle Regenwetter, Colin Weaver, Faez Ahmed(参考訳) 本稿では,4500個のコミュニティ設計自転車フレームの構造性能に関するデータ駆動分析を行った。 FRAMED - 世界中の自転車実践者が設計した自転車フレームのパラメトリックデータセット。 データ駆動アプローチをサポートするために,重量,荷重下変位,自転車フレーム設計の安全性など,構造的性能値のデータセットも提供する。 フレーム設計パラメータの多種多様な設計空間と10の競合する設計目標を探索することにより,自転車フレームの構造性能を自動解析する手法を提案する。 我々の構造シミュレーションは自転車フレームの物理的実験に対して検証される。 本分析では, 地域住民による自転車フレーム設計の全体動向, 異なる負荷条件下での自転車フレームの研究, 複数目的に対して良好に機能する非支配的設計候補の特定, 構造的目的間の相関について考察した。 分析の結果、コミュニティメンバーが作成した自転車フレームの75%以上が実現不可能であり、自転車の設計においてaiエージェントが人間をサポートする必要があることが判明した。 この研究の目的は、自転車の設計に注力する研究者と、サロゲートモデルや深層生成法といったデータ駆動設計アルゴリズムの開発に注力する研究者を同時に提供することである。 データセットとコードはhttp://decode.mit.ed u/projects/framed/で提供される。

This paper presents a data-driven analysis of the structural performance of 4500 community-designed bicycle frames. We present FRAMED -- a parametric dataset of bicycle frames based on bicycles designed by bicycle practitioners from across the world. To support our data-driven approach, we also provide a dataset of structural performance values such as weight, displacements under load, and safety factors for all the bicycle frame designs. By exploring a diverse design space of frame design parameters and a set of ten competing design objectives, we present an automated way to analyze the structural performance of bicycle frames. Our structural simulations are validated against physical experimentation on bicycle frames. Through our analysis, we highlight overall trends in bicycle frame designs created by community members, study several bicycle frames under different loading conditions, identify non-dominated design candidates that perform well on multiple objectives, and explore correlations between structural objectives. Our analysis shows that over 75\% of bicycle frames created by community members are infeasible, motivating the need for AI agents to support humans in designing bicycles. This work aims to simultaneously serve researchers focusing on bicycle design as well as researchers focusing on the development of data-driven design algorithms, such as surrogate models and Deep Generative Methods. The dataset and code are provided at http://decode.mit.ed u/projects/framed/.
翻訳日:2022-01-26 18:35:58 公開日:2022-01-25
# (参考訳) マルチエージェント性能予測:グローバル安定性と最適性からカオスへ [全文訳有]

Multi-agent Performative Prediction: From Global Stability and Optimality to Chaos ( http://arxiv.org/abs/2201.10483v1 )

ライセンス: CC BY 4.0
Georgios Piliouras and Fang-Yi Yu(参考訳) 最近のパフォーマンス予測フレームワークは、予測が予測したいターゲット/アウトカムに影響を与える設定をキャプチャすることを目的としている。 本稿では、複数の意思決定者が同じ結果を予測しようとする、このフレームワークの自然なマルチエージェントバージョンを紹介する。 このような競合は、安定から不安定、最終的にはカオスに至る相転移の可能性を証明することによって、興味深い現象をもたらすことが示されている。 具体的には,十分な条件下において,そのダイナミクスがグローバル安定性と最適性をもたらすマルチエージェント実行予測の設定を提案する。 逆方向では,エージェントが学習/更新率に十分な注意を払っていない場合,不安定性や形式的カオスが可能であることを示す。 理論的な予測をシミュレーションで補完し,結果の予測能力を示す。

The recent framework of performative prediction is aimed at capturing settings where predictions influence the target/outcome they want to predict. In this paper, we introduce a natural multi-agent version of this framework, where multiple decision makers try to predict the same outcome. We showcase that such competition can result in interesting phenomena by proving the possibility of phase transitions from stability to instability and eventually chaos. Specifically, we present settings of multi-agent performative prediction where under sufficient conditions their dynamics lead to global stability and optimality. In the opposite direction, when the agents are not sufficiently cautious in their learning/updates rates, we show that instability and in fact formal chaos is possible. We complement our theoretical predictions with simulations showcasing the predictive power of our results.
翻訳日:2022-01-26 18:23:56 公開日:2022-01-25
# (参考訳) 機械学習による5GおよびVehicular Networksのミスビヘイビア検出システムの検討 [全文訳有]

A Survey on Machine Learning-based Misbehavior Detection Systems for 5G and Beyond Vehicular Networks ( http://arxiv.org/abs/2201.10500v1 )

ライセンス: CC BY 4.0
Abdelwahab Boualouache and Thomas Engel(参考訳) 車からあらゆるもの(v2x)技術を展開する上で大きな進歩があった。 V2Xと5Gを統合することで、超低レイテンシと高信頼性のV2X通信が可能になった。 しかし、通信性能が向上する一方で、セキュリティとプライバシの問題も増加している。 攻撃はより攻撃的になり、攻撃者はより戦略的になった。 標準化機関によって提案された公開鍵インフラストラクチャーは、これらの攻撃に対してのみ防御することはできない。 したがって、それと相補的に、高度なシステムはそのような攻撃や攻撃を検出するように設計されるべきである。 機械学習(ML)は、私たちの将来の道路を確保するための重要な手段として最近登場した。 多くのV2XMisbehavior Detection Systems (MDS)がこのパラダイムを採用している。 しかし、これらのシステムの解析は研究のギャップであり、効果的なmlベースのmdssの開発はまだ未解決の問題である。 本稿ではMLベースのMDSの総合的な調査と分類について述べる。 セキュリティとMLの両方の観点から分析し、議論する。 次に、MLベースのMDSを開発し、検証し、デプロイするための学習した教訓とレコメンデーションを提供します。 最後に,今後の方向性として,オープンリサーチと標準化の課題を強調する。

Significant progress has been made towards deploying Vehicle-to-Everythin g (V2X) technology. Integrating V2X with 5G has enabled ultra-low latency and high-reliability V2X communications. However, while communication performance has enhanced, security and privacy issues have increased. Attacks have become more aggressive, and attackers have become more strategic. Public Key Infrastructure proposed by standardization bodies cannot solely defend against these attacks. Thus, in complementary of that, sophisticated systems should be designed to detect such attacks and attackers. Machine Learning (ML) has recently emerged as a key enabler to secure our future roads. Many V2X Misbehavior Detection Systems (MDSs) have adopted this paradigm. Yet, analyzing these systems is a research gap, and developing effective ML-based MDSs is still an open issue. To this end, this paper present a comprehensive survey and classification of ML-based MDSs. We analyze and discuss them from both security and ML perspectives. Then, we give some learned lessons and recommendations helping in developing, validating, and deploying ML-based MDSs. Finally, we highlight open research and standardization issues with some future directions.
翻訳日:2022-01-26 17:51:05 公開日:2022-01-25
# 自由エネルギーに基づく行動が人間とエージェントの相互作用に及ぼす影響の検討

Investigating the impact of free energy based behavior on human in human-agent interaction ( http://arxiv.org/abs/2201.10164v1 )

ライセンス: Link先を確認
Kazuya Horibe, Yuanxiang Fan, Yutaka Nakamura, Hiroshi Ishiguro(参考訳) 人間は、うなずきやジェスチャーなどの物理的なリズムを共有して、互いに関わることで非言語的にコミュニケーションする。 この身体性の共有は統一感を生じさせ、人間は他人と関わりを感じさせる。 本稿では、自由エネルギー原理(FEP)に基づく新しい身体運動生成システムを開発し、受動的に反応するだけでなく、人間の行動を促す。 提案するシステムは,サンプリングモジュールとモーション選択モジュールの2つのモジュールで構成される。 FEPに基づく行動の「エージェントとの相互作用のフィーリング」を評価するための主観的な実験を行った。 その結果、FEPに基づく行動は、より「エージェントとの相互作用を示す」ことが示唆された。 さらに,エージェントのジェスチャーが被験者のジェスチャーを誘発することを確認した。 この結果は、相互作用の感覚を補強するだけでなく、人々の行動を変えるよう促すエージェントの実現にも繋がる。

Humans communicate non-verbally by sharing physical rhythms, such as nodding and gestures, to involve each other. This sharing of physicality creates a sense of unity and makes humans feel involved with others. In this paper, we developed a new body motion generation system based on the free-energy principle (FEP), which not only responds passively but also prompts human actions. The proposed system consists of two modules, the sampling module, and the motion selection module. We conducted a subjective experiment to evaluate the "feeling of interacting with the agent" of the FEP based behavior. The results suggested that FEP based behaviors show more "feeling of interacting with the agent". Furthermore, we confirmed that the agent's gestures elicited subject gestures. This result not only reinforces the impression of feeling interaction but could also realization of agents that encourage people to change their behavior.
翻訳日:2022-01-26 16:55:31 公開日:2022-01-25
# zero-truncated poisson regression for zero-inflated multiway count data (情報ネットワーク)

Zero-Truncated Poisson Regression for Zero-Inflated Multiway Count Data ( http://arxiv.org/abs/2201.10014v1 )

ライセンス: Link先を確認
Oscar L\'opez, Daniel M. Dunlavy, Richard B. Lehoucq(参考訳) 本研究では, 真のゼロカウントと偽ゼロカウントを区別する必要のない, ゼロインフレーションマルチウェイカウントデータに対する新しい統計的推論パラダイムを提案する。 我々のアプローチは全てのゼロエントリを無視し、正のカウントにゼロ分岐ポアソン回帰を適用する。 推論はポアソンパラメータ空間に低ランク構造を課すテンソル完全性によって達成される。 我々の主な結果は、N$-way rank-$R$ parametric tensor $\boldsymbol{\mathscr{M}}\in(0,\infty)^{I\times \cdots\times I}$ Poisson observed を約$IR^2\log_2^2(I)$ non-zero counts for a non negative canonical polyadic decomposition から正確に推定できることを示している。 いくつかの数値実験により、我々のゼロ・トランクド・パラダイムは、偽ゼロ数の位置が先行する理想的なシナリオに匹敵することを示した。

We propose a novel statistical inference paradigm for zero-inflated multiway count data that dispenses with the need to distinguish between true and false zero counts. Our approach ignores all zero entries and applies zero-truncated Poisson regression on the positive counts. Inference is accomplished via tensor completion that imposes low-rank structure on the Poisson parameter space. Our main result shows that an $N$-way rank-$R$ parametric tensor $\boldsymbol{\mathscr{M}}\in(0,\infty)^{I\times \cdots\times I}$ generating Poisson observations can be accurately estimated from approximately $IR^2\log_2^2(I)$ non-zero counts for a nonnegative canonical polyadic decomposition. Several numerical experiments are presented demonstrating that our zero-truncated paradigm is comparable to the ideal scenario where the locations of false zero counts are known a priori.
翻訳日:2022-01-26 16:55:19 公開日:2022-01-25
# RecShard: 産業規模のニューラルレコメンデーションのための統計的特徴ベースメモリ最適化

RecShard: Statistical Feature-Based Memory Optimization for Industry-Scale Neural Recommendation ( http://arxiv.org/abs/2201.10095v1 )

ライセンス: Link先を確認
Geet Sethi, Bilge Acun, Niket Agarwal, Christos Kozyrakis, Caroline Trippel, Carole-Jean Wu(参考訳) 本稿では,ディープラーニングレコメンデーションモデル(DLRM)のための細粒度埋め込みテーブル(EMB)分割と配置技術であるRecShardを提案する。 RecShardは2つの重要な観測に基づいて設計されている。 第一に、すべての EMB が等しいわけではないし、アクセスパターンの点で EMB 内のすべての行が等しいわけでもない。 EMBは異なるメモリ特性を示し、インテリジェントなEMBパーティショニングと、階層化されたメモリ階層に配置するパフォーマンス最適化の機会を提供する。 第二に、現代のDLRMでは、EMBはハッシュテーブルとして機能する。 その結果、ESBは誕生日のパラドックスのような興味深い現象を示し、ESBはひどく活用されていない。 RecShardは、トレーニングデータ分布とモデル特性と、基礎となる結合メモリ階層の帯域特性に基づいて、一連のEMBに対する最適なEMBシャーディング戦略を決定する。 そうすることで、RecShardは容量制限DLRMに対して平均6倍以上のMBトレーニングスループットを達成する。 スループットの向上は、EMBロードバランシングの改善を12回以上、遅いメモリへのアクセスを87回以上削減することによるものだ。

We propose RecShard, a fine-grained embedding table (EMB) partitioning and placement technique for deep learning recommendation models (DLRMs). RecShard is designed based on two key observations. First, not all EMBs are equal, nor all rows within an EMB are equal in terms of access patterns. EMBs exhibit distinct memory characteristics, providing performance optimization opportunities for intelligent EMB partitioning and placement across a tiered memory hierarchy. Second, in modern DLRMs, EMBs function as hash tables. As a result, EMBs display interesting phenomena, such as the birthday paradox, leaving EMBs severely under-utilized. RecShard determines an optimal EMB sharding strategy for a set of EMBs based on training data distributions and model characteristics, along with the bandwidth characteristics of the underlying tiered memory hierarchy. In doing so, RecShard achieves over 6 times higher EMB training throughput on average for capacity constrained DLRMs. The throughput increase comes from improved EMB load balance by over 12 times and from the reduced access to the slower memory by over 87 times.
翻訳日:2022-01-26 16:54:20 公開日:2022-01-25
# 深層学習に基づく減数次モデルによる非線形パラメトリド力学系の長期予測

Long-time prediction of nonlinear parametrized dynamical systems by deep learning-based reduced order models ( http://arxiv.org/abs/2201.10215v1 )

ライセンス: Link先を確認
Federico Fatone, Stefania Fresca, Andrea Manzoni(参考訳) 深層学習に基づくリダクションオーダーモデル(DL-ROM)は、非線形時間依存パラメタライズドPDEに適用した場合、従来のROM(例えば、適切な直交分解(POD)によってのみ構築される)で共有される共通の制限を克服するために最近提案されている。 特に、POD-DL-ROMは、PODとDLベースの予測フレームワークにより、トレーニング段階において極端に効率よく、テスト時のリアルタイムパフォーマンスよりも高速に実現できる。 それでも、時間外挿タスクに関する従来のROMのパフォーマンスは劣っている。 本研究の目的は、パラメータ化PDEの効率的な数値近似のためのDLアルゴリズムの利用に向けて、$\mu t$-POD-LSTM-ROMフレームワークを導入することである。 この技術は、長期記憶(LSTM)細胞を利用した2重アーキテクチャを追加してPOD-DL-ROMフレームワークを拡張し、最終的にトレーニングウィンドウに対する複雑なシステムの進化の長期予測を可能にする。 この再帰的アーキテクチャにより、トレーニング時間領域の最大15倍の時間窓外挿が可能となり、既に雷の速いPOD-DL-ROMに対するテスト時間性能が向上することを示す。

Deep learning-based reduced order models (DL-ROMs) have been recently proposed to overcome common limitations shared by conventional ROMs - built, e.g., exclusively through proper orthogonal decomposition (POD) - when applied to nonlinear time-dependent parametrized PDEs. In particular, POD-DL-ROMs can achieve extreme efficiency in the training stage and faster than real-time performances at testing, thanks to a prior dimensionality reduction through POD and a DL-based prediction framework. Nonetheless, they share with conventional ROMs poor performances regarding time extrapolation tasks. This work aims at taking a further step towards the use of DL algorithms for the efficient numerical approximation of parametrized PDEs by introducing the $\mu t$-POD-LSTM-ROM framework. This novel technique extends the POD-DL-ROM framework by adding a two-fold architecture taking advantage of long short-term memory (LSTM) cells, ultimately allowing long-term prediction of complex systems' evolution, with respect to the training window, for unseen input parameter values. Numerical results show that this recurrent architecture enables the extrapolation for time windows up to 15 times larger than the training time domain, and achieves better testing time performances with respect to the already lightning-fast POD-DL-ROMs.
翻訳日:2022-01-26 16:52:30 公開日:2022-01-25
# ディープジョイント・ソース・チャネル符号化を用いた分散画像伝送

Distributed Image Transmission using Deep Joint Source-Channel Coding ( http://arxiv.org/abs/2201.10340v1 )

ライセンス: Link先を確認
Sixian Wang, Ke Yang, Jincheng Dai, Kai Niu(参考訳) 相関画像ソースに対するディープジョイント・ソース・チャネル符号化(D-JSCC)の問題点について検討し、各ソースはノイズの多い独立チャネルを介して共通受信機に送信される。 特に,2台のカメラで撮影された一対の画像について検討し,多分無線チャネル上での視野の重複を考慮し,中心ノードで再構成する。 問題となるのは、ソースとチャネルの相関を利用して伝送効率を改善するための実用的なコードを設計することだ。 これに対処するためには,2つのステレオ画像間の共通情報と,2つの伝送チャネル間の差異を考慮する必要がある。 この場合、軽量なエッジエンコーダと強力なセンターデコーダを含むディープニューラルネットワークソリューションを提案する。 このデコーダでは、重なり合うフィールドをハイライトし、2つのノイズ特徴写像間の関連性を活用するために、新しいチャネル状態情報認識クロスアテンションモジュールを提案し、この結果、他のリンクのノイズ表現を利用して、両方のリンクにおける再構成品質を著しく改善したことを示す。 さらに,提案方式は,キャパシティ向上チャネル符号を持つ分離方式と比較し,競合結果を示す。

We study the problem of deep joint source-channel coding (D-JSCC) for correlated image sources, where each source is transmitted through a noisy independent channel to the common receiver. In particular, we consider a pair of images captured by two cameras with probably overlapping fields of view transmitted over wireless channels and reconstructed in the center node. The challenging problem involves designing a practical code to utilize both source and channel correlations to improve transmission efficiency without additional transmission overhead. To tackle this, we need to consider the common information across two stereo images as well as the differences between two transmission channels. In this case, we propose a deep neural networks solution that includes lightweight edge encoders and a powerful center decoder. Besides, in the decoder, we propose a novel channel state information aware cross attention module to highlight the overlapping fields and leverage the relevance between two noisy feature maps.Our results show the impressive improvement of reconstruction quality in both links by exploiting the noisy representations of the other link. Moreover, the proposed scheme shows competitive results compared to the separated schemes with capacity-achieving channel codes.
翻訳日:2022-01-26 16:52:05 公開日:2022-01-25
# マルチチャネルアプローチによる接触追跡の近さ推定の改善

Improving Proximity Estimation for Contact Tracing using a Multi-channel Approach ( http://arxiv.org/abs/2201.10401v1 )

ライセンス: Link先を確認
Eric Lanfer, Thomas H\"anel, Roland van Rijswijk-Deij, Nils Aschenbruck(参考訳) 新型コロナウイルス(COVID-19)のパンデミックにより、スマートフォンベースの近接追跡システムが最大の関心事となった。 これらのシステムの多くは、bluetooth low energy (ble)信号を使用して2人間の距離を推定する。 この方法の品質は多くの要因に依存するため、必ずしも正確な結果が得られない。 本稿では、近接推定を改善するためのマルチチャネルアプローチと、4つの異なる環境で測定されたIEEE 802.11(2.4GHzおよび5GHz)とBLE信号強度データを組み合わせた、新しい公開データセットを提案する。 我々は,BLEとIEEE 802.11信号に基づく分類モデルを開発し,評価した。 提案手法は距離推定を著しく改善し,接触追跡精度も向上した。 日々の公共交通機関のシナリオにおいて、私たちのアプローチで良い結果が得られます。 しかし、IEEE 802.11プローブ要求に基づく実装では、そのようなプローブが送信される一貫性と間隔のため、プライバシーの問題や制限に直面しました。 これらの制限を議論し、実際のデプロイメントに適合するように私たちのアプローチをどのように改善できるかをスケッチします。

Due to the COVID 19 pandemic, smartphone-based proximity tracing systems became of utmost interest. Many of these systems use Bluetooth Low Energy (BLE) signals to estimate the distance between two persons. The quality of this method depends on many factors and, therefore, does not always deliver accurate results. In this paper, we present a multi-channel approach to improve proximity estimation, and a novel, publicly available dataset that contains matched IEEE 802.11 (2.4 GHz and 5 GHz) and BLE signal strength data, measured in four different environments. We have developed and evaluated a combined classification model based on BLE and IEEE 802.11 signals. Our approach significantly improves the distance estimation and consequently also the contact tracing accuracy. We are able to achieve good results with our approach in everyday public transport scenarios. However, in our implementation based on IEEE 802.11 probe requests, we also encountered privacy problems and limitations due to the consistency and interval at which such probes are sent. We discuss these limitations and sketch how our approach could be improved to make it suitable for real-world deployment.
翻訳日:2022-01-26 16:51:44 公開日:2022-01-25
# 四重項による外骨格の長期・安定バイマニュアル制御のための適応閉ループECoGデコーダ

An adaptive closed-loop ECoG decoder for long-term and stable bimanual control of an exoskeleton by a tetraplegic ( http://arxiv.org/abs/2201.10449v1 )

ライセンス: Link先を確認
Alexandre Moly, Thomas Costecalde, Felix Martel, Christelle Larzabal, Serpil Karakas, Alexandre Verney, Guillaume Charvet, Stephan Chabardes, Alim Louis Benabid, Tetiana Aksenova(参考訳) 脳コンピュータインタフェース(BCI)は、現実世界のアプリケーションで使用される実験室から抜け出すための多くの課題に直面している。 鍵となるものは、慢性的かつ安全なレコーダを使用して、複雑なタスクのための多様なエフェクタの高性能な制御である。 この制御は時間とともに堅牢で、デコーダの継続的な再調整なしに高いデコード性能を持つ必要がある。 本論文では、慢性硬膜外皮質電図(epicog)インプラントを用いた四麻痺患者による外骨格の非同期制御を示す。 この目的のために、適応型オンラインテンソルベースデコーダ、Recursive Exponentially Weighted Markov-Switching Multi-Linear Model (REW-MSLM)を開発した。 復号器の再校正なしにREW-MSLMを用いて,外骨格と仮想アバターの8次元バイマニュアル制御の安定性を6ヶ月にわたって実証した。

Brain-computer interfaces (BCIs) still face many challenges to step out of laboratories to be used in real-life applications. A key one persists in the high performance control of diverse effectors for complex tasks, using chronic and safe recorders. This control must be robust over time and of high decoding performance without continuous recalibration of the decoders. In the article, asynchronous control of an exoskeleton by a tetraplegic patient using a chronically implanted epidural electrocorticography (EpiCoG) implant is demonstrated. For this purpose, an adaptive online tensor-based decoder: the Recursive Exponentially Weighted Markov-Switching multi-Linear Model (REW-MSLM) was developed. We demonstrated over a period of 6 months the stability of the 8-dimensional alternative bimanual control of the exoskeleton and its virtual avatar using REW-MSLM without recalibration of the decoder.
翻訳日:2022-01-26 16:51:26 公開日:2022-01-25
# RBMLE-UCBによる線形二次系の適応制御

Augmented RBMLE-UCB Approach for Adaptive Control of Linear Quadratic Systems ( http://arxiv.org/abs/2201.10542v1 )

ライセンス: Link先を確認
Akshay Mete, Rahul Singh and P. R. Kumar(参考訳) 適応型lqg制御問題(adaptive lqg control problem)と呼ばれるエージェントにシステムパラメータが知られていない場合,二次コストで確率線形システムを制御する問題を考える。 我々は40年以上前に提案された"Reward-Biased Maximum Likelihood Estimate"(RBMLE)というアプローチを再検討し、それ以前の"Upper Confidence Bound"(UCB)手法と"Regret"の定義について検討する。 単に見積もり基準により大きな報酬を持つパラメータを好む用語を追加しただけである。 本稿では,RTMLE法のペナルティとUPB法の制約を組み合わせ,不確実性に直面した2つの最適化手法を結合した拡張アプローチを提案する。 理論上、この手法は$\mathcal{O}(\sqrt{T})$ regretを保っていると最初に証明する。 この拡張RBMLE法はUCBとトンプソンのサンプリング手法よりもかなり優れており、後悔は典型的には50%以下である。 シミュレーション研究は、以前の論文のすべての例と、ランダムに生成されたシステムの大規模なコレクションを含む。

We consider the problem of controlling a stochastic linear system with quadratic costs, when its system parameters are not known to the agent -- called the adaptive LQG control problem. We re-examine an approach called "Reward-Biased Maximum Likelihood Estimate" (RBMLE) that was proposed more than forty years ago, and which predates the "Upper Confidence Bound" (UCB) method as well as the definition of "regret". It simply added a term favoring parameters with larger rewards to the estimation criterion. We propose an augmented approach that combines the penalty of the RBMLE method with the constraint of the UCB method, uniting the two approaches to optimization in the face of uncertainty. We first establish that theoretically this method retains $\mathcal{O}(\sqrt{T})$ regret, the best known so far. We show through a comprehensive simulation study that this augmented RBMLE method considerably outperforms the UCB and Thompson sampling approaches, with a regret that is typically less than 50\% of the better of their regrets. The simulation study includes all examples from earlier papers as well as a large collection of randomly generated systems.
翻訳日:2022-01-26 16:51:11 公開日:2022-01-25
# デジタル聴診器による出生時の新生児呼吸困難の予測

Prediction of Neonatal Respiratory Distress in Term Babies at Birth from Digital Stethoscope Recorded Chest Sounds ( http://arxiv.org/abs/2201.10105v1 )

ライセンス: Link先を確認
Ethan Grooby, Chiranjibi Sitaula, Kenneth Tan, Lindsay Zhou, Arrabella King, Ashwin Ramanathan, Atul Malhotra, Guy A. Dumont, Faezeh Marzbanrad(参考訳) 新生児呼吸困難は、治療を受けていない場合、短期および長期の合併症を引き起こす一般的な症状である。 本報告では, 乳幼児呼吸障害の早期発見と予知を目的として, 1分以内の胸部筋電図を用いた検討を行った。 この研究には50名の新生児が含まれており、うち9人は呼吸困難であった。 新生児1例につき1分前後の録音を行った。 これらの録音はノイズを除去し、高品質な心臓と肺の音を得るために前処理された。 ランダムアンダーサンプリングブースティング(RUSBoost)分類器は、心臓と肺の音から抽出されたパワーやバイタルサインといった様々な特徴に基づいて訓練された。 RUSBoostアルゴリズムは、それぞれ85.0%、66.7%、81.8%の特異性、感度、精度を実現した。

Neonatal respiratory distress is a common condition that if left untreated, can lead to short- and long-term complications. This paper investigates the usage of digital stethoscope recorded chest sounds taken within 1min post-delivery, to enable early detection and prediction of neonatal respiratory distress. Fifty-one term newborns were included in this study, 9 of whom developed respiratory distress. For each newborn, 1min anterior and posterior recordings were taken. These recordings were pre-processed to remove noisy segments and obtain high-quality heart and lung sounds. The random undersampling boosting (RUSBoost) classifier was then trained on a variety of features, such as power and vital sign features extracted from the heart and lung sounds. The RUSBoost algorithm produced specificity, sensitivity, and accuracy results of 85.0%, 66.7% and 81.8%, respectively.
翻訳日:2022-01-26 16:50:24 公開日:2022-01-25
# (参考訳) 音楽レコメンダシステムの説明可能性 [全文訳有]

Explainability in Music Recommender Systems ( http://arxiv.org/abs/2201.10528v1 )

ライセンス: CC BY 4.0
Darius Afchar, Alessandro B. Melchiorre, Markus Schedl, Romain Hennequin, Elena V. Epure, Manuel Moussallam(参考訳) 現在、録音された音楽を聴く最も一般的な方法は、何千万もの曲にアクセスできるストリーミングプラットフォームである。 これらの大規模なカタログを効果的に閲覧するためには,音楽レコメンダシステム(MRS)の統合が不可欠である。 現在の現実世界のmrsは、非常に複雑で、推奨精度に最適化されていることが多い。 共同フィルタリングとコンテンツベースのレコメンデーションに基づいて、いくつかのビルディングブロックを組み合わせる。 この複雑さは、エンドユーザーにレコメンデーションを説明する能力を妨げる可能性がある。 純粋なレコメンデーションのパフォーマンスはユーザの満足度と相関することが多いが、説明可能性は他の要因、例えば信頼や許しなどに対して肯定的な影響を与える。 本稿では,mrsの文脈で説明可能性に対処する方法について述べる。 我々は,音楽レコメンデーションアルゴリズムを改良し,ユーザエクスペリエンスを向上させるための説明可能性に関する視点を提供する。 まず,推薦者の説明可能性とeXplainable Artificial Intelligence(XAI)の一般性に関する共通次元と目標を概観し,音楽消費とレコメンデーションの具体的な特徴について,その適用範囲を詳細に検討する。 次に、mrsにどのように説明可能性コンポーネントを組み込むか、どのようにフォーム説明が提供できるかを示す。 説明品質の評価は純粋精度に基づく評価基準から切り離されているため,音楽レコメンデーションの説明を評価するための要件と戦略についても論じる。 最後に, 大規模産業音楽レコメンダシステムにおける説明可能性導入の課題について述べるとともに, 研究の展望について述べる。

The most common way to listen to recorded music nowadays is via streaming platforms which provide access to tens of millions of tracks. To assist users in effectively browsing these large catalogs, the integration of Music Recommender Systems (MRSs) has become essential. Current real-world MRSs are often quite complex and optimized for recommendation accuracy. They combine several building blocks based on collaborative filtering and content-based recommendation. This complexity can hinder the ability to explain recommendations to end users, which is particularly important for recommendations perceived as unexpected or inappropriate. While pure recommendation performance often correlates with user satisfaction, explainability has a positive impact on other factors such as trust and forgiveness, which are ultimately essential to maintain user loyalty. In this article, we discuss how explainability can be addressed in the context of MRSs. We provide perspectives on how explainability could improve music recommendation algorithms and enhance user experience. First, we review common dimensions and goals of recommenders' explainability and in general of eXplainable Artificial Intelligence (XAI), and elaborate on the extent to which these apply -- or need to be adapted -- to the specific characteristics of music consumption and recommendation. Then, we show how explainability components can be integrated within a MRS and in what form explanations can be provided. Since the evaluation of explanation quality is decoupled from pure accuracy-based evaluation criteria, we also discuss requirements and strategies for evaluating explanations of music recommendations. Finally, we describe the current challenges for introducing explainability within a large-scale industrial music recommender system and provide research perspectives.
翻訳日:2022-01-26 16:48:42 公開日:2022-01-25
# グラフのアンボックス: 移動予測のためのニューラルリレーショナル推論

Unboxing the graph: Neural Relational Inference for Mobility Prediction ( http://arxiv.org/abs/2201.10307v1 )

ライセンス: Link先を確認
Mathias Niemann Tygesen, Francisco C. Pereira, Filipe Rodrigues(参考訳) 輸送システムの供給と需要を予測することは、効率的な交通管理、制御、最適化、計画に不可欠である。 例えば、タクシーで行き先や行き先を予測することで、車両管理者のリソース配分を支援することができる。 時空間予測は困難であることが知られているが、近年では非ユークリッド空間データにグラフニューラルネットワーク(GNN)が広く適用されている。 しかし、ほとんどのGNNモデルは事前に定義されたグラフを必要としており、これまでの研究者はこのグラフを生成するためにヒューリスティックに依存している。 本稿では,モデルの最適グラフを学習するために,ニューラルリレーショナル推論を用いる。 私たちのアプローチにはいくつかの利点があります。 1) 変分オートエンコーダ構造は,そのデータによって動的に決定され,時間とともに変化する可能性がある。 2) エンコーダ構造は,グラフの生成において外部データの使用を可能にする。 3) ベイジアンを生成したグラフ上に配置してドメイン知識を符号化することが可能である。 我々は,ニューヨーク・イエロータクシーとPEMS道路交通データセットの2つのデータセットについて実験を行った。 両方のデータセットでベンチマークを上回り、最先端に匹敵するパフォーマンスを示します。 さらに,学習グラフの詳細な分析を行い,gnnがトランスポート領域における時空間予測に使用する接続の種類について考察する。

Predicting the supply and demand of transport systems is vital for efficient traffic management, control, optimization, and planning. For example, predicting where from/to and when people intend to travel by taxi can support fleet managers to distribute resources; better predicting traffic speeds/congestion allows for pro-active control measures or for users to better choose their paths. Making spatio-temporal predictions is known to be a hard task, but recently Graph Neural Networks (GNNs) have been widely applied on non-euclidean spatial data. However, most GNN models require a predefined graph, and so far, researchers rely on heuristics to generate this graph for the model to use. In this paper, we use Neural Relational Inference to learn the optimal graph for the model. Our approach has several advantages: 1) a Variational Auto Encoder structure allows for the graph to be dynamically determined by the data, potentially changing through time; 2) the encoder structure allows the use of external data in the generation of the graph; 3) it is possible to place Bayesian priors on the generated graphs to encode domain knowledge. We conduct experiments on two datasets, namely the NYC Yellow Taxi and the PEMS road traffic datasets. In both datasets, we outperform benchmarks and show performance comparable to state-of-the-art. Furthermore, we do an in-depth analysis of the learned graphs, providing insights on what kinds of connections GNNs use for spatio-temporal predictions in the transport domain.
翻訳日:2022-01-26 16:18:45 公開日:2022-01-25
# ほとんど役に立たない: 教師なし時系列検出を改善するためにアクティブラーニングを活用する

Little Help Makes a Big Difference: Leveraging Active Learning to Improve Unsupervised Time Series Anomaly Detection ( http://arxiv.org/abs/2201.10323v1 )

ライセンス: Link先を確認
Hamza Bodor, Thai V. Hoang, Zonghua Zhang(参考訳) KPI(Key Performance Indicator)は、基本的に時系列データであり、通信ネットワークの性能を示すために広く使われている。 与えられたKPIに基づいて、予期せぬネットワークインシデントを検出するために、大量の異常検出アルゴリズムがデプロイされている。 一般に、教師なし異常検出アルゴリズムは、KPIのラベル付けが非常に時間とリソースを消費し、エラーを起こしやすいため、教師付きアルゴリズムよりも人気がある。 しかしながら、これらの教師なし異常検出アルゴリズムは、特にネットワークの再設定やメンテナンスによる概念のドリフトの存在において、過度の誤報に悩まされることが多い。 この課題に対処し、教師なし異常検出アルゴリズムの全体的な性能を向上させるために、オペレーターのフィードバックを積極的に活用し、アラーム(偽と真の両方)を検証し、対応するKPIを合理的にラベル付けする手法を提案する。 具体的には,最も情報的かつ代表的なサンプルをラベル付けするための3つのクエリ戦略を開発する。 また,分離林の重量を効率的に更新し,決定閾値を最適に調整し,最終的に検出モデルの性能を向上させる方法を開発した。 1つのパブリックデータセットと1つのプロプライエタリデータセットによる実験では、アクティブ学習による異常検出パイプラインが、ベースラインアルゴリズムよりも50%以上パフォーマンス向上を達成できることが示されています。 また、既存のアクティブラーニングベースの手法を約6%-10%上回っており、予算を大幅に削減している(ラベル付けするサンプルの割合)。

Key Performance Indicators (KPI), which are essentially time series data, have been widely used to indicate the performance of telecom networks. Based on the given KPIs, a large set of anomaly detection algorithms have been deployed for detecting the unexpected network incidents. Generally, unsupervised anomaly detection algorithms gain more popularity than the supervised ones, due to the fact that labeling KPIs is extremely time- and resource-consuming, and error-prone. However, those unsupervised anomaly detection algorithms often suffer from excessive false alarms, especially in the presence of concept drifts resulting from network re-configurations or maintenance. To tackle this challenge and improve the overall performance of unsupervised anomaly detection algorithms, we propose to use active learning to introduce and benefit from the feedback of operators, who can verify the alarms (both false and true ones) and label the corresponding KPIs with reasonable effort. Specifically, we develop three query strategies to select the most informative and representative samples to label. We also develop an efficient method to update the weights of Isolation Forest and optimally adjust the decision threshold, so as to eventually improve the performance of detection model. The experiments with one public dataset and one proprietary dataset demonstrate that our active learning empowered anomaly detection pipeline could achieve performance gain, in terms of F1-score, more than 50% over the baseline algorithm. It also outperforms the existing active learning based methods by approximately 6%-10%, with significantly reduced budget (the ratio of samples to be labeled).
翻訳日:2022-01-26 16:18:22 公開日:2022-01-25
# 空間的世界モデルによる追跡と計画

Tracking and Planning with Spatial World Models ( http://arxiv.org/abs/2201.10335v1 )

ライセンス: Link先を確認
Baris Kayalibay, Atanas Mirchev, Patrick van der Smagt, Justin Bayer(参考訳) 本研究では,異なる世界モデルを用いたリアルタイムナビゲーションとトラッキング手法を提案する。 制御のための学習モデルは、ロボティクスやコンピュータゲームにおいて驚くべき結果をもたらしたが、この成功はまだビジョンベースのナビゲーションに拡張されていない。 これを解決するために、微分可能レンダリングの創発的な分野の進歩をモデルベース制御に転送する。 学習した3次元空間世界モデルで計画し, tsdfフュージョンの文脈で使用されていたポーズ推定アルゴリズムと組み合わせて, エージェントダイナミクスを組み込むように改良した。 複雑な人間設計フロアプランに基づくシミュレーション環境を6つ以上評価し,定量的な結果を得た。 確率的・連続的力学下での画像と深度観測のみを用いて、15Hzの周波数で最大92%の航法成功率を達成する。

We introduce a method for real-time navigation and tracking with differentiably rendered world models. Learning models for control has led to impressive results in robotics and computer games, but this success has yet to be extended to vision-based navigation. To address this, we transfer advances in the emergent field of differentiable rendering to model-based control. We do this by planning in a learned 3D spatial world model, combined with a pose estimation algorithm previously used in the context of TSDF fusion, but now tailored to our setting and improved to incorporate agent dynamics. We evaluate over six simulated environments based on complex human-designed floor plans and provide quantitative results. We achieve up to 92% navigation success rate at a frequency of 15 Hz using only image and depth observations under stochastic, continuous dynamics.
翻訳日:2022-01-26 16:17:53 公開日:2022-01-25
# 視覚同一性設計における種間コラボレーション--事例研究

Interspecies Collaboration in the Design of Visual Identity: A Case Study ( http://arxiv.org/abs/2201.10393v1 )

ライセンス: Link先を確認
Bojan Jerbi\'c, Marko \v{S}vaco, Filip \v{S}uligoj, Bojan \v{S}ekoranja, Josip Vidakovi\'c, Marija Turkovi\'c, Mihaela Leki\'c, Borjan Pavlek, Bruno Bolfan, Davor Bruketa, Dina Boro\v{s}i\'c, Barbara Bu\v{s}i\'c(参考訳) デザインは通常、人間の創造性に依存しているが、過去10年間、この分野のツールボックスは人工知能(ai)とその隣り合う方法に拡張され、ハイブリッドでアルゴリズム的な創造の余地がある。 本稿では,2021年6月にザグレブ大学内に750m2にオープンしたCRTA(Regional Center of Excellence for Robotic Technology)を事例として,視覚的アイデンティティの活発な共創において,種間コラボレーション(自然と人工知能)の概念を実証することを目的とする。 センターの視覚的アイデンティティは、3つの別々に考案された要素で構成され、それぞれが人間とAIの関係を代表し、施設のロゴに埋め込まれている。 第一に、"c"(crtaの頭字語から)という文字は、(x, y)座標に適用されたガウス混合モデル(gmm)を用いて作成され、crtaの旗艦的イノベーションである神経外科ロボットであるronnaは、人間の操作者によって誘導されたときに生成された。 文字 "C" の第二の形状は、新しいAI生成型タイポグラフィーで文字を出力することを目的としたニューラルネットワークに入力として、同じ (x, y) 座標を用いて作られた。 2つの隠れ層を持つ基本的なフィードフォワードバックプロパゲーションニューラルネットワークがタスクに選択された。 最終および第三の設計要素は、脳生検を行う際にローナが行う軌道である。 CRTAは最先端のロボティクス研究の場を具現化しているため、新たにオープンされたセンターの中核にある人間とロボットのコラボレーションの重要性を強調し、人間が技術で持つことができる相互的かつ友好的な関係の可能性を示した。

Design usually relies on human ingenuity, but the past decade has seen the field's toolbox expanding to Artificial Intelligence (AI) and its adjacent methods, making room for hybrid, algorithmic creations. This article aims to substantiate the concept of interspecies collaboration - that of natural and artificial intelligence - in the active co-creation of a visual identity, describing a case study of the Regional Center of Excellence for Robotic Technology (CRTA) which opened on 750 m2 in June 2021 within the University of Zagreb. The visual identity of the Center comprises three separately devised elements, each representative of the human-AI relationship and embedded in the institution's logo. Firstly, the letter "C" (from the CRTA acronym) was created using a Gaussian Mixture Model (GMM) applied to (x, y) coordinates that the neurosurgical robot RONNA, CRTA's flagship innovation, generated when hand-guided by a human operator. The second shape of the letter "C" was created by using the same (x, y) coordinates as inputs fed to a neural network whose goal was to output letters in a novel, AI-generated typography. A basic feedforward back-propagating neural network with two hidden layers was chosen for the task. The final and third design element was a trajectory the robot RONNA makes when performing a brain biopsy. As CRTA embodies a state-of-the-art venue for robotics research, the 'interspecies' approach was used to accentuate the importance of human-robot collaboration which is at the core of the newly opened Center, illustrating the potential of reciprocal and amicable relationship that humans could have with technology.
翻訳日:2022-01-26 16:17:40 公開日:2022-01-25
# openstreetmapにおける注意に基づく破壊行為検出

Attention-Based Vandalism Detection in OpenStreetMap ( http://arxiv.org/abs/2201.10406v1 )

ライセンス: Link先を確認
Nicolas Tempelmeier, Elena Demidova(参考訳) openstreetmap (osm)は、クラウドソースのwebマップであり、オープンに利用可能な世界地図データのユニークなソースであり、webアプリケーションでますます採用されている。 破壊行為の検出は、osmの透明性を信頼し維持するための重要なタスクである。 このタスクは、データセットの大規模化、コントリビュータの数、さまざまなヴァンダリズム形式、注釈付きデータの欠如などにより、非常に困難である。 本稿はOSMにおける新たなアテンションに基づく破壊検出手法であるOvidについて述べる。 Ovidは、OSMチェンジセットからの破壊性を示す情報を効果的に要約するために、マルチヘッドアテンションメカニズムを採用する、新しいニューラルネットワークに依存している。 自動破壊検出を容易にするために、変更セット、ユーザ、編集情報をキャプチャする一連のオリジナル機能を導入する。 さらに,OSM編集履歴から実世界の破壊事件のデータセットを抽出し,このデータセットをオープンデータとして提供する。 実世界のヴァンダリズムデータを用いた評価の結果,ovidの有効性が示された。

OpenStreetMap (OSM), a collaborative, crowdsourced Web map, is a unique source of openly available worldwide map data, increasingly adopted in Web applications. Vandalism detection is a critical task to support trust and maintain OSM transparency. This task is remarkably challenging due to the large scale of the dataset, the sheer number of contributors, various vandalism forms, and the lack of annotated data. This paper presents Ovid - a novel attention-based method for vandalism detection in OSM. Ovid relies on a novel neural architecture that adopts a multi-head attention mechanism to summarize information indicating vandalism from OSM changesets effectively. To facilitate automated vandalism detection, we introduce a set of original features that capture changeset, user, and edit information. Furthermore, we extract a dataset of real-world vandalism incidents from the OSM edit history for the first time and provide this dataset as open data. Our evaluation conducted on real-world vandalism data demonstrates the effectiveness of Ovid.
翻訳日:2022-01-26 16:17:04 公開日:2022-01-25
# giu-gans: 生成型adversarial networkにおけるグローバル情報利用

GIU-GANs: Global Information Utilization for Generative Adversarial Networks ( http://arxiv.org/abs/2201.10471v1 )

ライセンス: Link先を確認
Yongqi Tian, Xueyuan Gong, Jialin Tang, Binghua Su, Xiaoxiang Liu, Xinyuan Zhang(参考訳) 近年,人工知能の急速な発展に伴い,ディープラーニングに基づく画像生成が飛躍的に進歩している。 GAN(Generative Adversarial Networks)に基づく画像生成は有望な研究である。 しかし、畳み込みは空間認識やチャネル固有性によって制限されるため、畳み込みに基づく従来のGANによって抽出された特徴は制約される。 したがって、GANは画像ごとにそれ以上の詳細をキャプチャできない。 一方、簡単に畳み込みを積み重ねると、GANのパラメータや層が多すぎるため、過度に適合するリスクが高くなります。 本稿では,これらの制約を克服するため,新たなGAN(Involution Generative Adversarial Networks)を提案する。 GIU-GANは、Squeeze-and-Excitati on Networks (SENet)とインボリューションを統合して、チャネルアテンション機構によるグローバル情報にフォーカスするGlobal Information utilization (GIU)モジュールと呼ばれる、新しいモジュールを活用する。 一方、バッチ正規化(BN)は、生成元がサンプリングしたノイズの表現差を必然的に無視し、生成した画質を劣化させる。 そこで我々は,この問題に対するGANアーキテクチャに代表バッチ正規化(RBN)を導入する。 cifar-10とcelebaデータセットを用いて,提案モデルの有効性を示す。 多くの実験により、我々のモデルが最先端の競争性能を達成することが証明された。

In recent years, with the rapid development of artificial intelligence, image generation based on deep learning has dramatically advanced. Image generation based on Generative Adversarial Networks (GANs) is a promising study. However, since convolutions are limited by spatial-agnostic and channel-specific, features extracted by traditional GANs based on convolution are constrained. Therefore, GANs are unable to capture any more details per image. On the other hand, straightforwardly stacking of convolutions causes too many parameters and layers in GANs, which will lead to a high risk of overfitting. To overcome the aforementioned limitations, in this paper, we propose a new GANs called Involution Generative Adversarial Networks (GIU-GANs). GIU-GANs leverages a brand new module called the Global Information Utilization (GIU) module, which integrates Squeeze-and-Excitati on Networks (SENet) and involution to focus on global information by channel attention mechanism, leading to a higher quality of generated images. Meanwhile, Batch Normalization(BN) inevitably ignores the representation differences among noise sampled by the generator, and thus degrade the generated image quality. Thus we introduce Representative Batch Normalization(RBN) to the GANs architecture for this issue. The CIFAR-10 and CelebA datasets are employed to demonstrate the effectiveness of our proposed model. A large number of experiments prove that our model achieves state-of-the-art competitive performance.
翻訳日:2022-01-26 16:16:48 公開日:2022-01-25
# 文脈付き自己スーパービジョンによるリンク予測

Link Prediction with Contextualized Self-Supervision ( http://arxiv.org/abs/2201.10069v1 )

ライセンス: Link先を確認
Daokun Zhang, Jie Yin and Philip S. Yu(参考訳) リンク予測は、ネットワーク内の2つのノード間のリンクの存在を推測することを目的としている。 幅広い応用にもかかわらず、従来のリンク予測アルゴリズムの成功は、現実世界のネットワークが直面するリンクスパーシティ、ノード属性ノイズ、ネットワークダイナミクスの3つの大きな課題によって妨げられている。 これらの課題を克服するために、リンク予測のための構造的コンテキスト予測を完全に活用するコンテキスト適応型自己監視学習(CSSL)フレームワークを提案する。 提案したCSSLフレームワークは,ノード属性の変換によって構築されたノードの組込みを集約してエッジ埋め込みを形成し,リンクの存在確率を予測する。 リンク予測に適したノード埋め込みを生成するために、構造的コンテキスト予測を自己教師付き学習タスクとして活用してリンク予測を促進する。 ランダムウォークから収集したコンテキストノードとコンテキストサブグラフの2種類の構造コンテキストについて検討する。 CSSLフレームワークは、リンク予測と自己教師型学習タスクによって監視されるノードとエッジの埋め込みを学習することで、エンドツーエンドでトレーニングすることができる。 提案されているCSSLは、トランスダクティブリンク予測設定とインダクティブリンク予測設定の両方、属性ネットワークと非属性ネットワークの両方を扱えるという意味で、汎用的で柔軟なフレームワークである。 7つの実世界のベンチマークグラフデータセットに対する大規模な実験とアブレーション研究は、トランスダクティブとインダクティブの両方の設定下で異なるタイプのネットワーク上での最先端のベースラインよりも、提案した自己スーパービジョンベースのリンク予測アルゴリズムの優れた性能を示す。 提案したCSSLは、ノード属性ノイズと大規模ネットワーク上でのスケーラビリティに対する堅牢性の観点から、競争性能も向上する。

Link prediction aims to infer the existence of a link between two nodes in a network. Despite their wide application, the success of traditional link prediction algorithms is hindered by three major challenges -- link sparsity, node attribute noise and network dynamics -- that are faced by real-world networks. To overcome these challenges, we propose a Contextualized Self-Supervised Learning (CSSL) framework that fully exploits structural context prediction for link prediction. The proposed CSSL framework forms edge embeddings through aggregating pairs of node embeddings constructed via a transformation on node attributes, which are used to predict the link existence probability. To generate node embeddings tailored for link prediction, structural context prediction is leveraged as a self-supervised learning task to boost link prediction. Two types of structural contexts are investigated, i.e., context nodes collected from random walks vs. context subgraphs. The CSSL framework can be trained in an end-to-end manner, with the learning of node and edge embeddings supervised by link prediction and the self-supervised learning task. The proposed CSSL is a generic and flexible framework in the sense that it can handle both transductive and inductive link prediction settings, and both attributed and non-attributed networks. Extensive experiments and ablation studies on seven real-world benchmark graph datasets demonstrate the superior performance of the proposed self-supervision based link prediction algorithm over state-of-the-art baselines on different types of networks under both transductive and inductive settings. The proposed CSSL also yields competitive performance in terms of its robustness to node attribute noise and scalability over large-scale networks.
翻訳日:2022-01-26 16:14:49 公開日:2022-01-25
# 過去40年間の航空宇宙システム統合の進化

Aerospace Human System Integration Evolution over the Last 40 Years ( http://arxiv.org/abs/2201.10275v1 )

ライセンス: Link先を確認
Guy Andre Boy(参考訳) この章は、過去40年間の航空宇宙システムにおける人間中心設計(hcd)の進化に焦点を当てている。 ヒューマンファクターとエルゴノミクスは、1980年代ごろに物理と医学の研究から認知の問題へと移行した。 コンピュータの出現により、ヒューマン・コンピュータ・インタラクション(HCI)が発展し、デジタル・インタラクション・デザインとユーザ・エクスペリエンス(UX)の分野へと拡大した。 パイロットが機械的な操作をしたからではなく、コンピュータのディスプレイ上のポインティングデバイスを使って対話したからだ。 2000年代初め以降、複雑化と組織的な問題は、複雑なシステム設計と管理が中心的な段階となり、人的要素や組織的な設定の役割に注目が集まるようになった。 現在、Human Systems Integration(HSI)は、もはや単一エージェントの問題ではなく、マルチエージェントの研究分野である。 システムはシステムシステムであり、人と機械の表現と見なされる。 これらは静的および動的に関節構造と機能で構成されている。 彼らが働いているとき、それらは進化において考慮される必要がある(すなわち、常に再設計される)新たな機能や構造を生み出す生物である。 この章はより具体的に、人間中心のシステム表現、生命クリティカルシステム、組織的問題、複雑性管理、モデリングとシミュレーション、柔軟性、結合性、自律性といったヒューマンファクタに焦点を当てます。 この議論は航空宇宙と同様に民間航空や航空戦のいくつかの例に基づいている。

This chapter focuses on the evolution of Human-Centered Design (HCD) in aerospace systems over the last forty years. Human Factors and Ergonomics first shifted from the study of physical and medical issues to cognitive issues circa the 1980s. The advent of computers brought with it the development of human-computer interaction (HCI), which then expanded into the field of digital interaction design and User Experience (UX). We ended up with the concept of interactive cockpits, not because pilots interacted with mechanical things, but because they interacted using pointing devices on computer displays. Since the early 2000s, complexity and organizational issues gained prominence to the point that complex systems design and management found itself center stage, with the spotlight on the role of the human element and organizational setups. Today, Human Systems Integration (HSI) is no longer only a single-agent problem, but a multi-agent research field. Systems are systems of systems, considered as representations of people and machines. They are made of statically and dynamically articulated structures and functions. When they are at work, they are living organisms that generate emerging functions and structures that need to be considered in evolution (i.e., in their constant redesign). This chapter will more specifically, focus on human factors such as human-centered systemic representations, life critical systems, organizational issues, complexity management, modeling and simulation, flexibility, tangibility and autonomy. The discussion will be based on several examples in civil aviation and air combat, as well as aerospace.
翻訳日:2022-01-26 16:14:25 公開日:2022-01-25
# 肺超音波の逆転移・診断学習のための高密度画素標識法と肺炎検出

Dense Pixel-Labeling for Reverse-Transfer and Diagnostic Learning on Lung Ultrasound for COVID-19 and Pneumonia Detection ( http://arxiv.org/abs/2201.10166v1 )

ライセンス: Link先を確認
Gautam Rajendrakumar Gare, Andrew Schoenling, Vipin Philip, Hai V Tran, Bennett P deBoisblanc, Ricardo Luis Rodriguez, John Michael Galeotti(参考訳) そこで本研究では,事前学習したセグメンテーションモデルを用いて診断分類を行い,一般化と解釈性の向上を図る。 セグメンテーションモデルを分類モデルに変換するアーキテクチャを提案する。 重み付けとスパースセグメンテーションラベリングを比較し,診断分類への影響について検討した。 4例の肺超音波スキャンのカスタムデータセットにおけるa-lines,b-lines,pleu ral linesの分割と,u-netの訓練結果の比較を行った。 我々の実験は、密接なラベルが偽陽性検出を減少させることを示している。 高密度でスパースな訓練を受けたu-netの分類能力を調査し,未訓練のu-netと対比し,約40kキュリニアおよびリニアプローブ画像の大規模な超音波データを用いてcovid-19と肺炎の検出と識別を行った。 我々のセグメンテーションモデルでは、事前訓練されたセグメンテーション重みを用いた場合、より優れた分類を行う。

We propose using a pre-trained segmentation model to perform diagnostic classification in order to achieve better generalization and interpretability, terming the technique reverse-transfer learning. We present an architecture to convert segmentation models to classification models. We compare and contrast dense vs sparse segmentation labeling and study its impact on diagnostic classification. We compare the performance of U-Net trained with dense and sparse labels to segment A-lines, B-lines, and Pleural lines on a custom dataset of lung ultrasound scans from 4 patients. Our experiments show that dense labels help reduce false positive detection. We study the classification capability of the dense and sparse trained U-Net and contrast it with a non-pretrained U-Net, to detect and differentiate COVID-19 and Pneumonia on a large ultrasound dataset of about 40k curvilinear and linear probe images. Our segmentation-based models perform better classification when using pretrained segmentation weights, with the dense-label pretrained U-Net performing the best.
翻訳日:2022-01-26 16:13:06 公開日:2022-01-25
# city3d:空中雲からの大規模都市復興

City3D: Large-scale Urban Reconstruction from Airborne Point Clouds ( http://arxiv.org/abs/2201.10276v1 )

ライセンス: Link先を確認
Jin Huang, Jantien Stoter, Ravi Peters, Liangliang Nan(参考訳) 本研究では,小型3次元ビルディングモデルを大規模空調点雲から再構築するための完全自動手法を提案する。 空中雲からの都市再建の大きな課題は、垂直の壁が通常欠落していることである。 本研究は, 都市建築が平面屋根と垂直壁を地上に連結して構成されているという観測に基づいて, 垂直壁を直接データから推定する手法を提案する。 屋根と壁の平面セグメントを用いて, 建物表面の面を仮定し, 拡張された仮説と選択に基づく多角形表面再構成フレームワークを用いて最終モデルを得る。 具体的には,屋根の選好を奨励する新たなエネルギー用語と,最適化ステップに2つの追加のハード制約を導入することで,トポロジーの正確性とディテールリカバリの強化を図る。 様々な大規模空力点雲の実験により, 再現精度とロバスト性の観点から, この手法は最先端の手法よりも優れていることが示された。 さらに,我々は,ポイントクラウドと20k実世界の3dモデルからなる新しいデータセットを作成した。 このデータセットは、空飛ぶ点雲からの都市復興の研究や都市における3次元都市モデルの利用を促進することができると考えている。

We present a fully automatic approach for reconstructing compact 3D building models from large-scale airborne point clouds. A major challenge of urban reconstruction from airborne point clouds lies in that the vertical walls are typically missing. Based on the observation that urban buildings typically consist of planar roofs connected with vertical walls to the ground, we propose an approach to infer the vertical walls directly from the data. With the planar segments of both roofs and walls, we hypothesize the faces of the building surface, and the final model is obtained by using an extended hypothesis-and-selec tion-based polygonal surface reconstruction framework. Specifically, we introduce a new energy term to encourage roof preferences and two additional hard constraints into the optimization step to ensure correct topology and enhance detail recovery. Experiments on various large-scale airborne point clouds have demonstrated that the method is superior to the state-of-the-art methods in terms of reconstruction accuracy and robustness. In addition, we have generated a new dataset with our method consisting of the point clouds and 3D models of 20k real-world buildings. We believe this dataset can stimulate research in urban reconstruction from airborne point clouds and the use of 3D city models in urban applications.
翻訳日:2022-01-26 16:12:45 公開日:2022-01-25
# 動脈壁のマスキングによるプラークセグメンテーション

Plaque segmentation via masking of the artery wall ( http://arxiv.org/abs/2201.10424v1 )

ライセンス: Link先を確認
Antonio Tejero-de-Pablos, Hiroaki Yamane, Yusuke Kurose, Junichi Iho, Youji Tokunaga, Makoto Horie, Keisuke Nishizawa, Yusaku Hayashi, Yasushi Koyama, Tatsuya Harada(参考訳) 冠動脈内プラークの存在は患者の生命にとって大きなリスクである。 特に、非石灰化プラークは検出が難しく、石灰化プラークよりも破裂しやすいため、大きな課題となる。 現在のディープラーニング技術は、通常の画像の正確なセグメンテーションを可能にするが、医療画像のパフォーマンスは依然として低く、その主な原因は、同じ範囲に落下する無関係な部分の曖昧さと曖昧なボクセル強度である。 本稿では,冠動脈のCCTA-CPRスキャンにおける石灰化プラークおよび非石灰化プラークの分画法を提案する。 入力スライスはマスキングされ、壁容器内のボクセルのみがセグメンテーションとして考慮される。 また, 異なる種類のマスクを用いて, プラークセグメンテーションにおける容器マスキングの可能性を検証することで, 徹底的な評価を行う。 本手法は, 定量および定性的評価において, 難解な非石灰化プラークであっても, 正確なプラーク形状を実現するために, セグメンテーション性能を著しく向上させる。 われわれは,この発見が今後,高性能プラークセグメンテーションの研究につながると信じている。

The presence of plaques in the coronary arteries are a major risk to the patients' life. In particular, non-calcified plaques pose a great challenge, as they are harder to detect and more likely to rupture than calcified plaques. While current deep learning techniques allow precise segmentation of regular images, the performance in medical images is still low, caused mostly by blurriness and ambiguous voxel intensities of unrelated parts that fall on the same range. In this paper, we propose a novel methodology for segmenting calcified and non-calcified plaques in CCTA-CPR scans of coronary arteries. The input slices are masked so only the voxels within the wall vessel are considered for segmentation. We also provide an exhaustive evaluation by applying different types of masks, in order to validate the potential of vessel masking for plaque segmentation. Our methodology results in a prominent boost in segmentation performance, in both quantitative and qualitative evaluation, achieving accurate plaque shapes even for the challenging non-calcified plaques. We believe our findings can lead the future research for high-performance plaque segmentation.
翻訳日:2022-01-26 16:11:30 公開日:2022-01-25
# 対人チームゲームのための公開情報表現

Public Information Representation for Adversarial Team Games ( http://arxiv.org/abs/2201.10377v1 )

ライセンス: Link先を確認
Luca Carminati, Federico Cacciamani, Marco Ciccone, Nicola Gatti(参考訳) 対戦チームゲームの特異性は、プレイ中にチームメンバーが利用可能な非対称情報の中に存在し、ゼロサムのペイオフであっても平衡計算問題を難しくする。 文献で利用可能なアルゴリズムは戦略空間を暗黙的に表現し、主に戦略空間を漸進的に拡大するために線形プログラミングと列生成技術を利用する。 このような表現は、抽象化生成、ゲーム解決、サブゲーム解決といった標準的なツールの採用を妨げる。 これらの作品とは違って、我々はこれらのツールの採用を可能にする適切なゲーム表現が存在するかどうかという疑問に答える。 特に,我々のアルゴリズムは,対戦相手を持つシーケンシャルなチームゲームから古典的な2プレーヤゼロサムゲームに変換する。 この変換ゲームでは、チームはチーム全体に共通する情報しか知らない単一のコーディネータプレーヤーに変換され、プレイヤーに可能なプライベート状態のアクションを割り当てる。 興味深いことに、我々のゲームはオリジナルの拡張フォームゲームよりも表現力が高く、一方、逆は保持されないので、拡張フォームゲームの状態や動作の抽象化は我々の表現によってキャプチャできる。 この問題のNPハード性のため、結果のパブリックチームゲームは元のゲームよりも指数関数的に大きいかもしれない。 この爆発を抑えるために、我々は3つのアルゴリズムを提供し、それぞれが木のサイズを劇的に削減する情報ロスレス抽象化を返す。 これらの抽象化は、元のゲームツリーを生成することなく生成できる。 最後に,両プレイヤーゼロサムゲームに対する最先端のアルゴリズムを適用したKuhn と Leduc Poker のゲームに対して実験結果を提示し,提案手法の有効性を示す。

The peculiarity of adversarial team games resides in the asymmetric information available to the team members during the play, which makes the equilibrium computation problem hard even with zero-sum payoffs. The algorithms available in the literature work with implicit representations of the strategy space and mainly resort to Linear Programming and column generation techniques to enlarge incrementally the strategy space. Such representations prevent the adoption of standard tools such as abstraction generation, game solving, and subgame solving, which demonstrated to be crucial when solving huge, real-world two-player zero-sum games. Differently from these works, we answer the question of whether there is any suitable game representation enabling the adoption of those tools. In particular, our algorithms convert a sequential team game with adversaries to a classical two-player zero-sum game. In this converted game, the team is transformed into a single coordinator player who only knows information common to the whole team and prescribes to the players an action for any possible private state. Interestingly, we show that our game is more expressive than the original extensive-form game as any state/action abstraction of the extensive-form game can be captured by our representation, while the reverse does not hold. Due to the NP-hard nature of the problem, the resulting Public Team game may be exponentially larger than the original one. To limit this explosion, we provide three algorithms, each returning an information-lossless abstraction that dramatically reduces the size of the tree. These abstractions can be produced without generating the original game tree. Finally, we show the effectiveness of the proposed approach by presenting experimental results on Kuhn and Leduc Poker games, obtained by applying state-of-art algorithms for two-player zero-sum games on the converted games
翻訳日:2022-01-26 16:10:48 公開日:2022-01-25
# 半監督量子推定:高次元設定におけるロバストと効率的な推論

Semi-Supervised Quantile Estimation: Robust and Efficient Inference in High Dimensional Settings ( http://arxiv.org/abs/2201.10208v1 )

ライセンス: Link先を確認
Abhishek Chakrabortty, Guorong Dai and Raymond J. Carroll(参考訳) 2つの利用可能なデータセットを特徴とする半教師付き環境での量子推定を考える。 (i)応答の観察とおそらく高次元の共変量の集合を含む、小型又は中程度のラベル付きデータセット (ii)共変量のみを観測する、はるかに大きなラベルのないデータセット。 本研究では,2つのデータセットに基づく応答量子化のための半教師付き推定器群を提案し,教師付き推定器,すなわちラベル付きデータからのサンプル量子化器と比較して推定精度を向上させる。 これらの推定器は、推定式に適用される柔軟なインプテーション戦略と、インプテーションモデルの誤特定に対する完全なロバスト性を可能にするデバイアスステップを用いる。 さらに,本手法の実装が容易な一段階更新戦略を採用し,量子的推定方程式の非線形性質から複雑性を扱えるようにした。 軽微な仮定の下では、根nの一貫性と漸近正規性を常に維持するという意味で、我々の推定器はニュアンス計算モデルの選択に対して完全に堅牢であり、教師付き推定器と比較して効率が向上する。 また、応答と共変量の関係がインプテーションモデルによって正しく指定されている場合、半パラメトリック最適性を得る。 ニュアサンスインプテーション関数を推定する例として,高次元共変量の低次元およびおそらく推定された変換上での核平滑化型推定器について検討し,関数クラスにインデックスされた応答と次元減少手法を用いた高次元における一様収束率に関する新しい結果を確立した。 これらの結果は独立した関心事かもしれない。 シミュレーションデータと実データの両方の数値計算結果から,推定と推測の両方の観点から,半教師付きアプローチによる性能向上が確認できた。

We consider quantile estimation in a semi-supervised setting, characterized by two available data sets: (i) a small or moderate sized labeled data set containing observations for a response and a set of possibly high dimensional covariates, and (ii) a much larger unlabeled data set where only the covariates are observed. We propose a family of semi-supervised estimators for the response quantile(s) based on the two data sets, to improve the estimation accuracy compared to the supervised estimator, i.e., the sample quantile from the labeled data. These estimators use a flexible imputation strategy applied to the estimating equation along with a debiasing step that allows for full robustness against misspecification of the imputation model. Further, a one-step update strategy is adopted to enable easy implementation of our method and handle the complexity from the non-linear nature of the quantile estimating equation. Under mild assumptions, our estimators are fully robust to the choice of the nuisance imputation model, in the sense of always maintaining root-n consistency and asymptotic normality, while having improved efficiency relative to the supervised estimator. They also attain semi-parametric optimality if the relation between the response and the covariates is correctly specified via the imputation model. As an illustration of estimating the nuisance imputation function, we consider kernel smoothing type estimators on lower dimensional and possibly estimated transformations of the high dimensional covariates, and we establish novel results on their uniform convergence rates in high dimensions, involving responses indexed by a function class and usage of dimension reduction techniques. These results may be of independent interest. Numerical results on both simulated and real data confirm our semi-supervised approach's improved performance, in terms of both estimation and inference.
翻訳日:2022-01-26 16:10:19 公開日:2022-01-25
# クロネッカー積特異値分解を用いたニューラルネットワークにおけるフィッシャー行列の効率的な近似

Efficient Approximations of the Fisher Matrix in Neural Networks using Kronecker Product Singular Value Decomposition ( http://arxiv.org/abs/2201.10285v1 )

ライセンス: Link先を確認
Abdoulaye Koroko (IFPEN), Ani Anciaux-Sedastrian (IFPEN), Ibtihel Gharbia (IFPEN), Val\'erie Gar\`es (IRMAR), Mounir Haddou (IRMAR), Quang Huy Tran (IFPEN)(参考訳) いくつかの研究では、通常の勾配降下法よりも目的関数を効率的に最小化できる自然勾配降下法が示されている。 しかしながら、深層ニューラルネットワークのトレーニングにおけるこのアプローチのボトルネックは、フィッシャー情報行列(fim)に対応する大規模高密度線形系を各イテレーションで解くことの禁止コストにある。 これは、正確なFIMまたは経験的なFIMの様々な近似を動機付けている。 最も洗練されたものは KFAC であり、Kronecker による FIM のブロック対角近似を含む。 わずかな追加コストで、精度の観点から、KFACのいくつかの改善が提案されている。 4つの新手法の一般的な特徴は、直接最小化問題に依存しており、その解はクロネッカー積の特異値分解法によって計算できる。 3つの標準Deep-Encoderベンチマークの実験結果から、FIMのより正確な近似が得られた。 さらに、最適化速度の観点から、KFACや最先端の1次法よりも優れている。

Several studies have shown the ability of natural gradient descent to minimize the objective function more efficiently than ordinary gradient descent based methods. However, the bottleneck of this approach for training deep neural networks lies in the prohibitive cost of solving a large dense linear system corresponding to the Fisher Information Matrix (FIM) at each iteration. This has motivated various approximations of either the exact FIM or the empirical one. The most sophisticated of these is KFAC, which involves a Kronecker-factored block diagonal approximation of the FIM. With only a slight additional cost, a few improvements of KFAC from the standpoint of accuracy are proposed. The common feature of the four novel methods is that they rely on a direct minimization problem, the solution of which can be computed via the Kronecker product singular value decomposition technique. Experimental results on the three standard deep auto-encoder benchmarks showed that they provide more accurate approximations to the FIM. Furthermore, they outperform KFAC and state-of-the-art first-order methods in terms of optimization speed.
翻訳日:2022-01-26 16:09:47 公開日:2022-01-25
# 観測データからの資源配分政策の学習と在宅サービス提供への応用

Learning Resource Allocation Policies from Observational Data with an Application to Homeless Services Delivery ( http://arxiv.org/abs/2201.10053v1 )

ライセンス: Link先を確認
Aida Rahmattalabi, Phebe Vayanos, Kathryn Dullerud, Eric Rice(参考訳) 本研究では,観察データから不均質な個人と異なる種類の資源の不足に効果的にマッチする公正かつ解釈可能な政策まで,学習の課題について検討する。 我々はこの問題を,個人とリソースが時間とともに確率的に到着するマルチクラスマルチサーバキューシステムとしてモデル化する。 各個人は到着するとキューに割り当てられ、リソースにマッチするのを待つ。 リソースは、各キューにサービスするリソースタイプをエンコードする適格性構造に従って、最初のcome first serving(fcfs)方式で割り当てられる。 本稿では,現代の因果推論の手法に基づく手法を提案し,各キューの構築とマッチング結果の学習を行い,その信頼性構造を最適化するためのMIO(mixed-integer Optimization)の定式化を提案する。 mio問題は、待ち時間と公平性の制約による政策成果を最大化する。 非常に柔軟で、追加の線形ドメイン制約を可能にする。 合成データと実世界データを用いて広範な分析を行う。 特に,米国ホームレスマネジメント情報システム(HMIS)のデータを用いたフレームワークの評価を行った。 FCFSの方針に準じて待ち時間が低くなり,貧弱なグループや脆弱なグループではホームレスからの退避率(黒人では7%,17歳未満では15%)が向上した。

We study the problem of learning, from observational data, fair and interpretable policies that effectively match heterogeneous individuals to scarce resources of different types. We model this problem as a multi-class multi-server queuing system where both individuals and resources arrive stochastically over time. Each individual, upon arrival, is assigned to a queue where they wait to be matched to a resource. The resources are assigned in a first come first served (FCFS) fashion according to an eligibility structure that encodes the resource types that serve each queue. We propose a methodology based on techniques in modern causal inference to construct the individual queues as well as learn the matching outcomes and provide a mixed-integer optimization (MIO) formulation to optimize the eligibility structure. The MIO problem maximizes policy outcome subject to wait time and fairness constraints. It is very flexible, allowing for additional linear domain constraints. We conduct extensive analyses using synthetic and real-world data. In particular, we evaluate our framework using data from the U.S. Homeless Management Information System (HMIS). We obtain wait times as low as an FCFS policy while improving the rate of exit from homelessness for underserved or vulnerable groups (7% higher for the Black individuals and 15% higher for those below 17 years old) and overall.
翻訳日:2022-01-26 16:07:50 公開日:2022-01-25
# スペクトルバロン空間における$\mathbb{r}^d$ 上の静的schr\"odinger方程式の正則性理論

A Regularity Theory for Static Schr\"odinger Equations on $\mathbb{R}^d$ in Spectral Barron Spaces ( http://arxiv.org/abs/2201.10072v1 )

ライセンス: Link先を確認
Ziang Chen, Jianfeng Lu, Yulong Lu, Shengxuan Zhou(参考訳) スペクトルバロン空間は、次元自由収束速度を持つ2層ニューラルネットワークの近似理論の自然な関数空間であるため、近年かなりの関心を集めている。 本稿では,スペクトルバロン空間における全空間静的schr\"odinger方程式に対する解の正則性について検討する。 方程式の源がスペクトルバロン空間 $\mathcal{b}^s(\mathbb{r}^d)$ にあり、非負の下界を許容するポテンシャル関数が正の定数と$\mathcal{b}^s(\mathbb{r}^d)$ の関数として分解すると、解はスペクトルバロン空間 $\mathcal{b}^{s+2}(\mathbb{r}^d)$ にあることが証明される。

Spectral Barron spaces have received considerable interest recently as it is the natural function space for approximation theory of two-layer neural networks with a dimension-free convergence rate. In this paper we study the regularity of solutions to the whole-space static Schr\"odinger equation in spectral Barron spaces. We prove that if the source of the equation lies in the spectral Barron space $\mathcal{B}^s(\mathbb{R}^d)$ and the potential function admitting a non-negative lower bound decomposes as a positive constant plus a function in $\mathcal{B}^s(\mathbb{R}^d)$, then the solution lies in the spectral Barron space $\mathcal{B}^{s+2}(\mathbb{R}^d)$.
翻訳日:2022-01-26 16:07:31 公開日:2022-01-25
# コンバージェンスとプライバシ保証による確率符号化型フェデレーション学習

Stochastic Coded Federated Learning with Convergence and Privacy Guarantees ( http://arxiv.org/abs/2201.10092v1 )

ライセンス: Link先を確認
Yuchang Sun and Jiawei Shao and Songze Li and Yuyi Mao and Jun Zhang(参考訳) フェデレーション学習(federated learning, fl)は、プライバシを保護した分散機械学習フレームワークとして、多くのクライアントが生のデータを共有するのではなく、パラメータサーバとモデル更新を交換して機械学習モデルを協調的にトレーニングする。 それでも、FLトレーニングは、クライアントの不均一な計算資源と変動する通信速度によって引き起こされるトラグラーによって、緩やかな収束と不安定な性能に悩まされている。 本稿では,ストラグラー問題を緩和するために,*stochastic coded federated learning* (SCFL) というコード付きFLフレームワークを提案する。 提案フレームワークでは,各クライアントが局所データのランダムな線形結合に付加ノイズを加えることにより,プライバシ保護符号化データセットを生成する。 サーバは、コード化されたデータセットをすべてのクライアントから収集し、複合データセットを構築する。 トレーニングプロセスにおいて、サーバおよびクライアントは、ミニバッチ確率勾配降下(SGD)を行い、サーバはモデル集約において化粧語を追加して、偏りのない勾配推定値を得る。 我々は、相互情報差分プライバシー(MI-DP)によるプライバシー保証を特徴付け、連合学習における収束性能を分析する。 さらに,プライバシ制約が収束率に与える影響を分析することで,提案手法のプライバシ性能のトレードオフを実証する。 最後に,データプライバシを保ちながら高速収束を実現する上でSCFLの利点を示す数値実験を行った。

Federated learning (FL) has attracted much attention as a privacy-preserving distributed machine learning framework, where many clients collaboratively train a machine learning model by exchanging model updates with a parameter server instead of sharing their raw data. Nevertheless, FL training suffers from slow convergence and unstable performance due to stragglers caused by the heterogeneous computational resources of clients and fluctuating communication rates. This paper proposes a coded FL framework, namely *stochastic coded federated learning* (SCFL) to mitigate the straggler issue. In the proposed framework, each client generates a privacy-preserving coded dataset by adding additive noise to the random linear combination of its local data. The server collects the coded datasets from all the clients to construct a composite dataset, which helps to compensate for the straggling effect. In the training process, the server as well as clients perform mini-batch stochastic gradient descent (SGD), and the server adds a make-up term in model aggregation to obtain unbiased gradient estimates. We characterize the privacy guarantee by the mutual information differential privacy (MI-DP) and analyze the convergence performance in federated learning. Besides, we demonstrate a privacy-performance tradeoff of the proposed SCFL method by analyzing the influence of the privacy constraint on the convergence rate. Finally, numerical experiments corroborate our analysis and show the benefits of SCFL in achieving fast convergence while preserving data privacy.
翻訳日:2022-01-26 16:07:11 公開日:2022-01-25
# PowerGear: Heterogeneous Edge-Centric GNNによるFPGA HLSの早期電力推定

PowerGear: Early-Stage Power Estimation in FPGA HLS via Heterogeneous Edge-Centric GNNs ( http://arxiv.org/abs/2201.10114v1 )

ライセンス: Link先を確認
Zhe Lin, Zike Yuan, Jieru Zhao, Wei Zhang, Hui Wang and Yonghong Tian(参考訳) 電力推定は多くのハードウェア最適化戦略の基礎である。 しかし、高レベル合成(HLS)のような早期に正確な電力推定を行うことは依然として困難である。 本稿では,FPGA HLSのためのグラフ学習支援電力推定手法PowerGearを提案する。 PowerGearには,グラフ構築フローとカスタマイズグラフニューラルネットワーク(GNN)モデルという,2つの主要コンポーネントがある。 具体的には、グラフ構築フローにおいて、バッファ挿入、データパスのマージ、グラフトリミング、特徴アノテーション技術を導入し、HLS設計をグラフ構造化データに変換する。 さらに,エッジ中心近傍アグリゲーションを通じて構築したグラフの異種エッジ意味論と構造特性を効果的に学習し,動的パワーの定式化に適合する新しいパワーアウェア異種エッジ中心gnnモデルを提案する。 PowerGearは車載計測と比較して3.60%と8.81%の誤差を持つ新しいHLS設計の総出力と動的パワーを推定し、研究における先行技術と商用製品であるVivadoを上回っている。 さらに、powergearはvivado power estimatorの4倍のスピードアップを示している。 最後に、fpga hlsの設計空間探索を容易にするためにpowergearを活用し、最先端予測モデルを用いた手法と比較して最大11.2%の性能向上を実現するケーススタディを提案する。

Power estimation is the basis of many hardware optimization strategies. However, it is still challenging to offer accurate power estimation at an early stage such as high-level synthesis (HLS). In this paper, we propose PowerGear, a graph-learning-assis ted power estimation approach for FPGA HLS, which features high accuracy, efficiency and transferability. PowerGear comprises two main components: a graph construction flow and a customized graph neural network (GNN) model. Specifically, in the graph construction flow, we introduce buffer insertion, datapath merging, graph trimming and feature annotation techniques to transform HLS designs into graph-structured data, which encode both intra-operation micro-architectures and inter-operation interconnects annotated with switching activities. Furthermore, we propose a novel power-aware heterogeneous edge-centric GNN model which effectively learns heterogeneous edge semantics and structural properties of the constructed graphs via edge-centric neighborhood aggregation, and fits the formulation of dynamic power. Compared with on-board measurement, PowerGear estimates total and dynamic power for new HLS designs with errors of 3.60% and 8.81%, respectively, which outperforms the prior arts in research and the commercial product Vivado. In addition, PowerGear demonstrates a speedup of 4x over Vivado power estimator. Finally, we present a case study in which PowerGear is exploited to facilitate design space exploration for FPGA HLS, leading to a performance gain of up to 11.2%, compared with methods using state-of-the-art predictive models.
翻訳日:2022-01-26 16:06:43 公開日:2022-01-25
# 準静的ニューラルネットワークで表現されない動的モードをキャプチャするための解析的に可積分なゼロレスト長スプリング

Analytically Integratable Zero-restlength Springs for Capturing Dynamic Modes unrepresented by Quasistatic Neural Networks ( http://arxiv.org/abs/2201.10122v1 )

ライセンス: Link先を確認
Yongxu Jin, Yushan Han, Zhenglin Geng, Joseph Teran, Ronald Fedkiw(参考訳) 本稿では,ニューラルネットワークを用いて,ある種の動的シミュレーションをリアルタイムにモデル化する新しいパラダイムを提案する。 データ(特に時間依存データ)の要求を大幅に低減し、一般化誤差を低減するために、我々は、データ駆動ニューラルネットワークを使用して、準静的情報(動的情報や時間依存情報の代わりに)をキャプチャする。 その後、準静的ニューラルネットワーク(QNN)の推論を(リアルタイム)動的シミュレーション層で強化する。 我々の重要な洞察は、QNN近似を用いて失われた動的モードは、解析的に(数値的には対照的に)統合することができ、したがって時間-ステップの安定性の制限がない非常に単純な(そして分離された)ゼロレストスプリングモデルでキャプチャできるということである。 さらに, 驚くほど少量の動的シミュレーションデータから, スプリング構成パラメータを頑健に学習できることを実証した。 本手法は,人体のソフトトイップダイナミクスを考慮し,その効果を示すが,そのパラダイムは多種多様なシミュレーションフレームワークに拡張可能である。

We present a novel paradigm for modeling certain types of dynamic simulation in real-time with the aid of neural networks. In order to significantly reduce the requirements on data (especially time-dependent data), as well as decrease generalization error, our approach utilizes a data-driven neural network only to capture quasistatic information (instead of dynamic or time-dependent information). Subsequently, we augment our quasistatic neural network (QNN) inference with a (real-time) dynamic simulation layer. Our key insight is that the dynamic modes lost when using a QNN approximation can be captured with a quite simple (and decoupled) zero-restlength spring model, which can be integrated analytically (as opposed to numerically) and thus has no time-step stability restrictions. Additionally, we demonstrate that the spring constitutive parameters can be robustly learned from a surprisingly small amount of dynamic simulation data. Although we illustrate the efficacy of our approach by considering soft-tissue dynamics on animated human bodies, the paradigm is extensible to many different simulation frameworks.
翻訳日:2022-01-26 16:06:15 公開日:2022-01-25
# 機械学習を用いたインドにおける気候変動パラメータの解析

Analysis of various climate change parameters in India using machine learning ( http://arxiv.org/abs/2201.10123v1 )

ライセンス: Link先を確認
Rutvij Wamanse and Tushuli Patil(参考訳) インドにおける気候変動は、私たちのコミュニティが直面した最も恐ろしい問題のひとつです。 過去数年間の気候の悪化と突然の変化により、人類は脅威にさらされている。 気候変動の様々な影響には、極端な暑さ、降雨パターンの変化、干ばつ、地下水、氷河融解、海面上昇などが含まれる。 機械学習は、過去のデータを使って変化のグラフを分析し予測し、将来、気候変動のインパクトある仕事の触媒となるモデルを設計し、インドが今後の気候変動と闘うための一歩を踏み出すことができる。 本稿では,インドに関する17の気候変動パラメータを分析した。 線形回帰,指数回帰,多項式回帰をパラメータに適用し,結果を評価した。 設計モデルを用いて、これらのパラメータを2025,2030,2035年間予測する。 これらの予測値は、我々のコミュニティが人類に有害で有害な影響を防ぎ、対処するのに役立ちます。 我々は17のパラメータすべてについて正確な結果を提供するモデルの設計と作成を行った。 したがって、予測値はインドが気候変動に対して十分に対応できるのに役立つ。 このデータをインド国民に提供すれば、彼らの間で認識が深まり、気候変動の有害な影響から国を救うのに役立ちます。

Climate change in India is one of the most alarming problems faced by our community. Due to adverse and sudden changes in climate in past few years, mankind is at threat. Various impacts of climate change include extreme heat, changing rainfall patterns, droughts, groundwater, glacier melt, sea-level rise, and many more. Machine Learning can be used to analyze and predict the graph of change using previous data and thus design a model which in the future can furthermore be used to catalyze impactful work of climate change and take steps in the direction to help India fight against the upcoming climate changes. In this paper, we have analyzed 17 climate change parameters about India. We have applied linear regression, exponential regression, and polynomial regression to the parameters and evaluated the results. Using the designed model, we will predict these parameters for the years 2025,2030, 2035. These predicted values will thus help our community to prevent and take actions against the adverse and hazardous effects on mankind. We have designed and created this model which provides accurate results regarding all 17 parameters. The predicted values will therefore help India to be well equipped against climate change. This data when made available to the people of India will help create awareness among them and will help us save our country from the haphazard effects of climate change.
翻訳日:2022-01-26 16:05:55 公開日:2022-01-25
# ジャストインタイムバグ予測のためのソースコードグラフの構造特性の活用

Leveraging Structural Properties of Source Code Graphs for Just-In-Time Bug Prediction ( http://arxiv.org/abs/2201.10137v1 )

ライセンス: Link先を確認
Md Nadim, Debajyoti Mondal, Chanchal K. Roy(参考訳) データ可視化の最も一般的な用途は、適切な理解のために複雑さを最小化することである。 グラフは関係データを理解するために最もよく使われる表現の1つである。 テキスト形式で保持されている場合の理解が困難であるデータの簡易表現を生成する。 本研究では,ソースコードのリレーショナル特性をグラフ形式で活用し,ソフトウェアの進化とメンテナンスの異なる修正において,ソフトウェアシステムにおけるJust-in-Time(JIT)バグ予測を識別する手法を提案する。 我々はコミットパッチのソースコードを等価なグラフ表現に変換する方法を示し、それをソースコードグラフ(SCG)と名付けた。 複数のソースコードグラフを解析・比較するために,密度,周期数,ノード数,エッジ数など,これらのグラフの構造特性を抽出した。 そして、それらのscgの属性値を利用して、バグの多いソフトウェアコミットを視覚化し、検出します。 この調査では12の被験者システムから246K以上のソフトウェアコミットを処理する。 c++とjavaで記述されたこれらの12のオープンソースソフトウェアプロジェクトに関する調査は、scgの機能を同様の研究で使用される従来の機能と組み合わせることで、機械学習(ml)ベースのバギーコミット検出モデルのパフォーマンスが向上することを示している。 また、Wilcoxon Signed Rank Test を用いて、バグや非バグのコミットを統計的に有意に予測する際の F1~Scores の増加も見出した。 SCGベースの特徴値は、ソースコードの更新やソフトウェアシステムの変更のスタイルや構造を表現しているため、ソースコードのスタイルや構造を慎重にメンテナンスすることの重要性が示唆されている。

The most common use of data visualization is to minimize the complexity for proper understanding. A graph is one of the most commonly used representations for understanding relational data. It produces a simplified representation of data that is challenging to comprehend if kept in a textual format. In this study, we propose a methodology to utilize the relational properties of source code in the form of a graph to identify Just-in-Time (JIT) bug prediction in software systems during different revisions of software evolution and maintenance. We presented a method to convert the source codes of commit patches to equivalent graph representations and named it Source Code Graph (SCG). To understand and compare multiple source code graphs, we extracted several structural properties of these graphs, such as the density, number of cycles, nodes, edges, etc. We then utilized the attribute values of those SCGs to visualize and detect buggy software commits. We process more than 246K software commits from 12 subject systems in this investigation. Our investigation on these 12 open-source software projects written in C++ and Java programming languages shows that if we combine the features from SCG with conventional features used in similar studies, we will get the increased performance of Machine Learning (ML) based buggy commit detection models. We also find the increase of F1~Scores in predicting buggy and non-buggy commits statistically significant using the Wilcoxon Signed Rank Test. Since SCG-based feature values represent the style or structural properties of source code updates or changes in the software system, it suggests the importance of careful maintenance of source code style or structure for keeping a software system bug-free.
翻訳日:2022-01-26 16:05:35 公開日:2022-01-25
# (参考訳) ソーシャルメディア上での適切な着想検出:機械学習手法の概観 [全文訳有]

Suicidal Ideation Detection on Social Media: A Review of Machine Learning Methods ( http://arxiv.org/abs/2201.10515v1 )

ライセンス: CC BY 4.0
Asma Abdulsalam and Areej Alhothali(参考訳) ソーシャルメディアプラットフォームは、世界中のユーザーが瞬時、オープン、頻繁なコミュニケーションを可能にすることによって、従来のコミュニケーション方法を変えてきた。 人々はソーシャルメディアを使って意見を述べ、個人的な物語や苦闘を共有します。 苦悩、死の考え、自傷を表わす否定的な感情は、ソーシャルメディア、特に若い世代に広く浸透している。 したがって、自殺を検知し特定するためにソーシャルメディアを使用することは、最終的には他人を自傷や自殺から遠ざけ、ソーシャルメディア上での自殺イデオロギーの拡散を防ぐ適切な介入を提供するのに役立つ。 ソーシャルメディアにおける自殺イデオロギーや行動を特定するための研究が数多く行われている。 本稿では,ソーシャルメディア上での機械学習アルゴリズムを用いた自殺思考の検出に関する最近の研究成果について概説する。 本レビュー24は,自殺イデオライゼーション検出におけるソーシャルメディアの利用可能性を検討する研究であり,自殺テキスト分類に携わる研究者にとって有用な資源である。

Social media platforms have transformed traditional communication methods by allowing users worldwide to communicate instantly, openly, and frequently. People use social media to express their opinion and share their personal stories and struggles. Negative feelings that express hardship, thoughts of death, and self-harm are widespread in social media, especially among young generations. Therefore, using social media to detect and identify suicidal ideation will help provide proper intervention that will eventually dissuade others from self-harming and committing suicide and prevent the spread of suicidal ideations on social media. Many studies have been carried out to identify suicidal ideation and behaviors in social media. This paper presents a comprehensive summary of current research efforts to detect suicidal ideation using machine learning algorithms on social media. This review 24 studies investigating the feasibility of social media usage for suicidal ideation detection is intended to facilitate further research in the field and will be a beneficial resource for researchers engaged in suicidal text classification.
翻訳日:2022-01-26 16:03:39 公開日:2022-01-25
# 統合失調症言語の定量的・質的分析

A Quantitative and Qualitative Analysis of Schizophrenia Language ( http://arxiv.org/abs/2201.10430v1 )

ライセンス: Link先を確認
Amal Alqahtani, Efsun Sarioglu Kay, Sardar Hamidian, Michael Compton, Mona Diab(参考訳) 統合失調症は、最も不快な精神状態の1つである。 人口の約1%が統合失調症を患っており、多くの人々とその家族に影響を与える。 統合失調症の患者は、形式的思考障害(FTD)、妄想、感情的平坦感の症状が異なる。 本稿では,統合失調症患者の言語を定量的に定性的に分析し,言語的特徴を音声と文章の2つの様相で測定した。 思考のコヒーレンスと結束、感情、特異性、献身的信念(LCB)のレベル、性格特性について検討する。 以上の結果より,統合失調症患者の恐怖と神経症は健常者と比較して高いスコアを示した。 さらに、彼らはより信念に傾倒しており、その記述は詳細を欠いている。 それらは有意なp値を持つ結合の言語的特徴のほとんどにおいて低いスコアを示す。

Schizophrenia is one of the most disabling mental health conditions to live with. Approximately one percent of the population has schizophrenia which makes it fairly common, and it affects many people and their families. Patients with schizophrenia suffer different symptoms: formal thought disorder (FTD), delusions, and emotional flatness. In this paper, we quantitatively and qualitatively analyze the language of patients with schizophrenia measuring various linguistic features in two modalities: speech and written text. We examine the following features: coherence and cohesion of thoughts, emotions, specificity, level of committed belief (LCB), and personality traits. Our results show that patients with schizophrenia score high in fear and neuroticism compared to healthy controls. In addition, they are more committed to their beliefs, and their writing lacks details. They score lower in most of the linguistic features of cohesion with significant p-values.
翻訳日:2022-01-26 15:45:02 公開日:2022-01-25
# 手続き的に生成されたゲームレベルの客観的指標を目指して

Towards Objective Metrics for Procedurally Generated Video Game Levels ( http://arxiv.org/abs/2201.10334v1 )

ライセンス: Link先を確認
Michael Beukman, Steven James and Christopher Cleghorn(参考訳) アカデミアやゲーム開発者による手続き的コンテンツ生成への関心が高まる中、異なるアプローチを公平に比較することは不可欠である。 しかし、標準化されたゲームに依存しない指標が欠如しているため、手続き的に生成されたゲームレベルの評価は難しいことが多い。 本稿では,A*エージェントの動作を分析し,ゲームに依存しない方法で生成レベルの多様性と難易度を測定するためのシミュレーションに基づく2つの評価指標を提案する。 異なるレベルの行動軌跡を編集距離を用いて比較することにより多様性を算出し、エージェントがレベルを解決できるまでにa*探索木の探索と拡張がどの程度必要かという難易度を計測する。 我々の多様性指標は、現在の手法よりもレベルサイズや表現の変化に対して堅牢であり、視覚情報に焦点をあてるのではなく、遊びやすさに直接影響を及ぼす要因も測定できることを実証する。 難易度基準は、テスト済みドメインの1つで既存の難易度推定と相関するが、他のドメインではいくつかの課題に直面している。 最後に,再現性を促進するため,評価フレームワークを公表する。

With increasing interest in procedural content generation by academia and game developers alike, it is vital that different approaches can be compared fairly. However, evaluating procedurally generated video game levels is often difficult, due to the lack of standardised, game-independent metrics. In this paper, we introduce two simulation-based evaluation metrics that involve analysing the behaviour of an A* agent to measure the diversity and difficulty of generated levels in a general, game-independent manner. Diversity is calculated by comparing action trajectories from different levels using the edit distance, and difficulty is measured as how much exploration and expansion of the A* search tree is necessary before the agent can solve the level. We demonstrate that our diversity metric is more robust to changes in level size and representation than current methods and additionally measures factors that directly affect playability, instead of focusing on visual information. The difficulty metric shows promise, as it correlates with existing estimates of difficulty in one of the tested domains, but it does face some challenges in the other domain. Finally, to promote reproducibility, we publicly release our evaluation framework.
翻訳日:2022-01-26 15:44:50 公開日:2022-01-25
# 画像を用いた文化遺産半球ドームの自動認識とデジタル文書化

Automatic Recognition and Digital Documentation of Cultural Heritage Hemispherical Domes using Images ( http://arxiv.org/abs/2201.10015v1 )

ライセンス: Link先を確認
Reza Maalek and Shahrokh Maalek(参考訳) 光度計学の進歩により、文化遺産の密集した3d点雲の文書化が可能になった。 大規模で連続的なデジタルドキュメントでは、高密度な3Dポイントクラウドの処理は計算が面倒になり、データ管理のためのハードウェアの追加、時間的コストの増大、プロジェクトの複雑さがしばしば必要になる。 この目的のために、本写本は、2つの画像のみを用いて、遺産半球ドームの高速で信頼性の高いセマンティック・デジタルモデルを生成するための独自のアプローチを提示する。 新しい閉じた定式化は、球面と投影された楕円体の間の関係を画像上に確立するために導出され、球面の自動生成のための新しいフレームワークの開発が促進された。 提案手法の有効性を実験室および実世界のデータセットで評価した。 その結果,提案手法は,定点クラウド処理法と比較した場合の計算時間を7倍に改善しつつ,約6mmのモデル精度を達成できた。

Advancements in optical metrology has enabled documentation of dense 3D point clouds of cultural heritage sites. For large scale and continuous digital documentation, processing of dense 3D point clouds becomes computationally cumbersome, and often requires additional hardware for data management, increasing the time cost, and complexity of projects. To this end, this manuscript presents an original approach to generate fast and reliable semantic digital models of heritage hemispherical domes using only two images. New closed formulations were derived to establish the relationships between spheres and their projected ellipses onto images, which fostered the development of a new automatic framework for as-built generation of spheres. The effectiveness of the proposed method was evaluated under both laboratory and real-world datasets. The results revealed that the proposed method achieved as-built modeling accuracy of around 6mm, while improving the computation time by a factor of 7, when compared to established point cloud processing methods.
翻訳日:2022-01-26 15:44:09 公開日:2022-01-25
# 深層性記述子を用いた自己教師付きポイントクラウド登録

Self-supervised Point Cloud Registration with Deep Versatile Descriptors ( http://arxiv.org/abs/2201.10034v1 )

ライセンス: Link先を確認
Dongrui Liu, Chuanchuan Chen, Changqing Xu, Robert Qiu, and Lei Chu(参考訳) 近年、さまざまなディープラーニングベースのアルゴリズムでポイントクラウド登録問題を解決する傾向が強まっている。 supervised/semi-supe rvised registrationメソッドと比較して、教師なしのメソッドは人間のアノテーションを必要としない。 しかし、教師なしの手法は主に局所幾何学の高レベルな表現を無視したグローバルな記述子に依存している。 本稿では,グローバルな表現と局所的な表現を共同で考慮した,新しいDeep Versatile Descriptors (DVD)を用いた自己教師型登録方式を提案する。 このDVDは、特徴抽出モジュールの表現能力を高めるために、2つの部分点による点雲の局所的な特異な幾何構造を用いることができるというキー観察によって動機付けられる。 さらに,提案するdvdのトランスフォーメーション意識を高めるために,さらに2つのタスク(再構成と正規推定)を用いた。 最後に, 合成および実世界のデータセットに関する広範な実験を行い, 幅広い実験環境において, 競合する手法に対する最先端の性能を実証した。

Recent years have witnessed an increasing trend toward solving point cloud registration problems with various deep learning-based algorithms. Compared to supervised/semi-supe rvised registration methods, unsupervised methods require no human annotations. However, unsupervised methods mainly depend on the global descriptors, which ignore the high-level representations of local geometries. In this paper, we propose a self-supervised registration scheme with a novel Deep Versatile Descriptors (DVD), jointly considering global representations and local representations. The DVD is motivated by a key observation that the local distinctive geometric structures of the point cloud by two subset points can be employed to enhance the representation ability of the feature extraction module. Furthermore, we utilize two additional tasks (reconstruction and normal estimation) to enhance the transformation awareness of the proposed DVDs. Lastly, we conduct extensive experiments on synthetic and real-world datasets, demonstrating that our method achieves state-of-the-art performance against competing methods over a wide range of experimental settings.
翻訳日:2022-01-26 15:42:18 公開日:2022-01-25
# ビデオフレーム補間のためのスティングベース合成

Splatting-based Synthesis for Video Frame Interpolation ( http://arxiv.org/abs/2201.10075v1 )

ライセンス: Link先を確認
Simon Niklaus, Ping Hu, Jiawen Chen(参考訳) フレーム補間は、画像シーケンスの時間分解能を調整する重要なビデオ処理技術である。 フレーム補間を行う効果的なアプローチは、フォワードワーピングとしても知られるスプレーティングに基づいている。 具体的には、光学フロー推定に基づいて入力画像を任意の時間的位置へゆがめるためにスプレーティングを用いることができる。 合成ネットワークは、時にはリファインメントネットワークとも呼ばれ、歪んだ画像から出力フレームを生成するのに使うことができる。 その際、画像だけでなく、合成ネットワークに豊富な文脈的手がかりを提供する様々な特徴表現をワープすることが一般的である。 しかし, この手法はスプラッティングによる任意の時間補間が可能であることが示されているが, 関連する合成ネットワークは極めて遅い。 対照的に,我々は,後続の精細化を伴わずに出力を合成するためのスプレーティングのみに頼ることを提案する。 このスプレーティングベースの合成は、類似のアプローチ、特にマルチフレーム補間よりもずっと高速であり、高い解像度で新しい最先端の結果を実現できる。

Frame interpolation is an essential video processing technique that adjusts the temporal resolution of an image sequence. An effective approach to perform frame interpolation is based on splatting, also known as forward warping. Specifically, splatting can be used to warp the input images to an arbitrary temporal location based on an optical flow estimate. A synthesis network, also sometimes referred to as refinement network, can then be used to generate the output frame from the warped images. In doing so, it is common to not only warp the images but also various feature representations which provide rich contextual cues to the synthesis network. However, while this approach has been shown to work well and enables arbitrary-time interpolation due to using splatting, the involved synthesis network is prohibitively slow. In contrast, we propose to solely rely on splatting to synthesize the output without any subsequent refinement. This splatting-based synthesis is much faster than similar approaches, especially for multi-frame interpolation, while enabling new state-of-the-art results at high resolutions.
翻訳日:2022-01-26 15:42:00 公開日:2022-01-25
# 機能強化モジュールと時空間類似性相関ユニットを用いた大腸内視鏡におけるリアルタイムポリープ検出

Real-time automatic polyp detection in colonoscopy using feature enhancement module and spatiotemporal similarity correlation unit ( http://arxiv.org/abs/2201.10079v1 )

ライセンス: Link先を確認
Jianwei Xu, Ran Zhao, Yizhou Yu, Qingwei Zhang, Xianzhang Bian, Jun Wang, Zhizheng Ge, and Dahong Qian(参考訳) ポリプと類似物との差が小さいのに対し,ポリプの自動検出は異なるポリプがかなり異なるため困難である。 最先端の手法は畳み込みニューラルネットワーク(CNN)に基づいている。 しかし、トレーニングデータがないために失敗する可能性があるため、検出ミスや偽陽性(FPs)の頻度が高い。 これらの問題を解決するために,2次元(2次元)cnnに基づく実時間物体検出ネットワークと時空間情報を組み合わせた手法を提案する。 まず, 2次元検出器ネットワークを用いて静的画像やフレームを検出し, 検出器ネットワークに基づいて, fpsの特徴をより高精度に学習するためのfprelearning module (fprm) と, 感度向上のためのpolypsの特徴を強化するimage style transfer module (istm) の2つの特徴拡張モジュールを提案する。 映像検出では,映像フレーム間の類似度を測定するために構造的類似度(ssim)を用いた時空間情報を統合する。 最後に, フレーム間類似度相関ユニット (ISCU) を提案し, 検出ネットワークとフレーム類似度を組み合わせ, 最終的な決定を行う。 提案手法は,プライベートデータベースと公開データベースの両方で検証する。 実験の結果,これらのモジュールとユニットは,ベースライン法と比較して性能が向上することがわかった。 最先端手法との比較により,提案手法は実時間制約を満たす既存手法よりも優れていることを示す。 本手法は,感度,精度,特異性が向上し,臨床大腸内視鏡検査に応用できる可能性が極めて高いことが証明された。

Automatic detection of polyps is challenging because different polyps vary greatly, while the changes between polyps and their analogues are small. The state-of-the-art methods are based on convolutional neural networks (CNNs). However, they may fail due to lack of training data, resulting in high rates of missed detection and false positives (FPs). In order to solve these problems, our method combines the two-dimensional (2-D) CNN-based real-time object detector network with spatiotemporal information. Firstly, we use a 2-D detector network to detect static images and frames, and based on the detector network, we propose two feature enhancement modules-the FP Relearning Module (FPRM) to make the detector network learning more about the features of FPs for higher precision, and the Image Style Transfer Module (ISTM) to enhance the features of polyps for sensitivity improvement. In video detection, we integrate spatiotemporal information, which uses Structural Similarity (SSIM) to measure the similarity between video frames. Finally, we propose the Inter-frame Similarity Correlation Unit (ISCU) to combine the results obtained by the detector network and frame similarity to make the final decision. We verify our method on both private databases and publicly available databases. Experimental results show that these modules and units provide a performance improvement compared with the baseline method. Comparison with the state-of-the-art methods shows that the proposed method outperforms the existing ones which can meet real-time constraints. It's demonstrated that our method provides a performance improvement in sensitivity, precision and specificity, and has great potential to be applied in clinical colonoscopy.
翻訳日:2022-01-26 15:41:42 公開日:2022-01-25
# ARPD:Topview Fisheye Cameraを用いたアンカーレス回転認識人検出

ARPD: Anchor-free Rotation-aware People Detection using Topview Fisheye Camera ( http://arxiv.org/abs/2201.10107v1 )

ライセンス: Link先を確認
Quan Nguyen Minh, Bang Le Van, Can Nguyen, Anh Le and Viet Dung Nguyen(参考訳) 魚眼画像のトップビューで検出する人は、魚眼画像の人がしばしば任意の方向に現れ、異なる方向に歪んでいるため、難しい。 このユニークな放射状形状のため、軸方向の人検知器は魚眼フレームではうまく機能しないことが多い。 最近の研究は、既存のアンカーベースの検出器を変更したり、複雑な前/後処理に依存することで、この変動を説明できる。 アンカーベースのメソッドは、入力イメージに予め定義されたバウンディングボックスのセットを広げるが、そのほとんどは無効である。 非効率であることに加えて、このアプローチは正と負のアンカーボックスの間に大きな不均衡をもたらす可能性がある。 本研究では,魚眼画像中の任意回転者を検知する単一段アンカーフリー完全畳み込みネットワークARPDを提案する。 我々のネットワークはキーポイント推定を用いて各オブジェクトの中心点を見つけ、オブジェクトの他のプロパティを直接回帰します。 魚眼カメラの人々の様々な方向を捉えるために、中央と大きさに加えて、ARPDは各バウンディングボックスの角度も予測する。 また,角度周期性を考慮した周期損失関数を提案し,小角振動の学習の難しさを緩和する。 実験の結果,より高速に動作しながら,最先端アルゴリズムと有利に競合することがわかった。

People detection in top-view, fish-eye images is challenging as people in fish-eye images often appear in arbitrary directions and are distorted differently. Due to this unique radial geometry, axis-aligned people detectors often work poorly on fish-eye frames. Recent works account for this variability by modifying existing anchor-based detectors or relying on complex pre/post-processing. Anchor-based methods spread a set of pre-defined bounding boxes on the input image, most of which are invalid. In addition to being inefficient, this approach could lead to a significant imbalance between the positive and negative anchor boxes. In this work, we propose ARPD, a single-stage anchor-free fully convolutional network to detect arbitrarily rotated people in fish-eye images. Our network uses keypoint estimation to find the center point of each object and regress the object's other properties directly. To capture the various orientation of people in fish-eye cameras, in addition to the center and size, ARPD also predicts the angle of each bounding box. We also propose a periodic loss function that accounts for angle periodicity and relieves the difficulty of learning small-angle oscillations. Experimental results show that our method competes favorably with state-of-the-art algorithms while running significantly faster.
翻訳日:2022-01-26 15:41:15 公開日:2022-01-25
# ロバストフィットのためのハイブリッド量子古典アルゴリズム

A Hybrid Quantum-Classical Algorithm for Robust Fitting ( http://arxiv.org/abs/2201.10110v1 )

ライセンス: Link先を確認
Anh-Dzung Doan and Michele Sasdelli and Tat-Jun Chin and David Suter(参考訳) 幾何学的モデルを外部の汚染データに適合させることは、確実に難解である。 多くのコンピュータビジョンシステムはランダムサンプリングヒューリスティックに依存してロバストフィッティングを解決し、最適性保証や誤差境界を提供しない。 したがって、コストのかかる正確な解と、品質保証のない高速ヒューリスティックのギャップを埋める新しいアプローチを開発することが重要である。 本稿では,ロバストフィッティングのためのハイブリッド量子古典アルゴリズムを提案する。 我々のコアコントリビューションは、整数プログラムの列を解き、大域的な解やエラー境界で終了する、新しい堅牢な適合式である。 組合せサブプロブレムは量子アニールに吸収され、効率よく境界を締め付けるのに役立つ。 我々の量子コンピューティングの利用はロバストフィットの基本的な難解性を克服するものではないが、誤差境界を提供することにより、アルゴリズムはランダム化ヒューリスティックよりも実用的な改善である。 さらに,本研究はコンピュータビジョンにおける量子コンピューティングの具体的応用である。 実際の量子コンピュータ(D-Wave Advantage)とシミュレーションにより得られた結果について述べる。 ソースコード:https://github.com/ dadung/HQC-robust-fi tting

Fitting geometric models onto outlier contaminated data is provably intractable. Many computer vision systems rely on random sampling heuristics to solve robust fitting, which do not provide optimality guarantees and error bounds. It is therefore critical to develop novel approaches that can bridge the gap between exact solutions that are costly, and fast heuristics that offer no quality assurances. In this paper, we propose a hybrid quantum-classical algorithm for robust fitting. Our core contribution is a novel robust fitting formulation that solves a sequence of integer programs and terminates with a global solution or an error bound. The combinatorial subproblems are amenable to a quantum annealer, which helps to tighten the bound efficiently. While our usage of quantum computing does not surmount the fundamental intractability of robust fitting, by providing error bounds our algorithm is a practical improvement over randomised heuristics. Moreover, our work represents a concrete application of quantum computing in computer vision. We present results obtained using an actual quantum computer (D-Wave Advantage) and via simulation. Source code: https://github.com/d adung/HQC-robust-fit ting
翻訳日:2022-01-26 15:40:54 公開日:2022-01-25
# SURDS: 独立したオフライン署名検証のための自己監督型注意誘導再建と二重三重項損失

SURDS: Self-Supervised Attention-guided Reconstruction and Dual Triplet Loss for Writer Independent Offline Signature Verification ( http://arxiv.org/abs/2201.10138v1 )

ライセンス: Link先を確認
Soumitri Chattopadhyay, Siladittya Manna, Saumik Bhattacharya, Umapada Pal(参考訳) オフライン署名検証(osv)は、様々な法医学的、商業的、法的な応用における基本的な生体認証タスクである。 基本的な課題は、署名のきめ細かい特徴を慎重にモデル化して、真のものと偽造されたものを区別することである。 これにより、osvは他の検証問題よりも困難になる。 本研究では,著者に依存しないOSVにおける自己教師付き表現学習とメトリクス学習を活用する2段階のディープラーニングフレームワークを提案する。 まず,シグネチャ画像パッチを用いた2次元空間注意機構により拡張されたエンコーダ-デコーダアーキテクチャを用いて,画像再構成ネットワークを訓練する。 次に、トレーニングされたエンコーダのバックボーンを、教師付きメトリック学習フレームワークを使用してプロジェクタヘッドで微調整し、その目的は、同じライタークラスと他のライタークラスの両方から負のサンプルをサンプリングすることで、新しい二重トリプルト損失を最適化することである。 この背景にある直感は、シグネチャのサンプルが、イントラライターとクロスライターのセットの負のサンプルよりも、正のサンプルに近いことを保証することである。 これは埋め込み空間の堅牢な識別学習をもたらす。 私たちの知る限りでは、これはOSV用に自己教師付き学習フレームワークを使用する最初の作業です。 提案する2段階フレームワークは、2つの公開オフライン署名データセットで評価され、さまざまな最先端手法と比較されている。 提案手法は,既存のいくつかの作業よりも優れた有望な結果を与える。

Offline Signature Verification (OSV) is a fundamental biometric task across various forensic, commercial and legal applications. The underlying task at hand is to carefully model fine-grained features of the signatures to distinguish between genuine and forged ones, which differ only in minute deformities. This makes OSV more challenging compared to other verification problems. In this work, we propose a two-stage deep learning framework that leverages self-supervised representation learning as well as metric learning for writer-independent OSV. First, we train an image reconstruction network using an encoder-decoder architecture that is augmented by a 2D spatial attention mechanism using signature image patches. Next, the trained encoder backbone is fine-tuned with a projector head using a supervised metric learning framework, whose objective is to optimize a novel dual triplet loss by sampling negative samples from both within the same writer class as well as from other writers. The intuition behind this is to ensure that a signature sample lies closer to its positive counterpart compared to negative samples from both intra-writer and cross-writer sets. This results in robust discriminative learning of the embedding space. To the best of our knowledge, this is the first work of using self-supervised learning frameworks for OSV. The proposed two-stage framework has been evaluated on two publicly available offline signature datasets and compared with various state-of-the-art methods. It is noted that the proposed method provided promising results outperforming several existing pieces of work.
翻訳日:2022-01-26 15:40:37 公開日:2022-01-25
# msnet:視覚分類のための深層マルチスケールサブ多様体ネットワーク

MSNet: A Deep Multi-scale Submanifold Network for Visual Classification ( http://arxiv.org/abs/2201.10145v1 )

ライセンス: Link先を確認
Ziheng Chen, Xiao-Jun Wu, Tianyang Xu, Rui Wang, Zhiwu Huang, Josef Kittler(参考訳) 対称正定値行列(spd)はコンピュータビジョンにおける視覚的データ表現のツールとして広く注目を集めている。 SPD行列のリーマン多様体上のデータ処理に有効な深層アーキテクチャを開発する試みは数多くあるが、深部SPD特徴表現の局所幾何学的情報を明示的に掘り下げる方法はほとんどない。 CNNはSPD表現データにおいても階層的局所パターン抽出の可能性を示したが、SPDネットワークにおける局所幾何学情報の保存は最も重要であると我々は主張する。 そこで本研究では,この目的を念頭に設計したSPDネットワークを提案する。 特に,幾何学的多スケール情報を融合するmsnetと呼ばれるアーキテクチャを提案する。 まず, ユークリッド深層ネットワークの局所情報マッピングに一般的に用いられる畳み込み演算子を, カテゴリ理論によって与えられる高レベルな抽象化の観点から解析する。 この分析に基づいて,MSNetの設計を導くために,サブ多様体選択原理を仮定する。 特に、ネットワーク層に符号化されたリッチな局所幾何学を利用するために、サブ多様体融合ブロックを設計する。 複数の視覚的タスクを含む実験は、我々のアルゴリズムがほとんどのリーマンSOTA競合より優れていることを示している。

The Symmetric Positive Definite (SPD) matrix has received wide attention as a tool for visual data representation in computer vision. Although there are many different attempts to develop effective deep architectures for data processing on the Riemannian manifold of SPD matrices, a very few solutions explicitly mine the local geometrical information in deep SPD feature representations. While CNNs have demonstrated the potential of hierarchical local pattern extraction even for SPD represented data, we argue that it is of utmost importance to ensure the preservation of local geometric information in the SPD networks. Accordingly, in this work we propose an SPD network designed with this objective in mind. In particular, we propose an architecture, referred to as MSNet, which fuses geometrical multi-scale information. We first analyse the convolution operator commonly used for mapping the local information in Euclidean deep networks from the perspective of a higher level of abstraction afforded by the Category Theory. Based on this analysis, we postulate a submanifold selection principle to guide the design of our MSNet. In particular, we use it to design a submanifold fusion block to take advantage of the rich local geometry encoded in the network layers. The experiments involving multiple visual tasks show that our algorithm outperforms most Riemannian SOTA competitors.
翻訳日:2022-01-26 15:40:11 公開日:2022-01-25
# tgfuse:transformerとgenerative adversarial networkを用いた赤外線および可視画像融合手法

TGFuse: An Infrared and Visible Image Fusion Approach Based on Transformer and Generative Adversarial Network ( http://arxiv.org/abs/2201.10147v1 )

ライセンス: Link先を確認
Dongyu Rao, Xiao-Jun Wu, Tianyang Xu(参考訳) エンドツーエンドのイメージ融合フレームワークは、マルチモーダルなローカルな外観を集約した専用畳み込みネットワークによって、有望なパフォーマンスを達成している。 しかし、長距離依存は既存のCNN融合アプローチでは直接無視され、複雑なシナリオ融合に対するイメージレベルの認識全体のバランスを阻害する。 そこで本研究では,軽量トランスモジュールと対向学習に基づく赤外線・可視画像融合アルゴリズムを提案する。 グローバル・インタラクション・パワーに触発されて、トランスフォーマー技術を用いて効果的なグローバル・フュージョン関係を学習する。 特に,CNNが抽出した浅い特徴をトランスフォーマー融合モジュールで相互作用させ,空間範囲内およびチャネル間の融合関係を改良する。 さらに、赤外線と可視画像の特定の特徴を反映して、入力からの競合一貫性を付与することで出力識別を改善するために、学習過程において逆学習が設計される。 実験の結果,提案モジュールの有効性が示され,最新技術に対する優れた改善が得られ,融合タスクにおけるトランスフォーマーと逆学習による新しいパラダイムが一般化された。

The end-to-end image fusion framework has achieved promising performance, with dedicated convolutional networks aggregating the multi-modal local appearance. However, long-range dependencies are directly neglected in existing CNN fusion approaches, impeding balancing the entire image-level perception for complex scenario fusion. In this paper, therefore, we propose an infrared and visible image fusion algorithm based on a lightweight transformer module and adversarial learning. Inspired by the global interaction power, we use the transformer technique to learn the effective global fusion relations. In particular, shallow features extracted by CNN are interacted in the proposed transformer fusion module to refine the fusion relationship within the spatial scope and across channels simultaneously. Besides, adversarial learning is designed in the training process to improve the output discrimination via imposing competitive consistency from the inputs, reflecting the specific characteristics in infrared and visible images. The experimental performance demonstrates the effectiveness of the proposed modules, with superior improvement against the state-of-the-art, generalising a novel paradigm via transformer and adversarial learning in the fusion task.
翻訳日:2022-01-26 15:39:53 公開日:2022-01-25
# 特徴相互マッピングに基づく教師なし画像融合法

Unsupervised Image Fusion Method based on Feature Mutual Mapping ( http://arxiv.org/abs/2201.10152v1 )

ライセンス: Link先を確認
Dongyu Rao, Xiao-Jun Wu, Tianyang Xu, Guoyang Chen(参考訳) 近年,深層学習に基づく画像融合手法が注目され,視覚的知覚の面で有望な性能を実現している。 しかし、現在の深層学習法における融合モジュールには、‘textit{i.e.}’、手動で設計した融合関数、入力に依存しないネットワーク学習という2つの制限がある。 本稿では,上記の問題に対処するために,教師なし適応画像融合法を提案する。 本稿では,機能相互マッピング融合モジュールとデュアルブランチマルチスケールオートエンコーダを提案する。 より具体的には、入力元画像間のピクセルの接続を測定するためにグローバルマップを構築する。 %のマッピング関係が画像融合を導く。 さらに,画像の特徴を抽出するサンプリング変換により,二分岐型マルチスケールネットワークを設計する。 復号処理における特徴集約を通じて、異なるスケールの特徴表現をさらに強化する。 最後に,効率的な収束特性でネットワークを訓練するための修正損失関数を提案する。 赤外線および可視画像データセットの十分なトレーニングにより,マルチフォーカスおよび医用画像融合において優れた汎用性能を示す。 本手法は視知覚と客観的評価の両方において優れた性能を実現する。 実験により,様々な画像融合タスクにおける提案手法の性能は他の最先端手法を上回っており,提案手法の有効性と汎用性が証明された。

Deep learning-based image fusion approaches have obtained wide attention in recent years, achieving promising performance in terms of visual perception. However, the fusion module in the current deep learning-based methods suffers from two limitations, \textit{i.e.}, manually designed fusion function, and input-independent network learning. In this paper, we propose an unsupervised adaptive image fusion method to address the above issues. We propose a feature mutual mapping fusion module and dual-branch multi-scale autoencoder. More specifically, we construct a global map to measure the connections of pixels between the input source images. % The found mapping relationship guides the image fusion. Besides, we design a dual-branch multi-scale network through sampling transformation to extract discriminative image features. We further enrich feature representations of different scales through feature aggregation in the decoding process. Finally, we propose a modified loss function to train the network with efficient convergence property. Through sufficient training on infrared and visible image data sets, our method also shows excellent generalized performance in multi-focus and medical image fusion. Our method achieves superior performance in both visual perception and objective evaluation. Experiments prove that the performance of our proposed method on a variety of image fusion tasks surpasses other state-of-the-art methods, proving the effectiveness and versatility of our approach.
翻訳日:2022-01-26 15:39:32 公開日:2022-01-25
# Calibration-free Parallel Mr Imaging の普遍的生成モデル

Universal Generative Modeling for Calibration-free Parallel Mr Imaging ( http://arxiv.org/abs/2201.10210v1 )

ライセンス: Link先を確認
Wanqing Zhu, Bing Guan, Shanshan Wang, Minghui Zhang and Qiegen Liu(参考訳) 圧縮センシングと並列イメージング(CS-PI)の統合は、MRI取得を加速するための堅牢なメカニズムを提供する。 しかし、そのような戦略の多くはコイル感度プロファイルかクロスコイル相関演算器の明示的な形成を必要とし、その結果再構成は難解な双線形最適化問題に対応する。 本研究では,キャリブレーションフリーな並列mriのための教師なし深層学習フレームワークugm-pi(universal generative modeling for parallel imaging)を提案する。 より正確には、統一フレームワークにおけるウェーブレット変換と適応反復戦略の両方の利点を利用する。 我々は、トレーニング段階で入力されたウェーブレットテンソルをネットワークとして形成することにより、強力な雑音条件スコアネットワークを訓練する。 物理的ファントムと生体内データセットの両方の実験結果から,提案手法は最先端のCS-PI再構成手法と同等であり,さらに優れていることが示唆された。

The integration of compressed sensing and parallel imaging (CS-PI) provides a robust mechanism for accelerating MRI acquisitions. However, most such strategies require the explicit formation of either coil sensitivity profiles or a cross-coil correlation operator, and as a result reconstruction corresponds to solving a challenging bilinear optimization problem. In this work, we present an unsupervised deep learning framework for calibration-free parallel MRI, coined universal generative modeling for parallel imaging (UGM-PI). More precisely, we make use of the merits of both wavelet transform and the adaptive iteration strategy in a unified framework. We train a powerful noise conditional score network by forming wavelet tensor as the network input at the training phase. Experimental results on both physical phantom and in vivo datasets implied that the proposed method is comparable and even superior to state-of-the-art CS-PI reconstruction approaches.
翻訳日:2022-01-26 15:39:02 公開日:2022-01-25
# 教師なしドメイン適応型人物再識別のためのサンプルドロップアウトによる特徴多様性学習

Feature Diversity Learning with Sample Dropout for Unsupervised Domain Adaptive Person Re-identification ( http://arxiv.org/abs/2201.10212v1 )

ライセンス: Link先を確認
Chunren Tang and Dingyu Xue and Dongyue Chen(参考訳) クラスタリングに基づくアプローチは、教師なしドメイン適応型人物再識別(ReID)タスクの処理に有効であることが証明された。 しかしながら、このアプローチによる既存の作業は、いまだにノイズの多い擬似ラベルと、トレーニングプロセス全体の信頼性の低い一般化能力に苦しめられている。 そこで本研究では,ノイズの少ない擬似ラベルを制限し,より一般化した特徴表現を学習するための新しい手法を提案する。 まず,ノイズの多い擬似ラベルが頻繁に割り当てられるサンプルによって,モデルのトレーニングが悪循環に落ちないようにするためのサンプルドロップアウト(SD)手法を提案する。 さらに,従来の相互学習アーキテクチャの下で,FDL(Feature Diversity Learning)と呼ばれる新しい手法を提案し,対象領域における特徴表現の一般化能力を大幅に向上させることができる。 実験の結果,提案するFDL-SDは,複数のベンチマークデータセット上での最先端性能を実現することがわかった。

Clustering-based approach has proved effective in dealing with unsupervised domain adaptive person re-identification (ReID) tasks. However, existing works along this approach still suffer from noisy pseudo labels and the unreliable generalization ability during the whole training process. To solve these problems, this paper proposes a new approach to learn the feature representation with better generalization ability through limiting noisy pseudo labels. At first, we propose a Sample Dropout (SD) method to prevent the training of the model from falling into the vicious circle caused by samples that are frequently assigned with noisy pseudo labels. In addition, we put forward a brand-new method referred as to Feature Diversity Learning (FDL) under the classic mutual-teaching architecture, which can significantly improve the generalization ability of the feature representation on the target domain. Experimental results show that our proposed FDL-SD achieves the state-of-the-art performance on multiple benchmark datasets.
翻訳日:2022-01-26 15:38:46 公開日:2022-01-25
# ADAPT:AIによるリアルタイム災害予測と応答のためのオープンソースのsUASペイロード

ADAPT: An Open-Source sUAS Payload for Real-Time Disaster Prediction and Response with AI ( http://arxiv.org/abs/2201.10366v1 )

ライセンス: Link先を確認
Daniel Davila, Joseph VanPelt, Alexander Lynch, Adam Romlein, Peter Webley, Matthew S. Brown(参考訳) 小型無人航空機システム(sUAS)は、多くの人道支援および災害対応(HADR)作戦において顕著な構成要素となっている。 suasとonboard artificial intelligence(ai)のペアリングは、サポート人員の少ない大きな領域をカバーすることで、その有用性を大きく広げる。 探索と救助、構造的な損傷の評価、森林火災、洪水、化学流出の監視といった様々なミッションは、適切なAIモデルをデプロイするだけで支援できる。 しかし、自治体や規制機関、研究者など、資源に制約のあるグループによる採用は、コスト効率が良く、容易にアクセス可能な基本プラットフォームがないことによって妨げられている。 このギャップを埋めるため、我々は、suasにリアルタイムaiとコンピュータビジョンを配置するための、フリーでオープンソースのadapt multimission payloadを開発しました。 私たちは、低コストで容易に利用可能なコンポーネント、オープンソースソフトウェア、詳細なドキュメント(https://kitware.git hub.io/adapt/)を備えたモジュール設計を強調しました。 このシステムは慣性ナビゲーションシステム、高解像度カラーカメラ、コンピュータ、無線ダウンリンクを統合し、画像処理と地上局への地理登録分析を放送する。 私たちの目標は、HADRコミュニティがADAPTペイロードの独自のコピーを構築し、私たちが開発とテストに費やした数千時間のエンジニアリングを活用するのを容易にすることです。 本稿では,adaptペイロードの開発とテストについて詳述する。 本研究では,河川氷の状態を監視し,破滅的な洪水現象をタイムリーに予測する実時間飛行氷分断の例を示す。 河川氷画像にアノテートする新たなアクティブラーニングワークフローを展開し,氷セグメント化のためのリアルタイム深層ニューラルネットワークをトレーニングし,現場での動作を実証する。

Small unmanned aircraft systems (sUAS) are becoming prominent components of many humanitarian assistance and disaster response (HADR) operations. Pairing sUAS with onboard artificial intelligence (AI) substantially extends their utility in covering larger areas with fewer support personnel. A variety of missions, such as search and rescue, assessing structural damage, and monitoring forest fires, floods, and chemical spills, can be supported simply by deploying the appropriate AI models. However, adoption by resource-constrained groups, such as local municipalities, regulatory agencies, and researchers, has been hampered by the lack of a cost-effective, readily-accessible baseline platform that can be adapted to their unique missions. To fill this gap, we have developed the free and open-source ADAPT multi-mission payload for deploying real-time AI and computer vision onboard a sUAS during local and beyond-line-of-site missions. We have emphasized a modular design with low-cost, readily-available components, open-source software, and thorough documentation (https://kitware.git hub.io/adapt/). The system integrates an inertial navigation system, high-resolution color camera, computer, and wireless downlink to process imagery and broadcast georegistered analytics back to a ground station. Our goal is to make it easy for the HADR community to build their own copies of the ADAPT payload and leverage the thousands of hours of engineering we have devoted to developing and testing. In this paper, we detail the development and testing of the ADAPT payload. We demonstrate the example mission of real-time, in-flight ice segmentation to monitor river ice state and provide timely predictions of catastrophic flooding events. We deploy a novel active learning workflow to annotate river ice imagery, train a real-time deep neural network for ice segmentation, and demonstrate operation in the field.
翻訳日:2022-01-26 15:38:30 公開日:2022-01-25
# 深層ニューラルネットワークのためのWinograd畳み込み:効率的な点選択

Winograd Convolution for Deep Neural Networks: Efficient Point Selection ( http://arxiv.org/abs/2201.10369v1 )

ライセンス: Link先を確認
Syed Asad Alam, Andrew Anderson, Barbara Barabasz and David Gregg(参考訳) 畳み込みニューラルネットワーク(CNN)は、オブジェクト認識、画像分割、対話型音声システムなどのタスクの精度を劇的に改善した。 CNNは計算集約的な畳み込み層のため、大量の計算資源を必要とする。 ウィノグラード畳み込みのような高速な畳み込みアルゴリズムは、これらの層の計算コストを大幅に削減し、計算の節約により浮動小数点誤差が指数関数的に増大する。 各ウィノグラード畳み込みアルゴリズムの定義的特徴は多項式をサンプリングする実値点の集合である。 点の選択はアルゴリズムの数値的精度に影響を与えるが、小さな畳み込みに最適な点集合はいまだに不明である。 既存の作業では、小さな整数と単純な分数のみを候補とする。 本研究では, c に対する実数値数の全範囲を用いた {-1/c , -c, c, 1/c } 形式の点を用いた点選択法を提案する。 この形式の群は、数値誤差を低減するウィノグラード変換行列のキャンセルを引き起こすことを示す。 実験により、c の値が異なる値の誤差は実値数の範囲にわたって粗い曲線を形成し、誤差を減少させる c の値のローカライズに役立ち、低い誤差は整数や単純な分数ではなく、目立たない実値評価ポイントで達成できることがわかった。 小型コンボリューションの規模について検討し, 2%から約59%の誤差を1Dおよび2Dの畳み込みで減少させる。 さらに、提案した点のサブセットを選択する場合、常に低い誤差につながるパターンを識別する。 最後に、完全なWinograd畳み込み層を実装し、実際のデータセット上でディープ畳み込みニューラルネットワークを実行するためにそれを使用し、提案したポイントがエラーを22%から63%に減らすことを示す。

Convolutional neural networks (CNNs) have dramatically improved the accuracy of tasks such as object recognition, image segmentation and interactive speech systems. CNNs require large amounts of computing resources because ofcomputationally intensive convolution layers. Fast convolution algorithms such as Winograd convolution can greatly reduce the computational cost of these layers at a cost of poor numeric properties, such that greater savings in computation exponentially increase floating point errors. A defining feature of each Winograd convolution algorithm is a set of real-value points where polynomials are sampled. The choice of points impacts the numeric accuracy of the algorithm, but the optimal set of points for small convolutions remains unknown. Existing work considers only small integers and simple fractions as candidate points. In this work, we propose a novel approach to point selection using points of the form {-1/c , -c, c, 1/c } using the full range of real-valued numbers for c. We show that groups of this form cause cancellations in the Winograd transform matrices that reduce numeric error. We find empirically that the error for different values of c forms a rough curve across the range of real-value numbers helping to localize the values of c that reduce error and that lower errors can be achieved with non-obvious real-valued evaluation points instead of integers or simple fractions. We study a range of sizes for small convolutions and achieve reduction in error ranging from 2% to around 59% for both 1D and 2D convolution. Furthermore, we identify patterns in cases when we select a subset of our proposed points which will always lead to a lower error. Finally we implement a complete Winograd convolution layer and use it to run deep convolution neural networks on real datasets and show that our proposed points reduce error, ranging from 22% to 63%.
翻訳日:2022-01-26 15:37:58 公開日:2022-01-25
# 単一フレームにおける時間情報取得:行動認識のためのチャネルサンプリング戦略

Capturing Temporal Information in a Single Frame: Channel Sampling Strategies for Action Recognition ( http://arxiv.org/abs/2201.10394v1 )

ライセンス: Link先を確認
Kiyoon Kim, Shreyank N Gowda, Oisin Mac Aodha, Laura Sevilla-Lara(参考訳) 計算コストを増加させることなく,2次元ネットワークにおける映像分類のための時間情報取得の問題に対処する。 既存のアプローチは、2Dネットワークのアーキテクチャの変更(例えば、時間次元のフィルタでそれらを3Dネットワークに変換する、あるいは光学フローを使用するなど)に焦点を当て、計算コストを増大させる。 代わりに,入力映像のチャネルを並べ替えて,短期的なフレーム間変更をキャプチャする新しいサンプリング戦略を提案する。 ベルやホイッスルを使わずに,提案手法は複数のアーキテクチャ(TSN, TRN, TSM)とデータセット(CATER, Something-Something- V1, V2)の性能を,標準ビデオ入力のベースラインよりも最大24%向上させる。 加えて、私たちのサンプリング戦略は、スクラッチからトレーニングを必要とせず、トレーニングとテストの計算コストを増加させません。 結果の汎用性とアプローチの柔軟性を考えると、これがビデオ理解コミュニティに広く役立つことを願っています。 コードはhttps://github.com/k iyoon/PyVideoAIで入手できる。

We address the problem of capturing temporal information for video classification in 2D networks, without increasing computational cost. Existing approaches focus on modifying the architecture of 2D networks (e.g. by including filters in the temporal dimension to turn them into 3D networks, or using optical flow, etc.), which increases computation cost. Instead, we propose a novel sampling strategy, where we re-order the channels of the input video, to capture short-term frame-to-frame changes. We observe that without bells and whistles, the proposed sampling strategy improves performance on multiple architectures (e.g. TSN, TRN, and TSM) and datasets (CATER, Something-Something- V1 and V2), up to 24% over the baseline of using the standard video input. In addition, our sampling strategies do not require training from scratch and do not increase the computational cost of training and testing. Given the generality of the results and the flexibility of the approach, we hope this can be widely useful to the video understanding community. Code is available at https://github.com/k iyoon/PyVideoAI.
翻訳日:2022-01-26 15:37:27 公開日:2022-01-25
# CMR画像におけるランドマーク検出のための評価基準の比較

Comparison of Evaluation Metrics for Landmark Detection in CMR Images ( http://arxiv.org/abs/2201.10410v1 )

ライセンス: Link先を確認
Sven Koehler, Lalith Sharan, Julian Kuhm, Arman Ghanaat, Jelizaveta Gordejeva, Nike K. Simon, Niko M. Grell, Florian Andr\'e, Sandy Engelhardt(参考訳) 心臓磁気共鳴画像(CMR)は心臓診断や心室評価に広く用いられている。 右室挿入点のような特定の目印を抽出することは空間的アライメントと3次元モデリングにおいて重要である。 このようなランドマークの自動検出は、Deep Learningを使って複数のグループによって行われているが、この分野における評価指標の失敗事例にはあまり注目されていない。 本研究では,右室挿入点のラベルを付加したパブリックACDCデータセットを拡張し,ヒートマップに基づくランドマーク検出パイプラインの異なる変種を比較した。 この比較において、明らかな検出戦略の重要性とローカライズベースのメトリクスに対する上限の定義を強調する、一見単純な検出とローカライズメトリクスの落とし穴を非常に高い確率で示しています。 私たちの予備結果は、異なるメトリクスの組み合わせが必要であり、メソッド比較の勝者が異なることを示している。 さらに、特にメトリクスを計算できなかったり、メトリクスの下位/上位境界が存在しないエラーケースに対して、包括的なメトリック記述と評価の標準化の必要性を強調している。 コードとラベル:https://github.com/ Cardio-AI/rvip_landm ark_detection

Cardiac Magnetic Resonance (CMR) images are widely used for cardiac diagnosis and ventricular assessment. Extracting specific landmarks like the right ventricular insertion points is of importance for spatial alignment and 3D modeling. The automatic detection of such landmarks has been tackled by multiple groups using Deep Learning, but relatively little attention has been paid to the failure cases of evaluation metrics in this field. In this work, we extended the public ACDC dataset with additional labels of the right ventricular insertion points and compare different variants of a heatmap-based landmark detection pipeline. In this comparison, we demonstrate very likely pitfalls of apparently simple detection and localisation metrics which highlights the importance of a clear detection strategy and the definition of an upper limit for localisation-based metrics. Our preliminary results indicate that a combination of different metrics is necessary, as they yield different winners for method comparison. Additionally, they highlight the need of a comprehensive metric description and evaluation standardisation, especially for the error cases where no metrics could be computed or where no lower/upper boundary of a metric exists. Code and labels: https://github.com/C ardio-AI/rvip_landma rk_detection
翻訳日:2022-01-26 15:37:05 公開日:2022-01-25
# ファッションのためのグラフネットワークによる主要製品検出

Main Product Detection with Graph Networks for Fashion ( http://arxiv.org/abs/2201.10431v1 )

ライセンス: Link先を確認
Vacit Oguz Yazici, Longlong Yu, Arnau Ramisa, Luis Herranz, Joost van de Weijer(参考訳) コンピュータビジョンはオンラインファッション小売業界に足場を築いた。 主要製品検出は、製品ページの画像ギャラリーで販売されている製品を含むバウンディングボックスを特定することに焦点を当てた、ビジョンベースのファッション製品フィード解析パイプラインの重要なステップである。 現在の最先端のアプローチでは、画像内の領域間の関係を利用せず、同じ製品のイメージを独立して扱うため、視覚的および製品的コンテキスト情報を完全に活用することができない。 本稿では,グラフ畳み込みネットワーク(GCN)を組み込んだモデルを提案する。 提案手法は最先端の手法よりも優れており,特に推測時にタイトル入力が欠落し,データセット横断評価を行うシナリオを考えると,従来の手法を大きく上回っている。

Computer vision has established a foothold in the online fashion retail industry. Main product detection is a crucial step of vision-based fashion product feed parsing pipelines, focused in identifying the bounding boxes that contain the product being sold in the gallery of images of the product page. The current state-of-the-art approach does not leverage the relations between regions in the image, and treats images of the same product independently, therefore not fully exploiting visual and product contextual information. In this paper we propose a model that incorporates Graph Convolutional Networks (GCN) that jointly represent all detected bounding boxes in the gallery as nodes. We show that the proposed method is better than the state-of-the-art, especially, when we consider the scenario where title-input is missing at inference time and for cross-dataset evaluation, our method outperforms previous approaches by a large margin.
翻訳日:2022-01-26 15:36:46 公開日:2022-01-25
# どれくらい低いのか? 意味セグメンテーションのためのピクセルアノテーション

How Low Can We Go? Pixel Annotation for Semantic Segmentation ( http://arxiv.org/abs/2201.10448v1 )

ライセンス: Link先を確認
Daniel Kigli, Ariel Shamir, Shai Avidan(参考訳) 画像のセグメンテーションに、事前に知識なくラベル付きピクセルは何個必要か? 私たちはこの質問に答える実験を行います。 私たちの実験では、OracleがActive Learningを使ってネットワークをゼロからトレーニングしています。 オラクルは画像のラベルマップ全体にアクセスできるが、目標はネットワークにできるだけ小さなピクセルラベルを明らかにすることである。 私たちは、平均して、ネットワークをトレーニングするために、オラクルは(注釈のような)ピクセルの0.1\%$以下を明かす必要があることを知っています。 ネットワークは、画像中のすべてのピクセルを98\%以上の精度でラベル付けすることができる。 この単一画像アノテーション実験に基づいて、データセット全体をすばやくアノテートする実験を設計する。 データセットレベルの実験では、oracleはスクラッチからイメージごとに新しいネットワークをトレーニングする。 このネットワークは、画像全体に対して、ラベルのないピクセルのラベルを予測したネットワークである擬似ラベルを作成するのに使うことができる。 そのときのみ、データセットレベルのネットワークは、擬似ラベル付きイメージを一度にスクラッチからトレーニングする。 2つの異なる実世界のデータセット上で、画像レベルとデータセットレベルの両方の実験を繰り返すと、アノテーションコストのごく一部を使って、完全に注釈付きデータセットのパフォーマンスに到達することができる。

How many labeled pixels are needed to segment an image, without any prior knowledge? We conduct an experiment to answer this question. In our experiment, an Oracle is using Active Learning to train a network from scratch. The Oracle has access to the entire label map of the image, but the goal is to reveal as little pixel labels to the network as possible. We find that, on average, the Oracle needs to reveal (i.e., annotate) less than $0.1\%$ of the pixels in order to train a network. The network can then label all pixels in the image at an accuracy of more than $98\%$. Based on this single-image-annotat ion experiment, we design an experiment to quickly annotate an entire data set. In the data set level experiment the Oracle trains a new network for each image from scratch. The network can then be used to create pseudo-labels, which are the network predicted labels of the unlabeled pixels, for the entire image. Only then, a data set level network is trained from scratch on all the pseudo-labeled images at once. We repeat both image level and data set level experiments on two, very different, real-world data sets, and find that it is possible to reach the performance of a fully annotated data set using a fraction of the annotation cost.
翻訳日:2022-01-26 15:36:30 公開日:2022-01-25
# (参考訳) AggMatch: 半教師付き学習のための擬似ラベルの集約 [全文訳有]

AggMatch: Aggregating Pseudo Labels for Semi-Supervised Learning ( http://arxiv.org/abs/2201.10444v1 )

ライセンス: CC BY 4.0
Jiwon Kim, Kwangrok Ryoo, Gyuseong Lee, Seokju Cho, Junyoung Seo, Daehwan Kim, Hansang Cho, Seungryong Kim(参考訳) 半教師付き学習(SSL)は、最近、巨大なラベル付きデータへの依存を軽減しつつ、大量のラベル付きデータを活用するための効果的なパラダイムであることが証明された。 従来の方法では、個々のラベルのないデータサンプルから擬似ラベルを抽出することに集中しており、不正確な偽ラベルやうるさい偽ラベルを扱うのにほとんど苦労していた。 本稿では,疑似ラベルを集約するための新しいsslフレームワークであるaggmatchを用いて,信頼度の高いインスタンスを用いて初期擬似ラベルを洗練する。 具体的には,インスタンス間の類似性に基づいて初期擬似ラベルを集約する一貫性正規化フレームワークのためのアグリゲーションモジュールを提案する。 最小バッチを超えるアグリゲーション候補を拡大するため,モーメントモデルで構築したクラスバランスの信頼性を考慮したキューを提案し,より安定かつ一貫したアグリゲーションを提供する。 また、キューのサブセットが異なる複数の仮説間のコンセンサスを考慮し、疑似ラベルに対する新しい不確実性に基づく信頼度尺度を提案する。 標準ベンチマークにおける最新の手法に対するaggmatchの有効性を実証する実験を行い,広範な分析を行った。

Semi-supervised learning (SSL) has recently proven to be an effective paradigm for leveraging a huge amount of unlabeled data while mitigating the reliance on large labeled data. Conventional methods focused on extracting a pseudo label from individual unlabeled data sample and thus they mostly struggled to handle inaccurate or noisy pseudo labels, which degenerate performance. In this paper, we address this limitation with a novel SSL framework for aggregating pseudo labels, called AggMatch, which refines initial pseudo labels by using different confident instances. Specifically, we introduce an aggregation module for consistency regularization framework that aggregates the initial pseudo labels based on the similarity between the instances. To enlarge the aggregation candidates beyond the mini-batch, we present a class-balanced confidence-aware queue built with the momentum model, encouraging to provide more stable and consistent aggregation. We also propose a novel uncertainty-based confidence measure for the pseudo label by considering the consensus among multiple hypotheses with different subsets of the queue. We conduct experiments to demonstrate the effectiveness of AggMatch over the latest methods on standard benchmarks and provide extensive analyses.
翻訳日:2022-01-26 15:32:23 公開日:2022-01-25
# グラフ変換器を用いたゼロショットスケッチ画像検索

Zero-Shot Sketch Based Image Retrieval using Graph Transformer ( http://arxiv.org/abs/2201.10185v1 )

ライセンス: Link先を確認
Sumrit Gupta, Ushasi Chaudhuri, Biplab Banerjee(参考訳) ゼロショットスケッチベース画像検索(ZS-SBIR)タスクの性能は,主に2つの課題の影響を受けている。 画像とスケッチの機能の間の実質的なドメイン間ギャップを橋渡しする必要があると同時に、サイド情報が実際に選択される必要がある。 既存の文献では、意味的側面の情報の変化がZS-SBIRの性能に大きな影響を与えることが示されている。 そこで本研究では,ZS-SBIRタスクを解くため,新しいグラフ変換器をベースとしたゼロショットスケッチに基づく画像検索(GTZSR)フレームワークを提案する。 視覚特徴間の領域ギャップを埋めるため,学習した領域共有空間における画像とスケッチ間のワッサースタイン距離を最小化する。 また、トレーニングセット内の他のすべてのクラスのドメイン間隙に関して、1つのクラスのドメイン間隙を橋渡しすることで、2つの視覚的なドメインをさらに整合させる新しい互換性損失を提案する。 拡張Sketchy、TU-Berlin、QuickDrawのデータセットで得られた実験結果は、ZS-SBIRおよび一般化ZS-SBIRの既存の最先端手法よりも大幅に改善された。

The performance of a zero-shot sketch-based image retrieval (ZS-SBIR) task is primarily affected by two challenges. The substantial domain gap between image and sketch features needs to be bridged, while at the same time the side information has to be chosen tactfully. Existing literature has shown that varying the semantic side information greatly affects the performance of ZS-SBIR. To this end, we propose a novel graph transformer based zero-shot sketch-based image retrieval (GTZSR) framework for solving ZS-SBIR tasks which uses a novel graph transformer to preserve the topology of the classes in the semantic space and propagates the context-graph of the classes within the embedding features of the visual space. To bridge the domain gap between the visual features, we propose minimizing the Wasserstein distance between images and sketches in a learned domain-shared space. We also propose a novel compatibility loss that further aligns the two visual domains by bridging the domain gap of one class with respect to the domain gap of all other classes in the training set. Experimental results obtained on the extended Sketchy, TU-Berlin, and QuickDraw datasets exhibit sharp improvements over the existing state-of-the-art methods in both ZS-SBIR and generalized ZS-SBIR.
翻訳日:2022-01-26 15:03:53 公開日:2022-01-25
# SPIRAL:音声事前学習のための自己教師型摂動不変表現学習

SPIRAL: Self-supervised Perturbation-Invaria nt Representation Learning for Speech Pre-Training ( http://arxiv.org/abs/2201.10207v1 )

ライセンス: Link先を確認
Wenyong Huang, Zhenhe Zhang, Yu Ting Yeung, Xin Jiang, Qun Liu(参考訳) そこで本研究では,教師の学習フレームワークにおける摂動データの表現を学習することで,SPIRALという音声事前学習のための新しいアプローチを提案する。 具体的には、まず、発話を教師ネットワークに供給し、対応する表現を得る。 そして、同じ発話が摂動され、学生ネットワークに送られる。 生徒ネットワークは、教師に類似した表現を出力するように訓練される。 同時に、教師ネットワークは、学習ステップにおける生徒の重みの移動平均として更新される。 表現の崩壊を防止すべく,教師の学習目標として発話内コントラスト損失を適用し,入力に位置ランダム化を課す。 SPIRALは、最先端の音声事前学習手法wav2vec 2.0と比較して、競争力やより良い結果を得ることができ、トレーニングコストの大幅な削減(ベースモデルでは80%、大モデルでは65%)を実現している。 さらに,実世界の音声応用に不可欠なノイズロバスト性の問題にも対処する。 学習者の入力を様々な付加雑音で摂動させることにより,多条件事前学習を提案する。 多条件事前学習スパイラルモデル(実雑音テストデータでは9.0%~13.3%)は、微調整段階のみにマルチコンディショニングを適用する場合と比較して、より頑健であることを示す。 コードは公開後にリリースされる。

We introduce a new approach for speech pre-training named SPIRAL which works by learning denoising representation of perturbed data in a teacher-student framework. Specifically, given a speech utterance, we first feed the utterance to a teacher network to obtain corresponding representation. Then the same utterance is perturbed and fed to a student network. The student network is trained to output representation resembling that of the teacher. At the same time, the teacher network is updated as moving average of student's weights over training steps. In order to prevent representation collapse, we apply an in-utterance contrastive loss as pre-training objective and impose position randomization on the input to the teacher. SPIRAL achieves competitive or better results compared to state-of-the-art speech pre-training method wav2vec 2.0, with significant reduction of training cost (80% for Base model, 65% for Large model). Furthermore, we address the problem of noise-robustness that is critical to real-world speech applications. We propose multi-condition pre-training by perturbing the student's input with various types of additive noise. We demonstrate that multi-condition pre-trained SPIRAL models are more robust to noisy speech (9.0% - 13.3% relative word error rate reduction on real noisy test data), compared to applying multi-condition training solely in the fine-tuning stage. The code will be released after publication.
翻訳日:2022-01-26 15:03:29 公開日:2022-01-25
# 組合せ最適化のための木探索におけるディープラーニングの誤り

What's Wrong with Deep Learning in Tree Search for Combinatorial Optimization ( http://arxiv.org/abs/2201.10494v1 )

ライセンス: Link先を確認
Maximilian B\"other, Otto Ki{\ss}ig, Martin Taraz, Sarel Cohen, Karen Seidel, Tobias Friedrich(参考訳) 組合せ最適化は多くの現実世界の問題の核心にある。 特にグラフニューラルネットワーク(gnns)の台頭以来、ディープラーニングコミュニティは、問題固有のソリューション構造を学習することでnp問題に対するソリューションを導出するソルバを開発してきた。 しかし、これらの出版物の結果の再現は困難であることが証明されている。 我々は3つの貢献をした。 まず、NP-hard Maximum Independent Set問題に対するオープンソースのベンチマークスイートについて、その重み付けと非重み付けの両変種について述べる。 このスイートは、さまざまな最先端の伝統的および機械学習ベースのソルバに統一されたインターフェースを提供する。 第2に、我々のベンチマークスイートを用いて、Liらによる人気のガイド木探索アルゴリズムを詳細に分析する。 [neurips 2018]、小規模、大規模、実世界のグラフで様々な構成をテストする。 コード品質と拡張性に着目してアルゴリズムを再実装することにより,木探索で使用されるグラフ畳み込みネットワークは,解構造の有意義な表現を学習せず,実際にランダムな値に置き換えることができることを示す。 その代わりに、木探索はグラフのカーネル化のようなアルゴリズム技術を使って良い解を見つける。 したがって、元の出版物からの結果は再現できない。 第3に,木探索の実装を他の解法と比較するために解析を拡張し,古典的アルゴリズム解法の方が高速であることが示され,同様の品質の解法を提供する。 さらに、強化学習に基づく最近の解法を解析し、この解法について、GNNが競合ソリューションの品質に責任があることを観察する。

Combinatorial optimization lies at the core of many real-world problems. Especially since the rise of graph neural networks (GNNs), the deep learning community has been developing solvers that derive solutions to NP-hard problems by learning the problem-specific solution structure. However, reproducing the results of these publications proves to be difficult. We make three contributions. First, we present an open-source benchmark suite for the NP-hard Maximum Independent Set problem, in both its weighted and unweighted variants. The suite offers a unified interface to various state-of-the-art traditional and machine learning-based solvers. Second, using our benchmark suite, we conduct an in-depth analysis of the popular guided tree search algorithm by Li et al. [NeurIPS 2018], testing various configurations on small and large synthetic and real-world graphs. By re-implementing their algorithm with a focus on code quality and extensibility, we show that the graph convolution network used in the tree search does not learn a meaningful representation of the solution structure, and can in fact be replaced by random values. Instead, the tree search relies on algorithmic techniques like graph kernelization to find good solutions. Thus, the results from the original publication are not reproducible. Third, we extend the analysis to compare the tree search implementations to other solvers, showing that the classical algorithmic solvers often are faster, while providing solutions of similar quality. Additionally, we analyze a recent solver based on reinforcement learning and observe that for this solver, the GNN is responsible for the competitive solution quality.
翻訳日:2022-01-26 15:00:18 公開日:2022-01-25
# Dynamic Marginal Gain Thresholdingによるオンラインアクティブラーニング

Online Active Learning with Dynamic Marginal Gain Thresholding ( http://arxiv.org/abs/2201.10547v1 )

ライセンス: Link先を確認
Mariel A. Werner, Anastasios Angelopoulos, Stephen Bates, Michael I. Jordan(参考訳) ユビキタスなデータの祝福は、巨大な、ほとんど冗長なデータセットの通信、ストレージ、ラベリングという呪いも伴います。 我々の研究では、この問題をその情報源で解決し、価値あるデータのみを収集し、アクティブな学習を通じて残りのデータを捨てようとしている。 我々は,任意のデータストリーム,その値の評価,選択コストの定式化を考慮に入れたオンラインアルゴリズムを提案し,最小限のメモリを用いて,ストリームの最も価値の高いサブセットを一定要素まで抽出する。 特に,複数のエージェントが協調することなく個々のデータストリームからオンラインを選択し,潜在的にまったく異なるコスト評価を行うという,フェデレーション設定についても分析を行った。 特に重要なユースケースは、指定された分類器のテスト時間パフォーマンスを最大化するラベルなしのデータコレクションからトレーニングセットの選択とラベリングである。 ImageNet と MNIST の予測タスクでは,提案手法が最大 5-20% のランダム選択より優れていることを示す。

The blessing of ubiquitous data also comes with a curse: the communication, storage, and labeling of massive, mostly redundant datasets. In our work, we seek to solve the problem at its source, collecting only valuable data and throwing out the rest, via active learning. We propose an online algorithm which, given any stream of data, any assessment of its value, and any formulation of its selection cost, extracts the most valuable subset of the stream up to a constant factor while using minimal memory. Notably, our analysis also holds for the federated setting, in which multiple agents select online from individual data streams without coordination and with potentially very different appraisals of cost. One particularly important use case is selecting and labeling training sets from unlabeled collections of data that maximize the test-time performance of a given classifier. In prediction tasks on ImageNet and MNIST, we show that our selection method outperforms random selection by up to 5-20%.
翻訳日:2022-01-26 14:59:51 公開日:2022-01-25
# 平均場ランジュバンダイナミクスの凸解析

Convex Analysis of the Mean Field Langevin Dynamics ( http://arxiv.org/abs/2201.10469v1 )

ライセンス: Link先を確認
Atsushi Nitanda, Denny Wu, Taiji Suzuki(参考訳) 非線形フォッカー・プランク方程式の例として、平均場ランゲバンダイナミクスは、平均場レジームにおける無限大ニューラルネットワーク上の(ノイズの)勾配降下と関連し、従って、力学の収束特性は理論上非常に興味深い。 本研究では,連続時間と離散時間の両方における(正規化された)目的関数に対する平均場ランジュバンダイナミクスの単純かつ自己完結した収束率解析を行う。 証明の鍵となる要素は、[Vempala and Wibisono (2019)] の技法と組み合わせて、古典的な結果と平行な収束理論を凸最適化で発展させることができる、力学に付随する近似ギブス分布 $p_q$ である。 さらに,$p_q$を経験的リスク最小化設定の双対性ギャップと結びつけることで,アルゴリズム収束の効率的な経験的評価を可能にすることを明らかにした。

As an example of the nonlinear Fokker-Planck equation, the mean field Langevin dynamics attracts attention due to its connection to (noisy) gradient descent on infinitely wide neural networks in the mean field regime, and hence the convergence property of the dynamics is of great theoretical interest. In this work, we give a simple and self-contained convergence rate analysis of the mean field Langevin dynamics with respect to the (regularized) objective function in both continuous and discrete time settings. The key ingredient of our proof is a proximal Gibbs distribution $p_q$ associated with the dynamics, which, in combination of techniques in [Vempala and Wibisono (2019)], allows us to develop a convergence theory parallel to classical results in convex optimization. Furthermore, we reveal that $p_q$ connects to the duality gap in the empirical risk minimization setting, which enables efficient empirical evaluation of the algorithm convergence.
翻訳日:2022-01-26 14:59:34 公開日:2022-01-25
# S2MS: 自己監督型学習駆動多スペクトルCT画像強調

S2MS: Self-Supervised Learning Driven Multi-Spectral CT Image Enhancement ( http://arxiv.org/abs/2201.10294v1 )

ライセンス: Link先を確認
Chaoyang Zhang, Shaojie Chang, Ti Bai, and Xi Chen(参考訳) 光子計数分光CT(PCCT)は、走査された物体のエネルギー特性を反映して、異なるエネルギーチャネルで再構成された減衰マップを生成することができる。 限られた光子数と各エネルギーチャネルの非理想検出器応答のため、再構成された画像は通常多くのノイズを含む。 ディープラーニング(DL)技術の発展に伴い,ノイズ低減のための多種多様なDLベースモデルが提案されている。 しかし、ほとんどのモデルはトレーニングラベルとしてクリーンなデータセットを必要としており、医療画像分野では必ずしも利用可能ではない。 各チャンネルの再構成画像の類似性から着想を得て,マルチスペクトルチャネル(S2MS)を用いた自己教師付き学習に基づくPCCT画像強調フレームワークを提案する。 s2msフレームワークでは、入力ラベルと出力ラベルの両方がノイズ画像である。 具体的には、1つの単一チャネルイメージを出力として、他の単一チャネルイメージとチャネルサムイメージを入力としてネットワークを訓練し、余分なコストなしでスペクトルデータ情報を完全に使用できる。 AAPM低線量CTチャレンジデータベースに基づくシミュレーションの結果,提案したS2MSモデルは,臨床応用におけるPCCTの画質向上の可能性を秘めた従来のDLモデルと比較して,ノイズを抑え,詳細を効率的に保存できることがわかった。

Photon counting spectral CT (PCCT) can produce reconstructed attenuation maps in different energy channels, reflecting energy properties of the scanned object. Due to the limited photon numbers and the non-ideal detector response of each energy channel, the reconstructed images usually contain much noise. With the development of Deep Learning (DL) technique, different kinds of DL-based models have been proposed for noise reduction. However, most of the models require clean data set as the training labels, which are not always available in medical imaging field. Inspiring by the similarities of each channel's reconstructed image, we proposed a self-supervised learning based PCCT image enhancement framework via multi-spectral channels (S2MS). In S2MS framework, both the input and output labels are noisy images. Specifically, one single channel image was used as output while images of other single channels and channel-sum image were used as input to train the network, which can fully use the spectral data information without extra cost. The simulation results based on the AAPM Low-dose CT Challenge database showed that the proposed S2MS model can suppress the noise and preserve details more effectively in comparison with the traditional DL models, which has potential to improve the image quality of PCCT in clinical applications.
翻訳日:2022-01-26 14:59:17 公開日:2022-01-25
# GANベースのX線画像における適応入力画像正規化を用いたクラス内モード崩壊問題への対処

Addressing the Intra-class Mode Collapse Problem using Adaptive Input Image Normalization in GAN-based X-ray Images ( http://arxiv.org/abs/2201.10324v1 )

ライセンス: Link先を確認
Muhammad Muneeb Saad, Mubashir Husain Rehmani and Ruairi O'Reilly(参考訳) バイオメディカル画像データセットは、標的疾患の希少性のために不均衡にすることができる。 生成型逆ネットワークはこの不均衡に対処する上で重要な役割を果たす。合成画像の生成によってデータセットの強化とバランスをとることができる。 訓練画像に存在する特徴の分布を正確に表現するような多種多様な特徴を組み込んだ合成画像を生成することが重要である。 さらに、合成画像に多様な特徴がないことは、機械学習分類器の性能を低下させる可能性がある。 モード崩壊問題は、ジェネレーティブ・アドバイサル・ネットワークの多様な画像を生成する能力に影響を与える可能性がある。 モード崩壊はクラス内とクラス間という2つの種類がある。 本稿では, クラス内モード崩壊問題を調査し, その後の合成x線画像の多様性に対する影響について検討した。 この研究は、クラス内モード崩壊問題を緩和するために、Deep Convolutional GANの適応入力-画像正規化を統合する利点の実証的な実証に寄与する。 その結果,適応的な入出力正規化を有するDCGANは,非正規化X線画像でDCGANより優れており,優れた多様性スコアが得られた。

Biomedical image datasets can be imbalanced due to the rarity of targeted diseases. Generative Adversarial Networks play a key role in addressing this imbalance by enabling the generation of synthetic images to augment and balance datasets. It is important to generate synthetic images that incorporate a diverse range of features such that they accurately represent the distribution of features present in the training imagery. Furthermore, the absence of diverse features in synthetic images can degrade the performance of machine learning classifiers. The mode collapse problem can impact a Generative Adversarial Network's capacity to generate diversified images. The mode collapse comes in two varieties; intra-class and inter-class. In this paper, the intra-class mode collapse problem is investigated, and its subsequent impact on the diversity of synthetic X-ray images is evaluated. This work contributes an empirical demonstration of the benefits of integrating the adaptive input-image normalization for the Deep Convolutional GAN to alleviate the intra-class mode collapse problem. Results demonstrate that the DCGAN with adaptive input-image normalization outperforms DCGAN with un-normalized X-ray images as evident by the superior diversity scores.
翻訳日:2022-01-26 14:56:50 公開日:2022-01-25
# shapeformer: スパース表現によるトランスフォーマティブベースのシェイプ補完

ShapeFormer: Transformer-based Shape Completion via Sparse Representation ( http://arxiv.org/abs/2201.10326v1 )

ライセンス: Link先を確認
Xingguang Yan, Liqiang Lin, Niloy J. Mitra, Dani Lischinski, Danny Cohen-Or, Hui Huang(参考訳) 本稿では,不完全かつうるさい点群を条件とした,オブジェクト補完の分布を生成するトランスフォーマネットワークであるshapeformerを提案する。 結果の分布をサンプリングして、おそらく完了し、それぞれが入力に忠実でありながら、妥当な形状の詳細を示すことができる。 3次元へのトランスフォーマーの使用を容易にするために,空間的スパーシティを利用して3次元形状の近接近似を離散変数の短い列で表現する,コンパクトな3次元表現ベクトル量子化深部暗黙関数を導入する。 実験により、シェイプフォーマーは、完成品質と多様性の両方の観点から、あいまいな部分入力から形状完了のための先行技術を上回ることが示されている。 また,本手法は様々な形状タイプ,不完全パターン,実世界のスキャンを効果的に処理することを示す。

We present ShapeFormer, a transformer-based network that produces a distribution of object completions, conditioned on incomplete, and possibly noisy, point clouds. The resultant distribution can then be sampled to generate likely completions, each exhibiting plausible shape details while being faithful to the input. To facilitate the use of transformers for 3D, we introduce a compact 3D representation, vector quantized deep implicit function, that utilizes spatial sparsity to represent a close approximation of a 3D shape by a short sequence of discrete variables. Experiments demonstrate that ShapeFormer outperforms prior art for shape completion from ambiguous partial inputs in terms of both completion quality and diversity. We also show that our approach effectively handles a variety of shape types, incomplete patterns, and real-world scans.
翻訳日:2022-01-26 14:56:32 公開日:2022-01-25
# 音声・視覚音声認識のためのトランスフォーマチックビデオフロントエンド

Transformer-Based Video Front-Ends for Audio-Visual Speech Recognition ( http://arxiv.org/abs/2201.10439v1 )

ライセンス: Link先を確認
Dmitriy Serdyuk, Otavio Braga, Olivier Siohan(参考訳) 音声-視覚自動音声認識(av-asr)は,映像モダリティの導入により音声認識を拡張する。 特に、スピーカーの口の動きに含まれる情報は、音声特徴を増強するために使用される。 ビデオモダリティは伝統的に3D畳み込みニューラルネットワーク(VGGの3Dバージョンなど)で処理される。 近年,画像トランスフォーマネットワークarxiv:2010.11929が画像分類タスクにリッチな視覚的特徴を抽出する能力を示した。 本研究では,3Dコンボリューションをビデオトランスフォーマービデオ特徴抽出器に置き換えることを提案する。 我々は、YouTubeビデオの大規模コーパスに基づいて、ベースラインと提案されたモデルをトレーニングする。 次に,youtube のラベル付きサブセットと公開コーパス lrs3-ted の性能評価を行った。 本モデルでは,YTDEV18では34.9% WER,LRS3-TEDでは19.3%,畳み込みベースラインでは10%,相対的に9%向上した。 LRS3-TEDにおける音響視覚認識の芸術的性能は,我々のモデル(1.6% WER)を微調整した後に達成される。

Audio-visual automatic speech recognition (AV-ASR) extends the speech recognition by introducing the video modality. In particular, the information contained in the motion of the speaker's mouth is used to augment the audio features. The video modality is traditionally processed with a 3D convolutional neural network (e.g. 3D version of VGG). Recently, image transformer networks arXiv:2010.11929 demonstrated the ability to extract rich visual features for the image classification task. In this work, we propose to replace the 3D convolution with a video transformer video feature extractor. We train our baselines and the proposed model on a large scale corpus of the YouTube videos. Then we evaluate the performance on a labeled subset of YouTube as well as on the public corpus LRS3-TED. Our best model video-only model achieves the performance of 34.9% WER on YTDEV18 and 19.3% on LRS3-TED which is a 10% and 9% relative improvements over the convolutional baseline. We achieve the state of the art performance of the audio-visual recognition on the LRS3-TED after fine-tuning our model (1.6% WER).
翻訳日:2022-01-26 14:56:18 公開日:2022-01-25
# 深部学習と超音波画像を用いた慢性創傷治癒の非侵襲的モニタリングに関する初期研究

Initial Investigations Towards Non-invasive Monitoring of Chronic Wound Healing Using Deep Learning and Ultrasound Imaging ( http://arxiv.org/abs/2201.10511v1 )

ライセンス: Link先を確認
Maja Schlereth (1,2), Daniel Stromer (2), Yash Mantri (3), Jason Tsujimoto (3), Katharina Breininger (1), Andreas Maier (2), Caesar Anderson (4), Pranav S. Garimella (5), Jesse V. Jokerst (6) ((1) Department Artificial Intelligence in Biomedical Engineering, FAU Erlangen-N\"urnberg, Erlangen, (2) Pattern Recognition Lab, FAU Erlangen-N\"urnberg, Erlangen, (3) Department of Bioengineering, University of California, San Diego, (4) Department of Emergency Medicine, San Diego, (5) Division of Nephrology and Hypertension, Department of Medicine, San Diego, (6) Department of Nanoengineering, University of California, San Diego)(参考訳) 糖尿病や動脈・静脈障害を含む慢性的外傷は、世界中の医療システムにとって大きな負担となっている。 人口動態の変化は、今後数十年で創傷治療がさらに大きな役割を果たすことを示唆している。 創傷治療における治療反応の予測とモニタリングは、基礎組織に関する情報をほとんど持たない視覚検査に基づいている。 したがって、医療現場でのパーソナライズされた診断と治療を促進する革新的なアプローチが緊急に必要となる。 近年,超音波による創傷治療に対する反応のモニタリングが可能であることが報告されているが,本研究は多彩な手動画像アノテーションを必要とした。 本研究では,超音波画像における断面傷の大きさの深層学習に基づく自動区分けの初期結果と今後の研究の課題について述べる。 セグメンテーション結果の評価は,diceスコア 0.34 (u-net, fcn) と 0.27 (resnet-u-net) を用いた非侵襲的イメージングを補完する深層学習手法の可能性を浮き彫りにした。 以上より,非侵襲超音波画像の深部学習支援分析は,治療応答のモニタリングに有用である可能性のある断面傷の大きさと深さ情報を自動的に抽出する有望な研究領域である。

Chronic wounds including diabetic and arterial/venous insufficiency injuries have become a major burden for healthcare systems worldwide. Demographic changes suggest that wound care will play an even bigger role in the coming decades. Predicting and monitoring response to therapy in wound care is currently largely based on visual inspection with little information on the underlying tissue. Thus, there is an urgent unmet need for innovative approaches that facilitate personalized diagnostics and treatments at the point-of-care. It has been recently shown that ultrasound imaging can monitor response to therapy in wound care, but this work required onerous manual image annotations. In this study, we present initial results of a deep learning-based automatic segmentation of cross-sectional wound size in ultrasound images and identify requirements and challenges for future research on this application. Evaluation of the segmentation results underscores the potential of the proposed deep learning approach to complement non-invasive imaging with Dice scores of 0.34 (U-Net, FCN) and 0.27 (ResNet-U-Net) but also highlights the need for improving robustness further. We conclude that deep learning-supported analysis of non-invasive ultrasound images is a promising area of research to automatically extract cross-sectional wound size and depth information with potential value in monitoring response to therapy.
翻訳日:2022-01-26 14:56:00 公開日:2022-01-25
# トランスフォーマーはオントロジーをコード化するか? 自然言語における抽象クラス探索

Do Transformers Encode a Foundational Ontology? Probing Abstract Classes in Natural Language ( http://arxiv.org/abs/2201.10262v1 )

ライセンス: Link先を確認
Mael Jullien, Marco Valentino, Andre Freitas(参考訳) 近年の研究では,探索(あるいは診断分類)の方法論的支援により,トランスフォーマーが構文情報や意味情報をある程度エンコードしていることが示されている。 本研究は,現代トランスフォーマーモデルが基礎となる基礎オントロジーを反映できるのか? そこで本研究では,トランスフォーマーに基づくモデルが抽象意味情報をエンコードするかどうかを,体系的基礎オントロジー(FO)探索手法を提案する。 異なる事前学習と微調整の方式に従って,3つの異なる,補完的なfoタグ実験を通して,多種多様な大規模言語モデルの広範囲な評価を行った。 具体的には,(1)トランスフォーマーをベースとしたモデルが,事前学習中の基礎オントロジーに関連する情報を偶然に符号化し,(2)ロバストFOタグ(90%の精度)を効率的に構築できることを示す。

With the methodological support of probing (or diagnostic classification), recent studies have demonstrated that Transformers encode syntactic and semantic information to some extent. Following this line of research, this paper aims at taking semantic probing to an abstraction extreme with the goal of answering the following research question: can contemporary Transformer-based models reflect an underlying Foundational Ontology? To this end, we present a systematic Foundational Ontology (FO) probing methodology to investigate whether Transformers-based models encode abstract semantic information. Following different pre-training and fine-tuning regimes, we present an extensive evaluation of a diverse set of large-scale language models over three distinct and complementary FO tagging experiments. Specifically, we present and discuss the following conclusions: (1) The probing results indicate that Transformer-based models incidentally encode information related to Foundational Ontologies during the pre-training pro-cess; (2) Robust FO taggers (accuracy of 90 percent)can be efficiently built leveraging on this knowledge.
翻訳日:2022-01-26 14:55:35 公開日:2022-01-25
# マルチモーダル感性解析のための感性融合を用いた多チャンネル注意グラフ畳み込みネットワーク

Multi-channel Attentive Graph Convolutional Network With Sentiment Fusion For Multimodal Sentiment Analysis ( http://arxiv.org/abs/2201.10274v1 )

ライセンス: Link先を確認
Luwei Xiao, Xingjiao Wu, Wen Wu, Jing Yang, Liang He(参考訳) 近年、ソーシャルメディアプラットフォーム上でのマルチモーダルなレビューの爆発的な増加に伴い、ソーシャルメディアの投稿に高い関連性があることから、マルチモーダルな感情分析が最近人気を集めている。 これまでの研究のほとんどは、複数のモダリティのインタラクティブな表現を学ぶための様々な融合フレームワークを設計していたが、感傷的な知識をモダリティ間学習に組み込むことはできなかった。 本稿では,多チャンネル対応グラフ畳み込みネットワーク(MAGCN)を提案する。 クロスモダリティ対話型学習では,密結合グラフ畳み込みネットワークと組み合わされたセルフアテンション機構を活用し,モダリティ間のダイナミクスを学習する。 感傷的特徴融合では,感情的知識をモダリティ間特徴表現にマージするために,多面的自己意識を利用する。 広く使用されている3つのデータセットで広範な実験が行われている。 実験により,提案手法は,いくつかの最先端手法と比較して,精度とF1得点の競争性能が向上することを示した。

Nowadays, with the explosive growth of multimodal reviews on social media platforms, multimodal sentiment analysis has recently gained popularity because of its high relevance to these social media posts. Although most previous studies design various fusion frameworks for learning an interactive representation of multiple modalities, they fail to incorporate sentimental knowledge into inter-modality learning. This paper proposes a Multi-channel Attentive Graph Convolutional Network (MAGCN), consisting of two main components: cross-modality interactive learning and sentimental feature fusion. For cross-modality interactive learning, we exploit the self-attention mechanism combined with densely connected graph convolutional networks to learn inter-modality dynamics. For sentimental feature fusion, we utilize multi-head self-attention to merge sentimental knowledge into inter-modality feature representations. Extensive experiments are conducted on three widely-used datasets. The experimental results demonstrate that the proposed model achieves competitive performance on accuracy and F1 scores compared to several state-of-the-art approaches.
翻訳日:2022-01-26 14:55:16 公開日:2022-01-25
# コントラスト学習とセンテンシャルグラフネットワークを用いた情報バイアス検出のための多レベルコンテキストモデリング

Modeling Multi-level Context for Informational Bias Detection by Contrastive Learning and Sentential Graph Network ( http://arxiv.org/abs/2201.10376v1 )

ライセンス: Link先を確認
Shijia Guo, Kenny Q. Zhu(参考訳) 情報バイアスはニュース記事に広く見られる。 特定の解釈を導くために、特定の実体の特定の側面の一方的、選択的、あるいは示唆的な情報を提供すること。 文レベルの情報バイアス検出は、様々なソースから情報を収集したり、記事全体を背景と組み合わせて分析するなど、コンテキストとともにのみ、そのようなバイアスを明らかにする方法において非常に難しいタスクである。 本稿では,英語ニュース記事における文レベルの情報バイアスを検出するために,文脈の3つのレベルを統合する。 multictx (multi-level context) というモデルでは,コントラスト学習と文グラフをグラフアテンションネットワーク (gat) と組み合わせて,コントラストトリプレットを戦術的に合成し,イベント内の文グラフを構築することにより,これら3つのコンテキストを異なるステージでエンコードする。 比較学習と文グラフは, 文脈を異なる程度に効果的に取り入れ, 情報バイアス検出において現在のsotaモデル文を有意に上回ることを示した。

Informational bias is widely present in news articles. It refers to providing one-sided, selective or suggestive information of specific aspects of certain entity to guide a specific interpretation, thereby biasing the reader's opinion. Sentence-level informational bias detection is a very challenging task in a way that such bias can only be revealed together with the context, examples include collecting information from various sources or analyzing the entire article in combination with the background. In this paper, we integrate three levels of context to detect the sentence-level informational bias in English news articles: adjacent sentences, whole article, and articles from other news outlets describing the same event. Our model, MultiCTX (Multi-level ConTeXt), uses contrastive learning and sentence graphs together with Graph Attention Network (GAT) to encode these three degrees of context at different stages by tactically composing contrastive triplets and constructing sentence graphs within events. Our experiments proved that contrastive learning together with sentence graphs effectively incorporates context in varying degrees and significantly outperforms the current SOTA model sentence-wise in informational bias detection.
翻訳日:2022-01-26 14:54:57 公開日:2022-01-25
# (参考訳) 学習領域不変表現特徴に対する条件付きエントロピー最小化原理 [全文訳有]

Conditional entropy minimization principle for learning domain invariant representation features ( http://arxiv.org/abs/2201.10460v1 )

ライセンス: CC0 1.0
Thuan Nguyen, Boyang Lyu, Prakash Ishwar, Matthias Scheutz, Shuchin Aeron(参考訳) 不変原理に基づく手法、例えば不変リスク最小化(irm)はドメイン一般化(dg)への有望なアプローチとして最近登場している。 有望な理論にもかかわらず、不変原理に基づくアプローチは真の不変特徴と急激な不変特徴の混合により共通の分類タスクで失敗する。 本稿では,条件付きエントロピー最小化原理に基づくフレームワークを提案する。 理論上、ある特定の仮定の下では、表現関数は真の不変な特徴を正確に回復できることを証明できる。 また,提案手法は知名度の高いInformation Bottleneckフレームワークと密接に関連していることを示す。 我々のアプローチを正当化するために理論的および数値的な結果が提供される。

Invariance principle-based methods, for example, Invariant Risk Minimization (IRM), have recently emerged as promising approaches for Domain Generalization (DG). Despite the promising theory, invariance principle-based approaches fail in common classification tasks due to the mixture of the true invariant features and the spurious invariant features. In this paper, we propose a framework based on the conditional entropy minimization principle to filter out the spurious invariant features leading to a new algorithm with a better generalization capability. We theoretically prove that under some particular assumptions, the representation function can precisely recover the true invariant features. In addition, we also show that the proposed approach is closely related to the well-known Information Bottleneck framework. Both the theoretical and numerical results are provided to justify our approach.
翻訳日:2022-01-26 14:53:49 公開日:2022-01-25
# 楕円インバージョンモデルによるgpr画像からの管の方向と半径の推定

Estimating the Direction and Radius of Pipe from GPR Image by Ellipse Inversion Model ( http://arxiv.org/abs/2201.10184v1 )

ライセンス: Link先を確認
Xiren Zhou, Qiuju Chen, Shengfei Lyu, Huanhuan Chen(参考訳) 地中貫入レーダ(GPR)は埋設施設を推定するための非破壊的手法として広く用いられている。 GPRの検出方向がパイプラインに垂直である場合、GPRBスキャン画像上に双曲特性が形成される。 しかし、実世界のアプリケーションでは、既存のパイプラインマップ上のパイプラインの方向が不正確であり、gprの移動方向が実際に地下パイプラインと垂直であることを保証するのは難しい。 本稿では,パイプラインの方向と半径を推定し,GPR Bスキャン画像から既存のパイプラインマップを修正するための新しいモデルを提案する。 モデルは、GPR Bスキャン画像処理と楕円反復反転アルゴリズム(EIIA)の2つの部分で構成されている。 まず、GPRBスキャン画像を下向き開点セットを抽出して処理する。 その後、得られた点集合は埋設管路の楕円断面に反復反転され、これはgprの検出方向と管路方向の角度によって引き起こされる。 抽出された点から逆楕円への代数距離の和を最小化することにより、最も可能性の高いパイプラインの方向と半径が決定される。 実世界のデータセットの実験を行い,本手法の有効性を実証した。

Ground Penetrating Radar (GPR) is widely used as a non-destructive approach to estimate buried utilities. When the GPR's detecting direction is perpendicular to a pipeline, a hyperbolic characteristic would be formed on the GPR B-scan image. However, in real-world applications, the direction of pipelines on the existing pipeline map could be inaccurate, and it is hard to ensure the moving direction of GPR to be actually perpendicular to underground pipelines. In this paper, a novel model is proposed to estimate the direction and radius of pipeline and revise the existing pipeline map from GPR B-scan images. The model consists of two parts: GPR B-scan image processing and Ellipse Iterative Inversion Algorithm (EIIA). Firstly, the GPR B-scan image is processed with downward-opening point set extracted. The obtained point set is then iteratively inverted to the elliptical cross section of the buried pipeline, which is caused by the angle between the GPR's detecting direction and the pipeline's direction. By minimizing the sum of the algebraic distances from the extracted point set to the inverted ellipse, the most likely pipeline's direction and radius are determined. Experiments on real-world datasets are conducted, and the results demonstrate the effectiveness of the method.
翻訳日:2022-01-26 14:33:39 公開日:2022-01-25
# 学習リワード関数のダイナミクス・アウェア比較

Dynamics-Aware Comparison of Learned Reward Functions ( http://arxiv.org/abs/2201.10081v1 )

ライセンス: Link先を確認
Blake Wulfe and Ashwin Balakrishna and Logan Ellis and Jean Mercat and Rowan McAllister and Adrien Gaidon(参考訳) 報酬関数を学習する能力は、現実世界におけるインテリジェントエージェントの展開を可能にする上で重要な役割を果たす。 しかし、例えば報酬学習方法を評価する手段としての報酬関数の比較は困難である。 リワード関数は通常、最適化されたポリシーの振舞いを考慮することで比較されるが、このアプローチは報酬関数の欠陥を最適化に使用するポリシー探索アルゴリズムのそれと比較する。 この問題に対処するため、Gleaveら (2020) は等価・ポリシィ不変比較(EPIC)距離を提案している。 EPICはポリシーの最適化を避けているが、それを行うにはシステム力学では不可能な遷移における報酬値の計算が必要である。 これは、学習報酬関数が学習報酬分布の外部で評価する必要があり、その結果、EPICが報酬を比較するのに効果がないことを示す不正確な報酬値が得られるためである。 この問題に対処するため,我々は,新しい報酬擬メトリックであるdynamics-aware reward distance (dard)を提案する。 DARDは、環境の近似的な遷移モデルを使用して報酬関数を、報酬形成に不変な比較を可能とし、トレーニング分布に近い遷移に対してのみ報酬関数を評価する形式に変換する。 シミュレーション物理ドメインにおける実験により、dardはポリシー最適化なしで信頼できる報酬比較が可能であり、学習された報酬関数を扱う際の下流政策性能のベースライン法よりもかなり予測可能であることが示されている。

The ability to learn reward functions plays an important role in enabling the deployment of intelligent agents in the real world. However, comparing reward functions, for example as a means of evaluating reward learning methods, presents a challenge. Reward functions are typically compared by considering the behavior of optimized policies, but this approach conflates deficiencies in the reward function with those of the policy search algorithm used to optimize it. To address this challenge, Gleave et al. (2020) propose the Equivalent-Policy Invariant Comparison (EPIC) distance. EPIC avoids policy optimization, but in doing so requires computing reward values at transitions that may be impossible under the system dynamics. This is problematic for learned reward functions because it entails evaluating them outside of their training distribution, resulting in inaccurate reward values that we show can render EPIC ineffective at comparing rewards. To address this problem, we propose the Dynamics-Aware Reward Distance (DARD), a new reward pseudometric. DARD uses an approximate transition model of the environment to transform reward functions into a form that allows for comparisons that are invariant to reward shaping while only evaluating reward functions on transitions close to their training distribution. Experiments in simulated physical domains demonstrate that DARD enables reliable reward comparisons without policy optimization and is significantly more predictive than baseline methods of downstream policy performance when dealing with learned reward functions.
翻訳日:2022-01-26 14:32:15 公開日:2022-01-25
# 欠陥なしスマート鍛造におけるDeep Reinforcement Learningの利用

Using Deep Reinforcement Learning for Zero Defect Smart Forging ( http://arxiv.org/abs/2201.10268v1 )

ライセンス: Link先を確認
Yunpeng Ma, Andreas Kassler, Bestoun S. Ahmed, Pavel Krakhmalev, Andreas Thore, Arash Toyser, and Hans Lindback(参考訳) 生産中の欠陥は、多くの企業にとって重要な課題であり、収益を減らし、持続可能性や環境に悪影響を及ぼす。 材料廃棄物の本質的な理由は、特に鉄鋼鍛造のようなデジタル化の低い産業において、自動化の度合いが低いことである。 これらの産業は、主に手動で制御される大きな誘導オーブンや、専門家が作り出した有名なレシピなど、重くて古い機械に依存している。 しかしながら、標準的なレシピは、計画外の生産停止のような予期せぬ事象が発生した場合に失敗する可能性があるため、鍛造プロセス中に過熱し、物質劣化を引き起こす可能性がある。 本稿では, ピロメーターから観測された温度データに基づいて, 誘導オーブン内の加熱コイルの電力を調節する最適制御ポリシの開発を自動化するために, 鍛造ラインの加熱工程をディジタルツインベースで最適化する手法を開発する。 我々は,デジタル双対型深部強化学習(DTRL)フレームワークを設計し,鍛造ラインのディジタル双対を用いて加熱相のための2種類の異なる深部強化学習(DRL)モデルを訓練する。 この双子は、DRLトレーニングの環境として使用される熱伝達と運動モデルを含むシミュレーターに基づいている。 両モデルとも温度ムラを大幅に低減し,従来の加熱プロセスの自動化に有効であることを示す。

Defects during production may lead to material waste, which is a significant challenge for many companies as it reduces revenue and negatively impacts sustainability and the environment. An essential reason for material waste is a low degree of automation, especially in industries that currently have a low degree of digitalization, such as steel forging. Those industries typically rely on heavy and old machinery such as large induction ovens that are mostly controlled manually or using well-known recipes created by experts. However, standard recipes may fail when unforeseen events happen, such as an unplanned stop in production, which may lead to overheating and thus material degradation during the forging process. In this paper, we develop a digital twin-based optimization strategy for the heating process for a forging line to automate the development of an optimal control policy that adjusts the power for the heating coils in an induction oven based on temperature data observed from pyrometers. We design a digital twin-based deep reinforcement learning (DTRL) framework and train two different deep reinforcement learning (DRL) models for the heating phase using a digital twin of the forging line. The twin is based on a simulator that contains a heating transfer and movement model, which is used as an environment for the DRL training. Our evaluation shows that both models significantly reduce the temperature unevenness and can help to automate the traditional heating process.
翻訳日:2022-01-26 14:30:04 公開日:2022-01-25
# 敵対的文脈における目的達成のためのポストホック説明

Post-Hoc Explanations Fail to Achieve their Purpose in Adversarial Contexts ( http://arxiv.org/abs/2201.10295v1 )

ライセンス: Link先を確認
Sebastian Bordt, Mich\`ele Finck, Eric Raidl, Ulrike von Luxburg(参考訳) 既存の計画された法律は、機械学習アルゴリズムとその機能に関する情報を提供するための様々な義務を規定しており、しばしば「説明」の義務と解釈される。 多くの研究者がこの目的のためにポストホックな説明アルゴリズムを使うことを提案する。 本稿では,法律の目的を達成するにはポストホックな説明アルゴリズムが適さないことを示すために,法的,哲学的,技術的議論を組み合わせる。 実際、説明を求めるほとんどの状況は逆境であり、つまり、説明提供者と受信者が反対の関心とインセンティブを持っているため、提供者が自身の目的のために説明を操作することができる。 現実のアプリケーションシナリオにおけるポストホックな説明の曖昧さが高いため、この根本的な衝突は解決できないことを示す。 その結果、ポストホックな説明アルゴリズムは、法規範に固有の透明性目的を達成するには適していない。 その代わりに、"説明可能性"の義務の根底にある目的をより明確に議論する必要がある。 反体制的な文脈におけるポストホックな説明の可能性と限界、特に欧州連合(eu)の人工知能計画に関する現在の交渉に照らして、よりオープンで正直な議論が必要である。

Existing and planned legislation stipulates various obligations to provide information about machine learning algorithms and their functioning, often interpreted as obligations to "explain". Many researchers suggest using post-hoc explanation algorithms for this purpose. In this paper, we combine legal, philosophical and technical arguments to show that post-hoc explanation algorithms are unsuitable to achieve the law's objectives. Indeed, most situations where explanations are requested are adversarial, meaning that the explanation provider and receiver have opposing interests and incentives, so that the provider might manipulate the explanation for her own ends. We show that this fundamental conflict cannot be resolved because of the high degree of ambiguity of post-hoc explanations in realistic application scenarios. As a consequence, post-hoc explanation algorithms are unsuitable to achieve the transparency objectives inherent to the legal norms. Instead, there is a need to more explicitly discuss the objectives underlying "explainability" obligations as these can often be better achieved through other mechanisms. There is an urgent need for a more open and honest discussion regarding the potential and limitations of post-hoc explanations in adversarial contexts, in particular in light of the current negotiations about the European Union's draft Artificial Intelligence Act.
翻訳日:2022-01-26 14:29:41 公開日:2022-01-25
# (参考訳) Sphere2Vec:地球空間予測のための球面上のマルチスケール表現学習 [全文訳有]

Sphere2Vec: Multi-Scale Representation Learning over a Spherical Surface for Geospatial Predictions ( http://arxiv.org/abs/2201.10489v1 )

ライセンス: CC0 1.0
Gengchen Mai, Yao Xuan, Wenyun Zuo, Krzysztof Janowicz, Ni Lao(参考訳) 2次元空間における点の学習フレンドリな表現の生成は、機械学習における基本的かつ長期にわたる問題である。 近年、高次元ベクトルとして2次元空間の任意の点を直接符号化するマルチスケール符号化スキーム(Space2Vecなど)が提案され、様々な(幾何学)空間予測タスクにうまく適用されている。 しかし、地図投影歪み問題は、地球表面のような球面ではなく、2次元(ユークリッド)空間の点を符号化するために設計されている、大規模な実世界のGPS座標データセット(例えば、世界中の種画像)に位置符号化モデルを適用する際に生じる。 そこで本研究では,球面上の点座標を直接符号化するSphere2V ecと呼ばれるマルチスケール位置符号化モデルを提案する。 Sphere2Vec符号化が任意の2点間の球面距離を保存することの理論的証明を提供する。 また,Double Fourier Sphere (DFS) に基づく球面上の距離保存符号化の統一ビューを開発した。 Sphere2V ec を地理認識画像分類タスクに適用する。 本研究では,球面距離保存の特質から,球面2v ecは他の2次元空間位置エンコーダモデルよりも画像分類の極域領域やデータスパース領域よりも優れていることを示す。

Generating learning-friendly representations for points in a 2D space is a fundamental and long-standing problem in machine learning. Recently, multi-scale encoding schemes (such as Space2Vec) were proposed to directly encode any point in 2D space as a high-dimensional vector, and has been successfully applied to various (geo)spatial prediction tasks. However, a map projection distortion problem rises when applying location encoding models to large-scale real-world GPS coordinate datasets (e.g., species images taken all over the world) - all current location encoding models are designed for encoding points in a 2D (Euclidean) space but not on a spherical surface, e.g., earth surface. To solve this problem, we propose a multi-scale location encoding model called Sphere2V ec which directly encodes point coordinates on a spherical surface while avoiding the mapprojection distortion problem. We provide theoretical proof that the Sphere2Vec encoding preserves the spherical surface distance between any two points. We also developed a unified view of distance-reserving encoding on spheres based on the Double Fourier Sphere (DFS). We apply Sphere2V ec to the geo-aware image classification task. Our analysis shows that Sphere2V ec outperforms other 2D space location encoder models especially on the polar regions and data-sparse areas for image classification tasks because of its nature for spherical surface distance preservation.
翻訳日:2022-01-26 14:26:11 公開日:2022-01-25
# 説明学習--ニューラルネットワークにおける経験主義を超えて

Explanatory Learning: Beyond Empiricism in Neural Networks ( http://arxiv.org/abs/2201.10222v1 )

ライセンス: Link先を確認
Antonio Norelli, Giorgio Mariani, Luca Moschella, Andrea Santilli, Giambattista Parascandolo, Simone Melzi, Emanuele Rodol\`a(参考訳) 例えば、ヒエログリフで書かれた説明など、記号列に埋もれた既存の知識を機械が自律的に理解して解釈できるフレームワークであるExplainatory Learning (EL)を紹介します。 elでは、プログラム合成で行われているように、シンボルの解釈の負担は人間や人間のコード化されたコンパイラに委ねられていない。 むしろELは、いくつかの現象の観測と組み合わせた記号列の限られたコレクションの上に構築された、学習した通訳を求めている。 このインタプリタは、その説明に基づいて新しい現象を予測したり、人間の科学者のようにほんの一握りの観察でその説明を見つけるためにも使うことができる。 EL問題を単純な二分分類タスクとして定式化することにより、機械学習における支配的な経験主義者の見解に一致した共通エンドツーエンドアプローチが、原則としてそれを解くことができる。 これらのモデルに対して、我々は、知識の獲得に関する合理主義的見解を受け入れる批判的合理主義ネットワーク(CRN)に反対する。 crnは構成によっていくつかの望ましい特性を表現し、真に説明可能であり、より難しい推論のためにテスト時に処理を調整でき、予測に対して強い信頼性を提供することができる。 最後の貢献として、説明すべき現象でいっぱいの小さな平地型宇宙をシミュレートする基本的なEL環境であるOdeenを紹介する。 Odeenをテストベッドとして使うと、CRNが経験主義的エンド・ツー・エンド・エンド・アプローチより優れていることを示す。

We introduce Explanatory Learning (EL), a framework to let machines use existing knowledge buried in symbolic sequences -- e.g. explanations written in hieroglyphic -- by autonomously learning to interpret them. In EL, the burden of interpreting symbols is not left to humans or rigid human-coded compilers, as done in Program Synthesis. Rather, EL calls for a learned interpreter, built upon a limited collection of symbolic sequences paired with observations of several phenomena. This interpreter can be used to make predictions on a novel phenomenon given its explanation, and even to find that explanation using only a handful of observations, like human scientists do. We formulate the EL problem as a simple binary classification task, so that common end-to-end approaches aligned with the dominant empiricist view of machine learning could, in principle, solve it. To these models, we oppose Critical Rationalist Networks (CRNs), which instead embrace a rationalist view on the acquisition of knowledge. CRNs express several desired properties by construction, they are truly explainable, can adjust their processing at test-time for harder inferences, and can offer strong confidence guarantees on their predictions. As a final contribution, we introduce Odeen, a basic EL environment that simulates a small flatland-style universe full of phenomena to explain. Using Odeen as a testbed, we show how CRNs outperform empiricist end-to-end approaches of similar size and architecture (Transformers) in discovering explanations for novel phenomena.
翻訳日:2022-01-26 14:08:22 公開日:2022-01-25
# 化学工学データセットからの情報の最大化:機械学習への応用

Maximizing information from chemical engineering data sets: Applications to machine learning ( http://arxiv.org/abs/2201.10035v1 )

ライセンス: Link先を確認
Alexander Thebelt, Johannes Wiebe, Jan Kronqvist, Calvin Tsay, Ruth Misener(参考訳) 人工知能が化学工学に大きな影響を与える(そしてすでにある)ことは、よく文書化されている。 しかし、多くの化学工学応用において古典的な機械学習アプローチは弱いかもしれない。 本稿では, 化学工学応用におけるデータ特性の課題について論じる。 我々は,(1)高分散,低ボリュームデータ,(2)低分散,高ボリュームデータ,(3)ノイズ/故障/欠測データ,(4)物理に基づく制限付きデータという,古典的人工知能のアプローチを困難にしている化学工学応用におけるデータの特徴を同定する。 これら4つのデータ特性のそれぞれについて,これらのデータ特性が生ずるアプリケーションについて論じるとともに,現在の化学工学研究がデータサイエンスと機械学習の分野を拡張して,これらの課題を取り入れていることを示す。 最後に,今後の研究の課題をいくつか挙げる。

It is well-documented how artificial intelligence can have (and already is having) a big impact on chemical engineering. But classical machine learning approaches may be weak for many chemical engineering applications. This review discusses how challenging data characteristics arise in chemical engineering applications. We identify four characteristics of data arising in chemical engineering applications that make applying classical artificial intelligence approaches difficult: (1) high variance, low volume data, (2) low variance, high volume data, (3) noisy/corrupt/missin g data, and (4) restricted data with physics-based limitations. For each of these four data characteristics, we discuss applications where these data characteristics arise and show how current chemical engineering research is extending the fields of data science and machine learning to incorporate these challenges. Finally, we identify several challenges for future research.
翻訳日:2022-01-26 14:07:55 公開日:2022-01-25
# クラウドソース気象データの外乱補正補間のための深層混合密度ネットワーク

A deep mixture density network for outlier-corrected interpolation of crowd-sourced weather data ( http://arxiv.org/abs/2201.10544v1 )

ライセンス: Link先を確認
Charlie Kirkwood, Theo Economou, Henry Odbert and Nicolas Pugeault(参考訳) センサーと関連するITインフラのコストが減少するにつれて、モノのインターネット(Internet of Things)が示すように、環境科学者が利用できる観測データの量が増えつつある。 しかし、利用可能な観測サイト数が増加するにつれて、特にこれらのセンサーの多くは公式のメンテナンスチームの利益を得られていないため、データ品質の問題が発生する機会もある。 環境モデリングにおけるクラウドソース型「モノのインターネット」型観測の価値を実現するためには,データモデリングプロセスにおいて,関心の現象の真の分布を汚染しないように,アウトレーヤの検出を自動化できるアプローチが必要である。 本稿では,自動外乱検出による環境変数の時空間モデリングのためのベイズ深層学習手法を提案する。 このアプローチでは,関心現象をモデル化する2つの目的を持つガウス-一様混合密度ネットワークを実装し,異常値の分類と無視の学習を同時に行う。 例を挙げると、1900年頃のイギリス諸島の民間の気象観測所と非公式の気象観測所のアーカイブである気象観測サイト(Met Office's Weather Observation Website)のデータを用いています。 地表面温度データを用いて, 深層混合モデルを用いて, 急激な観測から汚染されることなく, 高度に熟練した時空間温度分布をモデル化できることを実証した。 当社のアプローチの採用が,クラウドソーシングを含む幅広い観測源を将来の環境モデルに組み込む可能性の解放に寄与することを期待している。

As the costs of sensors and associated IT infrastructure decreases - as exemplified by the Internet of Things - increasing volumes of observational data are becoming available for use by environmental scientists. However, as the number of available observation sites increases, so too does the opportunity for data quality issues to emerge, particularly given that many of these sensors do not have the benefit of official maintenance teams. To realise the value of crowd sourced 'Internet of Things' type observations for environmental modelling, we require approaches that can automate the detection of outliers during the data modelling process so that they do not contaminate the true distribution of the phenomena of interest. To this end, here we present a Bayesian deep learning approach for spatio-temporal modelling of environmental variables with automatic outlier detection. Our approach implements a Gaussian-uniform mixture density network whose dual purposes - modelling the phenomenon of interest, and learning to classify and ignore outliers - are achieved simultaneously, each by specifically designed branches of our neural network. For our example application, we use the Met Office's Weather Observation Website data, an archive of observations from around 1900 privately run and unofficial weather stations across the British Isles. Using data on surface air temperature, we demonstrate how our deep mixture model approach enables the modelling of a highly skilled spatio-temporal temperature distribution without contamination from spurious observations. We hope that adoption of our approach will help unlock the potential of incorporating a wider range of observation sources, including from crowd sourcing, into future environmental models.
翻訳日:2022-01-26 14:07:40 公開日:2022-01-25
# 商用顔検出モデルは学術モデルと同じくらい偏りがあるか?

Are Commercial Face Detection Models as Biased as Academic Models? ( http://arxiv.org/abs/2201.10047v1 )

ライセンス: Link先を確認
Samuel Dooley, George Z. Wei, Tom Goldstein, John P. Dickerson(参考訳) 顔認識システムがより広く展開されるにつれて、学者や活動家はバイアスや危害について研究してきた。 監査は、画像の被写体に関する様々なメタデータラベルを持つデータセットに対して、アルゴリズムによる顔認識システムのパフォーマンスを比較するために一般的に使用される。 セナルワークは、性別の表現、年齢、知覚された人種、皮膚の種類などによるパフォーマンスの相違を発見した。 これらの研究と監査は、しばしば学術モデルと商業モデルという2つのカテゴリに分類されるアルゴリズムを調査している。 本稿では学術的な顔検出システムと商業的な顔検出システムの比較について述べる。 最新の学術的顔検出モデルでは, 高齢者や男性的に性別を呈示する人に対して, 統計的に有意なパフォーマンス低下がみられ, 騒音のロバスト性に差があることが判明した。 これらの格差と商用モデルのサイズを比較すると、商業モデルは、比較的大きな開発予算と業界レベルの公正性のコミットメントとは対照的に、常に学術モデルよりも偏り、偏りがある、と結論付けます。

As facial recognition systems are deployed more widely, scholars and activists have studied their biases and harms. Audits are commonly used to accomplish this and compare the algorithmic facial recognition systems' performance against datasets with various metadata labels about the subjects of the images. Seminal works have found discrepancies in performance by gender expression, age, perceived race, skin type, etc. These studies and audits often examine algorithms which fall into two categories: academic models or commercial models. We present a detailed comparison between academic and commercial face detection systems, specifically examining robustness to noise. We find that state-of-the-art academic face detection models exhibit demographic disparities in their noise robustness, specifically by having statistically significant decreased performance on older individuals and those who present their gender in a masculine manner. When we compare the size of these disparities to that of commercial models, we conclude that commercial models - in contrast to their relatively larger development budget and industry-level fairness commitments - are always as biased or more biased than an academic model.
翻訳日:2022-01-26 14:06:57 公開日:2022-01-25
# ガウスDAGモデルの最適推定

Optimal estimation of Gaussian DAG models ( http://arxiv.org/abs/2201.10548v1 )

ライセンス: Link先を確認
Ming Gao, Wai Ming Tai, Bryon Aragam(参考訳) 観測データからガウス有向非巡回グラフ(dag)を学習する最適サンプル複雑性について検討した。 我々の主な成果は、線形ガウスDAGモデルの構造を等分散で学習するための最小値サンプルの複雑さを$n\asymp q\log(d/q)$と定め、$q$は両親の最大数、$d$はノードの数である。 さらに, 学習(無向)ガウス図形モデルとの比較を行い, 等分散仮定の下では, これら2つの問題は同じ最適サンプル複雑性を共有していることを示した。 言い換えれば、少なくとも同じ誤差分散を持つガウスモデルでは、有向グラフィカルモデルを学ぶことは、無向グラフィカルモデルを学ぶことよりも難しくない。 また,より一般的な同定仮定やサブガウシアン誤差についても検討した。

We study the optimal sample complexity of learning a Gaussian directed acyclic graph (DAG) from observational data. Our main result establishes the minimax optimal sample complexity for learning the structure of a linear Gaussian DAG model with equal variances to be $n\asymp q\log(d/q)$, where $q$ is the maximum number of parents and $d$ is the number of nodes. We further make comparisons with the classical problem of learning (undirected) Gaussian graphical models, showing that under the equal variance assumption, these two problems share the same optimal sample complexity. In other words, at least for Gaussian models with equal error variances, learning a directed graphical model is not more difficult than learning an undirected graphical model. Our results also extend to more general identification assumptions as well as subgaussian errors.
翻訳日:2022-01-26 14:04:27 公開日:2022-01-25
# 人的品質を有する電子健康記録からの遠隔管理型エンドツーエンド医療機関抽出

Distantly supervised end-to-end medical entity extraction from electronic health records with human-level quality ( http://arxiv.org/abs/2201.10463v1 )

ライセンス: Link先を確認
Alexander Nesterov and Dmitry Umerenkov(参考訳) 医療エンティティ抽出(EE)は、医療テキスト処理の第1段階として使用される標準手順である。 通常、医療用eeは、エンティティ認識(ner)とエンティティ正規化(nen)の2段階のプロセスである。 本稿では,ehrデータセット上で事前学習したトランスフォーマーモデルを微調整することにより,電子健康記録(ehr)から医療用ehrを単段マルチラベル分類タスクとして行う新しい方法を提案する。 我々のモデルは、医療知識ベースから自動的に抽出されたターゲットを用いて、遠方から遠方まで訓練される。 また,本モデルでは,頻繁なエンティティを一般化し,最も頻繁なエンティティに対して人間レベルの分類品質を実現する。 我々の研究は、十分な量の未ラベルのEHRと医療知識ベースが利用できることを考えると、人間の監督なく、人的品質で、医療機関の抽出をエンドツーエンドで行うことができることを示す。

Medical entity extraction (EE) is a standard procedure used as a first stage in medical texts processing. Usually Medical EE is a two-step process: named entity recognition (NER) and named entity normalization (NEN). We propose a novel method of doing medical EE from electronic health records (EHR) as a single-step multi-label classification task by fine-tuning a transformer model pretrained on a large EHR dataset. Our model is trained end-to-end in an distantly supervised manner using targets automatically extracted from medical knowledge base. We show that our model learns to generalize for entities that are present frequently enough, achieving human-level classification quality for most frequent entities. Our work demonstrates that medical entity extraction can be done end-to-end without human supervision and with human quality given the availability of a large enough amount of unlabeled EHR and a medical knowledge base.
翻訳日:2022-01-26 14:03:55 公開日:2022-01-25
# 誰の言語が高品質か? テキストデータ選択における言語イデオロギーの測定

Whose Language Counts as High Quality? Measuring Language Ideologies in Text Data Selection ( http://arxiv.org/abs/2201.10474v1 )

ライセンス: Link先を確認
Suchin Gururangan, Dallas Card, Sarah K. Drier, Emily K. Gade, Leroy Z. Wang, Zeyu Wang, Luke Zettlemoyer, Noah A. Smith(参考訳) 言語モデルは、多種多様なテキストデータに対する巨大なウェブダンプに依存している。 しかし、これらの情報源は好ましくない内容に満ちている。 そのため、ウィキペディア、書籍、ニュースワイヤといったリソースは、言語モデリングに最も適したWebテキストを自動的に選択するアンカーとして機能することが多い。 全国の学生が執筆した米国の高校新聞記事の新しいデータセットを用いて、gpt-3で使用される品質フィルターによってどの言語が好まれるかを調査した。 より富裕で、教育され、都会のZIPコードにある大きな学校の新聞は、質の高いものとして分類される傾向にある。 次に,フィルタの質測定が,事実性や文学的評価といった他の感性指標と一致しないことを実証する。 高品質なコーパスを特権化することは言語イデオロギーを伴い,言語モデルのためのトレーニングコーパスの構築にはもっと注意が必要である,と我々は主張する。

Language models increasingly rely on massive web dumps for diverse text data. However, these sources are rife with undesirable content. As such, resources like Wikipedia, books, and newswire often serve as anchors for automatically selecting web text most suitable for language modeling, a process typically referred to as quality filtering. Using a new dataset of U.S. high school newspaper articles -- written by students from across the country -- we investigate whose language is preferred by the quality filter used for GPT-3. We find that newspapers from larger schools, located in wealthier, educated, and urban ZIP codes are more likely to be classified as high quality. We then demonstrate that the filter's measurement of quality is unaligned with other sensible metrics, such as factuality or literary acclaim. We argue that privileging any corpus as high quality entails a language ideology, and more care is needed to construct training corpora for language models, with better transparency and justification for the inclusion or exclusion of various texts.
翻訳日:2022-01-26 14:03:37 公開日:2022-01-25
# (参考訳) マルチスケール注意による視覚的位置認識のための意味学習 [全文訳有]

Learning Semantics for Visual Place Recognition through Multi-Scale Attention ( http://arxiv.org/abs/2201.09701v2 )

ライセンス: CC BY 4.0
Valerio Paolicelli, Antonio Tavera, Carlo Masone, Gabriele Berton, Barbara Caputo(参考訳) 本稿では,視覚的位置認識(VPR)の課題に対処する。その目的は,あるクエリ画像の正しいGPS座標を,巨大なジオタグ付きギャラリーに対して取得することである。 最近の研究では、セマンティック情報と外観情報を組み込んだ記述子の構築が有用であることが示されているが、現在の最先端の手法は重要なセマンティックコンテンツのトップダウン定義を選択する。 本稿では,データの視覚的外観と意味的コンテンツの両方からロバストな大域的埋め込みを学習する最初のvprアルゴリズムを提案する。 さまざまなシナリオの実験により、この新しいアプローチが検証され、最先端の手法に対するパフォーマンスが実証される。 最後に、位置認識とセグメンテーションタスクの両方に適した最初の合成世界データセットを提案する。

In this paper we address the task of visual place recognition (VPR), where the goal is to retrieve the correct GPS coordinates of a given query image against a huge geotagged gallery. While recent works have shown that building descriptors incorporating semantic and appearance information is beneficial, current state-of-the-art methods opt for a top down definition of the significant semantic content. Here we present the first VPR algorithm that learns robust global embeddings from both visual appearance and semantic content of the data, with the segmentation process being dynamically guided by the recognition of places through a multi-scale attention module. Experiments on various scenarios validate this new approach and demonstrate its performance against state-of-the-art methods. Finally, we propose the first synthetic-world dataset suited for both place recognition and segmentation tasks.
翻訳日:2022-01-26 12:56:29 公開日:2022-01-25
# (参考訳) IMO$^3$:インタラクティブ多目的オフポリティ最適化 [全文訳有]

IMO$^3$: Interactive Multi-Objective Off-Policy Optimization ( http://arxiv.org/abs/2201.09798v2 )

ライセンス: CC BY 4.0
Nan Wang, Hongning Wang, Maryam Karimzadehgan, Branislav Kveton, Craig Boutilier(参考訳) ほとんどの実世界の最適化問題には複数の目的がある。 システム設計者は、望ましい運用ポイントに達するために、これらの目的をトレードオフするポリシーを見つける必要があります。 この問題は既知の目的関数の設定において広く研究されている。 我々は、未知の目的関数のより実用的で挑戦的な設定を考える。 業界では、この問題は主にオンラインA/Bテストによって解決される。 また,対話型多目的オフポリシー最適化(IMO$^3$)を提案する。 我々のアプローチにおける重要なアイデアは、オフポリシーで評価されたポリシーを使用してシステムデザイナーと対話し、どのポリシーが彼女の未知のユーティリティ機能を最大化するかを明らかにすることです。 理論上, imo$^3$は, 設計者からのフィードバック量やオフ・ポリシー推定のためのトレーニングデータに応じて, 高い確率で最適に近い方針を特定する。 複数の多目的最適化問題に対して,その有効性を実証的に示す。

Most real-world optimization problems have multiple objectives. A system designer needs to find a policy that trades off these objectives to reach a desired operating point. This problem has been studied extensively in the setting of known objective functions. We consider a more practical but challenging setting of unknown objective functions. In industry, this problem is mostly approached with online A/B testing, which is often costly and inefficient. As an alternative, we propose interactive multi-objective off-policy optimization (IMO$^3$). The key idea in our approach is to interact with a system designer using policies evaluated in an off-policy fashion to uncover which policy maximizes her unknown utility function. We theoretically show that IMO$^3$ identifies a near-optimal policy with high probability, depending on the amount of feedback from the designer and training data for off-policy estimation. We demonstrate its effectiveness empirically on multiple multi-objective optimization problems.
翻訳日:2022-01-26 12:39:33 公開日:2022-01-25
# 非ラベルデータは自己学習の一般化をどのように改善するか? 単層理論解析

How does unlabeled data improve generalization in self-training? A one-hidden-layer theoretical analysis ( http://arxiv.org/abs/2201.08514v2 )

ライセンス: Link先を確認
Shuai Zhang, Meng Wang, Sijia Liu, Pin-Yu Chen, Jinjun Xiong(参考訳) 半教師付き学習アルゴリズムである自己学習は、ラベルなしデータを大量に活用し、ラベル付きデータが制限された場合の学習を改善する。 経験的な成功にもかかわらず、その理論的特徴は解明されていない。 我々の知る限り、本研究は、既知の反復的自己学習パラダイムに関する最初の理論的分析を確立し、トレーニング収束と一般化能力の両方においてラベルなしデータの利点を証明する。 理論的解析を可能とするために、一層ニューラルネットワークの場合に焦点を当てる。 しかしながら、反復的自己学習の理論的理解は、浅いニューラルネットワークでさえは自明ではない。 重要な課題の1つは、教師付き学習に基づく既存のニューラルネットワークのランドスケープ分析が(半教師付き)自己学習パラダイムではもはや保持されないことだ。 この課題に対処し、反復的な自己学習が収束率と一般化精度の両方を1/\sqrt{M}$の順に改善して線形収束することを証明する。 また, 浅層ニューラルネットワークから深層ニューラルネットワークまで, 自己学習に関する確立した理論的洞察の正しさを正当化するために, 実験を行った。

Self-training, a semi-supervised learning algorithm, leverages a large amount of unlabeled data to improve learning when the labeled data are limited. Despite empirical successes, its theoretical characterization remains elusive. To the best of our knowledge, this work establishes the first theoretical analysis for the known iterative self-training paradigm and proves the benefits of unlabeled data in both training convergence and generalization ability. To make our theoretical analysis feasible, we focus on the case of one-hidden-layer neural networks. However, theoretical understanding of iterative self-training is non-trivial even for a shallow neural network. One of the key challenges is that existing neural network landscape analysis built upon supervised learning no longer holds in the (semi-supervised) self-training paradigm. We address this challenge and prove that iterative self-training converges linearly with both convergence rate and generalization accuracy improved in the order of $1/\sqrt{M}$, where $M$ is the number of unlabeled samples. Experiments from shallow neural networks to deep neural networks are also provided to justify the correctness of our established theoretical insights on self-training.
翻訳日:2022-01-26 12:15:30 公開日:2022-01-25
# SpiroMask: コンシューマグレードマスクを用いた肺機能測定

SpiroMask: Measuring Lung Function Using Consumer-Grade Masks ( http://arxiv.org/abs/2201.09280v2 )

ライセンス: Link先を確認
Rishiraj Adhikary, Dhruvi Lodhavia, Chris Francis, Rohit Patil, Tanmay Srivastava, Prerna Khanna, Nipun Batra, Joe Breda, Jacob Peplinski, Shwetak Patel(参考訳) 世界保健機関(WHO)によると、2億3500万人が呼吸器疾患にかかり、毎年400万人が死亡している。 定期的な肺健康モニタリングは、肺の健康状態の悪化に関する診断につながる可能性がある。 本稿では,患者用マスク (N95, 布マスク) にマイクロフォンを組み込んだ連続肺健康モニタリングシステムSpiroMaskを提案する。 対象者48名(肺疾患14名を含む)を対象に評価を行い,米国胸部協会(ats)が承認した誤差範囲内の肺容積や呼吸率などのパラメータを推定できることを見いだした。 さらに,マスク内部のセンサ配置に対して,我々のアプローチは堅牢であることを示す。

According to the World Health Organisation (WHO), 235 million people suffer from respiratory illnesses and four million deaths annually. Regular lung health monitoring can lead to prognoses about deteriorating lung health conditions. This paper presents our system SpiroMask that retrofits a microphone in consumer-grade masks (N95 and cloth masks) for continuous lung health monitoring. We evaluate our approach on 48 participants (including 14 with lung health issues) and find that we can estimate parameters such as lung volume and respiration rate within the approved error range by the American Thoracic Society (ATS). Further, we show that our approach is robust to sensor placement inside the mask.
翻訳日:2022-01-26 12:15:12 公開日:2022-01-25
# DCNGAN:圧縮ビデオの知覚品質向上のためのQP適応による変形可能な畳み込み型GAN

DCNGAN: A Deformable Convolutional-Based GAN with QP Adaptation for Perceptual Quality Enhancement of Compressed Video ( http://arxiv.org/abs/2201.08944v2 )

ライセンス: Link先を確認
Saiping Zhang, Luis Herranz, Marta Mrak, Marc Gorriz Blanch, Shuai Wan and Fuzheng Yang(参考訳) 本稿では,圧縮ビデオの知覚的品質向上のための変形可能な畳み込み型生成対向ネットワーク(DCNGAN)を提案する。 DCNGANは量子化パラメータ(QP)にも適応する。 光流に比べ、変形可能な畳み込みはフレームを整列するのに効果的で効率的である。 変形可能な畳み込みは複数のフレームで動作し、より時間的情報を活用することで圧縮ビデオの知覚品質を向上させることができる。 フレームをペアで並べる代わりに、変形可能な畳み込みは複数のフレームを同時に処理することができ、計算の複雑さが低下する。 実験の結果,dcnganは他の圧縮映像品質向上アルゴリズムよりも優れていた。

In this paper, we propose a deformable convolution-based generative adversarial network (DCNGAN) for perceptual quality enhancement of compressed videos. DCNGAN is also adaptive to the quantization parameters (QPs). Compared with optical flows, deformable convolutions are more effective and efficient to align frames. Deformable convolutions can operate on multiple frames, thus leveraging more temporal information, which is beneficial for enhancing the perceptual quality of compressed videos. Instead of aligning frames in a pairwise manner, the deformable convolution can process multiple frames simultaneously, which leads to lower computational complexity. Experimental results demonstrate that the proposed DCNGAN outperforms other state-of-the-art compressed video quality enhancement algorithms.
翻訳日:2022-01-26 12:14:58 公開日:2022-01-25
# リアルタイム通信のためのエンドツーエンドニューラルオーディオ符号化

End-to-End Neural Audio Coding for Real-Time Communications ( http://arxiv.org/abs/2201.09429v2 )

ライセンス: Link先を確認
Xue Jiang, Xiulian Peng, Chengyu Zheng, Huaying Xue, Yuan Zhang, Yan Lu(参考訳) ディープラーニングに基づく手法は、従来のものよりもオーディオ符号化の優位性を示しているが、リアルタイム通信(RTC)には注意が払われている。 本稿では、RTCの低レイテンシでエンドツーエンドのニューラルオーディオコーデックであるTFNetを提案する。 オーディオ符号化ではほとんど調査されないエンコーダ-時間フィルタリング-デコーダパラダイムを採用している。 短期および長期の時間的依存関係をキャプチャするために,時間的フィルタリングのためのインターリーブ構造を提案する。 さらに、エンドツーエンドの最適化により、tfnetは音声強調とパケット損失隠蔽を共同で最適化し、3つのタスクで1対1のネットワークを実現する。 主観的および客観的な結果は、提案したTFNetの効率を示す。

Deep-learning based methods have shown their advantages in audio coding over traditional ones but limited attention has been paid on real-time communications (RTC). This paper proposes the TFNet, an end-to-end neural audio codec with low latency for RTC. It takes an encoder-temporal filtering-decoder paradigm that seldom being investigated in audio coding. An interleaved structure is proposed for temporal filtering to capture both short-term and long-term temporal dependencies. Furthermore, with end-to-end optimization, the TFNet is jointly optimized with speech enhancement and packet loss concealment, yielding a one-for-all network for three tasks. Both subjective and objective results demonstrate the efficiency of the proposed TFNet.
翻訳日:2022-01-26 12:14:47 公開日:2022-01-25
# 動的システムのグローバル最適化のためのスケーラブルセーフ探索

Scalable Safe Exploration for Global Optimization of Dynamical Systems ( http://arxiv.org/abs/2201.09562v2 )

ライセンス: Link先を確認
Bhavya Sukhija, Matteo Turchetta, David Lindner, Andreas Krause, Sebastian Trimpe, Dominik Baumann(参考訳) 物理システム上で最適な制御ポリシーを学習することは、単一障害でさえ高価なハードウェア損傷を引き起こす可能性があるため、難しい。 安全、すなわち、探索中の失敗を保証している既存の学習方法のほとんどは、局所的な最適化に限られている。 注目すべき例外は、GoSafeアルゴリズムであり、残念ながら高次元のシステムを扱えないため、ほとんどの実世界の力学系には適用できない。 この研究は、安全性と最適性を保証するとともに、複雑なシステムのグローバルなポリシーを安全に発見できる最初のアルゴリズムとしてGoSafeOptを提案する。 GoSafeを禁ずるロボットアームの実験では、GoSafeOptは高次元領域の安全な学習方法と競合するよりも、はるかに優れたポリシーを安全に見つけることが実証された。

Learning optimal control policies directly on physical systems is challenging since even a single failure can lead to costly hardware damage. Most existing learning methods that guarantee safety, i.e., no failures, during exploration are limited to local optima. A notable exception is the GoSafe algorithm, which, unfortunately, cannot handle high-dimensional systems and hence cannot be applied to most real-world dynamical systems. This work proposes GoSafeOpt as the first algorithm that can safely discover globally optimal policies for complex systems while giving safety and optimality guarantees. Our experiments on a robot arm that would be prohibitive for GoSafe demonstrate that GoSafeOpt safely finds remarkably better policies than competing safe learning methods for high-dimensional domains.
翻訳日:2022-01-26 12:14:35 公開日:2022-01-25
# 同所性政策ミラー降下:政策収束、暗黙的正則化、サンプル複雑性の改善

Homotopic Policy Mirror Descent: Policy Convergence, Implicit Regularization, and Improved Sample Complexity ( http://arxiv.org/abs/2201.09457v2 )

ライセンス: Link先を確認
Yan Li, Tuo Zhao, Guanghui Lan(参考訳) 本稿では,有限状態と作用空間を持つ無限大地平線mdpを解くためのホモトピー・ポリシーミラー降下(hpmd)法を提案し,その政策収束について検討する。 We report three properties that seem to be new in the literature of policy gradient methods: (1) The policy first converges linearly, then superlinearly with order $\gamma^{-2}$ to the set of optimal policies, after $\mathcal{O}(\log(1/\Delta^*))$ number of iterations, where $\Delta^*$ is defined via a gap quantity associated with the optimal state-action value function; (2) HPMD also exhibits last-iterate convergence, with the limiting policy corresponding exactly to the optimal policy with the maximal entropy for every state. 最適化の目的に正規化は加えられず、従って第2の観測はホモトピーポリシー勾配法のアルゴリズム的性質としてのみ発生する。 (3) 確率HPMD法では、政策評価のための生成モデルを想定した場合、小さな最適性ギャップに対して、$\mathcal{O}(|\mathcal{S}| |\mathcal{A}| / \epsilon^2)$のサンプル複雑性よりも優れていることを示す。

We propose the homotopic policy mirror descent (HPMD) method for solving discounted, infinite horizon MDPs with finite state and action space, and study its policy convergence. We report three properties that seem to be new in the literature of policy gradient methods: (1) The policy first converges linearly, then superlinearly with order $\gamma^{-2}$ to the set of optimal policies, after $\mathcal{O}(\log(1/\Delta^*))$ number of iterations, where $\Delta^*$ is defined via a gap quantity associated with the optimal state-action value function; (2) HPMD also exhibits last-iterate convergence, with the limiting policy corresponding exactly to the optimal policy with the maximal entropy for every state. No regularization is added to the optimization objective and hence the second observation arises solely as an algorithmic property of the homotopic policy gradient method. (3) For the stochastic HPMD method, we further demonstrate a better than $\mathcal{O}(|\mathcal{S}| |\mathcal{A}| / \epsilon^2)$ sample complexity for small optimality gap $\epsilon$, when assuming a generative model for policy evaluation.
翻訳日:2022-01-26 12:14:22 公開日:2022-01-25
# ベイズ世界モデルによる制約付き政策最適化

Constrained Policy Optimization via Bayesian World Models ( http://arxiv.org/abs/2201.09802v2 )

ライセンス: Link先を確認
Yarden As, Ilnura Usmanova, Sebastian Curi, Andreas Krause(参考訳) 高精細な現実世界のアプリケーションで強化学習を展開する場合、サンプル効率と安全性の向上は重要な課題である。 制約付きマルコフ決定プロセスを通じてモデル化された安全クリティカルタスクにおけるポリシー最適化のための新しいモデルベースアプローチであるLAMBDAを提案する。 提案手法は,ベイズ世界モデルを利用し,結果として生じる不確実性を利用してタスク目標の楽観的な上限を最大化し,安全性制約の悲観的上限を最大化する。 LAMBDA のSafety-Gymベンチマークスイート上で,サンプル効率と制約違反の観点から,その性能を実証する。

Improving sample-efficiency and safety are crucial challenges when deploying reinforcement learning in high-stakes real world applications. We propose LAMBDA, a novel model-based approach for policy optimization in safety critical tasks modeled via constrained Markov decision processes. Our approach utilizes Bayesian world models, and harnesses the resulting uncertainty to maximize optimistic upper bounds on the task objective, as well as pessimistic upper bounds on the safety constraints. We demonstrate LAMBDA's state of the art performance on the Safety-Gym benchmark suite in terms of sample efficiency and constraint violation.
翻訳日:2022-01-26 12:13:56 公開日:2022-01-25