このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220314となっている論文です。

PDF登録状況(公開日: 20220314)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) 弾性特性を用いた岩相分類のためのベイズ最適化による支持ベクトル機械 [全文訳有]

Support-vector-machi ne with Bayesian optimization for lithofacies classification using elastic properties ( http://arxiv.org/abs/2204.00081v1 )

ライセンス: CC BY 4.0
Yohei Nishitsuji, Jalil Nasseri(参考訳) 本研究では, ベイズ最適化 (bo) の適用性を調査し, サポートベクトルマシン (svm) に付随するハイパーパラメータを最適化し, 井戸データから導出した弾性的特性を用いて確率を分類する。 フィールドデータセットのクロスプロット積は、非線形境界でうまく分類されるように見える。 予測精度と計算コストのトレードオフに対処する反復数などのBOスキームに規定される要因はいくつかあるが,本手法は,SVMのアーキテクチャに関連する人間の主観性を効果的に低減する。 提案するワークフローは,地下の客観的技術評価の観点から資源探索・開発に有用かもしれない。

We investigate an applicability of Bayesian-optimizatio n (BO) to optimize hyperparameters associated with support-vector-machi ne (SVM) in order to classify facies using elastic properties derived from well data in the East Central Graben, UKCS. The cross-plot products of the field dataset appear to be successfully classified with non-linear boundaries. Although there are a few factors to be predetermined in the BO scheme such as an iteration number to deal with a trade-off between the prediction accuracy and the computational cost, this approach effectively reduces possible human subjectivity connected to the architecture of the SVM. Our proposed workflow might be beneficial in resource-exploration and development in terms of subsurface objective technical evaluations.
翻訳日:2022-04-10 14:32:42 公開日:2022-03-14
# 異種MPSoCの設計課題を協調的に最適化する進化型ニューロファジィタスクスケジューリング手法

A novel evolutionary-based neuro-fuzzy task scheduling approach to jointly optimize the main design challenges of heterogeneous MPSoCs ( http://arxiv.org/abs/2203.14717v1 )

ライセンス: Link先を確認
Athena Abdi, Armin Salimi-Badr(参考訳) 本稿では,異種MPSoCの主設計課題を最適化するために,進化的多目的アルゴリズム(NSGA-II)によって学習されたファジィニューラルネットワーク(FNN)に基づくオンラインタスクスケジューリングとマッピング手法を提案する。 このアプローチでは、まず、様々なサイズの異なるアプリケーショングラフからなるトレーニングデータセット上で、mpsocsの主な設計課題である温度、消費電力、故障率、実行時間を考慮して、nsga-iiベースの最適化エンジンを用いてfnnパラメータをトレーニングする。 次に、トレーニングされたFNNをオンラインタスクスケジューラとして使用し、異種MPSoCの主要な設計課題を共同で最適化する。 センサ計測の不確実性と計算モデルと現実の差により、ファジィニューラルネットワークの適用はオンラインスケジューリング手順において有利である。 この手法の性能は、いくつかの実験で過去のヒューリスティック、メタヒューリスティック、ルールベースアプローチと比較される。 これらの実験に基づき,提案手法は,すべての設計基準を最適化する関連研究に匹敵する。 関連するヒューリスティックおよびメタヒューリスティックアプローチによる改善は、温度10.58%、消費電力9.22%、故障率39.14%、実行時間12.06%と推定されている。 さらに,fnnの解釈可能な性質を考慮し,提案手法の頻発したファジィルールを実証した。

In this paper, an online task scheduling and mapping method based on a fuzzy neural network (FNN) learned by an evolutionary multi-objective algorithm (NSGA-II) to jointly optimize the main design challenges of heterogeneous MPSoCs is proposed. In this approach, first, the FNN parameters are trained using an NSGA-II-based optimization engine by considering the main design challenges of MPSoCs including temperature, power consumption, failure rate, and execution time on a training dataset consisting of different application graphs of various sizes. Next, the trained FNN is employed as an online task scheduler to jointly optimize the main design challenges in heterogeneous MPSoCs. Due to the uncertainty in sensor measurements and the difference between computational models and reality, applying the fuzzy neural network is advantageous in online scheduling procedures. The performance of the method is compared with some previous heuristic, meta-heuristic, and rule-based approaches in several experiments. Based on these experiments our proposed method outperforms the related studies in optimizing all design criteria. Its improvement over related heuristic and meta-heuristic approaches are estimated 10.58% in temperature, 9.22% in power consumption, 39.14% in failure rate, and 12.06% in execution time, averagely. Moreover, considering the interpretable nature of the FNN, the frequently fired extracted fuzzy rules of the proposed approach are demonstrated.
翻訳日:2022-04-03 18:28:06 公開日:2022-03-14
# (参考訳) ヘルムホルツ方程式に対する多重グリッド強化深層学習プレコンディショナー [全文訳有]

Multigrid-augmented deep learning preconditioners for the Helmholtz equation ( http://arxiv.org/abs/2203.11025v1 )

ライセンス: CC BY 4.0
Yael Azulay and Eran Treister(参考訳) 本稿では,離散不均一ヘルムホルツ方程式を高波数で反復解くためのデータ駆動手法を提案する。 提案手法では,古典的反復解法を畳み込みニューラルネットワーク(CNN)と組み合わせて,Krylov解法内で適用可能なプレコンディショナーを形成する。 プリコンディショナーには、マルチグリッド成分と連動して動作するタイプU-NetのCNNを使用する。 2種類のプレコンディショナーの提案 1)粗いグリッドソルバとしてのu-net、及び 2)ラプラシアVサイクルシフトデフレ演算子としてのU-Net トレーニングとデータ提供に続いて、cnnプリコンディショナーは残差と比較的一般的なウェーブスローネスモデルに対して一般化することができる。 その上、エンコーダ(encoder)ネットワークがメディア上で一般化し、コンテキストベクトルを別の"ソルバ(solver)"ネットワークに送信するエンコーダ(encoder)ソルバフレームワークも提供しています。 このオプションはスタンドアローン版よりも堅牢で効率的であることを示す。 最後に,モデルが分かってからソルバを改善するための,ミニリトレーニング手順も提供する。 このオプションは、逆問題のような複数の右利きの問題を解決する際に有益である。 様々な2次元問題に対して,提案手法の効率性と一般化能力を示す。

In this paper, we present a data-driven approach to iteratively solve the discrete heterogeneous Helmholtz equation at high wavenumbers. In our approach, we combine classical iterative solvers with convolutional neural networks (CNNs) to form a preconditioner which is applied within a Krylov solver. For the preconditioner, we use a CNN of type U-Net that operates in conjunction with multigrid ingredients. Two types of preconditioners are proposed 1) U-Net as a coarse grid solver, and 2) U-Net as a deflation operator with shifted Laplacian V-cycles. Following our training scheme and data-augmentation, our CNN preconditioner can generalize over residuals and a relatively general set of wave slowness models. On top of that, we also offer an encoder-solver framework where an "encoder" network generalizes over the medium and sends context vectors to another "solver" network, which generalizes over the right-hand-sides. We show that this option is more robust and efficient than the stand-alone variant. Lastly, we also offer a mini-retraining procedure, to improve the solver after the model is known. This option is beneficial when solving multiple right-hand-sides, like in inverse problems. We demonstrate the efficiency and generalization abilities of our approach on a variety of 2D problems.
翻訳日:2022-03-27 10:46:39 公開日:2022-03-14
# ゴースト克服:情報信頼性表現とエンドツーエンドロバストナビゲーションのための関係学習

Conquering Ghosts: Relation Learning for Information Reliability Representation and End-to-End Robust Navigation ( http://arxiv.org/abs/2203.09952v1 )

ライセンス: Link先を確認
Kefan Jin, Xingyao Han(参考訳) センサデータノイズ、様々な照明条件、厳しい天候、外部の摂動といった環境障害は、実際の自動運転アプリケーションでは避けられない。 既存の研究やテストでは、車両の知覚能力や性能に重大な影響を与えることが示されているが、主な問題の一つは偽陽性検出、すなわち実在していない、あるいは間違った位置(例えば存在しない車両)で発生するゴースト物体である。 従来の航法は、検出された全ての物体を安全のために避ける傾向があるが、ゴースト物体を避けることは、高速道路の突破のようなさらに危険な状況に車両を導く可能性がある。 様々な障害タイプを考えると、この問題を知覚的に解決することは困難である。 潜在的な解決策は、シナリオ全体間の関係学習を通じてゴーストを検出し、エンドツーエンドナビゲーションシステムを開発することである。 我々の基本的な論理は、現場の全ての車両の挙動は隣人の影響を受けており、通常の車両は論理的に振る舞うが、ゴースト車両はそうではないということである。 周辺車両間の時空間関係を学習することにより、検出された車両毎に情報信頼性表現を学習し、ロボットナビゲーションネットワークを開発する。 既存の作業とは対照的に、ネットワークは信頼性の表現方法と不確実性だけで全ての情報を集約する方法を学ぶことを奨励し、効率と一般化性を高める。 著者の知る限りでは,ゴーストカーの存在下でのエンドツーエンドロバストなナビゲーションを実現するために,グラフ関係学習を用いた最初の研究を提供する。 CARLAプラットフォームにおけるシミュレーションの結果は,提案手法の有効性と有効性を示すものである。

Environmental disturbances, such as sensor data noises, various lighting conditions, challenging weathers and external adversarial perturbations, are inevitable in real self-driving applications. Existing researches and testings have shown that they can severely influence the vehicles perception ability and performance, one of the main issue is the false positive detection, i.e., the ghost object which is not real existed or occurs in the wrong position (such as a non-existent vehicle). Traditional navigation methods tend to avoid every detected objects for safety, however, avoiding a ghost object may lead the vehicle into a even more dangerous situation, such as a sudden break on the highway. Considering the various disturbance types, it is difficult to address this issue at the perceptual aspect. A potential solution is to detect the ghost through relation learning among the whole scenario and develop an integrated end-to-end navigation system. Our underlying logic is that the behavior of all vehicles in the scene is influenced by their neighbors, and normal vehicles behave in a logical way, while ghost vehicles do not. By learning the spatio-temporal relation among surrounding vehicles, an information reliability representation is learned for each detected vehicle and then a robot navigation network is developed. In contrast to existing works, we encourage the network to learn how to represent the reliability and how to aggregate all the information with uncertainties by itself, thus increasing the efficiency and generalizability. To the best of the authors knowledge, this paper provides the first work on using graph relation learning to achieve end-to-end robust navigation in the presence of ghost vehicles. Simulation results in the CARLA platform demonstrate the feasibility and effectiveness of the proposed method in various scenarios.
翻訳日:2022-03-27 05:10:06 公開日:2022-03-14
# 検索システムにおけるパブリックデータとプライベートデータに関する推論

Reasoning over Public and Private Data in Retrieval-Based Systems ( http://arxiv.org/abs/2203.11027v1 )

ライセンス: Link先を確認
Simran Arora and Patrick Lewis and Angela Fan and Jacob Kahn and Christopher R\'e(参考訳) ユーザや組織は、さまざまなソースから継続的に増加するプライベートデータを生成しています。 プライベートデータの取り込みは、質問応答、ファクトチェック、パーソナルアシスタントなどのオープンドメインアプリケーションをパーソナライズするために重要である。 これらのタスクの最先端システムは、回答を生成する前に背景コーパスからユーザ質問に関連する情報を明示的に取得する。 今日の検索システムは、コーパスが完全にアクセス可能であることを前提としているが、ユーザーはプライベートデータを公開データをホストするエンティティに公開することを望んでいないことが多い。 我々はまず,複数のプライバシー範囲にまたがる新規検索設定のためのPAIR(Public-PRIVATE AUTOREGRESSIVE Information RetriEVAL)プライバシ・フレームワークを定義する。 既存のテキストベンチマークでは単一のデータ分散から検索する必要があるため、ペアを学習するには適切なベンチマークが欠落していると論じる。 しかし、公開データとプライベートデータは直感的に異なる分布を反映し、複数のデータ配信を並列に検索する最初のテキストQAベンチマークであるConcurrentQAを作成する動機となった。 最後に、提案した検索設定に適用した場合、既存のシステムは大きなプライバシ対パフォーマンストレードオフに直面し、これらのトレードオフを緩和する方法を検討する。

Users and organizations are generating ever-increasing amounts of private data from a wide range of sources. Incorporating private data is important to personalize open-domain applications such as question-answering, fact-checking, and personal assistants. State-of-the-art systems for these tasks explicitly retrieve relevant information to a user question from a background corpus before producing an answer. While today's retrieval systems assume the corpus is fully accessible, users are often unable or unwilling to expose their private data to entities hosting public data. We first define the PUBLIC-PRIVATE AUTOREGRESSIVE INFORMATION RETRIEVAL (PAIR) privacy framework for the novel retrieval setting over multiple privacy scopes. We then argue that an adequate benchmark is missing to study PAIR since existing textual benchmarks require retrieving from a single data distribution. However, public and private data intuitively reflect different distributions, motivating us to create ConcurrentQA, the first textual QA benchmark to require concurrent retrieval over multiple data-distributions. Finally, we show that existing systems face large privacy vs. performance tradeoffs when applied to our proposed retrieval setting and investigate how to mitigate these tradeoffs.
翻訳日:2022-03-27 05:09:37 公開日:2022-03-14
# 大規模分子モデリングデータセットにおけるグラフマーの実証的研究

An Empirical Study of Graphormer on Large-Scale Molecular Modeling Datasets ( http://arxiv.org/abs/2203.06123v2 )

ライセンス: Link先を確認
Yu Shi, Shuxin Zheng, Guolin Ke, Yifei Shen, Jiacheng You, Jiyan He, Shengjie Luo, Chang Liu, Di He, Tie-Yan Liu(参考訳) この技術ノートは、アーキテクチャ設計の変更や3D分子動力学シミュレーションへの適応を含む、最近のGraphormerのアップデートについて説明している。 グラフマーv2」は、バニラよりも大規模な分子モデリングデータセットでより良い結果を得ることができ、下流タスクで一貫して性能向上が得られる。 さらに、グローバルな受容場と適応的な集約戦略により、Graphormerは従来のメッセージパッシングベースのGNNよりも強力であることを示す。 graphormer-v2は、kddカップ2021で使用されたpcqm4m量子化学データセットにおいて、バニラグラフマーよりもはるかに少ないmaeを達成している。 一方、Graphormer-V2は、NeurIPS 2021ワークショップのコンペティショントラックであるOpen Catalyst Challengeにおいて、高度なAIモデルで触媒-吸着反応システムをモデル化することを目的として、競合他社を大きく上回っている。 すべてのモデルは \url{https://github.com/M icrosoft/Graphormer} で見ることができる。

This technical note describes the recent updates of Graphormer, including architecture design modifications, and the adaption to 3D molecular dynamics simulation. The "Graphormer-V2" could attain better results on large-scale molecular modeling datasets than the vanilla one, and the performance gain could be consistently obtained on downstream tasks. In addition, we show that with a global receptive field and an adaptive aggregation strategy, Graphormer is more powerful than classic message-passing-base d GNNs. Graphormer-V2 achieves much less MAE than the vanilla Graphormer on the PCQM4M quantum chemistry dataset used in KDD Cup 2021, where the latter one won the first place in this competition. In the meanwhile, Graphormer-V2 greatly outperforms the competitors in the recent Open Catalyst Challenge, which is a competition track on NeurIPS 2021 workshop, and aims to model the catalyst-adsorbate reaction system with advanced AI models. All models could be found at \url{https://github.com/M icrosoft/Graphormer}.
翻訳日:2022-03-20 23:08:50 公開日:2022-03-14
# (参考訳) 大きなものから小さなものへ:適応学習から部分集合領域へ [全文訳有]

From Big to Small: Adaptive Learning to Partial-Set Domains ( http://arxiv.org/abs/2203.07375v1 )

ライセンス: CC BY 4.0
Zhangjie Cao, Kaichao You, Ziyang Zhang, Jianmin Wang, Mingsheng Long(参考訳) ドメイン適応は、分布シフト中のラベル付きソースドメインからラベルなしターゲットドメインへの知識獲得と拡散をターゲットとする。 それでも、ドメイン間で共有される同一クラス空間の共通要件は、部分集合ドメインへのドメイン適応の適用を妨げる。 近年の進歩は、大規模の深層学習モデルにより、小規模の下流の多様な課題に取り組むための豊富な知識が得られていることを示している。 したがって、大規模ドメインから小規模ドメインへのモデルの適用には強いインセンティブがある。 本稿では,同一クラス空間仮定を緩和する学習パラダイムである部分領域適応(pda)について述べる。 まず,各クラスと各インスタンスのドメイン間の移動確率を推定することの重要性を明らかにする,部分領域適応の理論的解析を行う。 そこで我々は,2レベル選択戦略と逆適応機構を備えたSAN(Selective Adversarial Network)を提案する。 バイレベル選択戦略は、モデルによって交互に推定される移動可能確率を通じて、ソース教師付きトレーニング、目標自己訓練、およびソースターゲット敵適応のために、各クラスと各インスタンスを同時に強化する。 標準部分集合データセットの実験とスーパークラスによるより困難なタスクは、SAN++がいくつかのドメイン適応メソッドより優れていることを示している。

Domain adaptation targets at knowledge acquisition and dissemination from a labeled source domain to an unlabeled target domain under distribution shift. Still, the common requirement of identical class space shared across domains hinders applications of domain adaptation to partial-set domains. Recent advances show that deep pre-trained models of large scale endow rich knowledge to tackle diverse downstream tasks of small scale. Thus, there is a strong incentive to adapt models from large-scale domains to small-scale domains. This paper introduces Partial Domain Adaptation (PDA), a learning paradigm that relaxes the identical class space assumption to that the source class space subsumes the target class space. First, we present a theoretical analysis of partial domain adaptation, which uncovers the importance of estimating the transferable probability of each class and each instance across domains. Then, we propose Selective Adversarial Network (SAN and SAN++) with a bi-level selection strategy and an adversarial adaptation mechanism. The bi-level selection strategy up-weighs each class and each instance simultaneously for source supervised training, target self-training, and source-target adversarial adaptation through the transferable probability estimated alternately by the model. Experiments on standard partial-set datasets and more challenging tasks with superclasses show that SAN++ outperforms several domain adaptation methods.
翻訳日:2022-03-19 15:51:51 公開日:2022-03-14
# (参考訳) HIE-SQL: コンテキスト依存型テキスト-SQLセマンティックパーシングのための履歴情報強化ネットワーク [全文訳有]

HIE-SQL: History Information Enhanced Network for Context-Dependent Text-to-SQL Semantic Parsing ( http://arxiv.org/abs/2203.07376v1 )

ライセンス: CC BY 4.0
Yanzhao Zheng, Haibin Wang, Baohua Dong, Xingjun Wang, Changshan Li(参考訳) 近年,対話プロセスにおいて自然言語をSQLに変換するコンテキスト依存のテキストからSQLへのセマンティック解析が注目されている。 これまでの作業では、インタラクション履歴の発話または以前の予測されたSQLクエリからコンテキスト依存情報を活用するが、自然言語と論理形式SQLのミスマッチのため、両方の利点を享受できない。 本研究では,ヒストリー・インフォメーション・エンハンス・テキスト・トゥ・SQLモデル(HIE-SQL)を提案する。 このミスマッチの観点から,自然言語とsqlを2つのモダリティとして扱い,それらのギャップを埋めるためのバイモーダル事前学習モデルを提案する。 さらに、発話とSQLクエリからデータベーススキーマへの接続性を高めるためのスキーマリンクグラフを設計する。 我々は,HIE-SQLの性能を顕著に向上させる歴史情報拡張手法について述べる。これにより,2つの文脈依存型テキスト-SQLベンチマークであるSparCとCoSQLデータセットにおいて,新たな最先端結果が得られる。

Recently, context-dependent text-to-SQL semantic parsing which translates natural language into SQL in an interaction process has attracted a lot of attention. Previous works leverage context-dependence information either from interaction history utterances or the previous predicted SQL queries but fail in taking advantage of both since of the mismatch between natural language and logic-form SQL. In this work, we propose a History Information Enhanced text-to-SQL model (HIE-SQL) to exploit context-dependence information from both history utterances and the last predicted SQL query. In view of the mismatch, we treat natural language and SQL as two modalities and propose a bimodal pre-trained model to bridge the gap between them. Besides, we design a schema-linking graph to enhance connections from utterances and the SQL query to the database schema. We show our history information enhanced methods improve the performance of HIE-SQL by a significant margin, which achieves new state-of-the-art results on the two context-dependent text-to-SQL benchmarks, the SparC and CoSQL datasets, at the writing time.
翻訳日:2022-03-19 15:20:45 公開日:2022-03-14
# (参考訳) 密度に基づくクラスタリングの幾何学的再構成 [全文訳有]

Geometric reconstructions of density based clusterings ( http://arxiv.org/abs/2203.08020v1 )

ライセンス: CC BY 4.0
A.L. Garcia-Pulido, K.P. Samardzhiev(参考訳) DBSCAN*とHDBSCAN*は、確立された密度に基づくクラスタリングアルゴリズムである。 しかし、非常に大きなデータセットのクラスタを取得することは不可能であり、現実世界のアプリケーションでの使用を制限する。 ユークリッド空間の幾何学を利用することにより、x$の特定の部分集合から有限$X\subset \mathbb{R}^n$のDBSCAN*およびHDBSCAN*クラスタを体系的に構築できることを示す。 これらのサブセットのサイズを制御することができ、その結果、非常に大きなデータセットをクラスタ化することができます。 我々の理論を説明するために、Microsoft Building Footprint Database of the USという標準実装では不可能なデータベースをクラスタ化しました。

DBSCAN* and HDBSCAN* are well established density based clustering algorithms. However, obtaining the clusters of very large datasets is infeasible, limiting their use in real world applications. By exploiting the geometry of Euclidean space, we prove that it is possible to systematically construct the DBSCAN* and HDBSCAN* clusters of a finite $X\subset \mathbb{R}^n$ from specific subsets of $X$. We are able to control the size of these subsets and therefore our results make it possible to cluster very large datasets. To illustrate our theory, we cluster the Microsoft Building Footprint Database of the US, which is not possible using the standard implementations.
翻訳日:2022-03-19 15:04:28 公開日:2022-03-14
# (参考訳) 状態抽象化による時変到着率を有する多クラス待ち行列の最適入場制御 [全文訳有]

Optimal Admission Control for Multiclass Queues with Time-Varying Arrival Rates via State Abstraction ( http://arxiv.org/abs/2203.08019v1 )

ライセンス: CC BY 4.0
Marc Rigter and Danial Dervovic and Parisa Hassanzadeh and Jason Long and Parisa Zehtabi and Daniele Magazzeni(参考訳) そこで本研究では,N$同一サーバで処理される非バッファキューにランダムに到着するタスクを受理するか拒否するかを選択しなければならない新たなキュー問題について考察する。 各タスクには価格があり、正の実数であり、クラスである。 各タスクのクラスは、異なる価格分布とサービスレートを持ち、不均一なpoissonプロセスに従って到着する。 目的は、処理されるタスクの総コストが有限の水平線上で最大になるように、どのタスクを受け入れるかを決定することである。 我々は、問題をハイブリッド状態空間を持つ離散時間マルコフ決定過程(mdp)として定式化する。 最適値関数は特定の構造を持ち、ハイブリッドMDPを正確に解くことができることを示す。 さらに、時間ステップが減少するにつれて、離散時間解が元の連続時間問題の最適解に近づくことが証明される。 より多くのタスククラスに対するアプローチのスケーラビリティを向上させるために、状態抽象化に基づく近似を提案する。 我々は,本研究のモチベーションアプリケーションである,合成データおよび実際の金融不正データセットに対するアプローチを検証する。

We consider a novel queuing problem where the decision-maker must choose to accept or reject randomly arriving tasks into a no buffer queue which are processed by $N$ identical servers. Each task has a price, which is a positive real number, and a class. Each class of task has a different price distribution and service rate, and arrives according to an inhomogenous Poisson process. The objective is to decide which tasks to accept so that the total price of tasks processed is maximised over a finite horizon. We formulate the problem as a discrete time Markov Decision Process (MDP) with a hybrid state space. We show that the optimal value function has a specific structure, which enables us to solve the hybrid MDP exactly. Moreover, we prove that as the time step is reduced, the discrete time solution approaches the optimal solution to the original continuous time problem. To improve the scalability of our approach to a greater number of task classes, we present an approximation based on state abstraction. We validate our approach on synthetic data, as well as a real financial fraud data set, which is the motivating application for this work.
翻訳日:2022-03-19 14:29:58 公開日:2022-03-14
# (参考訳) ランダム初期化深層ニューラルネットワークの定量的ガウス近似 [全文訳有]

Quantitative Gaussian Approximation of Randomly Initialized Deep Neural Networks ( http://arxiv.org/abs/2203.07379v1 )

ライセンス: CC BY 4.0
Andrea Basteri, Dario Trevisan(参考訳) ランダムなガウスパラメータで初期化される任意の深い完全連結ニューラルネットワークが与えられると、その出力分布と適切なガウス過程の間の二次ワッサースタイン距離の上から束縛される。 我々の明示的な不等式は、隠蔽層と出力層のサイズがネットワークのガウス的挙動にどのように影響し、分布収束を定量的に回復するかを示す。

Given any deep fully connected neural network, initialized with random Gaussian parameters, we bound from above the quadratic Wasserstein distance between its output distribution and a suitable Gaussian process. Our explicit inequalities indicate how the hidden and output layers sizes affect the Gaussian behaviour of the network and quantitatively recover the distributional convergence results in the wide limit, i.e., if all the hidden layers sizes become large.
翻訳日:2022-03-19 12:42:46 公開日:2022-03-14
# (参考訳) グラフネットワークによる液体のシミュレーション [全文訳有]

Simulating Liquids with Graph Networks ( http://arxiv.org/abs/2203.07895v1 )

ライセンス: CC BY 4.0
Jonathan Klimesch, Philipp Holl, Nils Thuerey(参考訳) 流体のような複雑なダイナミクスを従来のシミュレータでシミュレートすることは、計算的に難しい。 従来のシミュレータの一部を拡張または置き換える効率的な代替手段として、ディープラーニングモデルが提案されている。 流体力学を学習するためのグラフニューラルネットワーク (GNN) について検討し, その一般化能力が従来の研究より限定的であることを明らかにした。 また,ネットワーク入力にランダムノイズを付加して一般化能力とシミュレーション安定性を向上させるという現在の手法に挑戦する。 複数のシミュレーションステップをアンロールすることで、実際のデータ分布を挿入することで精度が向上し、学習モデルからすべてのドメイン固有の特徴を隠蔽することで、一般化が向上する。 以上の結果から,gnnなどの学習モデルは,ショートカットとして使用可能な他の問題固有の相関を欠いない限り,正確なダイナミクスを学習できないことが示唆された。

Simulating complex dynamics like fluids with traditional simulators is computationally challenging. Deep learning models have been proposed as an efficient alternative, extending or replacing parts of traditional simulators. We investigate graph neural networks (GNNs) for learning fluid dynamics and find that their generalization capability is more limited than previous works would suggest. We also challenge the current practice of adding random noise to the network inputs in order to improve its generalization capability and simulation stability. We find that inserting the real data distribution, e.g. by unrolling multiple simulation steps, improves accuracy and that hiding all domain-specific features from the learning model improves generalization. Our results indicate that learning models, such as GNNs, fail to learn the exact underlying dynamics unless the training set is devoid of any other problem-specific correlations that could be used as shortcuts.
翻訳日:2022-03-19 12:12:10 公開日:2022-03-14
# (参考訳) テクスチャ合成のための一般化整流ウェーブレット共分散モデル [全文訳有]

Generalized Rectifier Wavelet Covariance Models For Texture Synthesis ( http://arxiv.org/abs/2203.07902v1 )

ライセンス: CC BY-SA 4.0
Antoine Brochard, Sixin Zhang, St\'ephane Mallat(参考訳) テクスチャ合成のための最先端の最大エントロピーモデルは、畳み込みニューラルネットワーク(CNN)によって定義された画像表現に依存する統計から構築される。 このような表現はテクスチャイメージのリッチな構造をキャプチャし、この点においてウェーブレットベースの表現を上回っている。 しかし、ニューラルネットワークとは逆に、ウェーブレットは画像内の複数のスケール(エッジなど)で構造を検出することで知られているように、有意義な表現を提供する。 本研究では,非線形ウェーブレットベース表現に基づく統計学のファミリを提案し,これを一般化整流器の非線形性を用いて一層CNNの特定の例と見なすことができる。 これらの統計は、従来のウェーブレットベースのモデルの視覚的品質を大幅に改善し、グレースケールとカラーテクスチャの両方で、最先端のモデルと類似した品質の合成を作成できる。

State-of-the-art maximum entropy models for texture synthesis are built from statistics relying on image representations defined by convolutional neural networks (CNN). Such representations capture rich structures in texture images, outperforming wavelet-based representations in this regard. However, conversely to neural networks, wavelets offer meaningful representations, as they are known to detect structures at multiple scales (e.g. edges) in images. In this work, we propose a family of statistics built upon non-linear wavelet based representations, that can be viewed as a particular instance of a one-layer CNN, using a generalized rectifier non-linearity. These statistics significantly improve the visual quality of previous classical wavelet-based models, and allow one to produce syntheses of similar quality to state-of-the-art models, on both gray-scale and color textures.
翻訳日:2022-03-19 12:02:37 公開日:2022-03-14
# (参考訳) Amortized Neural Posterior Estimation を用いた高速ベイズSEDモデリング [全文訳有]

Accelerated Bayesian SED Modeling using Amortized Neural Posterior Estimation ( http://arxiv.org/abs/2203.07391v1 )

ライセンス: CC BY 4.0
ChangHoon Hahn, Peter Melchior(参考訳) 最先端のスペクトルエネルギー分布(SED)分析は、観測された光度測定やスペクトルから銀河の物理的性質を推測するためにベイズ的枠組みを用いている。 これらはSEDモデルパラメータの高次元空間からのサンプリングを必要とし、1銀河あたり10-100$のCPU時間を必要とするため、今後の銀河調査で観測されるであろう数十万ドルの銀河(例えば、DESI、PSS、Rubin、Webb、Roman)を分析することは事実上不可能である。 本稿では、Amortized Neural Posterior Estimation (ANPE) を用いて、厳密なベイズ推定のための拡張性のあるアプローチを提案する。 ANPEはシミュレーションに基づく推論手法であり、ニューラルネットワークを用いて全観測範囲の後方確率分布を推定する。 訓練後、後部を推定するために追加のモデル評価を必要としない。 我々は,光測光による最近のHahn et al. (2022) SEDモデルの後部を生成可能なANPE法である${\rm SED}{flow}$を提示し,公開している。 ${\rm sed}{flow}$ takes ${\sim}1$ $$$second~per~galaxy $ 12のモデルパラメータの後方分布を取得する。 また、nasa-sloan atlasに${\rm sed}{flow}$を33,884の銀河に適用し、その後縁を公表している。

State-of-the-art spectral energy distribution (SED) analyses use a Bayesian framework to infer the physical properties of galaxies from observed photometry or spectra. They require sampling from a high-dimensional space of SED model parameters and take $>10-100$ CPU hours per galaxy, which renders them practically infeasible for analyzing the $billions$ of galaxies that will be observed by upcoming galaxy surveys ($e.g.$ DESI, PFS, Rubin, Webb, and Roman). In this work, we present an alternative scalable approach to rigorous Bayesian inference using Amortized Neural Posterior Estimation (ANPE). ANPE is a simulation-based inference method that employs neural networks to estimate the posterior probability distribution over the full range of observations. Once trained, it requires no additional model evaluations to estimate the posterior. We present, and publicly release, ${\rm SED}{flow}$, an ANPE method to produce posteriors of the recent Hahn et al. (2022) SED model from optical photometry. ${\rm SED}{flow}$ takes ${\sim}1$ $second~per~galaxy$ to obtain the posterior distributions of 12 model parameters, all of which are in excellent agreement with traditional Markov Chain Monte Carlo sampling results. We also apply ${\rm SED}{flow}$ to 33,884 galaxies in the NASA-Sloan Atlas and publicly release their posteriors: see https://changhoonhah n.github.io/SEDflow.
翻訳日:2022-03-19 11:39:35 公開日:2022-03-14
# クロスオブジェクト脳波復号性能向上のための分解型ハイブリッドアンサンブルCNNフレームワーク

A Decomposition-Based Hybrid Ensemble CNN Framework for Improving Cross-Subject EEG Decoding Performance ( http://arxiv.org/abs/2203.09477v1 )

ライセンス: Link先を確認
Ruilin Li, Ruobin Gao, P. N. Suganthan(参考訳) 脳波(EEG)信号は、自然界において複雑、非線形、非定常である。 しかしながら、複雑さを最小限に抑えるために分解を適用した以前の研究は、主に手工学の特徴を活用し、脳波デコーディングで得られた情報を制限するものだった。 したがって、脳波に基づく認識性能を改善するために、異なる分解成分から追加の一次特徴を抽出することは依然として困難である。 一方、ハンドエンジニアリングの特徴を学習するために単一のモデルを使用することが試みられている。 アンサンブル学習による一般化能力を向上させるための作業は少ない。 本研究では,脳波信号の復号化能力を高めるために,分解型ハイブリッドアンサンブル畳み込みニューラルネットワーク(CNN)フレームワークを提案する。 特にcnnは、生の分解されたコンポーネントから主要な機能を自動的に学習するが、手作りの機能はない。 第1の選択肢は、得られたスコアをソフトマックス層の前にヒューズし、アンサンブルネットワーク全体にバックプロパゲーションを実行することであるが、もう一方はソフトマックス層の確率出力をヒューズする。 さらに、対象変数を低減するために、コンポーネント特異的バッチ正規化(CSBN)層を用いる。 クロスオブジェクトドライバの疲労関連状況認識(SA)認識タスクに対して,このフレームワークでは8つのモデルが提案され,いずれも強いベースラインよりも優れた性能を示した。 異なる分解法とアンサンブルモードの性能を更に比較した。 その結果、離散ウェーブレット変換(dwt)に基づくアンサンブルcnnは、提案モデルの中で最大82.11%を達成した。 我々のフレームワークは、任意のCNNアーキテクチャに簡単に拡張することができ、EEG関連セクターに適用することで、複雑なEEGデータからより予備的な情報を抽出する可能性を広げます。

Electroencephalogram (EEG) signals are complex, non-linear, and non-stationary in nature. However, previous studies that applied decomposition to minimize the complexity mainly exploited the hand-engineering features, limiting the information learned in EEG decoding. Therefore, extracting additional primary features from different disassembled components to improve the EEG-based recognition performance remains challenging. On the other hand, attempts have been made to use a single model to learn the hand-engineering features. Less work has been done to improve the generalization ability through ensemble learning. In this work, we propose a novel decomposition-based hybrid ensemble convolutional neural network (CNN) framework to enhance the capability of decoding EEG signals. CNNs, in particular, automatically learn the primary features from raw disassembled components but not handcraft features. The first option is to fuse the obtained score before the Softmax layer and execute back-propagation on the entire ensemble network, whereas the other is to fuse the probability output of the Softmax layer. Moreover, a component-specific batch normalization (CSBN) layer is employed to reduce subject variability. Against the challenging cross-subject driver fatigue-related situation awareness (SA) recognition task, eight models are proposed under the framework, which all showed superior performance than the strong baselines. The performance of different decomposition methods and ensemble modes were further compared. Results indicated that discrete wavelet transform (DWT)-based ensemble CNN achieves the best 82.11% among the proposed models. Our framework can be simply extended to any CNN architecture and applied in any EEG-related sectors, opening the possibility of extracting more preliminary information from complex EEG data.
翻訳日:2022-03-18 16:05:35 公開日:2022-03-14
# 逆蒸留訓練による心電図分類の敵意攻撃に対する防御

Defending Against Adversarial Attack in ECG Classification with Adversarial Distillation Training ( http://arxiv.org/abs/2203.09487v1 )

ライセンス: Link先を確認
Jiahao Shao, Shijia Geng, Zhaoji Fu, Weilun Xu, Tong Liu, Shenda Hong(参考訳) クリニックでは、医師は心電図(ECG)を使って重症心疾患を評価する。 技術の発展と健康意識の向上により、ECG信号は現在、医療用および商用機器を用いて取得されている。 ディープニューラルネットワーク(DNN)は、高い精度でこれらの信号を解析することができる。 しかし、研究者らはDNNの精度を大幅に低下させる可能性があることを発見している。 本研究は,心電図に基づくDNNを従来の対向攻撃(PGD)や,心電図分類を対象とするスムーズな対向摂動(SAP)に対して防御するために行われたが,我々の知る限りでは,心電図分類を対象とする対向攻撃に対する防御を十分に検討する研究は行われていない。 そこで本研究では, ホワイトボックス攻撃に対する防御方法と, ブラックボックス攻撃を標的としたecg分類に対する防御方法の効果について, 異なる実験を行った。 さらに,DNNの汎用性能を効果的に向上させることができるADT(Adversarial Distillation Training)という新しい防衛法を提案した。 本手法は,ECG分類に基づく対人攻撃に対して,他のベースライン手法,すなわち,対人訓練,防衛蒸留,ヤコブ正則化,ノイズ-信号比正則化に対して,より効果的に効果を示した。 さらに,ノイズレベルが低いPGD攻撃に対して,本手法はより強い強靭性を有することがわかった。

In clinics, doctors rely on electrocardiograms (ECGs) to assess severe cardiac disorders. Owing to the development of technology and the increase in health awareness, ECG signals are currently obtained by using medical and commercial devices. Deep neural networks (DNNs) can be used to analyze these signals because of their high accuracy rate. However, researchers have found that adversarial attacks can significantly reduce the accuracy of DNNs. Studies have been conducted to defend ECG-based DNNs against traditional adversarial attacks, such as projected gradient descent (PGD), and smooth adversarial perturbation (SAP) which targets ECG classification; however, to the best of our knowledge, no study has completely explored the defense against adversarial attacks targeting ECG classification. Thus, we did different experiments to explore the effects of defense methods against white-box adversarial attack and black-box adversarial attack targeting ECG classification, and we found that some common defense methods performed well against these attacks. Besides, we proposed a new defense method called Adversarial Distillation Training (ADT) which comes from defensive distillation and can effectively improve the generalization performance of DNNs. The results show that our method performed more effectively against adversarial attacks targeting on ECG classification than the other baseline methods, namely, adversarial training, defensive distillation, Jacob regularization, and noise-to-signal ratio regularization. Furthermore, we found that our method performed better against PGD attacks with low noise levels, which means that our method has stronger robustness.
翻訳日:2022-03-18 16:05:10 公開日:2022-03-14
# 低ランクテンソルリングによるノイズテンソル補完

Noisy Tensor Completion via Low-rank Tensor Ring ( http://arxiv.org/abs/2203.08857v1 )

ライセンス: Link先を確認
Yuning Qiu, Guoxu Zhou, Qibin Zhao, Shengli Xie(参考訳) テンソル補完は不完全なデータ解析のための基本的なツールであり、部分的観測から欠落したエントリを予測することを目的としている。 しかし、既存の手法は、観測されたエントリがノイズフリーであるという明示的あるいは暗黙的な仮定をしばしば示し、欠落したエントリの正確な回復を理論的に保証する。 このような欠点を解消するため,本稿では,高次・高次観測の劣化処理における既存著作物の非能率を補完する,新しい雑音テンソル補完モデルを提案する。 具体的には、テンソルリング核ノルム(TRNN)と最小二乗推定器を用いて、基礎となるテンソルと観測されたエントリを規則化する。 また,推定誤差の非漸近上限を設けて,提案する推定誤差の統計的性能を示す。 2つの効率的なアルゴリズムが、収束保証によって最適化問題を解くために開発され、そのうちの1つは、元のテンソルのtrnnの最小化を、より小さいテンソル分解フレームワークのそれと等価に置き換えることで、大規模テンソルを扱うように特別に調整されている。 合成テンソルデータと実世界の両方の実験結果から, 現状テンソル完成モデルと比較して, ノイズ不完全テンソルデータの回復におけるモデルの有効性と有効性を示す。

Tensor completion is a fundamental tool for incomplete data analysis, where the goal is to predict missing entries from partial observations. However, existing methods often make the explicit or implicit assumption that the observed entries are noise-free to provide a theoretical guarantee of exact recovery of missing entries, which is quite restrictive in practice. To remedy such drawbacks, this paper proposes a novel noisy tensor completion model, which complements the incompetence of existing works in handling the degeneration of high-order and noisy observations. Specifically, the tensor ring nuclear norm (TRNN) and least-squares estimator are adopted to regularize the underlying tensor and the observed entries, respectively. In addition, a non-asymptotic upper bound of estimation error is provided to depict the statistical performance of the proposed estimator. Two efficient algorithms are developed to solve the optimization problem with convergence guarantee, one of which is specially tailored to handle large-scale tensors by replacing the minimization of TRNN of the original tensor equivalently with that of a much smaller one in a heterogeneous tensor decomposition framework. Experimental results on both synthetic and real-world data demonstrate the effectiveness and efficiency of the proposed model in recovering noisy incomplete tensor data compared with state-of-the-art tensor completion models.
翻訳日:2022-03-18 13:10:10 公開日:2022-03-14
# (参考訳) テンプレート減算を伴わない過渡検出のための畳み込みニューラルネットワーク [全文訳有]

There's no difference: Convolutional Neural Networks for transient detection without template subtraction ( http://arxiv.org/abs/2203.07390v1 )

ライセンス: CC BY 4.0
Tatiana Acero-Cuellar, Federica Bianco, Gregory Dobler, Masao Sako and Helen Qu(参考訳) 本稿では,大容量の空間スケールでの画像マッチングを含む計算コストの高いプロセスである差分画像解析(DIA)に依存しない「実ボグス」分類タスクである画像アーティファクトから天体物理学的トランジェントを分離するための畳み込みニューラルネットワーク(CNN)モデルを提案する。 我々は,CNNを用いて,(1)「現実ボグ」分類の自動化,(2)過渡発見の計算コストの削減について検討する。 2つのCNNの効率を類似したアーキテクチャと比較する。1つは「像三重項」(テンプレート、検索、対応する差分画像)を使い、もう1つは類似したアーキテクチャを採用するが、テンプレートと検索のみを入力とする。 モデルアーキテクチャを実質的に変更したり、ハイパーパラメータを新しい入力にチューニングすることなく、モデルの効率(97%から92%の精度)の低下しか観測できない。 さらに, 差分画像を受け取らないモデルが, テンプレートから必要な情報を学習し, 給与マップを探索することによって探索する方法について検討する。 本研究は,(1)CNNは画像データのみに依存し,特徴工学的タスクを必要としない「リアルボグ」分類のための優れたモデルであり,(2)画像の違いを伴わずに高精度なモデルを構築することができることを示す。 トレーニングされたニューラルネットワークは、最小の計算コストで予測を生成できるため、この手法の将来の実装は、diaステップを完全にバイパスすることで、rubin observatoryのレガシな空間と時間の調査のようなシンオプティカルサーベイにおいて、真のトランジェントの検出における計算コストを劇的に削減することができる。

We present a Convolutional Neural Network (CNN) model for the separation of astrophysical transients from image artifacts, a task known as "real-bogus" classification, that does not rely on Difference Image Analysis (DIA) which is a computationally expensive process involving image matching on small spatial scales in large volumes of data. We explore the use of CNNs to (1) automate the "real-bogus" classification, (2) reduce the computational costs of transient discovery. We compare the efficiency of two CNNs with similar architectures, one that uses "image triplets" (templates, search, and the corresponding difference image) and one that adopts a similar architecture but takes as input the template and search only. Without substantially changing the model architecture or retuning the hyperparameters to the new input, we observe only a small decrease in model efficiency (97% to 92% accuracy). We further investigate how the model that does not receive the difference image learns the required information from the template and search by exploring the saliency maps. Our work demonstrates that (1) CNNs are excellent models for "real-bogus" classification that rely exclusively on the imaging data and require no feature engineering task; (2) high-accuracy models can be built without the need to construct difference images. Since once trained, neural networks can generate predictions at minimal computational costs, we argue that future implementations of this methodology could dramatically reduce the computational costs in the detection of genuine transients in synoptic surveys like Rubin Observatory's Legacy Survey of Space and Time by bypassing the DIA step entirely.
翻訳日:2022-03-18 12:58:18 公開日:2022-03-14
# (参考訳) ディープ・トリゴノメトリック・ネットワークとディープ・ガウス過程の連結について:共分散、表現性、神経接核 [全文訳有]

On Connecting Deep Trigonometric Networks with Deep Gaussian Processes: Covariance, Expressivity, and Neural Tangent Kernel ( http://arxiv.org/abs/2203.07411v1 )

ライセンス: CC BY 4.0
Chi-Ken Lu and Patrick Shafto(参考訳) ベイズ学習モデルとしての深いガウス過程は、表現力があり不確実性の推定が可能なため、有望である。 ボヒナーの定理により、二乗指数核を持つ深いガウス過程を、ランダムな特徴層、サインとコサインの活性化ユニット、ランダムな重み層からなる深い三角ネットワークとして見ることができる。 この特定のモデルのクラスに焦点をあてることで、分析結果を得ることができる。 重み空間ビューは以前関数空間で得られたのと同じ有効共分散関数が得られることを示す。 重く統計的な尾は多変量特性関数で研究できる。 さらに、トリグネットワークはフレキシブルで表現力があり、重み付けや特徴層におけるパラメータに対して異なる事前分布を自由に適用できる。 最後に、ディープ・ガウス過程の深部三角ネットワーク表現により、ニューラルネットワークカーネルの導出が可能となり、難解な推論から予測分布の平均を明らかにすることができる。

Deep Gaussian Process as a Bayesian learning model is promising because it is expressive and capable of uncertainty estimation. With Bochner's theorem, we can view the deep Gaussian process with squared exponential kernels as a deep trigonometric network consisting of the random feature layers, sine and cosine activation units, and random weight layers. Focusing on this particular class of models allows us to obtain analytical results. We shall show that the weight space view yields the same effective covariance functions which were obtained previously in function space. The heavy statistical tails can be studied with multivariate characteristic function. In addition, the trig networks are flexible and expressive as one can freely adopt different prior distributions over the parameters in weight and feature layers. Lastly, the deep trigonometric network representation of deep Gaussian process allows the derivation of its neural tangent kernel, which can reveal the mean of predictive distribution from the intractable inference.
翻訳日:2022-03-18 11:06:49 公開日:2022-03-14
# RES-HD:超次元計算を用いた敵攻撃に対する高能率知的故障診断

RES-HD: Resilient Intelligent Fault Diagnosis Against Adversarial Attacks Using Hyper-Dimensional Computing ( http://arxiv.org/abs/2203.08148v1 )

ライセンス: Link先を確認
Onat Gungor, Tajana Rosing, Baris Aksanli(参考訳) 産業用IoT(Industrial Internet of Things)は、デバイスを継続的に監視し、収集したデータを分析することによって、完全な自動生産システムを実現する。 機械学習手法は、そのようなシステムにおけるデータ分析に一般的に利用される。 サイバー攻撃は、正当な入力を操作でき、ML予測を破損させ、プロダクションシステムに障害を引き起こすため、I-IoTにとって重大な脅威である。 超次元コンピューティング(HDC)は、脳にインスパイアされた機械学習手法であり、非常に堅牢で高速でエネルギー効率が良いことが示されている。 本研究では,異なる対向攻撃に対する知的障害診断にHDCを用いる。 我々のブラックボックス敵攻撃は、まず代替モデルを訓練し、この訓練されたモデルを使用して摂動テストインスタンスを作成する。 これらの例は対象モデルに転送される。 分類精度の変化は、攻撃前後の差として測定される。 この変化は、学習方法のレジリエンスを測定する。 実験の結果,hdcは最先端のディープラーニング手法よりもレジリエントで軽量な学習ソリューションをもたらすことがわかった。 HDCは最先端の手法に比べて67.5%高い抵抗性を持ち、訓練の速度は25.1%である。

Industrial Internet of Things (I-IoT) enables fully automated production systems by continuously monitoring devices and analyzing collected data. Machine learning methods are commonly utilized for data analytics in such systems. Cyber-attacks are a grave threat to I-IoT as they can manipulate legitimate inputs, corrupting ML predictions and causing disruptions in the production systems. Hyper-dimensional computing (HDC) is a brain-inspired machine learning method that has been shown to be sufficiently accurate while being extremely robust, fast, and energy-efficient. In this work, we use HDC for intelligent fault diagnosis against different adversarial attacks. Our black-box adversarial attacks first train a substitute model and create perturbed test instances using this trained model. These examples are then transferred to the target models. The change in the classification accuracy is measured as the difference before and after the attacks. This change measures the resiliency of a learning method. Our experiments show that HDC leads to a more resilient and lightweight learning solution than the state-of-the-art deep learning methods. HDC has up to 67.5% higher resiliency compared to the state-of-the-art methods while being up to 25.1% faster to train.
翻訳日:2022-03-17 16:05:07 公開日:2022-03-14
# 日内手術スケジューリングを最適化する広範に適用可能なアルゴリズムの設計と実装

The Design and Implementation of a Broadly Applicable Algorithm for Optimizing Intra-Day Surgical Scheduling ( http://arxiv.org/abs/2203.08146v1 )

ライセンス: Link先を確認
Jin Xie, Teng Zhang, Jose Blanchet, Peter Glynn, Matthew Randolph, David Scheinker(参考訳) 手術計画最適化は研究の活発な分野である。 しかし、手術スケジュールを最適化するアルゴリズムは実装されておらず、継続的な使用が期待できる。 外科医の自律性、すなわち限られたスケジュール集中化と、広く使用されている電子カルテ(EMR)の限られた技術基盤の機能を必要とする場合、アルゴリズムが実装される可能性が高い。 アルゴリズムが持続的な使用を見るためには、病院の容量、患者数、スケジュール習慣の変更と互換性を持たなければならない。 これらの目的を達成するため, 当院では, 単体手術を平滑にするための BEDS (better elective day of surgery) アルゴリズムを開発した。 当科では,大小児科医センターのEMRにBEDSを実装した。 BEDSの使用は入院回数の変動の減少と関連していた。 BEDSは、多くの病院で使われている商用ソフトウェアであるTableauのダッシュボードとして無料で利用できる。 BEDSは、ほとんどの病院で利用可能な限られたツールで容易に実装でき、外科医の自律性や集中的なスケジュールの削減は必要とせず、病院の容量や患者数の変更と互換性がある。 本稿では、目的と制約の特定の選択に基づいてBEDSを導出する一般的なアルゴリズムフレームワークを提案する。 このフレームワークによって生成されたアルゴリズムは、幅広い目的や制約と互換性を持ちながら、BEDSの望ましい特徴の多くを保持しています。

Surgical scheduling optimization is an active area of research. However, few algorithms to optimize surgical scheduling are implemented and see sustained use. An algorithm is more likely to be implemented, if it allows for surgeon autonomy, i.e., requires only limited scheduling centralization, and functions in the limited technical infrastructure of widely used electronic medical records (EMRs). In order for an algorithm to see sustained use, it must be compatible with changes to hospital capacity, patient volumes, and scheduling practices. To meet these objectives, we developed the BEDS (better elective day of surgery) algorithm, a greedy heuristic for smoothing unit-specific surgical admissions across days. We implemented BEDS in the EMR of a large pediatric academic medical center. The use of BEDS was associated with a reduction in the variability in the number of admissions. BEDS is freely available as a dashboard in Tableau, a commercial software used by numerous hospitals. BEDS is readily implementable with the limited tools available to most hospitals, does not require reductions to surgeon autonomy or centralized scheduling, and is compatible with changes to hospital capacity or patient volumes. We present a general algorithmic framework from which BEDS is derived based on a particular choice of objectives and constraints. We argue that algorithms generated by this framework retain many of the desirable characteristics of BEDS while being compatible with a wide range of objectives and constraints.
翻訳日:2022-03-17 14:52:38 公開日:2022-03-14
# スポンジ中毒によるエネルギーレイテンシー攻撃

Energy-Latency Attacks via Sponge Poisoning ( http://arxiv.org/abs/2203.08147v1 )

ライセンス: Link先を確認
Antonio Emanuele Cin\`a, Ambra Demontis, Battista Biggio, Fabio Roli, Marcello Pelillo(参考訳) スポンジの例は、ハードウェアアクセラレーターにデプロイする際のニューラルネットワークのエネルギー消費とレイテンシを高めるために慎重に最適化されたテスト時間入力である。 本研究では,スポンジ中毒と呼ばれる攻撃を通じて,モデルトレーニングを第三者にアウトソースする場合に,スポンジ攻撃をトレーニング時に埋め込むことができることを示す。 この攻撃により、各テスト時間入力に対して無差別に機械学習モデルのエネルギー消費とレイテンシを増加させることができる。 スポンジ中毒の新たな形式化を提案し,テスト時間スポンジ例の最適化に関する制限を克服し,攻撃者が数回の毒素サンプルとモデル更新のみを制御しても,この攻撃が可能であることを示す。 2つのディープラーニングアーキテクチャと3つのデータセットを含む大規模な実験分析は、スポンジ中毒がハードウェアアクセラレーションの効果をほぼ完全に失う可能性があることを示している。 最後に、結果のスポンジモデルのアクティベーションを分析し、この脆弱性に対してより敏感なモジュールコンポーネントを特定します。

Sponge examples are test-time inputs carefully-optimized to increase energy consumption and latency of neural networks when deployed on hardware accelerators. In this work, we demonstrate that sponge attacks can also be implanted at training time, when model training is outsourced to a third party, via an attack that we call sponge poisoning. This attack allows one to increase the energy consumption and latency of machine-learning models indiscriminately on each test-time input. We present a novel formalization for sponge poisoning, overcoming the limitations related to the optimization of test-time sponge examples, and show that this attack is possible even if the attacker only controls a few poisoning samples and model updates. Our extensive experimental analysis, involving two deep learning architectures and three datasets, shows that sponge poisoning can almost completely vanish the effect of such hardware accelerators. Finally, we analyze activations of the resulting sponge models, identifying the module components that are more sensitive to this vulnerability.
翻訳日:2022-03-17 14:14:28 公開日:2022-03-14
# (参考訳) L2Explorer: 生涯強化学習評価環境 [全文訳有]

L2Explorer: A Lifelong Reinforcement Learning Assessment Environment ( http://arxiv.org/abs/2203.07454v1 )

ライセンス: CC BY 4.0
Erik C. Johnson, Eric Q. Nguyen, Blake Schreurs, Chigozie S. Ewulum, Chace Ashcraft, Neil M. Fendley, Megan M. Baker, Alexander New, Gautam K. Vallabha(参考訳) ロボット工学、ゲームプレイ、その他の複雑な分野における強化学習の進歩は画期的なものだが、重要な応用分野においてしばしば見られる発展的かつオープンな問題に強化学習を適用することには大きな課題が残っている。 強化学習ソリューションは、トレーニングされているデータ配布以外の新しいタスクに晒されると、一般化が悪くなり、継続的な学習アルゴリズムへの関心が高まる。 継続的な学習アルゴリズムの研究と相まって、研究の進捗を評価するためにチャレンジ環境、注意深く設計された実験、メトリクスが必要である。 後者の必要性に対処するため,Lifelong Learning Explorer (L2Explorer) を用いた連続的な強化学習開発と評価のためのフレームワークを導入する。 ランダム成分を持つ手続き的に生成された世界とは対照的に,移動,性能回復,データ効率を評価するための指標を伴い,制御された変化に対応して曲率を定義する体系的アプローチを開発した。 L2Explorer環境と評価アプローチは、オープンワールド環境での今後の評価方法論の開発と、生涯学習へのアプローチを厳格に評価するためのフレームワークを提供する。

Despite groundbreaking progress in reinforcement learning for robotics, gameplay, and other complex domains, major challenges remain in applying reinforcement learning to the evolving, open-world problems often found in critical application spaces. Reinforcement learning solutions tend to generalize poorly when exposed to new tasks outside of the data distribution they are trained on, prompting an interest in continual learning algorithms. In tandem with research on continual learning algorithms, there is a need for challenge environments, carefully designed experiments, and metrics to assess research progress. We address the latter need by introducing a framework for continual reinforcement-learni ng development and assessment using Lifelong Learning Explorer (L2Explorer), a new, Unity-based, first-person 3D exploration environment that can be continuously reconfigured to generate a range of tasks and task variants structured into complex and evolving evaluation curricula. In contrast to procedurally generated worlds with randomized components, we have developed a systematic approach to defining curricula in response to controlled changes with accompanying metrics to assess transfer, performance recovery, and data efficiency. Taken together, the L2Explorer environment and evaluation approach provides a framework for developing future evaluation methodologies in open-world settings and rigorously evaluating approaches to lifelong learning.
翻訳日:2022-03-17 13:11:38 公開日:2022-03-14
# (参考訳) ニューラルコラボレーティブフィルタリングにおける入力とパラメータの同時学習 [全文訳有]

Simultaneous Learning of the Inputs and Parameters in Neural Collaborative Filtering ( http://arxiv.org/abs/2203.07463v1 )

ライセンス: CC BY 4.0
Ramin Raziperchikolaei and Young-joo Chung(参考訳) ニューラルネットワークベースの協調フィルタリングシステムは、ユーザ/イテム相互作用ベクトルや/またはIDへの入力を修正しながら、より良い表現を学習するためのネットワークアーキテクチャの設計に重点を置いている。 本稿では,まず,入力の非ゼロ要素が学習可能なパラメータであり,ユーザ/テーマ埋め込みの重み付けを決定し,それらを修正することで,表現の学習におけるモデルのパワーを制限できることを示す。 そこで我々は,入力のゼロでない要素の値とニューラルネットワークパラメータを併用して学習することを提案する。 モデル複雑性とアプローチの実証的リスクを分析し、入力の学習がより良い一般化バウンダリをもたらすことを証明します。 いくつかの実世界のデータセットに対する実験により,本手法は,レイヤやパラメータの少ない浅いネットワーク構造であっても,最先端の手法よりも優れていることが示された。

Neural network-based collaborative filtering systems focus on designing network architectures to learn better representations while fixing the input to the user/item interaction vectors and/or ID. In this paper, we first show that the non-zero elements of the inputs are learnable parameters that determine the weights in combining the user/item embeddings, and fixing them limits the power of the models in learning the representations. Then, we propose to learn the value of the non-zero elements of the inputs jointly with the neural network parameters. We analyze the model complexity and the empirical risk of our approach and prove that learning the input leads to a better generalization bound. Our experiments on several real-world datasets show that our method outperforms the state-of-the-art methods, even using shallow network structures with a smaller number of layers and parameters.
翻訳日:2022-03-17 12:59:55 公開日:2022-03-14
# (参考訳) AR/VRデバイス用分散型オンセンサコンピューティングシステム:電力推定のための半解析シミュレーションフレームワーク [全文訳有]

Distributed On-Sensor Compute System for AR/VR Devices: A Semi-Analytical Simulation Framework for Power Estimation ( http://arxiv.org/abs/2203.07474v1 )

ライセンス: CC BY-SA 4.0
Jorge Gomez, Saavan Patel, Syed Shakib Sarwar, Ziyun Li, Raffaele Capoccia, Zhao Wang, Reid Pinkham, Andrew Berkovich, Tsung-Hsun Tsai, Barbara De Salvo and Chiao Liu(参考訳) Augmented Reality/Virtual Reality (AR/VR) メガネは次世代コンピューティングプラットフォームとして広く予見されている。 AR/VRメガネは複雑な「システムのシステム」であり、厳密なフォームファクター、コンピューティング、パワー、サーマル要件を満たす必要がある。 本稿では、新しい半導体技術(高密度3D-IC配線やスピントランスファートルク磁気ランダムアクセスメモリ、STT-MRAM)と組み合わせ、ハードウェアとソフトウェアの完全な共最適化が、魅力的な社会的に許容されるAR/VRメガネを実現するためのソリューションであることを示す。 そこで我々は,新しいar/vr分散オンセンサコンピューティングアーキテクチャの消費電力を推定する半解析シミュレーションフレームワークを開発した。 このモデルでは、システムモジュールの主要な技術的特徴の最適化と、分散コンピューティングアーキテクチャ間のコンピュータビジョンアルゴリズム分割戦略が可能である。 計算集約型機械学習に基づくハンドトラッキングアルゴリズムの場合,分散オンセンサコンピューティングアーキテクチャは,集中型システムに比べてシステム消費電力を低減し,レイテンシとプライバシの面で付加的なメリットがあることを示す。

Augmented Reality/Virtual Reality (AR/VR) glasses are widely foreseen as the next generation computing platform. AR/VR glasses are a complex "system of systems" which must satisfy stringent form factor, computing-, power- and thermal- requirements. In this paper, we will show that a novel distributed on-sensor compute architecture, coupled with new semiconductor technologies (such as dense 3D-IC interconnects and Spin-Transfer Torque Magneto Random Access Memory, STT-MRAM) and, most importantly, a full hardware-software co-optimization are the solutions to achieve attractive and socially acceptable AR/VR glasses. To this end, we developed a semi-analytical simulation framework to estimate the power consumption of novel AR/VR distributed on-sensor computing architectures. The model allows the optimization of the main technological features of the system modules, as well as the computer-vision algorithm partition strategy across the distributed compute architecture. We show that, in the case of the compute-intensive machine learning based Hand Tracking algorithm, the distributed on-sensor compute architecture can reduce the system power consumption compared to a centralized system, with the additional benefits in terms of latency and privacy.
翻訳日:2022-03-17 12:35:02 公開日:2022-03-14
# (参考訳) Closing the Loop: パワーシステムにおける信頼できる機械学習のためのフレームワーク [全文訳有]

Closing the Loop: A Framework for Trustworthy Machine Learning in Power Systems ( http://arxiv.org/abs/2203.07505v1 )

ライセンス: CC BY 4.0
Jochen Stiasny, Samuel Chevalier, Rahul Nellikkath, Brynjar S{\ae}varsson, Spyros Chatzivasileiadis(参考訳) エネルギーセクターの深い脱炭素化は、確率的再生可能エネルギー資源の大規模な浸透と膨大なグリッドアセットの調整を必要とする。 複雑なデータセットから学習し、高速な時間スケールで予測ソリューションを提供する能力によって、機械学習(ML)は、今後数十年で電力システムが変化していくにつれて、これらの課題を克服するのに役立つ。 本研究では,物理に基づくシミュレーションデータから学習した信頼性の高いMLモデル構築に関連する5つの課題(データセット生成,データ前処理,モデルトレーニング,モデル評価,モデル埋め込み)を概説する。 次に,機械学習パイプラインの逐次段階において,各課題を克服する個々のモジュールのリンクが,トレーニングプロセスの全体的なパフォーマンス向上に役立つことを示す。 特に、フィードバックを通じて学習パイプラインの異なる要素を接続する手法を実装し、モデルトレーニング、パフォーマンス評価、再トレーニングの間を「ループを閉じる」。 提案する北海風力ハブシステムの詳細モデルに付随するN-1小信号安定性マージンを学習することにより,本フレームワークの有効性,構成モジュール,およびフィードバック接続の有効性を実証する。

Deep decarbonization of the energy sector will require massive penetration of stochastic renewable energy resources and an enormous amount of grid asset coordination; this represents a challenging paradigm for the power system operators who are tasked with maintaining grid stability and security in the face of such changes. With its ability to learn from complex datasets and provide predictive solutions on fast timescales, machine learning (ML) is well-posed to help overcome these challenges as power systems transform in the coming decades. In this work, we outline five key challenges (dataset generation, data pre-processing, model training, model assessment, and model embedding) associated with building trustworthy ML models which learn from physics-based simulation data. We then demonstrate how linking together individual modules, each of which overcomes a respective challenge, at sequential stages in the machine learning pipeline can help enhance the overall performance of the training process. In particular, we implement methods that connect different elements of the learning pipeline through feedback, thus "closing the loop" between model training, performance assessments, and re-training. We demonstrate the effectiveness of this framework, its constituent modules, and its feedback connections by learning the N-1 small-signal stability margin associated with a detailed model of a proposed North Sea Wind Power Hub system.
翻訳日:2022-03-17 12:23:40 公開日:2022-03-14
# (参考訳) unlabelledを怖がらない - 単純な偏見による深層半教師付き学習

Don't fear the unlabelled: safe deep semi-supervised learning via simple debiaising ( http://arxiv.org/abs/2203.07512v1 )

ライセンス: CC BY 4.0
Hugo Schmutz, Olivier Humbert and Pierre-Alexandre Mattei(参考訳) semi supervised learning(ssl)は、ラベルなしのデータを利用してモデルのパフォーマンスを改善する効果的な手段を提供する。 過去数年間、ドメインはかなりの注目を集めてきたが、ほとんどの方法は安全でないという共通の欠点を示している。 安全とは、不正なデータを含む場合、完全に教師付きモデルが劣化しない品質を意味する。 私たちの出発点は、ほとんどの差別的なSSLメソッドが最小化するリスクの見積もりが、漸近的にさえ偏っていることに気づくことです。 このバイアスは、適切な検証セットなしではこれらのテクニックを信頼できないが、バイアスを取り除く簡単な方法を提案する。 私たちのデバイアスングアプローチは実装が簡単で、ほとんどのディープSSLメソッドに適用できます。 SSL理論が要求するデータ分散に対する強い仮定に頼ることなく、これらの修正されたメソッドの安全性に関する単純な理論的保証を提供する。 既存のSSLメソッドのデバイアスバージョンを評価し,デバイアス化が従来のSSL手法と競合し,従来のSSLが失敗しても正常に動作することを示す。

Semi supervised learning (SSL) provides an effective means of leveraging unlabelled data to improve a model's performance. Even though the domain has received a considerable amount of attention in the past years, most methods present the common drawback of being unsafe. By safeness we mean the quality of not degrading a fully supervised model when including unlabelled data. Our starting point is to notice that the estimate of the risk that most discriminative SSL methods minimise is biased, even asymptotically. This bias makes these techniques untrustable without a proper validation set, but we propose a simple way of removing the bias. Our debiasing approach is straightforward to implement, and applicable to most deep SSL methods. We provide simple theoretical guarantees on the safeness of these modified methods, without having to rely on the strong assumptions on the data distribution that SSL theory usually requires. We evaluate debiased versions of different existing SSL methods and show that debiasing can compete with classic deep SSL techniques in various classic settings and even performs well when traditional SSL fails.
翻訳日:2022-03-17 11:42:04 公開日:2022-03-14
# (参考訳) QAモデルを簡潔に選択する: 質問応答のための生成的および抽出的読者の体系的研究 [全文訳有]

Choose Your QA Model Wisely: A Systematic Study of Generative and Extractive Readers for Question Answering ( http://arxiv.org/abs/2203.07522v1 )

ライセンス: CC BY 4.0
Man Luo, Kazuma Hashimoto, Semih Yavuz, Zhiwei Liu, Chitta Baral, Yingbo Zhou(参考訳) 抽出と生成の両方の読者が質問応答(QA)タスクにうまく適用されているが、それらの体系的な比較にはほとんど注意が払われていない。 2人の読者の長所と短所を特徴付けることは、実践においてより知的な読者選択を行うだけでなく、読者を原則的に改善するためのさらなる研究を促進するためにも重要である。 この目標に動機づけられて,質問応答のための抽出読取と生成読取の比較を体系的に検討する最初の試みを行った。 最先端技術に対応するため,9つのトランスフォーマーベース大規模事前学習言語モデル(PrLM)をバックボーンアーキテクチャとして検討する。 さらに,本研究は,(1)アーキテクチャの不変性を保ちつつ,(2)基礎となるPrLMの異なる2つのカテゴリに分類される。 いくつかの興味深い発見の中で,(1) 生成読者は長い文脈でのQAにおいて,(2) 抽出読者は短い文脈で,(2) 抽出読者はドメイン外の一般化でも優れ,(3) エンコーダ・デコーダ PrLM のエンコーダ (例: T5) は強力な抽出読者であり,エンコーダのみの PrLM の標準選択(例: RoBERTa)よりも優れていたことを強調することが重要である。 また,マルチタスク学習が基礎となるPrLMの異なる2種類の読者に与える影響について検討し,質的かつ定量的な診断を行い,より優れた読者をモデル化する際の今後の方向性についてさらなる知見を提供する。

While both extractive and generative readers have been successfully applied to the Question Answering (QA) task, little attention has been paid toward the systematic comparison of them. Characterizing the strengths and weaknesses of the two readers is crucial not only for making a more informed reader selection in practice but also for developing a deeper understanding to foster further research on improving readers in a principled manner. Motivated by this goal, we make the first attempt to systematically study the comparison of extractive and generative readers for question answering. To be aligned with the state-of-the-art, we explore nine transformer-based large pre-trained language models (PrLMs) as backbone architectures. Furthermore, we organize our findings under two main categories: (1) keeping the architecture invariant, and (2) varying the underlying PrLMs. Among several interesting findings, it is important to highlight that (1) the generative readers perform better in long context QA, (2) the extractive readers perform better in short context while also showing better out-of-domain generalization, and (3) the encoder of encoder-decoder PrLMs (e.g., T5) turns out to be a strong extractive reader and outperforms the standard choice of encoder-only PrLMs (e.g., RoBERTa). We also study the effect of multi-task learning on the two types of readers varying the underlying PrLMs and perform qualitative and quantitative diagnosis to provide further insights into future directions in modeling better readers.
翻訳日:2022-03-17 11:25:57 公開日:2022-03-14
# (参考訳) 時間-接触による高速能動単眼距離推定 [全文訳有]

Fast Active Monocular Distance Estimation from Time-to-Contact ( http://arxiv.org/abs/2203.07530v1 )

ライセンス: CC BY 4.0
Levi Burner, Nitin J. Sanket, Cornelia Ferm\"uller, Yiannis Aloimonos(参考訳) 距離推定は、ナビゲーション、操作、計画を含む様々なロボットアプリケーションに基礎を置いている。 哺乳類の視覚系に触発され、特定の物体(アクティブな固定)を見つめ、物体がいつ到達するかを推定し(時間から接触まで)、接触までの時間と加速度と距離の間の新しい制約を開発し、これを「$\tau$-constraint」と呼ぶ。 アクティブな単眼カメラは、時間窓内の時間-接触および慣性測定(線形加速度と角速度)を用いて深さを推定できる。 私たちの仕事は、機能ポイントではなくパッチにフォーカスすることで、他のアプローチと異なります。 これは、パッチ領域の変更が直接接触する時間を決定するためである。 その結果、画像のわずかな部分のみを使用しながら、効率的な距離推定が可能となり、大きなスピードアップがもたらされる。 カメラ位置をモノクログレースケールカメラと慣性測定ユニット(IMU)で推定することにより,提案した$\tau$-constraintの検証に成功した。 具体的には,距離8~40秒,長さ7~35メートルの軌道上の異なる実世界の平面物体について実験を行った。 提案手法は平均軌道誤差(ATE)が8.5cm,VINS-MonoとROVIOが12.2cm,16.9cmである。 さらに、我々の実装はVINS-Monoより27$\times$速く、ROVIOより6.8$\times$速く動作します。 これらの結果は,アクティブカメラとIMUを含む多数のアプリケーションに対して,堅牢で洗練されたアルゴリズムの基礎となる,$\tau$-constraintsの可能性を示している。

Distance estimation is fundamental for a variety of robotic applications including navigation, manipulation and planning. Inspired by the mammal's visual system, which gazes at specific objects (active fixation), and estimates when the object will reach it (time-to-contact), we develop a novel constraint between time-to-contact, acceleration, and distance that we call the $\tau$-constraint. It allows an active monocular camera to estimate depth using time-to-contact and inertial measurements (linear accelerations and angular velocities) within a window of time. Our work differs from other approaches by focusing on patches instead of feature points. This is, because the change in the patch area determines the time-to-contact directly. The result enables efficient estimation of distance while using only a small portion of the image, leading to a large speedup. We successfully validate the proposed $\tau$-constraint in the application of estimating camera position with a monocular grayscale camera and an Inertial Measurement Unit (IMU). Specifically, we test our method on different real-world planar objects over trajectories 8-40 seconds in duration and 7-35 meters long. Our method achieves 8.5 cm Average Trajectory Error (ATE) while the popular Visual-Inertial Odometry methods VINS-Mono and ROVIO achieve 12.2 and 16.9 cm ATE respectively. Additionally, our implementation runs 27$\times$ faster than VINS-Mono's and 6.8$\times$ faster than ROVIO's. We believe these results indicate the $\tau$-constraints potential to be the basis of robust, sophisticated algorithms for a multitude of applications involving an active camera and an IMU.
翻訳日:2022-03-17 11:05:00 公開日:2022-03-14
# (参考訳) 可変オートエンコーダニューラルネットワークを用いた光電子分光のノイズ除去と特徴抽出 [全文訳有]

Denoising and feature extraction in photoemission spectra with variational auto-encoder neural networks ( http://arxiv.org/abs/2203.07537v1 )

ライセンス: CC BY 4.0
Francisco Restrepo, Junjing Zhao, Utpal Chatterjee(参考訳) 近年,arpes(raw angle-resolved photoemission spectroscopy)データから得られたエネルギー・運動分散強度マップから特徴抽出とノイズ低減のために,機械学習(ml)モデルが別々に用いられている。 本研究では, ARPES分散マップからの特徴抽出だけでなく, MLを用いる可能性を示すために, 浅部変分オートエンコーダ(VAE)ニューラルネットワークを用いる。

In recent years, distinct machine learning (ML) models have been separately used for feature extraction and noise reduction from energy-momentum dispersion intensity maps obtained from raw angle-resolved photoemission spectroscopy (ARPES) data. In this work, we employ a shallow variational auto-encoder (VAE) neural network to demonstrate the prospect of using ML for both denoising of as well as feature extraction from ARPES dispersion maps.
翻訳日:2022-03-17 10:49:41 公開日:2022-03-14
# (参考訳) 高次元線形回帰のためのTAP自由エネルギー

The TAP free energy for high-dimensional linear regression ( http://arxiv.org/abs/2203.07539v1 )

ライセンス: CC BY 4.0
Jiaze Qiu and Subhabrata Sen(参考訳) ベイズ線形回帰における後続分布の対数正規化定数に対する変分表現を,一様球面前と対数ガウス設計を用いて導出した。 我々は「比例的な」漸近的な体制の下で働き、観察の回数と特徴の数が比例的に増加する。 このことは、スピングラス理論から生じるThouless-Anderson-Pa lmer (TAP)近似を厳密に確立し、Krzakalaらの予想を証明する。 al. (2014) 球面前の特別な場合。

We derive a variational representation for the log-normalizing constant of the posterior distribution in Bayesian linear regression with a uniform spherical prior and an i.i.d. Gaussian design. We work under the "proportional" asymptotic regime, where the number of observations and the number of features grow at a proportional rate. This rigorously establishes the Thouless-Anderson-Pa lmer (TAP) approximation arising from spin glass theory, and proves a conjecture of Krzakala et. al. (2014) in the special case of the spherical prior.
翻訳日:2022-03-17 10:40:30 公開日:2022-03-14
# (参考訳) scienceworld:あなたのエージェントは5年生より賢いですか? [全文訳有]

ScienceWorld: Is your Agent Smarter than a 5th Grader? ( http://arxiv.org/abs/2203.07540v1 )

ライセンス: CC BY-SA 4.0
Ruoyao Wang, Peter Jansen, Marc-Alexandre C\^ot\'e, Prithviraj Ammanabrolu(参考訳) 本稿では,小学校理科カリキュラムのレベルにおいて,対話型テキスト環境におけるエージェントの科学的推論能力をテストするための新しいベンチマーク,scienceworldを提案する。 近年, 質問応答や科学的テキスト処理, 自然言語処理など, 隣接する分野におけるトランスフォーマーの進歩にもかかわらず, 現状のモデルでは, 新たな文脈における学習科学概念の推論や説明ができないことがわかった。 例えば、モデルは、以前に見られた物質の導電性について簡単に答えられるが、未知の物質の導電性を見つけるために、接地したインタラクティブな環境で実験をする方法を尋ねられると、苦労する。 これは、現在のモデルが、多くの類似した入力例を見ることによって、単に答えを検索しているのか、それとも再利用可能な方法で概念を推論することを学んだのか、という疑問を提起する。 このような推論能力を達成するためには,エージェントをインタラクティブな環境に置く必要がある,と仮定する。 私たちの実験は、この仮説を裏付ける実証的な証拠を提供し、150万のパラメーターエージェントが100万ステップでインタラクティブにトレーニングされ、科学的な質問に対する回答と推論のために訓練された100億のパラメーターモデルを上回っていることを示す。

This paper presents a new benchmark, ScienceWorld, to test agents' scientific reasoning abilities in a new interactive text environment at the level of a standard elementary school science curriculum. Despite the recent transformer-based progress seen in adjacent fields such as question-answering, scientific text processing, and the wider area of natural language processing, we find that current state-of-the-art models are unable to reason about or explain learned science concepts in novel contexts. For instance, models can easily answer what the conductivity of a previously seen material is but struggle when asked how they would conduct an experiment in a grounded, interactive environment to find the conductivity of an unknown material. This begs the question of whether current models are simply retrieving answers by way of seeing a large number of similar input examples or if they have learned to reason about concepts in a reusable manner. We hypothesize that agents need to be grounded in interactive environments to achieve such reasoning capabilities. Our experiments provide empirical evidence supporting this hypothesis -- showing that a 1.5 million parameter agent trained interactively for 100k steps outperforms a 11 billion parameter model statically trained for scientific question-answering and reasoning via millions of expert demonstrations.
翻訳日:2022-03-17 10:39:31 公開日:2022-03-14
# (参考訳) 知識グラフのリンク予測のためのランクに基づく評価指標統合フレームワーク [全文訳有]

A Unified Framework for Rank-based Evaluation Metrics for Link Prediction in Knowledge Graphs ( http://arxiv.org/abs/2203.07544v1 )

ライセンス: CC BY 4.0
Charles Tapley Hoyt, Max Berrendorf, Mikhail Gaklin, Volker Tresp, Benjamin M. Gyori(参考訳) トレーニングデータの明示的な負の三重項のない知識グラフ上のリンク予測タスクは、ランクベースのメトリクスの使用を動機付ける。 ここでは、既存のランクベースのメトリクスをレビューし、異なるサイズとプロパティのデータセットに対する既存のメトリクスの解釈可能性とコンパラビリティの欠如に対処するために、改善されたメトリクスのためのdesiderataを提案する。 本稿では,既存の測度を改善するための2つの方法について,代替アグリゲーション関数と確率論の概念を用いて検討する。 最後に、知識グラフ埋め込みモデルのベンチマークにおいて、より容易に解釈され比較される、いくつかの新しいランクベースのメトリクスを提案する。

The link prediction task on knowledge graphs without explicit negative triples in the training data motivates the usage of rank-based metrics. Here, we review existing rank-based metrics and propose desiderata for improved metrics to address lack of interpretability and comparability of existing metrics to datasets of different sizes and properties. We introduce a simple theoretical framework for rank-based metrics upon which we investigate two avenues for improvements to existing metrics via alternative aggregation functions and concepts from probability theory. We finally propose several new rank-based metrics that are more easily interpreted and compared accompanied by a demonstration of their usage in a benchmarking of knowledge graph embedding models.
翻訳日:2022-03-17 10:12:16 公開日:2022-03-14
# (参考訳) 置換不変表現とグラフ深層学習への応用

Permutation Invariant Representations with Applications to Graph Deep Learning ( http://arxiv.org/abs/2203.07546v1 )

ライセンス: CC BY 4.0
Radu Balan, Naveed Haghani, Maneesh Singh(参考訳) 本稿では, 行列によって生成される商空間の2つのユークリッド埋め込みについて述べる。 元々のアプリケーションは、学習タスクがノードのrelabelingに不変であるグラフのディープラーニングである。 2つの埋め込みスキームが導入され、1つはソートに基づくもので、もう1つは多変量多項式の代数に基づくものである。 どちらの埋め込みも問題の大きさが指数関数的に計算複雑性を示すが、ソートベースの埋め込みは世界規模で双Lipschitzであり、低次元のターゲット空間を持つ。 さらに、ほとんどどこでも注入スキームを最小限の冗長性と低い計算コストで実装できる。 結果として、ほとんどのどの分類器でも、任意の性能の損失で実装できることが証明される。 化学化合物データセット(qm9)とタンパク質データセット(proteins)の2つのデータセットについて数値実験を行った。

This paper presents primarily two Euclidean embeddings of the quotient space generated by matrices that are identified modulo arbitrary row permutations. The original application is in deep learning on graphs where the learning task is invariant to node relabeling. Two embedding schemes are introduced, one based on sorting and the other based on algebras of multivariate polynomials. While both embeddings exhibit a computational complexity exponential in problem size, the sorting based embedding is globally bi-Lipschitz and admits a low dimensional target space. Additionally, an almost everywhere injective scheme can be implemented with minimal redundancy and low computational cost. In turn, this proves that almost any classifier can be implemented with an arbitrary small loss of performance. Numerical experiments are carried out on two data sets, a chemical compound data set (QM9) and a proteins data set (PROTEINS).
翻訳日:2022-03-17 09:57:07 公開日:2022-03-14
# 音声感情認識におけるトランスフォーマー時代の夜明け--ヴァレンスギャップを閉じる

Dawn of the transformer era in speech emotion recognition: closing the valence gap ( http://arxiv.org/abs/2203.07378v1 )

ライセンス: Link先を確認
Johannes Wagner, Andreas Triantafyllopoulos, Hagen Wierstorf, Maximilian Schmitt, Florian Eyben, Bj\"orn W. Schuller(参考訳) 自己教師付き方式で事前訓練されたトランスフォーマーアーキテクチャの最近の進歩は、いくつかの機械学習タスクにおいて大きな可能性を秘めている。 音声領域では、そのようなアーキテクチャは音声感情認識(SER)の分野でもうまく活用されている。 しかし、既存の研究はモデルサイズや事前学習データの影響を下流のパフォーマンスに評価しておらず、一般化、堅牢性、公平性、効率性に限定的な注意を払っている。 本研究は,MSPポッドキャストの興奮,支配,有病率を微調整したwav2vec 2.0およびHuBERTの事前学習版について,また,IEMOCAPおよびMOSIを用いてクロスコーパス一般化の検証を行った。 我々は,msp-podcast における .638 の一致相関係数 (ccc) を用いて,明示的な言語情報を用いずに価数予測の最高性能を得る。 さらに, トランスフォーマーをベースとしたアーキテクチャは, CNNベースのベースラインに比べて小さな摂動に対してより堅牢であり, 生物学的性グループに対しては公正である。 最後に, 変圧器層を微調整する際に学習した暗黙的な言語情報に基づいて, テキスト情報を明示的に活用する最近のマルチモーダルアプローチと同等に機能することを示す。 トランスフォーマーベースのアーキテクチャは、serの新たな最先端を構成するが、強固さと個々の話者問題を軽減するために、さらなる進歩が必要である。 研究成果を再現するために,コミュニティに最高のパフォーマンスモデルをリリースする。

Recent advances in transformer-based architectures which are pre-trained in self-supervised manner have shown great promise in several machine learning tasks. In the audio domain, such architectures have also been successfully utilised in the field of speech emotion recognition (SER). However, existing works have not evaluated the influence of model size and pre-training data on downstream performance, and have shown limited attention to generalisation, robustness, fairness, and efficiency. The present contribution conducts a thorough analysis of these aspects on several pre-trained variants of wav2vec 2.0 and HuBERT that we fine-tuned on the dimensions arousal, dominance, and valence of MSP-Podcast, while additionally using IEMOCAP and MOSI to test cross-corpus generalisation. To the best of our knowledge, we obtain the top performance for valence prediction without use of explicit linguistic information, with a concordance correlation coefficient (CCC) of .638 on MSP-Podcast. Furthermore, our investigations reveal that transformer-based architectures are more robust to small perturbations compared to a CNN-based baseline and fair with respect to biological sex groups, but not towards individual speakers. Finally, we are the first to show that their extraordinary success on valence is based on implicit linguistic information learnt during fine-tuning of the transformer layers, which explains why they perform on-par with recent multimodal approaches that explicitly utilise textual information. Our findings collectively paint the following picture: transformer-based architectures constitute the new state-of-the-art in SER, but further advances are needed to mitigate remaining robustness and individual speaker issues. To make our findings reproducible, we release the best performing model to the community.
翻訳日:2022-03-16 16:52:11 公開日:2022-03-14
# 加速器系荷電粒子ビームにおけるコヒーレント放射ウェイクフィールド計算のためのニューラルネットワーク解法

Neural Network Solver for Coherent Synchrotron Radiation Wakefield Calculations in Accelerator-based Charged Particle Beams ( http://arxiv.org/abs/2203.07542v1 )

ライセンス: Link先を確認
Auralee Edelen and Christopher Mayes(参考訳) 粒子加速器は幅広い科学的、工業的、医学的応用をサポートしている。 これらの応用のニーズを満たすため、加速器物理学者は加速器を通して複雑な粒子ビーム力学の詳細なシミュレーションに大きく依存している。 最も計算コストが高く、モデルに難易度の高い効果の1つはコヒーレント放射光(CSR)の影響である。 ビームが曲がった軌道(例えば湾曲した磁石による)を通過すると、ビームは放射され、それがビームの残りの部分と相互作用する。 軌道を通る各ステップにおいて、csr(csrウェイクフィールド)によって導入された電磁場は、ビーム内の全ての粒子の位置とモーメントの更新を計算する際に計算され、使用される必要がある。 CSRは、多くのアプリケーションにおいて重要なビーム品質の重要な指標であるビーム発光の成長の要因の1つである。 CSRウェイクフィールドは従来の電磁分解器で計算するのに非常に計算量が多く、これは加速器を正確にシミュレーションする際の大きな制限である。 本稿では、ニューラルネットワークソルバを用いたCSRウェイクフィールド計算における新しいアプローチを、新しいセットアップに容易に一般化可能な方法で示す。 標準ビーム追跡試験問題に加えることにより,その性能を検証し,高精度に10倍のスピードアップを示す。

Particle accelerators support a wide array of scientific, industrial, and medical applications. To meet the needs of these applications, accelerator physicists rely heavily on detailed simulations of the complicated particle beam dynamics through the accelerator. One of the most computationally expensive and difficult-to-model effects is the impact of Coherent Synchrotron Radiation (CSR). As a beam travels through a curved trajectory (e.g. due to a bending magnet), it emits radiation that in turn interacts with the rest of the beam. At each step through the trajectory, the electromagnetic field introduced by CSR (called the CSR wakefield) needs to computed and used when calculating the updates to the positions and momenta of every particle in the beam. CSR is one of the major drivers of growth in the beam emittance, which is a key metric of beam quality that is critical in many applications. The CSR wakefield is very computationally intensive to compute with traditional electromagnetic solvers, and this is a major limitation in accurately simulating accelerators. Here, we demonstrate a new approach for the CSR wakefield computation using a neural network solver structured in a way that is readily generalizable to new setups. We validate its performance by adding it to a standard beam tracking test problem and show a ten-fold speedup along with high accuracy.
翻訳日:2022-03-16 16:51:40 公開日:2022-03-14
# ニューラルネットワークはドラムの形を聴くことができるか?

Can A Neural Network Hear the Shape of A Drum? ( http://arxiv.org/abs/2203.08073v1 )

ライセンス: Link先を確認
Yueqi Zhao and Michael M. Fogler(参考訳) 我々は,Laplacian(あるいはSchrodinger)固有値の最初の100個を与えられた多角形領域の形状を再構成するディープニューラルネットワークを開発した。 エンコーダ・デコーダ構造を持つネットワークは、入力スペクトルを潜在空間にマッピングし、正方形グリッド上の領域の離散画像を予測する。 我々はこのネットワークをランダムに生成された五角形でテストした。 予測精度が高く、予測はラプラシアのスケーリング規則に従う。 ネットワークはグリッドの対称性を超えた連続的な回転自由度を回復する。 スケーリング変換の下での潜伏変数の変動は、テストポリゴンのワイルのsパラメータ(面積、周囲および角度の特定の関数)と強く相関していることを示している。

We have developed a deep neural network that reconstructs the shape of a polygonal domain given the first hundred of its Laplacian (or Schrodinger) eigenvalues. Having an encoder-decoder structure, the network maps input spectra to a latent space and then predicts the discretized image of the domain on a square grid. We tested this network on randomly generated pentagons. The prediction accuracy is high and the predictions obey the Laplacian scaling rule. The network recovers the continuous rotational degree of freedom beyond the symmetry of the grid. The variation of the latent variables under the scaling transformation shows they are strongly correlated with Weyl' s parameters (area, perimeter, and a certain function of the angles) of the test polygons.
翻訳日:2022-03-16 16:48:30 公開日:2022-03-14
# 単純な注意ネットワーク

Simplicial Attention Networks ( http://arxiv.org/abs/2203.07485v1 )

ライセンス: Link先を確認
L. Giusti, C. Battiloro, P. Di Lorenzo, S. Sardellitti, S. Barbarossa(参考訳) 本研究の目的は、SAN(simplicial attention network, SAN)、すなわち、マスクされた自己意図的層を利用したsimplicial Complex上で定義されたデータを操作する新しいニューラルアーキテクチャを導入することである。 トポロジカルな信号処理からの形式的な議論に注目しながら、与えられたトポロジカルドメインの上層と下層の両方をタスク指向の方法で重み付けする方法を学習しながら、異なる層(例えばノード、エッジ、三角形など)でデータコンポーネントを処理できる適切な自己照準機構を導入する。 提案されたSANは、単純複体上で定義されたデータを処理するために利用可能な現在のアーキテクチャの大部分を一般化する。 提案手法は, 軌道予測や引用複体におけるデータインプテーションの欠如など, 異なる(帰納的, 帰納的)タスクに適用される他の手法と好適に比較できる。

The aim of this work is to introduce simplicial attention networks (SANs), i.e., novel neural architectures that operate on data defined on simplicial complexes leveraging masked self-attentional layers. Hinging on formal arguments from topological signal processing, we introduce a proper self-attention mechanism able to process data components at different layers (e.g., nodes, edges, triangles, and so on), while learning how to weight both upper and lower neighborhoods of the given topological domain in a totally task-oriented fashion. The proposed SANs generalize most of the current architectures available for processing data defined on simplicial complexes. The proposed approach compares favorably with other methods when applied to different (inductive and transductive) tasks such as trajectory prediction and missing data imputations in citation complexes.
翻訳日:2022-03-16 16:22:37 公開日:2022-03-14
# 幾何学的修復による下流フェアネスの達成

Achieving Downstream Fairness with Geometric Repair ( http://arxiv.org/abs/2203.07490v1 )

ライセンス: Link先を確認
Kweku Kwegyir-Aggrey, Jessica Dai, John Dickerson, Keegan Hines(参考訳) 上流のモデル開発者が公平なモデルをトレーニングしなければならないが、下流のモデルユーザや利害関係者の公平性要件を知らないシナリオを考えてみよう。 公平な分類の文脈では、レグレッサーのスコアを後処理することで、決定しきい値における下流の選択に対して公平な分類を与えるという、この設定を具体的に扱う手法を提案する。 まず、最適なトランスポートからのアイデアを活用して、幅広いフェアネスメトリクスのクラスにわたるバイナリ保護グループに対して、これを実現する方法を示します。 次に,本手法を語彙的公平性を利用した凸最適化問題として再キャストすることにより,保護属性が複数の値を取り扱う設定に対処すべく,本手法を拡張した。

Consider a scenario where some upstream model developer must train a fair model, but is unaware of the fairness requirements of a downstream model user or stakeholder. In the context of fair classification, we present a technique that specifically addresses this setting, by post-processing a regressor's scores such they yield fair classifications for any downstream choice in decision threshold. To begin, we leverage ideas from optimal transport to show how this can be achieved for binary protected groups across a broad class of fairness metrics. Then, we extend our approach to address the setting where a protected attribute takes on multiple values, by re-recasting our technique as a convex optimization problem that leverages lexicographic fairness.
翻訳日:2022-03-16 16:22:22 公開日:2022-03-14
# ポリグロットファイルの検出に向けて

Toward the Detection of Polyglot Files ( http://arxiv.org/abs/2203.07561v1 )

ライセンス: Link先を確認
Luke Koch, Sean Oesch, Mary Adkisson, Sam Erwin, Brian Weber, Amul Chaulagain(参考訳) 標準化されたファイルフォーマットは、コンピュータソフトウェアの開発と利用において重要な役割を果たす。 しかし、複数のファイルフォーマットで有効なファイルを作成することで、標準化されたファイルフォーマットを悪用することができる。 結果として生じる多言語(多くの言語)ファイルは、ファイルフォーマットの識別を結合することができ、ファイルの要素が解析を回避できる。 ファイルシグネチャに依存するファイルフォーマット識別プロセスは、特定のファイルフォーマットのフォーマット仕様の柔軟性により、容易に回避できる。 ファイルシグネチャよりも包括的な方法でファイル形式を特定する作業は行われているが、ポリグロットファイルの正確な識別は未解決のままである。 マルウェア検出システムはファイル形式固有の特徴抽出を日常的に行うため、これらのシステムによる取り込み前にポリグロットファイルをフィルタリングする必要がある。 そうでなければ、悪意のあるコンテンツは検出されない。 ポリグロット検出の問題を解決するために,mitraツールを用いてデータセットを組み立てた。 そして、最もよく使われるファイル識別ツールであるfileの性能を評価した。 最後に,機械学習モデルとディープラーニングモデルの精度,精度,リコール,F1スコアを実証した。 malconv2とcatboostはそれぞれ95.16%と95.34%という高いリコールを示しました。 これらのモデルは、ファイルフォーマットに依存した機能抽出が行われる前に、悪意のあるポリグロットをフィルタリングするために、マルウェア検出のファイル処理パイプラインに組み込むことができる。

Standardized file formats play a key role in the development and use of computer software. However, it is possible to abuse standardized file formats by creating a file that is valid in multiple file formats. The resulting polyglot (many languages) file can confound file format identification, allowing elements of the file to evade analysis.This is especially problematic for malware detection systems that rely on file format identification for feature extraction. File format identification processes that depend on file signatures can be easily evaded thanks to flexibility in the format specifications of certain file formats. Although work has been done to identify file formats using more comprehensive methods than file signatures, accurate identification of polyglot files remains an open problem. Since malware detection systems routinely perform file format-specific feature extraction, polyglot files need to be filtered out prior to ingestion by these systems. Otherwise, malicious content could pass through undetected. To address the problem of polyglot detection we assembled a data set using the mitra tool. We then evaluated the performance of the most commonly used file identification tool, file. Finally, we demonstrated the accuracy, precision, recall and F1 score of a range of machine and deep learning models. Malconv2 and Catboost demonstrated the highest recall on our data set with 95.16% and 95.34%, respectively. These models can be incorporated into a malware detector's file processing pipeline to filter out potentially malicious polyglots before file format-dependent feature extraction takes place.
翻訳日:2022-03-16 16:22:08 公開日:2022-03-14
# マルチエージェント競争における安全な適応

Safe adaptation in multiagent competition ( http://arxiv.org/abs/2203.07562v1 )

ライセンス: Link先を確認
Macheng Shen and Jonathan P. How(参考訳) 常に変化する環境に適応する能力を達成することは、複雑なシナリオで安全に動作する完全自律型ロボットを構築するための重要なステップである。 マルチエージェントの競争シナリオでは、エージェントはエゴエージェントと対戦相手の相互作用経験から学習することで、これまで目に見えない行動に適応しなければならない。 しかし、この適応は敵の搾取に影響を受けやすい。 エゴエージェントは、相手を悪用するために自身の行動を更新するので、この特定の相手の行動に過度に適合した結果、その行動はより悪用される可能性がある。 この課題を克服するため,本研究では,正規化対向モデルに対してエゴエージェントを訓練し,過剰フィッティングを効果的に回避し,エゴエージェントの方針の堅牢性を向上させる安全な適応手法を開発した。 2つの競合エージェントによるmujocoドメインでのアプローチを評価した。 提案手法は,エゴエージェントが相互作用している特定の相手への適応を効果的に達成し,他の攻撃者に対する低攻撃性を維持できることを示す。

Achieving the capability of adapting to ever-changing environments is a critical step towards building fully autonomous robots that operate safely in complicated scenarios. In multiagent competitive scenarios, agents may have to adapt to new opponents with previously unseen behaviors by learning from the interaction experiences between the ego-agent and the opponent. However, this adaptation is susceptible to opponent exploitation. As the ego-agent updates its own behavior to exploit the opponent, its own behavior could become more exploitable as a result of overfitting to this specific opponent's behavior. To overcome this difficulty, we developed a safe adaptation approach in which the ego-agent is trained against a regularized opponent model, which effectively avoids overfitting and consequently improves the robustness of the ego-agent's policy. We evaluated our approach in the Mujoco domain with two competing agents. The experiment results suggest that our approach effectively achieves both adaptation to the specific opponent that the ego-agent is interacting with and maintaining low exploitability to other possible opponent exploitation.
翻訳日:2022-03-16 16:21:48 公開日:2022-03-14
# 生成型adversarial networkを用いた磁場予測

Magnetic Field Prediction Using Generative Adversarial Networks ( http://arxiv.org/abs/2203.07897v1 )

ライセンス: Link先を確認
Stefan Pollok, Nataniel Olden-J{\o}rgensen, Peter Stanley J{\o}rgensen, Rasmus Bj{\o}rk(参考訳) たくさんの科学や実世界の応用が磁場とその特性に基づいている。 貴重な磁場情報を高分解能で取得するには、物理的な制約により実施に要する時間や実現不可能である広範囲な磁場計測が必要となる。 この問題を解決するために,gan(generative adversarial network)構造を用いて,数点測定から空間のランダム点における磁場値を予測する。 ディープラーニング(dl)アーキテクチャは、与えられた磁場の不足フィールド値を予測するジェネレータと、実際の磁場分布と生成された磁場分布の間の統計距離を計算するように訓練された批評家の2つのニューラルネットワークで構成されている。 この統計的距離, 復元損失, 身体的損失を最小化することにより, トレーニングされた発電機は, 単独のコヒーレント領域が欠落している場合の5.14%, 空間における数点測定しか得られず, 周囲のフィールド測定が予測される場合の5.86%のフィールド値について, 中央値の復元試験誤差で予測できることを学習した。 実験により検証したフィールド上で結果を検証する。

Plenty of scientific and real-world applications are built on magnetic fields and their characteristics. To retrieve the valuable magnetic field information in high resolution, extensive field measurements are required, which are either time-consuming to conduct or even not feasible due to physical constraints. To alleviate this problem, we predict magnetic field values at a random point in space from a few point measurements by using a generative adversarial network (GAN) structure. The deep learning (DL) architecture consists of two neural networks: a generator, which predicts missing field values of a given magnetic field, and a critic, which is trained to calculate the statistical distance between real and generated magnetic field distributions. By minimizing this statistical distance, a reconstruction loss as well as physical losses, our trained generator has learned to predict the missing field values with a median reconstruction test error of 5.14%, when a single coherent region of field points is missing, and 5.86%, when only a few point measurements in space are available and the field measurements around are predicted. We verify the results on an experimentally validated field.
翻訳日:2022-03-16 16:18:49 公開日:2022-03-14
# AI/MLとPHY層ルールに基づく推論を組み合わせる -- 最初の結果

Combining AI/ML and PHY Layer Rule Based Inference -- Some First Results ( http://arxiv.org/abs/2203.08074v1 )

ライセンス: Link先を確認
Brenda Vilas Boas, Wolfgang Zirwas, Martin Haardt(参考訳) 3GPPニューラジオ(NR)リリース18では、2022年5月からの最初の研究項目が紹介され、無線アクセスネットワーク(RAN)1、すなわちモバイル無線PHYおよびMAC層アプリケーションにおけるAI/MLメソッドの可能性を評価する。 本研究では,提案手法を用いて,PHY層参照のためのマルチパス成分パラメータの正確な反復推定を行う。 我々は、ai/ml推論によって、このルールベースのphy層メソッドの機能の一部を、あるいは完全に置き換えるオプションを調査し、より高いパフォーマンス、低レイテンシ、または、処理の複雑さの低減を目標とする。 ノイズ低減のための最初の結果と、モデル順序選択のための組み合わせスキームを提供し、マルチパスコンポーネント開始パラメータを推定するための選択肢を比較し、チャネル予測フレームワークの展望を提供する。

In 3GPP New Radio (NR) Release 18 we see the first study item starting in May 2022, which will evaluate the potential of AI/ML methods for Radio Access Network (RAN) 1, i.e., for mobile radio PHY and MAC layer applications. We use the profiling method for accurate iterative estimation of multipath component parameters for PHY layer reference, as it promises a large channel prediction horizon. We investigate options to partly or fully replace some functionalities of this rule based PHY layer method by AI/ML inferences, with the goal to achieve either a higher performance, lower latency, or, reduced processing complexity. We provide first results for noise reduction, then a combined scheme for model order selection, compare options to infer multipath component start parameters, and, provide an outlook on a possible channel prediction framework.
翻訳日:2022-03-16 16:15:29 公開日:2022-03-14
# 畳み込み-リカレントニューラルネットワークプロキシによるロバスト最適化と閉ループ貯留層管理

Convolutional-Recurr ent Neural Network Proxy for Robust Optimization and Closed-Loop Reservoir Management ( http://arxiv.org/abs/2203.07524v1 )

ライセンス: Link先を確認
Yong Do Kim and Louis J. Durlofsky(参考訳) 地質学的不確実性の下での生産最適化は計算量的に高価である。 本研究では,コンボリューショナル・リカレント・ニューラルネットワーク (CNN-RNN) のプロキシモデルを構築し,アンサンブル内の各実現のために,時間変化のよいボトムホール圧力 (BHP) スケジュールに対して,油と水率を適切に予測する。 この能力は、頑健な最適化に必要な目的関数と非線形制約値の推定を可能にする。 プロキシモデルは、最近開発された長い短期記憶(LSTM)RNNプロキシの拡張であり、単一のジオモデルに対するウェルレートを予測するように設計されている。 CNNは、透過性の実現をプロセスするために導入され、RNNの初期状態を提供する。 CNN-RNNプロキシは300種類のBHPスケジュールと透過性実現のためのシミュレーション結果を用いて訓練される。 本研究では,3次元マルチガウス透水率モデルの多重実現による油-水流のプロキシ精度を示す。 その後、プロキシはクローズドループ貯水池管理(clrm)ワークフローに組み込まれ、粒子群最適化と非線形制約満足のためのフィルタベースの手法で使用される。 履歴マッチングは随伴勾配に基づく手順で実現される。 プロキシモデルは、この設定で5つの異なる(合成)`true'モデルでうまく機能することが示されている。 CLRMでは,制約満足度および不確実性低減とともにネット提示値が改善された。 堅牢なプロダクション最適化ステップでは、プロキシはシミュレーションベースの最適化よりもO(100)ランタイムのスピードアップを提供する。

Production optimization under geological uncertainty is computationally expensive, as a large number of well control schedules must be evaluated over multiple geological realizations. In this work, a convolutional-recurr ent neural network (CNN-RNN) proxy model is developed to predict well-by-well oil and water rates, for given time-varying well bottom-hole pressure (BHP) schedules, for each realization in an ensemble. This capability enables the estimation of the objective function and nonlinear constraint values required for robust optimization. The proxy model represents an extension of a recently developed long short-term memory (LSTM) RNN proxy designed to predict well rates for a single geomodel. A CNN is introduced here to processes permeability realizations, and this provides the initial states for the RNN. The CNN-RNN proxy is trained using simulation results for 300 different sets of BHP schedules and permeability realizations. We demonstrate proxy accuracy for oil-water flow through multiple realizations of 3D multi-Gaussian permeability models. The proxy is then incorporated into a closed-loop reservoir management (CLRM) workflow, where it is used with particle swarm optimization and a filter-based method for nonlinear constraint satisfaction. History matching is achieved using an adjoint-gradient-bas ed procedure. The proxy model is shown to perform well in this setting for five different (synthetic) `true' models. Improved net present value along with constraint satisfaction and uncertainty reduction are observed with CLRM. For the robust production optimization steps, the proxy provides O(100) runtime speedup over simulation-based optimization.
翻訳日:2022-03-16 15:46:34 公開日:2022-03-14
# 2次元形状分類のための物理的神経細胞オートマトン

Physical Neural Cellular Automata for 2D Shape Classification ( http://arxiv.org/abs/2203.07548v1 )

ライセンス: Link先を確認
Kathryn Walker, Rasmus Berg Palm, Rodrigo Moreno Garcia, Andres Faina, Kasper Stoy, Sebastian Risi(参考訳) 独自の形状を自己分類する能力を持つ材料は、幅広い工学的応用や産業を前進させる可能性がある。 生体システムは自己再構成だけでなく、一般的な形状や機能を決定するために自己分類する能力を持っている。 モジュラーロボットシステムへの以前の取り組みは、特定のターゲット形状への自己認識と自己再構成のみを可能にし、自己分類に固有の頑丈さを欠いていた。 そこで本研究では,近年の深層学習とニューラルセルオートマトンを生かし,そのコンポーネントの局所的な通信を通じて,その形状のクラスを推論できるシンプルなモジュール型2Dロボットシステムを提案する。 さらに,本システムはハードウェアへの移行に成功し,将来的な自己分類マシンの機会が開けることを示した。

Materials with the ability to self-classify their own shape have the potential to advance a wide range of engineering applications and industries. Biological systems possess the ability not only to self-reconfigure but also to self-classify themselves to determine a general shape and function. Previous work into modular robotics systems have only enabled self-recognition and self-reconfiguration into a specific target shape, missing the inherent robustness present in nature to self-classify. In this paper we therefore take advantage of recent advances in deep learning and neural cellular automata, and present a simple modular 2D robotic system that can infer its own class of shape through the local communication of its components. Furthermore, we show that our system can be successfully transferred to hardware which thus opens opportunities for future self-classifying machines.
翻訳日:2022-03-16 15:45:26 公開日:2022-03-14
# 乳癌Ki-67増殖指数スコアのための深層学習パイプライン

A deep learning pipeline for breast cancer ki-67 proliferation index scoring ( http://arxiv.org/abs/2203.07452v1 )

ライセンス: Link先を確認
Khaled Benaggoune, Zeina Al Masry, Jian Ma, Christine Devalland, L.H Mouss and Noureddine Zerhouni(参考訳) Ki-67の増殖指数は、病理学者が適切な治療法を診断し選択するのに役立つ重要なバイオマーカーである。 しかし,ki-67の自動評価は核重なりと複雑な性質変化のため困難である。 本稿では,Ki-67の正確な自動カウントのための集積パイプラインを提案し,核分離技術の影響を強調した。 まず、SqueezとExcitation ResnetとUnetのアルゴリズムを組み合わせてセマンティックセグメンテーションを行い、背景から核を抽出する。 抽出された核は8つの幾何学的特徴と統計的特徴に基づいて重なり合う領域と非重なり合う領域に分けられる。 その後、マーカーベースの流域アルゴリズムが提案され、重なり合う領域のみに適用して核を分離する。 最後に、Resnet18を用いて各核パッチから深い特徴を抽出し、ランダム森林分類器により正または負に分類される。 提案したパイプラインの性能は、H\^opital Nord Franche-Comt\'e病院の病理学部門のデータセットで検証されている。

The Ki-67 proliferation index is an essential biomarker that helps pathologists to diagnose and select appropriate treatments. However, automatic evaluation of Ki-67 is difficult due to nuclei overlapping and complex variations in their properties. This paper proposes an integrated pipeline for accurate automatic counting of Ki-67, where the impact of nuclei separation techniques is highlighted. First, semantic segmentation is performed by combining the Squeez and Excitation Resnet and Unet algorithms to extract nuclei from the background. The extracted nuclei are then divided into overlapped and non-overlapped regions based on eight geometric and statistical features. A marker-based Watershed algorithm is subsequently proposed and applied only to the overlapped regions to separate nuclei. Finally, deep features are extracted from each nucleus patch using Resnet18 and classified into positive or negative by a random forest classifier. The proposed pipeline's performance is validated on a dataset from the Department of Pathology at H\^opital Nord Franche-Comt\'e hospital.
翻訳日:2022-03-16 15:42:37 公開日:2022-03-14
# 視聴覚的影響評価と自律自動車:応用

Audiovisual Affect Assessment and Autonomous Automobiles: Applications ( http://arxiv.org/abs/2203.07482v1 )

ライセンス: Link先を確認
Bj\"orn W. Schuller and Dagmar M. Schuller(参考訳) 感情と幅広い感情的な運転状態は、道路上の人生決定的な要素となりうる。 この側面は繰り返し検討されてきたが、自動運転車の登場は、自動車におけるコンピュータベースの感情認識の役割に新たな視点を向けている。 これには通勤中の健康状態のモニタリング、例えば運転スタイルを調整したり、情報や娯楽に適応したりするなどが含まれる。 この貢献は、課題に従って予測し、道路コンテキストにおけるマルチモーダルな"audiovisual plus x"におけるモデリングに影響を与える潜在的な道筋を提供することを目的としている。 技術的には、乗用車内の個人を全面的にモデル化し、信頼性の高いダイアリゼーションを行う。 結論として、自動影響分析は、まず選択されたユースケースで自動運転車が適用可能となるまで成熟し、最終的には議論される。

Emotion and a broader range of affective driver states can be a life decisive factor on the road. While this aspect has been investigated repeatedly, the advent of autonomous automobiles puts a new perspective on the role of computer-based emotion recognition in the car -- the passenger's one. This includes amongst others the monitoring of wellbeing during the commute such as to adjust the driving style or to adapt the info- and entertainment. This contribution aims to foresee according challenges and provide potential avenues towards affect modelling in a multimodal "audiovisual plus x" on the road context. From the technical end, this concerns holistic passenger modelling and reliable diarisation of the individuals in a vehicle. In conclusion, automated affect analysis has just matured to the point of applicability in autonomous vehicles in first selected use-cases, which will be discussed towards the end.
翻訳日:2022-03-16 15:38:14 公開日:2022-03-14
# 脚型ロボットのアジャイル操作: 予測制御アプローチ

Agile Maneuvers in Legged Robots: a Predictive Control Approach ( http://arxiv.org/abs/2203.07554v1 )

ライセンス: Link先を確認
Carlos Mastalli, Wolfgang Merkt, Guiyang Xin, Jaehyun Shim, Michael Mistry, Ioannis Havoutis, Sethu Vijayakumar(参考訳) 複数の接触フェーズを通じてアジャイルな操作を達成することは、レッグド・ロボティクスにおいて長年の課題だった。 運動モーメントの非ホロノミーを扱うためには、運動計画と局所制御フィードバックポリシーをリアルタイムで導き出す必要がある。 遠心運動量に基づく最近の予測制御アプローチは動的運動を発生させることができたが、彼らは無限の運動能力を仮定した。 この仮定は極めて限定的で、ほとんどのロボットのアジャイルな操作に固執しません。 本研究では,ロボットがアジャイルなロコモーションスキルを計画し実行できるようにする,接触位相予測および状態フィードバックコントローラを提案する。 我々の予測制御器は,ロボットの動作限界とフルダイナミックスを考慮したハイブリッドパラダイムを用いて,接触位相をモデル化する。 現実的なシナリオにおけるANYmalロボットのアジャイル操作に対するアプローチのメリットを実証する。 我々の知る限り、私たちの研究は、予測制御がアクティベーション制限を処理し、アジャイルなロコモーション操作を生成し、別のボディコントローラを使わずに、ハードウェア上でローカルに最適なフィードバックポリシーを実行することができることを示す最初のものです。

Achieving agile maneuvers through multiple contact phases has been a longstanding challenge in legged robotics. It requires to derive motion plans and local control feedback policies in real-time to handle the nonholonomy of the kinetic momenta. While a few recent predictive control approaches based on centroidal momentum have been able to generate dynamic motions, they assume unlimited actuation capabilities. This assumption is quite restrictive and does not hold for agile maneuvers on most robots. In this work, we present a contact-phase predictive and state-feedback controllers that enables legged robots to plan and perform agile locomotion skills. Our predictive controller models the contact phases using a hybrid paradigm that considers the robot's actuation limits and full dynamics. We demonstrate the benefits of our approach on agile maneuvers on ANYmal robots in realistic scenarios. To the best of our knowledge, our work is the first to show that predictive control can handle actuation limits, generate agile locomotion maneuvers and execute locally optimal feedback policies on hardware without the use of a separate whole-body controller.
翻訳日:2022-03-16 15:38:01 公開日:2022-03-14
# 焦点スタックカメラ深度推定に基づく教師なし学習

Unsupervised Learning Based Focal Stack Camera Depth Estimation ( http://arxiv.org/abs/2203.07904v1 )

ライセンス: Link先を確認
Zhengyu Huang, Weizhi Du and Theodore B. Norris(参考訳) 焦点スタックカメラ画像から深度を推定するための教師なし深度学習法を提案する。 nyu-v2データセットでは,単像法に比べて奥行き推定精度が大幅に向上した。

We propose an unsupervised deep learning based method to estimate depth from focal stack camera images. On the NYU-v2 dataset, our method achieves much better depth estimation accuracy compared to single-image based methods.
翻訳日:2022-03-16 15:10:22 公開日:2022-03-14
# 写真動物ポーズ推定器はゼロショットパフォーマーです

Panoptic animal pose estimators are zero-shot performers ( http://arxiv.org/abs/2203.07436v1 )

ライセンス: Link先を確認
Shaokai Ye and Alexander Mathis and Mackenzie Weygandt Mathis(参考訳) 動物のポーズ推定は、生命科学研究、農業、獣医学など様々な応用において重要である。 ヒトのポーズ推定と比較して、動物ポーズ推定のパフォーマンスは利用可能なデータセットのサイズとデータセット間のモデルの一般化によって制限される。 通常、異なるキーポイントは、種が同じかどうかに関わらずラベル付けされ、動物のポーズデータセットは、キーポイントと不一致または部分的に重なり合う。 その結果、データセット間のプラグアンドプレイソリューションとしてモデルを使用することはできない。 この現実は、すべてのデータセットで定義されたキーポイントを予測できる、単眼動物ポーズ推定モデルを開発する動機となります。 本研究では, 微分ラベル付きデータセットをマージして, 最大四足歩行およびラボマウスポーズデータセットを得るための, 単純かつ効果的な手法を提案する。 勾配マスキング技術を使用することで、いわゆるSuperAnimal-modelは、データセットに分散したキーポイントを予測し、強力なゼロショットパフォーマンスを示すことができる。 モデルは(擬似)微調整によってさらに改善することができる。 これらのモデルは ImageNet-initialized モデルより優れている。

Animal pose estimation is critical in applications ranging from life science research, agriculture, to veterinary medicine. Compared to human pose estimation, the performance of animal pose estimation is limited by the size of available datasets and the generalization of a model across datasets. Typically different keypoints are labeled regardless of whether the species are the same or not, leaving animal pose datasets to have disjoint or partially overlapping keypoints. As a consequence, a model cannot be used as a plug-and-play solution across datasets. This reality motivates us to develop panoptic animal pose estimation models that are able to predict keypoints defined in all datasets. In this work we propose a simple yet effective way to merge differentially labeled datasets to obtain the largest quadruped and lab mouse pose dataset. Using a gradient masking technique, so called SuperAnimal-models are able to predict keypoints that are distributed across datasets and exhibit strong zero-shot performance. The models can be further improved by (pseudo) labeled fine-tuning. These models outperform ImageNet-initialized models.
翻訳日:2022-03-16 15:09:05 公開日:2022-03-14
# skydiver - 時空間的ワークロードバランスを利用したスパイキングニューラルネットワークアクセラレータ

Skydiver: A Spiking Neural Network Accelerator Exploiting Spatio-Temporal Workload Balance ( http://arxiv.org/abs/2203.07516v1 )

ライセンス: Link先を確認
Qinyu Chen, Chang Gao, Xinyuan Fang, Haitao Luan(参考訳) スパイキングニューラルネットワーク(SNN)は、より現実的な脳に触発されたコンピューティングモデルのために、ニューラルネットワーク(ANN)の代替として開発されている。 SNNは時間とともにスパルスニューロンの発火、すなわち時空間の空間性を持っているため、エネルギー効率の良いハードウェア推論を可能にするのに有用である。 しかし、ハードウェアにおけるsnsの時空間的スパース性を利用すると予測不能でバランスの取れないワークロードが発生し、エネルギー効率が低下する。 本研究では,時空間の負荷分散を利用したFPGAベースの畳み込みSNNアクセラレータSkydiverを提案する。 そこで本研究では,相対負荷チャネル毎の予測が可能な近似比例関係構築法(aprc)とチャネルバランス負荷スケジュール法(cbws)を提案し,ハードウェア負荷バランス比を90%以上向上させる手法を提案する。 SkydiverはXilinx XC7Z045 FPGA上で実装され、画像分割とMNIST分類タスクで検証された。 その結果,両タスクのスループットは1.4倍,1.2倍向上した。 スカイダイバーは22.6 KFPSのスループットと42.4 uJ/画像予測エネルギーを98.5%の精度で達成した。

Spiking Neural Networks (SNNs) are developed as a promising alternative to Artificial Neural networks (ANNs) due to their more realistic brain-inspired computing models. SNNs have sparse neuron firing over time, i.e., spatio-temporal sparsity; thus, they are useful to enable energy-efficient hardware inference. However, exploiting spatio-temporal sparsity of SNNs in hardware leads to unpredictable and unbalanced workloads, degrading the energy efficiency. In this work, we propose an FPGA-based convolutional SNN accelerator called Skydiver that exploits spatio-temporal workload balance. We propose the Approximate Proportional Relation Construction (APRC) method that can predict the relative workload channel-wisely and a Channel-Balanced Workload Schedule (CBWS) method to increase the hardware workload balance ratio to over 90%. Skydiver was implemented on a Xilinx XC7Z045 FPGA and verified on image segmentation and MNIST classification tasks. Results show improved throughput by 1.4X and 1.2X for the two tasks. Skydiver achieved 22.6 KFPS throughput, and 42.4 uJ/Image prediction energy on the classification task with 98.5% accuracy.
翻訳日:2022-03-16 15:03:06 公開日:2022-03-14
# グラフニューラルネットワークを用いた人間活動認識のためのディープトランスファー学習

Deep Transfer Learning with Graph Neural Network for Sensor-Based Human Activity Recognition ( http://arxiv.org/abs/2203.07910v1 )

ライセンス: Link先を確認
Yan Yan, Tianzheng Liao, Jinjin Zhao, Jiahong Wang, Liang Ma, Wei Lv, Jing Xiong, and Lei Wang(参考訳) モバイルアプリケーションシナリオにおけるセンサベースのヒューマンアクティビティ認識(har)は、センサーモダリティの変化や注釈付きデータ不足に直面することが多い。 この観察から,センサベースのharタスクに対するグラフインスパイアされたディープラーニングアプローチを考案し,これら2つの課題に対する仮解を与えるための深層伝達学習モデルの構築に用いた。 具体的には,センサに基づくHARタスク,すなわちHAR-ResGCNNに対するグラフ畳み込みニューラルネットワーク(ResGCNN)の多層構造を示す。 pamap2とmhealthのデータセットにおける実験の結果は、我々のresgcnnは、他のセンサーベースのharモデル(それぞれ98.18%と99.07%の平均精度)と比較して、アクションの特性を比較できる。 さらに,resgcnnモデルを用いた深層トランスファー学習実験では,優れたトランスファー性と少数ショット学習性能を示す。 グラフベースのフレームワークは、優れたメタ学習能力を示し、センサーベースのHARタスクにおいて、有望なソリューションになるはずである。

The sensor-based human activity recognition (HAR) in mobile application scenarios is often confronted with sensor modalities variation and annotated data deficiency. Given this observation, we devised a graph-inspired deep learning approach toward the sensor-based HAR tasks, which was further used to build a deep transfer learning model toward giving a tentative solution for these two challenging problems. Specifically, we present a multi-layer residual structure involved graph convolutional neural network (ResGCNN) toward the sensor-based HAR tasks, namely the HAR-ResGCNN approach. Experimental results on the PAMAP2 and mHealth data sets demonstrate that our ResGCNN is effective at capturing the characteristics of actions with comparable results compared to other sensor-based HAR models (with an average accuracy of 98.18% and 99.07%, respectively). More importantly, the deep transfer learning experiments using the ResGCNN model show excellent transferability and few-shot learning performance. The graph-based framework shows good meta-learning ability and is supposed to be a promising solution in sensor-based HAR tasks.
翻訳日:2022-03-16 15:02:35 公開日:2022-03-14
# 物理インフォームドニューラルネットワークのトレーニングに必要な因果関係の考察

Respecting causality is all you need for training physics-informed neural networks ( http://arxiv.org/abs/2203.07404v1 )

ライセンス: Link先を確認
Sifan Wang, Shyam Sankaran, Paris Perdikaris(参考訳) 物理学インフォームドニューラルネットワーク(PINN)の人気は着実に高まっているが、これまでは、ソリューションがマルチスケール、カオス、乱流の振る舞いを示す動的システムのシミュレーションには成功していない。 本研究は、既存のPINNの定式化が、物理的システムの進化に固有の時空間的因果構造を尊重できないことに起因する。 これは基本的な制限であり、PINNモデルを誤解へと収束させる重要なエラー源であると主張する。 我々は、モデルトレーニング中の物理的因果関係を明示的に説明できるピンズ損失関数の簡単な再形成を提案することで、この病理に対処した。 この単純な修正だけでは、PINNモデルの収束を評価するための実用的な定量的メカニズムと同様に、大幅な精度向上をもたらすことができる。 カオス的ロレンツ系, カオス的体制における蔵本-シヴァシンスキー方程式, 乱流状態におけるナビエ-ストークス方程式など, 既存のピンの定式化が失敗する一連のベンチマークにおいて, 最先端の数値計算結果を提供する。 私たちの知る限りでは、PINNがそのようなシステムをシミュレートし、産業の複雑さの問題に適用可能な新たな機会を導入したのは、これが初めてです。

While the popularity of physics-informed neural networks (PINNs) is steadily rising, to this date PINNs have not been successful in simulating dynamical systems whose solution exhibits multi-scale, chaotic or turbulent behavior. In this work we attribute this shortcoming to the inability of existing PINNs formulations to respect the spatio-temporal causal structure that is inherent to the evolution of physical systems. We argue that this is a fundamental limitation and a key source of error that can ultimately steer PINN models to converge towards erroneous solutions. We address this pathology by proposing a simple re-formulation of PINNs loss functions that can explicitly account for physical causality during model training. We demonstrate that this simple modification alone is enough to introduce significant accuracy improvements, as well as a practical quantitative mechanism for assessing the convergence of a PINNs model. We provide state-of-the-art numerical results across a series of benchmarks for which existing PINNs formulations fail, including the chaotic Lorenz system, the Kuramoto-Sivashinsky equation in the chaotic regime, and the Navier-Stokes equations in the turbulent regime. To the best of our knowledge, this is the first time that PINNs have been successful in simulating such systems, introducing new opportunities for their applicability to problems of industrial complexity.
翻訳日:2022-03-16 14:59:48 公開日:2022-03-14
# ニューラルシーケンスモデルの合成一般化能力の再検討

Revisiting the Compositional Generalization Abilities of Neural Sequence Models ( http://arxiv.org/abs/2203.07402v1 )

ライセンス: Link先を確認
Arkil Patel, Satwik Bhattamishra, Phil Blunsom, Navin Goyal(参考訳) 構成的一般化は人間の基本的な特徴であり、既知のフレーズを組み合わせて新しい文を作ることができます。 最近の研究は、標準のSeq-to-seqモデルは構成的に一般化する能力に欠けていると主張している。 本稿では,SCANベンチマークで紹介されているワンショットプリミティブな一般化に着目した。 トレーニング分布をシンプルで直感的な方法で修正することで、標準的なSeq-to-seqモデルがほぼ完璧な一般化性能を達成できることを示す。 我々はこの現象の詳細な実験分析を行う。 この結果から,モデル一般化性能は,将来そのようなベンチマークを設計しながら慎重に検討すべきトレーニングデータの特徴に非常に敏感であることが示唆された。

Compositional generalization is a fundamental trait in humans, allowing us to effortlessly combine known phrases to form novel sentences. Recent works have claimed that standard seq-to-seq models severely lack the ability to compositionally generalize. In this paper, we focus on one-shot primitive generalization as introduced by the popular SCAN benchmark. We demonstrate that modifying the training distribution in simple and intuitive ways enables standard seq-to-seq models to achieve near-perfect generalization performance, thereby showing that their compositional generalization abilities were previously underestimated. We perform detailed empirical analysis of this phenomenon. Our results indicate that the generalization performance of models is highly sensitive to the characteristics of the training data which should be carefully considered while designing such benchmarks in future.
翻訳日:2022-03-16 14:59:24 公開日:2022-03-14
# 言語課題における視覚知識の活用--相互モーダル知識伝達のための中間事前学習に関する実証的研究

Leveraging Visual Knowledge in Language Tasks: An Empirical Study on Intermediate Pre-training for Cross-modal Knowledge Transfer ( http://arxiv.org/abs/2203.07519v1 )

ライセンス: Link先を確認
Woojeong Jin, Dong-Ho Lee, Chenguang Zhu, Jay Pujara and Xiang Ren(参考訳) 事前学習された言語モデルは、テキストが報告バイアスのためにそのような情報を欠いているため、現実の世界における特性(外観、測定可能な量など)の理解を必要とするタスクにおける人間のパフォーマンスとは程遠い。 本研究では,視覚知識を言語モデルに統合することでそのギャップを埋めることができるか検討する。 本研究は,視覚情報を含む画像キャプションを用いたテキスト知識転送と,視覚言語学習目的の画像とキャプションを用いたクロスモーダル知識転送の2種類の知識伝達について検討した。 この問題を解決するために視覚的な知識を必要とする5つのダウンストリームタスクについて,提案する目的に対して広範な経験的比較を行う。 実験の結果,視覚的知識伝達は低リソース環境と完全教師付き環境の両方で性能を向上できることがわかった。

Pre-trained language models are still far from human performance in tasks that need understanding of properties (e.g. appearance, measurable quantity) and affordances of everyday objects in the real world since the text lacks such information due to reporting bias. In this work, we study whether integrating visual knowledge into a language model can fill the gap. We investigate two types of knowledge transfer: (1) text knowledge transfer using image captions that may contain enriched visual knowledge and (2) cross-modal knowledge transfer using both images and captions with vision-language training objectives. On 5 downstream tasks that may need visual knowledge to solve the problem, we perform extensive empirical comparisons over the presented objectives. Our experiments show that visual knowledge transfer can improve performance in both low-resource and fully supervised settings.
翻訳日:2022-03-16 14:59:12 公開日:2022-03-14
# センス・エンベディングもバイズ化される-静的・文脈的エンベディングにおける社会的バイアスの評価

Sense Embeddings are also Biased--Evaluating Social Biases in Static and Contextualised Sense Embeddings ( http://arxiv.org/abs/2203.07523v1 )

ライセンス: Link先を確認
Yi Zhou, Masahiro Kaneko, Danushka Bollegala(参考訳) センス埋め込み学習法は、曖昧な単語の異なる感覚に対する異なる埋め込みを学習する。 曖昧な言葉の1つの感覚は社会的に偏りがあるが、他の感覚は偏りがない。 事前学習された単語埋め込みにおける社会的バイアスを評価する多くの先行研究と比較して、感覚埋め込みのバイアスは相対的に低い評価を受けている。 感覚埋め込みにおける社会的バイアスを評価するためのベンチマークデータセットを作成し,新しい感覚特異的バイアス評価尺度を提案する。 提案手法を用いて,様々な社会バイアスに対する複数の静的・文脈的感覚埋め込みの広範な評価を行う。 実験の結果,単語レベルではバイアスが見られない場合でも,感覚レベルでは社会バイアスの懸念レベルが存在し,単語レベルのバイアス評価尺度では無視されることが多かった。

Sense embedding learning methods learn different embeddings for the different senses of an ambiguous word. One sense of an ambiguous word might be socially biased while its other senses remain unbiased. In comparison to the numerous prior work evaluating the social biases in pretrained word embeddings, the biases in sense embeddings have been relatively understudied. We create a benchmark dataset for evaluating the social biases in sense embeddings and propose novel sense-specific bias evaluation measures. We conduct an extensive evaluation of multiple static and contextualised sense embeddings for various types of social biases using the proposed measures. Our experimental results show that even in cases where no biases are found at word-level, there still exist worrying levels of social biases at sense-level, which are often ignored by the word-level bias evaluation measures.
翻訳日:2022-03-16 14:58:57 公開日:2022-03-14
# 確率的既知のログのコンフォーマンスチェック

Conformance Checking Over Stochastically Known Logs ( http://arxiv.org/abs/2203.07507v1 )

ライセンス: Link先を確認
Eli Bogdanov, Izack Cohen, Avigdor Gal(参考訳) デバイス、センサ、デジタルシステムの増加に伴い、例えば、センサー読み取りの不正確性や処理プログラムによる読み取りの不正確な解釈などにより、データログが不確実になる可能性がある。 このような不確実性は確率論的に捉えることができ、特に確率的データ分類モデルを使用する場合である。 この作業では、イベントログが確率的に知られている場合、プロセスモデルとイベントログを比較したコンフォーマンスチェックに注目します。 既存のアライメントに基づく適合性チェックの基礎に基づいて、数学的に確率的トレースモデル、確率的同期積、ログ内の事象の不確かさを反映したコスト関数を定義する。 次に,確率的同期積の到達可能性グラフ上の最適アライメントを探索し,モデルと確率的プロセス観測との最適アライメントを求める。 2つのよく知られたプロセスマイニングベンチマークによる構造化実験を通じて、提案する確率的適合性チェックアプローチの振る舞いを調べ、標準的なアライメントベースのアプローチと比較し、パフォーマンスの限界を低くするアプローチと比較する。 我々は,確率的イベントログの今後の分析に有効なプロセスマイニングコンポーネントとして,確率的コンフォーマンスチェック手法を提案する。

With the growing number of devices, sensors and digital systems, data logs may become uncertain due to, e.g., sensor reading inaccuracies or incorrect interpretation of readings by processing programs. At times, such uncertainties can be captured stochastically, especially when using probabilistic data classification models. In this work we focus on conformance checking, which compares a process model with an event log, when event logs are stochastically known. Building on existing alignment-based conformance checking fundamentals, we mathematically define a stochastic trace model, a stochastic synchronous product, and a cost function that reflects the uncertainty of events in a log. Then, we search for an optimal alignment over the reachability graph of the stochastic synchronous product for finding an optimal alignment between a model and a stochastic process observation. Via structured experiments with two well-known process mining benchmarks, we explore the behavior of the suggested stochastic conformance checking approach and compare it to a standard alignment-based approach as well as to an approach that creates a lower bound on performance. We envision the proposed stochastic conformance checking approach as a viable process mining component for future analysis of stochastic event logs.
翻訳日:2022-03-16 14:56:08 公開日:2022-03-14
# VPFusion:シングル・マルチビュー3D再構成のための3Dボリュームと画素配向機能融合

VPFusion: Joint 3D Volume and Pixel-Aligned Feature Fusion for Single and Multi-view 3D Reconstruction ( http://arxiv.org/abs/2203.07553v1 )

ライセンス: Link先を確認
Jisan Mahmud, Jan-Michael Frahm(参考訳) 単一・多視点ニューラル暗黙的3次元再構成フレームワークVPFusionを導入する。 VPFusion~3D機能ボリュームを使って高品質な再構築を行い、3D構造対応コンテキストをキャプチャし、ピクセル整列画像機能を使って詳細なローカルディテールをキャプチャする。 既存のアプローチでは、RNN、フィーチャープーリング、および多視点融合のために各ビューで独立に計算された注意を使用する。 RNNは長期記憶損失と置換分散に悩まされる一方、機能プーリングや独立に計算された注意は、最終的なプーリングステップの前に他のビューに気付かないように各ビューで表現される。 対照的に、トランスフォーマーに基づくペアワイズビューアソシエーションを確立することにより、マルチビュー機能融合が改善された。 特に,異なる視点にまたがる特徴量融合のための,新たなインターリーブド3D推論とペアワイズビューアソシエーションアーキテクチャを提案する。 この構造認識およびマルチビュー認識機能ボリュームを用いて,既存の手法と比較して3次元復元性能が向上することを示す。 VPFusionは、微妙なディテールを捉えるために、ピクセルに沿ったローカル画像機能も組み込むことで、再構築品質をさらに向上する。 vpfusionの有効性をshapenetとmodelnetデータセット上で検証し、最先端のシングルおよびマルチビューの3d形状再構成法よりも優れています。

We introduce a unified single and multi-view neural implicit 3D reconstruction framework VPFusion. VPFusion~attains high-quality reconstruction using both - 3D feature volume to capture 3D-structure-aware context, and pixel-aligned image features to capture fine local detail. Existing approaches use RNN, feature pooling, or attention computed independently in each view for multi-view fusion. RNNs suffer from long-term memory loss and permutation variance, while feature pooling or independently computed attention leads to representation in each view being unaware of other views before the final pooling step. In contrast, we show improved multi-view feature fusion by establishing transformer-based pairwise view association. In particular, we propose a novel interleaved 3D reasoning and pairwise view association architecture for feature volume fusion across different views. Using this structure-aware and multi-view-aware feature volume, we show improved 3D reconstruction performance compared to existing methods. VPFusion improves the reconstruction quality further by also incorporating pixel-aligned local image features to capture fine detail. We verify the effectiveness of VPFusion~on the ShapeNet and ModelNet datasets, where we outperform or perform on-par the state-of-the-art single and multi-view 3D shape reconstruction methods.
翻訳日:2022-03-16 14:53:40 公開日:2022-03-14
# マージン・サリエンシー下の領域案内によるミックスアップを用いた事前学習言語モデルの校正について

On the Calibration of Pre-trained Language Models using Mixup Guided by Area Under the Margin and Saliency ( http://arxiv.org/abs/2203.07559v1 )

ライセンス: Link先を確認
Seo Yeon Park and Cornelia Caragea(参考訳) well-calibrated neural model は、期待される精度に密接に近似した信頼度(確率出力)を生成する。 データ強化技術としてのミックスアップトレーニングは、画像分類タスクのモデル校正を改善することができるが、自然言語理解(NLU)タスクのモデル校正にミックスアップを使うことについてはほとんど知られていない。 本稿では,複数のNLUタスクにおけるモデルキャリブレーションのミックスアップについて検討し,モデルキャリブレーションをさらに改善する事前学習言語モデルのミックスアップ戦略を提案する。 提案手法は,AUM (Area Under the Margin) 統計学 (Pleiss et al., 2020) と各試料の塩分濃度マップ (Simonyan et al., 2013) によって導かれる。 さらに,混合戦略とモデル誤校正補正手法(ラベルの平滑化と温度スケーリング)を組み合わせ,提案した混合方法への影響を詳細に分析した。 我々は,自然言語推論,パラフレーズ検出,コモンセンス推論という3つのNLUタスクに関する実験を体系的に設計することに集中する。 本手法は, 競合精度を維持しつつ, ドメイン内およびドメイン外テストサンプルの強いベースラインよりも低いキャリブレーション誤差を実現する。

A well-calibrated neural model produces confidence (probability outputs) closely approximated by the expected accuracy. While prior studies have shown that mixup training as a data augmentation technique can improve model calibration on image classification tasks, little is known about using mixup for model calibration on natural language understanding (NLU) tasks. In this paper, we explore mixup for model calibration on several NLU tasks and propose a novel mixup strategy for pre-trained language models that improves model calibration further. Our proposed mixup is guided by both the Area Under the Margin (AUM) statistic (Pleiss et al., 2020) and the saliency map of each sample (Simonyan et al.,2013). Moreover, we combine our mixup strategy with model miscalibration correction techniques (i.e., label smoothing and temperature scaling) and provide detailed analyses of their impact on our proposed mixup. We focus on systematically designing experiments on three NLU tasks: natural language inference, paraphrase detection, and commonsense reasoning. Our method achieves the lowest expected calibration error compared to strong baselines on both in-domain and out-of-domain test samples while maintaining competitive accuracy.
翻訳日:2022-03-16 13:04:34 公開日:2022-03-14
# 分散値近似を用いたマルチタスク強化学習用スイッチ軌道変換器

Switch Trajectory Transformer with Distributional Value Approximation for Multi-Task Reinforcement Learning ( http://arxiv.org/abs/2203.07413v1 )

ライセンス: Link先を確認
Qinjie Lin, Han Liu, Biswa Sengupta(参考訳) トラジェクトリ変換器のマルチタスク拡張であるSwitchTTを提案するが,2つの特徴がある。 (i)マルチタスクオフラインモデル学習における計算コスト削減のための疎活性化モデルの利用 (2)分散軌跡値推定器を採用することにより,政策性能,特にスパース報酬設定が向上する。 これら2つの強化により、switchttはマルチタスクのオフライン強化学習問題を解決するのに適しており、マルチタスクデータセットで利用可能な膨大な知識を吸収するにはモデル能力が不可欠である。 より具体的には、SwitchTTはマルチタスクポリシー学習にスイッチトランスフォーマーモデルアーキテクチャを活用し、比例計算コストなしでモデル容量を改善することができる。 また、SwitchTTは軌道値の期待よりも分布を近似し、特にスパース・リワード条件において、サンプルの複雑さの悪いモンテカルロ値推定器の効果を緩和する。 本手法は,ジムミニグリッド環境における10個のスパースワードタスクのスイートを用いて評価し,10個のタスク学習における軌道トランスフォーマの10%の改善と,最大90%のオフラインモデルトレーニング速度の向上を示す。 また, 専門家の知識を吸収するスイッチ変圧器モデルの利点と, 軌道評価における価値分布の重要性を実証した。

We propose SwitchTT, a multi-task extension to Trajectory Transformer but enhanced with two striking features: (i) exploiting a sparsely activated model to reduce computation cost in multi-task offline model learning and (ii) adopting a distributional trajectory value estimator that improves policy performance, especially in sparse reward settings. These two enhancements make SwitchTT suitable for solving multi-task offline reinforcement learning problems, where model capacity is critical for absorbing the vast quantities of knowledge available in the multi-task dataset. More specifically, SwitchTT exploits switch transformer model architecture for multi-task policy learning, allowing us to improve model capacity without proportional computation cost. Also, SwitchTT approximates the distribution rather than the expectation of trajectory value, mitigating the effects of the Monte-Carlo Value estimator suffering from poor sample complexity, especially in the sparse-reward setting. We evaluate our method using the suite of ten sparse-reward tasks from the gym-mini-grid environment.We show an improvement of 10% over Trajectory Transformer across 10-task learning and obtain up to 90% increase in offline model training speed. Our results also demonstrate the advantage of the switch transformer model for absorbing expert knowledge and the importance of value distribution in evaluating the trajectory.
翻訳日:2022-03-16 13:01:48 公開日:2022-03-14
# 多段階スクリーニング:既存パイプラインにおける公平性と最大化効率の強化

Multi Stage Screening: Enforcing Fairness and Maximizing Efficiency in a Pre-Existing Pipeline ( http://arxiv.org/abs/2203.07513v1 )

ライセンス: Link先を確認
Avrim Blum, Kevin Stangl, Ali Vakilian(参考訳) 連続スクリーニングプロセスと呼ばれる一連の分類器を用いて選択決定を行うアクターを考えてみましょう。 初期段階は応募者を除外し、最終段階においては、高価なが正確なテストが最終段階へ進む個人に適用される。 最終段階は費用がかかるため、(わずかな差があっても)ペナルティステージに異なる正の分数を持つ複数のグループが存在する場合、会社は、他のグループに対して明らかに不公平である最高精度グループのみに、最終段階(中間)のステージを適用することを自然に選択することができる。 たとえこの会社が最終ラウンドに合格した全員にインタビューする必要があったとしても、テストそのものは、あるグループの資格のある個人が他のグループの資格のある個人よりも容易に合格する特性を持つことができる。 したがって、機会の平等(各グループの資格のある個人は最終段階に到達してインタビューを受ける機会が同じである)が必要であると考える。 次に,この制約を満たした意思決定者に対して,前段階のパフォーマンスに基づいて,各段階のスクリーニングプロセスを通じて,プロモーションの確率を変更することにより,利益の最大化を目標とする。 我々は、最終段階の終わりに、選考プロセスにおける平等性を満たすアルゴリズムと、選考(適格候補を得る面接の割合)を最大化するアルゴリズムと、精度とリコールの線形結合(雇用者1人当たりの応募者数を決定するリコール)を提示する。 また, 解空間が非凸であることを示し, 精度とリコールの線形結合を最大化するために, 精度と (fptas) 近似アルゴリズムを動機付ける例を示す。 最後に,意思決定者が意思決定プロセスでグループメンバシップの使用を許可しないなど,追加の制限を加えた '価格' について議論する。

Consider an actor making selection decisions using a series of classifiers, which we term a sequential screening process. The early stages filter out some applicants, and in the final stage an expensive but accurate test is applied to the individuals that make it to the final stage. Since the final stage is expensive, if there are multiple groups with different fractions of positives at the penultimate stage (even if a slight gap), then the firm may naturally only choose to the apply the final (interview) stage solely to the highest precision group which would be clearly unfair to the other groups. Even if the firm is required to interview all of those who pass the final round, the tests themselves could have the property that qualified individuals from some groups pass more easily than qualified individuals from others. Thus, we consider requiring Equality of Opportunity (qualified individuals from each each group have the same chance of reaching the final stage and being interviewed). We then examine the goal of maximizing quantities of interest to the decision maker subject to this constraint, via modification of the probabilities of promotion through the screening process at each stage based on performance at the previous stage. We exhibit algorithms for satisfying Equal Opportunity over the selection process and maximizing precision (the fraction of interview that yield qualified candidates) as well as linear combinations of precision and recall (recall determines the number of applicants needed per hire) at the end of the final stage. We also present examples showing that the solution space is non-convex, which motivate our exact and (FPTAS) approximation algorithms for maximizing the linear combination of precision and recall. Finally, we discuss the `price of' adding additional restrictions, such as not allowing the decision maker to use group membership in its decision process.
翻訳日:2022-03-16 13:01:27 公開日:2022-03-14
# 変分オートエンコーダによるローマポッシャードの無監督クラスタリング

Unsupervised Clustering of Roman Potsherds via Variational Autoencoders ( http://arxiv.org/abs/2203.07437v1 )

ライセンス: Link先を確認
Simone Parisotto, Ninetta Leone, Carola-Bibiane Sch\"onlieb, Alessandro Launaro(参考訳) 本稿では,ローマのコモンウェア・ポッシャードの分類作業において,考古学者を支援する人工知能イメージングソリューションを提案する。 通常、それぞれのポッシャードは2次元の白黒画像として断面図で表現され、特定の考古学的発掘に関する考古学書に印刷される。 深部畳み込み変分オートエンコーダ(VAE)ネットワークの潜時空間で学習した非線形特徴の教師なし階層的クラスタリングを通して、類似したプロファイルをペアリングすることを提案する。 また,ローマン・コモンウェア・ポテリ(ROCOPOT)データベースの作成や,25のローマ陶磁器コーパスから抽出された4000以上の陶磁器プロファイル,および形状類似性の簡易検査のためのMATLAB GUIソフトウェアの作成にも貢献している。 結果は、数学と考古学の両方の観点からコメントされ、両方のコミュニティにおける新しい研究の方向性を解き明かす。

In this paper we propose an artificial intelligence imaging solution to support archaeologists in the classification task of Roman commonware potsherds. Usually, each potsherd is represented by its sectional profile as a two dimensional black-white image and printed in archaeological books related to specific archaeological excavations. The partiality and handcrafted variance of the fragments make their matching a challenging problem: we propose to pair similar profiles via the unsupervised hierarchical clustering of non-linear features learned in the latent space of a deep convolutional Variational Autoencoder (VAE) network. Our contribution also include the creation of a ROman COmmonware POTtery (ROCOPOT) database, with more than 4000 potsherds profiles extracted from 25 Roman pottery corpora, and a MATLAB GUI software for the easy inspection of shape similarities. Results are commented both from a mathematical and archaeological perspective so as to unlock new research directions in both communities.
翻訳日:2022-03-16 12:42:51 公開日:2022-03-14
# Don't Get Me Wrong: 時系列にDeep Visual Interpretationsを適用する方法

Don't Get Me Wrong: How to apply Deep Visual Interpretations to Time Series ( http://arxiv.org/abs/2203.07861v1 )

ライセンス: Link先を確認
Christoffer Loeffler, Wei-Cheng Lai, Bjoern Eskofier, Dario Zanca, Lukas Schmidt, Christopher Mutschler(参考訳) 深層学習モデルの正しい解釈と理解は多くの応用において不可欠である。 画像および自然言語処理のための説明的視覚解釈アプローチにより、ドメインの専門家はほとんどのディープラーニングモデルの検証と理解が可能になる。 しかし、直感的でなく、より多様である任意の時系列データに一般化する際には不足する。 視覚化が真の理由を説明するか、実際の特徴を捉えるかは、判断が難しい。 したがって、信頼できる品質指標を得るためには、ブラインド信頼の代わりに客観的な評価が必要です。 時系列の分類とセグメンテーションタスクのために設計された、勾配または摂動に基づくポストホック視覚解釈のための6つの直交メトリクスのフレームワークを提案する。 実験には、時系列のための一般的なニューラルネットワークアーキテクチャと9つの視覚的解釈方法が含まれる。 UCRレポジトリと複雑な実世界のデータセットからの多様なデータセットによる視覚的解釈手法の評価を行い、トレーニング中の共通正規化手法の影響について検討する。 いずれのメソッドも、常にすべてのメトリクスで他のメソッドよりも優れていないことが示されています。 私たちの洞察と推奨により、専門家はモデルや目の前のタスクに適した可視化テクニックをインフォームドで選択することができます。

The correct interpretation and understanding of deep learning models is essential in many applications. Explanatory visual interpretation approaches for image and natural language processing allow domain experts to validate and understand almost any deep learning model. However, they fall short when generalizing to arbitrary time series data that is less intuitive and more diverse. Whether a visualization explains the true reasoning or captures the real features is difficult to judge. Hence, instead of blind trust we need an objective evaluation to obtain reliable quality metrics. We propose a framework of six orthogonal metrics for gradient- or perturbation-based post-hoc visual interpretation methods designed for time series classification and segmentation tasks. An experimental study includes popular neural network architectures for time series and nine visual interpretation methods. We evaluate the visual interpretation methods with diverse datasets from the UCR repository and a complex real-world dataset, and study the influence of common regularization techniques during training. We show that none of the methods consistently outperforms any of the others on all metrics while some are ahead at times. Our insights and recommendations allow experts to make informed choices of suitable visualization techniques for the model and task at hand.
翻訳日:2022-03-16 12:42:16 公開日:2022-03-14
# 多言語・多モーダル情報を用いたBabelNetのセメム予測

Sememe Prediction for BabelNet Synsets using Multilingual and Multimodal Information ( http://arxiv.org/abs/2203.07426v1 )

ライセンス: Link先を確認
Fanchao Qi, Chuancheng Lv, Zhiyuan Liu, Xiaojun Meng, Maosong Sun, Hai-Tao Zheng(参考訳) 言語学では、セメムは言語の最小意味単位として定義される。 sememe knowledge bases (kbs) は、単語をsememeで注釈することで構築され、様々なnlpタスクにうまく適用されている。 しかし、既存のセメムkbは少数の言語しかカバーしていないため、セメムの幅広い利用を妨げている。 この問題に対処するために,多言語百科事典babelnetに基づく多言語セメムkbの構築を目的とした,babelnet synsets(spbs)のセメム予測タスクを提案する。 バベルネットシンセットのセメムを自動的に予測することによって、シンセット内の多くの言語の単語が同時にセメムアノテーションを取得する。 しかし、以前のSPBS法はBabelNetの豊富な情報を十分に活用していない。 本稿では,SPBSのためのBabelNetにおける多言語同義語,多言語グルース,画像を利用する。 我々は,この情報をエンコードし,組み合わせたマルチモーダル情報融合モデルを設計し,セメム予測を行う。 実験の結果,従来の手法(約10 MAP,F1 スコア)に比べて,モデルの性能は大幅に向上した。 この論文のコードとデータは、https://github.com/t hunlp/MSGIで入手できる。

In linguistics, a sememe is defined as the minimum semantic unit of languages. Sememe knowledge bases (KBs), which are built by manually annotating words with sememes, have been successfully applied to various NLP tasks. However, existing sememe KBs only cover a few languages, which hinders the wide utilization of sememes. To address this issue, the task of sememe prediction for BabelNet synsets (SPBS) is presented, aiming to build a multilingual sememe KB based on BabelNet, a multilingual encyclopedia dictionary. By automatically predicting sememes for a BabelNet synset, the words in many languages in the synset would obtain sememe annotations simultaneously. However, previous SPBS methods have not taken full advantage of the abundant information in BabelNet. In this paper, we utilize the multilingual synonyms, multilingual glosses and images in BabelNet for SPBS. We design a multimodal information fusion model to encode and combine this information for sememe prediction. Experimental results show the substantial outperformance of our model over previous methods (about 10 MAP and F1 scores). All the code and data of this paper can be obtained at https://github.com/t hunlp/MSGI.
翻訳日:2022-03-16 12:41:30 公開日:2022-03-14
# (参考訳) 可読性評価のためのニューラルペアワイズランキングモデル [全文訳有]

A Neural Pairwise Ranking Model for Readability Assessment ( http://arxiv.org/abs/2203.07450v1 )

ライセンス: CC BY 4.0
Justin Lee and Sowmya Vajjala(参考訳) 読み書きレベルをテキストに割り当てるタスクである可読性自動評価(ARA)は、伝統的にNLP研究において分類問題として扱われる。 本稿では,araに対する最初のニューラル・ペアワイズランキング手法を提案し,既存の分類法,回帰法,(非ニューラル)ランキング法と比較する。 我々は3つの英語、1つのフランス語、1つのスペイン語データセットで実験を行うことで、モデルの性能を確立した。 本手法は,単言語単言語/クロスコーパステストシナリオにおいて良好に動作し,英語データを用いた訓練では,フランス語とスペイン語の両方において,ゼロショットのクロスリンガルランキング精度が80%以上であることを示す。 さらに、英語とフランス語の新しい並列バイリンガル可読性データセットもリリースしました。 本報では,araに対する第1次ニューラルペアワイズランキングモデルを提案し,神経モデルを用いたaraの言語横断的ゼロショット評価の最初の結果を示す。

Automatic Readability Assessment (ARA), the task of assigning a reading level to a text, is traditionally treated as a classification problem in NLP research. In this paper, we propose the first neural, pairwise ranking approach to ARA and compare it with existing classification, regression, and (non-neural) ranking methods. We establish the performance of our model by conducting experiments with three English, one French and one Spanish datasets. We demonstrate that our approach performs well in monolingual single/cross corpus testing scenarios and achieves a zero-shot cross-lingual ranking accuracy of over 80% for both French and Spanish when trained on English data. Additionally, we also release a new parallel bilingual readability dataset in English and French. To our knowledge, this paper proposes the first neural pairwise ranking model for ARA, and shows the first results of cross-lingual, zero-shot evaluation of ARA with neural models.
翻訳日:2022-03-16 12:36:05 公開日:2022-03-14
# 言語リワードモデルの不確かさ推定

Uncertainty Estimation for Language Reward Models ( http://arxiv.org/abs/2203.07472v1 )

ライセンス: Link先を確認
Adam Gleave and Geoffrey Irving(参考訳) 言語モデルは、テキストコーパスの教師なしトレーニングからさまざまな能力を学ぶことができる。 しかし、特定の問題(テキスト要約など)を解決するには、タスク固有のデータセットでそれらを微調整する必要がある。 人間がラベル付きデータを提供するよりも選択肢を選択する方が簡単であり、事前の作業はそのような選好比較から報酬モデルをトレーニングすることで最先端のパフォーマンスを達成した。 しかし、大きな選好比較データセットの収集はいまだに高価であり、学習した報奨モデルは信頼性に欠ける。 我々は, アクティブラーニングとリスク回避強化学習(rl)を用いて, サンプル効率とロバスト性を向上させるための不確実性推定手法を提案する。 具体的には、ブートストラップ集約(バッキング)を使用して、最終層の初期化が異なる報酬モデルのアンサンブルをトレーニングします。 アンサンブルは以前から能動学習の応用に成功しているが,我々の設定では,能動学習はランダムサンプリングに勝っていない。 さらなる実験により、集合予測は良好に校正されているものの、アンサンブルの推定された疫学的不確実性はモデル誤差と弱い相関しか示されていない。 これは、アンサンブルメンバーが単一のモデルから微調整されているためであり、互いに類似しているためである。 これは、例えば複数の言語モデルをトレーニングすることによって、不確実性推定をサポートするために現在の事前学習方法を変更する必要があることを示唆している。

Language models can learn a range of capabilities from unsupervised training on text corpora. However, to solve a particular problem (such as text summarization) it is typically necessary to fine-tune them on a task-specific dataset. It is often easier for humans to choose between options than to provide labeled data, and prior work has achieved state-of-the-art performance by training a reward model from such preference comparisons. However, collecting a large preference comparison dataset is still expensive -- and the learned reward models are unreliable out-of-distribution. We seek to address these problems via uncertainty estimation, which can improve sample efficiency and robustness using active learning and risk-averse reinforcement learning (RL). Specifically, we use bootstrap aggregating (bagging) to train an ensemble of reward models differing in the initialization of their final layer. Ensembles have proved successful in prior applications of active learning, but we find that in our setting ensemble active learning does not outperform random sampling. Further experiments show that while the aggregate predictions are well-calibrated, the ensemble's estimated epistemic uncertainty is only weakly correlated with model error. We suspect this is because the ensemble members are fine-tuned from a single model and so are similar to one another. This suggests current pre-training methods will need to be modified to support uncertainty estimation, e.g. by training multiple language models.
翻訳日:2022-03-16 12:18:38 公開日:2022-03-14
# VAST: 言語モデルを文脈化するための意味論テスト

VAST: The Valence-Assessing Semantics Test for Contextualizing Language Models ( http://arxiv.org/abs/2203.07504v1 )

ライセンス: Link先を確認
Robert Wolfe, Aylin Caliskan(参考訳) vast、valence-assessing semantics testは文脈化単語埋め込み(cwes)のための新しい本質的評価タスクである。 VASTは、単語と快適さの関連付けであるvalenceを用いて、広く使われている人間の判断と単語レベルのLM意味論の対応を計測し、文脈化、トークン化、およびLM固有の幾何学の影響を調べる。 従来の研究では, GPT-2 の CWE が他の本質的評価に悪影響を及ぼすことが判明しているため, GPT-2 を主課題とし, VAST が他の 7 つのLM に有用であり,7 言語で使用できることを示す結果を含む。 GPT-2の結果から、単語の意味論は、モデル出力に近い層にコンテキストの意味論を組み込んでおり、VASTスコアは、Pearsonのrho .55 から .77 の層 11 まで、私たちのコンテキスト設定の間にばらつきがあることを示している。 また,マルチプリトークン化語は.46のピアソンのrhoを達成するレイヤ8まで意味的にエンコードされないことを示し,rhoが層0で最高となるシングルトークン化語と異なるマルチプリトークン化語のエンコードプロセスが存在することを示す。 GPT-2の上位層における単語レベルのセマンティクスよりも大きな値を持つ数個のニューロンが発見されているが、単語レベルのセマンティクスは非意味的な主成分を無効にすることで回復できる。 セマンティクスの分離後,4つの単語類似性タスクに関する関連作業の改善を通じて,LMセマンティクスを理解するためのVASTの有用性を示し,SimLex-999のスコアは.50であり,GPT-2の.45よりも優れていた。 最後に,単語群間の単語埋め込み関係の差異を比較するweatバイアステスト10のうち8つが,意味論の分離後のステレオタイプ一致バイアスを示し,lmsにおける非意味構造もバイアスを隠蔽していることを示す。

VAST, the Valence-Assessing Semantics Test, is a novel intrinsic evaluation task for contextualized word embeddings (CWEs). VAST uses valence, the association of a word with pleasantness, to measure the correspondence of word-level LM semantics with widely used human judgments, and examines the effects of contextualization, tokenization, and LM-specific geometry. Because prior research has found that CWEs from GPT-2 perform poorly on other intrinsic evaluations, we select GPT-2 as our primary subject, and include results showing that VAST is useful for 7 other LMs, and can be used in 7 languages. GPT-2 results show that the semantics of a word incorporate the semantics of context in layers closer to model output, such that VAST scores diverge between our contextual settings, ranging from Pearson's rho of .55 to .77 in layer 11. We also show that multiply tokenized words are not semantically encoded until layer 8, where they achieve Pearson's rho of .46, indicating the presence of an encoding process for multiply tokenized words which differs from that of singly tokenized words, for which rho is highest in layer 0. We find that a few neurons with values having greater magnitude than the rest mask word-level semantics in GPT-2's top layer, but that word-level semantics can be recovered by nullifying non-semantic principal components: Pearson's rho in the top layer improves from .32 to .76. After isolating semantics, we show the utility of VAST for understanding LM semantics via improvements over related work on four word similarity tasks, with a score of .50 on SimLex-999, better than the previous best of .45 for GPT-2. Finally, we show that 8 of 10 WEAT bias tests, which compare differences in word embedding associations between groups of words, exhibit more stereotype-congruent biases after isolating semantics, indicating that non-semantic structures in LMs also mask biases.
翻訳日:2022-03-16 12:18:11 公開日:2022-03-14
# コントラスト的ビジュアルセマンティクス事前学習は自然言語表現のセマンティクスを拡大する

Contrastive Visual Semantic Pretraining Magnifies the Semantics of Natural Language Representations ( http://arxiv.org/abs/2203.07511v1 )

ライセンス: Link先を確認
Robert Wolfe, Aylin Caliskan(参考訳) 画像キャプションの符号化にgpt-2アーキテクチャを適用したゼロショットマルチモーダル画像分類器であるgpt-2とclipによる文脈化英語表現の形状と意味特性を比較し,コントラスト的視覚意味事前学習の効果を検討した。 コントラスト的な視覚的セマンティックプレトレーニングは、GPT-2の文脈的単語埋め込みに見られる異方性を著しく軽減し、CLIPの単語埋め込みの層内自己相似性(単純な対側コサイン類似性)は、GPT-2の上位層では.95以上である。 CLIPワード埋め込みは、単語レベルの意味的固有の評価タスクにおいてGPT-2よりも優れており、RG65評価のための新しいコーパスベースの技術状態を達成する。 クリップはまた、文のきめ細かい意味表現も形成し、gpt-2のどの層でもrho = .45よりも大きいものに比べて、semeval-2017セマンティックテキスト類似度ベンチマークでspiermanのrho = .73を得る。 最後に、CLIP文の層内自己相似性は、層指数が増加するにつれて減少し、最上層で.25で終了する一方、EOSトークンを用いて形成されたGPT-2文の自己相似性は層上層を増加し、.97以下に落ちない。 その結果, 高い異方性は文脈化の必然的な結果であるだけでなく, 視覚表現の順序付けだけでなく, 単語レベルでも文レベルでも, 言語の意味表現の符号化にも有用であることが示唆された。

We examine the effects of contrastive visual semantic pretraining by comparing the geometry and semantic properties of contextualized English language representations formed by GPT-2 and CLIP, a zero-shot multimodal image classifier which adapts the GPT-2 architecture to encode image captions. We find that contrastive visual semantic pretraining significantly mitigates the anisotropy found in contextualized word embeddings from GPT-2, such that the intra-layer self-similarity (mean pairwise cosine similarity) of CLIP word embeddings is under .25 in all layers, compared to greater than .95 in the top layer of GPT-2. CLIP word embeddings outperform GPT-2 on word-level semantic intrinsic evaluation tasks, and achieve a new corpus-based state of the art for the RG65 evaluation, at .88. CLIP also forms fine-grained semantic representations of sentences, and obtains Spearman's rho = .73 on the SemEval-2017 Semantic Textual Similarity Benchmark with no fine-tuning, compared to no greater than rho = .45 in any layer of GPT-2. Finally, intra-layer self-similarity of CLIP sentence embeddings decreases as the layer index increases, finishing at .25 in the top layer, while the self-similarity of GPT-2 sentence embeddings formed using the EOS token increases layer-over-layer and never falls below .97. Our results indicate that high anisotropy is not an inevitable consequence of contextualization, and that visual semantic pretraining is beneficial not only for ordering visual representations, but also for encoding useful semantic representations of language, both on the word level and the sentence level.
翻訳日:2022-03-16 12:17:32 公開日:2022-03-14
# 逆学習における政策最適化の不変性と部分的不確定性

Invariance in Policy Optimisation and Partial Identifiability in Reward Learning ( http://arxiv.org/abs/2203.07475v1 )

ライセンス: Link先を確認
Joar Skalse, Matthew Farrugia-Roberts, Stuart Russell, Alessandro Abate, Adam Gleave(参考訳) 複雑な現実世界のタスクに報酬関数を設計することは困難です。 逆学習は代わりにデータから報酬関数を推論する。 しかし、複数の報酬関数は、無限のデータ極限においても、しばしばデータに等しく適合する。 以前の作業では、データソースに追加の仮定を課すことで、報酬関数が一意に回復可能であると考えることが多い。 対照的に,実演や軌道選好を含む一般的なデータソースの部分的識別性を,複数の一般的な仮定の下で形式的に特徴付ける。 この部分的識別性が,環境力学の変化を含む,政策最適化などの下流タスクに与える影響を分析した。 我々は、データソースと下流タスクを不変性によって比較するフレームワークで結果を統一し、報奨学習のためのデータソースの設計と選択に影響を及ぼす。

It's challenging to design reward functions for complex, real-world tasks. Reward learning lets one instead infer reward functions from data. However, multiple reward functions often fit the data equally well, even in the infinite-data limit. Prior work often considers reward functions to be uniquely recoverable, by imposing additional assumptions on data sources. By contrast, we formally characterise the partial identifiability of popular data sources, including demonstrations and trajectory preferences, under multiple common sets of assumptions. We analyse the impact of this partial identifiability on downstream tasks such as policy optimisation, including under changes in environment dynamics. We unify our results in a framework for comparing data sources and downstream tasks by their invariances, with implications for the design and selection of data sources for reward learning.
翻訳日:2022-03-16 12:16:35 公開日:2022-03-14
# (参考訳) MetaBalance: 補助タスクのグラディエントマグニチュード適応によるマルチタスク勧告の改善 [全文訳有]

MetaBalance: Improving Multi-Task Recommendations via Adapting Gradient Magnitudes of Auxiliary Tasks ( http://arxiv.org/abs/2203.06801v1 )

ライセンス: CC BY 4.0
Yun He, Xue Feng, Cheng Cheng, Geng Ji, Yunsong Guo, James Caverlee(参考訳) 多くのパーソナライズドレコメンデーションシナリオでは、ターゲットタスクの一般化能力は、マルチタスクネットワーク上のこのターゲットタスクと並行して追加の補助タスクで学習することで改善することができる。 しかし、この手法はしばしば深刻な最適化の不均衡問題に苦しむ。 一方、1つ以上の補助タスクは、ターゲットタスクよりも大きな影響力を持ち、ネットワークの重みも支配する可能性があるため、ターゲットタスクの推奨精度が低下する。 一方、1つ以上の補助的なタスクの影響は、目標タスクを支援するには弱すぎるかもしれない。 より難しいのは、トレーニングプロセス全体でこの不均衡が動的に変化し、同じネットワークの一部によって異なることです。 マルチタスクネットワークにおける共有パラメータを直接操作することで,補助的損失のバランスをとる手法を提案する。 具体的には、各トレーニングイテレーションにおいて、ネットワークの各部分に対して適応的に補助損失の勾配を慎重に縮小または拡大し、目標損失の勾配に近い大きさにし、補助タスクが目標タスクを支配するほど強くなり、目標タスクを助けるには弱すぎることを防止する。 さらに、勾配グレード間の近接性は、異なるシナリオにMetaBalanceを適用するために柔軟に調整できる。 実験の結果,提案手法はNDCG@10で8.34%の大幅な改善を実現し,実世界の2つのデータセット上で最強のベースラインを達成できた。 このアプローチのコードはこちらで確認できる。 https://github.com/f acebookresearch/Meta Balance

In many personalized recommendation scenarios, the generalization ability of a target task can be improved via learning with additional auxiliary tasks alongside this target task on a multi-task network. However, this method often suffers from a serious optimization imbalance problem. On the one hand, one or more auxiliary tasks might have a larger influence than the target task and even dominate the network weights, resulting in worse recommendation accuracy for the target task. On the other hand, the influence of one or more auxiliary tasks might be too weak to assist the target task. More challenging is that this imbalance dynamically changes throughout the training process and varies across the parts of the same network. We propose a new method: MetaBalance to balance auxiliary losses via directly manipulating their gradients w.r.t the shared parameters in the multi-task network. Specifically, in each training iteration and adaptively for each part of the network, the gradient of an auxiliary loss is carefully reduced or enlarged to have a closer magnitude to the gradient of the target loss, preventing auxiliary tasks from being so strong that dominate the target task or too weak to help the target task. Moreover, the proximity between the gradient magnitudes can be flexibly adjusted to adapt MetaBalance to different scenarios. The experiments show that our proposed method achieves a significant improvement of 8.34% in terms of NDCG@10 upon the strongest baseline on two real-world datasets. The code of our approach can be found at here: https://github.com/f acebookresearch/Meta Balance
翻訳日:2022-03-16 05:15:45 公開日:2022-03-14
# (参考訳) SuperPERB-SG: セマンティックおよび生成機能のための拡張音声処理ユニバーサルパフォーマンスベンチマーク [全文訳有]

SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark for Semantic and Generative Capabilities ( http://arxiv.org/abs/2203.06849v1 )

ライセンス: CC BY 4.0
Hsiang-Sheng Tsai, Heng-Jui Chang, Wen-Chin Huang, Zili Huang, Kushal Lakhotia, Shu-wen Yang, Shuyan Dong, Andy T. Liu, Cheng-I Jeff Lai, Jiatong Shi, Xuankai Chang, Phil Hall, Hsuan-Jui Chen, Shang-Wen Li, Shinji Watanabe, Abdelrahman Mohamed, Hung-yi Lee(参考訳) 近年の言語・自然言語処理研究の進展にトランスファーラーニングが不可欠であることが証明されている。 音声では、自己教師付き学習で事前学習されたモデルが、複数のタスクで著しく良好に動作します。 しかしながら、一貫した評価方法論の欠如は、そのようなモデルの有効性を総合的に理解することへの制限である。 SUPERBは、様々な音声タスクで事前訓練されたモデルを評価するための共通のベンチマークを導入するためのステップであった。 本稿では,SUPERBよりもタスクの多様性と難易度を増大させることにより,事前学習モデルの意味と生成能力を評価する新しいベンチマークであるSUPERB-SGを紹介する。 私たちは、データドメインの変化とさまざまなタイプのタスクにおける品質の下で、事前訓練されたモデルによって学習される表現の堅牢性をテストするために、軽量な方法論を使用します。 トレーニング済みのモデルパラメータを凍結し、単純なタスク固有のトレーニング可能なヘッドのみを使用する。 目標は、すべての研究者を包含し、計算資源の効率的な利用を促進することである。 また,SUPERB-SGのタスク多様性とタスク監督の限定が,モデル表現の一般化性を評価する効果的な方法であることを示す。

Transfer learning has proven to be crucial in advancing the state of speech and natural language processing research in recent years. In speech, a model pre-trained by self-supervised learning transfers remarkably well on multiple tasks. However, the lack of a consistent evaluation methodology is limiting towards a holistic understanding of the efficacy of such models. SUPERB was a step towards introducing a common benchmark to evaluate pre-trained models across various speech tasks. In this paper, we introduce SUPERB-SG, a new benchmark focused on evaluating the semantic and generative capabilities of pre-trained models by increasing task diversity and difficulty over SUPERB. We use a lightweight methodology to test the robustness of representations learned by pre-trained models under shifts in data domain and quality across different types of tasks. It entails freezing pre-trained model parameters, only using simple task-specific trainable heads. The goal is to be inclusive of all researchers, and encourage efficient use of computational resources. We also show that the task diversity of SUPERB-SG coupled with limited task supervision is an effective recipe for evaluating the generalizability of model representation.
翻訳日:2022-03-16 04:53:41 公開日:2022-03-14
# (参考訳) 帰属に基づく説明の安定性再考 [全文訳有]

Rethinking Stability for Attribution-based Explanations ( http://arxiv.org/abs/2203.06877v1 )

ライセンス: CC BY 4.0
Chirag Agarwal, Nari Johnson, Martin Pawelczyk, Satyapriya Krishna, Eshika Saxena, Marinka Zitnik, and Himabindu Lakkaraju(参考訳) 帰属に基づく説明手法は、高次の状況においてモデルの信頼性を確立するためにますます使われており、入力に対する無限小摂動に対して頑健なような、これらの説明が安定であることを保証することが重要である。 しかし、従来の研究では、最先端の説明手法が不安定な説明を生成することが示されている。 本稿では,説明の安定性を定量化する指標を紹介し,いくつかの一般的な説明法が不安定であることを示す。 特に,基礎となる予測器の入力,モデル表現,出力の変化に関して,出力説明の変化を測定する新しい相対安定性指標を提案する。 最後に、実世界の3つのデータセットによる実験評価により、7つの説明方法と異なる安定性指標に関する興味深い洞察が得られた。

As attribution-based explanation methods are increasingly used to establish model trustworthiness in high-stakes situations, it is critical to ensure that these explanations are stable, e.g., robust to infinitesimal perturbations to an input. However, previous works have shown that state-of-the-art explanation methods generate unstable explanations. Here, we introduce metrics to quantify the stability of an explanation and show that several popular explanation methods are unstable. In particular, we propose new Relative Stability metrics that measure the change in output explanation with respect to change in input, model representation, or output of the underlying predictor. Finally, our experimental evaluation with three real-world datasets demonstrates interesting insights for seven explanation methods and different stability metrics.
翻訳日:2022-03-16 04:37:01 公開日:2022-03-14
# (参考訳) 注意に基づくメモリ・ビデオ・ポートレート・マッティング [全文訳有]

Attention based Memory video portrait matting ( http://arxiv.org/abs/2203.06890v1 )

ライセンス: CC BY 4.0
Shufeng Song(参考訳) そこで我々は,アテンション機構に基づく新しいトリマップフリービデオマッチング手法を提案する。 問題の性質から、既存のほとんどのアプローチでは、時間情報を完全に活用するために複数の計算拡張モジュールまたは複雑なアルゴリズムを使用する。 我々は,現在のフレームとその2つのフレーム間の時間的コヒーレンスを計算するために,時間的アグリゲーションモジュールを設計した。

We proposed a novel trimap free video matting method based on the attention mechanism. By the nature of the problem, most existing approaches use either multiple computational expansive modules or complex algorithms to exploit temporal information fully. We designed a temporal aggregation module to compute the temporal coherence between the current frame and its two previous frames.
翻訳日:2022-03-16 04:25:55 公開日:2022-03-14
# (参考訳) less is more: nasアプローチにおけるプロキシデータセット [全文訳有]

Less is More: Proxy Datasets in NAS approaches ( http://arxiv.org/abs/2203.06905v1 )

ライセンス: CC BY 4.0
Brian Moser, Federico Raue, J\"orn Hees, Andreas Dengel(参考訳) neural architecture search (nas)は、ニューラルネットワークの設計を検索問題として定義する。 残念なことに、NASは設計における要素の数とそれら間の接続の可能性によって様々な可能性のために計算集約されている。 本研究では,データセットサイズ(教師なしかつ教師なしの場合)を検索時間を削減する手法として,いくつかのサンプリング手法に基づき,データセットサイズの役割を広範囲に分析した。 これらの手法をNAS-Bench-201の4つの一般的なNAS手法と比較した。 驚くべき発見の1つは、ほとんどの場合、トレーニングデータの量を25\%に削減し、その結果、検索時間を25\%に削減できると同時に、フルデータセットでのトレーニングと同じ精度を維持することができることです。 さらに、サブセットから派生したいくつかの設計は、完全なデータセットから派生した設計を最大22の精度で出力する。

Neural Architecture Search (NAS) defines the design of Neural Networks as a search problem. Unfortunately, NAS is computationally intensive because of various possibilities depending on the number of elements in the design and the possible connections between them. In this work, we extensively analyze the role of the dataset size based on several sampling approaches for reducing the dataset size (unsupervised and supervised cases) as an agnostic approach to reduce search time. We compared these techniques with four common NAS approaches in NAS-Bench-201 in roughly 1,400 experiments on CIFAR-100. One of our surprising findings is that in most cases we can reduce the amount of training data to 25\%, consequently reducing search time to 25\%, while at the same time maintaining the same accuracy as if training on the full dataset. Additionally, some designs derived from subsets out-perform designs derived from the full dataset by up to 22 p.p. accuracy.
翻訳日:2022-03-16 04:16:02 公開日:2022-03-14
# (参考訳) DS3-Net:多モードMRI合成ネットワーク [全文訳有]

DS3-Net: Difficulty-perceived Common-to-T1ce Semi-Supervised Multimodal MRI Synthesis Network ( http://arxiv.org/abs/2203.06920v1 )

ライセンス: CC0 1.0
Ziqi Huang, Li Lin, Pujin Cheng, Kai Pan, Xiaoying Tang(参考訳) 造影T1(Contrast-enhanced T1ce)は、脳腫瘍、特にグリオーマの診断と解析に最も必須な磁気共鳴画像(MRI)の1つである。 臨床実践では、T1, T2, および流体減衰インバージョンリカバリのような一般的なMRIモダリティは比較的容易にアクセスでき、一方T1ceはコントラスト剤に対するアレルギーの追加コストと潜在的なリスクを考慮して、より困難である。 したがって、他の共通モダリティからT1ceを合成する方法を開発することは、非常に臨床的に必要である。 現在のペア画像翻訳法は、通常、大量のペアデータを必要とする問題があり、合成過程において、腫瘍領域のような特定の関心領域に焦点を当てない。 これらの問題に対処するために,2段階の知識蒸留を伴うペアデータとアンペアデータを含む,難易度の高い半スーパービジョン型マルチモーダルMRI合成ネットワーク(DS3-Net)を提案する。 DS3-Netは、合成タスクを段階的に促進する難易度マップを予測する。 具体的には、予測難易度マップにより、画素方向の制約とパッチ方向のコントラスト性のある制約を導出する。 公開されているBraTS2020データセットに関する広範な実験を通じて、DS3-Netは各点で教師付きデータセットよりも優れています。 さらに、5%のペアデータしか持たないDS3-Netは、100%ペアデータを利用した最先端画像翻訳手法と競合し、平均SSIMが0.8947、平均PSNRが23.60となる。

Contrast-enhanced T1 (T1ce) is one of the most essential magnetic resonance imaging (MRI) modalities for diagnosing and analyzing brain tumors, especially gliomas. In clinical practice, common MRI modalities such as T1, T2, and fluid attenuation inversion recovery are relatively easy to access while T1ce is more challenging considering the additional cost and potential risk of allergies to the contrast agent. Therefore, it is of great clinical necessity to develop a method to synthesize T1ce from other common modalities. Current paired image translation methods typically have the issue of requiring a large amount of paired data and do not focus on specific regions of interest, e.g., the tumor region, in the synthesization process. To address these issues, we propose a Difficulty-perceived common-to-T1ce Semi-Supervised multimodal MRI Synthesis network (DS3-Net), involving both paired and unpaired data together with dual-level knowledge distillation. DS3-Net predicts a difficulty map to progressively promote the synthesis task. Specifically, a pixelwise constraint and a patchwise contrastive constraint are guided by the predicted difficulty map. Through extensive experiments on the publiclyavailable BraTS2020 dataset, DS3-Net outperforms its supervised counterpart in each respect. Furthermore, with only 5% paired data, the proposed DS3-Net achieves competitive performance with state-of-theart image translation methods utilizing 100% paired data, delivering an average SSIM of 0.8947 and an average PSNR of 23.60.
翻訳日:2022-03-16 04:03:23 公開日:2022-03-14
# (参考訳) オープンドメイン質問応答におけるハイパーリンクによる経路検索事前学習 [全文訳有]

Hyperlink-induced Pre-training for Passage Retrieval in Open-domain Question Answering ( http://arxiv.org/abs/2203.06942v1 )

ライセンス: CC BY 4.0
Jiawei Zhou, Xiaoguang Li, Lifeng Shang, Lan Luo, Ke Zhan, Enrui Hu, Xinyu Zhang, Hao Jiang, Zhao Cao, Fan Yu, Xin Jiang, Qun Liu, Lei Chen(参考訳) 訓練質問応答システムにおけるデータ不足問題を軽減するため,近年の研究では,高密度経路探索(DPR)のための中間的事前学習を提案する。 しかし、提供された上流信号と下流の問合せ関連性との間には大きな違いが残っており、改善は少ない。 このギャップを埋めるために、Webドキュメント内のハイパーリンクベースのトポロジによって引き起こされるテキスト関連性を用いて、高密度検索者の事前学習を行うHyperLink-induced Pre-training (HLP)を提案する。 双対リンクとコメンテーションのハイパーリンクに基づく構造は,下流経路の検索をより容易な大規模事前学習に有効な関連信号を提供できることを示す。 我々は、ゼロショット、少数ショット、マルチホップ、ドメイン外シナリオの下で、幅広いオープンドメインqaデータセットにわたるアプローチの有効性を調べます。 実験の結果,HLPはBM25を最大7点,事前学習法を10点以上,ゼロショットシナリオ下では上位20点の精度で上回っていることがわかった。 さらに、HLPは他のシナリオでの事前学習方法よりも大幅に優れています。

To alleviate the data scarcity problem in training question answering systems, recent works propose additional intermediate pre-training for dense passage retrieval (DPR). However, there still remains a large discrepancy between the provided upstream signals and the downstream question-passage relevance, which leads to less improvement. To bridge this gap, we propose the HyperLink-induced Pre-training (HLP), a method to pre-train the dense retriever with the text relevance induced by hyperlink-based topology within Web documents. We demonstrate that the hyperlink-based structures of dual-link and co-mention can provide effective relevance signals for large-scale pre-training that better facilitate downstream passage retrieval. We investigate the effectiveness of our approach across a wide range of open-domain QA datasets under zero-shot, few-shot, multi-hop, and out-of-domain scenarios. The experiments show our HLP outperforms the BM25 by up to 7 points as well as other pre-training methods by more than 10 points in terms of top-20 retrieval accuracy under the zero-shot scenario. Furthermore, HLP significantly outperforms other pre-training methods under the other scenarios.
翻訳日:2022-03-16 03:53:32 公開日:2022-03-14
# (参考訳) 神経スパース線形解法に向けて [全文訳有]

Towards Neural Sparse Linear Solvers ( http://arxiv.org/abs/2203.06944v1 )

ライセンス: CC BY 4.0
Luca Grementieri and Paolo Galeone(参考訳) 大きなスパース対称線形系は有限要素法(FEM)が広く用いられているため、科学と工学のいくつかの分野に現れる。 最も速いスパース線形解法はハイブリッド反復法を実装している。 これらの方法は、行や列をパーミュレートしたり、プレコンディショナ行列を見つけるためのヒューリスティックアルゴリズムに基づいている。 さらに、これらは本質的にシーケンシャルであり、GPU処理能力を完全に活用できない。 本稿では,疎対称線形系の近似解法を学ぶための深層学習フレームワークであるneural sparse linear solversを提案する。 我々の手法はスパース対称線形系を無向重み付きグラフとして表現することに依存する。 このようなグラフ表現は本質的に置換同変でスケール不変であり、解を回帰するために訓練されたグラフニューラルネットワークへの入力となる。 構造工学から静的線形解析問題に対するニューラルネットワークスパース線形解法をテストする。 提案手法は従来のアルゴリズムよりも精度が低いが,ハードウェアに依存しず,GPU上で高速であり,余分な仮説のない汎用スパース対称システムに適用可能である。 多くの制限が残っているが、この研究はグラフニューラルネットワークを用いた疎対称行列問題に対する一般的なアプローチを示している。

Large sparse symmetric linear systems appear in several branches of science and engineering thanks to the widespread use of the finite element method (FEM). The fastest sparse linear solvers available implement hybrid iterative methods. These methods are based on heuristic algorithms to permute rows and columns or find a preconditioner matrix. In addition, they are inherently sequential, making them unable to leverage the GPU processing power entirely. We propose neural sparse linear solvers, a deep learning framework to learn approximate solvers for sparse symmetric linear systems. Our method relies on representing a sparse symmetric linear system as an undirected weighted graph. Such graph representation is inherently permutation-equivari ant and scale-invariant, and it can become the input to a graph neural network trained to regress the solution. We test neural sparse linear solvers on static linear analysis problems from structural engineering. Our method is less accurate than classic algorithms, but it is hardware-independent , fast on GPUs, and applicable to generic sparse symmetric systems without any additional hypothesis. Although many limitations remain, this study shows a general approach to tackle problems involving sparse symmetric matrices using graph neural networks.
翻訳日:2022-03-16 03:34:49 公開日:2022-03-14
# (参考訳) XYLayoutLM:ビジュアルリッチ文書理解のためのレイアウト対応マルチモーダルネットワーク

XYLayoutLM: Towards Layout-Aware Multimodal Networks For Visually-Rich Document Understanding ( http://arxiv.org/abs/2203.06947v1 )

ライセンス: CC BY 4.0
Zhangxuan Gu, Changhua Meng, Ke Wang, Jun Lan, Weiqiang Wang, Ming Gu, Liqing Zhang(参考訳) 近年,ビジュアル・リッチ文書理解(VRDU)のための様々なマルチモーダルネットワークが提案されている。 しかし,既存の手法の多くは,ocrツールによる不適切な読み出し順序を無視し,シーケンス情報を取り込む位置埋め込みを用いる。 本稿では,Augmented XY Cut が生成する適切な読み出し順序から,リッチなレイアウト情報を取り込み,活用するための,XYLayoutLM というロバストなレイアウト対応マルチモーダルネットワークを提案する。 さらに、可変長の入力シーケンスを扱うために拡張条件位置符号化モジュールを提案し、さらに位置埋め込みを生成しながら、テキストと視覚の両方から局所レイアウト情報を抽出する。 実験の結果,XYLayoutLMは文書理解タスクにおける競合的な結果が得られることがわかった。

Recently, various multimodal networks for Visually-Rich Document Understanding(VRDU) have been proposed, showing the promotion of transformers by integrating visual and layout information with the text embeddings. However, most existing approaches utilize the position embeddings to incorporate the sequence information, neglecting the noisy improper reading order obtained by OCR tools. In this paper, we propose a robust layout-aware multimodal network named XYLayoutLM to capture and leverage rich layout information from proper reading orders produced by our Augmented XY Cut. Moreover, a Dilated Conditional Position Encoding module is proposed to deal with the input sequence of variable lengths, and it additionally extracts local layout information from both textual and visual modalities while generating position embeddings. Experiment results show that our XYLayoutLM achieves competitive results on document understanding tasks.
翻訳日:2022-03-16 03:18:03 公開日:2022-03-14
# (参考訳) 水中魚の生息環境モニタリングのための深層学習 [全文訳有]

Deep Learning for Underwater Fish-Habitat Monitoring: A Survey ( http://arxiv.org/abs/2203.06951v1 )

ライセンス: CC BY 4.0
Alzayat Saleh, Marcus Sheaves, Mostafa Rahimi Azghadi(参考訳) 海洋科学者は、水中のビデオ記録を使って、自然の生息地の魚種を調査します。 これは、魚類が気候変動や生息地の減少、漁業の圧力にどう反応するかを理解し予測するのに役立ちます。 この情報は人的消費のための持続可能な漁業開発と環境保全に不可欠である。 しかし、収集された膨大な量のビデオは、有用な情報を抽出し、人間の作業に時間を要する。 この問題を解決するための有望な方法は最先端のDeep Learning (DL)技術であり、DLは海洋科学者が大量の映像を迅速かつ効率的に解析し、従来の手動モニタリング手法では得られないニッチな情報を解き放つのに役立つ。 本稿では,魚の生息環境モニタリングに関する文献を水中魚の分類に焦点をあてて紹介しながら,DLの重要概念の概要について述べる。 また,水中画像処理におけるDL開発における主な課題についても論じ,それに対応するためのアプローチを提案する。 最後に,海洋生息環境モニタリング研究領域への洞察を提供し,水中画像処理におけるdlの将来像を明らかにする。 本研究の目的は, 海洋科学者が, dlベースの水中魚類生息環境モニタリングの文献を調査したいコンピュータ科学者に対して, dlを応用したい, 幅広い読者に知らせることである。

Marine scientists use remote underwater video recording to survey fish species in their natural habitats. This helps them understand and predict how fish respond to climate change, habitat degradation, and fishing pressure. This information is essential for developing sustainable fisheries for human consumption, and for preserving the environment. However, the enormous volume of collected videos makes extracting useful information a daunting and time-consuming task for a human. A promising method to address this problem is the cutting-edge Deep Learning (DL) technology.DL can help marine scientists parse large volumes of video promptly and efficiently, unlocking niche information that cannot be obtained using conventional manual monitoring methods. In this paper, we provide an overview of the key concepts of DL, while presenting a survey of literature on fish habitat monitoring with a focus on underwater fish classification. We also discuss the main challenges faced when developing DL for underwater image processing and propose approaches to address them. Finally, we provide insights into the marine habitat monitoring research domain and shed light on what the future of DL for underwater image processing may hold. This paper aims to inform a wide range of readers from marine scientists who would like to apply DL in their research to computer scientists who would like to survey state-of-the-art DL-based underwater fish habitat monitoring literature.
翻訳日:2022-03-16 03:17:07 公開日:2022-03-14
# (参考訳) UniVIP: 自己監督型ビジュアル事前トレーニングのための統一フレームワーク [全文訳有]

UniVIP: A Unified Framework for Self-Supervised Visual Pre-training ( http://arxiv.org/abs/2203.06965v1 )

ライセンス: CC BY 4.0
Zhaowen Li, Yousong Zhu, Fan Yang, Wei Li, Chaoyang Zhao, Yingying Chen, Zhiyang Chen, Jiahao Xie, Liwei Wu, Rui Zhao, Ming Tang, Jinqiao Wang(参考訳) 自己教師付き学習(SSL)は、大量のラベルのないデータを活用することを約束する。 しかし、一般的なSSLメソッドの成功は、ImageNetのような単一中心オブジェクトの画像に限られており、シーンとインスタンス間の相関やシーン内のインスタンスの意味的な違いを無視している。 この問題に対処するため,我々は,単一中心オブジェクトと非イコニックデータセットのどちらでも汎用的な視覚表現を学ぶための,新しい自己教師付き視覚前訓練(univip)を提案する。 このフレームワークは、表現学習を3つのレベルで考慮します。 1)シーンシーンの類似性 2)シーン・インスティスタンスの相関 3) インスタンスインスタンスの識別。 学習中に、インスタンスの識別を自動的に計測する最適な輸送アルゴリズムを採用する。 大規模実験により, 画像分類, 半教師あり学習, 物体検出, セグメンテーションなど, さまざまな下流タスクにおいて, 最先端の伝達性能を実現することができた。 さらに,本手法では,イメージネットやBYOLのような単一中心オブジェクトのデータセットを線形探索において同一の事前学習エポックで2.5%向上させ,COCOデータセット上の現在の自己教師対象検出手法を超越し,その普遍性と可能性を示す。

Self-supervised learning (SSL) holds promise in leveraging large amounts of unlabeled data. However, the success of popular SSL methods has limited on single-centric-objec t images like those in ImageNet and ignores the correlation among the scene and instances, as well as the semantic difference of instances in the scene. To address the above problems, we propose a Unified Self-supervised Visual Pre-training (UniVIP), a novel self-supervised framework to learn versatile visual representations on either single-centric-objec t or non-iconic dataset. The framework takes into account the representation learning at three levels: 1) the similarity of scene-scene, 2) the correlation of scene-instance, 3) the discrimination of instance-instance. During the learning, we adopt the optimal transport algorithm to automatically measure the discrimination of instances. Massive experiments show that UniVIP pre-trained on non-iconic COCO achieves state-of-the-art transfer performance on a variety of downstream tasks, such as image classification, semi-supervised learning, object detection and segmentation. Furthermore, our method can also exploit single-centric-objec t dataset such as ImageNet and outperforms BYOL by 2.5% with the same pre-training epochs in linear probing, and surpass current self-supervised object detection methods on COCO dataset, demonstrating its universality and potential.
翻訳日:2022-03-16 02:41:05 公開日:2022-03-14
# (参考訳) 奥行き直交単位ニューラルネットワークを用いたパラメトリック偏微分方程式の解法 [全文訳有]

Solving parametric partial differential equations with deep rectified quadratic unit neural networks ( http://arxiv.org/abs/2203.06973v1 )

ライセンス: CC BY 4.0
Zhen Lei, Lei Shi, Chenyu Zeng(参考訳) パラメトリック偏微分方程式(PDE)の解写像を学習するためのディープニューラルネットワークの実装は、多くの従来の数値法よりも効率的であることが判明した。 しかし、このアプローチでは限定的な理論解析が行われている。 本研究では、パラメトリックPDEの解マップを近似するための深部修正二次単位(ReQU)ニューラルネットワークの表現力について検討する。 g. kutyniok, p. petersen, m. raslan and r. schneider (gitta kutyniok, philipp petersen, mones raslan, reinhold schneider. a theory analysis of deep neural networks and parametric pdes. constructionive approximation, pages 1-53, 2021) によるパラメトリックpdesの解法。 reluニューラルネットワークに対して、以前確立された複雑性境界である$\mathcal{o}\left(d^3\log_{2}^{q}(1/ \epsilon) \right)$とは対照的に、解の正確性を達成するのに必要な深層requニューラルネットワークのサイズに対して、$d$が解を表す基底の縮小次元である$\mathcal{o}\left(d^3\log_{2}^{q}\log_{2}(1/ \epsilon) \right)$が導出される。 本手法は,解多様体の固有低次元性と深部ReQUニューラルネットワークの近似性能をフル活用する。 理論結果を検証するために数値実験を行う。

Implementing deep neural networks for learning the solution maps of parametric partial differential equations (PDEs) turns out to be more efficient than using many conventional numerical methods. However, limited theoretical analyses have been conducted on this approach. In this study, we investigate the expressive power of deep rectified quadratic unit (ReQU) neural networks for approximating the solution maps of parametric PDEs. The proposed approach is motivated by the recent important work of G. Kutyniok, P. Petersen, M. Raslan and R. Schneider (Gitta Kutyniok, Philipp Petersen, Mones Raslan, and Reinhold Schneider. A theoretical analysis of deep neural networks and parametric pdes. Constructive Approximation, pages 1-53, 2021), which uses deep rectified linear unit (ReLU) neural networks for solving parametric PDEs. In contrast to the previously established complexity-bound $\mathcal{O}\left(d^3\log_{2}^{q}(1/ \epsilon) \right)$ for ReLU neural networks, we derive an upper bound $\mathcal{O}\left(d^3\log_{2}^{q}\log_{2}(1/ \epsilon) \right)$ on the size of the deep ReQU neural network required to achieve accuracy $\epsilon>0$, where $d$ is the dimension of reduced basis representing the solutions. Our method takes full advantage of the inherent low-dimensionality of the solution manifolds and better approximation performance of deep ReQU neural networks. Numerical experiments are performed to verify our theoretical result.
翻訳日:2022-03-16 02:21:50 公開日:2022-03-14
# (参考訳) TROPOMI衛星データによる個々の船舶からのNO2噴煙の観測 [全文訳有]

Supervised segmentation of NO2 plumes from individual ships using TROPOMI satellite data ( http://arxiv.org/abs/2203.06993v1 )

ライセンス: CC BY 4.0
Solomiia Kurchaba, Jasper van Vliet, Fons J. Verbeek, Jacqueline J. Meulman, Cor J. Veenman(参考訳) 2021年以降、国際海事機関はバルト海と北海に入る船舶の排出要求額を$\text{NO}_\text{x}$で大幅に締め込んだ。 現在、船舶のコンプライアンス監視に使用されているすべての手法は費用がかかり、船に近付く必要があるため、排出基準の履行をグローバルかつ継続的に監視することは、これまで不可能であった。 有望なアプローチは、最近打ち上げられたTROPOMI/S5P衛星によるリモートセンシングである。 前例のない高い空間解像度のため、個々の船の$\text{NO}_\text{2}$ plumesを視覚的に区別することができる。 TROPOMIデータに基づくコンプライアンス監視システムを成功させるためには、個々の船に対する$\text{NO}_\text{2}$の帰属のための自動手順を開発する必要がある。 しかし、信号対雑音比が極端に低いため、他の(しばしばより強い)音源からの信号との干渉、地上の真実の欠如により、この作業は非常に困難である。 本研究では, トロポミ衛星データを用いて, 個々の船舶が生産する羽根の分節化の自動化手法を提案する。 各種船舶の風力特性と空間特性に基づく多変量配管分割法を開発した。 このために、我々は、スケールと方向に関して正規化する船舶セクターである関心領域を自動的に定義することを提案する。 私たちはデータセットを作成し、各ピクセルには各船のプルームに属するラベルがある。 線形および非線形の5つの分類器を訓練する。 その結果,しきい値ベースラインよりも有意に改善した。 さらに, セグメンテーションされたプラムの集合された$\text{NO}_\text{2}$レベルは, 船の排出ポテンシャルの理論的に導出された測定値と高い相関を示す。

Starting from 2021, the International Maritime Organization significantly tightened the $\text{NO}_\text{x}$ emission requirements for ships entering the Baltic and North Sea waters. Since all methods currently used for the ships' compliance monitoring are costly and require proximity to the ship, the performance of a global and continuous monitoring of the emission standards' fulfillment has been impossible up to now. A promising approach is the use of remote sensing with the recently launched TROPOMI/S5P satellite. Due to its unprecedentedly high spatial resolution, it allows for the visual distinction of $\text{NO}_\text{2}$ plumes of individual ships. To successfully deploy a compliance monitoring system that is based on TROPOMI data, an automated procedure for the attribution of $\text{NO}_\text{2}$ to individual ships has to be developed. However, due to the extremely low signal-to-noise ratio, interference with the signal from other - often stronger - sources, and the absence of ground truth, the task is very challenging. In this study, we present an automated method for segmentation of plumes produced by individual ships using TROPOMI satellite data - a first step towards the automated procedure for global ship compliance monitoring. We develop a multivariate plume segmentation method based on various ships', wind's and spatial properties. For this, we propose to automatically define a region of interest - a ship sector that we normalize with respect to scale and orientation. We create a dataset, where each pixel has a label for belonging to the respective ship plume or not. We train five linear and nonlinear classifiers. The results show a significant improvement over the threshold-based baselines. Moreover, the aggregated $\text{NO}_\text{2}$ levels of the segmented plumes show high correlation with the theoretically derived measure of ship's emission potential.
翻訳日:2022-03-16 01:30:42 公開日:2022-03-14
# (参考訳) クロスビュー予測:ハイパースペクトル画像分類におけるコントラスト特徴の探索 [全文訳有]

Cross-View-Predictio n: Exploring Contrastive Feature for Hyperspectral Image Classification ( http://arxiv.org/abs/2203.07000v1 )

ライセンス: CC BY 4.0
Haotian Wu, Anyu Zhang and Zeyu Cao(参考訳) 本稿では,ハイパースペクトル画像分類のための自己教師付き特徴学習手法を提案する。 本手法は,クロス表現学習手法を用いて,生のハイパースペクトル画像の2つの異なるビューを構築することを試みる。 そして、コントラスト学習法による生成したビュー上で意味論的に一貫した表現を学ぶ。 具体的には,ハイパースペクトルデータの高次元特性をビュー構築に活用するために,4つのクロスチャネル推定に基づく拡張法を自然に設計する。 そして, 相互情報の最大化と, コントラストネットワークからの異なる視点における条件エントロピーの最小化により, より優れた代表的特徴を学習する。 この 'Cross-View-Predicton ' スタイルは単純で、単純なSVM分類器による教師なし分類の最先端性能を得る。

This paper presents a self-supervised feature learning method for hyperspectral image classification. Our method tries to construct two different views of the raw hyperspectral image through a cross-representation learning method. And then to learn semantically consistent representation over the created views by contrastive learning method. Specifically, four cross-channel-predic tion based augmentation methods are naturally designed to utilize the high dimension characteristic of hyperspectral data for the view construction. And the better representative features are learned by maximizing mutual information and minimizing conditional entropy across different views from our contrastive network. This 'Cross-View-Predicton ' style is straightforward and gets the state-of-the-art performance of unsupervised classification with a simple SVM classifier.
翻訳日:2022-03-16 01:11:54 公開日:2022-03-14
# (参考訳) MotionSC:動的環境におけるリアルタイム意味マッピングのためのデータセットとネットワーク [全文訳有]

MotionSC: Data Set and Network for Real-Time Semantic Mapping in Dynamic Environments ( http://arxiv.org/abs/2203.07060v1 )

ライセンス: CC BY 4.0
Joey Wilson, Jingyu Song, Yuewei Fu, Arthur Zhang, Andrew Capodieci, Paramsothy Jayakumar, Kira Barton, and Maani Ghaffari(参考訳) 本研究は,ssc(semantic scene completion)データのギャップに対処し,動的シーンの正確かつ完全なアウトドアデータセットを作成する。 私たちのデータセットは、各時間ステップでランダムにサンプリングされた世界のビューで構成されています。 我々は、最先端のオープンソースネットワークからSSCベースラインを作成し、最近の3Dディープラーニングアーキテクチャを活用して、リアルタイムの局所的セマンティックマッピングアルゴリズムMotionSCを構築する。 提案手法では,提案するデータセットが動的オブジェクトの存在下で正確なシーン完成度を定量化し,監視できることが示され,ダイナミックマッピングアルゴリズムの開発に繋がる可能性がある。 すべてのソフトウェアはhttps://github.com/U Mich-CURLY/3DMapping で入手できる。

This work addresses a gap in semantic scene completion (SSC) data by creating a novel outdoor data set with accurate and complete dynamic scenes. Our data set is formed from randomly sampled views of the world at each time step, which supervises generalizability to complete scenes without occlusions or traces. We create SSC baselines from state-of-the-art open source networks and construct a benchmark real-time dense local semantic mapping algorithm, MotionSC, by leveraging recent 3D deep learning architectures to enhance SSC with temporal information. Our network shows that the proposed data set can quantify and supervise accurate scene completion in the presence of dynamic objects, which can lead to the development of improved dynamic mapping algorithms. All software is available at https://github.com/U Mich-CURLY/3DMapping .
翻訳日:2022-03-16 00:55:18 公開日:2022-03-14
# (参考訳) 例に基づく文法的誤り訂正を用いた言語学習者の解釈可能性 [全文訳有]

Interpretability for Language Learners Using Example-Based Grammatical Error Correction ( http://arxiv.org/abs/2203.07085v1 )

ライセンス: CC BY 4.0
Masahiro Kaneko, Sho Takase, Ayana Niwa, Naoaki Okazaki(参考訳) 文法的誤り訂正(GEC)は,高精度な訂正だけでなく,言語学習の解釈可能性にも注目すべきである。 しかし、既存のニューラルベースGECモデルは、主に精度の向上を目的としており、その解釈可能性については検討されていない。 解釈性を改善するための有望なアプローチは、類似した検索された例を使って修正を生成するサンプルベース手法である。 さらに、サンプルは言語学習において有益であり、文法的に誤り/誤りのテキストの基礎を理解し、文章の信頼性を向上させる。 そこで我々は,例ベースの手法をGECに組み込むことで,言語学習者を支援するだけでなく,解釈可能性を向上させることができると仮定する。 本研究では,言語学習者に対して,修正結果の基盤としてサンプルを提示する例ベースECC(EB-GEC)を提案する。 例としては、与えられた入力と予測された訂正に似た、正しい文と間違った文のペアがある。 実験により、EB-GECが提示した例は、言語学習者がGEC出力からの提案を受け入れたり拒否したりするのに役立つことが示された。 さらに,検索した例によって補正精度が向上することを示した。

Grammatical Error Correction (GEC) should not focus only on high accuracy of corrections but also on interpretability for language learning. However, existing neural-based GEC models mainly aim at improving accuracy, and their interpretability has not been explored. A promising approach for improving interpretability is an example-based method, which uses similar retrieved examples to generate corrections. In addition, examples are beneficial in language learning, helping learners understand the basis of grammatically incorrect/correct texts and improve their confidence in writing. Therefore, we hypothesize that incorporating an example-based method into GEC can improve interpretability as well as support language learners. In this study, we introduce an Example-Based GEC (EB-GEC) that presents examples to language learners as a basis for a correction result. The examples consist of pairs of correct and incorrect sentences similar to a given input and its predicted correction. Experiments demonstrate that the examples presented by EB-GEC help language learners decide to accept or refuse suggestions from the GEC output. Furthermore, the experiments also show that retrieved examples improve the accuracy of corrections.
翻訳日:2022-03-16 00:31:37 公開日:2022-03-14
# (参考訳) 不完全軌道からの2ブロックRNN軌道予測 [全文訳有]

A Two-Block RNN-based Trajectory Prediction from Incomplete Trajectory ( http://arxiv.org/abs/2203.07098v1 )

ライセンス: CC BY 4.0
Ryo Fujii, Jayakorn Vongkulbhisal, Ryo Hachiuma, Hideo Saito(参考訳) 軌道予測は大きな注目を集め、近年は大きな進歩を遂げている。 しかし、ほとんどの研究は、各ビデオが検出と追跡アルゴリズムによって前処理に成功し、常に完全な観測軌道が利用できるという重要な仮定に依存している。 しかし,複雑な実環境においては,他のエージェントによる閉塞などの悪い画像条件によるターゲットエージェント(歩行者,車両など)の誤検出に遭遇することが多い。 本稿では,不完全な観測軌跡から,観測軌跡に欠落点がいくつか含まれているミス検出による軌道予測の問題に対処する。 本稿では,ベイズフィルタフレームワークの推論ステップを近似する2ブロックrnnモデルを導入し,ミス検出時の隠れ状態の最適推定を求める。 モデルは検出結果に応じて2つのRNNを使用する。 1つのRNNはベイズフィルタの推論ステップを、検出が成功したときに新しい測定値と近似し、もう1つは検出が失敗したときに近似を行う。 実験の結果,提案モデルでは,ETH と UCY (9 %$, 7 %$$) の3つの標準計算手法と比較して予測精度が向上していることがわかった。 また,提案手法は,誤差検出を行わない場合には,ベースラインよりも優れた予測を行うことができることを示した。

Trajectory prediction has gained great attention and significant progress has been made in recent years. However, most works rely on a key assumption that each video is successfully preprocessed by detection and tracking algorithms and the complete observed trajectory is always available. However, in complex real-world environments, we often encounter miss-detection of target agents (e.g., pedestrian, vehicles) caused by the bad image conditions, such as the occlusion by other agents. In this paper, we address the problem of trajectory prediction from incomplete observed trajectory due to miss-detection, where the observed trajectory includes several missing data points. We introduce a two-block RNN model that approximates the inference steps of the Bayesian filtering framework and seeks the optimal estimation of the hidden state when miss-detection occurs. The model uses two RNNs depending on the detection result. One RNN approximates the inference step of the Bayesian filter with the new measurement when the detection succeeds, while the other does the approximation when the detection fails. Our experiments show that the proposed model improves the prediction accuracy compared to the three baseline imputation methods on publicly available datasets: ETH and UCY ($9\%$ and $7\%$ improvement on the ADE and FDE metrics). We also show that our proposed method can achieve better prediction compared to the baselines when there is no miss-detection.
翻訳日:2022-03-16 00:15:42 公開日:2022-03-14
# (参考訳) テキストビデオ検索のためのディスタングル表現学習

Disentangled Representation Learning for Text-Video Retrieval ( http://arxiv.org/abs/2203.07111v1 )

ライセンス: CC BY 4.0
Qiang Wang, Yanhao Zhang, Yun Zheng, Pan Pan, Xian-Sheng Hua(参考訳) クロスモダリティインタラクションは、テキストビデオ検索(tvr)において重要な要素であるが、コンピュータインタラクションのさまざまな影響要因がパフォーマンスに与える影響についてはほとんど検討されていない。 本稿では,まずインタラクションのパラダイムを深く研究し,その計算を2つの用語,異なる粒度での相互作用内容,同じ意味論を持つペアを区別するマッチング関数に分割できることを示した。 また,単一ベクトル表現と暗黙的集中関数が最適化を実質的に阻害するのも観察した。 これらの結果に基づき,逐次的かつ階層的な表現を捉えるための不連続なフレームワークを提案する。 まず、テキスト入力とビデオ入力の両方の自然なシーケンス構造を考慮すると、コンテンツを切り離し、ペアワイズ相関を適応的に活用するために、重み付きトークンワイドインタラクション(WTI)モジュールが実行される。 この相互作用は、逐次入力に対してより良い非交叉多様体を形成することができる。 次に,Channel DeCorrelation Regularization (CDCR)を導入し,比較ベクトルの成分間の冗長性を最小化し,階層的表現の学習を容易にする。 MSR-VTT, MSVD, VATEX, LSMDC, AcitivityNet, DiDeMo では, CLIP4Clip を +2.9%, +3.1%, +7.9%, +2.3%, +2.8%, +6.5% R@1 で上回っている。

Cross-modality interaction is a critical component in Text-Video Retrieval (TVR), yet there has been little examination of how different influencing factors for computing interaction affect performance. This paper first studies the interaction paradigm in depth, where we find that its computation can be split into two terms, the interaction contents at different granularity and the matching function to distinguish pairs with the same semantics. We also observe that the single-vector representation and implicit intensive function substantially hinder the optimization. Based on these findings, we propose a disentangled framework to capture a sequential and hierarchical representation. Firstly, considering the natural sequential structure in both text and video inputs, a Weighted Token-wise Interaction (WTI) module is performed to decouple the content and adaptively exploit the pair-wise correlations. This interaction can form a better disentangled manifold for sequential inputs. Secondly, we introduce a Channel DeCorrelation Regularization (CDCR) to minimize the redundancy between the components of the compared vectors, which facilitate learning a hierarchical representation. We demonstrate the effectiveness of the disentangled representation on various benchmarks, e.g., surpassing CLIP4Clip largely by +2.9%, +3.1%, +7.9%, +2.3%, +2.8% and +6.5% R@1 on the MSR-VTT, MSVD, VATEX, LSMDC, AcitivityNet, and DiDeMo, respectively.
翻訳日:2022-03-15 23:58:06 公開日:2022-03-14
# (参考訳) RCL: 時間的行動検出のための連続的局所化 [全文訳有]

RCL: Recurrent Continuous Localization for Temporal Action Detection ( http://arxiv.org/abs/2203.07112v1 )

ライセンス: CC BY 4.0
Qiang Wang, Yanhao Zhang, Yun Zheng, Pan Pan(参考訳) 時間表現は現代の行動検出技術の基礎である。 最先端の手法は主に密度の高いアンカー方式に依存しており、アンカーは離散化されたグリッドを持つ時間領域上で一様にサンプリングされ、正確な境界を回帰する。 本稿では,この基礎的段階を振り返り,完全連続的なアンカー表現を学習するrcl(recurrent continuous localization)を導入する。 具体的には,映像埋め込みと時間座標を条件とした明示的なモデルを構築し,任意の長さのセグメントを検出できるようにする。 連続表現を最適化するために、効果的なスケール不変サンプリング戦略を開発し、その後のイテレーションで予測を精錬する。 我々の連続的なアンカー方式は完全に微分可能であり、BMNやG-TADといった既存の検出器にシームレスに統合できる。 2つのベンチマークに関する広範囲な実験は、我々の連続表現が他の離散化表現を2%のマップで着実に上回っていることを示している。 その結果、RTLはTHUMOS14では52.92% mAP@0.5、ActivtiyNet v1.3では37.65% mAPを達成した。

Temporal representation is the cornerstone of modern action detection techniques. State-of-the-art methods mostly rely on a dense anchoring scheme, where anchors are sampled uniformly over the temporal domain with a discretized grid, and then regress the accurate boundaries. In this paper, we revisit this foundational stage and introduce Recurrent Continuous Localization (RCL), which learns a fully continuous anchoring representation. Specifically, the proposed representation builds upon an explicit model conditioned with video embeddings and temporal coordinates, which ensure the capability of detecting segments with arbitrary length. To optimize the continuous representation, we develop an effective scale-invariant sampling strategy and recurrently refine the prediction in subsequent iterations. Our continuous anchoring scheme is fully differentiable, allowing to be seamlessly integrated into existing detectors, e.g., BMN and G-TAD. Extensive experiments on two benchmarks demonstrate that our continuous representation steadily surpasses other discretized counterparts by ~2% mAP. As a result, RCL achieves 52.92% mAP@0.5 on THUMOS14 and 37.65% mAP on ActivtiyNet v1.3, outperforming all existing single-model detectors.
翻訳日:2022-03-15 23:56:57 公開日:2022-03-14
# (参考訳) 翻訳者の信頼性評価へのベイズ的アプローチ [全文訳有]

A Bayesian approach to translators' reliability assessment ( http://arxiv.org/abs/2203.07135v1 )

ライセンス: CC BY 4.0
Marco Miccheli, Andrea Tacchella, Andrea Zaccaria, Dario Mazzilli, S\'ebastien Brati\`eres, Luciano Pietronero(参考訳) 人間翻訳者による翻訳品質評価(TQA)は、ますます使われている機械翻訳のパフォーマンスを推定したり、翻訳業界における顧客と翻訳業者の合意を得る際に広く用いられるプロセスである。 翻訳学者は、TQAプロセスを実行するための信頼性の高い方法を持つことの重要性を意識しているが、定量的アプローチで信頼性の問題に直面している文献は限られているようである。 ここでは、TQAを複雑なプロセスとみなし、複雑なシステムの観点からこれを考慮し、ベイズ的なアプローチで信頼性の問題に直面する。 翻訳品質評価のデータセットを用いて,言語サービスプロバイダがsrlを完全に生成したエラーアノテーション設定を用いて,tqaプロセスに関わる特徴,すなわち翻訳の難易度,翻訳の作成に関わる翻訳者の特性をパラメータ化し,その品質を評価する2つのベイズモデルを構築した(レビュー)。 教師なしの環境でモデルを検証した結果,翻訳者毎のレビューを1回行うだけで,翻訳者についての有意義な洞察を得ることが可能であることを示すとともに,翻訳者やレビュアーに関する情報を抽出し,専門家の翻訳者であってもレビュアーの信頼性を評価できないことを示す。 しかし、最も専門的な翻訳者は、翻訳のタスクと翻訳の質を評価するタスクの両方において、最も高い一貫性を示している。

Translation Quality Assessment (TQA) conducted by human translators is a process widely used, both in estimating the increasingly used Machine Translation performance and in finding an agreement between customers and translation providers in translation industry. While translation scholars are aware about the importance of having a reliable way to conduct the TQA process, it seems that there is limited literature facing the issue of reliability with a quantitative approach. Here we consider the TQA as a complex process, considering it from the physics of complex systems point of view, and we face the reliability issue with a Bayesian approach. Using a dataset of translation quality evaluations, in an error annotation setting, entirely produced by the Language Service Provider Translated Srl, we build two Bayesian models that parameterise the features involved in the TQA process, namely the translation difficulty, the characteristics of the translators involved in producing the translation and assessing its quality (reviewers). After validating the models in an unsupervised setting, showing that it is possible to get meaningful insights about translators even with just one review per translation job, we extract information about the translators and reviewers and we show that reviewers reliability cannot be taken for granted even if they are expert translators: the translator's expertise could induce also a cognitive bias when reviewing a translation produced by another translator. The most expert translators, though, show the highest level of consistency, both in the task of translating and in the one of assessing translation quality.
翻訳日:2022-03-15 23:41:30 公開日:2022-03-14
# (参考訳) 定常ガウス過程に対するモーメントマッチングGANのナッシュ平衡について [全文訳有]

On the Nash equilibrium of moment-matching GANs for stationary Gaussian processes ( http://arxiv.org/abs/2203.07136v1 )

ライセンス: CC BY 4.0
Sixin Zhang(参考訳) generative adversarial networks (gans)は、2人のプレイヤーによるゲームを通じてデータサンプルから暗黙的な生成モデルを学ぶ。 本稿では,データサンプルの数が無限に増加するにつれて一貫したゲームにおけるナッシュ均衡の存在について検討する。 定常ガウス過程の基底-真性生成子を推定するための実現可能な設定において、一貫性のあるナッシュ平衡の存在は、判別子族の選択に決定的に依存することを示す。 2階統計モーメントから定義される判別器は、ナッシュ平衡の非存在、一貫性のない非ナッシュ平衡の存在、あるいはジェネレータファミリーの対称性が尊重されるかどうかによって、一貫したナッシュ平衡の存在と特異性をもたらす。 さらに, 勾配降下法における局所的安定性と大域的収束について検討した。

Generative Adversarial Networks (GANs) learn an implicit generative model from data samples through a two-player game. In this paper, we study the existence of Nash equilibrium of the game which is consistent as the number of data samples grows to infinity. In a realizable setting where the goal is to estimate the ground-truth generator of a stationary Gaussian process, we show that the existence of consistent Nash equilibrium depends crucially on the choice of the discriminator family. The discriminator defined from second-order statistical moments can result in non-existence of Nash equilibrium, existence of consistent non-Nash equilibrium, or existence and uniqueness of consistent Nash equilibrium, depending on whether symmetry properties of the generator family are respected. We further study the local stability and global convergence of gradient descent-ascent methods towards consistent equilibrium.
翻訳日:2022-03-15 23:17:57 公開日:2022-03-14
# (参考訳) CAROL:エッジフェデレーションの信頼性を考慮したレジリエンスモデル [全文訳有]

CAROL: Confidence-Aware Resilience Model for Edge Federations ( http://arxiv.org/abs/2203.07140v1 )

ライセンス: CC BY 4.0
Shreshth Tuli, Giuliano Casale and Nicholas R. Jennings(参考訳) 近年、大規模IoT(Internet of Things)アプリケーションのデプロイによって、複数のエッジサービスプロバイダからのリソースをシームレスに相互接続し、活用するエッジフェデレーションが生まれている。 レイテンシに敏感なIoTタスクと計算集約型のIoTタスクの両方をサポートする要件は、サービスのレジリエンスを必要とする。 既存のフォールトトレランスやレジリエンスのスキームは、非定常的なワークロード設定において堅牢性と一般化能力に欠けることが多い。 これは典型的には、動的シナリオでそれらを適用するのに必要なモデルの高価な周期的な微調整のためである。 そこで本研究では,メモリ効率の高い生成型ニューラルネットワークを用いて,将来の状態に対するqos(quality of service)と予測毎の信頼度スコアを予測する,信頼度対応型レジリエンスモデルcarolを提案する。 したがって、ブローカーが故障した場合、ブローカー-労働者トポロジ空間上で局所探索を実行し、将来のQoSを最適化することで、即座にシステムを回復する。 信頼度スコアは、予測性能を追跡し、過大なオーバーヘッドを避けるために並列ニューラルネットワークの微調整を実行し、システムのqosをさらに改善することを可能にする。 iotベンチマークアプリケーションを使用したraspberry-piベースのエッジテストでは、carolがエネルギー消費量、期限違反率、レジリエンスオーバーヘッドを最大16,17,36%削減することで、最先端のレジリエンススキームを上回っていることが示されている。

In recent years, the deployment of large-scale Internet of Things (IoT) applications has given rise to edge federations that seamlessly interconnect and leverage resources from multiple edge service providers. The requirement of supporting both latency-sensitive and compute-intensive IoT tasks necessitates service resilience, especially for the broker nodes in typical broker-worker deployment designs. Existing fault-tolerance or resilience schemes often lack robustness and generalization capability in non-stationary workload settings. This is typically due to the expensive periodic fine-tuning of models required to adapt them in dynamic scenarios. To address this, we present a confidence aware resilience model, CAROL, that utilizes a memory-efficient generative neural network to predict the Quality of Service (QoS) for a future state and a confidence score for each prediction. Thus, whenever a broker fails, we quickly recover the system by executing a local-search over the broker-worker topology space and optimize future QoS. The confidence score enables us to keep track of the prediction performance and run parsimonious neural network fine-tuning to avoid excessive overheads, further improving the QoS of the system. Experiments on a Raspberry-Pi based edge testbed with IoT benchmark applications show that CAROL outperforms state-of-the-art resilience schemes by reducing the energy consumption, deadline violation rates and resilience overheads by up to 16, 17 and 36 percent, respectively.
翻訳日:2022-03-15 22:50:36 公開日:2022-03-14
# (参考訳) 最適トランスポートに基づく解釈可能な対話型話者適応 [全文訳有]

Interpretable Dysarthric Speaker Adaptation based on Optimal-Transport ( http://arxiv.org/abs/2203.07143v1 )

ライセンス: CC BY 4.0
Rosanna Turrisi, Leonardo Badino(参考訳) 本研究は, 外科的音声認識の困難な状況において, トレーニングデータ(ソース)とテストデータ(ターゲット)の分布のミスマッチ問題に対処する。 我々は、コマンド音声認識における話者適応(SA)に焦点を当て、複数のソース(複数の話者)のデータが利用可能である。 具体的には,MSDA-WJDOT (Weighted Joint Optimal Transport) を用いた最適輸送に基づく教師なしマルチソースドメイン適応(MSDA)アルゴリズムを提案する。 本研究では,話者非依存モデルと最良競合法に対して,コマンド誤り率を16%,7%の相対的に減少させる。 提案手法の強みは,既存のsa法と異なる解釈可能なモデルを提供しており,この文脈では,特定のトレーニングを伴わずに不整脈を診断できる。 実際、ターゲットとソース話者間の密接度尺度を提供し、その類似性を音声特性の観点から反映している。 対象話者と健常者/dysarthric音源話者の類似性に基づき, 目的話者の健康的/dysarthricスコアを定義し, ダイサーリア検出を行う。 このアプローチは追加のトレーニングを必要とせず、変形性関節症の診断において95%の精度を達成する。

This work addresses the mismatch problem between the distribution of training data (source) and testing data (target), in the challenging context of dysarthric speech recognition. We focus on Speaker Adaptation (SA) in command speech recognition, where data from multiple sources (i.e., multiple speakers) are available. Specifically, we propose an unsupervised Multi-Source Domain Adaptation (MSDA) algorithm based on optimal-transport, called MSDA via Weighted Joint Optimal Transport (MSDA-WJDOT). We achieve a Command Error Rate relative reduction of 16% and 7% over the speaker-independent model and the best competitor method, respectively. The strength of the proposed approach is that, differently from any other existing SA method, it offers an interpretable model that can also be exploited, in this context, to diagnose dysarthria without any specific training. Indeed, it provides a closeness measure between the target and the source speakers, reflecting their similarity in terms of speech characteristics. Based on the similarity between the target speaker and the healthy/dysarthric source speakers, we then define the healthy/dysarthric score of the target speaker that we leverage to perform dysarthria detection. This approach does not require any additional training and achieves a 95% accuracy in the dysarthria diagnosis.
翻訳日:2022-03-15 22:24:14 公開日:2022-03-14
# (参考訳) CAR: セマンティックセグメンテーションのためのクラス認識正規化 [全文訳有]

CAR: Class-aware Regularizations for Semantic Segmentation ( http://arxiv.org/abs/2203.07160v1 )

ライセンス: CC BY 4.0
Ye Huang, Di Kang, Liang Chen, Xuefei Zhe, Wenjing Jia, Xiangjian He, Linchao Bao(参考訳) ocrやcpnetといった近年のセグメンテーション手法では、ピクセル機能に加えて「クラスレベル」情報を利用するようになり、既存のネットワークモジュールの精度向上に成功している。 しかし,抽出したクラスレベルの情報は,より優れた画素表現学習のために明示的に活用されることなく,単純に画素特徴に結合された。 さらに,これらの手法は,誤差蓄積の傾向にある粗いマスク予測に基づいてソフトクラスセンターを学習する。 本稿では,クラスレベルの情報をより効果的に活用することを目的とした,特徴学習におけるクラス内分散とクラス間距離を最適化する汎用クラス認識規則化(CAR)手法を提案する。 3つの新しい損失関数が提案されている。 第1のロス関数は各クラス内のよりコンパクトなクラス表現を奨励し、第2のロス関数は異なるクラス中心間の距離を直接最大化し、第3のロス関数はクラス中心とピクセル間の距離をさらに推し進める。 さらに,提案手法のクラス中心は,誤差発生による粗い予測ではなく,真理から直接生成される。 本手法は,OCRやCPNetを含む既存のセグメンテーションモデルに容易に適用でき,追加の推論オーバーヘッドを伴わずに精度を大幅に向上させることができる。 複数のベンチマークデータセットで行った大規模な実験とアブレーション研究により、提案されたCARは、より優れた一般化能力を持つ2.23%のmIOUで全てのベースラインモデルの精度を向上できることを示した。 完全なコードはhttps://github.com/e dwardyehuang/CARで公開されている。

Recent segmentation methods, such as OCR and CPNet, utilizing "class level" information in addition to pixel features, have achieved notable success for boosting the accuracy of existing network modules. However, the extracted class-level information was simply concatenated to pixel features, without explicitly being exploited for better pixel representation learning. Moreover, these approaches learn soft class centers based on coarse mask prediction, which is prone to error accumulation. In this paper, aiming to use class level information more effectively, we propose a universal Class-Aware Regularization (CAR) approach to optimize the intra-class variance and inter-class distance during feature learning, motivated by the fact that humans can recognize an object by itself no matter which other objects it appears with. Three novel loss functions are proposed. The first loss function encourages more compact class representations within each class, the second directly maximizes the distance between different class centers, and the third further pushes the distance between inter-class centers and pixels. Furthermore, the class center in our approach is directly generated from ground truth instead of from the error-prone coarse prediction. Our method can be easily applied to most existing segmentation models during training, including OCR and CPNet, and can largely improve their accuracy at no additional inference overhead. Extensive experiments and ablation studies conducted on multiple benchmark datasets demonstrate that the proposed CAR can boost the accuracy of all baseline models by up to 2.23% mIOU with superior generalization ability. The complete code is available at https://github.com/e dwardyehuang/CAR.
翻訳日:2022-03-15 22:13:40 公開日:2022-03-14
# (参考訳) RAUM-VO:回転調整無監督眼球運動計測 [全文訳有]

RAUM-VO: Rotational Adjusted Unsupervised Monocular Visual Odometry ( http://arxiv.org/abs/2203.07162v1 )

ライセンス: CC BY 4.0
Claudio Cimarelli, Hriday Bavle, Jose Luis Sanchez-Lopez, Holger Voos(参考訳) 単眼カメラ動作と3次元シーン理解のための教師なし学習は、エピポーラ幾何や非線形最適化に依存する従来の手法で人気を集めている。 特に、深層学習は、知覚的エイリアス、低テクスチャ領域、スケールドリフト、退化運動など、単眼視の多くの問題を克服することができる。 また,教師付き学習に関しては,奥行きラベルやモーションラベルを必要とせずにビデオストリームデータを完全に活用できる。 しかし,本研究では,回転運動は,翻訳成分よりも教師なしポーズネットワークの精度を制限できる点に注目する。 そこで本研究では,フレーム・ツー・フレーム動作推定(F2F)のためのモデルフリーなエピポーラ制約に基づくRAUM-VOを提案する。 そこで本研究では,事前学習した深度ネットワークであるSuperpointとSuperglueを用いて,教師なしのトレーニングプロトコルを用いて,ネットワークの深度とポーズ推定をトレーニングしながら,連続したフレーム間の2Dキーポイントをマッチングする。 次に、2Dマッチングを用いてF2Fが推定した動きと予測回転を調整し、ポーズネットワーク予測と初期化する。 究極的には、RAUM-VOはKITTIデータセット上の他の教師なしポーズネットワークと比較してかなり精度が向上し、他のハイブリッドや従来のアプローチの複雑さを低減し、最先端の結果に匹敵する結果が得られる。

Unsupervised learning for monocular camera motion and 3D scene understanding has gained popularity over traditional methods, relying on epipolar geometry or non-linear optimization. Notably, deep learning can overcome many issues of monocular vision, such as perceptual aliasing, low-textured areas, scale-drift, and degenerate motions. Also, concerning supervised learning, we can fully leverage video streams data without the need for depth or motion labels. However, in this work, we note that rotational motion can limit the accuracy of the unsupervised pose networks more than the translational component. Therefore, we present RAUM-VO, an approach based on a model-free epipolar constraint for frame-to-frame motion estimation (F2F) to adjust the rotation during training and online inference. To this end, we match 2D keypoints between consecutive frames using pre-trained deep networks, Superpoint and Superglue, while training a network for depth and pose estimation using an unsupervised training protocol. Then, we adjust the predicted rotation with the motion estimated by F2F using the 2D matches and initializing the solver with the pose network prediction. Ultimately, RAUM-VO shows a considerable accuracy improvement compared to other unsupervised pose networks on the KITTI dataset while reducing the complexity of other hybrid or traditional approaches and achieving comparable state-of-the-art results.
翻訳日:2022-03-15 21:08:34 公開日:2022-03-14
# (参考訳) ソーシャルメディアにおける視覚的近接重複検出のためのデータセットとケーススタディ [全文訳有]

Dataset and Case Studies for Visual Near-Duplicates Detection in the Context of Social Media ( http://arxiv.org/abs/2203.07167v1 )

ライセンス: CC BY 4.0
Hana Matatov, Mor Naaman, Ofra Amir(参考訳) ウェブやソーシャルメディアにおける視覚コンテンツの普及は、課題と機会の両方をもたらす。 視覚的に類似したコンテンツの追跡は、そのようなコンテンツの拡散に関連する社会現象を研究し分析する上で重要なタスクである。 本稿では、ソーシャルメディア画像のデータセットの構築と、画像検索といくつかの高度な視覚特徴抽出手法に基づく視覚近距離検索手法の評価により、このニーズに対処する。 ソーシャルメディアからクロールした画像の大規模データセットと,その操作したバージョンを用いて評価を行い,リコールの観点から有望な結果を示す。 本手法の可能性を,手作業によるコンテンツレビューを支援するシステム作成の価値を示すもの,大規模自動分析の有用性を示すもの,という2つのケーススタディで実証する。

The massive spread of visual content through the web and social media poses both challenges and opportunities. Tracking visually-similar content is an important task for studying and analyzing social phenomena related to the spread of such content. In this paper, we address this need by building a dataset of social media images and evaluating visual near-duplicates retrieval methods based on image retrieval and several advanced visual feature extraction methods. We evaluate the methods using a large-scale dataset of images we crawl from social media and their manipulated versions we generated, presenting promising results in terms of recall. We demonstrate the potential of this method in two case studies: one that shows the value of creating systems supporting manual content review, and another that demonstrates the usefulness of automatic large-scale data analysis.
翻訳日:2022-03-15 20:43:43 公開日:2022-03-14
# (参考訳) 強化学習のためのオーケストレーション価値マッピング [全文訳有]

Orchestrated Value Mapping for Reinforcement Learning ( http://arxiv.org/abs/2203.07171v1 )

ライセンス: CC BY 4.0
Mehdi Fatemi and Arash Tavakoli(参考訳) 本稿では,(1)値推定値を広いクラスから任意の関数を用いて異なる空間にマッピングする,(2)報酬信号を複数のチャネルに線形に分解する,という2つの異なる原理に基づく強化学習アルゴリズムの一般収束クラスを提案する。 最初の原則は、学習を強化するための価値推定器に特定のプロパティを組み込むことを可能にする。 一方、第二の原理は、値関数を複数のユーティリティ関数の合成として表現することを可能にする。 これは、高度に異なる報酬尺度を扱うこと、報酬の源に関する事前知識を取り入れること、アンサンブル学習など、様々な目的に活用できる。 この2つの原則を組み合わせることで、複数の報酬チャネル上で多様なマッピング関数をオーケストレーションすることで収束アルゴリズムをインスタンス化する一般的な青写真が得られる。 この青写真は、Q-Learning、Log Q-Learning、Q-Decomposeといったアルゴリズムを一般化し、仮定する。 さらに、この一般クラスに対する収束証明は、これらのアルゴリズムのいくつかで要求される仮定を緩和する。 この理論に基づいて、いくつかの興味深い構成を特殊ケースとして論じる。 最後に、我々の理論が開放する設計空間の可能性を説明するために、特定のアルゴリズムをインスタンス化し、その性能を評価する。

We present a general convergent class of reinforcement learning algorithms that is founded on two distinct principles: (1) mapping value estimates to a different space using arbitrary functions from a broad class, and (2) linearly decomposing the reward signal into multiple channels. The first principle enables incorporating specific properties into the value estimator that can enhance learning. The second principle, on the other hand, allows for the value function to be represented as a composition of multiple utility functions. This can be leveraged for various purposes, e.g. dealing with highly varying reward scales, incorporating a priori knowledge about the sources of reward, and ensemble learning. Combining the two principles yields a general blueprint for instantiating convergent algorithms by orchestrating diverse mapping functions over multiple reward channels. This blueprint generalizes and subsumes algorithms such as Q-Learning, Log Q-Learning, and Q-Decompose. In addition, our convergence proof for this general class relaxes certain required assumptions in some of these algorithms. Based on our theory, we discuss several interesting configurations as special cases. Finally, to illustrate the potential of the design space that our theory opens up, we instantiate a particular algorithm and evaluate its performance on the Atari suite.
翻訳日:2022-03-15 20:28:27 公開日:2022-03-14
# (参考訳) データの幾何学 [全文訳有]

Geometry of Data ( http://arxiv.org/abs/2203.07208v1 )

ライセンス: CC BY 4.0
Parvaneh Joharinad and J\"urgen Jost(参考訳) トポロジカルデータ解析は、計量空間 $(X, d)$ の球がいつ交差するかを問う。 幾何学的データ分析は、ボールがどれだけ拡大して交差するかを問う。 この原理を伝統的な幾何学的曲率の概念と結びつける。 これにより、曲率を再認識し、超凸性の幾何学的概念と結びつけることができる。 一方,位相データ解析の手法を幾何学的観点から理解することも可能である。

Topological data analysis asks when balls in a metric space $(X,d)$ intersect. Geometric data analysis asks how much balls have to be enlarged to intersect. We connect this principle to the traditional core geometric concept of curvature. This enables us, on one hand, to reconceptualize curvature and link it to the geometric notion of hyperconvexity. On the other hand, we can then also understand methods of topological data analysis from a geometric perspective.
翻訳日:2022-03-15 20:03:28 公開日:2022-03-14
# (参考訳) FairLex: 法的テキスト処理の公平性を評価するための多言語ベンチマーク [全文訳有]

FairLex: A Multilingual Benchmark for Evaluating Fairness in Legal Text Processing ( http://arxiv.org/abs/2203.07228v1 )

ライセンス: CC BY 4.0
Ilias Chalkidis, Tommaso Pasini, Sheng Zhang, Letizia Tomada, Sebastian Felix Schwemer, Anders S{\o}gaard(参考訳) 本稿では,事前学習された言語モデルの公平性を評価するための4つのデータセットのベンチマークスイートと,それらを下流タスクに微調整する手法を提案する。 私たちのベンチマークでは、欧州評議会、米国、スイス、中国)、5つの言語(英語、ドイツ語、フランス語、イタリア語、中国語)、そして5つの属性(性別、年齢、地域、言語、法域)の公平性について調べています。 実験では,複数のグループロバストな微調整手法を用いて事前学習言語モデルの評価を行い,性能群格差が活発であることを示すが,いずれの手法も公平性は保証せず,グループ格差を一定に緩和するものではない。 さらに, 法的なNLPにおけるロバストネス法の開発におけるオープンな課題を浮き彫りにして, 定量的, 質的な分析を行った。

We present a benchmark suite of four datasets for evaluating the fairness of pre-trained language models and the techniques used to fine-tune them for downstream tasks. Our benchmarks cover four jurisdictions (European Council, USA, Switzerland, and China), five languages (English, German, French, Italian and Chinese) and fairness across five attributes (gender, age, region, language, and legal area). In our experiments, we evaluate pre-trained language models using several group-robust fine-tuning techniques and show that performance group disparities are vibrant in many cases, while none of these techniques guarantee fairness, nor consistently mitigate group disparities. Furthermore, we provide a quantitative and qualitative analysis of our results, highlighting open challenges in the development of robustness methods in legal NLP.
翻訳日:2022-03-15 19:49:58 公開日:2022-03-14
# (参考訳) トランスカム:低教師付きセマンティクスセグメンテーションのためのトランスフォーマーアテンションに基づくカムリファインメント [全文訳有]

TransCAM: Transformer Attention-based CAM Refinement for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2203.07239v1 )

ライセンス: CC BY 4.0
Ruiwen Li, Zheda Mai, Chiheb Trabelsi, Zhibo Zhang, Jongseong Jang, Scott Sanner(参考訳) 画像レベルの監視のみを伴う弱教師付きセマンティックセグメンテーション(WSSS)は難しい課題である。 既存のほとんどのメソッドは、クラスアクティベーションマップ(CAM)を使用して、教師付きトレーニングのためにピクセルレベルの擬似ラベルを生成する。 しかし、畳み込みニューラルネットワーク(cnn)の局所受容領域のため、cnnに適用されたcamは、オブジェクト領域全体ではなく最も識別的な部分において、部分的な活性化に苦しむことが多い。 局所的特徴と大域的表現の両方を捉えるため、コンフォーメータは視覚トランスフォーマーブランチとcnnブランチを組み合わせるために提案されている。 本稿では,CNNブランチから発生するCAMを改良するために,変換器の変換器ブランチからの注意重みを明示的に活用する,変換器ベースのWSSSソリューションであるTransCAMを提案する。 トランスカムの動機は,浅いトランスフォーマーブロックからの注意重みが低レベルの空間的特徴の類似性を捉えつつ,深いトランスフォーマーブロックからの注意重みが高レベルの意味的文脈を捉えている点にある。 その単純さにもかかわらず、TransCAMはPASCAL VOC 2012バリデーションとテストセットで69.3%と69.6%の新たな最先端性能を実現し、WSSSのCAMの変換による改良の有効性を示している。

Weakly supervised semantic segmentation (WSSS) with only image-level supervision is a challenging task. Most existing methods exploit Class Activation Maps (CAM) to generate pixel-level pseudo labels for supervised training. However, due to the local receptive field of Convolution Neural Networks (CNN), CAM applied to CNNs often suffers from partial activation -- highlighting the most discriminative part instead of the entire object area. In order to capture both local features and global representations, the Conformer has been proposed to combine a visual transformer branch with a CNN branch. In this paper, we propose TransCAM, a Conformer-based solution to WSSS that explicitly leverages the attention weights from the transformer branch of the Conformer to refine the CAM generated from the CNN branch. TransCAM is motivated by our observation that attention weights from shallow transformer blocks are able to capture low-level spatial feature similarities while attention weights from deep transformer blocks capture high-level semantic context. Despite its simplicity, TransCAM achieves a new state-of-the-art performance of 69.3% and 69.6% on the respective PASCAL VOC 2012 validation and test sets, showing the effectiveness of transformer attention-based refinement of CAM for WSSS.
翻訳日:2022-03-15 19:26:36 公開日:2022-03-14
# (参考訳) FisheyeHDK:超広視野画像認識のための双曲型変形カーネル学習 [全文訳有]

FisheyeHDK: Hyperbolic Deformable Kernel Learning for Ultra-Wide Field-of-View Image Recognition ( http://arxiv.org/abs/2203.07255v1 )

ライセンス: CC0 1.0
Ola Ahmad and Freddy Lecue(参考訳) 狭い視野(FoV)の画像に基づいて訓練された従来の畳み込みニューラルネットワーク(CNN)は、オブジェクト認識タスクの最先端のアプローチである。 いくつかの手法は、変形可能なカーネルを学習することで、超広帯域FoV画像へのCNNの適応を提案した。 しかし、ユークリッド幾何学によって制限され、魚眼投射による強い歪みの下でその精度は低下する。 本研究では,非ユークリッド空間における畳み込み核の形状の学習が,既存の変形可能なカーネル法よりも優れていることを示す。 特に,双曲空間における変形可能なカーネルパラメータ(配置)を学習する新しい手法を提案する。 fisheyehdkは、双曲型とユークリッド型の畳み込み層を組み合わせた、位置と特徴の学習のためのハイブリッドcnnアーキテクチャである。 まず,広焦点画像に対する双曲空間の直観的記述について述べる。 合成歪みプロファイルを用いて,本手法の有効性を示す。 cityscapesとbdd100k 2020という2つのデータセットを選択して,異なるスケーリング係数(焦点長を参照)で魚眼相当物に変換する。 最後に,魚眼カメラで収集したデータについて実験を行った。 検証と実験により,魚眼画像に対するcnn適応のための既存の変形可能なカーネル手法を改善した。

Conventional convolution neural networks (CNNs) trained on narrow Field-of-View (FoV) images are the state-of-the-art approaches for object recognition tasks. Some methods proposed the adaptation of CNNs to ultra-wide FoV images by learning deformable kernels. However, they are limited by the Euclidean geometry and their accuracy degrades under strong distortions caused by fisheye projections. In this work, we demonstrate that learning the shape of convolution kernels in non-Euclidean spaces is better than existing deformable kernel methods. In particular, we propose a new approach that learns deformable kernel parameters (positions) in hyperbolic space. FisheyeHDK is a hybrid CNN architecture combining hyperbolic and Euclidean convolution layers for positions and features learning. First, we provide an intuition of hyperbolic space for wide FoV images. Using synthetic distortion profiles, we demonstrate the effectiveness of our approach. We select two datasets - Cityscapes and BDD100K 2020 - of perspective images which we transform to fisheye equivalents at different scaling factors (analog to focal lengths). Finally, we provide an experiment on data collected by a real fisheye camera. Validations and experiments show that our approach improves existing deformable kernel methods for CNN adaptation on fisheye images.
翻訳日:2022-03-15 19:10:19 公開日:2022-03-14
# (参考訳) Graph-Survival: 一時的ネットワーク上での機械学習のための生存分析フレームワーク [全文訳有]

Graph-Survival: A Survival Analysis Framework for Machine Learning on Temporal Network ( http://arxiv.org/abs/2203.07260v1 )

ライセンス: CC BY 4.0
Rapha\"el Romero, Bo Kang, Tijl De Bie(参考訳) 連続時間時間ネットワークは、実世界のデータセットと多様体の応用において、その全能性によって注目が集まっている。 静的ネットワークモデルは静的なトポロジカルな正規性を捉えることに成功しているが、ネットワークの生成を説明する因果的性質から生じる効果をモデル化できないことが多い。 ネットワークの時間的側面の爆発は、過去数十年間、様々な研究の焦点となっている。 連続時間時間ネットワークのための生成モデルを設計するためのフレームワークを提案する。 エッジ固有の時間点過程におけるマルコフの第一次仮定を仮定すると、時間変化履歴に基づく特徴をこれらの予測の共変量として使用しながら、イベント間の待ち時間に直接、生存分析モデルを直接柔軟に適用することができる。 このアプローチは、多変量点プロセスによる時間ネットワーク解析の文書化された分野と、生存分析に適応した方法論的ツールを結びつける。 本稿では,本フレームワーク内のモデルに適合する手法と,所望の特性を持つ新しい時間ネットワークをシミュレートするアルゴリズムを提案する。 下流リンク予測タスクにおける提案手法を評価し,ネットワークシミュレーションの質的評価を行う。

Continuous time temporal networks are attracting increasing attention due their omnipresence in real-world datasets and they manifold applications. While static network models have been successful in capturing static topological regularities, they often fail to model effects coming from the causal nature that explain the generation of networks. Exploiting the temporal aspect of networks has thus been the focus of various studies in the last decades. We propose a framework for designing generative models for continuous time temporal networks. Assuming a first order Markov assumption on the edge-specific temporal point processes enables us to flexibly apply survival analysis models directly on the waiting time between events, while using time-varying history-based features as covariates for these predictions. This approach links the well-documented field of temporal networks analysis through multivariate point processes, with methodological tools adapted from survival analysis. We propose a fitting method for models within this framework, and an algorithm for simulating new temporal networks having desired properties. We evaluate our method on a downstream future link prediction task, and provide a qualitative assessment of the network simulations.
翻訳日:2022-03-15 18:59:07 公開日:2022-03-14
# (参考訳) 最小遅延マルチロボットパロリング問題に対する周期解について [全文訳有]

On Cyclic Solutions to the Min-Max Latency Multi-Robot Patrolling Problem ( http://arxiv.org/abs/2203.07280v1 )

ライセンス: CC BY 4.0
Peyman Afshani, Mark de Berg, Kevin Buchin, Jie Gao, Maarten Loffler, Amir Nayyeri, Benjamin Raichel, Rik Sarkar, Haotian Wang, Hao-Tsung Yang(参考訳) メートル法空間内のP$$$n$サイトと、同じ最大速度のロボットのセット$k$が与えられたら、ロボットの最小遅延のパトロールスケジュールを計算する。 ここで、パトロールスケジュールは、各ロボットが(所定の順序で)訪問するサイトの無限のシーケンスを特定し、スケジュールのレイテンシ$l$は、任意のサイトの最大レイテンシであり、サイトの$s$は、連続する訪問の間の時間間隔の長さの上限である。 k=1$のとき、問題は旅行セールスマン問題(TSP)と等価であり、NPハードである。 主な結果が2つあります サイトの集合を$\ell$グループに分けなければならない巡回解を、ある~$$\ell \leq k$に対して検討し、各群は、各グループの旅行セールスマンツアーに沿って同じ距離で移動するロボットのサブセットを割り当てる。 最初の大きな結果は、サイクリックソリューションのクラスの最適なレイテンシを近似して、ある入力で最適なトラベルセールスマンツアーを近似し、近似係数の1+\varepsilon$ factor損失と、実行時の$o\left(\left(k/\var epsilon \right)^k\right)$ factor損失を、任意の$\varepsilon >0$に対して削減できるということです。 第2の主な結果は、最適巡回解が全体の最適解の2(1-1/k)$近似であることを示している。 k=2$ に対して、これは最適巡回解が最適全体であることを意味する。 結果はいくつかの結果をもたらす。 この問題のユークリッドバージョンでは、例えば、この結果とユークリッド tsp の既知の結果とを組み合わせることで、最適な巡回解を近似するための ptas が得られ、最適な非制限解の $(2(1-1/k)+\varepsilon)$-approx imation が得られる。 上記の予想が真であれば、我々のアルゴリズムは実際にはユークリッド設定における一般的な問題に対するPTASである。

We consider the following surveillance problem: Given a set $P$ of $n$ sites in a metric space and a set of $k$ robots with the same maximum speed, compute a patrol schedule of minimum latency for the robots. Here a patrol schedule specifies for each robot an infinite sequence of sites to visit (in the given order) and the latency $L$ of a schedule is the maximum latency of any site, where the latency of a site $s$ is the supremum of the lengths of the time intervals between consecutive visits to $s$. When $k=1$ the problem is equivalent to the travelling salesman problem (TSP) and thus it is NP-hard. We have two main results. We consider cyclic solutions in which the set of sites must be partitioned into $\ell$ groups, for some~$\ell \leq k$, and each group is assigned a subset of the robots that move along the travelling salesman tour of the group at equal distance from each other. Our first main result is that approximating the optimal latency of the class of cyclic solutions can be reduced to approximating the optimal travelling salesman tour on some input, with only a $1+\varepsilon$ factor loss in the approximation factor and an $O\left(\left( k/\varepsilon \right)^k\right)$ factor loss in the runtime, for any $\varepsilon >0$. Our second main result shows that an optimal cyclic solution is a $2(1-1/k)$-approxima tion of the overall optimal solution. Note that for $k=2$ this implies that an optimal cyclic solution is optimal overall. The results have a number of consequences. For the Euclidean version of the problem, for instance, combining our results with known results on Euclidean TSP, yields a PTAS for approximating an optimal cyclic solution, and it yields a $(2(1-1/k)+\varepsilon)$-approx imation of the optimal unrestricted solution. If the conjecture mentioned above is true, then our algorithm is actually a PTAS for the general problem in the Euclidean setting.
翻訳日:2022-03-15 18:46:28 公開日:2022-03-14
# (参考訳) 最適平衡計算による効率的なモデルベースマルチエージェント強化学習 [全文訳有]

Efficient Model-based Multi-agent Reinforcement Learning via Optimistic Equilibrium Computation ( http://arxiv.org/abs/2203.07322v1 )

ライセンス: CC BY 4.0
Pier Giuseppe Sessa, Maryam Kamgarpour, Andreas Krause(参考訳) 環境遷移モデルが未知であり、環境との高価な相互作用によってのみ学習できるモデルベースマルチエージェント強化学習を考える。 本稿では,H-MARL(Hallucinated Multi-Agent Reinforcement Learning)を提案する。このアルゴリズムは,探索,環境学習,利用,すなわち,基礎となる汎用マルコフゲームにおいて,優れた平衡性能を実現することができる。 H-MARLは未知の遷移モデルの周りに高確率信頼区間を構築し、新たに観測されたデータに基づいて順次更新する。 これらを用いて、各ラウンドで平衡ポリシーが計算されるエージェントに対して楽観的な幻覚ゲームを構築する。 我々は,一般統計モデル(ガウス過程,深層アンサンブルなど)と政策クラス(ディープニューラルネットワークなど)を検討し,エージェントの動的後悔を束縛して理論的に解析する。 さらに、基礎となるマルコフゲームの平衡に収束率を与える。 我々は自律運転シミュレーションベンチマークで実験を行った。 H-MARLは、環境と数回相互作用した後の平衡政策を学習し、非探索法と比較して性能を著しく向上させることができる。

We consider model-based multi-agent reinforcement learning, where the environment transition model is unknown and can only be learned via expensive interactions with the environment. We propose H-MARL (Hallucinated Multi-Agent Reinforcement Learning), a novel sample-efficient algorithm that can efficiently balance exploration, i.e., learning about the environment, and exploitation, i.e., achieve good equilibrium performance in the underlying general-sum Markov game. H-MARL builds high-probability confidence intervals around the unknown transition model and sequentially updates them based on newly observed data. Using these, it constructs an optimistic hallucinated game for the agents for which equilibrium policies are computed at each round. We consider general statistical models (e.g., Gaussian processes, deep ensembles, etc.) and policy classes (e.g., deep neural networks), and theoretically analyze our approach by bounding the agents' dynamic regret. Moreover, we provide a convergence rate to the equilibria of the underlying Markov game. We demonstrate our approach experimentally on an autonomous driving simulation benchmark. H-MARL learns successful equilibrium policies after a few interactions with the environment and can significantly improve the performance compared to non-exploratory methods.
翻訳日:2022-03-15 18:14:41 公開日:2022-03-14
# 多段スケッチ勾配によるプラグ・アンド・プレイ画像の高速化

Accelerating Plug-and-Play Image Reconstruction via Multi-Stage Sketched Gradients ( http://arxiv.org/abs/2203.07308v1 )

ライセンス: Link先を確認
Junqi Tang(参考訳) 本研究では,次元削減技術を用いた高速プラグアンドプレイ(PnP)アルゴリズムの設計手法を提案する。 高速化に確率的勾配の反復を利用する既存の手法とは異なり,まず画像空間における次元のダウンサンプリングを行い,次に低次元空間におけるスケッチ的勾配を用いて真の勾配を効率的に近似する,新しい多段階スケッチ的勾配の反復を提案する。 このスケッチされた勾配スキームは自然にPnP-SGD法と組み合わせて計算複雑性をさらに改善することができる。 一般的な加速度スキームとして、既存のPnP/REDアルゴリズムを加速するために適用することができる。 x線ファンビームctを用いた数値実験により,この画像空間の次元低減により計算自由ルチが得られることを示す。

In this work we propose a new paradigm for designing fast plug-and-play (PnP) algorithms using dimensionality reduction techniques. Unlike existing approaches which utilize stochastic gradient iterations for acceleration, we propose novel multi-stage sketched gradient iterations which first perform downsampling dimensionality reduction in the image space, and then efficiently approximate the true gradient using the sketched gradient in the low-dimensional space. This sketched gradient scheme can also be naturally combined with PnP-SGD methods for further improvement on computational complexity. As a generic acceleration scheme, it can be applied to accelerate any existing PnP/RED algorithm. Our numerical experiments on X-ray fan-beam CT demonstrate the remarkable effectiveness of our scheme, that a computational free-lunch can be obtained using this dimensionality reduction in the image space.
翻訳日:2022-03-15 17:47:08 公開日:2022-03-14
# 対象多様体のソフトマージン分類

Soft-margin classification of object manifolds ( http://arxiv.org/abs/2203.07040v1 )

ライセンス: Link先を確認
Uri Cohen, Haim Sompolinsky(参考訳) 単一対象の複数の出現に対応する神経集団は、神経応答空間における多様体を定義する。 このような多様体を分類する能力は興味深く、対象認識や他の計算タスクは多様体内の可変性に敏感な応答を必要とする。 対象多様体の線形分類は、max-margin分類器で以前に研究されていた。 ソフトマージン分類器はより大きなアルゴリズムのクラスであり、トレーニングエラーを少なくし、より堅牢な分類器を学習することで、トレーニングセット外のパフォーマンスを最適化するためにアプリケーションで使われる追加の正規化パラメータを提供する。 本稿では,対象多様体に適用されるソフトマージン分類器の挙動を記述する平均場理論を考案する。 球面上の点から一般多様体まで、複雑性が増大する多様体を分析することで、平均場理論は、線形分類器のノルムの期待値と、場とスラック変数の分布を記述する。 学習された分類の雑音に対するロバスト性を分析することにより,分類誤差の確率と正則化への依存を予測し,有限最適選択を示す。 この理論は、非自明な解の消失に対応する、以前は未知の相転移を記述しており、マックスマージン分類器のよく知られた分類能力のソフトバージョンを提供する。

A neural population responding to multiple appearances of a single object defines a manifold in the neural response space. The ability to classify such manifolds is of interest, as object recognition and other computational tasks require a response that is insensitive to variability within a manifold. Linear classification of object manifolds was previously studied for max-margin classifiers. Soft-margin classifiers are a larger class of algorithms and provide an additional regularization parameter used in applications to optimize performance outside the training set by balancing between making fewer training errors and learning more robust classifiers. Here we develop a mean-field theory describing the behavior of soft-margin classifiers applied to object manifolds. Analyzing manifolds with increasing complexity, from points through spheres to general manifolds, a mean-field theory describes the expected value of the linear classifier's norm, as well as the distribution of fields and slack variables. By analyzing the robustness of the learned classification to noise, we can predict the probability of classification errors and their dependence on regularization, demonstrating a finite optimal choice. The theory describes a previously unknown phase transition, corresponding to the disappearance of a non-trivial solution, thus providing a soft version of the well-known classification capacity of max-margin classifiers.
翻訳日:2022-03-15 17:46:54 公開日:2022-03-14
# 局所SGDにおける局所ステップの役割

The Role of Local Steps in Local SGD ( http://arxiv.org/abs/2203.06798v1 )

ライセンス: Link先を確認
Tiancheng Qin, S. Rasoul Etesami, C\'esar A. Uribe(参考訳) n$エージェントがエージェントの局所関数の総和によって与えられるグローバル関数を最小化しようとする分散確率最適化問題を考える。 エージェントの局所関数が非i.i.d.データセット上で定義される場合のヘテロジニアス設定に注目し、エージェントがローカル関数のノイズ勾配を通じてグローバル関数にアクセスすることを仮定する。 エージェントが複数の局所確率勾配ステップを実行し、時には中央ノードと通信して局所最適化タスクを改善するローカルSGD法について検討する。 局所的なステップが局所的なSGDの収束率と通信複雑性に与える影響を解析する。 既存の文献では、すべての通信ラウンドで一定の数のローカルステップが想定されている。 しかし、$i$-th通信ラウンドにおいて、$H_i$と表記されるローカルステップの数を任意にすることができる。 我々の主な貢献は、局所sgdの収束率を、強凸、凸、非凸の各局所関数の様々な設定下での$\{h_i\}_{i=1}^r$の関数として特徴づけることであり、ここでは$r$は通信ラウンドの総数である。 この特徴に基づいて、局所的なSGDが労働者数に関して線形スピードアップを達成できるように、$\{H_i\}_{i=1}^R$の列に十分な条件を与える。 さらに, 強凸局所関数に対して, 既存の通信戦略に優る局所ステップを増加させる新しい通信戦略を提案する。 一方,凸局所関数と非凸局所関数では,固定局所ステップは局所sgdにとって最善の通信戦略であり,最先端収束率を回復するものである。 最後に, 広範な数値実験により, 理論結果を正当化する。

We consider the distributed stochastic optimization problem where $n$ agents want to minimize a global function given by the sum of agents' local functions. We focus on the heterogeneous setting when agents' local functions are defined over non-i.i.d. data sets and assume that agents have access to the global function through noisy gradients of their local functions. We study the Local SGD method, where agents perform a number of local stochastic gradient steps and occasionally communicate with a central node to improve their local optimization tasks. We analyze the effect of local steps on the convergence rate and the communication complexity of Local SGD. Existing literature assumes a fixed number of local steps across all communication rounds. However, we allow the number of local steps during the $i$-th communication round, denoted by $H_i$, to be arbitrary. Our main contribution is to characterize the convergence rate of Local SGD as a function of $\{H_i\}_{i=1}^R$ under various settings of strongly convex, convex, and nonconvex local functions, where $R$ is the total number of communication rounds. Based on this characterization, we provide sufficient conditions on the sequence $\{H_i\}_{i=1}^R$ such that Local SGD can achieve linear speed-up with respect to the number of workers. Furthermore, we propose a new communication strategy with increasing local steps superior to existing communication strategies for strongly convex local functions. On the other hand, for convex and nonconvex local functions, we argue that fixed local steps are the best communication strategy for Local SGD and recover state-of-the-art convergence rate results. Finally, we justify our theoretical results through extensive numerical experiments.
翻訳日:2022-03-15 17:44:17 公開日:2022-03-14
# 小売販売の予測に関する比較研究

A Comparative Study on Forecasting of Retail Sales ( http://arxiv.org/abs/2203.06848v1 )

ライセンス: Link先を確認
Md Rashidul Hasan, Muntasir A Kabir, Rezoan A Shuvro, and Pankaz Das(参考訳) 大型小売企業の製品販売予測は、市場競争や顧客の嗜好の変化、例えば新型コロナウイルス(COVID-19)のアウトブレイクといった未知の要因だけでなく、トレンド、季節性、イベントの揮発性を考慮に入れた課題である。 本稿では,walmartの過去の販売データに基づく予測モデルをベンチマークし,今後の売上予測を行う。 我々は,最先端の時系列予測モデルの総合的な理論的概要と解析を行う。 次に、これらのモデルを予測課題データセット(KaggleによるM5予測)に適用する。 具体的には、従来のモデルであるARIMA(Autoregressive Integrated Average)を使用し、最近ではFacebookが開発したProphetモデル、Microsoftが開発したライトグレードブースティングマシン(LightGBM)モデルなどの先進モデルを開発し、パフォーマンスをベンチマークした。 その結果、ARIMAモデルはFacebook ProphetとLightGBMモデルより優れており、LightGBMモデルは予測精度に全く妥協のない大きなデータセットに対して巨大な計算ゲインを達成することが示唆された。

Predicting product sales of large retail companies is a challenging task considering volatile nature of trends, seasonalities, events as well as unknown factors such as market competitions, change in customer's preferences, or unforeseen events, e.g., COVID-19 outbreak. In this paper, we benchmark forecasting models on historical sales data from Walmart to predict their future sales. We provide a comprehensive theoretical overview and analysis of the state-of-the-art timeseries forecasting models. Then, we apply these models on the forecasting challenge dataset (M5 forecasting by Kaggle). Specifically, we use a traditional model, namely, ARIMA (Autoregressive Integrated Moving Average), and recently developed advanced models e.g., Prophet model developed by Facebook, light gradient boosting machine (LightGBM) model developed by Microsoft and benchmark their performances. Results suggest that ARIMA model outperforms the Facebook Prophet and LightGBM model while the LightGBM model achieves huge computational gain for the large dataset with negligible compromise in the prediction accuracy.
翻訳日:2022-03-15 17:43:45 公開日:2022-03-14
# 多項混合系におけるベイズ一般化誤差の漸近的挙動

Asymptotic Behavior of Bayesian Generalization Error in Multinomial Mixtures ( http://arxiv.org/abs/2203.06884v1 )

ライセンス: Link先を確認
Takumi Watanabe and Sumio Watanabe(参考訳) 多項混合は情報工学の分野で広く使われているが、その数学的性質は特異学習モデルであるためまだ解明されていない。 実際、モデルは識別不能であり、フィッシャー情報行列は正定値ではない。 近年,特異統計モデルの数学的基礎を代数幾何学的手法を用いて明らかにしている。 本稿では,多相混合系の実対数標準しきい値と多重度を明らかにし,一般化誤差と自由エネルギーの漸近挙動を解明する。

Multinomial mixtures are widely used in the information engineering field, however, their mathematical properties are not yet clarified because they are singular learning models. In fact, the models are non-identifiable and their Fisher information matrices are not positive definite. In recent years, the mathematical foundation of singular statistical models are clarified by using algebraic geometric methods. In this paper, we clarify the real log canonical thresholds and multiplicities of the multinomial mixtures and elucidate their asymptotic behaviors of generalization error and free energy.
翻訳日:2022-03-15 17:43:26 公開日:2022-03-14
# 感情認識のためのトポロジカル脳波非線形ダイナミクス解析

Topological EEG Nonlinear Dynamics Analysis for Emotion Recognition ( http://arxiv.org/abs/2203.06895v1 )

ライセンス: Link先を確認
Yan Yan, Xuankun Wu, Chengdong Li, Yini He, Zhicheng Zhang, Huihui Li, Ang Li, and Lei Wang(参考訳) 脳波(EEG)の特徴を探索する感情認識は近年広く研究されている。 複雑な力学現象を理解するための非線形解析と特徴抽出法は、異なる感情の脳波パターンと関連している。 位相空間再構成は、脳神経系のダイナミクスを明らかにする典型的な非線形手法である。 近年、位相データ解析(TDA)方式が空間の性質を探るために使われており、位相空間について考えるための強力なツールとなっている。 本研究では,位相空間再構成(PSR)技術を用いて位相空間を位相空間に変換するトポロジ的EEG非線形力学解析手法を提案し,持続的ホモロジーツールは位相空間の位相特性を探索する。 異なるリズム帯域における脳波信号の位相解析を行い,感情特徴ベクトルを構築し,高い識別能力を示す。 我々は,deapとdreamerの2つのベンチマークデータセットを用いて,このアプローチを評価した。 認識結果は、DREAMERによる覚醒的・原子価分類では99.37%、99.35%、DREAMERによる覚醒的・原子価分類では99.96%、99.93%、および99.95%であった。 性能はDREAMERの現在の最先端アプローチ(1%から10%は時間長に依存している)よりも優れており、DEAPで評価された他の関連する研究と同等である。 提案する研究は,脳神経系の非線形ダイナミクス解析と特徴抽出に新たな洞察をもたらした感情認識指向脳波位相特徴解析における最初の研究である。

Emotional recognition through exploring the electroencephalograp hy (EEG) characteristics has been widely performed in recent studies. Nonlinear analysis and feature extraction methods for understanding the complex dynamical phenomena are associated with the EEG patterns of different emotions. The phase space reconstruction is a typical nonlinear technique to reveal the dynamics of the brain neural system. Recently, the topological data analysis (TDA) scheme has been used to explore the properties of space, which provides a powerful tool to think over the phase space. In this work, we proposed a topological EEG nonlinear dynamics analysis approach using the phase space reconstruction (PSR) technique to convert EEG time series into phase space, and the persistent homology tool explores the topological properties of the phase space. We perform the topological analysis of EEG signals in different rhythm bands to build emotion feature vectors, which shows high distinguishing ability. We evaluate the approach with two well-known benchmark datasets, the DEAP and DREAMER datasets. The recognition results achieved accuracies of 99.37% and 99.35% in arousal and valence classification tasks with DEAP, and 99.96%, 99.93%, and 99.95% in arousal, valence, and dominance classifications tasks with DREAMER, respectively. The performances are supposed to be outperformed current state-of-art approaches in DREAMER (improved by 1% to 10% depends on temporal length), while comparable to other related works evaluated in DEAP. The proposed work is the first investigation in the emotion recognition oriented EEG topological feature analysis, which brought a novel insight into the brain neural system nonlinear dynamics analysis and feature extraction.
翻訳日:2022-03-15 17:43:17 公開日:2022-03-14
# 類似性に基づく心不全患者の射出率の予測

Similarity-based prediction of Ejection Fraction in Heart Failure Patients ( http://arxiv.org/abs/2203.07124v1 )

ライセンス: Link先を確認
Jamie Wallis, Andres Azqueta-Gavaldon, Thanusha Ananthakumar, Robert D\"urichen, Luca Albergante(参考訳) バイオメディカル研究は、新しい臨床表現型の発見を促進し、治療の長期的な効果をよりよく特徴付けるために、現実のエビデンス(rwe)をますます活用している。 しかし、収集プロセスに固有の制限のため、特にICD-10のようなデータ標準で直接コード化できない場合、RWEは患者の重要な特徴を欠くことが多い。 本稿では,患者間の特徴類似性を生かして,欠落した特徴を推測する新しいデータ駆動型統計的機械学習手法である「局所帰納法」(fill)を提案する。 本研究では, 心不全患者に対して, HFrEF と HFpEF をそれぞれ有意差で比較検討した。 タスクの複雑さは3つの側面に由来する: 2つの共通の特徴と治療を共有しており、関連する診断の一部のみが記録されており、射出率に関する情報がRWEデータセットから欠落することが多い。 これらの困難にもかかわらず,11,950人,10,051人の心不全患者を含む2つのRWEデータセットの複数のシナリオを考慮した場合,HFpEFの心不全患者を80%以上の精度で推定できることが示されている。 これはロジスティック回帰 (logistic regression) やランダムフォレスト (random forest) といった、精度 < 73% しか達成できなかった古典的なアプローチと比べて改善されている。 最後に、このアプローチにより、hfpef患者に共通する特徴を分析することができます。 例えば、心房細動の特定診断基準や長期抗凝固剤の使用歴が、HFpEF患者を特定する上で重要であることが判明した。

Biomedical research is increasingly employing real world evidence (RWE) to foster discoveries of novel clinical phenotypes and to better characterize long term effect of medical treatments. However, due to limitations inherent in the collection process, RWE often lacks key features of patients, particularly when these features cannot be directly encoded using data standards such as ICD-10. Here we propose a novel data-driven statistical machine learning approach, named Feature Imputation via Local Likelihood (FILL), designed to infer missing features by exploiting feature similarity between patients. We test our method using a particularly challenging problem: differentiating heart failure patients with reduced versus preserved ejection fraction (HFrEF and HFpEF respectively). The complexity of the task stems from three aspects: the two share many common characteristics and treatments, only part of the relevant diagnoses may have been recorded, and the information on ejection fraction is often missing from RWE datasets. Despite these difficulties, our method is shown to be capable of inferring heart failure patients with HFpEF with a precision above 80% when considering multiple scenarios across two RWE datasets containing 11,950 and 10,051 heart failure patients. This is an improvement when compared to classical approaches such as logistic regression and random forest which were only able to achieve a precision < 73%. Finally, this approach allows us to analyse which features are commonly associated with HFpEF patients. For example, we found that specific diagnostic codes for atrial fibrillation and personal history of long-term use of anticoagulants are often key in identifying HFpEF patients.
翻訳日:2022-03-15 17:42:23 公開日:2022-03-14
# 構造的推定における相互作用の役割

The Role of Interactivity in Structured Estimation ( http://arxiv.org/abs/2203.06870v1 )

ライセンス: Link先を確認
Jayadev Acharya and Cl\'ement L. Canonne and Ziteng Sun and Himanshu Tyagi(参考訳) 本研究では,通信制約,局所プライバシー制約,線形計測(圧縮センシング)という3つの自然な制約下での高次元スパース推定について検討する。 空間性仮定がなければ、これらの情報制約の下での最小推定率を改善することはできないことが確立されている。 相互作用性が自然推論タスクに役立つかどうかという問題は、活発な研究のトピックである。 我々は,対話型プロトコルと非対話型プロトコルのギャップを示すことにより,高次元スパース平均推定と圧縮センシングの原型的問題に対する肯定論において,この問題を解決した。 さらに、より構造化された空間性を持つ場合、このギャップは増大し、ブロック空間性については、このギャップは次元の多項式に匹敵する大きさである。 したがって、疎度がより構造化されるほど、相互作用の利点が大きくなる。 下界の証明には、相関確率変数の和を独立成分に慎重に割る必要があるが、これは独立な関心を持つかもしれないハイパーグラフの分解に関するバラニーの定理を用いている。

We study high-dimensional sparse estimation under three natural constraints: communication constraints, local privacy constraints, and linear measurements (compressive sensing). Without sparsity assumptions, it has been established that interactivity cannot improve the minimax rates of estimation under these information constraints. The question of whether interactivity helps with natural inference tasks has been a topic of active research. We settle this question in the affirmative for the prototypical problems of high-dimensional sparse mean estimation and compressive sensing, by demonstrating a gap between interactive and noninteractive protocols. We further establish that the gap increases when we have more structured sparsity: for block sparsity this gap can be as large as polynomial in the dimensionality. Thus, the more structured the sparsity is, the greater is the advantage of interaction. Proving the lower bounds requires a careful breaking of a sum of correlated random variables into independent components using Baranyai's theorem on decomposition of hypergraphs, which might be of independent interest.
翻訳日:2022-03-15 17:40:24 公開日:2022-03-14
# (参考訳) 逆オンライン学習:非定常政策と反動政策を理解する [全文訳有]

Inverse Online Learning: Understanding Non-Stationary and Reactionary Policies ( http://arxiv.org/abs/2203.07338v1 )

ライセンス: CC BY 4.0
Alex J. Chan, Alicia Curth, Mihaela van der Schaar(参考訳) 人間の意思決定は不完全であることはよく知られており、そのようなプロセスを個別に分析する能力は、意思決定者のタスク実行能力の補助や向上、例えば潜在的なバイアスやその部分の監視に警告しようとする場合に重要である。 そのためには,エージェントの意思決定方法や,エージェントが経験した経験に反応してオンラインで学習することで,そのプロセスが時間とともにどのように変化するか,といった解釈可能な表現を開発する必要がある。 そこで我々は,このオンライン学習問題に対する政策推論問題を,一連の軌跡の根底にある意思決定プロセスの理解に役立てた。 潜在的な結果フレームワーク内のアクションを解釈することにより、最も治療効果が高いと思われるアクションを選択するエージェントに基づく有意義なマッピングを導入する。 本稿では、エージェントがそれらを更新するプロセスと並行して、状態空間の深層モデルの表現的なファミリ上に構築された新しいアーキテクチャを用いて、そのような影響を遡及的に推定する実用的なアルゴリズムを提案する。 UNOSの臓器提供受諾決定の分析に応用することで、我々のアプローチは意思決定プロセスを管理する要因や時間とともにどのように変化するかに貴重な洞察をもたらすことができることを実証する。

Human decision making is well known to be imperfect and the ability to analyse such processes individually is crucial when attempting to aid or improve a decision-maker's ability to perform a task, e.g. to alert them to potential biases or oversights on their part. To do so, it is necessary to develop interpretable representations of how agents make decisions and how this process changes over time as the agent learns online in reaction to the accrued experience. To then understand the decision-making processes underlying a set of observed trajectories, we cast the policy inference problem as the inverse to this online learning problem. By interpreting actions within a potential outcomes framework, we introduce a meaningful mapping based on agents choosing an action they believe to have the greatest treatment effect. We introduce a practical algorithm for retrospectively estimating such perceived effects, alongside the process through which agents update them, using a novel architecture built upon an expressive family of deep state-space models. Through application to the analysis of UNOS organ donation acceptance decisions, we demonstrate that our approach can bring valuable insights into the factors that govern decision processes and how they change over time.
翻訳日:2022-03-15 17:39:25 公開日:2022-03-14
# 効率の良いDetsと低照度リアルタイム海洋デブリ検出に向けて

Towards More Efficient EfficientDets and Low-Light Real-Time Marine Debris Detection ( http://arxiv.org/abs/2203.07155v1 )

ライセンス: Link先を確認
Federico Zocco, Ching-I Huang, Hsueh-Cheng Wang, Mohammad Omar Khyam and Mien Van(参考訳) 海洋の破片は、海洋環境の健康と人間の健康の両面で問題となっている。なぜなら「マイクロプラスチック」と呼ばれる小さなプラスチック片が、時間とともに分解されて、あらゆるレベルで食物連鎖に入ってくるからだ。 海難破片の検出と除去のためには、自律型水中車両(AUV)が潜在的な解決策である。 本稿では,リアルタイム・低照度物体検出におけるAUVビジョンの効率性に着目した。 まず、D0では1.5%AP、D1では2.6%AP、D2では1.2%AP、D3では1.3%APでGPUレイテンシを向上することなく、最先端のオブジェクト検出器であるEfficientDetsの効率を改善した。 その後,水中のビニール袋とボトルを検知するためのデータセットを作成,公開し,これと海洋ゴミ検出のための新たなデータセットを改良した。 最後に, 検出性能が低照度条件の影響について検討し, 低照度水中画像強調法を精度, 遅延の両面で比較した。 ソースコードとデータセットが公開されている。

Marine debris is a problem both for the health of marine environments and for the human health since tiny pieces of plastic called "microplastics" resulting from the debris decomposition over the time are entering the food chain at any levels. For marine debris detection and removal, autonomous underwater vehicles (AUVs) are a potential solution. In this letter, we focus on the efficiency of AUV vision for real-time and low-light object detection. First, we improved the efficiency of a class of state-of-the-art object detectors, namely EfficientDets, by 1.5% AP on D0, 2.6% AP on D1, 1.2% AP on D2 and 1.3% AP on D3 without increasing the GPU latency. Subsequently, we created and made publicly available a dataset for the detection of in-water plastic bags and bottles and trained our improved EfficientDets on this and another dataset for marine debris detection. Finally, we investigated how the detector performance is affected by low-light conditions and compared two low-light underwater image enhancement strategies both in terms of accuracy and latency. Source code and dataset are publicly available.
翻訳日:2022-03-15 17:19:15 公開日:2022-03-14
# スパースランダムハイパーグラフ:非バックトラッキングスペクトルとコミュニティ検出

Sparse random hypergraphs: Non-backtracking spectra and community detection ( http://arxiv.org/abs/2203.07346v1 )

ライセンス: Link先を確認
Ludovic Stephan and Yizhe Zhu(参考訳) 我々は,いわゆるHypergraph Stochastic Block Model (HSBM) に基づいて,$G$が生成されることを前提として,スパース$q$-uniform hypergraph $G$のコミュニティ検出問題を考察した。 ハイパーグラフの非追跡演算子に基づくスペクトル法は、アンジェリーニらによって予想される一般化ケステン・スティグム検出しきい値まで高い確率で作用することを示す。 我々は、スパースHSBMの非バックトラック演算子のスペクトルを特徴付け、ハイパーグラフのIhara-Bass式を用いた効率的な次元削減手順を提供する。 その結果,超グラフの隣接行列と次数行列から構築した2n\times 2n$非正規行列の固有ベクトル問題に,n$頂点上のスパースHSBMのコミュニティ検出を還元することができる。 我々の知る限り、このアルゴリズムは一般的な対称確率テンソルに基づいて$k$ブロックを生成するHSBMの予測しきい値を達成する最初の証明可能かつ効率的なスペクトルアルゴリズムである。

We consider the community detection problem in a sparse $q$-uniform hypergraph $G$, assuming that $G$ is generated according to the so-called Hypergraph Stochastic Block Model (HSBM). We prove that a spectral method based on the non-backtracking operator for hypergraphs works with high probability down to the generalized Kesten-Stigum detection threshold conjectured by Angelini et al. We characterize the spectrum of the non-backtracking operator for the sparse HSBM, and provide an efficient dimension reduction procedure using the Ihara-Bass formula for hypergraphs. As a result, community detection for the sparse HSBM on $n$ vertices can be reduced to an eigenvector problem of a $2n\times 2n$ non-normal matrix constructed from the adjacency matrix and the degree matrix of the hypergraph. To the best of our knowledge, this is the first provable and efficient spectral algorithm that achieves the conjectured threshold for HSBMs with $k$ blocks generated according to a general symmetric probability tensor.
翻訳日:2022-03-15 17:15:49 公開日:2022-03-14
# 心電図の局所的および大域的表現のための鉛非依存自己教師付き学習

Lead-agnostic Self-supervised Learning for Local and Global Representations of Electrocardiogram ( http://arxiv.org/abs/2203.06889v1 )

ライセンス: Link先を確認
Jungwoo Oh, Hyunseung Chung, Joon-myoung Kwon, Dong-gyun Hong and Edward Choi(参考訳) 近年, 自己教師あり学習法は, ラベルなしデータによる事前トレーニングに顕著な改善が見られ, 心電図信号に有用であることが証明されている。 しかし、従来の心電図の事前訓練手法は、大域的文脈表現のみを捉えることに重点を置いていた。 これは、下流タスクにおけるパフォーマンスの低下をもたらす、心電図の実りある表現の学習を妨げる。 さらに、モデルが同じリードセットで事前トレーニングされない限り、任意の心電図リードセットでモデルを微調整することはできない。 本研究では,局所的およびグローバルな文脈表現を学習し,下流タスクの一般化性と性能を向上させるecgプリトレーニング手法を提案する。 さらに, ランダムなリードマスキングをECG固有の拡張法として提案し, 任意のリードに対して頑健なモデルを提案する。 心臓不整脈分類と患者同定の2つの下流課題に対する実験結果から,提案手法が他の最先端手法よりも優れていることが示された。

In recent years, self-supervised learning methods have shown significant improvement for pre-training with unlabeled data and have proven helpful for electrocardiogram signals. However, most previous pre-training methods for electrocardiogram focused on capturing only global contextual representations. This inhibits the models from learning fruitful representation of electrocardiogram, which results in poor performance on downstream tasks. Additionally, they cannot fine-tune the model with an arbitrary set of electrocardiogram leads unless the models were pre-trained on the same set of leads. In this work, we propose an ECG pre-training method that learns both local and global contextual representations for better generalizability and performance on downstream tasks. In addition, we propose random lead masking as an ECG-specific augmentation method to make our proposed model robust to an arbitrary set of leads. Experimental results on two downstream tasks, cardiac arrhythmia classification and patient identification, show that our proposed approach outperforms other state-of-the-art methods.
翻訳日:2022-03-15 17:12:53 公開日:2022-03-14
# 民営化グラフフェデレーション学習

Privatized Graph Federated Learning ( http://arxiv.org/abs/2203.07105v1 )

ライセンス: Link先を確認
Elsa Rizk, Stefan Vlaski, Ali H. Sayed(参考訳) フェデレーション学習(federated learning)は、サーバが複数の分散クライアントと通信してグローバルモデルを学ぶ半分散アルゴリズムである。 フェデレーションアーキテクチャは堅牢ではなく、通信や計算の過負荷に敏感である。 また、通信リンク上の個人情報をターゲットとしたプライバシー攻撃を受けることもある。 本稿では,グラフによって連結された複数の連合単位からなるグラフフェデレーション学習(GFL)を紹介する。 次に、グラフ準同型摂動を用いてアルゴリズムが微分プライベートであることを保証する方法を示す。 コンバージェンスとプライバシ理論の両方を解析し,計算機シミュレーションによる性能評価を行う。

Federated learning is a semi-distributed algorithm, where a server communicates with multiple dispersed clients to learn a global model. The federated architecture is not robust and is sensitive to communication and computational overloads due to its one-master multi-client structure. It can also be subject to privacy attacks targeting personal information on the communication links. In this work, we introduce graph federated learning (GFL), which consists of multiple federated units connected by a graph. We then show how graph homomorphic perturbations can be used to ensure the algorithm is differentially private. We conduct both convergence and privacy theoretical analyses and illustrate performance by means of computer simulations.
翻訳日:2022-03-15 17:12:13 公開日:2022-03-14
# 客観的不確実性定量化のためのニューラルメッセージパッシングと最適実験設計

Neural Message Passing for Objective-Based Uncertainty Quantification and Optimal Experimental Design ( http://arxiv.org/abs/2203.07120v1 )

ライセンス: Link先を確認
Qihua Chen, Hyun-Myung Woo, Xuejin Chen, Byung-Jun Yoon(参考訳) 実世界の科学や工学の応用は、多くの未知のパラメータを持つ複雑な不確定システムの数学的モデリングを伴うことが多い。 このようなシステムの複雑さと膨大な不確実性は、一般に利用可能なデータから正確なモデル識別を不可能にする。 このような場合、すべての可能なモデルで最高の性能を維持するロバストな演算子を設計でき、不確かさを効果的に低減し、そのような演算子のパフォーマンスを最大に向上させる最適な実験を設計できるベイズパラダイムにおいて、モデルの不確実性を表現することが望ましい。 目的ベース不確実性定量化(目的ベース不確実性定量化: Objective-UQ, Objective-UQ)は, 複雑なシステムにおける不確実性の定量化と処理に有効な手段であることが示されている。 本研究は,データ駆動アプローチに基づいて,MOCUによる効率的な客観UQのための正確なサロゲートモデルを設計できることを初めて実証する。 本研究では,推定されたシステムの不確かさの増加を罰する新しい公理的制約損失を組み込んだ,サロゲートモデリングのためのニューラルメッセージパッシングモデルを採用する。 例示として,不確実性低減によりロバスト同期性能を最も効果的に向上できる実験を予測することを目的とした,不確実性倉本モデルにおける最適実験設計(oed)問題を考える。 定量的な性能評価により,提案手法はMOCUベースのOEDを4~5桁の精度で高速化できることを示す。 提案手法は倉本モデルを超えた一般OEDタスクに適用可能である。

Real-world scientific or engineering applications often involve mathematical modeling of complex uncertain systems with a large number of unknown parameters. The complexity of such systems, and the enormous uncertainties therein, typically make accurate model identification from the available data infeasible. In such cases, it is desirable to represent the model uncertainty in a Bayesian paradigm, based on which we can design robust operators that maintain the best overall performance across all possible models and design optimal experiments that can effectively reduce uncertainty to maximally enhance the performance of such operators. While objective-based uncertainty quantification (objective-UQ) based on MOCU (mean objective cost of uncertainty) has been shown to provide effective means for quantifying and handling uncertainty in complex systems, a major drawback has been the high computational cost of estimating MOCU. In this work, we demonstrate for the first time that one can design accurate surrogate models for efficient objective-UQ via MOCU based on a data-driven approach. We adopt a neural message passing model for surrogate modeling, which incorporates a novel axiomatic constraint loss that penalizes an increase in the estimated system uncertainty. As an illustrative example, we consider the optimal experimental design (OED) problem for uncertain Kuramoto models, where the goal is to predict the experiments that can most effectively enhance the robust synchronization performance through uncertainty reduction. Through quantitative performance assessment, we show that our proposed approach can accelerate MOCU-based OED by four to five orders of magnitude, virtually without any visible loss of performance compared to the previous state-of-the-art. The proposed approach can be applied to general OED tasks, beyond the Kuramoto model.
翻訳日:2022-03-15 17:12:04 公開日:2022-03-14
# 逆強靭性に対する知識蒸留の利点について

On the benefits of knowledge distillation for adversarial robustness ( http://arxiv.org/abs/2203.07159v1 )

ライセンス: Link先を確認
Javier Maroto, Guillermo Ortiz-Jim\'enez and Pascal Frossard(参考訳) 知識蒸留は、通常、大きなネットワークまたは教師を小さなネットワーク、生徒に圧縮するために、出力にマッチするように訓練することで使用される。 近年,モバイルフレンドリーなモデル上でのロバスト性を達成するために,敵対的攻撃に対するロバスト性も効果的に蒸留できることが示された。 しかし, 本研究は異なる視点から, 対向ロバスト性における最先端モデルの性能を高めるために, 知識蒸留を直接的に利用することができることを示す。 この意味では、徹底的な分析を行い、ロバストな教師からの知識を蒸留し、学生モデルの清潔で敵対的なパフォーマンスをさらに高めるための一般的なガイドラインを提供する。 そこで,本研究では,教師の出力とラベルを混合して生徒を訓練することを目的として,モデルのロバストな性能を向上させるための新しい枠組みであるadversarial knowledge distillation (akd)を提案する。 本研究は, 早期学習, モデルアンサンブル, 弱い対人訓練が, 生徒のパフォーマンスを最大化するための鍵となる手法であることを示すとともに, これらの知見が, 様々な頑健な蒸留技術にまたがって一般化することを示す。 最後に,強固な知識蒸留が学生ネットワークのダイナミクスに与える影響について考察し,akdがネットワークのキャリブレーションを改善し,モデルが学習しにくい,あるいは記憶が難しいサンプルのトレーニングダイナミクスを変化させていることを示す。

Knowledge distillation is normally used to compress a big network, or teacher, onto a smaller one, the student, by training it to match its outputs. Recently, some works have shown that robustness against adversarial attacks can also be distilled effectively to achieve good rates of robustness on mobile-friendly models. In this work, however, we take a different point of view, and show that knowledge distillation can be used directly to boost the performance of state-of-the-art models in adversarial robustness. In this sense, we present a thorough analysis and provide general guidelines to distill knowledge from a robust teacher and boost the clean and adversarial performance of a student model even further. To that end, we present Adversarial Knowledge Distillation (AKD), a new framework to improve a model's robust performance, consisting on adversarially training a student on a mixture of the original labels and the teacher outputs. Through carefully controlled ablation studies, we show that using early-stopping, model ensembles and weak adversarial training are key techniques to maximize performance of the student, and show that these insights generalize across different robust distillation techniques. Finally, we provide insights on the effect of robust knowledge distillation on the dynamics of the student network, and show that AKD mostly improves the calibration of the network and modify its training dynamics on samples that the model finds difficult to learn, or even memorize.
翻訳日:2022-03-15 17:11:34 公開日:2022-03-14
# FRL-FI:フェデレーション強化学習に基づくナビゲーションシステムのための過渡的故障解析

FRL-FI: Transient Fault Analysis for Federated Reinforcement Learning-Based Navigation Systems ( http://arxiv.org/abs/2203.07276v1 )

ライセンス: Link先を確認
Zishen Wan, Aqeel Anwar, Abdulrahman Mahmoud, Tianyu Jia, Yu-Shun Hsiao, Vijay Janapa Reddi, Arijit Raychowdhury(参考訳) Swarmインテリジェンスは、ドローンや無人車両などの自律システムにますますデプロイされている。 フェデレーション強化学習(FRL)は、エージェントが自身の環境と対話し、プライバシーを維持しながら合意ポリシーを協調的に学習する重要な群集知能パラダイムである。 しかし、連続的な技術ノードスケーリングによってハードウェアシステムでは過渡的障害が増加しており、FRLシステムに脅威をもたらす可能性がある。 一方、従来の冗長性に基づく保護手法は、リソース制約のあるエッジアプリケーションへのデプロイが困難である。 本稿では, FRLナビゲーションシステムの耐故障性について, 故障モデル, 故障位置, 学習アルゴリズム, 層型, 通信間隔, およびデータ型について, トレーニングと推論の両方の段階で実験的に評価する。 さらに、FRLシステムの2.7%のオーバーヘッドで最大3.3倍のレジリエンス向上を達成できる2つのコスト効率の良い障害検出と回復技術を提案する。

Swarm intelligence is being increasingly deployed in autonomous systems, such as drones and unmanned vehicles. Federated reinforcement learning (FRL), a key swarm intelligence paradigm where agents interact with their own environments and cooperatively learn a consensus policy while preserving privacy, has recently shown potential advantages and gained popularity. However, transient faults are increasing in the hardware system with continuous technology node scaling and can pose threats to FRL systems. Meanwhile, conventional redundancy-based protection methods are challenging to deploy on resource-constrained edge applications. In this paper, we experimentally evaluate the fault tolerance of FRL navigation systems at various scales with respect to fault models, fault locations, learning algorithms, layer types, communication intervals, and data types at both training and inference stages. We further propose two cost-effective fault detection and recovery techniques that can achieve up to 3.3x improvement in resilience with <2.7% overhead in FRL systems.
翻訳日:2022-03-15 17:11:08 公開日:2022-03-14
# 連合学習における忘れられる権利:迅速な再訓練による効率的な実現

The Right to be Forgotten in Federated Learning: An Efficient Realization with Rapid Retraining ( http://arxiv.org/abs/2203.07320v1 )

ライセンス: Link先を確認
Yi Liu, Lei Xu, Xingliang Yuan, Cong Wang, Bo Li(参考訳) 機械学習において、‘textit{the right to be forget}’の出現は、訓練されたモデルからデータを積極的に消去する、‘textit{machine unlearning}’というパラダイムを生んだ。 既存のマシンアンラーニング技術は集中型トレーニングにフォーカスしており、すべてのホルダのトレーニングデータへのアクセスは、サーバがアンラーニングプロセスを実行する必要がある。 すべてのトレーニングデータへのフルアクセスが利用不能になった場合、未学習を達成する方法については、いまだに過小評価されている。 注目すべき例はフェデレーション学習(fl)で、各参加者のデータホルダは、トレーニングデータを中央サーバに共有することなく、ローカルにトレーニングを行う。 本稿では,flシステムにおける機械学習の問題点について検討する。 FLにおける未学習問題の形式的定義から始まり、訓練されたFLモデルからデータサンプルを完全に消去する高速再学習手法を提案する。 その結果、データホルダは、トレーニングデータをローカルに保持しながら、アンラーニングプロセスを効率的に行うことができる。 形式的収束と複雑性分析により,我々の設計が高効率でモデルユーティリティを保存できることを実証した。 4つの実世界のデータセットに関する広範な評価は、提案手法の有効性と性能を示している。

In Machine Learning, the emergence of \textit{the right to be forgotten} gave birth to a paradigm named \textit{machine unlearning}, which enables data holders to proactively erase their data from a trained model. Existing machine unlearning techniques focus on centralized training, where access to all holders' training data is a must for the server to conduct the unlearning process. It remains largely underexplored about how to achieve unlearning when full access to all training data becomes unavailable. One noteworthy example is Federated Learning (FL), where each participating data holder trains locally, without sharing their training data to the central server. In this paper, we investigate the problem of machine unlearning in FL systems. We start with a formal definition of the unlearning problem in FL and propose a rapid retraining approach to fully erase data samples from a trained FL model. The resulting design allows data holders to jointly conduct the unlearning process efficiently while keeping their training data locally. Our formal convergence and complexity analysis demonstrate that our design can preserve model utility with high efficiency. Extensive evaluations on four real-world datasets illustrate the effectiveness and performance of our proposed realization.
翻訳日:2022-03-15 17:10:50 公開日:2022-03-14
# (参考訳) Stubborn:屋内オブジェクトナビゲーションのための強力なベースライン [全文訳有]

Stubborn: A Strong Baseline for Indoor Object Navigation ( http://arxiv.org/abs/2203.07359v1 )

ライセンス: CC BY 4.0
Haokuan Luo, Albert Yue, Zhang-Wei Hong, Pulkit Agrawal(参考訳) 本研究は,屋内環境における対象物への移動という課題において,以前に公表した手法の性能を超越した,強力なベースラインを提案する。 提案手法は, 先進的な調査, 不正確な物体識別, 不正確な地図構築によるエージェントの捕捉といった, 先行技術の失敗モードから動機付けられている。 これらの問題を解決するために3つの貢献をします (i)まず,既存の地図ベース手法では探索に意味的手がかりを効果的に使用できないことを示す。 先行研究を驚くほど上回る学習を伴わない意味論的探索戦略(Stubborn)を提案する。 (II)オブジェクト識別を改善するため,時間情報の統合戦略を提案する。 (iii)最後に、不正確な深さ観察のため、しばしば小さな領域に閉じ込められる。 この問題を緩和する障害物識別のためのマルチスケール衝突マップを開発した。

We present a strong baseline that surpasses the performance of previously published methods on the Habitat Challenge task of navigating to a target object in indoor environments. Our method is motivated from primary failure modes of prior state-of-the-art: poor exploration, inaccurate object identification, and agent getting trapped due to imprecise map construction. We make three contributions to mitigate these issues: (i) First, we show that existing map-based methods fail to effectively use semantic clues for exploration. We present a semantic-agnostic exploration strategy (called Stubborn) without any learning that surprisingly outperforms prior work. (ii) We propose a strategy for integrating temporal information to improve object identification. (iii) Lastly, due to inaccurate depth observation the agent often gets trapped in small regions. We develop a multi-scale collision map for obstacle identification that mitigates this issue.
翻訳日:2022-03-15 17:08:49 公開日:2022-03-14
# checkel: オンラインチェックポイント選択による効率的かつ正確なデータ評価

CheckSel: Efficient and Accurate Data-valuation Through Online Checkpoint Selection ( http://arxiv.org/abs/2203.06814v1 )

ライセンス: Link先を確認
Soumi Das, Manasvi Sagarkar, Suparna Bhattacharya, Sourangshu Bhattacharya(参考訳) データ評価とサブセット選択は、重要なトレーニングデータのアプリケーション固有の選択のための貴重なツールとして現れてきた。 しかし、最先端の手法の効率と精度のトレードオフは、多くのAIワークフローへの広く適用を妨げる。 本稿では,この問題に対する新しい二相解法を提案する。 フェーズ1は、フェーズ2で使用されるsgdライクなトレーニングアルゴリズムから代表チェックポイントを選択し、各トレーニングポイントによる検証損失の減少など、近似トレーニングデータ値を推定する。 この論文の主な貢献は、オンライン環境でのチェックポイント選択のための直交マッチングに触発されたオンラインスパース近似アルゴリズムであるcheckelである。 もうひとつの重要な貢献は、ドメイン適応設定におけるデータバリュエーションの研究であり、ソースドメイントレーニングデータセットのトレーニング軌跡からチェックポイントを用いて得られたデータ値推定器が、ターゲットドメイントレーニングデータセットにおけるデータバリュエーションに使用される。 ベンチマークデータセットによる実験結果から,提案アルゴリズムは,テスト精度を最大30%向上させるとともに,スタンドアロンおよびドメイン適応設定でも同様の計算負担を発生させる。

Data valuation and subset selection have emerged as valuable tools for application-specific selection of important training data. However, the efficiency-accuracy tradeoffs of state-of-the-art methods hinder their widespread application to many AI workflows. In this paper, we propose a novel 2-phase solution to this problem. Phase 1 selects representative checkpoints from an SGD-like training algorithm, which are used in phase-2 to estimate the approximate training data values, e.g. decrease in validation loss due to each training point. A key contribution of this paper is CheckSel, an Orthogonal Matching Pursuit-inspired online sparse approximation algorithm for checkpoint selection in the online setting, where the features are revealed one at a time. Another key contribution is the study of data valuation in the domain adaptation setting, where a data value estimator obtained using checkpoints from training trajectory in the source domain training dataset is used for data valuation in a target domain training dataset. Experimental results on benchmark datasets show the proposed algorithm outperforms recent baseline methods by up to 30% in terms of test accuracy while incurring a similar computational burden, for both standalone and domain adaptation settings.
翻訳日:2022-03-15 16:53:30 公開日:2022-03-14
# 可変入力次元をもつ多変量時系列タスクの連続学習

Continual Learning for Multivariate Time Series Tasks with Variable Input Dimensions ( http://arxiv.org/abs/2203.06852v1 )

ライセンス: Link先を確認
Vibhor Gupta, Jyoti Narwariya, Pankaj Malhotra, Lovekesh Vig, Gautam Shroff(参考訳) 本研究では,複数センサの時系列データからマシンの異なるインスタンスの故障を予測するタスクや,複数のウェアラブルセンサから異なる個人に対するアクティビティ認識タスクなど,関連する多変量時系列学習タスクについて検討する。 このような環境で生じる2つの未調査の実践的課題に焦点をあてる。 (i)各タスクはセンサーの異なるサブセット、すなわち基盤となる「システム」の異なる部分的な観測を提供する。 この制限は、前者ではメーカーが異なり、後者では測定装置を着用している人が多かれ少なかれいるためである。 (ii)タスクレベルで観測されると、タスクからデータを保存または再アクセスすることは許されない。 これは、人の場合のプライバシーの配慮や、マシン所有者による法的制限による可能性がある。 それでも私たちは (a)完了したタスクからの経験を生かして、その後のタスクのパフォーマンスを向上させる (b)過去のタスク、例えば、モデルを更新し、その後観察したタスクから学習した後、最初のマシンでも予測を改善し続ける。 既存の連続学習手法は、タスク間で利用可能なセンサのサブセットが異なるため、入力次元の変動を考慮しておらず、そのような可変入力次元(VID)タスクに適応するのに苦労している。 本稿では,既存の手法の欠点に対処する。 この目的のために,タスク固有の生成モデルと分類器を学習し,対象タスクに対するデータ拡張に使用する。 タスク間の入力次元が異なるため,標準的なリカレントニューラルネットワークを支援するグラフニューラルネットワークに基づく新しいコンディショニングモジュールを提案する。 2つの活動認識タスク(分類)と1つの予後タスク(回帰)に対応する3つの公開データセットに対する提案手法の有効性を評価した。

We consider a sequence of related multivariate time series learning tasks, such as predicting failures for different instances of a machine from time series of multi-sensor data, or activity recognition tasks over different individuals from multiple wearable sensors. We focus on two under-explored practical challenges arising in such settings: (i) Each task may have a different subset of sensors, i.e., providing different partial observations of the underlying 'system'. This restriction can be due to different manufacturers in the former case, and people wearing more or less measurement devices in the latter (ii) We are not allowed to store or re-access data from a task once it has been observed at the task level. This may be due to privacy considerations in the case of people, or legal restrictions placed by machine owners. Nevertheless, we would like to (a) improve performance on subsequent tasks using experience from completed tasks as well as (b) continue to perform better on past tasks, e.g., update the model and improve predictions on even the first machine after learning from subsequently observed ones. We note that existing continual learning methods do not take into account variability in input dimensions arising due to different subsets of sensors being available across tasks, and struggle to adapt to such variable input dimensions (VID) tasks. In this work, we address this shortcoming of existing methods. To this end, we learn task-specific generative models and classifiers, and use these to augment data for target tasks. Since the input dimensions across tasks vary, we propose a novel conditioning module based on graph neural networks to aid a standard recurrent neural network. We evaluate the efficacy of the proposed approach on three publicly available datasets corresponding to two activity recognition tasks (classification) and one prognostics task (regression).
翻訳日:2022-03-15 16:53:08 公開日:2022-03-14
# アクティブデータサンプリングによるコミュニケーション効率の良いフェデレート蒸留

Communication-Effici ent Federated Distillation with Active Data Sampling ( http://arxiv.org/abs/2203.06900v1 )

ライセンス: Link先を確認
Lumin Liu, Jun Zhang, S. H. Song, Khaled B. Letaief(参考訳) フェデレートラーニング(FL)は、分散データからプライバシー保護の深層ラーニングを可能にする、有望なパラダイムである。 以前のほとんどの作品はフェデレーション平均(federated average, fedavg)に基づいているが、通信オーバーヘッドの増大や異種モデルアーキテクチャの扱いの難しさなど、いくつかの重大な問題に直面している。 federated distillation (fd) は、fedavgに比べて通信オーバーヘッドの桁違いな削減を実現し、クライアントでの異種モデルの処理に柔軟である通信効率と堅牢性を実現するために最近提案された代替案である。 しかし、fdに基づく手法の統一的なアルゴリズムフレームワークや理論的解析は存在しない。 本稿では,まずfdのための汎用メタアゴリタムを提案し,実験を通してキーパラメータの影響について検討する。 そして,経験的観察を理論的に検証する。 実験結果と理論に基づいて,アクティブデータサンプリングによる通信効率の高いFDアルゴリズムを提案し,モデル性能の向上と通信オーバヘッドの低減を図る。 ベンチマークデータセット上での実証シミュレーションにより,提案アルゴリズムは,良好な性能を達成しつつ,通信オーバーヘッドを大幅に低減することを示す。

Federated learning (FL) is a promising paradigm to enable privacy-preserving deep learning from distributed data. Most previous works are based on federated average (FedAvg), which, however, faces several critical issues, including a high communication overhead and the difficulty in dealing with heterogeneous model architectures. Federated Distillation (FD) is a recently proposed alternative to enable communication-effici ent and robust FL, which achieves orders of magnitude reduction of the communication overhead compared with FedAvg and is flexible to handle heterogeneous models at the clients. However, so far there is no unified algorithmic framework or theoretical analysis for FD-based methods. In this paper, we first present a generic meta-algorithm for FD and investigate the influence of key parameters through empirical experiments. Then, we verify the empirical observations theoretically. Based on the empirical results and theory, we propose a communication-effici ent FD algorithm with active data sampling to improve the model performance and reduce the communication overhead. Empirical simulations on benchmark datasets will demonstrate that our proposed algorithm effectively and significantly reduces the communication overhead while achieving a satisfactory performance.
翻訳日:2022-03-15 16:52:39 公開日:2022-03-14
# 電子健康記録のための生成的広告ネットワークの展望 : 応用, 評価方法, データソース

A review of Generative Adversarial Networks for Electronic Health Records: applications, evaluation measures and data sources ( http://arxiv.org/abs/2203.07018v1 )

ライセンス: Link先を確認
Ghadeer Ghosheh, Jin Li and Tingting Zhu(参考訳) EHR(Electronic Health Records)は、臨床研究と医療応用のポイントを促進する貴重な資産であるが、データプライバシの懸念など多くの課題が、その最適な利用を妨げる。 Generative Adversarial Networks (GANs) は、基礎となるデータ分布を学習し、優れたパフォーマンスを達成し、これらの課題に対処することで、合成 EHR データを生成する上で大きな可能性を秘めている。 本研究の目的は, GANs for EHR の様々な応用における主要な展開を概観することであり,提案手法の概要を提供する。 この目的のために, 医療アプリケーションと機械学習技術からの視点を, ソースデータセットと生成した合成データセットの忠実性とプライバシ評価の観点から組み合わせる。 また、レビュー作業で使用されるメトリクスとデータセットのリストをコンパイルし、この分野の今後の研究のベンチマークとして利用します。 我々は、EHR開発におけるGANの課題について議論し、推奨プラクティスを提案することで締めくくります。 この研究が、医療と機械学習の交差点における新しい研究の方向性を動機付けることを願っている。

Electronic Health Records (EHRs) are a valuable asset to facilitate clinical research and point of care applications; however, many challenges such as data privacy concerns impede its optimal utilization. Generative Adversarial Networks (GANs) show great promise in generating synthetic EHR data by learning underlying data distributions while achieving excellent performance and addressing these challenges. This work aims to review the major developments in various applications of GANs for EHRs and provides an overview of the proposed methodologies. For this purpose, we combine perspectives from healthcare applications and machine learning techniques in terms of source datasets and the fidelity and privacy evaluation of the generated synthetic datasets. We also compile a list of the metrics and datasets used by the reviewed works, which can be utilized as benchmarks for future research in the field. We conclude by discussing challenges in GANs for EHRs development and proposing recommended practices. We hope that this work motivates novel research development directions in the intersection of healthcare and machine learning.
翻訳日:2022-03-15 16:52:18 公開日:2022-03-14
# ラベルなしデータの活用による一級分類における最先端化

Improving State-of-the-Art in One-Class Classification by Leveraging Unlabeled Data ( http://arxiv.org/abs/2203.07206v1 )

ライセンス: Link先を確認
Farid Bagirov, Dmitry Ivanov, Aleksei Shpilman(参考訳) 1つのラベル付きクラスデータサイエンティストでデータのバイナリ分類を扱う場合、2つの主要なアプローチ、すなわち1クラス(OC)分類と正のアンラベル付き(PU)学習を用いる。 前者はラベル付き陽性データからのみ学習するが、後者はラベルなしデータを使って全体的なパフォーマンスを改善する。 PU学習はより多くのデータを利用するので、ラベルのないデータが利用可能であれば、go-toアルゴリズムは常にPUグループから来るべきであると考える傾向にある。 しかし、ラベルなしデータが信頼できない場合、すなわち、制限またはバイアス付き潜在負のデータを含む場合、これは必ずしもそうではない。 非ラベルデータ信頼性に関するさまざまなシナリオにおいて,最先端ocアルゴリズムとpuアルゴリズムの広範な実験を行った。 さらに,信頼できないデータに頑健な最先端ocアルゴリズムのpu修正と,他のocアルゴリズムを同じように修正するためのガイドラインを提案する。 我々の主な推奨事項は、ラベルのないデータが信頼できる場合に最先端のPUアルゴリズムを使用することと、それ以外は最先端のOCアルゴリズムの修正を行うことである。 また,信頼度および信頼性の低い非ラベルデータの場合を統計的テストで区別する手順を概説する。

When dealing with binary classification of data with only one labeled class data scientists employ two main approaches, namely One-Class (OC) classification and Positive Unlabeled (PU) learning. The former only learns from labeled positive data, whereas the latter also utilizes unlabeled data to improve the overall performance. Since PU learning utilizes more data, we might be prone to think that when unlabeled data is available, the go-to algorithms should always come from the PU group. However, we find that this is not always the case if unlabeled data is unreliable, i.e. contains limited or biased latent negative data. We perform an extensive experimental study of a wide list of state-of-the-art OC and PU algorithms in various scenarios as far as unlabeled data reliability is concerned. Furthermore, we propose PU modifications of state-of-the-art OC algorithms that are robust to unreliable unlabeled data, as well as a guideline to similarly modify other OC algorithms. Our main practical recommendation is to use state-of-the-art PU algorithms when unlabeled data is reliable and to use the proposed modifications of state-of-the-art OC algorithms otherwise. Additionally, we outline procedures to distinguish the cases of reliable and unreliable unlabeled data using statistical tests.
翻訳日:2022-03-15 16:51:50 公開日:2022-03-14
# SKM-TEA:Dense Image Labelを用いたMRI画像再構成の定量的評価のためのデータセット

SKM-TEA: A Dataset for Accelerated MRI Reconstruction with Dense Image Labels for Quantitative Clinical Evaluation ( http://arxiv.org/abs/2203.06823v1 )

ライセンス: Link先を確認
Arjun D Desai, Andrew M Schmidt, Elka B Rubin, Christopher M Sandino, Marianne S Black, Valentina Mazzoli, Kathryn J Stevens, Robert Boutin, Christopher R\'e, Garry E Gold, Brian A Hargreaves, Akshay S Chaudhari(参考訳) 磁気共鳴イメージング(MRI)は現代の医療画像の基盤となっている。 しかし、長い画像取得時間、質的専門家分析の必要性、組織健康に敏感な量的指標の欠如(および抽出の困難さ)は、広く臨床研究と研究の研究を妨げている。 最近のMRI再建と解析のための機械学習手法では、この負担を軽減することが期待されているが、これらの手法は、主に不完全な画像品質の指標で検証されている。 この課題を軽減すべく,多タスク評価(skm-tea)データセット(qmri)を用いて,mri再構成・解析ツールのエンドツーエンド・臨床関連評価を可能にする定量的膝mri(qmri)スキャンの収集を行った。 この1.6TBデータセットは、匿名患者のMRIスキャンの約25,000スライス(155例)、対応するスキャナ生成DICOM画像、4つの組織の手動セグメンテーション、および16の臨床的関連疾患に対するバウンディングボックスアノテーションの生データから成り立っている。 画像再構成や高密度画像ラベルと共にqmriパラメータマップを用いて、mri再構成、セグメンテーション、検出技術から抽出されたqmriバイオマーカー推定の品質を測定するフレームワークを提供する。 最後に、このフレームワークを使用して、このデータセットの最先端のベースラインをベンチマークします。 我々は,SKM-TEAデータセットとコードを用いて,画像再構成と画像解析を臨床的に情報化するための幅広い研究を可能にすることを願っている。 データセットへのアクセス、コード、ベンチマークはhttps://github.com/s tanfordmimi/skm-teaで利用可能である。

Magnetic resonance imaging (MRI) is a cornerstone of modern medical imaging. However, long image acquisition times, the need for qualitative expert analysis, and the lack of (and difficulty extracting) quantitative indicators that are sensitive to tissue health have curtailed widespread clinical and research studies. While recent machine learning methods for MRI reconstruction and analysis have shown promise for reducing this burden, these techniques are primarily validated with imperfect image quality metrics, which are discordant with clinically-relevant measures that ultimately hamper clinical deployment and clinician trust. To mitigate this challenge, we present the Stanford Knee MRI with Multi-Task Evaluation (SKM-TEA) dataset, a collection of quantitative knee MRI (qMRI) scans that enables end-to-end, clinically-relevant evaluation of MRI reconstruction and analysis tools. This 1.6TB dataset consists of raw-data measurements of ~25,000 slices (155 patients) of anonymized patient MRI scans, the corresponding scanner-generated DICOM images, manual segmentations of four tissues, and bounding box annotations for sixteen clinically relevant pathologies. We provide a framework for using qMRI parameter maps, along with image reconstructions and dense image labels, for measuring the quality of qMRI biomarker estimates extracted from MRI reconstruction, segmentation, and detection techniques. Finally, we use this framework to benchmark state-of-the-art baselines on this dataset. We hope our SKM-TEA dataset and code can enable a broad spectrum of research for modular image reconstruction and image analysis in a clinically informed manner. Dataset access, code, and benchmarks are available at https://github.com/S tanfordMIMI/skm-tea.
翻訳日:2022-03-15 16:44:21 公開日:2022-03-14
# 変成試験を用いた深度検出モデルの公平性評価

Fairness Evaluation in Deepfake Detection Models using Metamorphic Testing ( http://arxiv.org/abs/2203.06825v1 )

ライセンス: Link先を確認
Muxin Pu, Meng Yi Kuan, Nyee Thoang Lim, Chun Yong Chong, Mei Kuan Lim(参考訳) 異常の存在下でのディープフェイク検出器の公平性は、特に男性または女性の被験者において特に顕著である場合、よく研究されていない。 この研究の主な動機は、deepfake検出モデルがそのような異常下でどのように振る舞うかを評価することである。 しかし、深層学習(DL)と人工知能(AI)システムのブラックボックスの性質から、入力データの変更時にモデルの性能を予測することは困難である。 重要なことに、もしこの欠陥が適切に対処されていない場合、それはモデルの公平性に悪影響を及ぼし、特定のサブ集団を意図せずに識別する結果となる。 そこで本研究の目的は,選択したディープフェイク検出モデルの信頼性と入力変動の変換が出力に与える影響を検証するために,変成試験を採用することである。 我々は,最先端のディープフェイク検出モデルであるmesoinception-4をターゲットモデルとメイクアップとして選択した。 rgb値を満たす前に、dlibライブラリを利用して68の顔ランドマークを取得することにより化粧を行う。 メタモルフィック関係は、男性や女性の画像に適用されるアイライナー、アイシャドウ、ブラッシュ、口紅(一般的な化粧品の外観)を含む化粧などの入力画像の現実的な摂動が、大きなマージンでモデルの出力を変更するべきではないという考えに基づいて導かれる。 さらに、DLとAIシステムにおける潜在的な性バイアスを明らかにすることに注力する範囲を狭める。 具体的には,メソインセプション4モデルが不公平な意思決定を生じさせるかどうかについて検討する。 我々の研究から得られた知見は、DLとAIシステムの品質保証と公正性において、新たな研究方向の道を開く可能性がある。

Fairness of deepfake detectors in the presence of anomalies are not well investigated, especially if those anomalies are more prominent in either male or female subjects. The primary motivation for this work is to evaluate how deepfake detection model behaves under such anomalies. However, due to the black-box nature of deep learning (DL) and artificial intelligence (AI) systems, it is hard to predict the performance of a model when the input data is modified. Crucially, if this defect is not addressed properly, it will adversely affect the fairness of the model and result in discrimination of certain sub-population unintentionally. Therefore, the objective of this work is to adopt metamorphic testing to examine the reliability of the selected deepfake detection model, and how the transformation of input variation places influence on the output. We have chosen MesoInception-4, a state-of-the-art deepfake detection model, as the target model and makeup as the anomalies. Makeups are applied through utilizing the Dlib library to obtain the 68 facial landmarks prior to filling in the RGB values. Metamorphic relations are derived based on the notion that realistic perturbations of the input images, such as makeup, involving eyeliners, eyeshadows, blushes, and lipsticks (which are common cosmetic appearance) applied to male and female images, should not alter the output of the model by a huge margin. Furthermore, we narrow down the scope to focus on revealing potential gender biases in DL and AI systems. Specifically, we are interested to examine whether MesoInception-4 model produces unfair decisions, which should be considered as a consequence of robustness issues. The findings from our work have the potential to pave the way for new research directions in the quality assurance and fairness in DL and AI systems.
翻訳日:2022-03-15 16:43:51 公開日:2022-03-14
# (参考訳) BERTサージオン:大規模言語モデルのためのスケーラブルで正確な2次プルーニング [全文訳有]

The Optimal BERT Surgeon: Scalable and Accurate Second-Order Pruning for Large Language Models ( http://arxiv.org/abs/2203.07259v1 )

ライセンス: CC BY 4.0
Eldar Kurtic, Daniel Campos, Tuan Nguyen, Elias Frantar, Mark Kurtz, Benjamin Fineran, Michael Goin, Dan Alistarh(参考訳) 事前訓練されたトランスフォーマーベースの言語モデルは、自然言語処理(NLP)タスクの重要な構成要素となっている。 これらのモデルは極めて正確だが、標準のデプロイメントを実行するには大きすぎるし、計算集約的すぎる可能性がある。 蒸留, 定量化, 構造化および非構造化プルーニングを含む様々な圧縮法は, モデルサイズを減少させ, 推論速度を増大させることが知られている。 この文脈では、本論文の貢献は2つある。 BERTモデルを用いた非構造式減量機の高精度圧縮トレードオフの詳細な研究から始め, 近似2次情報に基づく効率的かつ高精度な減量法であるOptimal BERT Surgeon (O-BERT-S) を導入し, 圧縮/精度トレードオフの観点から, 最先端の減量結果が得られることを示した。 具体的には、BERTサージョンは、重量のブロックを刈り取ることができ、BERTスケールで適用することで、二階刈りの既存の作業を拡張する。 第二に, 変圧器モデルにおける圧縮手法の複合化において, このプルーニング手法が与える影響について検討し, 最先端の構造化モデルと非構造化プルーニングを量子化と組み合わせることにより, 高精度なモデルを得ることができた。 得られた圧縮フレームワークは強力で汎用的で効率的であり、言語タスクの微調整と事前訓練の両方に応用し、比較的単純な圧縮レシピによる精度圧縮トレードオフに関する最先端の結果を得る。 例えば、密度の高いbertベースに対して、精度が1%未満の10倍のモデルサイズ圧縮、精度が2%のエンド・ツー・エンドのcpu参照速度アップ、そして7.5%の相対精度低下で29倍の推論スピードアップが得られる。

Pre-trained Transformer-based language models have become a key building block for natural language processing (NLP) tasks. While these models are extremely accurate, they can be too large and computationally intensive to run on standard deployments. A variety of compression methods, including distillation, quantization, structured and unstructured pruning are known to be applicable to decrease model size and increase inference speed. In this context, this paper's contributions are two-fold. We begin with an in-depth study of the accuracy-compression trade-off for unstructured weight pruning in the context of BERT models, and introduce Optimal BERT Surgeon (O-BERT-S), an efficient and accurate weight pruning method based on approximate second-order information, which we show to yield state-of-the-art results in terms of the compression/accuracy trade-off. Specifically, Optimal BERT Surgeon extends existing work on second-order pruning by allowing for pruning blocks of weights, and by being applicable at BERT scale. Second, we investigate the impact of this pruning method when compounding compression approaches for Transformer-based models, which allows us to combine state-of-the-art structured and unstructured pruning together with quantization, in order to obtain highly compressed, but accurate models. The resulting compression framework is powerful, yet general and efficient: we apply it to both the fine-tuning and pre-training stages of language tasks, to obtain state-of-the-art results on the accuracy-compression trade-off with relatively simple compression recipes. For example, we obtain 10x model size compression with < 1% relative drop in accuracy to the dense BERT-base, 10x end-to-end CPU-inference speedup with < 2% relative drop in accuracy, and 29x inference speedups with < 7.5% relative accuracy drop.
翻訳日:2022-03-15 16:42:09 公開日:2022-03-14
# パッシブ認証のための移動行動バイオメトリックス

Mobile Behavioral Biometrics for Passive Authentication ( http://arxiv.org/abs/2203.07300v1 )

ライセンス: Link先を確認
Giuseppe Stragapede, Ruben Vera-Rodriguez, Ruben Tolosana, Aythami Morales, Alejandro Acien, Gael Le Lan(参考訳) PIN符号、指紋、顔認識に基づく現在のモバイルユーザ認証システムには、いくつかの欠点がある。 このような制限は、行動バイオメトリックスによるモバイルデバイスでのパッシブ認証の実現可能性を探ることによって、文献の中で解決されている。 本研究は, タッチスクリーンと背景センサデータ(加速度センサ, 重力センサ, ジャイロスコープ, リニア加速度計, 磁力計)を考慮し, 被験者がスマートフォン上でタイピング, スクロール, 数字の描画, 画面上でのタップなど, 異なる動作を行う際に得られる単様および多様行動バイオメトリック特性の比較分析を行う。 私たちの実験は,これまでで最大かつ最も包括的なモバイルユーザインタラクションデータベースであるHuMIdb上で実施されています。 単一モード毎にトリプルト損失を持つ別個のリカレントニューラルネットワーク(RNN)を実装する。 そして、異なるモードの重み付け融合をスコアレベルで行う。 私たちの実験では、最も識別可能な背景センサは磁力計で、タッチタスクでは固定テキストシナリオでキーストロークで最高の結果が得られます。 いずれの場合においても、モダリティの融合は非常に有益であり、3秒間隔のモダリティの組み合わせに応じて4%から9%の誤差率(eer)が等しい。

Current mobile user authentication systems based on PIN codes, fingerprint, and face recognition have several shortcomings. Such limitations have been addressed in the literature by exploring the feasibility of passive authentication on mobile devices through behavioral biometrics. In this line of research, this work carries out a comparative analysis of unimodal and multimodal behavioral biometric traits acquired while the subjects perform different activities on the phone such as typing, scrolling, drawing a number, and tapping on the screen, considering the touchscreen and the simultaneous background sensor data (accelerometer, gravity sensor, gyroscope, linear accelerometer, and magnetometer). Our experiments are performed over HuMIdb, one of the largest and most comprehensive freely available mobile user interaction databases to date. A separate Recurrent Neural Network (RNN) with triplet loss is implemented for each single modality. Then, the weighted fusion of the different modalities is carried out at score level. In our experiments, the most discriminative background sensor is the magnetometer, whereas among touch tasks the best results are achieved with keystroke in a fixed-text scenario. In all cases, the fusion of modalities is very beneficial, leading to Equal Error Rates (EER) ranging from 4% to 9% depending on the modality combination in a 3-second interval.
翻訳日:2022-03-15 16:19:41 公開日:2022-03-14
# オールインワン:統一されたビデオ言語事前学習を探求する

All in One: Exploring Unified Video-Language Pre-training ( http://arxiv.org/abs/2203.07303v1 )

ライセンス: Link先を確認
Alex Jinpeng Wang, Yixiao Ge, Rui Yan, Yuying Ge, Xudong Lin, Guanyu Cai, Jianping Wu, Ying Shan, Xiaohu Qie, Mike Zheng Shou(参考訳) Mainstream Video-Language 事前トレーニングモデル \cite{actbert,clipbert,vio let} は、ビデオエンコーダ、テキストエンコーダ、ビデオテキスト融合変換器の3つの部分で構成される。 より重いユニモーダルエンコーダやマルチモーダル融合トランスフォーマーを利用することで、より優れたパフォーマンスを追求し、結果として下流タスクの効率が低下するパラメータが増加する。 本稿では,映像とテキストの信号を統合的なバックボーンアーキテクチャを用いて結合表現に組み込む,エンドツーエンドのビデオ言語モデルである \textit{all-in-one transformer} を初めて紹介する。 ビデオデータのユニークな時間的情報は、モダリティに依存しないトランスフォーマーの設計を妨げる重要な障壁であることが判明した。 この課題を克服するために,ビデオクリップからの時間表現を非パラメトリックにエンコードする,新規かつ効果的なトークンローリング操作を導入する。 注意深い設計により、ビデオテキストのマルチモーダル入力とユニモーダル入力の両方を統一バックボーンモデルを用いて表現学習することができる。 我々の事前学習したオールインワントランスフォーマーは、テキストビデオ検索、ビデオ検索、複数選択、ビジュアルコモンセンス推論など、微調整後の様々なダウンストリームビデオテキストタスクに転送される。 9つのデータセット上での最小モデルFLOPを用いた最先端性能は、競合相手と比較して、我々の手法の優位性を示している。 コードと事前トレーニングされたモデルはhttps://github.com/s howlab/all-in-oneでリリースされている。

Mainstream Video-Language Pre-training models \cite{actbert,clipbert,vio let} consist of three parts, a video encoder, a text encoder, and a video-text fusion Transformer. They pursue better performance via utilizing heavier unimodal encoders or multimodal fusion Transformers, resulting in increased parameters with lower efficiency in downstream tasks. In this work, we for the first time introduce an end-to-end video-language model, namely \textit{all-in-one Transformer}, that embeds raw video and textual signals into joint representations using a unified backbone architecture. We argue that the unique temporal information of video data turns out to be a key barrier hindering the design of a modality-agnostic Transformer. To overcome the challenge, we introduce a novel and effective token rolling operation to encode temporal representations from video clips in a non-parametric manner. The careful design enables the representation learning of both video-text multimodal inputs and unimodal inputs using a unified backbone model. Our pre-trained all-in-one Transformer is transferred to various downstream video-text tasks after fine-tuning, including text-video retrieval, video-question answering, multiple choice and visual commonsense reasoning. State-of-the-art performances with the minimal model FLOPs on nine datasets demonstrate the superiority of our method compared to the competitive counterparts. The code and pretrained model have been released in https://github.com/s howlab/all-in-one.
翻訳日:2022-03-15 16:19:19 公開日:2022-03-14
# GCFSR: 顔とGANを優先しない生成可能かつ制御可能な顔超解法

GCFSR: a Generative and Controllable Face Super Resolution Method Without Facial and GAN Priors ( http://arxiv.org/abs/2203.07319v1 )

ライセンス: Link先を確認
Jingwen He, Wu Shi, Kai Chen, Lean Fu, Chao Dong(参考訳) 顔画像の超解像(顔の幻覚)は、通常、現実的な詳細を復元し、アイデンティティ情報を保存するために顔の優先順位に依存する。 最近の進歩はgan priorの助けを借りて素晴らしい結果を得ることができる。 彼らは、固定されたGANを変更するために複雑なモジュールを設計するか、ジェネレータを微調整するために複雑なトレーニング戦略を採用する。 本稿では,GCFSRと呼ばれる生成可能かつ制御可能な顔SRフレームワークを提案する。 一般に、GCFSRはエンコーダ・ジェネレータアーキテクチャを持つ。 スタイル変調と特徴変調という2つのモジュールは多要素SRタスクのために設計されている。 スタイル変調は、リアルな顔の詳細を生成し、特徴変調は、マルチレベルエンコードされた特徴と、高スケーリング係数に基づく生成された特徴を動的に融合することを目的としている。 シンプルでエレガントなアーキテクチャは、エンドツーエンドでスクラッチからトレーニングすることができます。 小さいアップスケーリング因子 (=8) の場合, GCFSR は対向的損失のみで驚くほど良い結果が得られる。 L1と知覚的損失を加えた後、GCFSRは大きなアップスケーリング因子(16, 32, 64)に対して最先端の手法より優れている。 実験段階では,条件付拡大係数を連続的に変化させ,様々な生成効果を達成することにより,特徴変調により生成強度を調節できる。

Face image super resolution (face hallucination) usually relies on facial priors to restore realistic details and preserve identity information. Recent advances can achieve impressive results with the help of GAN prior. They either design complicated modules to modify the fixed GAN prior or adopt complex training strategies to finetune the generator. In this work, we propose a generative and controllable face SR framework, called GCFSR, which can reconstruct images with faithful identity information without any additional priors. Generally, GCFSR has an encoder-generator architecture. Two modules called style modulation and feature modulation are designed for the multi-factor SR task. The style modulation aims to generate realistic face details and the feature modulation dynamically fuses the multi-level encoded features and the generated ones conditioned on the upscaling factor. The simple and elegant architecture can be trained from scratch in an end-to-end manner. For small upscaling factors (<=8), GCFSR can produce surprisingly good results with only adversarial loss. After adding L1 and perceptual losses, GCFSR can outperform state-of-the-art methods for large upscaling factors (16, 32, 64). During the test phase, we can modulate the generative strength via feature modulation by changing the conditional upscaling factor continuously to achieve various generative effects.
翻訳日:2022-03-15 16:18:53 公開日:2022-03-14
# ビデオカモフラージュ物体検出のための入射運動ハンドリング

Implicit Motion Handling for Video Camouflaged Object Detection ( http://arxiv.org/abs/2203.07363v1 )

ライセンス: Link先を確認
Xuelian Cheng, Huan Xiong, Deng-ping Fan, Yiran Zhong, Mehrtash Harandi, Tom Drummond, Zongyuan Ge(参考訳) 本稿では,ビデオフレームからカモフラージュされたオブジェクトを検出するために,短期的ダイナミクスと長期的時間的一貫性の両方を利用する新しいビデオカモフラーグオブジェクト検出(VCOD)フレームワークを提案する。 カモフラージュされた物体の本質的な性質は、通常、背景に類似したパターンを呈し、静止画から識別するのが難しくなることである。 したがって、動画の時間的ダイナミクスを効果的に扱うことがVCODタスクの鍵となる。 しかし、現在のvcod法は、運動推定誤差とセグメンテーション誤差の両方から検出誤差が累積される運動を表現するためにホモグラフィや光学フローを利用することが多い。 一方,提案手法では,単一の最適化フレームワーク内で運動推定と物体分割を統一する。 具体的には,隣接するフレーム間の動きを暗黙的に捉え,最終的なセグメンテーション監督を利用して暗黙的な動き推定とセグメンテーションを共同で最適化する。 さらに,ビデオシーケンス内の時間的一貫性を強制するために,時空間変換器を併用して短期予測を洗練させる。 VCODベンチマークに関する大規模な実験は、我々のアプローチのアーキテクチャの有効性を示している。 また,大規模なVCODデータセットである MoCA-Mask と,画素レベルの手作りグラウンドトルースマスクを提供し,従来手法による包括的なVCODベンチマークを構築し,この方向の研究を容易にする。 Dataset Link: https://xueliancheng .github.io/SLT-Net-p roject

We propose a new video camouflaged object detection (VCOD) framework that can exploit both short-term dynamics and long-term temporal consistency to detect camouflaged objects from video frames. An essential property of camouflaged objects is that they usually exhibit patterns similar to the background and thus make them hard to identify from still images. Therefore, effectively handling temporal dynamics in videos becomes the key for the VCOD task as the camouflaged objects will be noticeable when they move. However, current VCOD methods often leverage homography or optical flows to represent motions, where the detection error may accumulate from both the motion estimation error and the segmentation error. On the other hand, our method unifies motion estimation and object segmentation within a single optimization framework. Specifically, we build a dense correlation volume to implicitly capture motions between neighbouring frames and utilize the final segmentation supervision to optimize the implicit motion estimation and segmentation jointly. Furthermore, to enforce temporal consistency within a video sequence, we jointly utilize a spatio-temporal transformer to refine the short-term predictions. Extensive experiments on VCOD benchmarks demonstrate the architectural effectiveness of our approach. We also provide a large-scale VCOD dataset named MoCA-Mask with pixel-level handcrafted ground-truth masks and construct a comprehensive VCOD benchmark with previous methods to facilitate research in this direction. Dataset Link: https://xueliancheng .github.io/SLT-Net-p roject.
翻訳日:2022-03-15 16:18:32 公開日:2022-03-14
# (参考訳) 自然画像の訓練を受けたDNNはゲシュタルト特性を取得するか?

Do DNNs trained on Natural Images acquire Gestalt Properties? ( http://arxiv.org/abs/2203.07302v1 )

ライセンス: CC BY 4.0
Valerio Biscione, Jeffrey S. Bowers(参考訳) ある状況下では、人間は集団や「全体」として個々の要素を知覚する傾向がある。 これは、知覚的グループ化の法則を定式化したゲシュタルト心理学の学派によって1世紀以上にわたって広く研究されてきた。 近年,自然画像に基づいて訓練されたDeep Neural Networks (DNN) は,霊長類の腹側視覚ストリームに似た内部表現を学習し,オブジェクト分類タスクに類似したエラーパターンを示すという報告に基づいて,人間の視覚の魅力的なモデルとして提案されている。 つまり、DNNは脳と行動のベンチマークでよく機能する。 ここでは,ゲシュタルトの組織的原則(Pomerantz et al., 1977; Pomerantz and Portillo, 2011)を評価する識別判断における人間とDNNの反応を比較した。 DNNのテストの中で、Brain-Scoreベンチマークでうまく機能するモデルを選択しました(Schrimpf et al., 2018)。 自然画像に訓練されたネットワークは分類の最終段階で形状に対する感受性を示し,ヒトの反応と一致する場合も見られた。 形状の親和性が(形状に似ていないドットパターンを用いて)制御されたとき、ネットワークは近接性、向き、線形性という標準的なゲシュタルト原理に影響を受けず、これは人間に強く、強固な影響を与えることが示されている。 これは、行動や脳のベンチマークでうまく機能するモデルは、それでも人間の視覚の基本原則を欠いていることを示している。

Under some circumstances, humans tend to perceive individual elements as a group or "whole". This has been widely investigated for more than a century by the school of Gestalt Psychology, which formulated several laws of perceptual grouping. Recently, Deep Neural Networks (DNNs) trained on natural images have been proposed as compelling models of human vision based on reports that they learn internal representations similar to the primate ventral visual stream and show similar patterns of errors in object classification tasks. That is, DNNs often perform well on brain and behavioral benchmarks. Here we compared human and DNN responses in discrimination judgments that assess a range of Gestalt organization principles (Pomerantz et al., 1977; Pomerantz and Portillo, 2011). Amongst the DNNs tested we selected models that perform well on the Brain-Score benchmark (Schrimpf et al., 2018). We found that network trained on natural images exhibited sensitivity to shapes at the last stage of classification, which in some cases matched humans responses. When shape familiarity was controlled for (by using dot patterns that would not resemble shapes) we found the networks were insensitive to the standard Gestalt principles of proximity, orientation, and linearity, which have been shown to have a strong and robust effect on humans. This shows that models that perform well on behavioral and brain benchmarks nevertheless miss fundamental principles of human vision.
翻訳日:2022-03-15 16:13:11 公開日:2022-03-14
# ADAS:マルチターゲットドメイン適応セマンティックセマンティックセグメンテーションの直接適応戦略

ADAS: A Direct Adaptation Strategy for Multi-Target Domain Adaptive Semantic Segmentation ( http://arxiv.org/abs/2203.06811v1 )

ライセンス: Link先を確認
Seunghun Lee, Wonhyeok Choi, Changjae Kim, Minwoo Choi, Sunghoon Im(参考訳) 本稿では,事前学習されたドメイン特化モデルを用いずに,セマンティックセグメンテーションタスクにおいて,複数の対象領域に単一モデルを直接適用することを目的とした,直接適応戦略(adas)を提案する。 そこで我々は,新たなターゲット適応型非正規化(TAD)モジュールを通じて,ドメイン固有の特徴を転送することで,ドメイン間で視覚的属性を整列させるマルチターゲットドメイン転送ネットワーク(MTDT-Net)を設計する。 さらに,一貫した特徴量を持つ領域を適応的に選択することにより,クラスラベル間の属性あいまいさを低減する双方向適応領域選択(bars)を提案する。 単一のMTDT-Netは、複雑な駆動データセットで視覚的に転送された領域を合成でき、BARSはターゲット領域毎に不要なトレーニング画像領域を効果的にフィルタリングする。 MTDT-NetとBARSの協力により,マルチターゲットドメイン適応(MTDA)の最先端性能を実現する。 我々の知る限りでは,本手法はセマンティックセグメンテーションにおいて複数のドメインに直接適応する最初のMTDA法である。

In this paper, we present a direct adaptation strategy (ADAS), which aims to directly adapt a single model to multiple target domains in a semantic segmentation task without pretrained domain-specific models. To do so, we design a multi-target domain transfer network (MTDT-Net) that aligns visual attributes across domains by transferring the domain distinctive features through a new target adaptive denormalization (TAD) module. Moreover, we propose a bi-directional adaptive region selection (BARS) that reduces the attribute ambiguity among the class labels by adaptively selecting the regions with consistent feature statistics. We show that our single MTDT-Net can synthesize visually pleasing domain transferred images with complex driving datasets, and BARS effectively filters out the unnecessary region of training images for each target domain. With the collaboration of MTDT-Net and BARS, our ADAS achieves state-of-the-art performance for multi-target domain adaptation (MTDA). To the best of our knowledge, our method is the first MTDA method that directly adapts to multiple domains in semantic segmentation.
翻訳日:2022-03-15 16:03:21 公開日:2022-03-14
# 非教師なしドメイン適応のための動的マージンを用いたbures関節分布アライメント

Bures Joint Distribution Alignment with Dynamic Margin for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2203.06836v1 )

ライセンス: Link先を確認
Yong-Hui Liu, Chuan-Xian Ren, Xiao-Lin Xu, Ke-Kun Huang(参考訳) 非教師付きドメイン適応(Unsupervised domain adapt, UDA)は、トランスファーラーニングにおける顕著なタスクの一つであり、ラベル付きソースドメインとラベルなしターゲットドメインの間の分散シフトを軽減する効果的なアプローチを提供する。 先行研究は主に限界分布や推定されたクラス条件分布の整合性に焦点を当てている。 しかし、機能とラベル間の結合依存性は適応タスクに不可欠であり、完全には利用されない。 この問題に対処するために,無限次元カーネル空間における最適輸送理論に基づいて,結合分布シフトを直接モデル化するBures Joint Distribution Alignment (BJDA)アルゴリズムを提案する。 具体的には, 結合分布間の核間距離を最小化するアライメント損失項を提案する。 技術的には、BJDAはデータの基盤となる非線形構造を効果的に捉えることができる。 さらに,クラス分離性を柔軟に特徴付けし,表現の識別能力を向上させるために,コントラスト学習段階における動的マージンを導入する。 また、従来の三重項損失ベース法においてマージンパラメータを決定するためのクロスバリデーション手順も避けている。 BJDAは、ほとんどの実験環境で最先端のアルゴリズムよりも優れており、UDAタスクに非常に効果的であることを示している。 特に、BJDAは、UDAタスクの平均精度をAdaptiopeで2.8%、Office-Caltech10で1.4%、ImageCLEF-DAで1.1%改善している。

Unsupervised domain adaptation (UDA) is one of the prominent tasks of transfer learning, and it provides an effective approach to mitigate the distribution shift between the labeled source domain and the unlabeled target domain. Prior works mainly focus on aligning the marginal distributions or the estimated class-conditional distributions. However, the joint dependency among the feature and the label is crucial for the adaptation task and is not fully exploited. To address this problem, we propose the Bures Joint Distribution Alignment (BJDA) algorithm which directly models the joint distribution shift based on the optimal transport theory in the infinite-dimensional kernel spaces. Specifically, we propose a novel alignment loss term that minimizes the kernel Bures-Wasserstein distance between the joint distributions. Technically, BJDA can effectively capture the nonlinear structures underlying the data. In addition, we introduce a dynamic margin in contrastive learning phase to flexibly characterize the class separability and improve the discriminative ability of representations. It also avoids the cross-validation procedure to determine the margin parameter in traditional triplet loss based methods. Extensive experiments show that BJDA is very effective for the UDA tasks, as it outperforms state-of-the-art algorithms in most experimental settings. In particular, BJDA improves the average accuracy of UDA tasks by 2.8% on Adaptiope, 1.4% on Office-Caltech10, and 1.1% on ImageCLEF-DA.
翻訳日:2022-03-15 16:02:49 公開日:2022-03-14
# STDAN:時空ビデオスーパーリゾリューションのための変形可能なアテンションネットワーク

STDAN: Deformable Attention Network for Space-Time Video Super-Resolution ( http://arxiv.org/abs/2203.06841v1 )

ライセンス: Link先を確認
Hai Wang, Xiaoyu Xiang, Yapeng Tian, Wenming Yang, Qingmin Liao(参考訳) STVSRの目的は、低解像度(LR)ビデオと低フレームレート(LFR)ビデオの時空間分解能を高めることである。 深層学習に基づく最近のアプローチは大幅に改善されているが、そのほとんどは隣接する2つのフレーム(短期的な特徴)のみを用いて、連続的な入力LRフレームの情報フローを十分に探索することのできないフレーム埋め込みを合成している。 さらに、既存のSTVSRモデルは、高解像度(HR)フレーム再構築を支援するために、時間的コンテキストを明示的に利用し難い。 本稿では,STVSRにおけるSTDANと呼ばれる変形可能なアテンションネットワークを提案する。 まず,LSTFI(Long-short term feature interpolation)モジュールを設計し,より隣接する入力フレームから多量のコンテンツを抽出し,双方向のRNN構造を通して補間処理を行う。 次に,動的ビデオフレームの空間的および時間的コンテキストを適応的にキャプチャし,sr再構成を促進させる空間的-時空間的変形可能な特徴集約(stdfa)モジュールを提案する。 いくつかのデータセットに対する実験結果から,本手法は最先端のSTVSR法より優れていることが示された。

The target of space-time video super-resolution (STVSR) is to increase the spatial-temporal resolution of low-resolution (LR) and low frame rate (LFR) videos. Recent approaches based on deep learning have made significant improvements, but most of them only use two adjacent frames, that is, short-term features, to synthesize the missing frame embedding, which suffers from fully exploring the information flow of consecutive input LR frames. In addition, existing STVSR models hardly exploit the temporal contexts explicitly to assist high-resolution (HR) frame reconstruction. To address these issues, in this paper, we propose a deformable attention network called STDAN for STVSR. First, we devise a long-short term feature interpolation (LSTFI) module, which is capable of excavating abundant content from more neighboring input frames for the interpolation process through a bidirectional RNN structure. Second, we put forward a spatial-temporal deformable feature aggregation (STDFA) module, in which spatial and temporal contexts in dynamic video frames are adaptively captured and aggregated to enhance SR reconstruction. Experimental results on several datasets demonstrate that our approach outperforms state-of-the-art STVSR methods.
翻訳日:2022-03-15 16:02:22 公開日:2022-03-14
# recursive mix: 歴史と混合学習

RecursiveMix: Mixed Learning with History ( http://arxiv.org/abs/2203.06844v1 )

ライセンス: Link先を確認
Lingfeng Yang, Xiang Li, Borui Zhao, Renjie Song, Jian Yang(参考訳) 混合ベースの拡張は、ディープビジョンモデルの一般化に基本であることが証明されている。 しかし、現在の拡張はトレーニング中に現在のデータバッチでサンプルを混合するだけであり、学習履歴に蓄積される可能性のある知識を無視している。 本稿では,過去の入出力ラベル三重項を活用した新しい学習戦略を探求し,再帰的混合サンプル学習パラダイム「再帰的混合(rm)」を提案する。 より具体的には、入力画像バッチを前回のイテレーションから繰り返し再サイズし、ラベルが操作済みパッチの面積に比例して融合している間に現在のバッチにペーストする。 さらに、同じイメージセマンティクスをイテレーション間で整合させるために一貫性損失を導入し、スケール不変の特徴表現の学習を支援する。 ResNet-50に基づいて、RMはCIFAR100で$\sim$3.2\%、ImageNetで$\sim$2.8\%の分類精度を無視できる余分な計算/保存コストで改善した。 下流オブジェクト検出タスクでは、事前訓練されたRMモデルはベースラインを2.1APポイントで上回り、COCO上のATSS検出器の下でCutMixを1.4APポイント上回る。 セマンティックセグメンテーションでは、RMは、ADE20K上のUperNetの下で、ベースラインとCutMixをそれぞれ1.9と1.1mIoUで上回る。 コードと事前訓練されたモデルは、 \url{https://github.com/m egvii-research/Recur siveMix}で入手できる。

Mix-based augmentation has been proven fundamental to the generalization of deep vision models. However, current augmentations only mix samples at the current data batch during training, which ignores the possible knowledge accumulated in the learning history. In this paper, we propose a recursive mixed-sample learning paradigm, termed "RecursiveMix" (RM), by exploring a novel training strategy that leverages the historical input-prediction-lab el triplets. More specifically, we iteratively resize the input image batch from the previous iteration and paste it into the current batch while their labels are fused proportionally to the area of the operated patches. Further, a consistency loss is introduced to align the identical image semantics across the iterations, which helps the learning of scale-invariant feature representations. Based on ResNet-50, RM largely improves classification accuracy by $\sim$3.2\% on CIFAR100 and $\sim$2.8\% on ImageNet with negligible extra computation/storage costs. In the downstream object detection task, the RM pretrained model outperforms the baseline by 2.1 AP points and surpasses CutMix by 1.4 AP points under the ATSS detector on COCO. In semantic segmentation, RM also surpasses the baseline and CutMix by 1.9 and 1.1 mIoU points under UperNet on ADE20K, respectively. Codes and pretrained models are available at \url{https://github.com/m egvii-research/Recur siveMix}.
翻訳日:2022-03-15 16:02:00 公開日:2022-03-14
# TSR-DSAW:単語の深部空間結合による表構造認識

TSR-DSAW: Table Structure Recognition via Deep Spatial Association of Words ( http://arxiv.org/abs/2203.06873v1 )

ライセンス: Link先を確認
Arushi Jain, Shubham Paliwal, Monika Sharma, Lovekesh Vig(参考訳) カメラキャプチャやスキャンされた文書からのテーブル構造認識(TSR)の既存の方法は、ネストされた行/列、複数行のテキスト、欠落したセルデータからなる複雑なテーブル上では不十分である。 これは、現在のデータ駆動型メソッドは、単に大量のデータで深いモデルをトレーニングするだけで動作し、目に見えないテーブル構造に遭遇したときの一般化に失敗するためである。 本稿では、テーブル構造を解き明かすために、テーブル画像に存在する異なる単語対間の空間関係を捉えるために、深層ネットワークを訓練することを提案する。 tsr via deep spatial association of wordsは、htmlのような構造化されたフォーマットで表画像のデジタル表現を出力する。 入力として表画像が与えられた場合,提案手法は,craft のようなテキスト検出ネットワークを用いて画像中のすべての単語を検出し,動的プログラミングを用いて単語ペアを生成することから始まる。 これらのワードペアは個々の画像で強調表示され、その後、同一列、同一列、同一セル、ゼロといった空間的関連を捉えるように訓練された密度ネット-121分類器に供給される。 最後に,HTML形式でテーブル構造を生成するために,分類器出力の処理後処理を行う。 TSR-DSAWパイプラインをPubTabNetとICDAR 2013という2つのパブリックなテーブルイメージデータセット上で評価し、TableNetやDeepDeSRTといった従来の手法よりも改善したことを示す。

Existing methods for Table Structure Recognition (TSR) from camera-captured or scanned documents perform poorly on complex tables consisting of nested rows / columns, multi-line texts and missing cell data. This is because current data-driven methods work by simply training deep models on large volumes of data and fail to generalize when an unseen table structure is encountered. In this paper, we propose to train a deep network to capture the spatial associations between different word pairs present in the table image for unravelling the table structure. We present an end-to-end pipeline, named TSR-DSAW: TSR via Deep Spatial Association of Words, which outputs a digital representation of a table image in a structured format such as HTML. Given a table image as input, the proposed method begins with the detection of all the words present in the image using a text-detection network like CRAFT which is followed by the generation of word-pairs using dynamic programming. These word-pairs are highlighted in individual images and subsequently, fed into a DenseNet-121 classifier trained to capture spatial associations such as same-row, same-column, same-cell or none. Finally, we perform post-processing on the classifier output to generate the table structure in HTML format. We evaluate our TSR-DSAW pipeline on two public table-image datasets -- PubTabNet and ICDAR 2013, and demonstrate improvement over previous methods such as TableNet and DeepDeSRT.
翻訳日:2022-03-15 16:01:35 公開日:2022-03-14
# 意味対応マッチングによるDETR収束の高速化

Accelerating DETR Convergence via Semantic-Aligned Matching ( http://arxiv.org/abs/2203.06883v1 )

ライセンス: Link先を確認
Gongjie Zhang, Zhipeng Luo, Yingchen Yu, Kaiwen Cui, Shijian Lu(参考訳) 最近開発されたDetection TRansformer (DETR)は、手作り部品のシリーズをなくして新しいオブジェクト検出パラダイムを確立する。 しかし、detrは極めて遅い収束に苦しむため、トレーニングコストが大幅に増加する。 我々は、遅い収束は、異なる特徴埋め込み空間における対象特徴とオブジェクトクエリのマッチングにおける複雑さに大きく起因していると考えている。 本稿では,DTRの精度を犠牲にすることなく,DTRの収束を大幅に加速するセマンティック整合DTRであるSAM-DETRを提案する。 SAM-DETRは2つの観点から収束問題に対処する。 まず、オブジェクトクエリをエンコードされた画像の特徴と同じ埋め込み空間に投影し、一致したセマンティクスで効率的にマッチングを行う。 第二に、セマンティクスアライメントマッチングの最も識別的な特徴を持つサルエントポイントを明示的に検索し、コンバージェンスをさらに高速化し、検出精度も向上させる。 SAM-DETRはプラグ・アンド・プレイのように既存の収束解を補完するが、計算オーバーヘッドはわずかである。 大規模な実験により,提案したSAM-DETRは優れた収束性および競合検出精度が得られることが示された。 実装コードはhttps://github.com/Z hangGongjie/SAM-DETR で公開されている。

The recently developed DEtection TRansformer (DETR) establishes a new object detection paradigm by eliminating a series of hand-crafted components. However, DETR suffers from extremely slow convergence, which increases the training cost significantly. We observe that the slow convergence is largely attributed to the complication in matching object queries with target features in different feature embedding spaces. This paper presents SAM-DETR, a Semantic-Aligned-Mat ching DETR that greatly accelerates DETR's convergence without sacrificing its accuracy. SAM-DETR addresses the convergence issue from two perspectives. First, it projects object queries into the same embedding space as encoded image features, where the matching can be accomplished efficiently with aligned semantics. Second, it explicitly searches salient points with the most discriminative features for semantic-aligned matching, which further speeds up the convergence and boosts detection accuracy as well. Being like a plug and play, SAM-DETR complements existing convergence solutions well yet only introduces slight computational overhead. Extensive experiments show that the proposed SAM-DETR achieves superior convergence as well as competitive detection accuracy. The implementation codes are available at https://github.com/Z hangGongjie/SAM-DETR .
翻訳日:2022-03-15 16:01:06 公開日:2022-03-14
# DKMA-ULD: マルチヘッドアテンションに基づくロバストユニバーサル病変検出のためのドメイン知識

DKMA-ULD: Domain Knowledge augmented Multi-head Attention based Robust Universal Lesion Detection ( http://arxiv.org/abs/2203.06886v1 )

ライセンス: Link先を確認
Manu Sheoran, Meghal Dani, Monika Sharma, Lovekesh Vig(参考訳) ディープネットワークにデータ固有のドメイン知識を明示的に組み込むことで、病変検出に有用な重要な手がかりとなり、堅牢な検出器を学習するための多様な異種データセットの必要性を軽減できる。 本稿では,CT(Computed tomography)スキャンに存在する領域情報を活用し,単一のデータセットであるDeepLesionをトレーニングすることで,全身の臓器全体にわたる病変を検出可能な,堅牢な普遍的病変検出(ULD)ネットワークを提案する。 我々は,異なる臓器を個別に強調表示し,深層ネットワークへの入力として付与するHuunsfield Unit(HU)ウィンドウを用いて,様々な強度のCTスライスを分析する。 多重強度画像から得られた特徴は、新しい畳み込み拡張多頭部自己注意モジュールを用いて融合し、その後、病変検出のために地域提案ネットワーク(RPN)に渡される。 また,自然画像に使用される従来のアンカーボックスは,医用画像によく見られる病変の大きさには適さないことがわかった。 そこで本研究では,RPNの病変特異的アンカーサイズと比率を用いて検出性能を向上させることを提案する。 私たちは、DeepLesionデータセット上のネットワークの重み付けを初期化するためにセルフスーパービジョンを使用し、ドメイン知識をさらに抑制します。 提案するドメイン知識拡張型マルチヘッドアテンションベースユニバーサル病変検出ネットワークDMKA-ULDは,異なる臓器にまたがる病変に対して,洗練された正確な境界ボックスを生成する。 約32KのCTスキャンと全臓器に注視病変を付加したDeepLesionデータセットを用いて,本ネットワークの有効性を検証した。 その結果,既存の最先端手法よりも87.16%の感度が得られた。

Incorporating data-specific domain knowledge in deep networks explicitly can provide important cues beneficial for lesion detection and can mitigate the need for diverse heterogeneous datasets for learning robust detectors. In this paper, we exploit the domain information present in computed tomography (CT) scans and propose a robust universal lesion detection (ULD) network that can detect lesions across all organs of the body by training on a single dataset, DeepLesion. We analyze CT-slices of varying intensities, generated using heuristically determined Hounsfield Unit(HU) windows that individually highlight different organs and are given as inputs to the deep network. The features obtained from the multiple intensity images are fused using a novel convolution augmented multi-head self-attention module and subsequently, passed to a Region Proposal Network (RPN) for lesion detection. In addition, we observed that traditional anchor boxes used in RPN for natural images are not suitable for lesion sizes often found in medical images. Therefore, we propose to use lesion-specific anchor sizes and ratios in the RPN for improving the detection performance. We use self-supervision to initialize weights of our network on the DeepLesion dataset to further imbibe domain knowledge. Our proposed Domain Knowledge augmented Multi-head Attention based Universal Lesion Detection Network DMKA-ULD produces refined and precise bounding boxes around lesions across different organs. We evaluate the efficacy of our network on the publicly available DeepLesion dataset which comprises of approximately 32K CT scans with annotated lesions across all organs of the body. Results demonstrate that we outperform existing state-of-the-art methods achieving an overall sensitivity of 87.16%.
翻訳日:2022-03-15 15:59:50 公開日:2022-03-14
# ビジュアルオブジェクトトラッキングのための効率的なユニバーサルシャッフルアタック

Efficient universal shuffle attack for visual object tracking ( http://arxiv.org/abs/2203.06898v1 )

ライセンス: Link先を確認
Siao Liu, Zhaoyu Chen, Wei Li, Jiwei Zhu, Jiafeng Wang, Wenqiang Zhang, Zhongxue Gan(参考訳) 近年,映像フレームに不可避な摂動を注入してディープトラッカを欺くために,視覚物体追跡に逆襲が適用されている。 しかし、以前の作業はビデオ特有の摂動のみを生成し、アプリケーションのシナリオを制限している。 さらに、リアルタイム追跡と再初期化機構のため、現実には既存の攻撃を実装するのが困難である。 これらの問題に対処するため,我々は,効率的なユニバーサルシャッフル攻撃という,オフラインの普遍的敵意攻撃を提案する。 すべてのビデオでトラッカーの故障を引き起こすには、たった1回の摂動しかかからない。 計算効率の向上と攻撃性能向上のために,モデル固有の特徴表現を効率よく捕捉・攻撃するグリーディ勾配戦略と三重損失を提案する。 実験結果から,OCB2015およびVOT2018における最先端トラッカーの性能を著しく低下させることができることがわかった。

Recently, adversarial attacks have been applied in visual object tracking to deceive deep trackers by injecting imperceptible perturbations into video frames. However, previous work only generates the video-specific perturbations, which restricts its application scenarios. In addition, existing attacks are difficult to implement in reality due to the real-time of tracking and the re-initialization mechanism. To address these issues, we propose an offline universal adversarial attack called Efficient Universal Shuffle Attack. It takes only one perturbation to cause the tracker malfunction on all videos. To improve the computational efficiency and attack performance, we propose a greedy gradient strategy and a triple loss to efficiently capture and attack model-specific feature representations through the gradients. Experimental results show that EUSA can significantly reduce the performance of state-of-the-art trackers on OTB2015 and VOT2018.
翻訳日:2022-03-15 15:59:21 公開日:2022-03-14
# マルチビュー幻覚を用いたデュアルドメイン特徴流を用いたテクスチャ生成

Texture Generation Using Dual-Domain Feature Flow with Multi-View Hallucinations ( http://arxiv.org/abs/2203.06901v1 )

ライセンス: Link先を確認
Seunggyu Chang, Jungchan Cho, Songhwai Oh(参考訳) 3次元人体モデルをカラー化するために,1枚の画像からテクスチャマップを推定する2領域生成モデルを提案する。 テクスチャマップを推定する際には、3Dオブジェクトの1つの面のみを明らかにするため、単一の画像が不十分である。 完全なテクスチャマップを推定するための十分な情報を提供するため、提案モデルは、画像領域におけるマルチビュー幻覚とテクスチャ領域における推定テクスチャマップを同時に生成する。 生成プロセスの間、各ドメインジェネレータはフローベースのローカルアテンションメカニズムによって機能を互いに交換する。 このようにして,提案モデルでは,多視点幻覚が生成される豊富な多視点画像特徴を利用したテクスチャマップを推定できる。 その結果、推定テクスチャマップは、地域全体に一貫した色とパターンを含んでいる。 実験では、3dアニメーションレンダリングに適用可能な直接レンダリング可能なテクスチャマップを推定するモデルが優れていることを示す。 さらに,提案モデルでは,ポーズおよび視点伝達タスクのための画像領域の全体的な生成品質も向上する。

We propose a dual-domain generative model to estimate a texture map from a single image for colorizing a 3D human model. When estimating a texture map, a single image is insufficient as it reveals only one facet of a 3D object. To provide sufficient information for estimating a complete texture map, the proposed model simultaneously generates multi-view hallucinations in the image domain and an estimated texture map in the texture domain. During the generating process, each domain generator exchanges features to the other by a flow-based local attention mechanism. In this manner, the proposed model can estimate a texture map utilizing abundant multi-view image features from which multiview hallucinations are generated. As a result, the estimated texture map contains consistent colors and patterns over the entire region. Experiments show the superiority of our model for estimating a directly render-able texture map, which is applicable to 3D animation rendering. Furthermore, our model also improves an overall generation quality in the image domain for pose and viewpoint transfer tasks.
翻訳日:2022-03-15 15:59:06 公開日:2022-03-14
# きめ細かいシーングラフ生成のための階層的メモリ学習

Hierarchical Memory Learning for Fine-Grained Scene Graph Generation ( http://arxiv.org/abs/2203.06907v1 )

ライセンス: Link先を確認
Youming Deng, Yansheng Li, Yongjun Zhang, Xiang Xiang, Jian Wang, Jingdong Chen, Jiayi Ma(参考訳) シーングラフ生成(SGG)に関しては、クラウドソースラベリングによるデータセットに粗い述語と微妙な述語が混在しており、ロングテール問題も顕著である。 このようなトリッキーな状況から、多くの既存のSGG法は述語を等しく扱い、混合粒度述語の下でモデルを学習し、比較的粗い予測をもたらす。 本稿では,人間の階層的メモリ学習プロセスに類似した,単純から複雑にモデルを学ぶための新しい階層的メモリ学習(hml)フレームワークを提案する。 粗い述語と細かい述語を自律的に分割した後、モデルはまず粗い述語で訓練され、その後細かい述語を学ぶ。 この階層的な学習パターンを実現するために,新しい概念再構成(CR)とモデル再構成(MR)の制約を用いて,HMLフレームワークを初めて定式化する。 HMLフレームワークは、様々なSGGモデルを改善するための1つの最適化戦略として捉えることができ、SGGベンチマーク(すなわち、Visual Genome)で大幅な改善が達成できることに注意する必要がある。

As far as Scene Graph Generation (SGG), coarse and fine predicates mix in the dataset due to the crowd-sourced labeling, and the long-tail problem is also pronounced. Given this tricky situation, many existing SGG methods treat the predicates equally and learn the model under the supervision of mixed-granularity predicates in one stage, leading to relatively coarse predictions. In order to alleviate the negative impact of the suboptimum mixed-granularity annotation and long-tail effect problems, this paper proposes a novel Hierarchical Memory Learning (HML) framework to learn the model from simple to complex, which is similar to the human beings' hierarchical memory learning process. After the autonomous partition of coarse and fine predicates, the model is first trained on the coarse predicates and then learns the fine predicates. In order to realize this hierarchical learning pattern, this paper, for the first time, formulates the HML framework using the new Concept Reconstruction (CR) and Model Reconstruction (MR) constraints. It is worth noticing that the HML framework can be taken as one general optimization strategy to improve various SGG models, and significant improvement can be achieved on the SGG benchmark (i.e., Visual Genome).
翻訳日:2022-03-15 15:58:51 公開日:2022-03-14
# SimMatch: 類似性マッチングによる半教師あり学習

SimMatch: Semi-supervised Learning with Similarity Matching ( http://arxiv.org/abs/2203.06915v1 )

ライセンス: Link先を確認
Mingkai Zheng, Shan You, Lang Huang, Fei Wang, Chen Qian, Chang Xu(参考訳) ラベル付きデータの少ない学習は、コンピュータビジョンと機械学習研究コミュニティの長年の問題だった。 本稿では,セマンティック類似性とインスタンス類似性を同時に検討するセミ教師付き学習フレームワークSimMatchを提案する。 simmatchでは、一貫性の正規化はセマンティクスレベルとインスタンスレベルの両方に適用される。 同じインスタンスの異なる拡張ビューは、同じクラス予測と、他のインスタンスに対して同様の類似性関係を持つように推奨されている。 次に、ラベル付きメモリバッファをインスタンス化し、インスタンスレベルの真理ラベルを完全に活用し、セマンティックとインスタンスの類似性のギャップを埋める。 最後に,これら2つの類似性を同型に変換できる「textit{unfolding}」と「textit{aggregation}」演算を提案する。 このように、セマンティックとインスタンスの擬似ラベルは相互に伝播し、より高品質で信頼性の高いマッチングターゲットを生成する。 広範な実験結果から、simmatchは、異なるベンチマークデータセットと異なる設定で半教師あり学習タスクのパフォーマンスを向上させることが示されている。 特に400エポックのトレーニングでは、simmatchは67.2\%と74.4\%のtop-1精度を達成し、1\%と10\%のラベル付き例をimagenet上で達成している。 コードおよび事前訓練されたモデルは、 \href{https://github.com/K yleZheng1997/simmatc h}{https://github.com/K yleZheng1997/simmatc h} で利用可能である。

Learning with few labeled data has been a longstanding problem in the computer vision and machine learning research community. In this paper, we introduced a new semi-supervised learning framework, SimMatch, which simultaneously considers semantic similarity and instance similarity. In SimMatch, the consistency regularization will be applied on both semantic-level and instance-level. The different augmented views of the same instance are encouraged to have the same class prediction and similar similarity relationship respected to other instances. Next, we instantiated a labeled memory buffer to fully leverage the ground truth labels on instance-level and bridge the gaps between the semantic and instance similarities. Finally, we proposed the \textit{unfolding} and \textit{aggregation} operation which allows these two similarities be isomorphically transformed with each other. In this way, the semantic and instance pseudo-labels can be mutually propagated to generate more high-quality and reliable matching targets. Extensive experimental results demonstrate that SimMatch improves the performance of semi-supervised learning tasks across different benchmark datasets and different settings. Notably, with 400 epochs of training, SimMatch achieves 67.2\%, and 74.4\% Top-1 Accuracy with 1\% and 10\% labeled examples on ImageNet, which significantly outperforms the baseline methods and is better than previous semi-supervised learning frameworks. Code and pre-trained models are available at \href{https://github.com/K yleZheng1997/simmatc h}{https://github.com/K yleZheng1997/simmatc h}
翻訳日:2022-03-15 15:58:28 公開日:2022-03-14
# Blind2Unblind:視覚的な盲点で自己監督された画像

Blind2Unblind: Self-Supervised Image Denoising with Visible Blind Spots ( http://arxiv.org/abs/2203.06967v1 )

ライセンス: Link先を確認
Zejin Wang, Jiazheng Liu, Guoqing Li, Hua Han(参考訳) 大規模な実雑音とクリーンなペアは高価で入手が難しい。 一方で、合成データで訓練された教師付きデノイザーは、実際には不十分である。 単一ノイズ画像からのみ学習する自己教師型デノイザは、データ収集問題を解決する。 しかし、特に盲点駆動の自己教師型復調法は、入力やネットワーク設計において大きな情報損失を被る。 貴重な情報がないことにより、デノナイジング性能の上限が劇的に低下する。 本稿では,ブラインドスポット駆動型復調法における情報損失を克服する,Blind2Unblindというシンプルな手法を提案する。 まず,グローバル認識を可能にし,トレーニングを高速化するグローバルウェアマスクマッパーを提案する。 マスクマッパーは、識別されたボリューム上の盲点のすべてのピクセルをサンプリングし、それらを同じチャネルにマップすることで、損失関数を一度にすべての盲点を最適化する。 第2に,目隠しネットワークを訓練し,盲点を視認する再視認性損失を提案する。 デノイザは、情報を失ったり、アイデンティティマッピングに閉じ込められたりすることなく、生のノイズ画像から直接学習することができる。 また,再可視損失の収束を理論的に解析する。 総合的および実世界のデータセットに関する広範な実験は、これまでの研究よりも優れた性能を示している。 コードはhttps://github.com/d emonsjin/blind2unbli ndで入手できる。

Real noisy-clean pairs on a large scale are costly and difficult to obtain. Meanwhile, supervised denoisers trained on synthetic data perform poorly in practice. Self-supervised denoisers, which learn only from single noisy images, solve the data collection problem. However, self-supervised denoising methods, especially blindspot-driven ones, suffer sizable information loss during input or network design. The absence of valuable information dramatically reduces the upper bound of denoising performance. In this paper, we propose a simple yet efficient approach called Blind2Unblind to overcome the information loss in blindspot-driven denoising methods. First, we introduce a global-aware mask mapper that enables global perception and accelerates training. The mask mapper samples all pixels at blind spots on denoised volumes and maps them to the same channel, allowing the loss function to optimize all blind spots at once. Second, we propose a re-visible loss to train the denoising network and make blind spots visible. The denoiser can learn directly from raw noise images without losing information or being trapped in identity mapping. We also theoretically analyze the convergence of the re-visible loss. Extensive experiments on synthetic and real-world datasets demonstrate the superior performance of our approach compared to previous work. Code is available at https://github.com/d emonsjin/Blind2Unbli nd.
翻訳日:2022-03-15 15:57:59 公開日:2022-03-14
# コントラスト学習における最小表現の再考

Rethinking Minimal Sufficient Representation in Contrastive Learning ( http://arxiv.org/abs/2203.07004v1 )

ライセンス: Link先を確認
Haoqing Wang, Xun Guo, Zhi-Hong Deng, Yan Lu(参考訳) データの異なるビュー間のコントラスト学習は、自己教師付き表現学習の分野で顕著な成功を収め、学習された表現は幅広い下流タスクに有用である。 一方の視点に対するすべての監督情報が他方の視点から来るため、コントラスト学習は、共有情報を含む最小の十分な表現を得て、ビュー間の非共有情報を排除する。 下流タスクの多様性を考えると、すべてのタスク関連情報がビュー間で共有されることは保証できない。 したがって、非共有タスク関連情報は無視できないと仮定し、比較学習における最小限の表現が下流タスクに十分でないことを理論的に証明し、性能劣化を引き起こす。 これは、対照的な学習モデルがビュー間の共有情報に過剰適合するリスクを持つ新しい問題を明らかにする。 そこで本研究では,学習中にダウンストリームタスク情報を利用することができないため,表現と入力の相互情報を正規化として増やし,タスク関連情報を概ね導入することを提案する。 広範な実験により解析の合理性と方法の有効性が検証された。 下流タスクにおける古典的コントラスト学習モデルの性能を大幅に向上させる。 私たちのコードは \url{https://github.com/H aoqing-Wang/InfoCL} で利用可能です。

Contrastive learning between different views of the data achieves outstanding success in the field of self-supervised representation learning and the learned representations are useful in broad downstream tasks. Since all supervision information for one view comes from the other view, contrastive learning approximately obtains the minimal sufficient representation which contains the shared information and eliminates the non-shared information between views. Considering the diversity of the downstream tasks, it cannot be guaranteed that all task-relevant information is shared between views. Therefore, we assume the non-shared task-relevant information cannot be ignored and theoretically prove that the minimal sufficient representation in contrastive learning is not sufficient for the downstream tasks, which causes performance degradation. This reveals a new problem that the contrastive learning models have the risk of over-fitting to the shared information between views. To alleviate this problem, we propose to increase the mutual information between the representation and input as regularization to approximately introduce more task-relevant information, since we cannot utilize any downstream task information during training. Extensive experiments verify the rationality of our analysis and the effectiveness of our method. It significantly improves the performance of several classic contrastive learning models in downstream tasks. Our code is available at \url{https://github.com/H aoqing-Wang/InfoCL}.
翻訳日:2022-03-15 15:57:40 公開日:2022-03-14
# 特徴混合によるアクティブラーニング

Active Learning by Feature Mixing ( http://arxiv.org/abs/2203.07034v1 )

ライセンス: Link先を確認
Amin Parvaneh, Ehsan Abbasnejad, Damien Teney, Reza Haffari, Anton van den Hengel, Javen Qinfeng Shi(参考訳) アクティブラーニング(AL)の約束は、ラベル付きデータのプールからアノテートする最も価値のある例を選択することでラベリングコストを削減することである。 これらの例を特定することは、特に高次元データ(画像やビデオなど)や低データレジームでは難しい。 本稿では,ALFA-Mixと呼ばれるバッチALの新しい手法を提案する。 我々は,表現の介入による予測の不整合を求めることによって,十分な特徴を持つ未認識のインスタンスを同定する。 ラベル付きインスタンスとラベルなしインスタンスの表現間の補間を構築し、予測されたラベルを調べる。 これらの予測の不整合は、モデルが未認識のインスタンスで認識できない特徴を発見するのに役立ちます。 予測の変化を引き起こす最適補間に対する閉形式解に基づく効率的な実装を導出する。 本手法は,画像,映像,非視覚データの12ベンチマークにおいて,30種類の異なる設定で最新のalアプローチを上回った。 ALFA-Mixは、それぞれ実験の59%と43%で最先端である。

The promise of active learning (AL) is to reduce labelling costs by selecting the most valuable examples to annotate from a pool of unlabelled data. Identifying these examples is especially challenging with high-dimensional data (e.g. images, videos) and in low-data regimes. In this paper, we propose a novel method for batch AL called ALFA-Mix. We identify unlabelled instances with sufficiently-distinc t features by seeking inconsistencies in predictions resulting from interventions on their representations. We construct interpolations between representations of labelled and unlabelled instances then examine the predicted labels. We show that inconsistencies in these predictions help discovering features that the model is unable to recognise in the unlabelled instances. We derive an efficient implementation based on a closed-form solution to the optimal interpolation causing changes in predictions. Our method outperforms all recent AL approaches in 30 different settings on 12 benchmarks of images, videos, and non-visual data. The improvements are especially significant in low-data regimes and on self-trained vision transformers, where ALFA-Mix outperforms the state-of-the-art in 59% and 43% of the experiments respectively.
翻訳日:2022-03-15 15:57:20 公開日:2022-03-14
# Few-Shot Transformer の自己推進型スーパービジョン

Self-Promoted Supervision for Few-Shot Transformer ( http://arxiv.org/abs/2203.07057v1 )

ライセンス: Link先を確認
Bowen Dong, Pan Zhou, Shuicheng Yan, Wangmeng Zuo(参考訳) 視覚変換器(ViT)の少数ショット学習能力は、非常に望まれるものの、ほとんど調査されない。 本研究では,cnnの機能抽出器をvitモデルに置き換えたメタベースラインなど,同じマイショット学習フレームワークでは,マイショット分類性能を著しく損なうことが実証的に判明した。 さらに,本研究では,インダクティブバイアスが欠如している場合には,ラベル付きトレーニングデータしか入手できない数ショットの学習体制下で,入力トークン間の依存関係をゆっくりと学習することがよくあり,その性能劣化に大きく寄与することを示した。 この問題を軽減するため,我々は初めて,vitsのための単純かつ効果的な少数ショット訓練フレームワーク,すなわち自己プロモート監督(sun)を提案する。 具体的には、グローバルなセマンティックラーニングのための従来のグローバルな監視に加えて、SUNは、数ショットの学習データセットでViTをさらに事前訓練し、各パッチトークンを導くために、個別のロケーション固有の監督を生成する。 このロケーション固有の監視は、トークンのパッチが類似または異なっており、トークン依存学習を加速するViTに通知する。 さらに、パッチトークンのローカルセマンティクスをモデル化し、一般化可能なパターンを学ぶのに役立つオブジェクトの接地と認識能力を改善する。 位置特定監視の質を向上させるために, 背景パッチをフィルターし, 追加の背景クラスに割り当てるための背景パッチフィルタを提案する。 2) 空間整合性増強により, 発生した局所監督の精度を維持しつつ, データの増大に十分な多様性がもたらされる。 実験の結果,ViTsを用いたSUNは,ViTsを用いた他の数発の学習フレームワークをはるかに上回り,CNNの最先端技術よりも高い性能を実現した。

The few-shot learning ability of vision transformers (ViTs) is rarely investigated though heavily desired. In this work, we empirically find that with the same few-shot learning frameworks, e.g., Meta-Baseline, replacing the widely used CNN feature extractor with a ViT model often severely impairs few-shot classification performance. Moreover, our empirical study shows that in the absence of inductive bias, ViTs often learn the dependencies among input tokens slowly under few-shot learning regime where only a few labeled training data are available, which largely contributes to the above performance degradation. To alleviate this issue, for the first time, we propose a simple yet effective few-shot training framework for ViTs, namely Self-promoted sUpervisioN (SUN). Specifically, besides the conventional global supervision for global semantic learning, SUN further pretrains the ViT on the few-shot learning dataset and then uses it to generate individual location-specific supervision for guiding each patch token. This location-specific supervision tells the ViT which patch tokens are similar or dissimilar and thus accelerates token dependency learning. Moreover, it models the local semantics in each patch token to improve the object grounding and recognition capability which helps learn generalizable patterns. To improve the quality of location-specific supervision, we further propose two techniques:~1) background patch filtration to filtrate background patches out and assign them into an extra background class; and 2) spatial-consistent augmentation to introduce sufficient diversity for data augmentation while keeping the accuracy of the generated local supervisions. Experimental results show that SUN using ViTs significantly surpasses other few-shot learning frameworks with ViTs and is the first one that achieves higher performance than those CNN state-of-the-arts.
翻訳日:2022-03-15 15:56:28 公開日:2022-03-14
# mdmmt-2: ビデオ検索のためのマルチドメインマルチモーダルトランスフォーマー : 一般化への新たな一歩

MDMMT-2: Multidomain Multimodal Transformer for Video Retrieval, One More Step Towards Generalization ( http://arxiv.org/abs/2203.07086v1 )

ライセンス: Link先を確認
Alexander Kunitsyn, Maksim Kalashnikov, Maksim Dzabraev, Andrei Ivaniuta(参考訳) 本稿では,単一のモデルで得られたmsr-vtt,lsmdc,msvd,y oucook2,tgifのテキスト対ビデオ検索タスクについて,最新の技術を紹介する。 3つの異なるデータソースが組み合わさっている: 弱教師付きビデオ、クラウドラベル付きテキストイメージペア、テキストビデオペア。 利用可能な事前学習ネットワークの慎重な分析は、最高の事前学習ネットワークを選択するのに役立つ。 本稿では,高い転送知識効率を提供し,事前知識の低下を伴わずに学習中にノイズの多いデータセットを使用できる3段階の学習手順を提案する。 さらに、異なるモダリティの融合に二重位置符号化を用い、非二乗入力処理の簡単な方法を提案する。

In this work we present a new State-of-The-Art on the text-to-video retrieval task on MSR-VTT, LSMDC, MSVD, YouCook2 and TGIF obtained by a single model. Three different data sources are combined: weakly-supervised videos, crowd-labeled text-image pairs and text-video pairs. A careful analysis of available pre-trained networks helps to choose the best prior-knowledge ones. We introduce three-stage training procedure that provides high transfer knowledge efficiency and allows to use noisy datasets during training without prior knowledge degradation. Additionally, double positional encoding is used for better fusion of different modalities and a simple method for non-square inputs processing is suggested.
翻訳日:2022-03-15 15:55:56 公開日:2022-03-14
# EIT: インダクティブビアーゼをViTに効率よくリードする

EIT: Efficiently Lead Inductive Biases to ViT ( http://arxiv.org/abs/2203.07116v1 )

ライセンス: Link先を確認
Rui Xia, Jingchao Wang, Chao Xue, Boyu Deng, Fang Wang(参考訳) ViT(Vision Transformer)は、畳み込みニューラルネットワークに固有の帰納バイアスに類似した特性に依存して、非超大規模データセットの性能を向上させる。 本稿では,vitの両相への帰納的バイアスを効果的に導くために,vitへの帰納的バイアス(eit)を効率的に導くアーキテクチャを提案する。 パッチ投影フェーズでは、重複パッチを生成するために畳み込み最大プール構造を用いる。 トランスエンコーダフェーズでは,インダクションの異なるチャネルをそれぞれ処理したマルチヘッドアテンションモジュールに並列に導入した,還元畳み込みと呼ばれる新しいインダクティブバイアス導入構造を設計する。 ViTと比較して4つの一般的な小規模データセットでは、EITは平均12.6%の精度向上であり、パラメータやFLOPは少ない。 ResNetと比較すると、EITは17.7%のパラメータしか持たず、FLOPは少ない。 最後に、アブレーション研究は、EITは効率的であり、位置埋め込みを必要としないことを示した。 もうすぐコードが登場する:https://github.com/ MrHaiPi/EIT

Vision Transformer (ViT) depends on properties similar to the inductive bias inherent in Convolutional Neural Networks to perform better on non-ultra-large scale datasets. In this paper, we propose an architecture called Efficiently lead Inductive biases to ViT (EIT), which can effectively lead the inductive biases to both phases of ViT. In the Patches Projection phase, a convolutional max-pooling structure is used to produce overlapping patches. In the Transformer Encoder phase, we design a novel inductive bias introduction structure called decreasing convolution, which is introduced parallel to the multi-headed attention module, by which the embedding's different channels are processed respectively. In four popular small-scale datasets, compared with ViT, EIT has an accuracy improvement of 12.6% on average with fewer parameters and FLOPs. Compared with ResNet, EIT exhibits higher accuracy with only 17.7% parameters and fewer FLOPs. Finally, ablation studies show that the EIT is efficient and does not require position embedding. Code is coming soon: https://github.com/M rHaiPi/EIT
翻訳日:2022-03-15 15:55:44 公開日:2022-03-14
# ロバスト画像分類器への逆振幅スワップ

Adversarial amplitude swap towards robust image classifiers ( http://arxiv.org/abs/2203.07138v1 )

ライセンス: Link先を確認
Tan Chun Yang, Kazuhiko Kawamoto, Hiroshi Kera(参考訳) 近年, 畳み込みニューラルネットワーク(CNN)による画像摂動の脆弱性について, 周波数の観点から検討している。 本研究では,逆画像の振幅スペクトルと位相スペクトルがCNN分類器の堅牢性に及ぼす影響について検討する。 総合的な実験により, 対向画像の振幅スペクトルとクリーン画像の位相スペクトルを組み合わせた画像は, 適度な摂動と一般の摂動を許容し, それらの画像を用いたトレーニングにより, CNN分類器をより汎用的な堅牢性を持たせ, 共通の汚職と対向的摂動の両方の下で良好に機能することがわかった。 また,2種類のオーバーフィッティング(破滅的なオーバーフィッティングと堅牢なオーバーフィッティング)は,前述のスペクトル再結合によって回避できることがわかった。 これらの結果は,真に堅牢な分類器の理解と訓練に寄与すると考えられる。

The vulnerability of convolutional neural networks (CNNs) to image perturbations such as common corruptions and adversarial perturbations has recently been investigated from the perspective of frequency. In this study, we investigate the effect of the amplitude and phase spectra of adversarial images on the robustness of CNN classifiers. Extensive experiments revealed that the images generated by combining the amplitude spectrum of adversarial images and the phase spectrum of clean images accommodates moderate and general perturbations, and training with these images equips a CNN classifier with more general robustness, performing well under both common corruptions and adversarial perturbations. We also found that two types of overfitting (catastrophic overfitting and robust overfitting) can be circumvented by the aforementioned spectrum recombination. We believe that these results contribute to the understanding and the training of truly robust classifiers.
翻訳日:2022-03-15 15:55:25 公開日:2022-03-14
# NeILF:物理的材料推定のためのニューラルインシデント光場

NeILF: Neural Incident Light Field for Physically-based Material Estimation ( http://arxiv.org/abs/2203.07182v1 )

ライセンス: Link先を確認
Yao Yao, Jingyang Zhang, Jingbo Liu, Yihang Qu, Tian Fang, David McKinnon, Yanghai Tsin, Long Quan(参考訳) 本稿では,多視点画像と再構成幾何から物質と照明を推定するための異なるレンダリングフレームワークを提案する。 本フレームワークでは,シーン照明をニューラルインシデント光電場(NeILF)と表現し,多層パーセプトロンでモデル化した表面BRDFとして材料特性を示す。 シーンライティングを2次元環境マップとして近似する最近のアプローチと比較して、NeILFは静的なシーンの照明をモデル化できる完全な5次元光場である。 さらに、オークルージョンや間接光は、複数の光線トレーシングを必要とすることなく、NeILF表現によって自然に処理できるため、複雑な照明やジオメトリーを持つシーンであっても、材料特性を推定できる。 また,最適化時の物質照らしのあいまいさを軽減するため,スムーズネス正則化とランベルティアン仮定を提案する。 本手法は,物理式に基づくレンダリング式に厳密に従い,異なるレンダリングプロセスを通じて材料と照明を協調的に最適化する。 提案手法は, 室内合成データセット, DTU MVSデータセット, 実世界のBlendedMVSシーンで大きく評価されている。 提案手法は,新しいビューレンダリング品質,画像ベース素材の新たな最先端化,照明推定といった点で,従来手法よりも優れた性能を実現している。

We present a differentiable rendering framework for material and lighting estimation from multi-view images and a reconstructed geometry. In the framework, we represent scene lightings as the Neural Incident Light Field (NeILF) and material properties as the surface BRDF modelled by multi-layer perceptrons. Compared with recent approaches that approximate scene lightings as the 2D environment map, NeILF is a fully 5D light field that is capable of modelling illuminations of any static scenes. In addition, occlusions and indirect lights can be handled naturally by the NeILF representation without requiring multiple bounces of ray tracing, making it possible to estimate material properties even for scenes with complex lightings and geometries. We also propose a smoothness regularization and a Lambertian assumption to reduce the material-lighting ambiguity during the optimization. Our method strictly follows the physically-based rendering equation, and jointly optimizes material and lighting through the differentiable rendering process. We have intensively evaluated the proposed method on our in-house synthetic dataset, the DTU MVS dataset, and real-world BlendedMVS scenes. Our method is able to outperform previous methods by a significant margin in terms of novel view rendering quality, setting a new state-of-the-art for image-based material and lighting estimation.
翻訳日:2022-03-15 15:55:07 公開日:2022-03-14
# 動的シフトネットワークによるLiDARによる4次元パノプティカルセグメンテーション

LiDAR-based 4D Panoptic Segmentation via Dynamic Shifting Network ( http://arxiv.org/abs/2203.07186v1 )

ライセンス: Link先を確認
Fangzhou Hong, Hui Zhou, Xinge Zhu, Hongsheng Li, Ziwei Liu(参考訳) 自動運転の急速な進歩により、そのセンシングシステムはより全体論的3d知覚を備えることが重要になる。 しかし、既存の作品は、lidarセンサーから物体(車や歩行者など)やシーン(木や建物など)を解析することに焦点を当てている。 本研究では,オブジェクトとシーンを統一的に解析することを目的とした,LiDARに基づくパノプティックセグメンテーションの課題に対処する。 本稿では,この新しい課題に対する最初の取り組みとして,ポイントクラウド領域における効果的なパノミックセグメンテーションフレームワークとして機能する動的シフトネットワーク(ds-net)を提案する。 特にds-netには3つの魅力がある。 1)強力なバックボーン設計。 DS-Netは、LiDAR点雲用に特別に設計されたシリンダー畳み込みを採用している。 2)複素点分布に対する動的シフト 一般的なクラスタリングアルゴリズムでは、不均一なポイントクラウド分布と異なるインスタンスサイズで複雑な自律運転シーンを処理できないことが観察される。 そこで我々は,異なるインスタンスに対してオンザフライでカーネル関数を適応させる効率的な学習可能なクラスタリングモジュールである動的シフトを提案する。 3) 4次元予測の拡張。 さらに、DS-Netを4DパノプティカルLiDARセグメンテーションに拡張し、同期LiDARフレーム上の時間的に統一されたインスタンスクラスタリングを行う。 そこで我々は,LiDARを用いた大規模自動運転LiDARデータセットであるSemanticKITTIとnuScenesのベンチマークを構築し,評価した。 拡張実験により,提案したDS-Netは,両タスクの現在の最先端手法よりも優れた精度を達成できることが示された。 特に、タスクの単一フレームバージョンでは、pqメトリックの観点でsomaメソッドを1.8%上回っています。 タスクの4Dバージョンでは、LSTQメートル法で2位を5.4%上回る。

With the rapid advances of autonomous driving, it becomes critical to equip its sensing system with more holistic 3D perception. However, existing works focus on parsing either the objects (e.g. cars and pedestrians) or scenes (e.g. trees and buildings) from the LiDAR sensor. In this work, we address the task of LiDAR-based panoptic segmentation, which aims to parse both objects and scenes in a unified manner. As one of the first endeavors towards this new challenging task, we propose the Dynamic Shifting Network (DS-Net), which serves as an effective panoptic segmentation framework in the point cloud realm. In particular, DS-Net has three appealing properties: 1) Strong backbone design. DS-Net adopts the cylinder convolution that is specifically designed for LiDAR point clouds. 2) Dynamic Shifting for complex point distributions. We observe that commonly-used clustering algorithms are incapable of handling complex autonomous driving scenes with non-uniform point cloud distributions and varying instance sizes. Thus, we present an efficient learnable clustering module, dynamic shifting, which adapts kernel functions on the fly for different instances. 3) Extension to 4D prediction. Furthermore, we extend DS-Net to 4D panoptic LiDAR segmentation by the temporally unified instance clustering on aligned LiDAR frames. To comprehensively evaluate the performance of LiDAR-based panoptic segmentation, we construct and curate benchmarks from two large-scale autonomous driving LiDAR datasets, SemanticKITTI and nuScenes. Extensive experiments demonstrate that our proposed DS-Net achieves superior accuracies over current state-of-the-art methods in both tasks. Notably, in the single frame version of the task, we outperform the SOTA method by 1.8% in terms of the PQ metric. In the 4D version of the task, we surpass 2nd place by 5.4% in terms of the LSTQ metric.
翻訳日:2022-03-15 15:54:44 公開日:2022-03-14
# (参考訳) CoNTACT:オランダの新型コロナウイルスに適応したBERTによるワクチン治療と調合検出 [全文訳有]

CoNTACT: A Dutch COVID-19 Adapted BERT for Vaccine Hesitancy and Argumentation Detection ( http://arxiv.org/abs/2203.07362v1 )

ライセンス: CC BY 4.0
Jens Lemmens, Jens Van Nooten, Tim Kreutz, Walter Daelemans(参考訳) 我々は、covid-19のツイートのドメインに適応したオランダ語モデルであるコンタクトを提示する。 このモデルは、2021年に投稿されたオランダのCOVID-19関連ツイート2.8Mを使用して、RobBERT(Delobelle, 2020)の事前トレーニングフェーズを継続することで開発された。 モデルの性能をテストし、それをrobbertと比較するために、(1)二成分ワクチンのヘシタンシー検出と(2)ワクチンのヘシタンシーに関する議論の検出という2つの課題で2つのモデルがテストされた。 どちらのタスクでも、TwitterだけでなくFacebookのデータもクロスジャンルのパフォーマンスを示すために使われた。 実験では, タスク1の全ての実験において, CoNTACTはRobBERTよりも統計的に有意な上昇を示した。 タスク2では、すべての実験で事実上すべてのクラスが大幅に改善されました。 誤り解析により、ドメイン適応はドメイン固有の用語の表現をより良くし、CoNTACTがより正確な分類決定を行うことを示した。

We present CoNTACT: a Dutch language model adapted to the domain of COVID-19 tweets. The model was developed by continuing the pre-training phase of RobBERT (Delobelle, 2020) by using 2.8M Dutch COVID-19 related tweets posted in 2021. In order to test the performance of the model and compare it to RobBERT, the two models were tested on two tasks: (1) binary vaccine hesitancy detection and (2) detection of arguments for vaccine hesitancy. For both tasks, not only Twitter but also Facebook data was used to show cross-genre performance. In our experiments, CoNTACT showed statistically significant gains over RobBERT in all experiments for task 1. For task 2, we observed substantial improvements in virtually all classes in all experiments. An error analysis indicated that the domain adaptation yielded better representations of domain-specific terminology, causing CoNTACT to make more accurate classification decisions.
翻訳日:2022-03-15 15:52:09 公開日:2022-03-14
# 注目を集める新しい視点--ニュース分類のための二段階注意に基づく説明可能なトピックモデリング

A Novel Perspective to Look At Attention: Bi-level Attention-based Explainable Topic Modeling for News Classification ( http://arxiv.org/abs/2203.07216v1 )

ライセンス: Link先を確認
Dairui Liu, Derek Greene, and Ruihai Dong(参考訳) 最近のディープラーニングベースのソリューションの多くは、NLP分野の様々なタスクにおいて注意に基づくメカニズムを広く採用している。 しかしながら、ディープラーニングモデルの固有の特徴と注意機構の柔軟性はモデルの複雑さを増加させ、モデル説明可能性の課題に繋がる。 本稿では,この課題に対処するために,二層注意アーキテクチャを用いて,説明の複雑さと意思決定過程を分離する,新しい実践的枠組みを提案する。 我々はこれをニュース記事分類タスクの文脈に適用する。 2つの大規模ニュースコーポラにおける実験により,提案モデルが最先端の代替手段で競争性能を達成できることが示され,説明可能性の観点からその妥当性が示された。

Many recent deep learning-based solutions have widely adopted the attention-based mechanism in various tasks of the NLP discipline. However, the inherent characteristics of deep learning models and the flexibility of the attention mechanism increase the models' complexity, thus leading to challenges in model explainability. In this paper, to address this challenge, we propose a novel practical framework by utilizing a two-tier attention architecture to decouple the complexity of explanation and the decision-making process. We apply it in the context of a news article classification task. The experiments on two large-scaled news corpora demonstrate that the proposed model can achieve competitive performance with many state-of-the-art alternatives and illustrate its appropriateness from an explainability perspective.
翻訳日:2022-03-15 15:17:33 公開日:2022-03-14
# (参考訳) 知識グラフエキスパートの混在による常識推論のためのコンテンツ生成の多様化 [全文訳有]

Diversifying Content Generation for Commonsense Reasoning with Mixture of Knowledge Graph Experts ( http://arxiv.org/abs/2203.07285v1 )

ライセンス: CC BY 4.0
Wenhao Yu, Chenguang Zhu, Lianhui Qin, Zhihan Zhang, Tong Zhao, Meng Jiang(参考訳) 自然言語におけるジェネラティブ・コモンセンス推論(gcr)とは、コヒーレントテキストを生成する際にコモンセンスを推論することである。 近年,コモンセンス推論タスクの生成品質向上への関心が高まっている。 しかしながら、これらの手法は、現実の状況に対する代替的な説明を生成することや、可能なすべての結果を予測することを目的として、GCRタスクの多様性を調査することはめったにない。 GCRの多様化は、意味的に異なるだけでなく、常識的な知識にも根ざした複数の出力を生成することを期待しているため、難しい。 本稿では,コモンセンス知識グラフ(KG)上の専門家(MoE)戦略の混合により生成的推論を多様化する手法であるMoKGEを提案する。 知識専門家の集まりは、様々な世代のアウトプットを促進するために、KGに対して多様な推論を求める。 実証実験により、MoKGEは2つのGCRベンチマークの精度において、自動評価と人的評価の両方に基づいてパー性能を達成しつつ、多様性を著しく改善できることが示された。

Generative commonsense reasoning (GCR) in natural language is to reason about the commonsense while generating coherent text. Recent years have seen a surge of interest in improving the generation quality of commonsense reasoning tasks. Nevertheless, these approaches have seldom investigated diversity in the GCR tasks, which aims to generate alternative explanations for a real-world situation or predict all possible outcomes. Diversifying GCR is challenging as it expects to generate multiple outputs that are not only semantically different but also grounded in commonsense knowledge. In this paper, we propose MoKGE, a novel method that diversifies the generative reasoning by a mixture of expert (MoE) strategy on commonsense knowledge graphs (KG). A set of knowledge experts seek diverse reasoning on KG to encourage various generation outputs. Empirical experiments demonstrated that MoKGE can significantly improve the diversity while achieving on par performance on accuracy on two GCR benchmarks, based on both automatic and human evaluations.
翻訳日:2022-03-15 15:09:51 公開日:2022-03-14
# 事前学習されたトランスフォーマーは複雑なセンシティブな文を検出するのに使えるか? ─文さんとうの事例研究

Can pre-trained Transformers be used in detecting complex sensitive sentences? -- A Monsanto case study ( http://arxiv.org/abs/2203.06793v1 )

ライセンス: Link先を確認
Roelien C. Timmer and David Liebowitz and Surya Nepal and Salil S. Kanhere(参考訳) 各組織は,年次報告から法的手続まで,さまざまな形式で情報を公開している。 このような文書には機密情報が含まれ、公開して公開することは機密情報の漏洩につながる可能性がある。 文書に機密情報を含む文の検出は、組織が貴重な機密情報の漏洩を防止するのに役立つ。 このような文が相当量の情報を含んでいる場合や、既知の機密性の高いコンテンツのパラフレーズ版である場合、これは特に困難である。 このような複雑な環境でのセンシティブな情報検出に対する現在のアプローチは、キーワードベースのアプローチや標準機械学習モデルに基づいている。 本稿では,事前学習されたトランスフォーマモデルが複雑なセンシティブな情報を検出するのに適しているか検討する。 事前学習されたトランスフォーマーは、典型的には膨大な量のテキストで訓練されるため、文法、構造、その他の言語的特徴を簡単に習得することができる。 モンサント試行データセットの実験を通して、変換器(BERT)変換器モデルによる微調整による双方向エンコーダ表現が従来のモデルより優れていることを示す。 我々は、monsantoデータセットで4つの異なる文書のカテゴリを実験し、bertがより優れたf2スコアを24.13\%から65.79\%、ghostが30.14\%から54.88\%、chemiが39.22\%、regulが53.57\%と既存の機密情報検出モデルと比較した。

Each and every organisation releases information in a variety of forms ranging from annual reports to legal proceedings. Such documents may contain sensitive information and releasing them openly may lead to the leakage of confidential information. Detection of sentences that contain sensitive information in documents can help organisations prevent the leakage of valuable confidential information. This is especially challenging when such sentences contain a substantial amount of information or are paraphrased versions of known sensitive content. Current approaches to sensitive information detection in such complex settings are based on keyword-based approaches or standard machine learning models. In this paper, we wish to explore whether pre-trained transformer models are well suited to detect complex sensitive information. Pre-trained transformers are typically trained on an enormous amount of text and therefore readily learn grammar, structure and other linguistic features, making them particularly attractive for this task. Through our experiments on the Monsanto trial data set, we observe that the fine-tuned Bidirectional Encoder Representations from Transformers (BERT) transformer model performs better than traditional models. We experimented with four different categories of documents in the Monsanto dataset and observed that BERT achieves better F2 scores by 24.13\% to 65.79\% for GHOST, 30.14\% to 54.88\% for TOXIC, 39.22\% for CHEMI, 53.57\% for REGUL compared to existing sensitive information detection models.
翻訳日:2022-03-15 14:48:42 公開日:2022-03-14
# KenMeSH:知識に富んだエンドツーエンドのバイオメディカルテキストラベリング

KenMeSH: Knowledge-enhanced End-to-end Biomedical Text Labelling ( http://arxiv.org/abs/2203.06835v1 )

ライセンス: Link先を確認
Xindi Wang, Robert E. Mercer, Frank Rudzicz(参考訳) 現在、MeSH(Messical Subject Headings)は、PubMedデータベースに記録されたすべてのバイオメディカル記事に手動で割り当てられ、関連する情報の検索を容易にする。 PubMedデータベースの急速な成長に伴い,大規模バイオメディカル文書インデックス作成の重要性が高まっている。 メッシュインデクシングは、非常に大規模な階層的なコレクションから各記事に複数のラベルを割り当てる必要があるため、マシンラーニングでは困難なタスクである。 この課題に対処するために、新しいテキスト機能と動的 \textbf{K}nowledge-\textbf{en}hanced mask attentionを組み合わせたエンドツーエンドモデルであるKenMeSHを提案する。 実験結果から, 提案手法は, 様々な測定結果に基づいて最先端の性能を実現する。

Currently, Medical Subject Headings (MeSH) are manually assigned to every biomedical article published and subsequently recorded in the PubMed database to facilitate retrieving relevant information. With the rapid growth of the PubMed database, large-scale biomedical document indexing becomes increasingly important. MeSH indexing is a challenging task for machine learning, as it needs to assign multiple labels to each article from an extremely large hierachically organized collection. To address this challenge, we propose KenMeSH, an end-to-end model that combines new text features and a dynamic \textbf{K}nowledge-\textbf{en}hanced mask attention that integrates document features with MeSH label hierarchy and journal correlation features to index MeSH terms. Experimental results show the proposed method achieves state-of-the-art performance on a number of measures.
翻訳日:2022-03-15 14:48:16 公開日:2022-03-14
# 文埋め込みのコントラスト学習のための深部連続プロンプト

Deep Continuous Prompt for Contrastive Learning of Sentence Embeddings ( http://arxiv.org/abs/2203.06875v1 )

ライセンス: Link先を確認
Yuxin Jiang and Wei Wang(参考訳) 文表現の性能はコントラスト学習の枠組みによって著しく改善されている。 しかし、最近の研究はまだ完全な微調整を必要としており、大規模な事前訓練された言語モデルでは極めて非効率である。 そこで本研究では,言語モデル全体を凍結し,プレフィックスの深い連続的プロンプトのみを最適化する新しい手法を提案する。 オリジナルの言語モデルの約0.1%のパラメータをチューニングするだけでなく、手作りのプロンプトを検索する面倒な計算を避ける。 実験の結果,提案したDCPCSEは最先端のSimCSEよりも大きなマージンで優れていた。 我々は教師なしのbert$_{base}$と教師なしroberta$_{large}$の2.24ポイントと1.00ポイントのパフォーマンスを上げる。 私たちのコードはhttps://github.com/Y Jiangcm/DCPCSEで公開されています。

The performance of sentence representation has been remarkably improved by the framework of contrastive learning. However, recent works still require full fine-tuning, which is quite inefficient for large-scaled pre-trained language models. To this end, we present a novel method which freezes the whole language model and only optimizes the prefix deep continuous prompts. It not only tunes around 0.1% parameters of the original language model, but avoids the cumbersome computation of searching handcrafted prompts. Experimental results show that our proposed DCPCSE outperforms the state-of-the-art method SimCSE by a large margin. We raise the performance of unsupervised BERT$_{base}$ and supervised RoBERTa$_{large}$ by 2.24 and 1.00 points, respectively. Our code is publicly avaliable at https://github.com/Y Jiangcm/DCPCSE
翻訳日:2022-03-15 14:48:01 公開日:2022-03-14
# PERT: 可変言語モデルによる事前学習BERT

PERT: Pre-training BERT with Permuted Language Model ( http://arxiv.org/abs/2203.06906v1 )

ライセンス: Link先を確認
Yiming Cui, Ziqing Yang, Ting Liu(参考訳) プレトレーニング言語モデル(PLM)は、大規模コーパスで訓練された強力なテキスト表現のため、様々な自然言語処理(NLP)タスクで広く使われている。 本稿では,自然言語理解のための新しいPLMであるPERTを提案する。 PERT は Permuted Language Model (PerLM) で訓練された自動エンコーディングモデル(BERT と同様)である。 提案するPerLMの定式化は簡単である。 入力テキストの比率を推定し、トレーニングの目的は元のトークンの位置を予測することである。 さらに,全単語マスキングとN-gramマスキングを適用し,PERTの性能向上を図る。 我々は中国語と英語のNLUベンチマークについて広範な実験を行った。 実験の結果、PERTはいくつかのタスクで同等のベースラインに改善をもたらすが、他のタスクはそうではない。 これらの結果から,より多様な事前学習タスクの開発が,マスキング言語モデルに代えて可能であることが示唆された。 PLMの設計に役立つかもしれないPERTの理解を深めるため、いくつかの定量的研究が行われている。 リソース: https://github.com/y mcui/pert

Pre-trained Language Models (PLMs) have been widely used in various natural language processing (NLP) tasks, owing to their powerful text representations trained on large-scale corpora. In this paper, we propose a new PLM called PERT for natural language understanding (NLU). PERT is an auto-encoding model (like BERT) trained with Permuted Language Model (PerLM). The formulation of the proposed PerLM is straightforward. We permute a proportion of the input text, and the training objective is to predict the position of the original token. Moreover, we also apply whole word masking and N-gram masking to improve the performance of PERT. We carried out extensive experiments on both Chinese and English NLU benchmarks. The experimental results show that PERT can bring improvements over various comparable baselines on some of the tasks, while others are not. These results indicate that developing more diverse pre-training tasks is possible instead of masked language model variants. Several quantitative studies are carried out to better understand PERT, which might help design PLMs in the future. Resources are available: https://github.com/y mcui/PERT
翻訳日:2022-03-15 14:47:46 公開日:2022-03-14
# 視覚接地音声を用いた単語学習と認識のモデル化

Modelling word learning and recognition using visually grounded speech ( http://arxiv.org/abs/2203.06937v1 )

ライセンス: Link先を確認
Danny Merkx, Sebastiaan Scholten, Stefan L. Frank, Mirjam Ernestus and Odette Scharenborg(参考訳) 背景: 音声認識の計算モデルは、しばしば対象単語の集合が既に与えられていると仮定する。 これは、これらのモデルが、事前の知識と明示的な監督なしに、スクラッチから音声を認識することを学ばないことを意味する。 音声認識モデルは、音声入力と視覚入力の統計的依存関係を利用して、事前知識のない音声認識を学ぶ。 従来,視覚的に接頭した音声モデルでは,入力中の単語の存在を認識できることが示されてきたが,人間の音声認識モデルとしてのそのようなモデルを明示的に検討した。 方法: ゲーティングパラダイムを用いて, モデルによりシミュレーションされた単語認識の時間経過を調査し, その認識が人間の音声処理におけるよく知られた単語競合の影響を検証した。 さらに,離散表現学習の手法であるベクトル量子化が,単語の発見と認識のモデルを支援するかどうかについても検討する。 結果と結論: 実験の結果, モデルは単独で名詞を認識でき, 複数名詞と特異名詞を適切に区別できることがわかった。 また,音声認識は,人間の発話理解における単語競合効果を反映した,単語初期コホートと近隣密度との単語競合の影響がみられた。 最後に,ベクトル量子化が単語の発見と認識に役立つ証拠は見つからない。 我々のゲーティング実験は、ベクトル量子化モデルが正しい認識のためにより多くの入力シーケンスを必要とすることを示している。

Background: Computational models of speech recognition often assume that the set of target words is already given. This implies that these models do not learn to recognise speech from scratch without prior knowledge and explicit supervision. Visually grounded speech models learn to recognise speech without prior knowledge by exploiting statistical dependencies between spoken and visual input. While it has previously been shown that visually grounded speech models learn to recognise the presence of words in the input, we explicitly investigate such a model as a model of human speech recognition. Methods: We investigate the time-course of word recognition as simulated by the model using a gating paradigm to test whether its recognition is affected by well-known word-competition effects in human speech processing. We furthermore investigate whether vector quantisation, a technique for discrete representation learning, aids the model in the discovery and recognition of words. Results/Conclusion: Our experiments show that the model is able to recognise nouns in isolation and even learns to properly differentiate between plural and singular nouns. We also find that recognition is influenced by word competition from the word-initial cohort and neighbourhood density, mirroring word competition effects in human speech comprehension. Lastly, we find no evidence that vector quantisation is helpful in discovering and recognising words. Our gating experiments even show that the vector quantised model requires more of the input sequence for correct recognition.
翻訳日:2022-03-15 14:47:30 公開日:2022-03-14
# s$^2$sql: text-to-sqlパーサのための質問・スキーマインタラクショングラフエンコーダへの構文注入

S$^2$SQL: Injecting Syntax to Question-Schema Interaction Graph Encoder for Text-to-SQL Parsers ( http://arxiv.org/abs/2203.06958v1 )

ライセンス: Link先を確認
Binyuan Hui, Ruiying Geng, Lihan Wang, Bowen Qin, Bowen Li, Jian Sun, Yongbin Li(参考訳) 自然言語質問をtext-to-sqlとして知られる実行可能なsqlクエリに変換するタスクは、セマンティック解析の重要な分野である。 最先端のグラフベースのエンコーダはこのタスクでうまく使われているが、質問構文をうまくモデル化していない。 本稿では,S$^2$SQLを提案する。S$^2$SQLは,テキストからSQLへの構文依存情報を有効活用して,テキストからSQLへの問合せグラフの符号化を行う。 また,ネットワークの性能をさらに向上させる多彩なリレーショナルエッジ埋め込みを誘導するために,デカップリング制約も採用した。 スパイダー・シンの実験とロバスト性の設定は、提案されたアプローチが事前訓練モデルを使用する場合、既存のすべての手法よりも優れており、結果としてスパイダー・リーダーボードでのパフォーマンスが優先されることを示している。

The task of converting a natural language question into an executable SQL query, known as text-to-SQL, is an important branch of semantic parsing. The state-of-the-art graph-based encoder has been successfully used in this task but does not model the question syntax well. In this paper, we propose S$^2$SQL, injecting Syntax to question-Schema graph encoder for Text-to-SQL parsers, which effectively leverages the syntactic dependency information of questions in text-to-SQL to improve the performance. We also employ the decoupling constraint to induce diverse relational edge embedding, which further improves the network's performance. Experiments on the Spider and robustness setting Spider-Syn demonstrate that the proposed approach outperforms all existing methods when pre-training models are used, resulting in a performance ranks first on the Spider leaderboard.
翻訳日:2022-03-15 14:47:08 公開日:2022-03-14
# RED-ACE:信頼埋め込みを用いたASRのロバストエラー検出

RED-ACE: Robust Error Detection for ASR using Confidence Embeddings ( http://arxiv.org/abs/2203.07172v1 )

ライセンス: Link先を確認
Zorik Gekhman, Dina Zverinski, Jonathan Mallinson, Genady Beryozkin(参考訳) ASRエラー検出(AED)モデルは、自動音声認識(ASR)システムの出力を後処理して、転写エラーを検出することを目的としている。 現代のアプローチでは、通常テキストベースの入力を使用し、ASRモデルの追加信号を無視して、ASRの転写仮説のみで構成されている。 そこで本研究では,ASRシステムの単語レベルの信頼度スコアをAEDの性能向上に活用することを提案する。 具体的には、AIDモデルのエンコーダにASR Confidence Embedding(ACE)層を追加し、信頼スコアと転写されたテキストをコンテキスト化された表現に共同でエンコードする。 実験の結果,AID に対する ASR 信頼スコアの利点,テキスト信号に対する相補的効果,およびこれらの信号を組み合わせるためのACE の有効性と堅牢性を示した。 さらなる研究を促進するために, 注釈付き書き起こし誤りのあるLibriSpeech corpus 上で ASR 出力からなる新しい AED データセットを公表した。

ASR Error Detection (AED) models aim to post-process the output of Automatic Speech Recognition (ASR) systems, in order to detect transcription errors. Modern approaches usually use text-based input, comprised solely of the ASR transcription hypothesis, disregarding additional signals from the ASR model. Instead, we propose to utilize the ASR system's word-level confidence scores for improving AED performance. Specifically, we add an ASR Confidence Embedding (ACE) layer to the AED model's encoder, allowing us to jointly encode the confidence scores and the transcribed text into a contextualized representation. Our experiments show the benefits of ASR confidence scores for AED, their complementary effect over the textual signal, as well as the effectiveness and robustness of ACE for combining these signals. To foster further research, we publish a novel AED dataset consisting of ASR outputs on the LibriSpeech corpus with annotated transcription errors.
翻訳日:2022-03-15 14:46:50 公開日:2022-03-14
# (参考訳) フルボディ画像生成のためのInsetGAN [全文訳有]

InsetGAN for Full-Body Image Generation ( http://arxiv.org/abs/2203.07293v1 )

ライセンス: CC BY 4.0
Anna Fr\"uhst\"uck and Krishna Kumar Singh and Eli Shechtman and Niloy J. Mitra and Peter Wonka and Jingwan Lu(参考訳) GANは特定の領域に理想的な条件で写真リアル画像を生成することができるが、身長、髪型、服装、ポーズの違いなどにより、フルボディの人間の画像の生成は困難である。 この複雑なドメインを単一のGANでモデル化する代わりに、1つのGANがグローバルキャンバス(例えば、人体)と特殊なGAN(例えば、顔や靴)のセットを生成し、グローバルキャンバスにシームレスに挿入できる異なる部分(例えば、顔や靴)にフォーカスする、複数の事前訓練されたGANを組み合わせる新しい手法を提案する。 我々は, 特殊生成器の部品を大域的なキャンバスに挿入することにより, 生成画像が組み合わさるように各潜在空間を共同で探索し, シームを導入することなく問題をモデル化する。 フルボディのGANと専用の高品質な顔のGANを組み合わせることで、可視的外観の人間を作り出す。 定量的指標とユーザスタディを用いて結果を評価する。

While GANs can produce photo-realistic images in ideal conditions for certain domains, the generation of full-body human images remains difficult due to the diversity of identities, hairstyles, clothing, and the variance in pose. Instead of modeling this complex domain with a single GAN, we propose a novel method to combine multiple pretrained GANs, where one GAN generates a global canvas (e.g., human body) and a set of specialized GANs, or insets, focus on different parts (e.g., faces, shoes) that can be seamlessly inserted onto the global canvas. We model the problem as jointly exploring the respective latent spaces such that the generated images can be combined, by inserting the parts from the specialized generators onto the global canvas, without introducing seams. We demonstrate the setup by combining a full body GAN with a dedicated high-quality face GAN to produce plausible-looking humans. We evaluate our results with quantitative metrics and user studies.
翻訳日:2022-03-15 14:46:02 公開日:2022-03-14
# 効率的なbスプライン経路構築による深層ニューラルネットワークによる局所走行計画の高速化

Speeding up deep neural network-based planning of local car maneuvers via efficient B-spline path construction ( http://arxiv.org/abs/2203.06963v1 )

ライセンス: Link先を確認
Piotr Kicki, Piotr Skrzypczy\'nski(参考訳) 本稿では,b-スプラインを用いた計画経路の効率的な表現と,ニューラルネットワークの帰納的バイアスを利用して,dnnベースのモーションプランナーの推論とトレーニングの両方を高速化する構築手順を示す。 我々は,dnnアーキテクチャを用いた過去の経験からローカルカー操作を学習する最近の研究に基づいて,新しいb-splineパス構築法を導入して,環境マップと車型車両のキネマティクスに課される多くの制約を考慮し,約11msのほぼ一定時間でローカルカー操作を生成できるようにした。 我々は,最新のベンチ・MRフレームワークを用いた新しいプランナーを徹底的に評価し,提案手法が検討課題における大きなマージンで最先端プランナーより優れていることを示す定量的結果を得た。

This paper demonstrates how an efficient representation of the planned path using B-splines, and a construction procedure that takes advantage of the neural network's inductive bias, speed up both the inference and training of a DNN-based motion planner. We build upon our recent work on learning local car maneuvers from past experience using a DNN architecture, introducing a novel B-spline path construction method, making it possible to generate local maneuvers in almost constant time of about 11 ms, respecting a number of constraints imposed by the environment map and the kinematics of a car-like vehicle. We evaluate thoroughly the new planner employing the recent Bench-MR framework to obtain quantitative results showing that our method outperforms state-of-the-art planners by a large margin in the considered task.
翻訳日:2022-03-15 14:38:13 公開日:2022-03-14
# 一般集中型ゲームにおける最適相関平衡:固定パラメータアルゴリズム、硬度および2次元カラム生成

Optimal Correlated Equilibria in General-Sum Extensive-Form Games: Fixed-Parameter Algorithms, Hardness, and Two-Sided Column-Generation ( http://arxiv.org/abs/2203.07181v1 )

ライセンス: Link先を確認
Brian Zhang, Gabriele Farina, Andrea Celli, Tuomas Sandholm(参考訳) 本研究では, 正規形粗相関平衡 (NFCCE) , 広範形粗相関平衡 (EFCCE) , 広範形粗相関平衡 (EFCE) の3種類の最適相関平衡を求める問題について検討した。 これは一般的な場合ではnp-hardであり、特に三角形のないゲームで研究されている。 しかし、一般的なケースはよく理解されておらず、アルゴリズムは通常、不十分にスケールする。 まず,特定の解の概念に依存する相関戦略の空間の表現である相関DAGを紹介する。 これは Zhang らのチーム信念 DAG を一般ゲームに拡張する。 3つの解の概念それぞれについて、その大きさはゲームの情報構造に関連するパラメータに指数関数的にのみ依存する。 nfcceのサイズ境界はzhangらによるチームゲームで達成されたものと似ているが、標準的な複雑性仮定の下で他の2つの概念で達成することは不可能である。 次に,最適相関戦略を計算するための2面列生成手法を提案する。 このアルゴリズムは,従来サポートに追加された相関計画に関して,プレイヤーがシーケンシャルな戦略を再最適化することを可能にする相関戦略の新たな分解によって,farinaら片面的アプローチを改善している。 本手法は,最適一般対等平衡計算における先行技術よりも優れている。 チームゲームでは、双方向コラム生成アプローチは標準的なコラム生成アプローチを大きく上回り、パラメータが大きい場合はartアルゴリズムの状態となる。 その過程で、カードゲームブリッジのエンドゲームフェーズをエミュレートするトリックテイクゲームと、ライドシェアリングゲームという、2つの新しいベンチマークゲームも導入しました。

We study the problem of finding optimal correlated equilibria of various sorts: normal-form coarse correlated equilibrium (NFCCE), extensive-form coarse correlated equilibrium (EFCCE), and extensive-form correlated equilibrium (EFCE). This is NP-hard in the general case and has been studied in special cases, most notably triangle-free games, which include all two-player games with public chance moves. However, the general case is not well understood, and algorithms usually scale poorly. First, we introduce the correlation DAG, a representation of the space of correlated strategies whose size is dependent on the specific solution concept. It extends the team belief DAG of Zhang et al. to general-sum games. For each of the three solution concepts, its size depends exponentially only on a parameter related to the game's information structure. We also prove a fundamental complexity gap: while our size bounds for NFCCE are similar to those achieved in the case of team games by Zhang et al., this is impossible to achieve for the other two concepts under standard complexity assumptions. Second, we propose a two-sided column generation approach to compute optimal correlated strategies. Our algorithm improves upon the one-sided approach of Farina et al. by means of a new decomposition of correlated strategies which allows players to re-optimize their sequence-form strategies with respect to correlation plans which were previously added to the support. Our techniques outperform the prior state of the art for computing optimal general-sum correlated equilibria. For team games, the two-sided column generation approach vastly outperforms standard column generation approaches, making it the state of the art algorithm when the parameter is large. Along the way we also introduce two new benchmark games: a trick-taking game that emulates the endgame phase of the card game bridge, and a ride-sharing game.
翻訳日:2022-03-15 14:37:59 公開日:2022-03-14
# 1次元畳み込みニューラルネットワークによる蛍光スペクトルからの物理化学的性質抽出:オリーブ油への応用

Physico-chemical properties extraction from the fluorescence spectrum with 1D-convolutional neural networks: application to olive oil ( http://arxiv.org/abs/2203.07229v1 )

ライセンス: Link先を確認
Francesca Venturinia and Michela Sperti and Umberto Michelucci and Arnaud Gucciardi and Vanessa M. Martose and Marco A. Deriu(参考訳) オリーブ油産業は地中海の経済と生活に多大な影響を与えている。 オリーブ油の製造過程の異なる工程を最適化しようとする研究は数多く存在する。 オリーブ油生産者にとって大きな課題の1つは、生産サイクル中に品質を評価し制御する能力である。 この目的のために、酸度、紫外線吸収、エチルエステル含有量など、いくつかのパラメータを決定する必要がある。 これを達成するために、サンプルは化学分析のために承認された実験室に送られなければならない。 このアプローチは高価であり、非常に頻繁に実施できないため、オリーブオイルの品質管理が本当に難しい。 本研究は、単純な蛍光スペクトルからオリーブ油(酸度、過酸化物値、紫外線分光パラメータ$k_{270}$と$k_{232}$、およびエチルエステル)の化学品質指標を予測するための、蛍光分光法と人工知能(すなわち1次元畳み込みニューラルネットワーク)に基づく新しいアプローチを探求する。 蛍光分光法は、試料の調製を必要としないため非常に魅力的な光学技術であり、非破壊的であり、この研究で示されているように、小型で安価なセンサーで容易に実装できる。 以上の結果から,提案手法は品質判定において異常な結果をもたらし,生産過程の前後におけるオリーブ油の連続品質管理が実現されることが示唆された。 さらに、この新しい手法は、欧州の規制によって定義されたオリーブオイルの品質仕様に対するサポートとして潜在的な応用を示す。

The olive oil sector produces a substantial impact in the Mediterranean's economy and lifestyle. Many studies exist which try to optimize the different steps in the olive oil's production process. One of the main challenges for olive oil producers is the ability to asses and control the quality during the production cycle. For this purpose, several parameters need to be determined, such as the acidity, the UV absorption or the ethyl esters content. To achieve this, samples must be sent to an approved laboratory for chemical analysis. This approach is expensive and cannot be performed very frequently, making quality control of olive oil a real challenge. This work explores a new approach based on fluorescence spectroscopy and artificial intelligence (namely, 1-D convolutional neural networks) to predict the five chemical quality indicators of olive oil (acidity, peroxide value, UV spectroscopic parameters $K_{270}$ and $K_{232}$, and ethyl esters) from simple fluorescence spectra. Fluorescence spectroscopy is a very attractive optical technique since it does not require sample preparation, is non destructive, and, as shown in this work, can be easily implemented in small and cost-effective sensors. The results indicate that the proposed approach gives exceptional results in the quality determination and would make the continuous quality control of olive oil during and after the production process a reality. Additionally, this novel methodology presents potential applications as a support for quality specifications of olive oil, as defined by the European regulation.
翻訳日:2022-03-15 14:37:31 公開日:2022-03-14
# 複素スペクトル構造を持つ非滑らか信号のモデル化

Modelling Non-Smooth Signals with Complex Spectral Structure ( http://arxiv.org/abs/2203.06997v1 )

ライセンス: Link先を確認
Wessel P. Bruinsma and Martin Tegn\'er and Richard E. Turner(参考訳) ガウス過程畳み込みモデル (GPCM; Tobar et al., 2015a) は複雑なスペクトル構造を持つ信号のモデルである。 gpcmの重要な制限は、急速に減衰するスペクトルを仮定することであり、滑らかな信号のみをモデル化できる。 さらに、GPCMの推論には、(1)平均場仮定が必要であり、その結果、キャリブレーションの不十分な不確実性が生じ、(2)大きな共分散行列の退屈な変動最適化が要求される。 因果ガウス過程畳み込みモデル(CGPCM)は、GPCMに因果仮定を導入し、Roughガウス過程畳み込みモデル(RGPCM)は、分数オルンシュタイン-ウレンベック過程のベイズ非パラメトリック一般化と解釈できる。 また、より効果的な変分推論スキームを提案し、平均場仮定を超えて、最適な変分解から直接サンプルするギブスサンプルを設計し、変分最適化を完全に回避する。 提案したGPCMのバリエーションは、合成および実世界のデータの実験において検証され、有望な結果を示す。

The Gaussian Process Convolution Model (GPCM; Tobar et al., 2015a) is a model for signals with complex spectral structure. A significant limitation of the GPCM is that it assumes a rapidly decaying spectrum: it can only model smooth signals. Moreover, inference in the GPCM currently requires (1) a mean-field assumption, resulting in poorly calibrated uncertainties, and (2) a tedious variational optimisation of large covariance matrices. We redesign the GPCM model to induce a richer distribution over the spectrum with relaxed assumptions about smoothness: the Causal Gaussian Process Convolution Model (CGPCM) introduces a causality assumption into the GPCM, and the Rough Gaussian Process Convolution Model (RGPCM) can be interpreted as a Bayesian nonparametric generalisation of the fractional Ornstein-Uhlenbeck process. We also propose a more effective variational inference scheme, going beyond the mean-field assumption: we design a Gibbs sampler which directly samples from the optimal variational solution, circumventing any variational optimisation entirely. The proposed variations of the GPCM are validated in experiments on synthetic and real-world data, showing promising results.
翻訳日:2022-03-15 14:36:44 公開日:2022-03-14
# マルチエージェントピックアップ・デリバリー問題:mapf, marlとその倉庫への応用

The Multi-Agent Pickup and Delivery Problem: MAPF, MARL and Its Warehouse Applications ( http://arxiv.org/abs/2203.07092v1 )

ライセンス: Link先を確認
Tim Tsz-Kit Lau and Biswa Sengupta(参考訳) マルチエージェント・パスフィンディング(MAPF)とマルチエージェント強化学習(MARL)という,異なる原理に基づいて,マルチエージェント・ピックアップ・デリバリ(MAPD)問題に対する最先端の2つのソリューションについて検討した。 具体的には、コンフリクトベースサーチ(CBS)と呼ばれるMAPFアルゴリズムと、共有経験アクター批判(SEAC)と呼ばれる現在のMARLアルゴリズムについて検討する。 これらのアルゴリズムの性能は,それぞれ異なる作業行数を用いて測定されるが,シミュレーションされた倉庫自動化環境において,これら2つの手法を総合的にベンチマークすることを目的としている。

We study two state-of-the-art solutions to the multi-agent pickup and delivery (MAPD) problem based on different principles -- multi-agent path-finding (MAPF) and multi-agent reinforcement learning (MARL). Specifically, a recent MAPF algorithm called conflict-based search (CBS) and a current MARL algorithm called shared experience actor-critic (SEAC) are studied. While the performance of these algorithms is measured using quite different metrics in their separate lines of work, we aim to benchmark these two methods comprehensively in a simulated warehouse automation environment.
翻訳日:2022-03-15 14:36:19 公開日:2022-03-14
# 一般化人口形態による振動系pbshmのモデリング変動

Modelling variability in vibration-based PBSHM via a generalised population form ( http://arxiv.org/abs/2203.07115v1 )

ライセンス: Link先を確認
Tina A Dardeno, Lawrence A Bull, Robin S Mills, Nikolaos Dervilis, Keith Worden(参考訳) 構造健康モニタリング(SHM)は過去30年間活発な研究領域であり、文献に見られるように、その期間に多くの重要な進歩を蓄積してきた。 しかし、SHMは、損傷状態データ、運用および環境変動、繰り返し可能性の問題、境界条件の変化など、依然として課題に直面している。 これらの問題は、キャプチャーされた機能の矛盾として現れ、実際の実装に大きな影響を与えるが、より重要なことは、技術の一般化に影響を及ぼす。 人口ベースSHMは、類似構造群から収集したデータを用いて行方不明情報をモデル化し、転送することで、これらの問題に対処するために設計されている。 この研究では、健康で名目上同一の、実物大の複合ヘリコプターブレード4体から振動データを収集した。 製造上の違い(例えば、幾何や材料特性の微妙な違い)は、構造力学における可変性として提示されるブレード間のものであり、振動データからの機械学習に基づくSHMにとって非常に問題となる。 この研究は、ガウス過程の混合を用いて、形式と呼ばれるブレードの周波数応答関数の一般モデルを定義することにより、この変動に対処することを目的としている。

Structural health monitoring (SHM) has been an active research area for the last three decades, and has accumulated a number of critical advances over that period, as can be seen in the literature. However, SHM is still facing challenges because of the paucity of damage-state data, operational and environmental fluctuations, repeatability issues, and changes in boundary conditions. These issues present as inconsistencies in the captured features and can have a huge impact on the practical implementation, but more critically, on the generalisation of the technology. Population-based SHM has been designed to address some of these concerns by modelling and transferring missing information using data collected from groups of similar structures. In this work, vibration data were collected from four healthy, nominally-identical, full-scale composite helicopter blades. Manufacturing differences (e.g., slight differences in geometry and/or material properties), among the blades presented as variability in their structural dynamics, which can be very problematic for SHM based on machine learning from vibration data. This work aims to address this variability by defining a general model for the frequency response functions of the blades, called a form, using mixtures of Gaussian processes.
翻訳日:2022-03-15 14:36:07 公開日:2022-03-14
# ランクビリティに対する教師付き学習アプローチ

A Supervised Learning Approach to Rankability ( http://arxiv.org/abs/2203.07364v1 )

ライセンス: Link先を確認
Nathan McJames, David Malone, Oliver Mason(参考訳) データのランキングビリティは、グラフとして表されるデータセットが、それに含まれる項目の有意義なランキングを生成する能力を考える、最近提案された問題である。 この概念を研究するために、組合せ的および線形代数的手法による完全支配グラフとの比較に基づいて、最近多くのランク可能性尺度が提案されている。 本稿では,これらの対策を概観し,評価の効率化に資する新しい手法を提案する前に,それらが提起する課題をいくつか取り上げる。 最後に,これらを総合的および実生活のスポーツデータに適用して比較する。

The rankability of data is a recently proposed problem that considers the ability of a dataset, represented as a graph, to produce a meaningful ranking of the items it contains. To study this concept, a number of rankability measures have recently been proposed, based on comparisons to a complete dominance graph via combinatorial and linear algebraic methods. In this paper, we review these measures and highlight some questions to which they give rise before going on to propose new methods to assess rankability, which are amenable to efficient estimation. Finally, we compare these measures by applying them to both synthetic and real-life sports data.
翻訳日:2022-03-15 14:35:46 公開日:2022-03-14
# 非同期q-learningにおける悲観主義の効果

The Efficacy of Pessimism in Asynchronous Q-Learning ( http://arxiv.org/abs/2203.07368v1 )

ライセンス: Link先を確認
Yuling Yan, Gen Li, Yuxin Chen, Jianqing Fan(参考訳) 本稿では,マルコフデータサンプルに確率近似スキームを適用したq-learningの非同期形式について述べる。 近年のオフライン強化学習の進展に触発されて,ペルシミズムの原理を非同期Q-ラーニングに取り入れたアルゴリズムフレームワークを開発した。 このフレームワークは、サンプル効率の向上と、ほぼ専門的なデータの存在下での適応性の向上につながります。 我々のアプローチでは、観測されたデータは、全ての状態-作用対の均一なカバレッジを必要とする以前の理論とは対照的な部分的状態-作用空間のみをカバーすることができる。 分散低減の考え方と相まって, LCBペナル化による非同期Q-ラーニングは, 目標精度が十分小さい場合に, ほぼ最適サンプル複雑性を実現する。 比較すると, サンプリングが許可された場合でも, 従来の作業は有効地平線への依存性という点で最適以下であった。 我々の結果は、マルコフ的非i.d.データの存在下での悲観主義原理の使用に対する最初の理論的支援を提供する。

This paper is concerned with the asynchronous form of Q-learning, which applies a stochastic approximation scheme to Markovian data samples. Motivated by the recent advances in offline reinforcement learning, we develop an algorithmic framework that incorporates the principle of pessimism into asynchronous Q-learning, which penalizes infrequently-visited state-action pairs based on suitable lower confidence bounds (LCBs). This framework leads to, among other things, improved sample efficiency and enhanced adaptivity in the presence of near-expert data. Our approach permits the observed data in some important scenarios to cover only partial state-action space, which is in stark contrast to prior theory that requires uniform coverage of all state-action pairs. When coupled with the idea of variance reduction, asynchronous Q-learning with LCB penalization achieves near-optimal sample complexity, provided that the target accuracy level is small enough. In comparison, prior works were suboptimal in terms of the dependency on the effective horizon even when i.i.d. sampling is permitted. Our results deliver the first theoretical support for the use of pessimism principle in the presence of Markovian non-i.i.d. data.
翻訳日:2022-03-15 14:34:12 公開日:2022-03-14
# (参考訳) S5CL:階層的コントラスト学習による完全教師付き、自己監督型、半監督型学習の統合 [全文訳有]

S5CL: Unifying Fully-Supervised, Self-Supervised, and Semi-Supervised Learning Through Hierarchical Contrastive Learning ( http://arxiv.org/abs/2203.07307v1 )

ライセンス: CC BY 4.0
Manuel Tran, Sophia J. Wagner, Melanie Boxberg, Tingying Peng(参考訳) 計算病理学では、注釈の不足と大量のラベルなしデータに直面することが多い。 これを扱う方法の1つは半教師付き学習であり、通常は自己教師付きプレテキストタスクとその後のモデル微調整に分けられる。 ここでは,完全教師付き,自己教師付き,半教師付き学習のための統一フレームワークであるs5clを導入することで,この2段階学習を1つに圧縮する。 ラベル付き、ラベルなし、擬似ラベル付き画像に対して定義された3つの対照的な損失により、S5CLは距離関係の階層を反映した特徴表現を学習することができる。 さらに、S5CLはこれらの損失を柔軟に組み合わせて異なるシナリオに適応できるようにします。 病理組織学的検討では,H&E-stained colorectal cancer datasetでは, 観察されたクロスエントロピー損失と比較して, 精度が最大9%向上し, 白血病患者の血液スマアーからの単一白血球の高度不均衡データセットではF1スコアが最大6%上昇した。

In computational pathology, we often face a scarcity of annotations and a large amount of unlabeled data. One method for dealing with this is semi-supervised learning which is commonly split into a self-supervised pretext task and a subsequent model fine-tuning. Here, we compress this two-stage training into one by introducing S5CL, a unified framework for fully-supervised, self-supervised, and semi-supervised learning. With three contrastive losses defined for labeled, unlabeled, and pseudo-labeled images, S5CL can learn feature representations that reflect the hierarchy of distance relationships: similar images and augmentations are embedded the closest, followed by different looking images of the same class, while images from separate classes have the largest distance. Moreover, S5CL allows us to flexibly combine these losses to adapt to different scenarios. Evaluations of our framework on two public histopathological datasets show strong improvements in the case of sparse labels: for a H&E-stained colorectal cancer dataset, the accuracy increases by up to 9% compared to supervised cross-entropy loss; for a highly imbalanced dataset of single white blood cells from leukemia patient blood smears, the F1-score increases by up to 6%.
翻訳日:2022-03-15 14:31:27 公開日:2022-03-14
# 領域特異的動層注意を伴う層融合による自律走行車両の接地指令

Grounding Commands for Autonomous Vehicles via Layer Fusion with Region-specific Dynamic Layer Attention ( http://arxiv.org/abs/2203.06822v1 )

ライセンス: Link先を確認
Hou Pong Chan, Mingxi Guo, Cheng-Zhong Xu(参考訳) 視覚環境への指令の接地は、自律走行車と人間の相互作用に不可欠な要素である。 本研究では,乗客からの自然言語指示に基づき,視覚領域の局所化を目的とした自律走行車における言語接地問題について検討する。 以前の作業では、コマンドによって参照される領域を予測するために、視覚と言語による事前訓練モデルの上位層表現のみを使用する。 しかし、このような方法は他のレイヤにエンコードされる有用な機能を省略し、入力シーンとコマンドの理解が不十分になる。 この制限に対処するため,本課題に対する第1層融合手法を提案する。 異なる視覚領域は互いに曖昧にするために異なるタイプの特徴を必要とする可能性があるため、各領域の層をまたいだマルチモーダル情報を適応的に融合させるために、地域固有の動的(RSD)層アテンションを提案する。 talk2carベンチマークに関する広範囲な実験は、我々のアプローチがより正確な領域を予測し、最先端のメソッドを上回ることを証明している。

Grounding a command to the visual environment is an essential ingredient for interactions between autonomous vehicles and humans. In this work, we study the problem of language grounding for autonomous vehicles, which aims to localize a region in a visual scene according to a natural language command from a passenger. Prior work only employs the top layer representations of a vision-and-language pre-trained model to predict the region referred to by the command. However, such a method omits the useful features encoded in other layers, and thus results in inadequate understanding of the input scene and command. To tackle this limitation, we present the first layer fusion approach for this task. Since different visual regions may require distinct types of features to disambiguate them from each other, we further propose the region-specific dynamic (RSD) layer attention to adaptively fuse the multimodal information across layers for each region. Extensive experiments on the Talk2Car benchmark demonstrate that our approach helps predict more accurate regions and outperforms state-of-the-art methods.
翻訳日:2022-03-15 14:21:04 公開日:2022-03-14
# ネットワークアーキテクチャと目的関数の協調最適化による変形可能な医用画像登録の自動学習

Automated Learning for Deformable Medical Image Registration by Jointly Optimizing Network Architectures and Objective Functions ( http://arxiv.org/abs/2203.06810v1 )

ライセンス: Link先を確認
Zi Li, Ziyang Li, Risheng Liu, Zhongxuan Luo and Xin Fan(参考訳) 変形可能な画像登録は、医用画像解析の様々なタスクにおいて重要な役割を果たす。 従来のエネルギー最適化やディープネットワークから派生した、成功した登録アルゴリズムは、登録エネルギーを適切に設計したり、特定のタイプの医療データに対してネットワークアーキテクチャを慎重に調整するために、コンピュータ専門家の多大な努力を必要とする。 本稿では,これらの課題に対処するために,アーキテクチャとそれに対応するトレーニング目標の両方を協調的に最適化する自動学習登録アルゴリズム(AutoReg)を提案する。 具体的には,登録ネットワークのアーキテクチャと目的を自動検索機構と協調最適化で推定するトリプルレベルフレームワークを構築した。 複数箇所のボリュームデータセットと各種登録タスクで画像登録実験を行う。 我々のAutoRegは、与えられたボリュームに対して最適な深層登録ネットワークを自動的に学習し、最先端の性能を実現し、また、主流のUNetアーキテクチャ(同じ構成で3D画像ペアを0.558秒から0.270秒)よりも計算効率を著しく向上することを示した。

Deformable image registration plays a critical role in various tasks of medical image analysis. A successful registration algorithm, either derived from conventional energy optimization or deep networks requires tremendous efforts from computer experts to well design registration energy or to carefully tune network architectures for the specific type of medical data. To tackle the aforementioned problems, this paper proposes an automated learning registration algorithm (AutoReg) that cooperatively optimizes both architectures and their corresponding training objectives, enabling non-computer experts, e.g., medical/clinical users, to conveniently find off-the-shelf registration algorithms for diverse scenarios. Specifically, we establish a triple-level framework to deduce registration network architectures and objectives with an auto-searching mechanism and cooperating optimization. We conduct image registration experiments on multi-site volume datasets and various registration tasks. Extensive results demonstrate that our AutoReg may automatically learn an optimal deep registration network for given volumes and achieve state-of-the-art performance, also significantly improving computation efficiency than the mainstream UNet architectures (from 0.558 to 0.270 seconds for a 3D image pair on the same configuration).
翻訳日:2022-03-15 14:19:12 公開日:2022-03-14
# 前向き対応型Few-Shotクラスインクリメンタルラーニング

Forward Compatible Few-Shot Class-Incremental Learning ( http://arxiv.org/abs/2203.06953v1 )

ライセンス: Link先を確認
Da-Wei Zhou, Fu-Yun Wang, Han-Jia Ye, Liang Ma, Shiliang Pu, De-Chuan Zhan(参考訳) 新たなクラスは、例えば認証システムの新規ユーザなど、動的に変化する世界において頻繁に発生し、機械学習モデルは古いクラスを忘れずに新しいクラスを認識すべきである。 新しいクラスインスタンスが不十分な場合には、このシナリオはより難しくなります。 現在のメソッドは、旧モデルと同じような更新モデルを作ることで、インクリメンタルな学習を振り返りに処理します。 対照的に、今後の更新に備えた学習を前向きに提案し、FSCILのためのForwArd Compatible Training(FACT)を提案する。 前方互換性には、現在のステージデータに基づいて、将来の新しいクラスを簡単に現在のモデルに組み込む必要がある。 詳しくは、既知のクラスの埋め込みを絞って新しいクラスを予約するために仮想プロトタイプを割り当てます。 さらに、新しいクラスを予測し、更新プロセスの準備も行います。 仮想プロトタイプでは、モデルが将来可能な更新を受け付け、推論中により強力な分類器を構築するために埋め込み空間に散在するプロキシとして機能する。 FACTは、前方互換性を持つ新しいクラスを効率的に取り入れ、一方で古いクラスを忘れることに抵抗する。 大規模な実験は、FACTの最先端の性能を検証する。 コードは、https://github.com/z houdw-zdw/CVPR22-Fac t.comで入手できる。

Novel classes frequently arise in our dynamically changing world, e.g., new users in the authentication system, and a machine learning model should recognize new classes without forgetting old ones. This scenario becomes more challenging when new class instances are insufficient, which is called few-shot class-incremental learning (FSCIL). Current methods handle incremental learning retrospectively by making the updated model similar to the old one. By contrast, we suggest learning prospectively to prepare for future updates, and propose ForwArd Compatible Training (FACT) for FSCIL. Forward compatibility requires future new classes to be easily incorporated into the current model based on the current stage data, and we seek to realize it by reserving embedding space for future new classes. In detail, we assign virtual prototypes to squeeze the embedding of known classes and reserve for new ones. Besides, we forecast possible new classes and prepare for the updating process. The virtual prototypes allow the model to accept possible updates in the future, which act as proxies scattered among embedding space to build a stronger classifier during inference. FACT efficiently incorporates new classes with forward compatibility and meanwhile resists forgetting of old ones. Extensive experiments validate FACT's state-of-the-art performance. Code is available at: https://github.com/z houdw-zdw/CVPR22-Fac t
翻訳日:2022-03-15 14:18:51 公開日:2022-03-14
# ACID: 変形可能なオブジェクト操作のためのアクション駆動型視覚ダイナミクス

ACID: Action-Conditional Implicit Visual Dynamics for Deformable Object Manipulation ( http://arxiv.org/abs/2203.06856v1 )

ライセンス: Link先を確認
Bokui Shen, Zhenyu Jiang, Christopher Choy, Leonidas J. Guibas, Silvio Savarese, Anima Anandkumar and Yuke Zhu(参考訳) ぬいぐるみやピザ生地など、現実世界で体積変形可能な物体を操作することは、無限の形状の変化、非剛性運動、部分的可観測性などの問題を引き起こす。 構造化された暗黙的表現に基づく体積変形可能なオブジェクトに対する行動条件視覚ダイナミクスモデルであるacidを提案する。 acidは2つの新しいテクニックを統合している: アクション条件ダイナミクスのための暗黙表現と、測地学に基づくコントラスト学習である。 部分的なRGB-D観測から変形可能なダイナミクスを表現するために、占有率とフローベースフォワードダイナミクスの暗黙的な表現を学習する。 大きな非剛性変形下での状態変化を正確に識別するために,新しい測地線に基づくコントラスト損失を通じて対応埋め込み場を学習する。 本手法を評価するために,複雑な変形可能な形状を現実のシーンで操作するシミュレーションフレームワークと,6種類のぬいぐるみと78種類の変種を含む17,000以上のアクショントラジェクタを含むベンチマークを開発した。 我々のモデルは、既存のアプローチよりも幾何、対応、動的予測において最高の性能を達成する。 ACIDのダイナミクスモデルは、ゴール条件付き変形可能な操作タスクにうまく採用され、最強のベースラインよりもタスク成功率が30%向上する。 さらなる結果と情報については、https://b0ku1.github .io/acid-web/ をご覧ください。

Manipulating volumetric deformable objects in the real world, like plush toys and pizza dough, bring substantial challenges due to infinite shape variations, non-rigid motions, and partial observability. We introduce ACID, an action-conditional visual dynamics model for volumetric deformable objects based on structured implicit neural representations. ACID integrates two new techniques: implicit representations for action-conditional dynamics and geodesics-based contrastive learning. To represent deformable dynamics from partial RGB-D observations, we learn implicit representations of occupancy and flow-based forward dynamics. To accurately identify state change under large non-rigid deformations, we learn a correspondence embedding field through a novel geodesics-based contrastive loss. To evaluate our approach, we develop a simulation framework for manipulating complex deformable shapes in realistic scenes and a benchmark containing over 17,000 action trajectories with six types of plush toys and 78 variants. Our model achieves the best performance in geometry, correspondence, and dynamics predictions over existing approaches. The ACID dynamics models are successfully employed to goal-conditioned deformable manipulation tasks, resulting in a 30% increase in task success rate over the strongest baseline. For more results and information, please visit https://b0ku1.github .io/acid-web/ .
翻訳日:2022-03-15 14:18:01 公開日:2022-03-14
# DIAS: ドメインに依存しないAlifeベースの問題解決システム

DIAS: A Domain-Independent Alife-Based Problem-Solving System ( http://arxiv.org/abs/2203.06855v1 )

ライセンス: Link先を確認
Babak Hodjat, Hormoz Shahrzad, Risto Miikkulainen(参考訳) 人工生命の原理に基づくドメインに依存しない問題解決システムを導入する。 本発明は、DIASにおいて、領域の入力及び出力次元を空間媒体にレイアウトする。 俳優の集団は、それぞれこの媒体の一部しか見ていないが、集合的に問題を解く。 プロセスはドメインとは独立しており、さまざまな種類のアクターを通じて実装することができる。 さまざまな問題領域に関する一連の実験を通じて、diasは、異なる次元と複雑さの問題を解決し、新しい問題のためにハイパーパラメータチューニングを必要とせず、生涯学習、すなわち問題領域のランタイム変化に迅速に適応し、標準的な非集合的アプローチよりも優れた方法を示すことが示される。 したがってdiasは、スケーラブルで汎用的で適応的な問題解決システムを構築するためのalifeの役割を実証する。

A domain-independent problem-solving system based on principles of Artificial Life is introduced. In this system, DIAS, the input and output dimensions of the domain are laid out in a spatial medium. A population of actors, each seeing only part of this medium, solves problems collectively in it. The process is independent of the domain and can be implemented through different kinds of actors. Through a set of experiments on various problem domains, DIAS is shown able to solve problems with different dimensionality and complexity, to require no hyperparameter tuning for new problems, and to exhibit lifelong learning, i.e. adapt rapidly to run-time changes in the problem domain, and do it better than a standard non-collective approach. DIAS therefore demonstrates a role for Alife in building scalable, general, and adaptive problem-solving systems.
翻訳日:2022-03-15 14:15:57 公開日:2022-03-14
# デリバティブ価格モデルのキャリブレーション:マルチエージェント強化学習の視点から

Calibration of Derivative Pricing Models: a Multi-Agent Reinforcement Learning Perspective ( http://arxiv.org/abs/2203.06865v1 )

ライセンス: Link先を確認
Nelson Vadori(参考訳) 量的金融における最も基本的な問題の1つは、与えられたオプションセットの市場価格に適合する連続時間拡散モデルの存在である。 伝統的に、直観、理論的、実証的な分析の混合を用いて、正確なあるいは近似的な適合を達成するモデルを見つける。 本研究は,近年の深層マルチエージェント強化学習における既存の発展を活用し,確率過程の分野における探索に適切なゲーム理論的定式化がいかに役立つかを示すことを目的とする。 さらに,SPX-VIXキャリブレーション問題など,その分野で重要な問題を解決するために,コミュニティが我々の技術を活用し,拡張できることを願っている。 実験では,局所的なボラティリティや,ボラティリティプロセスに必要な経路依存性を学習し,ベルムダンオプションの価格を最小限に抑えることができた。 ある文では、我々のアルゴリズムは、粒子が$\sigma_{loc}(t,S_t)^2 = \mathbb{E}[\sigma_t^2|S_t]$を保証するように設計される代わりに、より一般的なキャリブレーション目標に向かって協調するRL駆動エージェントを学習する粒子法 \`{a} la Guyon et Henry-Bordere として見ることができる。 これはデリバティブキャリブレーション問題を用いた強化学習のための最初の作業である。

One of the most fundamental questions in quantitative finance is the existence of continuous-time diffusion models that fit market prices of a given set of options. Traditionally, one employs a mix of intuition, theoretical and empirical analysis to find models that achieve exact or approximate fits. Our contribution is to show how a suitable game theoretical formulation of this problem can help solve this question by leveraging existing developments in modern deep multi-agent reinforcement learning to search in the space of stochastic processes. More importantly, we hope that our techniques can be leveraged and extended by the community to solve important problems in that field, such as the joint SPX-VIX calibration problem. Our experiments show that we are able to learn local volatility, as well as path-dependence required in the volatility process to minimize the price of a Bermudan option. In one sentence, our algorithm can be seen as a particle method \`{a} la Guyon et Henry-Labordere where particles, instead of being designed to ensure $\sigma_{loc}(t,S_t)^2 = \mathbb{E}[\sigma_t^2|S_t]$, are learning RL-driven agents cooperating towards more general calibration targets. This is the first work bridging reinforcement learning with the derivative calibration problem.
翻訳日:2022-03-15 14:15:44 公開日:2022-03-14
# (参考訳) 有限幅ニューラルネットワークにおける二重降下現象

Phenomenology of Double Descent in Finite-Width Neural Networks ( http://arxiv.org/abs/2203.07337v1 )

ライセンス: CC BY-SA 4.0
Sidak Pal Singh, Aurelien Lucchi, Thomas Hofmann, Bernhard Sch\"olkopf(参考訳) ダブル・サブジェクション」は、モデルが属するレジームに応じて、モデルの一般化行動を示す: 過小評価または過大評価。 この現象の発生の背後にある現在の理論的理解は主に線形回帰モデルとカーネル回帰モデルに基づいている。 Therefore such analyses do not adequately capture the mechanisms behind double descent in finite-width neural networks, as well as, disregard crucial components -- such as the choice of the loss function. We address these shortcomings by leveraging influence functions in order to derive suitable expressions of the population loss and its lower bound, while imposing minimal assumptions on the form of the parametric model. Our derived bounds bear an intimate connection with the spectrum of the Hessian at the optimum, and importantly, exhibit a double descent behaviour at the interpolation threshold. Building on our analysis, we further investigate how the loss function affects double descent -- and thus uncover interesting properties of neural networks and their Hessian spectra near the interpolation threshold.

`Double descent' delineates the generalization behaviour of models depending on the regime they belong to: under- or over-parameterized. The current theoretical understanding behind the occurrence of this phenomenon is primarily based on linear and kernel regression models -- with informal parallels to neural networks via the Neural Tangent Kernel. Therefore such analyses do not adequately capture the mechanisms behind double descent in finite-width neural networks, as well as, disregard crucial components -- such as the choice of the loss function. We address these shortcomings by leveraging influence functions in order to derive suitable expressions of the population loss and its lower bound, while imposing minimal assumptions on the form of the parametric model. Our derived bounds bear an intimate connection with the spectrum of the Hessian at the optimum, and importantly, exhibit a double descent behaviour at the interpolation threshold. Building on our analysis, we further investigate how the loss function affects double descent -- and thus uncover interesting properties of neural networks and their Hessian spectra near the interpolation threshold.
翻訳日:2022-03-15 14:14:23 公開日:2022-03-14
# スパースオールMLPを用いた効率的な言語モデリング

Efficient Language Modeling with Sparse all-MLP ( http://arxiv.org/abs/2203.06850v1 )

ライセンス: Link先を確認
Ping Yu, Mikel Artetxe, Myle Ott, Sam Shleifer, Hongyu Gong, Ves Stoyanov, Xian Li(参考訳) オールMLPアーキテクチャはアテンションベースのモデルに代わるものとして関心を集めている。 NLPでは、gMLPのような最近の研究により、すべてのMLPが言語モデリングにおいてTransformerにマッチするが、下流タスクでは遅れていることを示している。 本研究では,表現性におけるMLPの限界を解析し,特徴量と入力量の両方において,MLPを混合した疎活性化(MoEs)を提案する。 このようなスパースなオールMLPは、計算定数を維持しながら、モデルのキャパシティと表現性を著しく向上させる。 条件計算を2つのルーティング戦略に組み込む上で重要な課題に対処する。 提案したスパースオールMLPは、言語モデリングの難易度を改善し、トランスフォーマーベースのMoE(GShard, Switch Transformer, Base Layers, HASH Layers)と高密度トランスフォーマーとオールMLPの両方と比較して、トレーニング効率を最大2$\times$で改善する。 最後に、6つの下流タスクにおけるゼロショットインコンテキスト学習性能を評価し、トランスフォーマーベースのMoEや高密度トランスフォーマーを超越していることを見出した。

All-MLP architectures have attracted increasing interest as an alternative to attention-based models. In NLP, recent work like gMLP shows that all-MLPs can match Transformers in language modeling, but still lag behind in downstream tasks. In this work, we analyze the limitations of MLPs in expressiveness, and propose sparsely activated MLPs with mixture-of-experts (MoEs) in both feature and input (token) dimensions. Such sparse all-MLPs significantly increase model capacity and expressiveness while keeping the compute constant. We address critical challenges in incorporating conditional computation with two routing strategies. The proposed sparse all-MLP improves language modeling perplexity and obtains up to 2$\times$ improvement in training efficiency compared to both Transformer-based MoEs (GShard, Switch Transformer, Base Layers and HASH Layers) as well as dense Transformers and all-MLPs. Finally, we evaluate its zero-shot in-context learning performance on six downstream tasks, and find that it surpasses Transformer-based MoEs and dense Transformers.
翻訳日:2022-03-15 14:11:41 公開日:2022-03-14
# WCL-BBCD: 名前付きエンティティ認識のためのコントラスト学習と知識グラフアプローチ

WCL-BBCD: A Contrastive Learning and Knowledge Graph Approach to Named Entity Recognition ( http://arxiv.org/abs/2203.06925v1 )

ライセンス: Link先を確認
Renjie Zhou, Qiang Hu, Jian Wan, Jilin Zhang, Qiang Liu, Tianxiang Hu, Jianjun Li(参考訳) 名前付きエンティティ認識タスクは、情報抽出のコアタスクのひとつであり、名前のあいまいさと単語省略は、名前付きエンティティの認識率の低い重要な理由である。 本稿では,コントラスト学習の概念を取り入れたエンティティ認識モデル WCL-BBCD (Word Contrastive Learning with BERT-BiLSTM-CRF-DBpe dia) を提案する。 モデルはまず、テキスト中の文対を訓練し、コサイン類似性により文対内の単語間の類似性を計算し、その類似性を通じて名前付きエンティティ認識タスクに使用されるBERTモデルを微調整し、単語のあいまいさを軽減する。 そして、細調整されたBERTモデルとBiLSTM-CRFモデルを組み合わせて、名前付きエンティティ認識タスクを実行する。 最後に、知識グラフなどの事前知識と組み合わせて認識結果を補正し、単語短縮低レート問題による認識を緩和する。 実験の結果,本モデルは,conll-2003 english dataset と onnotes v5 english dataset の類似モデル手法よりも優れていた。

Named Entity Recognition task is one of the core tasks of information extraction.Word ambiguity and word abbreviation are important reasons for the low recognition rate of named entities. In this paper, we propose a novel named entity recognition model WCL-BBCD (Word Contrastive Learning with BERT-BiLSTM-CRF-DBpe dia) incorporating the idea of contrastive learning. The model first trains the sentence pairs in the text, calculate similarity between words in sentence pairs by cosine similarity, and fine-tunes the BERT model used for the named entity recognition task through the similarity, so as to alleviate word ambiguity. Then, the fine-tuned BERT model is combined with the BiLSTM-CRF model to perform the named entity recognition task. Finally, the recognition results are corrected in combination with prior knowledge such as knowledge graphs, so as to alleviate the recognition caused by word abbreviations low-rate problem. Experimental results show that our model outperforms other similar model methods on the CoNLL-2003 English dataset and OntoNotes V5 English dataset.
翻訳日:2022-03-15 14:11:19 公開日:2022-03-14
# 半構造化されたWebデータから手続きの階層を明らかにする

Show Me More Details: Discovering Hierarchies of Procedures from Semi-structured Web Data ( http://arxiv.org/abs/2203.07264v1 )

ライセンス: Link先を確認
Shuyan Zhou and Li Zhang and Yue Yang and Qing Lyu and Pengcheng Yin and Chris Callison-Burch and Graham Neubig(参考訳) 手順は本質的に階層的です。 ビデオを作る」には、「カメラを購入する」必要があり、「予算を設定する」必要がある。 このような階層的知識は複雑な手続きを推論するために重要であるが、既存の作品の多くは親子関係をモデル化することなく浅い構造として手続きを扱っており、ウィキハウに基づく手続きのオープンドメイン階層的知識ベース(kb)を構築しようとしている。 この目的のために,論文中のステップ(例えば「カメラの購入」など)と他の記事(例えば「カメラの選択方法」など)を関連付けてKBを再帰的に構築する,シンプルで効率的な方法を開発した。 提案手法は, 自動評価, 人的判断, 教育ビデオ検索などの下流業務への応用などにより, 強靭なベースラインを著しく上回っている。 部分的なデータのデモはhttps://wikihow-hier archy.github.ioで見ることができる。 コードとデータはhttps://github.com/s huyanzhou/wikihow_hi erarchyにある。

Procedures are inherently hierarchical. To "make videos", one may need to "purchase a camera", which in turn may require one to "set a budget". While such hierarchical knowledge is critical for reasoning about complex procedures, most existing work has treated procedures as shallow structures without modeling the parent-child relation.In this work, we attempt to construct an open-domain hierarchical knowledge-base (KB) of procedures based on wikiHow, a website containing more than 110k instructional articles, each documenting the steps to carry out a complex procedure. To this end, we develop a simple and efficient method that links steps (e.g., "purchase a camera") in an article to other articles with similar goals (e.g., "how to choose a camera"), recursively constructing the KB. Our method significantly outperforms several strong baselines according to automatic evaluation, human judgment, and application to downstream tasks such as instructional video retrieval. A demo with partial data can be found at https://wikihow-hier archy.github.io. The code and the data are at https://github.com/s huyanzhou/wikihow_hi erarchy.
翻訳日:2022-03-15 14:10:59 公開日:2022-03-14
# CLIPモデル:VQAとビジュアルエンターテイメントに関する実証的研究

CLIP Models are Few-shot Learners: Empirical Studies on VQA and Visual Entailment ( http://arxiv.org/abs/2203.07190v1 )

ライセンス: Link先を確認
Haoyu Song, Li Dong, Wei-Nan Zhang, Ting Liu, Furu Wei(参考訳) CLIPは、幅広いビジョンタスクで顕著なゼロショット機能を示している。 以前は、CLIPは強力なビジュアルエンコーダと見なされていた。 しかし、大量の画像キャプチャーペアから言語監督によって事前訓練された後、CLIP自体も視覚言語タスクのいくつかのショット機能を取得する必要がある。 本研究では,CLIPが言語力を活用することで,強力な視覚言語学習者となることを実証的に示す。 私たちはまず,典型的な視覚的質問応答タスクにおいてCLIPのゼロショット性能を評価し,視覚的指示タスクにおいてCLIPのゼロショットクロスモーダリティ伝達能力を示す。 次に,vqaタスクにおける最小ショット性能を向上させるためのパラメータ効率の良い微調整戦略を提案する。 追加の事前学習手順を導入することなく,視覚質問応答タスクと視覚関連タスクにおいて,競争力のあるゼロ/フェーショット結果を得る。

CLIP has shown a remarkable zero-shot capability on a wide range of vision tasks. Previously, CLIP is only regarded as a powerful visual encoder. However, after being pre-trained by language supervision from a large amount of image-caption pairs, CLIP itself should also have acquired some few-shot abilities for vision-language tasks. In this work, we empirically show that CLIP can be a strong vision-language few-shot learner by leveraging the power of language. We first evaluate CLIP's zero-shot performance on a typical visual question answering task and demonstrate a zero-shot cross-modality transfer capability of CLIP on the visual entailment task. Then we propose a parameter-efficient fine-tuning strategy to boost the few-shot performance on the vqa task. We achieve competitive zero/few-shot results on the visual question answering and visual entailment tasks without introducing any additional pre-training procedure.
翻訳日:2022-03-15 14:09:53 公開日:2022-03-14
# MTLDesc: より広い視点で説明できる

MTLDesc: Looking Wider to Describe Better ( http://arxiv.org/abs/2203.07003v1 )

ライセンス: Link先を確認
Changwei Wang, Rongtao Xu, Yuyang Zhang, Shibiao Xu, Weiliang Meng, Bin Fan, Xiaopeng Zhang(参考訳) 畳み込みニューラルネットワークの局所性によって制限されるが、既存のローカル特徴記述法は、ローカル情報を持つローカル記述子のみを学習し、グローバルおよび周囲の空間的文脈に対する認識を欠く。 本研究では,単にローカル情報(mtldesc)以上のローカルディスクリプタを学習することで,ローカルディスクリプタを"より広く見えるように"することに注力する。 特に,mtldescが非地域的意識を得るためには,文脈拡張と空間的注意のメカニズムに頼る。 まず、グローバルからローカルへのコンテキスト情報を持つ堅牢なローカル記述子を構築するために、Adaptive Global Context Augmented ModuleとDiverse Local Context Augmented Moduleを提案する。 第2に,集中度重み付き三重項損失は,局所記述子学習の最適化段階とマッチング段階の両方に空間的注意意識を統合するように設計されている。 第3に,機能ピラミッドを用いた局所特徴検出により,より安定かつ正確なキーポイントのローカライズを実現する。 以上の革新により、MTLDescの性能はHPatches、Aachen Day-Nightローカライゼーション、InLoc屋内ローカライゼーションベンチマークにおける最先端のローカル記述子よりも大幅に向上した。

Limited by the locality of convolutional neural networks, most existing local features description methods only learn local descriptors with local information and lack awareness of global and surrounding spatial context. In this work, we focus on making local descriptors "look wider to describe better" by learning local Descriptors with More Than just Local information (MTLDesc). Specifically, we resort to context augmentation and spatial attention mechanisms to make our MTLDesc obtain non-local awareness. First, Adaptive Global Context Augmented Module and Diverse Local Context Augmented Module are proposed to construct robust local descriptors with context information from global to local. Second, Consistent Attention Weighted Triplet Loss is designed to integrate spatial attention awareness into both optimization and matching stages of local descriptors learning. Third, Local Features Detection with Feature Pyramid is given to obtain more stable and accurate keypoints localization. With the above innovations, the performance of our MTLDesc significantly surpasses the prior state-of-the-art local descriptors on HPatches, Aachen Day-Night localization and InLoc indoor localization benchmarks.
翻訳日:2022-03-15 14:08:23 公開日:2022-03-14
# 内部オーバーアクティベーション解析による物理的に実現可能な敵の攻撃からの防御

Defending From Physically-Realizabl e Adversarial Attacks Through Internal Over-Activation Analysis ( http://arxiv.org/abs/2203.07341v1 )

ライセンス: Link先を確認
Giulio Rossolini, Federico Nesti, Fabio Brau, Alessandro Biondi and Giorgio Buttazzo(参考訳) 本研究は,畳み込みネットワークの対向ロバスト性を改善するためのロバストかつ効果的な戦略であるz-maskを提案する。 提示された防御は、入力画像内の敵オブジェクトに対応する画素を検出し、マスキングするために、内部ネットワーク機能で実行される特定のz-スコア分析に依存する。 この目的のために,浅層および深層で空間的に連続的な活性化を調べた。 このような提案は、マルチthresholdingメカニズムによって集約される。 z-maskの有効性をセマンティクスセグメンテーションとオブジェクト検出の両方のモデル上で行った広範囲な実験により評価した。 入力画像にデジタルパッチを付加し、実世界に位置する印刷パッチを印字して評価を行う。 その結果、Z-Maskは攻撃中のネットワークの検知精度と全体的な性能の両方において最先端の手法より優れていることを確認した。 追加の実験では、Z-Maskは防衛対応攻撃に対して堅牢であることが示された。

This work presents Z-Mask, a robust and effective strategy to improve the adversarial robustness of convolutional networks against physically-realizabl e adversarial attacks. The presented defense relies on specific Z-score analysis performed on the internal network features to detect and mask the pixels corresponding to adversarial objects in the input image. To this end, spatially contiguous activations are examined in shallow and deep layers to suggest potential adversarial regions. Such proposals are then aggregated through a multi-thresholding mechanism. The effectiveness of Z-Mask is evaluated with an extensive set of experiments carried out on models for both semantic segmentation and object detection. The evaluation is performed with both digital patches added to the input images and printed patches positioned in the real world. The obtained results confirm that Z-Mask outperforms the state-of-the-art methods in terms of both detection accuracy and overall performance of the networks under attack. Additional experiments showed that Z-Mask is also robust against possible defense-aware attacks.
翻訳日:2022-03-15 14:08:00 公開日:2022-03-14
# アスペクトと文に基づく感情分析のためのラベル空間の統合に向けて

Towards Unifying the Label Space for Aspect- and Sentence-based Sentiment Analysis ( http://arxiv.org/abs/2203.07090v1 )

ライセンス: Link先を確認
Yiming Zhang, Min Zhang, Sai Wu, Junbo Zhao (Jake)(参考訳) アスペクトベース感情分析(ABSA)は、文中に発生する対象のアスペクト項に対する感情極性を決定することを目的とした、きめ細かいタスクである。 ABSAタスクの開発は、注釈付きデータの欠如によって非常に妨げられている。 これを解決するために、先行研究は感情分析(SA)データセットを利用して、主に事前学習やマルチタスク学習を通じてABSAモデルのトレーニングを支援する可能性を検討した。 この記事では、この行に従い、初めて擬似ラベル(pl)メソッドを適用して、2つの均質なタスクをマージします。 本稿では,2つの高関連タスクに対してラベルの粒度統一処理を行うために,生成した擬似ラベルを使用することは簡単と思われるが,その主な課題を特定し,DPL(Dual-granularit y Pseudo Labeling)と呼ばれる新しいフレームワークを提案する。 さらに、PLと同様、DPLは文献における他の先行手法を組み合わせることのできる一般的な枠組みであると考えている。 広範な実験を通じて、DPLは以前の作業を大幅に上回った標準ベンチマークで最先端のパフォーマンスを達成した。

The aspect-based sentiment analysis (ABSA) is a fine-grained task that aims to determine the sentiment polarity towards targeted aspect terms occurring in the sentence. The development of the ABSA task is very much hindered by the lack of annotated data. To tackle this, the prior works have studied the possibility of utilizing the sentiment analysis (SA) datasets to assist in training the ABSA model, primarily via pretraining or multi-task learning. In this article, we follow this line, and for the first time, we manage to apply the Pseudo-Label (PL) method to merge the two homogeneous tasks. While it seems straightforward to use generated pseudo labels to handle this case of label granularity unification for two highly related tasks, we identify its major challenge in this paper and propose a novel framework, dubbed as Dual-granularity Pseudo Labeling (DPL). Further, similar to PL, we regard the DPL as a general framework capable of combining other prior methods in the literature. Through extensive experiments, DPL has achieved state-of-the-art performance on standard benchmarks surpassing the prior work significantly.
翻訳日:2022-03-15 14:06:55 公開日:2022-03-14
# RNNを用いた探索領域を記述したニューラル定理証明器

Neural Theorem Provers Delineating Search Area Using RNN ( http://arxiv.org/abs/2203.06985v1 )

ライセンス: Link先を確認
Yu-hao Wu and Hou-biao Li(参考訳) 従来の記号推論法は非常に解釈可能であるが、知識グラフにおけるリンク予測は計算の非効率のために制限されている。 本稿では,ニューラル定理プロバー(NTP)の計算効率を継続的に向上させるために,一般化EMベースの手法を用いて新しいRNNNTP法を提案する。 RNNNTPは関係生成器と予測器に分けられる。 関係生成器を効果的かつ解釈可能に訓練することにより、トレーニングの開発に応じてモデル全体の実行が可能となり、計算効率も大幅に向上する。 これら4つのデータ集合において,本手法は従来の手法に対するリンク予測タスクの競合性能と,現在の強力な競合手法の1つを示す。

Although traditional symbolic reasoning methods are highly interpretable, their application in knowledge graphs link prediction has been limited due to their computational inefficiency. A new RNNNTP method is proposed in this paper, using a generalized EM-based approach to continuously improve the computational efficiency of Neural Theorem Provers(NTPs). The RNNNTP is divided into relation generator and predictor. The relation generator is trained effectively and interpretably, so that the whole model can be carried out according to the development of the training, and the computational efficiency is also greatly improved. In all four data-sets, this method shows competitive performance on the link prediction task relative to traditional methods as well as one of the current strong competitive methods.
翻訳日:2022-03-15 14:05:18 公開日:2022-03-14
# モデル多重性の倫理的・公正性

Ethical and Fairness Implications of Model Multiplicity ( http://arxiv.org/abs/2203.07139v1 )

ライセンス: Link先を確認
Kacper Sokol and Meelis Kull and Jeffrey Chan and Flora Dilys Salim(参考訳) 予測モデルは純粋に技術的な偉業であるが、工学的選択が予期せぬ現実的な結果をもたらす社会的文脈で機能する。 個人とグループの両方に関する公平さは、そのような考慮事項の1つであり、データがこれらの属性に差別される可能性のある人々の保護された特性をキャプチャするときに表される。 この概念は、しばしば異なる分類しきい値の下で固定された予測モデルのために研究され、望ましくない振る舞いを特定し、根絶しようと試みている。 ここでは、この仮定をバックトラックし、モデルの多重性の観点から、ある予測者が等しくよく機能するモデル群からアドホックに選ばれたときに個人が害を受けることができる公平性の新しい定義を探求する。 同一視されるモデル間で異なる分類をすることができるので、この個人はより好ましい結果をもたらすモデルについて議論し、他のモデルに悪影響をもたらす可能性がある。 このシナリオを線形分類に基づく2次元例で紹介し,その解析的性質をより広い文脈で検討し,最後にフェアネス研究で一般的なデータセットについて実験結果を示す。 以上の結果から, 実生活の状況ではこのような不公平さが見られ, 技術的対策だけでは緩和が困難である可能性が示唆された。

While predictive models are a purely technological feat, they may operate in a social context in which benign engineering choices entail unexpected real-life consequences. Fairness -- pertaining both to individuals and groups -- is one of such considerations; it surfaces when data capture protected characteristics of people who may be discriminated upon these attributes. This notion has predominantly been studied for a fixed predictive model, sometimes under different classification thresholds, striving to identify and eradicate its undesirable behaviour. Here we backtrack on this assumption and explore a novel definition of fairness where individuals can be harmed when one predictor is chosen ad hoc from a group of equally well performing models, i.e., in view of model multiplicity. Since a person may be classified differently across models that are otherwise considered equivalent, this individual could argue for a model with a more favourable outcome, possibly causing others to be adversely affected. We introduce this scenario with a two-dimensional example based on linear classification; then investigate its analytical properties in a broader context; and finally present experimental results on data sets popular in fairness studies. Our findings suggest that such unfairness can be found in real-life situations and may be difficult to mitigate with technical measures alone, as doing so degrades certain metrics of predictive performance.
翻訳日:2022-03-15 14:02:53 公開日:2022-03-14
# 微分型テッセルレーションによる半離散正規化流れ

Semi-Discrete Normalizing Flows through Differentiable Tessellation ( http://arxiv.org/abs/2203.06832v1 )

ライセンス: Link先を確認
Ricky T. Q. Chen, Brandon Amos, Maximilian Nickel(参考訳) 離散分布と連続分布の間のマッピングは難しい作業であり、多くの人は近似的あるいはヒューリスティックなアプローチに頼る必要があった。 本研究では,連続空間上の量子化境界を直接学習し,正確な確率評価を行なえるテッセレーションベースアプローチを提案する。 これは微分可能なボロノイテッセレーションによってパラメータ化された凸ポリトープ上の正規化フローを構築することによって行われる。 効率的な対数決定型ヤコビアンを持つ単純同型を用いて、凸ポリトープ上の分布を安価にパラメータ化することができる。 このアプローチを、個別から連続へのマッピングと、その逆の2つのアプリケーション設定で検討します。 まず、ボロノイ量子化は多次元空間における量子化境界を自動的に学習することを可能にする。 領域間の境界と距離の位置は、量子化された離散値の間の有用な構造関係を符号化することができる。 第二に、ボロノイ混合モデルは、混合成分の数によらず、確率評価のための一定の計算コストを有する。 経験的に、さまざまな構造化データモダリティをまたいだ既存のメソッドに対する改善を示し、ベースラインモデルにvoronoiの混合物を追加するだけで大きな利益が得られることを見出します。

Mapping between discrete and continuous distributions is a difficult task and many have had to resort to approximate or heuristical approaches. We propose a tessellation-based approach that directly learns quantization boundaries on a continuous space, complete with exact likelihood evaluations. This is done through constructing normalizing flows on convex polytopes parameterized through a differentiable Voronoi tessellation. Using a simple homeomorphism with an efficient log determinant Jacobian, we can then cheaply parameterize distributions on convex polytopes. We explore this approach in two application settings, mapping from discrete to continuous and vice versa. Firstly, a Voronoi dequantization allows automatically learning quantization boundaries in a multidimensional space. The location of boundaries and distances between regions can encode useful structural relations between the quantized discrete values. Secondly, a Voronoi mixture model has constant computation cost for likelihood evaluation regardless of the number of mixture components. Empirically, we show improvements over existing methods across a range of structured data modalities, and find that we can achieve a significant gain from just adding Voronoi mixtures to a baseline model.
翻訳日:2022-03-15 14:01:13 公開日:2022-03-14
# (参考訳) 構造化電子健康記録を用いた質問応答のための不確実性対応テキスト・ツー・プログラム [全文訳有]

Uncertainty-Aware Text-to-Program for Question Answering on Structured Electronic Health Records ( http://arxiv.org/abs/2203.06918v1 )

ライセンス: CC BY 4.0
Daeyoung Kim, Seongsu Bae, Seungho Kim, Edward Choi(参考訳) EHR-QA(Electronic Health Records)に対する質問回答は、医療領域に大きな影響を与え、積極的に研究されている。 構造化EHR-QAに関するこれまでの研究は、自然言語クエリをSQLやSPARQL(NLQ2Query)などのクエリ言語に変換することに重点を置いていた。 EHR-QAタスクをこの制限を超えて、マルチモーダル医療データを処理し、将来複雑な推論を解決するためには、より原始的な体系言語が必要である。 本稿では,将来に向けた第一歩として,EHR-QAのためのプログラムベースモデル(NLQ2Program)を設計する。 我々は、グラフベースのEHR-QAデータセットであるMIMICSPARQL*に、プログラムベースのアプローチを半教師付き方式で取り組んで、ゴールドプログラムの欠如を克服する。 金のプログラムがなければ,提案モデルでは,NLQ2Queryモデル(0.9\%ゲイン)である従来の最先端モデルと同等の性能を示す。 さらに,信頼性の高いehr-qaモデルに対して,不確実性分解法を適用し,入力質問の曖昧性を測定する。 入力問題における曖昧性の最も顕著なデータ不確かさを実証的に確認した。

Question Answering on Electronic Health Records (EHR-QA) has a significant impact on the healthcare domain, and it is being actively studied. Previous research on structured EHR-QA focuses on converting natural language queries into query language such as SQL or SPARQL (NLQ2Query), so the problem scope is limited to pre-defined data types by the specific query language. In order to expand the EHR-QA task beyond this limitation to handle multi-modal medical data and solve complex inference in the future, more primitive systemic language is needed. In this paper, we design the program-based model (NLQ2Program) for EHR-QA as the first step towards the future direction. We tackle MIMICSPARQL*, the graph-based EHR-QA dataset, via a program-based approach in a semi-supervised manner in order to overcome the absence of gold programs. Without the gold program, our proposed model shows comparable performance to the previous state-of-the-art model, which is an NLQ2Query model (0.9\% gain). In addition, for a reliable EHR-QA model, we apply the uncertainty decomposition method to measure the ambiguity in the input question. We empirically confirmed data uncertainty is most indicative of the ambiguity in the input question.
翻訳日:2022-03-15 13:59:18 公開日:2022-03-14
# フェデレーションサイクリング(fedcy) : 半教師付きフェデレーション学習

Federated Cycling (FedCy): Semi-supervised Federated Learning of Surgical Phases ( http://arxiv.org/abs/2203.07345v1 )

ライセンス: Link先を確認
Hasan Kassem, Deepak Alapatt, Pietro Mascagni, AI4SafeChole Consortium, Alexandros Karargyris, Nicolas Padoy(参考訳) 近年の深層学習技術の進歩により,コンピュータ・アシスタンスがより安全な手術手順の実現に一歩近づいた。 しかし、そのような手法の一般化可能性はしばしば、医療データの繊細な性質を考慮して、複数の医療機関からの多様なデータセットの訓練に依存する。 近年提案されているfederated learning (fl) のような協調学習手法は,データを明示的に共有することなく遠隔データセット上でのトレーニングを可能にする。 それでもなお、特に臨床専門知識を必要とする医学や手術において、データアノテーションは依然としてボトルネックとなっている。 これらの制約を念頭に置いて,flと自己教師付き学習を組み合わせたフェデレート半教師付き学習(fssl)手法であるfederated semi-supervised learning)を提案する。 ラベル付きデータの時間パターンを活用することで、feedcyはラベルなしデータの教師なしトレーニングを、フェーズ認識のためのタスク固有の学習機能へと導くのに役立つ。 腹腔鏡下胆嚢摘出術ビデオの多施設データセットを用いて,術期自動認識作業における最先端のFSSL法よりも有意な成績を示した。 さらに,我々のアプローチは,未認識のドメインからのデータでテストした場合,より汎用的な機能も学習できることを実証する。

Recent advancements in deep learning methods bring computer-assistance a step closer to fulfilling promises of safer surgical procedures. However, the generalizability of such methods is often dependent on training on diverse datasets from multiple medical institutions, which is a restrictive requirement considering the sensitive nature of medical data. Recently proposed collaborative learning methods such as Federated Learning (FL) allow for training on remote datasets without the need to explicitly share data. Even so, data annotation still represents a bottleneck, particularly in medicine and surgery where clinical expertise is often required. With these constraints in mind, we propose FedCy, a federated semi-supervised learning (FSSL) method that combines FL and self-supervised learning to exploit a decentralized dataset of both labeled and unlabeled videos, thereby improving performance on the task of surgical phase recognition. By leveraging temporal patterns in the labeled data, FedCy helps guide unsupervised training on unlabeled data towards learning task-specific features for phase recognition. We demonstrate significant performance gains over state-of-the-art FSSL methods on the task of automatic recognition of surgical phases using a newly collected multi-institutional dataset of laparoscopic cholecystectomy videos. Furthermore, we demonstrate that our approach also learns more generalizable features when tested on data from an unseen domain.
翻訳日:2022-03-15 13:21:07 公開日:2022-03-14
# (参考訳) バイモーダル深層ネットワークによるアートワークにおける物体の関連と意味の抽出 [全文訳有]

Extracting associations and meanings of objects depicted in artworks through bi-modal deep networks ( http://arxiv.org/abs/2203.07026v1 )

ライセンス: CC BY 4.0
Gregory Kell, Ryan-Rhys Griffiths, Anthony Bourached, David G. Stork(参考訳) 本稿では,絵や絵などの「著作」画像に表現された物体の学習関連や単純な意味の問題に対処するために,深層ネットワークに基づく新しいバイモーダルシステムを提案する。 本システムでは,画像と関連するテキストの両方を処理し,個々のオブジェクトのイメージ,それらのアイデンティティ,それらが意味する抽象的な意味の関連を学習する。 表現対象と推論対象を記述した過去のディープネットとは異なり、本システムは、対象とするアート作品の基本的な全体的意味だけでなく、意味を持つ対象(記号)とその関連(記号)を識別する。 本システムでは,オランダのバニタス絵画のキュレートセットにおいて,F1の0.6で48%の精度と78%のリコールを達成した。 我々は,美術絵画のシステムを開発し,実験を行ったが,その一般的な手法は他の権威ある画像にも適用できる。

We present a novel bi-modal system based on deep networks to address the problem of learning associations and simple meanings of objects depicted in "authored" images, such as fine art paintings and drawings. Our overall system processes both the images and associated texts in order to learn associations between images of individual objects, their identities and the abstract meanings they signify. Unlike past deep net that describe depicted objects and infer predicates, our system identifies meaning-bearing objects ("signifiers") and their associations ("signifieds") as well as basic overall meanings for target artworks. Our system had precision of 48% and recall of 78% with an F1 metric of 0.6 on a curated set of Dutch vanitas paintings, a genre celebrated for its concentration on conveying a meaning of great import at the time of their execution. We developed and tested our system on fine art paintings but our general methods can be applied to other authored images.
翻訳日:2022-03-15 13:17:57 公開日:2022-03-14
# Delta Tuning:事前学習型言語モデルのためのパラメータ効率的な手法の総合的研究

Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for Pre-trained Language Models ( http://arxiv.org/abs/2203.06904v1 )

ライセンス: Link先を確認
Ning Ding, Yujia Qin, Guang Yang, Fuchao Wei, Zonghan Yang, Yusheng Su, Shengding Hu, Yulin Chen, Chi-Min Chan, Weize Chen, Jing Yi, Weilin Zhao, Xiaozhi Wang, Zhiyuan Liu, Hai-Tao Zheng, Jianfei Chen, Yang Liu, Jie Tang, Juanzi Li, Maosong Sun(参考訳) 成功にもかかわらず、大規模なPLMを微調整するプロセスは、違法な適応コストをもたらす。 実際、余剰モデルのパラメータをすべて微調整し、異なるタスクに対して別々のインスタンスを保持することは事実上不可能である。 本論文では, デルタチューニングと呼ばれる, PLMのパラメータ効率適応に着目した新たな研究分野が必要である。 標準の微調整とは対照的に、デルタチューニングはモデルパラメータのごく一部だけを微調整し、残りは無修正にし、計算とストレージのコストを大幅に削減する。 最近の研究では、パラメータ選択の異なる一連のデルタ調律法がフルパラメータの微調整と同等の性能を達成できることが示されており、大規模plmを刺激する新しい有望な方法が示唆されている。 本稿では,まずデルタチューニングの問題について述べるとともに,最近のデルタチューニング手法を概観する。 また,既存のデルタチューニング手法を加算法,仕様法,パラメータ化法という3つのグループに分割する統合分類基準を提案する。 当初は大きなモデルを操る効率的な方法として提案されていたが、デルタチューニングとともに発見された興味深い証拠の一部は、PLMや深層ニューラルネットワークのメカニズムを明らかにするのに役立つと信じている。 そこで本研究では,デルタチューニングの有効性の基礎となる理論原理について論じ,最適化と最適制御の観点からデルタチューニングを解釈するフレームワークを提案する。 さらに,100以上のNLPタスクの結果が,様々な手法の総合的な性能比較を示す代表手法に関する総合的な実証的研究を行った。 実験結果は、デルタチューニングの組合せ、スケーリング、転送可能な特性の分析もカバーしている。

Despite the success, the process of fine-tuning large-scale PLMs brings prohibitive adaptation costs. In fact, fine-tuning all the parameters of a colossal model and retaining separate instances for different tasks are practically infeasible. This necessitates a new branch of research focusing on the parameter-efficient adaptation of PLMs, dubbed as delta tuning in this paper. In contrast with the standard fine-tuning, delta tuning only fine-tunes a small portion of the model parameters while keeping the rest untouched, largely reducing both the computation and storage costs. Recent studies have demonstrated that a series of delta tuning methods with distinct tuned parameter selection could achieve performance on a par with full-parameter fine-tuning, suggesting a new promising way of stimulating large-scale PLMs. In this paper, we first formally describe the problem of delta tuning and then comprehensively review recent delta tuning approaches. We also propose a unified categorization criterion that divide existing delta tuning methods into three groups: addition-based, specification-based, and reparameterization-b ased methods. Though initially proposed as an efficient method to steer large models, we believe that some of the fascinating evidence discovered along with delta tuning could help further reveal the mechanisms of PLMs and even deep neural networks. To this end, we discuss the theoretical principles underlying the effectiveness of delta tuning and propose frameworks to interpret delta tuning from the perspective of optimization and optimal control, respectively. Furthermore, we provide a holistic empirical study of representative methods, where results on over 100 NLP tasks demonstrate a comprehensive performance comparison of different approaches. The experimental results also cover the analysis of combinatorial, scaling and transferable properties of delta tuning.
翻訳日:2022-03-15 13:04:07 公開日:2022-03-14
# grips: 大きな言語モデルを促すためのグラデーションフリーで編集ベースの命令検索

GrIPS: Gradient-free, Edit-based Instruction Search for Prompting Large Language Models ( http://arxiv.org/abs/2203.07281v1 )

ライセンス: Link先を確認
Archiki Prasad, Peter Hase, Xiang Zhou, Mohit Bansal(参考訳) プロンプトでの自然言語命令の提供は、ゼロショット設定で大規模言語モデルのタスクパフォーマンスを改善するための有用な新しいパラダイムである。 最近の作業は、手動の書き換えやグラデーションベースのチューニングによって、このようなプロンプトを改善することを目的としている。 しかし、手動の書き直しには時間がかかり、主観的な解釈を必要とする一方で、勾配に基づくチューニングは大規模モデルに対して非常に計算的に要求され、APIベースのモデルでは利用できないモデルウェイトへの完全なアクセスを必要とする。 本研究では,大規模言語モデルのタスク命令を改善するために,グラデーションフリーな編集ベースの検索手法であるgrips(gradient-free instructional prompt search)を提案する。 GrIPSは人間用に設計された命令を受け取り、APIベースのチューニングを可能にしながら、改善された編集されたプロンプトを自動的に返します。 検索中の命令は、フレーズレベルでテキスト上の4つの操作(delete, add, swap, paraphrase)を使用して反復的に編集されます。 instructgptモデルでは、自然命令データセットから8つの分類タスクで平均タスクパフォーマンスを最大4.30ポイント改善する。 命令のみのプロンプトとkショットのサンプル+インストラクションプロンプトの両方の改善が見られます。 特に、GrIPSはMishra et al. (2022)のガイドラインに従って手書きの書き直しを上回り、利用可能な計算とデータ予算を制御しながら純粋にサンプルベースのプロンプトを上回ります。 最後に,複数スケールのGPTモデルで編集した命令の質的解析を行う。 私たちのコードは、https://github.com/a rchiki/GrIPSで利用可能です。

Providing natural language instructions in prompts is a useful new paradigm for improving task performance of large language models in a zero-shot setting. Recent work has aimed to improve such prompts via manual rewriting or gradient-based tuning. However, manual rewriting is time-consuming and requires subjective interpretation, while gradient-based tuning can be extremely computationally demanding for large models and requires full access to model weights, which may not be available for API-based models. In this work, we introduce Gradient-free Instructional Prompt Search (GrIPS), a gradient-free, edit-based search approach for improving task instructions for large language models. GrIPS takes in instructions designed for humans and automatically returns an improved, edited prompt, while allowing for API-based tuning. The instructions in our search are iteratively edited using four operations (delete, add, swap, paraphrase) on text at the phrase-level. With InstructGPT models, GrIPS improves the average task performance by up to 4.30 percentage points on eight classification tasks from the Natural-Instructions dataset. We see improvements for both instruction-only prompts and for k-shot example+instruction prompts. Notably, GrIPS outperforms manual rewriting following the guidelines in Mishra et al. (2022) and also outperforms purely example-based prompts while controlling for the available compute and data budget. Lastly, we provide qualitative analysis of the edited instructions across several scales of GPT models. Our code is available at: https://github.com/a rchiki/GrIPS
翻訳日:2022-03-15 13:03:40 公開日:2022-03-14
# 対戦相手によるマルコフゲーム学習:効率的なアルゴリズムと基本限界

Learning Markov Games with Adversarial Opponents: Efficient Algorithms and Fundamental Limits ( http://arxiv.org/abs/2203.06803v1 )

ライセンス: Link先を確認
Qinghua Liu, Yuanhao Wang, Chi Jin(参考訳) ゼロサムゲームにおける理想的な戦略は、プレイヤーにナッシュ均衡の値に劣らず平均的な報酬を与えるだけでなく、最適でないとき(適応的な)相手を利用することである。 マルコフゲームにおける既存の作業の多くは、以前の目的にのみ焦点をあてているが、両方の目的を同時に達成できるかどうかは不明だ。 この問題に対処するため,本研究は,マルコフゲームにおいて,最善の固定政策と後見で競う際,敵の対戦相手と対局しない学習について研究する。 そこで,本研究では,各エピソードの終わりに相手の方針が明らかにされると,(1)基本方針クラスが小さく,(2)相手の方針クラスが小さい場合に,$\sqrt{k}$-regret境界を達成する新しい効率的なアルゴリズムを提案する。 これは、どちらの条件も真でないとき指数的下限で補う。 相手の方針が明らかになっていない場合、上記の条件が真である場合に最も有利なシナリオであっても統計的に硬度の結果が証明される。 我々の硬度結果は、計算硬度のみを含む既存の硬度結果よりもはるかに強いか、アルゴリズムにさらなる制限を必要とする。

An ideal strategy in zero-sum games should not only grant the player an average reward no less than the value of Nash equilibrium, but also exploit the (adaptive) opponents when they are suboptimal. While most existing works in Markov games focus exclusively on the former objective, it remains open whether we can achieve both objectives simultaneously. To address this problem, this work studies no-regret learning in Markov games with adversarial opponents when competing against the best fixed policy in hindsight. Along this direction, we present a new complete set of positive and negative results: When the policies of the opponents are revealed at the end of each episode, we propose new efficient algorithms achieving $\sqrt{K}$-regret bounds when either (1) the baseline policy class is small or (2) the opponent's policy class is small. This is complemented with an exponential lower bound when neither conditions are true. When the policies of the opponents are not revealed, we prove a statistical hardness result even in the most favorable scenario when both above conditions are true. Our hardness result is much stronger than the existing hardness results which either only involve computational hardness, or require further restrictions on the algorithms.
翻訳日:2022-03-15 13:02:57 公開日:2022-03-14
# (参考訳) 背景マッチングを用いた適応型背景マッティング [全文訳有]

Adaptive Background Matting Using Background Matching ( http://arxiv.org/abs/2203.05193v2 )

ライセンス: CC BY 4.0
Jinlin Liu(参考訳) 畳み込み問題を解くのが難しいため、高品質なアルファマットを得るのにある種の支援を用いる方法が数多く存在する。 グリーンスクリーンのマットリングは物理機器に依存する。 トリマップベースの手法は、手動インタラクションを外部入力として扱う。 バックグラウンドベースのメソッドには、キャプチャ済みの静的なバックグラウンドが必要です。 この方法は柔軟性がなく、広く使えるほど便利ではない。 trimap-freeメソッドは柔軟だが、複雑なビデオアプリケーションでは安定していない。 実アプリケーションで安定かつ柔軟となるために,適応的背景マッチング法を提案する。 ユーザーはまずビデオを自由に撮影し、カメラを動かす。 その後、ユーザはバックグラウンドビデオをキャプチャし、約1つの領域をカバーした。 我々は静的背景ではなく動的背景映像を用いて正確なマッチングを行う。 静的カメラと背景がもはや制限にならないため,提案手法は任意のシーンで使用するのに便利である。 この目的を達成するために,動的背景から最適な背景フレームを見つけるために,背景マッチングネットワークを用いる。 次に、粗いアルファマットを推定するためにロバストな意味推定ネットワークを用いる。 最後に、粗いアルファマットに従って目標領域を収穫・拡大し、最終的な正確なアルファマットを推定する。 実験において,提案手法は最先端のマットング法に対して比較可能となる。

Due to the difficulty of solving the matting problem, lots of methods use some kinds of assistance to acquire high quality alpha matte. Green screen matting methods rely on physical equipment. Trimap-based methods take manual interactions as external input. Background-based methods require a pre-captured, static background. The methods are not flexible and convenient enough to use widely. Trimap-free methods are flexible but not stable in complicated video applications. To be stable and flexible in real applications, we propose an adaptive background matting method. The user first captures their videos freely, moving the cameras. Then the user captures the background video afterwards, roughly covering the previous captured regions. We use dynamic background video instead of static background for accurate matting. The proposed method is convenient to use in any scenes as the static camera and background is no more the limitation. To achieve this goal, we use background matching network to find the best-matched background frame by frame from dynamic backgrounds. Then, robust semantic estimation network is used to estimate the coarse alpha matte. Finally, we crop and zoom the target region according to the coarse alpha matte, and estimate the final accurate alpha matte. In experiments, the proposed method is able to perform comparably against the state-of-the-art matting methods.
翻訳日:2022-03-15 11:37:41 公開日:2022-03-14
# 幾何学的構造事前学習によるタンパク質表現学習

Protein Representation Learning by Geometric Structure Pretraining ( http://arxiv.org/abs/2203.06125v2 )

ライセンス: Link先を確認
Zuobai Zhang, Minghao Xu, Arian Jamasb, Vijil Chenthamarakshan, Aurelie Lozano, Payel Das, Jian Tang(参考訳) 効果的なタンパク質表現の学習は、タンパク質の機能や構造を予測するといった生物学の様々なタスクにおいて重要である。 既存のアプローチは通常、多くの未ラベルアミノ酸配列でタンパク質言語モデルを事前訓練し、下流のタスクでラベル付きデータでモデルを微調整する。 配列に基づくアプローチの有効性にもかかわらず、タンパク質機能の決定因子であることが知られているが、タンパク質特性予測のために、既知のタンパク質構造を少ない数で事前訓練する能力は研究されていない。 まず,タンパク質の幾何学的特徴を学習するための単純かつ効果的なエンコーダを提案する。 我々は、マルチビューコントラスト学習と異なる自己予測タスクを活用して、タンパク質グラフエンコーダを事前訓練する。 関数予測と折り畳み分類の両タスクの実験結果から,提案した事前学習法は,より少ないデータを用いた最先端のシーケンスベース手法と同等あるいは同等であることがわかった。 すべてのコードとモデルは受け入れ次第公開される。

Learning effective protein representations is critical in a variety of tasks in biology such as predicting protein function or structure. Existing approaches usually pretrain protein language models on a large number of unlabeled amino acid sequences and then finetune the models with some labeled data in downstream tasks. Despite the effectiveness of sequence-based approaches, the power of pretraining on smaller numbers of known protein structures has not been explored for protein property prediction, though protein structures are known to be determinants of protein function. We first present a simple yet effective encoder to learn protein geometry features. We pretrain the protein graph encoder by leveraging multiview contrastive learning and different self-prediction tasks. Experimental results on both function prediction and fold classification tasks show that our proposed pretraining methods outperform or are on par with the state-of-the-art sequence-based methods using much less data. All codes and models will be published upon acceptance.
翻訳日:2022-03-15 11:26:24 公開日:2022-03-14
# 視覚と言語ナビゲーションのためのクロスモーダルマップ学習

Cross-modal Map Learning for Vision and Language Navigation ( http://arxiv.org/abs/2203.05137v2 )

ライセンス: Link先を確認
Georgios Georgakis, Karl Schmeckpeper, Karan Wanchoo, Soham Dan, Eleni Miltsakaki, Dan Roth, Kostas Daniilidis(参考訳) VLN(Vision-and-Langu age Navigation)の問題点を考察する。 VLNの現在の手法の大部分は、LSTMのような非構造化メモリや、エージェントの自我中心的な観察に対する相互注意を用いて、エンドツーエンドで訓練されている。 他の作品と対照的に、我々の重要な洞察は、言語と視覚の間の関係は、明示的な空間表現において起こるときより強くなるということである。 本研究では,視覚・言語ナビゲーションのためのクロスモーダルマップ学習モデルを提案する。まず,観測領域と観測領域の両方において,エゴセントリックマップ上でトップダウンセマンティクスを予測し,次に目標に向かっての経路をルートポイントの集合として予測する。 どちらの場合も、予測は言語によってクロスモーダルアテンション機構を通じて通知される。 言語駆動ナビゲーションは地図から解けるという基本的な仮説を実験的に検証し、VLN-CEベンチマークで競合結果を示す。

We consider the problem of Vision-and-Language Navigation (VLN). The majority of current methods for VLN are trained end-to-end using either unstructured memory such as LSTM, or using cross-modal attention over the egocentric observations of the agent. In contrast to other works, our key insight is that the association between language and vision is stronger when it occurs in explicit spatial representations. In this work, we propose a cross-modal map learning model for vision-and-language navigation that first learns to predict the top-down semantics on an egocentric map for both observed and unobserved regions, and then predicts a path towards the goal as a set of waypoints. In both cases, the prediction is informed by the language through cross-modal attention mechanisms. We experimentally test the basic hypothesis that language-driven navigation can be solved given a map, and then show competitive results on the full VLN-CE benchmark.
翻訳日:2022-03-15 11:26:08 公開日:2022-03-14
# 誘惑を克服する: 時間的選択のためのインセンティブデザイン

Overcoming Temptation: Incentive Design For Intertemporal Choice ( http://arxiv.org/abs/2203.05782v2 )

ライセンス: Link先を確認
Shruthi Sukumar, Adrian F. Ward, Camden Elliott-Williams, Shabnam Hakimi, Michael C. Mozer(参考訳) 個人はしばしば、長期的目標から順応する誘惑に直面している。 私たちは、個人が適切な初期決定を行い、その決定を時間とともに維持するための介入を開発することに興味を持っています。 金融決定の領域では、特に成功したアプローチは、貯金口座であり、個人は貯金者にボーナスを与える定期的な宝くじに預金を結び付けることで預金を行うインセンティブを得ている。 これらの宝くじは、世界中のセーバーを動機付けるのに非常に効果的だが、一大のソリューションである。 ボーナスのカスタマイズがより効果的かどうか検討する。 我々は,遅延グレイトフィケーションタスクをマルコフ決定問題として定式化し,個人を時間的ディスカウント,努力に伴うコスト,意志力の変動に係わる合理的エージェントとして特徴づける。 我々の理論は、時間的選択において重要な行動的発見を説明できる。 我々はオンラインの遅延格子ゲームを作成し、プレイヤーは待ち行列を選択し、前へ進む一連のアクションを実行することでポイントを得点する。 ゲームから収集されたデータはモデルに適合し、インスタンス化されたモデルは、インセンティブの空間で予測されたプレイヤーのパフォーマンスを最適化するために使用される。 カスタマイズされたインセンティブ構造が個人の目標指向意思決定を改善することを実証する。

Individuals are often faced with temptations that can lead them astray from long-term goals. We're interested in developing interventions that steer individuals toward making good initial decisions and then maintaining those decisions over time. In the realm of financial decision making, a particularly successful approach is the prize-linked savings account: individuals are incentivized to make deposits by tying deposits to a periodic lottery that awards bonuses to the savers. Although these lotteries have been very effective in motivating savers across the globe, they are a one-size-fits-all solution. We investigate whether customized bonuses can be more effective. We formalize a delayed-gratificatio n task as a Markov decision problem and characterize individuals as rational agents subject to temporal discounting, a cost associated with effort, and fluctuations in willpower. Our theory is able to explain key behavioral findings in intertemporal choice. We created an online delayed-gratificatio n game in which the player scores points by selecting a queue to wait in and then performing a series of actions to advance to the front. Data collected from the game is fit to the model, and the instantiated model is then used to optimize predicted player performance over a space of incentives. We demonstrate that customized incentive structures can improve an individual's goal-directed decision making.
翻訳日:2022-03-15 11:25:50 公開日:2022-03-14
# 翻訳品質の自動評価のためのBERTScoreの新しい計算手法

A new approach to calculating BERTScore for automatic assessment of translation quality ( http://arxiv.org/abs/2203.05598v2 )

ライセンス: Link先を確認
A.A. Vetrov and E.A. Gorn(参考訳) bertscoreメトリックの適用性について検討し, 英語における文レベルの翻訳品質評価 ->ロシア語方向について検討した。 実験は、事前訓練された多言語BERTと、一対の単言語BERTモデルで実施された。 単言語埋め込みの調整にはアンカートークンに基づく直交変換が用いられた。 このような変換はミスマッチの防止に役立つことを実証し,多言語モデルの組込みよりも優れた結果が得られることを示した。 トークンマッチングプロセスを改善するために,すべての不完全なWorkPieceトークンを意味のある単語に結合し,対応するベクトルの簡易平均化とアンカートークンのみに基づくBERTScoreの計算を提案する。 このような修正により,モデル予測と人間の判断との相関性が向上した。 機械翻訳の評価に加えて, 数種類の人間翻訳も評価し, 本手法の問題点を列挙した。

The study of the applicability of the BERTScore metric was conducted to translation quality assessment at the sentence level for English -> Russian direction. Experiments were performed with a pre-trained Multilingual BERT as well as with a pair of Monolingual BERT models. To align monolingual embeddings, an orthogonal transformation based on anchor tokens was used. It was demonstrated that such transformation helps to prevent mismatching issue and shown that this approach gives better results than using embeddings of the Multilingual model. To improve the token matching process it is proposed to combine all incomplete WorkPiece tokens into meaningful words and use simple averaging of corresponding vectors and to calculate BERTScore based on anchor tokens only. Such modifications allowed us to achieve a better correlation of the model predictions with human judgments. In addition to evaluating machine translation, several versions of human translation were evaluated as well, the problems of this approach were listed.
翻訳日:2022-03-15 11:23:13 公開日:2022-03-14
# 高速MRIのためのV-NetとK-Netを用いたデュアルドメイン再構成ネットワーク

Dual-Domain Reconstruction Networks with V-Net and K-Net for fast MRI ( http://arxiv.org/abs/2203.05725v2 )

ライセンス: Link先を確認
Xiaohan Liu, Yanwei Pang, Ruiqi Jin, Yu Liu, Zhenchang Wang(参考訳) 目的: アンサンプされたk空間データから正確なMR画像再構成を行うために, V-Net と K-Net を用いた二重領域再構成ネットワークを導入する。 方法: 最先端の再構築手法の多くは、画像領域および/またはk空間領域にu-netまたはカスケードu-netを適用する。 Nevertheless, these methods have following problems: (1) Directly applying U-Net in k-space domain is not optimal for extracting features in k-space domain; (2) Classical image-domain oriented U-Net is heavy-weight and hence is inefficient to be cascaded many times for yielding good reconstruction accuracy; (3) Classical image-domain oriented U-Net does not fully make use information of encoder network for extracting features in decoder network; and (4) Existing methods are ineffective in simultaneously extracting and fusing features in image domain and its dual k-space domain. これらの問題に対処するために,(1)キャスケーディングの軽量化とデコードのための機能の完全活用に有効なV-Netという画像領域エンコーダ・デコーダサブネットワーク,(2)k空間領域の階層的特徴抽出に適したK-Netというk空間ドメインサブネットワーク,(3)V-NetとK-Netを並列かつ効果的に組み合わせたデュアルドメイン再構築ネットワークを提案する。 結果: 挑戦的な高速MRIデータセットに対する大規模な実験結果から,提案したKV-Netは高品質な画像を再構成し,パラメータが少なくて最先端のアプローチより優れていることが示された。 結論:不完全なk空間データから効率的に画像を再構成するために,K-NetとV-Netを組み合わせた並列二重領域KV-Netを提案する。 KV-Netは最先端の手法よりも軽量だが、再構築性能が向上している。

Purpose: To introduce a dual-domain reconstruction network with V-Net and K-Net for accurate MR image reconstruction from undersampled k-space data. Methods: Most state-of-the-art reconstruction methods apply U-Net or cascaded U-Nets in image domain and/or k-space domain. Nevertheless, these methods have following problems: (1) Directly applying U-Net in k-space domain is not optimal for extracting features in k-space domain; (2) Classical image-domain oriented U-Net is heavy-weight and hence is inefficient to be cascaded many times for yielding good reconstruction accuracy; (3) Classical image-domain oriented U-Net does not fully make use information of encoder network for extracting features in decoder network; and (4) Existing methods are ineffective in simultaneously extracting and fusing features in image domain and its dual k-space domain. To tackle these problems, we propose in this paper (1) an image-domain encoder-decoder sub-network called V-Net which is more light-weight for cascading and effective in fully utilizing features in the encoder for decoding, (2) a k-space domain sub-network called K-Net which is more suitable for extracting hierarchical features in k-space domain, and (3) a dual-domain reconstruction network where V-Nets and K-Nets are parallelly and effectively combined and cascaded. Results: Extensive experimental results on the challenging fastMRI dataset demonstrate that the proposed KV-Net can reconstruct high-quality images and outperform current state-of-the-art approaches with fewer parameters. Conclusions: To reconstruct images effectively and efficiently from incomplete k-space data, we have presented a parallel dual-domain KV-Net to combine K-Nets and V-Nets. The KV-Net is more lightweight than state-of-the-art methods but achieves better reconstruction performance.
翻訳日:2022-03-15 11:23:00 公開日:2022-03-14
# 久しぶりだ! 長期記憶を用いたオープンドメイン会話

Long Time No See! Open-Domain Conversation with Long-Term Persona Memory ( http://arxiv.org/abs/2203.05797v2 )

ライセンス: Link先を確認
Xinchao Xu, Zhibin Gou, Wenquan Wu, Zheng-Yu Niu, Hua Wu, Haifeng Wang, Shihang Wang(参考訳) オープンドメインの対話モデルのほとんどは、長期的なヒューマンボット会話の設定において、パフォーマンスが良くない傾向にある。 その理由は、長期対話履歴情報を理解し記憶する能力が欠けているからである。 この問題に対処するために、LuLeMon(Long-Term Memory Conversation)という新しいタスクを提示し、新しい対話データセットDuLeMonとLong-Term Memory(LTM)機構(PLATO-LTM)を備えた対話生成フレームワークを構築する。 このLTM機構により,モデル学習に複数の対話データセットを必要とすることなく,長期のペルソナメモリを正確に抽出し,継続的に更新することができる。 我々の知る限り、これはユーザーとボットを含む双方のペルソナ情報をリアルタイムに動的に管理する最初の試みである。 DuLeMon の結果,PLATO-LTM は長期対話の整合性においてベースラインを著しく上回り,対話性の向上につながることが示された。

Most of the open-domain dialogue models tend to perform poorly in the setting of long-term human-bot conversations. The possible reason is that they lack the capability of understanding and memorizing long-term dialogue history information. To address this issue, we present a novel task of Long-term Memory Conversation (LeMon) and then build a new dialogue dataset DuLeMon and a dialogue generation framework with Long-Term Memory (LTM) mechanism (called PLATO-LTM). This LTM mechanism enables our system to accurately extract and continuously update long-term persona memory without requiring multiple-session dialogue datasets for model training. To our knowledge, this is the first attempt to conduct real-time dynamic management of persona information of both parties, including the user and the bot. Results on DuLeMon indicate that PLATO-LTM can significantly outperform baselines in terms of long-term dialogue consistency, leading to better dialogue engagingness.
翻訳日:2022-03-15 11:22:28 公開日:2022-03-14
# 部分的シーンにおけるオブジェクトローカライズのための空間コモンセンスグラフ

Spatial Commonsense Graph for Object Localisation in Partial Scenes ( http://arxiv.org/abs/2203.05380v2 )

ライセンス: Link先を確認
Francesco Giuliari and Geri Skenderi and Marco Cristani and Yiming Wang and Alessio Del Bue(参考訳) 部分的なシーンにおける物体の局所化は、シーンの部分的な3Dスキャンにより、物体の未知の位置(例えば、バッグはどこにあるのか)を推定する新しい問題である。 提案手法は新たなシーングラフモデルであるSpatial Commonsense Graph (SCG) に基づいており、オブジェクトはノードであり、エッジは概念ノードとコモンセンス知識ベースからの関連性によって強化されたペアワイズ距離を定義する。 これにより、SCGは未知の3Dシーンに対して空間的推論をより一般化することができる。 The SCG is used to estimate the unknown position of the target object in two steps: first, we feed the SCG into a novel Proximity Prediction Network, a graph neural network that uses attention to perform distance prediction between the node representing the target object and the nodes representing the observed objects in the SCG; second, we propose a Localisation Module based on circular intersection to estimate the object position using all the predicted pairwise distances in order to be independent of any reference system. 提案手法は,部分的なシーンにおけるオブジェクトのローカライゼーションのための手法とベースラインをベンチマークするために,部分的に再構成されたシーンのデータセットを作成する。

We solve object localisation in partial scenes, a new problem of estimating the unknown position of an object (e.g. where is the bag?) given a partial 3D scan of a scene. The proposed solution is based on a novel scene graph model, the Spatial Commonsense Graph (SCG), where objects are the nodes and edges define pairwise distances between them, enriched by concept nodes and relationships from a commonsense knowledge base. This allows SCG to better generalise its spatial inference over unknown 3D scenes. The SCG is used to estimate the unknown position of the target object in two steps: first, we feed the SCG into a novel Proximity Prediction Network, a graph neural network that uses attention to perform distance prediction between the node representing the target object and the nodes representing the observed objects in the SCG; second, we propose a Localisation Module based on circular intersection to estimate the object position using all the predicted pairwise distances in order to be independent of any reference system. We create a new dataset of partially reconstructed scenes to benchmark our method and baselines for object localisation in partial scenes, where our proposed method achieves the best localisation performance.
翻訳日:2022-03-15 11:22:08 公開日:2022-03-14
# 3次元異常検出とセグメンテーションの実証的研究

An Empirical Investigation of 3D Anomaly Detection and Segmentation ( http://arxiv.org/abs/2203.05550v2 )

ライセンス: Link先を確認
Eliahu Horwitz, Yedid Hoshen(参考訳) 近年,画像の異常検出とセグメンテーションが著しく進展しているが,3d情報は無視されることが多い。 本研究の目的は,画像異常検出における色に対する3Dの利点と役割をより深く理解することである。 標準的な色のみの異常セグメンテーション手法が、3dデータセットに適用された場合、現在のすべての方法を大幅に上回っています。 一方,2次元から形状を曖昧に推測できない幾何学的異常を含む画像では,色のみの手法では不十分である。 これは、より良い3Dメソッドが必要であることを示唆している。 本研究では,3次元異常検出のための異なる表現について検討し,手作り方向不変表現が不当に有効であることを示す。 ディープラーニングや外部事前トレーニングデータセット、カラー情報を使用しずに、最新のアプローチをすべて上回る、シンプルな3dのみの方法を明らかにする。 3Dのみの手法では色とテクスチャの異常を検出できないため、2Dカラーの特徴と組み合わせることで、大きなマージンで最高の現在の結果が得られる(Pixel-wise ROCAUC: 99.2%、Pro: 95.9%、MVTec 3D-AD)。 最後に,3次元異常検出とセグメンテーションの今後の課題について論じる。

Anomaly detection and segmentation in images has made tremendous progress in recent years while 3D information has often been ignored. The objective of this paper is to further understand the benefit and role of 3D as opposed to color in image anomaly detection. Our study begins by presenting a surprising finding: standard color-only anomaly segmentation methods, when applied to 3D datasets, significantly outperform all current methods. On the other hand, we observe that color-only methods are insufficient for images containing geometric anomalies where shape cannot be unambiguously inferred from 2D. This suggests that better 3D methods are needed. We investigate different representations for 3D anomaly detection and discover that handcrafted orientation-invarian t representations are unreasonably effective on this task. We uncover a simple 3D-only method that outperforms all recent approaches while not using deep learning, external pretraining datasets, or color information. As the 3D-only method cannot detect color and texture anomalies, we combine it with 2D color features, granting us the best current results by a large margin (Pixel-wise ROCAUC: 99.2%, PRO: 95.9% on MVTec 3D-AD). We conclude by discussing future challenges for 3D anomaly detection and segmentation.
翻訳日:2022-03-15 11:21:50 公開日:2022-03-14